藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 大數據在營銷平臺與文本分析中的應用
大數據在營銷平臺與文本分析中的應用
>2022-05-12 09:00:00



大數據的理論及特征

胡春明:大數據在今天已經不是一個新鮮的詞匯。 不管以前是不是叫大數據,人們都是在用數據看世界。數據分析方法往往采用了統計學上的采樣法。 只要采樣方法在一些情況下足夠好,樣本數據就能足夠反應真實世界的特點。 從得到的樣本數據里面獲得知識, 采用的辦法是基于統計的分布, 或是假設檢驗等方法得到一些支持, 通過支持獲得預測。

大數據依賴的基礎是大量被記錄下來的數據。如買東西的記錄、訂房間的數據、攝像頭等傳感設備采集到的信息, 甚至人本身就是一種傳感設備。人們把看到的信息放在微博、微信上,讓這些信息被刻畫和傳播,如果這些數據不是采樣,而是全樣記錄,數據足夠大,就得到了多源的大數據集。 真實世界的“總體”我們無從制造,但在大數據時代,我們認為多源的大數據集合就代表了這個總體,這是大數據的“大”和原來的“小”之間是最根本的方面。

處理問題還是要回到現實可操作的層面,所以同樣對多元的大數據做預處理和重新采樣,得到特定問題相關的采樣。 通過以前數據挖掘的技術和學習方法, 可以在相關采樣數據集里發揮作用,得到基于模型的預測。

這個過程中可能面臨一系列問題。

第一個問題, 如何找到多源大數據集來代表總體。 在大數據中,我們覺得多源大數據集就代表了真實的世界, 但是在實際采樣的過程中,日志和數據可能有偏差。 例如,許多人經常用對網民的調查來代表社會大眾的態度,但是網民不一定能代表大眾群體,還有一群人不上網。 從這個角度來看,數據是不是真正接近全樣本、數據本身會不會在采樣中產生結構性的偏差,都是一個不容忽視的問題。

第二個問題,大數據大到我們處理不了,計算過程中就需要“把大數據變小”,這需要針對具體問題,在算法設計上更仔細地考慮。 降維可能面臨丟失重要維度的風險,如何降維是我們要考慮的問題。

第三個問題,如何從數據中尋找知識和進行預測。 預測的方法比之前的數據挖掘更進一步,盡管對問題做了重采樣, 得到了一個相對小的數據,但是這個小數據相對于以前做分析的數據還是很大,因此,需要在新的統計理論、數學工具、計算理論、設計方法和大數據分布式計算機基礎設施方面做一些工作,這就是今天為什么大數據得到學術界和產業界共同關注的原因。

目前普遍認為, 大數據具有 4 “V” 的特點,即Volume (大量 )、Variety (多樣 )、Velocity ( 高速 )、Value(價值)。 通過進一步研究,我們認為,從對大數據進行計算的角度來看,大數據計算還存在三個特征,我們稱為大數據計算的 3“I”特征。

第一個“I”是 Inexact(非精確),包括兩個層面:

第一個層面是今天做的很多計算本身并不需要那么精確,往往需要知道一個大的方向和態勢;另一個層面是我們面臨的環境沒有辦法做得那么精確,數據在不斷變化,新的數據不斷產生,沒有辦法得到穩定的視圖。 在滿足應用需求的前提下,放松結果的精度, 可能換取更快的處理速度、更小的計算開銷。 但在計算里堅持非精確的思路并不意味著隨便去做,仍然需要對質量做最基本的保證。

第二個“I”是 Incremental(增量性)。這個特征和大數據里的動態持續變化緊密相關。 因為數據是持續變化的,可能新來的數據占到歷史上所有數據積累的比例很小。 如果能夠把計算變得增量化,只針對新到來的、比較小的數據做計算,然后以可接受的計算代價, 把計算的結果融合到已有的計算結果里,這在一定程度上能實現“將大數據變小”,增強我們進行大數據計算的能力。 但增量不僅要求計算框架有特殊的支持,可能對算法本身也有一些要求,有一些問題是適合增量處理的,而有一些算法并不一定適合。 從這個角度看,可能要運用一些新的思想和方法來設計支持增量的算法, 同時, 在大規模的分布式計算系統中支持增量計算的處理。

第三個“I”是 Inductive(歸納性)。 大數據是多源融合的數據, 這些數據代表了現實世界,代表了統計學上所謂的 “總體”. 從這個角度看, 如果能夠把來自不同源的數據相互參照,不 但 可 以 彌 補 在 所 關 心 的 維 度 上 數 據 稀 疏 的問 題 ,同 時 還 可 以 通 過 多 源 數 據 的 參 照 ,在 一定程度上控制因為非精確計算帶來的誤差,幫助控制解的質量。

這就是從大數據計算角度總結的一些內容。 非精確性、增量性和多源數據之間的歸納性成為大數據設計系統和算法設計的重要參考。 大數據本身是一個交叉學科,是應用驅動的垂直整合,也是理論算法、分布式系統、數據挖掘和機器學習方法等諸多方面的整合。 從數據開放和標準化角度看,數據開放是構成大數據整個產業生態鏈的重要起點,開放數據有一些好的平臺。 開放數據、數據格式、數據語義的標準化將有助于我們建造一個更加豐富的大數據應用生態環境。

大數據的新應用

陶海亮:百度是中國重要的互聯網公司,其本身是一個大數據公司,因為做搜索引擎業務,因此必須要掌握大數據技術。 通過與很多行業、企業和政府的接觸, 我們發現大數據對一些行業的應用提出了很多挑戰,主要有三個方面:一是最底層數據存儲和計算的規模面臨挑戰;二是在大部分的傳統企業中,在數據的管理和挖掘技術方面比較缺乏;三是在大部分的傳統企業中, 機器學習和人工智能技術并不被 IT 人員所掌握。

百度在 4 月發布了百度大數據引擎戰略。 這個戰略是把百度多年積累的、 在大數據應用方面的技術能力開放出來,讓各行各業都可以使用。 大數據引擎包括了三個部分,最底層是開放云,可以理解為云計算,但是百度的云規模更大一些,因為有一些獨有的技術,包括低能耗的數據中心、分布式架構和智能化運維。開放云上層有數據工廠。數據工廠是新一代數據庫管理技術和挖掘方法。 數據工廠上層有一個最核心的百度技術,叫作“百度大腦”. 百度大腦已經達到了非常先進的程度,把深度學習的技術、超大規模學習能力和平臺都開放了出來。

百度管理的數據超過了 EB 級別。 每天新增的數據是 PB 級別,整體服務器超過了幾十萬臺,單集群達到上萬臺。 數據工廠提供了超大規模的數據查詢能力,單次查詢可以快速掃描上百個 TB數據。 數據庫在不同的應用場景下對性能的要求不一樣。 在大查詢、低并發的情況下強調數據的掃描速度,在高并發、小查詢的情況下強調并行服務能力,可以達到十萬的 QPS 指標。百度利用大數據的技術和能力開發了新的應用產品。 在搜索和廣告的業務外,還做了新的嘗試。

主要有以下幾個產品。

(1)旅游預測旅游預測有兩個部分:一是包括景點的預測,這是與旅游局和各地的旅游管理機構合作,基于他們的數據和百度的數據,可以對未來一周每一個旅游景點的人流情況進行預測;二是還可以基于旅游數據對城市旅游的出發地和目的地進行預測,這個預測結果對于旅行社和管理部門都很有價值。

(2)疾病預測通過中國疾病控制中心提供的數據,將這些數據與百度的數據相結合, 可以對全國 330 個地級市、2 800 個縣區的多種疾病發病態勢進行預測。 甚至在北、上、廣可以做到商圈級別,如在王府井某一種級別發病的態勢可以給出預測。

(3)指標預測百度每年有 50 萬的活躍企業客戶,遍布了 27個行業和所有省份。 百度每個季度、每個月都會發布一些相關的新的統計數據。 百度與中科院進行合作,通過中科院和百度數據的統計分析,可以預測中國的經濟走勢, 與統計局相關數據的指數相比較,得出宏觀數據的指標誤差很低,且時間比統計局提前了 3 個月。 這對于很多做經濟研究的學者來說會非常有幫助。 另外,目前中國統計中小工業企業的數據指標較少。 百度基于數據推出了中小企業的指標, 填補了國內中小企業景氣分析的空白,并做到了可以區分行業和不同的地域。

(4)百度司南百度司南是基于大數據的商業決策平臺, 能夠對市場格局進行定量研究,對消費者動態進行洞察,還可以直觀地給出媒體投放的策略, 為廣告主/代理商的廣告投放決策提供了非常有價值的量化數據。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观