首(shou)頁慕課課程(cheng)正文

高频彩票快3

  現如(ru)今,我們身(shen)邊很多人對(dui)一些(xie)熱(re)rang)諾de)新(xin)技術、新(xin)趨勢往往趨之若鶩(wu)卻又很難說(shuo)得透徹,比re)ru)大(da)數據,如(ru)果被(bei)問大(da)數據和你有(you)什麼關(guan)系,估(gu)計很少能(neng)說(shuo)出一huan)礎>科qi)原(yuan)因,一是(shi)因為大(da)家對(dui)新(xin)技術有(you)著相(xiang)同的(de)原(yuan)始渴shi)螅 遼僦 qi)然(ran),在聊天時不會顯得mei)塴巴簾睢保歡(huan)shi)在工(gong)作和生活(huo)環fang)持zhong),真正能(neng)參(can)與實踐的(de)大(da)數據案例實在太少了,所以大(da)家沒(mei)有(you)機會花時間去知其(qi)所以然(ran)。

  我希望有(you)些(xie)不一樣,所以對(dui)該如(ru)何去認(ren)識大(da)數據進行了一番思索,包括查(cha)閱了資料(liao),翻閱了最新(xin)的(de)專業(ye)書籍,但我並不想把(ba)那(na)些(xie)零散的(de)資料(liao)碎片或不同理解論述簡單(dan)規整並堆積起來形成毫無價值的(de)轉(zhuan)述或評論,我很真誠的(de)nan)M朧攣wu)探尋(xun)本(ben)質(zhi)。

  如(ru)果你說(shuo)大(da)數據就是(shi)數據大(da),或者侃侃而談(tan)4個V,也許很有(you)深度的(de)談(tan)到BI或預測的(de)價值,又或者拿Google和Amazon舉(ju)例,技術流可能(neng)會聊起Hadoop和Cloud Computing,不管對(dui)錯,只是(shi)無法勾勒對(dui)大(da)數據的(de)整體認(ren)識,不說(shuo)是(shi)片面,但至少有(you)些(xie)管窺蠡(li)測、隔衣(yi)瘙癢了。……也許,“解構”是(shi)qin)詈hao)的(de)方法。

  怎(zen)樣結構大(da)數據?

  首(shou)先,我認(ren)為大(da)數據就是(shi)互聯網發展到現今階段的(de)一種表象li)蛺卣鞫眩 mei)有(you)必要(yao)神話它或對(dui)它保持zhi)次分 模 諞栽萍撲鬮 dai)表的(de)技術創新(xin)大(da)幕(mu)的(de)襯(chen)托下,這些(xie)原(yuan)本(ben)很難收集和使(shi)用的(de)數據開始容(rong)易被(bei)利用起來了,通過各行各業(ye)的(de)不huan)洗蔥xin),大(da)數據會逐步為人類創造更(geng)多的(de)價值。

  其(qi)次,想要(yao)系統的(de)認(ren)知大(da)數據,必須要(yao)全面而細(xi)致的(de)分解它,我著手從三個層面來展開︰

  第一層面是(shi)理論,理論是(shi)認(ren)知的(de)必經途(tu)徑,也是(shi)被(bei)廣(guang)泛認(ren)同和傳播的(de)mu)摺N一崠喲da)數據的(de)特征定義理解行業(ye)對(dui)大(da)數據的(de)整體描繪和定性;從對(dui)大(da)數據價值的(de)探討來深入解析大(da)數據的(de)珍(zhen)貴所在;從對(dui)大(da)數據的(de)nan)衷諍臀蠢慈?聰?da)數據的(de)發展趨勢;從大(da)數據隱(yin)私這個特別(bie)而重要(yao)的(de)視角(jiao)審(shen)視人和數據之間的(de)長久博弈(yi)。

  第二層面是(shi)技術,技術是(shi)大(da)數據價值體現的(de)手段和前進的(de)mu) N醫jiang)分別(bie)從雲計算、分布式處理技術、存儲技術和感知技術的(de)發展gu)此(ci)得鞔da)數據從采(cai)集、處理、存儲到形成結果的(de)整個過程(cheng)。

  第三層面是(shi)實踐,實踐是(shi)大(da)數據的(de)最終(zhong)價值體現。我將(jiang)分別(bie)從互聯網的(de)大(da)數據,政府的(de)大(da)數據,企(qi)業(ye)的(de)大(da)數據和個人shuo)拇da)數據四個方面來描繪大(da)數據已經展現的(de)美好(hao)景象及(ji)即將(jiang)實現的(de)藍圖。

  和大(da)數據相(xiang)關(guan)的(de)理論

   特征定義

  最早提出大(da)數據時代(dai)到來的(de)是(shi)麥肯錫︰“數據,已經滲透到當今每一個行業(ye)和業(ye)務職能(neng)領(ling)域(yu),成為重要(yao)的(de)生產因素。人們對(dui)于海量數據的(de)挖掘和運用,預示著新(xin)一波生產率增長和消(xiao)費者盈余浪潮(chao)的(de)到來。”

  業(ye)界(IBM 最早定義)將(jiang)大(da)數據的(de)特征歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說(shuo)特點有(you)四個層面︰第一,數據體量巨(ju)大(da)。大(da)數據的(de)起始計量單(dan)位至少是(shi)P(1000個T)、E(100萬個T)或Z(10億(yi)個T);第二,數據類型繁多。比re)ru),網絡日志(zhi)、視頻(pin)、圖片、地理位置信(xin)息等(deng)等(deng)qu)5諶 壑得mi)度低,商業(ye)價值高。第四,處理速度快。最後(hou)這一點也是(shi)和傳統的(de)數據挖掘技術有(you)著本(ben)質(zhi)的(de)不同。

  其(qi)實這些(xie)V並不能(neng)真正說(shuo)清楚大(da)數據的(de)所有(you)特征,下面這張圖對(dui)大(da)數據的(de)一些(xie)相(xiang)關(guan)特性zai)齔雋擻you)效的(de)說(shuo)明。

  古(gu)語雲︰三分技術,七分zhi)藎 檬菡叩錳煜隆O炔宦鬯shui)說(shuo)的(de),但是(shi)這句(ju)話的(de)正確性已經不用去論證(zheng)了。維(wei)克(ke)song)小?醵舍恩伯格在《大(da)數據時代(dai)》一書中(zhong)舉(ju)了百般例證(zheng),都是(shi)為了說(shuo)明一個道理︰在大(da)數據時代(dai)已經到來的(de)時候要(yao)用大(da)數據思維(wei)去發掘大(da)數據的(de)na)痹詡壑怠J櫓zhong),作者提及(ji)最多的(de)是(shi)Google如(ru)何利用人們的(de)搜索記錄挖掘數據二次利用價值,比re)ru)預測某地流感爆發的(de)na)魘Amazon如(ru)何利用用mei)?de)購買和瀏(liu)覽歷史(shi)數據進行有(you)針對(dui)性的(de)書籍購買推薦,以此(ci)有(you)效提升銷售量;Farecast如(ru)何利用過去十年所有(you)的(de)航線機票價格打(da)折數據,來預測用mei)?郝蚧鋇de)時bei)shi)否合適。

  那(na)麼,什麼是(shi)大(da)數據思維(wei)?維(wei)克(ke)song)小?醵舍恩伯格認(ren)為,1-需要(yao)全部數據樣本(ben)而不是(shi)抽樣;2-關(guan)注效率而不是(shi)精確度;3-關(guan)注相(xiang)關(guan)性而不是(shi)因果關(guan)系。

  阿(a)里巴巴的(de)王堅對(dui)于大(da)數據也有(you)一些(xie)獨特的(de)見解,比re)ru),

  “今天的(de)數據不是(shi)大(da),真正有(you)意思的(de)是(shi)數據變得在線了,這個恰恰是(shi)互聯網的(de)特點。”

  “非(fei)互聯網時期(qi)的(de)產品,功能(neng)一huan)ㄊshi)它的(de)價值,今天互聯網的(de)產品,數據一huan)ㄊshi)它的(de)價值。”

  “你千萬不要(yao)想著拿數據去改進一個業(ye)務,這不是(shi)大(da)數據。你一huan)ㄊshi)去做了一件以前做不了shuo)氖慮欏!/p>

  特別(bie)是(shi)qin)詈hou)一點,我是(shi)非(fei)常認(ren)同的(de),大(da)數據的(de)真正價值在于創造,在于填補無數個還未實現過的(de)空白。

  有(you)人把(ba)數據比喻為蘊藏能(neng)量的(de)煤(mei)礦(kuang)。煤(mei)炭按照zhao)災zhi)有(you)焦煤(mei)、無煙煤(mei)、肥煤(mei)、貧煤(mei)等(deng)分類,而露天煤(mei)礦(kuang)、深山煤(mei)礦(kuang)的(de)挖掘成本(ben)又不一樣。與此(ci)類似,大(da)數據並不在“大(da)”,而在于“有(you)用”。價值含量、挖掘成本(ben)比數量更(geng)為重要(yao)。

   價值探討

  大(da)數據是(shi)什麼?投資者眼里是(shi)金光(guang)閃閃的(de)兩(liang)個字︰資產。比re)ru),Facebook上市(shi)時,評估(gu)機構評定的(de)有(you)效資產中(zhong)大(da)部分都是(shi)其(qi)社交網站上的(de)數據。

  如(ru)果把(ba)大(da)數據比作一種產業(ye),那(na)麼這種產業(ye)實現盈利的(de)關(guan)鍵,在于提高對(dui)數據的(de)“加工(gong)能(neng)力”,通過“加工(gong)”實現zhi)蕕de)“增值”。

  Target 超市(shi)以20多種懷孕期(qi)間孕婦可能(neng)會購買的(de)商品為基礎,將(jiang)所有(you)用mei)?de)購買記錄作為數據來源,通過構建模型分析購買者的(de)行為相(xiang)關(guan)性,能(neng)準確的(de)推斷出孕婦jing)de)具體臨盆時間,這樣Target的(de)nan)鄄棵啪涂梢雜(za)姓?dui)的(de)在每個懷孕顧(gu)客(ke)的(de)不同階段寄送(song)相(xiang)應的(de)產品優惠卷(juan)。

  Target的(de)例子you)且桓齪艿湫偷de)案例,這樣印(yin)證(zheng)了維(wei)克(ke)song)小?醵舍恩伯格提過的(de)一個很有(you)指導意義的(de)觀點︰通過找出一個關(guan)聯物(wu)並監控它,就可以預測未來。Target通過監測購買者購買商品的(de)時間和品種來準確預測顧(gu)客(ke)的(de)孕期(qi),這就是(shi)對(dui)數據的(de)二次利用的(de)典型案例。如(ru)果,我們通過采(cai)集駕駛員(yuan)手機的(de)GPS數據,就可以分析出當前哪些(xie)道路正在堵車,並可以及(ji)時發布道路交通提醒;通過采(cai)集汽車的(de)GPS位置數據,就可以分析城市(shi)的(de)哪些(xie)區域(yu)停車較多,這也代(dai)表該區域(yu)有(you)著較為活(huo)躍(yue)的(de)人群(qun),這些(xie)分析數據適合賣給廣(guang)告投放商。

  不管大(da)數據的(de)核心價值是(shi)不是(shi)預測,但是(shi)基于大(da)數據形成決策的(de)模式已經為不少的(de)企(qi)業(ye)帶來了盈利和聲譽(yu)。

  從大(da)數據的(de)價值鏈條來分析,存在三種模式︰

  1- 手握大(da)數據,但是(shi)沒(mei)有(you)利用mei)比較典型的(de)是(shi)金融機構,電信(xin)行業(ye),政府機構等(deng)qu)/p>

  2- 沒(mei)有(you)數據,但是(shi)知道如(ru)何幫助(zhu)有(you)數據的(de)人利用它;比較典型的(de)是(shi)IT咨(zi)詢(xun)和服務企(qi)業(ye),比re)ru),埃森哲,IBM,Oracle等(deng)qu)/p>

  3- 既有(you)數據,又有(you)大(da)數據思維(wei);比較典型的(de)是(shi)Google,Amazon,Mastercard等(deng)qu)/p>

  未來在大(da)數據領(ling)域(yu)最具有(you)價值的(de)是(shi)兩(liang)種zhi)攣wu)︰1-擁(yong)有(you)大(da)數據思維(wei)的(de)人,這種人可以將(jiang)大(da)數據的(de)na)痹詡壑底zhuan)化(hua)為實際利益;2-還未有(you)被(bei)大(da)數據觸(chu)及(ji)過的(de)業(ye)務領(ling)域(yu)。這些(xie)是(shi)還未被(bei)挖掘的(de)油tu)  鸝kuang),是(shi)所謂的(de)藍海。

  Wal-Mart作為零售行業(ye)的(de)巨(ju)頭,他們的(de)分析人員(yuan)會對(dui)每個階段的(de)nan)奐鍬冀辛巳 嫻de)分析,有(you)一次他們無意中(zhong)發現雖(sui)不相(xiang)關(guan)但很有(you)價值的(de)數據,在美國(guo)的(de)颶風來臨季節,超市(shi)的(de)蛋撻和抵御颶風物(wu)品fang)谷ran)銷量都有(you)大(da)幅增加,于是(shi)他們qin)雋艘桓雒髦薔霾擼 褪shi)將(jiang)蛋撻的(de)nan)畚恢靡頻(pin)攪遂 縹wu)品銷售區域(yu)旁yuan)擼 雌鵠詞shi)為了方便用mei) tao)選,但是(shi)沒(mei)有(you)想到蛋撻的(de)nan)懇虼ci)又提高了很多。

  還有(you)一個有(you)趣的(de)例子,1948年遼沈戰役(yi)期(qi)間,司(si)令員(yuan)林彪要(yao)求每天要(yao)進行例常的(de)“每日軍情匯報”,由值班參(can)謀讀出下屬(shu)各個縱隊yin)?Α?龐玫縑  嫻de)當日戰況和繳獲情況。那(na)幾乎是(shi)重復著千篇一律枯燥無味的(de)數據︰hao)恐?慷蛹叩di)多少、俘(fu)虜多少;繳獲的(de)mu)   盜徑嗌  qiang)支、物(wu)資多少……有(you)一天,參(can)謀照例匯報當日的(de)戰況,林彪突然(ran)打(da)斷他︰“剛才念的(de)在胡(hu)家窩ya)錟na)個戰斗的(de)繳獲,你們听(ting)到了嗎?”大(da)家都很茫然(ran),因為如(ru)此(ci)戰斗每天都有(you)幾十起,不huan)際shi)差不huan)嘁荒R謊de)枯燥數字嗎?林彪掃視一周,見無人回(hui)答,便接連問了三句(ju)︰“為什麼那(na)里繳獲的(de)短槍(qiang)與長槍(qiang)的(de)比例比其(qi)它戰斗fang)願”“為什麼那(na)里繳獲和擊毀的(de)小車與大(da)車的(de)比例比其(qi)它戰斗fang)願”“為什麼在那(na)里俘(fu)虜和擊斃的(de)軍官與士兵(bing)的(de)比例比其(qi)它戰斗fang)願”林彪司(si)令員(yuan)大(da)步走向掛yi)玫贗嫉de)na)獎bi),指著地圖上的(de)那(na)個點說(shuo)︰“我猜想,不,我斷定!敵(di)人shuo)鬧富鈾馱謖飫”果然(ran),部隊很快就抓(zhua)住了shuo)di)方的(de)指揮官廖耀湘,並取(qu)得這場重要(yao)戰役(yi)的(de)勝利。

  這些(xie)例子真實的(de)反映在各行各業(ye),探jiao)笫菁壑等(deng)qu)決于把(ba)握數據的(de)人,關(guan)鍵是(shi)人shuo)氖菟嘉wei);與其(qi)說(shuo)是(shi)大(da)數據創造了價值,不如(ru)說(shuo)是(shi)大(da)數據思維(wei)觸(chu)發了新(xin)的(de)價值增長。

   現在和未來

  我們先看看大(da)數據在當下有(you)怎(zen)樣的(de)杰(jie)出表現︰

  大(da)數據幫助(zhu)政府實現zhi)諧【 ji)調控、公共can)郎踩 婪丁(ding) 幟言? ?緇嵊唄奐嘍du);

  大(da)數據幫助(zhu)城市(shi)預防犯罪(zui),實現智慧(hui)交通,提升緊急應急能(neng)力;

  大(da)數據幫助(zhu)醫療機構建立患者的(de)疾病風險跟蹤(zong)機制,幫助(zhu)醫藥企(qi)業(ye)提升藥品的(de)臨床使(shi)用效果,幫助(zhu)艾(ai)滋病研究機構為患者提供定制pin)囊┤wu);

  大(da)數據幫助(zhu)航空公司(si)節省運營成本(ben),幫助(zhu)電信(xin)企(qi)業(ye)實現zhi)酆hou)服務質(zhi)量提升,幫助(zhu)保險企(qi)業(ye)識別(bie)欺詐騙(pian)保行為,幫助(zhu)快遞公司(si)監測分析運輸車輛jing)de)故障險情以提前預警維(wei)修,幫助(zhu)電力公司(si)有(you)效識別(bie)預警即將(jiang)發生故障的(de)設備;

  大(da)數據幫助(zhu)電商公司(si)向用mei) 萍鏨唐泛頭瘢 鎦zhu)旅游網站為旅游者提供心儀的(de)旅游路線,幫助(zhu)二手zhi)諧〉de)買賣雙方找ye)階詈鮮實de)交易目標,幫助(zhu)用mei)?業(ye)階詈鮮實de)商品購買時期(qi)、商家和最優惠價格;

  大(da)數據幫助(zhu)企(qi)業(ye)提升營銷的(de)針對(dui)性,降低物(wu)流和庫存的(de)成本(ben),減少投資的(de)風險,以及(ji)幫助(zhu)企(qi)業(ye)提升廣(guang)告投放精準度;

  大(da)數據幫助(zhu)娛樂zhong)幸ye)預測歌手,歌曲,電影,電視劇的(de)受歡(huan)迎程(cheng)度,並為投資者分析評估(gu)拍一部電影需要(yao)投入多少錢才最合適,否則就有(you)可能(neng)收不回(hui)成本(ben);

  大(da)數據幫助(zhu)社交網站提供更(geng)準確的(de)好(hao)友(you)推薦,為用mei)  └geng)精準的(de)企(qi)業(ye)招(zhao)聘信(xin)息,向用mei) 萍隹贍neng)喜(xi)歡(huan)的(de)游戲(xi)以及(ji)適合購買的(de)商品。

  其(qi)實,這些(xie)還遠dui)恫還唬 蠢創da)數據的(de)身(shen)影應該無處不在,就算無法準確預測大(da)數據終(zhong)會將(jiang)人類社會帶往到哪種最終(zhong)zhao)翁   蟻xiang)信(xin)只要(yao)發展腳步在繼續,因大(da)數據而產生的(de)變革(ge)浪潮(chao)將(jiang)很快淹沒(mei)地球的(de)每一個角(jiao)落。

  比re)ru),Amazon的(de)最終(zhong)期(qi)望是(shi)︰“最成功的(de)書籍推薦應該只有(you)一本(ben)書,就是(shi)用mei)?yao)買的(de)nan)亂槐ben)書。”

  Google也希望當用mei)?謁閹魘保 詈hao)的(de)體驗是(shi)搜索結果只包含用mei) 枰yao)的(de)內容(rong),而這並不需要(yao)用mei)?oogle太多的(de)提示。

  而當物(wu)聯網發展到達(da)一huan) 婺J保 柚zhu)條形碼、二維(wei)碼、RFID等(deng)能(neng)夠唯一標識產品,傳感器、可穿戴設備、智能(neng)感知、視頻(pin)采(cai)集、增強現zhi)檔deng)ran)際蹩墑迪質(zhi)凳鋇de)信(xin)息采(cai)集和分析,這些(xie)數據能(neng)夠支撐智慧(hui)城市(shi),智慧(hui)交通,智慧(hui)能(neng)源,智慧(hui)醫療,智慧(hui)環保的(de)理念需要(yao),這些(xie)都所謂的(de)智慧(hui)將(jiang)是(shi)大(da)數據的(de)采(cai)集數據來源和服務範圍。

  未來的(de)大(da)數據除了將(jiang)更(geng)好(hao)的(de)解決社會問題,商業(ye)營銷問題,科學(xue)技術問題,還有(you)一個可預見的(de)na)魘剖shi)以人為本(ben)的(de)大(da)數據方針。人才是(shi)地球的(de)主宰(zai),大(da)部分的(de)數據都與人類有(you)關(guan),要(yao)通過大(da)數據解決人shuo)奈侍狻/p>

  比re)ru),建立個人shuo)氖 zhong)心,將(jiang)每個人shuo)娜粘Ihuo)習慣,身(shen)體體征,社會網絡,知識能(neng)力,愛好(hao)性情,疾病嗜(shi)qun)茫 樾韃 dong)……換言之就是(shi)記錄人從出生那(na)一刻起的(de)每一分每一秒(miao),將(jiang)除了思維(wei)外(wai)的(de)一切都儲存下來,這些(xie)數據可以yuan)懷浞值de)利用︰

  醫療機構將(jiang)實時的(de)監測用mei)?de)身(shen)體健康狀況;

  教育機構更(geng)有(you)針對(dui)的(de)制定用mei) xi)歡(huan)的(de)教育培(pei)訓(xun)計劃;

  服務行業(ye)為用mei)  ┘詞苯】檔de)符(fu)合用mei) huo)習慣的(de)食物(wu)和其(qi)它服務;

  社交網絡能(neng)為你提供合適的(de)交友(you)xun)韻螅 ? zhi)同道合的(de)人群(qun)組(zu)織(zhi)各種zhi)芻嶧huo)動(dong);

  政府能(neng)在用mei)?de)心理健康出現問題時有(you)效的(de)干(gan)預,防範自殺,刑事案件的(de)發生;

  金融機構能(neng)幫助(zhu)用mei)?杏you)效的(de)理財(cai)管理,為用mei)?de)資金提供更(geng)有(you)效的(de)使(shi)用建議和規劃;

  道路交通、汽車租賃及(ji)運輸行業(ye)可以為用mei)  └geng)合適的(de)出行線路和路途(tu)服務安排(pai);

  ……

  當然(ran),上面的(de)一切看起來都很美好(hao),但是(shi)否是(shi)以犧牲了用mei)?de)自za)晌 疤崮只能(neng)說(shuo)當新(xin)鮮事物(wu)帶來了革(ge)新(xin)的(de)同時也同樣帶來了“病菌(jun)”。比re)ru),在手機未普及(ji)前,大(da)家喜(xi)歡(huan)聚在一起聊天,自從you)只佔ji)後(hou)特別(bie)是(shi)有(you)了互聯網,大(da)家不用聚在一起也可以隨(sui)時隨(sui)地的(de)聊天,只是(shi)“病菌(jun)”滋生了si)磽wai)一種情形,大(da)家yi)骯 撕褪只捕墑憊guang),人與人之間情感交流仿(fang)佛永遠隔著一張“網”。

   大(da)數據隱(yin)私

  你或許並不敏感,當你在不同的(de)網站上注冊了個人信(xin)息後(hou),可能(neng)這些(xie)信(xin)息已經被(bei)擴散出去了,當你莫名其(qi)妙的(de)接yong)礁髦鐘you)件,電話,短信(xin)的(de)滋擾時,你不會想到自己的(de)電話號碼,郵(you)箱,生日,購買記錄,收入水平,家庭住址,親(qin)朋(peng)好(hao)友(you)等(deng)私人信(xin)息早就被(bei)各種商業(ye)機構非(fei)法存儲或賤(jian)賣給其(qi)它任(ren)何有(you)需要(yao)的(de)企(qi)業(ye)或個人si)恕/p>

  更(geng)可怕的(de)是(shi),這些(xie)信(xin)息你永遠無法刪除,它們永遠存在于互聯網的(de)某些(xie)你不知道lai)慕jiao)落。除非(fei)你更(geng)換掉(diao)自己的(de)所有(you)信(xin)息,但是(shi)這代(dai)價太大(da)了。

  用mei)?yin)私問題一直是(shi)大(da)數據應用難以繞開的(de)一個問題,如(ru)被(bei)央視曝(pu)光(guang)過的(de)分眾無線、羅維(wei)鄧(deng)白氏以及(ji)網易郵(you)箱都涉及(ji)侵犯用mei)?yin)私。目前,中(zhong)國(guo)並沒(mei)有(you)專門的(de)法律法規來界定用mei)?yin)私,處理相(xiang)關(guan)問題時多采(cai)用其(qi)他相(xiang)關(guan)法規條例來解釋。但隨(sui)著民眾隱(yin)私意識的(de)日益增強,合xi) 瞎嫻鞀袢qu)數據、分析數據和應用數據,是(shi)進行大(da)數據分析時必須遵循的(de)原(yuan)則。

  說(shuo)到隱(yin)私被(bei)侵犯,愛德華斯gu)檔怯Ω謎季菀幌xi)之地,這位前美國(guo)中(zhong)央情報局(CIA)雇員(yuan)一手引爆了美國(guo)“稜鏡(jing)計劃”(PRISM)的(de)內幕(mu)消(xiao)息。“稜鏡(jing)”項(xiang)目是(shi)一項(xiang)由美國(guo)國(guo)家安全局(NSA)自2007年起開始實施的(de)絕密(mi)電子監听(ting)計劃,年耗資近2000億(yi)美元,用于監听(ting)全美lai)緇巴 凹鍬跡 莩隻箍梢允shi)情報人員(yuan)通過“後(hou)門”進入9家主要(yao)科技公司(si)的(de)服務器,包括微軟、雅(ya)虎、谷歌、Facebook、PalTalk、美國(guo)在線、Skype、YouTube、隻果。這個事件引發了人們對(dui)政府使(shi)用大(da)數據時對(dui)公民隱(yin)私jiao)址傅de)擔心。

  再看看我們身(shen)邊,當微博,微信(xin),QQ空間這些(xie)社交平台肆(si)意的(de)吞噬著數億(yi)用mei)?de)各種zhong)畔?保 憔筒灰yao)指望你還有(you)隱(yin)私權了,就算你在某個地方刪除了,但也許這些(xie)信(xin)息已經被(bei)其(qi)他人轉(zhuan)載(zai)或保存了,更(geng)有(you)可能(neng)已經被(bei)百度ran)oogle存為快照,早就提供給任(ren)意用mei) 閹髁恕/p>

  因此(ci)在大(da)數據的(de)背景下,很多人都在積極的(de)抵制無底線的(de)數字化(hua),這種大(da)數據和個體之間的(de)博弈(yi)mu)夠嵋恢奔絛氯? /p>

  專家給予了我們一些(xie)如(ru)何有(you)效保護大(da)數據背景下隱(yin)私權的(de)建議︰1-減少信(xin)息的(de)數字化(hua);2-隱(yin)私權立法;3-數字隱(yin)私權基礎設施(類似DRM數字版(ban)權管理);4-人類改變認(ren)知(接you)芎雎怨;5-創造良性的(de)信(xin)息生態;6-語境化(hua)。

  但是(shi)這些(xie)都很難立即見效或者有(you)實質(zhi)性的(de)改善(shan)。

  比re)ru),現在有(you)一種職業(ye)叫刪帖人,專門負責幫人shuo)礁鞔da)網站刪帖,刪除評論。其(qi)實這些(xie)人si)褪shi)通過黑客(ke)技術侵入各大(da)網站,破獲管理員(yuan)的(de)密(mi)碼然(ran)後(hou)進行手工(gong)定向刪除。只不過他們保護的(de)不是(shi)客(ke)戶的(de)隱(yin)私,而大(da)多是(shi)丑聞(wen)。還有(you)一種職業(ye)叫人肉專家,他們負責從互聯網上找ye)揭桓  歉ben)就無關(guan)系用mei)?de)任(ren)意信(xin)息。這是(shi)很可怕的(de)事情,也就是(shi)說(shuo),如(ru)果有(you)人想找ye)僥悖 恍枰yao)兩(liang)個條件︰1-你上過網,留下過痕跡;2-你的(de)na)著peng)好(hao)友(you)或僅僅是(shi)認(ren)識你的(de)人上過網,留下過你的(de)痕跡。這兩(liang)個條件滿足其(qi)一,人肉專家就可以很輕松的(de)找ye)僥悖 贍neng)還知道你現在正在某個餐廳和誰(shui)一起共進晚餐。

  當很多互聯網企(qi)業(ye)意識到隱(yin)私對(dui)于用mei)?de)重要(yao)性時,為了繼續得到用mei)?de)信(xin)任(ren),他們采(cai)取(qu)了很多辦法,比re)ru)google承xin)到霰A粲沒(mei)?de)搜索記錄9個月,瀏(liu)覽器廠商提供了無痕沖(chong)浪模式,社交網站拒(ju)絕公共搜索引擎的(de)爬蟲進入,並將(jiang)提供出去的(de)數據全部采(cai)取(qu)匿名方式處理等(deng)qu)/p>

  在這種復雜(za)yong)幕(mu)肪(fang)忱錈媯 芏噯艘yi)然(ran)沒(mei)有(you)建立對(dui)于信(xin)息隱(yin)私的(de)保護意識,讓(rang)自己一直處于被(bei)滋擾,被(bei)精心設計,被(bei)利用,被(bei)監視yong)拇 持zhong)。可是(shi),我們能(neng)做的(de)幾乎微乎其(qi)微,因為個人隱(yin)私數據已經無法由我們qin)約赫瓶亓耍 拖褚皇shou)詩(shi)里說(shuo)到的(de)︰“如(ru)果你現在繼續麻木,那(na)就別(bie)指望這麻木能(neng)抵擋得住被(bei)”扒qiang)狻蹦na)一刻的(de)驚恐和tu)  /p>

  和大(da)數據相(xiang)關(guan)的(de)技術

   雲技術

  大(da)數據常和雲計算聯系到一起,因為實時的(de)大(da)型數據集分析需要(yao)分布式處理框架來向數十、數百或甚至數萬的(de)電腦分配工(gong)作。可以說(shuo),雲計算充當了工(gong)業(ye)革(ge)命時期(qi)的(de)發動(dong)機的(de)角(jiao)色(se),而大(da)數據則是(shi)電。

  雲計算思想的(de)起源是(shi)麥卡(ka)錫在上世紀60年代(dai)提出的(de)︰把(ba)計算能(neng)力作為一種像水和電一樣的(de)公用事業(ye)提供給用mei)?/p>

  如(ru)今,在Google、Amazon、Facebook等(deng)一批(pi)互聯網企(qi)業(ye)引領(ling)下,一種zhong)兄 you)效的(de)模式出現了︰雲計算提供基礎架構平台,大(da)數據應用運行在這個平台上。

  業(ye)內是(shi)這麼形容(rong)兩(liang)者的(de)關(guan)系︰hao)mei)有(you)大(da)數據的(de)信(xin)息積澱,則雲計算的(de)計算能(neng)力再強大(da),也難以找ye)接夢渲 沒(mei)有(you)雲計算的(de)處理能(neng)力,則大(da)數據的(de)信(xin)息積澱再豐富,也cang)站恐皇shi)鏡(jing)花水月。

  那(na)麼大(da)數據到底需要(yao)哪些(xie)雲計算技術呢?

  這里暫且列舉(ju)一些(xie),比re)ru)虛擬化(hua)技術,分布式處理技術,海量數據的(de)存儲和管理技術,NoSQL、實時流數據處理、智能(neng)分析技術(類似模式識別(bie)以及(ji)自然(ran)語言理解)等(deng)qu)/p>

  雲計算和大(da)數據之間的(de)關(guan)系可以za)孟旅嫻de)一張圖來ci)得鰨 liang)者之間結合後(hou)li)岵ru)下效應︰可以提供更(geng)多基于海量業(ye)務數據的(de)創新(xin)型服務;通過雲計算技術的(de)不huan)戲(xi) 菇檔痛da)數據業(ye)務的(de)創新(xin)成本(ben)。

  如(ru)果將(jiang)雲計算與大(da)數據進行一些(xie)比較,最明顯的(de)na)衷諏liang)個方面︰

  第一,在概念上兩(liang)者有(you)所不同,雲計算改變了IT,而大(da)數據則改變了業(ye)務。然(ran)而大(da)數據必須有(you)雲作為基礎架構,才能(neng)得以順暢(chang)運營。

  第二,大(da)數據和雲計算的(de)目標受眾不同,雲計算是(shi)CIO等(deng)關(guan)心的(de)技術層,是(shi)一個進階的(de)IT解決方案。而大(da)數據是(shi)CEO關(guan)注的(de)、是(shi)業(ye)務層的(de)產品,而大(da)數據的(de)決策者是(shi)業(ye)務層。

   分布式處理技術

  分布式處理系統可以將(jiang)不同地點的(de)mu)蚓哂you)不同功能(neng)的(de)mu)蠐yong)有(you)不同數據的(de)多台計算機用通信(xin)網絡連接起來,在控制系統的(de)統一管理控制下,協調地完(wan)成信(xin)息處理任(ren)務—這就是(shi)分布式處理系統的(de)定義。

  以Hadoop(Yahoo)為例進行說(shuo)明,Hadoop是(shi)一個實現了MapReduce模式的(de)能(neng)夠huan)dui)大(da)量數據進行分布式處理的(de)軟件框架,是(shi)以一種可靠、高效、可伸(shen)縮(suo)的(de)方式進行處理的(de)。

  而MapReduce是(shi)Google提出的(de)一種雲計算的(de)核心計算模式,是(shi)一種分布式運算技術,也是(shi)簡化(hua)的(de)分布式編程(cheng)模式,MapReduce模式的(de)主要(yao)思想是(shi)將(jiang)自動(dong)分割(ge)要(yao)執行的(de)問題(例如(ru)程(cheng)序)拆解成map(映射)和reduce(化(hua)簡)的(de)方式,在數據被(bei)分割(ge)後(hou)通過Map 函數的(de)程(cheng)序將(jiang)數據映射成不同的(de)na)椋 峙涓撲慊qun)處理達(da)到分布式運算的(de)效果,在通過Reduce 函數的(de)程(cheng)序將(jiang)結果匯整,從而輸出開發者需要(yao)的(de)結果。

  再來看看Hadoop的(de)特性,第一,它是(shi)可靠的(de),因為它假設計算元素和存儲會失敗,因此(ci)它維(wei)護多個工(gong)作數據副本(ben),確保能(neng)夠針對(dui)失敗的(de)節點重新(xin)分布處理。其(qi)次,Hadoop 是(shi)高效的(de),因為它以並行的(de)方式工(gong)作,通過並行處理加yong)齏 硭俁取(qu)adoop 還是(shi)可伸(shen)縮(suo)的(de),能(neng)夠處理 PB 級數據。此(ci)外(wai),Hadoop 依(yi)賴(lai)于社區服務器,因此(ci)它的(de)成本(ben)比較低,任(ren)何人都可以使(shi)用。

  你也可以這麼理解Hadoop的(de)構成,Hadoop=HDFS(文件系統,數據存儲技術相(xiang)關(guan)) HBase(數據庫) MapReduce(數據處理) ……Others

  Hadoop用到的(de)一些(xie)技術有(you)︰

  HDFS: Hadoop分布式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)

  MapReduce︰並行計算框架

  HBase: 類似Google BigTable的(de)分布式NoSQL列數據庫。

  Hive︰數據倉(cang)庫工(gong)具,由Facebook貢獻。

  Zookeeper︰分布式鎖設施,提供類似Google Chubby的(de)功能(neng),由Facebook貢獻。

  Avro︰新(xin)的(de)數據序列化(hua)格式與傳輸工(gong)具,將(jiang)逐步取(qu)代(dai)Hadoop原(yuan)有(you)的(de)IPC機制。

  Pig:大(da)數據分析平台,為用mei)  ┐嘀紙涌(yong)kou)。

  Ambari︰Hadoop管理工(gong)具,可以快捷的(de)監控、部署、管理集群(qun)。

  Sqoop︰用于在Hadoop與傳統的(de)數據庫間進行數據的(de)傳遞。

  說(shuo)了這麼多,舉(ju)個實際的(de)例子,雖(sui)然(ran)這個例子有(you)些(xie)陳舊,但是(shi)淘yuan)Φde)海量數據技術架構還是(shi)有(you)助(zhu)于我們理解對(dui)于大(da)數據的(de)運作處理機制:

  如(ru)上圖所示,淘yuan)Φde)海量數據產品技術架構分為五個層次,從上至liao)呂純此(ci)欠直bie)是(shi)︰數據源,計算層,存儲層,查(cha)詢(xun)層和產品層。

  數據來源層。存放著淘yuan)Ω韉dian)的(de)交易數據。在數據源層產生的(de)數據,通過DataX,DbSync和Timetunel準實時的(de)傳輸到下面第2點所述的(de)“雲梯”。

  計算層。在這個計算層內,淘yuan)Σcai)用的(de)是(shi)Hadoop集群(qun),這個集群(qun),我們暫且稱之為雲梯,是(shi)計算層的(de)主要(yao)組(zu)成部分。在雲梯上,系統每天會對(dui)數據產品進行不同的(de)MapReduce計算。

  存儲層。在這一層,淘yuan)Σcai)用了si)礁齠 xi),一個使(shi)MyFox,一個是(shi)Prom。MyFox是(shi)基于MySQL的(de)分布式關(guan)系di)褪菘獾de)集群(qun),Prom是(shi)基于Hadoop Hbase技術的(de)一個NoSQL的(de)存儲集群(qun)。

  查(cha)詢(xun)層。在這一層中(zhong),Glider是(shi)以HTTP協議對(dui)外(wai)提供restful方式的(de)接yong)kou)。數據產品通過一個唯一的(de)URL來獲取(qu)到它想要(yao)的(de)數據。同時,數據查(cha)詢(xun)即是(shi)通過MyFox來查(cha)詢(xun)的(de)。

  最後(hou)一層是(shi)產品層,這個就不用解釋了。

   存儲技術

  大(da)數據可以抽象的(de)分為大(da)數據存儲和大(da)數據分析,這兩(liang)者的(de)關(guan)系是(shi)︰大(da)數據存儲的(de)目的(de)是(shi)支撐大(da)數據分析。到目前為止,還是(shi)兩(liang)種截然(ran)不同的(de)計算機技術領(ling)域(yu)︰大(da)數據存儲致力于研發可以擴展至PB甚至EB級別(bie)的(de)數據存儲平台;大(da)數據分析關(guan)注在最短時間內處理大(da)量不同類型的(de)數據集。

  提到存儲,有(you)一個著(zhu)名的(de)摩爾定律相(xiang)信(xin)大(da)家都听(ting)過︰18個月集成電路的(de)復雜(za)性yue)馱黽右槐丁(ding)K裕 媧?韉de)成本(ben)大(da)約ji)8-24個月就下降一半。成本(ben)的(de)不huan)舷陸狄蒼煬土舜da)數據的(de)可存儲性。

  比re)ru),Google大(da)約管理著超過50萬台服務器和100萬塊硬盤,而且Google還在不huan)系de)擴大(da)計算能(neng)力和存儲能(neng)力,其(qi)中(zhong)很多的(de)擴展都是(shi)基于在廉價服務器和普通存儲硬盤的(de)mu)∩轄械de),這大(da)大(da)降低了其(qi)服務成本(ben),因此(ci)可以將(jiang)更(geng)多的(de)資金wu)度氳郊際醯de)研發當中(zhong)。

  以Amazon舉(ju)例,Amazon S3 是(shi)一種面向 Internet 的(de)存儲服務。該服務旨在讓(rang)開發人員(yuan)能(neng)更(geng)輕松的(de)進行網絡規模計算。Amazon S3 提供一個簡明的(de) Web 服務界面,用mei)?賞 sui)時在 Web 上的(de)任(ren)何位置存儲和檢索的(de)任(ren)意大(da)小的(de)數據。此(ci)服務讓(rang)所有(you)開發人員(yuan)都能(neng)訪問同一個具備高擴展性、可靠性、安全性和快速價廉的(de)mu)∩枋 mazon 用它來運行其(qi)全球的(de)網站網絡。再看看S3的(de)設計指標︰在特定年度內為數據元提供 99.999999999% 的(de)耐tu)眯院99.99% 的(de)可用性,並能(neng)夠承受兩(liang)個設施中(zhong)的(de)數據同時丟失。

  S3很成功也確實卓有(you)成效,S3雲pin)拇媧 dui)象已達(da)到萬億(yi)級別(bie),而且性能(neng)表現相(xiang)當良好(hao)。S3雲已經擁(yong)萬億(yi)跨地域(yu)存儲對(dui)象,同時AWS的(de)對(dui)象執行請(qing)求也達(da)到百萬的(de)峰(feng)值數量。目前全球範圍內已經有(you)數以十萬計pin)鈉qi)業(ye)在通過AWS運行自己的(de)全部或者部分日常業(ye)務。這些(xie)企(qi)業(ye)用mei)?椴90多個國(guo)家,幾乎世界上的(de)每個角(jiao)落都有(you)Amazon用mei)?de)身(shen)影。

   感知技術

  大(da)數據的(de)采(cai)集和感知技術的(de)發展是(shi)緊密(mi)聯系的(de)。以傳感器技術,指紋(wen)識別(bie)技術,RFID技術,坐標定位技術等(deng)ren) 〉de)感知能(neng)力提升同樣是(shi)物(wu)聯網發展的(de)mu) H 瀾緄de)工(gong)業(ye)設備、汽車、電表上有(you)著無數的(de)數碼傳感器,隨(sui)時測量和傳遞著有(you)關(guan)位置、運動(dong)、震動(dong)、溫度qu)?shi)度乃至空氣(qi)中(zhong)化(hua)學(xue)物(wu)質(zhi)的(de)變化(hua),都會產生海量的(de)數據信(xin)息。

  而隨(sui)著智能(neng)手機的(de)普及(ji),感知技術可謂迎來了發展的(de)高峰(feng)期(qi),除了shuo)乩砦恢眯xin)息被(bei)廣(guang)泛的(de)應用外(wai),一些(xie)新(xin)的(de)感知手段也開始登上舞台,比re)ru),最新(xin)的(de)”iPhone 5S”在home鍵內嵌指紋(wen)傳感器,新(xin)型手機可通過呼(hu)氣(qi)直接檢測燃(ran)燒脂肪(fang)量,用于手機的(de)嗅(xiu)覺傳感器面世可以監測從yong)掌qi)污(wu)染jing)轎O盞de)mu)hua)學(xue)藥品,微軟正在研發可感知用mei)?鼻靶那(na)櫓悄neng)手機技術,谷歌眼鏡(jing)InSight新(xin)技術可通過衣(yi)著進行人物(wu)識別(bie)。

  除此(ci)之外(wai),還有(you)很多與感知相(xiang)關(guan)的(de)技術革(ge)新(xin)讓(rang)我們耳目一新(xin)︰比re)ru),牙齒傳感器實時監控口(kou)腔活(huo)動(dong)及(ji)飲食狀況,嬰兒穿戴設備可用大(da)數據去養育寶寶,Intel正研發3D筆記本(ben)攝像頭可追蹤(zong)眼球讀懂情緒,日本(ben)公司(si)開發新(xin)型可監控用mei) 穆實de)紡織(zhi)材料(liao),業(ye)界正在嘗試將(jiang)生物(wu)測定技術引入支付領(ling)域(yu)等(deng)qu)/p>

  其(qi)實,這些(xie)感知被(bei)逐漸(jian)捕獲的(de)過程(cheng)就是(shi)就世界被(bei)數據化(hua)的(de)過程(cheng),一旦(dan)世界被(bei)完(wan)全數據化(hua)了,那(na)麼世界的(de)本(ben)質(zhi)也就是(shi)信(xin)息了。

  就像一句(ju)名言所說(shuo),“人類以前ba)yan)續的(de)是(shi)文明,現在傳承的(de)是(shi)信(xin)息。”

  大(da)數據的(de)實踐

  互聯網的(de)大(da)數據

  互聯網上的(de)數據每年增長50%,每兩(liang)年便將(jiang)翻一番,而目前世界上90%以上的(de)數據是(shi)qin) 改瓴挪de)。據IDC預測,到2020年全球將(jiang)總共擁(yong)有(you)35ZB的(de)數據量。互聯網是(shi)大(da)數據發展的(de)na)吧謖蟺兀 sui)著WEB2.0時代(dai)的(de)發展,人們似乎都習慣了將(jiang)自己的(de)生活(huo)通過網絡進行數據化(hua),方便分享以及(ji)記錄並回(hui)憶(yi)。

  互聯網上的(de)大(da)數據很難清晰的(de)界定分類界限,我們先看看BAT的(de)大(da)數據︰

  百度擁(yong)有(you)兩(liang)種類型的(de)大(da)數據︰用mei) 閹鞅碚韉de)需求數據;爬蟲和阿(a)拉(la)丁(ding)獲取(qu)的(de)公共web數據。搜索巨(ju)頭百度ren) 剖荻Kdui)網頁數據的(de)爬取(qu)、網頁chen)諶rong)的(de)組(zu)織(zhi)和解析,通過語義分析對(dui)搜索需求的(de)精準理解進而從海量數據中(zhong)找準結果,以及(ji)精準的(de)搜索引擎關(guan)鍵字廣(guang)告,實質(zhi)上就是(shi)一個數據的(de)mu)袢qu)、組(zu)織(zhi)、分析和挖掘的(de)過程(cheng)。搜索引擎在大(da)數據時代(dai)面臨的(de)挑(tao)戰有(you)︰更(geng)多的(de)暗網數據;更(geng)多的(de)WEB化(hua)但是(shi)沒(mei)有(you)結構化(hua)的(de)數據;更(geng)多的(de)WEB化(hua)、結構化(hua)但是(shi)封閉的(de)數據。

  阿(a)里巴巴擁(yong)有(you)交易數據和信(xin)用數據。這兩(liang)種zhi)莞geng)容(rong)易變現,挖掘出商業(ye)價值。除此(ci)之外(wai)阿(a)里巴巴還通過投資等(deng)方式掌握了部分社交數據、移動(dong)數據。如(ru)微博和高德。

  騰訊(xun)擁(yong)有(you)用mei)?guan)系數據和基于此(ci)產生的(de)社交數據。這些(xie)數據可以分析人們的(de)生活(huo)和行為,從里面挖掘出政治、社會、文mu)hua)、商業(ye)、健康等(deng)領(ling)域(yu)的(de)信(xin)息,甚至預測未來。

  在信(xin)息技術更(geng)為發達(da)的(de)美國(guo),除了行業(ye)知名的(de)類似Google,Facebook外(wai),已經涌(yong)現了很多大(da)數據類型的(de)公司(si),它們qin) 啪  薟罰 熱(re)ru)︰

  Metamarkets︰這家公司(si)對(dui)Twitter、支付ding)?┐膠鴕恍xie)與互聯網相(xiang)關(guan)的(de)問題進行了分析,為客(ke)戶提供了很好(hao)的(de)數據分析支持。

  Tableau︰他們的(de)精力主要(yao)集中(zhong)于將(jiang)海量數據以可視化(hua)的(de)方式展現出來。Tableau為數字媒體提供了一個新(xin)的(de)展示數據的(de)方式。他們提供了一個免費工(gong)具,任(ren)何人在沒(mei)有(you)編程(cheng)知識背景的(de)na)榭魷露寄neng)制造出數據專用圖表。這個軟件還能(neng)對(dui)數據進行分析,並提供有(you)價值的(de)建議。

  ParAccel︰他們向美國(guo)執法機構提供了數據分析,比re)ru)對(dui)15000個有(you)犯罪(zui)前科pin)娜私懈zong),從而向執法機構提供了參(can)考性較xi)叩de)犯罪(zui)預測。他們是(shi)犯罪(zui)的(de)預言者。

  QlikTech︰QlikTech旗下的(de)Qlikview是(shi)一個商業(ye)智能(neng)領(ling)域(yu)的(de)自主服務工(gong)具,能(neng)夠應用于科學(xue)研究和藝術等(deng)領(ling)域(yu)。為了幫助(zhu)開發者對(dui)這些(xie)數據進行分析,QlikTech提供了對(dui)原(yuan)始數據進行可視化(hua)處理等(deng)功能(neng)的(de)工(gong)具。

  GoodData︰GoodData希望幫助(zhu)客(ke)戶從you) zhong)挖掘財(cai)富。這家創業(ye)公司(si)主要(yao)面向商業(ye)用mei)?T企(qi)業(ye)高管,提供數據存儲、性能(neng)報告、數據分析等(deng)工(gong)具。

  TellApart︰TellApart和電商公司(si)進行合作,他們會根據用mei)?de)瀏(liu)覽行為等(deng)數據進行分析,通過鎖定潛在買家方式提高電商企(qi)業(ye)的(de)收入。

  DataSift︰DataSift主要(yao)收集並分析社交網絡媒體上的(de)數據,並幫助(zhu)品牌公司(si)掌握突發新(xin)聞(wen)的(de)輿論點,並制定有(you)針對(dui)性的(de)營銷方案。這家公司(si)還和Twitter有(you)合作協議,使(shi)得自己變成了行業(ye)中(zhong)為數不huan)囁梢苑治鱸縉qi)tweet的(de)創業(ye)公司(si)。

  Datahero︰公司(si)的(de)目標是(shi)將(jiang)復雜(za)yong)氖荼淶黴geng)加簡單(dan)明了,方便普通人去理解和想象。

  舉(ju)了很多例子,這里簡要(yao)歸納一下,在互聯網大(da)數據的(de)典型代(dai)表性包括︰

  1-用mei) 形 精準廣(guang)告投放、內容(rong)推薦、行為習慣和喜(xi)好(hao)分析、產品優化(hua)等(deng))

  2-用mei) xiao)費數據(精準營銷、信(xin)用記錄分析、活(huo)動(dong)促(chun)銷、理財(cai)等(deng))

  3-用mei)?乩砦恢檬O2O推廣(guang),商家推薦,交友(you)推薦等(deng))

  4-互聯網金融數據(P2P,小額貸款,支付,信(xin)用,供應鏈金融等(deng))

  5-用mei) 緗壞deng)UGC數據(趨勢分析、流行元素分析、受歡(huan)迎程(cheng)度分析、輿論監控分析、社會問題分析等(deng))

   政府的(de)大(da)數據

  近期(qi),奧巴馬政府宣布投資2億(yi)美元拉(la)動(dong)大(da)數據相(xiang)關(guan)產業(ye)發展,將(jiang)“大(da)數據戰略”上升為國(guo)家意志(zhi)。奧巴馬政府將(jiang)數據定義為“未來的(de)新(xin)石油”,並表示一個國(guo)家擁(yong)有(you)數據的(de)規模、活(huo)性及(ji)解釋運用的(de)能(neng)力將(jiang)成為綜合國(guo)力的(de)重要(yao)組(zu)成部分,未來,對(dui)數據的(de)佔有(you)和控制甚至liang)jiang)成為陸權、海權、空權之外(wai)的(de)另一種國(guo)家核心資產。

  在國(guo)內,政府各個部門都握有(you)構成社會基礎的(de)原(yuan)始數據,比re)ru),氣(qi)象數據,金融數據,信(xin)用數據,電力數據,煤(mei)氣(qi)數據,自來ci) 藎 纜方煌ㄊ藎 ke)運數據,安全刑事案件數據,住房數據,海關(guan)數據,出入境數據,旅游數據,醫療數據,教育數據,環保數據等(deng)等(deng)qu)U廡xie)數據在每個政府部門里面看起來是(shi)單(dan)一的(de),靜(jing)態的(de)。但是(shi),如(ru)果政府可以將(jiang)這些(xie)數據關(guan)聯起來,並對(dui)這些(xie)數據進行有(you)效的(de)關(guan)聯分析和統一管理,這些(xie)數據必定將(jiang)獲得新(xin)生,其(qi)價值是(shi)無法估(gu)量的(de)。

  具體來ci)擔 衷誄鞘shi)都在走向智能(neng)和智慧(hui),比re)ru),智能(neng)電網、智慧(hui)交通、智慧(hui)醫療、智慧(hui)環保、智慧(hui)城市(shi),這些(xie)都依(yi)托于大(da)數據,可以說(shuo)大(da)數據是(shi)智慧(hui)的(de)核心能(neng)源。從國(guo)內整體投資shi)婺@純矗 012年底全國(guo)開建智慧(hui)城市(shi)的(de)城市(shi)數超過180個,通信(xin)網絡和數據平台等(deng)ran)∩枋┘ㄉ柰蹲使(shi)婺=詠000億(yi)元。“十二五”期(qi)間智慧(hui)城市(shi)建設拉(la)動(dong)的(de)設備投資shi)婺=jiang)達(da)1萬億(yi)元人民幣。大(da)數據為智慧(hui)城市(shi)的(de)各個領(ling)域(yu)提供決策支持。在城市(shi)規劃方面,通過對(dui)城市(shi)地理、氣(qi)象等(deng)自然(ran)信(xin)息和tu) ji)、社會、文mu)hua)、人口(kou)等(deng)re)宋納緇嶁xin)息的(de)挖掘,可以為城市(shi)規劃提供決策,強化(hua)城市(shi)管理服務的(de)科學(xue)性和前瞻性。在交通管理方面,通過對(dui)道路交通信(xin)息的(de)實時挖掘,能(neng)有(you)效緩解交通擁(yong)堵,並快速響應突發狀況,為城市(shi)交通的(de)良性運轉(zhuan)提供科學(xue)的(de)決策依(yi)據。在輿情監控方面,通過網絡關(guan)鍵詞搜索及(ji)語義智能(neng)分析,能(neng)提高輿情分析的(de)及(ji)時性、全面性,全面掌握社情民意,提高公共服務能(neng)力,應對(dui)網絡突發的(de)公共事件,打(da)擊違法犯罪(zui)。在安防與防災領(ling)域(yu),通過大(da)數據的(de)挖掘,可以及(ji)時發現人為或自然(ran)災害、恐怖lang)錄 岣哂 貝 砟neng)力和安全防範能(neng)力。

  另外(wai),作為國(guo)家ye)墓芾碚擼  Ω糜you)勇氣(qi)將(jiang)手中(zhong)的(de)數據逐步開放,供給更(geng)多有(you)能(neng)力的(de)mu)棺zu)織(zhi)或個人來分析並加以利用,以加速造福人類。比re)ru),美國(guo)政府就籌(chou)建了一個data.gov網站,這是(shi)奧巴馬任(ren)期(qi)內的(de)一個重要(yao)舉(ju)措︰要(yao)求政府公開透明,而核心就是(shi)實現zhong) 溝de)數據公開。截止目前,已經開放了有(you)91054 個datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

分享︰
延(yan)伸(shen)閱讀
    速讀區塊鏈
    貴州

    貴州大(da)數據產業(ye)政策

    貴州大(da)數據產業(ye)動(dong)態

    貴州大(da)數據企(qi)業(ye)

    更(geng)多
    大(da)數據概念_大(da)數據分析_大(da)數據應用_大(da)數據百科專題
    企(qi)業(ye)
    更(geng)多
    高频彩票快3 | 下一页