精品99成人午夜在线-免费在线观看的视频你懂的-国产免费一区二区三区久久-精品国产专区91精品

茫茫大數(shù)據(jù),找不到真實的我

2019-01-19 15:57:42 2501
  • 收藏

    一、從App年度總結(jié)想開去……

    這幾年每到年末,手機上一堆App就會為你推送各種年度總結(jié)回顧,IT之家小編也和大家一樣,什么網(wǎng)易云音樂的年度總結(jié)啊、支付寶年度賬單等等,看得不亦樂乎。

    人嘛,對自我總是有著本能的關(guān)注,但尼采又說,“離每個人最遠的,就是他自己”,說明自我認知是一件困難的事情。

    不過在互聯(lián)網(wǎng)科技發(fā)達的今天,我們有了認識自己的新途徑:數(shù)據(jù),大數(shù)據(jù)。實際上互聯(lián)網(wǎng)廠商們爭相做的年度總結(jié),就是大數(shù)據(jù)幫你認識自己的例子之一。

    然而樂此不疲地刷著各種年度總結(jié)H5的時候,IT之家小編又產(chǎn)生了一些新的思考:這些總結(jié)真的準確嗎?未必,甚至有時候偏差很大。

    例如網(wǎng)易云音樂的總結(jié)中,小編在2018年的某天將某首歌連續(xù)聽了50多次,從這條記錄應該能得出一個直接的結(jié)論:IT之家小編很喜歡這首歌,但其實小編那天單曲循環(huán)這首歌時,人在忙別的,根本沒在聽歌;例如還是網(wǎng)易云音樂總結(jié),IT之家小編2018年最喜歡的十首歌有七首都是小編不怎么聽的,因為小編更喜歡將喜愛的歌下載到本地,也經(jīng)常會用手機自帶播放器聽;再如支付寶年度賬單,2018年的總結(jié)IT之家小編覺得是比較符合自己的估判的,但記得自己2017年看到賬單時是有些懵的,全年總消費那一欄里,自己當年壓根沒那么多收入啊,記得當時網(wǎng)上也有很多網(wǎng)友如此反映。

    當然,IT之家小編說這些并不是否定年度總結(jié)存在的意義,只是由此產(chǎn)生了一些思考:大數(shù)據(jù)的時代,真的能夠通過數(shù)據(jù)準確定義個人或者群體嗎?人是很復雜的動物,記得在哪里看過一句話:“事情可以計算準確,但人是很難計算的”,而大數(shù)據(jù)應用,最核心的還是統(tǒng)計人的行為,這似乎成為悖論。

    如今大數(shù)據(jù)的重要性被推到很高的高度,已然成為未來大趨勢,商業(yè)、醫(yī)療、教育等各行各業(yè)在進行越來越深刻的數(shù)據(jù)化改造,將來我們各種決策都需要大數(shù)據(jù)的指引。但人,如何不被大數(shù)據(jù)支配,這是又是一個新的問題。

    二、大數(shù)據(jù)究竟是什么?

    我們首先要清楚認識大數(shù)據(jù),理解它的意義。

    百度百科上的解釋是:

    大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

    這段解釋涵蓋了大數(shù)據(jù)的三個特點:海量、高速變化、多樣化,從中可以衍生出另外兩個特點:因為海量,所以是低價值密度的;因為海量、高速變化且多樣化,所以也是具有真實性的??偨Y(jié)起來就是五個特點:海量、高速變化、多樣化、低價值密度、真實。當然,這不是IT之家小編總結(jié)的,是行業(yè)的普遍共識~

    ▲圖片來源Wikimedia Commons

    但怎么理解這五個特點呢?其實IT之家小編只需說一個例子就可以講通這五個特點,即對比傳統(tǒng)的統(tǒng)計調(diào)查數(shù)據(jù)。在傳統(tǒng)統(tǒng)計學中,因為過去我們收集數(shù)據(jù)處理數(shù)據(jù)的能力有限,不可能把所有數(shù)據(jù)都收集到,所以很強調(diào)數(shù)據(jù)樣本,樣本量的大小、豐富度,以及是否隨機,都影響統(tǒng)計分析的結(jié)果。通過數(shù)據(jù)樣本,分析數(shù)據(jù)相關(guān)性的規(guī)律,總結(jié)出一定的理論、模型,這是我們以前做的事情。

    而大數(shù)據(jù),則是反其道行之,它要的不是樣本,而是追求所有的數(shù)據(jù),所有的數(shù)據(jù)相信大家都懂的,這是多么龐大,而且是源源不斷產(chǎn)生的,每個人做不同的行為,都會產(chǎn)生不同的數(shù)據(jù),所以也是多樣的,因為沒有樣本,它的價值稀疏,畢竟不是每個人做得每件事產(chǎn)生的每個數(shù)據(jù)都是有價值的,但是它很真實,而樣本和現(xiàn)實之間,永遠存在誤差。

    大數(shù)據(jù)的思路之所以能夠?qū)崿F(xiàn),是因為在互聯(lián)網(wǎng)科技強大的今天,我們有能力去收集如此海量的數(shù)據(jù),也有能力去處理、分析它們。通過一個大數(shù)據(jù)的邏輯圖,大家可以更好地理解它:

    總體來說,大數(shù)據(jù)的體系邏輯包含數(shù)據(jù)收集、數(shù)據(jù)存儲、資源管理和服務協(xié)調(diào)、計算引擎和數(shù)據(jù)分析這五個層次。

    數(shù)據(jù)收集,主要通過互聯(lián)網(wǎng)數(shù)據(jù)抓取和客戶端、終端推送,例如你在電商網(wǎng)站購買東西,使用手環(huán)運動的數(shù)據(jù)也會上送到數(shù)據(jù)中心,它的特點是分布式,多樣化,源源不斷地產(chǎn)生,并且是異構(gòu)的,即有很多數(shù)據(jù)源;

    因為收集的數(shù)據(jù)有這些特性,所以對于數(shù)據(jù)存儲,要求具有可擴展性,容錯能力高,并且支持多種存儲模型,這甚至體現(xiàn)在數(shù)據(jù)庫設(shè)計這種最要求精確的領(lǐng)域,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL)和文件系統(tǒng)就比較難適應大數(shù)據(jù)時代的要求;

    資源管理和服務協(xié)調(diào),這里涉及到應用的部署,大數(shù)據(jù)時代,需要將應用部署在公共集群中,這樣才能提高資源利用率和實現(xiàn)數(shù)據(jù)的快速共享,否則那么多數(shù)據(jù)對應獨立的服務器,要被拖死;

    計算引擎和數(shù)據(jù)分析同理,數(shù)據(jù)量的極大豐富讓應用場景也越來越繁雜,計算引擎越來越多樣且專注,數(shù)據(jù)的分析同樣也需要分布式計算方法。

    總的來說,大數(shù)據(jù)從技術(shù)上來說就是因為數(shù)據(jù)量實在是太大了,無論是數(shù)據(jù)的收集、存儲還是處理都需要很多機器一起做,這個過程,不得不提的就是云計算。

    所謂云計算,IT之家小編總結(jié)就是將龐大集群的虛擬化電腦進行統(tǒng)一調(diào)度的能力,它天然滿足大數(shù)據(jù)的需求,所以云計算是釋放浩瀚大數(shù)據(jù)價值的驅(qū)動力,兩者如同共生,為了不跑題,這里就不進一步講了。

    三、只求相關(guān),不問因果

    大數(shù)據(jù)能成為未來的趨勢,有兩個條件,一是具備顛覆性,二是正面意義大于負面意義。那么大數(shù)據(jù)顛覆了什么?

    英國牛津大學教授、數(shù)據(jù)科學家維克托·邁爾·舍恩伯格在他的《大數(shù)據(jù)時代》這本書中,將大數(shù)據(jù)的顛覆性凝練為三條:

    • 首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。

    • 其次,我們樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性。

    • 最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

    從上面IT之家小編的介紹相信你能總結(jié)出,大數(shù)據(jù)帶來的各種改變,歸根結(jié)底在于其數(shù)量實在龐大多樣,它要的不是樣本,而是所有數(shù)據(jù),這就造成它必然混雜,難以追求精確性,在大數(shù)據(jù)里,混亂不是缺點,而是一種必要,這已經(jīng)是顛覆人的正常思維了;

    再往下,以往我們需要樣本,總是需要在樣本數(shù)據(jù)中找到一些既定的因果關(guān)系,然后提煉成理論,從樣本到整體,然后總結(jié)成方法,這是我們做事的基本邏輯,而在大數(shù)據(jù)時代,你不需要這樣了,因為我們有足夠多的數(shù)據(jù),我們要做的事情是找到目標數(shù)據(jù)之間的相關(guān)關(guān)系,然后發(fā)現(xiàn)趨勢,大數(shù)據(jù)會告訴我們接下來該干什么,而我們,不需要問為什么,負責決策就行了,不要小看這個轉(zhuǎn)變,它說明我們認識世界方式的改變。

    2003年,美國計算機專家奧倫·艾奇奧尼(Oren Etzioni)乘坐飛機,和乘客的交談中發(fā)現(xiàn)自己的機票買貴了,內(nèi)心一萬頭草泥馬奔騰而過后,他萌生了一個想法:能不能有一個工具能夠預測機票的波動趨勢,幫大家省錢?說干就干,然后他就真的創(chuàng)立了一個系統(tǒng):通過從旅游網(wǎng)站爬取41天內(nèi)的12000個價格樣本,來判斷機票的未來走勢,這個小項目后來發(fā)展成為科技創(chuàng)業(yè)公司Farecast并被必應收購。在后來的系統(tǒng)中,F(xiàn)arecast基于美國一個行業(yè)的機票預訂數(shù)據(jù)庫,跟蹤每一條航線每一架飛機每一個作為一年內(nèi)的票價記錄,從而判斷機票價格變動的趨勢,然后這個系統(tǒng)大獲成功,還被用到其他領(lǐng)域。

    ▲奧倫·艾奇奧尼,圖片來源:Wikimedia Commons

    這是大數(shù)據(jù)應用的一個經(jīng)典案例,在這個案例中,奧倫·艾奇奧尼明確表示,他不需要弄清楚機票價格波動和時間或者其他因素之間的因果關(guān)系,只是要從所有的數(shù)據(jù)中分析出規(guī)律,然后給出可能的結(jié)果。你不要問為什么,只需要知道機票接下來會漲還是會跌就行了。

    還有一些例子,如沃爾瑪在上世紀九十年代就開始進行將產(chǎn)品記錄為數(shù)據(jù)的工程,2004年,他們對這個龐大的數(shù)據(jù)庫進行觀察,發(fā)現(xiàn)每當季節(jié)性颶風來臨,不僅颶風用品銷量增加,POP-Tarts蛋撻的銷量也隨之增加,所以他們把颶風用品和蛋撻放在一起,在這個例子中,你同樣不用知道人們買颶風用品的同時為什么還喜歡買蛋撻而不是其他,你只需要發(fā)現(xiàn)這個現(xiàn)象,然后做決策就行,而且海量的大數(shù)據(jù),能夠為這個趨勢的準確性提供一定的保證。

    還有德國通過手機家庭太陽能用電的海量數(shù)據(jù)預測未來2-3個月智能電網(wǎng)需要的電量來降低成本;丹麥的維斯塔斯風能系統(tǒng)通過研究風力和天氣、湍流度等數(shù)據(jù)以及全球數(shù)萬個受控渦輪機組傳感器數(shù)據(jù),來判斷渦輪發(fā)電機設(shè)置的位置,從而提高能源產(chǎn)出的效率和數(shù)量等等。

    上面這些案例中,大家都不需要考慮事物之間的因果關(guān)系,不需要研究背后的原理,不需要建立模型,只需要對海量的龐大數(shù)據(jù)做分析。IT之家小編認為,這是大數(shù)據(jù)最大的顛覆性,如果我們的思維不轉(zhuǎn)變,最終會被大數(shù)據(jù)時代拋棄。

    四、爭議

    谷歌研發(fā)總監(jiān)曾Peter Norvig在2011年的一次講話中表示,“我們沒有更好的算法,我們僅僅是有更多的數(shù)據(jù)”,后來他在一次對自己言論澄清的文章中說:

    如果模型無論如何都有可能出錯,為什么不看看你是否能讓計算機從數(shù)據(jù)中快速地學習模型,而不是讓一個人費力地從許多思想中推導模型?

    這應該是對大數(shù)據(jù)很直接的解釋了。

    ▲谷歌研發(fā)總監(jiān)曾Peter Norvig,圖片來源:Flickr

    比這個更為激進的是《連線》雜志主編克里斯·安德森(Chris Andersen),他在2008年就說過“數(shù)據(jù)爆炸使科學的方法都落伍了”,后來,他又在《The Petabyte Age》這篇文章中提出了“理論的終結(jié)”的觀點,說

    現(xiàn)在已經(jīng)是一個有海量數(shù)據(jù)的時代,應用數(shù)學已經(jīng)取代了其他所有的學科工具,而且只要數(shù)據(jù)足夠,就能說明問題。

    ▲克里斯·安德森,圖片來源Wikimedia Commons

    安德森的這篇文章當時引起了很大的爭議,數(shù)據(jù)取代理論,這聽起來的確有些荒謬。在《大數(shù)據(jù)時代》中,舍恩伯格對這個觀點進行了辯駁,他表示大數(shù)據(jù)從來不會叫囂“理論已死”,相反,大數(shù)據(jù)的方方面面也被理論影響著。例如在數(shù)據(jù)分析的時候,我們也需要理論的支持。

    五、愿問東西,且問因果

    2009年,谷歌流感趨勢研究團隊(GFT)在《自然》雜志上發(fā)表論文,展示了分析數(shù)十億搜索中45個與流感相關(guān)的關(guān)鍵詞,從而能比疾病預防控制中心提前兩周預報2007-2008季流感發(fā)病率的過程。這在當時引起了震驚,這說明人們不需要等待疾控中心的報告,就能及時知道未來醫(yī)院的就診人數(shù),從而提前預防,顯然這將讓很多人避免痛苦,免受巨大的損失。這成為谷歌運用大數(shù)據(jù)最早和最經(jīng)典的案例之一。

    然而,后來有學者發(fā)現(xiàn),2009年,谷歌沒有準確預測到非季節(jié)性流感A-H1N1,而在2011年8月到2013年8月的時間里,谷歌有100周高估了CDC報告的流感發(fā)病率,到2013年,谷歌調(diào)整算法后仍然存在高估的現(xiàn)象。

    又回到文章開頭:有時候,大數(shù)據(jù)可能也不那么準,甚至可能離譜。

    IT之家小編認為,存在這種情況的原因,可能恰恰就在于大數(shù)據(jù)最大的顛覆性:只追求數(shù)據(jù)的相關(guān)性,而不關(guān)心因果關(guān)系。所以,這就像硬幣的正反兩面,如果使用不當,也可能帶來嚴重的危害。特別是在風口期,大數(shù)據(jù)被鼓吹以至被濫用時,風險更大。

    IT之家小編在文章開頭所說的App年度總結(jié)和你實際狀況不符合的案例,其實只是大數(shù)據(jù)最細枝末節(jié)的應用,現(xiàn)在到未來,毫無疑問大數(shù)據(jù)會被運用在更多的行業(yè),風口也會越刮越強,但如果你沒有理智運用大數(shù)據(jù),只是一昧的迷信,那么后果可能也會慘烈,例如金融企業(yè)在數(shù)據(jù)量沒有達到標準的情況下就自以為通過大數(shù)據(jù)判斷個體的信譽程度而對外放貸,后果可想而知;再例如教育方面,未來你真的敢于完全聽憑大數(shù)據(jù)的分析結(jié)果來決定報考哪座院校和規(guī)劃職業(yè)生涯方向,而不是遵從自己的興趣?還有利用大數(shù)據(jù)相親的,則更不消說了。

    你真的敢相信大數(shù)據(jù)里描繪的你的畫像,就是真實的你?即便它與你有90%以上的相似度,你真的敢將自己的所有決策放心交給大數(shù)據(jù)?

    所以,IT之家小編認為,在大數(shù)據(jù)時代全面到來之前,我們首先需要探討的,是大數(shù)據(jù)運用的邊界在哪里?

    當然,這個邊界不是IT之家小編一人就能劃定的,但小編認為,大數(shù)據(jù)之外,“小數(shù)據(jù)”仍然重要,“大小結(jié)合”是一種更可取的方式,我們既要判斷趨勢,也需要深究原理。

    還有就是,在討論到和自我相關(guān)的問題時,永遠要遵從內(nèi)心的自我,就像在大數(shù)據(jù)里,混雜比精確更重要,在現(xiàn)實里,對自己的感覺,往往比數(shù)據(jù)更重要。

    總之,愿問東西,且問因果,則幸甚。

    本文參考資料:

    芯聯(lián)天下,2018-06-21,《終于有人把云計算、大數(shù)據(jù)和人工智能講明白了!》

    CSDN,2017-30-014,《從谷歌流感趨勢談大數(shù)據(jù)分析的光榮與陷阱》

    維克托·邁爾·舍恩伯格,2012,《大數(shù)據(jù)時代》

    董西成,2018,《大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實踐》


    聯(lián)系我們

    咨詢電話:0635-8808750

    聯(lián)系人:張老師:15653112065 / 胡老師:13561268982 / 季老師:13053895635

    學校地址:聊城市東昌西路(百大三聯(lián)西側(cè))國際商務港5樓509

    聊城優(yōu)智教育

    ?
    全部評論(0)
    聯(lián)系我們
        工作時間
    • 周一至周五:08:30-19:30
    • 周六至周日:09:00-17:00
    久久久国产了楼凤| 99精品一级欧美片免费| 日韩高清毛片在线观看| 日韩 欧美 成人 免费| 国产精品熟女一区二区三区久久夜| 黄色视频网在线观看| 日韩在线视频不卡一区二区三区| 人妻含泪让粗大挺进| 伊人久久久久久久久香港| 大香蕉中码手机在线视频 | 精品国产Av无码久久久一区二区| 97人妻精品一区二区三区视频| 一区二区三区亚洲av| 爆乳喷奶水无码正在播放| 鸡巴抽插逼逼视频| 亚洲欧美日韩另类| 日韩午夜精品中文字幕| 美国女人抠插bbb| 午夜性无码视频在线播放| 国产精品操大屁股老淑女| 中文字幕乱码一区三区免费| 国产精品亚洲一区二区三区极品 | 美女肏肏逼应用下载| 好爽轻点太大了太深了视频 | 永久性日韩无码视频| 国产成人无码AV一区二区三区| 美国毛片亚洲社区成人看| 福利国产第一视频| 久久久三级黄片免费视频| 91kaobi视频在线| 欧亚洲嫩模精品一区三区| 少妇无套带白浆嗯呢啊污| 男生狂操女生污视频| 国产a一级毛片午夜剧院| 亚洲Av无码专区一区二区三区| 90岁肥老奶奶毛毛外套| 天天舔操操操av| 国产精品熟女视频播放| 欧美国产综合日韩一区二区| 国产一区二区在线观看精品| 久久精品国产亚洲av伦理|