大數據聽著很牛,實際上也很牛嗎?

  就是收集很多用戶數據,用機器進行處理嘛,干嘛整天吵得這么high。傳統行業的數據,收集和分析慢,互聯網時代特別是移動互聯網時代,數據收集和分析都變得更快更智能,僅此而已吧。
  大數據為什么這么牛?答案在此
  真的是這樣嗎?今天我們來看看兩位業內人士的深入分析。
  01、大數據的商業價值
  大數據是近年來新出熱門詞匯,人們對于大數據的理解還不夠全面,甚至存在一些誤區,認為數據量大就是大數據,或者認為里面數字大也是大數據,實際上這些只屬于統計的范疇,和大數據是沒有關系的。
  所謂大數據,其實是有兩部分組成的。一部分是海量運算存儲能力,一部分是數據建模算法。
  認為大數據是更快更智能的處理技術的人,只是認識到了大數據海量運算儲存能力,而這部分只是量變,卻沒有認識到質變。
  如果針對消費者市場,大數據的目標是對每個消費者有清楚的認知和跟蹤。
  你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說,你此刻在哪里、喜歡什么顏色、喜歡什么風格、想要什么東西,都能夠收集分析出來。之后便會在你正在看的視頻網站、正刷的APP,所有這些界面上呈現信息,引導你關注。
  隨著這項技術的進步,甚至可以提前預知你想要購買的東西,提前一步給你送達??梢韵胂笠幌?,你想買一個東西下單二十分鐘就到你家門口了,因為早就預測到你什么時候想要什么了,所以幾天前預測到就提前發貨到你小區的提貨點了。
  這樣的精準的服務,以后對消費者而言當然是習慣了就不再記得它有多偉大。就像過去的工業革命,只有經歷那個時代的當事人那個時代的締造者們才會對那些創造充滿激情,而我們對隨手可得的電和各種電器還會有什么驚喜嗎?
  傳統的數據行業,一沒有足夠強的數據獲取能力,二沒有足夠強的數據加工能力。包括以前靠預測總統大選起家的那家公司,他們的采樣是局限的,比如寄調查問卷,調查問卷這種采樣是難以重現真實的,且基于傳統的小樣本統計方法。另外,數據處理能力也很有限。
  與之相反,大數據的采樣是無法說謊的,你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發生。這是大數據的第一個“大”,維度大。
  同時,數據采樣是覆蓋幾億人口全天候的。這是大數據的第二個“大”,數量大。相對傳統的抽樣小樣本集而言,大數據可以稱之為全樣本。正是這兩個“大”,就能夠帶來數據的質變。
  再看數據加工。傳統的加工,恐怕多數人靠Excel吧!我們采一天的數據就能撐爆幾萬臺你們家里的電腦硬盤。至于計算,可以想像一下,對這個數量級的數據矩陣做個最簡單的矩陣分解要怎么實現。這是機器的能力。
  人的方面,現在很多傳統的搞這些的統計方向的人經常會說,“唉,現在都搞算法去了”。沒錯,算法就是人與機器協作的溝通方式,只有和機器深度合作,才能得到更高的生產力。
  這一切,在消費者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對商業而言卻是驚天動地的。
  過去你賣衣服的,你的周轉庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止;一旦有了大數據支撐,你的庫存幾乎可以忽略了。過去你搞設計的,你耗盡心力設計出來的作品很可能在市場上得不到認可;有了這個精準大殺器,消費者的數據會告訴你他們要什么,你設計師錦上添花就好,真正的設計者其實是消費者自己。
  過去你搞營銷的,投入一大筆錢搞個營銷方案,結果收效甚微;一旦有了這個精準大殺器,營銷的投入風險就低多了。
  大數據帶來的精準對商業的影響是方方面面的。這是新時代對舊時代的淘汰。除了商業,還有大量別的用處,都將深刻地改變世界。比如個人征信、醫療行業、能源行業、公路交通等等。太多太多,這些都會深刻地改變世界的運作方式。
  02、技術角度分析大數據
  我有20個整數,一把全裝進內存,調用個sort,完事了。
  我有2GB那么多的整數,一把全裝進內存……恩恩,如果機器不那么破,勉強也完事吧。
  我有20GB那么多的整數,對,往你家PC里多插幾條8GB的內存條試試?
  那我現在有200GB那么多的整數……看你丫的怎么裝內存,哈哈哈哈哈哈!
  嚇尿了吧!?寫外排序?你寫啊!It's ONLY the beginning!很多人可是連內存里的快排都寫不出的哦~
  200GB算個啥大數據啊,蒼老師的合集都不止咳咳……
  OK,顯然我們已經意識到1臺機器裝不下了。咋辦?多找幾臺機器唄。多找幾臺機器意味著啥啊?分布式計算懂不懂,連分布式都不懂說個毛大數據啊!!!
  好,現在有200GB的整數,排個序吧……呃,給你10臺機器吧。
  這200GB的整數,如何分配?
  這10臺機器之間如何通訊?沒錯,我不止坑了你去寫外排序,我還得坑你去玩網絡編程。
  假設每一臺機器上的數據都已經完全排好,如何多快好省地把各自排序好的結果merge在一起?
  如何設計有效的merge邏輯減少10臺機器之間的網絡IO。
  別以為10臺機器不需要維護,萬一在排序的時候其中一臺機器掛了,怎么辦?具體包括但不限于:他在掛之前有響應其他機器發給他的request嗎?他在掛之前自身的任務完成了多少了?假設這臺機器在掛的時候正在跟隔壁的機器互相傳輸數據腫么辦?
  誰去監聽這10臺機器的健康?或者是其他機器怎么知道某臺機器掛了?如果是連接超時,怎么知道是網絡阻塞還是目標機真的掛了?
  如果某臺機器真的掛了無法恢復,又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(集群升級,集群中的節點被臨時撤走的事常有哦),如何把那臺機器上那20GB的數據分給其余的9臺?
  如果數據不是200GB,而是2TB,2PB……
  這么大的數據,這么大的集群,同一時間掛掉的機器數量可能會很多。如果這個集群用來做存儲(例如百度云),怎么保證用戶的數據不丟失?
  如果這個集群用來做離線計算,怎么設計調度程序提高每臺機器的資源利用率,減少集群內的網絡IO和盡可能地提高每臺機器的響應速度?
  我希望集群是可擴展的,最好架構能支持我只要簡單地增加機器數目就能擴充集群的計算和存儲能力,這個架構要怎么設計?
  建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內容。
  “傳統行業的數據,收集和分析慢,互聯網時代特別是移動互聯網時代,數據收集和分析都變得更快更智能,僅此而已吧?!?/div>
  只所以題主會這么說,是因為題主作為局外人,能看到的就只有這些表面的最直觀的現象。一句簡單的“數據分析變得智能了更快了”的背后,實際上是無數人付出的勤奮、創造力、勇敢還有艱辛!
  馬云爸爸說,未來是DT時代,大數據是最重要的資產。
  未來三至五年,中國需要180萬數據人才,但目前只有約30萬人。到2020年,企業基于大數據計算分析存儲、數據挖掘、數據分析等數據產業的發展,我國需要更多的數據人才。

文章來源: 作者:阿福班主任 來源:今日頭條

原文鏈接: http://www.51testing.com/html/16/n-4463716.html

0
你還沒有登錄,請先 登錄或 注冊!
  • 還沒有人評論,歡迎說說您的想法!