Big Data 原本是指超出電腦處理能力的巨量資訊計算。因為科技進步神速,現在的電腦有能力處理大規模的數據,所以無需採用特定格式,人們也能利用 Big Data在大批資料的基礎上,完成過去小量資料做不到的工作。
源於遺傳學和天文學的Big Data在各個領域推動革命。例如每個擁有電腦或手機的人都能感受的到「資訊革命」,除此之外,「公共衛生」跟「商業模式」領域的變革也在進行。
為何要推動 Big Data革命?
電腦越來越快,資料儲存、攝錄影機越來越便宜,網際網路、社交媒體盛行。Big Data幫我們做到過去不能的事,例如Google在 2009年藉著分析數百萬條搜尋字詞間的關係,還有這些字詞與各種健康狀況之間的聯繫,成功預測 H1N1病毒的傳播;即使沒有實體研究跟醫生,Google依然做的比政府的統計專家還好。
Bid Data 帶來哪些改變?
Big Data意味著更多的資料、分析、結果和選擇。它在處理資訊和解決問題的思維方式上帶來根本性的轉變:
1. 過去針對某一個問題,只能獲得部分數據,但現在可用的數據多如牛毛。
過去收集和分析數據需要花費大量時間,研究人員會通過一些技術來蒐集樣本,並用”樣本分析結果”去推論母體。
但現在,幾乎可以直接由”母體”來分析數據,對於亞群組的分析也有更多選擇;所以在收集數據時,能對數據進行分組或重組,並研究數據之間的相互關係。
2. 第二個轉變是要接受「數據的雜亂性」,不再刻板的追求「精確」的數據。
以追蹤某地區的溫度為例,如果感測器的價格很貴,那麼就不得不將每個溫度計都放在完全正確的位置,並在精確的時間間隔記錄溫度,以得到具”代表性”的溫度數據。
但現在感測器很便宜,我們可以安裝大量價格低廉且online的感測器,即時監控溫度的變化,同時接收和分析連續的資料流程。就算其中一個感測器故障,還有大量的感測器是正常的。
這會推動思維方式的重大轉變! 過去的科學家努力的「追求精確」;在Big data時代,收集的資訊多,錯誤率也高。但事實證明,大量的數據比精確的數據更有價值。高品質資料的成本高昂,並且越來越沒有必要,因為「海量、混雜」的資訊有更準確的結果。
3. 重「相關」而輕「因果」。
第三個重大轉變則是從試圖了解事情「發生的原因」轉而了解其「相關的事物」。相互關係比因果關係更重要,廠商不再需要去知道消費者為什麼購買產品,只要了解與購買產品相關的因素就夠了。
早期的Amazon聘請評論家對圖書進行評估並提出購買建議。CEO Jeff Bezos提出依「客戶的個人購物偏好」來提供購買建議。這表示Amazon需要研究分析客戶買的產品、考慮過的書、在特定網頁流覽的時間、隨書購買的其他產品…等等。
2000年的 Amazon開始進行「從商品到商品的協同過濾」,因此能分析更多數據,提出更好的購買建議。今天,近1/3的訂單來自數據主導的購買建議。而Netflix (租片網站)的比例更高,近3/4的交易歸功於購買推薦。
人們往往會在「小規模資料」上應用「相關性」,但事實上「相關性」在Big data更加有用。「相關性 」分析的是兩份統計資料之間的相關性,它並不具有確定性,只有可能性。在「強相關」中,如果一個物件發生變化,那麼另一個物件也極有可能發生變化。廠商並不需要理解某種相互關係產生的原因,只需要正確識別它。
在小樣本中,科學家需要發展一系列理論來解釋事物的原理,這需要幹很多活。但在大數據時代有效率多了,只需透過統計分析資料的相關性,就能作出基本預測。例如FICO公司通過觀察某些特定因素 (比如你是否擁有汽車) 來評估你的信用風險等級;UPS快遞追蹤跟車輛磨損相關的駕駛行為來確定何時保養卡車,並因此而節省了數百萬美元。
「數據化」與「數位化」
「數據化」與「數位化」彼此交織,但有所不同。Google在將實體書轉化為電子書時,會將實體書「數位化」,而在對書籍進行「數據化」時,則是通過字元識別軟體來識別每本書的「字母、單詞、句子和段落」。通常「數位化」能促成「數據化」,並加快資料分析的速度。你可以在數位圖書中搜索特殊術語,分析語言的變化,或為翻譯軟體尋找翻譯範例。
如今,世界上的一切幾乎都在被數據化,甚至在看blog的你跟寫blog的我。透過衛星信號,GPS能夠將接收器定位到一公尺內,使得各個行業都能夠輕鬆地追蹤物資、車輛,甚至人的位置和運動模式。這種資料能夠改善電話服務和公共衛生,跟蹤經濟變化,分析交通和保險風險。專家們正在從一些意想不到的方式產生的資訊中。提取大量有價值的數據。這樣的資訊包括大量微博消息中的中繼數據,這些中繼數據正成為一種新的資源。
所有的資料都有價值
Big Data正在創造新的價值來源,這個時代所有的資料都有價值,無論是本身的價值或內在價值,甚至包括那些看似無用的資料 (比如昨天的網路搜索資料)…。過去收集整理資訊太過複雜和昂貴。在便宜的感測器出現之前,分析師需要仔細觀察工人的工作情況,手動記錄觀察結果並整理這些資訊。
而隨著對滑鼠點擊情況、GPS數據等資料的自動監測成為常態,收集巨量數據將變得超便宜。當資料被收集起來以後,分析師便以創造這些資料的人未想到過的方式來重新利用這些資料。
Big Data帶來新的商業革命
- 創造/收集數據的公司
- Big Data的利用服務,販售分析結果
- 知道如何利用Big Data的企業
Big Data創造了全新的商業環境,讓新的業務方式蓬勃發展。首先發展的是創造/收集數據的公司。比如,Twitter的出現讓人們能夠post短文,而這些post短文的人就不斷提供新信息。又例如 MasterCard平臺開始扮演“中間人”的角色,提供Big Data的利用服務,販售分析結果。
第三個市場機遇則是知道如何利用Big Data的企業。事實上,在企業提供核心產品或服務,然後確定如何從自己生成的數據中獲取最大利益的過程中,整個“Big Data價值鏈”就已經開始浮現。而一旦這一價值鏈出現,企業力量和價值的中心就會出現轉變。現在“想法和技能”是最有價值的產品,但相信未來 光是“資料本身”就有最大的價值。
Big Data將改變商業格局。大的企業能夠從規模經濟中獲益,因此資料規模將成為最重要的因素。靠著對資料的掌控技能和行銷技能,新興企業會崛起,人們的職業發展也可能改變。
由於Big Data能為更多的人提供深刻見解,專家的力量會逐漸減弱。處理和分析Data的技能變的重要,有遠見的學生開始學習數學、統計、電腦和網路科學。
Big Data的「風險」
Big Data的世界可能會像過去的東德,透過安裝攝影機和竊聽電話來監控公民 (現在台灣不還是這樣嗎?)。極權主義國家通過電話監聽等手段獲取資料的主要目的是收集罪證 (看來台灣就是極權國家)。而在Big Data環境下,資料的價值和威脅主要來自被“再次利用”。
現有的隱私保護法並沒有涉及如何應對這種威脅。目前的法律規定,人們在獲取資料時必須徵得同意,但卻沒有規定人們在”之後”利用資料時還要徵得同意,就像Google就聰明的利用舊的搜索資料。
Big Data的世界也會很容易產生「資料專制」。如果當權者堅持追求資料成就,那麼下面的人就不得不上報對應的數據,即便數據是假。Big Data可能會帶給社會新的威脅,但總體來說利多於弊。它能讓人類解決過去解不了的問題,讓企業和個人節約資金並找到更好的處事方案;它能提供新的見解,助人們擺脫過去的習慣以及對專家的依賴。
Big Data將改變整個社會,能善用它的人對未來會有更深刻的看法,他們會積極接受「相關性」、「可能性」和那些「夠好」的答案。
Melody對Big Data 之感
網路越來越快,電腦手機GPS越來越普遍便宜,造就Big data的革命。原本看似垃圾的巨量資料落入分析專家之手,就能一秒變黃金?! 原先握有資源的少數幾間大企業更具優勢,Big Data想必會加劇企業、甚至國家的M型化,貧富差距更為拉大。小老百姓的思想、作為、行動都盡在老大哥的掌握之中,資本主義的自由,是否為幻夢一場?
延伸閱讀:開放資料大商機