來源:《經(jīng)濟日報》,2013年11月5日
數(shù)據(jù)顯示,從現(xiàn)在起直到2018年,全球大數(shù)據(jù)市場的年均復合增長率將達到26%,從148.7億增至463.4億美元。中國工程院院士鄔賀銓也表示,繼云計算后,大數(shù)據(jù)成為信息技術領域最為熱門的概念之一。在工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,作為四項關鍵技術創(chuàng)新工程之一的信息處理技術中包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這些都是大數(shù)據(jù)的重要組成部分。
然而,大數(shù)據(jù)究竟是怎么回事?在現(xiàn)實場景中又有哪些應用?這個“時髦”的新產(chǎn)業(yè),將給我們的生活和工作帶來哪些巨大的變化?
取之不盡的“數(shù)據(jù)金礦”
什么是大數(shù)據(jù)?《大數(shù)據(jù)時代》的作者之一舍恩伯格將之定義為“不用抽樣調(diào)查的捷徑,而采用所有數(shù)據(jù)的分析方法”,簡單來說,就是利用互聯(lián)網(wǎng)和計算機對海量數(shù)據(jù)進行抓取、管理和處理,并且從中提取出有意義的訊息。
大數(shù)據(jù)有什么用?一方面大數(shù)據(jù)技術可以扎扎實實地用數(shù)據(jù)說話,打破直覺和思維定式。舍恩伯格曾經(jīng)舉例說,人們常常會說冬天要記得戴帽子和手套,避免著涼感冒,但大數(shù)據(jù)會告訴你,感冒來自于病毒,跟戴帽子手套沒有直接關系。二是大數(shù)據(jù)技術可以讓人們對未來進行“預測”,通過對所有可能的數(shù)據(jù)進行分析,而找到數(shù)據(jù)之間的關聯(lián)性,并由此預測出趨勢。
日本SS制藥公司運營的網(wǎng)站Kazemiru正是大數(shù)據(jù)技術應用的一個生動寫照。這個網(wǎng)站通過對數(shù)萬條推特信息的抓取,找到日本各地可能正在感冒的人,并通過與昨天的數(shù)據(jù)進行對比,并結合氣溫和濕度變化來預測感冒在不同地區(qū)的流行情況,為每個登錄該網(wǎng)站的用戶提供“感冒日歷”,通過與日本國立感染癥研究所對全國5000個醫(yī)療機構的感冒患者的統(tǒng)計數(shù)據(jù)對比,Kazemiru的預測與實際情況基本一致。
大數(shù)據(jù)技術在今時今日的“井噴”也事出有因。大數(shù)據(jù),首先要有足夠多的數(shù)據(jù)產(chǎn)生。隨著互聯(lián)網(wǎng)的高速發(fā)展和成熟,互聯(lián)網(wǎng)產(chǎn)生內(nèi)容和數(shù)據(jù)的能力不斷增強,百度技術委員會理事長陳尚義曾透露,百度每天處理的數(shù)據(jù)量接近100PB,而1PB相當于5000個國家圖書館的信息量總和,此外在每分鐘內(nèi),新浪和騰訊微博發(fā)送出數(shù)萬條微博,淘寶賣出了近10萬件商品……來自市場研究機構IDC的數(shù)據(jù)顯示,2011年全球數(shù)據(jù)總量已經(jīng)達到1.8ZB,這個數(shù)值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的數(shù)據(jù)量,增長近20倍。而每個ZB的數(shù)據(jù),都相當于裝滿10億個1TB的移動硬盤。
其次,還要有儲存和分析這些數(shù)據(jù)的能力。從硬件設備來看,計算機性價比的提高,磁盤價格的下降,大幅降低了大數(shù)據(jù)存儲和處理的門檻,數(shù)據(jù)顯示,2000年的硬盤驅動器平均每GB容量的單價約為16美元到19美元,而現(xiàn)在卻只有7美分。在重量上,1982年世界第一臺超GB存儲器容量為1.2GB,重113千克,而現(xiàn)在,32GB的微型SD卡僅有0.5克。從處理能力來看,云計算成為最重要的推手,數(shù)據(jù)被搬到了“云”上之后,更容易被收集和獲得,而云計算強大的處理能力也使更多行業(yè)和企業(yè)有機會對數(shù)據(jù)進行整理和分析。
“真金白銀”領跑行業(yè)應用
去年11月份,北京公務員胡曉璐搖到了車牌號,在網(wǎng)上四處查詢和對比各種汽車型號之后,她驚訝地發(fā)現(xiàn),自己看到的汽車網(wǎng)絡廣告變多了。
胡曉璐所不知道的是,在她點開某個網(wǎng)頁的瞬間,一場“拍賣”正在悄無聲息地進行著。廣告交易平臺迅速地向各大需求方平臺發(fā)出“這兒有個廣告位”的信息,需求方平臺則根據(jù)她之前的瀏覽行為判斷出“這個人可能要買車”,然后迅速出價,誰出價最高,胡曉璐就會在點開的網(wǎng)頁上看到誰推送的廣告,一切都在0.1秒內(nèi)完成。
這就是RTB(實時競價)技術,利用大數(shù)據(jù),它可以根據(jù)每個用戶的具體偏好來精準地投放互聯(lián)網(wǎng)廣告。和這項技術一樣,與營銷、電子商務、互聯(lián)網(wǎng)金融等等“真金白銀”相關的大數(shù)據(jù)技術最早被投入到對商業(yè)模式的變革之中。
1號店負責生鮮業(yè)務的副總裁郭冬東告訴本報記者,通過對海量數(shù)據(jù)的分析、判斷和整合能力,1號店可以精確地預測第二天生鮮貨品的訂貨數(shù)量,然后向供貨商下訂單,產(chǎn)品第二天早上8點進庫。“綜合折算下來,僅在倉儲環(huán)節(jié),損耗率可以控制在個位數(shù),而傳統(tǒng)線下渠道的損耗率一般是30%左右。”借助大數(shù)據(jù),電子商務平臺得以進軍傳統(tǒng)零售業(yè)的“腹地”。
數(shù)據(jù)甚至成為網(wǎng)絡賣家和中小企業(yè)的“無形資產(chǎn)”。阿里巴巴旗下的兩家小額貸款公司,截至2012年6月底,已為超過12.9萬家小微企業(yè)和個人創(chuàng)業(yè)者提供貸款,貸款總額累計超過260億元。他們能拿到貸款的關鍵之一,正是此前網(wǎng)絡交易的誠信記錄。全國農(nóng)信銀資金清算中心運行保障部總經(jīng)理王永剛對此感慨萬千:“阿里巴巴的小額貸款幾小時就能發(fā)放,而我們最快也要7天。他們靠的就是開放平臺的渠道優(yōu)勢,和大數(shù)據(jù)的分析和處理能力,從而大大降低了信貸的成本。”
不過這些都還是基于自己平臺內(nèi)部產(chǎn)生的數(shù)據(jù),如今互聯(lián)網(wǎng)巨頭們還通過頻繁的并購與合作,將外部數(shù)據(jù)納入大數(shù)據(jù)處理的范疇。比如:阿里巴巴在收購新浪微博18%的股權后,宣布打通淘寶與新浪賬號,讓微博產(chǎn)生的隱形消費需求和淘寶的顯性消費數(shù)據(jù)得以整合;百度將19億美金砸向91手機助手,從而獲得了1.27億手機用戶的使用習慣和相關數(shù)據(jù);騰訊則通過微信公眾平臺直接向線下企業(yè)提供大數(shù)據(jù)技術下的客戶管理增值服務。用戶在哪里?他們喜歡什么?想要什么?互聯(lián)網(wǎng)巨頭們正在拼湊一份涵蓋方方面面生活圖景的數(shù)據(jù)圖。
智慧城市釋放數(shù)據(jù)“能量”
對于廣東佛山的“12345”市民熱線來說,每一通來電都是寶貴的“數(shù)據(jù)財富”,不光是話務量分析,通過大數(shù)據(jù)技術,這些音頻中的核心數(shù)據(jù)被提取出來,并被統(tǒng)一組織、存儲、管理和應用,市民們集中的訴求會被直接向各有關部門反映,成為政府決策分析的數(shù)據(jù)支撐。
盡管目前大數(shù)據(jù)相關的商業(yè)模式還集中于企業(yè)應用,但與電子政務相適應的服務則被不少人當做大數(shù)據(jù)技術未來的又一重要的應用場景,大數(shù)據(jù)也因此被視為智慧城市的“智慧引擎”。鄔賀銓告訴記者,大數(shù)據(jù)將遍布智慧城市的方方面面,是智慧城市的智慧之源。大數(shù)據(jù)能夠使政府的決策與服務、人們的生活方式、城市的產(chǎn)業(yè)布局和規(guī)劃及城市的運營與管理方式,實現(xiàn)“智慧化”或“智能化”。
然而,將這部引擎發(fā)動起來,卻首先需要數(shù)據(jù)的開放與整合。國務院發(fā)展研究中心技術經(jīng)濟研究部副調(diào)研員李廣乾表示,數(shù)據(jù)開放為大數(shù)據(jù)應用提供創(chuàng)新“源頭”。大量數(shù)據(jù)的可獲得是大數(shù)據(jù)價值實現(xiàn)和最大化的前提。
在美國,2009年奧巴馬入主白宮后,所做的第一件事就是要求聯(lián)邦政府各部門通過“一站式”政府數(shù)據(jù)下載網(wǎng)站向社會公開各類非保密的數(shù)據(jù)庫。如今在這個網(wǎng)站上,有超過40萬種各類原始數(shù)據(jù)文件,涵蓋了農(nóng)業(yè)、氣象、金融、就業(yè)、人口等近50個門類。
在我國,各地也在探索數(shù)據(jù)開放的機制和方式。作為“大數(shù)據(jù)”惠民的一項重要探索,北京市政務數(shù)據(jù)資源網(wǎng)預計今年年底之前正式開通,為政府信息資源的社會化開發(fā)利用提供數(shù)據(jù)支撐。北京市經(jīng)濟和信息化委員會副主任童騰飛表示:“政府部門大量信息資源,如果能開放給社會利用,會創(chuàng)造更多價值。”目前,北京市已有29個部門公布了400余個數(shù)據(jù)包,點擊量最高的“土地用途分區(qū)”已被下載684次。在上海、廣東、浙江、重慶等地,不同形式的數(shù)據(jù)開放也在探索之中。
隨著數(shù)據(jù)公開,大數(shù)據(jù)使用的監(jiān)管也被提上日程,有關專家建議,應該盡快出臺大數(shù)據(jù)相關的頂層設計方案,劃清保密信息、商業(yè)公開信息和免費公開信息、義務公開信息之間的界限,并且明確信息公開和數(shù)據(jù)使用的責任與義務。
善用大數(shù)據(jù)
安 之
《經(jīng)濟日報》,2013年11月5日
美國奈飛公司利用大數(shù)據(jù)技術拍攝《紙牌屋》的案例幾乎已成為行業(yè)中最著名的勵志故事。作為全美最大的DVD和網(wǎng)絡視頻租賃網(wǎng)站,奈飛通過數(shù)據(jù)分析技術判斷出觀眾們喜歡導演大衛(wèi)•芬奇和演員凱文•史派西,甚至通過他們按下暫停截圖的時間點,來判斷觀眾更喜歡哪些布景和畫面。
然而,《紙牌屋》的拍攝方法也引發(fā)了人們對大數(shù)據(jù)技術的思考。如果僅僅按照大眾對某種文化產(chǎn)品的興趣和取向來制作商品,也許在市場上更容易取得成功,但另一些更有創(chuàng)意的產(chǎn)品可能一開始就會遭到拋棄,只因為它們尚不為人所知。有人將之精確地概括為“大數(shù)據(jù)偏愛潮流,但忽視杰作”。
大數(shù)據(jù)技術中的能量讓人目眩,但它也并非是萬能靈藥,過分迷信大數(shù)據(jù),則很可能過猶不及。
比如數(shù)據(jù)噪音問題,被分析的數(shù)據(jù)越多,它們在統(tǒng)計上能夠呈現(xiàn)出的相關關系也必然越多,但在這些相關關系中,許多并沒有實際意義,很有可能會將人們引入歧途,這種欺騙性有可能使真正重要的線索被隱藏在數(shù)據(jù)擴張的噪音之中。
此外,大數(shù)據(jù)的使用還有個邊界問題。對大數(shù)據(jù)的迷戀還可能帶來對“數(shù)字隱私”的侵犯。毫無疑問,可以獲得的個人數(shù)據(jù)越多,其中蘊含的信息量就越大,從這個角度出發(fā),一方面要從技術層面來保障大數(shù)據(jù)時代的隱私安全,完善用戶保障體系;而在另一方面,對大數(shù)據(jù)采集的監(jiān)管必須提上日程,個人信息保護的相關法律條文還應在操作層面上進一步細化,在確保用戶知情權的前提下避免個人數(shù)據(jù)的濫用和非法售賣。
大數(shù)據(jù)是把“雙刃劍”,《大數(shù)據(jù)時代》的作者之一舍恩伯格最近表示,人們必須以一種不僅欣賞其力量,而且承認其局限的態(tài)度來接納大數(shù)據(jù)技術。使用者對大數(shù)據(jù)技術的態(tài)度和認識程度,將直接決定這一技術對未來的影響方向。