來源: 科技日報 作者: 馮衛(wèi)東 劉霞
請讀者朋友們先靜下心來想想,你能想到的最沮喪、最棘手或者簡單說來最煩惱的問題是什么?接下來,你再想想什么技術(shù)可以解決這些問題。為此,美國麻省理工學院(MIT)的《技術(shù)評論》雜志為讀者朋友們遴選出了2013年的10大突破性技術(shù),這些技術(shù)為解決問題而生,將會極大地擴展人類的潛能,也最有可能改變世界的面貌。
《技術(shù)評論》雜志的編輯在文章中指出,今年,我們首次用“突破性技術(shù)”來代替以往的“新興技術(shù)”。我們對突破性技術(shù)的定義非常簡單:能讓人們以新方式使用技術(shù)的進展。它或許是一種為人們提供有用接口的直觀設(shè)計(比如智能手表);或者是使腦損傷患者能重新形成記憶的實驗設(shè)備(比如記憶植入物)。有些技術(shù)可能對經(jīng)濟持續(xù)穩(wěn)定的發(fā)展至關(guān)重要(比如3D打印技術(shù)和超級電網(wǎng));而另外一些技術(shù)則可能會改變我們的溝通方式(比如臨時社交媒體)或者與我們的未來密切相關(guān)(比如產(chǎn)前DNA測序)。有些技術(shù)是工程師們天才創(chuàng)意的結(jié)晶;而有些技術(shù)則是科學家們對長期困擾他們的問題所采取的諸多嘗試的集大成者(比如深度學習和超高效太陽能電池)。總而言之,我們希望這份年度技術(shù)榜單不僅能告訴人們需要知道這些技術(shù);也借此對提出這些創(chuàng)意的人致以崇高敬意。
這些突破性技術(shù)中,深度學習位居榜首,其余九個分別是:超級電網(wǎng)、記憶植入物、藍領(lǐng)機器人、智能手表、產(chǎn)前DNA測序、3D打印技術(shù)、臨時社交媒體、來自廉價手機的龐大數(shù)據(jù)和超高效太陽能電池,我們希望這些技術(shù)能為我們繪制出一幅比較全面的科技發(fā)展現(xiàn)狀圖。
(一)深度學習:讓機器學會思考和做決定
現(xiàn)在的機器擁有超強的計算能力,能識別對象并實時翻譯講話。人工智能終將變得越來越聰明。
重要性:如果計算機能夠可靠地識別模式并對外部世界的發(fā)展趨勢給出正確推論,那么,它可以更有效地幫助人類。
突破:這種人工智能方法可以放之四海而皆準,廣泛應用于多個領(lǐng)域。
重要參與者:谷歌公司、微軟公司、IBM公司、加拿大多倫多大學的杰弗里•辛頓教授。
美國發(fā)明家、預言家雷•庫茲韋爾曾發(fā)明了盲人閱讀機、音樂合成器和語音識別系統(tǒng)。2012年7月,庫茲韋爾拜訪了谷歌公司的首席執(zhí)行官拉里•佩奇,但他的目的并非為了找工作。庫茲韋爾是一名受人尊敬的發(fā)明家,也在變成研究機器智能的未來學家。他想與已經(jīng)看過他即將出版的《如何創(chuàng)建思維》這本書手稿的佩奇討論此書,他對佩奇表示,他想創(chuàng)辦一家公司來實現(xiàn)自己的想法——建造一臺真正的智能計算機:能夠理解語言,接著進行推論然后自己做出決定。
很顯然,這樣一種嘗試需要谷歌公司海量的數(shù)據(jù)庫和無與倫比的計算能力。佩奇對庫茲韋爾說:“我可以給你一些權(quán)限,讓你使用我們公司的數(shù)據(jù)庫和計算機,但是,靠一家公司單打獨斗,很難做成這件事。”因此,佩奇建議除了自己開公司,從沒有在其他公司工作過的庫茲韋爾加入谷歌。庫茲韋爾很快做出了決定:今年2月,他正式入職谷歌,成為該公司的工程部主管。庫茲韋爾說:“50多年來,我專注研究人工智能就是為了這一刻。”
吸引庫茲韋爾的不僅包括谷歌公司的計算資源,而且,也包括該公司在人工智能的新領(lǐng)域——深度學習方面所取得的令人驚嘆的進步。深度學習軟件試圖模擬大腦新皮質(zhì)內(nèi)神經(jīng)元的活動,新皮質(zhì)是哺乳動物大腦皮質(zhì)的一部分,在腦半球頂層,大約2到4毫米厚,分為6層,占據(jù)大腦80%的這些皺褶正是人類思想的發(fā)源地。深度學習軟件能非常真切地學會識別用數(shù)字形式表示的聲音、圖像和其他數(shù)據(jù)的不同模式。
幾十年前,就有科學家提出了深度學習的基本思路:軟件能用人造“神經(jīng)網(wǎng)絡”來模擬大腦新皮質(zhì)中的神經(jīng)元陣列,幾十年來,研究這一領(lǐng)域的科學家們可謂喜憂摻半。但是,得益于數(shù)學公式的改進和計算能力的提升,計算機科學家現(xiàn)在能為更多虛擬神經(jīng)元建立模型。
隨著科學家們的研究不斷深入,現(xiàn)在,這些軟件在語音和圖像識別方面取得了可喜的進步。去年6月,谷歌研發(fā)的一套深度學習系統(tǒng)證明,其在YouTube視頻的1000萬張圖像中識別出諸如貓等物體的準確度為此前任何一個圖像識別系統(tǒng)的兩倍。谷歌還利用該技術(shù),降低了其最新研發(fā)的安卓(Android)手機軟件的語音識別的錯誤率。去年10月,微軟首席研究官里克•拉希德在中國演講期間,向與會來賓演示了一款令人驚嘆不已的語音軟件。該軟件可將拉希德的口頭發(fā)言轉(zhuǎn)錄成英文文本,錯誤率僅為7%,之后,再將英文文本翻譯成漢語文本,然后模仿他的口音用普通話說出那些文本。同樣在去年10月份,一個由三名研究生和兩位教授組成的團隊贏得了化學與制藥公司默克公司舉辦的一場競賽,競賽的主旨是鑒別出可導致新藥的分子,該團隊正是采用深度學習的方法,將目標對準那些最有可能與靶標綁定的分子,從而取得了成功。
谷歌目前已經(jīng)成為一塊極富吸引力的磁鐵,吸引著全球研究深度學習和相關(guān)的人工智能領(lǐng)域?qū)<壹娭另硜怼?013年3月,谷歌收購了由加拿大多倫多大學計算機科學教授杰弗里•希頓創(chuàng)立的深度學習企業(yè)DNNresearch,希頓也曾獲得過默克大獎。希頓目前將自己的時間一分為二:一半給大學;一半給谷歌。辛頓表示,他計劃“將這一領(lǐng)域的理念提取出來,用來解決實際問題——諸如圖像識別、搜索、自然語言理解等方面的問題”。
上述研究進展時刻在提醒人工智能研究領(lǐng)域的專家們:科幻小說和電影中出現(xiàn)的機器終將出現(xiàn)在現(xiàn)實生活中。的確,機器智能已滲透到各行各業(yè)并在逐步改變這些行業(yè)的面貌,從通訊、計算到醫(yī)療、制造以及運輸?shù)龋灰欢?。IBM研究的超級計算機Watson在美國著名的智力比賽中獲勝讓這一切得以彰顯。Watson也使用了一些深度學習技術(shù),而且,科學家們現(xiàn)在也在訓練它幫助醫(yī)生做決定。微軟也在手機操作系統(tǒng)Windows Phone和Bing語音搜索中用到了深度學習技術(shù)。
然而,要想將深度學習技術(shù)從語音和圖像識別領(lǐng)域擴展到其他應用領(lǐng)域則需要科學家們在概念和軟件上做出更大突破,而且還需要計算能力的進一步增強。或許,在幾年內(nèi),我們不會看到計算機能自己思考,但幾十年內(nèi)或許可以。微軟美國研究院的院長皮特•李說,深度學習已經(jīng)引發(fā)了人工智能領(lǐng)域很多新的大挑戰(zhàn)。
建造大腦
當然,有挑戰(zhàn)就會有人想解決辦法,一直有一些富有競爭力的方法來應對這些挑戰(zhàn)?,F(xiàn)在,人們已經(jīng)可以將現(xiàn)實世界的信息和規(guī)則“喂給”計算機,為了做到這一點,需要程序員們不辭辛勞地編寫這方面的軟件。這會耗費大量人力物力,但是,系統(tǒng)仍然無法處理模糊數(shù)據(jù),這些程序的使用范圍僅限于一些受控的應用領(lǐng)域,諸如手機的菜單系統(tǒng)等,該系統(tǒng)要求你通過說出特定的詞語來提要求。
人工智能領(lǐng)域出現(xiàn)后不久,神經(jīng)網(wǎng)絡也于上世紀50年代開始興起。神經(jīng)網(wǎng)絡似乎很有前景,因為它們試圖模擬大腦的工作方式,盡管采用的是一種非常簡化的形式。程序能標示出一套虛擬的神經(jīng)元然后隨機給它們分配數(shù)值或者“權(quán)值”,以讓它們之間相互關(guān)聯(lián)。這些“權(quán)值”決定了每個模擬的神經(jīng)元的反應——用數(shù)值輸出0和1來表示,通過這種方式可以對圖像中的邊框或者藍色陰影、話語中的一個音素的某個能級等特征進行數(shù)字化表達。
程序員需要訓練神經(jīng)網(wǎng)絡通過用含有這些物體的圖像或含有這些因素的聲波的數(shù)字化后的版本來探測一個物體或者音素。如果該網(wǎng)絡無法精確地識別某個特定的模式,將會有一個算法來調(diào)整這些權(quán)值。這種訓練的最終目的是讓網(wǎng)絡能夠持續(xù)一致地識別出語音或者圖像中的這種模式,也就是說,識別出每句語音中的音素“d”或者每幅圖像中的狗,這同小孩子通過觀察人們稱作狗的動物的頭型、行為以及毛皮、吠聲等等來認識狗如出一轍。
但是,早期的神經(jīng)網(wǎng)絡一次能模擬的神經(jīng)元的數(shù)量有限,因此,它們無法識別出復雜程度很高的模式,這種情況一直持續(xù)到上世紀70年代。
在上世紀80年代中期,辛頓和其他人使用所謂的“深度”模型,引發(fā)了神經(jīng)網(wǎng)絡研究的新一輪復興,深度模型能更好地利用軟件模擬多層神經(jīng)網(wǎng)絡。但是,這一技術(shù)仍然需要大量的人力投入:程序員們不得不在將數(shù)據(jù)填入神經(jīng)元網(wǎng)絡前給每個數(shù)據(jù)貼上標簽。而且,復雜的語音或者圖像識別所要求的計算能力彼時也讓人望塵莫及。
在過去十年里,辛頓和其他研究人員才終于做出了一些根本性的概念上突破。2006年,辛頓研發(fā)出了一種更有效地訓練單層神經(jīng)元的方法。即第一層網(wǎng)絡學習一些基本的特征,諸如圖像的邊緣或者聲音的最小單元等。它通過發(fā)現(xiàn)那些出現(xiàn)頻率反常高的數(shù)字化后的像素或者聲波組合來做到這一點。一旦第一層精確地識別出這些特征,那么,它將被“喂給”第二層,以便第二層訓練自己識別更復雜的特征,諸如邊角或者聲音單位的組合等等。這一過程在多層之間不斷重復,直到該系統(tǒng)能夠可靠地識別出音素或者對象為止。
就像上面提到的圖像中的貓。去年6月,谷歌演示了迄今最大的神經(jīng)網(wǎng)絡,其擁有超過10億個節(jié)點。美國斯坦福大學的計算機科學教授安德魯•恩格和谷歌的科學家杰夫•迪恩讓系統(tǒng)從1000萬個隨機選擇的YouTube視頻上挑出了貓的圖像。在該軟件模型中,一個模擬的神經(jīng)元主要注意貓的圖像。其他神經(jīng)元則專注于人臉、黃色的花朵以及其他物體的圖像。因為深層學習擁有的強大功能,盡管此前并沒有人給這些圖像貼上標簽,該系統(tǒng)還是識別出了這些互不相干的對象。
然而,讓某些人工智能專家深感震驚的是深度學習在圖像識別領(lǐng)域所取得的驚人成就。該系統(tǒng)可以給YouTube視頻中的對象分類,并添加主題,準確率達16%,盡管聽起來并不是很高,但與以前的方法相比,準確率提高了70%。迪恩強調(diào)稱,要知道,YouTube視頻中的對象總共有2.2萬個類別,大部分人都無法做到這一點。當該系統(tǒng)被要求將圖像分成1000多個常見類別時,準確率一下子飆升到50%。
大數(shù)據(jù)
在實驗中訓練多層虛擬神經(jīng)元占用了谷歌公司的1.6萬臺計算機處理器,谷歌公司研發(fā)這些計算基礎(chǔ)設(shè)施的目的是用于搜索引擎和其他服務。機器學習新興公司Vicarious的聯(lián)合創(chuàng)始人迪利普•喬治稱,人工智能領(lǐng)域最近取得的進步80%要歸功于計算能力的增強。
然而,谷歌龐大的數(shù)據(jù)中心深度學習飛速發(fā)展只是這枚硬幣的一面,谷歌的操作策略則是這枚硬幣的另一面,這些操作策略就是,將計算任務分開,讓不同的計算機執(zhí)行不同的操作以便很快完成這些任務。這是迪恩早期的研究成果,迪恩已在谷歌工作了14年。這一策略讓深度學習神經(jīng)網(wǎng)絡的訓練速度大大提高,使谷歌能夠運行更大的網(wǎng)絡并朝這些網(wǎng)絡填入更多數(shù)據(jù)。
而且,深度學習也提高了智能手機上聲音搜索軟件的性能。直到去年,谷歌的安卓(Android)手機軟件使用的方法還會弄錯很多單詞的意思。但是,在準備于去年7月發(fā)布新安卓系統(tǒng)的過程中,迪恩領(lǐng)導的研究團隊用基于深度學習的系統(tǒng)取代了部分語音系統(tǒng)。因為多層神經(jīng)元能對一個聲音的多種變形進行更精確的訓練,所以,該系統(tǒng)能更可靠地對各種支離破碎的聲音進行識別,尤其是在地鐵等嘈雜環(huán)境中的聲音。因為新系統(tǒng)能夠更好地理解話語所表達的真實意義,因此,返回的結(jié)果可能也會更加精確。幾乎一夜之間,錯誤率下降到了25%,結(jié)果好得出乎人意料之外,有些評論家現(xiàn)在甚至認為安卓的語音搜索功能比蘋果手機最著名的Siri語音助手還要更智能。
盡管上述諸多進展令人歡欣鼓舞,但是,并非每個人都認為深度學習會助推人工智能超越人腦。有些批評家表示,深度學習和人工智能從根本上忽略了大腦生物學的很多方面,太過于注重計算能力。
其中一個批評來自手提微型電腦Treo的發(fā)明者、PalmComputing公司的創(chuàng)辦人杰夫•霍金斯,2004年,霍金斯就出版了《人工智能的未來》一書,主要討論大腦如何工作以及如何為建造智能機器提供引導。
霍金斯上一個風險投資是Numenta公司,這是一個令人興奮的新公司,它試圖建立像人腦一樣的計算機,該公司正在研發(fā)一種機器學習系統(tǒng),其在生物學上受到了深度學習理論的啟發(fā),但并不使用深度學習。Numenta的系統(tǒng)能夠幫助預測能源消耗模式以及諸如風車等機器失敗的可能性。
霍金斯表示,深度學習無法解釋時間的概念。他說,大腦會處理傳感數(shù)據(jù)流,而且,人類的學習依靠回憶模式序列:當你觀察到一只貓在做某些有意思事情的視頻,有意義的是運動本身,而非谷歌在實驗中使用到的一系列靜止圖像。霍金斯說:“谷歌的態(tài)度是,數(shù)據(jù)彌補了一切。”
不過,即使數(shù)據(jù)不能彌補一切,諸如谷歌等公司用來解決這些問題的計算資源也不會被棄置。深度學習的支持者們強調(diào)說,這些數(shù)據(jù)非常關(guān)鍵,因為大腦本身比今天的任何一個神經(jīng)網(wǎng)絡都要復雜得多。他們表示:“人類需要很多計算資源來使思想更好地工作。”
敢問未來之路在何方?
盡管谷歌對深度學習的未來應用并不那么確定,但是,其前景確實慢慢在發(fā)酵。顯然,更好的圖像搜索能夠幫助YouTube。而且,迪恩表示,深度學習模型能使用語音數(shù)據(jù)來更快地訓練系統(tǒng)識別其他語音數(shù)據(jù)。更復雜的圖像識別技術(shù)有望使谷歌的自行駕駛汽車表現(xiàn)更好。而且,深度學習和人工智能軟件也將幫助谷歌和其廣告客戶更好地了解人們的想法與需求,從而對廣告營銷產(chǎn)生重大影響。
上述美好暢想正是吸引庫茲韋爾的魅力所在,65歲的庫茲韋爾多年來一直潛心研究智能機器。在高中階段,他就編寫軟件使計算機能夠制造出不同形式的音樂,并于1965年在電視秀節(jié)目《我有一個秘密》中進行了演示。從那時起,他的發(fā)明囊括了多個第一:第一臺盲人閱讀器;第一個可以對要打印的任何字體的文本進行掃描并數(shù)字化的軟件;第一個能再造交響樂器的聲音的音樂合成器;第一個具備大型詞典的對話識別系統(tǒng)。
他現(xiàn)在的設(shè)想是,未來,人們的手機通訊錄中會有一個“網(wǎng)絡朋友”,可以在用戶允許的情況下閱讀電子郵件、追蹤用戶的一舉一動,因此,當你有任何問題時,他都會告訴你答案。這并非他在谷歌的直接目的,但是,這一目的與谷歌聯(lián)合創(chuàng)始人謝爾蓋•布林的目標相吻合。在公司成立之初,布林就表示,他想建造《2001太空漫游》中人工智能電腦HAL9000(HAL9000作為太空船的總控制電腦,既具有電腦對任務的絕對服從及精確性,又具有人類思維甚至感情,它在太空旅行中設(shè)計害死了除戴維之外的所有宇航員,最后戴維讓其停止運行)那樣的智能機器,唯一不同的是,他制造出來的機器不會殺人。
庫茲韋爾目前的目標是幫助計算機理解甚至表達自然語言。他說:“我的使命是讓計算機對自然語言有足夠的理解力,然后來做有用的事情——更好地進行搜索、更好地回答問題。”最終,他希望制造出比IBM公司的Watson更好的機器——盡管他很欣賞Watson表現(xiàn)出的理解能力和快速反應能力。
庫茲韋爾并不僅僅專注于深度學習,盡管他承認他的語音識別方法也同樣基于大腦如何工作的理論。他想給單詞、詞組以及句子的本來意義建模,包括容易讓計算機犯錯的模糊意義。他說:“我想尋找一種圖畫式的方式來表達語言的語義。”
這就需要一種更綜合的方式來用圖表表示句子的句法。谷歌也在使用這種分析方法改進翻譯中的語法。更好地理解自然語言將需要計算機能夠掌握我們?nèi)祟愓J為是常識的意思。為此,庫茲韋爾將會用到谷歌的知識圖譜——谷歌對大約7億個主題、方位、人等進行的分類以及它們之間的幾十億個關(guān)系。知識圖譜去年投入使用,會給搜索者提供問題的答案而非只有鏈接。
最終,庫茲韋爾計劃用深度學習算法來幫助計算機處理“語言中的軟邊界和模糊內(nèi)容”。這聽起來令人有點望而卻步,實際情況也的確如此。他說:“理解自然語言并非像搜索那樣,是一個在某個時刻就可以完成的任務,它是一個永遠也無法完成的計劃。”
盡管庫茲韋爾的設(shè)想可能需要多年才能變成現(xiàn)實,在可見的未來,深度學習可以在語音和圖像識別之外的其他領(lǐng)域找到用武之地。首先,在藥物發(fā)現(xiàn)方面——辛頓的團隊在默克大賽中取得大獎就證明了這一點。
情況還不止于此,微軟公司的皮特•李說,深度學習可以應用于機器視覺方面,機器視覺就是用機器代替人眼來做測量和判斷,這一技術(shù)可以將成像應用于工業(yè)檢測和機器人視覺引導等方面。他也預想私人傳感器的出現(xiàn)——深度神經(jīng)網(wǎng)絡能夠用來預測可能會出現(xiàn)的醫(yī)療問題。而且,貫穿整個城市的傳感器提供的數(shù)據(jù)可能會讓深度學習系統(tǒng)預測什么地方可能會出現(xiàn)交通擁堵。
在一個企圖為人腦建模這樣富有深遠影響力的領(lǐng)域,一項技術(shù)并不能解決所有問題,這一點難以避免。但現(xiàn)在,深度學習正在引領(lǐng)人工智能的發(fā)展方向,迪恩說:“對于我們理解世界來說,深度學習真的是一個非常強大的工具。”
(二)超級電網(wǎng):出了問題也不怕
瑞士ABB集團新研發(fā)的斷路器可以實現(xiàn)長距離的直流電輸出構(gòu)想,且適用于現(xiàn)有地區(qū)及國家的電網(wǎng)中,可以在5毫秒內(nèi)切斷相當于整個核電廠輸出功率的巨大電流,速度之快相當于蜜蜂振翅一次;電流之大相當于100萬歐洲人的用電。這種大功率的斷路器有望使直流電網(wǎng)變得更實用。
重要性:直流電網(wǎng)可能會因此變得更高效,而且,也能廣泛地同風力發(fā)電廠和太陽能發(fā)電站連接到一起。
突破:第一臺實用的混合式高壓直流斷路器。斷路器指能夠關(guān)合、承載和開斷正?;芈窏l件下的電流,并能關(guān)合、在規(guī)定的時間內(nèi)承載和開斷異?;芈窏l件(包括短路條件)下電流的開關(guān)裝置。
重要參與者:瑞士ABB集團、德國西門子公司、美國電力研究院(EPRI)、美國通用原子公司。
高壓的直流電輸電線能夠有效地在幾千公里內(nèi)以及水下長距離傳輸電力,其性能遠勝目前在輸電網(wǎng)中廣泛使用的交流線。但是100多年以來,交流電線一直占據(jù)主流,因為高壓的直流電只能用于點對點傳輸,而無法形成穩(wěn)定的電力系統(tǒng)所需要的集成電網(wǎng)。
去年12月,瑞士的ABB公司正式宣布,他們在高壓直流斷路器研發(fā)領(lǐng)域獲得突破性進展,他們研發(fā)出了一種實用的高壓直流電斷路器,能將出現(xiàn)問題的部分電網(wǎng)切斷,從而保證電網(wǎng)的其他部分正常工作。這一創(chuàng)新進展解決了直流電網(wǎng)所面臨的主要技術(shù)障礙,為打造高效可靠的直流電力供應系統(tǒng)翻開了新的篇章。
清潔能源如太陽能、水力發(fā)電等,不是位于偏遠的高山、沙漠,就是自家屋頂。遺憾的是,既有的交流電系統(tǒng)無法妥善解決遠距離傳輸?shù)碾娏p失,而直流輸電技術(shù)是最佳解決之道。高壓直流輸電技術(shù)可實現(xiàn)水力電廠的遠距電力傳輸、離岸風電與太陽能并網(wǎng)及不同地區(qū)之間點對點的互相連接。
如此一來,來自于撒哈拉沙漠的太陽能就可以為多云的德國提供電力;來自于歐洲各地的風能也可以在夜間點亮電燈,從而照亮城市的夜空。結(jié)果,將會有更多可靠的可再生能源,同仇敵愾地與化石能源競爭,改變目前各種可再生能源單槍匹馬同化石能源作戰(zhàn)的現(xiàn)狀。
除了持續(xù)發(fā)展混合式直流斷路器之外,ABB同時也建立了高壓直流電網(wǎng)模擬中心,為未來電網(wǎng)系統(tǒng)進行先期研究。