編者按
人類視聽覺認知機理研究是認知科學的重要組成部分,而人類視聽覺信息的機器理解與計算一直是人工智能領域的主要研究內(nèi)容,在國民經(jīng)濟、社會發(fā)展和國家安全等領域中扮演著十分重要的角色。
2008年,國家自然科學基金委員會(以下簡稱自然科學基金委)設立了重大研究計劃“視聽覺信息的認知計算”,旨在發(fā)展和構建新的認知計算模型與算法,為提高計算機對非結(jié)構感知信息與海量異構信息的理解能力和計算效率提供科學支撐。
實施10年來,該重大研究計劃取得了豐碩成果。本期基金版將總結(jié)該重大研究計劃的經(jīng)驗,展示其取得的成績。
當前,人們對于人工智能也許并不陌生,因為從幾年前開始,相關新聞就時常見諸報端:AlphaGo在圍棋比賽中戰(zhàn)勝人類冠軍李世石和柯潔、無人駕駛汽車獲發(fā)測試牌照即將上路、越來越多高校成立人工智能學院和研究院……
簡言之,人工智能就是讓機器能像人那樣理解、思考和學習,即用計算機模擬人的智能。它涵蓋認知與推理(包含各種物理和社會常識)、計算機視覺、自然語言理解與交流(包含聽覺)、機器學習等廣泛的學科領域。因此可以說,視聽覺信息的認知計算是人工智能重要研究內(nèi)容,理解人類視聽覺認知并建立可計算視聽覺認知模型對人工智能的核心算法具有重大的啟示意義。
來自上世紀的設想
但如果將時間回撥至二十年前,公眾對人工智能的認識既沒有如此深刻,也不像如今這樣對它抱有那么大的期待。甚至在上世紀九十年代初,面對全球范圍內(nèi)現(xiàn)代PC的出現(xiàn)和普及,人工智能由于發(fā)展不及預期導致遇到資金困難等難題,經(jīng)歷了一場寒冬。不過,這個在當時看似“無人問津”的領域引起了中國工程院院士、西安交通大學教授鄭南寧的注意。
“為什么人工智能會遭遇寒冬?我們面臨的挑戰(zhàn)是什么?”上世紀90年代初,中國工程院院士、西安交通大學教授鄭南寧對這個問題進行了深入思考。
“1999年,‘視聽覺信息的認知計算’重大研究計劃立項的前期思考和頂層設計工作就開始了?!痹撝卮笱芯坑媱澲笇<医M組長鄭南寧告訴《中國科學報》,但由于科學家們最初并沒有形成基本的共識,因此歷經(jīng)9年艱辛的研究積累和多次探討,在自然科學基金委和專家們的共同努力下,才終于在2008年正式啟動了這一重大研究計劃,“這是我國在人工智能基礎研究領域發(fā)展的里程碑之一,標志著中國人工智能科學研究‘國家隊’的正式組建”。
“本重大研究計劃在立項伊始,人工智能技術還未形成當今席卷全球范圍的研究熱潮,足以體現(xiàn)出自然科學基金委與相關專家的學術洞察力和戰(zhàn)略前瞻眼光?!被厥淄拢嵞蠈幮牢康卣f。通過這一重大研究計劃的資助,我國在人工智能領域從理論、方法、技術到應用都得到了蓬勃發(fā)展。
讓基礎研究走出實驗室
立項之初,為確保國家安全與公共安全、推動信息服務及相關產(chǎn)業(yè)發(fā)展以及提高國民生活和健康水平,研究人員確定了“視聽覺信息的認知計算”重大研究計劃的目標,即研究并構建新的計算模型與計算方法,提高計算機對非結(jié)構化視聽覺感知信息的理解能力和海量異構信息的處理效率,克服圖像、語音和文本(語言)信息處理所面臨的瓶頸困難。
如何才能實現(xiàn)這一目標?在鄭南寧看來,這需要從人類的視聽覺認知機理出發(fā)?!皣@認知過程的‘表達’與‘計算’這一基本科學問題,我們重點開展了‘感知特征的提取、表達與整合’‘感知數(shù)據(jù)的機器學習與理解’和‘多模態(tài)信息協(xié)同計算’三個核心科學問題的研究?!?/p>
“計算機對感知信息不能有效處理,根本原因則是不能對真實場景的基本特征進行可靠提取,缺乏對真實場景基本特征的一般表達方式以及對不同模態(tài)下信息特征有效整合的理論。”他指出,雖然機器學習和人工神經(jīng)網(wǎng)絡等方法近年來在高維數(shù)據(jù)可視化、特征提取、數(shù)據(jù)聚類與特征子空間分析等方面取得了重要進展,但非結(jié)構化數(shù)據(jù)本質(zhì)維數(shù)的確定仍然是一個公開的難題;現(xiàn)有的信息處理方法主要是針對單模態(tài)的,對多模態(tài)信息的處理還基本上停留在將各種單模態(tài)信息的處理結(jié)果在決策層面上進行融合。“正是因為這些基本問題沒有得到解決,計算機才只能處理比較理想狀態(tài)下的一些簡單問題,很難處理現(xiàn)實世界中的復雜問題?!?/p>
通過對上述三個核心科學問題的研究,十年來,該重大研究計劃在認知機理和模型、視聽覺信息處理、自然語言(漢語)理解等方面取得了一系列標志性成果。
例如在視覺認知機理方面,研究人員提出了知覺物體的拓撲學定義和注意瞬脫的拓撲學解釋等基礎理論和模型;在視聽覺信息處理與計算方面,建立了視覺注意力統(tǒng)計學習計算模型和顯著性目標檢測新理論;在漢語自然語言理解方面,創(chuàng)建了一種新的語義計算理論框架,成功研發(fā)了一系列面向公共安全的語言交互系統(tǒng)。
據(jù)不完全統(tǒng)計,截至2018年9月,該重大研究計劃共發(fā)表學術論文2255篇,申請國家發(fā)明專利532項。其中,在認知和信息科學相關領域的國際權威期刊上發(fā)表論文163篇,包括在影響因子5.0以上期刊發(fā)表論文50余篇。
“特別值得一提的是,為了進一步推動研究工作走出實驗室、產(chǎn)生原創(chuàng)性重大成果,本重大研究計劃創(chuàng)建了兩個比賽平臺,即‘中國智能車未來挑戰(zhàn)賽’和‘中國腦—機接口比賽’,并組織了10屆‘中國智能車未來挑戰(zhàn)賽’和2屆‘中國腦—機接口比賽’?!编嵞蠈幗榻B道,通過在真實的物理環(huán)境中驗證理論成果,解決實際環(huán)境中復雜認知和智能行為決策等問題,改變了簡單的論文匯總或?qū)嶒炇页晒菔镜膫鹘y(tǒng)模式,促進了應用基礎研究與物理可實現(xiàn)系統(tǒng)的有機結(jié)合。
而這也為我國培養(yǎng)和造就了一大批計算機視覺、腦機接口、無人駕駛技術和人工智能等方面的優(yōu)秀中青年人才。鄭南寧說:“尤其是‘中國智能車未來挑戰(zhàn)賽’,歷經(jīng)10年的摸索和實踐,業(yè)已成為中國無人車研發(fā)的重要品牌,培養(yǎng)了一大批本領域優(yōu)秀的中青年科技骨干,是當之無愧的中國無人車研發(fā)‘黃埔軍?!!?/p>
加強學科交叉共融
人類視聽覺認知機理研究是認知科學的重要組成部分,而人類視聽覺信息的機器理解與計算一直是人工智能領域主的要研究內(nèi)容??梢哉f,自立項之日起,“視聽覺信息的認知計算”重大研究計劃就帶有明顯的學科交叉屬性,比如信息科學、神經(jīng)科學、認知心理學、數(shù)理科學等學科的交叉——而這也是鄭南寧十年來感受頗深的地方。
“我們所談的科學問題普遍性越強,它所牽涉的交叉性就越強。要解決基礎科學問題,必須走學科交叉這條路?!编嵞蠈幗榻B說,該重大研究計劃以“認知計算和腦機接口”和“無人駕駛與智能測試”兩方面為切入點,共部署了5個集成項目,根據(jù)承擔集成項目的10個項目組的不完全統(tǒng)計,論文分別發(fā)表在信息科學、認知科學、心理學、神經(jīng)科學、物理學、生命科學等領域的國際核心學術刊物上,“充分體現(xiàn)了多學科交叉的特點和我們研究工作的學術水平,另外,自然科學基金委信息學部在重大研究計劃實施的管理機制創(chuàng)新方面,也為不同領域?qū)<业暮献髁㈨梽?chuàng)造了寬松的環(huán)境” 。
比如,視覺注意機制是生物視覺的一個重要特性,早期的研究主要集中在心理學、認知科學和神經(jīng)生理學等領域,上世紀80年代后,這一課題引起了計算機視覺、人工智能等領域?qū)W者的重視。該重大研究計劃針對自主式車輛視覺導航的需要,多個課題組對此問題開展了深入的研究,在計算視覺與生物視覺結(jié)合方面開展了深入的多學科交叉,取得一批重要學術成果:清華大學在人機駕駛模型融合研究方面,開展了駕駛員感知信息處理與融合的認知機制研究;吉林大學模擬真實駕駛員對預期軌跡信息的認知處理機理,研究無人駕駛車輛的局部路徑規(guī)劃問題;西安交通大學研究了視覺注意機制建模問題,成為視覺注意力檢測的代表性工作。
不過,在鄭南寧看來,研究者的學科交叉還有待進一步深入。
“一方面,學科交叉取決于學者的熱情,這是根本因素。同時,也要有自上而下的組織?!辈贿^他指出,從實際情況來看,這兩方面都有所不足,“研究者應該更多地去主動思考科學問題背后的學科交叉需求,對于研究中存在的一些急功近利,也需要去改變”。
實際上,不僅解決科學問題需要學科交叉,應對人工智能所帶來的深刻的社會問題,也同樣需要學科交叉。“因為人工智能模糊了物理現(xiàn)實、數(shù)據(jù)和個人的界限,延伸出復雜的倫理、法律和安全問題。人工智能的逐漸普及和深度應用一定會給人們帶來心理的影響,進而產(chǎn)生社會人文風險,這已不是傳統(tǒng)的工程安全方法能夠解決的問題了。因此在這些領域,人文社會學科和哲學學科將會大有作為?!编嵞蠈幷f。
摘自《中國科學報》