• 
    <ul id="auswy"><sup id="auswy"></sup></ul>
  • <ul id="auswy"></ul>

    視覺(jué)知識(shí)和多重知識(shí)的表達(dá)是AI 2.0關(guān)鍵

    “一個(gè)小孩子還不會(huì)說(shuō)話時(shí),看到杯子就知道抓過(guò)來(lái)喝水。這說(shuō)明他已學(xué)到很多視覺(jué)知識(shí)?!痹谌涨芭e辦的2021中國(guó)·寧波新一代人工智能學(xué)術(shù)峰會(huì)上,中國(guó)工程院院士、中國(guó)工程院原常務(wù)副院長(zhǎng)潘云鶴解釋道。

    以往的認(rèn)知心理學(xué)研究認(rèn)為,人類記憶的視覺(jué)知識(shí)要遠(yuǎn)多于言語(yǔ)知識(shí)。為此,潘云鶴系統(tǒng)提出了“視覺(jué)知識(shí)”概念。

    這些年,圖像識(shí)別技術(shù)的突破提高了計(jì)算機(jī)對(duì)人臉、文字、指紋、醫(yī)學(xué)圖片等識(shí)別的準(zhǔn)確率,進(jìn)而推動(dòng)智能汽車、安全監(jiān)控、機(jī)器人、無(wú)人機(jī)、智能制造等快速發(fā)展,形成人工智能(AI)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的推動(dòng)。

    “但以往AI研究的一大弱點(diǎn)是對(duì)視覺(jué)知識(shí)研究不足,視覺(jué)知識(shí)研究與應(yīng)用是AI邁向2.0的關(guān)鍵。”潘云鶴說(shuō)。

    在潘云鶴看來(lái),視覺(jué)知識(shí)至少有五個(gè)基本問(wèn)題,分別是視覺(jué)知識(shí)表達(dá)、視覺(jué)識(shí)別、視覺(jué)形象變化模擬、視覺(jué)知識(shí)學(xué)習(xí)和多重知識(shí)表達(dá)。其中,視覺(jué)知識(shí)表達(dá)和多重知識(shí)表達(dá)是關(guān)鍵所在。

    對(duì)于第一個(gè)問(wèn)題視覺(jué)知識(shí)表達(dá),潘云鶴認(rèn)為,認(rèn)知心理學(xué)實(shí)驗(yàn)表明,視覺(jué)知識(shí)具有不同于言語(yǔ)知識(shí)的特征,包括能表達(dá)對(duì)象的空間形狀、大小、色彩、紋理和空間關(guān)系,能表達(dá)對(duì)象的動(dòng)作、速度及時(shí)間關(guān)系,能進(jìn)行對(duì)象的時(shí)空變換、操作與推理等。

    “計(jì)算機(jī)圖像學(xué)是表達(dá)幾何,而非表達(dá)視覺(jué)概念?!迸嗽弃Q強(qiáng)調(diào)。他進(jìn)一步解釋,視覺(jué)概念由典型和范疇構(gòu)成,還有層次結(jié)構(gòu)和動(dòng)作結(jié)構(gòu);視覺(jué)命題表達(dá)視覺(jué)概念的空間關(guān)系和時(shí)間關(guān)系,前者表達(dá)為場(chǎng)景結(jié)構(gòu),后者表達(dá)為動(dòng)態(tài)結(jié)構(gòu);最后形成由一組視覺(jué)命題構(gòu)成的視覺(jué)述事。

    對(duì)于第二個(gè)問(wèn)題視覺(jué)識(shí)別,潘云鶴介紹,從AI早期開(kāi)始,模式識(shí)別便作為一個(gè)重要研究領(lǐng)域,其中圖像和視頻識(shí)別是發(fā)展最快的方向。

    使用基于數(shù)字圖像處理技術(shù)的圖像識(shí)別技術(shù),是一種從局部特征綜合為整體的方法。近年來(lái),深度學(xué)習(xí)提供了另一種方法,即用大量標(biāo)識(shí)的圖像訓(xùn)練出深度神經(jīng)網(wǎng)絡(luò)模型(DNN)用以圖像識(shí)別,該方法已獲廣泛應(yīng)用。他表示,DNN的優(yōu)點(diǎn)是可以從標(biāo)識(shí)的樣本數(shù)據(jù)中通過(guò)學(xué)習(xí)而自動(dòng)獲得知識(shí),也可以用于非符號(hào)數(shù)據(jù)的識(shí)別,如圖像與語(yǔ)音識(shí)別;但其缺點(diǎn)也同樣明顯,如不可解釋、不可推理,需要大量被標(biāo)識(shí)的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)等。

    值得注意的是,人類進(jìn)行視覺(jué)識(shí)別的方法,與DNN的方法不盡相同。它不僅分析視網(wǎng)膜傳入的短期記憶中的數(shù)據(jù),而且動(dòng)用了長(zhǎng)期記憶中的視覺(jué)知識(shí)。正因?yàn)槿绱?,人類的視覺(jué)識(shí)別往往只需少量的數(shù)據(jù),且可以解釋、推理。

    “因此,視覺(jué)識(shí)別不但要使用數(shù)據(jù),而且要使用視覺(jué)知識(shí),是視覺(jué)識(shí)別重要的研究方向。”潘云鶴說(shuō)。

    潘云鶴提出第三個(gè)問(wèn)題是視覺(jué)形象變化模擬。形象變化是人類在設(shè)計(jì)創(chuàng)意和問(wèn)題求解時(shí)重要的智能行為。而模擬形象變化,需要操作視覺(jué)形象的物理變化、生物變化、想象變化等。以想象變化為例,即在創(chuàng)意與設(shè)計(jì)新產(chǎn)品中的各種想象性操作,如阿凡達(dá)、獅子王、小飛象等。

    實(shí)際上,視覺(jué)形象變化模擬在CAD、仿真模擬、計(jì)算機(jī)動(dòng)畫、兒童教育和數(shù)字媒體創(chuàng)意等領(lǐng)域的應(yīng)用十分廣泛。按照數(shù)字媒體的不同,可分為從字符生成視覺(jué)形象、從一種視覺(jué)形象變換為另一種形象、從視覺(jué)形象生成文本等。

    潘云鶴判斷,計(jì)算機(jī)圖像學(xué)已儲(chǔ)備了很多基礎(chǔ)技術(shù),但有待和AI打通?!白龊昧耍型纬尚乱淮O(shè)計(jì)軟件的基礎(chǔ)?!?/p>

    第四個(gè)問(wèn)題是視覺(jué)知識(shí)學(xué)習(xí)。事實(shí)上,計(jì)算機(jī)視覺(jué)研究已注意到形體重構(gòu)的重要性,并積累了很多成果,如3D掃描重構(gòu)形體、多相機(jī)重構(gòu)形體、基于video重構(gòu)形體等。但視覺(jué)知識(shí)學(xué)習(xí)要將目標(biāo)從形狀重構(gòu)轉(zhuǎn)換為視覺(jué)知識(shí)概念和命題的重建,則需要對(duì)現(xiàn)有計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)一步研究。

    “在此基礎(chǔ)上,有望發(fā)展出視覺(jué)知識(shí)的自動(dòng)學(xué)習(xí),當(dāng)前的場(chǎng)景圖是此方向前進(jìn)的一步?!迸嗽弃Q表示,為此,當(dāng)今AI、計(jì)算機(jī)圖像學(xué)和計(jì)算機(jī)視覺(jué)三個(gè)領(lǐng)域的研究者特別需要聯(lián)手,進(jìn)一步研究視覺(jué)知識(shí)的自動(dòng)學(xué)習(xí)。

    最后一個(gè)問(wèn)題是多重知識(shí)表達(dá)。研究發(fā)現(xiàn),人腦中的知識(shí)是多重表達(dá)的。在潘云鶴看來(lái),在AI 2.0中的知識(shí)也應(yīng)有多重表達(dá),如知識(shí)的言語(yǔ)表達(dá)、知識(shí)的深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)表達(dá)、知識(shí)的形象表達(dá)。

    他強(qiáng)調(diào),AI 2.0要使多種知識(shí)表達(dá)相通使用,就是多重知識(shí)表達(dá),而它將形成跨媒體智能和大數(shù)據(jù)智能的技術(shù)基礎(chǔ)。

    潘云鶴分析,從視覺(jué)知識(shí)的五大問(wèn)題來(lái)看,視覺(jué)形象變化模擬、視覺(jué)識(shí)別、視覺(jué)知識(shí)學(xué)習(xí)的解決有較好的基礎(chǔ),但視覺(jué)知識(shí)表達(dá)、多重知識(shí)表達(dá)尚需大力攻關(guān)?!斑@是一塊荒蕪而肥沃的‘北大荒’,也是一塊充滿希望且值得探索的‘無(wú)人區(qū)’?!?/p>

    來(lái)源:《中國(guó)科學(xué)報(bào)》