在機(jī)器人領(lǐng)域,場景識別可以幫助機(jī)器人理解周圍環(huán)境,完成精準(zhǔn)的作業(yè)任務(wù)。隨著人工智能技術(shù)在各行業(yè)的深入應(yīng)用,對場景識別的準(zhǔn)確性和魯棒性要求不斷提高。
在實(shí)際場景中,光照變化、物體遮擋、視角差異及同類場景的多樣性,容易導(dǎo)致識別方法難以提取穩(wěn)定且具代表性的特征。此外,復(fù)雜場景中多語義信息的高效融合、避免信息冗余或丟失,以及提升模型泛化能力,是亟待解決的技術(shù)難點(diǎn)。
近日,中國科學(xué)院沈陽自動(dòng)化研究所光電信息技術(shù)研究室機(jī)器視覺研究部科研團(tuán)隊(duì)提出了一種結(jié)合CLIP多模態(tài)模型的場景識別新方法——OSFA(Object-Level and Scene-Level Feature Aggregation)。該方法通過動(dòng)態(tài)聚合對象級與場景級特征,可以顯著提升復(fù)雜場景的分類精度與魯棒性。
OSFA方法框架
首先,科研人員將CLIP的視覺特征作為先驗(yàn)信息,采用對象級交叉注意力機(jī)制,提取與場景高度相關(guān)的局部細(xì)節(jié)特征。隨后,利用CLIP的文本編碼器生成類別文本語義信息,引導(dǎo)從圖像中提取全局語義特征,再通過場景級交叉注意力機(jī)制形成最終的場景表示。為了增強(qiáng)模型魯棒性,還引入了多損失策略,包括線性分類損失、場景對比損失和類別對比損失。
研究結(jié)果顯示,該場景識別方法可有效聚合特征,顯著提升復(fù)雜場景分類精度與魯棒性,能為視覺導(dǎo)航、機(jī)器人應(yīng)用等領(lǐng)域的場景理解與智能決策提供技術(shù)支撐,助力提升感知與任務(wù)執(zhí)行效率。
該研究以O(shè)bject-Level and Scene-Level Feature Aggregation with CLIP for Scene Recognition為題發(fā)表于國際期刊Information Fusion。沈陽自動(dòng)化所博士生王群為第一作者,沈陽自動(dòng)化所朱楓研究員為通訊作者。
光電信息技術(shù)研究室機(jī)器視覺研究部長期從事智能感知與場景理解關(guān)鍵技術(shù)的研究,致力于推動(dòng)人工智能在智能制造、服務(wù)機(jī)器人、智慧城市等領(lǐng)域的深入應(yīng)用。(光電信息技術(shù)研究室)
論文鏈接:https://doi.org/10.1016/j.inffus.2025.103118
來源:中國科學(xué)院沈陽自動(dòng)化研究所