• 
    <ul id="auswy"><sup id="auswy"></sup></ul>
  • <ul id="auswy"></ul>
    ABB
    關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
    隨著會計的發(fā)展,追蹤碳足跡
    CAIAC 2025
    2025邊緣計算產(chǎn)業(yè)生態(tài)伙伴大會
    2025工業(yè)安全大會
    OICT公益講堂
    當(dāng)前位置:首頁 >> 資訊 >> 行業(yè)資訊

    資訊頻道

    計算機視覺簡述
    • 作者:潘春洪;張彩霞
    • 點擊數(shù):3182     發(fā)布時間:2006-02-22 09:11:27
    • 分享到:
    簡要地回顧了計算機視覺的發(fā)展史,并對它的兩個重要研究內(nèi)容-重建和識別作了重點介紹,最后列舉了一些應(yīng)用實例。
    關(guān)鍵詞:



        人們常說:眼睛是心靈的窗戶,通過眼睛人們可以輕易地交流情感,眼睛也是與外界交流的窗口,這些都是通過“看”來完成的。

        人們可以很容易“看到”一幅畫,但這一“簡單”過程并不如此簡單,大致上它可以分為以下幾個階段:首先是通過眼睛將圖成像在視網(wǎng)膜上;其次大腦對圖像進(jìn)行理解;最后根據(jù)處理的結(jié)果做出反應(yīng)。用比較專業(yè)一點的語言來描述,該過程包括了識別、描述與理解三個層次;這其中還隱含了邊緣檢測(各物體的輪廓等)、圖像的分割(各物體區(qū)域的劃分)等階段。以上實際上概述了視覺系統(tǒng)的三個層次,即低層階段:基于圖像特征提取及分割階段;中層階段:基于物體的幾何模型與圖像特性表達(dá)階段;高層階段:基于景物知識的描述、識別與理解階段,這是根據(jù)先驗知識介入的程度劃分的,且實現(xiàn)起來也越來越困難。

        毫無疑問,如何人工實現(xiàn)這一過程是極具挑戰(zhàn)性和應(yīng)用前景的一項工作,計算機視覺也因此而應(yīng)運而生。計算機視覺是研究用計算機和成像設(shè)備來模擬人和生物視覺系統(tǒng)功能的技術(shù)學(xué)科,其目標(biāo)是從圖像或圖像序列中獲取對外部世界的認(rèn)知和理解,即利用二維圖像恢復(fù)三維環(huán)境中物體的幾何信息,比如形狀、位置、姿態(tài)、運動等,并能描述、識別與理解。

        計算機視覺的基礎(chǔ)是各種成像設(shè)備,例如CCD(Charge Coupled Device )攝像機(數(shù)碼相機屬于此類型)、紅外攝像機、醫(yī)學(xué)上常用的核磁共振成像、X射線成像等,這些設(shè)備不僅可以成像,還可以獲取比人眼更豐富的圖像,人們可以形象地把攝像機看成計算機視覺的視網(wǎng)膜部分。可以說從人類拍攝出第一幅圖像開始,就為計算機視覺的誕生奠定了基礎(chǔ)。

        而計算機視覺的核心是數(shù)字電子計算機,其發(fā)展可謂突飛猛進(jìn),在計算和存儲能力上,人腦已經(jīng)無法與之相比,人們的目標(biāo)就是利用計算機非凡的計算處理能力來代替人腦實現(xiàn)對圖像的理解,而計算機日新月異的發(fā)展也使得這一愿望越來越成為可能。

        用于指導(dǎo)“計算機”這個大腦運作的核心是計算機視覺的理論方法,計算機視覺使用的理論方法主要基于幾何、概率和運動學(xué)計算與三維重構(gòu)的視覺計算理論,它的基礎(chǔ)包括射影幾何學(xué)、剛體運動力學(xué)、概率論與隨機過程、圖像處理、人工智能等理論。 在20世紀(jì)70年代,視覺研究大多采用模式識別的方法;80年代,開始采用空間幾何的方法以及物理知識進(jìn)行視覺研究;90年代以后,隨著智能機器人視覺研究的發(fā)展,引入了許多新的理論與技術(shù)如主動視覺理論、不變量理論、融合技術(shù)等,并應(yīng)用于許多計算機視覺系統(tǒng)中。

        研究計算機視覺,不得不提的是英國已故科學(xué)家戴維?馬爾(David Marr),他在計算機視覺發(fā)展史上可謂寫下了濃重的一筆。在20世紀(jì)70年代末,他提出了第一個較為完善的視覺系統(tǒng)框架,即計算視覺理論框架。他認(rèn)為視覺是一個復(fù)雜的信息處理過程,并有不同的信息表達(dá)方式和不同層次的處理過程,而最終的目的是實現(xiàn)計算機對外部世界的描述。由此,他提出了三個層次的研究方法,即計算理論層、表征與算法層以及實現(xiàn)層。并且設(shè)想出了自下而上,沒有反饋的視覺處理框架,他認(rèn)為視覺的主要任務(wù)是獲得物體的三維形狀,并把獲取過程分為三個階段,即原始基元圖(primal sketch)→2.5維圖( 2.5dimensional sketch)→3維模型表示。其中,基元圖由二維圖像中的邊緣點、直線、曲線、頂點等基本幾何元素或特征組成;2.5維圖是指對基元圖進(jìn)行一系列處理運算,推導(dǎo)出可見表面的朝向、輪廓等幾何信息,是在觀察者坐標(biāo)系下描述的部分的、不完整的三維物體形狀(另一部分是物體的背面或被遮擋的部分);3維模型表示則描述物體坐標(biāo)系下的各種形狀及其空間組織。

        迄今為止,研究者們在Marr計算視覺理論框架下,進(jìn)行了大量的研究,并取得了豐富的成果,最矚目也最完善的成果當(dāng)屬基于幾何方法的計算機視覺理論體系。



    圖1 攝像機成像的針孔模型




        日常生活中最常用的成像設(shè)備-數(shù)碼相機的理想成像模型是針孔模型,很多視覺研究內(nèi)容都是在這種模型下進(jìn)行的。如圖1所示,可以看出:景物點、針孔、景物點的像三點共線。為了方便起見,通常認(rèn)為圖像平面在針孔的前面,即虛擬圖像的位置,除了是相互倒立的外,二者是完全等價的。利用成像設(shè)備,獲取了圖像,這時圖像點的位置已經(jīng)確定,如果針孔的位置也可以確定的話,那么根據(jù)三點共線的約束,可知景物點一定在這條射線上,但是這條射線上的每一點成像都是相同的,所以僅從一幅圖像是無法確定景物點距離攝像機光心(即針孔位置)的深度的。這樣,若再有一幅包含上述景物點的圖像(同一景物點在不同相機下的像稱為一對對應(yīng)點),則存在另一條射線,兩條射線相交,從而可以確定出景物點的空間位置,如圖2所示,對于兩幅或多幅圖像上的每對對應(yīng)點都進(jìn)行類似的處理,則可獲得物體的三維形狀信息,如圖3所示。這種由兩幅或多幅兩維圖像恢復(fù)物體三維幾何形狀的方法,即是立體視覺方法,這一過程就是三維重建。其間包含了許多步工作,例如特征提取、匹配、攝像機標(biāo)定、運動估計等,每一步都凝結(jié)了眾多研究者的心血,并取得了大量優(yōu)秀的研究成果,像Canny邊緣檢測算子,Harris角點檢測,Tsai塊標(biāo)定,張正友的平面模板標(biāo)定等。



    圖2 立體視覺



     



    圖3  兩幅圖像的三維重建




        在Marr計算視覺理論框架下,觀測者(計算機)只是被動地分析獲取的靜態(tài)圖像,并不對成像設(shè)備(攝像機)做任何控制,這使得許多視覺任務(wù)(如識別、導(dǎo)航等)難以完成。可以想一下人類的視覺,人們在看的時候,眼球通常不自覺地或半自覺地跳動或轉(zhuǎn)動,這說明大腦在主動且交互式地接受外界的信息。因此,有學(xué)者提出了主動視覺、有目的的視覺、定性視覺等理論,但主動視覺的研究往往與有目的的以及定性視覺的研究結(jié)合在一起。在主動視覺系統(tǒng)中,攝像機的狀態(tài)參數(shù)如焦距、縮放、聚散度都可以控制,加之具有可以精確控制的平臺,使得許多不適定的視覺任務(wù)變?yōu)檫m定的。圖4為一主動視覺平臺,下方是一小車,最上方是兩個攝像機,計算機可以控制車和攝像機的運動、調(diào)整攝像機的注視點,并通過精確控制平臺的運動,可以獲得攝像機的運動參數(shù),從而使一些原本是非線性的問題變成線性問題,提高了計算速度和準(zhǔn)確性,這對實時地獲取外界信息并做出反應(yīng)(如避障)是非常重要的。



    圖4 主動視覺系統(tǒng)平臺




        除了重建,視覺的另一個任務(wù)是識別。其基本方法是首先建立物體模型,然后使用各種匹配算法從圖像中識別出與物體模型最相似的物體。這里,就用到了先驗知識,即識別前,物體模型需事先存儲在計算機中,這是很顯然的事情。平常人們能從圖中認(rèn)出事物,是因為大腦對它們的特征有了事先的認(rèn)識。在物體識別中,“假設(shè)檢驗”是一種很重要的識別方法,又稱為基于模型的識別方法,如圖5所示。從圖像進(jìn)行重建人們已經(jīng)粗略地作了介紹,用其重建出的部分模型與模型庫中的物體模型作比較,方法是先“假設(shè)”,后“檢驗”,即假設(shè)待識物體是模型庫中的某個物體,然后為了減少匹配時間,只利用部分幾何元素來判斷它們是否匹配,如果不匹配,則改變假設(shè);反之,則用其他幾何元素在圖像中對該匹配做“檢驗”,以此來判斷是否需要再修改假設(shè),并重復(fù)上述過程。因此,這是一種自下而上與自上而下策略的結(jié)合。



    圖5  假設(shè)檢驗方法




        可以看出,識別過程涉及了視覺中從低到高所有層次,它是當(dāng)前計算機視覺領(lǐng)域最困難但也是最活躍的領(lǐng)域。之所以困難,可以借用宋朝著名詩人蘇軾的一首詩概括:“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同”,這說明同一事物,因觀測的角度不同甚至?xí)a(chǎn)生截然相反的圖像,但是即使同一幅圖像,也可能有天壤之別的感受,如圖6所示,左圖中看起來凹的,而右圖像是凸的,但是這是同一幅圖像,只不過倒置了一下,但卻讓人們看到了如此有趣的現(xiàn)象。



    圖6  一對倒置圖




        由于計算機視覺系統(tǒng)發(fā)展遭遇到眾多瓶頸問題,如:圖像分割的不穩(wěn)定性、二維圖形到三維立體的病態(tài)問題、機器缺少大規(guī)模并行處理能力等,使得現(xiàn)有的計算機視覺系統(tǒng)在識別能力、實時性上與人類視覺相差甚遠(yuǎn),更不可比擬的是,選擇性注意的能力,即人類視覺分分秒秒都在接受外界的信息,但是人們并不會對所有的信息都處理,而是對很多都會“視而不見”。從總體的理論研究和應(yīng)用角度來說,國內(nèi)外在計算機視覺的研究水平還是處于起步階段,目前還沒有一個完整的理論體系能統(tǒng)一和解決所有的計算機視覺問題。



    圖7  工業(yè)機器人識別和定位零件系統(tǒng)示意圖


    圖8  Rocky7

        雖然困難重重,然而計算機視覺技術(shù)正在蓬勃地發(fā)展著,且已經(jīng)有了廣泛的應(yīng)用。例如:零件識別與定位,圖7是一個具有簡單視覺的工業(yè)機器人系統(tǒng)示意圖,其視覺系統(tǒng)由一個位于零件傳輸帶上方的攝像機和相關(guān)的視覺信息處理系統(tǒng)組成。為了有利于視覺系統(tǒng)將零件從傳輸帶上分離出來,并進(jìn)行識別和定位,可以選擇與零件顏色差別較大的傳輸帶。由于工業(yè)環(huán)境的結(jié)構(gòu)、照明等因素可以嚴(yán)格地控制,使得這種機器人視覺系統(tǒng)在工業(yè)生產(chǎn)和裝配中得到了成功的應(yīng)用;再如,移動機器人導(dǎo)航,圖8是美國NASA/JPL開發(fā)的Rocky7火星探測移動機器人,在其后部、前部及桅桿上都安裝了一對黑白CCD攝像機,另外,在桅桿上還安裝了一個用于近距離成像的攝像機。借助于這些視覺系統(tǒng),Rocky7可以進(jìn)行障礙檢測、自身車輛檢查、挖掘/傾倒核查等任務(wù);其他的象安全鑒別、監(jiān)視與跟蹤;運動分析;工業(yè)產(chǎn)品、農(nóng)作物生長及食品檢測;智能交通系統(tǒng);娛樂等。更可喜的是,在我國,指紋識別已達(dá)到實用階段,人臉識別也已研究成功。
    目前,基于內(nèi)容的圖像數(shù)據(jù)查詢、基于內(nèi)容的圖像自動索引等成為很熱門的研究和應(yīng)用課題,可應(yīng)用于數(shù)字圖書館、體育圖像自動分析、運動物體自動跟蹤等系統(tǒng),根據(jù)物體的二維圖像提取相應(yīng)的特征不變量進(jìn)行識別和分類也是一個十分重要的研究方向。同時,三維物體識別也開始進(jìn)入了實用階段。可以看到,視覺技術(shù)在如此多的領(lǐng)域都已經(jīng)成功地得到了應(yīng)用,而且越來越貼近生活,雖然這些還只是計算機視覺研究與應(yīng)用的冰山一角,只是邁出了萬里長征的第一步,但人們有理由相信有一天計算機會擁有人一樣的視覺識別和理解能力,為人們帶來精彩的生活。

    參考文獻(xiàn):

    [1]  馬頌德, 張正友. 計算機視覺: 計算理論與算法基礎(chǔ)[M]. 科學(xué)出版社, 1997.

    [2]  賈云得, 機器視覺[M]. 科學(xué)出版社, 2000.

    [3]  D.馬爾著, 姚國正, 劉磊, 汪云九譯. 視覺計算理論[M]. 科學(xué)出版社, 1988.

    [4]  朱淼良, 計算機視覺[M]. 浙江大學(xué)出版社, 1997.

    [5]  D. A. Forsyth, J.Ponce著, 林學(xué)

    熱點新聞

    推薦產(chǎn)品

    x
    • 在線反饋
    1.我有以下需求:



    2.詳細(xì)的需求:
    姓名:
    單位:
    電話:
    郵件: