智能視覺(jué)分析技術(shù)應用而生 未來(lái)市場(chǎng)可觀(guān)
發(fā)布時(shí)間: 2015-03-27 瀏覽:181次
淺談智能視覺(jué)技術(shù)應用與發(fā)展
【CPS中安網(wǎng) cps.com.cn】通俗地說(shuō),智能視覺(jué)技術(shù),就是通過(guò)計算機自動(dòng)對攝像頭采集的視頻信息進(jìn)行分析處理,從視頻序列中捕捉存在的感興趣區域及目標,并進(jìn)一步獲取目標的出現時(shí)間、運動(dòng)軌跡、顏色等諸多信息,通過(guò)對各個(gè)目標的上述信息的分析。
智能視覺(jué)技術(shù)核心是運動(dòng)目標檢測、分類(lèi)、跟蹤與識別技術(shù)等。運動(dòng)目標檢測是將視頻圖像序列中的感興趣目標(如車(chē)輛或人)檢測出來(lái),以備后續步驟的使用;目標檢測的目的就是準確地從通過(guò)運動(dòng)檢測得到的運動(dòng)區域中提取出與目標相對應的團點(diǎn)。
研究人員已經(jīng)開(kāi)發(fā)了多種運動(dòng)目標檢測的方法,包括幀間差分法,光流法和背景減除算法。根據實(shí)際應用需求的不同,不同的檢測算法都是在可靠性、實(shí)時(shí)性和準確性之間折衷得到的。目標分類(lèi)的目的是從檢測到的運動(dòng)區域中將對應于人的運動(dòng)區域提取出來(lái).不同的運動(dòng)區域可能對應于不同的運動(dòng)目標,比如交通道路上監控攝像機所捕捉的序列圖像中可能包含行人、車(chē)輛及其它諸如飛鳥(niǎo)、流云、搖動(dòng)的樹(shù)枝等運動(dòng)物體,為了便于進(jìn)一步對行人進(jìn)行跟蹤和行為分析,運動(dòng)目標的正確分類(lèi)是完全必要的.注意,這個(gè)步驟在一些情況下可能是不必要的(比如已經(jīng)知道場(chǎng)景中僅僅存在人的運動(dòng)時(shí))。運動(dòng)目標跟蹤是在需要監控的環(huán)境里,如何能夠判斷出進(jìn)入特定區域的目標,并且能夠跟蹤目標的軌跡。
具體可分為兩種情況:一是靜態(tài)背景下的目標跟蹤;二是動(dòng)態(tài)背景下的目標跟蹤。靜態(tài)背景下的目標跟蹤方法具體可分為單目標跟蹤與多目標跟蹤。單目標的靜態(tài)背景下的目標跟蹤指的是攝像頭是固定在某一方位,其所觀(guān)察的視野也是靜止的。多目標跟蹤是指在靜態(tài)環(huán)境下的多目標跟蹤,需要確定每個(gè)目標的特征,位置,運動(dòng)方向,速度等信息。動(dòng)態(tài)背景下的目標跟蹤指的是攝像頭在云臺控制下旋轉,會(huì )使得他所采集的圖像時(shí)可在變化,所以,對于整個(gè)目標跟蹤過(guò)程來(lái)說(shuō),背景是變化,目標也是在整個(gè)過(guò)程中運動(dòng)的,所以跟蹤起來(lái)較有難度。人的行為理解與描述是越來(lái)越被廣泛關(guān)注的研究熱點(diǎn),它是指對人的運動(dòng)模式進(jìn)行分析和識別,并用自然語(yǔ)言等加以描述.行為理解可以簡(jiǎn)單地認為是時(shí)變數據的分類(lèi)問(wèn)題,即將測試序列與預先標定的代表典型行為的參考序列進(jìn)行匹配。
當前的智能視覺(jué)技術(shù)主要集中在基于RGB光學(xué)圖像的處理上,根據各種顏色空間、目標的紋理結構分析或者灰度特征、運動(dòng)特征等來(lái)檢測與跟蹤目標,但由于RGB圖像無(wú)法獲取物體在三維空間中的距離信息,相關(guān)的算法受到周?chē)h(huán)境、光照變化、背景等因素的影響,在目標檢測與跟蹤上魯棒性較差,難以實(shí)現復雜場(chǎng)景下的任意目標檢測和在線(xiàn)跟蹤,應用受到很大的限制。
因為彩色攝像頭獲取的圖像只保留了空間的二維信息,所以這些方法都是二維空間上進(jìn)行處理,只能獲得目標的二維運動(dòng)信息。真實(shí)世界中的目標是在三維空間運動(dòng)的,如果只獲取二維運動(dòng)信息將難以達到實(shí)際應用的魯棒性要求。因此,越來(lái)越多的研究者開(kāi)始利用深度圖像來(lái)進(jìn)行目標的檢測、跟蹤與識別。目前通過(guò)圖像感應器獲取三維信息主要有兩種方式。其中一種原理與人眼視覺(jué)系統類(lèi)似,采用兩個(gè)彩色攝像頭同時(shí)拍攝同一場(chǎng)景,通過(guò)兩個(gè)攝像頭的視差推導出場(chǎng)景中像素離攝像機的遠近,即深度(Depth)。這種方式通常稱(chēng)為雙目立體視覺(jué)(BinocularStereoVision)。利用雙目圖像推導深度信息需要先計算兩幅圖像像素之間的對應關(guān)系,即左邊圖像的像素與右邊圖像的哪個(gè)像素是描述的空間中的同一個(gè)點(diǎn)。根據投影關(guān)系,距離較遠的點(diǎn)投射到兩個(gè)圖像平面的坐標偏差較小。利用這一原理可以通過(guò)坐標偏差推導出深度。
然而求左右圖像像素的對應關(guān)系是一個(gè)不適定性問(wèn)題(Ill-PosedProblem),因為本質(zhì)上彩色攝像機捕獲的表面的外觀(guān),并不包含深度信息,求對應關(guān)系只能根據外觀(guān)的相似度來(lái)推導,而不是同一位置的外觀(guān)也可能是相似的。因此雖然多年來(lái)學(xué)者們在這個(gè)方向上嘗試了各種可能的手段,仍不能取得滿(mǎn)意的效果。另外,計算像素對應關(guān)系以及根據對應關(guān)系并利用像素間的相關(guān)性進(jìn)行優(yōu)化得到深度都需要耗費大量的計算資源。到目前為止,該問(wèn)題仍是一個(gè)開(kāi)放性問(wèn)題,沒(méi)有能夠產(chǎn)品化而得到普遍的應用。
另一種利用圖像感應器獲取三維信息的原理與雷達類(lèi)似:采用主動(dòng)的方式由一個(gè)激光發(fā)射器向場(chǎng)景中發(fā)射激光(一般是肉眼不可見(jiàn)的紅外激光),然后用一個(gè)接受感應器接受反射回來(lái)。發(fā)射的激光可以是一些特定的規則模式,遠近不同的對象反射回來(lái)后模式會(huì )不同(如大小),這樣通過(guò)分析接收到的發(fā)射紅外圖像就可以得到深度信息。這種方式稱(chēng)之為結構光(StructuredLight)深度獲取方法;發(fā)射的激光也可以是一些相位固定,遠近不同的對象發(fā)射會(huì )得到不同的相位,這樣根據接收到的激光的相位可以分析出激光飛行的時(shí)間,從而得到深度。這種方式稱(chēng)之為飛行時(shí)間(Time-of-Flight,ToF)深度獲取方式。
不管是結構光還是ToF方式的攝像頭,早期由于其制造工藝復雜,造價(jià)很貴,而且感應速度很慢遠達不到實(shí)時(shí),只能應用在一些專(zhuān)業(yè)領(lǐng)域。隨著(zhù)制造技術(shù)及電子技術(shù)的發(fā)展,最近兩年來(lái),這類(lèi)利用光源獲取深度信息的技術(shù)取得了突破性的進(jìn)展。一些價(jià)格低廉并且速度很快的三維成像設備開(kāi)始面世。不少公司都發(fā)布了可以實(shí)時(shí)采集深度信息的攝像頭(例如MicrosoftKinect、PrimeSense、華碩Xtion)等。這些攝像頭可以以大于30幀每秒的速度采集分辨率超過(guò)640480的深度圖像。所謂深度圖像指以像素矩陣的形式組織的場(chǎng)景中的深度信息,與普通圖像不同的是,圖像中的每一個(gè)像素的值不是顏色或者灰度值,而是該像素描述的點(diǎn)離攝像機的距離。Kinect是微軟在2010年發(fā)布的專(zhuān)為XBOX360游戲機開(kāi)發(fā)的體感設備,它使用結構光產(chǎn)生深度圖像。Kinect的全身體感技術(shù)引發(fā)了基于深度信息的研究熱潮如圖1所示。
深度圖像的處理和識別雖然不是一個(gè)全新的研究方向,但是以前由于受限于深度攝像頭,其研究都局限在一些專(zhuān)業(yè)的領(lǐng)域,很多地方還是空白。隨著(zhù)廉價(jià)實(shí)時(shí)的深度攝像頭的出現,對人機交互和計算機視覺(jué)提出了很多新的問(wèn)題。從近兩年計算機視覺(jué)和模式識別的頂級國際會(huì )議IEEEConferenceonComputerVisionandPatternRecognition(CVPR)上發(fā)表的論文來(lái)看深度圖像處理相關(guān)的論文越來(lái)越多并且影響力也越來(lái)越大。
其次,由于廉價(jià)、實(shí)時(shí)的深度圖像攝像頭的出現,在視頻監控領(lǐng)域也有了不俗的應用。韓國一名程序員利用Kinect開(kāi)發(fā)出了一款監視邊境線(xiàn)的系統,如圖2所示。這個(gè)系統早在去年8月就開(kāi)始開(kāi)發(fā),直到最近才向外界公開(kāi),并被韓國軍方使用。這個(gè)系統利用Kinect攝像頭的紅外線(xiàn)功能檢測穿過(guò)韓朝兩國邊境線(xiàn)的物體,能夠識別動(dòng)物和人。如果系統檢測到穿過(guò)邊境線(xiàn)的是人,就會(huì )立即拉響最近的警報。
微軟表示Kinect最具潛力的一個(gè)新用途就是用來(lái)確保家庭安全,它的運動(dòng)跟蹤系統完全可以勝任這種類(lèi)似安防攝像機的工作。雖然傳統的安防攝像機也可以很出色的完成安防工作,但Kinect的感應功能引入以后就可以更精準的跟蹤入侵者的活動(dòng),以便讓記錄下了更有利用價(jià)值的視頻資料。歐洲的一家高端視頻監控公司也利用KINECT進(jìn)行安全監控,他們開(kāi)發(fā)的產(chǎn)品使用戶(hù)可以通過(guò)手勢來(lái)改變監控錄像的布局,可進(jìn)行錄像、變焦、快退、孤立片段的操作以及內容顯示如地圖和網(wǎng)頁(yè)等。
國內不少院校也對基于深度信息的智能視頻技術(shù)展開(kāi)了深入研究,武漢大學(xué)計算機學(xué)院國家多媒體軟件工程技術(shù)研究中心采用微軟公司的Kinect傳感器來(lái)獲取深度圖像,并重點(diǎn)研究基于深度圖像實(shí)時(shí)徒手交互中的人手檢測、跟蹤與手勢識別技術(shù),實(shí)現復雜背景下自然的手勢交互。人手檢測指交互系統初始化時(shí)判定場(chǎng)景中出現人手或者出現有交互意愿的人手;人手跟蹤指根據初始的人手位置判斷后續幀圖像中人手的位置,手勢識別以人手部的動(dòng)作直接控制計算機的輸入。
針對KINECT深度圖在距離變大情況下人手輪廓模糊,無(wú)法根據手部輪廓特點(diǎn)來(lái)確認候選手區域,揮手檢測失敗的問(wèn)題,根據人手形狀在距離變化的情況下,長(cháng)寬比例滿(mǎn)足長(cháng)條形的約束條件,引入人手形狀似長(cháng)條型先驗知識,提出基于形狀先驗和運動(dòng)先驗的區域增長(cháng)人手定位模型,形狀先驗按手型形狀比例約束為限制,不受用戶(hù)與攝像頭距離遠近變化的影響。克服了手部輪廓模糊無(wú)法獲取候選人手及質(zhì)心的困難。結合揮手運動(dòng)先驗,最終定位人手啟動(dòng)人機交互。將揮手檢測的適用距離由以前的0.7米到1.8米增加到3.2米,同時(shí)檢測率達到95%,提升了揮手檢測的效率,如圖3所示。針對人手跟蹤過(guò)程中,人手與軀干融合導致跟蹤失敗的問(wèn)題,提出了基于鄰域深度距離度量的人手跟蹤模型,通過(guò)預判人手與軀干融合情況,來(lái)決定是否啟動(dòng)人手運動(dòng)檢測,恢復人手跟蹤,解決了人手與軀干融合時(shí),人手跟蹤錯誤問(wèn)題,預判融合正確率92.9%,跟蹤恢復正確率92.3%如圖4所示。以上研究結果在國內外發(fā)表多篇SCI、EI檢索的科技文獻及專(zhuān)利。其成果具有現實(shí)的應用價(jià)值。
綜上所述,智能視覺(jué)技術(shù)是安防領(lǐng)域中一個(gè)重要的研究分支,它在智能監控、虛擬現實(shí)、用戶(hù)接口等方面的應用前景引起了廣大科研人員的濃厚興趣。更多的研究者們正逐步將其成果推向更加智能的應用場(chǎng)合。