CN / EN
banner圖
掌握核心技術 駕馭光的運用

技術文章

Technical Articles

計算機視覺技術的原理

日期:2020-04-21 來源:币游国际

計算機視覺就是用各種成象係統代替視覺器官作為輸入敏感手段,由計算機來代替大腦完成處理和解釋。計算機視覺的最終研究目標就是使計算機能象人那樣通過視覺觀察和理解世界,具有自主適應環境的能力。在實現最終目標以前,人們努力的中期目標是建立一種視覺係統,這個係統能依據視覺敏感和反饋的某種程度的智能完成一定的任務。例如,計算機視覺的一個重要應用領域就是自主車輛的視覺導航,還沒有條件實現象人那樣能識別和理解任何環境,完成自主導航的係統。因此,人們努力的研究目標是實現在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺輔助駕駛係統。

這裏要指出的一點是在計算機視覺係統中計算機起代替人腦的作用,但並不意味著計算機必須按人類視覺的方法完成視覺信息的處理。計算機視覺可以而且應該根據計算機係統的特點來進行視覺信息的處理。但是,人類視覺係統是迄今為止,人們所知道的功能最強大和完善的視覺係統,對人類視覺處理機製的研究將給計算機視覺的研究提供啟發和指導。因此,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,也是一個非常重要和信人感興趣的研究領域。

這一領域的深入研究是從20世紀50年代開始的,走的是三個方向——即複製人眼;複製視覺皮層;以及複製大腦剩餘部分。
複製人眼——讓計算機“去看”

目前做出最多成效的領域就是在“複製人眼”這一領域。在過去的幾十年,科學家已經打造了傳感器和圖像處理器,這些與人類的眼睛相匹配,甚至某種程度上已經超越。通過強大、光學上更加完善的鏡頭,以及納米級別製造的半導體像素,現代攝像機的精確性和敏銳度達到了一個驚人的地步。它們同樣可以拍下每秒數千張的圖像,並十分精準地測量距離。

但是問題在於,雖然我們已經能夠實現輸出端極高的保真度,但是在很多方麵來說,這些設備並不比19世紀的針孔攝像機更為出色:它們充其量記錄的隻是相應方向上光子的分布,而即便是最優秀的攝像頭傳感器也無法去“識別”一個球,遑論將它抓住。

換而言之,在沒有軟件的基礎上,硬件是相當受限製的。因此這一領域的軟件才是要投入解決的更加棘手的問題。不過現在攝像頭的先進技術,的確為這軟件提供了豐富、靈活的平台就是了。
複製視覺皮層——讓計算機“去描述”

要知道,人的大腦從根本上就是通過意識來進行“看”的動作的。比起其他的任務,在大腦中相當的部分都是專門用來“看”的,而這一專長是由細胞本身來完成的——數十億的細胞通力合作,從嘈雜、不規則的視網膜信號中提取模式。

如果在特定角度的一條沿線上出現了差異,或是在某個方向上出現了快速運動,那麽神經元組就會興奮起來。較高級的網絡會將這些模式歸納進元模式(meta-pattern)中:它是一個朝上運動的圓環。同時,另一個網絡也相應而成:這次是帶紅線的白色圓環。而還有一個模式則會在大小上增長。從這些粗糙但是補充性的描述中,開始生成具體的圖像。

使用人腦視覺區域相似的技術,定位物體的邊緣和其他特色,從而形成的“方向梯度直方圖”

由於這些網絡一度被認為是“深不可測的複雜”,因此 在計算機視覺研究的早期,采用的是別的方式:即“自上而下的推理”模式——比如一本書看起來是“這樣”,那麽就要注意與“這個”類似的模式。而一輛車看起來是“這樣”,動起來又是“這樣”。

在某些受控的情況下,確實能夠對少數幾個物體完成這一過程,但如果要描述身邊的每個物體,包括所有的角度、光照變化、運動和其他上百個要素,即便是咿呀學語的嬰兒級別的識別,也需要難以想象的龐大數據。

而如果不用“自上而下”,改用“自下而上”的辦法,即去模擬大腦中的過程,則看上去前景更加美好:計算機可以在多張圖中,對一張圖片進行一係列的轉換,從而找到物體的邊緣,發現圖片上的物體、角度和運動。就像人類的大腦一樣,通過給計算機觀看各種圖形,計算機會使用大量的計算和統計,試著把“看到的”形狀與之前訓練中識別的相匹配。

科學家正在研究的,是讓智能手機和其他的設備能夠理解、並迅速識別出處在攝像頭視場裏的物體。如上圖,街景中的物體都被打上了用於描述物體的文本標簽,而完成這一過程的處理器要比傳統手機處理器快上120倍。

隨著近幾年並行計算領域的進步,相關的屏障逐漸被移除。目前出現了關於模仿類似大腦機能研究和應用的爆發性增長。模式識別的過程正在獲得數量級的加速,我們每天都在取得更多的進步。
複製大腦剩餘部分——讓計算機“去理解”

當然,光是“識別”“描述”是不夠的。一台係統能夠識別蘋果,包括在任何情況、任何角度、任何運動狀態,甚至是否被咬等等等等。但它仍然無法識別一個橘子。並且它甚至都不能告訴人們:啥是蘋果?是否可以吃?尺寸如何?或者具體的用途。

前麵說過,沒有軟件,硬件的發揮非常受限。但現在的問題是,即便是有了優秀的軟硬件,沒有出色的操作係統,也“然並卵”。

對於人們來說,大腦的剩餘部分由這些組成,包括長短期記憶、其他感官的輸入、注意力和認知力、從世界中萬億級別的交互中收獲的十億計知識,這些知識將通過我們很難理解的方式,被寫入互聯的神經。而要複製它,比起我們遇到過的任何事情都要更加複雜。


返回列表