關注我們
4008-060-618公司地址:廣州市番禺區南村鎮市新路103工業園生產基地:廣州市番禺區南村鎮市新路北段325號
留言
富華智能科技 版權所有 ? CopyRight (2020-2022) 粵ICP備16097240號
交互性是虛擬現實的三大特性之一,虛擬現實的人機交互是指用戶以便攜、自然的方式通過交互設備與計算機所產生的虛擬世界對象進行的交互, 通過用戶與虛擬環境之間的雙向感知建立起一個更為自然、和諧的人機環境,是虛擬現實為用戶提供體驗、走向應用的核心環節。作為納斯達克上市企業“微美全息US.WIMI”旗下研究機構“微美全息科學院”的科學家們對一種新型的虛擬現實交互技術-基于視覺的手勢交互技術進行介紹。
1、基于視覺的手勢交互技術
手勢是人與人之間非語言交流的最重要方式,也是人與VR虛擬環境交互的重要方式之一。手勢識別的準確性和快速性直接影響人機交互的準確性、流暢性和自然性。基于視覺的手勢交互,用戶無需穿戴設備,具有交互方便、自然和表達豐富的優點,符合人機自然交互的大趨勢,適用范圍廣?;谝曈X的手勢交互作為人機交互的重要組成部分,對實現人與VR虛擬環境自然交互具有重要意義,有廣泛的應用前景。
基于視覺的手勢交互使用手勢識別方法實現人機交互,從交互過程來看,主要包含4個步驟,如圖2所示:1) 數據采集:通過攝像頭采集人體手部圖像;2) 手部檢測與分割:檢測輸入圖像是否有手,如果有手,則檢測出手的具體位置,并將手部分割出來;3) 手勢識別:提取手部區域特征并將其種類按照一定方法識別出來;4) 使用識別結果控制虛擬環境中的人或物:將識別結果發送給虛擬環境控制系統,從而控制虛擬人/物實現特定運動。其中,手勢識別是整個手勢交互過程的核心,而手部檢測與分割則是手勢識別的基礎。
圖2 基于視覺的人機交互流程
手勢識別是手勢交互的關鍵技術,直接影響手勢交互的效果,在整個交互過程中占舉足輕重的地位。下面對手勢識別技術進行介紹。
1.1手部檢測與分割
手部檢測與分割是手勢識別的基礎。手部檢測是檢測圖像數據是否有手,并找出手在圖像中的具體位置。手部分割是將手部區域從圖像中分割出來,便于后續操作,有利于減少計算量。手部檢測與分割是手勢識別的第一步,也是手勢識別的基礎。一般情況下表征物體有 3 種特性:邊緣形狀、紋理以及顏色。在一定距離時,手部的紋理表現較為平滑,對比性較差,因此利用紋理特征檢測手部,優勢不明顯。對于手部檢測,目前多用形狀和顏色特征檢測手部.因此,常見的手部檢測方法大致分為以下幾類:基于形狀信息特征的方法、基于膚色信息的方法和基于運動信息的方法。
1.1.1 基于形狀信息特征的方法
形狀是描述圖像內容的重要特征,手部的形狀和其他物體的形狀存在一定差異,因此可以利用形狀的差異將手部從圖像中提取出來,還可以基于形狀信息使用圖像訓練集訓練分類器檢測手部,此類方法是基于分類的物體檢測方法,它通常假設不同手勢的外形不同,并且這種不同遠大于不同人做同一種手勢的不同。此類方法常使用方向梯度直方圖(HOG)、 Haar 小波和尺度不變特征變換(SIFT)等特征。
1.1.2 基于膚色信息的方法
由于人體膚色與背景存在一定差異性,并且膚色具有天然的平移不變性及旋轉不變性,不受拍攝視角、人體姿勢等影響,因此,基于膚色信息的方法計算量較小,運算速度較快,是手部檢測的常用方法,但容易受人種、光照、類膚色背景等影響。使用膚色信息檢測手部,首先需選擇色彩空間(RGB、 HSV、 YCbCr、 YUV 等)。為了增強膚色檢測在不同光照條件下的魯棒性,優先選取將亮度與色度分量分離的色彩空間(如 HSV、 YCbCr 等)。
1.1.3 基于運動信息的方法
運動信息可作為檢測手部的一種方法,但使用運動信息檢測手部時對手勢者或背景常做一些假設,如手勢者的動作不能太快,手勢者相對背景靜止或運動量很小、場景光照條件變化不大等。假設圖像采集設備固定不動,則背景靜止或變化很小,這種檢測方式稱為靜態背景檢測,這種情況主要有3 種檢測方法:光流法、幀間差分法和背景差分法。
光流法可獲取全面場景信息,不僅能獲取手勢信息,還可獲取手勢外的其他信息,如場景信息。在不知道圖像中任何相關信息的情況下,光流法也可獨立檢測出運動目標,獨立性較好,應用范圍較廣,但光流法較復雜,如果不使用加速技術,很難滿足實時要求。幀間差分法較簡單,計算速度較快,可在一定程度上消除外界因素影響,穩定性較好,但對運動目標的檢測精度較低,提取目標物體邊界不完整,對相鄰幀間的間隔有較高要求。背景差分法較簡單,運算速度較快,能較完整地檢測運動目標,但該算法只能應用于攝像頭固定的靜態背景情況下,并且誤檢率較高,檢測的運動區域常包含手部之外的區域(如手臂)。運動信息不僅能單獨使用來檢測手部,還可以與其他視覺信息結合檢測手部區域。
1.2手勢識別
手勢識別是手勢交互的關鍵技術,是對分割后的手部區域進行特征提取和手勢分類的過程,也可以理解為將模型參數空間的點(或軌跡)分類到該空間的某個子集的過程。其中,靜態手勢(基于圖像的手勢)對應模型參數空間點,動態手勢(基于視頻的手勢)對應模型參數空間的一條軌跡。手勢識別方法大致分為以下幾種:基于模板匹配的方法、基于機器學習的方法和隱馬爾可夫模型方法等。
1.2.1基于模板匹配的方法
模板匹配法是最早出現、最簡單的模式識別方法之一,多用于靜態手勢識別。該方法是將輸入圖像與模板(點、曲線或形狀)進行匹配,根據匹配相似度進行分類,匹配度計算方法有:歐氏距離、Hausdorff 距離、夾角余弦等。輪廓邊緣匹配、彈性圖匹配等都屬于模板匹配方法。模板匹配方法的優點是簡單快速,不受光照、背景、姿態等影響,應用范圍較廣,但分類準確率不高,可識別手勢種類有限,適用于小樣本、外形等變化不大的情況。
1.2.2基于機器學習的方法
機器學習使用統計學方法解決不確定性問題,機器學習致力于研究計算機從數據中產生模型的算法,即“學習算法”。有了學習算法,就能基于數據產生模型,面對新情況時,就能使用此模型進行相應判斷。機器學習發展迅速,是現階段計算機應用領域的研究熱點。許多基于表觀的靜態手勢識別使用機器學習方法。目前常用的機器學習算法有支持向量機法、人工神經網絡法、AdaBoost方法等。
支持向量機是一種二分類模型,它的基本模型是定義在特征空間上的最大間隔的線性分類器。支持向量機還可以利用核方法,將其擴展為非線性分類器。它的學習策略是間隔最大化,可形式化為求解凸二次規劃問題,這樣的凸二次規劃問題具有全局最優解。
人工神經網絡誕生于 20 世紀 40 年代初期,它是由具有適應性的簡單單元組成的廣泛并行互聯的網絡,它能夠模擬生物神經系統對真實世界所作出的交互反應,具有較強的容錯性、魯棒性、高度并行性、自適應性、抗干擾性和移動學習能力等。隨著深度學習熱潮的到來,神經網絡再次受到關注,被廣泛應用于語音識別和圖像分類等問題。神經網絡種類繁多,手勢識別率一般受手部檢測模型優劣、訓練樣本多少等限制。
boosting 算法是將弱學習算法提升為強學習算法的統計學習方法。它通過反復修改訓練數據的權值分布,構建一系列基本分類器(弱分類器),并將這些基本分類器線性組合構成一個強分類。boosting 算法要求提前預知弱分類器錯誤上限,難以應用于實際。將加權投票與在線分配問題結合,在boosting 框架下進行推廣便得到 AdaBoost。
AdaBoost是 boosting家族的著名代表,在人體檢測與識別等領域有著廣泛的應用。AdaBoost 具有下列優點:AdaBoost 提供一種框架,在框架內可使用各種方法構建子分類器,可以使用簡單的弱分類器,不用篩選特征,很少發生過擬合現象。AdaBoost 不需要弱分類器的先驗知識,也不需要預先知道弱分類器的上限,最后得到的強分類器精度依賴于所有弱分類器的分類精度,可以深挖弱分類器的能力。AdaBoost 可根據弱分類器的反饋,自適應調整假定的錯誤率,執行效率很高,并且能顯著提高學習精度。但在訓練過程中,AdaBoost 致使難分類樣本的權重呈指數增長,訓練將會過于偏向這類困難樣本,進而左右誤差的計算和分類器的挑選,降低分類器精度。另外,AdaBoost 易受噪聲干擾,執行效果依賴于弱分類器的選擇,且弱分類器訓練時間偏長。
1.2.3隱馬爾可夫模型方法
隱馬爾可夫模型(HMM)是關于時序的概率模型,描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態隨機序列,再由各個狀態生成一個觀測而產生觀測隨機序列的過程。隱馬爾可夫模型非常適合描述序列模型,特別適合上下文相關的場合。隱馬爾可夫模型是馬爾可夫鏈的一個擴展,是結構簡單的動態貝葉斯網絡,是著名的有向圖模型,作為基于概率統計的典型方法在語音識別、手勢識別等領域有廣泛應用。對于手勢識別來說,隱馬爾可夫模型比較適合連續手勢識別,尤其適合復雜的涉及上下文的手勢。隱馬爾可夫模型訓練和識別的計算量很大,尤其是在連續信號的分析中,狀態的轉換導致需要計算大量的概率密度,參數變多,使得樣本訓練及目標識別的速度變慢。為了解決此問題,一般手勢識別系統中采用離散隱馬爾可夫模型進行分析。
2. 結束語
基于視覺的手勢交互是人與虛擬環境交互的重要方式,具有交互自然、方便的優點,對虛擬現實的沉浸式體驗具有重要意義,雖然目前已經取得了一些階段性研究成果,但是仍有許多問題亟待解決,如復雜背景下的手部檢測、與其他交互方式的融合、功能集成等。基于視覺的手勢交互具有重要的科學價值和廣闊的應用前景,隨著虛擬現實對沉浸式體驗需求的不斷增強,基于視覺的手勢交互必將在虛擬現實中發揮重要作用。