康奈爾大學開發Speechin 智慧項鍊,可識別佩戴者的唇語
語音識別技術讓我們可以讓 Siri 檢查明天的天氣,或者讓 Alexa 播放我們最喜歡的歌曲。
但這些技術需要可聽的語音。如果一個人不會說話,或者在特定環境中(商務會議或安靜的圖書館)發聲說話不合適怎麼辦?
康奈爾大學鮑爾斯計算與資訊科學學院資訊科學助理教授張成和博士生張瑞東給出了答案:SpeeChin,一種無聲語音識別(SSR)裝置,可以使用影象識別無聲命令頸掛式紅外 (IR) 相機捕捉到的頸部和麵部面板變形。該實驗裝置建立在張成教授去年推出的NeckFace項鍊的基礎上,該項鍊可以監測佩戴者的面部表情。
除了微處理器、電池和藍芽模組,Speechin 還配備了一個朝上的紅外攝像頭,可以對佩戴者的下巴下方進行成像。它透過一組延伸到兩側的“翅膀”保持在這個方向,同時還有一個硬幣作為其底部的重量。為了解決隱私問題,它不會直接指向使用者的臉。
利用基於機器學習的演算法,該裝置能夠根據佩戴者的下巴運動來確定佩戴者在無聲地說出哪些命令。然後它可以將這些命令中繼到配對的智慧手機。
該系統最初是透過監測 20 名志願者的下巴運動來訓練的,他們默默地說出已知的單詞和短語——其中 10 人說英語,另外 10 人說普通話。在隨後的測試中,參與者說出了 54 個常用的英語命令,以及 44 個普通話單詞和短語。
事實證明,這條項鍊在識別英語和普通話語音方面的準確率分別為 90.5% 和 91.6%。當志願者在行走時使用該裝置時,這些數字確實顯著下降,因為他們各自的行走方式導致他們的頭部以不可預測的方式移動。
希望一旦進一步發展,該技術不僅可以用於人們必須保持安靜的環境,還可以用於智慧手機無法聽到使用者聲音的嘈雜環境。Speechin項鍊也可以供缺乏語言能力的人使用。
一篇關於這項研究的論文最近發表在《計算機協會關於互動式、移動、可穿戴和無處不在的技術的論文集》上。



 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			 
			