TWI768175B

TWI768175B - 具收音場景切換功能的助聽系統

Info

Publication number: TWI768175B
Application number: TW108100992A
Authority: TW
Inventors: 陳筱涵
Original assignee: 陳筱涵
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2022-06-21
Also published as: TW202027520A; JP2020113981A; CN111429928A; US10827260B2; US20200228894A1

Abstract

一種具收音場景切換功能的助聽系統，包含影像擷取器、麥克風陣列單元、收音控制裝置及聲音輸出器。收音控制裝置可接收分析影像擷取器取得之視野影像而判斷出相符的場景影像文本，並根據該場景影像文本對應之收音策略，控制啟動麥克風陣列單元進行收音，並由聲音輸出器輸出處理後聲音訊號。透過收音控制裝置可分析該視野影像以篩選出相符的場景影像文本與收音策略的設計，可使啟動之收音策略更切合該使用者所處環境的收音場景類型，是一種相當創新的創作。

Description

具收音場景切換功能的助聽系統

本發明是有關於一種助聽器，特別是指一種可切換收音場景的助聽系統。

目前助聽器可利用聲音訊號特性不同，有效的區分語音(speech)及噪音(noise)，而將噪音訊號濾除，且可透過方向性麥克風的設計，降低來自使用者後方及側面的聲音訊號，然而日常生活環境中的聲音來源型態多變，來自使用者前方的聲音訊號中，除了談話對象的語音外，可能仍然充斥著其他人的講話聲，且其中大多數語音訊號是使用者不想聽的，例如菜市場場合、餐廳場合、演講場合與會議場合等環境的講話者聲音來源多變且不同，但現有麥克風的音訊處理晶片並無法進行這些聲音場景的辨識以調整採用適合的麥克風策略，僅具有簡單分析音訊以決定開啟全向性收音或方向性收音的簡單功能，所以使用上仍存在許多不便。

雖然較先進的助聽器可藉由雙耳通訊與波束成型的技術定位聲音的方向，但面對前方有多個語言訊號時，通常無法得知哪個方向的語音訊號是大腦要的，所以只能保留病患最正面的較強語言訊號，以致於在面臨一對二講話、一對三講話，或者是使用者前方有很多人在講話的場面時，經常無法順利取得所需的語音訊號。

因此，本發明的目的，即在提供一種具收音場景切換功能而能改善先前技術之至少一個缺點的助聽系統。

於是，本發明具收音場景切換功能的助聽系統，適用於供一位使用者配戴使用。該助聽系統包含一個可擷取該使用者前方之視野影像的影像擷取器、一個麥克風陣列單元、一個訊號連接該影像擷取器與該麥克風陣列單元的收音控制裝置，及至少一個訊號連接於該收音控制裝置的聲音輸出器。該麥克風陣列單元包括多個相間隔之麥克風，每一麥克風可被各別控制啟動以擷取得到一個聲音訊號。該收音控制裝置包括一個場景分析模組、一個收音策略控制模組，及一個音訊處理模組。該場景分析模組內建有多個分別代表多種場景環境的場景影像文本，可分析該視野影像以得到至少一個相對應的場景影像文本，該收音策略控制模組內建有多個分別對應該等場景影像文本的收音策略，會根據該場景分析模組分析得到之該至少一場景影像文本啟動對應之收音策略，而控制啟動特定數量的麥克風進行收音，該音訊處理模組內建有多個分別對應該等收音策略的音訊處理模式，會以對應之音訊處理模式接收處理被啟動之所有麥克風擷取的聲音訊號以得到一個處理後聲音訊號。該至少一聲音輸出器可將該處理後聲音訊號輸出以供該使用者聆聽。

本發明的功效在於：透過該收音控制裝置內建有該等場景影像文本與該等收音策略的設計，以及透過分析該視野影像以篩選出相符的場景影像文本的設計，可更準確識別出該使用者所處環境的收音場景類型，而啟動適合的收音策略，是一種相當創新的創作。

200:助聽系統

3:載具

31:前載體

32:鏡片

33:側載體

4:影像擷取器

5:麥克風陣列單元

51:麥克風

6:收音控制裝置

61:啟動控制模組

62:場景分析模組

621:手動場景模式

622:自動場景模式

63:收音策略控制模組

64:方位收音控制模組

65:音訊處理模組

7:聲音輸出器

8:顯示裝置

81:遙控模組

811:場景收音模式

812:方位收音模式

82:觸控顯示模組

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是本發明具收音場景切換功能的助聽系統的一個實施例的架構示意圖；及圖2是該實施例的功能方塊圖。

在本發明被詳細描述的前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1、2，本發明具收音場景切換功能的助聽系統200 的實施例，包含一個用以供一位使用者配戴的載具3、整合設置於該載具3的一個影像擷取器4、一個麥克風陣列單元5、一個收音控制裝置6與兩個聲音輸出器7，及一個顯示裝置8，該收音控制裝置6是訊號接於該影像擷取器4、該麥克風陣列單元5與該等聲音輸出器7。該顯示裝置8可設計成能供持用之手機或平板樣式，或者是能供穿戴、吊掛於身上之手環、手錶或項鍊形式，且是透過有線通訊技術及/或無線通訊技術訊號連接於該收音控制裝置6。由於無線通訊技術類型眾多且非本發明改良重點，因此不再詳述。

在本實施例中，該載具3是設計成眼鏡型式，可供該使用者配戴於頭部，具有一個位於使用者雙眼前方且裝設有鏡片32的前載體31，及兩個分別安裝於該前載體31左右兩側並供配掛於雙耳之鏡腳狀的側載體33。

該影像擷取器4是安裝於該前載體31之中間區段處，可擷取使用者前方視野的影像而得到一個視野影像。

該麥克風陣列單元5包括多個麥克風51，該等麥克風51是左右間隔設置於該前載體31，以及前後間隔設置於該等側載體33。每一麥克風51可被啟動感測周遭聲音而得到一個聲音訊號。

該收音控制裝置6包括一個啟動控制模組61、一個場景分析模組62、一個收音策略控制模組63、一個方位收音控制模組64，及一個音訊處理模組65。

該啟動控制模組61會控制啟動其中一個麥克風51進行收音以得到一個聲音訊號，且會控制該音訊處理模組65分析該聲音訊號是否存在語音成分，並會於該音訊處理模組65分析該聲音訊號存在語音成分時，觸發該影像擷取器4開始進行影像擷取，以及控制該場景分析模組62開始接收分析該視野影像。

該場景分析模組62內建有多個場景影像文本，且內建有可供選擇啟動的一個手動場景模式621與一個自動場景模式622。該等場景影像文本是根據各種場合環境影像中可能存在之人物數量、每一人物相對使用者之面向、距離、方位與移動/運動方式，以及所存在的各種景物影像等參數，透過特定分類演算法對上述各種參數進行分類辨識學習所建立的分類模型。

所述場合環境影像例如但不限於演講/上課場合、會議場合、戶外/公園綠地場合、派對場合、菜市場場合、超市/便利商店場合、市區街道場合、乘車場合與銀行櫃臺場合...等，所述景物影像例如但不限於會議桌、白板、黑板、講桌、投影機/投影布幕、樹木/植栽/綠地、天空、走道、各種交通工具、貨架、收銀機...等。所述分類演算法例如但不限於深度學習(deep belief network)、複雜決策樹演算法(Complex tree)、餘弦最近鄰近演算法(consine k-nearest neighbors，Cosine KNN)、卷積式類神經網路演算法(convolutional neural network，CNN)，及二次函數支持向量機演算法(Quadratic support vector machine，Quadratic SVM)...等。由於各類分類演算法根據各種場合環境影像訓練建立該等場景影像文本的方式眾多，且有其特定模式，因此不再詳述。

該場景分析模組62於啟動該手動場景模式621時，會控制該顯示裝置8顯示出全部場景影像文本以供使用者選擇。於啟動該自動場景模式622時，會先透過電腦視覺分析技術分析出該視野影像所存在之各種景物影像種類，並根據該等場景影像文本以特定之分類演算法進行該等景物影像的分類演算，而得到每一場景影像文本與該視野影像的相符程度，並篩選出相符程度達到一個預定值以上的多個場景影像文本，且對應篩選出之該等場景影像文本產生並傳送一個場景比對結果至該顯示裝置8，控制該顯示裝置8顯示出其篩選得到之所有場景影像文本以供選擇。

該收音策略控制模組63內建有多個收音策略，所述收音策略為控制啟動該等麥克風51進行收音的方法，例如控制啟動哪一個麥克風51以進行全向性收音，或控制啟動特定幾個麥克風51以相配合進行方向性收音等。該收音策略控制模組63會被該顯示裝置8針對某一場景影像文本所傳送的一個場景點選訊號觸發，而選擇啟動對應該場景影像文本的收音策略，進而控制啟動特定之麥克風51進行收音。

該方位收音控制模組64會被該顯示裝置8針對該視野影像中之某一影像區域所傳送的一個方位點選訊號觸發，而根據該影像區域於該視野影像中的方位，啟動特定位置與數量的麥克風51以相配合產生陣列式麥克風收音功能。

該音訊處理模組65內建有多個分別對應該等收音策略的音訊處理模式，會根據該收音策略控制模組63啟動之該收音策略，以對應之音訊處理模式對該麥克風陣列單元5收音得到之聲音訊號進行音訊處理，所述音訊處理內容例如但不限於進行類比/數位轉換、降噪處理與語音提取處理等，會自該聲音訊號中將不需要之噪音降噪濾除，並將語音訊號過濾放大輸出，以得到具有較佳訊雜比的處理後聲音訊號，並經由該等聲音輸出器7輸出該處理後聲音訊號。此外，該音訊處理模組65會於該方位收音控制模組64被觸發啟動，而啟動特定位置與數量的麥克風51以相配合產生陣列式麥克風收音功能時，除了會對聲音訊號進行類比/數位轉換與降噪處理外，還會配合以波束形成方法對該聲音訊號進行過濾處理，以及進行語音提取處理，藉以過濾得到一個對應該方位點選訊號代表之該視野影像中的方位的處理後聲音訊號。

由於該音訊處理模組65對聲音訊號進行降噪過濾處理與語音提取處理，以及以波束形成方法過濾出特定方位之聲音訊號都是習知技術，且方法相當多，亦非本發明之改良重點，因此不再詳述。

該顯示裝置8包括一個遙控模組81，及一個觸控顯示模組82。該遙控模組81內建有可被切換啟動的一個場景收音模式811與一個方位收音模式812。該遙控模組81啟動該場景收音模式811時，會被該收音控制裝置6之該場景分析模組62觸發，而控制該觸控顯示模組82顯示出全部場景影像文本以供點選，或者是顯示出該場景比對結果對應之該等場景影像文本以供點選。且該遙控模組81會於其中一個場景影像文本被點選時，對應產生並傳送該場景點選訊號至該收音控制裝置6。

該遙控模組81啟動該方位收音模式812時，會控制該觸控顯示模組82同步接收顯示該影像擷取器4擷取之該視野影像，且會於該觸控顯示模組82顯示之該視野影像的其中一個影像區域被點選時，對應產生並傳送該方位點選訊號至該收音控制裝置6。

本發明助聽系統200使用時，使用者是將該載具3配戴於頭部，並將該等聲音輸出器7安裝於雙耳，且持用該顯示裝置8。系統啟動後，該影像擷取器4不會立即啟動影像擷取功能，該收音控制裝置6會先控制啟動一個麥克風51以進行全向性收音，並於分析收音得到之聲音訊號中存在語音訊號時，才控制啟動該影像擷取器4進行該視野影像之擷取。該收音控制裝置6會分析出與該視野影像相符程度達預定值以上的一個或多個場景影像文本，並進一步比對出每一場景影像文本對應之該收音策略。

當該顯示裝置8是啟動該場景收音模式811，且該收音控制裝置6之該場景分析模組62是啟動該手動場景模式621時，該收音控制裝置6會控制該顯示裝置8顯示出所有場景影像文本以供選擇。當該場景分析模組62是啟動該自動場景模式622時，該收音控制裝置6會將篩選出之所有場景影像文本傳送至該顯示裝置8顯示。此時，該使用者可根據現場情況，操作該顯示裝置8以點選最符合需求的場景影像文本，而對應回傳一個場景點選訊號至該收音控制裝置6，該收音控制裝置6會根據該場景點選訊號啟動對應的收音策略，而控制啟動特定位置與數量的麥克風51開始進行收音，並對被啟動之所有麥克風51取得之聲音訊號進行語音提取處理，且將該處理後聲音訊號傳送至該等聲音輸出器7輸出，以供該使用者聆聽。

當該顯示裝置8是啟動該方位收音模式812時，該收音控制裝置6會將該影像擷取器4擷取得到之該視野影像同步傳送至該顯示裝置8。此時，使用者可操作該顯示裝置8以點選該視野影像中預定聆聽之的影像區域，該顯示裝置8會對應回傳一個方位點選訊號至該收音控制裝置6。該收音控制裝置6會根據該方位點選訊號對應之方位，控制啟動特定位置與數量的麥克風51，並透過波束形成方法過濾出對應方位之聲音訊號，並對該聲音訊號進行語音提取處理，然後將該處理後聲音訊號傳送至該等聲音輸出器7輸出，以供該使用者聆聽。

在本實施例中，該收音控制裝置6是整合設置在該載具3，並透過無線通訊技術與該使用者手持的該顯示裝置8訊號連接，但實施時，在本發明之另一實施態樣中，可不將該收音控制裝置6設置在該載具3，而是改為整合設置在該顯示裝置8，可藉此降低該載具3所設置之電子元件數量，而相對減輕配戴重量。

而在本發明之另一實施態樣中，該顯示裝置8也可改為具有顯微投影功能的裝置，並整合設置在該載具3，且可對該載具3之該鏡片32進行顯微投影，而於該鏡片32投射成像顯示出該等場景影像文本與該視野影像，以供該使用者透過視覺控制或其它輸入構件來點選該等場景影像文本與點選該視野影像之影像區域。而在本發明之再另一實施態樣中，該顯示裝置8也可改為透明液晶顯示裝置，並安裝在該載具3而位於該使用者眼前，用以作為眼鏡形式之該載具的鏡片使用。

再者，實施時，在本發明之其它實施態樣中，該顯示裝置8非為必要，該收音控制裝置6可分析該視野影像以取得相符程度最高的該場景影像文本，並直接啟動對應之收音策略以控制該麥克風陣列單元5進行收音，不需再透過該顯示裝置8進行點選。

綜上所述，透過該收音控制裝置6內建有多種場景影像文本與多個分別對應該等場景影像文本之收音策略的設計，以及可透過分析該影像擷取器4取得之該視野影像，而篩選出相符持程度達特定值以上的場景影像文本以供使用者選擇的設計，可更準確識別出該使用者所處環境的收音場景類型，且使用者也可透過操作該顯示裝置8的方式自行選擇最適合的場景影像文本。此外，使用者也可透過選擇啟動該顯示裝置8之方位收音模式812，透過直接點選該顯示裝置8顯示之該視野影像中的某一影像區域的方式，控制該收音控制裝置6以波束形成技術對該視野影像中之特定方位進行收音，相當方便。因此，本發明具收音場景切換功能的助聽系統200確實是一種相當創新的創作，確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。