TWI729404B

TWI729404B - 補償耳內音訊信號的方法、電子裝置及記錄媒體

Info

Publication number: TWI729404B
Application number: TW108119111A
Authority: TW
Inventors: 蕭堯; 曾恕宏
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-08-17
Filing date: 2019-06-03
Publication date: 2021-06-01
Also published as: US10848855B2; TW202010320A; CN110837353B; CN110837353A; US20200059718A1

Abstract

一種補償耳內音訊信號的方法、電子裝置及記錄媒體。此方法適用於具有處理器的電子裝置。此方法在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號。之後，針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型。最後，在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號，並輸出補償音訊信號。

Description

補償耳內音訊信號的方法、電子裝置及記錄媒體

本發明是有關於一種音訊轉換技術，且特別是有關於一種補償耳內音訊信號的方法、具有補償耳內音訊信號功能的電子裝置以及記錄媒體。

隨著科技不斷進步，個人電子產品無不朝向輕巧迷你化的趨勢發展。目前而言，為了縮小耳機的體積並使耳機同時兼顧發出聲音及收集聲音兩種功能，廠商將耳機與麥克風設置在同一殼體內而設計各種無線耳機麥克風，並且採用藍芽通訊使得無線耳機麥克風可以與其他電子裝置建立連線。另外，為了避免無線耳機麥克風在嘈雜的環境中可能受到環境聲音的影響而無法清楚地收集到使用者發出的聲音，有些廠商採用耳內麥克風收集從使用者的耳道發出的聲音。

然而，從耳道傳遞的聲音是從使用者體內的聲帶發聲並且通過體內各個構造像是耳咽管等傳遞，在聲帶發出的高頻經過這些狹小管道的傳遞後，高頻因為能量不大所以容易衰減，導致我們聽起來聲音悶悶的。

有鑑於此，本發明提供一種補償耳內音訊信號的方法、電子裝置及記錄媒體，其可將使用者說話時經由內耳傳遞的耳內音訊信號轉換為接近經由空氣傳遞的音訊信號。

本發明提供一種補償耳內音訊信號的方法，適用於具有處理器的電子裝置，所述電子裝置連接至配置於使用者耳內的耳內麥克風及耳外的外部麥克風。所述方法包括下列步驟。在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號。針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型。以及在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號，並輸出補償音訊信號。

在本發明的一實施例中，上述針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型的步驟包括：設置耳內音訊信號為機器學習模型的輸入層，以及設置外部音訊信號為機器學習模型的輸出層。以及透過輸入層及輸出層訓練機器學習模型以提取耳內音訊信號以及外部音訊信號之間的音訊信號特徵。

在本發明的一實施例中，上述在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號的步驟包括：使用音訊信號特徵將耳內音訊信號轉換為補償音訊信號。

在本發明的一實施例中，上述機器學習模型包括卷積神經網路或深度神經網路。

在本發明的一實施例中，上述針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型包括：基於語音品質設定目標函數以建立並訓練語音品質模型，及/或基於語音的辨識率設定目標函數以建立並訓練語音辨識度模型。

在本發明的一實施例中，上述補償耳內音訊信號的方法更包括：在線上階段根據電子裝置執行的應用程式決定使用訓練後的語音品質模型與語音辨識度模型的至少其中之一將耳內音訊信號轉換為補償音訊信號。

在本發明的一實施例中，上述補償耳內音訊信號的方法更包括：若電子裝置執行的應用程式涉及語音通話，則使用語音品質模型將耳內音訊信號轉換為補償音訊信號。

在本發明的一實施例中，上述補償耳內音訊信號的方法更包括：若電子裝置執行的應用程式涉及語音辨識，則使用語音辨識度模型將耳內音訊信號轉換為補償音訊信號。

在本發明的一實施例中，上述補償耳內音訊信號的方法更包括：對轉換後的補償音訊信號進行語音辨識，並輸出語音辨識結果。

本發明的電子裝置包括連接裝置、儲存裝置以及處理器。所述連接裝置連接至配置於使用者耳內的耳內麥克風及耳外的外部麥克風。所述儲存裝置儲存一或多個指令。所述處理器耦接至連接裝置及儲存裝置，且經配置以執行所述指令以：在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號。針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型。以及在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號，並輸出補償音訊信號。

本發明更提供一種電腦可讀取記錄媒體，記錄程式，經由電子裝置載入以執行下列步驟。在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號。針對目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型。以及在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號，並輸出補償音訊信號。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明針對語音的不同應用設定目標函數以建立機器學習模型，並利用經由使用者內耳傳遞的耳內音訊信號及經由空氣傳遞的外部音訊信號做為參數來訓練機器學習模型，以獲得耳內音訊信號及外部音訊信號之間的音訊信號特徵。在離線階段透過耳內麥克風擷取使用者說話的聲音，並輸入訓練後的機器學習模型，以將所擷取的音訊轉換為接近外部音訊信號的輸出結果。藉此，可將耳內音訊信號補償為接近使用者正常發聲且經由空氣傳遞的音訊信號。

圖1繪示本發明一實施例的電子裝置的方塊圖。參考圖1，電子裝置100包括處理器110、連接裝置120以及儲存裝置130。處理器110耦接至連接裝置120以及儲存裝置130，而可存取並執行記錄在儲存裝置130中的指令以實現本發明實施例的補償耳內音訊信號的方法。

在不同實施例中，處理器110例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合，本發明不在此限制。

連接裝置120連接至配置於使用者耳內的耳內麥克風及配置於使用者耳外的外部麥克風。具體而言，連接裝置120可以是任何以有線或無線方式與耳內麥克風及外部麥克風連接，並接收由耳內麥克風及外部麥克風所擷取的音訊信號，其例如是通用序列匯流排（Universal Serial Bus，USB）、RS232、藍芽（Bluetooth，BT）、無線相容認證（Wireless fidelity，Wi-Fi）等傳輸介面，本發明不在此限制。

儲存裝置130例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而用以儲存可由處理器110執行的一或多個指令，這些指令可載入處理器110執行。

在本實施例中，電子裝置100透過連接裝置120連接至配置於使用者耳內的耳內麥克風及耳外的外部麥克風。需先說明的是，電子裝置100可以是與耳內麥克風及外部麥克風整合在一起的耳機裝置，也可以是與耳內麥克風及外部麥克風分開的裝置，更可以是僅與耳內麥克風及外部麥克風其中之一整合在一起的裝置。具體而言，電子裝置100例如是具備運算功能的耳機、智慧型手機、平板電腦或其他裝置，本發明不在此限制。

一般而言，人們在說話時發出的聲音的傳遞路徑有兩種，一種是從聲帶發聲後經由體外的空氣振動傳遞，另一種是從聲帶發聲後經由人體內的耳咽管傳遞到耳膜。在本發明一實施例中，外部麥克風（未繪示）配置於使用者耳外而可以擷取使用者說話時經由空氣傳遞的外部音訊信號。其中，外部麥克風例如是無線藍芽耳機的指向性麥克風、有線耳機的麥克風，或是智慧型手機內建的麥克風等裝置，本發明不在此限制。

另一方面，耳內麥克風則配置於使用者耳內而可以擷取使用者說話時經由內耳傳遞的耳內音訊信號。圖2繪示本發明一實施例的擷取耳內音訊信號的示意圖。參照圖2，以耳機200為例，耳機200包括耳內麥克風201。耳內麥克風201配置在接近使用者耳內腔21的位置以接收耳道內傳遞的聲波。聲波傳遞路徑參圖2中箭頭所示，使用者說話時聲音會從聲帶發聲，經由耳咽管22傳遞到耳內腔21，而傳遞來的聲波即可以被耳內麥克風201偵測並擷取。然而，藉由耳內麥克風201收音時，由於聲音經過身體各部位的影響，耳內麥克風201擷取到的聲音和一般使用者從嘴巴發出並經由空氣傳遞的聲音並不相同。通常，耳內麥克風201接收到的聲音相較於外部麥克風接收到的聲音悶，並且聽起來較模糊且缺乏辨識度。

耳內麥克風及外部麥克風擷取到的聲音差異請參照圖3A及3B。圖3A繪示本發明一實施例的外部音訊信號的範例。圖3B繪示本發明一實施例的耳內音訊信號的範例。請同時參照圖2、圖3A及3B，圖3A及圖3B顯示在使用者說同一句話時，經由外部麥克風（未繪示）擷取的信號波形301及經由耳內麥克風201擷取的信號波形302。

圖4繪示本發明一實施例的補償耳內音訊信號的方法的流程圖。請同時參照圖1及圖4，本實施例的方法適用於上述的電子裝置100，以下即搭配電子裝置100的各項裝置及元件說明本實施例的補償耳內音訊信號的方法的詳細步驟。

首先，處理器110在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號（步驟S402）。

接著，處理器110針對一目標函數建立音訊信號的機器學習模型，並使用耳內音訊信號與外部音訊信號訓練機器學習模型（步驟S404）。其中，處理器110可以針對不同的語音需求設定目標函數。詳細而言，處理器110設置耳內音訊信號為機器學習模型的輸入層，並且設置外部音訊信號為機器學習模型的輸出層。接著，處理器110透過輸入層及輸出層訓練機器學習模型以提取耳內音訊信號以及外部音訊信號之間的音訊信號特徵。

上述機器學習模型例如是利用類神經網路（Neural Network）等技術所建構的機器學習模型，而將耳內音訊信號所對應的參數數值作為機器學習模型的輸入，並將外部音訊信號所對應的參數數值作為機器學習模型的輸出，而可訓練學習模型內各層的參數值。以類神經網路為例，其輸入層與輸出層之間是由眾多的神經元和鏈接組成，其中可包含多個隱藏層（hidden layer），各層節點（神經元）的數目不定，可使用數目較多的節點以增強該類神經網路的強健性。在本實施例中，機器學習模型例如是卷積神經網路（Convolutional Neural Network，CNN）或深度神經網路（Deep Neural Networks，DNN）。

最後，處理器110在線上階段使用訓練後的機器學習模型將耳內麥克風擷取的耳內音訊信號轉換為補償音訊信號，並輸出補償音訊信號（步驟S406）。其中，處理器110使用在訓練階段提取的音訊信號特徵將耳內音訊信號轉換為補償音訊信號。

在其他實施例中，上述針對目標函數建立音訊信號的機器學習模型，無論是針對語音辨識率模型亦或是語音品質模型，皆可使用左右兩耳之耳內訊號進行模型的訓練。

舉例而言，使用者在操作電子產品時經常會需要使用語音功能，例如，語音通話功能。當使用者身處吵雜的環境中，使用抗噪耳機能夠隔絕並減少大部分的外部環境聲音。此時，若使用者配戴具有耳內麥克風的耳機，此耳機可以透過耳內麥克風接收使用者說話時來自使用者內耳的聲音。此耳內麥克風接收到的耳內音訊信號不但可以避免被外部環境干擾，還可以藉由已經訓練好的機器學習模型將耳內音訊信號轉換為補償音訊信號，而可供語音通話使用。

圖3C繪示本發明一實施例的補償音訊信號的範例。藉由上述補償耳內音訊信號的方法，訓練後的機器學習模型可將圖3B中經由耳內麥克風擷取的信號波形302轉換為圖3C中的信號波形303。藉此，可將耳內麥克風擷取到的音訊信號補償為接近使用者正常發聲且經由空氣傳遞的音訊信號。

一般而言，使用者的聲音通常會被使用在語音通話、語音助理等用途。在語音通話中，使用者的聲音必須要清楚而不含糊，才能讓通話的另一方可以聽得懂使用者說話的內容。在語音助理中，使用者的聲音則必須讓應用程式能藉由聲音辨別發話者是誰，且語音不失真，也就是聲音必須具有辨識度。據以，在本發明另一實施例中，電子裝置100還可以針對不同的語音需求設定目標函數，並且根據不同的目標函數訓練機器學習模型。

圖5繪示本發明一實施例的根據應用程式決定補償耳內音訊信號的方法的流程圖。請同時參照圖1及圖5，本實施例的方法適用於上述的電子裝置100。

首先，處理器110在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取使用者說話時經由空氣傳遞的外部音訊信號（步驟S502）。接著，處理器110基於語音品質（speech quality）設定所述目標函數以建立並訓練語音品質模型（步驟S504），及/或基於語音的辨識率（recognition rate）設定所述目標函數以建立並訓練語音辨識度模型（步驟S506）。詳細而言，處理器110可以根據語音品質及語音的辨識率分別設定機器學習模型的目標函數，並且藉由耳內音訊信號及外部音訊信號分別訓練出語音品質模型及語音辨識度模型。

最後，處理器110根據電子裝置100執行的應用程式決定使用訓練後的語音品質模型與語音辨識度模型的至少其中之一將耳內音訊信號轉換為補償音訊信號（步驟S508）。其中，電子裝置100的處理器110可以執行需要擷取並利用使用者語音的多種應用程式，例如語音通話、語音助理等。每當使用者在電子裝置100上選擇啟用上述應用程式時，處理器110即會判斷被啟用的應用程式的類型，從而選定適於該類型的機器學習模型來轉換擷取自使用者的音訊信號，以獲得適用於該類型的應用程式的補償音訊信號。

在一實施例中，若處理器110執行的應用程式涉及語音通話，則處理器110使用語音品質模型將耳內音訊信號轉換為所述補償音訊信號。舉例而言，使用者在使用應用程式「電話」傳送語音至通話的另一方時，處理器110會使用語音品質模型轉換耳內麥克風擷取的耳內音訊信號，以補償耳內音訊信號為具有良好語音品質的音訊信號。

在另一實施例中，若處理器110執行的應用程式涉及語音辨識，則處理器110使用語音辨識度模型將耳內音訊信號轉換為補償音訊信號。舉例而言，使用者在使用應用程式「語音助理」時，處理器110會使用語音辨識度模型轉換耳內麥克風擷取的耳內音訊信號，以補償耳內音訊信號為具有良好語音辨識度的音訊信號。其中，處理器110還會對轉換後的補償音訊信號進行語音辨識，並輸出語音辨識結果。藉由具有辨識度的音訊信號，處理器110可以良好的執行「語音助理」以辨識說話的使用者及使用者說話的內容。

本案另提供一種非暫時性電腦可讀取記錄媒體，其中記錄電腦程式。該電腦程式是用以執行上述補償耳內音訊信號的方法的各個步驟。此電腦程式是由多數個程式碼片段所組成的（例如建立組織圖程式碼片段、簽核表單程式碼片段、設定程式碼片段、以及部署程式碼片段），並且這些程式碼片段在載入處理器中並執行之後，即可完成上述補償耳內音訊信號的方法的步驟。

綜上所述，本發明提供的補償耳內音訊信號的方法、電子裝置可利用經由使用者內耳傳遞的耳內音訊信號及經由空氣傳遞的外部音訊信號做為參數，並針對不同的語音需求設定目標函數以建立並訓練機器學習模型。利用訓練後的機器學習模型補償耳內麥克風錄製的音訊信號，本發明可以將耳內音訊信號補償為接近使用者正常發聲且經由空氣傳遞的音訊信號。藉此，可以讓電子裝置在吵雜的環境中仍舊可以獲得具有高語音品質或具有高辨識度的音訊，此外，也可以讓使用者不需要太大聲說話，同樣獲得清楚的音訊。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100‧‧‧電子裝置 110‧‧‧處理器 120‧‧‧連接裝置 130‧‧‧儲存裝置 200‧‧‧耳機 201‧‧‧耳內麥克風 21‧‧‧耳內腔 22‧‧‧耳咽管 301、302、303‧‧‧信號波形 S402~S406、S502~S508‧‧‧步驟

圖1繪示本發明一實施例的電子裝置的方塊圖。圖2繪示本發明一實施例的擷取耳內音訊信號的示意圖。圖3A繪示本發明一實施例的外部音訊信號的範例。圖3B繪示本發明一實施例的耳內音訊信號的範例。圖3C繪示本發明一實施例的補償音訊信號的範例。圖4繪示本發明一實施例的補償耳內音訊信號的方法的流程圖。圖5繪示本發明一實施例的根據應用程式決定補償耳內音訊信號的方法的流程圖。

S402~S406‧‧‧步驟

Claims

一種補償耳內音訊信號的方法，適用於具有處理器的電子裝置，所述電子裝置連接至配置於使用者耳內的耳內麥克風及耳外的外部麥克風，該方法包括下列步驟：在訓練階段利用所述耳內麥克風擷取所述使用者說話時經由內耳傳遞的耳內音訊信號，並利用所述外部麥克風擷取所述使用者說話時經由空氣傳遞的外部音訊信號；針對一目標函數建立音訊信號的機器學習模型，並使用所述耳內音訊信號與所述外部音訊信號訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的音訊信號特徵；以及在線上階段使用所述耳內音訊信號與所述外部音訊信號之間的所述音訊信號特徵將所述耳內麥克風擷取的線上階段耳內音訊信號轉換為補償音訊信號，並輸出所述補償音訊信號。
如申請專利範圍第1項所述的補償耳內音訊信號的方法，其中針對所述目標函數建立音訊信號的所述機器學習模型，並使用所述耳內音訊信號與所述外部音訊信號訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的所述音訊信號特徵的步驟包括：設置所述耳內音訊信號為所述機器學習模型的輸入層，以及設置所述外部音訊信號為所述機器學習模型的輸出層；以及透過所述輸入層及所述輸出層訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的所述音訊信號特徵。
如申請專利範圍第1項所述的補償耳內音訊信號的方法，其中所述機器學習模型包括卷積神經網路(Convolutional Neural Network，CNN)或深度神經網路(Deep Neural Networks，DNN)。
如申請專利範圍第1項所述的補償耳內音訊信號的方法，其中針對所述目標函數建立音訊信號的所述機器學習模型，並使用所述耳內音訊信號與所述外部音訊信號訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的所述音訊信號特徵的步驟包括：基於語音品質(speech quality)設定所述目標函數以建立並訓練語音品質模型，及/或基於語音的辨識率(recognition rate)設定所述目標函數以建立並訓練語音辨識度模型。
如申請專利範圍第4項所述的補償耳內音訊信號的方法，更包括：在線上階段根據所述電子裝置執行的應用程式決定使用訓練後的所述語音品質模型與所述語音辨識度模型的至少其中之一將所述線上階段耳內音訊信號轉換為所述補償音訊信號。
如申請專利範圍第5項所述的補償耳內音訊信號的方法，其中若所述電子裝置執行的所述應用程式涉及語音通話，則使用所述語音品質模型將所述線上階段耳內音訊信號轉換為所述補償音訊信號。
如申請專利範圍第5項所述的補償耳內音訊信號的方法，其中若所述電子裝置執行的所述應用程式涉及語音辨識，則使用所述語音辨識度模型將所述線上階段耳內音訊信號轉換為所述補償音訊信號。
如申請專利範圍第7項所述的補償耳內音訊信號的方法，更包括：對轉換後的所述補償音訊信號進行語音辨識，並輸出語音辨識結果。
一種電子裝置，包括：連接裝置，連接至配置於使用者耳內的耳內麥克風及耳外的外部麥克風；儲存裝置，儲存一或多個指令；以及處理器，耦接至所述連接裝置及所述儲存裝置，且經配置以執行所述指令以：在訓練階段利用所述耳內麥克風擷取所述使用者說話時經由內耳傳遞的耳內音訊信號，並利用所述外部麥克風擷取所述使用者說話時經由空氣傳遞的外部音訊信號；針對一目標函數建立音訊信號的機器學習模型，並使用所述耳內音訊信號與所述外部音訊信號訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的音訊信號特徵；以及在線上階段使用所述耳內音訊信號與所述外部音訊信號之間的所述音訊信號特徵將所述耳內麥克風擷取的線上階段耳內音訊信號轉換為補償音訊信號，並輸出所述補償音訊信號。
一種電腦可讀取記錄媒體，記錄程式，經由處理器載入以執行下列步驟：在訓練階段利用耳內麥克風擷取使用者說話時經由內耳傳遞的耳內音訊信號，並利用外部麥克風擷取所述使用者說話時經由空氣傳遞的外部音訊信號；針對一目標函數建立音訊信號的機器學習模型，並使用所述耳內音訊信號與所述外部音訊信號訓練所述機器學習模型以提取所述耳內音訊信號以及所述外部音訊信號之間的音訊信號特徵；以及在線上階段使用所述耳內音訊信號與所述外部音訊信號之間的所述音訊信號特徵將所述耳內麥克風擷取的線上階段耳內音訊信號轉換為補償音訊信號，並輸出所述補償音訊信號。