TWI766673B

TWI766673B - 嬰兒哭聲分析方法及其分析裝置

Info

Publication number: TWI766673B
Application number: TW110116176A
Authority: TW
Inventors: 蔡明耀; 張勁淳
Original assignee: 量子音樂股份有限公司
Priority date: 2021-05-05
Filing date: 2021-05-05
Publication date: 2022-06-01
Also published as: TW202244908A

Abstract

本發明揭露一種嬰兒哭聲分析方法及裝置，其中分析方法包括下列程序：一擷取程序，擷取一環境聲音並據以輸出一聲音資料樣本；一判斷程序，判斷聲音資料樣本之一音量值是否大於一音量門檻值；一錄製程序，當前述的判斷結果為「是」，則錄製一聲音片段；一聲音資料重組程序，由聲音片段中選取一起始點，並由起始點往後選擇一預定時間長度之聲音片段之部分，而產生一待辨識聲音資料；一特徵資料提取程序，根據待辨識聲音資料而輸出一降噪特徵資料；一辨識輸出程序，將降噪特徵資料輸入一人工神經網路模型程式以輸出一分類結果資料。

Description

嬰兒哭聲分析方法及其分析裝置

本發明係關於一種分析方法及其分析裝置，特別關於一種嬰兒哭聲分析方法及其分析裝置。

對於新生兒來說，哭聲是唯一與人們溝通的語言，因為人們無法了解嬰兒哭聲所代表的意義，所以人們遇到嬰兒哭時，必須加以檢查以了解嬰兒的需求，例如是肚子餓、尿布濕、或需要安慰等。

近來有業者開發數據庫，藉以比對嬰兒哭聲與其需求之間的對應關係。但僅止於雲端資料庫或雲端運算，因此，人們必須利用裝置，例如手機APP、可連網的音箱或攝影機...等，手動錄製嬰兒的哭聲後，上傳至雲端比對，再由系統回傳其對應意義至使用者的手機上。如此的操作方式，將會耗費過多的時間，且受限於網路頻寬而不具實用價值。

另外，上述做法通常係搭配類神經網路來辨識嬰兒的哭聲所代表的意義。通過模仿生物神經網路的計算模型，可用來分類及機器學習，以將嬰兒哭聲轉換為對應於其行為語言。然而，辨識準確率仍然不夠精確。因此，發明人亟思一種嬰兒哭聲分析方法及分析裝置，以大幅提高辨識成功率。

有鑑於上述課題，本發明之一目的是提供一種嬰兒哭聲分析方法及分析裝置，通過對嬰兒哭聲進行前置處理後，再經由人工智慧神經網路進行特徵提取與預測，以提高辨識準確度。

為達上述目的，本發明提供一種嬰兒哭聲分析方法，其包括一聲音片段產生程序、一聲音資料重組程序、一特徵資料提取程序以及一辨識輸出程序。聲音片段產生程序係根據一環境聲音而產生一聲音片段。聲音資料重組程序係於該聲音片段中選取一起始點，並由該起始點往後選擇一預定時間長度之該聲音片段之部分，而產生一待辨識聲音資料。特徵資料提取程序係根據該待辨識聲音資料，而輸出一特徵結果資料。辨識輸出程序係將該特徵結果資料輸入一人工神經網路模型程式，以輸出一分類結果資料。

於一實施例中，其中聲音片段產生程序還包括一擷取程序、一判斷程序及一錄製程序。擷取程序係擷取環境聲音並輸出一聲音資料樣本。判斷程序係判斷該聲音資料樣本之一音量值是否大於一音量門檻值。錄製程序係當該判斷程序中之該音量值大於該音量門檻值，則錄製該聲音片段。

於一實施例中，其中該分類結果資料係由複數個子結果資料中擇一輸出，且該些子結果資料分別具有一機率特徵值，具有最高之該機率特徵值之該子結果資料係被選擇為該分類結果資料。

於一實施例中，其中該特徵資料提取程序還包括一特徵轉換程序、一降噪程序以及一初始特徵提取程序。特徵轉換程序係通過一特徵轉換方法，而依據待辨識聲音資料輸出一聲音特徵資料。降噪程序係通過一雜訊衰減方法，而依據聲音特徵資料輸出一降噪特徵資料。初始特徵提取程序係通過一初始人工神經網路模型程式，而依據降噪特徵資料輸出一特徵結果資料。

於一實施例中，其中該雜訊衰減方法包括將該聲音特徵資料中大於一強度門檻值之訊號，設定至一最大強度。

於一實施例中，其中該雜訊衰減方法包括將該聲音特徵資料中小於一強度門檻值之訊號，設定至一最小強度。

於一實施例中，其中最大強度為1，而最小強度為0。

於一實施例中，其中該雜訊衰減方法包括將該聲音特徵資料中介於一最大強度門檻值及一最小強度門檻值之間的訊號，衰減一預設倍率。

於一實施例中，其中該聲音資料重組程序中，該聲音片段具有一初始位址及一結束位址，該啟始點係位於該初始位址與該結束位址之間。

於一實施例中，其中於該待辨識聲音資料中，對應於該聲音片段之該結束位址之資料係位於對應於該聲音片段之該初始位址之資料之前。

另外，為達上述目的，本發明提供一種嬰兒哭聲分析裝置，其係設置於一嬰兒周邊，並且包括一聲音片段產生模組、一聲音資料重組模組、一特徵資料提取模組以及一辨識輸出模組。聲音片段產生模組係根據一環境聲音而產生一聲音片段。聲音資料重組模組係與聲音片段產生模組耦接，且聲音資料重組模組係接收聲音片段，並據以產生一待辨識聲音資料。特徵資料提取模組係與聲音資料重組模組耦接，且特徵資料提取模組係接收待辨識聲音資料，並據以產生一特徵結果資料。辨識輸出模組係與特徵資料提取模組耦接，且辨識輸出模組係接收特徵結果資料，並據以產生一分類結果資料。

於一實施例中，聲音片段產生模組更包括一擷取模組、一判斷模組以及一錄製模組。擷取模組係擷取該環境聲音，並據以輸出一聲音資料樣本。判斷模組係與擷取模組耦接，並接收聲音資料樣本，並判斷聲音資料樣本之一音量值是否大於一音量門檻值，而據以輸出一觸發訊號。錄製模組係分別與擷取模組及判斷模組耦接，且錄製模組係接收觸發訊號，並錄製該聲音片段。

於一實施例中，其中特徵資料提取模組更包括一特徵轉換模組、一降噪模組以及一初始特徵提取模組。特徵轉換模組係與聲音資料重組模組耦接，並通過一特徵轉換方法，而依據待辨識聲音資料輸出一聲音特徵資料。降噪模組係與特徵轉換模組耦接，並通過一雜訊衰減方法，而依據聲音特徵資料輸出一降噪特徵資料。初始特徵提取模組係分別與降噪模組及辨識輸出模組耦接，並通過一初始人工神經網路模型程式，而依據降噪特徵資料輸出一特徵結果資料。

於一實施例中，其中嬰兒哭聲分析裝置更包括一揚聲器，其係與該辨識輸出模組耦接，以發出對應於該分類結果資料之一語音。

於一實施例中，其中嬰兒哭聲分析裝置更包括一無線傳輸模組，其係與該辨識輸出模組耦接，以傳輸該分類結果資料至一遠端裝置。

10,10A:分析裝置

11:聲音片段產生模組

111:擷取模組

112:判斷模組

113:錄製模組

12:聲音資料重組模組

13:特徵資料提取模組

131:特徵轉換模組

132:降噪模組

133:初始特徵提取模組

14:辨識輸出模組

17:揚聲器

18:無線傳輸模組

20:遠端裝置

CP1:起始點

D01:環境聲音

D02:聲音資料樣本

D03:聲音片段

D04,D04a:待辨識聲音資料

D41:聲音特徵資料

D42:降噪特徵資料

D05:特徵結果資料

D06:分類結果資料

DA1:初始位址

DA2:結束位址

DS1:第一片段

DS1a:部分的第一片段

DS2:第二片段

DS2a:部分的第二片段

S01:觸發訊號

P01:聲音片段產生程序

P02:聲音資料重組程序

P03:特徵資料提取程序

P04:辨識輸出程序

P11:擷取程序

P12:判斷程序

P13:錄製程序

P31:特徵轉換程序

P32:降噪程序

P33:初始特徵提取程序

〔圖1〕係顯示本發明第一實施例之一種嬰兒哭聲分析方法之一流程圖。

〔圖2A〕係顯示第一實施例中之一聲音片段之一示意圖。

〔圖2B〕係顯示第一實施例中之一待辨識聲音資料之一示意圖。

〔圖2C〕係顯示第一實施例中之另一待辨識聲音資料之一示意圖。

〔圖3〕係顯示本發明第二實施例之一種嬰兒哭聲分析裝置之一示意圖。

〔圖4〕係顯示本發明第二實施例之另一種嬰兒哭聲分析裝置之一示意圖。

為了使所屬技術領域中具有通常知識者能瞭解本發明的內容，並可據以實現本發明的內容，茲配合適當實施例及圖式說明如下，其中相同的元件將以相同的元件符號加以說明。

請參照圖1所示，依據本發明第一實施例之一種嬰兒哭聲分析方法係包括一聲音片段產生程序P01、一聲音資料重組程序P02、一特徵資料提取程序P03以及一辨識輸出程序P04。

聲音片段產生程序P01係根據一環境聲音而產生一聲音片段。再進一步說明，本實施例中，聲音片段產生程序P01還包括一擷取程序P11、一判斷程序P12及一錄製程序P13。

擷取程序P11係擷取環境聲音並據以輸出一聲音資料樣本。於此，環境聲音可包括自然環境的聲音、機械或電子裝置發出的噪音、或是人、動物發出的聲音。值得一提的是，聲音資料樣本係可暫存於隨機存取記憶體。換言之，其係為未儲存成檔案的資料。

判斷程序P12係判斷聲音資料樣本之一音量值是否大於一音量門檻值。由於每個嬰兒皆為不同的個體，而有著不同聲音強度的哭聲，因此音量門檻值係可由使用者根據所需的靈敏度而調整。換言之，判斷程序P12可以是作為是否啟動哭聲分析機制的預判斷程序。其中，音量門檻值可為一固定的常數值，亦可為一時變函數。於此所述的時變函數，表示當環境噪音較高時，可動態調高音量門檻值，而當環境噪音較低時，可動態調低音量門檻值。

錄製程序P13係當判斷程序P12中之聲音資料樣本之音量值大於音量門檻值時，則錄製一聲音片段。由於當前述的聲音資料樣本之音量值大於音量門檻值時，代表聲音資料樣本可能包括有嬰兒哭聲，因此在本實施例中，將錄製具有一第一時間長度之聲音片段。其中，第一時間長度例如但不限於3秒、5秒、10秒或其他適當的時間長度。須注意者，錄製聲音片段係表示所擷取的聲音係被以檔案的形式儲存在一儲存單元中。儲存單元例如係為硬碟(Hard Disk Drive)或快閃儲存單元。其中，快閃儲存單元例如但不限於SSD固態硬碟、eMMC、USB隨身碟或記憶卡...等。

聲音資料重組程序P02係由聲音片段中選取一起始點，並由起始點往後選擇一預定時間長度之聲音片段之部分，而產生一待辨識聲音資料。其中，預定時間長度可為出廠預設或由使用者手動設定，在本實施例中，預定時間長度例如為4秒鐘。進一步說明，聲音片段D03如圖2A所示，由於聲音片段D03係數位資料，其具有一初始位址DA1與一結束位址DA2，本實施例中，係於初始位址DA1與結束位址DA2之間選擇起始點CP1，例如係選取聲音片段中之第2秒為起始點CP1。另外，為便於說明，定義在聲音片段D03中由初始位址DA1至起始點CP1之間為第一片段DS1，而起始點CP1至結束位址DA2之間為第二片段DS2。

接著，將依據預定時間長度，而由聲音片段D03中之第2秒開始往後(即往聲音片段D03之結束位址DA2的方向)選擇4秒鐘的聲音片段D03。須注意者，由於聲音片段D03總長度僅為5秒鐘，由起始點第2秒至第5秒僅有3秒鐘，因此不足之部分，將由聲音片段D03之起始位址DA1選擇部分的第一片段DS1a再補足，而產生如圖2B所示之待辨識聲音資料D04。須注意者，部分的第一片段DS1a可以是第一片段DS1中的任何部分，其可以初始位址DA1為起點，亦可以初始位址DA1至起始點CP1之間的任何位址為起點。另外，上述的起始點CP1係可為隨機選擇，換言之，每一次的起始點CP1可以是不同的，然此亦非為限制性者。

另外，待辨識聲音資料的組成還可有不同的實施方式，如圖2C所示，另一待辨識聲音資料D04a的組成中，在由聲音片段D03中之第2秒開始往後選擇4秒鐘的聲音片段D03後，不足時間的部分係可再由起始點CP1與結束位址DA2之間的第二片段DS2中選擇部分的第二片段DS2a予以補足，而不限於僅能由第一片段DS1中選擇。

特徵資料提取程序P03係根據待辨識聲音資料，而輸出一特徵結果資料。再進一步說明，本實施例中，特徵資料提取程序P03還包括一特徵轉換程序P31、一降噪程序P32以及一初始特徵提取程序P33。

特徵轉換程序P31係根據待辨識聲音資料而輸出一聲音特徵資料。其中，待辨識聲音資料例如係為時域(Time domain)訊號，其在通過一特徵轉換方法(例如傅立葉變換(Fourier transform)或梅爾倒頻譜(Mel-Frequency Cepstrum))後可產生聲音特徵資料。其中，聲音特徵資料例如係為頻域(Frequency domain)訊號。

降噪程序P32係根據聲音特徵資料而輸出一降噪特徵資料。在本實施例中，聲音特徵資料係通過一雜訊衰減方法，而產生降噪特徵資料。其中，降噪特徵資料例如係為一圖片形式或一矩陣形式，於此並未加以限定。以下係以兩個實施方式，舉例說明本實施例之雜訊衰減方法。

方式一例如係為數據歸一與限制法，其係將聲音特徵資料中大於一強度門檻值之訊號，設定至一最大強度。於此，所謂的最大強度係可為聲音特徵資料整體訊號的最大值、或為聲音特徵資料整體訊號的平均值、或為聲音特徵資料整體訊號的平均值加三倍標準差、或為使用者設定。於此，例如聲音特徵資料中所含之訊號係為0至1之間的數值，而最大強度係設定為1，如此一來，大於強度門檻值之訊號將全部被設定為1。

方式二例如係為多梯度訊號衰減法，其係將聲音特徵資料中小於一第一強度門檻值之訊號設定至一最小強度(例如為0)；將聲音特徵資料中介於第一強度門檻值與一第二強度門檻值之間之訊號，衰減一預設倍數，其中衰減倍數例如但不限於為5倍或10倍；將聲音特徵資料中大於第二強度門檻值之訊號，設定至最大強度或不做衰減。

通過上述的雜訊衰減方法可以進一步加強有利於分析的資料，並且抑制無益於分析的雜訊。另外，上述的各個數值以及門檻值的數量皆為舉例性而非為限制性，其可根據需求而任意變化。

初始特徵提取程序P33係根據降噪特徵資料而輸出一特徵結果資料。於本實施例中，係將降噪特徵資料輸入一初始人工神經網路模型程式，以輸出特徵結果資料。其中，初始人工神經網路模型程式係根據輸入之降噪特徵資料而進行分析及特徵抽取，其可利用例如但不限於卷積神經網路(CNN)、時間卷積網路(TCN)、或遞迴網路(RNN)等方式進行特徵抽取。另外，除了使用初始人工神經網路模型程式，亦可抽取標準的聲音特徵如：音量震幅、週期、頻譜等特徵，或使用openSMILE等函式庫進行特徵抽取。

辨識輸出程序P04係將特徵結果資料輸入一人工神經網路模型程式，以輸出一分類結果資料。另外，更詳細地說，人工神經網路模型程式係產生複數個子結果資料，其中，每一個子結果資料分別具有一機率特徵值，而具有最高之機率特徵值之子結果資料將被選擇為分類結果資料而輸出。

舉例說明，例如分析方法最終將可根據嬰兒的哭聲而輸出尿布濕、肚子餓、想睡覺以及需要安撫等四個結果，則人工神經網路模型程式將產生對應於尿布濕之一第一子結果資料、對應於肚子餓之一第二子結果資料、對應於想睡覺之一第三子結果資料以及對應於需要安撫之一第四子結果資料。據此，人工神經網路模型程式將會判斷四個子結果資料所對應之機率特徵值，並選擇具有最高之機率特徵值之子結果資料作為分類結果資料而輸出。於此，例如第一子結果資料之機率特徵值為60%，而其餘之子結果資料之機率特徵值均為10%至25%之間，則人工神經網路模型程式將會輸出尿布濕的結果，以通知使用者。

再進一步說明，當四個子結果資料之機率特徵值皆為相似(例如差異在5%以內)，則分析方法將會再重新執行聲音資料重組程序P02。由於在聲音資料重組程序P02的起始點CP1係為隨機選取，因此每一次所產生的待辨識聲音資料之內容將有差異，據此差異將可能產生不同的分類結果資料。意即，雖然前一次的四個子結果資料皆具有相似的機率特徵值，然而在使用不同的起始點CP1所產生的待辨識聲音資料後，可能產生某一個子結果資料之機率特徵值特別高，因此即可輸出對應的分類結果資料。當然，倘若每一次的辨識結果，皆為各子結果資料具有相似的機率特徵值，則將具有最高之機率特徵值之子結果資料選擇為分類結果資料輸出，或是終止本次辨識，重新執行聲音片段產生程序P01而再次啟動辨識任務，亦或直接終止本次辨識後，不做任何輸出。於此，所謂的每一次例如可為2次、5次或定義的其他數量，於此並未加以限制。

上述實施例係以單一個子結果資料作為分類結果資料而輸出。在其他實施例中，亦可同時選擇複數子結果資料作為分類結果資料而輸出，例如肚子餓以及尿布濕同時發生的狀況。具體來說，當同時有複數個子結果資料之機率特徵值係接近的，且遠高於其他子結果資料之機率特徵值，將可視為同時具備多重需求，並同時將該些子結果資料子結果資料而同時輸出。

另一方面，實際操作上可能會有非嬰兒哭聲資料輸入而造成誤判，因此在另一實施例中，辨識輸出程序P04還可利用複數個辨識模型來降低誤判的狀況。例如，先將特徵結果資料輸入一第一模型以初步判斷是否為哭聲，若判斷結果為哭聲，才進入第二模型以進行哭聲需求辨識，據以降低誤判機率。同理，亦可擴充至三個模型或更多。

另外，請參照圖3所示，依據本發明一第二實施例之一種嬰兒哭聲分析裝置10，係與上述第一實施之嬰兒哭聲分析方法配合應用。分析裝置10係設置於一嬰兒的周邊，並且分析裝置10具有一聲音片段產生模組11、一聲音資料重組模組12、一特徵資料提取模組13以及一辨識輸出模組14。

聲音片段產生模組11係依據一環境聲音而產生一聲音片段。再進一步說明，本實施例中，聲音片段產生模組11還包括一擷取模組111、一判斷模組112以及一錄製模組113。

擷取模組111，例如為麥克風，其係擷取一環境聲音D01後，據以輸出一聲音資料樣本D02。

判斷模組112係與擷取模組111耦接，其係接收聲音資料樣本D02，並判斷聲音資料樣本D02之一音量值是否大於一音量門檻值。其中，判斷模組112係儲存有音量門檻值，其可為出廠預設，或由使用者手動調整。由於每個嬰兒皆為不同的個體，而有著不同聲音強度的哭聲，因此音量門檻值係可由使用者根據所需的靈敏度而調整。在本實施例中，判斷模組112中可具有一記憶體，其可暫存聲音資料樣本D02，當暫存的聲音資料樣本D02達到一預設資料量(例如為128筆、256筆...等)，則進行一次判斷程序。須注意者，為了加強判斷準確性，可以進行數次的判斷程序以確定聲音資料樣本D02之音量值是否大於音量門檻值。

錄製模組113係分別與擷取模組111及判斷模組112耦接。當前述的判斷模組112判斷聲音資料樣本D02之音量值大於音量門檻值時，代表聲音資料樣本D02可能包括有嬰兒哭聲，因此判斷模組112將輸出一觸發訊號S01至錄製模組113。而錄製模組113在接收觸發訊號S01之後，將根據擷取模組111輸出之聲音資料樣本D02而錄製具有一第一時間長度之聲音片段D03。其中，錄製模組113係可執行第一實施例之錄製程序P13，於此不再加以贅述。

聲音資料重組模組12係與聲音片段產生模組11耦接，並接收聲音片段D03後據以產生一待辨識聲音資料D04。更進一步說明，在本實施例中，聲音資料重組模組12係與聲音片段產生模組11之錄製模組113耦接。其中，聲音資料重組模組12係可執行第一實施例之聲音資料重組程序P02，於此不再加以贅述。

特徵資料提取模組13係與聲音資料重組模組12耦接，並接收待辨識聲音資料D04後據以產生一特徵結果資料D05。其中，特徵資料提取模組13係可執行第一實施例之特徵資料提取程序P03，於此不再加以贅述。值得一提的是，本實施例中，特徵資料提取模組13還包括一特徵轉換模組131、一降噪模組132以及一初始特徵提取模組133。

特徵轉換模組131係與聲音資料重組模組12耦接，並通過一特徵轉換方法，而依據待辨識聲音資料D04輸出一聲音特徵資料D41。其中，特徵轉換模組131係可執行第一實施例之特徵轉換程序P31，於此不再加以贅述。

降噪模組132係與特徵轉換模組131耦接，並通過一雜訊衰減方法，而依據聲音特徵資料D41輸出一降噪特徵資料D42。其中，降噪模組132係可執行第一實施例之降噪程序P32，於此不再加以贅述。

初始特徵提取模組133係分別與降噪模組132及辨識輸出模組14耦接，並通過一初始人工神經網路模型程式，而依據降噪特徵資料D42輸出特徵結果資料D05。其中，初始特徵提取模組133係可執行第一實施例之初始特徵提取程序P33，於此不再加以贅述。

辨識輸出模組14係與特徵資料提取模組13耦接，並接收特徵結果資料D05後據以產生一分類結果資料D06。其中，辨識輸出模組14係可執行第一實施例之辨識輸出程序P04，於此不再加以贅述。更進一步說明，在本實施例中，辨識輸出模組14係與特徵資料提取模組13之初始特徵提取模組133耦接。

值得一提的是，分析裝置10還可具有一揚聲器17，其係與辨識輸出模組14耦接，以發出對應於分類結果資料D06之語音，例如尿布濕、肚子餓、想睡覺或需要安撫。另外，再如圖4所示，分析裝置10A還可具有一無線傳輸模組18，其係分別與辨識輸出模組14以及一遠端裝置20耦接，以將對應於分類結果資料D06之訊息通過無線傳輸模組18而傳輸至遠端裝置20顯示或發出語音。其中，遠端裝置20係可例如但不限於為行動通訊裝置電腦。

再進一步說明，為了強化分析裝置的準確率，使用者還可以在分析裝置產生分類結果資料之後，經由遠端裝置或是分析裝置而反饋本次辨識之一真實正確結果(Grand True)。每次反饋時，係將錄製的聲音片段檔案以及真實正確結果傳送至一遠端伺服器。當傳送的數量達到一預設數量後(例如10筆或更多)，遠端伺服器將自動進行模型再訓練以及重新下載並部署回分析裝置。更進一步說明，模型再訓練僅針對特徵到結果之過程進行調整，也就是上述的辨識輸出模組14，而不會更動特徵資料提取模組13，藉以實現少量數據即可訓練深度模型。

綜上所述，本發明之一種嬰兒哭聲分析方法及其分析裝置係利用多重確認以啟動辨識機制，並通過聲音資料重組執行聲音資料重組程序，以特殊的隨機產生方法產生待辨識聲音資料。而後再將待辨識聲音資料轉換為特徵結果資料後，通過人工神經網路模型程式而產生分類結果資料，以通知使用者嬰兒哭聲所代表之意義。據此，利用以特殊的隨機產生方法產生待辨識聲音資料進行辨識，將可大幅提高辨識準確度，因此使用者可以較準確地針對嬰兒的需求進行處置。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。