TWI752551B

TWI752551B - 迅吃偵測方法、迅吃偵測裝置與電腦程式產品

Info

Publication number: TWI752551B
Application number: TW109123632A
Authority: TW
Inventors: 楊淑蘭; 葉品忻
Original assignee: 國立屏東大學
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-01-11
Also published as: TW202203202A

Abstract

本發明提出一種迅吃偵測方法，包括：將聲音訊號分為多個聲音片段；根據共振峰判斷是否要將每一個聲音片段中相鄰的兩個音框分割為不同的聲音片段；根據頻譜熵判斷是否要合併相鄰的兩個聲音片段；以及根據聲音片段的長度與頻譜熵來判斷是否發生迅吃現象。

Description

迅吃偵測方法、迅吃偵測裝置與電腦程式產品

本揭露是關於以演算法客觀地偵測迅吃的方法、裝置與電腦程式產品。

在語言治療領域中，要評估人說話是否發生迅吃需要耗費很多人力，而且這些評估會很依賴聽者的主觀判斷，從不同的判斷者中很難找到一致且客觀的判斷標準。因此，若能用電腦來自動判斷迅吃的現象，則可以有客觀的標準且可以節省人力。至今全世界尚無自動化的迅吃評估工具，一些習知的作法是將人的語音錄音下來以得到聲音訊號，再由專業人員反覆收聽語音樣本，以人工判斷是否該語音片段是否發生迅吃，但這樣需要大量的人力。因此，如何提出自動化的迅吃評估工具為此領域技術人員所關心的重要議題。

本發明的實施例提出一種迅吃偵測方法，適用於一處理器。此迅吃偵測方法包括：將聲音訊號分為多個聲音片段；對於每一個聲音片段中相鄰的第一音框與第二音框，根據第一音框的共振峰與第二音框的共振峰判斷是否要將第一音框與第二音框分割為不同的聲音片段；對於相鄰的第一聲音片段與第二聲音片段，根據第一聲音片段的頻譜熵與第二聲音片段的頻譜熵判斷是否要合併第一聲音片段與第二聲音片段；以及根據聲音片段的長度與頻譜熵來判斷是否發生迅吃現象。

在一些實施例中，上述根據第一音框的共振峰與第二音框的共振峰判斷是否要將第一音框與第二音框分割為不同的聲音片段的步驟，包括：取得第一音框的第一共振峰與第二共振峰，並且取得第二音框的第一共振峰與第二共振峰；以及如果第一音框的第一共振峰與第二音框的第一共振峰之間頻率的差異大於第一臨界值或者第一音框的第二共振峰與第二音框的第二共振峰之間頻率的差異大於第二臨界值，則將第一音框與第二音框分割為不同的聲音片段。

在一些實施例中，上述根據第一聲音片段的頻譜熵與第二聲音片段的頻譜熵判斷是否要合併第一聲音片段與第二聲音片段的步驟包括：將第一聲音片段的頻譜熵與第二聲音片段的頻譜熵中較大的一者除以較小的一者以得到一熵比率；以及如果熵比率大於第三臨界值，合併第一聲音片段與第二聲音片段。

在一些實施例中，上述根據聲音片段的長度與頻譜熵來判斷是否發生迅吃現象的步驟包括；取得聲音片段中的連續子集合；以及如果連續子集合中聲音片段的平均長度小於第四臨界值，判斷連續子集合發生迅吃現象。

在一些實施例中，上述根據聲音片段的長度與頻譜熵來判斷是否發生迅吃現象的步驟還包括：對於每一個聲音片段，計算聲音片段中多個音框的平均頻譜熵；將平均頻譜熵減去一個人平均頻譜熵後再除以一個人頻譜熵的標準差以得到一頻譜熵複雜度；以及如果頻譜熵複雜度大於第五臨界值，判斷對應的聲音片段發生迅吃現象。

以另一個角度來說，本發明的實施例提出一種電腦程式產品，當電腦載入此電腦程式產品並執行後，可完成上述的迅吃偵測方法。

以另一個角度來說，本發明的實施例提出一種迅吃偵測裝置，包括記憶體與處理器。記憶體儲存有多個指令，處理器用以執行這些指令以完成上述的迅吃偵測方法。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

關於本文中所使用之「第一」、「第二」等，並非特別指次序或順位的意思，其僅為了區別以相同技術用語描述的元件或操作。

圖1是根據一實施例繪示迅吃偵測裝置的示意圖。請參照圖1，迅吃偵測裝置100可以是智慧型手機、平板電腦、個人電腦、筆記型電腦、伺服器、工業電腦或具有計算能力的各種電子裝置等，本發明並不在此限。迅吃偵測裝置100包括了處理器110與記憶體120，處理器110通訊連接至記憶體120，其中處理器110可為中央處理器、微處理器、微控制器、數位信號處理器、語音處理晶片、特殊應用積體電路等，記憶體120可為隨機存取記憶體、唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶或是可透過網際網路存取之資料庫，其中儲存有多個指令，處理器110會執行這些指令來完成一迅吃偵測方法。

圖2A與圖2B是根據一實施例繪示迅吃偵測方法的流程圖。請參照圖2A，在步驟201，將聲音訊號分為多個聲音片段(segment)，在此可以採用任意的音節分割(syllable segmentation)演算法。由於發生迅吃現象時因為說話的速度加快會導致一些音節錯誤地被分為同一個音節，因此在此稱音節分割演算法的結果為聲音片段，而不是音節。在一些實施例中可以計算聲音訊號的音量(volume)與高階差分(high-order difference, HOD)，如以下數學式(1)與數學式(2)所示。 [數學式1]

[數學式2]

其中

表示聲音訊號在時間點i的振幅，n為一正整數。接著計算音量與高階差分的權重合，如以下數學式(3)。 [數學式3]

其中

為音量與高階差分的權重合。

為一權重，可經由實驗任意設定其數值。將權重合

與一臨界值做比較便可以將聲音訊號分為多個聲音片段，但此做法僅是範例，本揭露並不限制音節分割演算法的內容。

在步驟210，對於每個聲音片段中相鄰的兩個音框，根據這兩個音框的共振峰判斷是否要將這兩個音框分割為不同的聲音片段。請參照圖2A與圖3，聲音訊號310包括了聲音片段320、330。每個聲音片段中包括多個固定長度(例如：20毫秒)的音框，例如聲音片段320包括了相鄰的音框321、322。步驟210可用以判斷音框321、322是否應屬於不同的聲音片段。

具體來說，步驟210包括了步驟211~213。在步驟211，計算相鄰兩個音框的共振峰(formant)，在此可以採用任意的共振峰計算演算法，例如根據頻譜分析或是線性預測編碼(linear predictive coding, LPC)來計算出共振峰，本揭露並不限制如何計算出共振峰。通常頻率最低的兩個共振峰便足夠來代表音框的特性，因此這裡只取兩個共振峰，頻率最低的共振峰稱為第一共振峰，頻率第二低的共振峰稱為第二共振峰。例如，音框321具有第一共振峰

與第二共振峰

，而音框322具有第一共振峰

與第二共振峰

。

如果相鄰音框屬於同一個音節，則這兩個音框的共振峰的頻率應該很接近，因此根據共振峰的頻率差異可以判斷兩個相鄰音框是否應屬於不同的音節(聲音片段)。在步驟212，判斷相鄰音框共振峰的差異是否大於臨界值。舉例來說，如果第一共振峰

與第一共振峰

之間頻率的差異大於第一臨界值(例如：200Hz)或者第二共振峰

與第二共振峰

之間頻率的差異大於第二臨界值(例如：200Hz)，則步驟212的判斷結果為是，此步驟可以表示為以下數學式(4)。 [數學式4]

其中

為第一臨界值，

為第二臨界值。如果步驟212的結果為是，在步驟213，將相鄰的兩個音框分割為不同的聲音片段。在圖3的例子中第二共振峰

與第二共振峰

之間頻率的差異大於第二臨界值，因此音框321與音框322會被分為不同的聲音片段，也就是說聲音片段320會被再切割為兩個更短的聲音片段，其中一個聲音片段包含音框321，另一個聲音片段包含音框322。另一方面，如果步驟212的結果為否，則維持聲音片段不變。

經過步驟210以後，有些擦音或是塞擦音的氣音部分與相鄰的母音部分容易被切割成兩個聲音片段，因此必須判斷出這些錯誤分割的氣音部分，將此氣音部分與母音部分合併。一般來說母音的頻譜熵(spectral entropy)比較小，而氣音的頻譜熵比較大，如果相鄰兩個聲音片段的頻譜熵相差太大則可以判斷其中一者為氣音，可以合併兩個聲音片段。在步驟220中對於相鄰的兩個聲音片段，可根據這兩個聲音片段的頻譜熵差異判斷是否要進行合併。

具體來說，步驟220包括了步驟221~224。在步驟221，計算每個音框的頻譜熵，計算公式如以下數學式(5)與(6)。 [數學式5]

[數學式6]

其中

為一個音框經過快速傅立葉轉換後在頻率

的能量(振幅)，N是一個音框內頻率的個數，H為上述的頻譜熵。在步驟222，計算每個聲音片段的頻譜熵，在此實施例中是將一個聲音片段內所有音框的頻譜熵H平均起來以當作該聲音片段的頻譜熵。

在步驟223，判斷相鄰聲音片段的頻譜熵是否相差太多。在一些實施例中，對於相鄰的兩個聲音片段可將較大的頻譜熵除以較小的頻譜熵以得到一個熵比率(ratio of entropy)，如果此熵比率大於第三臨界值(例如：1.5)則步驟223的結果為是，此時表示這兩個聲音片段其中一個為母音，另一個為氣音，因此在步驟224可以合併這兩個聲音片段。另一方面，如果上述的熵比率小於等於第三臨界值，則步驟223的結果為否，維持聲音片段不變。

請參照圖2B，在步驟230中，根據聲音片段的長度與頻譜熵來判斷是否發生迅吃現象，一般來說，發生迅吃時聲音片段(音節)的長度較短，因此如果該聲音片段的長度太短則可判斷發生迅吃現象。此外當發生迅吃現象時因為說話速度加快(省略一些發音)使得多個音節會被錯誤地分為同一個聲音片段，此聲音片段的頻譜熵複雜度會比較大，因此也可以在頻譜熵複雜度太大時，則判斷發生迅吃現象。具體來說，步驟230包括步驟231~234。

在步驟231，判斷聲音片段的平均長度是否小於一第四臨界值。在此假設共有n個聲音片段，由於迅吃可以發生在任意一或多個聲音片段，因此先取得所有n個聲音片段的一連續子集合，此連續子集合代表第a個聲音片段至第b個聲音片段所形成的集合，其中

，a與b為正整數。上述的平均長度可由以下數學式(7)來計算。 [數學式7]

其中

為第i個聲音片段的長度，

為連續子集合的平均長度。如果此平均長度大於一第四臨界值，則步驟231的結果為否，這表示第a個聲音片段到第b個聲音片段語速正常。反之如果此平均長度小於第四臨界值，則步驟231的結果為是，在步驟232中可判斷第a個聲音片段到第b個聲音片段發生迅吃現象。值得注意的是，此計算會套用至所有的連續子集合，例如在判斷第1個聲音片段到第(n-1)個聲音片段以後，可以再判斷第2個聲音片段至第n個聲音片段，以此類推，對於n個聲音片段來說總共會有

個連續子集合。此外，上述的第四臨界值可以設定為所有聲音片段長度的平均減去一個標準差，但本揭露並不在此限。在一些實施例中，如果兩個連續子集合都判斷發生迅吃現象且彼此重疊，則可以將這兩個連續子集合合併。例如當判斷第3個聲音片段至第6個聲音片段發生迅吃，且第5個聲音片段至第7個聲音片段發生迅吃，則可以合併為第3個聲音片段至第7個聲音片段發生迅吃。在一些實施例中，如果一個連續子集合包含另一個連續子集合且較大連續子集合已經被判斷為發生迅吃，則可以省略較小的連續子集合。舉例來說，如果第2個聲音片段至第10個的聲音片段已經被判斷為發生迅吃，則不需要再判斷第2個聲音片段至第5個聲音片段是否發生迅吃，這樣可以減少計算量。

如果步驟231的結果為否，在步驟233中判斷聲音片段的頻譜熵複雜度是否大於臨界值。具體來說，對於每一聲音片段的音框都可計算出頻譜熵，將一個聲音片段內所有音框的頻譜熵平均起來可以當作該聲音片段的平均頻譜熵

。此外，對於測試的一個使用者來說，可以從資料庫中取得此使用者的所有聲音訊號並計算出所有頻譜熵的平均以作為一個人平均頻譜熵

，另一方面也可計算相同使用者所有音框的頻譜熵的標準差，以作為一個人頻譜熵的標準差

。將平均頻譜熵

減去個人平均頻譜熵

後再除以個人頻譜熵的標準差

以後可得到頻譜熵複雜度，如以下數學式(8)所示。 [數學式8]

最後，判斷數學式(8)計算出的頻譜熵複雜度是否大於一第五臨界值，若是的話表示步驟233的結果為是，在步驟232判斷此聲音片段發生迅吃現象，否則在步驟234判斷為非迅吃現象。在一些實施例中，上述的第五臨界值可以是平均值加上一個標準差，但在其他實施例中也可以任意設定，本發明並不在此限。

圖2A與圖2B中各步驟可以實作為多個程式碼或是電路，本發明並不在此限。以另外一個角度來說，本發明也提出了一電腦程式產品，此產品可由任意的程式語言及/或平台所撰寫，當此電腦程式產品被載入至電腦系統並執行時，可執行圖2A與圖2B的方法。

在上述的迅吃判斷方法中，可以適當地合併/分割聲音片段，並且根據聲音片段的長度與頻譜熵可以客觀地判斷出是否發生迅吃現象。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:迅吃偵測裝置 110:處理器 120:記憶體 201、210~213、220~224、230~234:步驟 310:聲音訊號 320、330:聲音片段 321、322:音框

[圖1]是根據一實施例繪示迅吃偵測裝置的示意圖。 [圖2A]與[圖2B]是根據一實施例繪示迅吃偵測方法的流程圖。 [圖3]是根據一實施例繪示聲音訊號中聲音片段、音框的示意圖。

201、210~213、220~224:步驟

Claims

一種迅吃偵測方法，適用於一處理器，該迅吃偵測方法包括：將一聲音訊號分為多個聲音片段；對於每一該些聲音片段中相鄰的第一音框與第二音框，取得該第一音框的第一共振峰與第二共振峰，並且取得該第二音框的第一共振峰與第二共振峰；如果該第一音框的該第一共振峰與第二音框的該第一共振峰之間頻率的差異大於一第一臨界值，或者該第一音框的該第二共振峰與第二音框的該第二共振峰之間頻率的差異大於一第二臨界值，將該第一音框與該第二音框分割為不同的聲音片段；對於該些聲音片段中相鄰的第一聲音片段與第二聲音片段，將該第一聲音片段的頻譜熵與該第二聲音片段的頻譜熵中較大的一者除以較小的一者以得到一熵比率，如果該熵比率大於一第三臨界值，合併該第一聲音片段與該第二聲音片段；取得該些聲音片段中的一連續子集合；以及如果該連續子集合中該些聲音片段的平均長度小於一第四臨界值，判斷該連續子集合發生迅吃現象。
如請求項1所述之迅吃偵測方法，還包括：對於每一該些聲音片段，計算該聲音片段中多個音框的一平均頻譜熵；將該平均頻譜熵減去一個人平均頻譜熵後再除以一個人頻譜熵的標準差以得到一頻譜熵複雜度；以及如果該頻譜熵複雜度大於一第五臨界值，判斷對應的該聲音片段發生該迅吃現象。
一種電腦程式產品，當電腦載入該電腦程式產品並執行後，可完成上述申請專利範圍第1~2項中任一項所述之迅吃偵測方法。
一種迅吃偵測裝置，包括：一記憶體，儲存有多個指令；以及一處理器，用以執行該些指令以完成上述申請專利範圍第1~2項中任一項所述之迅吃偵測方法。