TWI585756B

TWI585756B - 口吃偵測方法與裝置、電腦程式產品

Info

Publication number: TWI585756B
Application number: TW104124768A
Authority: TW
Inventors: 楊淑蘭; 葉品忻; 楊智傑
Original assignee: 國立屏東大學
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2017-06-01
Also published as: TW201705127A

Description

口吃偵測方法與裝置、電腦程式產品

本發明是有關於一種能自動偵測口吃語音的方法、裝置與電腦程式產品。

在一般語言治療的領域中，要評估人是否有口吃需要耗費很多人力，而且這些評估會很依賴人的主觀判斷，從不同的判斷者中很難找到一致且客觀的判斷標準。因此，若能用電腦來自動判斷口吃的現象，則可以有客觀的判斷標準且可以節省人力。一些習知的作法是將人的語音錄音下來以得到聲音訊號，並且把此聲音訊號分為多個學習樣本，再執行一個機器學習演算法，所得到的模型可用來判斷測試的聲音訊號是否有口吃的現象。然而，利用機器學習的方法需要蒐集許多人聲樣本，若人聲樣本不夠則判斷的準確度會降低。

本發明實施例提出一種口吃偵測方法，包括：取得聲音訊號，並將聲音訊號分為多個音節；根據第一變數與第二變數決定多個位置向量，其中每一個位置向量具有第一位置與第二位置，且第一位置與第二位置是根據以下方程式(1)所決定：

其中i為第一位置，j為第二位置，a為第一變數，b為第二變數；對於每一個位置向量，判斷第i個音節與第j個音節是否相似，以判斷位置向量是否符合一相似條件；以及符合相似條件的位置向量的數目若大於一個相似數目臨界值，則判斷聲音訊號存在口吃現象。

在一些實施例中，上述的口吃偵測方法更包括：判斷是否已嘗試所有的第一變數與第二變數，其中a×(b+1)小於等於所有音節的數目。若尚未嘗試所有的第一變數與第二變數，則調整第一變數與第二變數並且根據調整後的第一變數與第二變數重新決定位置向量。

在一些實施例中，其中判斷第i個音節與第j個音節是否相似的步驟包括：根據以下方程式(2)~(7)分別計算第i個音節與第j個音節的多個特徵值：

VH=α×Volume+(1-α)×HOD...(6)

VE=Volume×(1-entropy)...(7)

其中Volume為音量特徵值，ZCR為過零率特徵值，Entropy為熵值特徵值，HOD為微分特徵值，VH為音量微分特徵值，VE為音量熵值特徵值。s_i為聲音訊號在時間點i的振幅，n為音框的長度，sgn[]代表正負號函數，s(f_k)代表聲音訊號在頻率域中第k個頻率的振幅，N代表聲音訊號在頻率域的長度，α為常數。接下來，根據第i個音節的特徵值與第j個音節的特徵值來判斷第i個音節與第j個音節的是否相似。

在一些實施例中，其中將聲音訊號分為音節的步驟包括：計算聲音訊號的音量微分特徵值以取得音量微分特徵訊號；判斷音量微分特徵訊號是否大於一個音節臨界值；以及從音量微分特徵訊號中取得大於音節臨界值的部分以決定多個音節。

在一些實施例中，其中根據第i個音節的特徵值與第j個音節的特徵值來判斷第i個音節與第j個音節是否相似的步驟包括：對於每一個特徵值，對第i個音節與第j個音節執行動態時軸校正演算法以判斷第i個音節與第j個音節在對應的特徵值是否相似；以及若在第i個音節與第j個音節之間有f個特徵值判斷兩音節為相似，則判斷第i個音節與第j個音節相似，其中f為正整數，其小於等於所有特徵值的數目。

本發明的實施例亦提出一種電腦程式產品，當電腦載入此電腦程式產品並執行後，可完成上述申請的口吃偵測方法。

本發明的實施例亦提出一種口吃偵測裝置，包括記憶體與處理器。此記憶體儲存多個指令，由處理器來執行上述的口吃偵測方法。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100‧‧‧口吃偵測裝置

110‧‧‧處理器

120‧‧‧記憶體

130‧‧‧聲音擷取模組

140‧‧‧傳輸模組

210‧‧‧音量微分特徵訊號

211‧‧‧音節臨界值

220、230‧‧‧音節

300‧‧‧音節矩陣

311~313‧‧‧元素

S401~S409‧‧‧步驟

[圖1]是根據一實施例繪示口吃偵測裝置的示意圖。

[圖2]是根據一實施例繪示將聲音訊號分為多個音節的示意圖。

[圖3]是根據一實施例繪示音節矩陣的示意圖。

[圖4]是根據一實施例繪示口吃偵測方法的流程圖。

關於本文中所使用之『第一』、『第二』、...等，並非特別指次序或順位的意思，其僅為了區別以相同技術用語描述的元件或操作。另外，關於本文中所使用之「耦接」，可指二個元件直接地或間接地作電性連接。也就是說，當以下描述「第一物件耦接至第二物件」時，第一物件與第二物件之間還可設置其他的物件。

圖1是根據一實施例繪示口吃偵測裝置的示意圖。請參照圖1，口吃偵測裝置100包括處理器110、記憶體 120、聲音擷取模組130與傳輸模組140。口吃偵測裝置100可以實作為任意形式的電子裝置，例如為手機、平板電腦、個人電腦或者是嵌入式系統。

處理器110例如為中央處理器、微處理器或是任意可執行指令的通用目的處理器(general purpose processor)。記憶體120可以為隨機存取記憶體或快閃記憶體等，記憶體120中儲存有多個指令，可由處理器110來執行以完成口吃偵測方法。聲音擷取模組130例如為麥克風，而傳輸模組140可以是符合任意合適通訊協定的電路，例如為通用串列匯流排(Universal Serial Bus，USB)模組或是藍芽(Bluetooth)模組。然而，口吃偵測裝置100還可包括其他模組、例如：顯示模組、電源模組等，本發明並不在此限。以下將說明口吃偵測方法的具體內容。

首先，使用者可對聲音擷取模組130說話，而聲音擷取模組130會將取得的聲音訊號傳送至處理器110。在此實施例中處理器110是透過聲音擷取模組130來取得聲音訊號，但在其他實施例中也可以透過傳輸模組140從其他的裝置上取得聲音訊號，本發明並不在此限。

接下來，處理器110會將聲音訊號分為多個音節。具體來說，處理器110會先擷取聲音訊號的特徵值，此特徵值可以是音量特徵值、過零率特徵值、熵值特徵值、微分特徵值、音量微分特徵值或音量熵值特徵值，可分別由以下方程式(1)~(6)所計算出。

VH=α×Volume+(1-α)×HOD...(5)

VE=Volume×(1-entropy)...(6)

Volume為音量特徵值，s_i為聲音訊號在時間點i的振幅。n為一音框(frame)的長度，例如為20微秒，但在其他實施例中也可以其他長度。換言之，聲音訊號會被切割為多個音框，而對於每一個音框都可以根據上述方程式(1)計算出一個數值。

ZCR為過零率特徵值，sgn[]代表正負號(sign)函數，例如：變數x為正時，sgn[x]則為1，反之則為0。

Entropy為熵值特徵值，s(f_k)代表聲音訊號在頻率域中之第k個頻率的振幅，N代表聲音訊號在頻率域的長度。舉例來說，對於長度n，可將聲音訊號從時域(duration)轉換至頻率域(frequency)，例如使用傅立葉轉換(Fourier transform)或是快速傅立葉轉換(Fast Fourier Transform，FFT)等以得到各個頻率的振幅(共有N個數值)，而s(f_k)則代表其中第k個振幅。

HOD為微分特徵值，VH為音量微分特徵值，VE為音量熵值特徵值，其中α為介於0至1之間的常數。

請參照圖2，圖2是根據一實施例繪示將聲音訊號分為多個音節的示意圖。在此實施例中，可根據上述其中一個特徵值來將聲音訊號分為多個音節。在此以音量微分特徵值為例，首先，將聲音訊號分為多個音框，對於每一個音框，都可根據上述方程式(5)計算出音量微分特徵值，而所有音框的音量微分特徵值便會組成一個音量微分特徵訊號210。接下來，判斷音量微分特徵訊號210中每一個取樣點的振幅是否大於音節臨界值211，並且將音量微分特徵訊號210中取得大於音節臨界值211的部分以決定出音節220與音節230。在其他的實施例中，也可以用其他的特徵值來將聲音訊號分為多個音節，本發明並不在此限。

接下來，處理器110會設定第一變數與第二變數，此第一變數與第二變數所代表的意義是假設聲音訊號中有a個音節重複了b次。舉例來說，若使用者想要說“有八個人”但把其中的“有八個”重複了一次，這樣一來所取得的音節便是“有八個有八個人”，在此情況下a=3、b=1。在此實施例中，是先設定第一變數與第二變數為某一組數值，在偵測完是否有口吃現象以後會再改變第一變數與第二變數，直到嘗試了所有的第一變數與第二變數。

對於某一組第一變數與第二變數，處理器110會根據第一變數與第二變數來決定多個位置向量，其中每一個位置向量具有第一位置與第二位置。此第一位置與第二位置是根據以下方程式(7)所決定：

其中i為第一位置，j為第二位置，a為第一變數，b為第二變數，並且i、j、a、b都為正整數。第一位置與第二位置是要找到對應的音節並判斷這兩個音節是否相似。具體來說，對於每一個位置向量(i,j)，處理器110都會判斷第i個音節與第j個音節是否相似，以判斷此位置向量是否符合一個相似條件。如果符合相似條件的位置向量的數目大於一個相似數目臨界值，則判斷聲音訊號存在口吃現象。

請參照圖3，圖3是根據一實施例繪示音節矩陣的示意圖。舉例來說，假設使用者所要說的是「有八個人」，但使用者因為口吃所以把「有八個」這三個音節重複了三次(共出現四次)，因此產生了13個音節。在此以音節矩陣300來說明要挑選哪兩個音節來判斷是否符合相似條件。在圖3的實施例中，上述的第一變數a為3，第二變數b也為3，而上述方程式(7)中的正整數m可為0、1、2。當正整數m為0時，上述的方程式(7)可改寫為以下方程式(8)。

根據方程式(8)，當m=0時所產生的位置向量為(10,1)、(11,2)、(12,3)，分別對應至音節矩陣300中的元素311~313。也就是說，處理器110會判斷第10個音節是否相似於第1個音節，若是則表示位置向量(10,1)符合相似條件，以此類推。類似地，當m=1時，所產生的位置向量則是對應至音節矩陣300中標記為“6”且具有網底的元素(共6個)；當m=2時，所產生的位置向量是對應至音節矩陣300中標記為“3”且具有網底的元素(共9個)；也就是說，要辨識是否有3音節重複3次的口吃現象，需要比對的位置向量為圖3中之18個具有網底的元素。在此，音節矩陣300中，每個元素中的數字只是標記用。

接下來，處理器110會判斷音節矩陣300中有幾個位置向量是符合相似條件。如果這些符合相似條件的位置向量的數目大於相似數目臨界值，則可判斷聲音訊號存在口吃現象，並可以判斷出聲音訊號中有a個音節重複了b次。在一些實施例中，可以將所有位置向量的個數乘上一個係數以決定出相似數目臨界值。舉例來說，音節矩陣300中共有18個位置向量，係數可設定為0.8(代表80%的位置向量是相似的)，則上述的相似數目臨界值可設定為18×0.814，然而在其他實施例中此相似數目臨界值也可設定為其他數值，本發明並不在此限。另一方面，如果音節矩陣300中符合相似條件的位置向量的數目小於相似數目臨界值，則表示在語音訊號中並沒有a個音節重複b次，即還沒發現口吃的現象。

接下來，處理器110可以調整第一變數a與第二變數b(例如調整為a=3,b=2)，然後根據調整後的第一變數a與第二變數b重新決定出新的位置向量，再判斷這些位置向量是否符合相似條件以判斷聲音訊號是否存在口吃現象。值得注意的是，聲音訊號中音節的數目為一個固定值，而根據第一變數與第二變數假設出的音節數目不應該超過聲音訊號中的音節總數目，也就是說a×(b+1)應該小於等於聲音訊號中的音節總數目。舉例來說，若聲音訊號中共有13個音節，則(a,b)可能為(6,1)、(5,1)、(4,1)、(4,2)...等。若嘗試了所有可能的第一變數與第二變數都沒有發現聲音訊號中有口吃的現象，則可以判斷聲音訊號中沒有口吃的現象。

以下將說明如何判斷兩個音節是否相似，在此假設要判斷第i個音節與第j個音節是否相似，值得注意的是第i個音節與第j個音節的時長可能不相同。處理器110可根據上述方程式(1)~(6)來計算第i個音節與第j個音節的特徵值，對於每一個特徵值，處理器110都會對第i個音節與第j個音節執行動態時軸校正(dynamic time warping，DTW)演算法。以音量特徵值為例，若第i個音節中有10個音框且第j個音節中有20個音框，則會產生維度為10x20的矩陣，矩陣中每一個數值都代表對應的兩個音框在音量上的差異，動態時軸校正演算法是要在此矩陣中找到差異最小的路徑，執行動態時軸校正演算法後可得到一個誤差值，然而本領域具有通常知識者當可理解動態時軸校正演算法，在此不再贅述。處理器110可以判斷上述的誤差值是否小於一個臨界值來判斷第i個音節與第j個音節在音量特徵值是否相似，而對於其他的特徵值也都執行動態時軸校正演算法並做相同的判斷。若在第i個音節與第j個音節之間有f個特徵值小於臨界值，則可以判斷第i個音節與第j個音節相似，其中f為小於等於6的正整數。在此實施例中，正整數f可設定為4，但本發明並不在此限。例如，若處理器110使用更多的特徵值，則正整數f也可對應的增加。

圖4是根據一實施例繪示口吃偵測方法的流程圖。請參照圖4，在步驟S401中，取得一聲音訊號，並將此聲音訊號分為多個音節。在步驟S402中，根據第一變數a與第二變數b決定多個位置向量(根據以上方程式(7))。在步驟S403中，對於每一個位置向量(i,j)，判斷第i個音節與第j個音節是否相似，以判斷此位置向量是否符合相似條件。在步驟S404中，判斷符合相似條件的位置向量的數目是否大於相似數目臨界值。若步驟S404的結果為是，在步驟S405中判斷聲音訊號存在對應(a,b)的口吃現象；反之，在步驟S406中判斷聲音訊號不存在對應(a,b)的口吃現象。接下來在步驟S407，判斷是否已嘗試了所有的第一變數a與第二變數b。若步驟S407的結果為否，則在步驟S408中調整第一變數a與第二變數b，並且回到步驟S402。若步驟S407的結果為是，再進行步驟S409，輸出偵測結果，例如可以輸出曾在步驟S405中被判斷出有口吃現象的所有(a,b)。另一方面，當嘗試了所有的第一變數a與第二變數b以後若都沒有發現口吃現象，則在步驟S409可輸出沒有口吃現象的偵測結果。然而，本發明並不限制偵測結果的資料型態、結構與形式。然而，圖4中各步驟已詳細說明如上，在此便不再贅述。值得注意的是，圖4中各步驟可以實作為多個程式碼或是電路，本發明並不在此限。此外，圖4的方法可以搭配以上實施例使用也可以單獨使用，換言之，圖4的各步驟之間也可以加入其他的步驟。

在本發明亦提出一種電腦程式產品，當電腦載入此電腦程式產品並執行後，可完成上述的口吃偵測方法。例如，此電腦程式產品可以載入至圖1的記憶體120，由處理器110來執行。然而，本發明並不限制此電腦程式產品要用何種程式語言來實作。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S401~S409‧‧‧步驟

Claims

一種口吃偵測方法，包括：取得一聲音訊號，並將該聲音訊號分為多個音節；根據一第一變數與一第二變數決定多個位置向量，其中每一該些位置向量具有一第一位置與一第二位置，且該第一位置與該第二位置是根據以下方程式(1)所決定：其中i為該第一位置，j為該第二位置，a為該第一變數，b為該第二變數；對於每一該些位置向量，判斷該些音節中第i個音節與第j個音節是否相似，以判斷該位置向量是否符合一相似條件；以及若該些位置向量中符合該相似條件的位置向量的數目大於一相似數目臨界值，則判斷該聲音訊號存在一口吃現象。
如申請專利範圍第1項所述之口吃偵測方法，更包括：判斷是否已嘗試所有的該第一變數與該第二變數，其中a×(b+1)小於等於該些音節的總數目；若尚未嘗試所有的該第一變數與該第二變數，調整該第一變數與該第二變數，並且根據調整後的該第一變數與該第二變數重新決定該些位置向量。
如申請專利範圍第1項所述之口吃偵測方法，其中判斷該第i個音節與該第j個音節是否相似的步驟包括：根據以下方程式(2)~(7)分別計算該第i個音節與該第j個音節的多個特徵值： VH=α×Volume+(1-α)×HOD...(6) VE=Volume×(1-entropy)...(7)其中Volume為音量特徵值，ZCR為過零率特徵值，Entropy為熵值特徵值，HOD為微分特徵值，VH為音量微分特徵值，VE為音量熵值特徵值，s_i為該聲音訊號在時間點i的振幅，n為音框的長度，sgn[]代表一正負號函數，s(f_k)代表該聲音訊號在頻率域中第k個頻率的振幅，N代表該聲音訊號在該頻率域的長度，α為常數；以及根據該第i個音節的該些特徵值與該第j個音節的該些特徵值，來判斷該第i個音節與該第j個音節的是否相似。
如申請專利範圍第3項所述之口吃偵測方法，其中將該聲音訊號分為該些音節的步驟包括：計算該聲音訊號的該音量微分特徵值以取得一音量微分特徵訊號；判斷該音量微分特徵訊號是否大於一音節臨界值；以及從該音量微分特徵訊號中取得大於該音節臨界值的部分以決定該些音節。
如申請專利範圍第3項所述之口吃偵測方法，其中根據該第i個音節的該些特徵值與該第j個音節的該些特徵值，來判斷該第i個音節與該第j個音節是否相似的步驟包括：對於每一該些特徵值，對該第i個音節與該第j個音節執行一動態時軸校正演算法以判斷該第i個音節與該第j個音節在對應的該特徵值是否相似；以及若有f個該些特徵值判斷該第i個音節與該第j個音節為相似，則判斷該第i個音節與該第j個音節相似，其中f為正整數，其小於等於該些特徵值的數目。
一種電腦程式產品，當電腦載入該電腦程式產品並執行後，可完成上述申請專利範圍第1~5項中任一項所述之口吃偵測方法。
一種口吃偵測裝置，包括：一記憶體，儲存多個指令；以及一處理器，用以執行該些指令以執行多個步驟：取得一聲音訊號，並將該聲音訊號分為多個音節；根據一第一變數與一第二變數決定多個位置向量，其中每一該些位置向量具有一第一位置與一第二位置，且該第一位置與該第二位置是根據以下方程式(1)所決定：其中i為該第一位置，j為該第二位置，a為該第一變數，b為該第二變數；對於每一該些位置向量，判斷該些音節中第i個音節與第j個音節是否相似以判斷該位置向量是否符合一相似條件；以及若該些位置向量中符合該相似條件的位置向量的數目大於一相似數目臨界值，判斷該聲音訊號存在一口吃現象。