TWI818558B

TWI818558B - 用於病理語音辨識之系統、方法及電腦可讀儲存介質

Info

Publication number: TWI818558B
Application number: TW111119881A
Authority: TW
Inventors: 李光申; 胡皓淳; 王思涵
Original assignee: 國立陽明交通大學
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-10-11
Also published as: TW202347313A

Abstract

本揭露提供一種用於病理語音識別之系統及方法以及電腦可讀儲存介質。所述用於病理語音識別之方法係包括：採集語音信號；利用梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法處理該語音信號以獲得MFCC頻譜圖；自該MFCC頻譜圖提取多個特徵；以及藉由深度學習模型根據該語音信號的該MFCC頻譜圖的該數個特徵，預測該語音信號的病理狀態，其中，語音信號的病理狀態包含正常語音、單側聲帶麻痺、內收肌痙攣性發聲障礙、聲帶萎縮、及器質性聲帶病變。

Description

用於病理語音辨識之系統、方法及電腦可讀儲存介質

本揭露係關於藉由語音辨識預測聲帶狀態，更具體地說，係關於利用人工智慧預測聲帶之病理狀態。

發聲障礙(dysphonia)由於干擾交流而影響生活、社會和職業方面的生活品質，越來越多人認為發聲障礙的影響是一個公共衛生問題。在一項全國範圍內針對發聲障礙就診的保險理賠資料分析顯示，5500萬人的患病率為0.98%，而這一比率在70歲以上人群中達到2.5%。然而據估計，老年人口的總體發聲障礙發病率要高得多(12%-35%)，意味著發聲障礙病識感不高，又因醫療可近性相對較低，容易忽視。

根據美國耳鼻喉頭頸外科基金會最新的發聲障礙臨床實踐指南，如果發聲障礙在4周內未能解決或改善，則建議進行喉鏡檢查。另外，比較初級保健醫生的診斷與具有多學科發聲診所解讀頻閃觀測(stroboscopy)經驗的喉科醫生和語言病理學家的診斷表明，初級保健醫生對發聲障礙的診斷在45%-70%的病例中是不同的。然而，喉鏡檢查是一種侵入性的過程，不一定每位病人都可以配合檢查，必須由有經驗的喉科醫生才能做出正確的內視鏡診斷，且這種檢查設備很昂貴，通常一般在初級保健單位不易獲得，而因應疫情及偏鄉的遠距醫療需求，非侵入式的喉部檢查有其必要性。否則，在沒有足夠醫療資源的地方，延誤診斷和治療的現象屢見不鮮。

因此，需要一種非侵入性的診斷工具來有效地篩查重要的臨床狀態，以便進一步評估狀態。

本揭露提供一種用於病理語音識別之方法，係包括：採集語音信號；利用梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法處理該語音信號，以獲得MFCC頻譜圖；自該MFCC頻譜圖提取多個特徵；以及藉由深度學習模型根據該語音信號之該MFCC頻譜圖的該多個特徵，預測該語音信號之病理狀態。

於一實施例中，根據本揭露之方法包括：採集複數個語音樣本到資料庫中；將該複數個語音樣本分為訓練集和測試集；利用梅爾頻率倒頻譜係數(MFCC)演算法處理該複數個語音樣本的該訓練集，以獲得複數個MFCC頻譜圖；自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖，提取複數個特徵；以及將該複數個特徵輸入至該深度學習模型，以訓練該深度學習模型，其中，該複數個特徵包括MFCC頻譜圖、一階微分(delta)MFCC頻譜圖、及/或二階微分(second-order delta)MFCC頻譜圖，其中，該複數個語音樣本的每一個語音樣本包含持續母音聲及隨後的連續語音。

於一實施例中，根據本揭露之方法復包括：藉由將該複數個語音樣本的該訓練集分類成2類、3類、4類、或5類，來訓練該深度學習模型。

於一實施例中，該2類包含正常語音(normal voices)與由內收肌痙攣性發聲障礙(adductor spasmodic dysphonia)、器質性聲帶病變(organic vocal fold lesions)、單側聲帶麻痺(unilateral vocal paralysis)、及聲帶萎縮(vocal atrophy)所組成的一類。於另一實施例中，該3類包含正常語音、內收肌痙攣性發聲障礙、與由器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。於再一實施例中，該4類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、與由單側聲帶麻痺及聲帶萎縮所組成的一類。於又一實施例中，該5類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、與聲帶萎縮。

於一實施例中，根據本揭露之方法復包括：藉由添加輟學函數(dropout function)、利用小批量(minibatches)、基於餘弦退火(cosine annealing)和1週期策略(1-cycle policy strategy)調整學習率、及應用Softmax層作為輸出層，來訓練該深度學習模型；以及藉由平均輸出概率(average output probability)組裝已訓練的深度學習模型。

於一實施例中，所述自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵之步驟係包括：利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，以自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵，其中，該複數個特徵包括MFCC、一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。

本揭露更提供一種儲存有電腦可讀指令之電腦可讀儲存介質，當該電腦可讀指令被執行時，令一系統執行如上述根據本揭露之方法。

本揭露提供一種用於病理語音識別之系統，係包括：換能器(transducer)，係經配置以採集語音信號；處理器，包含深度學習模型並經配置以：利用梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法處理該語音信號，以獲得MFCC頻譜圖；自該MFCC頻譜圖提取多個特徵；以及藉由深度學習模型根據該語音信號之該MFCC頻譜圖的該多個特徵，預測該語音信號之病理狀態。

於一實施例中，根據本揭露之系統復包括：資料庫，係配置以接收由該換能器所採集之複數個語音樣本，其中，該處理器係經配置以：將該複數個語音樣本分為訓練集和測試集；利用梅爾頻率倒頻譜係數(MFCC)演算法處理該複數個語音樣本的該訓練集，以獲得複數個MFCC頻譜圖；自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖，提取複數個特徵；以及將該複數個特徵輸入至該深度學習模型，以訓練該深度學習模型，其中，該複數個特徵包括MFCC頻譜圖、一階微分(delta)MFCC頻譜圖、及/或二階微分(second-order delta)MFCC頻譜圖，其中，該複數個語音樣本的每一個語音樣本包含持續母音聲及隨後的連續語音。

於一實施例中，該系統的該處理器係經進一步配置以：藉由將該複數個語音樣本的該訓練集分類成2類、3類、4類、或5類，來訓練該深度學習模型。於一實施例中，該2類包含正常語音(normal voices)與由內收肌痙攣性發聲障礙(adductor spasmodic dysphonia)、器質性聲帶病變(organic vocal fold lesions)、單側聲帶麻痺(unilateral vocal paralysis)、及聲帶萎縮(vocal atrophy)所組成的一類。於另一實施例中，該3類包含正常語音、內收肌痙攣性發聲障礙、與由器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。於再一實施例，該4類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、與由單側聲帶麻痺及聲帶萎縮所組成的一類。於又一實施例，該5類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、與聲帶萎縮。

於一實施例中，該系統的該處理器係經進一步配置以：藉由添加輟學函數(dropout function)、利用小批量(minibatches)、基於餘弦退火(cosine annealing)和1週期策略(1-cycle policy strategy)調整學習率、及應用Softmax層作為輸出層，來訓練該深度學習模型；及藉由平均輸出概率(average output probability)組裝已訓練的深度學習模型。再者，該處理器係經進一步配置以利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，以自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵，其中，該複數個特徵包括MFCC、一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。

100:系統

10:換能器

20:儲存裝置

30:資料庫

40:處理器

41:深度學習模型

200:方法

S201~S203:步驟

300:方法

S301~S305:步驟

藉由閱讀以下對實施例的描述並參考圖式，可更充分地理解本揭露內容。

圖1係說明根據本揭露的實施例之用於病理語音識別之系統的示例性結構之示意圖。

圖2A係說明根據本揭露的實施例之用於病理語音識別之方法的示例性步驟之流程圖。

圖2B係說明根據本揭露的實施例之用於病理語音識別的深度學習模型之訓練過程的示例性步驟之流程圖。

圖3A至圖3C係為經過MFCC轉換過程後的正常語音樣本的視覺特徵圖。

圖3D係為說明損失函數值在訓練集和驗證集上的變化的圖式。

圖4A至圖4D分別是2類、3類、4類和5類的四種分類條件的混淆矩陣。

圖5A至5D分別是2類、3類、4類和5類的四種分類條件之ROC(receiver operating characteristic)曲線。

提供以下實施例是為了詳細說明本揭露的內容。本領域中具有基礎知識者在閱讀本揭露內容之後，可容易地理解本揭露內容的優點和效果，也可在其他不同的實施例中實施或應用。因此，在此揭露的本揭露範圍內的任何元素或方法都可與本揭露的任何實施例中揭露的任何其他元素或方法相結合。

本揭露內容的圖式中所示之比例關係、結構、尺寸和其他特徵僅用於說明本文所述的實施例，以便本領域具有通常知識者能夠從中閱讀和理解本揭露內容，這些特徵並不旨在限制本揭露的範圍。在不影響本揭露的目的和效果的情況下，對所述特徵的任何改變、修改或調整，都應屬於本揭露的技術內容範圍。

正如本文所使用的，當描述一個物體「包括」、「包含」、「具有」一個限制時，除非另有說明，否則它可能還包括其他元素、元件、結構、區域、部件、裝置、系統、步驟、連接等，而不應該排除其他元素。

在此使用的順序性術語，如「第一」、「第二」等，僅是為了方便描述或區分諸如元素、部件、結構、區域、零件、設備、系統等彼此之間的限制，而不是為了限制本揭露的範圍，也不是為了限制這些限制之間的空間順序。此外，除非另有說明，單數形式的措辭，如「一」、「一個」、「該」也適用於複數形式，而「或」、「及/或」等措辭可互換使用。

如本文所用，術語「包括」、「包含」、「具有」、「含有」或其任何其他變體都旨在涵蓋非排他性的包含。例如，由一系列元素組成的組合物、混合物、工藝或方法不一定只限於這些元素，還可能包括沒有明確列出的其他元素，或這些組合物、混合物、程序或方法所固有的元素。

請參閱圖1，其顯示一種用於病理語音識別之電腦可執行的系統100。系統100包含(但不限制)換能器10、儲存裝置20、資料庫30、具有深度學習模型41的處理器40。

換能器10，例如麥克風，係經組構以自人接收或採集語音，以將聲波轉換為電流，即語音信號(voice signal)。於一實施例中，換能器10自一個人接收語音，接著傳輸那個人的語音信號至儲存裝置20，以用於預測那個人的聲帶之病理狀態。於另一實施例中，換能器10自複數個人接收語音，接著傳複數個語音信號至資料庫30，以成為複數個語音樣本，藉以用來訓練深度學習模型。

於一實施例中，該語音信號或該語音樣本，可包括持續母音聲及其隨後的連續語音。

處理器40係經配置以分析及/或執行梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法以及執行特徵提取，而深度學習模型41經訓練以執行該語音信號的病理狀態預測。具體言之，處理器40利用MFCC演算法來處理該語音信號以獲得MFCC頻譜圖，從而自該MFCC頻譜圖提取多個特徵。深度學習模型41根據該語音信號的該MFCC頻譜圖來預測該語音信號的病理狀態。

於一實施例中，可利用不同的卷積神經網路(convolution neural network,CNN)架構，例如EfficientNet-B0到B6、SENet154、Se_resnext101_32x4d、和se_resnet152模型。

於一實施例中，該些人的該些語音樣本被分為訓練集和測試集。該訓練集中的各個語音樣本被執行MFCC演算法以獲得MFCC頻譜圖，接著利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，以執行自MFCC頻譜圖提取特徵。再而，所提取的特徵被輸入至深度學習模型(例如CNN模型)的第一層來訓練該模型，其中，特徵包括MFCC，一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。另外，這些要被提取特徵的語音樣本被分類成多種分類條件以訓練CNN模型。於一實施例中，2類的分類條件包含正常語音(normal voice)與由內收肌痙攣性發聲障礙(adductor spasmodic dysphonia)、器質性聲帶病變(organic vocal fold lesions)、單側聲帶麻痺(unilateral vocal paralysis)及聲帶萎縮(vocal atrophy)所組成的一類。於另一實施例中，3類的分類條件包含正常語音、內收肌痙攣性發聲障礙、與由器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。於再一實施例中，4類的分類條件包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、與由單側聲帶麻痺及聲帶萎縮所組成的一類。於又一實施例中，5類的分類條件包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、與聲帶萎縮。

深度學習模型41經過訓練之後，包含深度學習模型41的處理器40係經配置以對該語音信號執行MFCC處理及特徵提取，藉此根據人的語音信號來預測人的聲帶之病理狀態。

因此，通過一個人的語音信號，可得知這個人的聲帶之病理狀態可為以下其中一種：內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、或聲帶萎縮。

在樣本收集和模型訓練的例子中，換能器10的具體實現可為麥克風，而資料庫30和處理器40的具體實現可為電腦。在聲帶狀態預測的例子中，換能器10的具體實現可為可擕式設備(如智慧手機)，而資料庫30和處理器40的具體實現可為雲計算平臺。

請參閱圖2A，其說明根據本揭露之用於病理語音識別的電腦可執行系統的模型預測過程之方法200。

於步驟S201中，採集語音信號。

於步驟S202中，利用MFCC演算法處理該語音信號，以獲得MFCC頻譜圖，進而自該MFCC頻譜圖提取多個特徵。

於步驟S203中，藉由深度學習模型根據該語音信號的該MFCC頻譜圖的該多個特徵，預測該語音信號的病理狀態。換言之，藉由深度學習模型訓練統計，根據該語音信號的MFCC頻譜圖中的多個特徵，預測該語音信號的病理狀態。

請參閱圖2B，其說明根據本揭露的用於病理語音識別之電腦可執行系統的模型訓練過程之方法300。

於步驟S301，採集複數個語音樣本至資料庫中。

於步驟S302，將該複數個語音樣本分成訓練集和測試集。

於步驟S303，利用MFCC演算法來處理該複數個語音樣本的訓練集，以獲得複數個MFCC頻譜圖並進而自該複數個MFCC頻譜圖提取複數個特徵。

於步驟S304，將該複數個語音樣本的訓練集的該複數個MFCC頻譜圖的該複數個特徵輸入至該深度學習模型的第一層以訓練該深度學習模型，其中，該複數個特徵包括MFCC、一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。換言之，將訓練集中的語音樣本的數個MFCC頻譜圖特徵提取，輸入至深度學習架構(例如CNN架構)中，藉以訓練出該深度學習模型。

於步驟S305中，藉由將該複數個語音樣本的該訓練集分類成2類、3類、4類、或5類之分類條件，來訓練該深度學習模型。換言之，藉由不同分類條件，將該複數個語音樣本的訓練集分類成2類、3類、4類、或5類，加以訓練該深度學習模型。

於一些實施例中，本揭露提供一種電腦可讀介質，其中存儲有電腦可執行代碼及/或指令，並且電腦可執行代碼和/或指令經配置為在被執行後實現本揭露內容中所討論的方法步驟。

本文將詳細描述上述處理器的工作機制是如何設計的。

研究方去

樣本收集。

於一實施例中，收集741個語音樣本，其中有189個正常語音樣本和552個語音障礙樣本。語音障礙樣本包括聲帶萎縮(vocal atrophy)(n=224)、單側聲帶麻痺(unilateral vocal paralysis)(n=50)、器質性聲帶病變(organic vocal fold lesions)(n=248)、和內收肌痙攣性發聲障礙(adductor spasmodic dysphonia)(n=30)。語音樣本係由持續母音聲(vowel sound)/a：/以及隨後的連續語音構成，練續語音例如一段中文，其以舒適的音量水平記錄，麥克風到嘴的距離約為15-20cm，使用有數位放大器和 40至45-dB背景噪音水平的高品質麥克風。採樣頻率為44100Hz，分辨率為16-bit，資料以未壓縮的.wav格式保存。

比較和評估。

於該實施例中，將這741個語音樣本分為兩組：593個樣本為訓練集而148個樣本為測試集。例如：使用基於電腦的隨機化，將189個正常語音樣本中的152個、50個單側聲帶麻痺樣本中的40個、30個內收肌痙攣性發音障礙樣本中的24個、224個聲帶萎縮樣本中的179個、以及248個器質性聲帶病變樣本中的198個，選入訓練集(請見表1)。

表1：語音樣本(n=741)的詳細說明。

為了管理訓練集的有限大小，我們使用了混合方法(mix-up approach)進行數據增強(data augmentation)。於一實施例中，該混合方法的執行可利用Zhang H,Cisse M,Dauphin Y,Lopez-Paz D所提出之文獻“Mixup：beyond empirical risk minimization.arXiv 2018 Apr”中所示之方法。例如，混合方法可應用於使用卷積神經網路(CNN)的音訊場景分類，以減少過度擬合(overfitting)並獲得更高的預測精度。於一實施例中，隨機選取2個語音檔案，然後用隨機選取的權重混合成1個語音檔案，以構建虛擬訓練樣例。接著，每個語音檔案被隨機裁剪，以獲得10個長度為11.88秒的語音檔案，此為在硬體的圖形處理單元記憶體限制範圍內的訓練長度的高原點(plateau point)(根據初步測試)。此外，超量採樣(oversampling)可用於調整資料的類別分佈。於一實施例中，該超量採樣可利用Branco P,Torgo L,Ribeiro R所提出之文獻“A survey of predictive modelling under imbalanced distributions.arXiv 2015 May”中所示的方法。

接著，對上述處理後的語音檔案執行梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)轉換處理，以獲得頻譜圖(spectrogram)。並且，MFCC的執行係利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，藉此從MFCC的處理提取特徵。於一實施例中，創建MFCC特徵過程之執行可利用由Logan B所提出之文獻“Mel Frequency cepstral coefficients for music modeling.2000 Presented at：1st International Symposium on Music Information Retrieval；October 23-25,2000；Plymouth,MA”中所示的方法。作為結果，第一特徵由40個維度MFCC所組成。於一實施例中，多維度MFCC的MFCC特徵的執行可利用Ravi Kumar KM,Ganesan S所提出之文獻“Comparison of multidimensional MFCC feature vectors for objective assessment of stuttered disfluencies.Int J Adv Netw Appl 2011；2(5)：854-860”以及 Peng N,Chen A,Zhou G,Chen W,Zhang W,Liu J等所提出之文獻“Environment Sound Classification Based on Visual Multi-Feature Fusion and GRU-AWS”中所示之方法。另外，對於第二特徵和第三特徵，可計算隨時間變化的MFCC軌跡的delta MFCC(一階微分被稱為delta MFCC)和MFCC的delta-delta MFCC(二階微分被稱為delta-delta MFCC)。因此，於一實施例中，3個通道的輸入特徵可視為彩色圖像(即電腦視覺領域的紅綠藍)這三個特徵，即MFCC、MFCC的一階微分和MFCC的二階微分，係以圖像的形式輸入到模型的第一層，以便訓練模型。於一實施例中，可使用遷移學習(transfer learning)的方式使用EfficientNet作為主要架構以作為模型的訓練。

如圖3A至3C所示，其說明經MFCC處理過後的正常語音的視覺特徵，其中，橫軸為單位為秒的時間，縱軸為梅爾頻率倒頻譜係數(MFCC)。圖3A所示為正常語音的視覺特徵之一，也就是梅爾頻率倒頻譜係數；圖3B所示為正常語音的視覺特徵之二，也就是一階微分梅爾頻率倒頻譜係數，即delta MFCC；圖3C所示為正常語音的視覺特徵之三，也就是二階微分梅爾頻率倒頻譜係數，即delta-delta MFCC。

另外，可使用不同的CNN架構，例如EfficientNet-B0至B6、SENet154、Se_resnext101_32x4d、和se_resnet152模型，這些模型基本上可為經遷移學習(transfer learning)的預訓練模型。於一實施例中，該遷移學習之執行可利用Hussain M,Bird J,Faria D所提出之文獻“A study on CNN transfer learning for image classification.2018 Presented at：18th Annual UK Workshop on Computational Intelligence；September 5-7, 2018；Nottingham,UK.”所示的方法。於又一實施例中，EfficientNet-B0至B6、SENet154、Se_resnext101_32x4d、和se_resnet152模型之執行可利用Tan M,Le Q所提出的文獻“EfficientNet：Rethinking model scaling for convolutional neural networks.arXiv 2020 Sep”以及Hu J,Shen L,Sun G所提出的文獻“Squeeze-and-excitation networks.2018 Presented at：IEEE/CVF Conference on Computer Vision and Pattern Recognition；June 18-23,2018；Salt Lake City,UT”所示之方法。

因為CNN具有明顯的特徵表示相關的特徵，其中較低層提供一般的特徵提取能力，而較高層包括對原始分類任務越來越具體的資訊。這允許原樣呈現(verbatim)重複使用較低層CNN的通用特徵提取和表示；較高層則針對與原始特徵相關的次級問題域進行微調。

於一實施例中，病理狀態的樣本可分類為2類、3類、4類、或5類之不同的分類條件，接著輸入至CNN模型以訓練CNN，亦即，2類的分類條件(正常語音；內收肌痙攣性發聲障礙+器質性聲帶病變+單側聲帶麻痺+聲帶萎縮)，3類的分類條件(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變+單側聲帶麻痺+聲帶萎縮)，4類的分類條件(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變；單側聲帶麻痺+聲帶萎縮)，5類的分類條件(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變；單側聲帶麻痺；聲帶萎縮)。於一實施例中，在訓練CNN之前，先根據臨床診斷對語音樣本進行分類，然後將其標記為基礎事實(ground truth)。對於輸入實例的最終預測，使用最大概率來獲得標籤。例如，有五種分類，每種分類的概率可能是A 0.6、B 0.1，C 0.2，D 0.05，E 0.05。由於A的概率最高，因此對該樣本的預測(標籤)為A。

在訓練集微調的超參數設置方面，593個樣本中的474個(79.9%)用於初始訓練，593個樣本中的119個(20.1%)用於驗證，在此可稱為驗證集。於一實施例中，在初始訓練之後，驗證集可用來驗證初始訓練的模型，並且可根據驗證結果來調整超參數，以便重新訓練模型，然後驗證集可以被用來驗證重新訓練的模型。

另外，添加了輟學(dropout)函數和不同的數據增強(data augmentation)方法，以防止模型在數據集中過度擬合。於一實施例中，該輟學函數和該數據增強之執行可利用Perez L,Wang J所提出之文獻“The effectiveness of data augmentation in image classification using deep learning.arXiv 2017 Dec”以及Wu H,Gu X所提出之文獻“Towards dropout training for convolutional neural networks Neural Netw 2015 Nov；71：1-10”所示之方法。於一實施例中，輟學率(dropout rate)設置為0.25-0.5以進行正則化(regularization)。

接著，使用基於內存消耗選擇(memory consumption)的32個小批量(minibatches)訓練模型。於一實施例中，該小批量之執行可利用Lym S,Behroozi A,Wen W,Li G,Kwon Y,Erez M所提出之文獻“Mini-batch serialization：CNN training with inter-layer data reuse.arXiv 2018 May”所示的方法。

另外，學習率係基於餘弦退火(cosine annealing)和1週期策略(1-cycle policy strategy)進行調整。通過使用餘弦退火方案，模型反復將梯度擬合到局部最小值。於一實施例中，該餘弦退火和該1週期策略之執行可利用Huang G,Li Y,Pleiss G,Liu Z,Hopcroft J,Weinberger K所提出之文獻“Snapshot ensembles：train 1,get M for free.arXiv 2017 Apr 01”以及Smith L.By提出的文獻“A disciplined approach to neural network hyper-parameters：Part 1-learning rate,batch size,momentum,and weight decay.arXiv 2018 Apr 24”所示之方法。

再者，根據本揭露的模型係使用Adam優化算法(Adam optimization algorithm)進行端到端(end-to-end)訓練，並將交叉熵(cross-entropy)優化為損失函數(loss function)。於一實施例中，該Adam優化演算法之執行可利用Kingma D,Ba J所提出之文獻“Adam：A method for stochastic optimization.arXiv 2017 Jan 30”所提出之方法。

對於模型頭中的不同分類問題，可應用SoftMax層(SoftMax layer)作為多類分類的輸出層或二元分類的sigmoid層。

最後，通過平均輸出概率(average output probability)組裝模型以獲得更穩健的結果，以最小化預測誤差的偏差，從而改進了CNN模型預測精度。於一實施例中，該組裝之執行可利用Huang G,Li Y,Pleiss G,Liu Z,Hopcroft J,Weinberger K所提出之文獻“Snapshot ensembles：train 1,get M for free.arXiv 2017 Apr 01”所示之方法。於一實施例中，使用EfficientNet下面的各個子模型都分別計算可能性後再加起來平均作為最後判斷預測值的依據。

統計分析：

根據本揭露的模型之有效性係由幾個指標來評估，包括準確率(accuracy)、靈敏度(sensitivity)、特異性(specificity)、F1得分、接收者操作特徵(receiver operating characteristic,ROC)曲線、和曲線下面積(area under the curve,AUC)。所有指標都可以用Python計算。

結果：

根據本揭露的語音樣本係由持續的母音聲和連續短文組成。在此，後續的機器學習中應用了整個語音樣本，此是因為母音聲和短文之組合(F1分數=0.65)比單獨的母音聲組(F1分數=0.54)和單獨的短文組(F1分數=0.57)取得了更好的F1分數。

請參閱圖3D，其顯示損失函數值在訓練集和驗證集上的變化，這表明根據本揭露的模型在運行了若干時期的優化後可以收斂。在圖3D中，縱軸為交叉熵損失(cross-entropy loss)，橫軸為時期(epochs)，上方曲線和下方曲線分別表示訓練集和驗證集的損失函數值。

請參閱表2，其表示不同分類條件下的訓練結果，不同分類條件係包括：2類(正常語音；內收肌痙攣性發聲障礙+器質性聲帶病變+單側聲帶麻痺+聲帶萎縮)、3類(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變+單側聲帶麻痺+聲帶萎縮)、4類(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變；單側聲帶麻痺+聲帶萎縮)、5類(正常語音；內收肌痙攣性發聲障礙；器質性聲帶病變；單側聲帶麻痺；聲帶萎縮)，這些都用於訓練CNN模型。

表2：在不同分類條件下對語音障礙分類的人工智慧模型的表現。

在根據本揭露的模型中，該2類的分類條件可同樣地區分病理語音和正常語音，且如表2所示，在分類條件為2類的模型中，病理語音檢測的準確率達到95.3%、靈敏度為0.99、特異性為0.84、AUC為0.98。藉由3類的分類條件，可從具有其他聲帶病變的患者中識別出內收肌痙攣性發聲障礙的患者。且如表2所示，準確率為91.2%、靈敏度為0.82、特異性為0.93、AUC為0.96。藉由4類的分類條件，聲帶萎縮和單側聲帶麻痺在臨床上可歸為「聲門功能不全(glottis insufficiency)」，且如表2所示，準確率為71.0%、靈敏度為0.75、特異性為0.89、AUC為0.88。藉由5類的分類條件，如表2所示，準確率為66.9%、靈敏度為0.66、特異性為0.91、AUC為0.85。

請參閱圖4A-4D，其顯示分類成2類、3類、4類、5類的混淆矩陣。請參閱圖5A-5D，其顯示分類成2類、3類、4類、5類的ROC曲線。於圖4A-4D以及圖5A-5D中，虛線表示平均ROC曲線；NC表示「正常語音(normal voice)」；AN表示「病理語音(pathological voice)」； SD表示「內收肌痙攣性發聲障礙(adductor spasmodic dysphonia)」；PAATOL表示「單側聲帶麻痺(unilateral vocal paralysis)」+「聲帶萎縮(vocal atrophy)」+「器質性聲帶病變(organic vocal fold lesions)」；OL表示「器質性聲帶病變(organic vocal fold lesions)」；PAAT表示「單側聲帶麻痺(unilateral vocal paralysis)」+「聲帶萎縮(vocal atrophy)」；PA表示「單側聲帶麻痺(unilateral vocal paralysis)」；AT表示「聲帶萎縮(vocal atrophy)」。請見表3。

表3：不同的分類與聲帶狀況的對應。

圖4A和圖5A分別顯示2類的分類條件之混淆矩陣和ROC曲線；圖4B和圖5B分別顯示3類的分類條件之混淆矩陣和ROC曲線；圖4C和圖5C分別顯示4類的分類條件之混淆矩陣和ROC曲線；圖4D和圖5D分別顯示5類的分類條件之混淆矩陣和ROC曲線。

根據表2和3、圖4A-4D和圖5A-5D，根據本揭露所示之模型能夠以較高的特異度0.91(在5類的分類條件下)，僅根據語音(即母音聲即其隨後的短語)而區分出常見語音疾病所引起的不同病理語音，包括內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、聲帶萎縮。另外，根據本揭露所示之模型能夠區分正常語音(NC)與內收肌痙攣性發聲障礙(SD)，在5類的分類條件下，準確率分別為0.985與0.997。

請參閱表4，其顯示四位專家使用分成5類的分類條件通過語音來識別聲帶病理。於表4中，兩位喉科學醫師(laryngologist)的準確率分別為60.1%和56.1%，兩位一般ENT(耳(ear)、鼻(nose)、喉(throat))醫師的準確率分別為51.4%和43.2%。

表4：人工智慧語音識別系統在5類的分類條件下的模型和4位人類專家診斷之性能比較。

根據表2和4，根據本揭露的模型的整體準確率優於所有參與的喉科學醫師或耳鼻科醫師的準確率。

在比較了每種分類的準確性之後，值得注意的是，在識別器質性聲帶病變時，人工智慧明顯優於喉科學醫生(人工智慧的準確率68%；喉科學醫師A的準確率60%；喉科學醫師B的準確率24%)。人類難以識別器質性聲帶病變的原因是，器質性聲帶病變、單側聲帶麻痺和聲帶萎縮的振動模式不同，只能藉由高速攝影和多切面數位醫學成像(videokymography)來觀察。例如，在器質性聲帶病變的情況下，聲帶振動時，該病變將聲帶分成兩個振盪器；在單側聲帶麻痺的情況下，正常聲帶和麻痺聲帶之間的振動頻率不同；而聲帶萎縮會顯示出振動的崩潰，每隔幾個聲門週期(glottal)就會出現正常振動消失的明顯重複現象。換言之，由於聲帶病變會導致不同的聲帶振動模式，因此，根據本揭露之用於病理語音識別之系統及方法以及儲存有電腦可讀指令之非暫存性電腦可讀儲存介質在使用經過本文所述之訓練的深度學習模型，能根據人的語音來識別多種聲帶病變，例如單側聲帶麻痺、內收肌痙攣性發聲障礙、聲帶萎縮、及器質性聲帶病變。

另外，四個人類專家需要40-80分鐘來識別測試集中的148個語音樣本。然而，根據本文上述實施例可知，本公開所述之模型對於執行相同的任務僅需30秒。

綜上所述，本揭示顯示，在使用本揭示之病理語音資料庫進行訓練後，可使用深度學習應用程式，僅憑語音即可進行常見聲帶疾病的識別。於一實施例中，可識別內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、聲帶萎縮，如此具有增加的潛力以使其比單純區分病態語音和正常語音更有益。這種方法顯示了在基於聲音的震動頻率不同於聲帶疾病的一般篩查中使用的臨床潛力，可以納入一般健康檢查的快速評估中，還可用於在初級保健單位缺乏喉鏡檢查服務的偏遠地區進行遠端醫療。總而言之，本發明所示之系統、方法和電腦可讀取媒介可對於醫生在預選病例時提供支援，能只對涉及自動識別或聽診問題的病例進行侵入性檢查，並對其他臨床檢查結果進行專業分析，進而揭示病症存在的疑點。

上述技術可以在，舉例來說，硬體、一個或多個電腦可讀介質上有形地存儲的一個或多個電腦程式、韌體、或其任何組合中實現。上述技術可在一個或多個電腦程式中實現，該程式在一個可程式設計的電腦上執行(或可由其執行)，包括以下任何數量的組合：處理器、可由處理器讀取和/或寫入的存儲介質(包括，例如，揮發性和非揮發性記憶體和/或記憶元件)、輸入裝置，以及輸出設備。程式碼可應用於使用輸入裝置輸入的輸入，以執行所述功能，並使用輸出設備產生輸出。

以下申請專利範圍內的每個電腦程式可以用任何程式設計語言實現，例如組合語言、機器語言、高級程式性程式設計語言或物件導向的程式設計語言。例如，該程式設計語言可以是編譯的或解釋的程式設計語言。每個這樣的電腦程式可以在電腦程式產品中實現，該電腦程式產品有形地體現在機器可讀存放裝置中，以便由電腦處理器執行。本發明的方法步驟可由一個或多個電腦處理器執行可體現在電腦可讀介質上的程式，通過對輸入進行操作和產生輸出來執行本發明的功能。舉例來說，合適的處理器包括通用和特殊用途的微處理器。一般來說，處理器從記憶體(如唯讀記憶體和/或隨機存取記憶體)接收(讀取)指令和資料，並將指令和資料寫入(存儲)到記憶體。適合有形地體現電腦程式指令和資料的存放裝置包括，例如，所有形式的非揮發性記憶體，如半導體存放裝置，包括EPROM、EEPROM和快閃記憶體設備、磁碟片，如內部硬碟和抽取式磁碟、磁光碟片、和CD-ROMs。上述任何一種都可以由專門設計的ASIC(特定應用積體電路)或FPGA(現場可程式設計閘陣列)補充，或納入其中。電腦通常也可以從非暫時性電腦可讀存儲介質，如內部磁片(未顯示)或抽取式磁碟，接收(讀取)程式和資料，並將程式和資料寫入(存儲)。

本揭露內容已用示範性的實施例進行了描述，以說明本揭露內容的特點和功效，但不打算限制本揭露內容的範圍。本揭露內容在不偏離範圍的前提下，本領域的技術人員可以進行各種改變和修改。然而，根據本揭露內容完成的任何等效變化和修改都應被視為涵蓋在本揭露內容的範圍內。本揭露的範圍應該由所附的申請專利範圍來界定。

S201~S203:步驟

Claims

一種用於病理語音識別之方法，係包括：採集語音信號；利用梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法處理該語音信號，以獲得MFCC頻譜圖；自該MFCC頻譜圖提取多個特徵；藉由已訓練的深度學習模型根據該語音信號之該MFCC頻譜圖的該多個特徵，預測該語音信號之病理狀態；以及藉由添加輟學函數(dropout function)、利用小批量(minibatches)、基於餘弦退火(cosine annealing)和1週期策略(1-cycle policy strategy)調整學習率、及應用SoftMax層作為輸出層，來訓練該深度學習模型；以及藉由平均輸出概率組裝已訓練的該深度學習模型。
如請求項1所述之方法，復包括：採集複數個語音樣本到資料庫中；將該複數個語音樣本分為訓練集和測試集；利用梅爾頻率倒頻譜係數(MFCC)演算法處理該複數個語音樣本的該訓練集，以獲得複數個MFCC頻譜圖；自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖，提取複數個特徵；以及將該複數個特徵輸入至該深度學習模型，以訓練該深度學習模型，其中，該複數個特徵包括MFCC頻譜圖、一階微分(delta)MFCC頻譜圖、及/或二階微分(second-order delta)MFCC頻譜圖。
如請求項2所述之方法，其中，該複數個語音樣本的每一個語音樣本包含持續母音及隨後的連續語音。
如請求項2所述之方法，復包括：藉由將該複數個語音樣本的該訓練集分類成2類，來訓練該深度學習模型，其中，該2類包含正常語音、與由內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項2所述之方法，復包括：藉由將該複數個語音樣本的該訓練集分類成3類，來訓練該深度學習模型，其中，該3類包含正常語音、內收肌痙攣性發聲障礙、與由器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項2所述之方法，復包括：藉由將該複數個語音樣本的該訓練集分類成4類，來訓練該深度學習模型，其中，該4類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、與由單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項2所述之方法，復包括：藉由將該複數個語音樣本的該訓練集分類成5類，來訓練該深度學習模型，其中，該5類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、與聲帶萎縮。
如請求項2所述之方法，其中，所述自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵之步驟係包括：利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，以自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵。
如請求項8所述之方法，其中，該複數個特徵包括MFCC、一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。
一種儲存有電腦可讀指令之電腦可讀儲存介質，當該電腦可讀指令被執行時，令系統執行如請求項1至9中任一項所述之方法。
一種用於病理語音識別之系統，係包括：換能器，係經配置以採集語音信號；處理器，包含已訓練的深度學習模型並經配置以：利用梅爾頻率倒頻譜係數(Mel Frequency Cepstral Coefficients,MFCC)演算法處理該語音信號，以獲得MFCC頻譜圖；自該MFCC頻譜圖提取多個特徵；以及藉由已訓練的該深度學習模型根據該語音信號之該MFCC頻譜圖的該多個特徵，預測該語音信號之病理狀態，其中，該處理器係經進一步配置以：藉由添加輟學函數(dropout function)、利用小批量(minibatches)、基於餘弦退火(cosine annealing)和1週期策略(1-cycle policy strategy)調整學習率、及應用SoftMax層作為輸出層，來訓練該深度學習模型；以及藉由平均輸出概率組裝已訓練的該深度學習模型。
如請求項11所述之系統，復包括：資料庫，係配置以接收由該換能器所採集之複數個語音樣本；其中，該處理器係經配置以；將該複數個語音樣本分為訓練集和測試集；利用梅爾頻率倒頻譜係數(MFCC)演算法處理該複數個語音樣本的該訓練集，以獲得複數個MFCC頻譜圖；自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖，提取複數個特徵；以及將該複數個特徵輸入至該深度學習模型，以訓練該深度學習模型，其中，該複數個特徵包括MFCC頻譜圖、一階微分(delta)MFCC頻譜圖、及/或二階微分(second-order delta)MFCC頻譜圖。
如請求項12所述之系統，其中，該複數個語音樣本的每一個語音樣本包含持續母音及隨後的連續語音。
如請求項12所述之系統，其中，該處理器係經進一步配置以：藉由將該複數個語音樣本的該訓練集分類成2類，來訓練該深度學習模型，其中，該2類包含正常語音、與由內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項12所述之系統，其中，該處理器係經進一步配置以：藉由將該複數個語音樣本的該訓練集分類成3類，來訓練該深度學習模型，其中，該3類包含正常語音、內收肌痙攣性發聲障礙、與由器質性聲帶病變、單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項12所述之系統，其中，該處理器係經進一步配置以：藉由將該複數個語音樣本的該訓練集分類成4類，來訓練該深度學習模型，其中，該4類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、與由單側聲帶麻痺及聲帶萎縮所組成的一類。
如請求項12所述之系統，其中，該處理器係經進一步配置以：藉由將該複數個語音樣本的該訓練集分類成5類，來訓練該深度學習模型，其中，該5類包含正常語音、內收肌痙攣性發聲障礙、器質性聲帶病變、單側聲帶麻痺、與聲帶萎縮。
如請求項12所述之系統，其中，該處理器係經進一步配置以利用預強調(pre-emphasis)、視窗化(windowing)、快速傅立葉轉換(fast Fourier transform)、梅爾過濾(Mel filtering)、非線性轉換(nonlinear transformation)、及/或離散餘弦轉換(discrete cosine transform)，以自該複數個語音樣本的該訓練集之該複數個MFCC頻譜圖提取該複數個特徵，其中，該複數個特徵包括MFCC、一階微分(delta)MFCC、及/或二階微分(second-order delta)MFCC。