TW202401456A - 咳聲辨識方法及其系統 - Google Patents

咳聲辨識方法及其系統 Download PDF

Info

Publication number
TW202401456A
TW202401456A TW111122515A TW111122515A TW202401456A TW 202401456 A TW202401456 A TW 202401456A TW 111122515 A TW111122515 A TW 111122515A TW 111122515 A TW111122515 A TW 111122515A TW 202401456 A TW202401456 A TW 202401456A
Authority
TW
Taiwan
Prior art keywords
cough
audio
training
audios
personal
Prior art date
Application number
TW111122515A
Other languages
English (en)
Other versions
TWI798111B (zh
Inventor
盧沛怡
洪淑惠
芮嘉勇
郭漢彬
洪宗杰
Original Assignee
財團法人國家實驗研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人國家實驗研究院 filed Critical 財團法人國家實驗研究院
Priority to TW111122515A priority Critical patent/TWI798111B/zh
Application granted granted Critical
Publication of TWI798111B publication Critical patent/TWI798111B/zh
Publication of TW202401456A publication Critical patent/TW202401456A/zh

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本發明係關於一種咳聲辨識方法及其系統,辨識方法包含下列步驟:輸入複數個訓練音頻,儲存於儲存裝置;將複數個訓練音頻轉換為複數個音頻訊號,將其輸入至個人音頻特徵擷取模組進行卷積神經網路運算,以建立個人音頻特徵模型;將個人音頻特徵模型取得之個人音頻特徵與其咳聲音頻一起輸入至咳聲音頻分析辨識模組進行卷積神經網路運算,以建立咳聲音頻分析辨識模型;進行疾病辨識時,預先輸入音頻至個人音頻特徵模型以取得個人音頻特徵,再輸入即時咳聲音頻搭配個人音頻特徵至咳聲音頻分析辨識模型,以辨識對應之呼吸道疾病。

Description

咳聲辨識方法及其系統
本發明係關於一種咳聲辨識方法及其系統,特別係關於一種利用卷積神經網路(Convolutional neural networks, CNN)運算,對個人聲音及其咳聲進行分析,進而正確辨識其咳聲所對應的呼吸道疾病的辨識方法及其系統。
咳嗽為一種呼吸道常見症狀,其係由氣管、支氣管黏膜或胸膜受炎症、異物、物理或化學刺激所引起。咳嗽是多種咳嗽疾病的生理表徵,不同的咳嗽疾病所展現出的咳嗽特徵也不盡相同。
在醫學上,經驗豐富的醫生可根據病人咳嗽聲的特徵進行咳嗽疾病的診斷,常見的咳嗽疾病及其特徵包含:
1.純乾咳或純濕咳-鼻後滴漏綜合症。
2.乾咳並以喘息聲結束-哮喘。
3.哮吼性咳嗽音調高-急性喉炎
4.具有卡噠聲的咳嗽-慢性阻塞性肺病。
5.乾咳無力但急促-肺炎。
6.乾咳且具有痙攣性-百日咳。
7.單聲咳嗽-上呼吸道發炎。
由於藉由咳嗽音頻判斷咳嗽所對應的呼吸道疾病種類需要一定的經驗累積,因此一般只有經驗豐富的醫生可以進行精準判斷,沒有經驗或經驗較少的人則無法根據咳嗽音頻判斷其所對應的呼吸道疾病。
有鑑於此,如何建立一種無須人工進行辨識的技術,使其能直接利用咳嗽聲直接正確辨識出其所對應的呼吸道疾病,將是相關醫學產業所希望達成之目標。因此,本發明之發明人思索並設計一種咳聲辨識方法及其系統,針對習知技術之缺失加以改善,進而增進產業上之實施利用。
有鑑於上述習知技術之問題,本發明之目的在於提供一種咳聲辨識方法及其系統,以解決習知之人工判讀精確度不足且難以自動化之問題。
根據本發明之一目的,提出一種咳聲辨識方法,其包含下列步驟:
步驟S1:通過輸入裝置輸入複數個訓練音頻及其對應的複數個訓練咳聲音頻,儲存於儲存裝置;
步驟S2:藉由處理器存取儲存裝置,將複數個訓練音頻轉換為複數個音頻訊號;
步驟S3:藉由處理器將複數個音頻訊號輸入至個人音頻特徵擷取模組進行卷積神經網路運算,以建立個人音頻特徵模型,取得複數個個人音頻特徵;
步驟S4:藉由處理器將複數個個人音頻特徵及其對應的複數個訓練咳聲音頻一起輸入至咳聲音頻分析辨識模組進行卷積神經網路運算,以建立咳聲音頻分析辨識模型;
步驟S5:通過輸入裝置輸入待辨識個人音頻及其待辨識咳聲音頻,藉由處理器進行判讀程序,依據個人音頻特徵模型及咳聲音頻分析辨識模型判讀對應之呼吸道疾病種類;
步驟S6:通過輸出裝置存取儲存裝置,將經判讀分析之呼吸道疾病種類輸出。
根據本發明之另一目的,提出一種咳聲辨識系統,其包含輸入裝置、儲存裝置、處理器以及輸出裝置。其中,輸入裝置用以輸入複數個訓練音頻及其對應的複數個訓練咳聲音頻、待辨識個人音頻及其待辨識咳聲音頻;儲存裝置連接於輸入裝置及輸出裝置,用以儲存複數個訓練音頻及其對應的複數個訓練咳聲音頻、待辨識個人音頻及其待辨識咳聲音頻;輸出裝置連接於儲存裝置,將經判讀分析之呼吸道疾病種類輸出;處理器連接於儲存裝置,執行複數個指令以施行下列步驟:
將複數個訓練音頻轉換為複數個音頻訊號,並將複數個音頻訊號輸入至個人音頻特徵擷取模組進行卷積神經網路運算,以建立個人音頻特徵模型,取得複數個個人音頻特徵;將複數個個人音頻特徵及其對應的複數個訓練咳聲音頻(也轉換為複數個訓練咳聲音頻訊號)一起輸入至咳聲音頻分析辨識模組進行卷積神經網路運算,以建立咳聲音頻分析辨識模型;依據個人音頻特徵模型及咳聲音頻分析辨識模型,判讀待辨識個人音頻及其咳聲音頻,以分析出對應之呼吸道疾病種類。
較佳地,所述複數個音頻訊號及所述複數個訓練咳聲音頻訊號可為梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC);梅爾倒頻譜係數係為一組用來建立梅爾倒頻譜的關鍵係數,由聲音訊號當中的片段,可得到一組足以代表此聲音訊號之倒頻譜(Cepstrum),而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜。與一般的倒頻譜不同,梅爾倒頻譜的特色在於,其上的頻帶是均勻分布於梅爾刻度上,亦即,這類頻帶相較於一般所看到、線性的倒頻譜表示方法,與人類非線性的聽覺系統更為接近。例如:在音訊壓縮的技術中,便經常使用梅爾倒頻譜來處理。
承上所述,使用本發明之咳聲辨識方法及其系統,可快速且便利的得知患者罹患之呼吸道疾病種類,透過此方式以辨別呼吸道疾病種類,可輔助臨床判讀,提升後續診斷結果的正確率。
為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍,合先敘明。
除非另有定義,本文所使用的所有術語(包括技術和科學術語)具有與本發明所屬技術領域的通常知識者通常理解的含義。將進一步理解的是,諸如在通常使用的字典中定義的那些術語應當被解釋為具有與它們在相關技術和本發明的上下文中的含義一致的含義,並且將不被解釋為理想化的或過度正式的意義,除非本文中明確地如此定義。
請一併參閱第1圖、第2圖及第4圖,第1圖係為本發明實施例之咳聲辨識方法之步驟流程圖;第2圖係為本發明實施例之咳聲辨識方法之方塊示意圖;而第4圖係為本發明實施例之咳聲音頻分析辨識模組訓練咳聲音頻分析辨識模型之示意圖。如第1圖所示,咳聲辨識方法包含以下步驟(S1~S6):
步驟S1:通過輸入裝置輸入複數個訓練音頻7及其對應的複數個訓練咳聲音頻8,儲存於儲存裝置。
通過輸入裝置輸入複數個訓練音頻7及其對應的複數個訓練咳聲音頻8,輸入至系統的儲存裝置當中,這裡所述的輸入裝置為音頻採集設備,例如麥克風,抑或是具有音頻採集功能的電子設備,例如智慧型手機、平板電腦、筆記型電腦、相機等,但不侷限於此,任何可採集音頻的設備均可作為輸入裝置。
步驟S2:藉由處理器存取儲存裝置,將複數個訓練音頻7轉換為複數個音頻訊號。
此步驟係將訓練音頻7轉換為特定之音頻訊號,較佳為梅爾倒頻譜係數,因梅爾倒頻譜與人類非線性的聽覺系統更為接近,將其作為後續建立個人音頻特徵模型的效果較顯著。
步驟S3:藉由處理器將複數個音頻訊號輸入至個人音頻特徵擷取模組進行卷積神經網路運算,以建立個人音頻特徵模型3,取得複數個個人音頻特徵。
個人音頻特徵擷取模組包含複數個卷積網路層(convolutional layers)、複數個長短期記憶層(long short-term memory)以及複數個全連接層(fully-connected layers),且每層包含一觸發函數。
藉由個人音頻特徵擷取模組可將不同人的音頻輸入後進行卷積神經網路運算,使音頻訊號被映射(mapping)至一高維度連續特徵空間(latent space),所述高維度連續特徵空間即為所述個人音頻特徵模型3,其為一高維度連續特徵空間,具有複數個高維度向量(latent vector),所述複數個高維度向量即為不同人之個人音頻特徵;在經由卷積神經網路運算訓練模型時,可使用但不限於歐式距離(Euclidean distance)將屬於同一人之不同音頻得到之高維度向量間之距離最小化,並同時最大化屬於不同人之音頻特徵間的距離。
請一併參照第3圖,第3圖係為本發明實施例之個人音頻特徵擷取模組訓練個人音頻特徵模型3之示意圖。由圖中可知,個人A所發出之音頻A1至An為n個獨立之音頻且音頻內容無須相同(如不同之語句、或聲音),個人音頻特徵擷取模組需將A1至An的音頻映射至所述高維度連續特徵空間中相近的區域;類似地,另一個人B提供m個音頻B1至Bm也需映射到接近的區域。另一方面,藉由個人音頻特徵擷取模組訓練的過程中,會以額外的損失函數(loss function)來最大化不同人音頻之間的差異,因此相較於傳統辨識方法具有更高之區別能力(discrimination)。訓練模型時會以複數個不同人之音頻進行,且每個人將提供複數個且涵蓋不同內容之音頻作為訓練模型之用。
步驟S4:藉由處理器將複數個個人音頻特徵及其對應的複數個訓練咳聲音頻8一起輸入至咳聲音頻分析辨識模組C進行卷積神經網路運算,以建立咳聲音頻分析辨識模型5。
咳聲音頻分析辨識模組C包含複數個卷積網路層10、複數個長短期記憶層11與複數個全連接層13(其中一者獨立為單一全連接層12),且每層也包含一觸發函數。
再參照第4圖,由圖中可知,咳聲音頻分析辨識模組C包含兩種輸入資料,一者為步驟S3中建立之個人音頻特徵模型3中所取得複數個個人音頻特徵;而另一者則為所述複數個個人音頻特徵所對應的複數個訓練咳聲音頻8,所述複數個訓練咳聲音頻8也轉換為複數個訓練咳聲音頻訊號9,所述複數個訓練咳聲音頻訊號9較佳為梅爾倒頻譜係數;亦即,個人A之個人音頻特徵與其咳聲音頻訊號、個人B之個人音頻特徵與其咳聲音頻訊號等,以此類推;其中,所述複數個訓練咳聲音頻訊號9經過複數個卷積網路層10、複數個長短期記憶層11以及單一全連接層12後,再與所述複數個個人音頻特徵一同經過剩餘的複數個全連接層13進行訓練,最終建立一咳聲音頻分析辨識模型5。
步驟S5:通過輸入裝置輸入待辨識個人音頻1及其待辨識咳聲音頻2,藉由處理器進行判讀程序,依據個人音頻特徵模型3及咳聲音頻分析辨識模型5判讀對應之呼吸道疾病種類6。
將待辨識個人音頻1輸入至個人音頻特徵模型3以獲得一個人音頻特徵,再將所述個人音頻特徵與其待辨識咳聲音頻2(即同一人之咳聲音頻,可為即時錄製或預先錄製)轉換為待辨識咳聲音頻訊號4,一起輸入至咳聲音頻分析辨識模型5中進行判讀,以獲得對應之呼吸道疾病種類6。藉由所述個人音頻特徵作為後續呼吸道疾病種類辨識之個人化校正資訊,可使咳聲疾病之辨識精準度大幅提升。
步驟S6:通過輸出裝置存取儲存裝置,將經判讀分析之呼吸道疾病種類輸出。
經由咳聲音頻分析辨識模型5所判讀分析之呼吸道疾病種類辨識結果6,通過輸出裝置讀取儲存裝置以顯示其對應之呼吸道疾病種類;所述輸出裝置可包含各種顯示介面,例如電腦螢幕、顯示器或手持裝置顯示器等。
請參閱第5圖,第5圖係為本發明實施例之咳聲辨識系統之示意圖。如圖所示,咳聲辨識系統20可包含輸入裝置21、儲存裝置22、處理器23及輸出裝置24。輸入裝置21可包含各類音頻採集設備,例如麥克風抑或是具有音頻採集功能的電子設備,例如智慧型手機、平板電腦、筆記型電腦、相機等,透過檔案方式傳輸複數個訓練音頻及其對應的複數個訓練咳聲音頻、待辨識個人音頻及其待辨識咳聲音頻至儲存裝置22當中的記憶體儲存,記憶體可包含唯讀記憶體、快閃記憶體、磁碟或是雲端資料庫等。
接著,咳聲辨識系統20藉由處理器23來存取儲存裝置22,處理器23可包含電腦或伺服器當中的中央處理器、圖像處理器、微處理器等,其可包含多核心的處理單元或者是多個處理單元的組合。處理器23執行指令以存取儲存裝置22當中的複數個訓練音頻7及其對應的複數個訓練咳聲音頻8進行卷積神經網路運算,以獲得個人音頻特徵模型3以及咳聲音頻分析辨識模型5;其後,處理器23執行指令以存取儲存裝置22當中的待辨識個人音頻1及其待辨識咳聲音頻2,利用個人音頻特徵模型3以及咳聲音頻分析辨識模型5對待辨識個人音頻1及其待辨識咳聲音頻2進行判讀程序,以獲得一對應之呼吸道疾病種類辨識結果6;最後,輸出裝置24存取儲存裝置22將所判讀獲得之呼吸道疾病種類辨識結果6輸出,輸出裝置24可包含各種顯示介面,例如電腦螢幕、顯示器或手持裝置顯示器等,但不限於此。
綜上所述,使用本發明之咳聲辨識方法及其系統,可快速且便利的得知患者罹患之呼吸道疾病種類,透過此方式以辨別呼吸道疾病種類,可輔助臨床判讀,提升後續診斷結果的正確率。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
1:待辨識個人音頻 2:待辨識咳聲音頻 3:個人音頻特徵模型 4:轉換為待辨識咳聲音頻訊號 5:咳聲音頻分析辨識模型 6:呼吸道疾病種類 7:訓練音頻 8:訓練咳聲音頻 9:轉換為訓練咳聲音頻訊號 10:複數卷積層 11:複數長短記憶層 12:全連接層 13:複數全連接層 20:咳聲辨識系統 21:輸入裝置 22:儲存裝置 23:處理器 24:輸出裝置 A:音訊輸入 B:特徵擷取與分析辨識 C:咳聲音頻分析辨識模組 S1~S6:步驟
為使本發明之技術特徵、內容與優點及其所能達成之功效更為顯而易見,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下:
第1圖係為本發明實施例之咳聲辨識方法之步驟流程圖; 第2圖係為本發明實施例之咳聲辨識方法之方塊示意圖; 第3圖係為本發明實施例之個人音頻特徵擷取模組訓練個人音頻特徵模型之示意圖; 第4圖係為本發明實施例之咳聲音頻分析辨識模組訓練咳聲音頻分析辨識模型之示意圖; 第5圖係為本發明實施例之咳聲辨識系統之示意圖。
S1~S6:步驟

Claims (10)

  1. 一種咳聲辨識方法,其下列步驟: 步驟S1:通過一輸入裝置輸入複數個訓練音頻及其對應的複數個訓練咳聲音頻,儲存於該儲存裝置; 步驟S2:藉由一處理器存取該儲存裝置,將該複數個訓練音頻轉換為複數個音頻訊號; 步驟S3:藉由該處理器將該複數個音頻訊號輸入至一個人音頻特徵擷取模組進行卷積神經網路運算,以建立一個人音頻特徵模型,取得複數個個人音頻特徵; 步驟S4:藉由該處理器將該複數個個人音頻特徵及該複數個訓練咳聲音頻一起輸入至一咳聲音頻分析辨識模組進行卷積神經網路運算,以建立一咳聲音頻分析辨識模型; 步驟S5:通過該輸入裝置輸入一待辨識個人音頻及一待辨識咳聲音頻,藉由該處理器進行判讀程序,依據該個人音頻特徵模型及該咳聲音頻分析辨識模型判讀對應之一呼吸道疾病種類;以及 步驟S6:通過一輸出裝置存取該儲存裝置,將經判讀分析之該呼吸道疾病種類輸出。
  2. 如請求項1所述之咳聲辨識方法,其中步驟S4中所述的該複數個訓練咳聲音頻係轉換為複數個訓練咳聲音頻訊號後,再與該複數個個人音頻特徵一起輸入至該咳聲音頻分析辨識模組進行卷積神經網路運算,以建立該咳聲音頻分析辨識模型。
  3. 如請求項1所述之咳聲辨識方法,其中步驟S2中所述的該複數個音頻訊號為梅爾倒頻譜係數。
  4. 如請求項2所述之咳聲辨識方法,其中步驟S4中所述的該複數個訓練咳聲音頻訊號為梅爾倒頻譜係數。
  5. 如請求項1至請求項4中任一項所述之咳聲辨識方法,其中步驟S5中的該待辨識咳聲音頻為即時錄製或預先錄製。
  6. 一種咳聲辨識系統,其包含: 一輸入裝置,係用以輸入複數個訓練音頻及其對應的複數個訓練咳聲音頻、一待辨識個人音頻及一待辨識咳聲音頻; 一儲存裝置,連接於該輸入裝置,係用以儲存該複數個訓練音頻及其對應的該複數個訓練咳聲音頻、該待辨識個人音頻及該待辨識咳聲音頻; 一輸出裝置,連接於該儲存裝置,係用以經判讀分析之呼吸道疾病種類輸出;以及 一處理器,連接於該儲存裝置,用以執行複數個指令以施行下列步驟: 將該複數個訓練音頻轉換為複數個音頻訊號,並將該複數個音頻訊號輸入至一個人音頻特徵擷取模組進行卷積神經網路運算,以建立一個人音頻特徵模型,取得複數個個人音頻特徵; 將該複數個個人音頻特徵及該複數個訓練咳聲音頻一起輸入至一咳聲音頻分析辨識模組進行卷積神經網路運算,以建立一咳聲音頻分析辨識模型;以及 依據該個人音頻特徵模型及該咳聲音頻分析辨識模型,判讀該待辨識個人音頻及該待辨識咳聲音頻,以分析出對應之呼吸道疾病種類。
  7. 如請求項6所述之咳聲辨識系統,其中該複數個訓練咳聲音頻係轉換為複數個訓練咳聲音頻訊號後,再與該複數個個人音頻特徵一起輸入至該咳聲音頻分析辨識模組進行卷積神經網路運算,以建立該咳聲音頻分析辨識模型。
  8. 如請求項6所述之咳聲辨識系統,其中該複數個音頻訊號為梅爾倒頻譜係數。
  9. 如請求項7所述之咳聲辨識系統,其中該複數個訓練咳聲音頻訊號為梅爾倒頻譜係數。
  10. 如請求項6至請求項9中任一項所述之咳聲辨識系統,其中該待辨識咳聲音頻為即時錄製或預先錄製。
TW111122515A 2022-06-16 2022-06-16 咳聲辨識方法及其系統 TWI798111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW111122515A TWI798111B (zh) 2022-06-16 2022-06-16 咳聲辨識方法及其系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111122515A TWI798111B (zh) 2022-06-16 2022-06-16 咳聲辨識方法及其系統

Publications (2)

Publication Number Publication Date
TWI798111B TWI798111B (zh) 2023-04-01
TW202401456A true TW202401456A (zh) 2024-01-01

Family

ID=86945174

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111122515A TWI798111B (zh) 2022-06-16 2022-06-16 咳聲辨識方法及其系統

Country Status (1)

Country Link
TW (1) TWI798111B (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749298B2 (en) * 2018-05-08 2023-09-05 Cirrus Logic Inc. Health-related information generation and storage

Also Published As

Publication number Publication date
TWI798111B (zh) 2023-04-01

Similar Documents

Publication Publication Date Title
Aykanat et al. Classification of lung sounds using convolutional neural networks
CN110007455A (zh) 病理显微镜、显示模组、控制方法、装置及存储介质
WO2019023879A1 (zh) 咳嗽声音识别方法、设备和存储介质
US20200286480A1 (en) Brain-inspired spoken language understanding system, a device for implementing the system, and method of operation thereof
WO2022257630A1 (zh) 基于多模态隐匿信息测试的风险检测方法及装置
US20210298711A1 (en) Audio biomarker for virtual lung function assessment and auscultation
Niu et al. A time-frequency channel attention and vectorization network for automatic depression level prediction
Xia et al. Exploring machine learning for audio-based respiratory condition screening: A concise review of databases, methods, and open issues
CN113436726A (zh) 一种基于多任务分类的肺部病理音自动化分析方法
Li et al. Improvement on speech depression recognition based on deep networks
Lin et al. Contactless sleep apnea detection in snoring signals using hybrid deep neural networks targeted for embedded hardware platform with real-time applications
US20220061694A1 (en) Lung health sensing through voice analysis
Voigt et al. A deep neural network using audio files for detection of aortic stenosis
CN112669963B (zh) 智能健康机、健康数据生成方法以及健康数据管理系统
CN117877660A (zh) 基于语音识别的医学报告获取方法及系统
TW202401456A (zh) 咳聲辨識方法及其系統
CN110074759B (zh) 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN112184295A (zh) 康养服务确定方法、装置、电子设备和存储介质
Triantafyllopoulos et al. COVYT: Introducing the Coronavirus YouTube and TikTok speech dataset featuring the same speakers with and without infection
Debnath et al. Study of speech enabled healthcare technology
Vatanparvar et al. Speechspiro: Lung function assessment from speech pattern as an alternative to spirometry for mobile health tracking
CN115458135A (zh) 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统
Melms et al. Training one model to detect heart and lung sound events from single point auscultations
Ahmed et al. DeepLung: Smartphone Convolutional Neural Network-Based Inference of Lung Anomalies for Pulmonary Patients.
CN114283912A (zh) 基于rthd、人工智能的医学病历建档方法及云平台系统