TWI596600B

TWI596600B - 識別生理聲音的方法以及系統

Info

Publication number: TWI596600B
Application number: TW105112919A
Authority: TW
Inventors: 蔡昆熹; 曹昱; 古士軒; 梁慈真; 張雲帆; 楊仕屹
Original assignee: 創心醫電股份有限公司
Priority date: 2015-06-03
Filing date: 2016-04-25
Publication date: 2017-08-21
Also published as: HUE040549T2; EP3100675A1; CN106251880B; CN106251880A; DK3100675T3; EP3100675B1; ES2693386T3; US20160354053A1; TW201643865A; US9687208B2

Description

識別生理聲音的方法以及系統

本發明涉及一種識別生理聲音的方法以及系統。

非侵入性聽診對心臟、肺、骨髓、小腸、血管病的分析已經成為疾病醫療診斷的非常有用的工具。傳統的電子聽診器於1992年才被發明。現代的電子聽診器能夠提升信號的品質以及提供心臟音訊號的視覺化應用，例如心音圖(phonocardiogram，PCG)。心音圖(PCG)以及心電圖(Electrocardiography，ECG)可以應用於心臟的基礎測試。通過儀器的機械振動記錄電信號可以獲得心音圖(PCG)(聽診器放置在胸部的特定位置進行資料收集)。在心臟的任意兩面放置兩個電極，並將兩個電極連接到心電圖機的正極與負極，形成標準心電圖並記錄身體任意兩個地方的心電的電壓變化。心電圖通常在心電圖測紙上所示或者監控，反映整個心臟跳動的節律以及心肌的薄弱部分。第一心音(S1)發生在心臟收縮期，由於心室收縮血液流經大血管並引起二尖瓣和三尖瓣關閉。第一心音(S1)持續時間相對長，音調低。第二心音(S2)發生在心臟舒張期，由於心室壁擴張所引起主動脈瓣和肺動脈瓣迅速關閉，且房室瓣打開引起血液從心房流向心室。第二心音(S2)持續時間相比第一心音(S1)更短。臨床上，異常的第三心音以及第四心音有時候也會被發現。第三心音的頻率以及幅度較低，由心室壁擴張所引起。第四心音由於心房收縮以及心室壁的舒張時血流快速充盈心室所引起。

大量的心臟疾病都能夠通過聽診有效診斷。在一些嚴重的心臟疾病(例如心臟瓣膜功能失常、心臟衰竭等)，心臟聽診已經成為早期診斷中成功、可靠、低成本的方式。然而，心臟聽診的準確性同醫生的經驗息息相關。一些疾病展示了明顯的發生方式(例如，第一心音(S1)以及第二心音(S2)發生之間或者第二心音(S2)之後等)。因此，如何自動提取以及初步判斷第一心音(S1)與第二心音(S2)的發生時間成為重要課題。這個課題能夠有效幫助醫生初步證實疾病的發生。常規情況下，第一心音(S1)以及第二心音(S2)的時間順序成為判斷的素材。而且心率不整的情況下，時間順序不再可靠。如果第一心音(S1)與第二心音(S2)之間的聲紋對比較為合理，心律不齊病例的判斷需要提高品質。關於心音的提取研究可以分為兩大類：心電信號相關性以及心電信號非相關性。心電信號的相關性研究包括心電圖基於暫態能量的提取(Malarvili et al.,2003)以及QRS波群和T波群的提取(E1-Segaier et al.，2005)。雖然如此，在低品質的心電信號，不大可能總是清晰的測出T波。在這種情況下，第二心音(S2)可以用非監督分類器進行分類(Carvalho et al.,2005)，雖然這些方式必須視乎硬體裝置以及被測試者的舒服程度。心電信號非相關性的方法可以分為非監督類方法以及監督類方法。非監督類的方式包括使用歸一化平均香農能量(normalized average Shannon Energy，Liang et al.1997)以及高頻率的方式(Kumar et al.2006)作為小波分析。監督類的方式包括神經網路分類器(Hebden et al.,1996)以及決策樹(Stasis et al.,1996)用於分類。除此之外，最先進的提取方式往往根據第一心音(S1)與第二心音(S2)之間的規律間距的特徵。一般來說，平均的心跳速率(Olmez et al.,2003,Kumar et al.,2006)能夠在研究中假定。然而，這些假定並不能應用在心律不齊患者的心音。

在實際臨床案例中，對於心音圖以及心電圖同時同步進行記錄與分析相對較為困難。另外，當無脈搏性電氣活動出現的時候，由於電流活動的維持，心電圖不能判定心律已經停止。因此，如何根據獨有的心音圖(PCG)進行診斷成為重要以及主流的研究課題。主流的檢測手段通常包括判斷第一心音(S1)以及第二心音(S2)的時間間隔特徵。但是這種特徵在一些情況諸如心律不整變得不再可靠，極大地降低了檢測的準確性。因此，前案中缺陷需要得到解決。

有鑑於此，有必要提供一種識別生理聲音的系統，包括一接收模組，一特徵提取模組，一分類器。接收模組用於接收生理聲音；特徵提取模組用於提取所述生理聲音中至少一特徵；分類器用於分類所述至少一特徵以識別至少一種種類。

所述接收模組是一生理記錄裝置將生理聲音的類比訊號轉化為數位訊號。

所述生理記錄裝置是一電子聽診器。

所述特徵提取模組包括語音活動檢測(VAD)模組以及梅爾頻率倒頻譜系數(MFCC)模組。語音活動檢測(VAD)模組用於從生理聲音中檢測至少一聲音片段；梅爾頻率倒頻譜系數(MFCC)模組用於轉移所述至少一聲音片段到至少一種梅爾頻率倒頻譜系數(MFCC)特徵向量中。

所述系統進一步包括K-平均演算法模組，用於從至少一種梅爾頻率倒頻譜系數向量中找出至少一代表點。

所述分類器包括監督分類器。

所述監督分類器包括K-近鄰演算法(KNN)模組、高斯混合模型(GMM)模組、支援向量機(SVM)模組或者深度神經網路(DNN)模組。

所述生理聲音包括心臟音、肺音、腸鳴音、血管音、氣管呼吸音、支氣管呼吸音以及肢體音。

所述心臟音包括第一心音(S1)、第二心音(S2)以及兩者的混合模型。

所述系統進一步包括一比較模組，用於對比正常生理聲音以及/或者異常生理聲音中至少一種類別以評估疾病風險。

所述系統進一步包括自動體外心臟除顫器、動態心電圖監護儀、心肺復蘇器(CPR)、心臟起搏器、埋藏式心臟複律除顫器(ICD)、心電圖(EKG)或者超聲波裝置。當系統在非危險情況識別第一心音(S1)和第二心音(S2)時，系統合併成心率檢測裝置。當系統在危險情況識別第一心音(S1)和第二心音(S2)時，系統區分脈搏狀態和無脈搏，從而準確決定使用哪種裝置。

另外一方面，本發明提供一種使用如上所述系統的識別生理聲音的方法，包括：使用接收模組，接收生理聲音；使用特徵提取模組，從生理聲音中提取至少一特徵；使用分類器，分類至少一特徵以識別至少一種類別。

所述從生理聲音中提取至少一特徵包括：使用語音活動檢測(VAD)模組從生理聲音中檢測至少一聲音片段；以及使用梅爾頻率倒頻譜系數(MFCC)模組轉移所述至少一聲音片段到至少一MFCC特徵向量。

所述方法進一步包括：通過K-平均演算法模組從至少一MFCC特徵向量中找出至少一代表點。

所述分類器包括監督分類器。

所述心臟音包括第一心音(S1)、第二心音(S2)或者二者的混合模型。

所述方法進一步包括：使用比較模組對比正常生理聲音以及/或者異常生理聲音中至少一種類別以評估疾病風險。

本發明的優點在於識別生理聲音的系統以及方法能夠準確識別特徵性的生理聲音，並且能夠排除雜訊。

從下述的詳細實施方式搭配附圖，本發明的其他目的、優勢和新穎特徵將變得更加的顯著。

100‧‧‧識別生理聲音的系統

110‧‧‧接收模組

120‧‧‧特徵提取模組

121‧‧‧VAD模組

122‧‧‧MFCC模組

123‧‧‧K-平均演算法模組

130‧‧‧分類器

131‧‧‧KNN模組

132‧‧‧GMM模組

133‧‧‧SVM模組

134‧‧‧DNN模組

140‧‧‧對比模組

圖1顯示了本發明中識別生理聲音的系統的組成模組圖；圖2顯示了本發明的分類器包括K-近鄰演算法(KNN)模組、高斯混合模型(GMM)模組、支持向量機(SVM)模組以及深度神經網路(DNN)模組；圖3是一個深度神經網路(DNN)模型；圖4顯示了一個流程圖，描述了圖1中識別生理聲音的方法：S201到S206分別代表步驟201到步驟206；圖5是本發明中第一心音(S1)和第二心音(S2)的光譜圖(上方位置)和波形圖(下方位置)；圖6顯示了心臟音的精確結果，使用本發明的分類器KNN模組、高斯混合模型(GMM)模組、支援向量機(SVM)模組和深度神經網路(DNN)模組。

圖7顯示了使用語音活動檢測(VAD)模組處理的規則心臟音的能量差異聲音片段(實體方框部分所示)；圖8顯示了使用語音活動檢測(VAD)模組處理的不規則心臟音的能量差異聲音片段(實體方框部分所示)；圖9顯示了使用語音活動檢測(VAD)模組處理的正常肺音的能量差異聲音片段(實體方框部分所示)；圖10顯示了使用語音活動檢測(VAD)模組處理的哮鳴肺的能量差異聲音片段(實體方框部分所示)；圖11顯示了使用語音活動檢測(VAD)模組處理的濕囉肺音的能量差異聲音片段(實體方框部分所示)。

本發明提供一種識別生理聲音的系統與方法。如圖1和2所示，識別生理聲音的系統100包括接收模組110，特徵提取模組120，分類器130以及對比模組140。所述特徵提取模組120包括語音活動檢測(voice activity detector，VAD)模組121、梅爾頻率倒頻譜系數(Mel-Frequency Cepstrum，MFCC)模組122、K-平均演算法模組123；分類器130包括K-近鄰演算法模組(K-nearest neighbor，KNN)模組131、高斯混合模型(Gaussian mixture model，GMM)模組132、支援向量機(support vector machine，SVM)模組133或者深度神經網路(deep neural network，DNN)模組134。

準備1特徵提取

(1)VAD模組121

VAD模組121又稱為語音活動檢測或者語音檢測，通常被使用於判斷一段聲音信號是否存在人聲的語音處理技術。語音活動檢測(VAD)模組121的主要應用在語音編碼和語音辨識。VAD模組121也常用在分類問題前做為預處理，以提高後期辨識的準確性。這種預處理在此的目的用於找出第一心音(S1)和第二心音(S2)的位置，同時進一步偵測此聲音片段是第一心音(S1)還是第二心音(S2)。理想狀態下，通過聽診器採集的心臟音訊號通常遠大於雜訊的訊號，所以我們可以根據聲音能量的差異確定此片段是否是我們所需要的心臟音。經過VAD模組121處理之後的結果如圖3所示。以能量的差異作為判定心臟音的所在位置。

首先，針對每段聲音信號計算該段語音的最大標準差，如公式(1)計算。

公式(1)中 m 代表音框， n 代表頻域，μ代表平均值。

接下來計算該段聲音每個音框是否有心臟音，如公式(2)所示。

f _i代表第 i 個音框，1代表有心臟音以及0代表靜止的聲音， std _i代表第 i 個音框的標準差，α以及β代表參數。

(2)MFCC模組122

通常來說，人體在不同頻率域的區間下有著不同的感知敏感度。正常情況下是對於低頻率有更高的解析度，意味著在低頻時可以分辨較小的頻率差異。此外還需要考慮臨界頻帶現象。在1kHz頻率下的臨界頻帶寬度約為100Hz。1kHz頻率以上的臨界頻帶寬度成指數增長。因此，我們可以根據人類聽覺特徵，在頻率域中以梅爾量度(Mel scale)劃分頻率帶，將屬於一條頻率帶中的頻率成分合在一起看成一個能量強度，然後將這些頻帶強度以離散餘弦變換(Discrete Cosine Transform，DCT)計算之後轉化為倒頻譜，此為梅爾頻率倒頻譜(Mel Frequency Cepstrum，MFC)。因為梅爾頻率倒頻譜系數MFCC是依據人耳聽覺模型所產生的參數，所以成功地被應用於語音辨識以及分類問題中。MFCC模組122利用下列6個連續的步驟計算MFCC：預強，加視窗，快速傅立葉轉換(Fast Fourier Transform，FFT)，梅爾濾波器組，非線性轉換以及離散餘弦變換(Discrete Cosine Transform，DCT)。

一般來說，經過以上六個步驟之後可以獲取十三個維度的語音特徵，包括一個對數能量參數以及十二個倒頻譜參數。但在實際運用於音訊分析上，通常會再添加差分倒頻譜函數，以顯示倒頻譜參數如何隨著時間進行變化。它的意義為倒頻譜參數相對於時間的斜率，也就是代表倒頻譜參數在時間上的動態變化。因此，如果加上速度以及加速度的成分之後可以得到39維的語音特徵，其計算方法如下所示：

c [ i ]代表第 i 個維度的倒頻譜參數， t 代表音框的時間指示。

(3)K-平均演算法模組123

K-平均演算法模組123主要目標用於從大量高維度的資料點中找出具有代表性的資料點。這些資料點稱為群中心。再根據群中心進行資料壓縮(利用少數的資料點代表大量的資料以達到壓縮資料功能)以及分類(以少數的代表點來代表特定的類別，可以降低資料量和計算量，避免雜訊帶入的負面幹擾)。演算法的計算步驟如下所示：

A.初始化：將訓練資料隨機分成 K 單元，任意地選擇 K 參數作為原始的種子中心 y _k， k =1,2,..., K

B.遞迴演算：

a.將每一個資料 x ，對所有 K 個群中心計算與其之間的距離，並使其歸屬到距離最短的群中心。

k ^*=arg_kmind(x,y _k),x C_k 公式(5)

b.所有歸屬於 C _k資料的 x 形成一個群。再重新計算其群中心 y _k。

c.如果新的一組群中心與原先一組的群中心相同，沒有改變，則該訓練結束。否則就以新的一組群中心替代原先的群中心。回到a步驟持續進行遞迴演算。

準備2 分類器

(1)KNN模組131

K-近鄰演算法(KNN)模組131背後的本義是“物以類聚”。換句話說，同一類的物件應該會聚集在一起。用數學的語言來說，如果同一類別的物件若以高維度空間中的點來表示，這些點之間的距離應該會變得比較相近。因此，對於一個未知類別的一筆資料，我們只要找出來在訓練資料中和此筆資料最相鄰的點，就可以判定此筆資料的類別應該和最接近的點的類別是一樣的。K-近鄰演算法(KNN)模組131的分類步驟主要是將一個測量資料 x 分類到類別 C 中的其中一類。這些步驟的具體實施方式如下：

A.決定要使用測量資料 x ，對訓練資料中的最相鄰的資料點 K 。使用合適的距離公式計算距離。

B.當測量資料 x ，於某特定類別中有相對較多數的代表(在 K 個最近距離中於某類別中的個數占最多)，則判定 x 為該類別。

整個分類器所預先需要的資訊是：最相鄰的 K 資料點的個數，選擇計算距離的公式，以及訓練資料。

假定我們的訓練集為成對的( x _i ,z _i), i =1,..., n 。 x _i代表第 i 個訓練資料的向量，而 z _i是對應的分類指標(例如zi=j代表第 i 個訓練資料向量是第j類別ω _i的樣本)。將測試資料向量 x 與訓練資料向量 y 之間的距離定義為 d ( x , y )。在此部分使用歐幾裡得尺度(Euclidean metric)作為距離計算公式，如公式6所示。

(2)高斯混合模型(GMM)模組132

高斯分類器是一種常規的分類器，應用貝式定理(Bayes' theorem)作為基本的概念。這也是高斯分類器被稱為貝式分類器(Naive Bayes classifier)的原因。該高斯分類器的概念是利用已知的類型資料計算其概率分佈，並在已知類型的概率分佈中找出未知類型資料的概率，其中概率最高的類型就會被選作未知資料的類型，而平均值以及標準差作為決定整個模型的兩個參數。

單一高斯分佈是根據一個平均值和一個標準差描述其分佈的形狀。然而，訊號通常是以更加複雜的方式分佈。因此，如果只使用一個高斯分佈通常無法近似於該信號。而高斯混合模型是使用多個高斯分佈來類比訊號。正因為如此，訊號的分佈能夠更好的得到模擬。而且，隨著混合高斯曲線的數量提升之後，分佈的形狀變得更加的相似以及複雜程度變得相對提高。

高斯混合模型包括3個參數：平均向量μ _i，共變異矩陣Σ_i，加權值ω _i。為了簡化表示高斯模型，以λ來表示，表示的公式如公式(7)所示。

λ={ω _i ,μ _i ,Σ_i},i=1,...,K 公式(7)

特徵向量 z 的混合概率密度函數利用公式(8)表達

其中 p _i( z )為特徵向量 z 的第 i 個高斯分佈概率密度函數。

其中因為最大概率值為1，所以(7)式中高斯混合模型的混合概率密度函數的加權值ω _i必須符合公式(10)所述的條件才會成立。

當有一筆數目為N，維度為d的特徵向量z，要將此訓練樣本訓練成符合高斯混合模型λ時，即是希望求得適當高斯混合模型λ的三個參數μ _i、Σ_i以及ω _i( i =1,..., K )。使得訓練過後的模型能充分代表特徵向量 z 的分佈。也就是找出一組適當的模型參數，使得特徵向量 z 以及高斯混合模型λ的相似性 p ( z |λ)為最大，如公式(11)所示。

因為公式(8)是非線性的等式，解決過程中複雜的計算公式是難以避免的。一般來說，可以應用最大期望(expectation-maximization，EM)演算法找出高斯混合模型的最佳參數。

(3)SVM模型133

支援向量機(SVM)模組133廣泛使用在統計分類以及迴歸分析。根據實驗證實SVM模組133有強大的分類能力。SVM模組133的中心概念是將訓練資料映射到高維特徵平面，以及建立一個最佳超平面(在高維度中的平面且於大間隔中擁有邊界)。大部分的SVM模型主要應用在二元分類的問題上，但也可以結合多個二元分類，建構出多重類別的分類方法。而這些情況又被分為線性資料以及非線性資料兩種情形。

假定一個子集{ x _i, i =1,..., n }以及子集被分配到ω ₁或者ω ₂其中一類，對應標記為 y _i=±1，其希望能找到一個超平面 g ( x )( g ( x )= w ^T x + w ₀)，使所有yi=+1的資料點都落在 g ( x )>0的範圍內。通過執行這樣操作，即可利用 g ( x )的正負號來區別。其進一步希望找到與所示兩條邊界有最大距離的平面，稱為最佳超平面。為了使 H1 與 H2 之間的距離最大化，需利用公式(12)解決：

限制條件如公式(13)所描述

當資料不是線性和可分離的時候，利用核函數如函數(14)進行使用，將資料投射到更高維度特徵空間。

k(x,y)=<(x), (y)> 公式(14)

常見的核函數包括線性、多項式、高斯徑向基函數核。可依照分類問題特性選擇不同的核函數。在此部分中使用高斯徑向基函數核為核函數，如公式(15)所示：K(x,y)=exp(-||x-y||/2σ ²) 公式(15)

(4)DNN模組134

類神經網路(Neural network，NN)是一種模仿生物神經網路結構和功能的數學模型，使電腦能自我學習並且可利用經驗法則來進行推理，所以相比於邏輯推論計算更具有優勢。而此演算法有下述的一些特徵：1.平行處理(parallel processing)，2.容錯技術(fault-tolerant)，3.結合式記憶(combined memory)，4.解決最佳化問題，5.執行超大型積體電路(very-large-scale integration，VLSI)以及6.處理一般演算法較難處理的問題。到目前為止，許多學者通過設計不同的類神經網路模型來解決不同的問題。常見的網路模型包括反向傳播網路(back-propagation network)，霍普菲爾德網路(Hopfield network)以及徑向基函數網路(radial basis function network)。

DNN模組134的操作通常採用輸出層來作為下一隱藏層的輸入。概念在於利用隱藏層數目的提升來增強系統。附圖3表示的深度神經網路(DNN)模組134通常含有5個層。輸入層與第一隱藏層的輸出之間的關係用公式(16)表述。

a ₂=f(W ₁ x) 公式(16)

x 代表輸入， W ₁代表權重， f 代表作用函數(activation function)。此部份使用了sigmoid函數， a ₂是第二層的輸出。

當獲取第一隱藏層的輸出之後，相對關係可以用關係式(17)所示。L代表DNN模組134的層數目。

a _i+1=f(W _i a _i),i=2,…,L-1 公式(17)

除此之外，因為參數的原始值會影響到計算結果，DNN模組134通常使用受限玻茲曼機(restricted Boltzmann machines，RBM)來執行原始參數的預測，再使用反向傳播演算法(back-propagation)來調整參數，如公式(18)所示。

J(a _L ,y)=loss(a _L ,y) 公式(18)

公式(18)中， y 代表標籤， a _L代表第 L 層的輸出。此部份損失函數(loss function)應用了softmax函數。具體的演算法可能參照參考文獻(Bengio,2009；Mohamed et al.,2013)。最後，頻繁的使用”退出”(dropout)可能避免過度訓練以及獲得更佳的效率。

準備3 評估方式

評估方式用對比模組140進行操作。該評估方式使用在模式識別與資訊檢索常會使用精確性(precision)，召回率(recall)和F-量測(F-measure)作為評估該系統的好或者壞的標準(Martin et al.,1997)。考慮四種情況如表1所述，每一種解釋都在公式(19)-(21)中所示。

F-量測通常也被稱為F1量測，代表精確性以及召回率的權重均等。召回率通常被稱為真陽性率(true positive rate)或者敏感性(sensitivity)，精確性被稱為陽性預測值。在分類研究中，準確度(accuracy)通常被用作評估模型，其定義如公式(22)所示。

實施例1 心臟音的實驗全集以及實驗步驟

識別生理聲音的方法中的流程圖如圖1,2和4所示。步驟201是使用接收模組110來接收生理聲音。接收音訊的地方通常集成在房室瓣的聽診器區域以及第二大動脈瓣膜聽診器區域。接收模組110通常是一電子聽診器，這個實驗中所使用的資料通常是通過電子聽診器來收集實際的聲音資料。該目標在於利用心臟音找出第一心音(S1)以及第二心音(S2)的音訊軌跡。首先，使用數位手機用於記錄心臟音，同時將記錄的心臟音轉化為類比的訊號。通過解碼晶片的解碼，類比音訊的訊號能夠被分解為兩個路徑。一路徑用於轉換過濾的聲音為數位訊號，並且通過聽診器耳管釋放數位訊號。另外一條路徑主要是用於將非處理的類比訊號儲存於建成的記憶平臺。另外這些非處理的類比訊號用於研究中的分析。

步驟202是使用語音活動檢測(VAD)模組121的特徵提取模組120提取生理聲音的至少一聲音片段。因為心臟音集中在低頻率，採樣頻率設置在5kHz。訓練資料由17位元健康男女性所錄製而成。通過人工選擇提取第一心音(S1)以及第二心音(S2)之後，我們可以獲得完整的322個第一心音(S1)以及313個第二心音(S2)；而測試資料則來自3位男性以及1位女性，經過特徵提取模組120的處理語音活動檢測(VAD)模組121處理之後，共切割出122個心臟音訊號，其中66個是第一心音(S1)，另外56個是第二心音(S2)。

步驟203是使用特徵提取模組120的梅爾頻率倒頻譜系數(MFCC)模組122將至少一聲音片段轉移到至少一個MFCC特徵向量中。通過梅爾頻率倒頻譜系數(MFCC)模組122提取的MFCC特徵向量，從13個維度擴張到39個維度。

步驟204使用特徵提取模組120的K-平均演算法模組123，從至少一個MFCC特徵向量找出至少一代表點。在心臟音的片段中，K-平均演算法模組123使用2個中央向量來代表心臟音和雜訊部分。

步驟205通過分類器130用於辨識與分類所述至少一種特徵到至少一種類別，其特徵在於分類器130包括K-近鄰演算法(KNN)模組131，高斯混合模型(GMM)模組132，支援向量機(SVM)模組133或者深度神經網路(DNN)模組134。歐幾裡得尺度是K-近鄰演算法(KNN)模組131的距離計算公式。高斯徑向基函數核作為核函數。高斯混合模型(GMM)模組132中第一心音(S1)模型以及第二心音(S2)模型各自獨立使用8個混合數字。深度神經網路(DNN)模組134設置了3隱藏層，每層有100個神經元。丟棄率為70%。

步驟206通過比較模組140，對比正常生理聲音或者異常生理聲音的至少一種類別以評估疾病風險。通過接收模組110記錄正常性音或者異常性音。經過人工選擇之後提取第一心音(S1)和第二心音(S2)，第一心音(S1)和第二心音(S2)被訓練為訓練數據。

實施例2 通過不同的分類器獲取心臟音中的準確結果

在MFCC特徵提取的訓練資料中，第一心音(S1)和第二心音(S2)的光譜以及波形圖通過圖5中觀測以及顯示。首先，心臟音的頻率主要貢獻在低頻率部分，高度的區分於聲音頻率低於8kHz的頻率段，因此，採樣頻率調整為5kHz中。心臟音的基線大約為15ms，所以音框尺寸設置為15ms，並且相互重疊了10ms。經過語音活動檢測(VAD)模組121調整如公式(2)所示的α以及β的參數之後，使用VAD模組121進行資料訓練，手動剪切聲頻檔通常作為匹配測試資料的目的，該測試資料由VAD模組121的訓練資料進行處理。

分類器部分，使用K-近鄰演算法(KNN)模組131，高斯混合模型(GMM)模組132，支持向量機(SVM)模組133以及深度神經網路(DNN)模組134。然而，使用K-近鄰演算法(KNN)模組131的想法相對來說較為簡單，僅僅使用特徵作為距離的判斷標準。高斯混合模型(GMM)模組132是發生模型。每個種類在高斯模型下分別地進行訓練。單獨模型中測試資料的概率也可以進行計算。支持向量機(SVM)模組133，使用線性或者非線性(反映)方式以分解訓練資料並且獲取訓練模型。將測試資料引入模型中來獲取檢測結果。最終，深度神經網路(DNN)模組134在近年來成為最先進的識別方法，同時也模仿了人腦的多層次學習來獲取訓練模型，檢測結果可以通過引入測試資料之後獲得。

從表2到表5以及圖6是根據使用指定的系統結果提取的第一心音(S1)以及第二心音(S2)的實驗結果。根據實驗結果，支持向量機(SVM)模組133以及深度神經網路(DNN)模組134所示了非常高的識別率。深度神經網路(DNN)模組134準確度達到了93.4%。第一心音(S1)在四種分類器中擁有較高的F-量測。

實施例3 識別正常心臟音以及異常心臟音

為了評估正常以及異常心臟音之間的差異如圖7所示，記錄三對正常的第一心音(S1)以及三對正常的第二心音(S2)。使用5K的採樣頻率作為記錄因素，同時5K的採樣頻率以每個樣本0.2ms進行。第一心音(S1)的每個樣本相對來說是1466，6266，10109941，1588889以及20564，以及第二心音(S2)的每個樣本分別是2995，7796，11608，177421以及22242。第一心音(S1)的第一心率是每分鐘60/[(|6266-1466|)x 0.2 x 0.001]=62.5每分鐘心跳次數(Beat Per Minute，BPM)，以及第一心音的第二心率為64.2BPM。第一心率以及第二心率之間的模組差異是1.7(64.2BPM-62.5BPM)，該值遠小於第一心率3.125的5%(62.5BPM x 5%)。

相反的，如圖8所示，可以記錄三對異常的第一心音(S1)以及三對異常的第二心音(S2)。第一心音(S1)的每個採樣分別是1162，8269，11775，17555，第二心音(S2)分別是2661，9630，13344，以及18957。第一心音(S1)的第二心率是42.8BPM，第三心率是51.9BPM。第二心率以及第三心率之間的模組差異為9.1，比第二心率2.14的5%要更大。

如圖1所示，接收模組110，接收正常與異常心臟音，所述特徵提取模組120的語音活動檢測(VAD)模組121用於提取每對第一心音(S1)與第二心音(S2)的兩個聲音片段，並且計算每個心率和常規性。兩個心率之間的模組的差異度比前心率小於5%，心率可以判定為正常，如果所述兩個心率之間的模組的差異度大於前心率的5%，心率被判定為異常。以上方法可以用識別兩個心率迴圈中的正常以及異常的心率。

如圖1以及2所示，結合深度神經網路(DNN)模組134聲波分析法，以及語音活動檢測(VAD)模組121，梅爾頻率倒頻譜系數(MFCC)模組112的方法，用於識別第一心音(S1)與第二心音(S2)。由於所述方法以及系統不需要借助於第一心音(S1)以及第二心音(S2)之間的時間間隔資訊。所述心率失常問題可以得到有效解決。K-平均演算法模組123用於代表心臟音以及噪音。分類法中會自動對比精確率，召回率，F-量測以及準確率，每個實驗中實驗結果中第一心音(S1)以及第二心音(S2)都會展示出優異的提取結果，第一心音(S1)所示出較高的準確度。

在實際的臨床使用中，第一心音(S1)以及第二心音(S2)的概念都會成對或者單獨的出現在語音活動檢測(VAD)模組121中所提取的心臟音中。所述第一心音(S1)的特徵有更好的識別率，並且根據程式檢測來獲取第二心音(S2)。同時，第三心音以及第四心音擁有相同的概念，可以通過上述的本發明實施例中得到識別。

實施例4 識別正常以及異常肺音

如圖1以及圖4所示，處理相同的步驟來識別正常以及異常的肺音。獲取音訊的位置位於左胸區域的第六肋間區域。識別不同生理聲音的關鍵步驟是使用特徵提取模組120的語音活動檢測(VAD)模組121來檢測生理聲音的聲音片段，因為不同的生理聲音有其自己的聲音片段。如附圖9所示，正常肺音的能量差異通過語音活動檢測(VAD)模組121處理成每個片段。如圖1以及10所示，呼吸喘鳴聲的能量差異通過語音活動檢測(VAD)模組121處理成每個片段。呼吸喘鳴聲(醫學術語上稱為高調乾囉音)是一種呼吸的過程中在呼吸道產生的連續、沙啞、口哨音般的聲音。氣喘發作的人群通常會有鳴音。如圖1以及11 所示，濕囉肺音的能量差異通過語音活動檢測(VAD)模組121處理成聲音片段。濕囉肺音是在呼氣時被積液、滲出液或充氣不足的小呼吸道或肺泡的“迅猛打開“所引起。濕囉肺音在肺炎或者肺水腫中可以聽診到。

雖然本發明的大量特徵以及優點已在先前的資料中闡述，連同本發明結構和特徵的具體方式，所述揭露僅僅用於闡述。本發明細節當可作些許之變動，特別是識別生理聲音例如像心臟音、肺音、腸鳴音、血管音、氣管呼吸音、支氣管呼吸音以及肢體音，故本發明值保護範圍當視後附之申請專利範圍所界定者為准。