TW202303588A

TW202303588A - 異音檢測方法及裝置

Info

Publication number: TW202303588A
Application number: TW110125758A
Authority: TW
Inventors: 陳泰融
Original assignee: 緯創資通股份有限公司
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2023-01-16
Also published as: CN115620743A; TWI774472B; US11579012B1; US20230030911A1

Abstract

一種異音檢測方法及裝置。首先，接收異音訊號。接著，將異音訊號轉換成時頻譜圖。之後，對時頻譜圖執行影像辨識，以獲得異音訊號對應的缺陷類別。

Description

異音檢測方法及裝置

本發明是有關於一種音訊檢測技術，且特別是有關於一種異音檢測方法及裝置。

一般而言，對於揚聲器或麥克風等與聲音相關的電子產品而言，組裝缺陷等問題會對其性能造成不良的影響。例如，因組裝缺陷而造成電聲或機械結構上的異音或振動等。組裝缺陷以往是由豐富經驗的聽者在生產線末端進行檢測。此種檢測需要對揚聲器施正弦對數掃頻訊（log-swept sine chirps），並且利用人的聽覺檢測分析其響應信號是否正常。然而，此種以人耳評估而檢測出的結果會隨著聽者的年齡、情緒變化、聽覺疲勞等主觀因素而有所不同，並且容易造成聽者的職業傷害。

此外，現有的模型僅會分類無異音訊號與異音訊號，並沒有針對異音訊號進行分類，因此無法得知待測物的缺陷問題，導致維修時間大大增加。

本發明提供一種異音檢測方法及裝置，可藉由影像辨識來檢測異音訊號對應的缺陷類別。

本發明的異音檢測方法，包括：接收異音訊號；將異音訊號轉換成時頻譜圖（spectrogram）；以及對時頻譜圖執行影像辨識，以獲得異音訊號對應的缺陷類別。

在本發明的一實施例中，上述對時頻譜圖執行影像辨識的步驟包括：將時頻譜圖輸入至分類模型，以獲得分別對應至多個指定標籤的多個機率值，其中分類模型為神經網路模型；以及以所述機率值中之最大者對應的指定標籤作為缺陷類別。

在本發明的一實施例中，上述在獲得異音訊號對應的缺陷類別之後，更包括：判斷缺陷類別是否與比較結果相符合；以及倘若缺陷類別不符合比較結果，將對應的異音訊號輸入至訓練資料集，以透過訓練資料集來重新訓練分類模型。

在本發明的一實施例中，上述在獲得分別對應至多個指定標籤的多個機率值之後，更包括：判斷所述機率值中之最大者是否大於與其對應的信心指數；響應於所述機率值中之最大者大於與其對應的信心指數，以所述機率值中之最大者對應的指定標籤作為缺陷類別；以及響應於所述機率值中之最大者未大於與其對應的信心指數，將其對應的異音訊號輸入至訓練資料集，以透過訓練資料集來重新訓練分類模型。

在本發明的一實施例中，上述將時頻譜圖輸入至分類模型的步驟包括：按照時頻譜圖的時序將時頻譜圖劃分為多個子譜圖（sub-spectrogram），以將所述子譜圖輸入至分類模型。

在本發明的一實施例中，上述分類模型包括雙向長短期記憶（Bidirectional Long Short-Term Memory，BLSTM）層、最大池化（max pooling）層、平坦層（flatten）以及全連接（full connected）層。

在本發明的一實施例中，上述將異音訊號轉換成時頻譜圖的步驟包括：對異音訊號執行快速傅立葉轉換，以產生時頻譜圖。

在本發明的一實施例中，上述接收異音訊號的步驟包括：自聲音檢測模型接收異音訊號。所述聲音檢測模型用以檢測音頻訊號是否具有異音，並在判定音頻訊號具有異音時，將音頻訊號視為異音訊號。

在本發明的一實施例中，自聲音檢測模型接收異音訊號之前，更包括：透過聲音檢測模型自錄音設備接收音頻訊號。其中，錄音設備設置在靜音箱中的待測物上或靜音箱中，用以錄製靜音箱內所發出的聲音而輸出音頻訊號。

本發明的異音檢測裝置，包括：接收器，經配置以接收異音訊號；以及處理器，耦接至接收器，經配置以：將異音訊號轉換成時頻譜圖，並對時頻譜圖執行影像辨識，以獲得異音訊號對應的缺陷類別。

基於上述，本揭露建立了一個深度學習（Deep Learning，DL）為基礎的異音檢測架構，透過此架構來對各項故障的異音訊號進行分類，藉以降低機台回流重測的數量，以及機台修復時有相關資訊可以參考可加速維修進度。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的方法與裝置的範例。

圖1是依照本發明一實施例的異音檢測裝置的方塊圖。請參照圖1，異音檢測裝置100包括處理器110、儲存器120以及接收器130。處理器110耦接至儲存器120以及接收器130。異音檢測裝置100用以分析所接收的異音訊號N，藉此來獲得異音訊號N對應的缺陷類別。在一實施例中，異音檢測裝置100中可設置一聲音檢測模型，所述聲音檢測模型為軟體或模組，藉此來判斷音頻訊號是否正常或異常，其中判定為異常的音頻訊號即異音訊號。

儲存器120中包括資料庫121以及分類模型122。資料庫121中儲存了訓練資料集。訓練資料集包括事先收集的多個已知缺陷類別（作為比較結果）的異音音訊。利用這些已知的異音音訊來訓練分類模型122。在此，分類模型122例如為包括多個層的神經網路（Neural Network，NN）模型，利用深度學習來訓練此神經網路模型。深度學習的概念是透過大量已知資料告知神經網路模型輸入與輸出之間的關係，藉此來調整神經網路模型中的權重（weight）、誤差（bias）等參數。

處理器110例如是中央處理單元（Central Processing Unit，CPU）、圖形處理單元（Graphics Processing Unit，GPU），或是其他可程式化之微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置。

儲存器120例如是任意型式的固定式或可移動式隨機存取記憶體、唯讀記憶體、快閃記憶體、安全數位卡、硬碟或其他類似裝置或這些裝置的組合。儲存器120中儲存有多個程式碼片段，而上述程式碼片段在被安裝後，由處理器110來執行，藉此來執行異音檢測方法。

接收器130例如為通訊埠，用以連接至網路卡介面或傳輸線等，以接收異音訊號N。

圖2是依照本發明一實施例的檢測待測物的系統示意圖。請參照圖2，此系統包括靜音箱210、聲音檢測模型220以及分類模型122。在一實施例中，聲音檢測模型220可設置在異音檢測裝置100內，在其他實施例中，聲音檢測模型220可設置在與異音檢測裝置100不同的裝置中。在靜音箱210內設置有待測物T、揚聲器211（例如為喇叭）以及錄音設備212（例如為麥克風）。聲音檢測模型220自錄音設備212接收音頻訊號，並判斷音頻訊號為正常或異常，而將判定為異常的音頻訊號作為該異音訊號。錄音設備212用以錄製靜音箱210內所發出的聲音而輸出音頻訊號。

待測物T放置在靜音箱210內進行測試，可避免受到環境的干擾。靜音箱210例如可透過有線或無線的傳輸方式與聲音檢測模型220進行傳輸。例如，聲音檢測模型220利用有線或無線的傳輸方式將測試訊號傳送至靜音箱210的揚聲器211，以透過揚聲器211來播放測試訊號，並且透過靜音箱210的錄音設備212錄製靜音箱210內所發出的聲音而輸出音頻訊號。

在圖2所示的實施例中，在靜音箱210內設置錄音設備212（錄音設備212非設置在待測物T上），而將設置有揚聲器211的待測物T放入靜音箱210中，可透過下述方式來檢測待測物T，所述方式為：檢測待測物T上的揚聲器211的整體穩定性，以及揚聲器211的震動是否會影響待測物T的機殼或是元件共振產生噪音。具體而言，聲音檢測模型220利用無線或是有線的傳輸方式將測試訊號輸出至設置在待測物T上的揚聲器211，使得揚聲器211播放特定頻率區間的測試訊號（掃頻訊號）。所述特定頻率區間一般設置為20Hz～20kHz，用以掃描待測物T在此頻率區間的共振。

之後，由靜音箱210裡的錄音設備212接收（錄製）靜音箱210內所發出的聲音，所述聲音包括待測物T上的揚聲器211所發出的聲音以及由待測物T所發出來的掃頻和共振聲音。而錄音設備212所錄製下來的音頻訊號再利用無線或是有線的傳輸方式傳至聲音檢測模型220，由聲音檢測模型220來判斷音頻訊號是否帶有異音。倘若音頻訊號具有異音時，將音頻訊號視為異音訊號，再由分類模型122對異音訊號來進行分類。據此，可將異音訊號分類為哪種元件或是機構導致揚聲器211在播放掃頻訊號時產生共振異音等。

另外，在其他實施例中，在靜音箱210內設置揚聲器211（揚聲器211非設置在待測物T上），而將設置有錄音設備212的待測物T放入靜音箱210中，可透過下述方式來檢測待測物T，所述方式為：檢測待測物T上的錄音設備212的接收穩定度。即，由設置在靜音箱210的揚聲器211（例如為人工嘴）發出測試訊號（掃頻聲音），再由待測物T上的錄音設備212接收（錄製）靜音箱210內所發出的聲音而輸出音頻訊號，再將錄製下來的音頻訊號利用無線或是有線的傳輸方式傳至聲音檢測模型220，由聲音檢測模型220來判斷音頻訊號是否帶有異音。

圖3是依照本發明一實施例的異音檢測方法的流程圖。請參照圖1～圖3，在步驟S305中，處理器110經由接收器130接收異音訊號N。

接著，在步驟S310中，處理器110將異音訊號轉換成時頻譜圖。在此，處理器110對異音訊號N執行快速傅立葉轉換（Fast Fourier Transform，FFT），以產生時頻譜圖。在此將異音訊號N轉換成時頻譜圖的原因在於異音與測試訊號產生共振時具有時間連續性，因此若將時間域訊號轉換成時頻譜圖後，異音特徵在時頻譜圖中將會呈現時間連續並且能量群聚的現象，且細微的特徵能被保留，不會在轉換過程中丟失聲音的細微特徵，以利後續用電腦視覺技術來達到待測物T的缺陷檢測。

產生異音的原因有多種，例如「元件連錫短路」、「排線過緊」、「未裝泡棉墊片」、「來料不良」等。其中，「元件連錫短路」所指為揚聲器211會產生直流音或是靜音的問題。「排線過緊」所指為由於錄音設備212為懸吊式在機殼（待測物T）上，因此排線如果太短會拉扯到懸吊的錄音設備212，進而導致收音不良或是產生噪音。「未裝泡棉墊片」會導致喇叭震動到待測物T的機殼上進而導致機殼共振的震音。「來料不良」所指為揚聲器211本身的品質不佳。另外，在待測物T上存在有異物（例如塑膠袋）時，異物的共振聲音也會導致異音的產生。

一般而言，待測物T在所述特定頻率區間的共振會在時頻譜圖中產生諧波特徵。倘若為異音，則時頻譜圖中的諧波會群聚在一起而呈現一個高亮度的區塊。越嚴重的異音，則亮度區塊的面積及/或亮度會越大，反之則越小。圖4A及圖4B是依照本發明一實施例的異音訊號的時頻譜圖的示意圖。圖4A及圖4B所示的時頻譜圖的橫軸頻率，縱軸為能量（power ratio）。圖4A與圖4B所示為不同缺陷類別造成的異音訊號的時頻譜圖。

之後，在步驟S315中，透過分類模型122對時頻譜圖執行影像辨識，以獲得異音訊號N對應的缺陷類別。即，將時頻譜圖輸入至分類模型122，以獲得分別對應至多個指定標籤的多個機率值。並且，以所述機率值中之最大者對應的指定標籤作為缺陷類別。例如，在訓練分類模型122的階段，訓練資料集中包括的已知缺陷類別的數量為6種，則分類模型122最終輸出的指定標籤為6個。在檢測階段，便可透過分類模型122來獲得分別對應至6個指定標籤的6個機率值。這6個機率值相加後的總合等於1。在這6個機率值中取出最高的1個機率值，此最高機率值對應的指定標籤即是最終獲得的缺陷類別。

分類模型122還可進一步加入人耳聽覺權重，藉此調整所輸出之指定標籤的對應的機率值，讓輸出結果較貼近人耳所判斷結果。

另外，為了進一步驗證分類模型122，在將異音訊號N傳送至分類模型122進行分類的同時，亦將異音訊號N提供給相關工程師來進行人工分類而獲得一比較結果。故，可將自分類模型122所獲得的缺陷類別與比較結果相比。倘若兩者不符，則將此筆異音訊號N及所述比較結果輸入至訓練資料集，以透過訓練資料集來重新訓練分類模型122。

另外，還可根據各指定標籤來設定其對應的信心指數。在獲得最高機率值之後，進一步將最高機率值與其對應的信心指數進行比較。倘若最高機率值未大於其對應的信心指數，代表其對應的缺陷類別並非是現有的6個標籤其中一者。故，將此異音訊號N傳送給相關的工程師，由其進行人工識別，以獲得此異音訊號N對應的缺陷類別，並將此異音訊號N及其對應的缺陷類別（尚未存在於訓練資料集中）新增（輸入）至訓練資料集，以重新訓練分類模型122。

圖5是依照本發明一實施例的分類模型的架構圖。請參照圖5，分類模型122包括雙向長短期記憶（Bidirectional Long Short-Term Memory，BLSTM）層505、最大池化層510、平坦層515以及連接層520。

處理器110在接收異音訊號N之後，將異音訊號N轉換為時頻譜圖IM。接著，按照時頻譜圖IM的時序將時頻譜圖IM劃分為多個子譜圖。例如，由低頻至高頻將時頻譜圖IM劃分為多個子譜圖f ₁～f _T，將這些子譜圖f ₁～f _T輸入至雙向長短期記憶層505。

雙向長短期記憶層505根據下列公式來獲得特徵資料：

；

；

。

雙向長短期記憶層505分別透過兩個長短期記憶（Long Short-Term Memory，LSTM）模型將子譜圖f _t（t=1~T）通過向前（forward）順序以及向後（backward）順序計算而獲得特徵資料

及特徵資料

，之後，基於特徵資料

及特徵資料

獲得特徵資料

。

之後，將在雙向長短期記憶層505上所取出的特徵資料

，通過最大池化層510來簡化特徵資料

，藉此取得更重要的特徵資訊。最大池化層510在每一次池化窗口上會計算輸出，然後根據池化窗口中的數值取最大值。最大池化層510根據下列公式計算：

。

平坦層515用以將最大池化層510輸出的特徵資料攤平。例如，將多維的特徵資料轉變為一維的矩陣。最後，將平坦化的特徵資料輸入至全連接層520，經過權重的計算之後，獲得時頻譜圖IM對應至多個標籤525-1～525-M的機率值。在此，標籤525-1～525-M的機率值相加後等於1。在此，標籤525-1～525-M分別具有對應的信心指數T ₁～T _M。在獲得標籤525-1～525-M各自的機率值之後，取出最高機率值。假設標籤525-1的機率值最高，則進一步判斷標籤525-1的機率值是否高於其對應的信心指數T ₁。倘若標籤525-1的機率值高於其對應的信心指數T ₁，則異音訊號N的缺陷類別即為標籤525-1。倘若標籤525-1的機率值未高於其對應的信心指數T ₁，則將此異音訊號N傳送給相關的工程師，由其進行人工識別，以獲得此異音訊號N對應的缺陷類別，並將此異音訊號N及其對應的缺陷類別（尚未存在於訓練資料集中）新增（輸入）至訓練資料集，以重新訓練分類模型122。

綜上所述，上述實施例中針對異音訊號來進行分類，可縮短維修時間，並且可提供比人耳主觀判定更為精確的缺陷檢測，更可以降低相關的職業傷害。另外，透過分類模型可直接對異音訊號進行分析為哪一類失敗項目，進而讓測試失敗的設備一次就整修完成，經過分析之後知道時常故障的元件和機構進而改進提高良率。

100:異音檢測裝置 110:處理器 120:儲存器 121:資料庫 122:分類模型 130:接收器 210:靜音箱 211:揚聲器 212:錄音設備 220:聲音檢測模型 505:雙向長短期記憶層 510:最大池化層 515:平坦層 520:連接層 525-1～525-M:標籤 IM:時頻譜圖 N:異音訊號 S305～S315:異音檢測方法的步驟 T:待測物

圖1是依照本發明一實施例的異音檢測裝置的方塊圖。圖2是依照本發明一實施例的檢測待測物的系統示意圖。圖3是依照本發明一實施例的異音檢測方法的流程圖。圖4A及圖4B是依照本發明一實施例的異音訊號的時頻譜圖的示意圖。圖5是依照本發明一實施例的分類模型的架構圖。

S305~S315:異音檢測方法的步驟

Claims

一種異音檢測方法，包括：接收一異音訊號；將該異音訊號轉換成一時頻譜圖；以及對該時頻譜圖執行一影像辨識，以獲得該異音訊號對應的一缺陷類別。
如請求項1所述的異音檢測方法，其中對該時頻譜圖執行該影像辨識的步驟包括：將該時頻譜圖輸入至一分類模型，以獲得分別對應至多個指定標籤的多個機率值，其中該分類模型為一神經網路模型；以及以該些機率值中之最大者對應的指定標籤作為該缺陷類別。
如請求項2所述的異音檢測方法，其中在獲得該異音訊號對應的該缺陷類別之後，更包括：判斷該缺陷類別是否與一比較結果相符合；以及倘若該缺陷類別不符合該比較結果，將該異音訊號輸入至一訓練資料集，以透過該訓練資料集來重新訓練該分類模型。
如請求項2所述的異音檢測方法，其中在獲得分別對應至該些指定標籤的該些機率值之後，更包括：判斷該些機率值中之最大者是否大於與其對應的一信心指數；響應於該些機率值中之最大者大於與其對應的該信心指數，以該些機率值中之最大者對應的指定標籤作為該缺陷類別；以及響應於該些機率值中之最大者未大於與其對應的該信心指數，將該異音訊號輸入至一訓練資料集，以透過該訓練資料集來重新訓練該分類模型。
如請求項2所述的異音檢測方法，其中將該時頻譜圖輸入至該分類模型的步驟包括：按照該時頻譜圖的時序將該時頻譜圖劃分為多個子譜圖，以將該些子譜圖輸入至該分類模型。
如請求項2所述的異音檢測方法，其中該分類模型包括一雙向長短期記憶層、一最大池化層、一平坦層以及一全連接層。
如請求項1所述的異音檢測方法，其中將該異音訊號轉換成該時頻譜圖的步驟包括：對該異音訊號執行快速傅立葉轉換，以產生該時頻譜圖。
如請求項1所述的異音檢測方法，其中接收該異音訊號的步驟包括：自一聲音檢測模型接收該異音訊號，其中，該聲音檢測模型用以檢測一音頻訊號是否具有異音，並在判定該音頻訊號具有異音時，將該音頻訊號視為該異音訊號。
如請求項8所述的異音檢測方法，其中自該聲音檢測模型接收該異音訊號的步驟之前，更包括：透過該聲音檢測模型自一錄音設備接收一音頻訊號，其中，該錄音設備設置在一靜音箱中的一待測物上或該靜音箱中，用以錄製該靜音箱內所發出的聲音而輸出該音頻訊號。
一種異音檢測裝置，包括：一接收器，經配置以接收一異音訊號；以及一處理器，耦接至該接收器，經配置以：將該異音訊號轉換成一時頻譜圖，並對該時頻譜圖執行一影像辨識，以獲得該異音訊號對應的一缺陷類別。
如請求項10所述的異音檢測裝置，其中該處理器經配置以：將該時頻譜圖輸入至一分類模型，以獲得分別對應至多個指定標籤的多個機率值，其中該分類模型為一神經網路模型；以及以該些機率值中之最大者對應的指定標籤作為該缺陷類別。
如請求項11所述的異音檢測裝置，其中該處理器經配置以：判斷該缺陷類別是否與一比較結果相符合；倘若該缺陷類別不符合該比較結果，將該異音訊號輸入至一訓練資料集，以透過該訓練資料集來重新訓練該分類模型。
如請求項11所述的異音檢測裝置，其中該處理器經配置以：判斷該些機率值中之最大者是否大於與其對應的一信心指數；響應於該些機率值中之最大者大於與其對應的該信心指數，以該些機率值中之最大者對應的指定標籤作為該缺陷類別；以及響應於該些機率值中之最大者未大於與其對應的該信心指數，將該異音訊號輸入至一訓練資料集，以透過該訓練資料集來重新訓練該分類模型。
如請求項11所述的異音檢測裝置，其中該處理器經配置以：按照該時頻譜圖的時序將該時頻譜圖劃分為多個子譜圖，以將該些子譜圖輸入至該分類模型。
如請求項11所述的異音檢測裝置，其中該分類模型包括一雙向長短期記憶層、一最大池化層、一平坦層以及一連接層。
如請求項11所述的異音檢測裝置，其中該處理器經配置以：對該異音訊號執行快速傅立葉轉換，以產生該時頻譜圖。
如請求項11所述的異音檢測裝置，其中該接收器經配置以：自一聲音檢測模型接收該異音訊號，其中，該聲音檢測模型用以檢測一音頻訊號是否具有異音，並在判定該音頻訊號具有異音時，將該音頻訊號視為該異音訊號。
如請求項17所述的異音檢測裝置，更包括：該聲音檢測模型，該聲音檢測模型自一錄音設備接收一音頻訊號，其中，該錄音設備設置在一靜音箱中的一待測物上或該靜音箱中，用以錄製該靜音箱內所發出的聲音而輸出該音頻訊號。