TWI744036B

TWI744036B - 聲音辨識模型訓練方法及系統與電腦可讀取媒體

Info

Publication number: TWI744036B
Application number: TW109135541A
Authority: TW
Inventors: 張鉉宗
Original assignee: 緯創資通股份有限公司
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-10-21
Also published as: CN114360579A; TW202215414A; US20220114208A1; US11556586B2

Abstract

一種聲音辨識模型訓練方法，包含判斷事件音與第一參數的關係，且響應於該關係，決定第二參數，藉由第一參數與第二參數，取樣事件音以產生多個訓練音檔，以及輸入所述多個訓練音檔的至少一部分訓練聲音辨識模型，其中每一訓練音檔的長度關聯於第一參數，每二訓練音檔之間的時間差關聯於第二參數，且聲音辨識模型用以判斷聲音類型。

Description

聲音辨識模型訓練方法及系統與電腦可讀取媒體

本發明係關於一種辨識模型訓練方法，特別係關於一種聲音辨識模型訓練方法。

在生活環境或工作環境中有許多不同類型的聲音，而不同的聲音可以代表不同事件的發生，因此透過聲音辨識技術可以協助判斷生活環境或工作環境的狀況，例如判斷異常事件的發生。於2017年的聲音場景和事件檢測與分類比賽（Detection and Classification of Acoustic Scenes and Events，DCASE）中，第一名者所提出之訓練音檔的取得及處理方法係將一段事件音分解為細部特徵並增加時間關聯性。然而其屬於大型深度學型模型，所使用之架構規格較高，花費也因此較高。

另外，習知針對事件音長於取樣長度的訓練音檔取樣方法，係以固定長度的取樣位移進行取樣，因此對越長的事件音進行取樣便會取得越多的訓練音檔，造成訓練音檔的重複性過高，導致訓練出之模型的辨識能力集中在特定聲音；而習知針對事件音短於取樣長度的訓練音檔取樣方法，則係以複製事件音來補足取樣長度的方式進行，如此一來所取得的訓練音檔會包含多個相同且連續的事件音，反而改變了原有的特徵分布，可能導致後續辨識準確率降低。

鑒於上述，本發明提供一種聲音辨識模型訓練方法及系統。

依據本發明一實施例的聲音辨識模型訓練方法，包含判斷事件音與第一參數的關係，且響應於該關係，決定第二參數，藉由第一參數與第二參數，取樣事件音以產生多個訓練音檔，以及輸入所述多個訓練音檔的至少一部分訓練聲音辨識模型，其中每一訓練音檔的長度關聯於第一參數，每二訓練音檔之間的時間差關聯於第二參數，且聲音辨識模型用以判斷聲音類型。

依據本發明一實施例的聲音辨識模型訓練系統，包含音訊擷取裝置、處理裝置及儲存裝置，其中處理裝置連接於音訊擷取裝置及儲存裝置。音訊擷取裝置用於取得事件音。處理裝置連接於音訊擷取裝置，用於執行：判斷事件音與第一參數的關係，且響應於該關係，決定第二參數，藉由第一參數與第二參數，取樣事件音以產生多個訓練音檔，以及輸入所述多個訓練音檔的至少一部分訓練聲音辨識模型，其中每一訓練音檔的長度關聯於第一參數，每二訓練音檔之間的時間差關聯於第二參數，且聲音辨識模型用以判斷聲音類型。儲存裝置則用於儲存聲音辨識模型。

依據本發明一實施例的電腦可讀取媒體，包含程式碼，所述程式碼用於藉由處理器運行以執行：依據聲音辨識模型，判斷聲音類型，其中所述聲音辨識模型以前列實施例所述之聲音辨識模型訓練方法進行訓練。

藉由上述結構，本案所揭示的聲音辨識模型訓練方法及系統，可以建立小型深度學習模型來作為聲音辨識模型。相較於大型深度學習模型，小型深度學習模型訓練複雜度較低，且初期研發成本亦較低。藉由特殊的訓練音檔前處理流程，本案所揭示的聲音辨識模型訓練方法及系統所建立之聲音辨識模型以及電腦可讀取媒體可以具有良好的訓練音檔品質，避免事件音的長度影響訓練結果，進而具有良好的辨識成效。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

本發明提供一種聲音辨識模型訓練系統及方法，用於建立關聯於特殊類型之事件音的聲音辨識模型。所述特殊類型之事件音例如為嬰兒哭聲、狗叫聲、尖叫聲、說話聲、喇叭聲、警報聲、槍聲、玻璃破碎聲等。請參考圖1，圖1係依據本發明一實施例所繪示的聲音辨識模型訓練系統的功能方塊圖。如圖1所示，聲音辨識模型訓練系統1包含音訊擷取裝置11、處理裝置13及儲存裝置15，其中該處理裝置13透過有線或無線的方式連接於音訊擷取裝置11及儲存裝置15。

音訊擷取裝置11用於取得一原始音檔。舉例來說，音訊擷取裝置11包含有線傳輸連接埠如USB、micro USB等，或無線傳輸連接埠如藍芽收發器、WIFI收發器等，可以自其他裝置接收原始音檔。舉另個例子來說，音訊擷取裝置11包含收音器例如麥克風，可以對外界收音以產生原始音檔。於一實施例中，音訊擷取裝置11將原始音檔傳送給處理裝置13以作為事件音。於另一實施例中，音訊擷取裝置11除了音訊輸入元件（如上述之傳輸連接埠或收音器），更包含處理器例如中央處理器、微控制器、可編程邏輯控制器等，可以處理原始音檔以產生事件音。

處理裝置13可以係處理器或包含處理器之電子裝置，所述處理器例如中央處理器、微控制器、可編程邏輯控制器等。處理裝置13可以從音訊擷取裝置11取得事件音，對事件音進行前處理以產生多個訓練音檔，再輸入所述多個訓練音檔的至少一部分來訓練聲音辨識模型。其中，所述前處理之流程將於後描述。於一實施例中，處理裝置13可以包含多個處理器分別執行事件音的前處理以及訓練音檔的訓練。

儲存裝置15可以包含一或多個非揮發性記憶體，例如快閃記憶體（Flash memory）、唯讀記憶體（Read-only memory，ROM）、磁性記憶體（Magnetoresistive random access memory，MRAM）等。儲存裝置15可以儲存由處理裝置13所建立的聲音辨識模型。於一實施例中，儲存裝置15與處理裝置13可以設置於同一台主機內。於另一實施例中，儲存裝置15可以設置於雲端伺服器，處理裝置13可以透過無線網路將聲音辨識模型上傳至儲存裝置15。進一步來說，雲端伺服器可以提供使用聲音辨識模型的聲音辨識服務。雲端伺服器可以接收待辨識之聲音輸入，使用聲音辨識模型進行辨識，並將辨識結果以通知或警告的方式，推播至有從雲端伺服器下載對應應用程式之用戶裝置（例如手機）。

請一併參考圖1及圖2，其中圖2係依據本發明一實施例所繪示的聲音辨識模型訓練方法的流程圖。如圖2所示，聲音辨識模型訓練方法可以包含步驟S11：判斷事件音與第一參數的關係，且響應於該關係，決定第二參數； S12：藉由第一參數與第二參數，取樣事件音，以產生多個訓練音檔，其中每一訓練音檔的長度關聯於第一參數，且每二訓練音檔之間的時間差關聯於第二參數；以及S13：輸入所述多個訓練音檔的至少一部分訓練聲音辨識模型，該聲音辨識模型用以判斷聲音類型。圖2所示的聲音辨識模型訓練方法可適用於圖1所示的聲音辨識模型訓練系統1。進一步來說，聲音辨識模型訓練系統1可以藉由音訊擷取裝置11取得事件音，藉由處理裝置13執行步驟S11～S13以從事件音取得用於訓練聲音辨識模型的訓練音檔，並藉由儲存裝置15儲存聲音辨識模型。然而，圖2所示的聲音辨識模型訓練方法並不限於由圖1所示之系統架構來執行。

請一併參考圖1、圖2及圖3，其中圖3係依據本發明另一實施例所繪示的聲音辨識模型訓練方法的流程圖。如圖3所示，聲音辨識模型訓練方法可以包含步驟S21：取得原始音檔；步驟S22：比較原始音檔中的事件音的時間長度與預設取樣長度；步驟S23：當時間長度大於預設取樣長度時，依據時間長度、預設取樣長度及取樣數上限取得預估取樣位移；步驟S24：判斷預估取樣位移是否大於或等於位移閾值；當判斷結果為是，執行步驟S25：依據預設取樣長度及預估取樣位移對事件音進行取樣以產生多個訓練音檔；當判斷結果為否，執行步驟S26：依據預設取樣長度及位移閾值對事件音進行取樣以產生多個訓練音檔；步驟S27：將所述多個訓練音檔的至少一部分存入訓練音檔集；以及步驟S28：依據訓練音檔集訓練聲音辨識模型。

特別來說，圖3所示的聲音辨識模型訓練方法之步驟可以為圖2所示之聲音辨識模型訓練方法之步驟的細部實施方式。進一步來說，圖2的步驟S11中事件音與第一參數的關係之判斷可以圖3的步驟S22來實施，其中預設取樣長度作為第一參數；圖2的步驟S11中響應於事件音與第一參數的關係所做之第二參數的決定則可以包含圖3的步驟S23、步驟S24以及當預估參數（預估取樣位移）大於或等於位移閾值時，預估參數會被作為第二參數，另外，當預估參數小於位移閾值時，圖2的步驟S12更包含將位移閾值作為第二參數；圖2的步驟S12可以圖3的步驟S25或步驟S26來實施；圖2的步驟S13則可以圖4的步驟S27及步驟S28來實施，其中訓練音檔集為選擇性的設置，亦即可以直接以訓練音檔的一部分或全部來訓練聲音辨識模型。

圖3所示的聲音辨識模型訓練方法可適用於圖1所示的聲音辨識模型訓練系統1，以下描述聲音辨識模型訓練系統1執行聲音辨識模型訓練方法的多個實施態樣，然而本發明所提之聲音辨識模型訓練方法並不限於由圖1所示之系統架構來實行。

於步驟S21中，音訊擷取裝置11取得原始音檔。如前所述，音訊擷取裝置11可以自其他裝置接收原始音檔，或對外界收音以產生原始音檔。S22音訊擷取裝置11的處理器可以從原始音檔中擷取出事件音，再傳送給處理裝置13以執行後續判斷。

進一步來說，來自其他裝置的原始音檔中可以具有先前以其他裝置分析後標註或由使用者自行標記的事件音之起點標籤及終點標籤，音訊擷取裝置11便可依據起點標籤及終點標籤擷取出事件音；或者，音訊擷取裝置11的內部記憶體可以儲存有多種類型的事件音模板（例如多種類型的事件音分別對應的聲音波形，所述類型例如為嬰兒哭聲、狗叫聲、尖叫聲、說話聲、警報聲、喇叭聲、槍聲、玻璃破碎聲等），音訊擷取裝置11的處理器可以判斷原始音檔中符合某事件音模板的聲音片段為事件音；或者，音訊擷取裝置11可將整個原始音檔視為一事件音並傳送給處理裝置13以執行後續判斷。

於步驟S22中，處理裝置13判斷從音訊擷取裝置11接收的事件音的時間長度，並將事件音的時間長度與預設取樣長度進行比較。特別來說，基於後續訓練音檔在進行訓練時會以傅立葉轉換為頻域，預設取樣長度以設定為2的冪次方為佳。另外，預設取樣長度可以因事件音屬於長音或短音而設定為不同長度，其中，長音可以包含類型：嬰兒哭聲、狗叫聲、尖叫聲、說話聲等，短音可以包含類型：警報聲、喇叭聲、槍聲、玻璃破碎聲等。進一步來說，當事件音屬於長音時，預設取樣長度設定為具有第一數值，而當事件音屬於短音時，預設取樣長度設定為具有第二數值，其中第一數值大於第二數值。舉例來說，當事件音屬於長音時，預設取樣長度設定為4，而當事件音屬於短音時，預設取樣長度設定為1。預設取樣長度可以由使用者透過聲音辨識模型訓練系統1的使用者介面來設定，或者聲音辨識模型訓練系統1的處理裝置13可以判斷事件音屬於長音或短音再據以設定預設取樣長度。

進一步來說明處理裝置13判斷事件因屬於長音或短音的方式。於一實施例中，處理裝置13可以依據事件音的時間長度判斷事件音屬於長音或短音，舉例來說，當事件音的時間長度為2秒（含）以下時，處理裝置13判斷其屬於短音，反之則屬於長音。於另一實施例中，原始音檔中除了有先前標記之事件音的起始標籤及終點標籤之外，更有事件音屬於長音或短音之標籤，處理裝置13可以依據此標籤設定預設取樣長度。於又一實施例中，處理裝置13的內部記憶體存有各類型事件音屬於長音或短音的查找表，且原始檔中除了有先前標記之事件音的起始標籤及終點標籤之外，更有事件音所屬類型的標籤，處理裝置13可以依據此標籤及上述查找表，判斷事件音所屬類型為長音或短音再據以設定預設取樣長度。於再一實施例中，處理裝置13的內部記憶體存有多種類型的事件音模板（例如同於音訊擷取裝置11中所存的事件音模板）及各類型事件音屬於長音或短音的查找表，處理裝置13可以依據事件音模板判斷原始音檔中的事件音所屬類型，依據查找表判斷事件音所屬類型為長音或短音再據以設定預設取樣長度。

於步驟S23中，當事件音的時間長度大於預設取樣長度時，處理裝置13依據時間長度、預設取樣長度及一取樣數上限取得預估取樣位移。其中，取樣數上限可以依據當前訓練音檔集中的訓練音檔數量來調整。舉例來說，當訓練音檔數量充足（例如由大於1000筆的原始音檔經適當切割後擴增為3000筆以上的訓練音檔）時，取樣數上限設定為3，而當訓練音檔數量不足時，則取樣數上限設定為5。進一步來說，處理裝置13所執行之預估取樣位移之取得可以包含執行以下計算式：

，其中

表示預估取樣位移，

表示事件音的時間長度，該

表示預設取樣長度，且該

表示取樣數上限。

於此實施例中，當事件音的時間長度小於或等於預設取樣長度時，處理裝置13可以依據背景音填補事件音的時間長度與預設取樣長度之間的差值以產生訓練音檔，並存入訓練音檔集。進一步來說，當事件音的時間長度等於預設取樣長度時，事件音的時間長度與預設取樣長度之間的差值為零，處理裝置13直接將事件音作為訓練音檔；當事件音的時間長度小於預設取樣長度時，處理裝置13可以於事件音的片段之前或之後或二者加上背景音的片段，以補足預設取樣長度，並將組合後的聲音片段作為訓練音檔，而所述背景音例如係來自原始音檔中事件音之前後的聲音片段。藉由上述依據事件音及背景音產生訓練音檔的方式，可以避免習知以複製事件音來補足長度而改變事件音原有之特徵分布的問題。

於步驟S24中，處理裝置13判斷預估取樣位移是否大於或等於一位移閾值。其中，此位移閾值關聯於預設取樣長度，特別係預設取樣長度的四分之一，然本發明不以此為限。當判斷結果為是時，處理裝置13便執行步驟S25，依據預設取樣長度及預估取樣位移對事件音進行取樣以產生多個訓練音檔。進一步來說，請參考圖4，圖4係依據本發明一實施例所繪示的事件音的取樣示意圖。如圖4所示，處理裝置13會對於具有時間長度E _L之事件音，以預設取樣長度W _L作為每次取樣的時間長度，且以預估取樣位移S _L作為每兩次取樣之間的時間差，即以預設取樣長度W _L作為訓練音檔的時間長度，且以預估取樣位移S _L作為每兩個訓練音檔之間的時間差。詳細來說，所述兩取樣/訓練音檔之間的時間差可以係指第一個取樣/訓練音檔的起始時間點與第二個取樣/訓練音檔的起始時間點之間的時間間隔，其中起始時間點可以替換為結束時間點或起始時間點與結束時間點之間的任一時間點，本發明不予限制。

請再參考圖1及圖3，當步驟S24的判斷結果為否時，處理裝置13便執行步驟S26，依據預設取樣長度及位移閾值對事件音進行取樣以產生多個訓練音檔。進一步來說，處理裝置13在判斷預估取樣位移小於位移閾值時，會以預設取樣長度作為每次取樣（訓練音檔）的時間長度，且以位移閾值取代預估取樣位移來作為兩次取樣（訓練音檔）之間的時間差。藉此，可以避免因兩次取樣之間的時間間隔過短，而訓練音檔的重疊率過高，導致所建之辨識模型過於集中在特定聲音特徵的問題。

於步驟S27中，處理裝置13將步驟S25或步驟S26產生的多個訓練音檔的至少一部分存入訓練音檔集。處理裝置13可以將所有產生的訓練音檔皆存入訓練音檔集，或者，處理裝置13可以更執行音量過濾的步驟以篩選可存入訓練音檔集的訓練音檔。進一步來說，處理裝置13可以針對每個訓練音檔執行以下步驟：將訓練音檔以一預設單位分割為多個分割結果；分別判斷所述多個分割結果各自的音量是否大於或等於一預設音量；以及當所述多個分割結果的音量中有一半以上大於或等於預設音量時，將訓練音檔存入訓練音檔集，而當所述多個分割結果的音量中有一半以上小於預設音量時，則捨棄訓練音檔。其中，預設單位例如為64 ms，預設音量則例如為-30 dBFS，即相當於白噪音的音量。由於蒐集之訓練音檔的品質可能參差不齊，部份音檔品質不佳而導致訊號強度不足且音量過小，進而影響模型學習。藉由上述音量過濾的步驟，便可以避免此問題。另外，處理裝置13亦可以在取得事件音時對事件音執行上述音量過濾步驟，以在執行取樣前便將音量過小的事件音捨棄。

於步驟S28中，處理裝置13依據訓練音檔集訓練聲音辨識模型。進一步來說，處理裝置13可以將訓練音檔以深度學習的方式產生深度學習模型，以作為聲音辨識模型。舉例來說，深度學習模型選用的框架為Keras，架構為MobileNetV2，並配合OpenVINO加速。MobileNetV2為輕量型的神經網路，相較於其他神經網路諸如VGG、ResNet等，其參數較少，運算速度較快，且具有良好的準確率。圖3示例性地呈現聲音辨識模型訓練方法包含步驟S21～S28。於另一實施例中，在執行步驟S28以訓練聲音辨識模型之前，聲音辨識模型訓練系統1可以執行多次步驟S21～S27。特別來說，上述所提之方法所建立之聲音辨識模型屬於小型深度學習模型，步驟S21～S27所產生的多個訓練音檔彼此間沒有時間的關聯，因此相較於以特徵及時間關聯性共同作為訓練參數的大型深度學習模型之訓練方法，具有較低的訓練複雜度。藉由本案所提之聲音辨識模型訓練方法並基於微服務（Microservice）的概念，可以以多個分別對應於不同類型之事件音的小型深度學習模型取代一個大型深度學習模型。

特別來說，原始音檔可以包含一或多個事件音，當處理裝置13判斷原始音檔具有多個事件音時，可以對各事件音進行與預設取樣長度的比較以及步驟S23～S27，以將各事件音處理為多個訓練音檔並存入訓練音檔集，再執行步驟S28以產生聲音辨識模型。原始音檔所包含的多個事件音可能屬於不同類型，處理裝置13可以依據前述之多種類型的事件音模板判斷各事件音的類型，並將不同類型的事件音所對應的訓練音檔存入不同的訓練音檔集。或者，原始音檔中除了有先前標記之事件音的起始標籤及終點標籤之外，更有類型標籤以供處理裝置13辨識。

本發明亦提出另一種聲音辨識模型訓練方法，請參考圖1、圖3及圖5，其中圖5係依據本發明又一實施例所繪示的聲音辨識模型訓練方法的流程圖。圖5所示之聲音辨識模型訓練方法的步驟大致相仿於圖3所示之聲音辨識模型訓練方法的步驟，亦可為圖2所示之聲音辨識模型訓練方法的細部實施方式。且亦可適用於圖1所示的聲音辨識模型訓練系統1，差異在於圖5所示的聲音辨識模型訓練方法係藉由判斷事件音的時間長度與預設取樣長度之間的比例關係來比較事件音的時間長度與預設取樣長度，如步驟S32所示，且對於多種比例範圍有不同的處理方式。

當處理裝置13判斷事件音的時間長度為預設取樣長度的100%以上時，表示事件音的時間長度大於預設取樣長度，此時處理裝置13便會執行步驟S33～S38，同於圖3所示之步驟S23及後續步驟S24～S28，以訓練聲音辨識模型，詳細的實施方式皆如前列實施例所述，於此不再贅述。當處理裝置13判斷事件音的時間長度為預設取樣長度的X%～100%之間（即事件音的時間長度小於或等於預設取樣長度且大於或等於預設取樣長度的X%，其中X%為一預設比例，小於100%）時，如步驟S33’所示，處理裝置13可以依據背景音填補事件音的時間長度與預設取樣長度之間的差值以產生訓練音檔，並存入訓練音檔集。進一步來說，當事件音的時間長度等於預設取樣長度時，事件音的時間長度與預設取樣長度之間的差值為零，處理裝置13則直接將事件音作為訓練音檔；當事件音的時間長度小於預設取樣長度且大於或等於預設取樣長度的X%時，處理裝置13可以於事件音的片段之前或之後或二者加上背景音的片段，以補足預設取樣長度，並將組合後的聲音片段作為訓練音檔，而所述背景音例如係來自原始音檔中事件音之前後的聲音片段。藉由上述依據事件音及背景音產生訓練音檔的方式，可以避免習知以複製事件音來補足長度而改變事件音原有特徵分布的問題。

接著，處理裝置13可以如圖3所示的步驟S28地執行步驟S38以訓練聲音辨識模型。或者，在執行步驟S38之前，處理裝置13可以多次驅使音訊擷取裝置11執行步驟S31以從另個原始音檔或從原始音檔取得另一事件音，以進行步驟S32的判斷。而當處理裝置13判斷事件音的時間長度小於預設取樣長度的X%時，如步驟S33”所示，處理裝置13會放棄此筆事件音，而執行步驟S31以向音訊擷取裝置11要求或接收另一事件音，以再次執行步驟 S32及後續步驟。特別來說，預設比例X%可以因事件音屬於長音或短音而設定為不同數值，其中，長音可以包含類型：嬰兒哭聲、狗叫聲、尖叫聲、說話聲等，短音可以包含類型：警報聲、喇叭聲、槍聲、玻璃破碎聲等。舉例來說，當事件音屬於長音時，預設比例設定為40%～60%，其中以50%為佳；而當事件音屬於短音時，預設比例設定為15%～35%，其中以25%為佳。由於屬於短音之事件音本身的時間長度就偏短，若採納與屬於長音之事件音相同的預設比例，則會導致許多短事件音被捨棄，因此透過上述預設比例的調整，可以避免過多短事件音被捨棄而蒐集訓練音檔之時間變長的問題。

預設比例可以由使用者透過聲音辨識模型訓練系統1的使用者介面來設定，或者聲音辨識模型訓練系統1的處理裝置13可以判斷事件音屬於長音或短音再據以設定預設比例。於一實施例中，處理裝置13可以依據事件音的時間長度判斷事件音屬於長音或短音，舉例來說，當事件音的時間長度為2秒（含）以下時，處理裝置13判斷其屬於短音，反之則屬於長音。於另一實施例中，原始音檔中除了有先前標記之事件音的起始標籤及終點標籤之外，更有事件音屬於長音或短音之標籤，處理裝置13可以依據此標籤設定預設比例。於又一實施例中，處理裝置13的內部記憶體存有各類型事件音屬於長音或短音的查找表，且原始檔中除了有先前標記之事件音的起始標籤及終點標籤之外，更有事件音所屬類型的標籤，處理裝置13可以依據此標籤及上述查找表，判斷事件音所屬類型為長音或短音再據以設定預設比例。於再一實施例中，處理裝置13的內部記憶體存有多種類型的事件音模板及各類型事件音屬於長音或短音的查找表，處理裝置13可以依據事件音模板判斷原始音檔中的事件音所屬類型，依據查找表判斷事件音所屬類型為長音或短音再據以設定預設比例。

上列實施例所述的聲音辨識模型訓練方法所訓練的聲音辨識模型可以程式碼的型態包含於非暫態之媒體，例如光碟片、隨身碟、記憶卡、雲端伺服器之硬碟等電腦可讀取的儲存媒體中。當電腦的處理器從此電腦可讀取媒體中載入程式碼並執行時，處理器可以依據聲音辨識模型，判斷聲音的類型。進一步來說，處理器可將待辨識的聲音輸入聲音辨識模型，以由聲音辨識模型辨識待辨識聲音的類型。

請參考表1及表2，其中表1呈現由本發明一實施例之聲音辨識模型訓練系統及方法所建立的長事件音之聲音辨識模型的辨識結果評量指標，表2則呈現由本發明一實施例之聲音辨識模型訓練系統及方法所建立的短事件音之聲音辨識模型的辨識結果評量指標。進一步來說，表1及表2所對應之聲音辨識模型係使用前列圖5之實施例所述之聲音辨識模型訓練方法所建立，其中，表1對應之聲音辨識模型訓練方法係設定預設取樣長度為4秒，且設定預設比例為50%，表2對應之聲音辨識模型訓練方法則係設定預設取樣長度為1秒，且設定預設比例為25%。表1及表2分別包含多個評量指標，其中，精準率表示在判斷為陽性的情況下，正確判斷陽性與陰性的比例；召回率表示在陽性的樣本下，有多少被正確的被判斷出來；f1分數則係前面兩者的調和平均數，作為兩者的綜合性指標。由表1及表2所示，可知由本案之聲音辨識模型訓練系統及方法所建立的短事件音及長事件音之聲音辨識模型皆具有良好的辨識成效。

表1

類型	精準率	召回率	f1分數	測試樣本數
嬰兒哭聲	0.81	0.84	0.82	512
狗叫聲	0.88	0.89	0.88	663
尖叫聲	0.97	0.98	0.98	487
說話聲	0.79	0.81	0.8	1195
其他	0.79	0.66	0.69	878
平均/總和	0.848	0.836	0.834	3735

表2

類型	精準率	召回率	f1分數	測試樣本數
警報聲	0.74	0.67	0.7	268
喇叭聲	0.85	0.86	0.86	497
玻璃破碎聲	0.8	0.8	0.8	469
槍聲	0.86	0.9	0.88	564
平均/總和	0.8125	0.8075	0.81	1798

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

1:聲音辨識模型訓練系統 11:音訊擷取裝置 13:處理裝置 15:儲存裝置 E _L:時間長度 W _L:預設取樣長度 S _L:預估取樣位移 S11～S13:步驟 S21～S28:步驟 S31～S38:步驟

圖1係依據本發明一實施例所繪示的聲音辨識模型訓練系統的功能方塊圖。圖2係依據本發明一實施例所繪示的聲音辨識模型訓練方法的流程圖。圖3係依據本發明另一實施例所繪示的聲音辨識模型訓練方法的流程圖。圖4係依據本發明一實施例所繪示的事件音的取樣示意圖。圖5係依據本發明又一實施例所繪示的聲音辨識模型訓練方法的流程圖。

S11~S13:步驟

Claims

一種聲音辨識模型訓練方法，包含：判斷一事件音與一第一參數的關係，且響應於該關係，決定一第二參數；藉由該第一參數與該第二參數，取樣該事件音，以產生多個訓練音檔，其中每一該些訓練音檔的長度關聯於該第一參數，且每二該些訓練音檔之間的時間差關聯於該第二參數；以及輸入該些訓練音檔的至少一部分訓練一聲音辨識模型，該聲音辨識模型用以判斷聲音類型；其中判斷該事件音與該第一參數的該關係，且響應於該關係，決定該第二參數包含：比較該事件音的一時間長度與該第一參數；當該事件音的該時間長度大於該第一參數時，依據該事件音的該時間長度、該第一參數及一取樣數上限取得一預估參數；判斷該預估參數是否大於或等於一位移閾值；以及當該預估參數大於或等於該位移閾值時，以該預估參數作為該第二參數。
如請求項1所述的聲音辨識模型訓練方法，其中判斷該事件音與該第一參數的該關係，且響應於該關係，決定該第二參數更包含：當該預估參數小於該位移閾值時，以該位移閾值作為該第二參數。
如請求項1所述的聲音辨識模型訓練方法，其中該位移閾值係該第一參數的四分之一。
如請求項1所述的聲音辨識模型訓練方法，其中依據該事件音的該時間長度、該第一參數及該取樣數上限取得該預估參數包含執行一計算式以取得該預估參數，且該計算式為：
，其中S_L表示該預估參數，E_L表示該事件音的該時間長度，該W_L表示該第一參數，且該N表示該取樣數上限。
如請求項1所述的聲音辨識模型訓練方法，更包含：當該事件音屬於一長音時，設定該第一參數具有一第一數值；以及當該事件音的該時間長度小於該第一參數的一預設比例時，取得另一事件音；其中該第一數值係2的冪次方，且該預設比例介於40%~60%。
如請求項1所述的聲音辨識模型訓練方法，更包含：當該事件音屬於一短音時，設定該第一參數具有一第二數值；以及當該事件音的該時間長度小於該第一參數的一預設比例時，取得另一事件音；其中該第二數值係2的冪次方，且該預設比例介於15%~35%。
如請求項1所述的聲音辨識模型訓練方法，更包含：當該事件音的該時間長度介於該第一參數與該第一參數的一預設比例之間時，依據一背景音填補該事件音的該時間長度與該第一參數之間的差值以產生一訓練音檔，並輸入該訓練音檔訓練該聲音辨識模型。
如請求項1所述的聲音辨識模型訓練方法，其中輸入該些訓練音檔的該至少一部分訓練該聲音辨識模型包含針對每一該些訓練音檔執行：將該訓練音檔以一預設單位分割為多個分割結果；分別判斷該些分割結果的音量是否大於或等於一預設音量；以及當該些分割結果的該些音量中有一半以上大於或等於該預設音量時，輸入該訓練音檔訓練該聲音辨識模型。
一種聲音辨識模型訓練系統，包含：一音訊擷取裝置，用於取得一事件音；一處理裝置，連接於該音訊擷取裝置，用於執行：判斷該事件音與一第一參數的關係，且響應於該關係，決定一第二參數；藉由該第一參數與該第二參數，取樣該事件音，以產生多個訓練音檔，其中每一該些訓練音檔的長度關聯於該第一參數，且每二該些訓練音檔之間的時間差關聯於該第二參數；以及輸入該些訓練音檔的至少一部分訓練一聲音辨識模型，該聲音辨識模型用以判斷聲音類型；以及一儲存裝置，連接於該處理裝置，用於儲存該聲音辨識模型；其中該處理裝置所執行之判斷該事件音與該第一參數的該關係，且響應於該關係，決定該第二參數包含：比較該事件音的一時間長度與該第一參數；當該事件音的該時間長度大於該第一參數時，依據該事件音的該時間長度、該第一參數及一取樣數上限取得一預估參數；判斷該預估參數是否大於或等於一位移閾值；以及當該預估參數大於或等於該位移閾值時，以該預估參數作為該第二參數。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置所執行之判斷該事件音與該第一參數的該關係，且響應於該關係，決定該第二參數更包含當該預估參數小於該位移閾值時，以該位移閾值作為該第二參數。
如請求項9所述的聲音辨識模型訓練系統，其中該位移閾值係該預設取樣長度的四分之一。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置藉由執行一計算式以取得該預估參數，且該計算式為：
，其中S_L表示該預估參數，E_L表示該事件音的該時間長度，該W_L表示該第一參數，且該N表示該取樣數上限。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置更在該事件音屬於一長音時，設定該第一參數具有一第一數值，且在該事件音的該時間長度小於該第一參數的一預設比例時，取得另一事件音，其中該第一數值係2的冪次方，且該預設比例介於40%~60%。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置更在在該事件音屬於一短音時，設定該第一參數具有一第二數值，且在該事件音的該時間長度小於該第一參數的一預設比例時，取得另一事件音，其中該第二數值係2的冪次方，且該預設比例介於15%~35%。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置更在該事件音的該時間長度介於該預設取樣長度與該預設取樣長度的一預設比例之間時，依據一背景音填補該事件音的該時間長度與該預設取樣長度之間的差值以產生一訓練音檔，並輸入該訓練音檔訓練該聲音辨識模型。
如請求項9所述的聲音辨識模型訓練系統，其中該處理裝置所執行之輸入該些訓練音檔的該至少一部分訓練該聲音辨識模型包含針對每一該些訓練音檔執行：將該訓練音檔以一預設單位分割為多個分割結果；分別判斷該些分割結果的音量是否大於或等於一預設音量；以及當該些分割結果的該些音量中有一半以上大於或等於該預設音量時，輸入該訓練音檔訓練該聲音辨識模型。
一種電腦可讀取媒體，包含一程式碼，其中該程式碼用於藉由一處理器運行，以執行：依據一聲音辨識模型，判斷聲音類型；其中該聲音辨識模型以如請求項1所述的該聲音辨識模型訓練方法進行訓練。