TW202422544A

TW202422544A - 音訊事件分析、分類與偵測系統

Info

Publication number: TW202422544A
Application number: TW112142601A
Authority: TW
Inventors: 雅各加魯奇; 阿吉特貝爾薩卡; 伊爾察姆加齊
Original assignee: 德商羅伯特博世有限公司
Priority date: 2022-11-09
Filing date: 2023-11-06
Publication date: 2024-06-01
Also published as: WO2024099771A2; US20240153526A1; WO2024099771A3

Abstract

本發明提供用於音訊事件偵測之系統及方法。一個實例提供一種包含複數個音訊裝置之事件偵測系統。該複數個音訊裝置中之各者經配置以通訊耦接至一伺服器且包括一電子處理器。該電子處理器經配置以經由一麥克風偵測音訊且判定該音訊內之一音訊事件。該電子處理器經配置以：自一攝影機接收一影像；將影像資料與該音訊事件相關聯以產生事件元資料；以及將該事件元資料、該音訊及該影像傳輸至該伺服器。

Description

音訊事件分析、分類與偵測系統

具體實例、實例及態樣尤其係關於用於音訊事件偵測之系統及方法。

與本申請案相關聯之先前技術如下：美國專利公開案第20080243332號美國專利第7348895號美國專利公開案第20060125654號美國專利公開案第20020097885號美國專利第8319620號

本文中所描述之多模式音訊及視訊分析裝置尤其提供了事件之自動分析及偵測。舉例而言，音訊裝置接收周圍區域之音訊。音訊裝置分析音訊以偵測在周圍區域中發生之事件。區域之視訊與音訊事件相關聯，使得音訊及視訊分析裝置之操作員更完整地瞭解事件，包括視訊及聲音兩者。

在一些情況下，監控系統包括多個音訊及視訊分析裝置。因此，可提供母（parent）或集線器裝置以自監控系統內之裝置接收音訊事件及其相關聯視訊資料。母裝置可聚合音訊事件且將音訊事件分佈至伺服器。監控系統之操作員隨後可在伺服器處存取個別音訊事件及其各別視訊。

另外，在一些情況下，包括於監控系統中之攝影機可遠離所偵測音訊事件之位置。在此類情況中，偵測音訊事件之音訊裝置可控制攝影機來移動其，使得攝影機之視圖包括或導向音訊事件的位置，以幫助確保音訊事件已與視訊資料相關聯。監控系統可回應於所偵測音訊事件而執行額外動作，諸如初始化警報。

一個實例提供一種包含複數個音訊裝置之事件偵測系統。複數個音訊裝置中之各者經配置以通訊耦接至伺服器且包括電子處理器。電子處理器經配置以經由麥克風偵測音訊且判定音訊內之音訊事件。電子處理器經配置以：自攝影機接收影像；將影像資料與音訊事件相關聯以產生事件元資料；以及將事件元資料、音訊及影像傳輸至伺服器。

另一實例提供一種用於複數個音訊裝置中之事件偵測之方法。方法包括：經由包括於第一音訊裝置中之麥克風且利用電子處理器來偵測音訊；以及利用電子處理器判定音訊內之音訊事件。方法包括：利用電子處理器自攝影機接收影像；利用電子處理器將影像與音訊事件相關聯以產生事件元資料；以及利用電子處理器將事件元資料、音訊及影像傳輸至伺服器。

各種具體實例之其他態樣、特徵及益處將藉由考慮實施方式及隨附圖式而變得顯而易見。

在以下描述及隨附圖式中描述及說明一或多個實例。此等實例不限於本文提供之特定細節且可以各種方式修改。可存在未在本文中描述的其他實例。舉例而言，以一定方式「配置」之裝置或結構至少以彼方式配置，但亦可以未列舉的方式配置。

亦應注意，複數個基於硬體及軟體之裝置以及複數個不同結構組件可用於各種實施中。態樣、特徵及例子可包括硬體、軟體及電子組件或模組，其出於論述之目的可繪示及描述為如同大部分這些組件僅在硬體中實施。然而，一般熟習此項技術者基於此詳細描述之閱讀，將認識到在至少一種情況下，態樣可在可由一或多個處理器執行之軟體中實施（例如，儲存於非暫態電腦可讀取媒體上）。因此，複數個基於硬體及軟體之裝置以及複數個不同結構組件可用於實施各種態樣及實例。舉例而言，本說明書中描述之「控制單元」及「控制器」可包括一或多個電子處理器、包括非暫態電腦可讀取媒體之一或多個記憶體模組、一或多個輸入/輸出介面及連接組件的各種連接件（例如，系統匯流排）。應理解，儘管某些圖式繪示位於特定裝置內之硬體及軟體，但此等描繪僅出於說明之目的。除非上下文明確指示，否則所繪示組件可經組合或劃分成單獨軟體、韌體及/或硬體。舉例而言，邏輯及處理可分佈於多個電子處理器當中，而非位於單個電子處理器內且由單個電子處理器執行。不管組件如何組合或劃分，硬體及軟體組件可位於同一電腦或裝置上或可分佈於由一或多個網路或其他合適的通訊鏈路連接之不同電腦或裝置當中。

本文中所描述之實例可經實施為儲存可由一或多個電子處理器執行以執行所描述功能性之指令的非暫態電腦可讀取媒體。如在本申請案中所使用，「非暫態電腦可讀取媒體」包含所有電腦可讀取媒體，但不包括暫態傳播訊號。因此，非暫態電腦可讀取媒體可包括例如硬碟、CD-ROM、光學儲存裝置、磁性儲存裝置、唯讀記憶體（Read Only Memory；ROM）、隨機存取記憶體（Random Access Memory；RAM）、暫存器記憶體、處理器快取記憶體、其他記憶體及儲存裝置或其組合。

為了易於描述，本文中呈現之實例系統中之一些或所有以其組件部分中的各者之單個示例進行說明。一些實例可不描述或說明系統之所有組件。其他例子可包括所說明組件中之各者中的更多或更少，可組合一些組件，或可包括額外或替代組件。

另外，本文中所使用之措詞及術語係出於描述之目的且不應被視為限制性。舉例而言，本文中對「包括」、「含有」、「包含」、「具有」及其變體的使用意謂涵蓋在其之後所列舉的項目及其等效物以及額外項目。術語「連接」及「耦接」廣泛地使用且涵蓋直接及間接連接及耦接兩者。另外，「連接」及「耦接」不限於實體或機械連接或耦接，且可包括電連接或耦接，不論直接或間接。另外，電子通訊及通知可使用有線連接、無線連接或其組合來執行，且可直接地或經由一或多個中間裝置經由各種類型的網路、通訊通道及連接而傳輸。

冠詞「一（a）」及「一（an）」不應解釋為意謂「一個」或「僅一個」，除非其用法上下文明確地另有指示。相反，此等冠詞應解釋為意謂「至少一個」或「一或多個」。

舉例而言，第一及第二、頂部及底部以及類似術語的關係術語可在本文中用以僅區分一個實體或動作與另一實體或動作，而未必需要或意味著此類實體或動作之間的任何實際此類關係或順序。

在一些實例中，方法步驟以不同於所描述順序之順序進行。

圖1繪示用於對音訊事件進行分類之音訊事件偵測系統100。本文所揭示之實例係關於偵測、分類及分析包括於音訊事件偵測系統100中之音訊裝置的音訊事件。在所示實例中，音訊事件偵測系統100包括第一音訊裝置105A、第二音訊裝置105B、第三音訊裝置105C、通訊網路110、電腦120、資料庫125及攝影機130。在以下描述中，當解釋單個音訊裝置如何工作時，使用對音訊裝置105之參考。然而，音訊裝置105A至105C不必為相同的。應理解，本文中所描述之音訊裝置係指具有音訊偵測能力之裝置。舉例而言，音訊裝置可為具有積體麥克風之攝影機。在一些實例中，音訊事件偵測系統100包括比圖1中所示出之數目更多或更少的音訊裝置105及更多或更少的攝影機130。

音訊裝置105A至105C經由通訊網路110與電腦120通訊。通訊網路110可為有線的、無線的或其組合。通訊網路110之所有或部分可使用各種現存網路來實施，例如蜂巢式網路、長期演進（Long Term Evolution；LTE）網路、5G網路、網際網路、Bluetooth™網路、無線區域網路（例如，Wi-Fi）、公共交換電話網路及其他。通訊網路110亦可包括未來開發的網路。此外，在一些具體實例中，通訊網路110包括網路之組合。舉例而言，第一音訊裝置105A可經由LTE網路進行通訊，而第二音訊裝置105B可經由Wi-Fi進行通訊。

在一個實例中，電腦120為管理對網路中之集中資源或服務之存取的電腦或電腦程式。電腦120通訊連接至資料庫125。在一些實例中，資料庫125包括能夠儲存由攝影機130擷取之影像135及經由電腦120自音訊裝置105A至105C接收到的音訊140的記憶體（例如，非暫態機器可讀取媒體）。在一些實例中，電腦120包括能夠接收複數個使用者輸入之顯示器及使用者介面。

圖2為圖1之實例音訊裝置105之方塊圖。音訊裝置105尤其包括麥克風205、第一電子處理器215、第一記憶體220、第一通訊介面225，及視情況包括裝置攝影機210。在一些情況下，音訊裝置105亦包括複數個電氣及電子組件，其將功率、可操作控制及保護提供至音訊裝置105內之組件及模組。第一電子處理器215、第一記憶體220、麥克風205、第一通訊介面225及裝置攝影機210以及其他各種模組由一或多個控制或資料匯流排連接。

第一電子處理器215獲得且提供資訊（例如，來自第一記憶體220及第一通訊介面225），且藉由執行能夠儲存於例如第一記憶體220中之一或多個軟體指令或模組來處理資訊。軟體可包括韌體、一或多個應用程式、程式資料、濾波器、規則、一或多個程式模組及其他可執行指令。特定而言，第一電子處理器215執行儲存於第一記憶體220中之指令以執行本文所描述之方法。第一記憶體220可包括一或多個非暫態電腦可讀取媒體且包括程式儲存區域及資料儲存區域。程式儲存區域及資料儲存區域可包括不同類型的記憶體之組合，例如唯讀記憶體（「read-only memory；ROM」）、隨機存取記憶體（「random access memory；RAM」）、電子可抹除可程式化唯讀記憶體（「electrically erasable programmable read-only memory；EEPROM」）、快閃記憶體或其他合適之數位記憶體裝置。

當裝置攝影機210包括於音訊裝置105中時，其擷取音訊裝置105之視角之影像及/或視訊（例如，位置的視圖）。在一些情況下，音訊裝置105不包括內部裝置攝影機210，但可替代地經由通訊網路110自攝影機130接收影像及/或視訊。麥克風205擷取表示經擷取位置之音訊。在一些情況下，麥克風205為微機電系統（「micro electro-mechanical system；MEMS」）感測器。在一些實例中，音訊裝置105包括組合形成麥克風205之多個MEMS感測器。雖然在圖2中示出為在音訊裝置105內部，但在一些實施中，麥克風205在音訊裝置105外部但與其通訊連接。第一電子處理器215與麥克風205、第一記憶體220、第一通訊介面225及裝置攝影機210通訊連接。

在一些實例中，第一記憶體220儲存音訊分析軟體230及視訊分析軟體235。音訊分析軟體230由第一電子處理器215實施以分析音訊（例如，由麥克風205或與音訊裝置105A至105C分離之外部裝置擷取之音訊），尤其判定音訊內的聲音之類型。因此，音訊分析軟體230自麥克風205接收包括音訊之資料且輸出與經分析音訊相關之音訊資訊。舉例而言，基於接收到的音訊，音訊分析軟體230可判定音訊內存在的槍聲、玻璃破裂、闖入或其他雜訊。第一電子處理器215可基於經判定聲音類型（例如，聲音事件）來判定事件發生。因此，本文中所描述之與音訊事件有關之實例係指在音訊內識別的所關注的特定聲音。

在一個實例中，視訊分析軟體235由第一電子處理器215執行以分析影像（例如，由攝影機130或裝置攝影機210擷取且儲存於資料庫125中之影像135及/或視訊），尤其識別及判定影像內之特徵（諸如，所關注對象）。結合音訊分析軟體230，視訊分析軟體235可擷取與事件發生相關聯之影像且與第一電子處理器215通訊以將影像與事件發生之音訊相關聯。特定言之，在一些情況下，產生將影像與所偵測事件之音訊相關聯的元資料。當音訊分析軟體230基於接收到的音訊（諸如，偵測玻璃破裂之聲音）判定事件發生時，音訊分析軟體230將事件發生及事件類型之指示（例如，音訊分析軟體230的輸出）傳輸至第一電子處理器215。第一電子處理器215可將玻璃破裂事件與玻璃破裂之對應視訊相關聯。因此，操作員可存取事件及其對應視訊及音訊。

在一些實施中，音訊分析軟體230及視訊分析軟體235為預先訓練以識別所提供資料內之特定特徵的機器學習模型。實例機器學習技術包括回歸學習、分類學習、集群分析、密度估計、支援向量機、人工神經網路、決策樹學習及類似者。

圖3為圖1之實例電腦120之方塊圖。電腦120尤其包括第二電子處理器305（諸如，可程式化電子微處理器、微控制器或類似裝置）、第二記憶體310（例如，非暫態機器可讀取媒體）、第二通訊介面315及使用者介面320。在一些情況下，電腦120亦包括複數個電氣及電子組件，其將功率、可操作控制及保護提供至電腦120內之組件及模組。第二電子處理器305、第二記憶體310、第二通訊介面315及使用者介面320以及其他各種模組由一或多個控制或資料匯流排連接。應理解，第二電子處理器305、第二記憶體310及第二通訊介面315包括與上文分別關於第一電子處理器215、第一記憶體220及第一通訊介面225描述之組件類似的組件，且執行類似功能，但不必一致。第二電子處理器305自使用者介面320接收使用者輸入，且可用於接收與由音訊裝置105A至105C及攝影機130擷取之音訊及視訊相關的輸入。

雖然音訊分析軟體230及視訊分析軟體235關於音訊裝置105而描述，但在一些情況下，音訊分析軟體230及/或視訊分析軟體235替代地位於電腦120內。舉例而言，音訊裝置105可將所擷取音訊及視訊傳輸至電腦120。隨後電腦120使用所擷取視訊來實施視訊分析軟體235，且使用所擷取音訊來實施音訊分析軟體230。亦應理解，電腦120之功能可在多個裝置上方擴展且不必在電腦120內單獨執行。

圖4為包括機器學習模型之音訊事件偵測系統100的實例方塊圖。音訊事件偵測系統100包括形成麥克風205之複數個MEMS感測器。圖4中所示出之音訊編解碼器415及警報引擎420可為由第一電子處理器215實施之軟體，但出於清楚起見而單獨地繪示。

麥克風205經定位以偵測音訊裝置105周圍之音訊。特定言之，在圖4之實例中，麥克風205包括複數個MEMS感測器以偵測音訊裝置105周圍之聲音。在一個情況下，各MEMS感測器經配置以偵測來自音訊裝置105之特定方向或方向範圍的聲音。舉例而言，第一MEMS感測器與第一方向（例如，0度至120度）相關聯，第二MEMS感測器與第二方向（例如，120度至240度）相關聯，且第三MEMS感測器與第三方向（例如，240度至360度）相關聯。然而，麥克風205可由更多或更少MEMS感測器構成。

在圖4所示出之實例中，音訊編解碼器415處理自麥克風205提供之音訊。舉例而言，音訊編解碼器415可執行雜訊降低、應用頻率濾波、執行回音消除、壓縮音訊以及執行擴展及位準限制操作。音訊編解碼器415尤其判定音訊之方向、音訊之量值（以分貝為單位）及與音訊相關聯的其他元資料，且向第一電子處理器215提供音訊之方向、音訊之量值及其他音訊元資料（及在一些情況下，提供音訊本身）。在一些情況下，處理音訊訊號包括音訊編解碼器415選擇濾波器且將濾波器應用於接收到的聲音。另外，在一些實施中，音訊編解碼器415設定麥克風205之增益值，以確保來自麥克風205之音訊為可觀測的。因此，音訊編解碼器415可調節接收到的音訊以供第一電子處理器215處理。在一些情況下，第一電子處理器215向音訊編解碼器415提供MEM感測器中之各者之間的距離，以幫助對音訊進行三角測量。另外，第一電子處理器215可經由音訊編解碼器415設定音訊之取樣率。

音訊可以所配置取樣率及脈波編碼調變（pulse-code modulation；PCM）資料之形式經由I2S匯流排自音訊編解碼器415傳輸至第一電子處理器215。第一電子處理器215分析接收到的音訊以判定音訊之類型或音訊事件（例如，判定音訊內的特徵）。特定言之，第一電子處理器215向經訓練的機器學習模型405（例如，音訊分析軟體230）提供音訊。在一些情況下，第一電子處理器215向機器學習模型405提供來自麥克風205之原始音訊及來自音訊編解碼器415之經處理音訊兩者。機器學習模型405判定音訊內是否存在特徵及特徵之置信度。機器學習模型405之特定特徵（例如，音訊類型、音訊事件）及置信程度提供至第一電子處理器215。

在一些實例中，機器學習模型405將事件元資料、與音訊事件相關聯之音訊及影像（或視訊）傳輸至電腦120。電腦120將事件元資料、與音訊事件相關聯之音訊及影像儲存於記憶體內。可自電腦120擷取事件元資料、與音訊事件相關聯之音訊及影像資料以供使用者經由電腦120進一步分析。

在一些實施中，第一電子處理器215藉由產生事件元資料將音訊事件與接收到的影像及/或視訊相關聯。舉例而言，第一電子處理器215自機器學習模型405接收音訊事件，自麥克風205接收音訊，且自攝影機130接收視訊。第一電子處理器215產生將音訊、音訊類型及視訊相關聯之元資料，因此指示音訊、音訊類型及視訊資料為相關的。在一些情況下，第一電子處理器215產生包括音訊、音訊類型、視訊及事件發生之時間的表。音訊、音訊類型、視訊及元資料提供至電腦120以儲存於第二記憶體310中。

在一些情況下，第一電子處理器215調節或以其他方式處理來自音訊編解碼器415之音訊。舉例而言，第一電子處理器215設定麥克風205之增益值、對音訊應用濾波器、調整麥克風205之靈敏度及類似者。作為一個實例，第一電子處理器215基於所偵測聲音及所偵測聲音之方向來選擇濾波器且應用濾波器。在另一實例中，第一電子處理器215基於麥克風205之環境來調整麥克風205之靈敏度。在一些實例中，當麥克風205位於雜訊環境（亦即，具有連續高分貝位準之環境）中時，第一電子處理器215自動減小麥克風205之增益。在其他實例中，當麥克風205位於安靜環境（亦即，具有連續低分貝位準之環境）中時，第一電子處理器215自動減小麥克風205之增益值。另外，第一電子處理器215可選擇麥克風205之聲學過載點（「acoustic overload point；AOP」）以避免音訊之削波。

在一些實例中，第一電子處理器215對來自麥克風205之音訊執行聲學操作，諸如波束形成及雜訊消除。舉例而言，在一些情況下，聲音可由麥克風205中之各MEMS感測器偵測到。因此，由於各MEMS感測器位於不同位置，因此聲音將在不同時間且自相對於各別MEMS感測器之不同位置到達各MEMS感測器。在一些情況下，第一電子處理器215使用各MEMS感測器之音訊之三角測量來判定音訊事件相對於麥克風205的位置。另外，在一些情況下，第一電子處理器215將音訊事件之位置與攝影機130之視野內的位置相關聯。第一電子處理器215可將命令傳輸至攝影機130以在音訊事件之位置之方向上引導攝影機130（亦即，若攝影機130為平移/傾斜/變焦（「pan/tilt/zoom；PTZ」）攝影機）。

在一些實例中，第一電子處理器215在向電腦120之操作員提供音訊之前取消或抑制與音訊事件相關聯之音訊。舉例而言，第一電子處理器215可藉由實施音訊分析軟體230來判定音訊內是否存在語音。可藉由分析音訊是否包括字語及片語來評估語音之存在。聲音頻率及音調（vocal pitch）亦可為分析中之因素。當存在語音時，第一電子處理器215使與語音相關聯之頻率失真或向語音添加雜訊以抑制該語音。在一些實施中，第一電子處理器215偵測音訊內之語音、將語音反轉180度及將所反轉語音添加至原始音訊以減少或移除音訊內的語音。

警報引擎420基於音訊類型產生命令。舉例而言，回應於音訊事件，警報引擎命令輸出裝置410（例如，與第一電子處理器215通訊連接之揚聲器）提供警報。在其他實例中，第一電子處理器215尤其可經由顯示器提供警告，在音訊事件之方向上經由麥克風205記錄音訊及經由攝影機130記錄視訊，且激活PTZ攝影機以用於自動運動追蹤。第一電子處理器215可基於自電腦120接收到之使用者輸入來設定各種命令。舉例而言，當音訊類型為槍聲時，第一電子處理器215可觸發警報，通知該位置附近之居民撤離場所。

另外，可調整警報引擎420之靈敏度以避免誤報。舉例而言，警報引擎420可回應於機器學習模型405之置信程度超出臨限值而產生命令。在一些實施中，第一電子處理器215藉由觀測來自攝影機130之影像資料來驗證所產生命令。舉例而言，當偵測到音訊事件時，第一電子處理器215傳輸命令以在音訊事件之方向上引導攝影機130。一旦面向音訊事件之位置，攝影機130便將視訊傳輸至第一電子處理器215。第一電子處理器215實施視訊分析軟體235以偵測視訊內之特徵。第一電子處理器215將視訊分析軟體235偵測到之特徵與音訊分析軟體230偵測到之音訊類型進行比較以驗證事件。在一些情況下，僅當驗證了事件時，命令才提供至輸出裝置410。

在一些實施中，音訊裝置105將音訊、視訊及元資料提供至中間母裝置，而非直接將音訊、視訊及所產生元資料提供至電腦120。圖5為實例事件偵測系統500之方塊圖。事件偵測系統500包括與音訊事件偵測系統100類似之組件，諸如音訊裝置105A至105D（亦即，子裝置1至4）及電腦120。音訊事件偵測系統500亦包括母裝置505。母裝置505通訊連接至音訊裝置105A至105D及電腦120。

母裝置505自音訊裝置105A至105D中之各者接收音訊、視訊及事件元資料。母裝置505聚合自音訊裝置105A至105D中之各者接收到之資料。舉例而言，母裝置505可壓縮音訊、視訊及事件元資料。在一些情況下，母裝置505自各音訊裝置105收集資料且將資料組合為單個封包以提供至電腦120。作為另一實例，母裝置505自各音訊裝置105接收包括與由各別音訊裝置105偵測到之事件相關聯之音訊、視訊及事件元資料的表。母裝置505將此等表組合成提供至電腦120之單個表。

圖6提供聚合來自音訊裝置之資料之母裝置505的一個實例。第一音訊裝置105A、第二音訊裝置105B及第三音訊裝置105C各自同時偵測事件（例如，時間= 1654399202）。各音訊裝置105A至105C藉由實施其各別機器學習模型405來判定事件為槍聲、T3、T4、玻璃破裂抑或尖叫。第一音訊裝置105A以90%置信度判定事件為槍聲。另外，第一音訊裝置105A判定事件之方向相對於第一音訊裝置105A為300°。第二音訊裝置105B不判定音訊事件為五個所提供音訊事件中之一者，各事件具有低置信度值。第三音訊裝置105C以98%置信度判定事件為槍聲。另外，第三音訊裝置105C判定事件之方向相對於第三音訊裝置105C為230°。

第一音訊裝置105A、第二音訊裝置105B及第三音訊裝置105C各自將其各別機器學習模型405之結果（例如，事件類型）、事件之方向及事件的時間傳輸至母裝置505。母裝置505聚合來自各音訊裝置105A至105C之資料。舉例而言，由於第二音訊裝置105B未成功判定事件類型，因此母裝置505忽略自第二音訊裝置105B接收到之資料。另外，母裝置505僅包括機器學習模型405之結果，其中各別音訊裝置105A至105C之置信度高於臨限值。因此，母裝置505僅包括槍聲事件類型之置信程度。母裝置505之經聚合輸出包括由第一音訊裝置105A及第三音訊裝置105C判定之事件類型、各別機器學習模型405的置信度、事件相對於第一音訊裝置105A及第三音訊裝置105C之方向以及事件的時間。母裝置505之經聚合結果不限於僅此實例，且可包括更多或更少資訊。

圖7繪示用於對音訊事件進行分類之方法700的實例流程圖。方法700描述為藉由第一電子處理器215執行。然而，在一些實例中，方法700之態樣由另一裝置執行。舉例而言，方法700可由第二電子處理器305或第一電子處理器215結合第二電子處理器305來執行。另外，雖然提供特定順序，但在一些實例中，方法700之步驟可以不同順序來執行。

在步驟705處，第一電子處理器215經由麥克風205偵測音訊。舉例而言，麥克風205將周圍環境之音訊傳輸至第一電子處理器215。在步驟710處，第一電子處理器215基於音訊判定音訊事件。舉例而言，第一電子處理器215實施音訊分析軟體230以偵測音訊內之音訊特徵。音訊特徵分類為音訊類型（例如，音訊事件）。在步驟715處，第一電子處理器215自攝影機130接收影像。

在步驟720處，如先前所描述，第一電子處理器215將接收到的影像與音訊事件相關聯且為所偵測音訊事件產生事件元資料。在步驟725處，第一電子處理器215將事件元資料、音訊及影像傳輸至電腦120。

在其他實例中，音訊事件偵測系統100包括校準模式。校準模式提供音訊事件偵測系統100正常工作之驗證。音訊事件偵測系統100可基於由電腦120接收到之使用者輸入而置放於校準模式中。具有已知分貝位準及距麥克風205之已知距離之測試聲音由外部裝置提供。測試聲音由麥克風205偵測到且提供至音訊分析軟體230。當音訊分析軟體230之輸出與已知分貝位準及距麥克風205之已知距離匹配時，第一電子處理器215判定音訊事件偵測系統100正常工作。當音訊分析軟體230之輸出與已知分貝位準及距麥克風205之已知距離不匹配時，第一電子處理器215判定需要校準。第一電子處理器215可藉由將指示需要校準之警告傳輸至電腦120來通知音訊事件偵測系統100的操作員。音訊事件偵測系統100之校準可包括調整麥克風205之靈敏度、清除阻礙麥克風205之碎屑以及替換有故障的麥克風205。

操作員可經由電腦120查詢與先前音訊事件相關聯之過去影像及音訊。當電腦120接收與事件相關聯之資料時，第一電子處理器215更新電腦120內之快取記憶體。快取記憶體包括先前所偵測事件及回應於事件而提供之命令的清單。在一些情況下，操作員查詢快取記憶體中高於所選置信度臨限值之先前音訊事件。在一些實例中，操作員藉由確認事件之偵測來向機器學習模型405提供回饋。舉例而言，操作員可提供指示槍聲之偵測不正確的輸入。機器學習模型405基於來自操作員之回饋來更新。

因此，實例尤其提供用於事件偵測之系統及方法。以下申請專利範圍中闡述各種特徵、優勢及實例。

100:音訊事件偵測系統 105:音訊裝置 105A:第一音訊裝置 105B:第二音訊裝置 105C:第三音訊裝置 105D:音訊裝置 110:通訊網路 120:電腦 125:資料庫 130:攝影機 135:影像 140:音訊 205:麥克風 210:裝置攝影機 215:第一電子處理器 220:第一記憶體 225:第一通訊介面 230:音訊分析軟體 235:視訊分析軟體 305:第二電子處理器 310:第二記憶體 315:第二通訊介面 320:使用者介面 405:機器學習模型 410:輸出裝置 415:音訊編解碼器 420:警報引擎 500:事件偵測系統 505:母裝置 700:方法 705:步驟 710:步驟 715:步驟 720:步驟 725:步驟

[圖1]繪示根據一個實例之用於對音訊事件進行分類之音訊事件偵測系統。 [圖2]為根據一個實例之圖1之音訊事件偵測系統的伺服器之方塊圖。 [圖3]為根據一個實例之圖1之音訊事件偵測系統的音訊裝置之方塊圖。 [圖4]為根據另一實例之圖1之音訊事件偵測系統的方塊圖。 [圖5]為根據一個實例之包括母裝置之另一音訊事件偵測系統的方塊圖。 [圖6]為根據一個實例之圖5之聚合來自音訊裝置之資料的母裝置的方塊圖。 [圖7]為根據一個實例之一種用於對音訊事件進行分類之方法的流程圖。

100:音訊事件偵測系統

105A:第一音訊裝置

105B:第二音訊裝置

105C:第三音訊裝置

110:通訊網路

120:電腦

125:資料庫

130:攝影機

135:影像

140:音訊

Claims

一種事件偵測系統，其包含：複數個音訊裝置，該複數個音訊裝置中之各者經配置以通訊耦接至伺服器且包括電子處理器，該電子處理器經配置以：經由麥克風偵測音訊；判定該音訊內之音訊事件；自攝影機接收影像；將影像資料與該音訊事件相關聯以產生事件元資料；以及將該事件元資料、該音訊及該影像傳輸至伺服器。
如請求項1之事件偵測系統，其中該電子處理器進一步經配置以：對該音訊執行音訊處理操作以產生經處理音訊，以及經由連接至該電子處理器之輸出裝置提供該經處理音訊，其中該音訊處理操作為選自以下各者組成之群組中的一者：雜訊消除操作、回音消除操作、遠場擴展操作、脈衝聲壓縮操作及音訊等化操作。
如請求項1之事件偵測系統，其中該事件元資料包括表，該表包括該音訊事件、相關聯影像及該音訊事件發生之時間。
如請求項1之事件偵測系統，其中該電子處理器進一步經配置以：判定該音訊事件之位置；以及將該攝影機引導為面向該位置。
如請求項4之事件偵測系統，其中該攝影機位於該複數個音訊裝置中之第一音訊裝置的外殼內。
如請求項1之事件偵測系統，該事件偵測系統進一步包含：母裝置，其通訊耦接至這些音訊裝置中之各者，該母裝置包括第二記憶體及第二電子處理器，該第二電子處理器經配置以：自該複數個音訊裝置中之各者接收該事件元資料；聚合自該複數個音訊裝置中之各者接收到的該事件元資料；以及將所聚合事件元資料傳輸至該伺服器。
如請求項1之事件偵測系統，其中該電子處理器進一步經配置以：基於該音訊事件產生警告；以及經由連接至該電子處理器之輸出裝置提供指示該警告之警報；其中該警告包括於該事件元資料中。
如請求項7之事件偵測系統，其中該電子處理器進一步經配置以：基於該警告更新與該各別音訊裝置相關聯之快取記憶體，其中該快取記憶體包括與先前警報相關聯之警告清單；以及將該快取記憶體傳輸至該伺服器。
如請求項1之事件偵測系統，其中該電子處理器進一步經配置以：偵測由外部裝置提供之測試聲音；以及使用該測試聲音來校準對音訊事件之該判定。
如請求項1之事件偵測系統，其中該電子處理器進一步經配置以藉由以下操作來判定該音訊事件：將機器學習模型應用於該音訊。
一種用於複數個音訊裝置中之事件偵測之方法，該方法包含：經由包括於第一音訊裝置中之麥克風且利用電子處理器來偵測音訊；利用該電子處理器判定該音訊內之音訊事件；利用該電子處理器自攝影機接收影像；利用該電子處理器將該影像與該音訊事件相關聯以產生事件元資料；以及利用該電子處理器將該事件元資料、該音訊及該影像傳輸至伺服器。
如請求項11之方法，其進一步包含：利用該電子處理器對該音訊執行音訊處理操作以產生經處理音訊；以及利用連接至該電子處理器之輸出裝置提供該經處理音訊。
如請求項11之方法，其中該事件元資料包括表，該表包括該音訊事件、相關聯影像及該音訊事件發生之時間。
如請求項11之方法，其進一步包含：利用該電子處理器判定該音訊事件之位置；以及利用該電子處理器將該攝影機引導為面向該位置。
如請求項14之方法，其中該攝影機位於該第一音訊裝置之外殼內。
如請求項11之方法，其進一步包含：利用連接至該電子處理器之母裝置自該複數個音訊裝置接收事件元資料；利用該母裝置聚合自該複數個音訊裝置中之各者接收到的該事件元資料；以及利用該母裝置將所聚合事件元資料傳輸至該伺服器。
如請求項11之方法，其進一步包含：基於該音訊事件且利用該電子處理器產生警告；以及經由連接至該電子處理器之輸出裝置提供指示該警告之警報；其中該警告包括於該事件元資料中。
如請求項17之方法，其進一步包含：利用該電子處理器來基於該警告更新與該第一音訊裝置相關聯之快取記憶體，其中該快取記憶體包括與先前警報相關聯之警告清單；以及利用該電子處理器將該快取記憶體傳輸至該伺服器。
如請求項11之方法，其進一步包含：利用該電子處理器偵測由外部裝置提供之測試聲音；以及利用該電子處理器使用該測試聲音來校準對音訊事件之該判定。
如請求項11之方法，其中判定該音訊事件包括利用該電子處理器將機器學習模型應用於該音訊。