TWI616811B - 用於聲學監測的系統、單晶片系統、行動計算裝置、電腦程式產品以及方法 - Google Patents
用於聲學監測的系統、單晶片系統、行動計算裝置、電腦程式產品以及方法 Download PDFInfo
- Publication number
- TWI616811B TWI616811B TW105100796A TW105100796A TWI616811B TW I616811 B TWI616811 B TW I616811B TW 105100796 A TW105100796 A TW 105100796A TW 105100796 A TW105100796 A TW 105100796A TW I616811 B TWI616811 B TW I616811B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- event
- acoustic
- events
- acoustic image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012544 monitoring process Methods 0.000 title claims abstract description 80
- 238000004590 computer program Methods 0.000 title claims description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 238000003384 imaging method Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims description 44
- 230000000875 corresponding effect Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 20
- 239000003550 marker Substances 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 37
- 230000008569 process Effects 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 13
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 7
- 238000003491 array Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009429 distress Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004570 mortar (masonry) Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 238000004544 sputter deposition Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- 235000012431 wafers Nutrition 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/801—Details
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
Abstract
本案揭示用於場景分析之技術,包括針對監測應用來使用聲學成像及電腦視聽過程。在一些實施例中,使用一聲學影像裝置,其具有一麥克風陣列、影像感測器、聲學影像控制器及一控制器。在一些情況下,該控制器分析聲學影像資料中之空間頻譜之至少一部分以藉由識別具有超過一特定臨界值之強度的像素區域來偵測聲音變化。另外,控制器可基於具有超過臨界值之強度的像素之間之相對距離來偵測兩個或兩個以上共同發生之聲音事件。影像像素資料、音訊樣本資料與聲學影像資料之所得資料融合可使用電腦視聽、聲音/語音識別及聲學標記技術來分析以辨識/識別與事件關聯之音訊及視覺特徵並且在經驗上或理論上判定導致每個事件之一或多個狀況。
Description
本發明係有關於基於聲學攝影機之視聽場景分析的技術。
聲學攝影機係可用於呈現場景中之聲能之視覺表示的裝置。此視覺化之結果有時被稱為聲學影像或聲學映射。類似於藉由標準攝影機產生之影像,聲學影像係2D像素網格。但是,不同於其中像素對應於場景中之光形態的基於光之影像,聲學影像中之像素對應於場景中發出之聲音之強度。在一些情況下,可利用信號處理技術與1D麥克風陣列之組合,其中輸出影像之每個像素表示如藉由1D麥克風陣列在每個空間點處所捕獲的來自獨特到達角度之聲音強度。一種此類示例性技術係波束成形,亦稱為空間濾波。波束成形包括相對地延遲每個麥克風信號並且將其相加。因此,來自特定方向之信號得以放大(例如,同相),而來自其他方向(角度)之信號得以減弱或另外緩解。然後,所得信號之強度可加以計算並映射以使得對應於到達角度
(或方向)之像素反映信號之功率。
依據本發明之一實施例,係特地提出一種聲學監測系統,其包含:一麥克風裝置陣列;一聲學影像控制器,該控制器可通訊地耦接至該麥克風裝置陣列並且經組配來基於自該麥克風裝置陣列接收之多個音訊信號來輸出聲學影像資料;及一電腦視聽(CAV)控制器,該控制器可通訊地耦接至該聲學影像控制器並且包括一事件識別模式,該模式經組配來分析該聲學影像資料之至少一部分以偵測一所觀察場景中之一或多個聲音事件,並且判定導致該一或多個聲音事件之至少一個狀況。
A、B‧‧‧點
100‧‧‧聲學監測系統
100’‧‧‧聲學監測系統
102‧‧‧資料獲取裝置
104‧‧‧影像感測器
110‧‧‧影像控制器
106、200‧‧‧麥克風陣列
108‧‧‧聲學影像控制器
110‧‧‧影像控制器
112‧‧‧CAV控制器
202‧‧‧麥克風裝置
300‧‧‧方法
302~314‧‧‧步驟
402‧‧‧資料獲取模組
403‧‧‧聲學影像
404‧‧‧事件偵測模組
405‧‧‧音訊訊框
406‧‧‧特徵提取模組
407‧‧‧影像訊框
408‧‧‧分類模組
409‧‧‧絕對差異
411‧‧‧峰值撿取
413‧‧‧遮罩
415‧‧‧特徵標準化及向量化模組
502‧‧‧第一顏色
504‧‧‧第二顏色
506‧‧‧第三顏色
600‧‧‧分佈式聲學監測系統
601、760‧‧‧網路
603‧‧‧應用程式伺服器
605‧‧‧場景資料儲存器
607‧‧‧客戶端計算系統
700‧‧‧計算系統
702‧‧‧平台
705‧‧‧晶片組
710‧‧‧處理器
712‧‧‧記憶體
714‧‧‧儲存器
715‧‧‧圖形子系統
716‧‧‧應用程式
718‧‧‧無線電
719‧‧‧攝影機
720、804‧‧‧顯示器
721‧‧‧運動感測器
722‧‧‧使用者介面
730‧‧‧內容服務裝置
740‧‧‧內容傳送裝置
750‧‧‧導航控制器
800‧‧‧小形狀因數裝置
802‧‧‧外殼
806‧‧‧輸入/輸出(I/O)裝置
808‧‧‧天線
812‧‧‧導航特徵
圖1例示根據本揭示案之實施例之聲學監測系統之方塊圖。
圖2例示根據本揭示案之實施例的具有空間對準影像感測器之示例性2D麥克風陣列。
圖3例示根據本揭示案之實施例的用於利用聲學成像及電腦處理及分析來進行場景分析的示例性方法。
圖4例示根據本揭示案之實施例的圖3之示例性方法的示例性處理流程,其包括經組配來偵測並分類所觀察場景中之事件的多個模組。
圖5A-5C描述根據本揭示案之一些實施例的在藉由圖4之示例性處理流程來執行場景分析時所產生的各種中間及結果聲學影像。
圖6例示根據本揭示案之實施例來組配的分佈式聲學監測系統。
圖7例示根據本揭示案之示例性實施例的用本文揭示之場景分析技術來組配的電腦系統。
圖8示出根據本揭示案之實施例來組配的行動計算系統。
本發明實施例之此等及其他特徵藉由結合本文所述附圖來閱讀以下詳細說明來更好地理解。附圖不意欲按比例繪製。在附圖中,各圖中例示的每一相同或幾乎相同組件藉由類似數字表示。出於清晰性之目的,並未在每一圖中標記每一組件。
揭示用於場景分析之技術,包括針對視覺監測及檢查應用來使用聲學成像及電腦視聽(CAV)過程。具體而言,根據本揭示案之實施例來組配之監測系統包括與CAV級段可操作地耦接之聲學攝影機。聲學攝影機用於記錄在所觀察場景中發生的聲音變化,在本文中稱為聲音事件,並且CV級段經組配來分析並智能地分類引起彼等聲音事件之一或多個狀況(原因)。聲音變化可包括例如引入聲音(例如,無聲→聲音,或聲音1→聲音1+聲音2),現有聲音變化(例如,聲音變得更響或更輕柔),第一聲音變化至第二聲音(例如,聲音1→聲音2),移除聲音(例如,聲音→無聲,或聲音1+聲音2→聲音1)的情況,以及與當前聲音域之變化關聯的任何其他事件。在任何此等情況下,CAV增強聲學監測系統可用於將聲音事件與所觀察場景中之所識別物件
關聯,並且利用此關聯來聯繫引起彼等事件之一或多個原因或狀況。該等技術基於以下認識:在某些環境中,諸如在工業設備之狀況監測期間,定位並識別聲音來源係有利的。舉例而言,監測工業設備之進行中的聲學事件使得能夠更好地理解該機器之操作模式以使得偏離正常或另外預期操作之偏差可用於根據具體情況來識別例如發生之故障或預防性維護之機會。在一些實施例中,控制器經組配來接收場景資料,包括影像訊框、聲學影像訊框及多個空間濾波音訊樣本。控制器可在觀察場景時即時或接近即時接收此場景資料,或可處理先前捕獲之場景資料。在任何此等情況下,控制器包括事件識別模式,其經組配來偵測場景的指示聲音事件的空間頻譜之變化(例如,經由聲學影像),並且分離與每個事件相關之聲學影像及影像像素之區域。此等相關聯區域亦可包括每個事件之音訊內容,其中音訊內容自空間濾波產生以使得僅引起事件之彼等聲音信號最顯著或另外在音訊內容中明顯地可聽見。為此目的,並且根據實施例,監測系統之視野(FOV)中之每個事件可經由資料融合來量化,其中多維度事件標記有效地自光影像資料、聲學影像資料及音訊資料之融合產生。在一實施例中,此等事件標記或事件「指紋」可與先前分類或另外先驗得到之其他此類事件標記進行比較(例如,利用聲學及影像標記技術),以將引起事件之可能狀況分類。如鑒於本揭示案所瞭解,此系統可在複雜聲音環境,尤其特徵為存在雜訊及其他干擾之彼等環境中實現精確場景分析及狀況監
測。如進一步瞭解,該等技術可在能夠捕獲或另外接收所捕獲聲音及影像資料之各種電子裝置包括,例如,智慧型電話、隨身電腦、膝上型電腦、平板電腦、系統單晶片組態或可用於場景監測及分析之其他電子裝置中實施。如進一步瞭解,示例性實施例可在硬體、軟體、韌體或其任何組合中實施。
一般概述
如先前論述,定位並識別聲音來源可為有利的,如在工業環境中。例如,機器之操作模式之變化經常伴隨著顯著聽覺變化、視覺變化或兩者之組合,其中每個此類變化指示若正確地識別則能付諸實施之資訊。一個此類具體實例包括加熱、通風及空氣調節(HVAC)機器,諸如藉由各種子系統及其關聯循環(例如,冷卻級段、停留級段、加熱級段等)而發出不同聲音之冷卻器。此等聲音可指示正常狀態及異常狀態兩者。通常情況下,此分析完全或部分地依靠人來聽到、識別並作出反應。然而,未經訓練/無經驗的人聽起來「正常」的聲音對於專家而言聽起來可能是異常的。遺憾的是,此專業知識獲得代價較高並且是需要時間、投資及訓練的技能組合。另外,許多生產環境是特別嘈雜的場所,使得精確地定位聲音來源並且清楚地聽到該聲音很困難,即使對於在此方面經過訓練的人而言亦是如此。現在在市場上存在利用聲學影像來幫助校正此等問題的監測系統。然而,此等解決方案涉及手動交互及藉由技術人員來判讀。另外,一些此等解決方案受到限制,因為
典型真實世界環境中的多個同時發生的聲音可能重疊並且妨礙或另外使精確場景分析變複雜。出於此原因,現有解決方案通常完全地忽略聲音或將其視為次要方面。
因此,並且根據本揭示案之實施例,揭示在複雜聲音環境中實現用於狀況監測之精確場景分析的技術。具體而言,聲學監測系統可用於偵測指示環境中之事件的聲場變化,並且分離每個事件以將引起該事件之原因或狀況分類。一些此類示例性環境包括同時工業及非工業環境包括例如城市環境、軍事環境、住宅環境及災區,僅舉幾個例子。在任何此等情況下,聲學監測系統可為實施或另外整合於電子裝置中之硬體與軟體之組合,該等電子裝置包括例如行動電子裝置(例如,膝上型電腦、智慧型電話、隨身電腦)、固定位置系統(例如,桌上型計算系統、電腦輔助CCTV或攝影機監視系統、經由通訊網路可操作耦接之分佈式計算系統),或其他基於電腦之裝置及系統。注意,此等技術不限於即時場景分析,因為其可用於分析先前捕獲之場景資料以進行回顧性事件偵測及分類。另外,此回顧性分析可包括更新事件分類模型及/或組態變化(例如,臨界值及偵測靈敏度)以增加總體分析精確度。此外,分析可相對於所監測之區域來本地或遠程進行。
一個具體示例性實施例可至少部分地實施於計算裝置中以提供聲學監測系統,其提醒使用者機器中之潛在故障狀況或另外監測機器狀況。在一個此類實施例中,聲學監測系統可經組配來以連續模式(例如,總是開啟、總
是捕獲),或定期模式(例如,每隔幾秒、按預定計劃或另外延遲)來捕獲場景之音訊及視訊。另外,聲學監測系統可被組配成隨選模式,其中使用者藉由選擇使用者介面選項或硬體按鈕來開始捕獲。在一些此類示例性情況中,例如,計算裝置可包括或另外可通訊地耦接至麥克風陣列(例如,2D麥克風陣列)及影像感測器以進行聲音及影像資料之捕獲。另外,計算裝置可包括或另外可通訊地耦接至聲學影像控制器,其經組配來基於所捕獲音訊來產生聲學影像資料。在一實施例中,所捕獲音訊藉由聲學影像控制器處理並且轉化成表示所捕獲場景之空間頻譜的2D像素網格。在捕獲期間,2D聲學影像像素網格可選擇性地藉由使用者介面來視覺化(例如,在計算裝置之顯示器上),並且在一個此類示例性情況中,可描繪為目標/所觀察場景之一或多個顯示影像上之覆蓋物。如瞭解,此覆蓋有效地將來自監測系統之視野(FOV)之音訊資料與來自監測系統之FOV之視覺資料相關聯。一些此類示例性視覺化包括所謂「熱點」或熱圖表示,其有助於將聲音強度視覺化,並且識別發出聲音之位置(例如,到達角度)。如鑒於本揭示案所瞭解,可利用此等熱點,只要每個像素群集(區域)是不同於場景之音訊域的聲音事件,並且此等熱點可用於定位並分離來自場景之視覺域的對應影像資料像素(例如,含有發出聲音之物件或位置)。為此目的,根據一實施例,監測系統之FOV有效地允許捕獲豐富的資料集,包括來自音訊域及視覺域兩者之組件。另外,此等熱點可用於加總或另外放大經空間
濾波的聲音信號以產生聲學影像資料。如進一步鑒於本揭示案所瞭解,所分離/放大聲音信號、聲學影像資料及影像資料(例如,光影像)之此組合可實現每個事件之多維度事件標記,並且該標記可與其他預儲存事件標記(或模型)比較以將引起每個事件之狀況或原因分類。
在一實施例中,聲學監測系統可向使用者提供警報訊息,其指示一或多個偵測事件、事件之一或多個判定分類,及與事件關聯之補足資料(聲音事件資訊)中之至少一者。舉例而言,若聲學監測系統觀察生產設施中之濺鍍機器,聲學監測系統可基於記錄自螺線管發出之獨特聲音來偵測到螺線管出故障或另外處於異常狀態。另外,此分析可包括視覺確認(例如,使用物件識別)機器係包括螺線管之類型,由此提高聲音識別之確定性及精確度。在此實例中,此事件可分類並用於產生警報訊息。警報訊息之一些此類實例包括文字或電子郵件訊息、彈出窗口,或使用者先前與聲學監測應用關聯之可聽見的諧音(例如,指示機器故障或異常狀況之一連串嗶嗶聲)。另一個示例性警報係警報之聽覺表示,諸如經由實施聲學監測系統之電子裝置之揚聲器的預記錄表述,表示已經偵測到所觀察場景中之事件並將其分類(例如,「濺鍍機器1中之螺線管操作異常。報告已經經由電子郵件發給您。」)。另一個示例性警報係藉由壓電傳動裝置或一些其他合適元件提供之觸覺回應(例如,裝置之振動)。許多通訊方案可用於傳達警報,如瞭解。
在一實施例中,警報訊息可以擴增實境模式來提
供,其中警報訊息覆蓋於所觀察場景之一或多個影像上(沒有或沒有聲學影像覆蓋物)。另外,警報訊息可提供於此等顯示影像中的對應於發出聲音之機器/物件的位置處。應瞭解此等技術不限於將此等警報訊息提供於實況/所捕獲影像上。例如,所產生之機器影像(例如,3D線框、剖視圖或其他表示)可具有所偵測事件之位置之指示(包括分類標誌及其他補充資料)以便實現關於導致事件之狀況的增強觀角。在更一般意義上,一旦已經識別環境中之物件,存在一系列表示選項,包括真實的表示及所產生的表示,以便更精確地將所偵測狀況傳達至使用者。
另一個具體示例性實施例係分佈式聲學監測系統,以使得系統之不同節點包括如本文揭示之場景資料獲取及/或場景分析技術。例如,在一個具體示例性情況中,如本文提供的一或多個聲學監測系統、聲學攝影機及麥克風陣列可分佈或另外部署於通訊網路上。因此,分佈式聲學監測系統可提供分佈式場景資料獲取節點,其可將音訊、視訊及聲學影像資料提供至中心位置或能夠存取來自此等節點之資訊的實體。此實施例可實施於例如所謂物聯網(IoT)組態之情境中以提供可通訊地耦接至一或多個分析節點之一或多個場景資料獲取節點,或其他此類分佈式聲學監測系統。此外應注意在此IoT系統中,此等裝置可整合於在特定位置部署之固定位置節點配置(例如,閉路電視(CCTV)、檢查攝影機、監視攝影機等)中並且不一定是行動的。
系統架構
圖1例示根據本揭示案之實施例來組配的聲學監測系統100。如可以看出,系統100包括場景(資料)獲取裝置102、聲學影像控制器108、影像控制器110及電腦視聽(CAV)控制器112。如鑒於本揭示案所瞭解,根據本揭示案之實施例,資料獲取裝置102、聲學影像控制器108及影像控制器110被組配成具有空間對準捕獲域(例如,共同視野)以產生空間及時間對準視訊及音訊資料以便藉由CAV控制器112來處理及後續場景分析。注意空間及時間對準可藉由呈硬體、軟體或其任何組合形式之CAV控制器112來進行。另外,CAV控制器112可執行用於進行空間及時間對準之各種後處理常式(例如,與進行此對準之聲學影像裝置相對應)。在各種實施例中,系統100示出之一個或多個組件可完全整合並實施於單一晶片(例如,系統單晶片、特定應用積體電路(ASIC)、現場可程式閘陣列(FPGA)或其他合適邏輯裝置)中,或在其他實施例中,整合於一或多個單獨晶片中並且可通訊地耦接以實施本文個別地揭示之技術。
如所示,資料獲取裝置102包括影像感測器104。影像感測器104可實施為能夠捕獲光並將其轉換成比例電氣信號的任何類型之感測器,包括例如CMOS、CCD及混合CCD/CMOS感測器。一些此類示例性感測器包括例如彩色影像資料(RGB)、顏色及深度影像資料(RGBD攝影機)、深度感測器、立體攝影機(L/R RGB)、YUV、紅外線信號及x射線。雖然圖1描繪單一影像感測器104,但是應瞭解可利度感測器、立體攝影機(L/R RGB)、YUV、紅外線信號及x射線。雖然圖1描繪單一影像感測器104,但是應瞭解可利用額外感測器及感測器類型(例如,被佈置成自不同視角為場景照相之多個攝影機)而不脫離本揭示案之範圍。為此目的,取決於特定應用,影像感測器104可實施為許多不同感測器。舉例而言,影像感測器104可包括作為紅外線感測器之第一感測器,及作為顏色影像感測器(例如,RGB、YUV)之第二感測器。在其他實例中,影像感測器104可包括經組配來捕獲影像信號之第一感測器(例如,彩色影像感測器、深度允許影像感測(RGDB)、立體攝影機(L/R RGB)、YUV、紅外線及x射線)及經組配來捕獲不同於第一影像感測器之影像資料的第二感測器。
如進一步在系統100中示出,資料獲取裝置102包括麥克風陣列106。麥克風陣列106可實施為例如可將聲音(例如,聲學壓力)轉換成比例電氣信號的許多麥克風裝置。在本文論述技術之一般情境中,麥克風陣列106是具有MxN麥克風模式之2D麥克風陣列,但是其他麥克風陣列組態鑒於本揭示案是顯而易知的。一種此類示例性2D麥克風陣列200在圖2中描繪。如所示,8x8麥克風陣列200被描繪成均勻線性陣列模式。每個麥克風202定位於特定列及行中,因此可在麥克風陣列200內個別地定址。應瞭解在其他實施例中,麥克風陣列200可被組配成不同模式,例如像圓形、螺旋形、隨機或其他陣列模式。注意在分佈式聲學監測系統之情境中,如以下關於圖6論述之彼等系統,麥克風
陣列200可包含相對於聲學監測系統100在本地或遠程(或同時本地及遠程)的多個麥克風陣列。
麥克風陣列200之每個麥克風202可實施為例如具有全向拾音回應之麥克風裝置以使得對於來自任何方向之聲音之回應是相等的。在一實施例中,全向麥克風可被組配成對於來自垂直於麥克風陣列200之寬邊之來源的聲音更靈敏。與來源於例如在麥克風陣列200後面之聲音比較,此寬邊陣列組態尤其完全適合於靶向在麥克風陣列200前面的聲音來源。如鑒於本揭示案顯而易知,取決於應用,可利用其他合適麥克風陣列。舉例而言,在需要緊湊設計之應用,或需要高增益及明顯方向性之彼等應用中,可利用端射陣列。在其他實施例中,每個麥克風202可包含雙向、單向、槍式、接觸或抛物面式麥克風。如總體上本文提及,接觸式麥克風可藉由使麥克風與物件(例如,機器、人)接觸或緊密鄰近來實現偵測聲音。舉例而言,當直接目視將要監測之目標裝置或物件是不可能或另外是不可實行的時,接觸式麥克風可與裝置之外部(例如,底架)接觸。
如在示例性麥克風陣列200中示出,每個麥克風202包含相同麥克風裝置。一個此類具體實例包括MEMS類型麥克風裝置。在其他實施例中,其他類型之麥克風裝置可基於例如形狀因子、靈敏度、頻率回應及其他應用特定因子來實施。在一般意義上,相同麥克風裝置是尤其有利的,因為每個麥克風裝置200可具有匹配靈敏度及頻率回應以確保在音訊捕獲及波束成形(空間)分析期間之最佳效
安裝,包括例如壁裝式、天花板安裝及三腳架安裝。另外,麥克風陣列200可為手持式設備或另外行動(非固定)。在一些情況下,每個麥克風202可經組配來產生類比或數位資料流(可或可不涉及類比至數位轉換或數位至類比轉換)。
鑒於本揭示案應瞭解可利用其他類型之麥克風裝置並且本揭示案不限於具體模型,或單一類型麥克風裝置之使用。例如,在一些情況下,配備具有平坦頻率回應之麥克風裝置之子集及具有定製或其他目標頻率回應之其他麥克風裝置可為有利的。目標頻率回應之一些此類實例包括例如被設計成加強人語音之頻率,同時減輕低頻率背景雜訊的回應模式。其他此類實例可包括例如被設計成加強高頻率或低頻率聲音的回應模式,包括人耳通常聽不見或另外不可偵測之頻率。其他實例包括具有以寬頻率回應來組配之回應模式的麥克風陣列200之子集及具有窄頻率回應(例如,目標或另外定製頻率回應)的另一個子集。在任何此等情況下,並且根據實施例,麥克風陣列202之子集可針對目標頻率回應來組配,同時其餘麥克風可以不同頻率回應及靈敏度來組配。
仍然參看圖2,影像感測器104描繪於麥克風陣列200之中心。根據實施例,影像感測器104之中心安置使攝影機之影像捕獲域(視野)與麥克風陣列200之音訊捕獲域在空間上對準。在其他實施例中,影像感測器104之安置不限於中心位置。舉例而言,影像感測器104可接近於或另外在麥克風陣列200附近定位,只要捕獲域之一部分重疊,或可
另外以重疊方式彼此相關聯。在任何此等情況下,根據本揭示案之實施例,可進行校準常式或空間配準過程以使得將影像感測器104之捕獲域與麥克風陣列200之捕獲域對準以產生空間對準影像及聲音資料。
回到圖1,聲學影像控制器108可經實施為例如複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86指令集處理器、多核心、微控制器、ASIC或中央處理單元(CPU)。在一些實施例中,聲學影像控制器108可包含雙核心處理器、雙核心行動處理器等。聲學影像控制器108可包括儲存器(未展示),諸如非依電性儲存器裝置,包括快閃記憶體及/或依電性儲存器裝置,諸如隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)及靜電RAM(SRAM)。
影像控制器110可經實施為例如複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86指令集處理器、多核心、微控制器、ASIC或中央處理單元(CPU)。在一些實施例中,影像控制器110可包含雙核心處理器、雙核心行動處理器等。影像控制器110可包括儲存器(未展示),諸如非依電性儲存器裝置,包括快閃記憶體及/或依電性儲存器裝置,諸如隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)及靜電RAM(SRAM)。在一實施例中,影像控制器110包括影像管線(未展示),包括影像信號處理器及用於影像資料之後捕獲處理的一或多個影像增強級段。在一實施例中,影像控制器110用於控制影像感測器104之攝影機,只要根據具體情況,開始捕獲具有所需特徵諸如清晰
度、雜訊、對比度或任何其他所需影像品質之影像資料需要進行該控制。
CAV控制器112可經實施為例如複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86指令集處理器、多核心、微控制器、ASIC、FPGA、SOC或中央處理單元(CPU)。在一些實施例中,CAV控制器112可包含雙核心處理器、雙核心行動處理器等。CAV控制器112可包括儲存器(未展示),諸如非依電性儲存器裝置,包括快閃記憶體及/或依電性儲存器裝置,諸如隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)及靜電RAM(SRAM)。在一些實施例中,CAV控制器112可包括指令或另外程式規劃以導致執行以下論述之方法300。為此目的,過程300可實施於硬體、軟體、韌體或其任何組合中。
在一實施例中,系統100可體現於變化的實體式樣或形狀因子中。在一些實施例中,例如,系統100或其一部分可實施為具有無線能力之行動計算裝置。例如,行動計算裝置可涉及具有處理系統及行動電源或電源供應(諸如一或多個電池)的任何裝置。行動計算裝置之一些此類實例可包括個人電腦(PC)、膝上型電腦、超膝上型電腦、平板電腦、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、蜂窩式電話、組合蜂窩式電話/PDA、電視、智慧型裝置(例如,智慧型電話、智慧型平板或智慧型電視)、行動網際網路裝置(MID)、通信報裝置、資料通訊裝置等等。
行動計算裝置之實例亦可包括經佈置以由個人佩戴的電腦,諸如,手腕電腦、手指電腦、戒指電腦、眼鏡電腦、皮帶扣電腦、臂章電腦、鞋子電腦、服裝電腦及其他隨身電腦。在一些實施例中,例如,行動計算裝置可經實施為能夠執行電腦應用程式以及語音通訊及/或資料通訊的智慧型電話。儘管一些實施例可藉由實例之方式使用實行為智慧型電話的行動計算裝置來予以描述,但可瞭解,亦可使用其他無線行動計算裝置來實行其他實施例。實施例在此方面不受限制。
在使用中,資料獲取裝置102捕獲所觀察場景之音訊及視訊。如以上論述,此音訊及視訊資料空間及時間對準以使得每一者之捕獲域重疊。注意音訊及視訊可單獨地捕獲(例如,藉由耦接至監測系統之單獨攝影機及麥克風陣列),並且本揭示案不應被視為在此方面受到限制。在一些情況下,所捕獲音訊及視訊資料代表目標場景例如像,製造設施中之製造設備、城市街道或其他可觀察的場景。此等示例性使用情形是為了便於說明來提供並且不意欲限制本揭示案。
在一實施例中,聲學影像控制器108可經組配來基於空間濾波音訊信號(例如,來自麥克風陣列200)來產生聲學影像資料以便視覺表示所觀察場景中之聲能。如以上論述,聲學影像相對於標準影像是類似的,因為其包含2D像素網格,但是不同之處在於像素強度對應於自場景發出之聲音之強度。為此目的,所產生的聲學影像訊框之每個
像素之像素強度表示來自聲音之每個獨特到達角度(方位角及仰角)之聲音強度。通常,聲學影像使用遮罩例如像半透明的有色熱圖或其他可見顏色來重疊於同一場景之影像訊框上。一種此類示例性影像描繪於圖5A中,其描繪半導體製造環境中之濺鍍機器。如所示,自濺鍍機器之兩個固定點(在此情況下,點A及B)發出之聲音用具有第一顏色502(例如,紅色)之像素的最高強度(例如,表示到達角度)之彼等區域來表示。當聲音在不同到達角度下不太強烈時,此強度差異藉由像素自第一顏色502漸變至第二顏色504(例如,紅色至黃色)來表示。另外,聲音強度之進一步差異可藉由像素自第一顏色502漸變至第二顏色504然後至第三顏色506(例如,紅色至黃色,黃色至綠色)來表示。如所示,相對聲音強度亦藉由每個有色像素具有的透明性之量來指示。例如,最接近於到達角度之像素(例如,在第一顏色502之區域中帶有顏色/畫有陰影的像素)大致上是不透明的。相比之下,自到達角度最遠的彼等像素包括幾乎透明遮罩。在任何此類實施例中,所採用的此等顏色及透明性梯度可為使用者組配的。應瞭解所選擇的顏色之精確數量及特定色調不與本揭示案特別相關並且不應視為具有限制性。如下文進一步討論,根據一些實施例,聲學影像訊框中之聲音強度之此等突出顯示區域允許定位並分離所觀察場景中之聲音來源,以及對其進行分析以便智能地將聲音與場景中之視覺特徵相關聯。
方法及架構
圖3例示根據本揭示案之實施例的用於分析聲學影像及聲音以偵測並分類所觀察場景中之事件的示例性方法300。此方法可例如藉由圖1之系統100來實施,但是許多實施例鑒於本揭示案是顯而易知的。圖4至5C例示除了在執行事件分析時所產生的一些示例性影像以外,根據一些實施例之方法300之示例性處理流程。示例性方法300包括以下步驟:獲取304所觀察場景之聲音及影像資料以產生空間及時間對準聲學影像及聲音資料,偵測306在對準聲學影像、影像資料(光影像)及聲音資料中發生之一或多個事件,提取308一或多個所偵測事件之特徵,並且分類310場景特徵以在經驗上或理論上判定導致事件之一或多個狀況,並且輸出312分類資料。方法300開始於步驟302。
如所示,示例性方法300包括獲取304所觀察場景之聲音及影像資料以產生空間及時間對準聲學、影像及音訊資料流之步驟。參看圖4,經由資料獲取裝置102來獲取304聲音及影像資料之步驟在示例性處理流程中以資料獲取模組402來表示。應瞭解在一些示例性實施例中,資料獲取模組402可精確地被稱為場景獲取模組,因為資料獲取模組402可經組配來監測場景(包括其中之所有物件)而不僅僅一件特定設備或物件。注意模組404、406及408中之每一者可在CAV控制器112中實施為硬體、軟體或其任何組合。另外應注意,CAV控制器112可經組配來進行與資料獲取模組402之彼等常式類似的常式。一些此類常式可包括空間對準聲學影像403、音訊訊框405及影像訊框407,產生聲學影像
及與音訊資料之信號處理相關的各種信號處理(例如,波束成形)。如所示,資料獲取模組402包含經組配來即時捕獲並提供聲學影像、影像訊框及音訊資料之聲學影像裝置。應瞭解資料獲取模組402可為選擇性的或以不同方式組配以實現前瞻性場景分析及狀況監測。舉例而言,系統100可被組配成使得先前所觀察場景之所捕獲音訊及視訊可自外部位置(例如,記憶體、網路位置或其他儲存位置)擷取並且使用本文個別地揭示之聲學分析技術(例如,經由模組404-408)來處理。另外,並且在一實施例中,資料獲取模組402可藉由兩個或兩個以上單獨裝置來實施,其中每個裝置經組配來捕獲場景之不同態樣(例如,用以捕獲光影像之攝影機裝置,用以呈現聲音強度之聲學影像控制器,及一或多個外部麥克風陣列)。為此目的,圖4示出之資料獲取模組402不應被視為具有限制性。其他實行方案鑒於本揭示案是顯而易知的,諸如混合組態,其中若需要,藉由系統100之實況分析可切換至前瞻性分析。
在圖4示出之示例性實施例中,資料獲取模組402可實施波束成形或用於將音訊訊框空間濾波之其他合適技術以便產生所觀察場景之空間頻譜(聲學影像資料)。應瞭解除了波束成形以外的其他空間分析技術可加以利用並且在本揭示案之範圍內。雖然波束成形技術可有利地用於產生空間濾波音訊及聲學影像兩者,但是其他類似空間分析技術不產生空間濾波音訊。替代地,其產生空間頻譜(例如,聲學影像)。兩種此類技術例如被稱為多重信號分類
(MUSIC)演算法及旋轉不變技術信號參數估測(ESPRIT)。此等技術可用於產生高解析度聲學影像。為此目的,此等聲學影像可另外或代替藉由波束成形技術產生之聲學影像來使用。
雖然以下論述之示例性實施例涉及所謂「延遲並加總」或「逼零」波束成形之一個具體實行方案,但是其他波束成形技術鑒於本揭示案是顯而易知的。舉例而言,濾波並加總及適應性波束成形技術亦可利用。如先前論述,聲學成像基於變化的像素強度來將聲音來源以聲波強度形式視覺化,該等變化的像素強度是相對於在多個點(例如,麥克風陣列之每個空間位置)處偵測到之聲音壓力而言的。在圖2之示例性麥克風陣列200之情境中,每個麥克風裝置202可定位於預定義區域中之離散點處。為此目的,重疊來自麥克風陣列200之所有麥克風信號允許估計每個目標空間點之聲音壓力,進而轉化成所產生聲學影像之一或多個像素。為了集中或另外定標於所觀察場景中之某個點,麥克風陣列200不一定需要實體上移動。替代地,經由在麥克風上施加一系列合適延遲並且加總來自其中的所有信號,可集中於(例如,轉向至)所觀察場景中之特定點(例如,到達角度)。此延遲並加總技術基本上以一定方式使來自每個麥克風之信號延遲,該方式使得自所觀察場景中之目標點發出之所有聲波同相,並且由此,在一起相加時,放大自該目標點發出之聲波。自所觀察場景中之其他(非目標)點發出之彼等聲波是不同相的,並且因此得以減弱。
舉例而言,考慮實施一些此類波束成形技術之資料獲取裝置102之一個具體示例性實施例。如圖2示出,麥克風陣列200包括在共計64個離散空間點之線性陣列中處於離散位置的8x8麥克風模式,用以量測聲學壓力。在此示例性實施方案中,每個麥克風202具有相同靈敏度及頻率回應並且經組配來產生具有16位元字深度的以例如16kHz採樣的聲音信號。另外,影像感測器104可經組配來產生具有例如256x256(65536像素)解析度之影像訊框。出於計算清楚及簡易目的,本文揭示之示例性實施方案採用16kHz音訊採樣速率及256x256(65536像素)影像訊框,但是應瞭解如需要,其他音訊採樣速率及影像解析度可加以利用,並且在本揭示案之範圍內。如以上論述,麥克風陣列106及影像感測器104被組配成使得其在空間上對準。另外,麥克風陣列106及影像感測器104可基於共同時鐘或其他計時方案來在時間上對準以確保資料流是同步的(例如,接近即時或經由後處理常式來達成)。
在第一階段期間,並且根據實施例,聲學影像控制器108將來自麥克風陣列200之每個麥克風202的聲音信號劃分成在512個樣本內表示的具有例如32毫秒持續時間的重疊連續訊框。來自每個麥克風202的同步訊框(例如,64個訊框)然後在聲學影像控制器108內藉由波束成形演算法來處理。波束成形演算法之結果是對應於藉由影像感測器104捕獲之每個影像訊框的65536個空間濾波音訊訊框405。以不同方式陳述,波束成形技術可經由空間濾波以實
現所捕獲音訊信號之數位操控以使得65536個獨特到達角度中之每一者對應於濾波音訊訊框。
在第二階段期間,並且根據實施例,聲學影像403藉由計算此等音訊訊框405中之每一者中的能量(強度)並且將強度轉換成2D網格以呈現256x256影像(例如,65535個像素)來產生。然後將所得聲學影像403、對應音訊訊框405及影像訊框407提供至事件偵測模組404。
參考圖4,並且額外參考圖3,在資料獲取模組402產生包括聲學影像403、音訊訊框405及影像訊框407之資料流之後,該方法繼續偵測306此等資料流中之事件。參看圖4,偵測306藉由資料獲取模組402產生之資料流中之事件在示例性處理流程中表示為事件偵測模組404。在一般意義上,並且根據實施例,事件偵測模組404針對聲場中之變化的位置來分析聲學影像流,該等變化指示或另外暗示所觀察場景中發生之事件。
在一實施例中,事件偵測模組404藉由判定連續聲學影像訊框403之間之絕對差異409來產生差量影像(delta image)流。在一些情況下,差量影像基於計算連續聲學影像之間之平方距離來產生。在其他情況下,其他合適影像比較常式可用於產生差量影像,如鑒於本揭示案顯而易知。在任何此等情況下,每個差量影像中之峰值基於將差量影像中之像素值相對於臨界強度值比較來判定。在一實施例中,臨界值是使用者可組配的或另外預定並且表示最小像素強度,其中超過該值之差量像素強度記錄為與事
件相關。為此目的,在差量像素超過臨界值時,像素之索引用於定義並施加影像訊框407中之遮罩413。在一實施例中,所施加遮罩413包含矩形形狀或其他幾何結構(例如,圓形、正方形或其他形狀),其指示事件區域(或位置),在本文中亦稱為所關注的區域。關於所施加遮罩413之參數可為使用者定義的並且可包括例如線厚度、線顏色、圓角值及線類型(例如,破碎、連續或虛線)。另外,所施加遮罩413之參數諸如高度及寬度可為預定及/或使用者提供的。
圖5B描繪根據本揭示案之實施例的藉由事件偵測模組404輸出的一個示例性中間影像訊框。如所示,所得影像是包含影像訊框407(描繪製造設備)、覆蓋聲學影像訊框403及施加遮罩413的合成影像。亦如圖5B之具體實例示出,兩個不同事件(事件1、事件2)及對應事件區域已經被偵測到並且在所得影像中基於所施加遮罩413來指示。在此具體實例之情境中,此等兩個識別事件與自所觀察場景中之兩個不同點發出之聲音直接相關。如以上論述,並且根據實施例,音訊訊框405及影像訊框407可在空間及時間上配準(例如,經由共同視點及/或對準常式)。為此目的,根據一實施例,施加遮罩413使得事件偵測模組404能夠針對每個相應事件來分離/定位影像訊框407之對應部分及對應聲學影像訊框403以使得每個事件可個別地處理並分類。在一實施例中,與每個遮罩區域413關聯之音訊訊框可加總並平均化以呈現每個相應事件之音訊訊框。用於音訊信號處理之其他合適技術可用於呈現每個事件之音訊訊框,如鑒於
本揭示案顯而易知。在一些情況下,聲學影像資料及影像資料之相關及分離部分可被稱為所謂「區塊」。在一實施例中,將每個事件之聲學影像資料之此等區塊與所呈現音訊訊框一起提供至特徵提取模組406。
進一步參考圖3,在一或多個事件藉由事件偵測模組404偵測到之後,該方法繼續提取308來自分離事件區域/區塊之特徵。參看圖4,提取308來自分離事件區域之特徵在示例性處理流程中表示為特徵提取模組406。如所示,聲學影像資料、影像資料及音訊訊框之每個部分藉由對應特徵提取常式來處理。現在轉而論述此等特徵提取常式中之每一者。
在一實施例中,聲學影像及影像資料兩者之區域/區塊內之視覺特徵經由尺度不變特徵轉換(SIFT)或用於自影像提取顯著/相關特徵之其他合適常式來分析。在一些情況下,SIFT及基於SIFT之衍生常式尤其完全適合於校正由於例如保持包含系統100之智慧型裝置的手不穩定或由於所觀察場景中之移動所引起的較小移動量。此SIFT處理之結果包括物件識別及物件之所謂「特徵描述」。每一者可用於進行物件識別。如鑒於本揭示案所瞭解,此方法是尤其有利的,因為處於雜亂及部分掩蔽狀態下的物件可仍然可靠地得以識別。
在一實施例中,藉由事件偵測模組404產生之每個事件之音訊內容可加以分析以識別聲音且/或進行語音識別。在一實施例中,音訊內容可使用Mel頻率倒譜係數
(MFCC)或如鑒於本揭示案顯而易知之其他合適聲音分析常式來分析。在一實施例中,MFCC尤其完全適合於一系列應用,因為MFCC通常用於語音識別及聲音場景分析兩者。
在一實施例中,在根據以上論述之特徵提取常式來提取每個事件之視覺及音訊特徵之後,然後將所得到之特徵發送至特徵標準化及向量化模組415。在此實施例中,將所提取特徵(例如,來自聲學影像區塊、影像區塊及呈現音訊訊框)組合並聚集以產生每個偵測聲音事件之特徵向量。在一實施例中,特徵向量可包含一或多個格式,包括例如二進制資料結構、XML、JSON或其他合適機器可讀格式。如以下論述,聲學影像資料、影像資料及音訊內容之此組合形成多維度事件標記,其可藉由本文揭示之各種技術用於進行複雜的場景分析。如應瞭解,此等技術實現複雜聲音環境中之精確場景分析,其中可在不和諧干擾音(背景噪音、非關鍵噪音或任何其他正常或另外無關緊要的噪音)中間區分兩個或兩個以上共同發生之聲音。在一實施例中,特徵提取模組406然後將每個事件之特徵向量提供至分類模組408。
進一步參考圖3,在提取308來自每個事件之特徵,並且產生每個事件之特徵向量(多維度事件標記)之後,該方法繼續分類310場景特徵以判定事件分類及關聯元資料(補充資料)。參看圖4,分類310來自每個偵測事件之特徵向量之事件特徵在示例性處理流程中表示為分類模組408。
在一實施例中,分類模組408試圖根據藉由特徵
提取模組406產生之對應特徵向量來分類每個事件。在一些情況下,分類基於將特徵向量相對於多個預培訓模型來評分而進行。更一般而言,預培訓模型可包含允許將聲音事件關聯(例如,利用概率分佈)或另外分類至事件類別的聲學及視覺標記。為此目的,本文個別地揭示之技術利用聲音事件及其特殊性質來對每個事件進行「指紋建置」,並且利用彼等指紋在經驗上及/或理論上判定引起彼等事件之原因。為此目的,本文個別地揭示之技術有利地融合光資料、聲學影像資料及聲音資料。如鑒於本揭示案顯而易知,其他合適機器學習技術可用於建立並分析此等指紋。另外,此等產生指紋可儲存並在後續分析期間利用(例如,用於聲學監測系統100的進行中的訓練)。
在利用基於GMM之機器學習的一個具體實例中,29維度GMM(對於聲學影像、影像及聲音而言分別為13維度)可先驗地對於每個事件類別加以預先確定。在此等情況下,預先定義之事件模型在例如裝置製造期間加以組配。在其他情況下,此等預先定義之事件模型隨著時間的推移經由例如訓練常式或經由自外部位置(例如,網路伺服器、USB隨身碟或其他位置)添加及/或更新模型來學習或另外添加至系統100。在一個此類示例性情況中,系統100可將與偵測事件相關之資訊(例如,事件之視覺影像、來自事件之聲音樣本,或其他分離及提取特徵)提供給使用者,其中使用者可選擇使用者介面特徵來手動地分類並儲存事件(例如作為GMM模型)以使得未來出現的相同或另外類似事
件將來可正確地識別。另外,使用者可將補充資料與儲存事件相關聯包括,例如,手冊、注釋、圖片或任何其他相關元資料。在任何此等情況下,期望最大化(EM)演算法可用於計算每個模型之參數。為此目的,每個特徵向量可傳遞至每個GMM,從而產生每個類別之評分,並且在各個類別中,將評分加以標準化(例如,相對於1)以便產生每個事件之後驗概率分佈。因此,系統100可基於一個或多個最高評分模型來推導每個事件之一或多個狀況。
如鑒於本揭示案應瞭解,模型類別可表示藉由其聲學標記來表徵的多種狀況,包括,例如,機器組件故障(例如,螺線管故障、不規則的壓縮機週期或其他異常狀況)。另外,模型類別可表示在此等機器中發生的各種中間狀態並且可用於推導,例如,進行中的狀況之進展,包括是否狀況可能導致即刻問題(例如,臨界狀態或較高嚴重性水準)或是否狀況指示問題之某個其他階段(例如,暗示未來可能需要維修之階段,或可以忽略的或另外較低嚴重性之事件)。為此目的,並且根據實施例,系統100可向使用者或其他利害關係方(例如,另一個電腦或過程)提供機器內之潛在問題的早期警報。另外,系統100可包括管理事件偵測之相對靈敏度的使用者定義設置,其中在將事件傳送至使用者之前,使用者可微調事件之最低嚴重性水準。
應進一步瞭解此等模型可用於表示事實上任何類別之狀況相關聲音(例如,基於其聲學及視覺標記)並且不一定限於工業機器監測,及該環境特有的聲音。例如,模
型可表示狀況事件如城市環境中之車輛相關噪音(例如,排氣、發動機部件、人行道上之輪胎的聲音,及其他此等聲音),戰場上之敵人移動/活動噪音(例如,迫擊炮發射、槍炮射擊、軍隊移動、車輛移動等),及災區中之人生命(例如,陷於困境受害者)之指示,僅舉幾個例子。
在更一般意義上,此等模型允許考慮到事件之標記的每個態樣/維度以便關於哪些狀況可導致聲音事件作出經驗性或另外理論性推導。舉例而言,事件標記之聲學維度之彼等態樣可藉由每個GMM分析以便記錄相似性(例如在像素強度、像素位置之間之相似性,及其他聲學相似性),並且由此最終影響所得評分。在其他實例中,標記之其他態樣及維度可加以組合併分析以使得聲音識別及物件識別分別作為因素計入總體評分中。另外,應瞭解此聲音識別及物件識別可組合以便提供情境感知理解包括,例如,部分地基於確認所識別物件能夠產生此聲音來驗證所辨識/識別之聲音。在任何此等情況下,若在分類期間使用之每個模型之評分超過概率之預定臨界值(例如,25%、50%等),則將事件向量視為或另外標明為與事件模型相關。在其他實施例中,若概率不超過預定臨界值,則忽略該事件以使得沒有警報或其他指示器顯示給使用者(例如,以便減少假陽性)。或者,不超過預定臨界值之彼等概率可加以保持以便未來藉由訓練常式使用及/或在其他分類模型改進期間使用。事件可忽略的一些此等情況包括不具有針對事件來組配的預儲存模型。另外,並且在其他此類情況下,
被分析為指示機器之正常操作的事件可不需要報告給使用者或使事件逐步升級以便進一步操作。在其他實施例中,此等事件可不被忽略並且可充當如以上論述之訓練常式的促進因素或向使用者提供機器/目標場景在正常/預期參數內操作之指示。根據實施例,所偵測的每個事件可產生評分高於臨界值的多個模型。在此實施例中,每個事件可包括多個評分,該等評分相對於具有最高評分,因此是導致事件之最有可能狀況的彼等模型來進行排序。
進一步參考圖3,在事件分類310之後,該方法繼續輸出312分類資料。在一實施例中,所得事件分類然後可提供至使用者介面或其他高階過程。如以上論述,事件分類評分可用於進行各種後分類操作,包括經由使用者介面向使用者提供警報訊息、自動進行後續操作(例如,關閉機器、閃光、啟動繼電器、振鈴、發送電子郵件、發送SMS)及記錄事件分類(例如,在資料庫或其他電子資料儲存區中)中之至少一者。在一實施例中,此等操作與相應類別模型關聯或另外在確定分類之後可擷取。另外,事件分類之一或多個視覺表示可提供至使用者,包括,例如,最高概率事件類別(例如,人可讀描述或影像)以及若干其他較高概率事件分類(例如,自最高概率至最低概率呈降序排列)之指示。
在一實施例中,關於一或多個事件分類之補充資料亦可經由使用者介面藉由警報訊息來提供。一些此類補充資料可為元資料包括,例如,發出聲音之場景中之物件
之所謂「簡單英文」名稱,對於目標機器進行操作(例如,修復或其他維護)之指令,特定機器之使用者定義之注釋/標誌、手冊、藍圖、圖片(例如,包括剖視圖、3D模型),機器之服務標籤(例如,其識別編號),GPS位置(地理位置),偵測日期,偵測時間,建造識別符,用於呼叫之電話號碼,用於通知之電子郵件位址,及所偵測事件分類之文字描述,僅舉幾個例子。代替或附加於元資料,補充資料可為音訊及視訊資料,包括,例如,來自事件之聲音樣本,來自所觀察場景之視訊/影像(例如,具有或不具有覆蓋於影像上之事件指示器的擴增實境情形),或具有或不具有元資料覆蓋物的所觀察場景之聲學影像資料、音訊訊框及影像訊框之任何部分或組合。
圖5C描繪根據本揭示案之實施例的藉由事件分類模組408輸出的一個此類示例性影像訊框。如所示,所得影像被描繪為具有兩個事件(例如,圖5B之事件1及事件2)及事件標誌(螺線管及活塞)。在一實施例中,影像諸如圖5C描繪之示例性影像可呈現並提供於電子裝置(例如,智慧型電話、膝上型電腦或具有顯示器之其他裝置)的顯示器上。在此實施例中,電子裝置可提供呈擴增實境模式的多個此等影像,其中顯示器提供所觀察場景之即時影像,其中覆蓋物描繪聲學熱圖及/或事件之元資料。注意矩形遮罩413可以暗示是否所判定事件被視為正常或異常的方式而帶有顏色。例如,在圖5C中,螺線管位置可以綠色矩形來加外框,並且標誌亦可為綠色,由此指示正常操作(例如,噪聲,
但是噪聲被分類為機器之正常操作)。相反地,活塞位置可以紅色矩形來加外框,並且事件之標誌(「活塞」)亦為紅色,由此指示異常操作(例如,在機器中發生的可能故障)。如瞭解,可使用許多其他此類顏色編碼方案。雖然事件區域描繪為矩形,但是應瞭解可不示出此矩形或類似框架。同樣地,應瞭解所描繪形狀不限於矩形並且可為例如正方形、圓形及或梯形。另外,異常聲音區域之形狀可不同於正常聲音區域之形狀。另外,在一些情況下,不同類型之突出顯示(例如,顏色、影像、符號),及動畫(例如,閃爍文字、閃光符號及其他效果)可用於指示事件區域。另外,應瞭解聲音可伴隨此等影像(例如,藉由實施聲學監測系統100之裝置之揚聲器)例如像狀況之聽覺表示,包括預記錄表述(例如,「在螺線管X中偵測到異常狀態;可能需要維修。」)。在一實施例中,此等影像可靜態顯示或以擴增實境模式顯示給使用者,其中所觀察場景之一或多個影像包括聲學熱圖及元資料覆蓋。
示例性使用情形
如以上關於圖1論述,本文揭示場景分析技術之許多額外應用鑒於本揭示案是顯而易知的。一種此類實例包括城市或另外較高交通量區域中之場景分析。在此實例中,可偵測到事件,諸如,例如,汽車碰撞、洪水、爆炸、窗戶破碎(例如,搶劫)或可指示可能需要警察、救火服務及急救醫療服務(EMS)的其他反常事件。在一實施例中,事件之偵測可導致將位置與事件之任何關聯元資料一起傳送至
此等初期應變人員。另外,在一些應用中,計數進入場景之車輛之數目,並且在一些情況下,亦識別是否車輛為汽車或卡車可能是重要的。為此目的,與卡車比較,汽車發出的獨特聲音可加以建模並用於進行此分析。其他此等應用鑒於本揭示案是顯而易知的。
另一個此類實例在軍事環境包括戰場中。在此等環境中,潛在敵人位置可藉由其發出之聲音來定位並分類。一些此等示例性聲音可為敵人武器之發射(例如,AK-47之獨特咔嚓聲),迫擊炮彈落入炮管中之砰擊聲,語音(例如,包括以特定語言說話之語音、將成人語音與兒童語音區分之語音、將男人語音與女人語音區分之語音、偵測特定口頭語言之語音),及指示敵對/友好活動之任何其他聲音。在一實施例中,敵人位置(及分類描述)可以矩形或覆蓋於戰場之即時視訊上之其他突出顯示形式來提供。在此實施例中,此等覆蓋影像可以擴增實境模式提供於顯示器上,例如像,頭盔、陸基車輛、飛機或其他軍事車輛上的例如觀察戰場的抬頭顯示器。
仍然另一個此類實例是在住宅環境中。在此環境中,聲音可加以偵測並分類以判定是否發生搶劫(例如,基於玻璃破碎、門被打碎或其他類似入侵住宅噪聲)。此環境之其他噪聲亦可適用於分類目的並且可包括,例如,洪水、煙氣報警器振鈴、火災聲音,僅舉幾個例子。
仍然仍另一個實例是在災區中之災難恢復領域中。在此環境中,使用聲音來識別災區中之物件可有利於
發現陷於困境中的受害者、識別氣體洩漏、管道破裂、初期應變人員的「受難者尋蹤」裝置(例如,當初期應變人員決定實施水平偵測時,發出聲音)的回音檢查。許多變化鑒於本揭示案是顯而易知的並且此等所提供示例性環境不意欲具有限制性。
分佈式場景分析系統
圖6例示根據本揭示案之實施例來組配的分佈式聲學監測系統600。如可以看出,系統包括可通訊地耦接至網路601的多個資料獲取裝置102。另外,系統包括分別可通訊地耦接至網路601及網路605的一或多個聲學監測系統100』。在一實施例中,每個聲學監測系統100』可包含圖1之聲學監測系統100的單獨實行方案。在此實施例中,每個聲學監測系統100』可為獨立系統(例如,具有資料獲取裝置102、聲學影像控制器108、影像控制器110及CAV控制器112),或分佈式以使得一或多個遠程資料獲取裝置102提供音訊/視訊場景資料。另外,每個聲學監測系統100』可為具有獨立性質之混合系統(具有一或多個獲取裝置之自給式系統)並且亦接收來自一或多個遠程獲取裝置102的音訊/視訊資料之一部分。為此目的,聲學監測系統100』可即時或接近即時進行聲學監測且/或以獨立或分佈方式進行前瞻性分析(例如,對於先前捕獲之場景資料)。
如所示,分佈式聲學監測系統600可包括兩個或兩個以上網路(601及605),其分別包含聲學監測裝置及若干獲取裝置。注意分佈式聲學監測系統600不限於特定數目之
網路,或彼等網路內之聲學監測系統/獲取裝置。為此目的,圖6示出之網路配置不應視為具有限制性。如所示,兩個網路601及605可實現協調資料獲取及聲學監測過程。舉例而言,網路601之聲學監測系統100』可遠程存取來自網路605中之任何獲取裝置102之場景資料。同樣地,網路605之聲學監測系統100』可存取來自網路601中之資料獲取裝置102中之任一者的場景資料。在任何情況下,應瞭解此配置使得一些聲學監測系統能夠分析場景資料以偵測並分類第一種類型聲音事件,同時其他聲學監測系統可偵測並分類來自同一場景、不同角度之同一場景及不同場景中之至少一者的第二種類型聲音事件(例如,出於監測或訓練目的)。如瞭解,當利用例如各個擊破方法來平衡在計算上代價較高場景分析之工作量時,此舉可為尤其有利的。同樣地,應瞭解來自不同場景(例如,遠程場景、不同角度)之資料可適用於訓練及機器學習。舉例而言,新部署監測系統可藉由存取其他監測系統之場景資料、模型及先前分類而獲益於其他監測系統。另外,應進一步瞭解分別網路601及603中之每一者之聲學監測系統100』可利用來自資料獲取裝置102之資料來進行進行中的訓練常式,而非僅在首次部署時才訓練。
在一實施例中,能夠執行場景資料收集模組之應用程式伺服器603經組配來存取各種資料獲取裝置102以自每一者獲得聲學影像、影像資料及音訊樣本。注意,額外應用程式伺服器603可實施(例如,在網路601及/或網路605
中)並且圖6示出之實施例不應視為限制本揭示案。藉由伺服器603接收之場景資料可儲存於場景資料儲存器605中。如以上論述,場景分析可即時或接近即時或以前瞻性模式來進行。為此目的,分別網路601及603之聲學監測系統100』可存取資料獲取裝置102中之一或多者以便接收即時場景資料流(例如,即時傳送協定(RTP))。代替或附加於存取獲取裝置,一或多個聲學監測系統100』可經由應用程式設計介面(API)或其他合適構件來存取儲存於場景資料儲存器605內之場景資料,該等構件與應用程式伺服器603通訊以便擷取此資料。同樣地,一或多個客戶端計算系統607亦可能夠存取聲學監測系統100』或資料獲取裝置102中之一或多者(例如,經由預訂基於雲端之狀況監測系統或某個其他授權使用)。
網路601可為任何通訊網路或網路之組合,如網際網路及一或多個局部存取網路。如瞭解,可使用無線及有線網路技術。雖然僅示出一個客戶端607及一個伺服器603,但是應認識到如需要,許多客戶端607及伺服器603可包括於系統中。如通常進行,每個客戶端607及伺服器603可實施於任何合適計算架構中,並且程式規劃或另外經組配來執行來自分佈聲學監測系統之場景收集。伺服器603可為例如基於雲端之感測系統之一部分,諸如工業狀況監測系統,該系統具有部署於生產設施周圍之各種位置及/或其他位置的聲學攝影機裝置,以使得使用者(例如,技師、經理及其他人員)可存取系統以判定是否目標場景(例如,一或
多個機器)以正常或另外如預期方式來操作。客戶端計算系統607之使用者介面(UI)可提供影像,例如,類似於圖5A、圖5B及圖5C所示者,但是可使用許多合適UI方案。例如,可提供與所偵測事件相關之額外補充資料,包括,例如,機器圖表、手冊、維護程序、機器之內部工作機制之剖視圖,或可有助於後偵測操作之任何其他資料。如進一步瞭解,類似UI方案亦可相對於應用程式伺服器603來使用並且提供對於儲存器605之存取,以便將資料寫入該儲存器並讀取來自該儲存器之資料。
此實施例可實施於例如所謂物聯網(IoT)組態之情境中以提供一或多個聲學監測系統100及資料獲取裝置102。此外應注意在此IoT系統中,此等裝置可包括於在特定位置處部署之固定位置節點(例如,監視攝影機、CCTV攝影機)中。為此目的,聲學監測系統100及資料獲取裝置102不一定是行動的。此外應注意聲學監測系統100及獲取裝置可如同給定網路上之任何其他計算系統一樣,諸如藉由給定IP位址、MAC位址及/或可藉以存取給定網路上之元件的任何其他合適定址機制而為可定址的。使用分佈式感測系統之許多變化及實施例鑒於本揭示案是顯而易知的。
示例性系統
圖7例示根據各種示例性實施例的使用本文所揭示技術的以聲學監測系統來實施之計算系統700。在一些實施例中,系統700可為經由攝影機(未展示)來捕獲及/或顯示靜止或移動影像之系統,但是系統700不限於此情形。此
外,系統700可併入個人電腦(PC)、膝上型電腦、隨身電腦、超膝上型電腦、平板電腦、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、蜂窩式電話、組合蜂窩式電話/PDA、電視、智慧型裝置(例如,智慧型電話、智慧型平板電腦或智慧型電視)、行動網際網路裝置(MID)、通信報裝置、資料通訊裝置、機上盒、遊戲控制台以及能夠進行圖形顯現操作並顯示內容之其他此類計算環境。
在一些實施例中,系統700包含耦接至顯示器720之平台702。平台702可自諸如內容服務裝置730或內容傳送裝置740或其他類似內容來源的內容裝置接收內容。包含一或多個導航特徵的導航控制器750可用以與例如平台702及/或顯示器720互動以便補充藉由使用者作出之導航手勢。以下更詳細地描述此等示例性組件中每一者。
在一些實施例中,平台702可包含晶片組705、處理器710、記憶體712、儲存器714、圖形子系統715、攝影機719、運動感測器721、應用程式716及/或無線電718之任何組合。晶片組705可提供處理器710、記憶體712、儲存器714、圖形子系統715、應用程式716及/或無線電718之間的互通。例如,晶片組705可包括儲存器配接器(未描繪),該儲存器配接器能夠提供與儲存器714的互通。
處理器710可實行為複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86指令集相容性處理器、多核心,或任何其他微處理器或中央處理單元(CPU)。在一些
實施例中,處理器710可包含雙核心處理器、雙核心行動處理器等等。記憶體712可實行為例如依電性記憶體裝置,諸如但不限於隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)或靜態RAM(SRAM)。儲存器714可經實行為例如非依電性儲存裝置諸如(但不限於)磁碟驅動機、光碟驅動機、磁帶驅動機、內部儲存裝置、附接儲存裝置、快閃記憶體、電池後備SDRAM(同步DRAM)及/或網路可存取儲存裝置。在一些實施例中,例如,在包括多個硬碟機時,儲存器714可包含增加用於有價值的數位媒體之儲存效能增強型保護的技術。
圖形子系統715可進行諸如靜像或視訊之影像之處理以供顯示,並且在一些實施例中經組配來合成面部影像,如本文個別地描述。圖形子系統715可為例如圖形處理單元(GPU)或視覺處理單元(VPU)。可使用類比或數位介面來通訊地耦接圖形子系統715及顯示器720。例如,介面可為高清晰度多媒體介面、顯示埠、無線HDMI及/或無線HD順應性技術中之任一者。圖形子系統715可整合至處理器710或晶片組705中。圖形子系統715可為通訊地耦接至晶片組705的獨立卡。圖形及/或視訊處理技術,包括用於識別並產生本文所述之較佳面部定向的技術,可實施於各種硬體架構中。例如,圖形及/或視訊功能性可整合於晶片組內。或者,可使用離散圖形及/或視訊處理器。作為又一實施例,圖形及/或視訊功能可藉由包括多核處理器之通用處理器來實行。在另一實施例中,該等功能可在消費者電子
裝置中加以實行。
無線電718可包括能夠使用各種適合的無線通訊技術來發射及接收信號的一或多個無線電。此類技術可涉及跨一或多個無線網路之通訊。示範性無線網路包括(但不限於)無線區域網路(WLAN)、無線個人區域網路(WPAN)、無線都會區域網路(WMAN)、胞狀網路及衛星網路。在跨此類網路通訊中,無線電718可根據呈任何型式之一或多個可應用標準來操作。
在一些實施例中,內容服務裝置730可由任何國家服務、國際服務及/或獨立服務代管,且因此為平台702經由例如網際網路或其他網路可存取的。內容服務裝置730可耦接至平台702及/或耦接至顯示器720。平台702及/或內容服務裝置730可耦接至網路760以往返於網路760而通訊(例如,發送且/或接收)媒體資訊。內容傳送裝置740亦可耦接至平台702及/或耦接至顯示器720。在一些實施例中,內容服務裝置730可包含電纜電視盒、個人電腦、網路、電話、能夠遞送數位資訊及/或內容之網際網路允許裝置或設備,及能夠經由網路760或直接地在內容提供者與平台702及/顯示器720之間單向地或雙向地傳達內容的任何其他類似裝置。將瞭解,可經由網路760往返於系統700中的組件中之任一者及內容提供者而單向地及/或雙向地通訊內容。內容之實例可包括任何媒體資訊,包括例如視訊、音樂、圖形、文字、醫學及遊戲內容等等。
內容服務裝置730可接收諸如包括媒體資訊、數
位資訊的電纜電視規劃的內容及/或其他內容。內容提供者之實例可包括任何電纜或衛星電視或無線電或網際網路內容提供者。所提供的實例並非意味著限制本揭示案。在實施例中,平台702可自導航控制器750接收控制信號,該導航控制器具有一或多個導航特徵。控制器750之導航特徵可用以例如與使用者介面722互動。在一些實施例中,導航控制器750可為指向裝置,該指向裝置可為電腦硬體組件(具體而言,為人性化介面裝置),該電腦硬體組件允許使用者將空間(例如,連續的及多維的)資料輸入至電腦中。許多系統諸如圖形使用者介面(GUI)以及電視及監視器允許使用者使用身體手勢、面部表情或聲音來控制且提供資料至電腦或電視。
可藉由指針、遊標、聚焦環或顯示在顯示器上的其他視覺指示器之移動來在顯示器(例如,顯示器720)上複製控制器750之導航特徵之移動。例如,在軟體應用程式716之控制下,可將位於導航控制器750上的導航特徵映射至例如顯示在使用者介面722上的虛擬導航特徵。在一些實施例中,控制器750可並非單獨組件,而是可整合至平台702及/或顯示器720中。然而,應瞭解,實施例不限於本文所示或所描述之元件或在本文所示或所描述之方面不受限制。
在一些實施例中,例如,在啟用時,驅動器(未展示)可包含用以在初始啟動之後允許使用者以觸摸按鈕來立刻打開及關閉如電視的平台702的技術。當平台「關閉」時,程式邏輯可允許平台702使內容串流至媒體配接器或其
他內容服務裝置730或內容傳送裝置740。另外,晶片組705可包含用於例如5.1環繞聲音訊及/或高清晰度7.1環繞聲音訊的硬體及/或軟體支援件。驅動器可包括用於整合式圖形平台的圖形驅動器。在一些實施例中,圖形驅動器可包含周邊組件互連(PCI)快速圖形卡。
在各種實施例中,系統700中所示的組件中之任何一或多個可為整合式的。例如,平台702及內容服務裝置730可為整合式的,或平台702及內容傳送裝置740可為整合式的,或例如平台702、內容服務裝置730及內容傳送裝置740可為整合式的。在各種實施例中,平台702及顯示器720可為整合式單元。例如,顯示器720及內容服務裝置730可為整合式的,或顯示器720及內容傳送裝置740可為整合式的。此等實例並非意味著限制本揭示案。
在各種實施例中,系統700可經實行為無線系統、有線系統或二者之組合。當實行為無線系統時,系統700可包括適合於經由無線共享媒體通訊的組件及介面,諸如一或多個天線、發射器、接收器、收發器、放大器、濾波器、控制邏輯等等。無線共享媒體之實例可包括無線頻譜之部分,諸如RF頻譜等等。當實施為有線系統時,系統700可包括適合於經由有線通訊媒體通訊的組件及介面,諸如輸入/輸出(I/O)配接器、用以連接I/O配接器與對應有線通訊媒體的實體連接器、網路介面卡(NIC)、碟片控制器、視訊控制器、音訊控制器以及其他者。有線通訊媒體之實例可包括電線、電纜、金屬導線、印刷電路板(PCB)、底板、
交換機(switch)結構、半導體材料、雙絞線、同軸電纜、光纖等等。
平台702可建立一或多個邏輯通道或實體通道以通訊資訊。資訊可包括媒體資訊及控制資訊。媒體資訊可涉及表示打算用於使用者的內容的任何資料。內容之實例可包括例如來自語音對話、視訊會議、串流視訊、電子郵件(「email」)或文字訊息、語音郵件訊息、文數符號、圖形、影像(例如,自拍照等)、視訊、本文等等的資料。控制資訊可涉及表示打算用於自動系統的命令、指令或控制字的任何資料。舉例而言,控制資訊可用於將媒體資訊經由系統依路由傳遞,或指示節點以預定方式處理媒體資訊(例如,使用如本文描述之有助於特權存取違例檢查之硬體)。然而,該等實施例並不限於圖7中示出或描述之元件或情境。
如以上所描述,系統700可以不同實體式樣或形狀因數來體現。圖8說明小形狀因數裝置800的實施例,系統700可體現於該小形狀因數裝置中。在一些實施例中,例如,裝置800可經實行為具有無線效能的行動計算裝置。例如,行動計算裝置可涉及具有處理系統及行動電源或電源供應(諸如一或多個電池)的任何裝置。
如以上所描述,行動計算裝置之實例可包括個人電腦(PC)、膝上型電腦、超膝上型電腦、平板電腦、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、蜂窩式電話、組合蜂窩式電話/PDA、電視、智
慧型裝置(例如,智慧型電話、智慧型平板或智慧型電視)、行動網際網路裝置(MID)、通信報裝置、資料通訊裝置等等。
行動計算裝置之實例亦可包括經佈置以由個人佩戴的電腦,諸如,手腕電腦、手指電腦、戒指電腦、眼鏡電腦、皮帶扣電腦、臂章電腦、鞋子電腦、服裝電腦及其他隨身電腦。在一些實施例中,例如,行動計算裝置可經實施為能夠執行電腦應用程式以及語音通訊及/或資料通訊的智慧型電話。儘管一些實施例可藉由實例之方式使用實行為智慧型電話的行動計算裝置來予以描述,但可瞭解,亦可使用其他無線行動計算裝置來實行其他實施例。實施例在此方面不受限制。
如圖8中所示,行動電子裝置800可包含外殼802、顯示器804、輸入/輸出(I/O)裝置806及天線808。裝置800亦可包含導航特徵812。顯示器804可包含用於顯示適合於行動計算裝置之資訊的任何合適顯示單元,該顯示單元在一個示例性實施例中為觸控螢幕顯示器。I/O裝置806可包含用於將資訊輸入至行動計算裝置中的任何適合的I/O裝置。I/O裝置806之實例可包括文數鍵盤、數字小鍵盤、觸控板、輸入鍵、按鈕、攝影機、開關、搖桿開關、麥克風、揚聲器、語音識別裝置及軟體等等。資訊可亦藉由麥克風輸入裝置800中。此資訊可藉由語音識別裝置來數位化。實施例在此方面不受限制。
可使用硬體元件、軟體元件或二者之組合來實行各種實施例。硬體元件之實例可包括處理器、微處理器、
電路、電路元件(例如,電晶體、電阻器、電容器、電感器等等)、積體電路、特定應用積體電路(ASIC)、可規劃邏輯裝置(PLD)、數位信號處理器(DSP)、現場可規劃閘陣列(FPGA)、邏輯閘、暫存器、系統單晶片、半導體裝置、晶片、微晶片、晶片組等等。軟體之實例可包括軟體組件、程式、應用程式(application)、電腦程式、應用程式(application program)、系統程式、機器程式、作業系統軟體、中間軟體、韌體、軟體模組、常式、次常式、函數、方法、程序、軟體介面、應用程式介面(API)、指令集、計算碼、電腦碼、碼段、電腦碼段、字、值、符號或上述各者之任何組合。決定是否使用硬體元件及/或軟體元件來實行實施例可根據許多因素而變化,該等因素諸如所要的計算速率、功率位準、耐熱性、處理週期預算、輸入資料速率、輸出資料速率、記憶體資源、資料匯流排速度及其他設計或效能約束。
一些實施例可例如使用機器可讀媒體或物品來實行,該機器可讀媒體或物品可儲存一指令或一組指令,該指令或該組指令藉由機器執行時可使機器進行根據本揭示案之實施例之方法及/或操作。此種機器可包括例如任何適合處理平台、計算平台、計算裝置、處理裝置、計算系統、處理系統、電腦、處理器等,且可使用硬體及/或軟體之任何適合組合來實行。機器可讀媒體或物品可包括例如任何適合類型之記憶體單元、記憶體裝置、記憶體物品、記憶體媒體、儲存裝置、儲存物品、儲存媒體及/或儲存單
元,例如記憶體、可移除或不可移除媒體、可抹除或不可抹除媒體、可寫入或可重寫媒體、數位或類比媒體、硬碟片、軟碟片、光碟片-唯讀記憶體(CD-ROM)、可記錄光碟片(CD-R)、可重寫光碟片(CD-RW)、光碟、磁性媒體、磁光媒體、可移除記憶片或碟片、各種類型之數位通用碟片(DVD)、磁帶、卡式磁帶等。指令可包括使用任何合適高階、低階、物件導向、視覺、彙編及/或解譯程式設計語言來實施的任何合適類型之可執行程式碼。
其他示例性實施例
以下實例涉及其他實施例,根據該等實施例,許多置換及組態是顯而易知的。
實例1係一聲學監測系統,其包含:一麥克風裝置陣列,一聲學影像控制器,該控制器可通訊地耦接至該麥克風裝置陣列並且經組配來基於自該麥克風裝置陣列接收之多個音訊信號來輸出聲學影像資料,及一電腦視聽(CAV)控制器,該控制器可通訊地耦接至該聲學影像控制器並且包括一事件識別模式,該模式經組配來分析該聲學影像資料之至少一部分以偵測一所觀察場景中之一或多個聲音事件,並且判定導致該一或多個聲音事件之至少一個狀況。
實例2包括實例1之標的,其中該CAV控制器進一步經組配來回應於偵測到一或多個聲音事件,產生每個相應聲音事件之一多維度事件標記,並且其中每個多維度事件標記包括該聲學影像資料之至少一部分及基於該等多個
音訊信號之一組空間濾波聲音信號。
實例3包括實例2之標的,其中該CAV控制器進一步經組配來將該一或多個聲音事件之一位置與藉由一視覺影像感測器捕獲之影像訊框之一對應部分相關聯。
實例4包括實例3之標的,其中該CAV控制器進一步經組配來針對該一或多個聲音事件中之每個相應聲音事件,自一或多個聲學影像訊框之一相關聯區域提取一第一組視覺特徵,針對該一或多個聲音事件中之每個相應聲音事件,自一或多個影像訊框之一相關聯區域提取一第二組視覺特徵;並且針對該一或多個聲音事件中之每個相應聲音事件,自該等空間濾波聲音信號提取音訊特徵。
實例5包括實例4之標的,其中該CAV控制器進一步經組配來針對該一或多個聲音事件中之每個相應聲音事件,將該多維度事件標記相對於一或多個預定義事件類別模型來進行評分,並且基於該一或多個評分事件類別模型來將導致該一或多個事件中之至少一個聲音事件的一狀況分類。
實例6包括實例1-5之標的,其中該麥克風裝置陣列中之每個麥克風裝置包含一全向頻率回應。
實例7包括實例1-5之標的,其中該麥克風裝置陣列中之每個麥克風裝置包含以下中之至少一者:一單向麥克風類型、一雙向麥克風類型、一槍式麥克風類型、一接觸麥克風類型及一抛物線式麥克風類型。
實例8包括實例1-7之標的,其中該麥克風裝置陣
列中之每個麥克風裝置包括一相同頻率回應及靈敏度。
實例9包括實例1-8之標的,其中該麥克風裝置陣列之一第一子集包括具有一第一頻率回應之麥克風裝置並且一第二子集包括具有一第二頻率回應之麥克風裝置。
實例10包括實例9之標的,其中該第一子集及該第二子集中之至少一者包括一目標頻率回應。
實例11包括實例1-10之標的,其中該麥克風裝置陣列包含一2D陣列,該2D陣列包括一MxN麥克風模式。
實例12包括實例1-11之標的,其中該麥克風裝置陣列包含一寬邊陣列。
實例13包括實例1-12之標的,其進一步包含一視覺影像感測器。
實例14包括實例13之標的,其中該視覺影像感測器定位於該麥克風裝置陣列之一中心。
實例15包括實例13-14之標的,其中該視覺影像感測器經組配來產生一RGB影像流。
實例16包括實例13-15之標的,其中該視覺影像感測器包含一紅外線影像感測器。
實例17包括實例13-16之標的,其中該視覺影像感測器及該麥克風裝置陣列分別具有一捕獲域並且經組配來使得該等捕獲域彼此在空間上對準。
實例18包括實例13-17之標的,其中藉由該視覺影像感測器輸出之影像資料及藉由該麥克風陣列輸出之該等多個音訊信號基於一共同時鐘方案來在時間上對準。
實例19包括實例1-18之標的,其進一步包含一處理器,其經組配來回應於該CAV控制器偵測到一所觀察場景中之至少一個聲音事件並判定導致該至少一個聲音事件之一狀況來發出一警報。
實例20包括實例19之標的,其進一步包括以下中之至少一者:用以視覺提供該警報之一顯示器、用以提供該警報之一觸覺元件,及用以聽覺提供該警報之一揚聲器。
實例21包括實例20之標的,其中該顯示器係一觸控螢幕顯示器。
實例22包括實例1-21之標的,其進一步包含一使用者介面,其經組配來回應於在該觀察場景中偵測到之至少一個聲音事件來呈現聲音事件資訊。
實例23包括實例22之標的,其中該使用者介面提供一擴增實境表示以使得聲音事件資訊覆蓋於該觀察場景之一或多個視覺影像上。
實例24包括實例23之標的,其中該擴增實境表示進一步包含覆蓋於該觀察場景之該一或多個影像上之一半透明聲學熱圖。
實例25包括實例22-24之標的,其中該聲音事件資訊包括以下中之至少一者:一物件識別符、一使用者定義標誌及一地理位置識別符。
實例26係一系統單晶片(SOC),其包含如前述實例中任一者定義之系統。
實例27係一行動計算裝置,其包含前述實例中任
一者之系統。
實例28包括實例27之標的,其中該行動計算裝置係一隨身裝置、一智能電話、一平板電腦或一膝上型電腦中之一者。
實例29係至少一種非暫時性電腦程式產品,該產品經編碼具有指令,該等指令在藉由一或多個處理器執行時導致執行一過程,該過程包含接收來自一聲學成像控制器的多個聲學影像訊框及多個空間濾波聲音信號,該等多個聲學影像訊框及該等多個空間濾波聲音信號表示一所觀察場景之一空間頻譜,判定該等多個聲學影像訊框內之一或多個聲音事件之一位置,並且回應於判定一或多個聲音事件之該位置,產生每個相應聲音事件之一多維度事件標記,其中每個多維度事件標記包括該等聲學影像訊框之至少一部分及來自該等多個空間濾波聲音信號之一組空間濾波聲音信號。
實例30包括實例29之標的,該過程進一步包含接收表示該觀察場景之多個影像訊框。
實例31包括實例30之標的,其中該等多個聲學影像訊框、該等多個空間濾波聲音信號及該等多個影像訊框在空間及時間上對準。
實例32包括實例29-31之標的,其中判定一或多個聲音事件之該位置之步驟進一步包含對於差量影像使用一峰值撿取演算法,該等差量影像自該等多個聲學影像訊框產生,其中僅該等差量影像內的具有超過一預定義臨界
值之像素強度的彼等像素被記錄為一聲音事件。
實例33包括實例32之標的,其中該一或多個聲音事件中之每個聲音事件之該位置與超過該預定義臨界值的聲學影像資料之彼等像素之一幾何區域相關聯。
實例34包括實例30-33之標的,該過程進一步包含將該一或多個聲音事件之該位置與影像訊框之一對應部分相關聯。
實例35包括實例29-34之標的,其進一步包含針對該一或多個聲音事件中之每個相應聲音事件,將該組空間濾波聲音信號加總。
實例36包括實例35之標的,該過程進一步包含針對該一或多個聲音事件中之每個相應聲音事件,自一或多個聲學影像訊框之一相關聯區域提取一第一組視覺特徵,針對該一或多個聲音事件中之每個相應聲音事件,自一或多個影像訊框之一相關聯區域提取一第二組視覺特徵,並且針對該一或多個聲音事件中之每個相應聲音事件,自該等加總空間濾波聲音信號提取音訊特徵。
實例37包括實例36之標的,其中提取該第一組視覺特徵及該第二組視覺特徵進一步包括利用一尺度不變特徵轉換(SIFT)。
實例38包括實例36-37之標的,其中針對該一或多個聲音事件中之每個相應聲音事件,自該等加總空間濾波聲音信號提取音訊特徵進一步包括利用Mel頻率倒譜係數(MFCC)。
實例39包括實例36-38之標的,其中針對每個相應聲音事件所產生的該多維度事件標記至少包括該第一組提取視覺特徵之一部分、該第二組提取視覺特徵之一部分,及該等提取音訊特徵之一部分。
實例40包括實例29-39之標的,該過程進一步包含針對該一或多個聲音事件中之每個相應聲音事件,將該多維度事件標記相對於一或多個預定義事件類別模型來進行評分,並且基於該一或多個評分事件類別模型來將導致該一或多個聲音事件中之至少一個聲音事件的一狀況分類。
實例41包括實例40之標的,其中該一或多個預定義事件類別模型分別包含一高斯混合模型(GMM)。
實例42包括實例40-41之標的,其中該一或多個預定義事件類別模型係先驗地確定。
實例43包括實例40-42之標的,其中該一或多個預定義事件類別模型經由一訓練常式產生。
實例44包括實例40-43之標的,該過程進一步包含基於該一或多個聲音事件之每個分類狀況來向一使用者提供一或多個警報。
實例45包括實例44之標的,其中該一或多個警報經由一顯示螢幕來視覺提供。
實例46包括實例44-45之標的,其中該一或多個警報經由一揚聲器來聽覺提供。
實例47包括實例44-46之標的,其中該過程進一
步包含將該一或多個聲音事件中之每個聲音事件之該一或多個警報及補充資料記錄於一資料庫中。
實例48包括實例47之標的,其中該補充資料包含以下中之至少一者:偵測日期、偵測時間、偵測地理位置、該分類狀況之一描述,及發出該一或多個聲音事件中之每個相應聲音事件的一物件識別符或標誌。
實例49係用於狀況監測之一電腦實施方法,該方法包含藉由一處理器接收多個聲學影像訊框及多個空間濾波聲音信號,該等多個聲學影像訊框及該等多個空間濾波聲音信號表示一所觀察場景之一空間頻譜,判定該等多個聲學影像訊框內之一或多個聲音事件之一位置,並且回應於判定一或多個聲音事件之該位置,產生每個相應聲音事件之一多維度事件標記,其中每個多維度事件標記包括該等聲學影像訊框之至少一部分及來自該等多個空間濾波聲音信號之一組空間濾波聲音信號。
實例50包括實例49之標的,其進一步包含針對該一或多個聲音事件中之每個相應聲音事件,將該多維度事件標記相對於一或多個預定義事件類別模型來進行評分,基於該一或多個評分預定義事件類別模型來將導致該一或多個聲音事件中之至少一個聲音事件的一狀況分類,並且回應於將導致該一或多個聲音事件中之每個相應聲音事件的一狀況分類,顯示視覺表示聲音事件資訊的一使用者介面。
實例51包括實例50之標的,其中顯示描繪聲音事
件資訊之該使用者介面進一步包含以一擴增實境模式來顯示影像資料之一或多個訊框,其中該聲音事件資訊覆蓋於影像資料之該一或多個訊框上的發出該一或多個聲音事件中之每個相應聲音事件的一位置處。
實例52包括實例51之標的,其中該擴增實境模式進一步包含顯示一半透明聲學熱圖,該熱圖表示該一或多個聲音事件中之每個相應聲音事件之相對強度及位置。
實例53包括實例49-52之標的,其中接收該等多個聲學影像訊框及該等多個空間濾波聲音信號進一步包含接收來自一遠程儲存伺服器的該等多個聲學影像訊框及該等多個空間濾波聲音信號之至少一部分。
實例54包括實例49-53之標的,其中該方法進一步包含接收至少一個新的或更新的預定義事件類別模型。
示例性實施例之前述描述出於說明及描述之目的來提供。其不意欲為無遺漏的或將本揭示案限於所公開之精確形式。鑒於本揭示案,許多改進及變化為可能的。希望本揭示案之範圍不受此詳細說明限制,但是實際上受附加的申請專利範圍限制。將來提交的主張此申請案之優先權的申請案可以不同方式要求所揭示之標的,並且可總體上包括如在本文中個別地揭示或另外展示的一或多個限制的任何組合。
100‧‧‧聲學監測系統
102‧‧‧資料獲取裝置
104‧‧‧影像感測器
106‧‧‧麥克風陣列
108‧‧‧聲學影像控制器
110‧‧‧影像控制器
112‧‧‧CAV控制器
Claims (25)
- 一種聲學監測系統,其包含:一麥克風裝置陣列;一聲學影像控制器,該聲學影像控制器可與該麥克風裝置陣列通訊式耦接且受組配為可基於從該麥克風裝置陣列所接收到的複數個音訊信號而輸出聲學影像資料;以及一電腦視聽(CAV)控制器,該CAV控制器可與該聲學影像控制器通訊式耦接且具有一事件識別模式,該事件識別模式受組配為可進行下列操作:分析該聲學影像資料的至少一部分以檢測於一所觀察場景中的一或多個聲音事件,判定導致該一或多個聲音事件的至少一個狀況,在檢測到一或多個聲音事件時針對各個聲音事件而分別產生一多維度事件標記,其中,各個多維度事件標記包括該聲學影像資料的至少一部分與奠基於該等複數個音訊信號的一組空間濾波聲音信號,針對該一或多個聲音事件中之各個聲音事件而分別針對一或多個預定義事件類別模型對該多維度事件標記進行評分,及基於已評分的該一或多個事件類別模型而將導致該一或多個聲音事件中之至少一個聲音事件的一 狀況分類。
- 如請求項1的系統,其中,該CAV控制器進一步受組配為可使該一或多個聲音事件的位置與藉由一視覺影像感測器所獲得的影像訊框中之對應部分互相關。
- 如請求項2的系統,其中,該CAV控制器進一步受組配為可進行下列操作:針對該一或多個聲音事件中之各個聲音事件而分別提取來自一或多個聲學影像訊框中之一互相關區域的一第一組視覺特徵;針對該一或多個聲音事件中之各個聲音事件而分別提取來自一或多個影像訊框中之一互相關區域的一第二組視覺特徵;以及針對該一或多個聲音事件中之各個聲音事件而分別提取來自該等空間濾波聲音信號的音訊特徵。
- 如請求項1的系統,其中,該麥克風裝置陣列中之各個麥克風裝置之類型包含下列中之至少一者:一單向麥克風類型、一雙向麥克風類型、一槍型麥克風類型、一接觸式麥克風類型以及一抛物面式麥克風類型。
- 如請求項1的系統,其進一步包含:一使用者介面,其受組配為可在於該所觀察場景中檢測到至少一個聲音事件時呈現聲音事件資訊,其中,該使用者介面提供一擴增實境表示法以致使聲音事件資訊被覆蓋於該所觀察場景的一或多個視覺影像上,並且其中,該擴增實境表示法進一步包含被覆蓋於該所觀 察場景之該一或多個影像上的一半透明聲學熱圖。
- 如請求項5的系統,其中,該聲音事件資訊包括下列中之至少一者:一物件識別符、一使用者定義標誌及一地理位置識別符。
- 如請求項1的系統,其中,該聲學影像資料包含一二維像素網格,該二維像素網格中之像素之強度各代表來自一獨特抵達角度的聲音強度。
- 一種系統單晶片(SOC),該SOC包含如前述請求項中之任一項所述的系統。
- 一種行動計算裝置,其包含如請求項1~7中之任一項所述之系統,其中,該行動計算裝置包含一穿戴式裝置、一智慧型電話、一平板電腦或一膝上型電腦。
- 一種包含編碼有指令的至少一個非暫時性電腦程式產品的集合,該等指令在受一或多個處理器執行時可致使一程序被實施,該程序包含下列操作:接收來自一聲學成像控制器的複數個聲學影像訊框與複數個空間濾波聲音信號,該等複數個聲學影像訊框與該等複數個空間濾波聲音信號代表一所觀察場景的一空間譜;判定該等複數個聲學影像訊框內之一或多個聲音事件的位置;在判定出一或多個聲音事件之位置時,針對各個聲音事件而分別產生一多維度事件標記,其中,各個多維度事件標記包括該等聲學影像訊框的至少一部分與來 自該等複數個空間濾波聲音信號的一組空間濾波聲音信號;針對該一或多個聲音事件中之各個聲音事件而分別針對一或多個預定義事件類別模型對該多維度事件標記進行評分;以及基於已評分的該一或多個事件類別模型而將導致該一或多個聲音事件中之至少一個聲音事件的一狀況分類。
- 如請求項10之電腦程式產品集合,其中,該程序進一步包含下列操作:接收代表該所觀察場景的複數個影像訊框。
- 如請求項10之電腦程式產品集合,其中,判定該一或多個聲音事件之位置的操作進一步包含:在差量影像上使用峰值撿取演算法,該等差量影像係從該等複數個聲學影像訊框所產生,其中,僅有在該等差量影像內之具有超過一預定義臨界值之像素強度的像素會被記錄為一聲音事件。
- 如請求項12之電腦程式產品集合,其中,該一或多個聲音事件中之各個聲音事件之位置分別與該等像素的一幾何區域互相關。
- 如請求項13之電腦程式產品集合,其中,該程序進一步包含:使該一或多個聲音事件之位置與影像訊框的對應部分互相關。
- 如請求項14之電腦程式產品集合,其中,該程序進一步 包含下列操作:針對該一或多個聲音事件中之各個相應聲音事件而分別將該組空間濾波聲音信號加總。
- 如請求項15之電腦程式產品集合,該程序進一步包含下列操作:針對該一或多個聲音事件中之各個聲音事件而分別提取來自一或多個聲學影像訊框中之一互相關區域的一第一組視覺特徵;針對該一或多個聲音事件中之各個聲音事件而分別提取來自一或多個影像訊框中之一互相關區域的一第二組視覺特徵;以及針對該一或多個聲音事件中之各個聲音事件而分別提取來自經加總之該等空間濾波聲音信號的音訊特徵。
- 如請求項16之電腦程式產品集合,其中,針對各個聲音事件所分別產生的多維度事件標記至少包括所提取之該第一組視覺特徵的一部分、所提取之該第二組視覺特徵的一部分以及所提取之該等音訊特徵的一部分。
- 如請求項10之電腦程式產品集合,其中,該一或多個預定義事件類別模型各包含一高斯混合模型(GMM)。
- 如請求項10之電腦程式產品集合,其中,該等複數個聲學影像訊框包含一二維像素網格,該二維像素網格中之像素之強度各代表來自一獨特抵達角度的聲音強度。
- 一種用於狀況監測的電腦實施方法,該方法包含下列步驟: 藉由一處理器,接收複數個聲學影像訊框及複數個空間濾波聲音信號,該等複數個聲學影像訊框及該等複數個空間濾波聲音信號代表一所觀察場景的一空間譜;判定該等複數個聲學影像訊框內之一或多個聲音事件的位置;在判定出該一或多個聲音事件之位置時,針對各個聲音事件而分別產生一多維度事件標記,其中,各個多維度事件標記包括該等聲學影像訊框的至少一部分與來自該等複數個空間濾波聲音信號的一組空間濾波聲音信號;針對該一或多個聲音事件中之各個聲音事件而分別針對一或多個預定義事件類別模型對該多維度事件標記進行評分;以及基於已評分的該一或多個預定義事件類別模型而將導致該一或多個聲音事件中之至少一個聲音事件的一狀況分類。
- 如請求項20的方法,該方法進一步包含下列步驟:回應於對導致該一或多個聲音事件中之各個聲音事件的狀況的分類,而顯示一使用者介面,該使用者介面視覺上表示出聲音事件資訊。
- 如請求項21的方法,其中,顯示該使用者介面之步驟進一步包含:以一擴增實境模式顯示一或多個影像資料訊框,其中,該聲音事件資訊在發出該一或多個聲音事件中之各個聲音事件的位置處被覆蓋於該一或多個影像 資料訊框上。
- 如請求項20的方法,其中,接收該等複數個聲學影像訊框及該等複數個空間濾波聲音信號的步驟進一步包含:接收來自一遠端儲存伺服器的該等複數個聲學影像訊框及該等複數個空間濾波聲音信號之至少一部分。
- 如請求項20的方法,該方法進一步包含下列步驟:接收至少一個新的或經更新的預定義事件類別模型。
- 如請求項20的方法,其中,該等複數個聲學影像訊框包含一二維像素網格,該二維像素網格中之像素之強度各代表來自一獨特抵達角度的聲音強度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/662,880 | 2015-03-19 | ||
US14/662,880 US9736580B2 (en) | 2015-03-19 | 2015-03-19 | Acoustic camera based audio visual scene analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201643688A TW201643688A (zh) | 2016-12-16 |
TWI616811B true TWI616811B (zh) | 2018-03-01 |
Family
ID=56920032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105100796A TWI616811B (zh) | 2015-03-19 | 2016-01-12 | 用於聲學監測的系統、單晶片系統、行動計算裝置、電腦程式產品以及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9736580B2 (zh) |
CN (1) | CN107223332B (zh) |
TW (1) | TWI616811B (zh) |
WO (1) | WO2016148825A1 (zh) |
Families Citing this family (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2838711B1 (en) * | 2012-04-16 | 2016-07-13 | Vestas Wind Systems A/S | A method of fabricating a composite part and an apparatus for fabricating a composite part |
KR102360453B1 (ko) * | 2015-04-10 | 2022-02-09 | 삼성전자 주식회사 | 카메라 설정 방법 및 장치 |
US10726863B2 (en) | 2015-04-27 | 2020-07-28 | Otocon Inc. | System and method for locating mobile noise source |
TWI702595B (zh) * | 2018-03-30 | 2020-08-21 | 維呈顧問股份有限公司 | 移動噪音源的檢測系統與方法 |
US10909384B2 (en) | 2015-07-14 | 2021-02-02 | Panasonic Intellectual Property Management Co., Ltd. | Monitoring system and monitoring method |
US10048765B2 (en) | 2015-09-25 | 2018-08-14 | Apple Inc. | Multi media computing or entertainment system for responding to user presence and activity |
GB201519634D0 (en) * | 2015-11-06 | 2015-12-23 | Squarehead Technology As | UAV detection |
JP5979458B1 (ja) * | 2015-11-06 | 2016-08-24 | パナソニックIpマネジメント株式会社 | 無人飛行体検知システム及び無人飛行体検知方法 |
KR20170130041A (ko) * | 2016-05-18 | 2017-11-28 | (주)에스엠인스트루먼트 | 소음원 가시화 데이터 누적 표시방법 및 음향 카메라 시스템 |
CA3026624A1 (en) * | 2016-06-08 | 2017-12-14 | Exxonmobil Research And Engineering Company | Automatic visual and acoustic analytics for event detection |
FI129137B (en) * | 2016-09-22 | 2021-08-13 | Noiseless Acoustics Oy | ACOUSTIC CAMERA AND METHOD FOR DETECTING ACOUSTIC EMISSIONS FROM VARIOUS LOCATIONS AND EQUIPMENT |
US9883302B1 (en) * | 2016-09-30 | 2018-01-30 | Gulfstream Aerospace Corporation | System for identifying a source of an audible nuisance in a vehicle |
CN107024982A (zh) * | 2016-12-09 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 一种虚拟现实设备的安全监控方法、装置及虚拟现实设备 |
US10275943B2 (en) * | 2016-12-13 | 2019-04-30 | Verizon Patent And Licensing Inc. | Providing real-time sensor based information via an augmented reality application |
US9891884B1 (en) | 2017-01-27 | 2018-02-13 | International Business Machines Corporation | Augmented reality enabled response modification |
US9892744B1 (en) | 2017-02-13 | 2018-02-13 | International Business Machines Corporation | Acoustics based anomaly detection in machine rooms |
US11164351B2 (en) * | 2017-03-02 | 2021-11-02 | Lp-Research Inc. | Augmented reality for sensor applications |
CN107018372A (zh) * | 2017-04-20 | 2017-08-04 | 深圳声联网科技有限公司 | 声音识别监控记录方法及装置 |
US20180307753A1 (en) * | 2017-04-21 | 2018-10-25 | Qualcomm Incorporated | Acoustic event enabled geographic mapping |
JP7341639B2 (ja) * | 2017-05-16 | 2023-09-11 | キヤノンメディカルシステムズ株式会社 | 医用画像診断装置 |
EP3454570A1 (en) * | 2017-09-07 | 2019-03-13 | Harpex Ltd | Signal acquisition device for acquiring three-dimensional (3d) wave field signals |
US10489238B2 (en) * | 2017-10-28 | 2019-11-26 | Facebook, Inc. | Analyzing screenshots to detect application issues |
US11099075B2 (en) * | 2017-11-02 | 2021-08-24 | Fluke Corporation | Focus and/or parallax adjustment in acoustic imaging using distance information |
US11209306B2 (en) * | 2017-11-02 | 2021-12-28 | Fluke Corporation | Portable acoustic imaging tool with scanning and analysis capability |
US20190129027A1 (en) * | 2017-11-02 | 2019-05-02 | Fluke Corporation | Multi-modal acoustic imaging tool |
CN111480348B (zh) * | 2017-12-21 | 2022-01-07 | 脸谱公司 | 用于基于音频的增强现实的系统和方法 |
US20200351452A1 (en) * | 2018-01-04 | 2020-11-05 | Xinova, LLC | Visualization of audio signals for surveillance |
WO2019140047A1 (en) * | 2018-01-10 | 2019-07-18 | The Trustees Of Princeton University | System and method for smart, secure, energy-efficient iot sensors |
US20190043525A1 (en) * | 2018-01-12 | 2019-02-07 | Intel Corporation | Audio events triggering video analytics |
JP6856168B2 (ja) * | 2018-02-16 | 2021-04-07 | 日本電気株式会社 | 異常音検知装置および異常音検知方法 |
USD920137S1 (en) * | 2018-03-07 | 2021-05-25 | Intel Corporation | Acoustic imaging device |
US10317505B1 (en) | 2018-03-29 | 2019-06-11 | Microsoft Technology Licensing, Llc | Composite sound output for network connected devices |
WO2019193440A1 (en) * | 2018-04-06 | 2019-10-10 | Leonardo S.P.A. | Acoustic system for detecting and locating low intensity and low frequency sound sources and related locating method |
US10991381B2 (en) * | 2018-04-09 | 2021-04-27 | Well Checked Systems International LLC | System and method for machine learning predictive maintenance through auditory detection on natural gas compressors |
US10847162B2 (en) * | 2018-05-07 | 2020-11-24 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
EP3573031B1 (en) * | 2018-05-24 | 2022-05-11 | Infineon Technologies AG | System and method for surveillance |
US10909372B2 (en) * | 2018-05-28 | 2021-02-02 | Microsoft Technology Licensing, Llc | Assistive device for the visually-impaired |
CN108594795A (zh) * | 2018-05-31 | 2018-09-28 | 北京康拓红外技术股份有限公司 | 一种动车组声音故障诊断系统及诊断方法 |
US11494158B2 (en) | 2018-05-31 | 2022-11-08 | Shure Acquisition Holdings, Inc. | Augmented reality microphone pick-up pattern visualization |
TWI682368B (zh) * | 2018-07-03 | 2020-01-11 | 緯創資通股份有限公司 | 利用多維度感測器資料之監控系統及監控方法 |
EP3827227A1 (en) * | 2018-07-24 | 2021-06-02 | Fluke Corporation | Systems and methods for projecting and displaying acoustic data |
EP3829161B1 (en) * | 2018-07-24 | 2023-08-30 | Sony Group Corporation | Information processing device and method, and program |
GB2578418B (en) * | 2018-07-25 | 2022-06-15 | Audio Analytic Ltd | Sound detection |
CN109213319A (zh) * | 2018-08-04 | 2019-01-15 | 瑞声科技(新加坡)有限公司 | 基于场景的振动反馈方法及移动终端 |
KR102706386B1 (ko) * | 2018-08-16 | 2024-09-12 | 한화비전 주식회사 | 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법 |
WO2020037229A1 (en) * | 2018-08-17 | 2020-02-20 | 3M Innovative Properties Company | Structured texture embeddings in pathway articles for machine recognition |
WO2020043007A1 (en) | 2018-08-27 | 2020-03-05 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for purifying voice using depth information |
CN109151642B (zh) * | 2018-09-05 | 2019-12-24 | 北京今链科技有限公司 | 一种智能耳机、智能耳机处理方法、电子设备及存储介质 |
US11520041B1 (en) * | 2018-09-27 | 2022-12-06 | Apple Inc. | Correcting depth estimations derived from image data using acoustic information |
WO2020071632A1 (ko) * | 2018-10-02 | 2020-04-09 | 엘지전자 주식회사 | 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치 |
US10896341B2 (en) * | 2018-11-15 | 2021-01-19 | International Business Machines Corporation | Efficient defect localization/segmentation for surface defect inspection |
KR102691543B1 (ko) * | 2018-11-16 | 2024-08-02 | 삼성전자주식회사 | 오디오 장면을 인식하는 전자 장치 및 그 방법 |
CN109598885B (zh) * | 2018-12-21 | 2021-06-11 | 广东中安金狮科创有限公司 | 监控系统及其报警方法 |
JP2022515266A (ja) * | 2018-12-24 | 2022-02-17 | ディーティーエス・インコーポレイテッド | 深層学習画像解析を用いた室内音響シミュレーション |
JP7180366B2 (ja) * | 2018-12-25 | 2022-11-30 | コニカミノルタ株式会社 | 画像形成装置、画像形成システム及び劣化検出方法 |
US11531901B2 (en) * | 2018-12-26 | 2022-12-20 | General Electric Company | Imaging modality smart find maintenance systems and methods |
US10922806B2 (en) * | 2019-02-05 | 2021-02-16 | GM Global Technology Operations LLC | Sound-based flow check system for washer system |
US10424048B1 (en) * | 2019-02-15 | 2019-09-24 | Shotspotter, Inc. | Systems and methods involving creation and/or utilization of image mosaic in classification of acoustic events |
TWI712033B (zh) * | 2019-03-14 | 2020-12-01 | 鴻海精密工業股份有限公司 | 聲音識別方法、裝置、電腦裝置及存儲介質 |
US10897672B2 (en) * | 2019-03-18 | 2021-01-19 | Facebook, Inc. | Speaker beam-steering based on microphone array and depth camera assembly input |
US20220148432A1 (en) * | 2019-03-27 | 2022-05-12 | Sony Group Corporation | Imaging system |
US11343545B2 (en) | 2019-03-27 | 2022-05-24 | International Business Machines Corporation | Computer-implemented event detection using sonification |
CN110006672A (zh) * | 2019-04-09 | 2019-07-12 | 唐山百川智能机器股份有限公司 | 基于声成像技术的轨道车辆故障监测方法 |
CN109932054B (zh) * | 2019-04-24 | 2024-01-26 | 北京耘科科技有限公司 | 可穿戴式声学检测识别系统 |
US11030479B2 (en) * | 2019-04-30 | 2021-06-08 | Sony Interactive Entertainment Inc. | Mapping visual tags to sound tags using text similarity |
US11102603B2 (en) * | 2019-05-28 | 2021-08-24 | Facebook Technologies, Llc | Determination of material acoustic parameters to facilitate presentation of audio content |
US11138858B1 (en) * | 2019-06-27 | 2021-10-05 | Amazon Technologies, Inc. | Event-detection confirmation by voice user interface |
CN110661988B (zh) * | 2019-08-14 | 2022-01-11 | 四川天源宏创科技有限公司 | 一种声音与图像混合阵列处理系统 |
JP7304955B2 (ja) * | 2019-08-28 | 2023-07-07 | 株式会社ソニー・インタラクティブエンタテインメント | 画像処理装置、システム、画像処理方法および画像処理プログラム |
US20210097727A1 (en) * | 2019-09-27 | 2021-04-01 | Audio Analytic Ltd | Computer apparatus and method implementing sound detection and responses thereto |
KR102210041B1 (ko) * | 2019-10-01 | 2021-02-01 | (주)에스엠인스트루먼트 | Cctv 연계형 음향 시각화 시스템 |
CN110907895A (zh) * | 2019-12-05 | 2020-03-24 | 重庆商勤科技有限公司 | 噪声监测识别定位方法、系统及计算机可读存储介质 |
GB2590504A (en) * | 2019-12-20 | 2021-06-30 | Nokia Technologies Oy | Rotating camera and microphone configurations |
JP2021143869A (ja) * | 2020-03-10 | 2021-09-24 | 株式会社ジェイテクト | 監視装置及び監視方法 |
EP3879507A1 (en) * | 2020-03-12 | 2021-09-15 | Hexagon Technology Center GmbH | Visual-acoustic monitoring system for event detection, localization and classification |
US11967226B2 (en) * | 2020-05-28 | 2024-04-23 | Not-A-Loud Llc | Automated vehicle noise pollution detection and recording device |
CN111951312B (zh) * | 2020-08-06 | 2024-08-02 | 北京灵汐科技有限公司 | 图像配准、图像采集时间配准方法、装置、设备及介质 |
EP4211494A2 (en) * | 2020-09-11 | 2023-07-19 | Fluke Corporation | System and method for generating panoramic acoustic images and virtualizing acoustic imaging devices by segmentation |
CN112285648B (zh) * | 2020-10-13 | 2022-11-01 | 西北工业大学 | 一种基于声源定位的增强现实系统与方法 |
CN112351248B (zh) * | 2020-10-20 | 2023-05-30 | 杭州海康威视数字技术股份有限公司 | 一种关联图像数据和声音数据的处理方法 |
CN112163122B (zh) * | 2020-10-30 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 确定目标视频的标签的方法、装置、计算设备及存储介质 |
CN112565598B (zh) * | 2020-11-26 | 2022-05-17 | Oppo广东移动通信有限公司 | 聚焦方法与装置、终端、计算机可读存储介质和电子设备 |
EP4047341A1 (en) * | 2021-02-19 | 2022-08-24 | Universiteit Antwerpen | Detection of gas leaks from pressurized containers |
US20220283774A1 (en) * | 2021-03-03 | 2022-09-08 | Shure Acquisition Holdings, Inc. | Systems and methods for noise field mapping using beamforming microphone array |
US11765501B2 (en) * | 2021-03-10 | 2023-09-19 | Honeywell International Inc. | Video surveillance system with audio analytics adapted to a particular environment to aid in identifying abnormal events in the particular environment |
US12072413B1 (en) * | 2021-03-31 | 2024-08-27 | Amazon Technologies, Inc. | Method for wall detection and localization |
WO2022226214A1 (en) * | 2021-04-23 | 2022-10-27 | Flir Systems Ab | Audio event detection in health screening systems and methods |
US11659324B1 (en) * | 2021-05-03 | 2023-05-23 | Meta Platforms Technologies, Llc | Memory recall of historical data samples bucketed in discrete poses for audio beamforming |
CN113286088A (zh) * | 2021-05-31 | 2021-08-20 | 江苏文旭信息技术股份有限公司 | 一种通过声音定位进行视频优化的视频系统 |
CN113640597A (zh) * | 2021-07-16 | 2021-11-12 | 瑞芯微电子股份有限公司 | 一种检测智慧空间设备的方法、存储设备和检测设备的方法、系统 |
CN113611395B (zh) * | 2021-08-09 | 2024-05-31 | 江苏嘉纳宝医疗科技有限公司 | 基于虚拟现实技术的精神心理疾患用户辅助训练方法 |
CN113792726B (zh) * | 2021-11-16 | 2022-03-04 | 北京长隆讯飞科技有限公司 | 一种基于视觉图像快速生成poi的方法及系统 |
US20230319416A1 (en) * | 2022-04-01 | 2023-10-05 | Universal City Studios Llc | Body language detection and microphone control |
CN114509162B (zh) * | 2022-04-18 | 2022-06-21 | 四川三元环境治理股份有限公司 | 一种声环境数据监测方法及系统 |
WO2023239004A1 (en) * | 2022-06-08 | 2023-12-14 | Samsung Electronics Co., Ltd. | System and method for matching a visual source with a sound signal |
CN114964650B (zh) * | 2022-08-01 | 2022-11-18 | 杭州兆华电子股份有限公司 | 一种基于声学成像的气体泄漏报警方法及装置 |
TWI830383B (zh) * | 2022-09-16 | 2024-01-21 | 圓展科技股份有限公司 | 拍攝聲源的系統及方法 |
US12049002B2 (en) * | 2022-10-20 | 2024-07-30 | Robert Bosch Gmbh | System and methods for monitoring machine health |
TWI814651B (zh) * | 2022-11-25 | 2023-09-01 | 國立成功大學 | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 |
CN115620742B (zh) * | 2022-12-01 | 2023-03-31 | 杭州兆华电子股份有限公司 | 一种应用于声学成像的自动选频方法 |
KR20240100288A (ko) * | 2022-12-22 | 2024-07-01 | 조윤희 | 인공지능을 이용한 소음 감시 장치 및 방법 |
CN118281742B (zh) * | 2024-06-03 | 2024-08-16 | 国网山西省电力公司太原供电公司 | 一种电缆室泄压动态调节系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289633B2 (en) * | 2002-09-30 | 2007-10-30 | Verax Technologies, Inc. | System and method for integral transference of acoustical events |
TW200945174A (en) * | 2008-04-14 | 2009-11-01 | Pointgrab Ltd | Vision based pointing device emulation |
KR20100013347A (ko) * | 2010-01-20 | 2010-02-09 | (주)테슬라시스템 | 촬영된 영상에 음원 정보를 표시하는 카메라 시스템 |
CN102404667A (zh) * | 2010-07-28 | 2012-04-04 | 株式会社泛泰 | 融合声对象信息的设备和方法 |
US20120268424A1 (en) * | 2011-04-20 | 2012-10-25 | Kim Taehyeong | Method and apparatus for recognizing gesture of image display device |
US20130272095A1 (en) * | 2010-09-29 | 2013-10-17 | Adrian S. Brown | Integrated audio-visual acoustic detection |
US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
CN104246796A (zh) * | 2012-04-13 | 2014-12-24 | 高通股份有限公司 | 使用多模匹配方案的对象辨识 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2406787B1 (en) | 2009-03-11 | 2014-05-14 | Google, Inc. | Audio classification for information retrieval using sparse features |
US8751228B2 (en) * | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
CN103295584B (zh) * | 2012-02-24 | 2015-10-14 | 索尼公司 | 音声数据检测装置、音声监控系统及其方法 |
US9195649B2 (en) * | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
CN104243894A (zh) * | 2013-06-09 | 2014-12-24 | 中国科学院声学研究所 | 一种声视频融合监控方法 |
EP3055853A4 (en) * | 2013-10-07 | 2017-08-30 | Mentice Inc. | Medical procedure simulation-based radiation estimation and protection |
US9646227B2 (en) * | 2014-07-29 | 2017-05-09 | Microsoft Technology Licensing, Llc | Computerized machine learning of interesting video sections |
US10223727B2 (en) * | 2014-10-20 | 2019-03-05 | Oath Inc. | E-commerce recommendation system and method |
-
2015
- 2015-03-19 US US14/662,880 patent/US9736580B2/en active Active
-
2016
- 2016-01-12 TW TW105100796A patent/TWI616811B/zh active
- 2016-02-18 WO PCT/US2016/018387 patent/WO2016148825A1/en active Application Filing
- 2016-02-18 CN CN201680011015.5A patent/CN107223332B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289633B2 (en) * | 2002-09-30 | 2007-10-30 | Verax Technologies, Inc. | System and method for integral transference of acoustical events |
TW200945174A (en) * | 2008-04-14 | 2009-11-01 | Pointgrab Ltd | Vision based pointing device emulation |
KR20100013347A (ko) * | 2010-01-20 | 2010-02-09 | (주)테슬라시스템 | 촬영된 영상에 음원 정보를 표시하는 카메라 시스템 |
CN102404667A (zh) * | 2010-07-28 | 2012-04-04 | 株式会社泛泰 | 融合声对象信息的设备和方法 |
US20130272095A1 (en) * | 2010-09-29 | 2013-10-17 | Adrian S. Brown | Integrated audio-visual acoustic detection |
US20120268424A1 (en) * | 2011-04-20 | 2012-10-25 | Kim Taehyeong | Method and apparatus for recognizing gesture of image display device |
US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
CN104246796A (zh) * | 2012-04-13 | 2014-12-24 | 高通股份有限公司 | 使用多模匹配方案的对象辨识 |
Also Published As
Publication number | Publication date |
---|---|
US9736580B2 (en) | 2017-08-15 |
CN107223332B (zh) | 2021-02-05 |
WO2016148825A1 (en) | 2016-09-22 |
TW201643688A (zh) | 2016-12-16 |
CN107223332A (zh) | 2017-09-29 |
US20160277863A1 (en) | 2016-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI616811B (zh) | 用於聲學監測的系統、單晶片系統、行動計算裝置、電腦程式產品以及方法 | |
US11735018B2 (en) | Security system with face recognition | |
US10257499B2 (en) | Motion sensor | |
US11393212B2 (en) | System for tracking and visualizing objects and a method therefor | |
CN110895861B (zh) | 异常行为预警方法、装置、监控设备和存储介质 | |
CN104519318B (zh) | 图像监控系统和监视摄像机 | |
US20150379358A1 (en) | Systems and Methods for Automated Cloud-Based Analytics and 3-Dimensional (3D) Display for Surveillance Systems | |
Gomes et al. | A vision-based approach to fire detection | |
CN105554440A (zh) | 监控方法和设备 | |
CN113177469B (zh) | 人体属性检测模型的训练方法、装置、电子设备及介质 | |
Andersson et al. | Fusion of acoustic and optical sensor data for automatic fight detection in urban environments | |
CN109544870B (zh) | 用于智能监控系统的报警判断方法与智能监控系统 | |
US12106569B2 (en) | Tracking two-dimensional objects in a three-dimensional coordinate space | |
CN114913663B (zh) | 异常检测方法、装置、计算机设备和存储介质 | |
WO2018210192A1 (zh) | 一种无人机监测方法及音视频联动装置 | |
Yu et al. | AR marker aided obstacle localization system for assisting visually impaired | |
KR102653485B1 (ko) | 화재 감지를 위한 화재 감지 모델을 구축하는 전자 장치 및 그 방법 | |
Chen et al. | Safety Helmet‐Wearing Detection System for Manufacturing Workshop Based on Improved YOLOv7 | |
Shen et al. | A system for visualizing sound source using augmented reality | |
CN111310595A (zh) | 用于生成信息的方法和装置 | |
Vinith et al. | An Approach for Detecting and Identifying Suspected Weapons Using YOLO Algorithm | |
CN114067441B (zh) | 摄录行为检测方法及系统 | |
Jyothsna et al. | YOLOv8-Based Person Detection, Distance Monitoring, Speech Alerts, and Weapon Identification with Email Notifications | |
EP3819817A1 (en) | A method and system of evaluating the valid analysis region of a specific scene | |
Zhang et al. | Research on fire smoke detection algorithm based on improved YOLOv8 |