TW202247645A - 會議室系統及音訊處理方法 - Google Patents

會議室系統及音訊處理方法 Download PDF

Info

Publication number
TW202247645A
TW202247645A TW110118562A TW110118562A TW202247645A TW 202247645 A TW202247645 A TW 202247645A TW 110118562 A TW110118562 A TW 110118562A TW 110118562 A TW110118562 A TW 110118562A TW 202247645 A TW202247645 A TW 202247645A
Authority
TW
Taiwan
Prior art keywords
data
microphone
audio data
array
audio
Prior art date
Application number
TW110118562A
Other languages
English (en)
Other versions
TWI811685B (zh
Inventor
曾炅文
李育睿
余奕叡
Original Assignee
瑞軒科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞軒科技股份有限公司 filed Critical 瑞軒科技股份有限公司
Priority to TW110118562A priority Critical patent/TWI811685B/zh
Priority to US17/573,651 priority patent/US20220375486A1/en
Priority to CN202210087776.6A priority patent/CN115379351A/zh
Publication of TW202247645A publication Critical patent/TW202247645A/zh
Application granted granted Critical
Publication of TWI811685B publication Critical patent/TWI811685B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/222Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only  for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

一種音訊處理方法包括以下步驟:透過麥克風陣列擷取音訊資料,以計算音訊資料之頻譜陣列資料;使用頻譜陣列資料計算角度能量序列;以及計算角度能量序列的最大值及最小值之差值,以判斷最大值所對應之角度是否為相對於麥克風陣列的來源角度。

Description

會議室系統及音訊處理方法
本案係有關於一種電子操作系統及方法,且特別是有關於一種會議室系統及音訊處理方法。
隨著社會的演進,視訊會議系統的運用越來越普及。視訊會議系統不僅止於將數個電子設備連接在來發揮功能,而是應具備人性化的設計,並與時俱進。以其中一個議題而言,若視訊會議系統具備快速且精準地辨識發話人的方位之功能,則可提供更好的服務品質。
然而,現有的方位估測方法並無法提供快速且穩定的方位角判定,對於通常知識者而言如何提供更精確的方位角估測係亟需解決的技術問題。
發明內容旨在提供本揭示內容的簡化摘要,以使閱讀者對本案內容具備基本的理解。此發明內容並非本揭示內容的完整概述,且其用意並非在指出本案實施例的重要/關鍵元件或界定本案的範圍。
根據本案之一實施例,揭示一種音訊處理方法,包括:透過一麥克風陣列擷取一音訊資料,以計算該音訊資料之一頻譜陣列資料;使用該頻譜陣列資料計算一角度能量序列;以及計算該角度能量序列的一最大值及一最小值之差值,以判斷該最大值所對應之角度是否為相對於該麥克風陣列的一來源角度。
根據另一實施例,揭示一種會議室系統其包括麥克風陣列及處理器。麥克風陣列,經配置以擷取一音訊資料。處理器,電性耦接該麥克風陣列,經配置以:計算該音訊資料之一頻譜陣列資料;使用該頻譜陣列資料計算一角度能量序列;以及計算該角度能量序列的一最大值及一最小值之差值,以判斷該最大值所對應之角度是否為相對於該麥克風陣列的一來源角度。
以下揭示內容提供許多不同實施例,以便實施本案之不同特徵。下文描述元件及排列之實施例以簡化本案。當然,該些實施例僅為示例性且並不欲為限制性。舉例而言,本案中使用「第一」、「第二」等用語描述元件,僅是用以區別以相同或相似的元件或操作,該用語並非用以限定本案的技術元件,亦非用以限定操作的次序或順位。另外,本案可在各實施例中重複元件符號及/或字母,並且相同的技術用語可使用相同及/或相應的元件符號於各實施例。此重複係出於簡明性及清晰之目的,且本身並不指示所論述之各實施例及/或配置之間的關係。
請參照第1圖,其繪示根據本案一些實施例中的一種會議室系統100的方塊圖。會議室系統100包括麥克風陣列110、緩衝器120以及處理器140。麥克風陣列110電性耦接於緩衝器120。緩衝器120電性耦接於處理器140。於一些實施例中,緩衝器120包括第一緩衝器121(或稱為環狀緩衝器(ring buffer))以及第二緩衝器122(或稱為移動視窗(moving window) 緩衝器)。第一緩衝器121電性耦接於第二緩衝器122。如第1圖所示,第一緩衝器121電性耦接於麥克風陣列110。第二緩衝器122電性耦接於處理器140。
於一些實施例中,麥克風陣列110經配置以擷取音訊資料。舉例而言,麥克風陣列110包括複數個麥克風,持續性地啟動以擷取任何的音訊資料,使得音訊資料被儲存於第一緩衝器121。於一些實施例中,麥克風陣列110所擷取的音訊資料係以一取樣率(sample rate)被儲存於第一緩衝器121。舉例而言,取樣率可以是48kHz,即每秒取樣48000次類比音訊訊號,使得音訊資料是離散型資料型態被儲存於第一緩衝器121。
於一些實施例中,會議室系統100可以即時性地偵測當下聲音的來源之角度。舉例而言,麥克風陣列110被設置於會議室中的會議桌上。會議室系統100可以透過麥克風陣列110接收到的音訊資料來判斷聲音來源是位於360°角中相對於麥克風陣列110的角度或者角度範圍。詳細的聲音來源之角度的計算方法說明如下。
於一些實施例中,處理器140會計算音訊資料的頻譜陣列資料。舉例而言,第一緩衝器121儲存的音訊資料之取樣率為48kHz,即每秒有48000個取樣資料。為便於說明本案的取樣資料的計算,本案以1024個取樣資料作為1幀的資料,即1幀的時間為約21.3(1024/48000)毫秒。
於一些實施例中,麥克風陣列110持續地產生音訊資料,並經過取樣率48kHz的取樣後,儲存複數個幀於第一緩衝器121。第一緩衝器121的空間大小可以是2秒的緩衝空間,其可依據實際需求來設計或調整,本案不限於此。
於一些實施例中,處理器140從第一緩衝器121讀取一資料數目(例如1幀)之音訊資料,作為快速傅立葉轉換(Fourier transform, FFT)運算的輸入。於一些實施例中,於第一緩衝器121尚未儲存任何音訊資料之初始情況下,處理器140會持續地偵測第一緩衝器121的儲存資料數目是否達到一可運算的資料數目,即1幀的資料。處理器140會於第一緩衝器121中讀取每1幀的音訊資料來計算快速傅立葉轉換,並將計算的結果儲存至第二緩衝器122。
於一些實施例中,處理器140於此1幀的音訊資料分別根據一傅立葉長度(FFT length)及一窗移(FFT shift)來計算頻譜陣列資料。傅立葉長度可以是1024筆取樣資料,窗移可以是512筆的取樣資料。值得一提的是,窗移的大小影響後續用於計算到達角(degree of arrival, DOA)的幀數。舉例而言,當窗移是512筆的取樣資料,則0.75秒的音訊資料輸入快速傅立葉轉換運算後,可得到約70幀(0.75秒*48000/512)的頻譜陣列資料。當窗移是1024筆的取樣資料,則0.75秒的音訊資料輸入快速傅立葉轉換運算後,可得到約35幀(0.75秒*48000/1024)的頻譜陣列資料。換言之,窗移的大小影響後續計算到達角的結果精確度,例如窗移是512時,可以從相同的音訊資料中得到較多可用來計算到達角的幀數。因此,處理器140可於基於每1幀新到達的音訊資料,即時地計算出音訊資料的頻譜陣列資料。
於一些實施例中,處理器140預先儲存一查找表,查找表記錄快速傅立葉轉換之角度及其對應之正弦函數的數值。於每一次的快速傅立葉轉換運算時,處理器140可以直接透過查找表來得到數值,而不需要真正執行快速傅立葉轉換之運算。如此一來,可提升處理器140的運算速度。
於每一次的快速傅立葉轉換運算時,處理器140可以直接透過查找預先建立的三角函數表來得到正弦與餘弦數值,不需再次運算三角函數值,因此加速了快速傅立葉的運算。
於一些實施例中,第二緩衝器122包括一儲存空間,例如可儲存0.75秒的音訊資料之暫存空間。於處理器140從第一緩衝器121的音訊資料中計算出每一幀的頻譜陣列資料後,處理器140會將頻譜陣列資料儲存於第二緩衝器122。第二緩衝器122儲存之頻譜陣列資料包括音訊資料之在每一頻率的頻率強度。舉例而言,第二緩衝器122中儲存了0.75秒之各頻率的強度分布。
於一些實施例中,處理器122只要於初始狀態下(例如第二緩衝器122未儲存任何頻譜陣列資料)從第一緩衝器121讀取0.75秒音訊資料並計算出頻譜陣列資料,使得第二緩衝器122儲存0.75秒的頻譜陣列資料。之後,處理器122於第一緩衝器121取得每1幀新到達的音訊資料來計算頻譜陣列資料,並從第二緩衝器122的0.75秒的資料中刪除最舊1幀的資料,以將此新的1幀頻譜陣列資料儲存至第二緩衝器122。換言之,處理器122在後續從第二緩衝器122的頻譜陣列資料中計算各角度的能量序列時,例如第二緩衝器122總共儲存有70幀的資料,其中69幀的資料是舊資料,1幀的資料是新資料,因為舊的頻譜陣列資料已經被計算過各角度的能量序列,只需要使用此新的1幀的頻譜陣列資料來計算角度的能量序列。如此一來,可減少計算每次各角度的能量之時間。從頻譜陣列資料中計算各角度的能量序列的說明如下。
於一些實施例中,麥克風陣列110包括複數個麥克風,每一個麥克風都會擷取音訊資料,使得處理器140會計算每一個麥克風所擷取之音訊資料來得到對應的頻譜陣列資料。因此,處理器140可以從每一個麥克風的音訊資料來計算得到各麥克風之音訊資料在每一頻率的頻率強度。於另一些實施例中,麥克風陣列110包括複數個環狀排列的麥克風,例如麥克風之間以半徑4.17公分彼此環狀排列。為便於說明,麥克風陣列110以兩個麥克風來作為實施例說明。
於一些實施例中,麥克風陣列110包括第一麥克風及第二麥克風。第一麥克風設置在相對於第二麥克風一段距離的位置。於一些實施例中,處理器140會分別計算出第一麥克風之第一頻譜陣列資料以及第二麥克風之第二頻譜陣列資料。頻譜陣列資料的計算程序如上述說明,於此不再重述。
由於麥克風彼此之間的配置距離為已知的值,且麥克風彼此之間的距離相當小,因此,對於同一個聲音來源,各麥克風所產生的音訊資料的波形會相似,而各波形之間會存在一時延。於一些實施例中,處理器140可以透過第一麥克風的音訊資料及第二麥克風的音訊資料之時延或相位角,來計算得到聲源相對於麥克風陣列110的來源角度。舉例而言,處理器140會計算該第一麥克風之第一音訊資料及第二麥克風之第二音訊資料之間的時延長度,以根據時延長度來校正第一音訊資料及第二音訊資料的時間,以對齊第一音訊資料及第二音訊資料之波形。接著,處理器140會使用經對齊的波形之第一音訊資料及第二音訊資料來獲得第一頻譜陣列資料及第二頻譜陣列資料。值得一提的是,延遲疊加技術可以實施於時域或頻率,本案不限於此。
於一些實施例中,處理器140根據第一麥克風之第一頻譜陣列資料在每一頻率的頻率強度以及第二麥克風之第二頻譜陣列資料在每一頻率的頻率強度,計算出角度能量序列。角度能量序列包括平面上各角度之聲音能量。舉例而言,處理器140使用第一頻譜陣列及第二頻譜陣列計算0°角至360°角的延遲疊加頻譜。處理器140計算第一頻譜陣列資料在每一頻率的頻率強度與第二頻譜陣列資料在每一頻率的頻率強度之平方和,以獲得角度能量序列。於一些實施例中,處理器140可以每1°角計算其角度能量,也可每10°角(例如0°角至9°角)計算一角度範圍的能量,本案不限於此。如此一來,可以計算得到在平面上的0°角至360°角中的各角度或各角度範圍的能量分布,例如最大值的能量為40°角,最小值的能量為271°角。
值得一提的是,習知技術中,在執行快速傅立葉轉換來計算出頻率資料之後(例如SRP-PHAT演算法),需要再執行反傅立葉轉換(Inverse Fast Fourier transform, IFFT)運算來將頻率資料轉回為時域資料,而得到時間曲線。接著,需要計算時間曲線之面積來獲得能量值,以作為角度能量資料。然而,從頻率曲線所計算出來的面積,即能量值,並不會因為頻域轉換為時域之後而有所改變,因此於本案中,於執行快速傅立葉轉換(FFT)而計算出頻率資料之後,不需要再執行反傅立葉轉換(IFFT)運算,而是直接使用快速傅立葉轉換(FFT)得到之頻率資料來計算角度的能量值,即可得到角度能量序列(每一個角度或角度範圍對應的能量值)。如此一來,可節省執行反傅立葉轉換(IFFT)運算的時間,大幅縮短計算的成本及時間。
於一些實施例中,處理器140會判斷角度能量序列的最大值及最小值之差值是否大於門檻值。當差值大於門檻值,則判定最大值所對應之角度為相對於麥克風陣列的來源角度。當差值不大於門檻值,則判定最大值所對應之音訊資料為雜訊資料。舉例而言,若最大值的能量(於40°角)與最小值的能量(於271°角)之間的差值大於門檻值,代表此聲音來源具有意義,例如是有人在說話,則輸出此角度(40°角)至例如顯示裝置(第1圖未繪示)。另一方面,若最大值的能量(於40°角)與最小值的能量(於271°角)之間的差值不大於門檻值,則代表環境中存在雜訊或噪音,該最大值只是較大聲的噪音。因此,不採用該最大值對應的角度來作為聲源的來源角度。
於一些實施例中,處理器140採用定點運算(fixed point)來處理快速傅立葉轉換之運算,透過硬體支援浮點數轉換為定點數的計算方法,來加速音訊資料的處理。
以下說明請一併參照第1圖及第2圖。第2圖繪示根據本案一些實施例中的一種音訊處理方法200的流程圖。音訊處理方法200可由會議室系統100中的至少一元件所執行。
於步驟S210,透過麥克風陣列110擷取音訊資料,以計算音訊資料之頻譜陣列資料。
於一些實施例中,麥克風陣列110所擷取的音訊資料係以例如48kHz的取樣率被儲存於第一緩衝器121。第一緩衝器121例如是可儲存2秒的音訊訊號的暫存儲存空間。當麥克風陣列110持續地擷取音訊訊號,音訊訊號以先進先出的順序儲存至第一緩衝器121。若1幀的音訊資料包括1024個取樣資料,則第一緩衝器121儲存有複數個幀以供後續計算快速傅立葉轉換之運算。
於步驟S220,使用頻譜陣列資料計算角度能量序列。
於一些實施例中,處理器140從第一緩衝器121讀取一資料數目(例如1幀)之音訊資料,作為快速傅立葉轉換運算的輸入。於一些實施例中,處理器140於此1幀的音訊資料分別根據一傅立葉長度及一窗移來計算頻譜陣列資料。傅立葉長度可以是1幀(例如1024筆取樣資料)的音訊資料,窗移可以是512筆的取樣資料。處理器140將每1幀的音訊資料作快速傅立葉轉換運算,可得到每1幀的頻譜陣列資料。頻譜陣列資料會以先進先出的順序被儲存於第二緩衝器122。第二緩衝器122的儲存空間例如是可儲存0.75秒音訊資料之暫存空間。因此,處理器140每一次計算出新的1幀之頻譜陣列資料時,會先刪除第二緩衝器122中最舊的1幀之資料,使得新的1幀之頻譜陣列資料以先進新出的順序儲存於第二緩衝器122中最後面的儲存空間。
於步驟S230,計算角度能量序列的最大值及最小值之差值。
於一些實施例中,麥克風陣列110包括複數個麥克風。處理器140會分別讀取這些麥克風所產生的音訊資料,並分別計算出這些音訊資料的頻譜陣列資料。舉例而言,處理器140會分別計算出第一麥克風之第一頻譜陣列資料以及第二麥克風之第二頻譜陣列資料。頻譜陣列資料的計算程序如上述說明,於此不再重述。
於一些實施例中,處理器140可以透過第一麥克風的音訊資料及第二麥克風的音訊資料之時延或相位角,來計算得到聲源相對於麥克風陣列110的來源角度。除此之外,處理器140根據第一麥克風之第一頻譜陣列資料在每一頻率的頻率強度以及第二麥克風之第二頻譜陣列資料在每一頻率的頻率強度,計算出角度能量序列。角度能量序列包括平面上各角度之聲音能量。如此一來,每一次產生1幀的頻譜陣列資料,即可更新各角度之聲音能量。於一些實施例中,處理器140可以從0°角至360°角的聲音能量中取得最大值及最小值。
於步驟S240,判斷差值是否大於門檻值。於一些實施例中,當處理器140判定角度能量序列的最大值及最小值之差值大於門檻值,則執行步驟S250。於步驟S250,當差值大於門檻值,則判定最大值所對應之角度為相對於麥克風陣列的來源角度。若於步驟S240中判斷差值不大於門檻值,則執行步驟S260。於步驟S260,判定最大值所對應之音訊資料為雜訊資料。
於一些實施例中,由於音訊處理方法200是即時性的獲得聲源的來源角度,處理器140會進一步地輸出此來源角度,例如輸出至顯示裝置(第1圖未繪示)供相關人員觀看,或者根據此來源角度來控制另一攝影機,以控制該攝影機轉動至該來源角度,以拍攝該聲源的畫面或作相關特寫。
於一些實施例中,處理器140可以實施為但不限於中央處理器(central processing unit, CPU)、系統單晶片(System on Chip, SoC)、應用處理器、音訊處理器、數位訊號處理器(digital signal processor, DSP)或特定功能的處理晶片或控制器。
在一些實施例中提出一種非暫態電腦可讀取記錄媒體,可儲存多個程式碼。程式碼被載入至如第1圖之處理器140後,處理器140執行程式碼並執行如第2圖之步驟。舉例來說,處理器140透過麥克風陣列110取得之音訊資料並計算音訊資料之頻譜陣列資料,並使用頻譜陣列資料來計算角度能量序列,以及計算角度能量序列的最大值及最小值之差值,以判斷最大值所對應之角度是否為相對於麥克風陣列110的來源角度。
綜上所述,本案的會議室系統及音訊處理方法具有以下的優點:設置查找表其記錄角度值及其對應的正弦值,省去(有效減少)處理器140計算每一個傅立葉轉換之運算時間,並且藉由設置第一緩衝器121的方式,使得錄音程序及角度計算程序得以分開進行。此外,會議室系統設置支援定點運算之硬體,可大幅加速運算時間。並且,在取得頻譜陣列資料後,本案不需要執行反傅立葉轉換運算來轉換為時域資料,而是直接運算頻率的資料來計算聲源的能量,縮短計算聲源的能量之時間。再者,於第二緩衝器122中儲存0.75秒的頻譜陣列,並於每一次計算出新的1幀資料時,只需要刪除第二緩衝器122的頻譜資料中最舊的1幀資料並加入新的1幀資料,即可更新各角度的能量值,更新時間相較於一般需要累積2秒才能重新計算各角度的方法而言,本案可以即時地反應出當下聲源的來源角度。
除此之外,本案的會議室系統及音訊處理方法藉由每一次計算最大值及最小值的差值,來判斷當下聲源的最大值是否為雜訊的方式,避免聲源的判斷受雜訊的干擾,進而提升系統的穩定性及準確性。
上述內容概述若干實施例之特徵,使得熟習此項技術者可更好地理解本案之態樣。熟習此項技術者應瞭解,在不脫離本案的精神和範圍的情況下,可輕易使用上述內容作為設計或修改為其他變化的基礎,以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。上述內容應當被理解為本案的舉例,其保護範圍應以申請專利範圍為準。
100:會議室系統 110:麥克風陣列 120:緩衝器 121:第一緩衝器 122:第二緩衝器 140:處理器 200:音訊處理方法 S210~S260:步驟
以下詳細描述結合隨附圖式閱讀時,將有利於較佳地理解本揭示文件之態樣。應注意,根據說明上實務的需求,圖式中各特徵並不一定按比例繪製。實際上,出於論述清晰之目的,可能任意增加或減小各特徵之尺寸。 第1圖繪示根據本案一些實施例中的一種會議室系統的方塊圖。 第2圖繪示根據本案一些實施例中的一種音訊處理方法的流程圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
100:會議室系統
110:麥克風陣列
120:緩衝器
121:第一緩衝器
122:第二緩衝器
140:處理器

Claims (20)

  1. 一種音訊處理方法,包括: 透過一麥克風陣列擷取一音訊資料,以計算該音訊資料之一頻譜陣列資料; 使用該頻譜陣列資料計算一角度能量序列;以及 計算該角度能量序列的一最大值及一最小值之差值,以判斷該最大值所對應之角度是否為相對於該麥克風陣列的一來源角度。
  2. 如請求項1所述之音訊處理方法,更包括: 根據一取樣率儲存該音訊資料於一第一緩衝器; 從該第一緩衝器讀取一資料數目之該音訊資料來進行快速傅立葉轉換運算; 根據一傅立葉長度及一窗移來對該資料數目之該音訊資料;以及 儲存該頻譜陣列資料於一第二緩衝器。
  3. 如請求項2所述之音訊處理方法,其中該第二緩衝器儲存之該頻譜陣列資料包括該音訊資料之在每一頻率的頻率強度。
  4. 如請求項1所述之音訊處理方法,其中該麥克風陣列包括一第一麥克風及一第二麥克風,該第一麥克風設置在相對於該第二麥克風一距離的位置,其中該音訊處理方法更包括: 根據對應該第一麥克風之一第一頻譜陣列資料在每一頻率的頻率強度以及對應該第二麥克風之一第二頻譜陣列資料在每一頻率的頻率強度,以計算出該角度能量序列,其中該角度能量序列包括平面上各角度之聲音能量。
  5. 如請求項4所述之音訊處理方法,更包括: 計算該第一麥克風之一第一音訊資料及該第二麥克風之一第二音訊資料之間的一時延長度。
  6. 如請求項5所述之音訊處理方法,更包括: 根據該時延長度校正該第一音訊資料及該第二音訊資料的時間以對齊該第一音訊資料及該第二音訊資料之波形;以及 使用經對齊波形之該第一音訊資料及該第二音訊資料來獲得該第一頻譜陣列資料及該第二頻譜陣列資料。
  7. 如請求項4所述之音訊處理方法,更包括: 計算該第一頻譜陣列資料在每一頻率的頻率強度與該第二頻譜陣列資料在每一頻率的頻率強度之平方和,以獲得該角度能量序列。
  8. 如請求項4所述之音訊處理方法,更包括: 判斷該角度能量序列的該最大值及該最小值之該差值是否大於一門檻值;以及 當該差值大於該門檻值,則判定該最大值所對應之角度為相對於該麥克風陣列的該來源角度。
  9. 如請求項8所述之音訊處理方法,更包括: 當該差值不大於該門檻值,則判定該最大值所對應之音訊資料為雜訊資料。
  10. 如請求項1所述之音訊處理方法,更包括: 輸出該來源角度作為判定產生該音訊資料之聲源相對於該麥克風陣列之角度。
  11. 一種會議室系統,包括: 一麥克風陣列,經配置以擷取一音訊資料;以及 一處理器,電性耦接該麥克風陣列,經配置以: 計算該音訊資料之一頻譜陣列資料; 使用該頻譜陣列資料計算一角度能量序列;以及 計算該角度能量序列的一最大值及一最小值之差值,以判斷該最大值所對應之角度是否為相對於該麥克風陣列的一來源角度。
  12. 如請求項11所述之會議室系統,更包括: 一第一緩衝器,電性耦接該麥克風陣列,其中該第一緩衝器經配置以儲存包括一取樣率之該音訊資料;以及 一第二緩衝器,電性耦接該第一緩衝器及該處理器,其中該處理器更經配置以: 從該第一緩衝器讀取一資料數目之該音訊資料來進行快速傅立葉轉換運算; 根據一傅立葉長度及一窗移來對該資料數目之該音訊資料計算出該頻譜陣列資料;以及 儲存該頻譜陣列資料於該第二緩衝器。
  13. 如請求項12所述之會議室系統,其中該第二緩衝器儲存之該頻譜陣列資料包括該音訊資料之在每一頻率的頻率強度。
  14. 如請求項11所述之會議室系統,其中該麥克風陣列包括一第一麥克風及一第二麥克風,該第一麥克風設置在相對於該第二麥克風一距離的位置,其中該處理器更經配置以: 根據對應該第一麥克風之一第一頻譜陣列資料在每一頻率的頻率強度以及對應該第二麥克風之一第二頻譜陣列資料在每一頻率的頻率強度,以計算出該角度能量序列,其中該角度能量序列包括平面上各角度之聲音能量。
  15. 如請求項14所述之會議室系統,其中該處理器更經配置以: 計算該第一麥克風之一第一音訊資料及該第二麥克風之一第二音訊資料之間的一時延長度。
  16. 如請求項15所述之會議室系統,其中該處理器更經配置以: 根據該時延長度校正該第一音訊資料及該第二音訊資料的時間以對齊該第一音訊資料及該第二音訊資料之波形;以及 使用經對齊波形之該第一音訊資料及該第二音訊資料來獲得該第一頻譜陣列資料及該第二頻譜陣列資料。
  17. 如請求項14所述之會議室系統,其中該處理器更經配置以: 計算該第一頻譜陣列資料在每一頻率的頻率強度與該第二頻譜陣列資料在每一頻率的頻率強度之平方和,以獲得該角度能量序列。
  18. 如請求項14所述之會議室系統,其中該處理器更經配置以: 判斷該角度能量序列的該最大值及該最小值之該差值是否大於一門檻值;以及 當該差值大於該門檻值,則判定該最大值所對應之角度為相對於該麥克風陣列的該來源角度。
  19. 如請求項18所述之會議室系統,其中該處理器更經配置以: 當該差值不大於該門檻值,則判定該最大值所對應之音訊資料為雜訊資料。
  20. 如請求項11所述之會議室系統,其中該處理器更經配置以: 輸出該來源角度作為判定產生該音訊資料之聲源相對於該麥克風陣列之角度。
TW110118562A 2021-05-21 2021-05-21 會議室系統及音訊處理方法 TWI811685B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW110118562A TWI811685B (zh) 2021-05-21 2021-05-21 會議室系統及音訊處理方法
US17/573,651 US20220375486A1 (en) 2021-05-21 2022-01-12 Conference room system and audio processing method
CN202210087776.6A CN115379351A (zh) 2021-05-21 2022-01-25 会议室系统及音频处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110118562A TWI811685B (zh) 2021-05-21 2021-05-21 會議室系統及音訊處理方法

Publications (2)

Publication Number Publication Date
TW202247645A true TW202247645A (zh) 2022-12-01
TWI811685B TWI811685B (zh) 2023-08-11

Family

ID=84060773

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110118562A TWI811685B (zh) 2021-05-21 2021-05-21 會議室系統及音訊處理方法

Country Status (3)

Country Link
US (1) US20220375486A1 (zh)
CN (1) CN115379351A (zh)
TW (1) TWI811685B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
JP5098176B2 (ja) * 2006-01-10 2012-12-12 カシオ計算機株式会社 音源方向判定方法及び装置
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8130978B2 (en) * 2008-10-15 2012-03-06 Microsoft Corporation Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds
TWI437555B (zh) * 2010-10-19 2014-05-11 Univ Nat Chiao Tung 空間前處理目標干擾比權衡之濾波裝置及其方法
CN105847611B (zh) * 2016-03-21 2020-02-11 腾讯科技(深圳)有限公司 一种回声时延检测方法、回声消除芯片及终端设备
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
US11435429B2 (en) * 2019-03-20 2022-09-06 Intel Corporation Method and system of acoustic angle of arrival detection

Also Published As

Publication number Publication date
US20220375486A1 (en) 2022-11-24
CN115379351A (zh) 2022-11-22
TWI811685B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
KR102340999B1 (ko) 시간 지연 추정을 기반으로 하는 에코 제거 방법 및 장치
WO2017202292A1 (zh) 一种回声时延跟踪方法及装置
WO2016180100A1 (zh) 一种音频处理的性能提升方法及装置
WO2017162115A1 (zh) 一种回声时延检测方法、回声消除芯片及终端设备
WO2018040430A1 (zh) 一种回声时延的确定方法、装置及智能会议设备
WO2016008311A1 (zh) 一种根据频域能量对音频信号进行检测的方法和装置
CN109727607B (zh) 时延估计方法、装置及电子设备
CN106384597B (zh) 一种音频数据处理方法、及设备
WO2017152601A1 (zh) 一种麦克风确定方法和终端
US9773510B1 (en) Correcting clock drift via embedded sine waves
US11882244B2 (en) Video special effects processing method and apparatus
JP2013182044A (ja) 音声信号処理装置、方法及びプログラム
JP2015084466A (ja) サンプリングポイント調整装置および方法、並びにプログラム
TW202247645A (zh) 會議室系統及音訊處理方法
US11437054B2 (en) Sample-accurate delay identification in a frequency domain
JP2004064697A (ja) 音源受音位置推定方法、装置、およびプログラム
US9076458B1 (en) System and method for controlling noise in real-time audio signals
CN113156373B (zh) 声源定位方法、数字信号处理装置及音频系统
US11462227B2 (en) Method for determining delay between signals, apparatus, device and storage medium
JP2008112056A (ja) 音声信号処理装置
CN112985583B (zh) 结合短时脉冲检测的声学成像方法和系统
CN109065145A (zh) 心电数据处理方法、装置及存储介质
CN116504264B (zh) 音频处理方法、装置、设备及存储介质
EP4312214A1 (en) Determining spatial audio parameters
CN111210837B (zh) 音频处理方法和装置