TWI783344B - 聲源追蹤系統及其方法 - Google Patents

聲源追蹤系統及其方法 Download PDF

Info

Publication number
TWI783344B
TWI783344B TW110100917A TW110100917A TWI783344B TW I783344 B TWI783344 B TW I783344B TW 110100917 A TW110100917 A TW 110100917A TW 110100917 A TW110100917 A TW 110100917A TW I783344 B TWI783344 B TW I783344B
Authority
TW
Taiwan
Prior art keywords
sound
sound source
source tracking
audio signal
speaker
Prior art date
Application number
TW110100917A
Other languages
English (en)
Other versions
TW202228446A (zh
Inventor
蔡敷恩
王俊翔
Original Assignee
圓展科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 圓展科技股份有限公司 filed Critical 圓展科技股份有限公司
Priority to TW110100917A priority Critical patent/TWI783344B/zh
Publication of TW202228446A publication Critical patent/TW202228446A/zh
Application granted granted Critical
Publication of TWI783344B publication Critical patent/TWI783344B/zh

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Burglar Alarm Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一種聲源追蹤方法,適用於進行中的視訊會議,包括:主機發送第一音頻訊號至揚聲器,揚聲器之處理器依據第一音頻訊號執行音訊處理程序以產生第二音頻訊號,揚聲器之編碼電路編碼第二音頻訊號並發送至聲源追蹤攝影機,揚聲器播放第二音頻訊號以產生遠端聲音,聲源追蹤攝影機解碼已編碼之第二音頻訊號,麥克風陣列收錄現場聲音,現場聲音包含揚聲器產生之遠端聲音及本地端聲音中至少一者,聲源追蹤攝影機依據現場聲音及已解碼之第二音頻訊號執行比對程序以決定聲源追蹤攝影機之攝影機之一拍攝方向。

Description

聲源追蹤系統及其方法
本發明係關於視訊會議中的聲源追蹤,特別是一種避免追蹤揚聲器的聲源追蹤系統及其方法。
常見的聲源追蹤攝影技術係利用麥克風陣列以偵測聲源位置,依據各麥克風之間收錄到的聲音資料的時間差計算其角度及距離,進而計算原本的拍攝方向和聲源位置所在方向之間的變動量(包含平移pan、傾斜tilt、縮放zoom,簡稱PTZ),藉此PTZ攝影機可追蹤發出聲音的人。但在本地端執行視訊會議時,係搭配揚聲器以播放遠端發言者的聲音,因此聲源追蹤攝影機可能誤追蹤到播放遠端聲音的揚聲器而非本地端的發言者。
雖可將預定透過揚聲器播放的遠端聲音,透過線材傳輸至聲音追蹤模組中作為參考訊號,並將本地端的聲音由麥克風陣列收錄後傳送至聲音追蹤模組;再藉由聲學比對,過濾掉透過揚聲器所播放的遠端聲音,僅保留本地端用戶的聲音,然後再以PTZ攝影機依據本地端用戶的聲音追蹤本地端用戶。然而,在上述的作法中,所述的參考訊號係取自於揚聲器最終取得的音頻訊號,此音頻訊號已經過一次數位類比轉換,且不同類型、或不同廠牌的揚聲器會依據本身的播放特性調整音頻訊號,因此,聲音追蹤模組所取得的音頻訊號並非最原始的資料。
有鑑於此,本發明提出一種聲源追蹤系統及其方法,利用數位資料分流的方式,使聲源追蹤模組取得原始的參考音頻訊號,並透過數位資料轉換各種媒介來傳輸此參考音頻訊號。
依據本發明一實施例敘述的一種聲源追蹤系統,適用於進行 中的一視訊會議,聲源追蹤系統包括主機、揚聲器反聲源追蹤攝影機。主機用於發送關聯於視訊會議之第一音頻訊號及接收關聯於視訊會議之影像訊號。揚聲器電性連接主機以從主機接收第一音頻訊號。揚聲器包括編碼電路。揚聲器依據第一音頻訊號執行音訊處理程序以產生第二音頻訊號。揚聲器播放第二音頻訊號以產生遠端聲音。編碼電路用於編碼第二音頻訊號並發送編碼後之第二音頻訊號。聲源追蹤攝影機電性連接主機以發送影像訊號至主機。聲源追蹤攝影機包括解碼電路。聲源追蹤攝影機用於拍攝影像訊號。解碼電路用於解碼已編碼之第二音頻訊號。聲源追蹤攝影機用以收錄現場聲音。現場聲音包含揚聲器產生之遠端聲音及本地端聲音中至少一者。聲源追蹤攝影機依據現場聲音及已解碼之第二音頻訊號執行比對程序以調整攝影機之一拍攝方向。
依據本發明一實施例所敘述的一種聲源追蹤方法,適用於進行中的視訊會議,包括:主機發送第一音頻訊號至揚聲器;揚聲器依據第一音頻訊號執行音訊處理程序以產生第二音頻訊號;揚聲器之編碼電路編碼第二音頻訊號並發送編碼後之第二音頻訊號至聲源追蹤攝影機;揚聲器播放第二音頻訊號以產生遠端聲音;聲源追蹤攝影機之解碼電路解碼已編碼之第二音頻訊號;聲源追蹤攝影機收錄現場聲音,現場聲音包含揚聲器產生之遠端聲音及本地端聲音中至少一者;聲源追蹤攝影機依據現場聲音及已解碼之第二音頻訊號執行比對程序以調整聲源追蹤攝影機之拍攝方向;以及聲源追蹤攝影機發送拍攝之影像訊號至主機。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
10:聲源追蹤系統
1:主機
3:揚聲器
32:處理器
34:播放電路
36:編碼電路
5:聲源追蹤攝影機
52:攝影機
54:解碼電路
56:麥克風陣列
58:聲音追蹤電路
S1~S8:步驟
圖1係依據本發明一實施例的聲源追蹤系統的方塊架構圖。
圖2係依據本發明一實施例的聲源追蹤方法的流程圖。
以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
本發明提出的聲源追蹤系統及其方法適用於執行視訊會議。請參考圖1。圖1繪示依據本發明一實施例的聲源追蹤系統10。聲源追蹤系統10包括:主機1、揚聲器3以及聲源追蹤攝影機5。以下分別敘述各項元件的構成與其特點。
請參考圖1。主機1用於發送關聯於視訊會議之第一音頻訊號及接收關聯於視訊會議之影像訊號。實務上,主機1例如是可運行視訊會議軟體(Conference Application)的電腦(Personal Computer)中的硬體元件。所述的電腦例如是桌上型電腦(Desktop Computer),筆記型電腦(Laptop)或平板電腦(Tablet)等。本發明對於主機1的硬體類型並不特別限制。第一音頻訊號例如係視訊會議中遠端用戶產生的語音。主機1透過網路取得視訊會議的串流資料,主機1的處理器(未繪示)執行視訊會議程序,並從串流訊號中擷取第一音頻訊號。影像訊號例如係進行視訊會議的本地端用戶被拍攝到的影像,後文將進一步對第一音頻訊號及影像訊號詳述之。
揚聲器3電性連接至主機1以從主機1接收第一音頻訊號,其電性連接的方式例如藉由通用序列匯流排(Universal Serial Bus,USB)、藍牙、低功耗藍牙或實體音源線。本發明對於主機1與揚聲器3彼此電性連接的介面並不加以限制。如圖1所示,揚聲器3包括:處理器32、播放電路34及編碼電路36。以下分別敘述各項元件的構成與其特點。
處理器32例如係數位訊號處理器(Digital Signal Processor)。處理器32依據第一音頻訊號執行一音訊處理程序以產生第二音頻訊號。所述的音訊處理程序係用於提高收聽體驗,例如透過均衡器(Equalizer)過濾不同頻帶振幅變化,以獲取具恆定振幅的音訊。本發明對於音訊處理程序並不特別限制。在一實施例中,亦可省略音訊處理程序的執行,在此實施例中,第二音頻訊號與第一音頻訊號相同。
播放電路34電性連接處理器32,其連接方式例如透過I2S(Integrated Interchip Sound)匯流排。播放電路34將數位形式的第二音頻訊號轉換為類比型態,再播放此類比型態的第二音頻訊號以產生遠端聲音讓本地端用戶聆聽。在一實施例中,播放電路34包括編解碼器(Codec)、放大器(Amplifier)、動力系統(音圈或電線圈)及振動系統(包括音膜,也就是喇叭膜片、振膜)等。
編碼電路36電性連接處理器32。需特別注意的是,編碼電路36電性連接處理器32的方式與播放電路34電性連接處理器32的方式相同,例如同樣採用I2S匯流排。因此,編碼電路36與播放電路34接收到相同內容且相同格式的第二音頻訊號。編碼電路36用於編碼第二音頻訊號並發送編碼後之第二音頻訊號至聲源追蹤攝影機5。
請參考圖1,聲源追蹤攝影機5電性連接主機1以發送影像訊號至主機1,其電性連接的方式例如藉由通用序列匯流排(Universal Serial Bus,USB)。聲源追蹤攝影機5包括:攝影機52、解碼電路54、麥克風陣列56以及聲音追蹤電路58。以下分別敘述各項元件的構成與其特點。
攝影機52用於拍攝進行視訊會議的本地端用戶的影像,並產生對應的影像訊號。
解碼電路54通訊連接揚聲器3之編碼電路36。解碼電路54用於解碼已編碼之第一音頻訊號,藉此,聲源追蹤攝影機5可取得與揚聲 器3用以播放的相同的第二音頻訊號。在本發明所敘述的聲源追蹤系統10中,係透過分別設置於揚聲器3中的編碼電路36以及設置於聲源追蹤攝影機5中的解碼電路54實現第二音頻訊號的傳輸,藉此讓第二音頻訊號可作為後續聲源追蹤時所需的音頻參考訊號。
在第一實施例中,揚聲器3之編碼電路36係無線通訊模組之發送端(可包含天線),且聲源追蹤攝影機5之解碼電路54係無線通訊模組之接收端(可包含天線)。所述的無線通訊例如係紅外通訊技術(如RC-5、VFIR,UFIR)、藍牙(Bluetooth)、低功耗藍牙(Bluetooth Low Energy)、紫蜂(ZigBee)或無線區域網技術,本發明並不限制無線通訊模組的硬體類型。
在第二實施例中,揚聲器3之編碼電路36係資料序列器(Data Serializer),且聲源追蹤攝影機5之解碼電路54係資料解序列器(Data Deserializer),編碼電路36及解碼電路54係以同軸線彼此通訊連接。
在第三實施例中,揚聲器3之編碼電路36係音訊數位對類比轉換器(Digital-to-Analog Convertor)且聲源追蹤攝影機5之解碼電路54係音訊類比對數位轉換器(Analog-to-Digital Convertor),編碼電路36及解碼電路54係以音源線彼此通訊連接。
請參考圖1。麥克風陣列56用以收錄一現場聲音,現場聲音即進行視訊會議的本地端用戶發出的聲音。現場聲音包含揚聲器3產生之遠端聲音及本地端聲音中至少一者。
請參考圖1。聲音追蹤電路58,依據現場聲音及已解碼之第二音頻訊號執行比對程序以調整攝影機52之一拍攝方向。當現場聲音中之遠端聲音與第二音頻訊號之相似度大於一閾值時,聲音追蹤電路58調整拍攝方向以不拍攝揚聲器3。所述的比對程序關聯於回聲抑制消除技術(Acoustic Echo Suppression,AES)或回聲消除技術(Acoustic Echo Cancellation,AEC)。當遠端聲音與音頻訊號之相似度大於閾值時,聲音追蹤電路58調整拍攝方向以不拍攝揚聲器3。具體來說,被調整後的拍攝方向例如朝向一預設方向,或是不改變原本的拍攝方向,本發明對此不予限制。在另一實施例中,聲音追蹤電路58執行聲學比對程序,藉此過濾掉揚聲器3播放的遠端聲音,僅讓攝影機52追蹤本地端(例如會議室內)的發言者的聲音,並且將攝影機52的拍攝視角朝向發言者,進而實現真實人聲的聲源追蹤的功能。若有多名本地端用戶在同一時間發言使得本地端聲音中包含多個用戶的聲音,則聲音追蹤電路58控制攝影機52朝向其中一個本地端的用戶的聲音。若本地端聲音與遠端用戶產生的遠端聲音在同一時間發出,則聲音追蹤電路58控制攝影機52朝向當前本地端用戶的方向,而不朝向播放遠端聲音的揚聲器3的方向。
請參考圖2,其繪示依據本發明一實施例的聲源追蹤方法的流程圖。
請參考步驟S1。主機1發送第一音頻訊號至揚聲器3。
請參考步驟S2。揚聲器3之處理器32依據第一音頻訊號執行音訊處理程序以產生第二音頻訊號。
請參考步驟S3。揚聲器3之編碼電路36編碼第二音頻訊號並發送編碼後之第二音頻訊號至聲源追蹤攝影機5。
請參考步驟S4。揚聲器3之播放電路34播放第二音頻訊號以產生遠端聲音。
請參考步驟S5。聲源追蹤攝影機5之解碼電路54解碼已編碼之第二音頻訊號。
請參考步驟S6。聲源追蹤攝影機5之麥克風陣列56收錄現場聲音。現場聲音包含揚聲器3產生之遠端聲音及本地端聲音中至少一者。
請參考步驟S7。聲源追蹤攝影機5之聲音追蹤電路58依據現場聲音及已解碼之第二音頻訊號執行比對程序以調整聲源追蹤攝影機5 之攝影機52之拍攝方向。當現場聲音中之遠端聲音與第二音頻訊號之相似度大於一閾值時,聲音追蹤電路58調整拍攝方向以不拍攝揚聲器3。
請參考步驟S8。聲源追蹤攝影機5發送攝影機52拍攝之影像訊號至主機1。
綜上所述,本發明提出的聲源追蹤系統及其方法係利用揚聲器內部的處理器將要從揚聲器播放的音頻訊號另外分流出一組數位音頻訊號,再以此數位音頻訊號作為聲源追蹤攝影機的參考訊號,藉此過濾掉麥克風陣列收錄的現場聲音中由揚聲器產生的遠端聲音,進一步可避免聲源追蹤攝影機的鏡頭誤追蹤到本地端用戶以外的揚聲器。本發明提供的音頻參考訊號因從處理器直接送出,並未經過額外的類比數位轉換。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
S1~S8…步驟

Claims (10)

  1. 一種聲源追蹤系統,適用於進行中的一視訊會議,該聲源追蹤系統包括:一主機,用於發送關聯於該視訊會議之一第一音頻訊號及接收關聯於該視訊會議之一影像訊號;一揚聲器,電性連接該主機以從該主機接收該第一音頻訊號,該揚聲器依據該第一音頻訊號執行一音訊處理程序以產生一第二音頻訊號,該揚聲器播放該第二音頻訊號以產生一遠端聲音;且該揚聲器包括一編碼電路,該編碼電路用於編碼該第二音頻訊號並發送編碼後之該第二音頻訊號;以及一聲源追蹤攝影機,電性連接該主機以發送該影像訊號至該主機,該聲源追蹤攝影機用於拍攝該影像訊號,該聲源追蹤攝影機包括一解碼電路,該解碼電路通訊連接該揚聲器之該編碼電路,該解碼電路用於解碼已編碼之該第二音頻訊號;該聲源追蹤攝影機用以收錄一現場聲音,該現場聲音包含該揚聲器產生之該遠端聲音及一本地端聲音中至少一者;該聲源追蹤攝影機依據該現場聲音及已解碼之該第二音頻訊號執行一比對程序以調整一拍攝方向。
  2. 如請求項1所述的聲源追蹤系統,其中該比對程序包括:當該現場聲音中之該遠端聲音與該第二音頻訊號之相似度大於一閾值時,該聲音追蹤電路調整該拍攝方向以不拍攝該揚聲器。
  3. 如請求項1所述的聲源追蹤系統,其中該揚聲器之該編碼電路係無線通訊模組之發送端,且該聲源追蹤攝影機之該解碼電路係無線通訊模組之接收端。
  4. 如請求項1所述的聲源追蹤系統,其中該揚聲器之該編碼電路係資料序列器,且該聲源追蹤攝影機之該解碼電路係資料解序列器,該編碼電路及該解碼電路係以同軸線彼此通訊連接。
  5. 如請求項1所述的聲源追蹤系統,其中該揚聲器之該編碼電路係音訊數位對類比轉換器,且該聲源追蹤攝影機之該解碼電路係音訊類比對數位轉換器,該編碼電路及該解碼電路係以音源線彼此通訊連接。
  6. 一種聲源追蹤方法,適用於進行中的一視訊會議,包括:以一主機發送一第一音頻訊號至揚聲器;以該揚聲器依據該第一音頻訊號執行一音訊處理程序以產生一第二音頻訊號;以該揚聲器之一編碼電路編碼該第二音頻訊號並發送編碼後之該第二音頻訊號至一聲源追蹤攝影機;以該揚聲器播放該第二音頻訊號以產生一遠端聲音;以該聲源追蹤攝影機之一解碼電路解碼已編碼之該第二音頻訊號;以該聲源追蹤攝影機收錄一現場聲音,該現場聲音包含該揚聲器產生之該遠端聲音及一本地端聲音中至少一者;以該聲源追蹤攝影機依據該現場聲音及已解碼之該第二音頻訊號執行一比對程序以調整該聲源追蹤攝影機之一拍攝方向;以及以該聲源追蹤攝影機發送拍攝之一影像訊號至該主機。
  7. 如請求項6所述的聲源追蹤方法,其中該比對程序包括:當該現場聲音中之該遠端聲音與該第二音頻訊號之相似度大於一閾值時,該聲音追蹤電路調整該拍攝方向以不拍攝該揚聲器。
  8. 如請求項6所述的聲源追蹤方法,其中該揚聲器之該編碼電路係無線通訊模組之發送端,且該聲源追蹤攝影機之該解碼電路係無線通訊模組之接收端。
  9. 如請求項6所述的聲源追蹤方法,其中該揚聲器之該編碼電路係資料序列器,且該聲源追蹤攝影機之該解碼電路係資料解序列器,該編碼電路及該解碼電路係以同軸線彼此通訊連接。
  10. 如請求項6所述的聲源追蹤方法,其中該揚聲器之該編碼電路係音訊數位對類比轉換器,且該聲源追蹤攝影機之該解碼電路係音訊類比對數位轉換器,該編碼電路及該解碼電路係以音源線彼此通訊連接。
TW110100917A 2021-01-11 2021-01-11 聲源追蹤系統及其方法 TWI783344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110100917A TWI783344B (zh) 2021-01-11 2021-01-11 聲源追蹤系統及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110100917A TWI783344B (zh) 2021-01-11 2021-01-11 聲源追蹤系統及其方法

Publications (2)

Publication Number Publication Date
TW202228446A TW202228446A (zh) 2022-07-16
TWI783344B true TWI783344B (zh) 2022-11-11

Family

ID=83436953

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110100917A TWI783344B (zh) 2021-01-11 2021-01-11 聲源追蹤系統及其方法

Country Status (1)

Country Link
TW (1) TWI783344B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
US20150341545A1 (en) * 2013-01-09 2015-11-26 Lg Electronics Inc. Voice tracking apparatus and control method therefor
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN109616125A (zh) * 2018-12-13 2019-04-12 苏州思必驰信息科技有限公司 基于声纹识别的监控方法及系统
CN109992238A (zh) * 2019-03-28 2019-07-09 广东九联科技股份有限公司 一种多媒体终端设备的音量自动调节系统与方法
US20190261108A1 (en) * 2016-09-22 2019-08-22 Noiseless Acoustics Oy Acoustic camera and a method for revealing acoustic emissions from various locations and devices
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150341545A1 (en) * 2013-01-09 2015-11-26 Lg Electronics Inc. Voice tracking apparatus and control method therefor
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
US20190261108A1 (en) * 2016-09-22 2019-08-22 Noiseless Acoustics Oy Acoustic camera and a method for revealing acoustic emissions from various locations and devices
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN109616125A (zh) * 2018-12-13 2019-04-12 苏州思必驰信息科技有限公司 基于声纹识别的监控方法及系统
CN109992238A (zh) * 2019-03-28 2019-07-09 广东九联科技股份有限公司 一种多媒体终端设备的音量自动调节系统与方法
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端

Also Published As

Publication number Publication date
TW202228446A (zh) 2022-07-16

Similar Documents

Publication Publication Date Title
US9071900B2 (en) Multi-channel recording
US9113034B2 (en) Method and apparatus for processing audio in video communication
US9973561B2 (en) Conferencing based on portable multifunction devices
US20090150151A1 (en) Audio processing apparatus, audio processing system, and audio processing program
WO2012142975A1 (zh) 会场终端音频信号处理方法及会场终端和视讯会议系统
JP2008543143A (ja) 音響変換器のアセンブリ、システムおよび方法
JP2008543144A (ja) 音響信号用装置、システム、方法
US20220369034A1 (en) Method and system for switching wireless audio connections during a call
CN115482830B (zh) 语音增强方法及相关设备
US20180279048A1 (en) Binaural recording system and earpiece set
TW201933336A (zh) 電子設備及應用於電子設備的回聲消除方法
CN114845144B (zh) 一种投屏方法、辅助投屏装置及存储介质
JP7070910B2 (ja) テレビ会議システム
CN117480554A (zh) 语音增强方法及相关设备
TWI449438B (zh) 具有迴音消除機制之通訊系統及方法
TWI783344B (zh) 聲源追蹤系統及其方法
TW202143750A (zh) 使用自我調整網路來對全景聲係數進行變換
US20160057527A1 (en) Binaural recording system and earpiece set
US20220223174A1 (en) Sound source tracking system and method thereof
US10993064B2 (en) Apparatus and associated methods for presentation of audio content
CN114531425A (zh) 一种处理方法和处理装置
US20170094412A1 (en) Wearable recording and playback system
TW202226222A (zh) 外接式智能音訊降噪裝置
TW201624998A (zh) 多媒體裝置及視訊通信方法
TW202407685A (zh) 視訊會議裝置及調整攝影機拍攝方向的方法