TW202407685A

TW202407685A - 視訊會議裝置及調整攝影機拍攝方向的方法

Info

Publication number: TW202407685A
Application number: TW111129957A
Authority: TW
Inventors: 潘慶元; 蔡敷恩
Original assignee: 圓展科技股份有限公司
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2024-02-16

Abstract

一種調整攝影機拍攝方向的方法，適用於電性連接揚聲器的視訊會議裝置視訊會議裝置包括音訊處理器、麥克風陣列及攝影機。所述方法包括：音訊處理器接收來自遠端的遠端音訊，音訊處理器轉換遠端音訊為參考音訊並傳送參考音訊至揚聲器，揚聲器依據參考音訊播放第一聲音，麥克風陣列錄製近端音訊，其中近端音訊包含第一聲音及來自近端的第二聲音，音訊處理器依據參考音訊及近端音訊執行過濾操作以產生過濾音訊，音訊處理器依據過濾音訊計算角度控制訊號，以及，攝影機依據角度控制訊號調整拍攝方向以拍攝近端。

Description

視訊會議裝置及調整攝影機拍攝方向的方法

本發明關於視訊會議，特別是一種可追蹤發言者的視訊會議裝置及調整攝影機拍攝方向的方法。

隨著視訊會議的需求提升，視訊會議裝置已搭載具有追蹤音源功能的攝影機，於偵測近端的聲音時，控制攝影機的鏡頭朝向近端的發言者，從而讓位於遠端的會議參加者同時接收到近端的發言者的聲音及影像。

但是在會議中，常常在近端的發言者說話的同時，揚聲器也正在播放遠端的會議參加者的聲音，這種情況可能導致攝影機朝向揚聲器進行拍攝，而非朝向近端的發言者。然而，若是在揚聲器播放聲音時直接暫停攝影機的追蹤拍攝，仍無法保證攝影機拍攝到此時正在發言的對象，例如當近端有多個發言者時，攝影機鏡頭可能仍停留在前一個發言者身上，而非目前正在發言的人。

另外，雖然可利用演算法判斷近端麥克風收到的音頻輸入訊號是否存在回聲，並且在偵測到回聲時控制攝影機不進行追蹤拍攝，然而這種方式所用的音頻輸入訊號已包含揚聲器播放的聲音資訊，從訊號本質上就不利於精確地判斷出近端發言者的位置。因此，若回聲的問題沒有被解決，遠端使用者便無法即時看到近端發言者的影像。

有鑑於此，本發明提出一種視訊會議裝置及調整攝影機拍攝方向的方法，即使在視訊會議中遠端的會議參加者的說話聲音在近端透過揚聲器播放出來，攝影機仍然可以精確地追蹤近端的發言者。

依據本發明一實施例的一種調整攝影機拍攝方向的方法，適用於一視訊會議裝置，該視訊會議裝置包括一音訊處理器、一麥克風陣列及一攝影機，該視訊會議裝置電性連接一揚聲器，該方法包括：該音訊處理器接收來自一遠端的一遠端音訊；該音訊處理器轉換該遠端音訊為一參考音訊，並傳送該參考音訊至該揚聲器；該揚聲器依據該參考音訊播放一第一聲音；該麥克風陣列錄製一近端音訊，該近端音訊包含該第一聲音及來自一近端的一第二聲音；該音訊處理器依據該參考音訊及該近端音訊執行一過濾操作以產生一過濾音訊；該音訊處理器依據該過濾音訊計算一角度控制訊號；以及該攝影機依據該角度控制訊號調整拍攝方向以拍攝該近端。

依據本發明一實施例的一種視訊會議裝置，用以電性連接一揚聲器，其中該揚聲器用以播放一第一聲音，且該視訊會議裝置包括：一音訊處理器，用以接收來自一遠端的遠端音訊，轉換該遠端音訊為一參考音訊，並傳送該參考音訊至該揚聲器，其中該第一聲音關聯於該參考音訊；該音訊處理器依據該參考音訊及一近端音訊執行一過濾操作以產生一過濾音訊，並依據該過濾音訊計算一角度控制訊號；一麥克風陣列，用以錄製該近端音訊，該近端音訊包含該第一聲音及來自一近端的一第二聲音；以及一攝影機，電性連接該音訊處理器，該攝影機依據該角度控制訊號調整拍攝方向以拍攝該近端。

綜上所述，本發明提出的視訊會議裝置及調整攝影機拍攝方向的方法，藉由去除麥克風陣列收到的揚聲器訊號，當遠端與近端同時發聲時，不僅可以避免攝影機錯誤地追蹤到發出聲音的揚聲器，而且能夠讓攝影機精確地追蹤近端的發言者。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及特點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

圖1是本發明一實施例的視訊會議裝置3的應用示意圖，此視訊會議裝置3電性連接處理器1、揚聲器5及麥克風7。需先說明的是，圖1~圖3中的箭頭方向代表該資料傳輸方向。

處理器1例如為個人電腦或智慧型手機，處理器1可透過網路N接收遠端音訊，並將遠端音訊傳送至視訊會議裝置3。遠端音訊例如來自於遠端的視訊會議裝置3或收音裝置。在一實施例中，處理器1透過通用序列匯流排（Universal Serial Bus）電性連接至視訊會議裝置3。在另一實施例中，視訊會議裝置3本身內建通訊模組，因此可直接從網路N接收遠端音訊，而無須透過其他電子裝置。

視訊會議裝置3電性連接於揚聲器5及麥克風7，並透過揚聲器5播放遠端音訊，以及透過麥克風7錄製近端（即本地端）的聲音。在另一實施例中，可採用內建揚聲器5、麥克風7的揚聲電話（speakerphone）取代圖1所示的揚聲器5及麥克風7，也就是透過一個裝置實現播放及錄音的功能。

圖2是基於圖1並進一步展示視訊會議裝置3內部的方塊架構圖，視訊會議裝置3包括音訊處理器32、麥克風陣列34、傳輸介面36及攝影機38。

音訊處理器32電性連接於傳輸介面36、麥克風陣列34及攝影機38，音訊處理器32用以從處理器1接收來自遠端的遠端音訊並執行下列操作：轉換遠端音訊為參考音訊，以及透過傳輸介面36傳送參考音訊至揚聲器5，其中傳輸介面36可採用通道鏈路（Channel link）來傳輸低電壓差動訊號（Low Voltage Differential Signaling，LVDS），但本發明不限於此。

揚聲器5依據參考音訊進行播放而產生第一聲音，換言之，揚聲器5播放來自遠端的遠端音訊。麥克風陣列34錄製近端音訊，此近端音訊包含揚聲器5播放的第一聲音（即上述遠端音訊）及來自近端的第二聲音，此處的「近端」定義為視訊會議裝置3所處的週邊位置，而第二聲音例如是近端的使用者發出的語音。在一實施例中，麥克風陣列34具有至少二個麥克風341及343，每一個麥克風341或343各自錄製一聲音分量，而第二聲音係由多個聲音分量組成。

如圖2所示，傳輸介面除連接揚聲器5外，更用於電性連接麥克風7（非麥克風陣列34的麥克風341及343）。此麥克風7用以錄製另一近端音訊，另一近端音訊同樣包含揚聲器5播放的第一聲音及來自近端的第二聲音。考慮到近端的發言者可能從靠近麥克風陣列34的位置移動到靠近揚聲器5的位置，或者是近端的多個使用者中的一者原本就靠近揚聲器5所在的位置，因此僅依靠麥克風陣列34可能無法清楚地錄製到靠近揚聲器5的發言者的語音，透過麥克風7錄製的另一近端音訊可針對上述情境予以補償。

在揚聲器5播放第一聲音，麥克風陣列34錄製近端音訊，且麥克風7錄製另一近端音訊時，音訊處理器32可即時地執行下列操作：依據參考音訊及近端音訊執行過濾操作以產生過濾音訊，依據過濾音訊計算角度控制訊號，以及將角度控制訊號傳送至攝影機38。

攝影機38可依據角度控制訊號調整拍攝方向以拍攝近端。在一實施例中，攝影機38包括攝像鏡頭及馬達模組，馬達模組依據角度控制訊號調整攝像鏡頭的拍攝角度。在另一實施例中，攝影機38例如為全方位迴轉變焦（PTZ）攝影機，其鏡頭可以進行左右轉動（Pan）、上下傾斜（Tilt）及放大（Zoom-in）等操作，本發明所述的角度控制訊號可對應於上述操作中的至少一者。

圖3是基於圖2並進一步展示音訊處理器32內部的方塊架構圖，音訊處理器32包括轉換電路321、適應性濾波器323、角度計算電路325、聲音強化電路327及混音器329。

轉換電路321電性連接處理器1、傳輸介面36、適應性濾波器323及混音器329。轉換電路321例如採用USB聲音類別（USB Audio Class，UAC）協議，並據以將遠端音訊轉換為參考音訊。舉例來說，將遠端音訊進行立體聲轉成單聲道或/及重採樣，比如將48kHz 立體聲轉換成32kHz 單聲道後，將轉換後的32kHz 單聲道做為參考音訊。

適應性濾波器323（adaptive filter）電性連接於轉換電路321、麥克風陣列34、聲音強化電路327及角度計算電路325。適應性濾波器323依據參考音訊及近端音訊執行過濾操作以產生過濾音訊，所述過濾操作包括：依據參考音訊及適應性濾波器323係數執行卷積（convolution）運算以產生反向訊號，並整合近端音訊及反向訊號以產生過濾音訊。適應性濾波器323更依據該過濾音訊更新適應性濾波器323係數。換言之，在揚聲器5即將播放參考音訊之前，適應性濾波器323先取得要播放的參考音訊以及麥克風陣列34錄製的近端音訊，藉此預估麥克風陣列34即將錄製到的新的近端音訊的特性。適應性濾波器323採用多個線性函數，每個函數具有至少一係數，適應性濾波器323例如採用歸一化最小均方濾波器Normalized least mean squares filter (NLMS)演算法修正這些線性函數的係數，藉此反映揚聲器5播放參考音訊時線性的頻率響應。適應性濾波器323進一步計算揚聲器5播放參考音訊時的反向訊號，並整合麥克風陣列34錄製的近端音訊與反向訊號，藉此從近端音訊中濾除屬於遠端音訊的成份。

聲音強化電路327電性連接適應性濾波器323及混音器329，聲音強化電路327對過濾音訊執行以下操作中的至少一者：波束成型（Beamforming）、降噪、殘餘回聲（residual echo）抑制及自動增益。

混音器329電性連接於轉換電路321、傳輸介面36及聲音強化電路327，在過濾音訊經聲音強化電路327進行強化處理後，混音器329依據強化處理後的過濾音訊及另一近端音訊執行混音操作以產生回傳音訊，此回傳音訊將由轉換電路321回傳至處理器1，然後再被處理器1透過網路N回傳至遠端。混音器329將聲音強化電路327的輸出訊號乘以一權重，並將麥克風7產生的另一近端音訊乘以另一權重，然後將兩者加總以實現上述混音操作。在一實施例中，所述的兩個權重可依據輸入訊號及另一近端音訊各自的振幅進行調整。在另一實施例中，由於人聲屬於寬頻帶，因此只在輸入訊號及另一近端音訊各自的指定頻段乘以各自的權重。

角度計算電路325電性連接適應性濾波器323及攝影機38，角度計算電路325採用到達時間差（Time Difference of Arrival，TDOA）技術依據過濾音訊（去除揚聲器5聲音的麥克風陣列34信號）進行運算以產生角度控制訊號。請參考圖3，

麥克風陣列34包括多個麥克風（例如麥克風341及343），且過濾音訊包含多個過濾音訊分量，這些過濾音訊分量分別對應於所述多個麥克風，因此角度計算電路325係依據該些過濾音訊分量中的二者計算一時間差以產生該角度控制訊號。在一實施例中，可配置至少四個麥克風的麥克風陣列34，以便於角度計算電路325產生三個維度的角度控制訊號。

圖4是本發明一實施例的調整攝影機38追蹤方向的方法的流程圖。如圖4所示，步驟S1為音訊處理器32從處理器1接收來自遠端的遠端音訊，步驟S2 為音訊處理器32中的轉換電路321轉換遠端音訊為參考音訊，並傳送參考音訊至揚聲器5，步驟S3 為揚聲器5依據參考音訊播放第一聲音；步驟S4為麥克風陣列34錄製近端音訊，且麥克風7錄製另一近端音訊；步驟S5為音訊處理器32中的適應性濾波器323依據參考音訊及近端音訊執行過濾操作以產生過濾音訊；步驟S6為音訊處理器32中的角度計算電路325依據該過濾音訊計算角度控制訊號；步驟S7 為攝影機38依據角度控制訊號調整拍攝方向以拍攝近端。

圖5是圖4的步驟S5的細部流程圖：步驟S51為適應性濾波器323依據參考音訊及適應性濾波器323係數執行卷積運算以產生反向訊號；步驟S52為適應性濾波器323整合近端音訊及反向訊號以產生過濾音訊；步驟S53為適應性濾波器323依據過濾音訊更新適應性濾波器323係數。

圖6是本發明另一實施例的調整攝影機38追蹤方向的方法的流程圖，其中步驟S1~S可參考圖4。步驟S8為音訊處理器32中的聲音強化電路327依據過濾音訊執行強化處理以產生強化音訊；步驟S9為音訊處理器32中的混音器329依據強化音訊及步驟S4中的另一近端音訊執行混音操作以產生回傳音訊；步驟S10為音訊處理器32中的轉換電路321將回傳音訊傳送至處理器1。

請注意，倘若能實質達到相同功效，所述方法不一定必須完全按照圖4至圖6中步驟的順序進行，且其他輔助性的步驟亦可插入其中。

綜上所述，本發明提出的視訊會議裝置及調整攝影機拍攝方向的方法，藉由去除麥克風陣列收到的揚聲器訊號，當遠端使用者與近端使用者同時發聲時，不僅可以避免攝影機錯誤地追蹤到發出聲音的揚聲器，而且能夠讓攝影機精確地追蹤近端的發言者。此外，由於本發明的適應性濾波器已濾除近端音訊中屬於遠端音訊的成份，這使得遠端使用者可以收到零回聲的音訊或僅具有較小回聲的音訊，大幅提昇通訊上的體驗。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

1:處理器 3:視訊會議裝置 5:揚聲器 7:麥克風 32:音訊處理器 34:麥克風陣列 341、343:麥克風 36:傳輸介面 321:轉換電路 323:適應性濾波器 325:角度計算電路 327:聲音強化電路 329:混音器 N:網路 S1~S10、S51~S53:步驟

圖1是本發明一實施例的視訊會議裝置的應用示意圖；圖2是本發明一實施例的視訊會議裝置的方塊架構圖；圖3是本發明一實施例的音訊處理器的方塊架構圖；圖4是本發明一實施例的調整攝影機追蹤方向的方法的流程圖；圖5是圖4的步驟S5的細部流程圖；以及圖6是本發明另一實施例的調整攝影機追蹤方向的方法的流程圖。

1:處理器

3:視訊會議裝置

5:揚聲器

7:麥克風

32:音訊處理器

34:麥克風陣列

36:傳輸介面

341、343:麥克風

N:網路

Claims

一種調整攝影機拍攝方向的方法，適用於一視訊會議裝置，該視訊會議裝置包括一音訊處理器、一麥克風陣列及一攝影機，該視訊會議裝置電性連接一揚聲器，該方法包括：該音訊處理器接收來自一遠端的一遠端音訊；該音訊處理器轉換該遠端音訊為一參考音訊，並傳送該參考音訊至該揚聲器；該揚聲器依據該參考音訊播放一第一聲音；該麥克風陣列錄製一近端音訊，該近端音訊包含該第一聲音及來自一近端的一第二聲音；該音訊處理器依據該參考音訊及該近端音訊執行一過濾操作以產生一過濾音訊；該音訊處理器依據該過濾音訊計算一角度控制訊號；以及該攝影機依據該角度控制訊號調整拍攝方向以拍攝該近端。
如請求項1所述的方法，其中該音訊處理器依據該參考音訊及該近端音訊執行該過濾操作以產生該過濾音訊的步驟包括：該音訊處理器依據該參考音訊及一適應性濾波器係數執行一卷積運算以產生一反向訊號；該音訊處理器整合該近端音訊及該反向訊號以產生該過濾音訊；以及該音訊處理器依據該過濾音訊更新該適應性濾波器係數。
如請求項1所述的方法，其中該視訊會議裝置更用於電性連接另一麥克風，且該方法更包括：該另一麥克風錄製另一近端音訊，該另一近端音訊包含該第一聲音及來自該近端的該第二聲音；該音訊處理器依據該過濾音訊及該另一近端音訊執行一混音操作以產生一回傳音訊：以及該音訊處理器將該回傳音訊傳送至該遠端。
如請求項3所述的方法，其中在該音訊處理器依據該過濾音訊及該另一近端音訊執行該混音操作以產生該回傳音訊的步驟之前，更包括該音訊處理器對該過濾音訊執行以下操作中的至少一者：波束形成、降噪、殘餘回聲抑制及自動增益。
如請求項1所述的方法，其中該麥克風陣列包括多個麥克風，該過濾音訊包含多個過濾音訊分量分別對應於該些麥克風，且該音訊處理器依據該過濾音訊計算該角度控制訊號包括：該音訊處理器係依據該些過濾音訊分量中的二者計算一時間差以產生該角度控制訊號。
一種視訊會議裝置，用以電性連接一揚聲器，其中該揚聲器用以播放一第一聲音，且該視訊會議裝置包括：一音訊處理器，用以接收來自一遠端的遠端音訊，轉換該遠端音訊為一參考音訊，並傳送該參考音訊至該揚聲器，其中該第一聲音關聯於該參考音訊；該音訊處理器依據該參考音訊及一近端音訊執行一過濾操作以產生一過濾音訊，並依據該過濾音訊計算一角度控制訊號；一麥克風陣列，用以錄製該近端音訊，該近端音訊包含該第一聲音及來自一近端的一第二聲音；以及一攝影機，電性連接該音訊處理器，該攝影機依據該角度控制訊號調整拍攝方向以拍攝該近端。
如請求項6所述的視訊會議裝置，其中該過濾操作係該音訊處理器依據該參考音訊及一適應性濾波器係數執行一卷積運算產生一反向訊號，該音訊處理器整合該近端音訊及該反向訊號以產生該過濾音訊；以及該音訊處理器依據該過濾音訊更新該適應性濾波器係數。
如請求項6所述的視訊會議裝置，更用於電性連接另一麥克風，該另一麥克風用以錄製另一近端音訊，且該另一近端音訊包含該第一聲音及來自該近端的該第二聲音；該音訊處理器依據該過濾音訊及該另一近端音訊執行一混音操作以產生一回傳音訊，且該音訊處理器將該回傳音訊傳送至該遠端。
如請求項6所述的視訊會議裝置，其中該音訊處理器在依據該過濾音訊及該另一近端音訊執行該混音操作以產生該回傳音訊之前對該過濾音訊執行以下操作中的至少一者：波束形成、降噪、殘餘回聲抑制及自動增益。
如請求項6所述的視訊會議裝置，其中該麥克風陣列包括多個麥克風，該過濾音訊包含多個過濾音訊分量分別對應於該些麥克風，且該音訊處理器係依據該些過濾音訊分量中的二者計算一時間差以產生該角度控制訊號。