TW202231050A

TW202231050A - 視訊會議系統與方法

Info

Publication number: TW202231050A
Application number: TW110102548A
Authority: TW
Inventors: 潘慶元; 蔡敷恩; 張真珠
Original assignee: 圓展科技股份有限公司
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-08-01
Also published as: TWI826768B; US20220240042A1; US11856387B2

Abstract

本發明提出一種視訊會議系統，其包括至少一攝影裝置、麥克風陣列裝置、聲音輸出裝置以及處理器。處理器，連接該至少一攝影裝置、麥克風陣列裝置以及聲音輸出裝置，並用以：從至少一攝影裝置接收由所拍攝的影響轉換的影像訊號，並從麥克風陣列裝置接收由所擷取的多個聲音轉換的多個聲音訊號；以及依據影像訊號與多個聲音訊號從多個聲音訊號選擇多個人員位置對應的至少一聲源訊號，以將多個人員位置對應的至少一聲源訊號傳送至聲音輸出裝置，其中聲音輸出裝置將至少一聲源訊號轉換為聲音進行播放。此外，一種視訊會議方法亦在此揭露。

Description

視訊會議系統與方法

本發明是有關於一種視訊會議系統與方法。

為了滿足收音範圍大的需求，在需要進行視訊會議的時候，用以進行視訊會議的各種裝置通常會設置各種高感度的麥克風。然而，在沒有預設收音範圍的限制下，高感度的麥克風除了可進行360度的收音以擷取與會人員的聲音之外，亦會產生各種問題，例如是擷取到各種非與會人員的雜聲。因此，這常常會造成遠端參與視訊會議的人員的困擾。

本發明實施例提供一種視訊會議系統與方法，可在視訊會議中排除各種非與會人員的雜聲。

本發明提供一種視訊會議系統，包括至少一攝影裝置、麥克風陣列裝置、聲音輸出裝置以及處理器。至少一攝影裝置用以拍攝影像，並將影像轉換為影像訊號輸出；麥克風陣列裝置包括多個麥克風，並用以擷取多個聲音，並將多個聲音轉換為多個聲音訊號輸出；聲音輸出裝置用以播放聲音；處理器連接至少一攝影裝置、麥克風陣列裝置以及聲音輸出裝置，並用以：從至少一攝影裝置接收影像訊號，並從麥克風陣列裝置接收多個聲音訊號；以及依據影像訊號與多個聲音訊號從多個聲音訊號選擇多個人員位置對應的至少一聲源訊號，以將多個人員位置對應的至少一聲源訊號傳送至聲音輸出裝置，其中聲音輸出裝置將至少一聲源訊號轉換為聲音進行播放。

本發明提供一種視訊會議方法。此方法包括下列步驟：利用至少一攝影裝置拍攝影像，並將影像轉換為影像訊號輸出；利用麥克風陣列裝置擷取多個聲音，並將多個聲音轉換為多個聲音訊號輸出；依據影像訊號判斷多個人員位置對應的拍攝範圍資訊，並依據多個聲音訊號判斷聲源位置資訊；依據拍攝範圍資訊與聲源位置資訊從多個聲音訊號選擇多個人員位置對應的至少一聲源訊號；以及利用聲音輸出裝置將至少一聲源訊號轉換為聲音進行播放。

本發明提供一種視訊會議系統，包括聲音輸出裝置、至少一攝影裝置、麥克風陣列裝置以及處理器。至少一攝影裝置用以拍攝影像，並將影像轉換為影像訊號輸出；麥克風陣列裝置包括多個麥克風，並用以擷取多個聲音，並將多個聲音轉換為多個聲音訊號輸出；處理器連接至少一攝影裝置、麥克風陣列裝置以及聲音輸出裝置，並用以：從至少一攝影裝置接收影像訊號，並從麥克風陣列裝置接收多個聲音訊號；依據影像訊號產生拍攝範圍，並依據多個聲音訊號產生多個聲源位置，進而判斷多個聲源位置是否位於拍攝範圍中；以及若多個聲源位置中的至少一者位於拍攝範圍中，從多個聲音訊號選擇位於拍攝範圍中的聲源位置對應的至少一聲源訊號，以將至少一聲源訊號傳送至聲音輸出裝置，其中聲音輸出裝置將至少一聲源訊號轉換為輸出聲音進行播放。

基於上述，本發明的視訊會議系統與方法利用基於智能框景(smart framing)技術的攝影裝置，以將與會人員納入攝影裝置的視角範圍內。藉此，將此攝影裝置搭配基於聲音追蹤(audio tracking)技術的麥克風陣列裝置，可自動限制麥克風收音範圍，以達到避免擷取非與會人員的雜聲。

100、300、500:視訊會議系統

110、110(1)~(N):攝影裝置

120:麥克風陣列裝置

130:聲音輸出裝置

140:處理器

1401:陣列處理電路

1402:比較電路

1403:切換電路

1404:噪聲電路

1405:智能框景電路

1406:電動平移傾斜變焦電路

1407:聲音追蹤電路

1408:聲源位置電路

S201~S209:視訊會議方法的流程

S401A、S401B、S402A、S402B、S403、S404、S405:針對單一攝影裝置的視訊會議方法的流程

S601A、S601B、S602A、S602B、S603、S604、S605:針對兩個攝影裝置的視訊會議方法的流程

第1圖是根據本發明一些示範性實施例的視訊會議系統的方塊圖。

第2圖是根據本發明一些示範性實施例的視訊會議方法的流程圖。

第3圖是根據本發明另一些示範性實施例電路具有單一攝影裝置的視訊會議系統的示意圖。

第4圖是根據本發明另一些示範性實施例中針對單一攝影裝置的視訊會議方法的流程圖。

第5圖是根據本發明另一些示範性實施例中具有兩個攝影裝置的視訊會議系統的示意圖。

第6圖是根據本發明另一些示範性實施例中針對兩個攝影裝置的視訊會議方法的流程圖。

第1圖是根據本發明一些示範性實施例的視訊會議系統的方塊圖。請參照第1圖，本實施例的視訊會議系統100包括至少一攝影裝置110(1)~(N)、麥克風陣列裝置120、聲音輸出裝置130以及處理器140，其中N可以是任意正整數，並沒有特別的限制。視訊會議系統100可應用於在會議室中所進行的線上視訊會議、線上通話會議或一般會議(上述會議可由多個人員參與)等以進行收音，並沒有特別的限制。

進一步而言，攝影裝置110(1)~(N)可拍攝影像，並將影像轉換為影像訊號輸出。麥克風陣列裝置120可包括多個麥克風(未繪示)，並擷取多個人員聲音，且將多個人員聲音轉換為多個聲音訊號輸出，其中多個麥克風的數量可以是任意正整數，並沒有特別的限制。聲音輸出裝置130可播放聲音。處理器140可以有線或無線的方式分別與攝影裝置110(1)~(N)、麥克風陣列裝置120以及聲音輸出裝置130連接。

對於有線方式而言，連接裝置可以是通用序列匯流排(USB)、RS232、通用非同步接收器/傳送器(UART)、內部整合電路(I2C)、序列周邊介面(SPI)、顯示埠(display port)、雷電埠(thunderbolt)或區域網路(LAN)介面，並沒有特別的限制。對於無線方式而言，連接裝置可以是無線保真(Wi-Fi)模組、無線射頻識別(RFID)模組、藍芽模組、紅外線模組、近場通訊(NFC)模組或裝置對裝置(D2D)模組，亦沒有特別的限制。

在一些實施例中，攝影裝置110(1)~(N)例如是採用電荷耦合元件(CCD)的鏡頭、互補性氧化金屬半導體(CMOS)的鏡頭、紅外線鏡頭或其他元件鏡頭等的攝影機。

在一些實施例中，攝影裝置110(1)~(N)可以設置於會議室中的任意位置。在進一步的實施例中，若N=1，攝影裝置110(1)例如是採用上述鏡頭的電動平移傾斜變焦(pan tilt zoom，PTZ)攝影機。此外，若N=2，攝影裝置110(1)例如是採用上述鏡頭的電動平移傾斜變焦攝影機，且攝影裝置110(2)例如是具有廣角透鏡的上述各種鏡頭的廣角攝影機(例如是180度廣角攝影機)。

在一些實施例中，麥克風陣列裝置120也可設置於會議室中的任意位置。此外，麥克風陣列裝置120的多個麥克風例如是具有多個麥克風收音單元的麥克風，其中麥克風收音單元可以是全向性麥克風或指向性麥克風等，且可分別擷取多個不同方向的聲音。

在一些實施例中，聲音輸出裝置130可設置於會議室的任何位置、另一會議室或辦公室等任意參與線上會議的人員所位於的室內或室外空間中。此外，聲音輸出裝置130例如是具有壓電揚聲器或動態揚聲器等各種揚聲器(speaker)的手機、個人電腦(PC)、平板電腦、行動電話、個人數位助理(PDA)等電子裝置。

在一些實施例中，處理器140例如是上述各種電子裝置中的中央處理單元(CPU)，或是其他可程式化之一般用途或特殊用途的微控制單元(MCU)、微處理器(microprocessor)、數位信號處理器(DSP)、可程式化控制器、特殊應用積體電路(ASIC)、圖形處理器(GPU)、算數邏輯單元(ALU)、複雜可程式邏輯裝置(CPLD)、現場可程式化邏輯閘陣列(FPGA)或其他類似元件或上述元件的組合。

第2圖是根據本發明一些示範性實施例的視訊會議方法的流程圖。本實施例的方法適用於第1圖的視訊會議系統100，但不以此為限。任何可應用第2圖所示方法的視訊會議系統均在本案思及範圍內。為清楚說明起見，以下即搭配第1圖所示視訊會議系統100中各裝置之間的作動關係來說明第2圖所示之視訊會議方法的詳細步驟。

首先，於步驟S201中，攝影裝置110(1)~(N)中的至少一者可拍攝影像，並將影像轉換為影像訊號輸出。詳細而言，攝影裝置110(1)~(N)中的至少一者可對會議室進行拍攝以產生會議室的影像，並進一步將會議室的影像轉換為影像訊號以進行輸出，其中參與會議的多個人員中的所有人員或部分人員可位於會議室中，並沒有對多個人員的數量有特別的限制。進一步而言，攝影裝置110(1)~(N)中的至少一者可將經由鏡頭入射的會議室的影像轉換成電訊號以進行輸出，並沒有對上述影像轉電訊號的方法有特別的限制。

接著，於步驟S203中，麥克風陣列裝置120可擷取多個人員聲音，並將多個人員聲音轉換為多個聲音訊號輸出。詳細而言，麥克風陣列裝置120中的多個麥克風可分別接收會議室中的多個人員聲音，並進一步將會議室中的多個人員聲音轉換為多個聲音訊號以進行輸出，其中多個人員聲音可能是由會議室中的多個人員的至少一者產生的。進一步而言，麥克風陣列裝置120中的多個麥克風可透過各種可能的聲電轉換元件將所接收的會議室中的多個人員聲音轉換為多個電訊號以進行輸出，並沒有對上述聲電轉換的方法有特別的限制。

接著，於步驟S205中，處理器140可依據影像訊號判斷多個人員位置對應的拍攝範圍資訊，並依據多個聲音訊號判斷聲源位置資訊。詳細而言，處理器140可從影像訊號判斷出攝影裝置110(1)~(N)對應的至少一拍攝角度，以藉此判斷聲源位置資訊。此外，處理器140可從多個聲音訊號判斷出多個人員聲音對應的多個聲源位置的聲源位置資訊。在一些實施例中，拍攝範圍資訊與聲源位置資訊皆可以會議室的室內二維座標的方式表示。

在一些實施例中，攝影裝置110(1)~(N)中的至少一者可依據多個拍攝角度拍攝影像，以將影像轉換為影像訊號，並依據影像訊號調整攝影裝置110(1)~(N)中的至少一者對應的拍攝角度。以N=1為例子，攝影裝置110(1)可依據多個拍攝角度拍攝影像，以將影像轉換為該影像訊號，並依據影像訊號調整攝影裝置110(1)對應的拍攝角度。

在另一些實施例中，攝影裝置110(1)~(N)中的至少一者可拍攝影像，以將影像轉換為影像訊號，且攝影裝置110(1)~(N)中的另外至少一者可依據影像訊號調整攝影裝置110(1)~(N)中的另外至少一者對應的拍攝角度。以N=2為例子，攝影裝置110(1)可拍攝影像，以將影像轉換為影像訊號。而攝影裝置110(2)可依據影像訊號調整攝影裝置110(2)對應的拍攝角度。

在一些實施例中，處理器140可從影像訊號辨識出多個人員位置的人員位置資訊，並依據人員位置資訊產生攝影裝置110(1)~(N)中的至少一者的多個拍攝設定參數，以依據多個拍攝設定參數產生多個人員位置對應的拍攝範圍資訊。

在一些實施例中，處理器140可依據多個聲音訊號，利用聲源追蹤或聲源定位的方法產生多個聲音訊號對應的聲源位置資訊，例如波束形成，超分辨譜估计、TDOA、CICS，在此不設限。

接著，於步驟S207中，處理器140可依據拍攝範圍資訊與聲源位置資訊從多個聲音訊號選擇多個人員位置對應的至少一聲源訊號。詳細而言，處理器140可判斷聲源位置資訊對應的多個聲音位置是否與攝影裝置110(1)~(N)對應的至少一拍攝角度相匹配。藉此，處理器140可將與攝影裝置110(1)~(N)對應的至少一拍攝角度相匹配的所有聲音訊號傳送至聲音輸出裝置130。

在一些實施例中，處理器140與聲音輸出裝置130可以設置於同一個會議室中的相同或不同的電子裝置，或者是設置於不同的會議室或辦公室中的不同的電子裝置中，且處理器140可透過各種有線或無線的方式，以將與攝影裝置110(1)~(N)對應的至少一拍攝角度相匹配的所有聲音訊號傳送至聲音輸出裝置130。

在一些實施例中，處理器140可判斷聲源位置資訊對應的多個聲源位置是否位於拍攝範圍資訊對應的拍攝範圍中。若多個聲源位置中的至少一者位於拍攝範圍中，處理器140可從多個聲音訊號選擇位於拍攝範圍中的聲源位置對應的至少一聲源訊號，並將至少一聲源訊號傳送至聲音輸出裝置130。若多個聲源位置皆未位於拍攝範圍中，處理器140可產生並傳送一個舒適噪聲訊號至聲音輸出裝置130。

最後，於步驟S209中，聲音輸出裝置130可將至少一聲源訊號轉換為聲音進行播放。詳細而言，聲音輸出裝置130可對從處理器140接收的所有聲源訊號進行電聲轉換以產生聲音，進而播放此聲音。

在一些實施例中，聲音輸出裝置130與處理器140可設置於會議室中的相同或不同的電子裝置，且聲音輸出裝置130可儲存所有從處理器140傳送的聲源訊號，並可在參與會議的多個人員中的至少一者想收聽語音會議記錄的情況下，將儲存的聲源訊號轉換為聲音進行播放。

在另一些實施例中，聲音輸出裝置130可設置於另一個會議室或辦公室的電子裝置中，並可將所接收的會議室對應的所有聲源訊號轉換為聲音，以播放給另一個會議室或辦公室中的所有參與會議的人員收聽。

藉由上述步驟，本發明實施例的視訊會議系統100可即時地擷取參與會議的所有人員的聲音，並防止擷取到未參與會議的人員(例如經過會議室的人員或遞送文件的人員等)的所有聲音，藉此可提升視訊會議的收音的效率。

進一步而言，以下說明本發明實施例的視訊會議系統100的一種使用情境。以單一個攝影裝置為例，視訊會議系統100的單一個攝影裝置可設置於存在多個人員的會議室的任意位置。

舉例來說，第3圖是根據本發明另一些示範性實施例所繪示具有單一攝影裝置的視訊會議系統的示意圖。請參照第3圖，視訊會議系統300可包括攝影裝置110、麥克風陣列裝置120、聲音輸出裝置130以及處理器140。處理器140可以有線或無線的方式分別與攝影裝置110、麥克風陣列裝置120以及聲音輸出裝置130連接。

在一些實施例中，攝影裝置110可以是電動平移傾斜變焦攝影機，且麥克風陣列裝置120可以是陣列麥克風。

在一些實施例中，處理器140可包括陣列處理電路1401、比較電路1402、切換電路1403、噪聲電路1404、採用智能框景(smart framing)技術的智能框景電路1405、電動平移傾斜變焦電路1406、採用聲音追蹤技術的聲音追蹤電路1407以及聲源位置電路1408。

在進一步的實施例中，智能框景電路1405可經由電動平移傾斜變焦電路1406連接至比較電路1402。聲音追蹤電路1407可經由聲源位置電路1408連接至比較電路1402。陣列處理電路1401、比較電路1402以及噪聲電路1404可連接至切換電路1403。

值得注意的是上述所有電路也可由各種軟體或韌體實現，並沒有特別的限制。

第4圖是根據本發明另一些示範性實施例中具有單一攝影裝置的視訊會議方法的流程圖。請同時參照第3圖與第4圖，首先，於步驟S401A中，處理器140可依據攝影裝置110所拍攝的多個影像的多個影像訊號判斷多個人員位置的人員位置資訊，以調整攝影裝置110的拍攝設定參數。

詳細而言，攝影裝置110可依據所有水平角度拍攝影像(即，水平360度的影像捕捉)，以將影像轉換為影像訊號。處理器140接收影像訊號，並依據影像訊號以智能框景的技術產生多個人員位置的人員位置資訊。藉此，處理器140可調整攝影裝置110的多個拍攝設定參數，並利用攝影裝置110以依據多個拍攝設定參數調整攝影裝置110對應的拍攝角度。在一些實施例中，多個拍攝設定參數可包括攝影裝置110的水平角度與仰角的參數。在一些實施例中，人員位置資訊也可以多個人員在會議室中的室內二維座標的方式表示。

進一步而言，處理器140可將所有拍攝的影像的影像訊號整合為廣角影像的廣角影像訊號。藉此，處理器140可依據此廣角影像訊號判斷會議室中參與會議的所有人員的位置。為了拍攝到會議室中參與會議的所有人員，處理器140可依據所判斷出的多個人員位置產生攝影裝置110的多個拍攝設定參數，並利用攝影裝置110以依據這些拍攝設定參數調整攝影裝置110對應的拍攝角度(即，攝影裝置110可在此角度拍攝到參與會議的所有人員)。

在一些實施例中，攝影裝置110可依據所有水平角度進行拍攝，且處理器140的智能框景電路1405可將所有拍攝的影像進行整合，以產生一個廣角影像。此外，智能框景電路1405可對廣角影像進行人臉偵測、人形偵測以及移動偵測，以產生多個人員位置的人員位置資訊，並依據人員位置資訊對廣角影像進行影像局部放大，以產生多個局部放大參數。

藉此，智能框景電路1405可依據這些局部放大參數產生攝影裝置110的多個拍攝設定參數。電動平移傾斜變焦電路1406可接收這些拍攝設定參數，並利用攝影裝置110以依據這些拍攝設定參數調整影裝置110對應的拍攝角度。

而於步驟S401B中，處理器140可依據麥克風陣列裝置120中的多個麥克風所擷取多個人員聲音的多個聲音訊號，以記錄多個麥克風接收到多個人員聲音的多個到達時間，並計算多個到達時間之間的多個時間差。

在一些實施例中，當任何一個麥克風接收到人員聲音時，處理器140的聲音追蹤電路1407可立即記錄此人員聲音的到達時間。藉此，聲音追蹤電路1407可計算多個人員聲音對應的多個到達時間之間的多個時間差。

接著，於步驟S403A中，處理器140可依據多個拍攝設定參數計算攝影裝置110對應的拍攝範圍資訊。

在一些實施例中，處理器140的電動平移傾斜變焦電路1406可依據多個拍攝設定參數計算攝影裝置110對應的拍攝角度。藉此，電動平移傾斜變焦電路1406可依據此拍攝角度計算出會議室中的一個拍攝範圍，以產生拍攝範圍資訊。

而於步驟S403B中，處理器140可依據多個時間差產生多個人員聲音對應的多個聲源位置，以依據多個聲源位置產生聲源位置資訊。

在一些實施例中，處理器140的聲源位置電路1408可依據上述多個到達時間之間的多個時間差以聲音追蹤的技術產生多個人員聲音對應的多個聲源位置，以依據多個聲源位置產生聲源位置資訊。

接著，於步驟S405中，處理器140可判斷聲源位置資訊對應的多個聲源位置是否位於拍攝範圍資訊對應的拍攝範圍中。若多個聲源位置中的至少一者位於拍攝範圍中，進入步驟S407A中。此外，若多個聲源位置皆不位於拍攝範圍中，進入步驟S407B中。

在一些實施例中，處理器140的比較電路1402可從聲源位置資訊擷取多個聲源位置，並從拍攝範圍資訊擷取多個人員位置對應的拍攝範圍。藉此，比較電路1402可判斷聲源位置資訊對應的多個聲源位置是否位於拍攝範圍資訊對應的拍攝範圍中。在一些實施例中，多個人員位置對應的拍攝範圍也可以多個人員在會議室中的室內二維座標的方式表示。

在一些實施例中，也可皆不採用步驟S401A~S403A以及步驟S401B~S403B。如此一來，處理器140可利用任意的聲源追蹤的方法，以依據多個聲音訊號產生聲源位置資訊，並直接依據多個影像訊號或目前的拍攝設定參數(其未經過步驟S401A調整)產生拍攝範圍資訊。藉此，處理器140可判斷聲源位置資訊對應的多個聲源位置是否位於拍攝範圍資訊對應的拍攝範圍中。換言之，處理器140可直接判斷目前的拍攝範圍中存在哪些聲源位置。

據此，於步驟S407A中，處理器140可從多個聲音訊號選擇位於拍攝範圍中的聲源位置對應的至少一聲源訊號，以將至少一聲源訊號傳送至聲音輸出裝置130，而於步驟S407B中，處理器140可產生舒適躁聲訊號，以將舒適躁聲訊號傳送至聲音輸出裝置130。

在一些實施例中，處理器140的切換電路1402可經由陣列處理電路1401從麥克風陣列裝置120接收多個聲音訊號，並從多個聲音訊號選擇位於拍攝範圍中的聲源位置對應的至少一聲源訊號。藉此，切換電路1402將至少一聲源訊號傳送至聲音輸出裝置130。

在另一些實施例中，處理器140的切換模組1402可從噪聲電路1404接收一個舒適躁聲訊號。藉此，切換電路1402將此舒適躁聲訊號傳送至聲音輸出裝置130。

藉由上述步驟，本發明實施例的視訊會議系統300可透過單一個攝影裝置110進行智能框景並透過麥克風陣列裝置120進行聲音追蹤技術，以即時地擷取參與會議的所有人員的聲音，並防止擷取到未參與會議的人員的所有聲音，藉此可提升視訊會議的收音的效率。

進一步而言，以下說明本發明實施例的視訊會議系統100的另一種使用情境。以兩個攝影裝置為例，視訊會議系統100的兩個攝影裝置可設置於存在多個人員的會議室的任意位置。

舉例來說，第5圖是根據本發明另一些示範性實施例所繪示具有兩個攝影裝置的視訊會議系統的示意圖。請參照第5圖，視訊會議系統500可包括攝影裝置110(1)~110(2)、麥克風陣列裝置120、聲音輸出裝置130以及處理器140。處理器140可以有線或無線的方式分別與攝影裝置110、麥克風陣列裝置120以及聲音輸出裝置130連接。

相較於第3圖所示實施例，第5圖中的視訊會議系統500更包括第二個攝影裝置(即，攝影裝置110(2))。此外，攝影裝置110(1)可以是具有廣角透鏡的鏡頭的廣角攝影機，且攝影裝置110(2)可以是電動平移傾斜變焦攝影機，並沒有對攝影裝置110(1)~110(2)有特別的限制。

第6圖是根據本發明另一些示範性實施例中針對兩個攝影裝置的視訊會議方法的流程圖。請同時參照第5圖與第6圖，相較於第4圖所示實施例，第6圖中的步驟S601B~S602B、S603~S605、S607A~S607B皆與第4圖中的步驟S401B~S402B、S403~S405、S407A~S407B相同，故在此不進一步贅述。基於此，以下針對第6圖中相較於第4圖的不同的步驟進一步描述(即，步驟S601A~S603A)。

首先，於步驟S601A中，處理器140可依據攝影裝置110(1)所拍攝的多個影像的多個影像訊號判斷多個人員位置的人員位置資訊，以調整攝影裝置110(2)的拍攝設定參數。

詳細而言，攝影裝置110(1)可拍攝廣角影像，以將廣角影像轉換為影像訊號。處理器140接收影像訊號，並依據影像訊號以智能框景的技術產生多個人員位置的人員位置資訊。藉此，處理器140可調整攝影裝置110(2)的多個拍攝設定參數，並利用攝影裝置110(2)以依據多個拍攝設定參數調整攝影裝置110(2)對應的拍攝角度。在一些實施例中，多個拍攝設定參數可包括攝影裝置110(2)的水平角度與仰角的參數。在一些實施例中，人員位置資訊也可以多個人員在會議室中的室內二維座標的方式表示。

進一步而言，處理器140可依據此廣角影像訊號判斷會議室中參與會議的所有人員的位置。為了拍攝到會議室中參與會議的所有人員，處理器140可依據所判斷出的多個人員位置產生攝影裝置110(2)的多個拍攝設定參數，並利用攝影裝置110(2)以依據這些拍攝設定參數調整攝影裝置110對應的拍攝角度(即，攝影裝置110(2)可在此角度拍攝到參與會議的所有人員)。

在一些實施例中，處理器140的智能框景模組1405可對廣角影像進行人臉偵測、人形偵測以及移動偵測，以產生多個人員位置的人員位置資訊，並依據人員位置資訊對廣角影像進行影像局部放大，以產生多個局部放大參數。

藉此，智能框景模組1405可依據這些局部放大參數產生攝影裝置110(2)的多個拍攝設定參數。電動平移傾斜變焦模組1406可接收這些拍攝設定參數，並利用攝影裝置110(2)以依據這些拍攝設定參數調整影裝置110(2)對應的拍攝角度。

接著，於步驟S603A中，處理器140可依據多個拍攝設定參數計算攝影裝置110(2)對應的拍攝範圍資訊。

在一些實施例中，處理器140的電動平移傾斜變焦模組1406可依據多個拍攝設定參數計算攝影裝置110(2)對應的拍攝角度。藉此，電動平移傾斜變焦模組1406可依據此拍攝角度計算出會議室中的一個拍攝範圍，以產生拍攝範圍資訊。

藉由上述步驟，本發明實施例的視訊會議系統500可透過攝影裝置110(1)與攝影裝置110(2)進行智能框景並透過麥克風陣列裝置120進行聲音追蹤技術，以即時地擷取參與會議的所有人員的聲音，並防止擷取到未參與會議的人員的所有聲音，藉此可提升視訊會議的收音的效率。

綜上所述，本發明的視訊會議系統與方法利用基於智能框景技術的至少一攝影裝置，以將與會人員納入至少一攝影裝置中的一者的視角範圍內。藉此，將此至少一攝影裝置搭配基於聲音追蹤技術的麥克風陣列裝置，可自動限制麥克風收音範圍。藉此，本發明實施例可結合至少一攝影裝置與陣列麥克風裝置，以防止擷取到未參與會議的人員的所有聲音。如此一來，可即時地擷取視訊會議中的所有參與人員的聲音，以提升視訊會議的收音的效率。

雖然本發明已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。

100:視訊會議系統

110(1)~(N):攝影裝置

120:麥克風陣列裝置

130:聲音輸出裝置

140:處理器

Claims

一種視訊會議系統，包括：

至少一攝影裝置，用以拍攝一影像，並將該影像轉換為一影像訊號輸出；

一麥克風陣列裝置，包括多個麥克風，並用以擷取多個人員聲音，且將該些人員聲音轉換為多個聲音訊號輸出；

一聲音輸出裝置，用以播放聲音；

一處理器，連接該至少一攝影裝置、該麥克風陣列裝置以及該聲音輸出裝置，並用以：

從該至少一攝影裝置接收該影像訊號，並從該麥克風陣列裝置接收該些聲音訊號；以及

依據該影像訊號與該些聲音訊號從該些聲音訊號選擇多個人員位置對應的至少一聲源訊號，以將該些人員位置對應的該至少一聲源訊號傳送至該聲音輸出裝置，

其中該聲音輸出裝置將該至少一聲源訊號轉換為聲音進行播放。
如請求項1所述之視訊會議系統，其中該至少一攝影裝置更用以：

依據多個拍攝角度拍攝該影像，以將該影像轉換為該影像訊號，並依據該影像訊號調整該攝影裝置對應的拍攝角度。
如請求項1所述之視訊會議系統，其中該處理器更用以：

從該影像訊號辨識出該些人員位置的人員位置資訊；以及

依據該人員位置資訊產生該至少一攝影裝置的多個拍攝設定參數，以依據該些拍攝設定參數產生該些人員位置對應的拍攝範圍資訊。
如請求項3所述之視訊會議系統，其中該處理器更用以：

依據該些聲音訊號，以利用聲源追蹤或聲源定位的方法產生該些聲音訊號對應的聲源位置資訊；

判斷該聲源位置資訊對應的多個聲源位置是否位於該拍攝範圍資訊對應的該拍攝範圍中；以及

若該些聲源位置中的至少一者位於該拍攝範圍中，從該些聲音訊號選擇位於該拍攝範圍中的該聲源位置對應的該至少一聲源訊號。
一種視訊會議方法，包括：

利用至少一攝影裝置拍攝一影像，並將該影像轉換為一影像訊號輸出；

利用一麥克風陣列裝置擷取多個人員聲音，並將該些人員聲音轉換為多個聲音訊號輸出；

依據該影像訊號判斷多個人員位置對應的拍攝範圍資訊，並依據該些聲音訊號判斷聲源位置資訊；

依據該拍攝範圍資訊與該聲源位置資訊從該些聲音訊號選擇該些人員位置對應的至少一聲源訊號；以及

利用一聲音輸出裝置將該至少一聲源訊號轉換為聲音進行播放。
如請求項5所述之視訊會議方法，其中利用該利用至少一攝影裝置拍攝該影像的步驟包括：

依據多個拍攝角度，以利用該攝影裝置拍攝該影像來將該影像轉換為該影像訊號，並依據該影像訊號調整該攝影裝置對應的拍攝角度。
如請求項5所述之視訊會議方法，其中依據該影像訊號判斷該些人員位置對應的拍攝範圍資訊的步驟包括：

從該影像訊號辨識出該些人員位置的人員位置資訊；以及

依據該人員位置資訊產生該至少一攝影裝置的多個拍攝設定參數，以依據該些拍攝設定參數產生該些人員位置對應的該拍攝範圍資訊。
如請求項5所述之視訊會議方法，其中依據該些聲音訊號判斷該聲源位置資訊的步驟更包括：

依據該些聲音訊號，以利用聲源追蹤或聲源定位的方法產生該些聲音訊號對應的聲源位置資訊，

其中依據該拍攝範圍資訊與該聲源位置資訊從該些聲音訊號選擇該些人員位置對應的該至少一聲源訊號的步驟更包括：

判斷該聲源位置資訊對應的多個聲源位置是否位於該拍攝範圍資訊對應的該拍攝範圍中；以及

若該些聲源位置中的至少一者位於該拍攝範圍中，從該些聲音訊號選擇位於該拍攝範圍中的該聲源位置對應的該至少一聲源訊號。
一種視訊會議系統，包括：

一聲音輸出裝置；

至少一攝影裝置，用以拍攝一影像，並將該影像轉換為一影像訊號輸出；

一麥克風陣列裝置，包括多個麥克風，並用以擷取多個聲音，且將該些聲音轉換為多個聲音訊號輸出；

一處理器，連接該至少一攝影裝置、該麥克風陣列裝置以及該聲音輸出裝置，並用以：

從該至少一攝影裝置接收該影像訊號，並從該麥克風陣列裝置接收該些聲音訊號；

依據該影像訊號產生一拍攝範圍，並依據該些聲音訊號產生多個聲源位置，進而判斷該些聲源位置是否位於該拍攝範圍中；以及

若該些聲源位置中的至少一者位於該拍攝範圍中，從該些聲音訊號選擇位於該拍攝範圍中的該聲源位置對應的至少一聲源訊號，以將該至少一聲源訊號傳送至該聲音輸出裝置，其中該聲音輸出裝置將該至少一聲源訊號轉換為一輸出聲音進行播放。
如請求項9所述之視訊會議系統，其中該至少一攝影裝置更用以：

依據多個拍攝角度拍攝該影像，以將該影像轉換為該影像訊號，並依據該影像訊號調整該攝影裝置對應的拍攝角度。
如請求項9所述之視訊會議系統，其中該至少一攝影裝置包括：

一第一攝影裝置，用以拍攝該影像，以將該影像轉換為該影像訊號；以及

一第二攝影裝置，用以依據該影像訊號調整該第二攝影裝置對應的拍攝角度。