TW202231061A

TW202231061A - 視訊會議系統及其方法、感測裝置及介面產生方法

Info

Publication number: TW202231061A
Application number: TW110140248A
Authority: TW
Inventors: 王立全; 李坤哲; 薛吉全; 蔡岱芸; 雷凱俞; 洪健銘
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2020-12-17
Filing date: 2021-10-29
Publication date: 2022-08-01
Also published as: TWI791314B

Abstract

本發明提出一種視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法。視訊會議系統包括聲音及影像感測裝置、運算裝置及顯示裝置。聲音及影像感測裝置輸出聲音來源的方位資訊及視訊影像。運算裝置根據方位資訊及視訊影像來輸出視訊會議介面的影像資料。顯示裝置根據影像資料顯示視訊會議介面。運算裝置根據方位資訊從視訊影像擷取聲音來源影像。運算裝置根據方位資訊設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域，並且聲音來源影像依序排列顯示在視訊會議介面的第二區域中。

Description

視訊會議系統及其方法、感測裝置及介面產生方法

本發明是有關於一種多媒體系統、裝置以及方法，且特別是有關於一種視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法。

傳統的視訊會議系統僅是單純透過攝影的方式來取得即時的視訊會議影像。然而，隨著會議參與人員的增加，由於傳統的視訊會議影像無法即時聚焦當前發言人員的影像，而使得他人在觀看視訊會議影像時，無法即時掌握當前發言的對象。特別是，當多人發言時，由於他人無法有效聚焦當前發言的多個對象，而使得整個視訊會議的進行過程的效果可能會變的缺乏效率。

本發明提供一種視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法，可自動產生具有特殊的多個子畫面同步顯示效果的視訊會議介面。

本發明的視訊會議系統包括聲音及影像感測裝置、運算裝置以及顯示裝置。聲音及影像感測裝置包括聲音感測模組以及影像擷取模組。聲音感測模組包括至少一麥克風，並且輸出至少一聲音來源的至少一方位資訊。影像擷取模組包括至少一攝影機，並且用以取得視訊影像。運算裝置耦接聲音及影像感測裝置，並且用以根據至少一方位資訊以及視訊影像來輸出視訊會議介面的影像資料。顯示裝置耦接運算裝置，並且用以根據影像資料顯示視訊會議介面。視訊會議介面包括第一區域以及第二區域。運算裝置設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域。運算裝置根據至少一方位資訊從視訊影像擷取對應於至少一聲音來源的至少一聲音來源影像。運算裝置根據至少一方位資訊設定影像資料，以使至少一聲音來源影像依序排列顯示在視訊會議介面的第二區域中。

本發明的視訊會議方法包括以下步驟：藉由聲音感測模組輸出至少一聲音來源的至少一方位資訊；藉由影像擷取模組取得視訊影像；藉由運算裝置根據至少一方位資訊以及視訊影像來輸出視訊會議介面的影像資料，其中視訊會議介面包括第一區域以及第二區域；藉由顯示裝置根據影像資料顯示視訊會議介面；藉由運算裝置設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域；藉由運算裝置根據至少一方位資訊從視訊影像擷取對應於至少一聲音來源的至少一聲音來源影像；以及藉由運算裝置根據至少一方位資訊設定影像資料，以使至少一聲音來源影像依序排列顯示在視訊會議介面的第二區域中。

本發明的聲音及影像感測裝置耦接外部運算設備。外部運算設備耦接外部顯示裝置。聲音及影像感測裝置包括聲音感測模組以及影像擷取模組。聲音感測模組輸出第一聲音來源的第一方位資訊以及第二聲音來源的第二方位資訊至外部運算設備。影像擷取模組用以取得視訊影像，並且輸出視訊影像至外部運算設備。外部運算裝置根據第一方位資訊、第二方位資訊以及視訊影像來輸出視訊會議介面的影像資料至外部顯示裝置，以使外部顯示裝置根影像資料顯示視訊會議介面。視訊會議介面包括第一區域以及第二區域。運算裝置設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域。外部運算裝置根據第一方位資訊以及第二方位資訊從視訊影像擷取對應於第一聲音來源以及第二聲音來源的第一聲音來源影像以及第二聲音來源影像。外部運算裝置根據第一方位資訊以及第二方位資訊計算夾角，以設定影像資料，以使第一聲音來源影像以及第二聲音來源影像依序排列顯示在視訊會議介面的第二區域中。

本發明的視訊會議介面的產生方法，適於整合由聲音感測模組所輸出的至少一方位資訊以及由影像擷取模組所取得的視訊影像。視訊會議介面的產生方法包括以下步驟：藉由運算裝置根據至少一方位資訊以及視訊影像來產生視訊會議介面的影像資料，其中視訊會議介面包括第一區域以及第二區域；藉由運算裝置設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域；藉由運算裝置根據至少一方位資訊從視訊影像擷取對應於至少一聲音來源的至少一聲音來源影像；以及藉由運算裝置根據至少一方位資訊設定影像資料，以使至少一聲音來源影像依序排列顯示在視訊會議介面的第二區域中。

基於上述，本發明的視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法，可自動根據會議參與人員的發言情形來自動切割多個子畫面，並且將多個子畫面同步顯示於視訊會議介面中。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

為了使本發明之內容可以被更容易明瞭，以下特舉實施例做為本揭示確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

圖1是本發明的一實施例的視訊會議系統的電路示意圖。參考圖1，視訊會議系統100包括聲音及影像感測裝置110、運算裝置120以及顯示裝置130。運算裝置120耦接視訊會議系統以及顯示裝置130。聲音及影像感測裝置110包括聲音感測模組111以及影像擷取模組112。在本實施例中，聲音感測模組111可包括至少一麥克風，並且輸出至少一聲音來源的至少一方位資訊。在一實施例中，聲音感測模組111可例如是麥克風陣列(Microphone Array)，並且包括多個麥克風。影像擷取模組112包括至少一攝影機，並且用以取得視訊影像。在一實施例中，影像擷取模組112可例如是全景攝影機，並且視訊影像可例如是全景影像。在本實施例中，運算裝置120可例如是本地端電腦或是雲端伺服器。在一實施例中，運算裝置120以及顯示裝置130可整合為電腦設備。

在本實施例中，運算裝置120可包括處理器，其中所述處理器可包括相關控制功能、顯示驅動功能以及影像資料運算功能的中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、影像處理器(Image Processing Unit，IPU)、圖形處理器(Graphics Processing Unit，GPU)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)、微控制器單元(Microcontroller Unit，MCU)、嵌入式控制器(Embedded Controller，EC)、其他類似控制裝置或這些裝置的結合。在本實施例中，運算裝置120還可包括記憶體(Memory)，其中所述記憶體可用於儲存相關聲音及影像處理軟體、影像資料、系統參數、相關參數運算以及相關運算軟體的演算法等，以供運算裝置120依所需執行之功能來分別存取並執行之。

圖2是本發明的一實施例的視訊會議方法的流程圖。參考圖1及圖2，視訊會議系統100可執行如圖2實施例的步驟S210~S270，以實現視訊會議功能。在步驟S210，聲音感測模組111輸出至少一聲音來源的至少一方位資訊。在步驟S220，影像擷取模組112取得視訊影像。在步驟S230，運算裝置120根據至少一方位資訊以及視訊影像來輸出視訊會議介面的影像資料，其中視訊會議介面包括第一區域以及第二區域。在步驟S240，顯示裝置130根據影像資料顯示視訊會議介面。在步驟S250，運算裝置120設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域。在步驟S260，運算裝置120根據至少一方位資訊從視訊影像擷取對應於至少一聲音來源的至少一聲音來源影像。在步驟S270，運算裝置120根據至少一方位資訊設定影像資料，以使至少一聲音來源影像依序排列顯示在視訊會議介面的第二區域中。因此，本實施例的視訊會議系統100可在視訊會議介面的第一區域中顯示具有整體會議參與人員的視訊影像，並且將會議參與人員中的發言人員的聲音來源影像同步顯示在視訊會議介面的第二區域中。

另外，在一實施例中，運算裝置120還可分析至少一聲音來源的至少一聲音信號，以取得至少一說話文字資料。運算裝置120可根據對應的該至少一方位資訊，將至少一說話文字資料以及至少一聲音來源影像紀錄至對話紀錄關聯表當中。所述對話紀錄關聯表中的每一筆資料可例如包括有對應的時間參數、對應的聲音來源影像以及對應的說話文字資料。

圖3是本發明的另一實施例的視訊會議系統的電路示意圖。參考圖3，視訊會議系統30包括電腦裝置200以及視訊會議設備300。電腦裝置200包括運算裝置220、顯示裝置230、通訊模組240以及喇叭裝置250。視訊會議設備300包括聲音及影像感測裝置310以及通訊模組320。在本實施例中，運算裝置220包括處理器221以及記憶體222。處理器221耦接記憶體222、顯示裝置230、通訊模組240以及喇叭裝置250。在本實施例中，聲音及影像感測裝置310包括聲音感測模組311以及影像擷取模組312。聲音感測模組311包括麥克風陣列3111以及音訊編解碼單元3112。影像擷取模組312包括全景攝影機3121以及影像編解碼單元3122。通訊模組320耦接音訊編解碼單元3112以及影像編解碼單元3122。本實施例的運算裝置220、顯示裝置230以及聲音及影像感測裝置310的相關實施說明可參照上述圖1及圖2實施例的說明，因此不多加贅述。

在本實施例中，通訊模組240以及通訊模組320之間可透過有線或無線的方式進行通訊。麥克風陣列3111可感測周圍的一個或多個聲音來源。麥克風陣列3111可透過音訊編解碼單元3112輸出周圍的一個或多個聲音來源的聲音資料以及對應的一個或多個方位資訊，並且透過通訊模組320提供至電腦裝置200。全景攝影機3121可取得即時且全景的視訊影像。全景攝影機3121可透過影像編解碼單元3122輸出視訊影像，並且透過通訊模組320提供至電腦裝置200。本實施例的視訊會議系統30可執行如上述圖2的視訊會議方法。通訊模組320還可經由網路將視訊影像資料提供至另一端參與視訊會議的另一電腦裝置。在本實施例中，喇叭裝置250可搭配視訊影像來同步播放視訊會議音訊。

先搭配參考圖4A以及圖4B，圖4A以及圖4B是本發明的一實施例的取得視訊影像的情境示意圖。如圖4A所示，視訊會議設備300可例如設置於會議參與人員p1~p3的中間。全景攝影機3121可取得如圖4B所示的視訊影像401。在本實施例中，視訊影像401的左側邊界至右側邊界可對應於0~360度的視訊影像座標。麥克風陣列3111以及全景攝影機3121可預先進行座標匹配，以使麥克風陣列3111所記錄其取得的聲音信號的到達角度(Direction-of-Arrival，DoA)的0~360度可對應於0~x度的視訊影像座標。因此，當麥克風陣列3111分別在45度、90度以及180度的到達角度(DoA)感測到聲音資料時，電腦裝置200的處理器221可依其到達角度將對應的聲音資料與視訊影像401中的對應位置進行定義，以使進行後續的聲音來源影像的擷取與對話紀錄關聯表的建立。值得注意的是，當處理器221取得某一聲音資料的到達角度(DoA)的到達角度(DoA)後，處理器221可例如執行以下公式(1)的運算，而取得對應的視訊影像座標P。

…………公式(1)

再舉例而言，當處理器221取得到達角度為180度的聲音資料時，則可對應地將此聲音資料與視訊影像401的對應視訊影像座標為P的影像內容進行匹配，並且可例如將視訊影像座標P-x1至視訊影像座標P+x1之間的部分視訊影像進行剪裁以產生聲音來源影像。

再搭配參考圖5A以及圖5B，圖5A是本發明的一實施例的進行視訊會議的情境示意圖，並且圖5B是本發明的第一實施例的視訊會議介面的示意圖。如圖5A所示，電腦裝置200以及視訊會議設備300可放置於會議桌的桌面上，並且會議參與人員p1~p4可圍繞會議桌。視訊會議設備300的聲音及影像感測裝置310可將視訊影像501提供至電腦裝置200。並且，當會議參與人員p1發出聲音時，視訊會議設備300的聲音及影像感測裝置310可將對應的聲音資料以及方位資訊提供至電腦裝置200。電腦裝置200的處理器221可根據方位資訊從視訊影像501擷取對應的聲音來源影像502。電腦裝置200的處理器221可將視訊影像501整合至視訊會議介面500的第一區域中，並且將聲音來源影像502整合至視訊會議介面500的第二區域中，其中第一區域可小於第二區域。因此，視訊會議系統30可提供具有整體會議參與人員的影像以及當前發言人員的影像在同一個視訊會議介面500中，以提供良好的視訊會議體驗。

圖6是本發明的一實施例的因應多個聲音來源的視訊會議方法的流程圖。圖7是本發明的一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。圖8A是本發明的另一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。圖8B是本發明的另一實施例的具有多個聲音來源影像的視訊會議介面的另一示意圖。先參考圖3以及圖6，視訊會議系統30可執行如圖6的步驟S610~S670，以延續上述參考圖5A以及圖5B實施例的會議情境，定且因應多個聲音來源。

在步驟S610，電腦裝置200的處理器221可取得由聲音感測模組311輸出第一聲音來源的第一方位資訊。在步驟S620，電腦裝置200的處理器221可根據第一方位資訊設定影像資料，以使第一聲音來源影像顯示在視訊會議介面的第二區域。在步驟S630，電腦裝置200的處理器221可取得由聲音感測模組311輸出第二聲音來源的第二方位資訊。在步驟S640，電腦裝置200的處理器221可根據第一方位資訊以及第二方位資訊計算夾角。在本實施例中，當聲音感測模組311輸出第二聲音來源的第二方位資訊時，處理器221可根據第一方位資訊以及第二方位資訊計算夾角，並根據夾角來決定是否調整第一聲音來源影像並顯示第二聲音來源影像。

在步驟S650，電腦裝置200的處理器221可判斷夾角是否大於分割參數。若否，表示第一聲音來源與第二聲音來源之間的距離較近，並且電腦裝置200的處理器221可執行步驟S660。搭配參考圖7，視訊會議介面700的第一區域顯示視訊影像701，並且視訊會議介面700的第二區域顯示第一聲音來源影像702。視訊影像701可顯示全部會議參與人員p1~p4的全景影像。在步驟S660，電腦裝置200的處理器221可維持第一聲音來源影像702的範圍，以使第一聲音來源影像702包括顯示第二聲音來源影像。換言之，第一聲音來源影像702可包括會議參與人員p1及會議參與人員p2的人物影像。

反之，若電腦裝置200的處理器221判斷夾角大於分割參數，則表示第一聲音來源與第二聲音來源之間的距離較遠，因此電腦裝置200的處理器221可執行步驟S670。搭配參考圖8A以及圖8B，視訊會議介面800、800’的第一區域顯示視訊影像801、801’，並且視訊會議介面800、800’的第二區域顯示第一聲音來源影像802、802’以及第二聲音來源影像803、803’。視訊影像801、801’可顯示全部會議參與人員p1~p4的全景影像。在步驟S670，電腦裝置200的處理器221可縮小第一聲音來源影像801、801’的範圍，並且根據第一方位資訊以及第二方位資訊之間的方位關係，來使第二聲音來源影像803、803’從特定方向插入顯示在視訊會議介面800、800’的第二區域中且位於第一聲音來源影像801、801’的特定一側。如圖8A所示，第二聲音來源影像803可從第一聲音來源影像802的左側插入視訊會議介面800的第二區域(因為會議參與人員p3位於為會議參與人員p1的左側)。如圖8B所示，第二聲音來源影像803’可從第一聲音來源影像802’的右側插入視訊會議介面800’的第二區域(因為會議參與人員p2位於為會議參與人員p1的右側)。因此，視訊會議系統30可提供具有整體會議參與人員的影像以及多個當前發言人員的影像在同一個視訊會議介面800、800’中，以提供良好的視訊會議體驗以及動態的發言畫面的切換效果。

另外，在一實施例中，運算裝置220的處理器221還可分析第一聲音來源以及該第二聲音來源的第一聲音信號以及第二聲音信號，以取得第一說話文字資料以及第二說話文字資料。並且，運算裝置220的處理器221可根據對應的第一方位資訊以及第二方位資訊，將第一說話文字資料、第二說話文字資料、第一聲音來源影像以及第二聲音來源影像紀錄至對話紀錄關聯表當中。

此外，當聲音感測模組311輸出第三聲音來源的第三方位資訊時，處理器221可根據第三方位資訊設定影像資料，以根據第一方位資訊、第二方位資訊以及第三方位資訊之間的方位關係，來使第三聲音來源影像從特定方向插入顯示在視訊會議介面的第二區域。對此，以下圖9A至圖9C為說明三人發言的發言畫面的切換效果，並且三人以上的發言畫面的切換效果可類推。參考圖9A，圖9A是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。視訊會議介面900的第一區域顯示視訊影像901，並且視訊會議介面900的第二區域顯示聲音來源影像902~904。視訊影像901可顯示全部會議參與人員p1~p4的全景影像。在本實施例中，視訊會議介面900的第二區域可先顯示進行談話的會議參與人員p1以及會議參與人員p4的聲音來源影像902、903。當會議參與人員p3加入談話時，由於會議參與人員p3的實際位置位於會議參與人員p1以及會議參與人員p4的左側，因此會議參與人員p3的聲音來源影像904可從聲音來源影像903的左側插入視訊會議介面900的第二區域。

參考圖9B，圖9B是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的另一示意圖。視訊會議介面900’的第一區域顯示視訊影像901’，並且視訊會議介面900’的第二區域顯示聲音來源影像902’~904’。視訊影像901’可顯示全部會議參與人員p1~p4的全景影像。在本實施例中，視訊會議介面900’的第二區域可先顯示進行談話的會議參與人員p3以及會議參與人員p4的聲音來源影像902’、903’。當會議參與人員p2加入談話時，由於會議參與人員p2的實際位置位於會議參與人員p3以及會議參與人員p4的右側，因此會議參與人員p2的聲音來源影像904’可從聲音來源影像903’的右側插入視訊會議介面900’的第二區域。

參考圖9C，圖9C是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的又一示意圖。視訊會議介面900”的第一區域顯示視訊影像901”，並且視訊會議介面900”的第二區域顯示聲音來源影像902”~904”。視訊影像901”可顯示全部會議參與人員p1~p4的全景影像。在本實施例中，視訊會議介面900”的第二區域可先顯示進行談話的會議參與人員p1以及會議參與人員p3的聲音來源影像902”、903”。當會議參與人員p4加入談話時，由於會議參與人員p4的實際位置位於會議參與人員p1以及會議參與人員p3的中間，因此會議參與人員p4的聲音來源影像904”可從聲音來源影像902”、903”的中間插入視訊會議介面900”的第二區域。

圖10是本發明的另一實施例的視訊會議方法的流程圖。圖11A以及圖11B是本發明的一實施例的調整視訊會議介面的示意圖。參考圖3、圖10、圖11A以及圖11B，視訊會議介面1100的第一區域顯示視訊影像1101，並且視訊會議介面1100的第二區域顯示第一聲音來源影像1102。視訊影像1101可顯示全部會議參與人員p1~p4的全景影像。如圖11A所示，隨著會議參與人員p1、p2、p3依序發言後，會議參與人員p1、p2、p3的聲音來源影像1102~1104分別根據對應的方位資訊來排列在會議介面1100的第二區域。會議參與人員p1、p2、p3依序在時間s1~s3靜默。在步驟S1010，電腦裝置200的處理器221可取得由聲音感測模組311輸出另一聲音來源的另一方位資訊。在步驟S1020，電腦裝置200的處理器221可判斷視訊會議介面1100的第二區域所顯示的多個聲音來源影像是否已達臨界顯示數量。若是，在步驟S1030，在步驟S1010，電腦裝置200的處理器221可根據多個聲音來源影像所對應的多個靜默時間長度來移除對應於最長靜默時間長度的多個影像的其中之一。例如圖11A所示，會議參與人員p1假設具有最長靜默時間長度，因此電腦裝置200的處理器221可先將會議參與人員p1的聲音來源影像1104移除。接著，在步驟S1040，電腦裝置200的處理器221可使另一聲音來源影像從特定方向插入顯示在視訊會議介面1100的第二區域。例如圖11B所示，會議參與人員p4加入發言，因此電腦裝置200的處理器221將會議參與人員p4的聲音來源影像1105從對應方向來插入顯示在視訊會議介面1100的第二區域中。反之，若視訊會議介面1100的第二區域所顯示的多個聲音來源影像未達臨界顯示數量，則電腦裝置200的處理器221可直接執行步驟S1040，以直接將會議參與人員p4的聲音來源影像1105插入從對應方向來插入顯示在視訊會議介面1100的第二區域中。因此，視訊會議系統30可提供良好的視訊會議體驗以及發言畫面的動態移除、加入及替換效果。

圖12是本發明的又一實施例的視訊會議方法的流程圖。圖13A以及圖13B是本發明的一實施例的調整視訊會議介面的示意圖。參考圖3、圖12、圖13A以及圖13B，視訊會議介面1100的第一區域顯示視訊影像1101，並且視訊會議介面1100的第二區域顯示第一聲音來源影像1102。視訊影像1101可顯示全部會議參與人員p1~p4的全景影像。如圖11A所示，隨著會議參與人員p1、p2、p3依序發言後，會議參與人員p1、p2、p3的聲音來源影像1102~1104分別根據對應的方位資訊來排列在視訊會議介面1100的第二區域。會議參與人員p1、p2、p3依序在時間s1~s3靜默。如圖13A所示，在步驟S1210，電腦裝置200的處理器221可藉由視訊會議介面1300的第二區域所顯示的多個聲音來源影像。在步驟S1220，電腦裝置200的處理器221可判斷多個聲音來源影像1301~1303所對應的多個靜默時間長度是否已達預設時間臨界值。若否，則電腦裝置200的處理器221可等待一預設時間長度後再重新執行步驟S1220的判斷操作。若是，在步驟S1230，電腦裝置200的處理器221可移除對應於靜默時間長度已達預設時間臨界值的聲音來源影像。如圖13B所示，會議參與人員p1假設具有最長靜默時間長度，因此電腦裝置200的處理器221可將會議參與人員p1的聲音來源影像1304移除，並且調整聲音來源影像1302、1303的影像大小。因此，視訊會議系統30可提供良好的視訊會議體驗以及發言畫面的動態移除效果。

圖14是本發明的又一實施例的視訊會議系統的示意圖。參考圖14，視訊會議系統1400包括聲音及視訊會議設備1410、電腦裝置1420、雲端伺服器1430以及多個遠端電腦裝置1440_1~1440_N，其中N為正整數。電腦裝置1420、雲端伺服器1430以及多個遠端電腦裝置1440_1~1440_N之間可透過網路進行連線。在本實施例中，聲音及視訊會議設備1410可實現如上述圖1及圖3實施例的聲音及視訊會議設備110、310的功能，並且雲端伺服器1430可實現如上述圖1及圖3實施例的運算裝置120、320的功能。聲音及視訊會議設備1410可將聲音資料以及視訊影像提供至電腦裝置1420，再經由電腦裝置1420提供至雲端伺服器1430，以使雲端伺服器1430可產生相應的視訊會議介面的介面影像資料。接著，雲端伺服器1430可將介面影像資料提供至遠端電腦裝置1440_1~1440_N，以使遠端電腦裝置1440_1~1440_N分別的顯示裝置可同步顯示介面影像資料。並且，雲端伺服器1430也可將遠端電腦裝置1440_1~1440_N的視訊會議影像提供至電腦裝置1420，以實現互動視訊會議功能。因此，本實施例的視訊影像的影像處理工作以及視訊會議介面的設定可由雲端伺服器1430來進行，以降低本地端電腦的運算資訊需求，並且可提供良好的視訊會議體驗效果。

另外，關於本實施例的相關硬體特徵、影像處理流程以及視訊會議介面的具體實施方式與效果可參考上述圖1至圖13B的實施例的說明，而可獲致足夠的教示、建議以及實施說明，因此不多加贅述。

圖15是本發明的一實施例的視訊會議介面的產生方法的流程圖。參考圖3以及圖15，電腦裝置200的運算裝置220適於整合由聲音感測模組311所輸出的至少一方位資訊以及由影像擷取模組312所取得的視訊影像。在步驟S1510，運算裝置220可根據至少一方位資訊以及視訊影像來產生視訊會議介面的影像資料，其中視訊會議介面包括第一區域以及第二區域。在步驟S1520，運算裝置220可設定影像資料，以使視訊影像顯示在視訊會議介面的第一區域。在步驟S1530，運算裝置220可根據至少一方位資訊從視訊影像擷取對應於至少一聲音來源的至少一聲音來源影像。在步驟S1540，運算裝置220可根據至少一方位資訊設定影像資料，以使至少一聲音來源影像依序排列顯示在視訊會議介面的第二區域中。因此，本實施例的運算裝置220可根據聲音感測模組311以及影像擷取模組312所提供的至少一方位資訊以及視訊影像來自動產生視訊會議介面。然而，關於本實施例的硬體特徵以及視訊會議介面的顯示結果可參考上述圖1至圖14實施例的說明而可獲致足夠的教示、建議以及實施說明，因此不多加贅述。

綜上所述，本發明的視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法，可自動產生視訊會議介面。本發明的視訊會議系統可在視訊會議介面的第一區域中顯示具有整體會議參與人員的視訊影像，並且將會議參與人員中的發言人員的聲音來源影像同步顯示在視訊會議介面的第二區域中。因此，本發明的視訊會議系統、視訊會議方法、聲音及影像感測裝置及視訊會議介面的產生方法，可實現良好的視訊會議體驗效果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

30、100、1400:視訊會議系統 110、310、1410:聲音及影像感測裝置 111:聲音感測模組 112:影像擷取模組 120、220:運算裝置 130、230:顯示裝置 200、1420、1440_1~1440_N:電腦裝置 221:處理器 222:記憶體 240、320:通訊模組 250:喇叭裝置 311:聲音感測模組 3111:麥克風陣列 3112:音訊編解碼單元 312:影像擷取模組 3121:全景攝影機 3122:影像編解碼單元 401、501、701、801、801’、901、901’、901”、1101、1301:視訊影像 500、700、800、800’、900、900’、900”、1100、1300:視訊會議介面 502、702、802、803、802’、803’、902~904、902’~904’、902”~904”、1102~1105、1302~1303:聲音來源影像 1430:雲端伺服器 p1~p4:會議參與人員 s1~s3:時間 S210~S270、S610~S670、S1010~S1040、S1210~S1230、S1510~S1540:步驟

圖1是本發明的一實施例的視訊會議系統的電路示意圖。圖2是本發明的一實施例的視訊會議方法的流程圖。圖3是本發明的另一實施例的視訊會議系統的電路示意圖。圖4A以及圖4B是本發明的一實施例的取得視訊影像的情境示意圖。圖5A是本發明的一實施例的進行視訊會議的情境示意圖。圖5B是本發明的一實施例的視訊會議介面的示意圖。圖6是本發明的一實施例的因應多個聲音來源的視訊會議方法的流程圖。圖7是本發明的一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。圖8A是本發明的另一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。圖8B是本發明的另一實施例的具有多個聲音來源影像的視訊會議介面的另一示意圖。圖9A是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的示意圖。圖9B是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的另一示意圖。圖9C是本發明的又一實施例的具有多個聲音來源影像的視訊會議介面的又一示意圖。圖10是本發明的另一實施例的視訊會議方法的流程圖。圖11A以及圖11B是本發明的一實施例的調整視訊會議介面的示意圖。圖12是本發明的又一實施例的視訊會議方法的流程圖。圖13A以及圖13B是本發明的一實施例的調整視訊會議介面的示意圖。圖14是本發明的又一實施例的視訊會議系統的示意圖。圖15是本發明的一實施例的視訊會議介面的產生方法的流程圖。

S210~S270:步驟

Claims

一種視訊會議系統，包括：一聲音及影像感測裝置，包括：一聲音感測模組，包括至少一麥克風，並且輸出至少一聲音來源的至少一方位資訊；以及一影像擷取模組，包括至少一攝影機，並且用以取得一視訊影像，一運算裝置，耦接該聲音及影像感測裝置，並且用以根據該至少一方位資訊以及該視訊影像來輸出一視訊會議介面的一影像資料；以及一顯示裝置，耦接該運算裝置，並且用以根據該影像資料顯示該視訊會議介面，其中該視訊會議介面包括一第一區域以及一第二區域，並且該運算裝置設定該影像資料，以使該視訊影像顯示在該視訊會議介面的該第一區域，其中該運算裝置根據該至少一方位資訊從該視訊影像擷取對應於該至少一聲音來源的至少一聲音來源影像，並且該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中。
如請求項1所述的視訊會議系統，其中該聲音感測模組輸出一第一聲音來源的一第一方位資訊，並且該運算裝置根據該第一方位資訊設定該影像資料，以使一第一聲音來源影像顯示在該視訊會議介面的該第二區域，其中當該聲音感測模組輸出一第二聲音來源的一第二方位資訊時，該運算裝置根據該第一方位資訊以及該第二方位資訊計算一夾角，並根據該夾角來決定是否調整該第一聲音來源影像並顯示一第二聲音來源影像。
如請求項2所述的視訊會議系統，其中當該夾角大於一分割參數時，該運算裝置設定該影像資料，以縮小該第一聲音來源影像的範圍，並且根據該第一方位資訊以及該第二方位資訊之間的方位關係，來使該第二聲音來源影像從一第一特定方向插入顯示在該視訊會議介面的該第二區域且位於該第一聲音來源影像的特定一側。
如請求項3所述的視訊會議系統，其中當該夾角小於或等於該分割參數時，該運算裝置設定該影像資料，以維持該第一聲音來源影像的範圍，以使該第一聲音來源影像包括顯示該第二聲音來源影像。
如請求項2所述的視訊會議系統，其中當該聲音感測模組輸出一第三聲音來源的一第三方位資訊時，該運算裝置根據該第三方位資訊設定該影像資料，以根據該第一方位資訊、該第二方位資訊以及該第三方位資訊之間的方位關係，來使一第三聲音來源影像從一第二特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項1所述的視訊會議系統，其中當該視訊會議介面的該第二區域所顯示的多個聲音來源影像已達一臨界顯示數量，並且該聲音感測模組輸出另一聲音來源的另一方位資訊時，該運算裝置設定該影像資料，以根據該些聲音來源影像所對應的多個靜默時間長度來移除對應於一最長靜默時間長度的該些影像的其中之一，並且使另一聲音來源影像從一第三特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項1所述的視訊會議系統，其中當該視訊會議介面的該第二區域所顯示的多個聲音來源影像時，該運算裝置判斷該些聲音來源影像所對應的多個靜默時間長度是否已達一預設時間臨界值，以依序移除對應於該些靜默時間長度已達該預設時間臨界值的該些聲音來源影像。
如請求項1所述的視訊會議系統，其中該運算裝置分析該至少一聲音來源的至少一聲音信號，以取得至少一說話文字資料，並且該運算裝置根據對應的該至少一方位資訊，將該至少一說話文字資料以及該至少一聲音來源影像紀錄至一對話紀錄關聯表當中。
如請求項1所述的視訊會議系統，其中該第一區域小於該第二區域。
一種視訊會議方法，包括：藉由一聲音感測模組輸出至少一聲音來源的至少一方位資訊；藉由一影像擷取模組取得一視訊影像；藉由一運算裝置根據該至少一方位資訊以及該視訊影像來輸出一視訊會議介面的一影像資料，其中該視訊會議介面包括一第一區域以及一第二區域；藉由一顯示裝置根據該影像資料顯示該視訊會議介面；藉由該運算裝置設定該影像資料，以使該視訊影像顯示在該視訊會議介面的該第一區域；藉由該運算裝置根據該至少一方位資訊從該視訊影像擷取對應於該至少一聲音來源的至少一聲音來源影像；以及藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中。
如請求項10所述的視訊會議方法，其中該聲音感測模組輸出一第一聲音來源的一第一方位資訊，並且藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟包括：藉由該運算裝置根據該第一方位資訊設定該影像資料，以使一第一聲音來源影像顯示在該視訊會議介面的該第二區域；以及當該聲音感測模組輸出一第二聲音來源的一第二方位資訊時，藉由該運算裝置根據該第一方位資訊以及該第二方位資訊計算一夾角，並根據該夾角來決定是否調整該第一聲音來源影像並顯示一第二聲音來源影像。
如請求項11所述的視訊會議方法，其中藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：當該夾角大於一分割參數時，藉由該運算裝置設定該影像資料，以縮小該第一聲音來源影像的範圍，並且根據該第一方位資訊以及該第二方位資訊之間的方位關係，來使該第二聲音來源影像從一第一特定方向插入顯示在該視訊會議介面的該第二區域且位於該第一聲音來源影像的特定一側。
如請求項12所述的視訊會議方法，其中藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：當該夾角小於或等於該分割參數時，藉由該運算裝置設定該影像資料，以維持該第一聲音來源影像的範圍，以使該第一聲音來源影像包括顯示該第二聲音來源影像。
如請求項11所述的視訊會議方法，其中藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：當該聲音感測模組輸出一第三聲音來源的一第三方位資訊時，藉由該運算裝置根據該第三方位資訊設定該影像資料，以根據該第一方位資訊、該第二方位資訊以及該第三方位資訊之間的方位關係，來使一第三聲音來源影像從一第二特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項10所述的視訊會議方法，還包括：當該視訊會議介面的該第二區域所顯示的多個聲音來源影像已達一臨界顯示數量，並且該聲音感測模組輸出另一聲音來源的另一方位資訊時，藉由該運算裝置設定該影像資料，以根據該些聲音來源影像所對應的多個靜默時間長度來移除對應於一最長靜默時間長度的該些影像的其中之一，並且使另一聲音來源影像從一第三特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項10所述的視訊會議方法，還包括：當該視訊會議介面的該第二區域所顯示的多個聲音來源影像時，藉由該運算裝置判斷該些聲音來源影像所對應的多個靜默時間長度是否已達一預設時間臨界值，以依序移除對應於該些靜默時間長度已達該預設時間臨界值的該些聲音來源影像。
如請求項10所述的視訊會議方法，還包括：藉由該運算裝置分析該至少一聲音來源的至少一聲音信號，以取得至少一說話文字資料；以及藉由該運算裝置根據對應的該至少一方位資訊，將該至少一說話文字資料以及該至少一聲音來源影像紀錄至一對話紀錄關聯表當中。
如請求項10所述的視訊會議方法，其中該第一區域小於該第二區域。
一種聲音及影像感測裝置，耦接一外部運算設備，該外部運算設備耦接一外部顯示裝置，包括：一聲音感測模組，輸出一第一聲音來源的一第一方位資訊以及一第二聲音來源的一第二方位資訊至該外部運算設備；以及一影像擷取模組，用以取得一視訊影像，並且輸出該視訊影像至該外部運算設備，其中該外部運算裝置根據該第一方位資訊、該第二方位資訊以及該視訊影像來輸出一視訊會議介面的一影像資料至該外部顯示裝置，以使該外部顯示裝置根據該影像資料顯示該視訊會議介面，其中該視訊會議介面包括一第一區域以及一第二區域，並且該運算裝置設定該影像資料，以使該視訊影像顯示在該視訊會議介面的該第一區域，其中該外部運算裝置根據該第一方位資訊以及該第二方位資訊從該視訊影像擷取對應於該第一聲音來源以及該第二聲音來源的該第一聲音來源影像以及該第二聲音來源影像，並且該外部運算裝置根據該第一方位資訊以及該第二方位資訊計算一夾角，以設定該影像資料，以使該第一聲音來源影像以及該第二聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中。
如請求項19所述的聲音及影像感測裝置，其中當該夾角大於一分割參數時，該外部運算裝置設定該影像資料，以縮小該第一聲音來源影像的範圍，並且根據該第一方位資訊以及該第二方位資訊之間的方位關係，來使該第二聲音來源影像從一第一特定方向插入顯示在該視訊會議介面的該第二區域且位於該第一聲音來源影像的特定一側。
如請求項20所述的聲音及影像感測裝置，其中當該夾角小於或等於該分割參數時，該外部運算裝置設定該影像資料，以維持該第一聲音來源影像的範圍，以使該第一聲音來源影像包括顯示該第二聲音來源影像。
如請求項19所述的聲音及影像感測裝置，其中當該聲音感測模組輸出一第三聲音來源的一第三方位資訊時，該外部運算裝置根據該第三方位資訊設定該影像資料，以根據該第一方位資訊、該第二方位資訊以及該第三方位資訊之間的方位關係，來使一第三聲音來源影像從一第二特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項19所述的聲音及影像感測裝置，其中當該視訊會議介面的該第二區域所顯示的多個聲音來源影像已達一臨界顯示數量，並且該聲音感測模組輸出另一聲音來源的另一方位資訊時，該外部運算裝置設定該影像資料，以根據該些聲音來源影像所對應的多個靜默時間長度來移除對應於一最長靜默時間長度的該些影像的其中之一，並且使另一聲音來源影像從一第三特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項19所述的聲音及影像感測裝置，其中當該視訊會議介面的該第二區域顯示多個聲音來源影像時，該外部運算裝置判斷該些聲音來源影像所對應的多個靜默時間長度是否已達一預設時間臨界值，以依序移除對應於該些靜默時間長度已達該預設時間臨界值的該些聲音來源影像。
如請求項19所述的聲音及影像感測裝置，其中該運算裝置分析該第一聲音來源以及該第二聲音來源的一第一聲音信號以及一第二聲音信號，以取得一第一說話文字資料以及一第二說話文字資料，並且該外部運算裝置根據對應的該第一方位資訊以及該第二方位資訊，將該第一說話文字資料、一第二說話文字資料、該第一聲音來源影像以及該第二聲音來源影像紀錄至一對話紀錄關聯表當中。
如請求項19所述的聲音及影像感測裝置，其中該第一區域小於該第二區域。
一種視訊會議介面的產生方法，適於整合由一聲音感測模組所輸出的至少一方位資訊以及由一影像擷取模組所取得的一視訊影像，其中該方法包括：藉由一運算裝置根據該至少一方位資訊以及該視訊影像來產生一視訊會議介面的一影像資料，其中該視訊會議介面包括一第一區域以及一第二區域；藉由該運算裝置設定該影像資料，以使該視訊影像顯示在該視訊會議介面的該第一區域；藉由該運算裝置根據該至少一方位資訊從該視訊影像擷取對應於該至少一聲音來源的至少一聲音來源影像；以及藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中。
如請求項27所述的視訊會議介面的產生方法，其中該聲音感測模組輸出一第一聲音來源的一第一方位資訊以及出一第二聲音來源的一第二方位資訊，並且藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟包括：藉由該運算裝置根據該第一方位資訊設定該影像資料，以使一第一聲音來源影像顯示在該視訊會議介面的該第二區域；以及藉由該運算裝置根據該第一方位資訊以及該第二方位資訊計算一夾角，並根據該夾角來決定是否調整該第一聲音來源影像並顯示一第二聲音來源影像。
如請求項28所述的視訊會議介面的產生方法，其中藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：當該夾角大於一分割參數時，藉由該運算裝置設定該影像資料，以縮小該第一聲音來源影像的範圍，並且根據該第一方位資訊以及該第二方位資訊之間的方位關係，來使該第二聲音來源影像從一第一特定方向插入顯示在該視訊會議介面的該第二區域且位於該第一聲音來源影像的特定一側。
如請求項29所述的視訊會議介面的產生方法，其中藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：當該夾角小於或等於該分割參數時，藉由該運算裝置設定該影像資料，以維持該第一聲音來源影像的範圍，以使該第一聲音來源影像包括顯示該第二聲音來源影像。
如請求項28所述的視訊會議介面的產生方法，其中該聲音感測模組還輸出一第三聲音來源的一第三方位資訊，並且藉由該運算裝置根據該至少一方位資訊設定該影像資料，以使該至少一聲音來源影像依序排列顯示在該視訊會議介面的該第二區域中的步驟還包括：藉由該運算裝置根據該第三方位資訊設定該影像資料，以根據該第一方位資訊、該第二方位資訊以及該第三方位資訊之間的方位關係，來使一第三聲音來源影像從一第二特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項27所述的視訊會議介面的產生方法，其中該視訊會議介面的該第二區域所顯示的多個聲音來源影像已達一臨界顯示數量，並且該聲音感測模組輸出另一聲音來源的另一方位資訊，其中該方法包括：藉由該運算裝置設定該影像資料，以根據該些聲音來源影像所對應的多個靜默時間長度來移除對應於一最長靜默時間長度的該些影像的其中之一，並且使另一聲音來源影像從一第三特定方向插入顯示在該視訊會議介面的該第二區域。
如請求項27所述的視訊會議介面的產生方法，其中該視訊會議介面的該第二區域所顯示的多個聲音來源影像，其中該方法包括：藉由該運算裝置判斷該些聲音來源影像所對應的多個靜默時間長度是否已達一預設時間臨界值，以依序移除對應於該些靜默時間長度已達該預設時間臨界值的該些聲音來源影像。
如請求項27所述的視訊會議介面的產生方法，還包括：藉由該運算裝置分析該至少一聲音來源的至少一聲音信號，以取得至少一說話文字資料；以及藉由該運算裝置根據對應的該至少一方位資訊，將該至少一說話文字資料以及該至少一聲音來源影像紀錄至一對話紀錄關聯表當中。
如請求項27所述的視訊會議介面的產生方法，其中該第一區域小於該第二區域。