TWI764020B

TWI764020B - 視訊會議系統及其方法

Info

Publication number: TWI764020B
Application number: TW108126145A
Authority: TW
Inventors: 邱肇民
Original assignee: 圓展科技股份有限公司
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-05-11
Also published as: TW202105996A

Abstract

一種視訊會議方法，包括：接收語音訊號；執行語音文字轉換程序以將該語音訊號轉變為身份文字資料；於第一時間拍攝多個與會者以取得第一影像；執行臉部追蹤程序以判斷第一影像中關聯與會者的多個第一臉部區域；於第二時間拍攝與會者以取得第二影像；執行臉部追蹤程序以判斷第二影像中關聯與會者的多個第二臉部區域；針對第一臉部區域以及第二臉部區域執行唇形辨識程序，以將該些第二臉部區域之一辨識為對應於語音訊號的欲標記區域；以及將身份文字資料標記於欲標記區域的附近。

Description

視訊會議系統及其方法

本發明係關於一種視訊會議系統及其方法，特別是一種具備標記功能的視訊會議系統及其方法。

隨著電腦網路的快速發展，已經改善了早期視訊會議系統經常斷訊的情形，為了節省交通來往的時間，許多企業會經由視訊會議即時溝通意見，所以視訊會議的使用率日趨升高。

當我們在進行視訊會議時，會遇到許多不同公司的人員一同進行會議。因為視訊會議無法交換名片，所以當與會者眾多時，往往會記不住對方的姓名、職稱或公司名稱，造成彼此的尷尬。為了解決此一問題，可在開會前事先建立好關於其他公司人員的資料庫，並搭配人臉辨識或聲紋辨識去辨識與會者的身分。如此一來增加了事前準備的負擔。此外，當臨時出現新的與會者，則必須有人在系統端輸入資訊到視訊會議主機上，十分不便。

有鑑於此，在實務上確實需要一種改良的視訊會議系統，至少可解決以上缺失

本發明在於提供一種視訊會議系統及其方法，不需事先建立與會者之身份資料庫，也可即時知道會議中每一與會者的身份。

依據本發明一實施例所揭露的一種視訊會議方法，包括：以收音器接收語音訊號；以處理器執行語音文字轉換程序以將語音訊號轉變為身份文字資料；以攝影機於第一時間拍攝多個與會者以取得第一影像；以處理器執行臉部追蹤程序以判斷第一影像中個別關聯於該些與會者的多個第一臉部區域；以攝影機於晚於第一時間的第二時間拍攝該些與會者以取得第二影像；以處理器執行臉部追蹤程序以判斷第二影像中個別關聯於該些與會者的多個第二臉部區域；以處理器針對該些第一臉部區域以及該些第二臉部區域執行唇形辨識程序，以將該些第二臉部區域之一辨識為對應於語音訊號的欲標記區域；以及以標記裝置將身份文字資料標記於欲標記區域的附近。

依據本發明一實施例所揭露的一種視訊會議系統，包括收音器、攝影機、處理器及標示裝置，而處理器電性連接於收音器、攝影機及標示裝置。收音器用於接收語音訊號。攝影機用於拍攝多個與會者以取得多個影像。處理器儲存有語音文字轉換程序、臉部追蹤程序以及唇形辨識程序。處理器用於執行語音文字轉換程序以將語音訊號轉換為身份文字資料。處理器用於執行臉部追蹤程序以判斷該些影像中個別關聯於該些與會者的多個臉部區域。處理器用於執行唇形辨識程序以將該些臉部區域之一辨識為對應於語音訊號的欲標記區域。標示裝置用於將身份文字資料標記於欲標記區域的附近。

依據本發明一實施例所揭露的一種視訊會議方法，包括：以多個指向性麥克風接收語音訊號；以處理器執行語音文字轉換程序以將語音訊號轉變為身份文字資料；以處理器執行語音來源辨識程序以判斷語音訊號的來源位置；以攝影機拍攝多個與會者以取得影像；以該處理器執行臉部追蹤程序以判斷影像中個別關聯於該些與會者的多個臉部區域；以處理器依據語音訊號的來源位置以將該些臉部區域之一辨識為對應於語音訊號的欲標記區域；以及以標記裝置將身份文字資料標記於欲標記區域的附近。

當會議中的一與會者說出喚醒詞及其身份資訊時，視訊會議系統便可將語音格式的身份資訊轉換為文字格式的身份資訊，且將文字格式的身份資訊標記於開口的與會者的臉部區域附近。如此一來，其他與會者便可清楚知道開口的與會者的身份。因此即便與會者眾多，每一與會者都能清楚知道其他與會者的身份，避免忘記對方姓名的尷尬。再者，由於欲標記區域內的身份文字資料是依據語音資料即時建立的，可免去事前建立或記錄人臉資料或是聲紋等生物特徵資料。即便臨時有新人員加入會議，只需新人員說出喚醒詞以及身份資訊，新人員的身份資訊便會標記於新人員的臉部區域的附近，所以使用上十分方便。再者，除了伺服端可使用視訊會議系統之外，當客戶端連線伺服端後，也可使用視訊會議系統的所有功能。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

圖1係為根據本發明第一實施例所繪示之視訊會議系統的功能方塊圖。如圖1所示，視訊會議系統100安裝於伺服端且包括收音器10、處理器11、語音資料庫12、文字資料庫13、攝影機14、人臉資料庫15、標示裝置16以及控制介面17，而處理器11電性連接於收音器10、語音資料庫12、文字資料庫13、攝影機14、人臉資料庫15、標示裝置16以及控制介面17。收音器10例如包含動圈式手持麥克風、電容式麥克風、USB麥克風、領夾式麥克風、無線麥克風、或指向型麥克風。收音器10用於接收語音訊號，當伺服端的其中一位與會者依序說出喚醒詞、姓名、職稱及所屬公司時，便可啟動視訊會議系統100。在其他實施例中，伺服端的與會者亦可利用遙控器直接下指令，或者透過智慧型行動裝置連入視訊會議系統100後，下指令去喚醒視訊會議系統100。

上述實施例的語音資料庫12與文字資料庫13內建於視訊會議系統100。在其他實施例中，語音資料庫12與文字資料庫13亦可設置在另一雲端伺服裝置，處理器11透過一網路分別與語音資料庫12以及文字資料庫13通訊連接。

圖2係為視訊會議系統的語音資料庫與文字資料庫的關係示意圖。共同參閱圖1與圖2，處理器11例如包含通用處理器、數位訊號處理器(DSP)、多個微處理器、與DSP核心相關聯的一個或多個微處理器、控制器、微控制器、專用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)電路或複雜可程式邏輯裝置(CPLD)。處理器11儲存有語音文字轉換程序P1；語音資料庫12儲存有多個語音資料V1~Vn，該些語音資料V1~Vn分別具有索引值S1~Sn，其中n大於1的正整數；文字資料庫13儲存有多個文字資料C1~Cn，該些文字資料C1~Cn也分別具有前述的索引值S1~Sn。例如，具有索引值S1的語音資料V1對應於具有索引值S1的文字資料C1，具有索引值Sn的語音資料Vn對應於具有索引值Sn的文字資料Cn。處理器11用於接收來自收音器10的語音訊號且執行語音文字轉換程序P1，語音文字轉換程序P1將語音訊號與語音資料庫12中的語音資料進行比對，以取得一組索引值，且依據該組索引值從文字資料庫13中找出對應於語音訊號的身份文字資料。

如圖1及圖2所示，攝影機14用於在第一時間拍攝伺服端的多個與會者以產生第一影像以及在晚於第一時間的第二時間拍攝伺服端的該些與會者以產生第二影像。處理器11儲存有臉部追蹤程序P2，人臉資料庫15儲存有人臉樣板，人臉樣板具備人臉的必要特徵。處理器11用於執行臉部追蹤程序P2，以將第一影像分別與人臉樣板進行比對，以將第一影像中符合人臉必要特徵的區域辨識為多個第一人臉區域，以及將來自攝影機14的第二影像分別與人臉樣板進行比對，以將第二影像中符合人臉必要特徵的區域辨識為多個第二人臉區域。處理器11儲存有唇形辨識程序P3，處理器11用於執行唇形辨識程序P3以將該些第二臉部區域之一辨識為對應於語音訊號的欲標記區域。標示裝置16用於將身份文字資料標記於欲標記區域的附近。控制介面17用於更改顯示於欲標記區域的身份文字資料。在其他實施例中，除了唇形辨識，亦可透過安裝於伺服端的多個指向性麥克風判斷語音訊號的來源位置。

圖3係為根據本發明第一實施例所繪示之視訊會議方法的流程圖。如圖3所示，在步驟S301中，將架構於伺服端的視訊會議系統100的攝影機14對準伺服端的所有與會者。在步驟S302中，以視訊會議系統100的收音器10接收伺服端的一與會者所發出的語音訊號。語音訊號之內容包含喚醒詞、與會者之身份資訊(例如與會者之姓名、職稱、所屬公司等其中之一或任意組合)，舉例來說，語音訊號例如為 “Hello, Aver. Our Company is Aver Information Inc. .My name is Evon. I am a project manager”，其中 “Hello, Aver.” 即為喚醒詞，當視訊會議系統100接收到喚醒詞後，即啟動視訊會議系統100的所有功能。於上述例子中，與會者可在會議開始前或會議進行中發出語音訊號。此外，在會議開始前，進行會議參加人之資料建檔動作時，視訊會議系統100所接收語音訊號內不需有喚醒詞，只需具備參與會議之與會者之身份資訊。

接著，以視訊會議系統100的處理器11執行語音文字轉換程序P1，其中語音文字轉換程序P1包含步驟S303以及步驟S304，在步驟S303中，語音文字轉換程序P1將語音訊號與語音資料庫12進行比對，以便從語音資料庫12中找出與語音訊號具有相同內容的語音資料，並取得語音資料的一組索引值。在步驟S304中，語音文字轉換程序P1依據該組索引值從文字資料庫13中找出對應於語音訊號的文字資料。舉例來說，語音訊號中的Evon、 project manager、Aver於語音資料庫12中的索引值分別為i1、i7、i102，以索引值i1、i7及i102即可從文字資料庫13搜尋出文字格式的Evon、 project manager及Aver。在其他實施例中，常用的公司名稱以及姓名的語音資料以及文字資料可分別內建於語音資料庫12以及文字資料庫13，處理器11除了與語音資料庫12以及文字資料庫13所內建的資料進行比對之外，處理器11更可透過網路搜尋方式找到正確的語音資料以及文字資料。

圖4A至圖4B係為視訊會議方法中執行臉部追蹤程序的示意圖。共同參閱圖3及圖4A-4B，接著在步驟S305中，以攝影機14於第一時間拍攝伺服端的所有與會者U1~U4以取得關連於伺服端的第一影像S1。在步驟S306中，以處理器11執行臉部追蹤程序P2，臉部追蹤程序P2將第一影像S1與具備人臉的必要特徵之人臉樣板進行比對，以辨識第一影像S1中個別關聯於與會者U1~U4的多個第一臉部區域F1~F4(圖4A)。在步驟S307中，以攝影機14於晚於第一時間的第二時間拍攝伺服端的與會者U1~U4以取得關連於伺服端的第二影像S2。在步驟S308中，以處理器11執行臉部追蹤程序P2以辨識第二影像S2中個別關聯於與會者U1~U4的多個第二臉部區域F1’~F4’ (圖4B)。

圖5A-5C係為視訊會議方法中執行唇形辨識程序的示意圖。共同參閱圖3及圖5A-5C，接著在步驟S309～S311，以處理器11執行唇形辨識程序P3，在步驟S309中，從該些第一臉部區域F1~F4分別找出多個第一唇部區域L1~L4(圖5A)。在步驟S310中，從該些第二臉部區域F1’~F4’分別找出多個第二唇部區域L1’~L4’ (圖5B)。在步驟S311中，將該些第一唇部區域L1~L4分別與該些第二唇部區域L1’~L4’進行比對，以從該些第二唇部區域L1’~L4’找出相對於該些第一唇部區域L1~L4發生唇形改變的第二唇部區域。在步驟S312中，將唇形改變的第二臉部區域F1’辨識為對應於語音訊號的欲標記區域R1(圖5C)。在步驟S313中，以視訊會議系統100的標記裝置16將身份文字資料(Evon、 project manager、 Aver)標記於欲標記區域R1的附近以產生關連於伺服端的第三影像S3，其中身份文字資料與欲標記區域R1之間的距離小於身份文字資料與其他第二臉部區域(F2’、F3’及F4’)之距離。在步驟S314中，以處理器11將第三影像S3傳送給每一客戶端。

圖6係為根據本發明第二實施例所繪示之視訊會議方法的流程圖。第二實施例與第一實施例之主要差異在於，即使客戶端是使用不同功能的視訊會議系統，只要客戶端與伺服端連線並且說出喚醒詞，同樣可以啟動伺服端的視訊會議系統以及使用建構於伺服端的視訊會議系統之所有功能，且作動方式與伺服端相同。詳言之，如圖6所示，在步驟S601中，使客戶端與伺服端進行連線。在步驟S602中，以架設於伺服端的視訊會議系統100的處理器11接收客戶端的一與會者所傳送的語音訊號，而語音訊號之內容包含喚醒詞、與會者之身份資訊(例如與會者之姓名、職稱、所屬公司等其中之一或任意組合)，例如 “Hello, Aver. Our Company is Texas Inc. .My name is Keven. I am a senior software engineer” ，以便啟動伺服端的視訊會議系統100的所有功能。接著，以伺服端的視訊會議系統100的處理器11執行語音文字轉換程序P1，其中語音文字轉換程序P1包含步驟S603以及步驟S604，在步驟S603中，語音文字轉換程序P1將客戶端的語音訊號與語音資料庫12進行比對，以便從語音資料庫12中找出與語音訊號具有相同內容的語音資料，並取得該語音資料的一組索引值。在步驟S604中，語音文字轉換程序P1依據該組索引值從文字資料庫13中找出對應於語音訊號的文字資料。舉例來說，客戶端的語音訊號中的Kevin、senior software engineer、Texas Inc.於語音資料庫12中的索引值分別為i3、i12、i98，以索引值i3、i12及i98即可從文字資料庫13搜尋出文字格式的Kevin、senior software engineer、Texas Inc.。在步驟S605中，以客戶端的攝影機於第一時間拍攝客戶端的所有與會者以取得關連於客戶端的第一影像。在步驟S606中，以客戶端的攝影機於第二時間拍攝客戶端的所有與會者以取得關連於客戶端的第二影像。在步驟S607中，以伺服端的處理器11接收客戶端的第一影像及第二影像。接著在步驟S608中，以處理器11執行臉部追蹤程序P2，臉部追蹤程序P2將第一影像與具備人臉的必要特徵之人臉樣板進行比對，以辨識第一影像中個別關聯於該些與會者的多個第一臉部區域。

如圖6所示，在步驟S609中，以處理器11執行臉部追蹤程序P2以辨識第二影像中個別關聯於該些與會者的多個第二臉部區域。接著在步驟S610～S613，以處理器11執行唇形辨識程序P3，在步驟S610中，從該些第一臉部區域分別找出多個第一唇部區域。在步驟S611中，從該些第二臉部區域分別找出多個第二唇部區域。在步驟S612中，將該些第一唇部區域分別與該些第二唇部區域進行比對，以從該些第二唇部區域找出相對於該些第一唇部區域發生唇形改變的第二唇部區域。在步驟S613中，將唇形改變的第二臉部區域辨識為對應於語音訊號的欲標記區域。在步驟S614中，以標記裝置16將身份文字資料標記於欲標記區域的附近以產生關聯於客戶端的第三影像，其中身份文字資料與欲標記區域之間的距離小於身份文字資料與其他第二臉部區域之距離。在步驟S615中，以處理器11將第三影像顯示於伺服端的螢幕。在步驟S616中，以處理器11將第三影像傳送至其他客戶端。

圖7係為根據本發明第三實施例所繪示之視訊會議方法的流程圖。第三實施例與第一實施例之主要差異在於，當收音器使用指向型麥克風時，可省略唇形辨識程序。詳言之，如圖7所示，在步驟S701中，以多個安裝於伺服端的指向性麥克風接收語音訊號，而語音訊號之內容包含喚醒詞、與會者之身份資訊(例如與會者之姓名、職稱、所屬公司等其中之一或任意組合)。在步驟S702中，以處理器11執行語音文字轉換程序P1，以語音文字轉換程序P1將語音訊號與語音資料庫12進行比對，以便從語音資料庫12中找出與語音訊號具有相同內容的語音資料，並取得語音資料的一組索引值。在步驟S703中，以語音文字轉換程序P1依據該組索引值從文字資料庫13中找出對應於語音訊號的文字資料。以處理器11在步驟S704中，以處理器11執行一語音來源辨識程序，由於每個指向性麥克風與說話者之間，具有不同的距離及角度，語音來源辨識程序透過多組(距離、角度)的資料的交叉分析，得以判斷語音訊號的來源位置。在步驟S 705中，以攝影機14拍攝伺服端的所有與會者以取得第一影像。在步驟S706中，以處理器11執行臉部追蹤程序P2，臉部追蹤程序P2將第一影像與具備人臉的必要特徵之人臉樣板進行比對，以判斷第一影像中個別關聯於該些與會者的多個臉部區域。在步驟S707中，以處理器11依據語音訊號的來源位置將該些臉部區域之一辨識為對應於語音訊號的欲標記區域。在步驟S708中，以標記裝置16將身份文字資料標記於欲標記區域的附近以產生第二影像，其中身份文字資料與欲標記區域之間的距離小於身份文字資料與其他臉部區域之距離。在步驟S709中，以處理器11將第二影像傳送給每一客戶端。

圖8係為根據本發明第四實施例所繪示之視訊會議方法的流程圖。如圖8所示，第四實施例的視訊會議方法與第一實施例的視訊會議方法之間的差異在於在步驟S805中，更包括以攝影機14拍攝與會者以取得第一影像之前以及在語音文字轉換程序P1執行完之後，設定攝影機14的一視野範圍具有一限制區域，而身份文字資料顯示於限制區域之外，而步驟S801~S804相同於步驟S301~S304，步驟S806~S815相同於步驟S305~S314。

圖9為本發明第四實施例之視訊會議方法的設定攝影機的限制區域的示意圖。如圖9所示，當所設定的攝影機14的視野範圍的限制區域N對應於第一影像S1的開會簡報時，標記裝置16將與會者之身份文字資料標記於限制區域N之外，避免身份文字資料擋住開會簡報的內容。

圖10係為根據本發明第五實施例所繪示之視訊會議方法的流程圖。如圖10所示，步驟S1001~S1014相同於步驟S301~S314，而第五實施例的視訊會議方法與第一實施例的的視訊會議方法之間的差異在步驟S1015中，更包括在以標記裝置16將身份文字資料標記於欲標記區域的附近之後，以標記裝置16產生連接於身份文字資料與欲標記區域之間的指向圖像。

圖11為本發明第五實施例之視訊會議方法中產生指向圖像的示意圖，如圖11所示，在第三影像S3中，標記裝置16所產生的指向圖案A連接於欲標記區域R1與身份文字資料(Evon、project manager、 Aver)之間。當與會者眾多時，指向圖案可將不同與會者之身份文字資料加以區隔，使每一與會者的身份都能清楚顯示於第三影像S3上。

綜合以上所述，當會議中的一與會者說出喚醒詞及其身份資訊時，視訊會議系統便可將語音格式的身份資訊轉換為文字格式的身份資訊，且將文字格式的身份資訊標記於開口的與會者的臉部區域附近。如此一來，其他與會者便可清楚知道開口的與會者的身份。如此一來，只需藉由語音輸入之方式，便可知道參與會議的每一個人的身分，與會者不需手動輸入任何資料至視訊會議系統，使用上的便利性明顯提高。因此即便與會者眾多，每一與會者都能清楚知道其他與會者的身份，避免忘記對方姓名的尷尬。再者，由於欲標記區域內的身份文字資料是依據語音資料即時建立的，可免去事前建立或記錄人臉資料或是聲紋等生物特徵資料。即便臨時有新人員加入會議，只需新人員說出喚醒詞以及身份資訊，新人員的身份資訊便會標記於新人員的臉部區域的附近，所以使用上十分方便。再者，除了伺服端可使用視訊會議系統之外，當客戶端連線伺服端後，也可使用視訊會議系統的所有功能。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

100:視訊會議系統 10:收音器 11:處理器 12:語音資料庫 13:文字資料庫 14:攝影機 15:人臉資料庫 16:標示裝置 17:控制介面 P1:語音文字轉換程序 V1~Vn:語音資料 S1~Sn:索引值 C1~Cn:文字資料 P2:臉部追蹤程序 P3:唇形辨識程序 U1~U4:與會者 S1:第一影像 F1~F4:第一臉部區域 S2:第二影像 F1’~F4’:第二臉部區域 L1~L4:第一唇部區域 L1’~L4’:第二唇部區域 S3:第三影像 N:限制區域 A:指向圖案

圖1係為根據本發明第一實施例所繪示之視訊會議系統的功能方塊圖。圖2係為視訊會議系統的語音資料庫與文字資料庫的關係示意圖。圖3係為根據本發明第一實施例所繪示之視訊會議方法的流程圖。圖4A至圖4B係為視訊會議方法中執行臉部追蹤程序的示意圖。圖5A-5C係為視訊會議方法中執行唇形辨識程序的示意圖。圖6係為根據本發明第二實施例所繪示之視訊會議方法的流程圖。圖7係為根據本發明第三實施例所繪示之視訊會議方法的流程圖。圖8係為根據本發明第四實施例所繪示之視訊會議方法的流程圖。圖9為本發明第四實施例之視訊會議方法之設定攝影機的限制區域的示意圖。圖10係為根據本發明第五實施例所繪示之視訊會議方法的流程圖。圖11為本發明第五實施例之視訊會議方法之產生指向圖案的示意圖。

100:視訊會議系統

10:收音器

11:處理器

12:語音資料庫

13:文字資料庫

14:攝影機

15:人臉資料庫

16:標示裝置

17:控制介面

Claims

一種視訊會議方法，包括：以一收音器接收一與會者所發出的一語音訊號，其中該語音訊號包括該與會者的一身份資訊；以一處理器執行一語音文字轉換程序以將該語音訊號轉變為一身份文字資料，其中該語音文字轉換程序包含：將該語音訊號的該身份資訊與一語音資料庫比對以取得一組索引值；以及依據該組索引值從一文字資料庫中找出對應於該語音訊號的該身份文字資料；以一攝影機於一第一時間拍攝包含該與會者的多個與會者以取得一第一影像；以該處理器執行一臉部追蹤程序以判斷該第一影像中個別關聯於該些與會者的多個第一臉部區域；以該攝影機於晚於該第一時間的一第二時間拍攝該些與會者以取得一第二影像；以該處理器執行該臉部追蹤程序以判斷該第二影像中個別關聯於該些與會者的多個第二臉部區域；以該處理器針對該些第一臉部區域以及該些第二臉部區域進行比對，以將該些第二臉部區域之一辨識為對應於該語音訊號的一欲標記區域；以及以一標記裝置將該身份文字資料標記於該欲標記區域的附近。
如請求項1所述之視訊會議方法，其中該臉部追蹤程序包括：將該第一影像與一人臉樣板進行比對以辨識該第一影像中符合人臉必要特徵的區域。
如請求項1所述之視訊會議方法，其中以該處理器針對該些第一臉部區域以及該些第二臉部區域進行比對包含執行一唇形辨識程序。
如請求項3所述之視訊會議方法，其中該唇形辨識程序包括從每一該第一臉部區域找出一第一唇部區域；從每一該第二臉部區域找出一第二唇部區域；將該些第一唇部區域與該些第二唇部區域進行比對以從該些第二唇部區域之中找出一個相對於該第一唇部區域發生唇形改變的第二唇部區域；以及將唇形改變的該第二臉部區域辨識為該欲標記區域。
如請求項1所述之視訊會議方法，更包括以該攝影機拍攝該些與會者以取得該第一影像之前，設定該攝影機的一視野範圍具有一限制區域，而該身份文字資料標記於該限制區域之外。
如請求項1所述之視訊會議方法，更包括以該標記裝置將該身份文字資料標記於該欲標記區域的附近之後，以該標記裝置產生一連接於該身份文字資料與該欲標記區域之間的指向圖像。
如請求項1所述之視訊會議方法，其中該身份文字資料與該欲標記區域之間的距離小於該身份文字資料與其他臉部區域之距離。
一種視訊會議系統，包括：一收音器，用於接收一與會者所發出的一語音訊號，其中該語音訊號包括該與會者的一身份資訊；一攝影機，用於拍攝包含該與會者的多個與會者以取得多個影像；一處理器，至少儲存有一語音文字轉換程序以及一臉部追蹤程序，該處理器用於執行該語音文字轉換程序以將該語音訊號轉換為一身份文字資料，該處理器用於執行該臉部追蹤程序以判斷該些影像中個別關聯於該些與會者的多個臉部區域且將該些臉部區域之一辨識為對應於該語音訊號的一欲標記區域；一標示裝置，電性連接於該處理器，該標示裝置用於將該身份文字資料標記於該欲標記區域的附近；一語音資料庫，電性連接於該處理器，該語音資料庫儲存有多個語音資料，該些語音資料分別具有不同的索引值；以及一文字資料庫，電性連接於該處理器，該文字資料庫儲存有多個文字資料，相互對應的語音資料與文字資料具有相同的索引值，其中該語音文字轉換程序比對該語音訊號的該身份資訊與該語音資料庫以取得一組索引值且依據該組索引值從該文字資料庫中找出對應於該語音訊號的該身份文字資料。
如請求項8所述之視訊會議系統，更包括一人臉資料庫，該人臉資料庫儲存有一人臉樣板，該處理器電性連接於該人臉資料庫，該臉部追蹤程序將該些影像與該人臉樣板進行比對以判斷該些影像中個別關聯於該些與會者的該些臉部區域。
如請求項8所述之視訊會議系統，更包括一控制介面，該控制介面電性連接於該處理器且用於更改該身份文字資料。
如請求項8所述之視訊會議系統，其中處理器更儲存有一唇形辨識程序，該處理器用於執行該唇形辨識程序以將該些臉部區域之一辨識為該欲標記區域。
如請求項8所述之視訊會議系統，其中該攝影機的一視野範圍具有一限制區域，而該身份文字資料標記於該限制區域之外。
一種視訊會議方法，包括：以多個指向性麥克風接收一語音訊號；以一處理器執行一語音文字轉換程序以將該語音訊號轉變為一身份文字資料；以該處理器執行一語音來源辨識程序以判斷該語音訊號的來源位置；以一攝影機拍攝多個與會者以取得一影像；以該處理器執行一臉部追蹤程序以判斷該影像中個別關聯於該些與會者的多個臉部區域；以該處理器依據該語音訊號的來源位置以將該些臉部區域之一辨識為對應於該語音訊號的一欲標記區域；以及以一標記裝置將身份文字資料標記於欲標記區域的附近。