TWI814270B

TWI814270B - 辨位聽聲會議視訊裝置及其方法

Info

Publication number: TWI814270B
Application number: TW111108301A
Authority: TW
Inventors: 莊憶芳; 張乃千
Original assignee: 巧連科技股份有限公司; 莊憶芳; 張乃千
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2023-09-01
Also published as: TW202336738A

Abstract

一種辨位聽聲會議視訊裝置及其方法，包括：備有一影像擷取單元及一收音單元與外部的電子裝置電性連結，影像擷取單元將每一位與會者的臉部影像資料擷取，並儲存在裝置中。會議時影像擷取單元再次擷取與會者臉部影像資料比對，比對與會者已儲存在裝置中，即可知道與會者的身份及位置，比對與會者未儲存在裝置內部，該裝置會給後加入與會者一個代碼，將後加入與會者的臉部影像資料及代碼儲存。會議開始由該收音單元接收聲音訊號，裝置判斷聲音訊號達到設定值後，裝置透過影像擷取單元擷取至聲音訊號達到設定值的與會者位置進行影像，聲音資料擷取。

Description

辨位聽聲會議視訊裝置及其方法

本發明係有關一種辨位聽聲會議視訊，尤指一種在會議中可以辨識與會者身份、位置及聲紋的會議視訊裝置及其方法。

會議是指企業各級部門及領導實施管理的一種重要手段，是一種有組織、有目的地把多數人聚集起來一起商討問題的社會活動方式。會議在各級領導研究工作、佈置任務、貫徹政策、調查情況、制定決策、協調統一、解決問題、聯繫感情等方面具有重要的作用。

過去的會議居多都是要與遠端的人進行會議時，則會透過三方通話機進行商討。但是，此模式在與遠端的與會者進行商討時，雙方都看不見對方是誰，若是有兩人以上同時發聲或講話時，另一端都不知是誰在發話，因此也造成與遠端在會議上的困擾。

為了解決過去會議上的缺失，目前許多企業各級部門都是透過網路影像擷取單元連結電腦及網路，再透過電腦將影像輸出至投影機或大尺吋的液晶電視機上，使會議現場的與會者可以與遠端的與會者進行商討。在遠端或現場的與會者發話時，若是發話的與會者未被網路影像擷取單元拍到時，其他與會者就必須移動該網路影像擷取單元拍攝到發話的與會者影像給遠端或現場的其他與會者看到。如此一來，也造成會議上諸多的困擾。

因此，本發明之主要目的，在於解決傳統的缺失，本發明利用外部的電子裝置與鏡頭電性連結後，先行辨識與會者的身份及位置，再透過裝置接收與會者的聲音訊號，以進行會議現場的與會者與遠端的與會者會議商討。

本發明之另一目的，在於電子裝置可以辨識與會者的聲紋資料。

本發明之另一目的，在於電子裝置可以消除現場與遠端與會者雙方通話的周邊雜音訊號。

本發明之又一目的，在於電子裝置可以將與會者的語音內容進一步辨識儲存及顯示於顯示螢幕上。

為達上述之目的，本發明提供一種辨位聽聲會議視訊方法，係與外部的電子裝置電性連結，該方法步驟包括如下：備有一影像擷取單元及一收音單元與外部的電子裝置電性連結。先行建立與會者的臉部影像資料，以該影像擷取單元將每一位該與會者的臉部影像資料擷取後，由該電子裝置儲存。在會議進行前先以該影像擷取單元擷取每一位該與會者的該臉部影像資料，再透過該電子裝置進行該臉部影像資料比對，若比對該與會者已儲存在該電子裝置中，即可確認該與會者的身份及位置，若是比對該與會者的該臉部影像資料未儲存在該電子裝置內部，該電子裝置將給予後加入與會者一個代碼，同時將該後加入與會者的該臉部影像資料及該代碼儲存在該電子裝置。會議開始由該收音單元接收聲音訊號，該聲音訊號由該電子裝置判斷該聲音訊號是否達到設定值，若該聲音訊號達到設定值，該電子裝置透過該影像擷取單元擷取至該聲音訊號達到設定值的該與會者位置，進行影像、聲音資料擷取。

在本發明之一實施例中，該臉部影像資料為動態影像資料或靜態影像資料。

在本發明之一實施例中，該電子裝置在擷取該聲音訊號達到設定值的該與會者，再由該電子裝置將該與會者的姓名或代碼傳至一顯示螢幕上顯示；且該與會者的聲音訊號由該電子裝置進行聲紋辨識後並儲存，以供聲紋辨識比對該與會者的身份。

在本發明之一實施例中，該收音單元接收該與會者周邊的雜音訊號，該雜音訊號和該與會者的該聲音訊號一併傳至該電子裝置中進行降噪處理，使該聲音訊號中的雜音訊號消除。

在本發明之一實施例中，在會議進行中，在會議現場的任何一位該與會者在與遠端的與會者進行交談時，該聲音訊號內容由該電子裝置接收並顯示雙方的對話字幕，同時由該電子裝置將聲音訊號內容及會議影像檔儲存做會議記錄。

在本發明之一實施例中，該電子裝置至少包括：一微處理單元、一驅動單元、一儲存單元、一人臉辨識單元、一語音及聲紋辨識單元、一降噪單元及一聲音輸出單元。

在本發明之一實施例中，該影像擷取單元包括有至少一台或一台以上的CCD或CMOS的鏡頭及一訊號轉換單元組成。

在本發明之一實施例中，該驅動單元為伺服馬達。

在本發明之一實施例中，該收音單元為波束賦形麥克風陣列。

在本發明之一實施例中，該影像擷取單元將該與會者的該臉部影像資料擷取後傳至該電子裝置的該微處理單元控制，經該人臉辨識單元與儲存在該儲存單元內部的該臉部影像資料進行比對，以確認該與會者的身分。

在本發明之一實施例中，該與會者的聲音訊號由該收音單元接收並傳至該電子裝置經該微處理單元傳至該語音及聲紋辨識單元進行辨識聲紋後，並儲存於該儲存單元中，以供透過聲紋辨識比對該與會者的身份。

在本發明之一實施例中，該語音內容及會議影像檔案儲存在該電子裝置的該儲存單元中，當做會議記錄，該會議記錄透過該電腦連結印表機將該會議記錄印出或是透過該顯示螢幕播放出來。

為達上述之目的，本發明提供另一種辨位聽聲會議視訊裝置，係與外部的電子裝置電性連結，包括：一影像擷取單元及一收音單元。該影像擷取單元與該電子裝置電性連結，用以擷取與會者的臉部影像資料。該收音單元與該電子裝置電性連結，以接收該與會者的聲音訊號；其中，以該影像擷取單元擷取與會者的臉部影像資料，進行比對該與會者的臉部影像資料已儲存在該電子裝置內部，即可得知該與會者的身份與位置，若是比對該與會者的臉部影像資料未儲存在該電子裝置中，該電子裝置將給予一個代碼，並將該代碼及該臉部影像資料儲存在該電子裝置中；且，以該收音單元接收該與會者的聲音訊號，經該判斷該聲音訊號達到設定值時，並由該電子裝置透過該影像擷取單元擷取該聲音訊號達到設定值的與會者。

在本發明之一實施例中，該電子裝置至少包括有：一微處理單元、一驅動單元、一儲存單元、一人臉辨識單元、一語音及聲紋辨識單元、一降噪單元及一聲音輸出單元。該微處理單元，係以載入軟體控制程式，以處理各裝置所輸出/輸入的控制訊號。該儲存單元與該微處理單元電性連結，用以儲存該與會者的臉部影像資料及會議影像資料。該人臉辨識單元與該微處理單元電性連結，用以接收該與會者的臉部影像資料與該儲存單元內部儲存的臉部影像資料進行比對。該驅動單元與該微處理單元電性連結。該語音及聲紋辨識單元與該微處理單元電性連結，用以將會議現場及遠端的與會者所說的語音內容及聲紋辨識後，並透過該微處理單元儲存在該儲存單元中，以形成與會者往後身份辨識的條件之一。該降噪單元與該微處理單元電性連結，用以將會議現場周邊的雜音訊號消除，使會議現場的與會者只聽見雙方講話的聲音訊號。該聲音輸出單元與該微處理單元電性連結，用以播放該微處理單元所傳遞的聲音訊號。

在本發明之一實施例中，該影像擷取單元包括有至少一台或一台以上的CCD或CMOS鏡頭及一訊號轉換單元組成。

在本發明之一實施例中，該驅動單元為伺服馬達。

在本發明之一實施例中，該語言及聲紋辨識裝置與該微處理單元電性連結，用以將會議現場及遠端的與會者所說的語音內容辨識後，顯示於顯示螢幕上。

在本發明之一實施例中，該聲音輸出單元為喇叭、揚聲器。

步驟S100-步驟S110

100:電子裝置

10:微處理單元

20:影像擷取單元

30:收音單元

32、34、36:麥克風

40:驅動單元

50:儲存單元

60:人臉辨識單元

70:語音及聲紋辨識單元

80:降噪單元

90:聲音輸出單元

101:顯示螢幕

200:與會者

圖1，係本發明之辨位聽聲會議視訊的流程示意圖；圖2，係本發明之會議座位示意圖；圖3、係本發明之外部的電子裝置的電路方塊示意圖。

茲有關本發明之技術內容及詳細說明，現在配合圖式說明如下：請參閱圖1、2、3，係發明之辨位聽聲會議視訊的流程、會議座位及外部的電子裝置的電路方塊示意圖。如圖所示：本發明之辨位聽聲會議視訊方法，主要是在多人會議中，透過一影像擷取單元與外的電子裝置(電腦)100電性連結，先行辨識出與會者200的身份與位置後，再接收與會者200的聲音訊號進行聲紋資料辨識及儲存，使與會者200可以與遠端的與會者(圖中未示)進行會議通話並作成記錄保存。

首先，步驟S100，備有一影像擷取單元(camera)20及一收音單元30：以影像擷取單元20以擷取每一位參加與會者(公司員工)200的臉部影像資料，該臉部影像資料為動態影像資料或靜態影像資料。在本圖式中，該影像擷取單元20至少一台或一台以上，若是一台影像擷取單元20，可以透過機械式的驅動單元(伺服器馬達)40透過該影像擷取單元20旋轉360°，例如若是3台影像擷取單元20時，每一台影像擷取單元20拍攝範圍為120°驅動單元影像擷取單元。若是該影像擷取單元20的鏡頭為魚眼式鏡頭時只要單一台魚眼式的影像擷取單元20即可。在本圖式中，該影像擷取單元20為CCD或CMOS的鏡頭及一訊號轉換單元組成。訊號轉換單元係以將鏡頭輸出的類比訊號轉換為數位訊號，或數位訊號轉換為類比訊號。

步驟S102，建立與會者的臉部影像資料：由影像擷取單元20將每一位與會者(公司員工)200的臉部影像資料擷取後，並由外部的電子裝置100的微處理單元10將臉部影像資料儲存在儲存單元50中。在本圖式中，該儲存單元50為記憶體。

步驟S104，與會者的人臉辨識：在會議進行前，以影像擷取單元20將與會的每一位與會者200進行臉部影像資料擷取，經微處理單元10及人臉辨識單元60與儲存在儲存單元50內部的臉部影像資料進行比對，若比對與會者200已儲存在儲存單元50內部中，即可知道與會者200的身份及位置，若是比對與會者200的臉部影像資料未儲存在儲存單元50內部，該微處理單元10將會給予後加入的與會者200一個暫時身份或代碼(例如001身份或代碼)，同時將此後加入的與會者200的臉部影像資料透過微處理單元10將暫時身份或代碼儲存在儲存單元50內部。

步驟S106，接收與會者的聲音訊號進行聲紋辨識：以收音單元30來接收與會者200所發出的聲音訊號。在與會者200發出聲音時，在收音單元30接收後，由外部的電子裝置100的微處理單元10判斷聲音訊號的是否達到設定值(強弱位置)，若是聲音訊號達到設定值，該微處理單元10透過該驅動單元40將影像擷取單元20轉至聲音訊號達到設定值的與會者200位置來擷取影像、聲音資料，再由微處理單元10將與會者200的姓名或代碼傳至顯示螢幕101上，此時遠端與會者即可得知與誰在進行會議對話，同時與會者200的聲音訊號由該微處理單元10傳給語音及聲紋辨識單元70進行聲紋辨識後，並透過微處理單元10儲存在該儲存單元50中，以提供往後可以利用聲紋辨識比對與會者200的身份。在本圖式中，該收音單元30由多個麥克風32、34、36排成的麥克風陣列，如波束賦形麥克風陣列(Beamforming Microphone Array)為現有傳統技術，該波束賦形(Beamforming)又叫波束成型、空域濾波，是一種使用傳感器(麥克風)陣列定向發送和接收信號的信號處理技術。波束賦形技術通過調整相位陣列的基本單元的參數，使得某些角度的信號獲得相長干涉，而另一些角度的信號獲得相消干涉(如，陣列的「前方」稱為軸上方向，指拾取目標音頻的方向，在極坐標圖(圖中未示)上標為0°；「後方」為180°方向；「側邊」指前後方之間的空間，中心方向分別位於90°和270°。波束賦形既可以用於信號發射端，又可以用於信號接收端。

步驟S108，會議記錄：在會議進行中，現場的任何一位與會者200在與遠端的與會者進行交談時，所說的聲音訊號內容將被該收音單元30接收後傳至外部的電子裝置100，經過該電子裝置100的微處理單元10傳送至語音及聲紋辨識單元70辨識後由該顯示螢幕101顯示雙方的對話字幕，同時由微處理單元10將聲音訊號內容及會議影像檔儲存在儲存單元50當做會議記錄，事後可以透過外部的電子裝置100連結印表機(圖中未示)將會議記錄印出或是透過顯示螢幕101播放出來。且在會議交談的過程中聲音訊號的部份就由微處理單元10輸出至聲音輸出單元90播放。在本圖式中，該聲音輸出單元90為喇叭、揚聲器。

步驟S110，聲音降噪處理：在會議進行中，該收音單元30未進行收音的麥克風32、34或36其一則會接收與會者200周邊的雜音訊號，此雜音訊號和與會者200的聲音訊號一併傳至外部的電子裝置100的微處理單元10，再由微處理單元10傳至於該降噪單元80處理，該降噪單元80會將雜音訊號消除後，再透過微處理單元10將聲音訊號傳至該聲音輸出單元90播放。

藉由，上述的辨位聽聲會議視訊處理方法，讓多人會議時，可以快速容易辨識出與會者位置及身份，以達到與遠端進行的視訊會議。

請參閱圖3，係本發明之電子裝置電路方塊示意圖，同時請一併參閱圖1、2。如圖所示：本發明之外部的電子裝置100，至少包括：一微處理單元10、至少一台影像擷取單元20、一收音單元30、一驅動單元40、一儲存單元50、一人臉辨識單元60、一語音及聲紋辨識單元70、一降噪單元80及一聲音輸出單元90。

該微處理單元10，係以載入軟體控制程式，以處理各裝置所輸出/輸入的控制訊號。本圖式中，該微處理單元10為MCU。

該影像擷取單元20，係與該微處理單元10電性連結，用以擷取與會者200的臉部影像資料。在本圖式中，該影像擷取單元20為一台或一台以的CCD或CMOS的鏡頭及一訊號轉換單元組成。訊號轉換單元係以將鏡頭輸出的類比訊號轉換為數位訊號，或數位訊號轉換為類比訊號。

該收音單元30，係與該微處理單元10電性連結，以接收與會者200的聲音訊號。在本圖式中，該收音單元30為波束賦形麥克風陣列(Beamforming Microphone Array)，係以多個麥克風32、34、36組成的麥克風陣列為現有傳統技術，該波束賦形(Beamforming)又叫波束成型、空域濾波，是一種使用傳感器(麥克風)陣列定向發送和接收信號的信號處理技術。波束賦形技術通過調整相位陣列的基本單元的參數，使得某些角度的信號獲得相長干涉，而另一些角度的信號獲得相消干涉(如，陣列的「前方」稱為軸上方向，指拾取目標音頻的方向，在極坐標圖(圖中未示)上標為0°；「後方」為180°方向；「側邊」指前後方之間的空間，中心方向分別位於90°和270°。波束賦形既可以用於信號發射端，又可以用於信號接收端。

該驅動單元40，係與該微處理單元10電性連結，受該微處理單元的輸出訊號控制，以控制該影像擷取單元20及收音單元30轉動或切換進行與會者200的拍攝。在本圖式中，該驅動單元40為機械式驅動，如伺服馬達。

該儲存單元50，係與該微處理單元10電性連結，用以儲存與會者200的臉部資資料、聲紋資料、會議影像資料、會議的語音內容及相關應用程式。在本圖式中，該儲存單元50為記憶體。

該人臉辨識單元60，係與該微處理單元10電性連結，用以辨識該影像擷取單元20所擷取與會者200的臉部影像資料與儲存在該儲存單元50中的臉部影像資料進行比對，以判斷與會者200的身份。此人臉辨識單元60為人臉辨識處理晶片，且為傳統技術在此不多言述。

該語音及聲紋辨識單元70，係與該微處理單元10電性連結，用以將會議現場及遠端的與會者200所說的語音內容辨識後，將語音內容以字幕方式顯示於該顯示螢幕101上。同時也辨識與會者200的聲紋資料，並透過微處理單元10儲存在該儲存單元50中，以形成與會者200往後身份辨識的條件之一。此語音及聲紋辨識單元70為語音及聲紋處理晶片，且為傳統技術在此不多言述。

該降噪單元80，係與該微處理單元10電性連結，用以將會議現場周邊的雜音訊號消除，讓會議現場的與會者200只聽見雙方講話的聲音訊號。此降噪單元80為降噪處理晶片，且為傳統技術在此不多言述。

該聲音輸出單元90，係與該微處理單元10電性連結，用以播放該微處理單元10所傳遞的聲音訊號。在本圖式中，該聲音輸出單元90為喇叭、揚聲器。

在裝置運用時，先以影像擷取單元20將與會者(公司員工)300進行臉部影像資料的擷取，在影像擷取單元20擷取每一位與會者200的臉部影像資料後，傳至外部的電子裝置100，由該電子裝置100的微處理單元10儲存在該儲存單元50中。

在會議進行前，以影像擷取單元20將與會的每一位與會者200進行臉部影像資料擷取，透過微處理單元10傳至給該人臉辨識單元60辨識並與儲存在儲存單元50內部的臉部影像資料進行比對，若比對與會者200已儲存在儲存單元50內部中，即可知道與會者200的身份及位置，若是比對與會者200的臉部影像資料未儲存在儲存單元50內部，該微處理單元10將會給後加入與會者200一個暫時身份或代碼(例如001身份或代碼)，並將此後加入的與會者200的臉部影像資料及暫時身份或代碼儲存在儲存單元50內部。

在會議進行中，以收音單元30的波束賦形麥克風陣列(Beamforming Microphone Array)來接收與會者200所發出的聲音訊號在收音單元30接收傳至外部的電子裝置100的微處理單元10判斷聲音訊號是否達到設定值(強弱的位置)後，在聲音訊號達到設定值時，該微處理單元10透過該驅動單元40將影像擷取單元20轉至該與會者200位置來擷取影像、聲音資料，再由微處理單元10將與會者200的姓名或代碼透過顯示螢幕101顯示，此遠端與會者即可得知與誰在進行會議對話，同時與會者200的聲音訊號由該微處理單元10傳給語音及聲紋辨識單元70進行聲紋辨識後，在辨識後並透過微處理單元10儲存在該儲存單元50中，以提供往後可以利用聲紋辨識比對與會者200的身份。

在會議現場的任何一位與會者200在與遠端的與會者進行交談時，所說的聲音訊號內容將被該收音單元30的波束賦形麥克風陣列(Beamforming Microphone Array)接收並傳至外部的電子裝置100，經過微處理單元10傳送至語音及聲紋辨識單元70辨識後，傳至顯示螢幕101上顯示雙方的對話字幕，同時由微處理單元10將聲音訊號內容及會議影像檔儲存在儲存單元50當做會議記錄。事後，可以透過外部的電子裝置(電腦)100連結印表機(圖中未示)將會議記錄印出或是透過顯示螢幕101播放出來。且在會議交談的過程中聲音訊號由微處理單元10輸出至聲音輸出單元90播放。

且在會議進行中，該收音單元30未進行收音時，該些麥克風32、34、36則會接收與會者200周邊的雜音訊號，此雜音訊號和與會者200的聲音訊號一併傳至外部的電子裝置100的微處理單元10，由微處理單元10傳至於該降噪單元80處理，該降噪單元80會將雜音訊號消除後，再透過微處理單元10將聲音訊號傳至該聲音輸出單元90播放。

惟以上所述僅為本發明之較佳實施例，非意欲侷限本發明的專利保護範圍，故舉凡運用本發明說明書或圖式內容所為的等效變化，均同理皆包含於本發明的權利保護範圍內，合予陳明。

步驟S100-步驟S110

Claims

一種辨位聽聲會議視訊方法，該方法步驟包括如下：a)、備有一影像擷取單元及一收音單元與外部的電子裝置電性連結；b)、先行建立與會者的臉部影像資料，以該影像擷取單元將每一位該與會者的臉部影像資料擷取後，由該電子裝置儲存；c)、在會議進行前先以該影像擷取單元擷取每一位該與會者的該臉部影像資料，再透過該電子裝置進行該臉部影像資料比對，若比對該與會者已儲存在該電子裝置中，即可確認該與會者的身份及位置，若是比對該與會者的該臉部影像資料未儲存在該電子裝置內部，該電子裝置將給予後加入與會者一個代碼，同時將該後加入與會者的該臉部影像資料及該代碼儲存在該電子裝置；d)、會議開始由該收音單元接收聲音訊號，該聲音訊號由該電子裝置判斷該聲音訊號是否達到設定值，若該聲音訊號達到設定值，該電子裝置透過該影像擷取單元擷取該聲音訊號達到設定值的該與會者位置，進行影像、聲音資料擷取；e)、以該收音單元接收該與會者周邊的雜音訊號，該雜音訊號和該與會者的該聲音訊號一併傳至該電子裝置中進行降噪處理，使該聲音訊號中的雜音訊號消除。
如請求項1所述之辨位聽聲會議視訊方法，其中，在步驟b的臉部影像資料為動態影像資料或靜態影像資料。
如請求項1所述之辨位聽聲會議視訊方法，其中，在步驟d中包括該電子裝置在擷取該聲音訊號達到設定值的該與會者，再由該電子裝置將該與會者的姓名或代碼傳至一顯示螢幕上顯示；且該與會者的聲音訊號由該電子裝置進行聲紋辨識後並儲存，以供聲紋辨識比對該與會者的身份。
如請求項1所述之辨位聽聲會議視訊方法，其中，在步驟e後更包括步驟f，該步驟f在會議進行中，在會議現場的任何一位該與會者在與遠端的與會者進行交談時，該聲音訊號內容由該電子裝置接收並顯示雙方的對話字幕，同時由該電子裝置將聲音訊號內容及會議影像檔儲存做會議記錄。
如請求項4所述之辨位聽聲會議視訊方法，其中，該電子裝置至少包括：一微處理單元、一驅動單元、一儲存單元、一人臉辨識單元、一語音及聲紋辨識單元、一降噪單元及一聲音輸出單元。
如請求項5所述之辨位聽聲會議視訊方法，其中，該影像擷取單元包括有至少一台或一台以上的CCD或CMOS的鏡頭及一訊號轉換單元組成。
如請求項5所述之辨位聽聲會議視訊方法，其中，該驅動單元為伺服馬達。
如請求項5所述之辨位聽聲會議視訊方法，其中，該收音單元為波束賦形麥克風陣列。
如請求項5所述之辨位聽聲會議視訊方法，其中，由該影像擷取單元將該與會者的該臉部影像資料擷取後傳至該電子裝置的該微處理單元控制，經該人臉辨識單元與儲存在該儲存單元內部的該臉部影像資料進行比對，以確認該與會者的身分。
如請求項5所述之辨位聽聲會議視訊方法，其中，該與會者的聲音訊號由該收音單元接收並傳至該電子裝置經該微處理單元傳至該語音及聲紋辨識單元進行辨識聲紋後，並儲存於該儲存單元中，以供透過聲紋辨識比對該與會者的身份。
如請求項5所述之辨位聽聲會議視訊方法，其中，該語音內容及會議影像檔案儲存在該電子裝置的該儲存單元中，當做會議記錄，該會議記錄透過該電腦連結印表機將該會議記錄印出或是透過該顯示螢幕播放出來。
一種辨位聽聲會議視訊裝置，係與外部的電子裝置電性連結，包括：一影像擷取單元，係與該電子裝置的一微處理單元電性連結，用以擷取與會者的臉部影像資料；一收音單元，係與該電子裝置的該微處理單元電性連結，以接收該與會者的聲音訊號；及，一設於該電子裝置內部的降噪單元，係與該微處理單元電性連結，用以將會議現場周邊的雜音訊號消除；其中，以該影像擷取單元擷取與會者的臉部影像資料，進行比對該與會者的臉部影像資料已儲存在該電子裝置內部，即可得知該與會者的身份與位置，若是比對該與會者的臉部影像資料未儲存在該電子裝置中，該電子裝置將給予一個代碼，並將該代碼及該臉部影像資料儲存在該電子裝置中；且，以該收音單元接收該與會者的聲音訊號，經該判斷該聲音訊號達到設定值時，並由該電子裝置透過該影像擷取單元擷取該聲音訊號達到設定值的與會者；以該收音單元接收該與會者周邊的雜音訊號，該雜音訊號和該與會者的該聲音訊號一併傳至該電子裝置的該降噪單元中進行降噪處理，使該聲音訊號中的雜音訊號消除，讓會議現場的與會者只聽見雙方講話的聲音訊號。
如請求項12所述之辨位聽聲會議視訊裝置，其中，該電子裝置至少包括有：該微處理單元，係以載入軟體控制程式，以處理各裝置所輸出/輸入的控制訊號；一儲存單元，係與該微處理單元電性連結，用以儲存該與會者的臉部影像資料及會議影像資料；一人臉辨識單元，係與該微處理單元電性連結，用以接收該與會者的臉部影像資料與該儲存單元內部儲存的臉部影像資料進行比對；一驅動單元，係與該微處理單元電性連結；一語音及聲紋辨識單元，係與該微處理單元電性連結，用以將會議現場及遠端的與會者所說的語音內容及聲紋辨識後，並透過該微處理單元儲存在該儲存單元中，以形成與會者往後身份辨識的條件之一；一聲音輸出單元，係與該微處理單元電性連結，用以播放該微處理單元所傳遞的聲音訊號。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該臉部影像資料為動態影像資料或靜態影像資料。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該影像擷取單元包括有至少一台或一台以上的CCD或CMOS鏡頭及一訊號轉換單元組成。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該驅動單元為伺服馬達。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該收音單元為波束賦形麥克風陣列。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該語言及聲紋辨識裝置係與該微處理單元電性連結，用以將會議現場及遠端的與會者所說的語音內容辨識後，顯示於顯示螢幕上。
如請求項13所述之辨位聽聲會議視訊裝置，其中，該聲音輸出單元為喇叭、揚聲器。