TW202209873A

TW202209873A - 線上會議系統以及近端主機

Info

Publication number: TW202209873A
Application number: TW110131565A
Authority: TW
Inventors: 李宜佳; 劉志堅; 王弘典; 陳經宇; 湯道文
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2020-08-27
Filing date: 2021-08-26
Publication date: 2022-03-01
Also published as: TWI801978B

Abstract

一種近端主機被提出，其適用於線上會議系統，用以與雲端資料庫連線以接收多個雲端用戶資訊，其包括多個雲端識別資訊以及多個雲端聲紋資訊。近端主機的現場聲紋匹配單元將多個現場用戶資訊或多個現場臉部影像與多個雲端識別資訊進行比對，以依據比對結果將部分的雲端聲紋資訊作為多個現場聲紋資訊。近端主機自近端收音單元接收現場聲音信號，其包括多個語音信號以及噪音信號。近端主機的目標識別單元接收目標識別指令。近端主機的語音處理單元依據多個現場聲紋資訊、現場聲音信號以及目標識別指令，以產生對應目標用戶的目標增強語音信號。

Description

線上會議系統以及近端主機

本發明是有關於一種線上會議系統，且特別是有關於一種線上會議系統的近端主機。

受到疫情影響，各公司行號紛紛祭出遠距辦公以及分流上班等措施，以期透過減少人員群聚來降低員工染疫風險。在這種新型態的工作模式下，對於線上會議的需求大增。然而，在進行線上會議且近端現場有多人時，從遠端連線參與會議者的所接收到的音訊效果經常會因為一些情況而打折扣。例如，近端現場存在環境噪音以及多人同時發言等情況。

因此，需要提出一種解決方案，以減輕或避免上述狀況帶來的影響。

本發明提供一種近端主機，可獲取近端目標用戶的清晰語音。

本發明的近端主機適用於線上會議系統。近端主機用以：與雲端資料庫連線以接收多個雲端用戶資訊，包括多個雲端識別資訊以及分別對應多個雲端識別資訊的多個雲端聲紋資訊；自近端攝像單元接收現場影像信號以產生多個現場臉部影像，並由近端主機的現場聲紋匹配單元將多個現場用戶資訊或多個現場臉部影像與多個雲端識別資訊進行比對，以依據比對結果將多個雲端聲紋資訊的一部分作為多個現場聲紋資訊；自近端收音單元接收現場聲音信號，其包括多個語音信號與噪音信號，其中現場聲音信號由近端收音單元產生；由近端主機的目標識別單元接收目標識別指令，以依據目標識別指令識別欲增強其語音信號強度的目標用戶；以及由近端主機的語音處理單元根據多個現場聲紋資訊、現場聲音信號與目標識別指令，產生對應該目標用戶的目標增強語音信號。

本發明的線上會議系統包括前述的近端主機以及遠端主機。遠端主機與近端主機連線，用以接收目標增強語音信號。

基於上述，本發明的線上會議系統可依據目標識別指令，以增強現場的多個語音信號當中目標用戶的語音信號，藉此產生目標增強語音信號。並且，由近端主機將目標增強語音信號傳輸至遠端主機。如此一來，可使遠端用戶獲取近端目標用戶的清晰語音，避免因近端現場存在環境噪音以及多人同時發言等情況導致的遠端收音效果不佳的問題。

本發明的近端主機適於作為線上會議系統在近端的一主機使用。圖1示出本發明一實施例的線上會議系統與近端主機的方塊示意圖。請見圖1，在一實施例中，線上會議系統100包括雲端資料庫110、近端主機120、遠端主機130、近端收音單元140、近端攝像單元150以及近端顯示單元160。雲端資料庫110儲存有多個雲端用戶資訊。各雲端用戶資訊可包括用戶的識別資訊（下稱「雲端識別資訊」）以及用戶的聲紋資訊（下稱「雲端聲紋資訊」）。在一應用情境中，雲端資料庫110可用以儲存公司的每位員工的個人資訊。前述個人資訊於員工到職時被建立，包括但不限於員工的姓名資訊、身分證的證號資訊、員工編號資訊、電郵資訊、臉部影像資訊以及聲紋資訊。在本發明中，姓名資訊（下稱「雲端姓名資訊」）、身分證的證號資訊、員工編號資訊、電郵資訊（下稱「雲端電郵資訊」）以及臉部影像資訊（下稱「雲端臉部影像資訊」）被歸類於用戶的雲端識別資訊。雲端識別資訊可作為後續比對查找特定用戶資訊之用。

在本實施例中，近端主機120與遠端主機130可以是筆記型電腦。但在其他實施例中，近端主機120與遠端主機130也可以是桌上型電腦、平板電腦、智慧型手機、個人數位助理（personal digital assistant，PDA）或具有運算能力的其他類型的電子裝置。近端主機120可與雲端資料庫110連線。近端主機120可從雲端資料庫110取得雲端用戶資訊，以及對雲端資料庫110的內容進行編輯（至少包括儲存、刪除與覆寫）。近端主機120同時耦接近端收音單元140、近端攝像單元150以及近端顯示單元160。近端收音單元140例如為架設於近端主機120外部的麥克風設備，用以接收現場聲音並產生現場聲音信號。其中，現場聲音信號可包括多個語音信號與噪音信號。近端攝像單元150例如為架設於近端主機120外部的攝像機，用以拍攝或錄製現場影像（包含現場臉部影像以及現場背景影像）並產生現場影像信號。需說明的是，本發明不限制麥克風以及攝像機的數量。在一實施例中，多個麥克風與多個收音機被架設以達到更佳的現場收音效果以及拍攝效果。

在本實施例中，近端主機120用以執行線上會議程序，並將線上會議畫面通過近端顯示單元160顯示出來。顯示單元160可以是但不限於是液晶顯示器（liquid-crystal display，LCD）、發光二極體（light-emitting diode，LED）顯示器、真空螢光顯示器（vacuum fluorescent display，VFD）、等離子顯示器（plasma display panel，PDP）、有機發光顯示器（organic light-emitting diode，OLED）或場發射顯示器（field-emission display，FED）。其中，線上會議畫面包括前述現場影像（包括現場臉部影像以及現場背景影像）。

近端主機120還用以獲取多個現場用戶資訊，並將多個現場用戶資訊與多個雲端識別資訊進行比對，以依據比對結果將多個雲端聲紋資訊的一部分作為多個現場聲紋資訊。近端主機120還用以接收現場聲音信號以及目標識別指令。其中，現場聲音信號包括多個語音信號與噪音信號。目標識別指令是通過由在場用戶選擇欲增強聲音信號的目標用戶而產生。近端主機120用以依據多個現場聲紋資訊、現場聲音信號以及目標識別指令，以產生目標增強語音信號。目標增強語音信號可由近端主機120通過連線傳輸至遠端主機130以進行播放。

圖2示出本發明一實施例的近端主機的方塊示意圖。請見圖2，雲端資料庫110的作用可參考圖1實施例的說明，於此不再贅述。近端主機120的近端收音單元121、近端攝像單元122以及近端顯示單元123的作用與圖1實施例相同，其差異僅在於圖1實施例是將上述元件設置於近端主機120外部，而圖2實施例是將上述元件內建於近端主機120內部。例如，內建於筆記型電腦的麥克風與攝像機。

另外，雖然圖1與圖2中皆以雲端資料庫110來示例，但不發明不以此為限。在一變化實施例中，雲端資料庫110的資料亦可儲存於遠端主機130。在另一變化實施例中，圖1與圖2的雲端資料庫110的資料可就近地儲存於近端主機120的儲存媒體內，而不採用雲端方式傳輸資料。儲存媒體例如是任何型態的固定式或可移動式的隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟（hard disk drive，HDD）、固態硬碟（solid state drive，SSD）或類似元件或上述元件的組合。圖1實施例中所描述的近端主機120的功能可由圖2的近端主機120中的多個單元來執行。下面將以多個實施例來進行說明。

圖3示出本發明第一實施例的步驟流程圖。請同時參酌圖1、圖2與圖3，在線上會議發起之初，可由近端主機120的近端用戶資訊擷取單元124接收會議通知檔案。近端用戶資訊擷取單元124並用以從會議通知檔案當中擷取出多個用戶資訊（稱為近端用戶資訊）作為預定將參與會議的人員資訊（步驟S301）。會議通知的檔案類型包括但不限於文件檔案以及電郵。表（一）示出了會議通知當中的與會者資訊。近端用戶資訊擷取單元124可將與會者資訊從會議通知當中擷取出來作為近端用戶資訊，並將近端用戶資訊儲存於近端主機120。

需說明的是，雖然表（一）的與會者資訊僅包括與會者的姓名資訊，然而事實上與會者資訊可以包括與會者的姓名資訊、電郵資訊、所屬部門資訊、分機資訊、員工編號資訊、身分證證號資訊以及影像資訊當中的至少一個。舉例來說，在表（二）中，與會者資訊包括與會者的姓名資訊、電郵資訊、分機資訊以及影像資訊。近端用戶資訊擷取單元124可以將上述資訊擷取出來作為多個近端用戶資訊。表（一）

與會者姓名

Mark

Amily

Jacky

Nancy

表（二）

與會者姓名	電郵資訊	分機	影像檔案
Mark	Mark@gmail.com	510	Mark.jpg
Amily	Amily@gmail.com	701	Amily.jpg
Jacky	Jacky @gmail.com	702	Jacky.jpg
Nancy	Nancy@gmail.com	703	Nancy.jpg

在本發明中，近端用戶資訊被定義為為儲存於近端主機120中的在場用戶的相關個人資訊。本實施例中，近端用戶資訊在是由近端主機120通過會議通知而獲取。近端用戶資訊包括但不限於用戶的姓名資訊（下稱「近端姓名資訊」）、電郵資訊（下稱「近端電郵資訊」）、所屬部門資訊、員工編號資訊、身分證證號資訊以及影像資訊（下稱「近端影像資訊」）。其中，近端影像資訊不限於真實的臉部影像，其也可以是物品影像、風景影像、卡通圖樣（如圖6的近端影像資訊602所示）等其他類型影像。

在步驟S302中，由近端攝像單元122/150拍攝會議現場的現場影像，並由近端收音單元121/140接收現場聲音。前述的現場影像可包括現場背景影像以及多個現場臉部影像。由近端主機120執行線上會議程序，並通過近端顯示單元123顯示包含現場臉部影像在內的線上會議畫面。近端臉部辨識單元125耦接近端攝像單元122以接收近端攝像單元122傳輸過來的現場影像信號。在步驟S303中，由近端臉部辨識單元125分析現場影像信號，以找出現場影像中的人臉區域。近端臉部辨識單元125並將人臉區域所涵蓋的影像擷取出來，以產生多個現場臉部影像。

在步驟S304中，在近端影像資訊是用戶的真實臉部影像的情況下，由現場資訊比對單元126將多個近端用戶資訊中的近端影像資訊與多個現場臉部影像進行比對，並依據比對結果產生多個現場用戶資訊。在近端用戶資訊不包括近端影像資訊（例如只有近端姓名資訊或近端電郵資訊）或是近端影像資訊不是用戶的真實臉部影像（例如是用以代表該用戶的卡通圖像）的情況下，現場資訊比對單元126可依據近端用戶資訊於雲端資料庫110查找。現場資訊比對單元126可通過比對近端用戶資訊與雲端識別資訊，以獲取與近端用戶資訊相匹配的雲端識別資訊當中的雲端臉部影像資訊。現場資訊比對單元126可進一步將匹配的雲端臉部影像資訊下載並將其與多個現場臉部影像進行比對，以獲得現場用戶資訊。

在一延伸應用中，可由近端主機120比對近端用戶資訊與現場用戶資訊，以確認實際出席者名單以及缺席者名單。在一延伸應用中，近端主機120也可將多個現場臉部影像上傳至雲端資料庫110，以取代對應用戶現有的雲端臉部影像資訊。圖4示出將員工最新臉部影像取代雲端臉部影像的示意圖。請見圖4，臉部影像資料401是現場臉部影像，臉部影像資料402是雲端臉部影像資訊。近端主機可將臉部影像資料401上傳至雲端資料庫130以取代臉部影像資料402。在一延伸應用中，近端主機120還可包括臉部影像更新單元（圖未示），以透過臉部影像更新單元將多個現場臉部影像上傳至雲端資料庫110，以作為對應用戶的新的雲端臉部影像資訊。圖5示出將員工最新臉部影像新增至雲端資料庫的示意圖。請見圖5，臉部影像資料501~503皆是儲存於雲端資料庫的員工的臉部影像，其中臉部影像資料501可以是該員工到職時所拍攝的臉部影像。臉部影像資料504可以是該員工在最近一次的會議現場被拍攝到的臉部影像。由於員工的相貌可能隨著年齡增大而有變化。透過此種方式，可以將員工近期的臉部影像資訊404新增至雲端資料庫。在其他實施例中，現場用戶資訊可包括現場電郵資訊、現場姓名資訊以及臉部影像（下稱「現場臉部資訊」）。

臉部影像更新單元也可以依據現場臉部影像來更新近端用戶資訊中的近端影像資訊以及現場臉部資訊當中至少一個。近端影像資訊代表一對應用戶的形象，他可以是真實的臉部影像、物品影像、風景影像、卡通圖樣或其他類型影像。圖6示出將員工最新臉部影像取代近端影像資訊的示意圖。請見圖6，臉部影像資料601是現場臉部影像。近端影像資訊602是一對應用戶的形像圖樣，例如為依據表（二）的影像檔案欄位獲取的一影像資訊。在圖6中，臉部影像更新單元可將近端影像資訊602以臉部影像資料601進行取代。

請重新參照圖1至圖3，現場聲紋匹配單元127耦接現場資訊比對單元126，以接收多個現場用戶資訊。在步驟S305中，由現場聲紋匹配單元127將雲端識別資訊與現場用戶資訊進行比對。現場聲紋匹配單元127並將匹配成功的多個雲端識別資訊所對應的雲端聲紋資訊作為現場聲紋資訊。

在線上會議進行的過程中，現場用戶可以透過選擇線上會議畫面中的現場臉部影像以產生目標識別指令。舉例來說，現場用戶可以通過觸碰觸控螢幕（下稱「近端觸控單元」）或移動滑鼠來點擊畫面中目標的現場臉部影像。在步驟S306中，由目標識別單元128接收目標識別指令並依據目標識別指令將對應於前述目標的現場用戶資訊做為目標用戶資訊。在步驟S307中，由目標識別單元128依據目標用戶資訊將對應的現場聲紋資訊作為目標聲紋資訊。

語音處理單元129耦接目標識別單元128以接收目標聲紋資訊，並耦接近端收音單元121以接收現場聲音信號。在步驟S309中，由語音處理單元129依據目標聲紋資訊對現場聲音信號進行處理，以得到目標語音信號。語音處理單元129可包括語音增強次單元（圖未示），用以對目標語音信號的信號強度進行增強，以產生目標增強語音信號。目標增強語音信號將由近端主機120通過通訊單元（圖未示）傳輸至遠端主機130。進一步地，目標增強語音信號之外的語音信號強度可被降低或濾除，以使遠端用戶可以聽到清晰的目標增強語音信號。

圖7示出本發明第一實施例的一使用情境的示意圖。請見圖7，近端用戶701~703可以透過點選線上會議畫面當中的目標人臉701’以產生目標識別指令。近端主機710依據目標識別指令產生目標增強語音信號，並將其傳輸至遠端主機720。如此一來，遠端用戶704得以接收到清晰的目標增強語音。

在一實施例中，語音處理單元129可包括降噪單元（圖未示），用以降低現場聲音信號中的現場噪音信號。在本實施例中，降噪單元可以是一機器學習（Machine Learning，ML）模組。進一步地，前述機器學習模組可以包括多個降噪自動編碼器（Denoising Autoencoder，DAE）。其中，各降噪自動編碼器可以是深度降噪自動編碼器（Deep denoising auto-encoder，DDAE），用以透過將降噪轉換成非線性編碼-解碼任務，以此來映射雜訊信號和乾淨語音信號之間的特徵。

在一實施例中，深度降噪自動編碼器可通過深層神經網路（deep neural network，DNN）對聲音信號進行降噪處理。在模型訓練階段，可通過取得多個標籤聲音信號，並且根據多個標籤聲音信號訓練深度降噪自動編碼器。多個標籤聲音信號中的每一標籤聲音信號可包含一語音信號以及一或多種類型的噪音。可根據多個標籤聲音信號訓練出用於進行降噪處理的深層神經網路模型，其中深層神經網路模型可包含多層隱藏層。每一個隱藏層可包含多個神經元，並且每一個神經元可具備對應的激勵函數（activation function）。通過在訓練過程中的神經元與神經元之間的權重不斷被調整及更新的動作，以建立深層神經網路模型。在深層神經網路模型的運用階段，可以通過深層神經網路模型區分語音訊號以及環境雜訊。並且，可以通過減弱或剃除掉現場語音信號（已去除噪音信號）中與目標聲紋資訊不符的語音信號。

在本實施例中，語音處理單元129除了降噪單元之外，還包括語音增強次單元以及通訊單元。其中，語音增強次單元用以增強目標語音信號的信號強度，以產生目標增強語音信號。通訊單元用以連線近端主機120與遠端主機130，以將目標增強語音信號傳輸至遠端主機130。

在另一實施例中，除了降噪次單元之外，語音處理單元129還可包括聲紋提取次單元（圖未示），用以提取與多個現場語音信號對應的多個現場聲紋特徵。在一實施例中，聲紋提取單元可基於識別向量器的演算法（iVector-based algorithm）或根據基於深度神經網路的演算法（DNN-based algorithm）來提取語音訊號的一或多個特徵。進一步地，語音處理單元129還可包括聲紋更新次單元（圖未示），用以匹配多個現場聲紋特徵與多個現場聲紋資訊。若匹配成功，聲紋更新次單元則將匹配成功的多個現場聲紋特徵更新至對應的現場聲紋資訊與對應的雲端聲紋資訊。在一應用情境中，由於員工的聲音可能隨著年齡增大而有改變，因此可透過此種方式，可以將員工聲紋資訊適時做更新。類似地，語音處理單元129還可包括語音增強單元以及通訊單元。語音增強單元以及通訊單元的作用如前一實施例所述，於此不再贅述。

圖8示出本發明第二實施例的步驟流程圖。第二實施例可應用於缺乏攝影設備的會議現場。請同時參酌圖1、圖2與圖8，在步驟S801中，可由近端用戶資訊擷取單元124依據會議通知獲取多個近端用戶資訊（例如近端電郵資訊）。在步驟S802中，可由近端收音單元121接收現場聲音，以產生現場聲音信號。在步驟S803中，由現場聲紋匹配單元127去比對多個近端用戶資訊（如近端電郵資訊）與多個雲端識別資訊（如雲端電郵資訊），以找出匹配成功的多個雲端識別資訊所對應多個雲端聲紋資訊，並將其作為現場聲紋資訊。

近端主機120並找出匹配成功的多個雲端識別資訊中的雲端臉部影像資訊，並將其下載作為線上會議畫面的一部分以通過近端顯示單元123進行顯示。在線上會議進行的過程中，現場用戶可以透過選擇線上會議畫面中的臉部影像以產生目標識別指令。需注意的是，第一實施例的線上會議畫面中的臉部影像是經由現場拍攝得到的，而第二實施例的線上會議畫面的臉部影像是依據近端用戶資訊（例如近端電郵資訊、近端姓名資訊等）於雲端資料庫110進行查找所得到的雲端臉部影像資訊。

之後的步驟與第一實施例類似。在步驟S804中，由目標識別單元128接收目標是別指令並依據目標識別指令將對應於目標的近端用戶資訊作為目標用戶資訊。在步驟S805中，由目標識別單元128依據目標用戶資訊將對應的現場聲紋資訊作為目標聲紋資訊。在步驟S806中，由語音處理單元129依據目標聲紋資訊對現場聲音信號進行處理以得到目標語音信號，並將目標語音信號增強以進行傳輸。

圖9示出本發明第三實施例的步驟流程圖。在第三實施例中，本發明的近端主機可應用於戲劇拍攝現場。請同時參見圖1、圖2與圖9，在步驟S901中，由近端攝像單元122/150拍攝現場影像（例如演員演出畫面）以透過近端顯示單元123/16進行顯示，並由近端收音單元121/140接收現場聲音（例如使用懸吊式麥克風接收演員聲音）。其中，近端收音單元121/140所產生的現場聲音信號中包括多個語音信息以及現場噪音信息。在步驟S902中，由近端臉部辨識單元125分析現場影像信號，以取得多個現場臉部影像。在步驟S903中，由現場聲紋匹配單元127將雲端識別資訊與現場臉部影像進行比對，以將匹配成功的多個雲端識別資訊所對應的雲端聲紋資訊作為現場聲紋資訊。執行到這個步驟時，可以取得現場演員的聲紋資訊，並透過比對動作獲得現場聲紋資訊與現場臉部影像之間的對應關係。並且，在拍攝過程中，現場人員（例如導演）可以透過點選近端主機120所顯示的拍攝畫面中目標演員的現場臉部影像，以產生目標識別指令。在步驟S904中，由目標識別單元128接收目標識別指令並依據目標識別指令以及現場聲紋資訊與現場臉部影像之間的對應關係，將目標演員的現場聲紋資訊做為目標聲紋資訊。在步驟S905中，由語音處理單元129依據目標聲紋資訊對現場聲音信號進行處理以得到目標語音信號，並將目標語音信號增強以進行傳輸或播放。

在一延伸應用中，第一至第三實施例的近端主機120可進一步包括人數提示單元（圖未示）。人數提示單元用以計算現場臉部影像的數量，並將現場臉部影像的數量與人數閾值進行比較，以決定是否產生人數提示信號。舉例來說，因應疫情警戒第三級，規定室內人數不得大於5人。因此，可將人數閾值設為5人。當人數提示單元的比較結果顯示現場臉部影像的數量大於5時，可產生一人數提示信號，以提醒現場用戶現場人數已超過閾值。

在一延伸應用中，第一至第三實施例的近端主機120可進一步包括口罩提示單元（圖未示）。口罩提示單元用以分析現場臉部影像，以確認各現場臉部影像是否皆包括現場口罩影像。具體而言，可以透過放大現場臉部影像，並採集臉部影像的下半臉區域，以判斷對象是否有配戴口罩。當口罩提示單元確認有任何的現場臉部影像不包含現場口罩影像時，可發出口罩提示信號，以提醒現場用戶去配戴口罩。

在一延伸應用中，第一至第三實施例的近端主機120可進一步包括距離提示單元（圖未示）。距離提示單元用以計算現場臉部影像的深度影像資訊，進而估測現場臉部影像之間的距離，並將任二現場臉部影像之間的距離與距離閾值進行比較，以依據比較結果決定是否發出距離提示信號。舉例來說，因應疫情警戒第三級，建議室內人與人之間保持1.5公尺的距離。因此，可將距離閾值設為1.5公尺。當比較結果顯示現場人員之間的距離小於1.5公尺時，由距離提示單元發出距離提示信號，以提示現場人員之間的距離過近。

以硬體形式而言，第一至第三實施例中的多個單元可以是實現於積體電路（integrated circuit）上的邏輯電路。上述多個單元的相關功能可以利用硬體描述語言（hardware description languages，例如Verilog HDL或VHDL）或其他合適的編程語言來實現為硬體。舉例來說，上述多個單元的相關功能可以被實現於一或多個控制器、微控制器、微處理器、特殊應用積體電路（Application-specific integrated circuit, ASIC）、數位訊號處理器（digital signal processor, DSP）、場可程式邏輯閘陣列（Field Programmable Gate Array, FPGA）及/或其他處理單元中的各種邏輯區塊、模組和電路。

以軟體形式及/或韌體形式而言，上述多個單元的相關功能可以被實現為編程碼（programming codes）。例如，利用一般的編程語言（programming languages，例如C、C++或組合語言）或其他合適的編程語言來實現上述多個單元。所述編程碼可以被記錄/存放在記錄媒體中，所述記錄媒體中例如包括唯讀記憶體（Read Only Memory，ROM）、存儲裝置及/或隨機存取記憶體（Random Access Memory，RAM）。電腦、中央處理器（Central Processing Unit，CPU）、控制器、微控制器或微處理器可以從所述記錄媒體中讀取並執行所述編程碼，從而達成相關功能。其中，所述通訊單元可以透過例如互聯網（Internet）、有線通信（wired communication）、無線通信（wireless communication）或其它通信介質來傳輸資訊。

綜上所述，本發明的近端主機統可依據目標識別指令，以增強現場的多個語音信號當中目標用戶的語音信號，藉此產生目標增強語音信號。如此一來，在一線上會議中，可使遠端用戶接收目標增強語音信號以獲取近端目標用戶的清晰語音，避免因近端現場存在環境噪音以及多人同時發言等情況導致的遠端收音效果不佳的問題。

100:線上會議系統 110:雲端資料庫 120:近端主機 130:遠端主機 140:近端收音單元 150:近端攝像單元 160:近端顯示單元 121:近端收音單元 122:近端攝像單元 123:近端顯示單元 124:近端用戶資訊擷取單元 125:近端臉部辨識單元 126:現場資訊比對單元 127:現場聲紋匹配單元 128:目標識別單元 129:語音處理單元 401、402:臉部影像資料 501~503:臉部影像資料 504:臉部影像資訊 701~703:近端用戶 701’:目標人臉 704:遠端用戶 710:近端主機 720:遠端主機 S301~S308、S801~S806、S901~S905:步驟

圖1示出本發明一實施例的線上會議系統與近端主機的方塊示意圖。圖2示出本發明一實施例的近端主機的方塊示意圖。圖3示出本發明第一實施例的步驟流程圖。圖4示出將員工最新臉部影像取代雲端臉部影像的示意圖。圖5示出將員工最新臉部影像新增至雲端資料庫的示意圖。圖6示出將員工最新臉部影像取代近端影像資訊的示意圖。圖7示出本發明第一實施例的一使用情境的示意圖。圖8示出本發明第二實施例的步驟流程圖。圖9示出本發明第三實施例的步驟流程圖。

100:線上會議系統

110:雲端資料庫

120:近端主機

130:遠端主機

140:近端收音單元

150:近端攝像單元

160:近端顯示單元

Claims

一種近端主機，適用於一線上會議系統，用以：與一雲端資料庫連線以接收多個雲端用戶資訊，包括多個雲端識別資訊以及分別對應該些雲端識別資訊的多個雲端聲紋資訊；自一近端攝像單元接收一現場影像信號以產生多個現場臉部影像，並由該近端主機的一現場聲紋匹配單元將多個現場用戶資訊或該些現場臉部影像與該些雲端識別資訊進行比對，以依據比對結果將該些雲端聲紋資訊的一部分作為多個現場聲紋資訊；自一近端收音單元接收一現場聲音信號，其包括多個語音信號與一噪音信號，其中該現場聲音信號由該近端收音單元產生；由該近端主機的一目標識別單元接收一目標識別指令，以依據該目標識別指令識別欲增強其語音信號強度的一目標用戶；以及由該近端主機的一語音處理單元根據該些現場聲紋資訊、該現場聲音信號與該目標識別指令，產生對應該目標用戶的一目標增強語音信號。
如請求項1所述的近端主機，其中該近端主機還用以接收該現場影像信號，其包括該些現場臉部影像與一現場背景影像。
如請求項2所述的近端主機，包括：該近端攝像單元，用以產生該現場影像信號。
如請求項2所述的近端主機，還包括：一近端顯示單元，用以顯示一線上會議畫面。
如請求項4所述的近端主機，其中該線上會議畫面，包含該些現場臉部影像。
如請求項5所述的近端主機，其中該目標識別指令是透過選擇該些現場臉部影像其中之一而產生。
如請求項1所述的近端主機，其中各該雲端識別資訊包括一雲端電郵資訊、一雲端姓名資訊以及一雲端臉部影像當中至少一個。
如請求項1所述的近端主機，還用以：接收多個近端用戶資訊，其中各該近端用戶資訊包括一近端電郵資訊、一近端姓名資訊以及一近端影像資訊當中至少一個，該近端主機包括：一現場資訊比對單元，用以比對該些近端用戶資訊與該些現場臉部影像，以將比對成功的近端用戶資訊作為該些現場用戶資訊。
如請求項1所述的近端主機，包括：該近端攝像單元，用以產生該現場影像信號；以及一近端臉部辨識單元，用以分析該現場影像信號，以取得該些現場臉部影像。
如請求項8所述的近端主機，還包括：一近端用戶資訊擷取單元，用以分析一會議通知，並自該會議通知中擷取出該些近端用戶資訊。
如請求項8所述的近端主機，其中各該近端用戶資訊包含一近端影像資訊。
如請求項1所述的近端主機，其中各該現場用戶資訊包含一現場電郵資訊、一現場姓名資訊以及一現場臉部資訊當中至少一個，以及各該雲端識別資訊包含一雲端電郵資訊、一雲端姓名資訊以及一雲端臉部影像當中至少一個。
如請求項12所述的近端主機，包括：一臉部影像更新單元，用以：依據該些現場臉部影像對該些現場臉部資訊、該些近端影像資訊以及該些雲端臉部影像當中至少一個進行更新。
如請求項1所述的近端主機，包括：一近端觸控單元，用以：提供一用戶在該些現場臉部影像中選擇一目標臉部影像以產生該目標識別指令。
如請求項1所述的近端主機，包括：該目標識別單元，用以：根據該目標識別指令將對應該目標用戶的該現場用戶資訊作為一目標用戶資訊；以及根據該目標識別指令，將對應該目標用戶的該現場聲紋資訊作為一目標聲紋資訊。
如請求項15所述的近端主機，包括：該語音處理單元，用以根據該目標聲紋資訊對該現場聲音信號進行處理，得到一目標語音信號。
如請求項16所述的近端主機，其中該語音處理單元包括多個降噪自動編碼器，用以根據該目標聲紋資訊，將該現場聲音信號進行處理，以得到該目標語音信號。
如請求項17所述的近端主機，其中該些降噪自動編碼器，分別為一深度降噪自動編碼器(deep denoising auto-encoder，DDAE)。
如請求項16所述的近端主機，其中該語音處理單元包括一降噪次單元，用以降低該現場噪音信號。
如請求項19所述的近端主機，其中該語音處理單元包括一聲紋提取次單元，用以提取該些現場語音信號其對應的多個現場聲紋特徵。
如請求項20所述的近端主機，其中該語音處理單元，包括一聲紋更新次單元，用以：匹配該些現場聲紋特徵與該些現場聲紋資訊，並依據匹配成功的該些現場聲紋特徵更新對應的該些現場聲紋資訊與對應的該些雲端聲紋資訊。
如請求項16所述的近端主機，其中該語音處理單元包括一語音增強次單元，用以增強該目標語音信號的信號強度以成為該目標增強語音信號。
如請求項1所述的近端主機，包括：一通訊單元，用以將該目標增強語音信號傳輸至一遠端主機。
如請求項23所述的近端主機，其中該通訊單元用以將該現場影像信號，傳輸至該遠端主機。
如請求項1所述的近端主機，包括：一人數提示單元，用以：計算該些現場臉部影像的數量；比較該些現場臉部影像的數量與一人數閾值，以在該些現場臉部影像的數量超過該人數閾值時發出一人數提示信號。
如請求項1所述的近端主機，包括：一口罩提示單元，用以：計算該些現場臉部影像的數量；分析各該現場臉部影像是否包含一現場口罩影像，以決定是否發出一口罩提示信號。
如請求項11所述的近端主機，包括：一距離提示單元，用以：計算該些現場臉部影像之間的距離；比較該些現場臉部影像之間的距離與一距離閾值，以依據比較結果決定是否發出一距離提示信號。
一種線上會議系統，包括：如請求項1所述的近端主機；以及一遠端主機，與該近端主機連線，用以接收該目標增強語音信號。