TWI769520B

TWI769520B - 多國語言語音辨識及翻譯方法與相關的系統

Info

Publication number: TWI769520B
Application number: TW109130562A
Authority: TW
Inventors: 吳岳桐; 李竣穎
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-07-01
Also published as: CN114239610A; US11881224B2; US20220076679A1; TW202211077A

Abstract

本發明提供一種用於會議中的多國語言語音辨識與翻譯方法。該會議包含至少一參與人，並且該方法包含：於一伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料；辨識該至少一視訊資料，產生關於該至少一參與人的數目、該至少一參與人的種族、至少一參與人於說話時的肢體動作及臉部動作的影像辨識結果；根據該影像辨識結果以及至少一音訊資料產生至少一語系辨識結果以及據此得到對應該至少一參與人的複數個音訊區段；對該些音訊區段進行語音辨識以及翻譯；以及將該翻譯結果顯示於至少一終端裝置上。

Description

多國語言語音辨識及翻譯方法與相關的系統

本發明係關於語音辨識與翻譯技術，尤指一種參考視訊資料進行多國語言語音辨識與翻譯的方法以及相關系統。

在涉及多國語言的會議中，語音辨識與翻譯系統被用來針對不同發語者的談話內容，進行即時的語音辨識以及翻譯，從而讓會議更流暢地進行。這種系統同時整合了自動化的語系辨識、語音辨識以及語言翻譯等技術。

現有的多國語言語音辨識與翻譯技術，大多是透過語音辨識技術把語音轉成文字，再針對文字進行翻譯。因此，語音辨識的準確度便會影響翻譯結果的正確性。

有鑑於以上的問題，本發明提出一種創新的多國語言即時語音辨識與翻譯方法及系統，可有效地解決習知技術無法妥善處理的同音詞以及多語者環境等情況。其中，本發明利用會議現場的視訊資料，對會議參與人進行多種狀態的判斷，以結合同音詞以及多語者環境的辨識模型，在語音辨識的階段中，釐清同音詞以及多語者環境，提升語音辨識的準確度。

本發明之一實施例提供一種用於會議中的多國語言語音辨識與翻譯方法。該會議包含至少一參與人，並且該方法包含：於一伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料；辨識該至少一視訊資料，以產生一第一影像辨識結果以及一第二影像辨識結果，該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作；基於該第一影像辨識結果以及該至少一音訊資料，產生至少一語系辨識結果；基於該第一影像辨識結果及該第二影像辨識結果，切割該至少一音訊資料，從而產生對應該至少一參與人的複數個音訊區段；根據該至少一語系辨識結果，語音辨識該些音訊區段，將該些音訊區段轉換成一文字內容；根據該至少一語系辨識結果，翻譯該文字內容；以及顯示該已翻譯的文字內容於該至少一終端裝置上。

本發明提供一種用於一會議中的伺服器端。該會議包含至少一參與人。該伺服器端包含：一視訊預處理模組、一語音辨識模組以及一翻譯模組。該視訊預處理模組用於根據至少一終端裝置所傳送之至少一視訊資料產生一第一影像辨識結果與一第二影像辨識結果。其中該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族，以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作。該語音辨識模組用以基於該第一影像辨識結果以及該至少一音訊資料，產生至少一語系辨識結果；並且還用以基於該第一影像辨識結果及該第二影像辨識結果，切割該至少一音訊資料，從而產生對應該至少一參與人的複數個音訊區段。並且，該語音辨識模組中之一發語者分群子模組，用以根據該至少一語系辨識結果，語音辨識該些音訊區段，以將該些音訊區段轉換成一文字內容。該翻譯模組包含一平行式多國語言翻譯子模組，其中，該平行式多國語言翻譯子模組用以根據該至少一語系辨識結果，翻譯該文字內容，使已翻譯的文字內容顯示於該至少一終端裝置。

10:多國語言語音辨識與翻譯系統

20:終端裝置

30:伺服器端

100:前端硬體

110:前端軟硬體管理模組

120:音訊預處理模組

130:視訊預處理模組

140:雲端資料庫服務模組

150:語音辨識模組

160:辨識校正模組

170:翻譯模組

101:麥克風

102:攝影機

103:視窗螢幕

111:麥克風控制子模組

112:攝影機控制子模組

113:雲端資料庫連線子模組

114:操作介面管理子模組

121:原始訊號處理子模組

122:語音特徵擷取子模組

123:語系辨識子模組

131:人數偵測子模組

132:距離偵測子模組

133:活動辨識子模組

134:唇形辨識子模組

135:人種辨識子模組

136:人臉辨識子模組

137:個人詞彙擷取子模組

141:個人專用字詞庫

142:語音辨識與翻譯資料庫

143:終端裝置媒體緩存子模組

151:音訊與視覺資料匹配子模組

152:發語者分群子模組

153:即時語音辨識子模組

161:字詞辨識修正子模組

162:第一更新控制子模組

171:平行式多國語言翻譯子模組

172:第二更新控制子模組

310~370:步驟

第1圖為本發明實施例之多國語言語音辨識與翻譯系統的簡化架構圖。

第2A圖~第2H圖繪示了本發明多國語言語音辨識與翻譯系統中的各個模組的詳細實施架構圖。

第3圖繪示了本發明實施例之多國語言語音辨識與翻譯方法的簡化流程圖。

針對前述所提到的同音詞與多語者環境的情況，本方法的處理機制如下。針對同音詞問題，本發明會在語音辨識階段開始前，對每個字詞進行語系辨識，從而縮小字詞的辨識範圍。如此一來，可減少不同語系之間的同音詞問題，提升語音辨識的效率與精確度。再者，針對多語者環境，本發明會進行多語者語音特徵自動分段標記。其中，在進行連續語音辨識的過程中，本發明會透過攝影機偵測發語者的數量，藉此對音訊內容進行語音特徵分群，並且在分群完成之後再進行辨識，從而提高辨識結果的可讀性。

請參考第1圖，該圖為本發明實施例之多國語言語音辨識與翻譯系統10的簡化架構圖。如圖所示，本發明的多國語言語音辨識與翻譯系統10包含：一終端裝置20以及一伺服器端30。終端裝置20包含一前端硬體100與一前端軟體管理模組110，而伺服器端30包含一音訊預處理模組120、一視訊預處理模組130、一雲端資料庫服務模組140、一語音辨識模組150、一辨識校正模組160以及一翻譯模組170。終端裝置20與伺服器端30可通過一個或多個有線/無線網線進行連接。

第2A圖~第2H圖則是進一步地繪示了構成前端硬體100、前端軟體管理模組110、音訊預處理模組120、視訊預處理模組130、雲端資料庫服務模組140、語音辨識模組150、辨識校正模組160、翻譯模組170中組成每一個模組的主要單元。

終端裝置20的前端軟硬體100包含：一個或多個麥克風101、一個或多個攝影機102以及一個或多個視窗螢幕103。其中，前端軟硬體100可能為會議中不同參與人所使用的電子裝置(，如：個人電腦、筆記型電腦、平板電腦、智慧型手機或嵌入式系統等)的集合。舉例來說，麥克風101可以是內嵌或是外接於上述電子裝置的收音裝置，攝影機102可以是內嵌或是外接於上述電子裝置的網路攝影機(webcam)，而視窗螢幕103則是包含上述電子裝置的螢幕與輸入裝置(如滑鼠、觸控板、鍵盤等)。在本發明部分實施例中，可能只有某些參與人的電子裝置具備麥克風101與攝影機102。然而，由於語音辨識與翻譯結果需要呈現給會議中的每個參與人，因此，在本發明的較佳實施例中，會議的所有參與人的電子裝置上都具備了視窗螢幕103，能即時看到會議畫面與參與人的語音內容。

前端軟體管理模組110用來管理在相同或者是不同電子裝置中的前端硬體100設置。舉例來說，設置在電子裝置A上的前端軟體管理模組110，可以透過無線或有線連線，分享麥克風101聲音或攝影機102畫面給電子裝置B。再者，前端軟體管理模組110包含：一麥克風控制子模組111、一攝影機控制子模組112、一雲端資料庫連線子模組113以及一操作介面管理子模組114。麥克風控制子模組111的作用在於啟動前端硬體100中的一個或多個麥克風101的錄音功能，並且根據當前場景(如，參與人的人數)決定最適當的錄音參數(如，取樣率等)，從而使一個或多個麥克風101進行音訊擷取，以產生音訊資料。攝影機控制子模組112的作用在於啟動前端硬體100中的一個或多個攝影機102的錄影功能，並且根據當前場景決定最適當的錄影參數，使一個或多個攝影機102進行視訊擷取，進而產生視訊資料。雲端資料庫連線子模組113的目的在於將前端硬體100中的一個或多個麥克風101所蒐集到的音訊資料、以及一個或多個攝影機102所蒐集到的視訊資料上傳至雲端資料庫服務模組140(例如，以串流的形式)。請注意，以上說明中，並未具體指定被啟動的麥克風101、攝影機102以及視窗螢幕103的數量，這是因為這與會議的形式有關。舉例來說，在一個遠端會議中，設置於不同地點的麥克風101、攝影機102以及視窗螢幕103可能都需要被使用，用來蒐集身處於不同地點的會議參與人的音訊與視訊資料，並且提供翻譯結果給每一個會議參與人，如此才能確保本發明的多國語言語音辨識與翻譯系統能正常運作。然而，當會議僅在一個地點進行，則僅需啟動較少的麥克風101、攝影機102以及視窗螢幕103，便可讓本發明的多國語言語音辨識與翻譯系統得以正常運作。

伺服器端30的音訊預處理模組120用於接收終端裝置20所產生的音訊資料。詳細地來說，音訊預處理模組120包含：一原始訊號處理子模組121、一語音特徵擷取子模組122以及一語系辨識子模組123。原始訊號處理子模組121用於處理從一個或多個麥克風101所蒐集到的原始音訊訊號(raw audio signal)，從而輸出音訊訊號。語音特徵擷取子模組122用以從音訊訊號中擷取出語音特徵資料。語系辨識子模組123用以將擷取出的語音特徵資料與已知的一語系辨識模型進行比對，從而對語音所屬的語系做出初步判斷。在一實施例中，語系辨識模型可透過對不同語系的語音進行深度學習(deep learning)方式習得。

視訊預處理模組130用於接收終端裝置20所產生的視訊資料，並具有發語者行為偵測功能以及發語者身分辨識功能。發語者行為偵測功能透過以下的子模組進行：一人數偵測子模組131、一距離偵測子模組132、一活動辨識子模組133以及一唇形辨識子模組134。人數偵測子模組131用以根據一個或多個攝影機102所蒐集到的視訊資料，辨識出會議參與人的數目。距離偵測子模組132用以根據視訊資料，判斷會議參與人與一個或多個麥克風101之間的距離。活動辨識子模組133用以根據一個或多個攝影機102所蒐集到的視訊資料，與已知的人體活動模型進行比對，從而辨識出會議參與人的活動(動作)。唇形辨識子模組134用以根據一個或多個攝影機102所蒐集到的視訊資料，辨識出發語者的唇部動作。

再者，發語者身分辨識功能主要透過以下的子模組進行：一人種辨識子模組135、一人臉辨識子模組136以及一個人詞彙擷取子模組137。人種辨識子模組135用以根據一個或多個攝影機102所蒐集到視訊資料，與已知的人種模型進行比對，從而辨識出每一個會議參與人的種族，其中，人種辨識子模組135可能根據會議參與人的膚色，以及臉型輪廓來判斷參與人的種族。人臉辨識子模組136根據一個或多個攝影機102所蒐集到的視訊資料，與已知的一人臉模型進行比對，從而辨識出會議參與人的身分，其中，若是人臉辨識子模組136辨識出會議參與人的身分(即，身份辨識成功)，那麼就可以直接確定該參與人所使用的語言，或者是取得該參與人最常使用的幾種的語言，並且略過本發明的部份辨識流程，而直接根據該會議參與人所使用或常用的語系來進行語音辨識以及翻譯。再者，個人詞彙擷取子模組137根據人臉辨識子模組136辨識出的會議參與人身分，從雲端資料庫服務模組140擷取個人的專屬字詞庫(若存在於雲端資料庫服務模組140中)。若是人臉辨識子模組136無法辨識出會議參與人的身分(即，身份辨識失敗)，雲端資料庫服務模組140則為該會議參與人建立一新的個人專屬用字詞庫。

因此，透過人數偵測子模組131所辨識出的會議參與人的數目，以及透過人種辨識子模組135所辨識出的會議參與人的種族，視訊預處理模組130可以產生第一影像辨識結果。

再者，透過距離偵測子模組132所辨識出的會議參與人與麥克風之間的距離、活動辨識子模組133所辨識出的會議參與人的肢體動作以及唇形辨識子模組134所辨識出的會議參與人的臉部動作，可以得到第二影像辨識結果。需注意的是，在本發明不同實施例中，第一影像辨識結果以及第二影像結果可在辨識視訊資料時同時產生，或不同時產生，這些時間順序的變化並非本發明的限制。

語音辨識模組包含150：一音訊與視覺資料匹配子模組151、一發語者分群子模組152以及即時語音辨識子模組153。音訊與視覺資料匹配子模組151用以將語系辨識子模組123所產生的初步語系辨識結果，與視訊預處理模組130中的子模組所產生的辨識結果(例如，第一影像辨識結果)進行匹配，從而產生正確的語系辨識結果。其中，音訊與視覺資料匹配子模組151根據人種辨識子模組135所辨識出的會議參與人的人種資訊，與初步語系辨識結果進行匹配，從而產生正確的語系辨識結果。若該初步判斷結果以及第一影像辨識結果不符時，則依據初步判斷結果判斷。舉例來說，影像辨識結果判斷其中一參與人的種族為亞洲人種，但是音訊資料的初步判斷結果為英語，則語系辨識結果會依初步判斷結果為主。再者，發語者分群子模組152用以產生對應於音訊資料之一分群結果，該分群結果將音訊資料分作為多個音訊區段。其中，發語者分群子模組152根據前述的第一影像辨識結果以及第二影像辨識結果，將音訊資料的語音部分進行分段，得到對應於每個會議參與人的音訊區段。即時語音辨識子模組153則是根據語系辨識結果將該些音訊區段轉換成文字內容(亦即將語音轉換為具體文字)。

詳細來說，本發明綜合參考距離偵測子模組132所辨識出的會議參與人與麥克風之間的距離、活動辨識子模組133所辨識出的會議參與人的肢體動作、以及唇形辨識子模組134所辨識出的會議參與人的臉部動作，判斷會議的某個參與人是否進行發言，並且與音訊資料中的語音進行匹配，以及確認每個參與人每次發言的起始點以及結束點。如此一來，便可將音訊資料分割為多個音訊區段。之後，根據該語系辨識結果，便可將每一個音訊區段轉換成對應於該語系辨識結果所指出之語言的文字內容。

在本發明實施例中，雲端資料庫服務模組140包含：一個人專用字詞庫141、一語音辨識與翻譯資料庫142以及一終端裝置媒體緩存子模組143。個人專用字詞庫141用以儲存各使用者的個人專屬字詞。需注意的是，此處的使用者不一定等同於會議的參與人。語音辨識與翻譯資料庫142用以保存經由深度學習所產生的翻譯模型。終端裝置媒體緩存子模組143用以緩存由雲端資料庫連線子模組113所上傳的音訊資料與視訊資料，並且將音訊資料與視訊資料提供給音訊預處理模組120、視訊預處理模組130以及雲端資料庫服務模組140中的子模組進行相關處理。

在本發明實施例中，辨識校正模組160包含：一字詞辨識修正子模組161以及一第一更新控制子模組162。字詞辨識修正子模組161可針對即時語音辨識子模組153所得到的文字內容，根據一參考字詞庫(未繪示於圖中)判斷並且修正文字內容中的不合理字詞。第一更新控制子模組162用以根據字詞辨識修正子模組161的修正內容，要求個人專用字詞庫141更新其內容。

在本發明實施例中，翻譯模組170包含：一平行式多國語言翻譯子模組171以及一第二更新控制子模組172。平行式多國語言翻譯子模組171根據語音辨識與翻譯資料庫142中所儲存的翻譯模型，對經過字詞辨識修正子模組161所修正的文字內容，進行多國語言翻譯。第二更新控制子模組172則可用以控制語音辨識與翻譯資料庫142，要求針對已翻譯的文字內容，進行學習，並更新翻譯模型，如此一來便可以透過反覆的學習過程，提高翻譯的準確性。另外，第二更新控制子模組172亦可基於使用者所反饋的內容，要求語音辨識與翻譯資料庫142修正其翻譯模型。

針對上述多國語言語音辨識與翻譯系統10的操作可歸納成一多國語言語音辨識與翻譯方法。第3圖繪示了本發明實施例之多國語言語音辨識與翻譯方法的簡化流程圖。其中，該流程至少包含有以下步驟：

步驟310：於伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料。

步驟320：辨識至少一視訊資料，以產生第一影像辨識結果以及第二影像辨識結果，第一影像辨識結果包含至少一參與人的數目及至少一參與人的種族，第二影像辨識結果包含至少一參與人於說話時的肢體動作及臉部動作。

步驟330：基於第一影像辨識結果及音訊資料，產生至少一語系辨識結果。

步驟340：基於第一影像辨識結果及第二影像辨識結果，切割至少一音訊資料，從而產生對應至少一參與人的複數個音訊區段。

步驟350：根據至少一語系辨識結果，語音辨識複數個音訊區段，以將複數個音訊區段轉換成文字內容。

步驟360：根據至少一語系辨識結果，翻譯文字內容。

步驟370：傳送已翻譯的文字內容使其顯示於至少一終端裝置。

請注意，在其他實施例中，本發明的多國語言語音辨識與翻譯方法的流程並不僅限定於以上所述的步驟以及順序。根據先前段落中，針對本發明的多國語言語音辨識與翻譯系統的說明內容可知，本發明的多國語言語音辨識與翻譯方法可能還包含更多的步驟，用來提升語音辨識與翻譯的效果。然為求說明書之簡潔，此處僅列出與本案核心精神相關，且與解決先前技術所面臨的技術問題有直接關聯的步驟。本發明所屬領域之技術人士，應可在深度理解本說明書之揭露內容後，對於本發明的多國語言語音辨識與翻譯方法的流程有更充分的理解與應用。

總結來說，本發明透過分析會議參與人的臉部特徵，從而辨識出會議參與人的種族資訊及其所用的語言，進而得到更準確的語系辨識結果，從而解決同音詞的問題。另一方面，本發明也分析會議參與人的活動資訊，例如與麥克風的距離，肢體活動，以及唇部動作，從而判斷出發語者的數量以及每位發語者發言的時機，並且結合對聲音特徵的分析，進而判斷出每一段語音是由哪一位會議參與人所發出，以精確地對發語者特徵進行分群，從而解決多語者環境的問題。透過以上的技巧，本發明有效地提升了高語音辨識的準確度。由於改善了語音辨識的準確度，連帶地提高了翻譯的準確度。如此一來，本發明的多國語言語音辨識與翻譯系統以及方法便可在涉及多國語言的會議中，提供高效率與高品質的語音辨識與翻譯功能。

本發明之實施例可使用硬體、軟體、韌體以及其相關結合來完成。藉由適當之一指令執行系統，可使用儲存於一記憶體中之軟體或韌體來實作本發明的實施例。就硬體而言，則是可應用下列任一技術或其相關結合來完成：具有可根據資料信號執行邏輯功能之邏輯閘的一個別運算邏輯、具有合適的組合邏輯閘之一特定應用積體電路(application specific integrated circuit,ASIC)、可程式閘陣列(programmable gate array,PGA)或一現場可程式閘陣列(field programmable gate array,FPGA)等。

說明書內的流程圖中的流程和方塊示出了基於本發明的各種實施例的系統、方法和電腦軟體產品所能實現的架構，功能和操作。在這方面，流程圖或功能方塊圖中的每個方塊可以代表程式碼的模組，區段或者是部分，其包括用於實現指定的邏輯功能的一個或多個可執行指令。另外，功能方塊圖以及/或流程圖中的每個方塊，以及方塊的組合，基本上可以由執行指定功能或動作的專用硬體系統來實現，或專用硬體和電腦程式指令的組合來實現。這些電腦程式指令還可以存儲在電腦可讀媒體中，該媒體可以使電腦或其他可編程數據處理裝置以特定方式工作，使得存儲在電腦可讀媒體中的指令，實現流程圖以及/或功能方塊圖中的方塊所指定的功能/動作。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

310~370:流程

Claims

一種用於會議中的多國語言語音辨識與翻譯方法，該會議包含至少一參與人，該方法包含：於一伺服器端接收至少一終端裝置於該會議中擷取的該至少一參與人的至少一音訊資料與至少一視訊資料；從該至少一音訊資料中擷取出語音特徵資料；以及根據該擷取出的語音特徵資料與一語系辨識模型進行比對，產生一初步判斷結果；辨識該至少一視訊資料，以產生一第一影像辨識結果以及一第二影像辨識結果，該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作；基於該第一影像辨識結果以及該至少一音訊資料，產生至少一語系辨識結果，包含：根據該初步判斷結果以及該第一影像辨識結果，判斷該至少一音訊資料中包含的至少一語系，若該初步判斷結果以及該第一影像辨識結果不符時，依據該初步判斷結果判斷；基於該第一影像辨識結果及該第二影像辨識結果，切割該至少一音訊資料，從而產生對應該至少一參與人的複數個音訊區段；根據該至少一語系辨識結果，語音辨識該些音訊區段，將該些音訊區段轉換成一文字內容；根據該至少一語系辨識結果，翻譯該文字內容；以及傳送該已翻譯的文字內容使其顯示於該至少一終端裝置。
如請求項1所述的方法，其中切割該至少一音訊資料，從而產生對應該至少一參與人的該些音訊區段的步驟包含：根據該第二影像辨識結果中該至少一參與人於說話時的臉部動作，決定該至少一參與人每次發言的一時間起始點以及一時間結束點，從而得到該些音訊區段。
如請求項1所述的方法，另包含：根據該視訊資料，對該至少一參與人進行身份辨識；當身份辨識成功時，從一雲端資料庫服務模組中存取該至少一參與人相關的一個人專屬用字詞庫，以及根據該個人專用字詞庫，提高與改善該至少一參與人的語音辨識結果與該翻譯結果；以及當身份辨識失敗時，為該至少一參與人建立一新個人專屬用字詞庫。
如請求項3所述的方法，另包含：根據該至少一參與人之一使用者反饋，修改該個人專屬用字詞庫。
如請求項1所述的方法，另包含：根據該至少一視訊資料中該至少一參與人與一麥克風的距離，判斷至少一發語者的數量以及各該發語者發言的時間，以產生該第二影像辨識結果；以及根據該第二影像辨識結果，從而得到該複數個音訊區段。
如請求項1所述的方法，另包含：根據一參考字詞庫，校正該文字內容。
一種用於一會議中的伺服器端，該會議包含至少一參與人，該伺服器端包含：一音訊預處理模組，用於接收至少一終端裝置所產生的至少一音訊資料，包含：一語音特徵擷取子模組，用以從該至少一音訊資料中擷取出語音特徵資料；以及一語系辨識子模組，用以根據該擷取出的語音特徵資料與一語系辨識模型進行比對，產生一初步判斷結果；一視訊預處理模組，用於接收該至少一終端裝置所產生的至少一視訊資料，根據終端裝置該至少一視訊資料產生一第一影像辨識結果與一第二影像辨識結果，該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族，以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作；一語音辨識模組，用以基於該第一影像辨識結果，辨識該至少一終端裝置所傳送之至少一音訊資料，以產生對應於該至少一參與人的數目及該至少一參與人的種族之至少一語系辨識結果，其中，該語音辨識模組包含一音訊與視覺資料匹配子模組，該音訊與視覺資料匹配子模組用以根據該初步判斷結果以及該第一影像辨識結果判斷該至少一音訊資料中包含的至少一語系，當該初步判斷結果以及該第一影像辨識結果不符時，依據該初步判斷結果判斷；並且用以基於該第一影像辨識結果、該第二影像辨識結果及該至少一語系辨識結果，切割該至少一音訊資料，從而產生對應該至少一參與人的複數個音訊區段，該語音辨識模組包含一即時語音辨識子模組，其用以根據該至少一語系辨識結果，語音辨識該些音訊區段，將該些音訊區段轉換成一文字內容；以及一翻譯模組，包含一平行式多國語言翻譯子模組，該平行式多國語言翻譯子模組用以根據該至少一語系辨視結果，翻譯該文字內容，傳送已翻譯的文字內容，使其顯示於該至少一終端裝置。
如請求項7所述的伺服器端，其中該視訊預處理模組另包含一人數偵測子模組以及一人種辨識子模組，該人數偵測子模組用以根據該視訊資料辨識該至少一參與人的數目，以及該人種辨識子模組用以根據該視訊資料辨識該至少一參與人的種族。
如請求項7所述的伺服器端，其中該語音辨識模組另包含一發語者分群子模組，用以根據該第二影像辨識結果中該至少一參與人於說話時的臉部動作，決定該至少一參與人每次發言的一時間起始點以及一時間結束點，從而得到該些音訊區段。
如請求項7所述的伺服器端，其中該視訊預處理模組另包含：一人臉辨識組模組，用以根據該視訊資料，對參與人進行身分辨識；該語音辨識模組另包含一個人詞彙擷取子模組，用以當身份辨識成功時存取該至少一參與人相關的一個人專屬字詞庫，以及該平行式多國語言翻譯子模組根據該個人專屬字詞庫，產生該翻譯結果。
如請求項10所述的伺服器端，其中另包含一雲端資料庫服務模組，用以建立該至少一參與人相關的該個人專屬字詞庫，當身份辨識失敗時，該雲端資料庫服務模組為該至少一參與人建立一新個人專屬用字詞庫。
如請求項10所述的伺服器端，其中該系統包含一更新控制子模組，用以根據該至少一參與人之使用者反饋，修改該個人專屬用字詞庫。
如請求項7所述的伺服器端，其中該視訊預處理模組包含：一活動辨識子模組，用以根據該視訊資料，辨識該至少一參與人的肢體動作；以及一唇形辨識子模組，用以根據該視訊資料，辨識該至少一參與人的臉部動作。
如請求項13所述的伺服器端，其中該視訊預處理模組包含：一距離偵測子模組，用以根據該至少一視訊資料中該至少一參與人與麥克風的距離，判斷至少一發語者的數量以及各該發語者發言的時間，以產生該第二影像辨識結果以及該發語者分群子模組還根據該第二影像辨識結果，從而得到該複數個音訊區段。
如請求項7所述的伺服器端，另包含：一字詞辨識修正子模組，用以根據一參考字詞庫，校正該文字內容。