TWI769520B - 多國語言語音辨識及翻譯方法與相關的系統 - Google Patents

多國語言語音辨識及翻譯方法與相關的系統 Download PDF

Info

Publication number
TWI769520B
TWI769520B TW109130562A TW109130562A TWI769520B TW I769520 B TWI769520 B TW I769520B TW 109130562 A TW109130562 A TW 109130562A TW 109130562 A TW109130562 A TW 109130562A TW I769520 B TWI769520 B TW I769520B
Authority
TW
Taiwan
Prior art keywords
module
participant
recognition result
image recognition
language
Prior art date
Application number
TW109130562A
Other languages
English (en)
Other versions
TW202211077A (zh
Inventor
吳岳桐
李竣穎
Original Assignee
和碩聯合科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 和碩聯合科技股份有限公司 filed Critical 和碩聯合科技股份有限公司
Priority to TW109130562A priority Critical patent/TWI769520B/zh
Priority to US17/394,593 priority patent/US11881224B2/en
Priority to CN202110980746.3A priority patent/CN114239610A/zh
Publication of TW202211077A publication Critical patent/TW202211077A/zh
Application granted granted Critical
Publication of TWI769520B publication Critical patent/TWI769520B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60TVEHICLE BRAKE CONTROL SYSTEMS OR PARTS THEREOF; BRAKE CONTROL SYSTEMS OR PARTS THEREOF, IN GENERAL; ARRANGEMENT OF BRAKING ELEMENTS ON VEHICLES IN GENERAL; PORTABLE DEVICES FOR PREVENTING UNWANTED MOVEMENT OF VEHICLES; VEHICLE MODIFICATIONS TO FACILITATE COOLING OF BRAKES
    • B60T7/00Brake-action initiating means
    • B60T7/12Brake-action initiating means for automatic initiation; for initiation not subject to will of driver or passenger
    • B60T7/22Brake-action initiating means for automatic initiation; for initiation not subject to will of driver or passenger initiated by contact of vehicle, e.g. bumper, with an external object, e.g. another vehicle, or by means of contactless obstacle detectors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本發明提供一種用於會議中的多國語言語音辨識與翻譯方法。該會議包含至少一參與人,並且該方法包含:於一伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料;辨識該至少一視訊資料,產生關於該至少一參與人的數目、該至少一參與人的種族、至少一參與人於說話時的肢體動作及臉部動作的影像辨識結果;根據該影像辨識結果以及至少一音訊資料產生至少一語系辨識結果以及據此得到對應該至少一參與人的複數個音訊區段;對該些音訊區段進行語音辨識以及翻譯;以及將該翻譯結果顯示於至少一終端裝置上。

Description

多國語言語音辨識及翻譯方法與相關的系統
本發明係關於語音辨識與翻譯技術,尤指一種參考視訊資料進行多國語言語音辨識與翻譯的方法以及相關系統。
在涉及多國語言的會議中,語音辨識與翻譯系統被用來針對不同發語者的談話內容,進行即時的語音辨識以及翻譯,從而讓會議更流暢地進行。這種系統同時整合了自動化的語系辨識、語音辨識以及語言翻譯等技術。
現有的多國語言語音辨識與翻譯技術,大多是透過語音辨識技術把語音轉成文字,再針對文字進行翻譯。因此,語音辨識的準確度便會影響翻譯結果的正確性。
有鑑於以上的問題,本發明提出一種創新的多國語言即時語音辨識與翻譯方法及系統,可有效地解決習知技術無法妥善處理的同音詞以及多語者環境等情況。其中,本發明利用會議現場的視訊資料,對會議參與人進行多種狀態的判斷,以結合同音詞以及多語者環境的辨識模型,在語音辨識的階段中,釐清同音詞以及多語者環境,提升語音辨識的準確度。
本發明之一實施例提供一種用於會議中的多國語言語音辨識與翻譯方法。該會議包含至少一參與人,並且該方法包含:於一伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料;辨識該至少一視訊資料,以產生一第一影像辨識結果以及一第二影像辨識結果,該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作;基於該第一影像辨識結果以及該至少一音訊資料,產生至少一語系辨識結果;基於該第一影像辨識結果及該第二影像辨識結果,切割該至少一音訊資料,從而產生對應該至少一參與人的複數個音訊區段;根據該至少一語系辨識結果,語音辨識該些音訊區段,將該些音訊區段轉換成一文字內容;根據該至少一語系辨識結果,翻譯該文字內容;以及顯示該已翻譯的文字內容於該至少一終端裝置上。
本發明提供一種用於一會議中的伺服器端。該會議包含至少一參與人。該伺服器端包含:一視訊預處理模組、一語音辨識模組以及一翻譯模組。該視訊預處理模組用於根據至少一終端裝置所傳送之至少一視訊資料產生一第一影像辨識結果與一第二影像辨識結果。其中該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族,以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作。該語音辨識模組用以基於該第一影像辨識結果以及該至少一音訊資料,產生至少一語系辨識結果;並且還用以基於該第一影像辨識結果及該第二影像辨識結果,切割該至少一音訊資料,從而產生對應該至少一參與人的複數個音訊區段。並且,該語音辨識模組中之一發語者分群子模組,用以根據該至少一語系辨識結果,語音辨識該些音訊區段,以將該些音訊區段轉換成一文字內容。該翻譯模組包含一平行式多國語言翻譯 子模組,其中,該平行式多國語言翻譯子模組用以根據該至少一語系辨識結果,翻譯該文字內容,使已翻譯的文字內容顯示於該至少一終端裝置。
10:多國語言語音辨識與翻譯系統
20:終端裝置
30:伺服器端
100:前端硬體
110:前端軟硬體管理模組
120:音訊預處理模組
130:視訊預處理模組
140:雲端資料庫服務模組
150:語音辨識模組
160:辨識校正模組
170:翻譯模組
101:麥克風
102:攝影機
103:視窗螢幕
111:麥克風控制子模組
112:攝影機控制子模組
113:雲端資料庫連線子模組
114:操作介面管理子模組
121:原始訊號處理子模組
122:語音特徵擷取子模組
123:語系辨識子模組
131:人數偵測子模組
132:距離偵測子模組
133:活動辨識子模組
134:唇形辨識子模組
135:人種辨識子模組
136:人臉辨識子模組
137:個人詞彙擷取子模組
141:個人專用字詞庫
142:語音辨識與翻譯資料庫
143:終端裝置媒體緩存子模組
151:音訊與視覺資料匹配子模組
152:發語者分群子模組
153:即時語音辨識子模組
161:字詞辨識修正子模組
162:第一更新控制子模組
171:平行式多國語言翻譯子模組
172:第二更新控制子模組
310~370:步驟
第1圖為本發明實施例之多國語言語音辨識與翻譯系統的簡化架構圖。
第2A圖~第2H圖繪示了本發明多國語言語音辨識與翻譯系統中的各個模組的詳細實施架構圖。
第3圖繪示了本發明實施例之多國語言語音辨識與翻譯方法的簡化流程圖。
針對前述所提到的同音詞與多語者環境的情況,本方法的處理機制如下。針對同音詞問題,本發明會在語音辨識階段開始前,對每個字詞進行語系辨識,從而縮小字詞的辨識範圍。如此一來,可減少不同語系之間的同音詞問題,提升語音辨識的效率與精確度。再者,針對多語者環境,本發明會進行多語者語音特徵自動分段標記。其中,在進行連續語音辨識的過程中,本發明會透過攝影機偵測發語者的數量,藉此對音訊內容進行語音特徵分群,並且在分群完成之後再進行辨識,從而提高辨識結果的可讀性。
請參考第1圖,該圖為本發明實施例之多國語言語音辨識與翻譯系統10的簡化架構圖。如圖所示,本發明的多國語言語音辨識與翻譯系統10包含:一終端裝置20以及一伺服器端30。終端裝置20包含一前端硬體100與一前端軟體管理模組110,而伺服器端30包含一音訊預處理模組120、一視訊預處理模組130、一雲端資料庫服務模組140、一語音辨識模組150、一辨識校正模組160以 及一翻譯模組170。終端裝置20與伺服器端30可通過一個或多個有線/無線網線進行連接。
第2A圖~第2H圖則是進一步地繪示了構成前端硬體100、前端軟體管理模組110、音訊預處理模組120、視訊預處理模組130、雲端資料庫服務模組140、語音辨識模組150、辨識校正模組160、翻譯模組170中組成每一個模組的主要單元。
終端裝置20的前端軟硬體100包含:一個或多個麥克風101、一個或多個攝影機102以及一個或多個視窗螢幕103。其中,前端軟硬體100可能為會議中不同參與人所使用的電子裝置(,如:個人電腦、筆記型電腦、平板電腦、智慧型手機或嵌入式系統等)的集合。舉例來說,麥克風101可以是內嵌或是外接於上述電子裝置的收音裝置,攝影機102可以是內嵌或是外接於上述電子裝置的網路攝影機(webcam),而視窗螢幕103則是包含上述電子裝置的螢幕與輸入裝置(如滑鼠、觸控板、鍵盤等)。在本發明部分實施例中,可能只有某些參與人的電子裝置具備麥克風101與攝影機102。然而,由於語音辨識與翻譯結果需要呈現給會議中的每個參與人,因此,在本發明的較佳實施例中,會議的所有參與人的電子裝置上都具備了視窗螢幕103,能即時看到會議畫面與參與人的語音內容。
前端軟體管理模組110用來管理在相同或者是不同電子裝置中的前端硬體100設置。舉例來說,設置在電子裝置A上的前端軟體管理模組110,可以透過無線或有線連線,分享麥克風101聲音或攝影機102畫面給電子裝置B。再者,前端軟體管理模組110包含:一麥克風控制子模組111、一攝影機控制子模組112、一雲端資料庫連線子模組113以及一操作介面管理子模組114。麥克風控制 子模組111的作用在於啟動前端硬體100中的一個或多個麥克風101的錄音功能,並且根據當前場景(如,參與人的人數)決定最適當的錄音參數(如,取樣率等),從而使一個或多個麥克風101進行音訊擷取,以產生音訊資料。攝影機控制子模組112的作用在於啟動前端硬體100中的一個或多個攝影機102的錄影功能,並且根據當前場景決定最適當的錄影參數,使一個或多個攝影機102進行視訊擷取,進而產生視訊資料。雲端資料庫連線子模組113的目的在於將前端硬體100中的一個或多個麥克風101所蒐集到的音訊資料、以及一個或多個攝影機102所蒐集到的視訊資料上傳至雲端資料庫服務模組140(例如,以串流的形式)。請注意,以上說明中,並未具體指定被啟動的麥克風101、攝影機102以及視窗螢幕103的數量,這是因為這與會議的形式有關。舉例來說,在一個遠端會議中,設置於不同地點的麥克風101、攝影機102以及視窗螢幕103可能都需要被使用,用來蒐集身處於不同地點的會議參與人的音訊與視訊資料,並且提供翻譯結果給每一個會議參與人,如此才能確保本發明的多國語言語音辨識與翻譯系統能正常運作。然而,當會議僅在一個地點進行,則僅需啟動較少的麥克風101、攝影機102以及視窗螢幕103,便可讓本發明的多國語言語音辨識與翻譯系統得以正常運作。
伺服器端30的音訊預處理模組120用於接收終端裝置20所產生的音訊資料。詳細地來說,音訊預處理模組120包含:一原始訊號處理子模組121、一語音特徵擷取子模組122以及一語系辨識子模組123。原始訊號處理子模組121用於處理從一個或多個麥克風101所蒐集到的原始音訊訊號(raw audio signal),從而輸出音訊訊號。語音特徵擷取子模組122用以從音訊訊號中擷取出語音特徵資料。語系辨識子模組123用以將擷取出的語音特徵資料與已知的一語系辨識模型進行比對,從而對語音所屬的語系做出初步判斷。在一實施例中,語系辨識模 型可透過對不同語系的語音進行深度學習(deep learning)方式習得。
視訊預處理模組130用於接收終端裝置20所產生的視訊資料,並具有發語者行為偵測功能以及發語者身分辨識功能。發語者行為偵測功能透過以下的子模組進行:一人數偵測子模組131、一距離偵測子模組132、一活動辨識子模組133以及一唇形辨識子模組134。人數偵測子模組131用以根據一個或多個攝影機102所蒐集到的視訊資料,辨識出會議參與人的數目。距離偵測子模組132用以根據視訊資料,判斷會議參與人與一個或多個麥克風101之間的距離。活動辨識子模組133用以根據一個或多個攝影機102所蒐集到的視訊資料,與已知的人體活動模型進行比對,從而辨識出會議參與人的活動(動作)。唇形辨識子模組134用以根據一個或多個攝影機102所蒐集到的視訊資料,辨識出發語者的唇部動作。
再者,發語者身分辨識功能主要透過以下的子模組進行:一人種辨識子模組135、一人臉辨識子模組136以及一個人詞彙擷取子模組137。人種辨識子模組135用以根據一個或多個攝影機102所蒐集到視訊資料,與已知的人種模型進行比對,從而辨識出每一個會議參與人的種族,其中,人種辨識子模組135可能根據會議參與人的膚色,以及臉型輪廓來判斷參與人的種族。人臉辨識子模組136根據一個或多個攝影機102所蒐集到的視訊資料,與已知的一人臉模型進行比對,從而辨識出會議參與人的身分,其中,若是人臉辨識子模組136辨識出會議參與人的身分(即,身份辨識成功),那麼就可以直接確定該參與人所使用的語言,或者是取得該參與人最常使用的幾種的語言,並且略過本發明的部份辨識流程,而直接根據該會議參與人所使用或常用的語系來進行語音辨識以及翻譯。再者,個人詞彙擷取子模組137根據人臉辨識子模組136辨識出的會議參 與人身分,從雲端資料庫服務模組140擷取個人的專屬字詞庫(若存在於雲端資料庫服務模組140中)。若是人臉辨識子模組136無法辨識出會議參與人的身分(即,身份辨識失敗),雲端資料庫服務模組140則為該會議參與人建立一新的個人專屬用字詞庫。
因此,透過人數偵測子模組131所辨識出的會議參與人的數目,以及透過人種辨識子模組135所辨識出的會議參與人的種族,視訊預處理模組130可以產生第一影像辨識結果。
再者,透過距離偵測子模組132所辨識出的會議參與人與麥克風之間的距離、活動辨識子模組133所辨識出的會議參與人的肢體動作以及唇形辨識子模組134所辨識出的會議參與人的臉部動作,可以得到第二影像辨識結果。需注意的是,在本發明不同實施例中,第一影像辨識結果以及第二影像結果可在辨識視訊資料時同時產生,或不同時產生,這些時間順序的變化並非本發明的限制。
語音辨識模組包含150:一音訊與視覺資料匹配子模組151、一發語者分群子模組152以及即時語音辨識子模組153。音訊與視覺資料匹配子模組151用以將語系辨識子模組123所產生的初步語系辨識結果,與視訊預處理模組130中的子模組所產生的辨識結果(例如,第一影像辨識結果)進行匹配,從而產生正確的語系辨識結果。其中,音訊與視覺資料匹配子模組151根據人種辨識子模組135所辨識出的會議參與人的人種資訊,與初步語系辨識結果進行匹配,從而產生正確的語系辨識結果。若該初步判斷結果以及第一影像辨識結果不符時,則依據初步判斷結果判斷。舉例來說,影像辨識結果判斷其中一參與人的 種族為亞洲人種,但是音訊資料的初步判斷結果為英語,則語系辨識結果會依初步判斷結果為主。再者,發語者分群子模組152用以產生對應於音訊資料之一分群結果,該分群結果將音訊資料分作為多個音訊區段。其中,發語者分群子模組152根據前述的第一影像辨識結果以及第二影像辨識結果,將音訊資料的語音部分進行分段,得到對應於每個會議參與人的音訊區段。即時語音辨識子模組153則是根據語系辨識結果將該些音訊區段轉換成文字內容(亦即將語音轉換為具體文字)。
詳細來說,本發明綜合參考距離偵測子模組132所辨識出的會議參與人與麥克風之間的距離、活動辨識子模組133所辨識出的會議參與人的肢體動作、以及唇形辨識子模組134所辨識出的會議參與人的臉部動作,判斷會議的某個參與人是否進行發言,並且與音訊資料中的語音進行匹配,以及確認每個參與人每次發言的起始點以及結束點。如此一來,便可將音訊資料分割為多個音訊區段。之後,根據該語系辨識結果,便可將每一個音訊區段轉換成對應於該語系辨識結果所指出之語言的文字內容。
在本發明實施例中,雲端資料庫服務模組140包含:一個人專用字詞庫141、一語音辨識與翻譯資料庫142以及一終端裝置媒體緩存子模組143。個人專用字詞庫141用以儲存各使用者的個人專屬字詞。需注意的是,此處的使用者不一定等同於會議的參與人。語音辨識與翻譯資料庫142用以保存經由深度學習所產生的翻譯模型。終端裝置媒體緩存子模組143用以緩存由雲端資料庫連線子模組113所上傳的音訊資料與視訊資料,並且將音訊資料與視訊資料提供給音訊預處理模組120、視訊預處理模組130以及雲端資料庫服務模組140中的子模組進行相關處理。
在本發明實施例中,辨識校正模組160包含:一字詞辨識修正子模組161以及一第一更新控制子模組162。字詞辨識修正子模組161可針對即時語音辨識子模組153所得到的文字內容,根據一參考字詞庫(未繪示於圖中)判斷並且修正文字內容中的不合理字詞。第一更新控制子模組162用以根據字詞辨識修正子模組161的修正內容,要求個人專用字詞庫141更新其內容。
在本發明實施例中,翻譯模組170包含:一平行式多國語言翻譯子模組171以及一第二更新控制子模組172。平行式多國語言翻譯子模組171根據語音辨識與翻譯資料庫142中所儲存的翻譯模型,對經過字詞辨識修正子模組161所修正的文字內容,進行多國語言翻譯。第二更新控制子模組172則可用以控制語音辨識與翻譯資料庫142,要求針對已翻譯的文字內容,進行學習,並更新翻譯模型,如此一來便可以透過反覆的學習過程,提高翻譯的準確性。另外,第二更新控制子模組172亦可基於使用者所反饋的內容,要求語音辨識與翻譯資料庫142修正其翻譯模型。
針對上述多國語言語音辨識與翻譯系統10的操作可歸納成一多國語言語音辨識與翻譯方法。第3圖繪示了本發明實施例之多國語言語音辨識與翻譯方法的簡化流程圖。其中,該流程至少包含有以下步驟:
步驟310:於伺服器端接收至少一終端裝置所產生的至少一音訊資料與至少一視訊資料。
步驟320:辨識至少一視訊資料,以產生第一影像辨識結果以及第二影像辨識結果,第一影像辨識結果包含至少一參與人的數目及至少一參與人的 種族,第二影像辨識結果包含至少一參與人於說話時的肢體動作及臉部動作。
步驟330:基於第一影像辨識結果及音訊資料,產生至少一語系辨識結果。
步驟340:基於第一影像辨識結果及第二影像辨識結果,切割至少一音訊資料,從而產生對應至少一參與人的複數個音訊區段。
步驟350:根據至少一語系辨識結果,語音辨識複數個音訊區段,以將複數個音訊區段轉換成文字內容。
步驟360:根據至少一語系辨識結果,翻譯文字內容。
步驟370:傳送已翻譯的文字內容使其顯示於至少一終端裝置。
請注意,在其他實施例中,本發明的多國語言語音辨識與翻譯方法的流程並不僅限定於以上所述的步驟以及順序。根據先前段落中,針對本發明的多國語言語音辨識與翻譯系統的說明內容可知,本發明的多國語言語音辨識與翻譯方法可能還包含更多的步驟,用來提升語音辨識與翻譯的效果。然為求說明書之簡潔,此處僅列出與本案核心精神相關,且與解決先前技術所面臨的技術問題有直接關聯的步驟。本發明所屬領域之技術人士,應可在深度理解本說明書之揭露內容後,對於本發明的多國語言語音辨識與翻譯方法的流程有更充分的理解與應用。
總結來說,本發明透過分析會議參與人的臉部特徵,從而辨識出會議參與人的種族資訊及其所用的語言,進而得到更準確的語系辨識結果,從而解決同音詞的問題。另一方面,本發明也分析會議參與人的活動資訊,例如與麥克風的距離,肢體活動,以及唇部動作,從而判斷出發語者的數量以及每位發語者發言的時機,並且結合對聲音特徵的分析,進而判斷出每一段語音是由 哪一位會議參與人所發出,以精確地對發語者特徵進行分群,從而解決多語者環境的問題。透過以上的技巧,本發明有效地提升了高語音辨識的準確度。由於改善了語音辨識的準確度,連帶地提高了翻譯的準確度。如此一來,本發明的多國語言語音辨識與翻譯系統以及方法便可在涉及多國語言的會議中,提供高效率與高品質的語音辨識與翻譯功能。
本發明之實施例可使用硬體、軟體、韌體以及其相關結合來完成。藉由適當之一指令執行系統,可使用儲存於一記憶體中之軟體或韌體來實作本發明的實施例。就硬體而言,則是可應用下列任一技術或其相關結合來完成:具有可根據資料信號執行邏輯功能之邏輯閘的一個別運算邏輯、具有合適的組合邏輯閘之一特定應用積體電路(application specific integrated circuit,ASIC)、可程式閘陣列(programmable gate array,PGA)或一現場可程式閘陣列(field programmable gate array,FPGA)等。
說明書內的流程圖中的流程和方塊示出了基於本發明的各種實施例的系統、方法和電腦軟體產品所能實現的架構,功能和操作。在這方面,流程圖或功能方塊圖中的每個方塊可以代表程式碼的模組,區段或者是部分,其包括用於實現指定的邏輯功能的一個或多個可執行指令。另外,功能方塊圖以及/或流程圖中的每個方塊,以及方塊的組合,基本上可以由執行指定功能或動作的專用硬體系統來實現,或專用硬體和電腦程式指令的組合來實現。這些電腦程式指令還可以存儲在電腦可讀媒體中,該媒體可以使電腦或其他可編程數據處理裝置以特定方式工作,使得存儲在電腦可讀媒體中的指令,實現流程圖以及/或功能方塊圖中的方塊所指定的功能/動作。 以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
310~370:流程

Claims (15)

  1. 一種用於會議中的多國語言語音辨識與翻譯方法,該會議包含至少一參與人,該方法包含:於一伺服器端接收至少一終端裝置於該會議中擷取的該至少一參與人的至少一音訊資料與至少一視訊資料;從該至少一音訊資料中擷取出語音特徵資料;以及根據該擷取出的語音特徵資料與一語系辨識模型進行比對,產生一初步判斷結果;辨識該至少一視訊資料,以產生一第一影像辨識結果以及一第二影像辨識結果,該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作;基於該第一影像辨識結果以及該至少一音訊資料,產生至少一語系辨識結果,包含:根據該初步判斷結果以及該第一影像辨識結果,判斷該至少一音訊資料中包含的至少一語系,若該初步判斷結果以及該第一影像辨識結果不符時,依據該初步判斷結果判斷;基於該第一影像辨識結果及該第二影像辨識結果,切割該至少一音訊資料,從而產生對應該至少一參與人的複數個音訊區段;根據該至少一語系辨識結果,語音辨識該些音訊區段,將該些音訊區段轉換成一文字內容;根據該至少一語系辨識結果,翻譯該文字內容;以及傳送該已翻譯的文字內容使其顯示於該至少一終端裝置。
  2. 如請求項1所述的方法,其中切割該至少一音訊資料,從而產生對應該至少一參與人的該些音訊區段的步驟包含:根據該第二影像辨識結果中該至少一參與人於說話時的臉部動作,決定該至少一參與人每次發言的一時間起始點以及一時間結束點,從而得到該些音訊區段。
  3. 如請求項1所述的方法,另包含:根據該視訊資料,對該至少一參與人進行身份辨識;當身份辨識成功時,從一雲端資料庫服務模組中存取該至少一參與人相關的一個人專屬用字詞庫,以及根據該個人專用字詞庫,提高與改善該至少一參與人的語音辨識結果與該翻譯結果;以及當身份辨識失敗時,為該至少一參與人建立一新個人專屬用字詞庫。
  4. 如請求項3所述的方法,另包含:根據該至少一參與人之一使用者反饋,修改該個人專屬用字詞庫。
  5. 如請求項1所述的方法,另包含:根據該至少一視訊資料中該至少一參與人與一麥克風的距離,判斷至少一發語者的數量以及各該發語者發言的時間,以產生該第二影像辨識結果;以及根據該第二影像辨識結果,從而得到該複數個音訊區段。
  6. 如請求項1所述的方法,另包含:根據一參考字詞庫,校正該文字內容。
  7. 一種用於一會議中的伺服器端,該會議包含至少一參與人,該伺服器端包含:一音訊預處理模組,用於接收至少一終端裝置所產生的至少一音訊資料,包含:一語音特徵擷取子模組,用以從該至少一音訊資料中擷取出語音特徵資料;以及一語系辨識子模組,用以根據該擷取出的語音特徵資料與一語系辨識模型進行比對,產生一初步判斷結果;一視訊預處理模組,用於接收該至少一終端裝置所產生的至少一視訊資料,根據終端裝置該至少一視訊資料產生一第一影像辨識結果與一第二影像辨識結果,該第一影像辨識結果包含該至少一參與人的數目及該至少一參與人的種族,以及該第二影像辨識結果包含該至少一參與人於說話時的肢體動作及臉部動作;一語音辨識模組,用以基於該第一影像辨識結果,辨識該至少一終端裝置所傳送之至少一音訊資料,以產生對應於該至少一參與人的數目及該至少一參與人的種族之至少一語系辨識結果,其中,該語音辨識模組包含一音訊與視覺資料匹配子模組,該音訊與視覺資料匹配子模組用以根據該初步判斷結果以及該第一影像辨識結果判斷該至少一音訊資料中包含的至少一語系,當該初步判斷結果以及該第一影像辨識結果不符時,依據該初步判斷結果判斷;並且用以基於該第一影像辨識結果、該第二影像辨識結果及該至少一語系辨識結果,切割該至少一音訊資料,從而產生對應該至少一參與人的複數個音訊區段,該語音辨識模組包含一即時語音辨識子模組,其用以根據該至少一語系辨識結 果,語音辨識該些音訊區段,將該些音訊區段轉換成一文字內容;以及一翻譯模組,包含一平行式多國語言翻譯子模組,該平行式多國語言翻譯子模組用以根據該至少一語系辨視結果,翻譯該文字內容,傳送已翻譯的文字內容,使其顯示於該至少一終端裝置。
  8. 如請求項7所述的伺服器端,其中該視訊預處理模組另包含一人數偵測子模組以及一人種辨識子模組,該人數偵測子模組用以根據該視訊資料辨識該至少一參與人的數目,以及該人種辨識子模組用以根據該視訊資料辨識該至少一參與人的種族。
  9. 如請求項7所述的伺服器端,其中該語音辨識模組另包含一發語者分群子模組,用以根據該第二影像辨識結果中該至少一參與人於說話時的臉部動作,決定該至少一參與人每次發言的一時間起始點以及一時間結束點,從而得到該些音訊區段。
  10. 如請求項7所述的伺服器端,其中該視訊預處理模組另包含:一人臉辨識組模組,用以根據該視訊資料,對參與人進行身分辨識;該語音辨識模組另包含一個人詞彙擷取子模組,用以當身份辨識成功時存取該至少一參與人相關的一個人專屬字詞庫,以及該平行式多國語言翻譯子模組根據該個人專屬字詞庫,產生該翻譯結果。
  11. 如請求項10所述的伺服器端,其中另包含一雲端資料庫服務模組,用以建立該至少一參與人相關的該個人專屬字詞庫,當身份辨識失敗時,該雲端資料庫服務模組為該至少一參與人建立一新個人專屬用字詞庫。
  12. 如請求項10所述的伺服器端,其中該系統包含一更新控制子模組,用以根據該至少一參與人之使用者反饋,修改該個人專屬用字詞庫。
  13. 如請求項7所述的伺服器端,其中該視訊預處理模組包含:一活動辨識子模組,用以根據該視訊資料,辨識該至少一參與人的肢體動作;以及一唇形辨識子模組,用以根據該視訊資料,辨識該至少一參與人的臉部動作。
  14. 如請求項13所述的伺服器端,其中該視訊預處理模組包含:一距離偵測子模組,用以根據該至少一視訊資料中該至少一參與人與麥克風的距離,判斷至少一發語者的數量以及各該發語者發言的時間,以產生該第二影像辨識結果以及該發語者分群子模組還根據該第二影像辨識結果,從而得到該複數個音訊區段。
  15. 如請求項7所述的伺服器端,另包含:一字詞辨識修正子模組,用以根據一參考字詞庫,校正該文字內容。
TW109130562A 2020-09-07 2020-09-07 多國語言語音辨識及翻譯方法與相關的系統 TWI769520B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109130562A TWI769520B (zh) 2020-09-07 2020-09-07 多國語言語音辨識及翻譯方法與相關的系統
US17/394,593 US11881224B2 (en) 2020-09-07 2021-08-05 Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones
CN202110980746.3A CN114239610A (zh) 2020-09-07 2021-08-25 多国语言语音辨识及翻译方法与相关的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109130562A TWI769520B (zh) 2020-09-07 2020-09-07 多國語言語音辨識及翻譯方法與相關的系統

Publications (2)

Publication Number Publication Date
TW202211077A TW202211077A (zh) 2022-03-16
TWI769520B true TWI769520B (zh) 2022-07-01

Family

ID=80470026

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109130562A TWI769520B (zh) 2020-09-07 2020-09-07 多國語言語音辨識及翻譯方法與相關的系統

Country Status (3)

Country Link
US (1) US11881224B2 (zh)
CN (1) CN114239610A (zh)
TW (1) TWI769520B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
KR20240018229A (ko) * 2022-08-02 2024-02-13 김민구 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645121B2 (en) * 2007-03-29 2014-02-04 Microsoft Corporation Language translation of visual and audio input
TW201612774A (en) * 2014-07-31 2016-04-01 Samsung Electronics Co Ltd Method, apparatus, and system for providing translated content
TWM532593U (zh) * 2016-08-10 2016-11-21 Nat Taichung University Science & Technology 語音翻譯系統
US10067937B2 (en) * 2012-05-18 2018-09-04 Amazon Technologies, Inc. Determining delay for language translation in video communication

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010338B2 (en) * 2006-11-27 2011-08-30 Sony Ericsson Mobile Communications Ab Dynamic modification of a messaging language
CN101753737A (zh) * 2008-12-15 2010-06-23 孙凌 网络电话交换机和语音网关交换机
TW201306536A (zh) * 2011-07-26 2013-02-01 Yan Zheng 應用於網路協定語音之多國語音辨識及翻譯幕顯像系統
US10875525B2 (en) * 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
CN102821259B (zh) * 2012-07-20 2016-12-21 冠捷显示科技(厦门)有限公司 具有多国语言语音翻译的tv系统及其实现方法
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN107508790A (zh) * 2017-07-05 2017-12-22 融音网络技术(上海)有限公司 支持异构终端通过云平台接入的会议系统及其接入方法
TWM556360U (zh) 2017-07-31 2018-03-01 Huang Yan Ming 視訊同步翻譯系統
TWM574267U (zh) 2018-08-16 2019-02-11 張漢龍 即時語音自動同步轉譯字幕直播系統
CN110072075B (zh) * 2019-04-30 2022-05-13 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN113923395A (zh) * 2020-07-07 2022-01-11 中兴通讯股份有限公司 一种提升会议质量的方法、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645121B2 (en) * 2007-03-29 2014-02-04 Microsoft Corporation Language translation of visual and audio input
US10067937B2 (en) * 2012-05-18 2018-09-04 Amazon Technologies, Inc. Determining delay for language translation in video communication
TW201612774A (en) * 2014-07-31 2016-04-01 Samsung Electronics Co Ltd Method, apparatus, and system for providing translated content
TWM532593U (zh) * 2016-08-10 2016-11-21 Nat Taichung University Science & Technology 語音翻譯系統

Also Published As

Publication number Publication date
CN114239610A (zh) 2022-03-25
US11881224B2 (en) 2024-01-23
US20220076679A1 (en) 2022-03-10
TW202211077A (zh) 2022-03-16

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US11024291B2 (en) Real-time class recognition for an audio stream
US10621991B2 (en) Joint neural network for speaker recognition
US11776530B2 (en) Speech model personalization via ambient context harvesting
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US9672829B2 (en) Extracting and displaying key points of a video conference
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
TW201543467A (zh) 語音輸入方法、裝置和系統
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
WO2021103775A1 (zh) 语音意图识别方法、装置、计算机设备和存储介质
JP7279494B2 (ja) 会議支援装置、および会議支援システム
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
CN104808794A (zh) 一种唇语输入方法和系统
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
WO2023048746A1 (en) Speaker-turn-based online speaker diarization with constrained spectral clustering
WO2022228235A1 (zh) 生成视频语料的方法、装置及相关设备
US20180342245A1 (en) Analysis of content written on a board
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
US20190103110A1 (en) Information processing device, information processing method, and program
JP7400364B2 (ja) 音声認識システム及び情報処理方法
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
CN115909505A (zh) 手语识别设备的控制方法、装置、存储介质及电子设备
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末