TW202009750A

TW202009750A - 即時語音自動同步轉譯字幕直播系統及方法

Info

Publication number: TW202009750A
Application number: TW107128684A
Authority: TW
Inventors: 張漢龍; 賴大偉
Original assignee: 張漢龍; 賴大偉
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2020-03-01

Abstract

本發明係一種即時語音自動同步轉譯字幕直播系統及方法，其包括一第一電子裝置、一個以上的第二電子裝置以及一雲端伺服器，該雲端伺服器透過網路連結該第一電子裝置、該第二電子裝置；當主播、觀眾分別於該第一電子裝置、該第二電子裝置執行一應用程式，透過該應用程式取得對方的一系統預設語言資訊，並將輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊，將該組文字資訊透過該雲端伺服器執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊，使對方直接撥放該原影音資訊的同時又顯示該系統預設語言文字資訊，藉此打破不同語言之間的隔閡。

Description

即時語音自動同步轉譯字幕直播系統及方法

本發明係關於一種直播系統及方法，並應用雲端網路通訊技術，尤指一種即時語音自動同步轉譯字幕直播系統及方法。

科技日新月異，民眾使用手機、電腦透過網路進行影音交流已成為生活平常之事，例如遠距離交友、跨境會議、線上教學、溝通交流、表演、演講等。在現有技術中，不同國籍的影音資訊存在有翻譯之問題，一般而言係透過後製的方式，將影音資訊賦予翻譯後的字幕，此方式的缺點在於費時、費力、成本高、不即時，有些會議會有即時的翻譯，但同樣的，存在有成本較高、耗費人力、無法為大眾所通用，而且上述現有技術都無法為大眾所通用、無法讓不同國籍（母語）講者、觀眾之間有即時交流，且存在成本高、費時費力等問題。

有鑑於上述現有技術之問題，本發明的主要目的在於提供一種即時語音自動同步轉譯字幕直播系統及方法，其利用個人電子裝置及雲端網路通訊技術，讓使用者之間能夠聽見彼此之即時語音，又可同步看見轉換後之系統預設語言字幕，有效率地讓講者、觀眾之間有即時交流，且兼具低成本、高效率之功效。

為達成上述目的，本發明所採取的主要技術手段係令前述即時語音自動同步轉譯字幕直播方法，係由一雲端伺服器透過網路分別連結一第一電子裝置及一個以上的第二電子裝置，於該第一電子裝置執行一應用程式，並由該應用程式執行以下步驟：建立網路連結，自動偵測系統狀態；取得對方的一系統預設語言資訊；根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊；將該組文字資訊透過該雲端伺服器執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊；使對方直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊。

藉由上述方法，主播、觀眾可分別於該第一電子裝置、該第二電子裝置執行該應用程式，當主播、觀眾透過該應用程式取得對方的系統預設語言資訊，並將輸入的原影音資訊進行該音訊／文字轉換程序，以產生該組文字資訊，將該組文字資訊透過該雲端伺服器執行該爬文比對演算法或其他的翻譯應用程序，產生對方的該系統預設語言文字資訊，使對方直接撥放該原影音資訊的同時又顯示該系統預設語言文字資訊，藉此達到打破不同語言之間的隔閡，並有效率地讓講者、觀眾之間有即時交流，兼具低成本、高效率之目的。

為達成上述目的，本發明所採取的又一主要技術手段係令前述即時語音自動同步轉譯字幕直播系統包括：一第一電子裝置，係與網路連結；一個以上的第二電子裝置，係與網路連結；一雲端伺服器，係透過網路連結該第一電子裝置、該第二電子裝置；其中，該第一電子裝置、該第二電子裝置透過網路建立連結，並自動偵測各自的系統狀態；由該第一電子裝置透過網路取得該第二電子裝置的一系統預設語言資訊，並根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊，將該組文字資訊透過該雲端伺服器執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊，使該第二電子裝置直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊。

藉由上述系統，由主播透過該該第一電子裝置取得觀眾之第二電子裝置的系統預設語言資訊，並將主播輸入的原影音資訊進行該音訊／文字轉換程序，以產生該組文字資訊，將該組文字資訊透過該雲端伺服器執行該爬文比對演算法或其他的翻譯應用程序，產生對方的該系統預設語言文字資訊，使觀眾之第二電子裝置直接撥放該原影音資訊的同時又顯示該系統預設語言文字資訊，藉此達到打破不同語言之間的隔閡，並有效率地讓講者、觀眾之間有即時交流，兼具低成本、高效率之目的。

關於本發明即時語音自動同步轉譯字幕直播系統之較佳實施例，請參閱圖1、2所示，其中包括一第一電子裝置10、一個以上的第二電子裝置20以及一雲端伺服器30，該雲端伺服器30係透過網際網路分別與該第一電子裝置10、該等第二電子裝置20連結，且該第一電子裝置10、該第二電子裝置20分別安裝一應用程式。於本較佳實施例中，該第一電子裝置10可為一行動裝置、一平板電腦、一筆記型電腦或一桌上型電腦等計算機設備；該第二電子裝置20可為一行動裝置、一平板電腦、一筆記型電腦或一桌上型電腦等計算機設備。

於本較佳實施例中，該第一電子裝置10可供一主播、一第一使用者操作，該等第二電子裝置20可分別供一客戶、一觀眾、一第二使用者操作；如圖2所示，當有多數不同國籍使用者（如英文為母語之系統預設語言、德文為母語之系統預設語言、拉丁文為母語之系統預設語言、泰文為母語之系統預設語言、韓文為母語之系統預設語言、法文為母語之系統預設語言、日文為母語之系統預設語言等）分別操作該等第二電子裝置20時，該等第二電子裝置20係可供一第三使用者、一第四使用者、一第五使用者、一第六使用者。

再如圖1所示，其中主播或觀眾可於該第一電子裝置10、該第二電子裝置20分別執行該應用程式，並透過網路建立連結，且該第一電子裝置10、該第二電子裝置20自動偵測各自的系統狀態，如系統預設語言、位置、麥克風等；再由主播的第一電子裝置10透過網路取得觀眾的第二電子裝置20的一系統預設語言資訊，同時觀眾的第二電子裝置20亦可透過網路取得主播的第一電子裝置10的另一系統預設語言資訊，並根據主播或觀眾輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊，將該組文字資訊透過該雲端伺服器30執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊，使該第二電子裝置20直接撥放主播的原影音資訊，以及顯示觀眾的系統預設語言文字資訊，或者使該第一電子裝置10直接撥放觀眾的原影音資訊，以及顯示主播的系統預設語言文字資訊。

進一步的，於本較佳實施例中，該爬文比對演算法主要係包括一學習階段程序，透過該學習階段程序以建立一大數據資料庫，並利用該大數據資料庫進行爬文比對翻譯之功能；進一步的，更包括呼叫一線上翻譯應用程序，透過該線上翻譯應用程序，將該組文字資訊翻譯成對方的該系統預設語言文字資訊，於本較佳實施例中，該線上翻譯應用程序可包括一google翻譯程式。

由上述對本發明即時語音自動同步轉譯字幕直播系統之較佳實施例的說明，本發明可進一步歸納出一即時語音自動同步轉譯字幕直播方法，請參閱圖3所示，係由該雲端伺服器30透過網路分別連結該第一電子裝置10及該等第二電子裝置20，於該第一電子裝置10執行該應用程式，並由該應用程式執行以下步驟：建立網路連結，自動偵測系統狀態（S31）；於本較佳實施例中，自動偵測系統狀態包括自動判別作業系統預設語言為一第一語音辨識語言；以及進一步判斷麥克風是否收到原影音資訊（即聲音），若是，開啟一攝像頭並擷取一人物距離，以自動消除非人物發出之聲音；取得對方的一系統預設語言資訊（S32）；根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊（S33）；於本較佳實施例中，該音訊／文字轉換程序可包括抓取聲音斷點並儲存於暫存區同時呼叫語音辨識轉文字，以及鎖定人物嘴巴開口閉口為一個循環斷點(判斷為一句話)，其中係以一個循環嘴型動作連續到閉口、人物斷點做AI學習說話習慣做斷點紀錄(聲音斷點最低值為0.3SEC-2SEC)；若無法擷取影像狀況，則直接以人物斷點做AI學習說話習慣做斷點紀錄(聲音斷點最低值為0.3SEC-2SEC)，完成聲音斷點自動判斷；將該組文字資訊透過該雲端伺服器30執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊（S34）；使對方直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊，於本較佳實施例中係將該系統預設語言文字資訊自動貼上顯示於該應用程式的對話框中（S35）。

於本較佳實施例中，係將任何一種支援的語音資訊自動翻譯成一系統預設語言，即為一第一顯示文字，並以疊加字幕的方式，演示文稿也支援自然人自行更改語言。該系統預設語言為一第一辨識語言還可以自訂使用在輸出的語音資訊或文字語言詞彙的語音辨識，並在接收主播輸出文字內容時，同時在一雲端翻譯系統比對，當AI分析無關鍵字串時，自動即時爬文(依地區的一第一個搜尋引擎為主)，關鍵內文之吻合率，係由較高之文本數據提取，並儲存更新該雲端翻譯系統，同步推撥給使用者。

關於本發明之另一較佳實施例的輸入即時語音產生系統預設語言文字字幕的直播方法，請參閱圖4所示，係由該雲端伺服器30透過網路分別連結該主播的第一電子裝置10及該等觀眾的第二電子裝置20，並於雙方（主播／觀眾）的該第一電子裝置10、該等第二電子裝置20之間執行以下步驟：雙方（主播／觀眾）的該第一電子裝置10、該等第二電子裝置20建立網路連結，自動偵測雙方（主播／觀眾）系統狀態（S41）；雙方（主播／觀眾）的該第一電子裝置10、該等第二電子裝置20分別取得對方的一系統預設語言資訊（S42）；雙方（主播／觀眾）的該第一電子裝置10、該等第二電子裝置20分別根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊（S43）；由雙方（主播／觀眾）的該第一電子裝置10、該等第二電子裝置20分別將該組文字資訊透過該雲端伺服器30執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊（S44）；使雙方（主播／觀眾）分別透過該第一電子裝置10、該等第二電子裝置20直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊（S45）。

透過上述方式，翻譯主播的語資訊或文字資訊之內容，並保留原語音資訊播送，達到提供真正語言無國界、無種族的線上雙向即時溝通之效果。本發明通過使用者(主播)從麥克風(輸出音源)語音直接提供觀眾即時翻譯成預設系統語言文字或自設定文字、疊加字幕的演示文稿，並不改變語音來源端的原始聲音打破了語言障礙。當使用者(主播)說話時，該應用程式自動判別語言辨識轉文字內容自動翻譯並疊加于觀眾螢幕上，允許主播、觀眾直接將語音內容轉換成任何一種語言支援的文本超過60顯示字幕。此外，在本發明中，可供多達千萬觀眾可以跟隨他們自己的母語語言，包括主播的語言，在他們的手機、平板電腦或各種計算機基礎設備上進行演示。

10‧‧‧第一電子裝置20‧‧‧第二電子裝置30‧‧‧雲端伺服器

圖1 係本發明之一較佳實施例的直播系統架構方塊圖。圖2 係本發明之一較佳實施例的應用狀態示意圖。圖3 係本發明之一較佳實施例的直播方法流程圖。圖4 係本發明之一較佳實施例的又一直播方法流程圖。

10‧‧‧第一電子裝置

20‧‧‧第二電子裝置

30‧‧‧雲端伺服器

Claims

一種即時語音自動同步轉譯字幕直播方法，係由一雲端伺服器透過網路分別連結一第一電子裝置及一個以上的第二電子裝置，於該第一電子裝置執行一應用程式，並由該應用程式執行以下步驟：建立網路連結，自動偵測系統狀態；取得對方的一系統預設語言資訊；根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊；將該組文字資訊透過該雲端伺服器執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊；使對方直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊。
如請求項1所述之即時語音自動同步轉譯字幕直播方法，該等第二電子裝置分別安裝該應用程式，並於雙方（主播／觀眾）的該第一電子裝置、該等第二電子裝置之間執行以下步驟：雙方的該第一電子裝置、該等第二電子裝置建立網路連結，自動偵測雙方系統狀態；以及雙方分別取得對方的一系統預設語言資訊；雙方的該第一電子裝置、該等第二電子裝置分別根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊；由雙方（主播／觀眾）的該第一電子裝置、該等第二電子裝置分別將該組文字資訊透過該雲端伺服器執行一爬文比對演算法，產生對方的一系統預設語言文字資訊；以及使雙方（主播／觀眾）分別透過該第一電子裝置、該等第二電子裝置直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊。
如請求項1或2所述之即時語音自動同步轉譯字幕直播方法，其中自動偵測系統狀態包括自動判別作業系統預設語言為一第一語音辨識語言。
如請求項1或2所述之即時語音自動同步轉譯字幕直播方法，其中自動偵測系統狀態包括判斷麥克風是否收到原影音資訊，若是，擷取一人物距離，消除非人物發出之聲音。
如請求項4所述之即時語音自動同步轉譯字幕直播方法，其中該音訊／文字轉換程序可包括抓取聲音斷點並儲存於暫存區同時呼叫語音辨識轉文字，以及鎖定人物嘴巴開口閉口為一個循環斷點。
如請求項4所述之即時語音自動同步轉譯字幕直播方法，其中若無法擷取影像狀況，則直接以斷點做AI學習說話習慣做斷點紀錄，完成聲音斷點自動判斷。
如請求項1或2所述之即時語音自動同步轉譯字幕直播方法，其中係將該系統預設語言文字資訊貼上顯示於該應用程式中。
一種即時語音自動同步轉譯字幕直播系統，其包括：一第一電子裝置，係與網路連結；一個以上的第二電子裝置，係與網路連結；一雲端伺服器，係透過網路連結該第一電子裝置、該第二電子裝置；其中，該第一電子裝置、該第二電子裝置透過網路建立連結，並自動偵測各自的系統狀態；由該第一電子裝置透過網路取得該第二電子裝置的一系統預設語言資訊，並根據輸入的一原影音資訊進行一音訊／文字轉換程序，以產生一組文字資訊，將該組文字資訊透過該雲端伺服器執行一爬文比對演算法或其他的翻譯應用程序，產生對方的一系統預設語言文字資訊，使該第二電子裝置直接撥放該原影音資訊，以及顯示該系統預設語言文字資訊。
如請求項8所述之即時語音自動同步轉譯字幕直播系統，其中，該第二電子裝置亦透過網路取得該第一電子裝置的另一系統預設語言資訊，以及使該第一電子裝置直接撥放對方的原影音資訊，以及顯示對應的系統預設語言文字資訊。
如請求項8或9所述之即時語音自動同步轉譯字幕直播系統，該第一電子裝置為一行動裝置、一平板電腦、一筆記型電腦或一桌上型電腦等計算機設備；該第二電子裝置為一行動裝置、一平板電腦、一筆記型電腦或一桌上型電腦等計算機設備。