TWI685759B - 智能學習語詞編修與多國語言互譯的系統與方法 - Google Patents

智能學習語詞編修與多國語言互譯的系統與方法 Download PDF

Info

Publication number
TWI685759B
TWI685759B TW107130698A TW107130698A TWI685759B TW I685759 B TWI685759 B TW I685759B TW 107130698 A TW107130698 A TW 107130698A TW 107130698 A TW107130698 A TW 107130698A TW I685759 B TWI685759 B TW I685759B
Authority
TW
Taiwan
Prior art keywords
party
translation
sentence
word
module
Prior art date
Application number
TW107130698A
Other languages
English (en)
Other versions
TW202011227A (zh
Inventor
劉秉錦
林鼎超
林庭箴
Original Assignee
愛酷智能科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 愛酷智能科技股份有限公司 filed Critical 愛酷智能科技股份有限公司
Priority to TW107130698A priority Critical patent/TWI685759B/zh
Application granted granted Critical
Publication of TWI685759B publication Critical patent/TWI685759B/zh
Publication of TW202011227A publication Critical patent/TW202011227A/zh

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本發明揭露一種智能學習語詞編修與多國語言互譯的系統與方法。該系統包含:一翻譯文句取得模組、一翻譯文句剖析模組、一字詞語法修正模組、一發布模組、一文字排版模組、一資料庫模組,及一字詞文句推薦模組。本發明利用字詞語法修正模組將來自3個以上翻譯平台的翻譯後文句,進行接近特定領域字詞的替換,如此便能解決翻譯平台存在的翻譯正確性,與使用的對應名詞可能不是某特別領域所熟悉的問題。

Description

智能學習語詞編修與多國語言互譯的系統與方法
本發明關於一種多國語言互譯的系統與方法,特別是一種可以進行智能學習語詞編修與多國語言互譯的系統與方法。
在資訊交流頻繁的現今社會中,許多國外發生的新聞、發表的文章,甚至是公開的影音資訊,都需要以最快速的方式傳回國內讓相關人接收,以便能做出適當及時的反應。受惠於互聯網的普及,前述的資料都能在相關的網站或平台取得。然而,限於人們對外國語言的理解程度,這些第一手資料可能無法被正確的理解吸收,反而延伸出更多的問題。為了解決這種不便,許多線上翻譯平台應運而生,常見的如google翻譯、Microsoft翻譯與Baidu翻譯等。隨著深度學習的時間增加,這些平台可以在接收用戶輸入的外國文字、句子、段落,甚至是文章後,在雲端經數秒的運算後,將幾近正確的翻譯呈現在用戶終端設備上。
雖然這些翻譯平台的出現,解決了許多現今生活中遇到的文字翻譯問題。然而依舊存在下列的問題。首先,翻譯後的本國語意,還是偶爾會產生與原文間的差異。更有甚者,因為翻譯演算法的不同,即便輸入的語句意義相同,不同文字或排列方式還是會導致翻譯後的結果不同。其次,許多翻譯平台翻譯使用的對應名詞,可能不是某個國家市場、領域或是場所孰悉與常用的。舉例來說,將data翻譯成中文,很可能得到的是數據或資料。前者常見於中國大陸,後者是台灣的主流。又,在科技領域接收data是數據,而傳統商務往來卻又將data視為資料。這些翻譯後文字間的差異雖然不大,也可讓用戶了解,但很多商業行為,比如行銷廣告,希望將翻譯後的語句,能使用最貼近市場接受的文字,甚至是最夯的同義詞。因此,翻譯平台所獲得的翻譯語句不見得能直接使用,而需要進一步修改。這種不便性隨著翻譯資料的增多,已由隱性成本漸漸成為了顯性成本。
雖然翻譯後的語句的正確性會存在一定程度的失真(可能跟原文的語焉不詳有關),但可以經過一定程度的智能分析與置換來緩解。翻譯後語句使用的文字也可以適當調整。然而,關於以上兩個問題的解決方案,依然欠缺。
本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中,各式的修改和類似的排列。
本發明的目的在於提供一種智能學習語詞編修與多國語言互譯的系統與方法,以解決傳統翻譯平台存在的翻譯正確性,與使用的對應名詞可能不是某個國家市場、領域或是場所孰悉與常用的問題。該方法包含步驟:a)透過網路向遠端一伺服器取得至少一第一方文句;b)將該至少一第一方文句的編碼,透過至少3個翻譯平台所分別提供的API(Application Programming Interface,應用程式介面),分別傳送到該至少3個翻譯平台進行翻譯;c)分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼至一伺服主機;d)由該伺服主機將該些第二方文句的編碼,轉換為對應的至少3句第二方文句;e)由該伺服主機從該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構;f)將該伺服主機內的一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句;及g)將該修正第二方文句進傳送到一指定端。
最好,該方法可進一步於步驟f)後包含一步驟f1):將該伺服主機內的一文字排版格式,套用在該修正第二方文句中。
依照本發明,該文字排版格式可為文句限定長度、斷句方式、標點符號使用方式、指定使用字形、指定插入非文字符號,或前述任二者以上之組合。該關聯關鍵字可為翻譯對應一第一方字詞的所有同詞性的第二方字詞。該使用語法結構可由下列至少一所形成:語句翻譯規則、名詞單複數翻譯規則、名詞陰陽性翻譯規則與冠詞翻譯規則。該預設關鍵字可以是對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一,或是指定的對應該第一方字詞的一特定第二方字詞。該預設語法結構可以是對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一,或是指定的對應該第一方文句型態的一特定第二方文句型態。其中N為2、3、4或5,該機器學習演算法可為TF-IDF演算法。
在另一實施例中,智能學習語詞編修與多國語言互譯的系統可安裝於一伺服主機內,該伺服主機透過網路與一操作端連接,包含:一翻譯文句取得模組,接受該操作端的操作指令,以透過網路向遠端一伺服器取得至少一第一方文句、將該至少一第一方文句的編碼,透過至少3個翻譯平台所分別提供的API,傳送到該至少3個翻譯平台進行翻譯、分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼,及將該些第二方文句的編碼,轉換為對應的至少3句第二方文句;一翻譯文句剖析模組,運作以在來自該翻譯文句取得模組的該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構;一字詞語法修正模組,運作以將一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句;及一發布模組,運作以將該修正第二方文句,接受該操作端的操作指令,透過網路傳送到一指定端。
最好,該系統可進一步包含一文字排版模組,與該字詞語法修正模組連接,運作以將一文字排版格式,套用在該修正第二方文句中,並將更新的修正第二方文句回傳該字詞語法修正模組。
依照本發明,該文字排版格式可為文句限定長度、斷句方式、標點符號使用方式、指定使用字形、指定插入非文字符號,或前述任二者以上之組合。
最好,該系統可進一步包含一資料庫模組,該資料庫模組與該字詞語法修正模組及該文字排版模組連接,用以儲存、設定及更新該預設關鍵字、該預設語法結構及該文字排版格式,以提供相關模組使用。
最好,該系統可進一步包含一字詞文句推薦模組,運作以對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一、指定的對應該第一方字詞的一特定第二方字詞、對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一及/或是指定的對應該第一方文句型態的一特定第二方文句型態,並將運作結果儲存或更新於該資料庫模組中。其中N可為2、3、4或5,該機器學習演算法可為TF-IDF演算法。
依照本發明,該翻譯文句取得模組、該翻譯文句剖析模組、該字詞語法修正模組、該發布模組、該文字排版模組、該資料庫模組與該字詞文句推薦模組可為安裝於伺服主機中的軟體、架設於伺服主機中的外接板卡,或部分為安裝於伺服主機中的軟體部分為架設於伺服主機中的外接板卡。該關聯關鍵字可為翻譯對應一第一方字詞的所有同詞性的第二方字詞。該使用語法結構可由下列至少一所形成:語句翻譯規則、名詞單複數翻譯規則、名詞陰陽性翻譯規則與冠詞翻譯規則。
本發明利用字詞語法修正模組將來自3個以上翻譯平台的翻譯後文句,進行接近特定領域字詞的替換,如此便能解決前述的兩個問題。同時,字詞文句推薦模組可以對以往翻譯資料進行學習,動態提供可替換的字詞與使用語法結構,使該系統的運作更加智能化,減少人的干預修改。
本發明將藉由參照下列的實施方式而更具體地描述。
請見圖1,該圖為依照本發明實施例的一種智能學習語詞編修與多國語言互譯的方法之流程圖。該方法分為數個步驟包含步驟。首先,透過網路向遠端一伺服器取得至少一第一方文句(S01)。在本說明書的實施例中,以第一方代表一段文句的原始文字使用地域,而以第二方代表該文句翻譯後的文字使用地域,兩方使用文字相異。為了說明方便,在接下來的例子中,第一方為北美洲,其文字為英文;第二方為台灣,其文字為中文。步驟S01中的第一方文句的來源是網路遠端的伺服器。實務上,該至少一第一方文句可以是美國某網頁伺服器提供的部落格文章、期刊文字資料、商品規格文字資料,或是廣告文字。取得該至少一第一方文句的方法,通常使用文字爬蟲程式,由一台伺服主機發動,主動向該伺服器的特定或不特定URL(Uniform Resource Locator)獲取資料。這裡,「至少一」說明了一次取得的第一方文句量為一者以上,而「文句」包含了文章或句子。也就是說,本發明提供的方法要翻譯的標的為文章或句子,而且可以一次一段以上的文章或句子。相對地,本發明雖然也可以對單字或字詞進行翻譯,然其不在本發明主張權利範圍內。
該方法的第二步為將該至少一第一方文句的編碼,透過至少3個翻譯平台所分別提供的API(Application Programming Interface,應用程式介面),分別傳送到該至少3個翻譯平台進行翻譯(S02)。本發明的精神之一,是進行二次精緻化翻譯。具體而言,便是將要進行翻譯的至少一第一方文句,先經過第三方的初步翻譯,這些翻譯過的文句才能對其進行加工處理。實作上,可以將該至少一第一方文句編碼成可識別碼,比如Unicode、UTF-8、Big5等,套上API要求的格式以便利資料傳輸。當然,編碼的選擇視網路協定而定,發動傳送翻譯資料的設備(如該伺服主機)的運行程式可以自動決定,或由人為另行設定。本發明要求翻譯後的第二方文句必須來自3個以上翻譯平台(遠端特定伺服器及其上運作的翻譯軟體,數量3個、4個…)。為了說明方便,茲使用google翻譯平台、Microsoft翻譯平台與Baidu翻譯平台為例。前述每一者都有瀏覽器版本的介面,讓使用者直接將原文複製到翻譯文字框內進行翻譯,翻譯後的文字也會及時於瀏覽器上呈現。然而,本發明是應用自動化操作,因而採取該些翻譯平台提供的API,將該至少一第一方文句的編碼串接上每一API,而由三個翻譯平台獲得3段翻譯文字的編碼。亦即,分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼至該伺服主機(S03)。
接著,依靠該伺服主機,將該些第二方文句的編碼,轉換為對應的至少3句第二方文句(S04)。這一步驟是將第二方文句的實質內容轉換為伺服主機可以處理的內容,實作上也可以轉換成另一特定編碼或維持原編碼來讓特定程式處理「文字」。
本方法的第5個步驟是由該伺服主機從該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構(S05)。為了對本步驟有較佳的說明,請見圖4,該圖為翻譯的實例說明。在圖4中,第一方文句為” The client would like to take back his assets. However, his agent didn’t agree.”,來自google翻譯平台的翻譯後第二方文句標示為「1」,內容為「該客戶想要將其資產取回。然而,他的代理人不同意。」;來自Microsoft翻譯平台的翻譯後第二方文句標示為「2」,內容為「客戶想要將他的資產拿回去,但是,其代理人否決了。」;來自Baidu翻譯平台的翻譯後第二方文句標示為「3」,內容為「客人想要將其財產拿回去,但其代理不贊同。」。依照本發明,伺服主機設定關聯關鍵字為翻譯對應一第一方字詞的所有同詞性的第二方字詞。這裡,「字詞」包含了單字與字詞,也就是關聯關鍵字可以是單一字串或圖像的文字,也可以是數個單字組合的字詞。圖4中同詞性的第二方字詞皆以虛線框包圍。比如”The client”來自各翻譯平台的關聯關鍵字為「該客戶」、「客戶」及「客人」,詞性為名詞;”would like”來自各翻譯平台的關聯關鍵字皆為「想要將」,詞性屬於動詞片語;”However” 來自各翻譯平台的關聯關鍵字為「然而」、「但是」及「但」。當然,相對於第一方字詞,還有許多同義的第二方字詞,因此關聯關鍵字不限定於本例所陳述者。同時,伺服主機也被設定來分析各別的使用語法結構。使用語法結構由下列至少一所形成:語句翻譯規則、名詞單複數翻譯規則、名詞陰陽性翻譯規則與冠詞翻譯規則。語句翻譯規則為主詞受詞及動詞的位置,特定文字有其特定先後次序,但某些沒有。沒有的文字就必須要在分析前進行設定。名詞單複數在西方文字中有極其嚴謹的定義,然而東方文字,尤其是中文,則顯得語焉不詳,例如”apples”要翻譯成蘋果或該些蘋果。這種規則也要定下來以供分析之用。再來,名詞陰陽性翻譯規則雖然每種文字都有,但有些文字連物都有陰陽性,這些文字在互譯時的規則也會影響使用語法結構。最後,冠詞翻譯規則牽涉到某對像的特定性。這種對應關係某些文字強調,某些不強調,因此也需要定性後來分析。在圖4中最佳的例子就是”his”,”his”可以翻譯成「其」,也可以翻譯成「他的」;且”his”被提出兩次,是否可以兩次都翻譯成「其」、「他的」,或一次翻譯成「其」一次是「他的」,這些都要在此步驟中進行分析,以找出伺服主機中預定對應的使用語法結構。
接著,將該伺服主機內的一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句(S06)。在找到了關聯關鍵字及分析出了使用語法結構,就可以找出伺服主機內預設對應的預設關鍵字及預設語法結構來替換。如圖4所示,伺服主機對關聯關鍵字「該客戶」、「客戶」及「客人」的預設關鍵字為「客人」,因此在最終翻譯的修正第二方文句(標示為「4」)中使用「客人」;關聯關鍵字「資產」及「財產」的預設關鍵字為「資產」,因此在最終翻譯的修正第二方文句中使用「資產」;關聯關鍵字「然而」、「但是」及「但」的預設關鍵字為「然而」,因此在最終翻譯的修正第二方文句中使用「然而」;關聯關鍵字「代理人」及「代理」的預設關鍵字為「代理人」,因此在最終翻譯的修正第二方文句中使用「代理人」;關聯關鍵字「不同意」、「否決了」及「不贊同」的預設關鍵字為「不同意」,因此在最終翻譯的修正第二方文句中使用「不同意」。同理,三種使用語法結構:「其…他的」、「他的…其」與「其…其」,最終統一成預設語法結構「他的…其」。
預設關鍵字的選擇是本發明的另一個技術特徵。該預設關鍵字可以是對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前幾高者之一。實作上,會以機器學習演算法為主,例如使用TF-IDF演算法。這裡所謂的特定領域,比如某一地區,例如台灣;比如某一商業領域,例如販鞋業;比如某一學術領域,例如物理界。在該些特定領域,要翻譯的第一方文字會有特定的對應第二方文字,因此需要累積來自該領域的翻譯文句,進行反覆學習後獲得。當然,使用上最好使用頻率最高的字詞來當預設關鍵字。然而,這種單一的文字替換雖然符合市場需求,但未免單調。最好是動態選出使用頻率前2高、前3高、前4高或甚至前5高之一,這樣便會有2、3、4或5種動態變化。以上說明的是可程式化來進行預設關鍵字的選擇。本發明是可以進行商業化的利用,故某些客戶若為行銷需要,以某些字詞來吸引受眾目光,預設關鍵字可以是指定對應該第一方字詞的一特定第二方字詞。比如無論怎樣的情況下,「我」在翻譯後都轉換成「俺」。
同理,預設語法結構也可以是對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前幾高者之一,或是指定的對應該第一方文句型態的一特定第二方文句型態。其中,機器學習演算法可以是TF-IDF演算法,「前幾高」可以指的是「前2高」、「前3高」、「前4高」或「前5高」。
最後,將該修正第二方文句,傳送到一指定端(S07)。依照本發明,指定端可以是網路上的任何主機設備的URL,用以供他人訪問使用。指定端也可以是一個聯網或本機(伺服主機)上的儲存設備,用以暫時或永久儲存該修正第二方文句。
要注意的是,本方法可進一步於步驟S06後包含一步驟S06’:將該伺服主機內的一文字排版格式,套用在該修正第二方文句中。也就是對修正第二方文句進行排版編修。文字排版格式可以是,但不限於文句限定長度(單句超過一定數量單字要進行斷句處理)、斷句方式、標點符號使用方式、指定使用字形、指定插入非文字符號(比如加上†、∫等與原文譯無關的符號),或前述任二者以上之組合。
在本發明的另一個實施例中,提出了一種智能學習語詞編修與多國語言互譯的系統120。請見圖2與圖3。圖2為系統120之運作說明圖,圖3為該系統120之元件方框圖。系統120可安裝於一伺服主機100內,該伺服主機100可透過網路200與數個操作端連接。操作端可以是任何透過網路可以與伺服主機100互動並操控系統120的硬體設備,比如桌上型電腦201、筆記型電腦202、平板電腦203或智慧型手機204。為了操作方便,操作端可能會安裝一個行動應用程式或套裝軟體,或者是以瀏覽器展現系統120提供的操作介面,而這些軟體的操作可以透過系統120提供的API來進行。
如圖3所示,系統120包括了一翻譯文句取得模組121、一翻譯文句剖析模組122、一字詞語法修正模組123、一發布模組124、一文字排版模組125、一資料庫模組126,及一字詞文句推薦模組127。圖中連線表示有資料透過相連接或相關硬體而傳送。依照本發明,前述模組可以都是安裝於伺服主機100中的軟體,也可以是架設於伺服主機100中的外接板卡(硬體),更可以是部分為安裝於伺服主機100中的軟體、部分為架設於伺服主機100中的外接板卡。以軟體為例來說明,請見圖2。伺服主機100的硬體架構包含了一網路單元101(包含網路卡、RJ45接頭等硬體設備)、一輸出輸入單元102(包含IO控制置晶片組、相關IO接頭等)一控制單元103(比如CPU與相關控制電路)、一記憶體104(比如DRAM模組)與一儲存單元105(比如硬碟、固態硬碟或磁碟陣列)。系統120的程式碼在不運行時儲存於儲存單元105,待要運作時,透過作業系統110將必要資料暫存到記憶體104中,並由控制單元103依照需求讀取運行。
翻譯文句取得模組121可接受操作端(圖2中桌上型電腦201、筆記型電腦202、平板電腦203或智慧型手機204的單向虛線箭號代表指令的發出)的操作指令,以透過網路20執行向遠端一伺服器(比如一國外部落格伺服器400)取得至少一第一方文句、將該至少一第一方文句的編碼,透過至少3個翻譯平台(第一翻譯平台401、第二翻譯平台402與第三翻譯平台403)、所分別提供的API,傳送到該至少3個翻譯平台進行翻譯、分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼,及將該些第二方文句的編碼,轉換為對應的至少3句第二方文句。即,翻譯文句取得模組121可完成前一實施例中方法的步驟S01到步驟S04。
翻譯文句剖析模組122可運作以在來自翻譯文句取得模組121的該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構,其功能在完成前述方法的步驟S05。關聯關鍵字與使用語法結構的定義如上所述,此處不再贅述。
字詞語法修正模組123可運作以將一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句,其功能在完成前述方法的步驟S06。預設關鍵字與預設語法結構的定義及包含內容如上所述,此處不再贅述。
發布模組124可運作以將修正第二方文句,接受操作端的操作指令,透過網路20傳送到一指定端,完成前述方法的步驟S07。指定端比如一本地部落格伺服器500,上傳的該修正第二方文句可供其他人瀏覽。
文字排版模組125與字詞語法修正123模組連接,運作以將一文字排版格式,套用在該修正第二方文句中,並將更新的修正第二方文句回傳該字詞語法修正模組123。文字排版格式的定義如前一實施例所述,此處不再贅述。
資料庫模組106與字詞語法修正模組123及文字排版模組125連接,用以儲存、設定及更新預設關鍵字、預設語法結構及文字排版格式,以提供相關模組使用。資料庫模組106可以下分多各資料庫,以分別用於預設關鍵字、預設語法結構及文字排版格式的資料結構架設。
本發明之強調能智能學習語詞編修,主要是字詞文句推薦模組127提供的功能。字詞文句推薦模組127可運作來對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前幾高者之一、指定的對應該第一方字詞的一特定第二方字詞、對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前幾高者之一及/或是指定的對應該第一方文句型態的一特定第二方文句型態,並將運作結果儲存或更新於資料庫模組126中。「前幾高」的定義如上所述;實作上,字詞文句推薦模組127的功能也是以機器學習演算法為主,最好是TF-IDF演算法。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧伺服主機 101‧‧‧網路單元 102‧‧‧輸出輸入單元 103‧‧‧控制單元 104‧‧‧記憶體 105‧‧‧儲存單元 110‧‧‧作業系統 120‧‧‧系統 121‧‧‧翻譯文句取得模組 122‧‧‧翻譯文句剖析模組 123‧‧‧字詞語法修正模組 124‧‧‧發布模組 125‧‧‧文字排版模組 126‧‧‧資料庫模組 127‧‧‧字詞文句推薦模組 20‧‧‧網路 201‧‧‧桌上型電腦 202‧‧‧筆記型電腦 203‧‧‧平板電腦 204‧‧‧智慧型手機 400‧‧‧國外部落格伺服器 500‧‧‧本地部落格伺服器
圖1為依照本發明實施例的一種智能學習語詞編修與多國語言互譯的方法之流程圖;圖2為依照本發明的另一實施例的一種智能學習語詞編修與多國語言互譯的系統之運作說明圖;圖3為該智能學習語詞編修與多國語言互譯的系統之方框圖;及圖4為翻譯實例說明。

Claims (19)

  1. 一種智能學習語詞編修與多國語言互譯的方法,包含步驟: a)     透過網路向遠端一伺服器取得至少一第一方文句; b)    將該至少一第一方文句的編碼,透過至少3個翻譯平台所分別提供的API(Application Programming Interface,應用程式介面),分別傳送到該至少3個翻譯平台進行翻譯; c)     分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼至一伺服主機; d)    由該伺服主機將該些第二方文句的編碼,轉換為對應的至少3句第二方文句; e)     由該伺服主機從該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構; f)      將該伺服主機內的一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句;及 g)    將該修正第二方文句進傳送到一指定端。
  2. 如申請專利範圍第1項所述的智能學習語詞編修與多國語言互譯的方法,進一步於步驟f)後包含一步驟f1):將該伺服主機內的一文字排版格式,套用在該修正第二方文句中。
  3. 如申請專利範圍第2項所述的智能學習語詞編修與多國語言互譯的方法,其中該文字排版格式為文句限定長度、斷句方式、標點符號使用方式、指定使用字形、指定插入非文字符號,或前述任二者以上之組合。
  4. 如申請專利範圍第1項所述的智能學習語詞編修與多國語言互譯的方法,其中該關聯關鍵字為翻譯對應一第一方字詞的所有同詞性的第二方字詞。
  5. 如申請專利範圍第1項所述的智能學習語詞編修與多國語言互譯的方法,其中該使用語法結構由下列至少一所形成:語句翻譯規則、名詞單複數翻譯規則、名詞陰陽性翻譯規則與冠詞翻譯規則。
  6. 如申請專利範圍第1項所述的智能學習語詞編修與多國語言互譯的方法,其中該預設關鍵字是對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一,或是指定的對應該第一方字詞的一特定第二方字詞。
  7. 如申請專利範圍第1項所述的智能學習語詞編修與多國語言互譯的方法,其中該預設語法結構是對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一,或是指定的對應該第一方文句型態的一特定第二方文句型態。
  8. 如申請專利範圍第6項或第7項所述的智能學習語詞編修與多國語言互譯的方法,其中N為2、3、4或5。
  9. 如申請專利範圍第6項或第7項所述的智能學習語詞編修與多國語言互譯的方法,其中該機器學習演算法為TF-IDF演算法。
  10. 一種智能學習語詞編修與多國語言互譯的系統,安裝於一伺服主機內,該伺服主機透過網路與一操作端連接,包含: 一翻譯文句取得模組,接受該操作端的操作指令,以透過網路向遠端一伺服器取得至少一第一方文句、將該至少一第一方文句的編碼,透過至少3個翻譯平台所分別提供的API,傳送到該至少3個翻譯平台進行翻譯、分別由該至少3個翻譯平台,取得該第一方文句經翻譯後的一第二方文句的編碼,及將該些第二方文句的編碼,轉換為對應的至少3句第二方文句; 一翻譯文句剖析模組,運作以在來自該翻譯文句取得模組的該些第二方文句中選取出關聯關鍵字及分析各別的使用語法結構; 一字詞語法修正模組,運作以將一預設關鍵字及一預設語法結構,取代該關聯關鍵字及使用語法結構,以便獲得一修正第二方文句;及 一發布模組,運作以將該修正第二方文句,接受該操作端的操作指令,透過網路傳送到一指定端。
  11. 如申請專利範圍第10項所述的智能學習語詞編修與多國語言互譯的系統,進一步包含一文字排版模組,與該字詞語法修正模組連接,運作以將一文字排版格式,套用在該修正第二方文句中,並將更新的修正第二方文句回傳該字詞語法修正模組。
  12. 如申請專利範圍第11項所述的智能學習語詞編修與多國語言互譯的系統,其中該文字排版格式為文句限定長度、斷句方式、標點符號使用方式、指定使用字形、指定插入非文字符號,或前述任二者以上之組合。
  13. 如申請專利範圍第11項所述的智能學習語詞編修與多國語言互譯的系統,進一步包含一資料庫模組,該資料庫模組與該字詞語法修正模組及該文字排版模組連接,用以儲存、設定及更新該預設關鍵字、該預設語法結構及該文字排版格式,以提供相關模組使用。
  14. 如申請專利範圍第13項所述的智能學習語詞編修與多國語言互譯的系統,進一步包含一字詞文句推薦模組,運作以對一第一方字詞的所有翻譯對應的第二方字詞,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一、指定的對應該第一方字詞的一特定第二方字詞、對一第一方文句型態的所有翻譯對應的第二方文句型態,經由統計運算演算法或機器學習演算法在以往於一特定領域內的翻譯資料中,選出使用頻率最高者或動態選出使用頻率前N高者之一及/或是指定的對應該第一方文句型態的一特定第二方文句型態,並將運作結果儲存或更新於該資料庫模組中。
  15. 如申請專利範圍第14項所述的智能學習語詞編修與多國語言互譯的系統,其中該翻譯文句取得模組、該翻譯文句剖析模組、該字詞語法修正模組、該發布模組、該文字排版模組、該資料庫模組與該字詞文句推薦模組為安裝於伺服主機中的軟體、架設於伺服主機中的外接板卡,或部分為安裝於伺服主機中的軟體部分為架設於伺服主機中的外接板卡。
  16. 如申請專利範圍第14項所述的智能學習語詞編修與多國語言互譯的系統,其中N為2、3、4或5。
  17. 如申請專利範圍第14項所述的智能學習語詞編修與多國語言互譯的系統,其中該機器學習演算法為TF-IDF演算法。
  18. 如申請專利範圍第10項所述的智能學習語詞編修與多國語言互譯的系統,其中該關聯關鍵字為翻譯對應一第一方字詞的所有同詞性的第二方字詞。
  19. 如申請專利範圍第10項所述的智能學習語詞編修與多國語言互譯的系統,其中該使用語法結構由下列至少一所形成:語句翻譯規則、名詞單複數翻譯規則、名詞陰陽性翻譯規則與冠詞翻譯規則。
TW107130698A 2018-08-31 2018-08-31 智能學習語詞編修與多國語言互譯的系統與方法 TWI685759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107130698A TWI685759B (zh) 2018-08-31 2018-08-31 智能學習語詞編修與多國語言互譯的系統與方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107130698A TWI685759B (zh) 2018-08-31 2018-08-31 智能學習語詞編修與多國語言互譯的系統與方法

Publications (2)

Publication Number Publication Date
TWI685759B true TWI685759B (zh) 2020-02-21
TW202011227A TW202011227A (zh) 2020-03-16

Family

ID=70413149

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107130698A TWI685759B (zh) 2018-08-31 2018-08-31 智能學習語詞編修與多國語言互譯的系統與方法

Country Status (1)

Country Link
TW (1) TWI685759B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215015A (zh) * 2020-09-02 2021-01-12 文思海辉智科科技有限公司 翻译文本修订方法、装置、计算机设备和存储介质
TWI760234B (zh) * 2021-05-25 2022-04-01 仁寶電腦工業股份有限公司 翻譯方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201214157A (en) * 2010-09-21 2012-04-01 Inventec Corp Translation system based on intermediary language and method thereof
TW201220088A (en) * 2010-11-03 2012-05-16 Inst Information Industry Text conversion method and system
US20120271828A1 (en) * 2011-04-21 2012-10-25 Google Inc. Localized Translation of Keywords
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201214157A (en) * 2010-09-21 2012-04-01 Inventec Corp Translation system based on intermediary language and method thereof
TW201220088A (en) * 2010-11-03 2012-05-16 Inst Information Industry Text conversion method and system
US20120271828A1 (en) * 2011-04-21 2012-10-25 Google Inc. Localized Translation of Keywords
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215015A (zh) * 2020-09-02 2021-01-12 文思海辉智科科技有限公司 翻译文本修订方法、装置、计算机设备和存储介质
TWI760234B (zh) * 2021-05-25 2022-04-01 仁寶電腦工業股份有限公司 翻譯方法
US11783137B2 (en) 2021-05-25 2023-10-10 Compal Electronics, Inc. Translation method and translation device

Also Published As

Publication number Publication date
TW202011227A (zh) 2020-03-16

Similar Documents

Publication Publication Date Title
US7120702B2 (en) System and method for transcoding web content for display by alternative client devices
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
TW558683B (en) System and method for incorporating semantic characteristics into the format-driven syntactic document transcoding framework
US11914627B1 (en) Parsing natural language queries without retraining
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
US8612206B2 (en) Transliterating semitic languages including diacritics
US11423089B2 (en) System and method for determining application programming interface and object bindings on natural language processed inputs
US10303689B2 (en) Answering natural language table queries through semantic table representation
WO2022143105A1 (zh) 文本生成模型生成方法、文本生成方法、装置及设备
JP2015201169A (ja) 多様な意味カテゴリに基づいた翻訳結果提供方法およびシステム
US11748564B2 (en) Text-to-speech enriching system
TWI685759B (zh) 智能學習語詞編修與多國語言互譯的系統與方法
CN114625349A (zh) 前端页面生成方法、装置、终端设备及存储介质
US20240095767A1 (en) System and method for domain name valuation
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체
Bala Das et al. Multilingual Neural Machine Translation for Indic to Indic Languages
KR20200017600A (ko) 번역 서비스 제공 장치 및 방법
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN114595702A (zh) 一种文本翻译模型训练方法、文本翻译方法及相关装置
Habash et al. Mada+ tokan manual
Šostaka et al. The Semi-Algorithmic Approach to Formation of Latvian Information and Communication Technology Terms.
US12001809B1 (en) Selectively tuning machine translation models for custom machine translations
US11397862B2 (en) Configuring metrics and recall levels for natural language processing annotator
US20240176962A1 (en) CROSS-LINGUAL NATURAL LANGUAGE UNDERSTANDING MODEL FOR MULTI-LANGUAGE NATURAL LANGUAGE UNDERSTANDING (mNLU)