TWI457868B - 機器翻譯譯文之自動修飾方法 - Google Patents
機器翻譯譯文之自動修飾方法 Download PDFInfo
- Publication number
- TWI457868B TWI457868B TW097108746A TW97108746A TWI457868B TW I457868 B TWI457868 B TW I457868B TW 097108746 A TW097108746 A TW 097108746A TW 97108746 A TW97108746 A TW 97108746A TW I457868 B TWI457868 B TW I457868B
- Authority
- TW
- Taiwan
- Prior art keywords
- translation
- machine translation
- machine
- modification
- language
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Description
本發明係有關於一種機器翻譯譯文之自動修飾方法,尤其是指一種可避免現行人工不斷修改同樣錯誤,以節省人工修改及有效累積所修改譯文錯誤之知識的機器翻譯譯文之自動修飾方法。
隨著網路普及化以及各國交流密切,翻譯數量愈來愈多,馮志偉〔2004〕表示根據世界翻譯市場的調查顯示,翻譯市場在2005年達到227億美金,而中國的翻譯市場為200億人民幣〔大約23億美金〕。2007年,光是網頁的翻譯業務就達到17億美元的產值〔馮志偉2004,5〕。而面臨如此龐大的翻譯數量,翻譯產業必須克服如何讓資訊合乎時效〔翻譯速度〕以盡量降低成本,來提升自己翻譯產業的競爭力,於是傳統的人工翻譯已經不能滿足實際的需要,反而是機器翻譯儼然成為趨勢。
「機器翻譯」意指軟體可以自動將一種語言轉換為另一種語言,其優勢在於操作非常方便,即輸入原文或複製原文到翻譯的功能格中,按鍵後立即出現譯文。目前市面上的機器翻譯軟體例如「Systran」〔http://www.systransoft.com/index.html〕,「賽迪環宇通」翻譯系統〔http://www.ccidtrans.com〕、「譯典通」翻譯軟體〔http://www.dreye.com/tw〕等等。
又,機器翻譯的優點在於翻譯一萬詞大約只需15至20分鐘,而針對同一翻譯數量以人力翻譯可能需要3至4天時間,再者,機器翻譯的成本也低於人力;但是機器翻譯的譯文品質不佳,導致翻譯後之譯文需要校正與修飾。雖然機器翻譯已經超越「比
對方式」,並且利用有系統的句法分析,得以將一種語言翻譯成另一種語言,但是以外文翻譯成中文而言,機器翻譯常常依照外文句型排列方式翻譯成中文,無法將外文句型結構轉換成通順的中文句型結構,因此其所翻譯的中文譯文常常不通順,甚至無法理解。
值得研發機器譯文自動修飾軟體的原因在於:
〔1〕語言有固定量的句型、尤其科技語言比文學語言規律性高,適合執行機器翻譯:由於一種語言擁有一定數量的句型,而由一句型可以發展為不同句子,造成語言句型常常重複,於是在語言應用中常常出現許多重複的句子,尤其科技語言處理固定的專業領域以及注重事實的呈現,比較文學語言,科技語言表達重複性高,因此科技語言更適合由機器翻譯來執行翻譯工作。由於語言的重複性,而且機器翻譯的翻譯模式固定,造成機器譯文錯誤重複性高,因此更能夠掌握翻譯錯誤的規律性,而值得執行譯文修飾研究。就如學者的研究結果顯示:「同一部專著中有大量相同或相似的語句,…主要有兩方面原因:一、著作者個人的語言習慣…二、專業知識的規範統一表述」〔柏曉靜/俞士汶2006,80〕。華語是個重視語意,而比較不重視形式的語言,在華語專業文章中已出現很多重複語句,在外文的情況更是如此。
柏曉靜/俞士汶〔2006〕認為不僅同一專業著作內有重複語句,即使是不同專業著作也有類似的語句:「同一部專著中語句的相似性是專著系統性和理論性的表現,而不同的專著之間語句的相似性則是專著規範性的需要」。
再者,其他學者亦有相同的研究結果:「由於專業翻譯領域所
涉及的翻譯資料數量巨大,而範圍相對狹窄。這就必然帶來翻譯資料的不同程度的重複。據統計,在不同行業和部門,這種資料的重複率達到20%~70%不等。」〔www.china.netat.net/fywx/trados/2006-05-18/65.html〕。
〔2〕機器翻譯的錯誤重覆性高,容易掌握其錯誤典型:由於機器翻譯的產出是由固定的模式與機制所控制,所以產出的錯誤具有高度的重覆性及規律性,造成翻譯員必須一直修改同樣的錯誤。
〔3〕由於機械翻譯的錯誤規律性高,可研發自動機器譯文修改軟體:可經由具體修改步驟執行錯誤更正、進而將修改的步驟提升為研發自動機器譯文修改軟體。譯文需要費人力修改,由於機器翻譯的錯誤很有規律,可以研發全自動的修改機制,修正重複的錯誤,節省修改人力。
或許,翻譯軟體公司假以時日研發技術改善,機器翻譯的譯文錯誤會減少,但目前的翻譯軟體的內部複雜,常常修改一項規則後,雖然解決現存問題,但是仍會產生新的問題〔李維1996,2〕。Quah也有同樣看法,機器翻譯增加新規則常導致功能不穩定:"[A rule based machine translation…and may produce inconsistent results when new linguistic rules are added”〔Quah 2006,84-85〕。再者,翻譯軟體多年來仍無法改善譯文品質,所以才出現許多譯文修改研究〔Schäfer 2003,Allen 2003,Krings 2001〕以及出現很多機器譯文修改的服務公司〔例如:vialanguage公司〔http://www.heisoft.de/partner/vialang/index.htm〕,Toggletext-Post-editing Service〔http://www.toggletext.com/post_editing.php〕,Pre & Post
Editing Services〔http://www.per-se.com/pharmacy/chain/net_ppes.cfm〕等等〕。因此翻譯軟體要提升翻譯品質似乎不是短短幾十年可達成。
目前針對機器翻譯的錯誤譯文,大都使用手工修改,即利用機器翻譯產生的翻譯譯文中所出現的錯誤,透過人工修正,然而此種修正方式不但修改的知識無法累積,而且由於機器翻譯的同一錯誤會不斷重複出現,造成人工不斷的修改機器翻譯所產生的重複錯誤,導致人力的浪費。
雖然有些翻譯軟體開放給使用者修改翻譯譯文,例如若是機器翻譯對某個詞彙常常選錯詞義,使用者可以輸入該詞的正確意義,機器翻譯軟體會儲存起來,之後遇到該辭彙,即選用使用者修改過的意思,但是開放使用者可修改翻譯譯文之功能,僅限於詞彙意思的修改,無法針對其他錯誤,例如文法錯誤以及搭配詞的錯誤等等,而且開放給使用者修改翻譯譯文的功能,仍然脫離不了人力的修改。
有鑑於此,提供一種創新的機器譯文自動修飾之模式,以期取代現行人工修改機器譯文之所有缺失者。
本發明之主要目的係提供一種機器翻譯譯文之自動修飾方法,其達成減少人工修改譯文工作量或取代人工修改譯文工作之目的。
本發明之機器翻譯譯文之自動修飾方法,其在於:
〔1〕分析機器譯文類型:首先將雙語對照的專業文本建立語料庫,再讓同樣原文〔第
一語原文〕經過三種或數種主要的翻譯軟體〔例如:Babylon,Google,Wordling〕或數個翻譯軟體,產出同一原文〔第一語原文〕的三種或數種機器譯文〔第二語機器譯文〕。藉由同一原文〔第一語原文〕的正確中文比較機器譯文〔第二語機器譯文〕,可自動比對其中差異以及錯誤,分析出重複出現的三種或數種不同機器譯文的共同錯誤類型以及其頻率。
〔2〕建置機器譯文錯誤類型知識庫:掌握專業領域的原文〔第一語原文〕內容、機器翻譯的錯誤典型以及機器翻譯錯誤典型修改模式之間係數〔即掌握專業領域的原文〔第一語原文〕出現哪些機器譯文錯誤以及其修改模式〕,並且儲存為知識庫,以便遇到同一專業的新的機器譯文〔第二語機器譯文〕錯誤,可以自動比對錯誤,並且自動修改。修改建議可以自動採用語料庫的同一原文〔第一語原文〕之正確中文,或者經由人工修改後,儲存為錯誤修改基準。
另外,依照專業領域不同,建置不同的機器譯文〔第二語機器譯文〕錯誤類型知識庫。其原因在於限定某個專業領域〔例如:手機使用手冊,電腦使用手冊,醫學病情分析等等〕依照其專業領域各自建置知識庫,其之主要目的係為降低同一語言表達的多義性,例如:某個詞彙在各個領域有不同的意思,若是限定為某個專業領域,該詞可能只有一個或者少數意思,進而達到修改模式更加準確。
〔3〕機器譯文自動修改:若是同一表達依照不同上下文而有不同的修改模式,可以依據統計數據的頻率,決定在特定上下文中,選擇在某特定搭配的
情況下出現頻率最高之修改模式,即依照統計數據,修改軟體自動挑選適合的修改模式。
即本發明機器翻譯譯文之自動修飾方法,係藉由分析比對專業文本的原文〔第一語原文〕之正確譯文〔第二語正確譯文〕和同一原文〔第一語原文〕的機器翻譯譯文〔第二語機器譯文〕,掌握各種機器翻譯錯誤,再利用歸納方式將相同的機器翻譯譯文〔第二語機器譯文〕錯誤歸納為同一類型。此外,藉由比對同一外文原文之正確譯文〔第二語正確譯文〕和同一原文的機器翻譯譯文〔第二語機器譯文〕,可掌握機器翻譯譯文〔第二語機器譯文〕錯誤類型之修改模式;其中,同一外文原文之正確譯文〔第二語正確譯文〕即為同一原文的機器翻譯譯文〔第二語機器譯文〕錯誤的修改基準,因此藉由比對正確譯文〔第二語正確譯文〕以及同一原文的機器翻譯譯文〔第二語機器譯文〕錯誤之落差,可掌握機器翻譯譯文〔第二語機器譯文〕錯誤的修改步驟,再者,針對重複出現的機器翻譯譯文〔第二語機器譯文〕錯誤類型之修改步驟可轉化為軟體程式〔即機器翻譯譯文〔第二語機器譯文〕錯誤修改模式〕,而將各種機器翻譯譯文〔第二語機器譯文〕修改模式轉換為軟體程式〔知識〕後,再建置「機器譯文修飾知識庫」,該「機器譯文〔第二語機器譯文〕修飾知識庫」中收集大量的專業原文〔第一語原文〕、原文〔第一語原文〕的各種機器翻譯譯文〔第二語機器譯文〕以及同一原文之正確中文譯文〔第二語正確譯文〕,而該「機器譯文〔第二語機器譯文〕修飾知識庫」收集同一原文〔第一語原文〕的不同機器翻譯軟體之機器翻譯譯文〔第二語機器譯文〕的用意,係為便於所研發的機器翻譯
譯文〔第二語機器譯文〕修改軟體可以修改各種機器翻譯軟體的機器翻譯譯文〔第二語機器譯文〕錯誤。再者,測試同一專業領域之新文章,若測試結果未達預期效果,則增加同一專業領域的修改範例以及模式,使機器翻譯修改能夠更趨於正確之譯文,並直到測試結果滿意為止,以便日後自動修改機器翻譯譯文之錯誤。
本發明之機器翻譯譯文之自動修飾方法,包含步驟:提供一第一語原文;提供一第二語機器譯文,該第二語機器譯文對應於該第一語原文;定義至少一錯誤類型,該錯誤類型對應於該第二語機器譯文;選擇執行至少一修改模式,依該錯誤類型選擇該修改模式;及產生一第二語正確譯文。
本發明之機器翻譯譯文之自動修飾系統包含數個關係模型,每個該關係模型具有至少一第一語原文結構、至少一第二語機譯譯文結構、至少一錯誤類型、至少一第二語正確譯文結構及至少一修改模式;其中在該關係模型中對於該第一語原文結構可依該第二語機譯譯文結構及錯誤類型決定該修改模式,以產生該第二語正確譯文結構。
而為令本發明之技術手段能夠更完整且清楚的揭露,茲請一併參閱所附圖式及圖號,並詳細說明如下:
首先,請參閱第一圖所示,其係為本發明執行架構機器翻譯譯文之自動修飾系統之流程示意圖,執行架構自動機器譯文修飾系統的步驟,係如下:
〔a〕蒐集〔11〕:利用網路代理人在網路上蒐集某專業領域的外文〔第一語〕以及中文〔第二語〕對照資料〔即外文版以及中文版本〕。並且讓同一外文資料,利用多種機器翻譯軟體產生各種機器翻譯錯誤。
〔b〕分析〔12〕:比較同一專業文本的正確譯文〔中文版本,第二語正確譯文〕以及機器翻譯錯誤譯文〔第二語機器譯文〕,以藉此分析得到各種機器譯文之錯誤類別。
〔c〕歸納〔13〕:由於專業語言重複性高以及機器翻譯模式固定,其產生之錯誤亦會重複出現,故將重複出現的機譯錯誤歸為同一類型。
〔d〕修改〔14〕:藉由比對機譯錯誤類型以及其正確中文譯文〔第二語正確譯文〕之間的落差,並以正確中文譯文〔第二語正確譯文〕為修改基準,研發各機器翻譯錯誤類型的修改步驟,且將此修改步驟程式化,以成為機器翻譯錯誤修改模式。
〔e〕建立關係模型〔15〕:將機器翻譯錯誤類型、其外文原文、其正確中文以及其修改模式連接一起,並且分析外文原文〔第一語原文〕共有哪些句型結構,機器翻譯譯文〔第二語機器譯文〕錯誤類型共出現哪些句型結構以及遇到哪個機器翻譯錯誤類型應該採用哪些修改模式。由於將同一外文〔第一語原文〕的機器錯誤類型以及應該使用哪些修改模式〔即軟體修改程式〕為依據,組成複數個相異的關係模型,因此日後遇到新的專業文本〔
句型結構〕時,分析專業文本的原文句型結構、正確譯文與機器翻譯之譯文錯誤類型,就可以預知會出現哪些機器翻譯錯誤,同時遇到新的機器翻譯錯誤〔句型結構〕,就可以知道應該取用對應的關係模型以採用哪個修改模式;如下表所示者即組成3組同一外文的機器錯誤類型以及應該使用哪些修改模式之關係模型〔1G、2G、3G〕,每一組關係模型〔1G、2G、3G〕均有其對應的原文〔第一語原文〕結構〔F1、F2、F3〕、機譯譯文〔第二語機器譯文〕結構〔C1、C2、C3〕、錯誤類型〔E1、E2、E3〕、正確中文〔第二語正確譯文〕結構〔CC1、CC2、CC3〕以及修改模式〔CM1、CM2、CM3〕;俾當在分析原文句型結構後,即可對應預知機器翻譯譯文錯誤之類型,同時藉由對應參照之正確中文句型結構,得到應該對應採用的修改模式,藉以使機器翻譯之譯文能夠更符合正確之中文譯文〔第二語正確譯文〕。
其中,G:group關係模型;F:foreign language外文原文〔第一語原文〕;C:Chinese機器翻譯錯誤句型結構;E:error〔錯誤類型〕;
CC:correct Chinese〔正確中文或第二語正確譯文〕;CM:corrector-model〔修改模式〕。
表一顯示本發明較佳實施例之機器翻譯譯文之自動修飾系統包含三個關係模型〔表一之第一欄〕,但其並非用以限制本發明。請參閱第二圖及表一所示,每個該關係模型具有一第一語原文結構〔表一之第二欄〕、一第二語機譯譯文結構〔表一之第三欄〕、一錯誤類型〔表一之第四欄〕、一第二語正確譯文結構〔表一之第五欄〕及一修改模式〔表一之第六欄〕,其中在該關係模型中對於該第一語原文結構可依該第二語機譯譯文結構及錯誤類型決定該修改模式,以產生該第二語正確譯文結構。本發明另一較佳實施例之機器翻譯譯文之自動修飾系統包含數個關係模型。
〔f〕建置機器譯文修飾知識庫〔16〕:收集大量的專業領域的原文〔第一語原文〕內容、原文內容的各種機器翻譯譯文〔第二語機器譯文〕以及同一原文內容之正確中文譯文〔第二語正確譯文〕,並建立機器翻譯譯文〔第二語機器譯文〕與原文〔第一語原文〕內容及正確中文譯文〔第二語正確譯文〕間之關係,以藉由掌握經分析及建立專業領域原文內容、機器翻譯的錯誤典型以及機器翻譯修改模式間之關係係數,建置該機器譯文修飾知識庫。收集同一原文的不同機器翻譯軟體之機器翻譯譯文的用意,係為便於所研發的機器翻譯譯文修改軟體可以修改各種機器翻譯軟體的機器翻譯譯文錯誤。
〔g〕測試〔17〕:機器譯文修飾知識庫建置後,測試同一專業領域之新文章,若測試結果未達預期效果,增加同一專業領域的修改範例以及模式,直到測試結果滿意為止。
請參照表一所示,本發明之機器翻譯譯文之自動修飾方法,包含步驟:提供一第一語原文〔表一之第二欄〕,如第二圖所示,;提供一第二語機器譯文〔表一之第三欄〕,該第二語機器譯文對應於該第一語原文;定義至少一錯誤類型〔表一之第四欄〕,該錯誤類型對應於該第二語機器譯文;選擇執行至少一修改模式〔表一之第六欄〕,依該錯誤類型選擇該修改模式;及產生一第二語正確譯文〔表一之第五欄〕。
本發明執行架構機器翻譯譯文之自動修飾系統,其係藉由分析比對專業文本的原文〔第一語原文〕之正確譯文〔第二語正確譯文〕和同一原文〔第一語原文〕的機器翻譯譯文〔第二語機器譯文〕,掌握各種機器翻譯錯誤,再利用歸納將相同的機器翻譯譯文〔第二語機器譯文〕錯誤歸納為同一類型。此外,藉由比對同一外文原文之正確譯文〔第二語正確譯文〕和同一原文的機器翻譯譯文〔第二語機器譯文〕,可掌握機器翻譯譯文〔第二語機器譯文〕錯誤類型之修改模式;其中,同一外文原文之正確譯文〔第二語正確譯文〕即為同一原文的機器翻譯譯文〔第二語機器譯文〕錯誤的修改基準,因此藉由比對正確譯文〔第二語正確譯文〕以及同一原文的機器翻譯譯文〔第二語機器譯文〕錯誤之落差,可掌握機器翻譯譯文〔第二語機器譯文〕錯誤的修改步驟,再者,針對重複出現的機器翻譯譯文〔第二語機器譯文〕錯誤類型之修改步驟可轉化為軟體程式〔即機器翻譯譯文〔第二語機器
譯文〕錯誤修改模式〕,而將各種機器翻譯譯文〔第二語機器譯文〕修改模式轉換為軟體程式〔知識〕後,再建置「機器譯文修飾知識庫」,且測試同一專業領域之新文章,若測試結果未達預期效果,增加同一專業領域的修改範例以及模式,直到測試結果滿意為止,以方便日後自動修改機器翻譯譯文〔第二語機器譯文〕錯誤。
由於本「機器譯文修飾知識庫」的每一句原文〔第一語原文〕連接機器翻譯譯文〔第二語機器譯文〕以及正確譯文〔第二語正確譯文〕,藉由掌握原文〔第一語原文〕、機器翻譯譯文〔第二語機器譯文〕以及同一原文之正確譯文〔第二語正確譯文〕之間的關係係數〔即遇到哪種原文就會出現哪種機器翻譯錯誤類型以及應該使用哪個修改模式〕,就可達成機器翻譯譯文〔第二語機器譯文〕修改自動之機制。亦即藉由語法以及語意分析軟體〔例如:Morphix多語版〕將專業原文〔第一語原文〕、機器翻譯譯文〔第二語機器譯文〕以及正確譯文〔第二語正確譯文〕標名其每句的每個詞彙之文法以及語意,藉此可得知每句的句型結構〔例如:Na-Vi-P-Na:名詞-不及物動詞-介系詞-名詞〕。藉由歸納統計可以得知專業原文〔F〕、機器翻譯譯文〔E〕以及正確譯文〔C〕各常出現哪些句型結構。由於本「機器譯文修飾知識庫」的每一句原文〔F〕連接機器翻譯譯文〔E〕、正確譯文〔C〕以及機器翻譯修改模式〔M〕,因此經由歸納以及統計可以掌握這些元素之間的關係係數,例如:遇到哪種原文句型結構〔F1〕會出現哪種機器翻譯譯文錯誤〔E1〕以及應該採用那種機器翻譯修改模式〔M1〕。
若是利用句子結構無法辨識機器翻譯錯誤,例如:同一句型結構〔Na-Vi-P-Na:名詞-不及物動詞-介系詞-名詞〕,但是有不同錯誤類型,即同一句型結構雖均有介系詞,但是使用不同介系詞而出現的錯誤〔decide for和decide on〕,此時會用更細的範疇〔即語言的搭配關係,即以語言的表達組合為辨識基準〕以達到更準確辨識以及修改機器翻譯錯誤。
請參閱第三圖所示,其係為本發明機器翻譯譯文之自動修飾系統之處理流程方塊圖。
以下以資訊科技使用手冊為例進一步說明:
〔a〕利用機器翻譯軟體將外文的科技使用手冊翻譯成中文:由於本發明針對多數的機器翻譯軟體所出現的譯文錯誤之自動修改軟體,期望能解決多種翻譯軟體的譯文錯誤,因此這裡引用多種機器翻譯的譯文。首先,利用三種或數種機器翻譯軟體〔例如:Wordling翻譯軟體、Babylon巴比倫翻譯軟體以及Google翻譯軟體〕將外文資訊科技使用手冊〔各種電腦使用手冊、各種軟體使用手冊、各種手機使用手冊等等〕翻譯成中文之機器翻譯譯文〔第二語機器譯文〕。即使用三種或數種翻譯軟體,經由大量分析機器翻譯譯文〔第二語機器譯文〕之錯誤可平衡不同翻譯軟體譯文之個別特性,再利用SQL資料庫軟體連接外文原文〔第一語原文〕、機器翻譯譯文〔第二語機器譯文〕及正確中文譯文〔第二語正確譯文〕,以便於在找到外文原文〔第一語原文〕時,其機器翻譯譯文〔第二語機器譯文〕及正確中文譯文〔第二語正確譯文〕同時出現,而有利於執行分析。
〔b〕比較中文之機器翻譯譯文以及科技使用手冊中文版的中文,分析機器翻譯譯文的錯誤類型:依照理論,針對同一外文原文的中文機器翻譯譯文以及人工中文譯文應該類似。因此,藉由比較同一原文內容的正確中文譯文〔第二語正確譯文〕以及中文機器翻譯譯文〔第二語機器譯文〕之間的落差,便可分析出機器翻譯譯文〔第二語機器譯文〕的各類錯誤。將大量分析機器翻譯所得的重複錯誤作為錯誤類型,並將譯文錯誤的各類類型標誌後,依照所分析之錯誤類型,研究修改譯文錯誤的修改步驟,進而將修改步驟歸納為各個修改譯文錯誤的模式。
〔c〕利用統計分析原文跟機器翻譯錯誤典型之間的關係係數,以便於掌握遇到哪些外文原文,機器翻譯會出現哪些錯誤典型:首先,將所擷取出來的各種機器譯文錯誤類型,利用Morphix〔文法語意分析軟體〕分析機器翻譯錯誤類型的各個詞彙,自動標明詞類〔例如:名詞、動詞、介系詞等等〕以及分析機器翻譯錯誤類型的句子結構,並且確定機器翻譯錯誤類型共有哪些句型結構。由於機器翻譯有固定的翻譯模式,因此遇到同一原文會產生相同的譯文以及相同的錯誤。藉由外文原文〔第一語原文〕以及機器翻譯譯文〔第二語機器譯文〕的句子結構之間的差異以及差異的規律性,所以可以找出其句子結構的差異關連性,即哪些外文原文的句子結構下,會出現哪種機器翻譯譯文〔句子結構〕。此一方式可便於達到機器翻譯錯誤之修改自動。
〔d〕掌握機器翻譯錯誤譯文以及修改模式之間的關係係數
,以便遇到哪些機器翻譯錯誤類型應該採用哪些修改模式:藉由比較機器翻譯錯誤之中文譯文以及正確中文〔使用手冊中文版〕,得到其語言的差異〔機器翻譯譯文的錯誤〕,並且以正確中文〔使用手冊中文版〕為機器翻譯譯文修改的基準,得到常出現的機器翻譯錯誤類型的修改步驟。即透過比對同一原文的機器翻譯錯誤和正確中文譯文就可得知其落差,將此機器翻譯譯文錯誤〔語言落差〕依照正確中文譯文〔使用手冊中文版〕修改,因此得知如何修改機器翻譯錯誤之譯文為正確譯文,而同一錯誤類型的修改步驟程式化後將變成修改模式軟體。即藉由比對分析以及歸類可以得知哪種錯誤類型適用於哪種修改模式,進而掌握遇到哪些機器翻譯錯誤類型應該使用哪種修改模式。
〔e〕藉由掌握外文原文、機器翻譯錯誤類型以及譯文錯誤類型之修改模式之間的關係係數〔即遇到那些外文表達會出現那些中文的機器譯文錯誤以及應該採用哪些修改模式〕,以便研發機器翻譯修改軟體:藉由掌握外文原文〔第一語原文〕共有哪些句型結構,機器中文譯文錯誤類型共出現哪些句型結構以及遇到哪個錯誤類型應該採用哪些修改模式,找出外文原文〔第一語原文〕、機器翻譯中文錯誤類型、修改模式之間的句子結構的差異關連性,以在哪些外文原文的句子結構下,能夠預知將會出現哪種機器翻譯譯文〔句子結構〕,同時應該採用哪個修改模式〔正確句子結構〕,以使外文原文經機器翻譯後之中文譯文能夠趨近於正確之中文版本。即藉由比對同一原文的機器翻譯句型以及正確中文句型,就知道哪些地方出了落差,以便快速找出落差的地方並進行修改。
若是依靠句型無法找出其中落差,例如:機器翻譯句型跟正確中文句型結構一樣〔例如:句型正確,只是介系詞選錯時〕,可以採用更精細的語言搭配來判斷。
〔f〕收集大量科技領域之原文內容及該原文內容的各種機器翻譯譯文與同一原文內容之正確中文譯文,以建置「機器翻譯譯文修飾之軟體知識庫」:藉由所收集之大量科技領域之原文內容及該原文內容的各種機器翻譯譯文與同一原文內容之正確中文譯文,經分析後,建立其機器翻譯譯文〔第二語機器譯文〕的錯誤典型與原文內容、正確中文譯文〔第二語正確譯文〕以及機器翻譯修改模式間之關係係數,以完成該機器譯文修飾知識庫之建置。
〔g〕反覆不斷測試同一專業科技領域之新文章,使機器翻譯之譯文最終能夠達到近似於正確之中文譯文:藉由不斷的以同一專業科技領域之新文章測試,以進行累積並修改可能發生的機器翻譯錯誤譯文,即若測試結果未達預期效果,便增加測試同一專業科技領域的新文章,以累積修改範例以及模式,直到測試結果機器翻譯之譯文接近正確中文譯文時,便可結束測試,此後,若遇到同一專業科技領域的新文章時,如新的外文原文句型結構為F1,便可以預測該原文經過機器翻譯軟體會產生E1錯誤,再藉由「機器翻譯譯文修飾之軟體知識庫」得知遇到機器翻譯錯誤類型E1,需採用修改模式M1,促使機器翻譯軟體所翻譯之中文譯文變成正確中文〔第二語正確譯文〕。
又,本發明之模式不但可以應用於其他個別專業領域〔例如:建築、醫學、化學等等〕,而且適合多語言化之機器翻譯錯誤
修改,即日後可以研發多語的機器翻譯錯誤修改自動,例如:英對中,或者法對德,英對德等等。
前述之實施例或圖式並非限定本發明之流程樣態,任何所屬技術領域中具有通常知識者之適當變化或修飾,皆應視為不脫離本發明之專利範疇。
〔11〕‧‧‧蒐集
〔12〕‧‧‧分析
〔13〕‧‧‧歸納
〔14〕‧‧‧修改
〔15〕‧‧‧建立關係模型
〔17〕‧‧‧測試
〔16〕‧‧‧建置機器譯文修飾知識庫
第一圖:本發明執行架構機器翻譯譯文之自動修飾系統之流程示意圖。
第二圖:本發明之關係模型之處理流程方塊圖。
第三圖:本發明機器翻譯譯文之自動修飾系統之處理流程方塊圖。
〔11〕‧‧‧蒐集
〔12〕‧‧‧分析
〔13〕‧‧‧歸納
〔14〕‧‧‧修改
〔15〕‧‧‧建立關係模型
〔17〕‧‧‧測試
〔16〕‧‧‧建置機器譯文修飾知識庫
Claims (2)
- 一種機器翻譯譯文之自動修飾方法,其架構流程包含:〔a〕蒐集:蒐集某專業領域的外文以及欲翻譯之譯文對照資料,並且讓同一外文資料,利用多種機器翻譯軟體產生各種機器翻譯譯文;〔b〕分析:比對同一專業文本的正確譯文以及機器翻譯譯文,以得到各種機器翻譯譯文錯誤的類別;〔c〕歸納:將重複出現的機器翻譯譯文錯誤歸為同一類型;〔d〕修正:比對機器翻譯之譯文錯誤類型以及其正確譯文之間的落差,並以正確譯文為修改基準,研發各機譯錯誤類型的修改步驟,並且將此修改步驟程式化,以成為機器翻譯錯誤修改模式;〔e〕建立關係模型:將機器翻譯錯誤之類型及其外文原文、正確譯文、修改模式連接一起,並且分析外文原文共有哪些句型結構、機器翻譯之譯文錯誤類型共出現哪些句型結構以及遇到哪個機器翻譯譯文錯誤類型應該採用哪些修改模式,以組成複數個相異的關係模型,方便日後分析專業文本的原文句型結構、正確譯文與機器翻譯之譯文錯誤類型時,可取用對應的關係模型以選擇採用哪個修改模式;〔f〕建置機器譯文修飾知識庫:藉由歸納統計掌握專業領域原文內容、機器翻譯譯文的錯誤典型以及機器翻譯修改模式之間的關係係數,建置機器譯文修飾知識庫;〔g〕測試:機器譯文修飾知識庫建置後,測試同一專業領域之新文章,若測試結果未達預期效果,增加同一專業領域的修 改範例以及模式,直到測試結果滿意為止。
- 如申請專利範圍第1項所述機器翻譯譯文之自動修飾方法,其中,某專業領域的外文以及欲翻譯之譯文對照資料係利用網路代理人在網路上蒐集。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW097108746A TWI457868B (zh) | 2008-03-12 | 2008-03-12 | 機器翻譯譯文之自動修飾方法 |
US12/332,424 US20090234634A1 (en) | 2008-03-12 | 2008-12-11 | Method for Automatically Modifying A Machine Translation and A System Therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW097108746A TWI457868B (zh) | 2008-03-12 | 2008-03-12 | 機器翻譯譯文之自動修飾方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200939168A TW200939168A (en) | 2009-09-16 |
TWI457868B true TWI457868B (zh) | 2014-10-21 |
Family
ID=41063988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW097108746A TWI457868B (zh) | 2008-03-12 | 2008-03-12 | 機器翻譯譯文之自動修飾方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20090234634A1 (zh) |
TW (1) | TWI457868B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI588668B (zh) * | 2014-11-04 | 2017-06-21 | Toshiba Kk | Foreign language production support facilities and methods |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) * | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US9176952B2 (en) * | 2008-09-25 | 2015-11-03 | Microsoft Technology Licensing, Llc | Computerized statistical machine translation with phrasal decoder |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN109359306B (zh) * | 2018-10-16 | 2023-10-31 | 传神语联网网络科技股份有限公司 | 基于重复句检测的翻译校正方法与系统 |
CN111385612A (zh) * | 2018-12-28 | 2020-07-07 | 深圳Tcl数字技术有限公司 | 基于听力障碍人群的电视播放方法、智能电视及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4954984A (en) * | 1985-02-12 | 1990-09-04 | Hitachi, Ltd. | Method and apparatus for supplementing translation information in machine translation |
TW358912B (en) * | 1993-09-19 | 1999-05-21 | Julius T Tou | Method for self-correction of grammar in machine translation the invention relates to a method for self-correction of grammar in machine translation |
TW366458B (en) * | 1997-01-17 | 1999-08-11 | Bell Internat Information Co Ltd | Method of checking with the second character industry high-tech database established with the first character |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US7171351B2 (en) * | 2002-09-19 | 2007-01-30 | Microsoft Corporation | Method and system for retrieving hint sentences using expanded queries |
US7383542B2 (en) * | 2003-06-20 | 2008-06-03 | Microsoft Corporation | Adaptive machine translation service |
US7653531B2 (en) * | 2005-08-25 | 2010-01-26 | Multiling Corporation | Translation quality quantifying apparatus and method |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US20090326913A1 (en) * | 2007-01-10 | 2009-12-31 | Michel Simard | Means and method for automatic post-editing of translations |
-
2008
- 2008-03-12 TW TW097108746A patent/TWI457868B/zh not_active IP Right Cessation
- 2008-12-11 US US12/332,424 patent/US20090234634A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4954984A (en) * | 1985-02-12 | 1990-09-04 | Hitachi, Ltd. | Method and apparatus for supplementing translation information in machine translation |
TW358912B (en) * | 1993-09-19 | 1999-05-21 | Julius T Tou | Method for self-correction of grammar in machine translation the invention relates to a method for self-correction of grammar in machine translation |
TW366458B (en) * | 1997-01-17 | 1999-08-11 | Bell Internat Information Co Ltd | Method of checking with the second character industry high-tech database established with the first character |
Non-Patent Citations (2)
Title |
---|
Paul Viola, Michael Jones, Robust Real-Time Face Detetion, International Journal of Computer Vision 57(2),137-154 , 2004. * |
陳欣蓉,2007,"評論現行機器翻譯譯文修飾研究之缺失並且研擬譯文修飾研究之具體研究步驟",國立編譯館館刊,卷3,35期 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI588668B (zh) * | 2014-11-04 | 2017-06-21 | Toshiba Kk | Foreign language production support facilities and methods |
US10394961B2 (en) | 2014-11-04 | 2019-08-27 | Kabushiki Kaisha Toshiba | Foreign language sentence creation support apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
TW200939168A (en) | 2009-09-16 |
US20090234634A1 (en) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI457868B (zh) | 機器翻譯譯文之自動修飾方法 | |
Kilgarriff et al. | Corpus tools for lexicographers | |
Li et al. | SystemT: A declarative information extraction system | |
Orasmaa et al. | Estnltk-nlp toolkit for estonian | |
GB2417103A (en) | Natural language translation system | |
Pazos R et al. | Natural language interfaces to databases: an analysis of the state of the art | |
Yun et al. | A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts | |
Orliac et al. | Collocation extraction for machine translation | |
Arendse et al. | Toward tool mashups: Comparing and combining NLP RE tools | |
Mambrini et al. | Interlinking valency frames and wordnet synsets in the lila knowledge base of linguistic resources for latin | |
Mandziy et al. | English-Ukrainian Parallel Corpus of IT Texts: Application in Translation Studies. | |
Steele et al. | WA-continuum: Visualising word alignments across multiple parallel sentences simultaneously | |
Tianwen et al. | Evaluate the chinese version of machine translation based on perplexity analysis | |
CN112329455A (zh) | 一种基于语料库的近义词辨析方法 | |
Fatullayev et al. | Dilmanc is the 1st MT system for Azerbaijani | |
Wang et al. | The syntax and semantics of verbs of searching | |
Prinsloo | The role of corpora in future dictionaries | |
Kumar et al. | A machine assisted human translation system for technical documents | |
Zhou | Functional analysis of snowman CAT standard edition translation software based on the normal distribution and similarity model | |
Fucíková et al. | Czech-english bilingual valency lexicon online | |
Zhai et al. | Semantic classification of adverbial nouns based on syntactic treebank and construction of collocation database | |
JP4082719B2 (ja) | 自然言語を利用した多次元データベースシステムおよび操作命令翻訳方法 | |
Wang | The Use of Verbs in International Chinese Language Education | |
Branco | LogicalFormBanks, the Next Generation of Semantically Annotated Corpora: key issues in construction methodology | |
Kim et al. | Informal requirements analysis supporting system for human engineer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |