TWI434187B

TWI434187B - 文字轉換方法與系統

Info

Publication number: TWI434187B
Application number: TW099137801A
Authority: TW
Inventors: Ping Che Yang; Shih Hung Wu; Tsun Ku; Chien Hui Lin; Chia Ching Lu; Wen Tai Hsieh
Original assignee: Inst Information Industry
Priority date: 2010-11-03
Filing date: 2010-11-03
Publication date: 2014-04-11
Also published as: US8600729B2; US20120109624A1; TW201220088A

Description

文字轉換方法與系統

本發明是有關於一種文字轉換方法，且特別是有關於一種可處理一個來源語言字詞對應多個目標語言字詞的文字轉換方法與系統。

隨著地球村時代的來臨，現代人經常有機會接觸來自世界各地的資訊。然而在面對由不熟悉的語言所撰寫的資料時，往往必須仰賴語言轉換工具的協助來將這些資料轉換為熟悉的語言。

大多數的語言轉換工具是透過比對對照表來將屬於來源語言的字詞轉換為目標語言。然而，在對照表未能反映不同語言之間的語意落差以及用語差異時，則十分容易產生較為失真的轉換結果。除此之外，在進行語言轉換之際，也常有一個來源語言字詞可以被轉換為多個目標語言字詞的情況。對此，有部分的語言轉換工具會要求使用者以人工的方式來選取所要轉換成的目標語言字詞，工具本身無法自動進行選擇。另外，也有部分的語言轉換工具會依據各個目標語言字詞的出現頻率高低來決定要將來源語言字詞轉換成哪個目標語言字詞。但據統計，此種方式容易選擇到錯誤的目標語言字詞，而無法產生高正確率的語言轉換結果。

有鑑於此，本發明提供一種文字轉換方法，特別適用在進行文字轉換時針對一對多對應的字詞來自動選擇較佳的轉換結果。

本發明提供一種文字轉換系統，能處理不同語言之間的用語差異，以提升文字轉換時的正確性。

本發明提出一種文字轉換方法，用以將符合來源語言的文字段落轉換為目標語言，其中文字段落包括多個來源語言字詞，此方法包括下面步驟：提供一字詞對照表，此字詞對照表記錄來源語言與目標語言的字詞對應關係；對文字段落進行斷詞處理而得到多個斷詞結果；比對上述斷詞結果與字詞對照表，以判斷各來源語言字詞係屬於第一種類和第二種類二者其中之一，其中屬於第一種類的來源語言字詞僅對應單一目標語言字詞，而屬於第二種類的來源語言字詞對應複數個候選目標語言字詞；依照字詞對照表所記錄的字詞對應關係，在文字段落中將屬於第一種類的來源語言字詞轉換成對應的目標語言字詞；以及，將屬於第二種類的來源語言字詞，根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，從上述候選目標語言字詞中擇一作為所要轉換成的目標語言字詞。

本發明提出一種文字轉換系統，用以將符合來源語言的文字段落轉換為目標語言，其中文字段落包括多個來源語言字詞。此系統包括：一儲存單元，用以儲存一字詞對照表，字詞對照表記錄來源語言與目標語言的字詞對應關係；一分類單元，耦接儲存單元，用以對文字段落進行斷詞處理而得到多個斷詞結果，並比對上述斷詞結果與字詞對照表，以判斷各來源語言字詞係屬於第一種類和第二種類二者其中之一，其中屬於第一種類的來源語言字詞僅對應單一目標語言字詞，而屬於第二種類的來源語言字詞對應複數個候選目標語言字詞；一轉換單元，耦接儲存單元與分類單元，用以依照字詞對照表所記錄的字詞對應關係，在文字段落中將屬於第一種類的來源語言字詞轉換成對應的目標語言字詞，並將屬於第二種類的來源語言字詞，根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，從上述候選目標語言字詞中擇一作為所要轉換成的目標語言字詞；以及一輸出單元，耦接轉換單元，用以輸出已轉換成目標語言的文字段落。

本發明另提出一種文字轉換方法，用以進行來源語言及目標語言的文字轉換，該方法包括：從符合來源語言的文字段落中取得一來源語言字詞；提供一字詞對照表，字詞對照表記錄來源語言與目標語言的字詞對應關係，且來源語言字詞對應至少一個候選目標語言字詞；以及，根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞，分別於複數個語言資料源的共同出現關聯性，從上述候選目標語言字詞中擇一作為所要轉換成的目標語言字詞。

本發明另提出一種文字轉換系統，用以進行來源語言及目標語言的文字轉換，該系統包括：一輸入單元，從符合來源語言的文字段落中取得來源語言字詞；一儲存單元，耦接輸入單元，提供一字詞對照表，字詞對照表記錄來源語言與目標語言的字詞對應關係，且來源語言字詞對應至少一個候選目標語言字詞；一轉換單元，耦接輸入單元和儲存單元，用以根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞，分別於複數個語言資料源的共同出現關聯性，從上述候選目標語言字詞中擇一作為所要轉換成的目標語言字詞；以及，一輸出單元，耦接轉換單元，用以輸出已轉換成目標語言的文字段落。

基於上述，本發明在對文字段落進行文字的轉換時，對於一來源語言字詞對應數個候選目標語言字詞的情況，可根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，從上述候選目標語言字詞中選出最適於轉換成的目標語言字詞，從而產生較佳的文字轉換結果。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依照本發明之一實施例所繪示之文字轉換系統的方塊圖。請參閱圖1，文字轉換系統100包括儲存單元110、分類單元140、轉換單元150，以及輸出單元160。舉例來說，文字轉換系統100可實作在手機、個人數位助理(Personal Digital Assistant，PDA)、電子書，或行動上網裝置(Mobile Internet Device，MID)、和各種電腦/計算機等。此外，文字轉換系統100也可以嵌入瀏覽器、文書處理軟體，或者是網站服務之中。

文字轉換系統100係用以將符合來源語言的文字段落轉換為目標語言。例如，將屬於簡體中文的文字段落轉換為繁體中文、將屬於繁體中文的文字段落轉換為簡體中文、將屬於英文的文字段落轉換為中文，或將屬於中文的文字段落轉換為英文等等。本發明並不對來源語言及目標語言的種類加以限制。文字段落包括多個來源語言字詞(term)，來源語言字詞可以是屬於來源語言的單字(word)，或是由數個單字所組成的詞語/詞組(phrase)。

儲存單元110例如是硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid State Drive，SSD)或快閃記憶體(flash memory)儲存裝置，在此並不對儲存單元110的種類加以限制。儲存單元110用以儲存轉換文字時所需參照的字詞對照表，此字詞對照表記錄了來源語言和目標語言的字詞對應關係。

分類單元140耦接儲存單元110。分類單元140係用以根據儲存單元110中的字詞對照表判斷文字段落中的每個來源語言字詞係屬於第一種類或第二種類。其中，屬於第一種類的來源語言字詞僅對應單一個目標語言字詞，且值得一提的是，來源語言字詞與所對應之目標語言字詞的字數並不一定相等。而屬於第二種類的來源語言字詞則會對應多個候選目標語言字詞。

轉換單元150耦接儲存單元110與分類單元140。轉換單元150用以依據分類單元140的判斷結果，對屬於不同種類的來源語言字詞採用不同的方式來將其轉換成目標語言字詞，以確保能產生最佳的轉換結果。

為了進一步說明文字轉換系統100中各個單元的詳細運作方式，以下特舉另一實施例來對本發明進行說明。圖2是依照本發明之一實施例所繪示之文字轉換方法的流程圖，請同時參閱圖1與圖2。

首先在步驟210中，提供記錄在儲存單元110中的字詞對照表，此字詞對照表記錄來源語言與目標語言的字詞對應關係。詳細地說，字詞對照表記錄數個屬於來源語言的字詞(可以是單字，或由數個單字構成的詞組)，以及各上述字詞所分別對應的一或多個目標語言字詞(可以是單字，或由數個單字構成的詞組)。必需特別說明的是，在字詞對照表中，分別屬於來源語言與目標語言且相互對應的兩個字詞，其字數並不一定相等。舉例來說，假設來源語言為簡體中文而目標語言為繁體中文，在字詞對照表中屬於簡體中文的字詞「西柚」，其對應的繁體中文字詞為「葡萄柚」，而屬於簡體中文的字詞「公交车」，其對應的繁體中文字詞為「公車」。

接著如步驟220所示，分類單元140對文字段落進行斷詞處理而得到數個斷詞結果。在本實施例中，分類單元140例如是對文字段落進行雙連(bi-gram)斷詞處理，以將文字段落中連續且不包括標點符號的部分兩兩切割成一個斷詞結果。然而，本發明並不對分類單元140所採用的斷詞處理演算法加以限制。

接下來在步驟230中，分類單元140將上述斷詞結果與儲存單元110中的字詞對照表進行比對，以判斷文字段落中的每一個來源語言字詞是屬於第一種類或第二種類。詳細地說，若在字詞對照表中可找到與文字段落中的一來源語言字詞部分或完全相符的字詞，且該字詞只對應一個屬於目標語言的字詞，則可判定該來源語言字詞係屬於第一種類。

接著在步驟240中，轉換單元150依照字詞對照表所記錄的字詞對應關係，在文字段落中將屬於第一種類的所有來源語言字詞分別轉換成其所對應的目標語言字詞。更進一步時，轉換單元150可依據長詞優先轉換的原則來將屬於第一種類的來源語言字詞轉換為目標語言字詞。

最後如步驟250所示，轉換單元150將屬於第二種類的來源語言字詞，根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，從所對應的候選目標語言字詞中擇一作為所要轉換成的目標語言字詞。轉換單元150的詳細運作方式將於後配合圖示再作說明。

當轉換單元150依據來源語言字詞係屬於第一種類或第二種類而採取不同的方式來將來源語言字詞轉換為對應的目標語言字詞之後，便可由輸出單元160將完成轉換的文字段落輸出以供使用者觀看。

在以下的實施例中，假設來源語言為簡體中文而目標語言為繁體中文，由於簡體中文所使用的字數較少而繁體中文所使用的字數較多，亦即一個簡體中文字可能會對應到多個繁體中文字，因而在將屬於簡體中文的文字段落轉換為繁體中文時，容易面臨一個簡體中文字詞對應多個繁體中文字詞的情況。舉例來說，假設文字轉換系統100目前要轉換的文字段落記載「这名博客在网志上面写着，他爱人煮了碗汤面给他吃」這段內容。

首先，由分類單元140對文字段落進行斷詞處理，所產生的斷詞結果為：「这名」、「名博」、「博客」、「客在」、「在网」、「网志」、「志上」、「上面」、「面写」、「写着」、...、「碗汤」、「汤面」、「面给」、「给他」、「他吃」。分類單元140將上述斷詞結果和儲存單元110中的字詞對照表進行比對，而判斷在此文字段落所包括的所有簡體中文字詞當中，只有「面」這個簡體中文字詞是屬於第二種類，其餘的簡體中文字詞都屬於第一種類。如字詞對照表所記錄的字詞對應關係所示，屬於第一種類的簡體中文字詞：「这」、「名」、「博客」、「在」、「网志」、「上」、「写」、「着」、「他」、「爱人」、「煮」、「了」、「碗」、「汤」、「给」、「吃」分別對應繁體中文字詞：「這」、「名」、「部落客」、「在」、「部落格」、「上」、「寫」、「著」、「他」、「老婆」、「煮」、「了」、「碗」、「湯」、「給」、「吃」。基此，轉換單元150會依照上述字詞對應關係，將屬於第一種類的簡體中文字詞直接轉換為對應的繁體中文字詞。然而由於簡體中文字詞「面」會對應兩個候選繁體中文字詞「面」、「麵」，因此轉換單元150會分別判斷候選繁體中文字詞「面」、「麵」及其與文字段落中的至少一前後字詞所組成之數個關聯字詞的共同出現關聯性，進而從候選繁體中文字詞「面」、「麵」中選擇要轉換成的繁體中文字詞。在本實施例中，轉換單元150產生的轉換結果為「這名部落客在部落格上面寫著，他老婆煮了碗湯麵給他吃」。

在上述實施例中，轉換單元150是先轉換所有屬於第一種類的來源語言字詞，接著對於屬於第二種類的來源語言字詞，根據所對應之各候選目標語言字詞及其與文字段落中的前後字詞所構成之數個關聯字詞的共同出現關聯性，進而從所有的候選目標語言字詞中擇一作為所要轉換的目標語言字詞。

更進一步地，以下將以圖3來說明轉換單元150將屬於第二種類的來源語言字詞轉換為適當之目標語言字詞的詳細步驟。在本實施例中，轉換單元150會利用語言模型來計算各候選目標語言字詞與前後字詞所組成之數個關聯字詞的共同出現關聯性。其中，語言模型例如是n連(n-gram)語言模型、雙連語言模型，或其他任何具有詞與詞之對照頻率的詞彙頻率對照表。

為了方便說明，以下將轉換單元150正要處理且屬於第二種類的來源語言字詞稱之為欲進行轉換的來源語言字詞。請參閱圖3之步驟310，轉換單元150利用一語言模型分別計算欲進行轉換的來源語言字詞之各個候選目標語言字詞，其與文字段落中至少一前後字詞所組成之數個關聯字詞的共同出現關聯性。詳言之，轉換單元150依據欲進行轉換的來源語言字詞在文字段落中的位置，取得文字段落中的至少一前後字詞(例如前一字、後一字、前二字、後二字……等)，而候選目標語言字詞與上述前後字詞可組成數個關聯字詞。轉換單元150將利用語言模型計算上述關聯字詞的共同出現關聯性。

舉例來說，假設來源語言為簡體中文、目標語言為繁體中文，轉換單元150採用的語言模型為n連語言模型，並以文字段落「這名部落客在部落格上(面)寫著，他老婆煮了碗湯(面)給他吃」為例，其中括弧內的簡體中文「面」字，是尚未轉換且屬於第二種類的來源語言字詞，其對應的候選目標語言字詞為繁體中文的「面」、「麵」二個字。當轉換單元150要將第一個括弧內的「面」轉換為適當的目標語言字詞時，轉換單元150根據第一個括弧內的「面」在文字段落中的位置，從「這名部落客在部落格上」這些字詞中定義出至少一前後字詞。以候選目標語言字詞「面」為例，其與上述前後字詞所組成之關聯字詞為「上面」、「格上面」、「落格上面」、...、「名部落客在部落格上面」、「這名部落客在部落格上面」。轉換單元150會在語言模型中找出所有出現「面」這個字詞的次數(以F(面)來表示)，並在語言模型中找出關聯字詞「上面」的出現次數(以F(上面)來表示)。值得一提的是，倘若找到的次數為0，表示在語言模型中沒有對應的關聯字詞，基此，轉換單元150會將次數設定為一預設數值，以防止計算出機率為0的結果。在語言模型中，出現關聯字詞「上面」的機率P(上面)可以下列算式來表示：

接著，轉換單元150會在語言模型中找出關聯字詞「格上面」的出現次數(以F(格上面)來表示)，並以下列算式計算在語言模型中出現關聯字詞「格上面」的機率P(格上面)：

以此類推，轉換單元150分別計算出P(上面)、P(格上面)、...、P(名部落客在部落格上面)、P(這名部落客在部落格上面)等機率值，並以上述機率值的乘積來作為候選目標語言字詞「面」及其與前後字詞所組成之數個關聯字詞的共同出現關聯性。

同理，在判斷候選目標語言字詞「麵」及其與前後字詞所組成之數個關聯字詞的共同出現關聯性時，轉換單元150亦會算出P(上麵)、P(格上麵)、...、P(名部落客在部落格上麵)、P(這名部落客在部落格上麵)等機率值，並以上述機率值的乘積來作為候選目標語言字詞「麵」所對應的共同出現關聯性。

接著在步驟320中，轉換單元150在來源語言字詞所對應的所有候選目標語言字詞中，選擇對應最高之共同出現關聯性的候選目標語言字詞來作為目標語言字詞。延續前述實施例，假設候選目標語言字詞「面」所對應的共同出現關聯性高於候選目標語言字詞「麵」所對應的共同出現關聯性，轉換單元150便會選擇候選目標語言字詞「面」作為目標語言字詞。

最後如步驟330所示，轉換單元150在文字段落中將來源語言字詞轉換為目標語言字詞。

在另一實施例中，為了加快處理速度，轉換單元150也可以採用雙連語言模型來計算各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之數個關聯字詞的共同出現關聯性。

同樣以文字段落「這名部落客在部落格上(面)寫著，他老婆煮了碗湯(面)給他吃」為例，其中括弧內的簡體中文「面」字，是尚未轉換且屬於第二種類的來源語言字詞，其對應的候選目標語言字詞為繁體中文「面」、「麵」二個字。當轉換單元150要將第一個括弧內的「面」轉換為適當的目標語言字詞時，轉換單元150在「這名部落客在部落格上」這些字詞中取得前後字詞。接著，轉換單元150會分別算出P(上面)、P(格上)、P(落格)、P(部落)、...、P(名部)、P(這名)等機率值(機率值的計算方式與前述實施例相似)，並以上述機率值的乘積來作為候選目標語言字詞「面」所對應的共同出現關聯性。轉換單元150也將算出P(上麵)、P(格上)、P(落格)、P(部落)、...、P(名部)、P(這名)等機率值，並以上述機率值的乘積來當作候選目標語言字詞「麵」所對應的共同出現關聯性。轉換單元150根據這兩個候選目標語言字詞所對應之的共同出現關聯性的大小而決定選擇哪個候選目標語言字詞作為目標語言字詞。

一般來說，針對文字段落中屬於第二類的來源語言字詞，轉換單元150可採用圖3所示之各步驟從所對應的數個候選目標語言字詞中選擇真正要轉換成的目標語言字詞。然而在語言模型中相關資料太少的情況下，可能導致各候選目標語言字詞所對應之共同出現關聯性的差距過小，甚至可能有數個候選目標語言字詞所對應的共同出現關聯性相同。基此，在另一實施例中，轉換單元150例如會採用圖4所示之各步驟來決定如何從數個候選目標語言字詞中擇一作為要轉換成的目標語言字詞。

請參閱圖4，由於步驟410與圖3之步驟310相同或相似，故在此不再贅述。

如步驟420所示，轉換單元150在來源語言字詞所對應的所有候選目標語言字詞中，選擇數個較高共同出現關聯性的候選目標語言字詞。其中，上述較高共同出現關聯性的候選目標語言字詞係為其所對應的共同出現關聯性大於一第一門檻值。舉例來說，第一門檻值例如是所有候選目標語言字詞所對應之共同出現關聯性的平均值、或前標等任何統計值。因此，當有數個候選目標語言字詞都對應相同且最高的共同出現關聯性時，該些候選目標語言字詞會被選作為較高共同出現關聯性的候選目標語言字詞。或者，當有數個候選目標語言字詞對應的共同出現關聯性明顯高於其他的候選目標語言字詞，且這些候選目標語言字詞對應之共同出現關聯性彼此間的差距不大(例如小於第二門檻值)時，則以該些候選目標語言字詞作為較高共同出現關聯性的候選目標語言字詞。

接著在步驟430中，轉換單元150利用支援目標語言與一參考語言的字典，分別將各較高共同出現關聯性的候選目標語言字詞的每一字都翻譯為一對應參考語言字，並根據字典及各對應參考語言字來判斷各較高共同出現關聯性的候選目標語言字詞之上述對應參考語言字之間的關聯性，從而選擇對應參考語言字之關聯性最高的候選目標語言字詞來作為目標語言字詞。

最後如步驟440所示，轉換單元150在文字段落中將來源語言字詞轉換為目標語言字詞。

舉例來說，假設來源語言為簡體中文、目標語言為繁體中文，且參考語言為英文。以文字段落「但是她依舊昂然自得地(划)動槳」為例，其中括弧內「划」字的是尚未轉換且屬於第二種類的來源語言字詞，其對應的候選目標語言字詞為「劃」以及「划」。轉換單元150會根據圖4所示之各步驟來決定要將文字段落轉換為「但是她依舊昂然自得地劃動槳」或「但是她依舊昂然自得地划動槳」。

詳言之，在本實施例中轉換單元150以來源語言字詞在文字段落中的位置為中心取得前後n個字距內的字詞，並將各候選目標語言字詞與上述字詞組成較高共同出現關聯性的候選目標語言字詞。以n等於3為例，較高共同出現關聯性的候選目標語言字詞為「自得地劃動槳」、「自得地划動槳」。

轉換單元150利用支援繁體中文及英文的字典，將較高共同出現關聯性的候選目標語言字詞「自得地劃動槳」中的每一字翻譯為對應參考語言字。舉例來說，轉換單元150將「劃」這個字譯為“draw”及“scratch”這兩個對應參考語言字、將「槳」這個字譯為對應參考語言字“oar”，以此類推。此外，轉換單元150利用支援繁體中文及英文的字典，將「自得地划動槳」中的「划」這個字譯為對應參考語言字“paddle”，將「槳」這個字譯為對應參考語言字“oar”，以此類推。

在一實施例中，轉換單元150係根據各對應參考語言字在字典中於複數個字義解釋的出現頻率，以決定各對應參考語言字之間的關聯性。例如，在支援繁體中文及英文的字典中，對應參考語言字“paddle”有出現在對應參考語言字“oar”的字義解釋之中，但對應參考語言字“draw”、“scratch”均未出現在對應參考語言字“oar”的字義解釋之中。亦即，對應參考語言字“paddle”在對應參考語言字“oar”之字義解釋的出現頻率高於對應參考語言字“draw”、“scratch”在對應參考語言字“oar”之字義解釋的出現頻率，因此轉換單元150判斷對應參考語言字“paddle”與對應參考語言字“oar”之間的關聯性高於對應參考語言字“draw”、“scratch”與對應參考語言字“oar”之間的關聯性。基此，轉換單元150選擇在文字段落中將來源語言字詞「划」轉換為目標語言字詞「划」，而不是目標語言字詞「劃」。

然而在另一實施例中，轉換單元150還可以利用一語意關係樹(Semantic Tree)來計算各對應參考語言字之間的語意距離，以判斷各對應參考語言字之間的關聯性。其中，語意距離越近表示關聯性越高。由於利用語意關係樹計算兩字之間的語意距離為本領域之常用技術手段，故在此不再贅述。

圖5是依照本發明之另一實施例所繪示之文字轉換系統的方塊圖。如圖5所示，文字轉換系統500包括儲存單元110、分類單元140、轉換單元150、輸出單元160、輸入單元510、語言模型建立單元520，以及字詞對照表更新單元530。由於儲存單元110、分類單元140、轉換單元150與輸出單元160和圖1所示之文字轉換系統100所包括的對應單元具有相同或相似的功能，故在此不再贅述。

在本實施例中，輸入單元510耦接儲存單元110，用以接收符合來源語言的文字段落。

語言模型建立單元520耦接至儲存單元110。儲存單元110儲存有至少一語料庫，上述語料庫可以是既有的平行語料庫(parallel corpus)或是由文字轉換系統500透過自動探勘所產生的平行語料庫。而語言模型建立單元520會訓練上述語料庫來建立語言模型。舉例來說，倘若語言模型建立單元520要建立n連語言模型，語言模型建立單元520會統計語料庫中的語料以產生詞頻資訊，並利用最大似然估計(Maximum Likelihood Estimation，MLE)來估算n連語言模型的機率表示，據此產生n連語言模型。

正因為語言模型建立單元520係基於字詞和前後字詞之間的關聯性來建立語言模型，因此文字轉換系統500在利用語言模型處理一對多的轉換問題時，便能選出所對應之共同出現關聯性較高的字詞，從而產生較正確適當的文字轉換結果。

字詞對照表更新單元530耦接至儲存單元110。字詞對照表更新單元530會利用儲存單元110中既有的字詞對照表，以網路探勘的方式自動產生對應來源語言及目標語言的平行語料庫，並根據平行語料庫來更新字詞對照表的內容。

具體而言，字詞對照表更新單元530透過網路探勘技術得到來源語言資料集與目標語言資料集。其中，語言資料集中的語料可以是詞、例句、文字段落、文章片段，或文章等等。接著，依據儲存單元110中既有的繁轉簡對照表，從來源語言資料集與目標語言資料集分別找出相互對應的來源語言語料與目標語言語料，再利用來源語言語料與目標語言語料產生平行語料庫。舉例來說，字詞對照表更新單元530從來源語言資料集以及目標語言資料集中，個別取出一篇可能在描述類似事件的文章，並且在這兩篇文章中選出相似而可能對列的兩個例句。接著，利用這兩個例句計算這兩篇文章的對列機率值，從而判斷這兩篇文章是否為高品質的對列文章。若為高品質的對列文章，前述對列的兩個例句則可作為平行語料庫中的一組資料。透過上述方式，字詞對照表更新單元530便可產生平行語料庫，此平行語料庫將被儲存至儲存單元110。

此外，字詞對照表更新單元530會依據平行語料庫擴充字詞對照表的內容。詳細地說，字詞對照表更新單元530從平行語料庫所儲存之相互對列且分別為來源語言及目標語言的兩個例句中找出對應的字詞(例如，分別屬於來源語言及目標語言且對照起來具有差異的詞彙即被視為相互對應的字詞)。若找出的對應字詞並未出現於字詞對照表，字詞對照表更新單元530則會將其加入字詞對照表以擴充字詞對照表的內容。

在一實施例中，假設來源語言為簡體中文且目標語言為繁體中文，若在平行語料庫中屬於簡體中文的字詞「扎啤」和屬於繁體中文的字詞「生啤酒」彼此對應的次數到達一預設數量(例如10)，字詞對照表更新單元530便會判定「扎啤」與「生啤酒」是互為轉換的字詞。字詞對照表更新單元530會替這些互為轉換的字詞建立索引(例如建立反向索引(inverted index))。如此一來，字詞對照表更新單元530便可根據字詞對照關係和索引來更新字詞對照表的內容，或是自動建立一個新的字詞對照表。

由字詞對照表更新單元530所更新或建立的字詞對照表能反映來源語言及目標語言之間的用語差異，並且能提供字數不一致的字詞對應關係。據此確保文字轉換系統500能產生較佳的轉換結果。

在本發明的一實施例中，當文字轉換系統500被實作在手機、PDA或電子書等行動裝置時，由於行動裝置之處理器的速度、記憶體以及儲存空間的大小均有較多限制，為了加快文字轉換的速度，語言模型建立單元520在建立語言模型之後，將設法減少語言模型的資料量，從而提升文字轉換系統500的處理效率。

舉例來說，語言模型建立單元520在以上述方式建立語言模型之後，僅會將包含容易發生轉換錯誤之一對多字詞的句子，以及包含出現頻率較高之字詞的句子保留下來。

除此之外，針對被保留下來的各個句子，語言模型建立單元520會從中截取出必要的句子片段，以進一步縮減資料量。好比說，語言模型建立單元520以出現頻率較高或一對多之字詞為中心，取出前後n(例如3)個字所組成的較短句子片段，不屬於上述句子片段中的字詞則會被刪除。例如，假設語言模型包括「現在他剛從六百裡外的煤礦回來」這樣的繁體中文句子，其中「裡」為頻率較高的字詞。語言模型建立單元520會將語言模型中「現在他剛從六百裡外的煤礦回來」的繁體中文句子精簡為「從六百裡外的煤」。

再者，語言模型建立單元520還可以將經過精簡的語言模型轉換成二進制檔案(binary file)，以提升使用語言模型時的處理速度。

類似地，為了減少對字詞對照表進行比對及搜尋所花費的時間，字詞對照表更新單元530會使用雜湊函數(hash function)來處理字詞對照表，從而達到加快比對速度的目的。

圖6是依照本發明之又一實施例所繪示之文字轉換系統的方塊圖。請參閱圖6，文字轉換系統600包括輸入單元610、儲存單元620、轉換單元630，以及輸出單元640。文字轉換系統600可實作在手機、個人數位助理、電子書、各種電腦/計算機、或行動上網裝置。或者，文字轉換系統600也可以嵌入瀏覽器、文書處理軟體，或者是網站服務之中。文字轉換系統600用以將符合來源語言的文字段落轉換為目標語言，在此並不對來源語言及目標語言加以限定。

在本實施例中，輸入單元610用以從符合來源語言的文字段落中取得一來源語言字詞。

儲存單元620耦接輸入單元610。儲存單元620例如是硬碟、固態硬碟或快閃記憶體等各種儲存裝置，用以提供一字詞對照表，此字詞對照表記錄來源語言與目標語言的字詞對應關係，且來源語言字詞對應至少一個候選目標語言字詞。由於儲存單元620中的字詞對照表與圖1之儲存單元110中的字詞對照表相同或相似，故在此不再贅述。

轉換單元630耦接輸入單元610、儲存單元320和輸出單元640。轉換單元630用以參考數個語言資料源以決定如何將文字段落中的來源語言字詞轉換為目標語言字詞。再由輸出單元640輸出以轉換成目標語言的文字段落。

在另一實施例中，文字轉換系統600更包括通訊單元(未繪示)。通訊單元耦接轉換單元630，用以經由通訊網路鏈結至各個語言資料源。

以下將以圖7來說明文字轉換系統600的詳細運作方式，請同時參閱圖6與圖7。

首先如步驟710所示，輸入單元610從符合來源語言的文字段落中取得一來源語言字詞。接著在步驟720中，提供儲存單元620所記錄的字詞對照表。字詞對照表記錄來源語言與目標語言的字詞對應關係，且來源語言字詞對應至少一個候選目標語言字詞。

如步驟730所示，轉換單元630根據來源語言字詞所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之數個關聯字詞分別於數個語言資料源的共同出現關聯性，從上述候選目標語言字詞中擇一作為所要轉換成的目標語言字詞。

舉例來說，語言資料源例如是網頁、網路文章、以及語言資料庫等等。轉換單元630可利用一語言模型分別計算各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之數個關聯字詞，分別於上述語言資料源的共同出現關聯性。其中，語言模型可以是n連語言模型、雙連語言模型，或其他任何具有詞與詞之對照頻率的詞彙頻率對照表，在此並不加以限制。由於計算共同出現關聯性的方式與前述實施例相似，故在此不再贅述。

另一種實施方式，轉換單元630中所說的數個關聯字詞分別於數個語言資料源的共同出現關聯性，可以是經由一搜尋引擎或一查詢介面，從數個語言資料源(網頁、網路文章、以及語言資料庫等)中，搜尋並統計各關聯字詞所出現的數量或頻率，並選擇出現數量/頻率較高的關聯字詞作為所要轉換成的目標語言字詞。

轉換單元630在所有的候選目標語言字詞中，選擇對應最高之共同出現關聯性的候選目標語言字詞來作為目標語言字詞，並且在文字段落中以目標語言字詞轉換來源語言字詞。再由輸出單元640輸出轉換成目標語言的文字段落。

如上所述，文字轉換系統600在接收符合來源語言的文字段落後，將到網路搜尋相關的網頁、網路文章、以及語言資料庫等大量的語言資料源，進而決定如何從來源語言字詞所對應的至少一候選目標語言字詞中選擇真正要轉換成的目標語言字詞，以產生較佳的文字轉換結果。

必需特別說明的是，在上述實施例中雖然是以簡體中文作為來源語言並以繁體中文作為目標語言來進行說明，但本發明並不以此為限。在其他實施例中，來源語言可以是繁體中文，而目標語言為簡體中文。或者，來源語言為中文，而目標語言為英文。本發明並不對來源語言以及目標語言的種類加以限制。

綜上所述，本發明所述之文字轉換方法與系統在將文字段落由來源語言轉換為目標語言時，能自動處理不同語言之間的用語差異，且針對一對多的字詞對應情況，也能根據所對應之各候選目標語言字詞及其與文字段落中至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，自動且正確地從中選出最適於轉換成的字詞。如此一來，可大幅提升將文字段落轉換為不同語言的正確性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100．．．文字轉換系統

110．．．儲存單元

140．．．分類單元

150．．．轉換單元

160．．．輸出單元

210～250．．．本發明之一實施例所述之文字轉換方法的各步驟

310～330．．．本發明之一實施例所述之轉換屬於第二種類之來源語言字詞的各步驟

410～440．．．本發明之另一實施例所述之轉換屬於第二種類之來源語言字詞的各步驟

500．．．文字轉換系統

510．．．輸入單元

520．．．語言模型建立單元

530．．．字詞對照表更新單元

600．．．文字轉換系統

610．．．輸入單元

620．．．儲存單元

630．．．轉換單元

640．．．輸出單元

710～730．．．本發明之另一實施例所述之文字轉換方法的各步驟

圖1是依照本發明之一實施例所繪示之文字轉換系統的方塊圖。

圖2是依照本發明之一實施例所繪示之文字轉換方法的流程圖。

圖3是依照本發明之一實施例所繪示之轉換屬於第二種類之來源語言字詞的流程圖。

圖4是依照本發明之另一實施例所繪示之轉換屬於第二種類之來源語言字詞的流程圖。

圖5是依照本發明之另一實施例所繪示之文字轉換系統的方塊圖。

圖6是依照本發明之又一實施例所繪示之文字轉換系統的方塊圖。

圖7是依照本發明之又一實施例所繪示之文字轉換方法的流程圖。

Claims

一種文字轉換方法，用以將符合一來源語言的一文字段落轉換為一目標語言，其中該文字段落包括多個來源語言字詞，該方法包括下面步驟：提供一字詞對照表，該字詞對照表記錄該來源語言與該目標語言的字詞對應關係；對該文字段落進行一斷詞處理而得到多個斷詞結果；比對該些斷詞結果與該字詞對照表，以判斷各該些來源語言字詞係屬於一第一種類和一第二種類二者其中之一，其中屬於該第一種類的來源語言字詞僅對應單一目標語言字詞，而屬於該第二種類的來源語言字詞對應複數個候選目標語言字詞；依照該字詞對照表所記錄的字詞對應關係，在該文字段落中將屬於該第一種類的來源語言字詞轉換成對應的該目標語言字詞；將屬於該第二種類的來源語言字詞，利用一語言模型分別計算各該些候選目標語言字詞及其與該文字段落至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性；從該些候選目標語言字詞中，選擇複數個較高共同出現關聯性的候選目標語言字詞，其中該些較高共同出現關聯性的候選目標語言字詞係為其所對應的共同出現關聯性大於一第一門檻值；以及利用支援該目標語言與一參考語言的一字典，分別將各該些較高共同出現關聯性的候選目標語言字詞的每一字，翻譯為一對應參考語言字，並從該字典及各該對應參考語言字，判斷各該些較高共同出現關聯性的候選目標語言字詞的各該對應參考語言字之間的關聯性，以選擇對應參考語言字之關聯性最高的候選目標語言字詞來作為該目標語言字詞。
如申請專利範圍第1項所述之文字轉換方法，其中判斷各該對應參考語言字之間的關聯性的步驟包括：根據各該對應參考語言字在該字典中於複數個字義解釋的一出現頻率，以決定各該對應參考語言字之間的關聯性。
如申請專利範圍第1項所述之文字轉換方法，更包括下面步驟：經由訓練至少一語料庫以建立該語言模型。
如申請專利範圍第1項所述之文字轉換方法，更包括下面步驟：透過網路探勘以取得一來源語言資料集與一目標語言資料集；從該來源語言資料集與該目標語言資料集分別找出相互對應的一來源語言語料與一目標語言語料；利用該來源語言語料與該目標語言語料產生一平行語料庫；以及依據該平行語料庫擴充該字詞對照表的內容。
一種文字轉換系統，用以將符合一來源語言的一文字段落轉換為一目標語言，其中該文字段落包括多個來源語言字詞，該系統包括：一儲存單元，用以儲存一字詞對照表，該字詞對照表記錄該來源語言與該目標語言的字詞對應關係；一分類單元，耦接該儲存單元，對該文字段落進行一斷詞處理而得到多個斷詞結果，並比對該些斷詞結果與該字詞對照表，以判斷各該些來源語言字詞係屬於一第一種類和一第二種類二者其中之一，其中屬於該第一種類的來源語言字詞僅對應單一目標語言字詞，而屬於該第二種類的來源語言字詞對應複數個候選目標語言字詞；一轉換單元，耦接該儲存單元與該分類單元，依照該字詞對照表所記錄的字詞對應關係，在該文字段落中將屬於該第一種類的來源語言字詞轉換成對應的該目標語言字詞，並將屬於該第二種類的來源語言字詞，利用一語言模型分別計算各該些候選目標語言字詞及其與該文字段落至少一前後字詞所組成之複數個關聯字詞的共同出現關聯性，從該些候選目標語言字詞中選擇複數個較高共同出現關聯性的候選目標語言字詞，其中該些較高共同出現關聯性的候選目標語言字詞係為其所對應的共同出現關聯性大於一第一門檻值，以及利用支援該目標語言與一參考語言的一字典，分別將各該些較高共同出現關聯性的候選目標語言字詞的每一字，翻譯為一對應參考語言字，並從該字典及各該對應參考語言字，判斷各該些較高共同出現關聯性的候選目標語言字詞的各該對應參考語言字之間的關聯性，以選擇對應參考語言字之關聯性最高的候選目標語言字詞來作為該目標語言字詞；以及一輸出單元，耦接該轉換單元，用以輸出已轉換成該目標語言的該文字段落。
如申請專利範圍第5項所述之系統，其中，該系統更包含：一輸入單元，耦接該儲存單元，以接收符合該來源語言的該文字段落。
如申請專利範圍第5項所述之系統，其中該轉換單元更包括用以根據各該對應參考語言字在該字典中於複數個字義解釋的一出現頻率，以決定各該對應參考語言字之間的關聯性。
如申請專利範圍第5項所述之系統，其中該儲存單元更包括儲存有至少一語料庫，且該系統更包括有一語言模型建立單元，耦接該儲存單元，用以經由訓練該至少一語料庫以建立該語言模型。
如申請專利範圍第5項所述之系統，更包括：一雙語字詞對照表更新單元，耦接該儲存單元，透過網路探勘以取得一來源語言資料集與一目標語言資料集；從該來源語言資料集與該目標語言資料集分別找出相互對應的一來源語言語料與一目標語言語料；利用該來源語言語料與該目標語言語料產生一平行語料庫；以及，依據該平行語料庫擴充該字詞對照表的內容。
一種文字轉換方法，用以進行一來源語言及一目標語言的文字轉換，該方法包括：從符合該來源語言的一文字段落中取得一來源語言字詞；提供一字詞對照表，該字詞對照表記錄該來源語言與該目標語言的字詞對應關係，且該來源語言字詞對應至少一個候選目標語言字詞；利用一語言模型分別計算各該至少一候選目標語言字詞及其與該文字段落中至少一前後字詞所組成之複數個關聯字詞，分別於複數個語言資料源的共同出現關聯性；從該些候選目標語言字詞中，選擇複數個較高共同出現關聯性的候選目標語言字詞，其中該些較高共同出現關聯性的候選目標語言字詞係為其所對應的共同出現關聯性大於一第一門檻值；以及利用支援該目標語言與一參考語言的一字典，分別將各該些較高共同出現關聯性的候選目標語言字詞的每一字，翻譯為一對應參考語言字，並從該字典及各該對應參考語言字；判斷各該些較高共同出現關聯性的候選目標語言字詞的各該對應參考語言字之間的關聯性，以選擇對應參考語言字之關聯性最高的候選目標語言字詞來作為該目標語言字詞；以及在該文字段落中以該目標語言字詞轉換該來源語言字詞。
如申請專利範圍第10項所述之文字轉換方法，其中，該些語言資料源包括網頁、網路文章、以及語言資料庫。
一種文字轉換系統，用以進行一來源語言及一目標語言的文字轉換，該系統包括：一輸入單元，從符合該來源語言的一文字段落中取得一來源語言字詞；一儲存單元，耦接該輸入單元，提供一字詞對照表，該字詞對照表記錄該來源語言與該目標語言的字詞對應關係，且該來源語言字詞對應至少一個候選目標語言字詞；一轉換單元，耦接該輸入單元和該儲存單元，利用一語言模型分別計算各該至少一候選目標語言字詞及其與該文字段落中至少一前後字詞所組成之複數個關聯字詞，分別於複數個語言資料源的共同出現關聯性，從該些候選目標語言字詞中，選擇複數個較高共同出現關聯性的候選目標語言字詞，其中該些較高共同出現關聯性的候選目標語言字詞係為其所對應的共同出現關聯性大於一第一門檻值，利用支援該目標語言與一參考語言的一字典，分別將各該些較高共同出現關聯性的候選目標語言字詞的每一字，翻譯為一對應參考語言字，並從該字典及各該對應參考語言字，判斷各該些較高共同出現關聯性的候選目標語言字詞的各該對應參考語言字之間的關聯性，以選擇對應參考語言字之關聯性最高的候選目標語言字詞來作為該目標語言字詞，以及在該文字段落中以該目標語言字詞轉換該來源語言字詞；以及一輸出單元，耦接該轉換單元，用以輸出已轉換成該目標語言的該文字段落。
如申請專利範圍第12項所述之系統，其中，該些語言資料源包括網頁、網路文章、以及語言資料庫。
如申請專利範圍第12項所述之系統，其中，該系統更包括一通訊單元，耦接該轉換單元，用以經由通訊網路鏈結至該些語言資料源。