TW200811673A - Method for conversion between simplified and traditional Chinese characters and system thereof - Google Patents
Method for conversion between simplified and traditional Chinese characters and system thereof Download PDFInfo
- Publication number
- TW200811673A TW200811673A TW095132203A TW95132203A TW200811673A TW 200811673 A TW200811673 A TW 200811673A TW 095132203 A TW095132203 A TW 095132203A TW 95132203 A TW95132203 A TW 95132203A TW 200811673 A TW200811673 A TW 200811673A
- Authority
- TW
- Taiwan
- Prior art keywords
- simplified
- traditional
- words
- terms
- word
- Prior art date
Links
Landscapes
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
- Machine Translation (AREA)
Description
200811673 九、發明說明: 【發明所屬之技術領域】 本發明涉及一種中文字符的轉換方法及其系統,尤其涉 ,及一種簡體漢字和繁體漢字相互轉換方法及其系統。更具 、體地兒,本發明涉及一種採用數據表映射技術與數據統計 處理技術相結合來實現簡體漢字和繁體漢字相互轉換的 方法及其系統。 ⑩【先前技術】 由於中國政府實行的漢字簡化工作,在實現原有的漢字 j下稱繁體漢字)簡化而使得漢字的推廣和教育/教學獲 T進二的同蚪,也造成了漢字存在簡體和繁體兩種書寫形 2客觀現只。例如在中國大陸和新加坡,雖然也偶見使用 ,字的場合,但是在絕大多數情況下都是使用簡體漢 J,:在台灣、香港和澳門地區受教育和長大的華人,則 麄幾t不能完全認識被簡化的漢字而完全使用著原有 的S體字。 人了讓上述簡體漢字使用區和繁體漢字使用區的 寫的王相互懂對方所書寫的漢語,則需要對於書 使用的簡體字和繁體字不—樣的財進行正 萑:轉換。這種不一樣包括以下兩個方面。 兄的子對多子(以下簡稱「一對多」)的胡曰苞。 的:发」可以對應於繁體漢字的「髮」和 、擇,因此在不同的詞彙中應該使用不同的繁 326___#_細細 5 200811673 头发」應該轉換 」應該轉換為繁 體漢字「髮」和「發」,例如簡體漢字「 為繁體漢字「頭髮」,而簡體漢字「发展 體漢字「發展」。. *〶二方面是在從簡體到繁體(或從繁體到簡體)的轉換 ★過程:出現的同:個字/詞彼此叫法不同的問題。例:簡 體漢子中的「计异机软件」應該轉換為繁體漢字中的「帝 腦軟體」,簡體漢字中的「星期」應該轉換 电 的「禮拜」。 、卞τ φ在既有技術中已經存在對於簡體漢字和繁體漢字進行 轉換的技術。例如在中國專利公開CN1369833和 CM462966中都公開了簡體漢字和繁體漢字相互轉換的技 術。這些專利文件全文結合在此作為參考。 在通常的情況下,簡體和繁體漢字的相互轉換是在· 編碼的簡體字和BIG5編碼的繁體字之間的相互轉換。總 結上述的既有技術中實施的簡、繁體漢字的相互轉換方二 _包括以下三種情況。 、木 1.通過内碼轉換完成基於内碼映射表的字到字的轉 換。字到字是指以字為單位進行轉換,而基於内碼映射表 是指,過查找繁體―簡冑(簡體i體)漢字映射表將繁 體(簡體)漢字轉換與之對應的簡體(繁體)漢字。、 ,如,將BIG5編碼的繁體漢字「國」轉換為GBK編碼 的簡體漢字「国」,處理過程是通過查找繁體—簡體漢字 映射表把該漢字的内碼B0EA轉換為B9FA ;反之在簡繁 轉換中,則是通過查找簡體—繁體漢字映射表把該漢字的 326\專利說明書(補件)\95-12\95132203 6 200811673 内碼B9FA轉換為B0EA。 内碼轉換的優點在於:⑴實現簡單,只需要有繁體— 簡體(簡體―繁體)漢字映射表即可,·⑴轉換效率高, ’ /、品内碼轉換一步處理。 内碼轉換的缺點在於轉換準確率低。由於映射表將每個 繁體(〶體)體漢字對應到唯—的簡體(繁體)體漢字形, 所以這種轉換只能正碟地處理一字對一字(以下簡稱「一 春對—」)映射的情況。而對於一對多映射的字,除了收入 ^映射表中的轉換字外,其他可能的轉換字被忽略了,這 就不能保證轉換的準確性。例如,在正確的轉換下,簡體 的今发」對應到繁體的「頭髮」;但按照採用内碼的簡 體—繁體漢字映射表進行簡體到繁體的轉換時,由於簡體 字「发」全部被轉換為繁體字「發」,「头发」被錯誤地轉 換為「頭發」。因此就造成了轉換準確率低的問題。才 2.通過词級轉換完成基於詞級映射表的詞到詞的轉 換。詞到詞是指以詞為單位進行轉換,基於詞級映射表^ 指通過查找簡體—繁體(繁體—簡體)詞級映射表完^ = 換。這個映射表的表項應該包括所有的漢語詞語,其中不 僅包括雙漢字組成的詞語,也包括單漢字的詞語和三個 字以上的詞語。 /、 轉換過程中,首先將需要被轉換的漢字串分成若干詞, 然後通過查找簡體—繁體(繁體—簡體)詞級映射表以詞 為單位完成轉換。例如,對簡體字符串「梳头发」進行轉 換,首先將其分為單字詞語「梳」和雙字詞語「頭髮, 326\專利說明書(補件)\95-12\95132203 7 200811673
然後在簡體—繁體騎映射表中分別查找這兩個詞注,八 別:換為繁體詞語「梳」和「頭髮」,得到轉換結果。「J 頭髮」。繁體—簡體轉換的過程與之類似。 、詞輯換的優點在於··⑴可以較準確處理—對多 漢子的轉換’(2 )只需-張映射表即可同時處理簡體〜繁 體轉換和繁體—簡體轉換;⑺㈣㈣較胃二 轉換一步處理。 •古詞級轉換的缺點在於:⑴對於系統分詞性能的要求復 2 ’ -旦分詞發生錯誤’就很容易造成最終轉換結果的錯 誤。(2)簡體—繁體和繁體—簡體的詞級映射表的構造^ 較困難。中文中的詞語以數十萬計,要完成這樣規模的詞 ,開銷很大。並且由於詞#是—個開放集,每天都有新的 2產生,ϋ且不此保證所有的人名、地名以及機構名都包 έ在周表中(3)對於某些簡體—繁體和繁體—簡體的— 對多映射的字仍然不能保證轉換的準確性。比如存在一對 籲多映射的姓氏等。 3.通過術語轉換完成基於術語映射表的術語到術語的 轉換° ^此提到的「術語」是對於「詞」的廣義的解釋, 本二上還疋以詞為單位進行轉換,但是有時在簡體和繁體 漢子體系中的相互對應的術語在發音和形體上可以沒有 同一性,即,可以不存在按字對應的關係。舉例來說,簡 ,漢字中的術語「计算机」對應繁體漢字中的「電腦」、 ^體漢字中的「星期」應該轉換為繁體漢字中的「禮拜」 等等。雖然所指的術語概念上完全相同,但也可以基於詞 326\專利說明書(補件)\95·12\95132203 8 200811673 語映射表通過查找簡體—繁體(繁體-簡體)詞語映射表 來完成轉換。 術語轉換過程與詞級轉換類似,且簡體—繁體術語映射 表和簡體—繁體詞級映射表在形式上很相似。區別僅在於 4 詞級映射中的簡體和繁體詞語是按字對應的,簡體漢字的 詞語中的每個字對應到繁體詞語中相應位置上的字;而術 語映射中的簡體和繁體詞語是在語義的層次上對應的,詞 馨語間不一定存在按字對應的關係。 術語轉換的優點在於:(1)可以在語義一級處理漢字簡 體和繁體的相互轉換;(2)只需一張映射表即可同時處理 簡體—繁體轉換和繁體簡體轉換。 術語轉換的缺點在於:(丨)對於系統「分詞」(對於句 子中的「詞」的劃定)能力的要求很高,一旦分詞發生錯 疾,就很容易造成最終轉換結果的錯誤。(2 )簡體—繁體 術語映射表的構造比較困難。首先簡體—繁體術語映射表 _必須像繁體—簡體術語映射表一樣包含所有的中文詞 語;另外,這個表需要對中文和外文專有名詞進行處理, 否則也會引起轉換錯誤。專有名詞包括姓名、地名以及機 構名等。 >因此’在上所述簡體和繁體相互轉換中,除了特殊的術 f外’基本問題就是如何解決轉換中字的-對多的映射間 =°雖__題能夠以詞的形式在—^程度上得到解 將:轉換來解決,但是其映射表的龐大和繁雜 、认解“方案的進一步完善报困難。而内碼轉換顯 326傳利說明書(補件)\95· ^ 2奶^ 9 200811673 問題,但是其轉換精確 然是迴避了龐大和繁雜的映射表的 度低下。 互轉換的方法和 下而不使得映射表 因而需要一種新的漢字繁體和簡體相 系統,在保證足夠的轉換精確度的條件 過大。 【發明内容】 本發明旨在以最簡單的映射表來解決漢字的簡體和繁 φ,相互轉換,並且保證;1夠的轉換精確度。特別旨在解決 間體和繁體相互轉換中的漢字的一(字/詞)對多(A 、 詞)的映射問題。 、夕子/ 〜根據本發明的卜實施例提供-種簡體漢字和繁體漢 字之間進行相互轉換的系統,該系統包括: 、 輸入部分,輸入將要被轉換的簡體/繁體漢字字符串 劃 、詞語/術語劃分部分,將輸入的簡體/繁體漢字字符串 分成若干個詞語/術語;
M別疋義部分,鑑別-定義該輸入的簡體/繁體漢字字 t的母—個詞語/術語’將其中在標記形式上與繁體/ =漢字的詞語/術語相同或雖然不同但具有確定對應關 ^的簡體/繁體漢字的詞語/術語定義為第一類詞語/術 m 3亚將其中在標記形式上與繁體/簡體漢字的詞語^标語 S真不具有確定對應關係的簡體/繁體漢字的詞語/術 170疋義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 映射成與輸入的簡體/繁體漢字的詞語/術語唯一對應的 326\胃$ 書(補件)\9M 2\95132203 10 200811673 繁體/簡體漢字的詞語/術語; 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輪入的簡體/繁體漢字的詞語/術語合理對應的 繁體/簡體漢字的詞語/術語; 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體/繁體漢字的詞語/術語唯 一對應的繁體/簡體漢字的詞語/術語和採用統計分類方 _法對第二類詞語/術語轉換而得到的與輪入的簡體/繁體 漢字的詞語/術語合理對應的繁體/簡體漢字的詞語/術語 進行組合,形成與將要被轉換的簡體/繁體漢字字符串對 應的繁體/簡體漢字字符串,並將其輸出。 在本發明的第一實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 體/在繁本^'的第一實施例中’其中所使用的映射表包括簡 體/%體漢子—繁體/簡體漢字用戶詞語/術語映射 鲁體/繁體漢字繁體/簡體漢字系統詞語/術語映射表; 體/繁體漢字—繁體/簡體漢字映射表、簡體/繁 三 繁體/簡體漢字一對多映射表。 、一 以非
在本發明的第一實施例中,其中採用的統計方法可 侷限地例如是原始貝氏(Naive Bayes)統計方法。 ^根據本發明的第二實施例提供一種簡體漢字和 子之間進行相互轉換的方法,包括步驟: 一 輸入將要被轉換的簡體/繁體漢字字符串; 將輸入的簡體/繁體漢字字符串劃分成料個詞語/術 326\專利說明書(補件)\95-12\95132203 11 200811673 語; Μι別〜疋義該輸入的簡 詞語/術語,將其中在===字料中的每一個 /術語相同或雖然不同4 : %體’間體漢字的詞語 漢字的詞語/術語定義二第有t對應關係的_體 我局罘一類词語/術語,並苴 記形式上與繁體/簡體漢 1、中在払 定對應關係的簡體/繁體漢字二=;;不同且不具有確 詞語/術語;^莫子的心/術語定義為第二類 簡體/繁體漢字的詞語/術 ㈣射成=輸入的 詞語/術語; 冑對應的繁體/簡體漢字的 fi 體二類/法將第二類詞語/術語轉換成與輸入的 子詞語/術語合理對應的繁體/簡趙漢字的 斑幹入的對5亥第一類巧語/術語直接映射而得到的 體/繁體漢字的詞語/術語唯—對應的繁體/簡 體漢子的词#/術語和採用統計分類方法對第二類詞語/ 術語轉換而得到的與輸人的簡體/繁體漢字的詞語/#/注 合理對應的繁體/簡體漢字的詞語/術語進行组合叩,形τ成口盥 將要被轉換的簡體/繁體漢字字符串對應的繁掌、 字字符串,並將其輸出。 Ί篮属 在本發明的第二實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 在本發明的第二實施例中,其中所使用的映射表包括用 ^_說_(補件)\95•咖51322()3 12 200811673 戶詞語/術語映射表、系統詞語/術語映射表、簡體/繁體 漢字—繁體/簡體漢字映射表、簡體/繁體漢字—繁體/簡 體漢字一對多映射表。 在本發明的第二實施例中,其中採用的統計方法可以非 侷限地例如是原始貝氏統計方法。 根據本發明的第三實施例提供一種將簡體漢字轉換成 繁體漢字的轉換系統,該系統包括: 輸入部分,輸入將要被轉換的簡體漢字字符串; 0 詞語/術語劃分部分’將輸入的簡體漢字字符串劃分成 若干個詞語/術語; 鑑別-定義部分,鑑別-定義該輸入的簡體漢字字符串中 的每一個詞語/術語,將其中在標記形式上與繁體漢字的 詞語/術語相同或雖然不同但具有確定對應關係的簡體漢 字的詞語/術語定義為第一類詞語/術語,並將其中在標記 形式上與繁體漢字的詞語/術語不同且不具有確定對應關 馨係的簡體漢字的詞語/術語定義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢 字的詞語/術語, 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢 字的詞語/術語; 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 326\專利說明書(補件)\95-12\95132203 13 200811673 的繁體漢字的詞語續語和採 語/術語轉以 几T刀六貝万次對弟—類岡 理對庠的^到的與輸入的簡體漢字的詞語/術語合 理對應的繁體漢字的詞語/m 轉換的簡體潷念〜# 士 办咸與將要被 出。 、予子付串對應的繁體漢字字符串,並將其輸 的第三實施例中,其中的詞語 们漢子以個財構成的m#/術語。 田早 在本發明的第三實施例中 戶簡體—繁體詞語/術語映射表、系 表包括用 術語映射表、簡體—繁啤 ,、’ fB _ I體岡#/ 對多映射表。 “漢子映射表、簡體―繁體漢字一 在本發明的第三實施例中,i 侷限地例如是原始貝氏統計的、‘十方法可以非 根據本發明的第四實 繁體漢字的轉換方法,、包括種將㈣漢字轉換成 輸入將要被轉換的簡體漢字字 將輸入的簡體漢字字符串劃八’ 鑑別-定義哕浐入的斤脑一刀右千個詞語/術語; 疋我4輸入的間體漢字字 — :㈣,將其中在標記形式上與繁體漢字的=詞語/ 或雖然不同但具有確定對應簡二:語相同 定義為第-類詞語/術語,並將= 莫子的巧語/術語 漢字的詞語/術語不同且 右成 不记形式上與繁體 的詞語/術語定義為第二類不詞=對應闕係的簡趙漢字 ㈣映射表將該第-類詞語/術語直接映射成與輸入的 3抓專利說明書(補件)\95-12\951322〇3 14 200811673 體漢子的巧語/術語唯一對應的繁體漢字的詞語/術注. 計分類方法將第二類詞語/術語轉換成與輸入^ 子的詞語/術語合理對應的繁體漢字的詞語/術語; ^採用=射表對該第一類詞語/術語直接映射而得到的 二間體漢字的詞語/術語唯一對應的繁體漢字的詞 用統計分類方法對第二類詞語/術語轉換而 —入的簡體漢字的詞語/術語合理對應的繁體漢 進行組合,形成與將要被轉換的簡體漢字 、子應的繁體漢字字符串,並將其輸出。 在本發明的第四實施例中,其中的詞語/術語 個漢字或多個漢字構成的詞語/術語。 早 戶四實施例中,其中所使用的映射表包括用 術-術語映射表、系統簡體-繁體詞語/ 何映射表、簡體一繁體漢字映 對多映射表。 間篮制漢字— 在本發明的第四實施例中,其中採用的統計方 侷限地例如是原始貝氏統計方法。 乂非 #辦:本^明的第五貫施例提供一種將繁體漢字轉換成 間體漢:的轉換系統,該系統包括: 于轉換成 輸入部分,輸入將要被轉換的繁體漢字字符串· 若部分’將輸入的繁㈣字字符串劃分成 ,別-定義部分’鐘別_ ^義該輸人的繁體由 的母-個詞語/術語,將其中在標記形式上與簡m中 326_ift__)\95.51322()3 15 200811673 詞語/術語相同或雖然不同作 字的詞語/術語定義為二:二了應闕係的繁趙漢 形式上與簡體漢字的詞語/術注?中在標5己 糸^肢漢子的詞語/術語定義為第二類詞語/術語,· ^轉換部分’採用映射表將該第―類詞語/術語直接 2成與輸入的繁體漢字的詞語/術語唯一對應的簡體漢 子的祠語/術語; ^十轉換部分,採用統計分類方法將第二類詞語/術語 、'與輸入的繁體漢字的詞語/術語合理對應的 子的詞語/術語; 、 組合輸出部分’把採用映射表對該第一類詞語/術語直 接=射而得到的與輸人的繁體漢字賴語/術語唯一對應 的簡體漢字的詞語/術語和採用料分類方法對第二類詞 語/術語轉換而得到的與輸入的繁體漢字的詞語/術語合 理對應的簡體漢字的詞語/術語進行組合,形成與將要被 轉換的繁體漢字字符_對應的簡體漢字字符_,並將其輸 在本發明的第五實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 在本發明的第五實施例中,其中所使用的映射表包括繁 體—簡體用戶詞語/術語映射表、繁體—簡體系統詞語/ 術語映射表、繁體—簡體漢字映射表、繁體—簡體漢字一 對多映射表和異體字映射表。 在本發明的第五實施例中,其中採用的統計方法可以非 326\專利說明書(補件)\9542\95 B2203 16 200811673 侷限地例如是原始貝氏統計方法。 據士發明的第六實施例提供一種將繁體漢字轉換成 間肢漢子的轉換方法,包括步驟: 、 輸入將要被轉換的繁體漢字字符串; 將輸入的繁體漢字字符串劃分成若干個詞語/術語; 輸人的繁體漢字字符串中的每—個詞語/ 或^在#記形式上與簡體漢字的詞語/術語相同 定同但具有確定對應關係的繁體漢字的詞語/術語 =二:類詞語/術語,並將其中在標記形式上與簡體 2的不同且不具有確定對 的同語/術語定義為第二類詞語/術語; 體漢予 繁二:ΤΓ術語直接映射成與輪入的 刀類方法將第二類詞語/術語轉換成與輸入的 語/術語合理對應的簡體漢字的詞語/術語; 盘輸:㈣J表對該第一類詞語/術語直接映射而得到的 語/1-扭Λ漢字的詞語/術語唯一對應的簡體漢字的詞 得到二,用統計分類方法對第二類詞語/術語轉換而 字的詞二二的繁體漢字的詞語/術語合理對應的簡體漢 字符串二:㈣行組合’形成與將要被轉換的繁體漢字 對應的簡體漢字字符串,並將其輸出。 個明的第六實施例中,其中的詞語/術語包括由單 個/莫予或多個漢字構成的詞語/術語。 在本發明的第六實施例中,其中所使用的映射表包括用 32____•難聊 17 200811673 T繁體,詞語/術語映射表、 繁體—簡體漢字映射表、繁體一簡體二 對夕映射表和異體字映射表。 在本發明的第六實施例中,其中 偈限地例如是原始貝氏統計方法Λ用的^方法可以非 【實施方式】 這圖式對本發明進行詳細的說明。應該說明, 二θ…机程圖意在反映本發明實施例構思而無意 本發明限制到且濟报4 重與 ^ 的實施例的具體二在參照圖式理解了隨後 田处之後,本專業的技術人員可對於本發 明的上述系統的各個部分的功能進行重新分配或將不同 ^刀的功此進行順序的交換、拆解、合併、通過計算機硬 =和权體的早獨操作或結合操作來實現本發明的設計思 想的局部或全部’而這些修改都不麟本發明的本質和範 圍。 圖、1疋根據本發明一個實施例的簡體漢字和繁體漢字 之間進仃相互轉換的系統的示意框該 的總體構思和舆實際制場合相結合的情況。 Θ斤示根據本發明的簡體漢字和繁體漢字進行相互 轉換的系統100包括作為系統核心的轉換處理器101、輸 入裝置102和輸出裝置1〇3。 作為輸入裝置的例子,圖1中示出了複印機1 〇2ι、傳真 機1 022、知、相機1023、外部儲存器1 024、網絡裝置1〇25 以及輸入鍵盤1〇211等。實際上,只要最終能夠將文本格式 326\專利說明書(補件)\95·12\95132203 » 200811673 的中文簡體或繁體字符串輸入到轉換處理器l〇i的任 ,置都可以作為輸人裝置來使用。在同—個時刻,由這此 衣置的任思之-通過復用器(沒示出)對轉換處理 提供原始信號。 °° 101 ,應該理解到’例如複印機102l的某些輸入裝置在 (例如光學掃描)之後產生的信號並非為字符文本传號。 此時應該通過必要的處理(例如OCR辨識處理)將非字°符 籲文本信號轉變成字符文本信號後再提供到轉換處理器 10卜适些内容並非本發明的核心並且屬於本專業技術人 員的公知常識,因此不再贅述。 作為輸出|置的例子,圖i中示出了印表機^灿、傳真 機1〇々32、外部錯存器·、網絡裝置1〇34以及顯示裝置、 1 〇3n等通過復用器(沒示出),轉換處理器1 01把經過 轉換的字符文本輸出到這些輸出裝置的一個或多個。 如圖1所不,轉換處理器包括中文簡體到繁體轉換子系 _統200和中文繁體到簡體轉換子系、统4〇〇以及内部儲存器 104其中的中文簡體到繁體轉換子系統2⑽和中文繁體 到簡體轉換子系統的每—個都可以單獨存在而使得 _1的系統成為單向的中文簡體到繁體或中文繁體到簡 體的轉換系統。在調入到内部儲存器104中的控制程序的 控制下’中文簡體到繁體轉換子系統200或中文繁體到簡 體轉換子系統400進行操作來對從輸入裝置102的字符串 進仃轉換。實際上’系統100何時作為中文簡體到繁體轉 換子系統200或何時作為中文繁體到簡體轉換子系統· 326\專利說明書(補件)\95-12\95132203 200811673 來操作,既可以根播 入裝置102幹入到絲的指令來決定,也可以根據從輪 1轉換處理器的漢字字符串的性質來自 動地決疋。内部儲存哭 的資料庫文件。逛儲存產生的中間數據和必要 門:口轉:奐的中文字符串從輸入裝置1〇2經接口/多路 中文繁體到簡體體到繁體轉換子系統200或 ^ ^ ± \ 、子系統400。並且把經過轉換的結果 ==輸出展置。通過下面參照圖2和圖3的用於把 F:體漢:轉換成繁體漢字的轉換系統及其操作流程的描 =和m 4和圖5的用於把繁體漢字轉換成簡體漢字的 一換系j及其操作流程的描述’可以最終獲得對於圖1所 不的在簡體漢字和繁體漢字之間進行相互轉換的系統100 的清楚理解。 下面^…、圖2榣述作為本發明的一個實施例的把簡體 漢字轉換成繁體漢字的轉換系統2〇〇。 如圖2所不’把簡體漢字轉換成繁體漢字的轉換系統 200包括·轉換部分2(n、數據輸入部分2〇2、輸出部分 203、詞語/術語劃分部分2〇4、鑑別定義部分2〇5。其中 的轉換部分2G1中包括簡體—繁體詞語/術語轉換部分 206、GBK簡體編碼— GBK繁體編碼轉換部分2〇7和編 碼— BIG5編碼轉換部分208。在操作上,鑑別_定義部分 2 0 5間體繁體列語/術έ吾轉換部分2 〇 6與用戶簡體—繁 體詞語/術語映射表209和系統簡體_繁體詞語/術語映 射表210相聯繫;GBK簡體編碼—GBK繁體編碼轉換部分 326\專利說明書(補件)\95-12\95132203 20 200811673 207與簡體—繁體一對多字映射表211、統計數據212、 簡體—繁體一GBK漢字映射表213和簡體—繁體一對多詞 映射表214相聯繫’而GBK編碼—BIG5編碼轉換部分20 8 與BIG5—GBK編碼轉換表215相聯繫。 輸入部分2 0 2把將要被轉換的簡體漢字字符串,例如 SC編碼的簡體漢字數據流輸入到詞語/術語劃分部分204 中0 根據控制詞語/術語劃分的規則,詞語/術語劃分部分 馨204把輸入的簡體漢字字符串劃分成一個或若干詞語/術 语’即「抽出」構成簡體漢字字符數據流的各個詞語(術 語)。劃分後形成的詞語/術語可以由一個或若干簡體漢字 字符構成。這些作為詞語/術語劃分的結果而產生的全部 詞語/術語被輸入到鑑別-定義部分205。 在對於簡體/繁體漢字向繁體/簡體漢字的轉換的既有 技術中存在各種對於輸入的將被轉換的對象字符串進行 ⑩劃分的(或稱為「分詞」)方法,這些方法均可採用在本 發明中作為對從輸入裝置提供的簡體/繁體漢字字符串進 •‘ 行劃分的方法。關於這些方法可以參見例如台灣的蔡佳麟 博士 的文章「Report to BMM-based Chinese Word , Segmentor with Context-based Unknown Word , Identifier for the Second International Chinese Word Segmentation Bakeoff」 (http://acl·ldc·upenn·edu/1/105/105-3020·pdf )和 香港揭春雨博士 的文章「An Example-Based Chinese Word 326\專利說明書(補件)\95-12\95132203 21 200811673
Segmentation System for CWSB-2」 (http://personal.cityu·edu. hk/〜ctckit/papers/bak eoff2.pdf)。這些内容被作為既有技術結合在此參考。 鑑別-定義部分205對於輸入的全部經過劃分的詞語/ 術語進行鑑別和定義,其中的鑑別操作是在預定程序的控 制下對於輸入的詞語/術語的合理性進行鑑別,並且可以 在控制程序的控制下提供必要的手段(例如顯示界面)供 系統的使用者作出新的詞語/術語,並將其輸入和儲存在 ⑩與鑑別-定義部分205相聯繫的用戶簡體—繁體詞語/術 語映射表209中。隨後,鑑別-定義部分205對於經過鑑 定的全部詞語/術語進行定義而分成兩類: 第一類詞語/術語是該簡體漢字的詞語/術語在標記形 式上與繁體漢字的詞語/術語相同、或雖然該簡體漢字的 詞語/術語在標記形式上與繁體漢字的詞語/術語不同,但 該將要被轉換的簡體漢字的詞語/術語具有與其為確定對 •應關係的繁體漢字的詞語/術語。舉例來說,「北京」一詞 在簡體漢字和繁體漢字中的標記形式完全相同,因此它屬 於第一類詞語/術語。而簡體漢字中的「计算机软件」一 詞與繁體漢字中的「電腦軟體」一詞雖然在標記形式上不 同,但是二者之間存在確定的對應關係,因此它也屬於第 一類詞語/術語。 第二類詞語/術語是該簡體漢字的詞語/術語在標記形 式上與繁體漢字的詞語/術語不同且不具有確定對應關係 的簡體漢字的詞語/術語。例如,簡體漢字的詞語「摆」 326\專利說明書(補件)\95-12\95132203 22 200811673 在繁體漢字中存在有兩個對應的標記形式「擺」和「$ 因此它們之間不僅是標記形式不同,而且不且有確^」’ 關係。在把簡體漢字的詞語「摆」轉換成繁體漢字二貝ΐ 要根據具體的使用情況才能決定選擇「擺」和、 一個。因此它Μ於馀, 伽」的哪 口此匕屬於弟二類詞語/術語。 從上面的分析可Π 4山、心仏狄 , 特點3 .、隹〜絲枯看出,24種弟二類詞語/術語具有的 =疋在進仃轉換中的-對多的問題。即-個簡體漢字: 個繁體漢字’使得在進行簡體漢字到繁體漢字的轉換 日4生選擇上的錯誤。這也是本發明旨在解決的問題。、 針;==的簡體漢字的詞語/術語定義為兩類是為了 型的簡體漢字的詞語/術語實施具有本發明特 ‘,沾的處理手段而實現本發明高精度和高效 、 到繁體漢字的轉換的目的,從下面的描述中將會看 點。 心 逍後轉換。201對於輸入的經過定義的兩類簡體气 卜/術語進行從簡體到繁體的轉換。其中:該簡體 ㈣語/術語轉換部分206利用用戶簡體―繁體詞語/術达 ,射表_和系統簡體—繁體詞語/術語映射表21〇來對 :-類同語/術語執行映射轉換;該GM簡體編碼一咖 繁體編碼轉換部分2()7利關體—繁體—對多字映射表 =!、統計數據212、簡體繁體—GBK漢字映射表213和 間體繁體-對多詞映射表214來對第二類詞語/術語執 打映射和統計分類方法相結合的轉換;以及該gm編碼— BIG5編碼轉換部分208利用BIG5—GBK編碼轉換表把 326\專利說明書(補件)\95-12\95132203 23 200811673 BIG5簡體漢字轉換成GM繁體漢字。從簡體—繁體詞語/ 術語轉換部分206輸出的轉換結果的繁體漢字和從GBK編 碼—BIG5編碼轉換部分208輸出的轉換結果的繁體漢字 相結合而形成期望的繁體漢字數據流,並且輸出到輸出部 分 203 〇 下面將對於發生在轉換部分2〇1中的各種轉換進行更 具體的描述,其中著重介紹本發明核心的統計轉換技術原 理。 ► 在簡體—繁體詞語/術語轉換部分2〇6利用用戶簡體— 繁體詞語/術語映射表2 〇 9和系統簡體_繁體詞語/術語 =射,210而對於第一類簡體詞語/術語執行映射轉換 時,是通過直接查表映射的方法把sc編碼的簡體字轉換 為BIG5編碼的繁體字,是一種簡體詞語/術語到繁體詞語 術語的直接對應的-對一的轉換。具體地說,簡體詞語/ 吾到繁體詞語/術語是指以詞為單位進行轉換,即通過 1「用戶簡體—繁體詞語/術語映射表」和「系統簡體 2㈣語/術語映射表」完成對輸入的簡體漢字數據流 =-類詞語/術語到對應的繁體漢字數據流的轉換。該 、具備雙向性y尤是說「系統簡體―繁體詞語/術語映 = ^戶簡體—繁體詞語/術語映射表」也可用於 的轉換(後面將參照圖4進行描述),即「系 '用,二二簡體〜繁體詞語/術語映射表」同 用戶繁體1體詞語/術語映射表」結構相同而可以共 326\專利說明書(補件)\95·12\95132203 u 200811673 用。 在上述用戶簡體—繁體詞語/術語映射表和系統簡體— 繁體詞語/術語映射表中儲存有簡體詞語中的不能以每個 字來對應到繁體詞語中相應位置上的字的詞語和術語。 表1是該用戶簡體—繁體詞語/術語映射表和系統簡體 ' —繁體詞語/術語映射表的結構示例。
表 1 簡體漢字詞語 繁體漢字詞語 位 位元 字节 位元組 光盘 光碟 计算机 電腦 数据库 資料庫 档案 文件 信息 資訊 因特网 網際網路 软件 軟體 星期 禮拜 乍得 查德 肯尼迪 甘乃迪 • · · 326\專利說明書(補件)\95-12\95132203 25 200811673 :戶說:==1僅用於說明的目的,而不是 術語缺射表的結射繁體 構的映射表實現簡體L” 绝樣取直觀的結 入的將要被轉換的每—個簡體:詞換時,將把輸 的「簡體漢字詞語/術語」項進行比/“」同所有記錄 換的簡體「詞語/術語」存在於 如果該將要被轉 的該記錄的「繁體漢字詞語/術纽\中則取出與之對應 簡體詞語/術語的轉換結果(繁體°」員:容,做為上述 本領域的技術人員顯而易見的是,可::)二輸:。 上不同於表1的映射表和相應的映 :匕厂構 檢索映射法、2分檢索映射法、方::如·· Η -據查找法來生成詞語/術語映射表匕索:射f專,同時根 的「系統簡體,語/術=射雖用然本示例中 蘩舻叫上五/小β吹对表」和「用戶簡體— =體⑽/★語映射表」結構相同, =構…本示例中的「系統簡體—繁二= 映射表」和「用戶簡體—繁體 將參照圖4描述的示例中的映射表」與下面 映射#夺「田“ 繁體—簡體詞語/術語 也可二。繁體一簡體詞語/術語映射表」的結構 例如「系統簡體-繁體詞語/術語映射表」和「 體^繁體詞語/術語映射表」其中之一可以採用如们二 :的、:構和直觀映射的方法’而另一個可以採用 體—繁體詞語/術語映射轉換過程,其中把每一個簡體詞 326Χ專利說明書(補件)\95·12\95132203 26 200811673 語/術語當作一個字符串·· 1)輸入簡體漢字字符串2簡體漢字
Si = clc2c3…cn ^ 2 )用簡體漢字子字符串s i同映身 體漢字詞語/術語」項進行比較:如果伙二有,錄的「簡 的丽綴‘刀(clc2-.cs…n)存在 寸串 ^出該記錄的「繁體漢字詞語/術語」項、、中做^ SC編碼)進行輸出。轉到3 t:;=換結果⑽ 理過程。 $不存纟’則結束該處 3)S=S~clc2··· cs 4 )轉到上述的2 ) 如上所述’圖2中的簡體, 利用用戶簡體—繁體詞語/術語映射表2轉換^ 2 〇 6 繁體詞語/術語映射表加完成對於第一類詞^充^體: 體字轉換為^^ 於用戶開放的,並且在執HTt 射表209是對 JL且在執仃轉換時在搜索順序上該 體·^繁體詞語/術語映射表2〇q得洙兮/ 戶間 語/術語映射表210。 9優先該糸統簡體-繁體詞 下面來說明在圖2所示的脸雜碰、甘+ 的將間體漢字轉換成繁體漢字 =系統的實施例中對於第二類詞語/術語,即該簡 詞語/術語在標記形式上與繁體漢字的詞語/術组體 不同且不具有確定對應體財的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 1η 200811673 X月的特彳玫在於通過統計分類的轉換方法來實現了 ^此專換’攸而實現簡冑漢字字符到繁體漢字字符的一對 多映射的準確轉換的問題。 .與字2!:於簡體漢字的詞語/術語在標記形式上 ‘體嚷」°5浯/術語不同且不具有確定對應關係的簡 繁體二=/術語的轉換主要是由GBK簡體編碼,κ F篮編碼轉換部分2〇7完成。 示,繁體一對多字映射表2ΐι、統計數據 〇司昧V—繁體—GBK漢字映射表213和簡體一繁體-對 夕映射表214與該GBK簡體編碼—GBK, 分207連接。 為體編碼轉換部 簡體-繁體一對多字映射表2ΐι 表2的示例結構: 旁如下面 326\專利說明書(補件)\95·12\95132203 28 200811673
表2中共有133條記錄,每—你 例如第-條記錄的第一個字符是=二個^ 字「摆」不在繁體字中出現,所二體:個 付。弟二和第四個字符位置分別是繁體字中與簡體字「撰予 相對應的兩個可能的選擇「擺」和「襬」。 」 ft體—繁體-對多詞映射表214可以具有按照如下 示例規則形成的結構··
J 『赉』號··表示一組「一
對多雨表數據j的開始,F 326\專利說明書(補件)\95-12\95!32203 29 200811673 號後面的漢字為i簡體漢字,該簡體漢字有多個繁體漢字 對應。 2. 『$』號:表示對應的1個繁體漢字的信息。『$』號 後面的漢字為對應的1個TC繁體漢字。『$』號記錄下面 的記錄為包含『$』號後面的繁體漢字的詞的信息。該記 錄可以有多個。 3. 『$』號數據記錄組會有多個。 4. 『@』號:表示一組「一對多詞表數據」的結束。 例如,簡體漢字「辟」的一對多詞表映射數據組可以是: #辟 簡體漢字「辟」的「一對多詞表數據j的開始 $辟 簡體漢字「辟」對應繁體漢字「辟」 大辟 上述對應時的詞表 复辟 征辟 φ 辟邪 辟易 $闢 簡體漢字「辟」對應繁體漢字「闢」 开辟 上述對應時的詞表 精辟 辟谣 @ 簡體漢字「辟」的「一對多詞表數據」的結束 如果一個簡體字/詞能夠通過查表映射的方法直接獲得 326\專利說明書(補件)\95-12\95132203 30 200811673
一、…繁體漢子的轉換結果,則將能又快又準確地實現簡 ^奠子到繁體漢字的轉換。但是如前所述,由於從簡體漢 ^換到繁體漢字的—對多的問題,在既有技術的轉換方 :都存在轉換不準確的問題。本發明利用統計分析技術 夕原始貝氏分類器來實現從簡體漢字到繁體漢字的一對 卜、射的準確轉換。應該說明,其它能夠實現空間向量的 統:分類的方法也可以採用,在此是以原始貝氏分類器進 亍么明構思的說明,而不是對本發明的限制。 下面先簡要介紹貝氏統計分類 用的原始貝氏分類器。 的原理’再說明本發明使 貝氏分類問題可以如下描述:假設一個對象可以用 2向量表示’如Μχι,X2, ..·,χ〇,炉為對象的特徵 :里,亚且可以分Μ個類C=(ci,。,…,W,則貝氏 ^貝問題可以描述成··已知類條件概率密度則^ 先驗概率p(Ci)求後驗概率p(Ci|q。1中^ 2 大、 這可由貝氏公式來計算: /',,”·’ k。 p(ci I x) = p(ci I Xl, X2, ..., Xn) = PfeX2^->XnlCi)p(ci) P(Xl,X2,··.,Xn) 分類規則可以描述為:對一個特徵向量值為无的 其類別指定為Cm,當且僅當p(Cin|i) & p(c . 2,…,1 ; i 尹 m。 1 = 1, 可以按照下面的公式來確定對象的分類: 326\專利說明書(補件)\95-12\95132203 31 200811673 :argmax 应1,…,χη | ci)p(ci)
cieC Ρ(Χ1,χ2,···,Χη) P(X1,X2, ···,味)P(C〇 (公式1) 原始貝氏分頬器基於一個簡單的假設
的值時,所右凰k w曰 甘、、口疋力負交1 C π有屬性變置相互獨立,也就是說: ρ(χΐ, Χ2,...? xn I Ci) = J~[p(xj I a) 公式2) 將公式 代入公式1,得到原始貝氏分 類器的分類算法 = arg^p(ci)fjp(xj|cj) 公式3) 在使用公式卩 到繁體漢字的轉換氏分類器算法解決從簡體漢字 個达料座· 、处里日守的一對多的問題時,需要使用& 划”口枓庫·簡體漢 而戈使用兩 漢字語料庫Carpus ϋ ϊ卿^和與之㈣的繁體 的電腦的預定館存空=個,料庫存放在實施本發明 兩種方式: 間位置中。在具體的實施中可以採取 之對 第一種方式是把簡體漢字語料庫Con%和與 m9mmmm\95^12\95132203 200811673 應的繁體漢字語料庫C〇rpus_TC作為圖2中的統計數據 212。假設簡體漢字語料庫c〇rpus—sc和與之對應的繁體 漢字語料庫C〇rpus_TC已經達到一定的完備程度,在進行 .針對一對多的簡體漢字到繁體漢字字符的轉換時,GM簡 •體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統^ 處理控制程序操作統計數據212中的簡體漢字語料庫、n c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus—吖,按 ⑩照隨後解釋的原理而獲得正確的轉換結果。由此可見,在 該第一種方式中的該圖2的統計數據212應該廣義地理解 為是簡體漢字語料庫Corpus_sc和與之對應的繁體漢字 語料庫c〇rpus_Tc,真正的統計數據是在GBK簡體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統計處理控制 程序操作這兩個語料庫之後獲得的數據。可以理解到,簡 體漢字語料庫Corpus—SC和與之對應的繁體漢字語料庫 Corpus—TC的完善程度直接影響GM簡體編碼—GM繁體 #編碼轉換部分207調用貝氏分類統計處理控制程序進行 操作的結果的精確度。 " 第二種方式是,不直接將簡體漢字語料庫C〇rpus_SC和 ,與之對應的繁體漢字語料庫corpus—TC放置在圖2的統計 '數j 2丨2中,而是針對全部所述第二類的簡體漢字到繁體 -漢字轉換,即一對多的轉換而預先對於簡體漢字語料庫 c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus_TC執行 統计#作,將統計計算的結果放置在圖2的統計數據212 中。在GBK簡體編碼—GBK繁體編碼轉換部分2〇7針對一 326\專利說明書(補件)\95-12\95132203 200811673 個輸入的第二類簡體漢字執行貝氏分類統計處理轉換 時’只需調用預先計算好的結果即可。這將進—步降低系 統的資源佔用,提高轉換速度。 本發明允許用戶纟規定的條件下不斷充實和完善其自 f使用的簡體漢字語料庫CGrpus—sc和與之對應的繁體 漢=語料庫C〇rpus_T€,使之更適合自身使用的需要。 貝際上上述第一種方式和第二種方式是基於相同的發 明構思的兩種具體的實施方式,在使用結果上並無實質區 下面來矹明對於一個第二類簡體漢字執行原始貝氏分 一處理的過€。假定需要被轉換的簡體字為$,則它所紫 應的“固繁體字形的集合記為T={ti,t2,…,乜}。 在簡體漢字語料庫h 〇 △丄 竹厍Lorpus-SC中,s和位於它左右的字 組成的字符串記為SMS f 其中s-p si分別是變量。使用 ’乂二、刀體字S進行漢字的簡體-繁體轉換 的算法如下: 學習算法(計算統計特徵) 1·收本Corpus〜sc中所有的簡體字v〇caculary — Corpus-SC中的所有的簡體字的集合 2·計算所需要的概率項pa)#nP°(Si|Ti) 對T中每個目標值 知值 Tj,:)E{1,2,…,k} nfC0rpus—sc"j出現的次數, 一C〇rPUS—沉中11,T2,…,^出現的總次數, P CT j)=n j/ητ 326傳利說明書(補件)\95-12\951322〇3 34 200811673 對 Vocaculary 中的 Si,i = {-l,1} ni —在簡體字S轉為Tj的情況下,Corpus_SC中 Si的出現次數, P(Si|Tj) = (ni+m/|Vocaculary|)/(nj+m),這裏使用 m-估計,其中 ^ 當以上的統計特徵計算之後,利用以下的貝氏分類算法 的公式來確定轉換為哪一個繁體漢字。
TNB =argmaxP(2;.
TjeT 尸(U丨7;)尸(7;) arg max----—-—
TjeT P(S_lyS) arg max 尸(U I 7;)尸(7;·)
TjeT 二 argmax尸(L|[)P〇S^)P(2;)
TjeT (公式4 ) φ 通過幾個簡單的例子來理解從簡體漢字到繁體漢字的 轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1) GBK发—6165發(發展) 第一步:GBK簡體編碼—GBK繁體編碼轉換部分207查 找簡體—繁體一對多字映射表211,「发」是一對多簡體 字。使用原始貝氏分類方法操作統計數據212,得到在詞 語「发展」中的「发」對應繁體字「發」。(内碼:B7A2 —B06C) 第二步:GBK編碼—BIG5編碼轉換部分208查找GBK— 326\專利說明書(補件)\95·12\95132203 35 200811673 BIG5編碼轉換映射表215,從GBK編碼轉換為MG5編碼。 (内碼·· B06C—B56F) 2 ) GBK发—6105髮(頭髮) 第一步:GBK簡體編碼— GBK繁體編碼轉換部分2〇7查 找簡體—繁體一對多字映射表211,「发」是一對多簡體 子。使用原始貝氏分類方法操作統計數據212,得到在詞 語「头发」中的「发」對應繁體字「髮」。(内碼:B7A2 -^B06C) 第二步:GBK編碼—BIG5編碼轉換部分2〇8查找GBK〜 BIG5編碼轉換映射表215,從GBK編碼轉換為BIG5編碼。 (内碼:B06C—BE76) 3) GBK摆~>BIG5襬(衣襬翩翩) j 第一步:GBK簡體編碼_>GBK繁體編碼轉換部分2〇7查 找簡體—繁體一對多字映射表211,「摆」是一對多簡^ 字。使用原始貝氏分類方法操作統計數據212,假設「衣 和「翩」在「摆」字左右的情況在語料庫中都沒有能夠得 到統計結果’所以此時使用原始貝氏分類方法沒有得到期 望的結果。此時系統根據用戶對於詞表的交互,把「 的「摆」轉換為繁體字「襬」。(內现· Μη - ^ 伸」I内碼· BOM—D26F)並且 將父互的結果記錄在用戶簡體—繁 和統計數據211中。術語映射表 弟一步· GBK編碼-> BIG5编踩趙4么> DTnc 、.扁碼轉換部分208查找GBK- BIG5編碼轉換映射表215,從GBK绝π ^ 編碼轉換為BIG5編碼 (内碼:D26F — C4FC) 326\專利說明書(補件)\95-12\95132203 36 200811673 4) GBK 囯—BIG5 國 第一步:由於「国」不是一對多簡體字,所以簡體〜繁 體詞語/術語轉換部分206查找系統簡體—繁體詞語/術 語映射表210,「国」對應繁體字「國」。(内碼:B9FA-> 87F8) 弟一步:查找GBK— BIG5編碼轉換映射表,從GBK編碼 轉換為BIG5編碼。(内碼:87F8—B0EA) 馨 下面將通過一個簡體漢字字符串到繁體漢字字符串的 轉換來進一步說明本發明的核心:統計轉換映射技術。 例如需要被轉換成繁體漢字的簡體漢字字符串是「心脏 是循环系统的动力中心」。它的正確的轉換結果應該是「心 臟是循環系統的動力中心」。 通過根據圖2的將簡體漢字轉換成繁體漢字的轉換系 統的刼作,其中除去「脏」和「系」之外的十個字的簡體 字和繁體字之間均是一對一映射的關係。所以對於這十個 ⑩對映射的簡體漢字到繁體漢字的轉換可以通過利用 映射表直接轉換即可。 對於一對多映射漢字,即該字符串(簡體漢字的句子) 中的「脏」和「系」兩個簡體字的轉換操作的實際情況是: 其中對「脏」字的轉換使用了簡體—繁體一對多詞表,對 「系」字的轉換使用原始貝氏分類,具體說明如下。本發 明人特別申明,這裡所說的「實際情況」是在本發明人^ 如下的假設前提條件之下出現的,即:簡體漢字語料庫 C〇rPUS_SC和與之對應的繁體漢字語料庫Corpus—TC中在 326\專利說明書(補件)\95·12\95132203 ^ 200811673 醫學領域方面欠缺;簡體—繁體一對多詞映射表214是相 對完備的。 首先’從簡體—繁體一對多字映射表211得到簡體漢字 脏」字對應的繁體字形有兩個:「髒」和r臟」。
按照本發明的設計構思,首先判斷是否可以由GBK簡體 編碼— GBK繁體編碼轉換部分207使用原始貝氏分類的方 法進行轉換。根據統計數據顯示,在採用統計數據212的 訓練集中,「脏」共出現180次,其中轉換為「髒」的有 180次,轉換為「臟」的有〇次,而無論哪種轉換情況, 「脏」字前面出現「心」的次數為0次,後面出現「是」 的次數也為〇次。在統計數據稀疏的情況下(說明語料庫 中十刀缺J百學類文章),系統將停止使用原始貝氏分類 的方法,而通過查找簡體—繁體一對多詞映射表214進行 轉換。將「脏」與前後兩個字分別組合,得到「心脏」和 :脏是」,在該映射表中查找「脏」的詞條,在轉換為「臟σ =的情況下找到詞語「心臟」,因此在這個句子中,簡體 字「脏」應該轉換為繁體字「臟」。 「酼後再度使用貝氏分類技術轉換來嘗試把簡體漢字 「系」轉換成適當的繁體漢字。 從簡體一繁體一對多字映射表211得到
子對應的繁體字形有三個,分別為「系」、「係」和「繫: 使用原始貝氏分類的方法對其J ^算使用拉普拉斯定律(Laplacj=:= 理。分類算法的公式如下·· 千π處 326\專利說明書(補件)\95-12\95132203 38 200811673 Γλ® =耵|巧狀户-丨丨Z仲丨丨难⑻ 根據統"十數據顯示,在訓練集中,「系」共出現47691 次。 情況一:轉換為「系」 出現次數:25249 次,p(系)=25249/47691 = 0. 529429 _ 不」子的次數:11,Ρ(环I系)= 〇· 00043565 後面是「& ^ ^ 况」子的次數:14905,Ρ(统丨系)= 0· 590297 Ρ(系)Ρ(环丨系)ρ(统丨系)= 0· 0001361 情況二:轉換為「係」 出現次數:17651 次,ρ(係)=17651/47691 = 〇.37〇112 4面疋「环」字的次數:0,Ρ(环|係)= 8· 4667e-9 後面是「统」字的次數:0,P(统I係)= 8.4667e-9 P(係)P(J不丨係)P(统 I 係)= 2. 653e-17 ⑩ 情況三:轉換為「繫」 出現次數:24791 次,P(繫)=4791/47691 = 0. 100459 W面是「环」字的次數:〇,p(环|繫)=3· 118833e-9 後面是「统」字的次數:1,p(统|繫)=〇· 0002087 P(繫)P(环 I 繫)P(统 I 繫)=6539e-13 根據分類算法公式可以得到,在這個句子中,簡體字 「系j應該轉換為繁體字「系」。 GBK編碼— bIG5編碼轉換部分208使用GBK—BIG5編碼 轉換映射表來得出需要的BIG5繁體漢字,該繁體漢字與 326\專利說明書(補件)\95·12\95132203 39 200811673 二/ 1體繁體詞語/術語轉換部分2 0 6的繁體漢字相結 合後由_出部分203作為轉換的結果輸出。 、° 、一:考圖3來說明圖2所示的將簡體漢字轉換成繁體 漢字的轉換系統的操作過程。 〃見圖3的流程圖’首先輸入將要被轉換的簡體漢字 字符串(步驟S310)。 P現後’詞語/術語劃分部分204根據預定的劃分規則對 ⑩,輪入的簡體漢字字符串進行劃分而「抽取」出組成該字 符串的全部簡體詞語/術語(步驟S320 ),並將這些詞語/ 術語提供到鑑別-定義部分205。 在接收到每一個簡體詞語/術語之後,鑑別-定義部分 205則將對其進行鑑別和定義,判斷其是否屬於第一類簡 體詞語/術語,即在標記形式上與繁體漢字的詞語/術語相 同或雖然不同但具有確定對應關係的簡體詞語/術語(步 驟S330 ),如果為「是」,則將該簡體詞語/術語輸入到轉 ⑩換部分201的簡體—繁體詞語/術語轉換部分2〇6,由簡 體—繁體詞語/術語轉換部分2〇6利用該用戶簡體—繁體 詞語/術語映射表209和系統簡體—繁體詞語/術語映射 表210把該第一類簡體漢字字符轉換成對應繁體漢字字 符(步驟S340 )。 如果步驟S330的定義結果為「否」,則定義該簡體詞語 /術語為第二類詞語/術語,即在標記形式上與繁體漢字的 詞語/術語不同且不具有確定對應關係的簡體漢字的詞語 /術語,並將其提供到轉換部分201的GBK簡體編碼〜 规專利說明書(補件)\95-12\95132203 40 200811673 繁體編碼轉換部分207,通過利用簡體—繁體一對多字映 射表21卜統計數據212、簡體^繁體—gm漢 :广繁體-對多詞映射表叫,由簡體編碼1: 繁體編碼轉換部分207採用統計分類與映射組合的方法 ^亥簡體漢字的同語/術語轉換為合理對應的繁體漢字的 詞/語術語(步驟S350 )。 、 將編碼—BIG5編碼轉換部分m❸轉換處理後, f :驟,〇和步驟S350獲得的繁體漢字詞語/術語相結 獲得與輸人的㈣漢字字符串對應的繁體漢字字符 ,亚由輸出部分203將其輸出(步驟S360 )。 字Ξ:串圖2的本發明的一個實施例的將簡體漢 土 、為%、體漢字字符串的系統來實踐圖3所示 的-的一^ t 了將簡體漢字轉換成繁體漢字的轉換中出現 現子+子夕的映射問題。具體地說’本發明的把能夠實 •=:映射的簡趙漢字的詞語,術語和不能實現-對 •;=體漢字的詞語/術語,即-對多映射漢字分開處 ㈣ /能採用統計特徵的技術來用原始貝氏分類方 法貫現從簡體漢字到繫轉、、蓄— 、 繁體,莫予的一對多映射處理,使得從 ^。/、予到繁體漢字的一對多映射處理的精確度大大提 體ϋ、、、圖4描述作為本發明的另-個實施例的把, ί執仃轉換與圖2系統所執行的轉換相反,但是在原理: 門是相同或相似的。因此那些與圖2相同的描述或公式 326、專利說明書(補件)\95-12\95132203 \ 41 200811673 的推導將被簡化或省略。 如圖4所示,把繁體漢字轉換成簡體漢字的轉換系統 400包括··轉換部分401、數據輸入部分4〇2、輸出部分 • 403、词語/術語劃分部分404、鐘別-定義部分405。其中 •的轉換部分401中包括繁體—簡體詞語/術語轉換部分
406、BIG5繁體編碼—GBK繁體編碼轉換部分4〇7和gBK 繁體編碼— GBK簡體編碼轉換部分408。在操作上,鑑別一 定義部分405、繁體—簡體詞語/術語轉換部分4〇6與用 戶繁體—簡體詞語/術語映射表4〇9和系統繁體—簡體詞 語/術語映射表410相聯繫;BIG5繁體編碼—GBK繁體編 碼轉換部分407與BIG5—GBK編碼轉換表411相聯繫/而 GBK繁體編碼—GBK簡體編碼轉換部分4〇8與統計數據 412繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體一gbk 漢字映射表416相聯繫。 ⑩輸入部分402把將要被轉換的繁體漢字字符串,例如 BIG5、、扁碼的繁體漢字數據流輸入到詞語/術語劃分部分 404 中。 , 根據詞語/術語劃分的控制規則,該詞語/術語劃分部分 、=4把輸入的繁體漢字字符串劃分成一個或若干詞語/術 • ^即抽出」構成繁體漢字字符數據流的各個詞語(術 語)。劃分後形成的詞語/術語可以由一個或若干繁體漢字 子符構成。這些作為繁體詞語/術語劃分的結果而產生的 全部繁體詞語/術語被輸入到鑑別—定義部分4〇5。 326\專利說明書(補件)\95·ΐ2\95132203 42 200811673 鑑別-定義部分405對於輸入的全部經過劃分的繁體詞 語/術語進行㈣和定義,其巾的鏗卿作是在預定 的控制下對於輸人的繁體詞語/術語的合理性進行鐘別, 並且可以在控制程序的控制下提供必要的手段(例如顯示 界面)而使得系統的使用者作出新的詞語/術語的定義, 並將其輪入和儲存在與鑑別義部分4{)5相聯繫的用戶 繁體-簡體詞語/術語映射表彻中。隨後,鑑別-定 2 4〇5對於經過較的全部詞語/術語進衫義而分成^ 第-,詞語/術語是該繁體漢字的m#/術語在標記形 :土與間m的詞語/術語相同、或雖然該繁體漢字的 ‘吾/術語在標記形式上與簡體漢字的詞語/術語不同,但 =將要被轉換的繁體漢字的詞語/術語具有與其為確定對 應關係的簡體漢字的詞語/術語。舉例來說,「 在繁體漢字和簡體漢字中的標記形式完全相同,因此它屬 # =-類詞語/術語。而繁體漢字中的「電腦軟體」一詞 贫間體漢字中的「计曹如私从 # 了 十-机软件」—詞雖然在標記形式上不 …但疋二者之間存在確定的對應關係,因此也 一類詞語/術語。 、弟 字的詞語/術語在標記形 同且不具有確定對應關係 ’繁體漢字的詞語「餘」 標記形式「余」和「馀」, 同,而且不具有確定對應 弟一類詞語/術語是該繁體漢 式上與簡體漢字的詞語/術語不 的繁體漢字的詞語/術語。例如 在簡體漢字中存在有兩個對應的 因此它們之間不僅是標記形式不 326\專利說明書(補件)\95-12\9513220: 200811673 關係。在把繁體逢念& Μ & r 要粑攄且髀沾估田主。餘」轉換成簡體漢字時則需 要根I、體的使用情況才能決定選擇「余」和 ^ 一個。因此它屬於第二類詞語/術語。 」的哪 從上面的分析可以看出,這種第二類 特點是在進行轉換中的-對多的問題。即—個;體;有= 應多個簡體漢字,使得在進行繁體漢字到簡體 日"ff選擇的錯誤。這也是本發明旨在解決的問題。、 把射形成的繁體漢字的詞語/術語定義 針對不同類型的繁體漢字的詞語/術語實施具有本 點的處理手段而實現本發明高精度和高效率字 簡體漢字的轉換的目的,從下面的描述中將會看 語換:401,對於輸入的經過定義的兩類繁體詞 二:/二仃攸繁體到簡體的轉換。其中:該繁體-簡體 H吾術語轉換部分4G6利用用戶繁體—簡體詞語/術語 2射表侧和系統繁體^簡體詞語/術語映射表410來對 弟-類詞語/術語執行映射轉換;該哪繁體編碼 簡=碼轉換部分4Q8利用統計數據412、繁體—簡體— 十^子映射表413、異體字映射表414、繁體》簡體—對 :詞映射表415和繁體—簡體一GBK漢字映射表416來對 第一類同語/術語執行映射和統計分類方法相結合的轉 換。,繁體—簡體詞語/術語轉換部分406輸出的轉換結 的fl體漢子和從GBK繁體編碼GBK簡體編碼轉換部八 4〇8輸出的轉換結果的簡體漢字相結合而形成期望的簡^ ^^mmmmi^&5A2\95n2203 44 200811673 漢字數據流’並且輸出到輸出部分4〇3。 下面將對於發生在轉換部分401中的各種轉換進行更 ^體的描述’其中著4介紹本發明核心的統計轉換技術原 在繁體—簡體詞語/術語轉換部分傷利用用戶繁體5 簡體詞語/術語映射表彻和系統繁體—簡體詞語/術語 1射,410而對於第一類繁體詞語/術語執行映射轉換。 %,疋通過直接查表映射的方法把mG5編碼的繁體 換為GBK編碼的簡體字,是—種繁體詞語/術語到簡體詞 ’/術語的直接對應的一對一的轉換。具體地說,繁體詞 语/術語到簡體詞語/術語是指以詞為單位進行轉換,即 過查找「系統繁體—簡體詞語/術語映射表」和「用戶繁 體—簡體詞語/術語映射表」完成對於輸入的繁體漢字數 據流的第一類詞語/術語到對應的簡體漢字數據流的轉 換。如上面參照圖2進行的描述中所說的那樣,這種轉換 φ具備雙向性’即「系統繁體—簡體詞語/術語映射表」同 :系統簡體—繁體詞語/術語映射表」,「用戶繁體—簡體 詞語/術語映射表」同「用戶簡體—繁體詞語/術語映射表」 結構相同而可以共用。 ,在上述用戶焦體簡體詞語/術語映射表和系統繁體— 簡體詞語/術語映射表中儲存有繁體詞語中的不能以每個 字來對應到簡體詞語t相應位置上的字的詞語和術語。相 關的示例可參見上述的表I。 同樣應該說明,表1的示例結構僅用於說明的目的,而 32轉利說明書(補件)\95-12\95132203 45 200811673 不是對於用戶繁體〜簡體詞語/術 簡體詞語/術語映射表的結構進行限制。=!:!體一 的結構的映射表實現繁體—簡體詞語/妙的韓^直硯 把輸入的將要被轉換的每一個繁體 轉換知,將 記錄的「繁體漢字詞語/術語」項進行°比;何:」同所有 被轉換的繁體「詞語/術語」存在於該表;要 對應的該記錄的「簡體漢字詞語/術語」内六出= ί述繁體詞語_的_結果(簡㈣編碼Γ進= 本領域的技術人員顯而易見的是,可以使用其它在於 上不同於表1的映射表和相應的映射 。 檢索映射法、2分檢索映射法、樹檢索映射:等二 據查找法來生成詞語/術語映射表。另外,雖然本示^ 的「系統繁體4簡體詞語/術語映射表“、繁體 簡體詞語/術語映射表^ 戶繁體 同的㈣L ’但它們也可以採用不 中的「系統繁體—簡體詞語/術語 ,射表」#「用戶繁體〜簡體詞語/術語映射 =圖2描述的示例中的「系統簡體—繁體詞語/術語映 可用戶簡體—繁體詞語/術語映射表」的結構也 例如系統繁體—簡體詞語/術語映射表」和「用戶繁 體-簡體詞語/術語映射表」其中之一可以採用如表】所 不的、:構和直觀映射的方法,而另-個可以採用如下的繁 體—簡體詞語/術語映射轉換過程,其中把每一個繁體詞 326^®θ^·(^ίΦ)\95-12\95132203 46 200811673 語/術語當作一個字符串: 體漢字子字符串 1)輸入繁體漢字字符串$繁
Si=clc2c3··· cn 2)用繁體漢字子字符串Si同映射表中 體漢字詞語/術語」項進行比較,如果繁體漢字二: 取1:刖綴部分(齡,,…)存在該映射表中,則 =該記錄的「簡體漢字詞語/術語」項中内容,做為上 (:“)子字符串的轉換結果(繁體SC 2)。進仃輪出。轉到3)。如果不存在,則結束該處理 3) S=S-clc2…cs 4) 轉到上述的2) 如上所述’目4中的繁體―簡體詞語/術語轉換部分偏 利用用戶繁體—簡體詞語/術語映射表彻和系統繁體— 簡體詞語/術語映射表410完成對於第一類詞語/術达映 射轉換’即把繁體漢字編碼的_繁體字轉換為咖編 碼的簡體字。其中用戶繁體1體詞語/術語映射表4〇9 是對於用戶開放的’並且在執行轉換時在搜索順序上該用 戶繁體—簡體詞語/術語映射表4 〇 9優先該系統繁體—簡 體詞語/術語映射表410。 曰 下面來說明在圖4所示的將繁體漢字轉換成簡體漢字 的轉換系統的實施例中對於第二類詞語/術語’即該繁體 漢字的詞語/術語在標記形式上與簡體漢字的詞語/術語 不同且不具有確定對應關係的繁體漢字的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 47 200811673 換。本發明的特徵在於通過統計分類的轉換方法來實現了 這種轉換’從而實現繁體漢字字符到簡體漢字字符的一對 多映射的準確轉換的問題。 ,作巾’這種對於繁體漢字的騎/術語在標記形式上 與簡體漢字的詞語/術語不同且不具有碟定對應關係的繁 體漢字的詞語/術語的轉換主要是由GBK繁體編碼— GBK 簡體編碼轉換部分408完成。 在把上述的繁體漢字的詞語/術語字符串輸入到GBK繁 體編碼— GBK簡體編碼轉換部分4〇8之前,先由BIG5繁 體編碼—GBK繁體編碼轉換部分4〇7利用MG5—GM編碼 轉換表411將其從BIG5繁體漢字轉換成GBK繁體漢字。 如圖所示,統計數據412、繁體—簡體一對多字映射表 413、異體字映射表414、繁體—簡體一對多詞映射表 415、繁體—簡體_GBK漢字映射表416和與該GBK繁體編 碼—GBK簡體編碼轉換部分408連接。 Φ 其中:繁體—簡體一對多字映射表413可以具有如下面 表3的不例結構: 326\專利說明書(補件)\95-12\95132203 48 200811673 表3
行號 繁 簡1 簡2 簡3 1 乾 乾 干 2 瞭 瞭 了 3 藉 藉 借 4 徵 徵 征 5 於 於 于 6 餘 余 馀 7 著 著 着 • · · • · · • · · • · · • · · ^ m ^ is 表3中示出7條記錄,每一條記 丁何組風 ,第六條記錄的第一個字符是繁體字「餘」。由於繁體字 斤餘」一不在簡體字中出現,所以第二個字符位置沒有字 ^斜第/Γ帛四個字純置分狀與繁體字「餘 相對應的兩個可能的簡體字的選擇「余」和 餘. 繁體—簡體—對多詞映射表415可以具有按昭'二 示例規則形成的結構: 文…、如下的號二』=二 對應。 + °亥繁體漢予有多個簡體漢字
2·『$』號:表示對應的丨個簡體漢 後面的漢字為對應的1個TC簡體漢字 326\專利說明書(補件)\95-12\95132203 4Q 字的信息。『$』° F $』號記錄下 號 面 200811673 的圮錄為包含『$』號後面的簡體漢字的詞的信息。該記 錄可以有多個。 “ 3·『$』號數據記錄組會有多個。 . 4.『@』號:表示一組「一對多詞表數據」的結束。 例·繁體漢字「乾」的—對多詞表數據組 始 #乾 $干 乾杯 $乾 乾坤 乾造 乾宅 繁體漢字「乾」的「一對多詞表數據 繁體漢字「乾」對應簡體漢字「干 上述對應時的詞表 繁體漢字「乾」對應簡體漢字「乾 上述對應時的詞表 j 的開 @ 繁體漢字「乾」的「一對多詞表數據」的結束 由於在$體’莫字中存在有許多異體字,因此在圖4的將 成簡體漢字的轉換系統中把-個異體字映 ===碼,簡體編碼轉換部分偏相連, 用於在把%、體漢子向簡體漢 應的簡體漢字。 、 、化把異體字映射為對 一個示例性的異體字映射表如 卜所示: 庵$庵 闇$暗 326\專利說明書(補件)\95·12\95132203 50 200811673 晻$暗 簟$鞍 鼇$鰲 皐羽$翻 霸$霸 栢$柏 捭$稗 坂$阪 異體字映射表的結構由「漢字1 (代碼)」+「$」+ 「漢字2(SC代碼)」來構成。「漢字1 (SC代碼)」是「漢 字2 ( SC代碼)」的異體字。在把繁體漢字轉換為簡體漢 字時,利用該表把漢字(SC代碼)的異體字映射轉換為 標準的SC簡體漢字。 如果一個繁體字/詞能夠通過查表映射的方法直接獲得 ⑩確定的簡體漢字的轉換結果,則將能又快又準確地實現繁 體漢字到簡體漢字的轉換。但是如前所述,由於從繁體漢 子轉換到簡體漢字的一對多的問題,在既有技術的轉換方 案中都存在轉換不準確的缺陷。本發明利用統計分析技術 一原始貝氏分類器來實現從繁體漢字到簡體漢字的一對 夕映射的準確轉換。應該說明,其它能夠實現空間向量的 統計分類的方法也可以採用,在此是以原始貝氏分類器進 行本發明構思的說明,而不是對本發明的限制。 關於貝氏統計分類的原理和原始貝氏分類器的内容可 326X專利說明書(補件)\95-12\95132203 200811673 公式 參考上面對於圖2的相 公 式3、公式4。 Μ刀和公式1 在使用公式3和公式4的及私 體漢字到簡體漢字的轉換處^士貝氏分類器算法解決從繁 要使用兩個語料庫:繁體漢字對多的問題時’也需 應的簡體漢字語料w〇rpussc〜0r卿-%和與之對 :本發明的計算機的預定儲存以:,=二實 中可以採取兩種方式·· r隹,、體的貫施 第一種方式是把繁體漢字語料庫c〇 應的簡體漢字語料廑Γ - 和/、之對 412。假設繁體1莫字語才^S C作為圖4中的統計數據 漢字座Γ 、 / 〇rpUS-TC和與之對應的簡體 庫CQrpUS_S(:已經達到—定的完鮮度,在進行 2對多的繁體漢字到簡體財字符的轉換時 ,編碼—GM簡體編碼轉換部分彻將調用貝氏分類統^ 處理控制程序操作統計數據412中的繁體漢字語料庫 C〇rPUS-TC和與之對應的簡體漢字語料庫Corpus一SC,按 照前面參照圖2解釋而得到的公式3,獲得正確的轉換結 果由此可見’在該第一種方式中的該圖4的統計數據 412應該廣義地理解為是繁體漢字語料庫c〇rpuS-Tc和盥 之對應的簡體漢字語料庫corpus_sc,真正的統計數據是 在GBK繁體編碼— GBK簡體編碼轉換部分4〇8調用貝民分 類統計處理控制程序操作這兩個語料庫之後獲得數據。可 以理解到,繁體漢字語料庫Corpus一TC和與之對應的簡體 漢字語料庫Corpus一SC的完善程度直接影響GBK繁體編碼 326\專利說明書(補件)\95-12\95132203 52 200811673 — GBK簡體編碼轉換部分408調用貝氏分類統計處理控制 程序進行操作的結果的精確度。 弟二種方式是,不直接將繁體漢字語料庫corpus—亿和 與之對應的簡體漢字語料庫corpus—sc放置在圖4的統計 數,412中’而是針對全部所述第二類的繁體漢字到簡體 漢字轉換,即—對多的轉換而預先對於繁體漢字語料庫 C〇rPUS—TC和與之對應的簡體漢字語料庫Corpus SC執行 統計操作,將統計計算的結果放置在圖4的統計數據412 中。GBK繁體編碼—GBK簡體編碼轉換部分4〇8針對一個 輸入的第二類繁體漢字執行貝氏分類統計處理轉換時,只 需調用㈣計算好的結果即可。這將進—步降低系統的資 源佔用,提高轉換速度。 本發明允許用戶在規定的條件下不斷充實和完善盆自 身使用的繁體漢字語料庫cQrpus—Tc和與之對應的簡體 漢^吾料庫C〇rpus_sc,使之更適合自身使用的需要。 貫際上,上述第-種方式和第二種方式是基於相同的每 明構思的兩種具體的實施方式,在使用結果上並無實㈣ 另•卜 … 通過幾個簡單的例子來理解從繁體漢字到簡體漢字的 轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1JBIG5漢字「乾」,漢字「干」(乾杯) 弟-步:BIG5繁體編碼wGBK繁體編碼轉換部分4〇7用 BIG5—GBK編瑪轉換表411把繁體漢字「乾」從腸編 碼轉換為GBK編碼。(内碼:β〇ΑΕ^ ) 326\專利說明書(補件)\95-12\95132203 53 200811673 第二步:GBK繁體編碼sGBK簡體編碼轉換部分4〇8查 找繁體—簡體一對多字映射表413,「乾」是一對多繁體 字。使用原始貝氏分類方法,得到在詞語「乾杯」中,「乾 對應簡體字「干」。(内碼:B8C9 ) 2) BIG5 乾->GBK 乾(乾坤) 第一步· BIG5繁體編碼繁體編碼轉換部分用 BIG5-GBK編碼轉換表4Π把繁體漢字「乾」從MG5編 碼轉換為GBK編碼。(内碼:boae— C7AC ) 第二步:GBK繁體編碼sGBK簡體編碼轉換部分4〇8查 找繁體—簡體一對多字映射表413,「乾」是一對多繁體 字。使用原始貝氏分類方法,得到在詞語「乾坤」中,「乾 對應簡體字「乾」。(内碼:C7AC— C7AC ) 一 3) BIG5乾-GBK干(衣服干了) 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「乾」從big5編 ⑩碼轉換為GBK編碼。(内碼:B〇AE— C7AC ) 第一步· GBK繁體編碼—GBK簡體編碼轉換部分4〇8杳 =繁體〜簡體一對多字映射表413,「乾」是一對多繁‘ =。「服」和「了」在「乾」字左右的情況在語料庫中都 /又有、、先计到,此時無法使用原始貝氏分類方法。 /將「乾」與前面的字「服」組成二元詞語「服乾」,與 後予了」組成二元詞語「乾了」,查找繁體-簡體 夕=映射表415 ’「服乾」和「乾了」均不在在詞表 中此日守,本發明的轉換系統把「乾」轉換為預設簡體字 32卿說明書(補件)奶伽_ 54 200811673 「乾」。(内碼:C7AC—B8C9) 4) BIG5 苴-->gBK 豆 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分407用 BIG5—GBK編碼轉換表411把繁體漢字「莖」從bIG5編 碼轉換為GBK編碼。(内碼:D75E—C757 ) 第二步:GBK繁體編碼—GBK簡體編碼轉換部分408查 找繁體—簡體一對多字映射表413,「莖」不是一對多繁 體子。查找異體字映射表414,「莖」是異體字,對應簡 體字「豆」。(内碼:C757—B6B9 ) 5) BIG5 國— GBK 国 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「國」從BIG5編 碼轉換為GBK編碼。(B〇EA~> 87F8 ) 第二步:GBK繁體編碼— GBK簡體編碼轉換部分4〇8查 找繁體—簡體-對多?映射表413,「國」不是—對多繁 體字。查找異體字映射表414,「國」不是異體字❶=找 繁體-簡體—GBK漢字映射表416,「國」對應簡「;。 (内碼:87F8—B9FA) 于 u」。 GBK繁體編碼— GBK簡體編碼轉換部分4〇8 :字與來自繁體-簡體詞語/術語轉換部分4〇6體嘍 字相結合後由輸出部分4〇3作為轉換的結果輪出 下面翏考圖5來說明圖4所示的將繁體轆 漢字的轉換系統的操作過程。 轉換成間體 參見圖5的流程圖’首先輸人將要被轉換的繁體漢字的 326\專利說明書(補件)\95·12\95132203 55 200811673 字符串(步驟S510)。 隨後’詞語/術語劃分部分404根據預定的劃分規則對 於輸入的繁體漢字字符串進行劃分而「抽取」出組成該字 符串的全部繁體詞語/術語(步驟S520 ),並將這些詞語/ 術語提供到鑑別-定義部分405。 在接收到每一個繁體詞語/術語之後,鑑別-定義部分 405則將對其進行鑑別和定義,判斷其是否屬於第一類繁. 着體詞語/術語,即在標記形式上與簡體漢字的詞語/術語相 同或雖然不同但具有確定對應關係的繁體詞語/術語(步 驟S530 ) ’如果為「是」,則將該繁體詞語/術語輸入到轉 換部分401的繁體—簡體詞語/術語轉換部分406,由繁 體—簡體詞語/術語轉換部分406利用該用戶繁體—簡體 同语/術語映射表4〇9和系統繁體—簡體詞語/術語映射 表410把該第一類繁體漢字字符轉換成對應簡體漢字字 符(步驟S540 )。 ⑩如果步驟S530的定義結果為「否」,則定義該繁體詞語 /術^為第二類詞語/術語,即在標記形式上與簡體漢字的 ^詞語/術語不同且不具有確定對應關係的繁體漢字的詞語 -/術語,並將其提供到轉換部分401的BIG5繁體編碼—GBK "繁體編碼轉換部分407,利用BIG5—GBK編碼轉換表411 把BIG5繁體漢字轉換成GBK繁體漢字然後送到繁 體編碼— GBK簡體編碼轉換部分4〇8。通過利用統計數據 412、繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體服 326\專利說明書(補件)\95-12\95132203 56 200811673 二416,GBK繁體編^GBK簡體編碼轉換部分 /丫:棘Γ、δ+分類與映射組合的方法把該繁體漢字的詞語 二二轉換為合理對應的簡體漢字的詞語/術語(步驟 b 5 ϋ ) 〇 =驟S540和步驟S550獲得的簡體漢字詞語/術語相 二 ^與輪人的繁體漢字字符串對應的簡體漢字字 亚輸出部分403將其輸出(步驟S56〇)。 字^符^3^述圖4的本發明的—個實施例的將繁體漢 、表專換為簡體漢字字符串的系統來實踐圖5所示 的字的i對^將繁體漢字轉換成簡體漢字的轉換中出現 現-饼一扯映射問題。具體地說’本發明的把能夠實 映射的繁體漢字的以和不能貫現一對一 理,舒士 P一對多映射漢字分開處 法實二統計特徵的技術來用原始貝氏分類方 =子]間體漢子的-對多映射處理的精確度大大提 =虞本發明的上述實施例’通過在實現 漢子的相互轉換時把其中具有 才繁體 結合了映射變換的統計分類處理,:、:需:構=: 射表的條件下即可實現高準確度 326\專利說明書(補件)\95-12\95132203 龍術_分_度。㈣允許用戶對於 β °。何浯映射表和統計數據進行修改和變更,使得太、 明的系統更能夠實現以人為本的個性化,更能適= 57 200811673 點和滿足專業需要。 2強調’以上根據本發明實施例對本發明進行 …、'思將本發明拘束或限制在公開的具體形式中。顧田迷 •的是,在公開的實施例的具體描述的基礎上,^ ^易見 術人員可在本發明精神實質的範圍内對於本發明進^亍1技 種修改。例如··對於本發明的上述系統的各個部分: 進行重新分配或將不同部分的功能進行順序的交換、拆
⑩解、合併。例如通過計算機硬體和軟體的單獨操作或它尸 的結合操作來實現本發明的設計思想的局部或全部、二們 修改映射表的結構或其中的内容來實現特定的需要、 電路的集成度的不同而選擇不同的電路組成形式等等。X 這些修改和變化均應被考慮為不脫離本發明所附申請專 利範圍的本質和範圍。 ^ 【圖式簡單說明】 圖1是根據本發明一個實施例的簡體漢字和繁體漢字 _之間進行相互轉換的系統的示意框圖。 圖2是根據本發明另一個實施例的一種將簡體漢字轉 換成繁體漢字的轉換系統的示意圖,它可以認為是圖丨t 施例的轉換系統的一個子系統。 ' 圖3是圖2所示實施例的操作流程圖。 圖4是根據本發明再一個實施例的一種將繁體漢字車專 換成簡體漢字的轉換系統的示意圖,它可以認為是圖i實 施例的轉換系統的一個子系統。 圖5是圖4所示實施例的操作流程圖。 326\專利說明書(補件)\95·12\95132203 58 200811673 【主要元件符號說明】 100 系統 101 轉換處理器 102 輸入裝置 102ι 複印機 * 1 022 傳真機 1 023 照相機 1 024 外部儲存器 _ 1025網絡裝置 102〇 輸入鍵盤 103 輸出裝置 103ι 印表機 1 032 傳真機 1 033 外部儲存器 1 034 網絡裝置 φ 103η 顯示裝置 104 内部儲存器 200 中文簡體到繁體轉換子系統 201 轉換部分 . 202 數據輸入部分 203 輸出部分 204 詞語/術語劃分部分 205 鑑別-定義部分 206 簡體—繁體詞語/術語轉換部分 59 326\專利說明書(補件)\95-12\95132203 200811673 207 GBK簡體編碼—GBK繁體編碼轉換部分 208 GBK編碼-> BIG 5編碼轉換部分 209 用戶簡體—繁體詞語/術語映射表 210 糸統簡體-^繁體同語/術語映射表 211 簡體繁體一對多字映射表 ' 212 統計數據 213 簡體—繁體一GBK漢字映·射表 214 簡體-> 繁體一對多詞映射表 • 215 BIG5 — GBK編碼轉換表 400 中文繁體到簡體轉換子系統 401 轉換部分 402 數據輸入部分 403 輸出部分 404 詞語/術語劃分部分 405 鑑別-定義部分 • 406 繁體—簡體詞語/術語轉換部分 407 BIG5繁體編碼— GBK繁體編碼轉換部分 ^ 408 GBK繁體編碼— GBK簡體編碼轉換部分 409 #*· 用戶繁體—簡體詞語/術語映射表 、 410 系統繁體—簡體詞語/術語映射表 411 BIG5-> GBK編碼轉換表 412 統計數據 413 繁體—簡體一對多字映射表 414 異體字映射表 326\專利說明書(補件)\95-12\95132203 60 200811673 415 繁體—簡體一對多詞映射表 416 繁體—簡體_GBK漢字映射表
326\專利說明書(補件)\95-12\95132203 61
Claims (1)
- 200811673 十、申請專利範圍: 1. 一種在簡體漢字和繁 統,該系統包括:^莫子之間進订相互轉換的系 ==部分’輸入將要被轉換的簡體/ 詞浯/術語劃分部公,脸认 卞于订爭, 分成若干個詞語/術語;輸入的簡體/繁體漢字字符串劃 鑑別-定義部分,梦〜 符串中的每-個詞語::,:二购 簡體漢字的詞語/術 :中在I己形式上與繁體/ 係咖繁體漢字二雖二不Λ但具有她 語,並將其中在標記形式;;類詞語/術 不同且不具有確定對庫…、—間體漢予的詞語/術語 m外 士應關係的簡體/繁體漢字的詞 浯疋義為第二類詞語/術語; 于们Jm/術 映射轉換部分,採用映射表將玆 映射成與輸入的簡體/繁體漢詞:::/術語直接 繁體/簡體漢字的詞語/術語’· U術語唯一對應的 統計轉換部分,採用統計分類方 :換成與輸入的簡體/繁體漢字的詞語吾 繁體/簡體漢字的詞語/術語; t㈠理對應的 組合輸出部分,把採用映射表 接映射而得到的與輸入的簡體二—賴語/術語直 -對應的繁體/簡體漢字的詞語^:莫和·;的詞語/術語唯 法對第二類詞語/術語㈣而得:=用統計分類方 漢字的詞語/術語合理對應的繁體 輪入^簡體/繁體 胺/間體漢字的詞語/術語 326胃明書(補件)\95-12\95132203 62 200811673 進行組合,形成與將要被轉換的簡體/繁體漢字字符串對 應的繁體/簡體漢字字符串,並將其輸出。 2·如申請專利範圍第丨項之系統,其中的詞語/術語包 . 括由單個漢字或多個漢字構成的詞語/術語。 . 3 ·如申请專利範圍第1項之系統,其中所使用的映射表 包括用戶簡體/繁體漢字—繁體/簡體漢字詞語/術語映射 表、系統簡體/繁體漢字—繁體/簡體漢字詞語/術語映射 表、簡體/繁體漢字—繁體/簡體漢字映射表、簡體/繁體 漢字—繁體/簡體漢字一對多映射表。 4·如申請專利範圍第1項之系統,其中採用的統計方法 疋原始貝氏(Naive Bayes )統計方法。 5· —種在簡體漢字和繁體漢字之間進行相互轉換的方 法,包括步驟: 輸入將要被轉換的簡體/繁體漢字字符串; 將輸入的簡體/繁體漢字字符串劃分成若干個詞語/術 _ $吾, 鏗別-定義該輸入的簡體/繁體漢字字符串中的每一個 ^詞語/術語,將其中在標記形式上與繁體/簡體漢字的詞笋 -/術語相同或雖然不同但具有確定對應關係的簡體/繁體 、 漢字的詞語/術語定義為第一類詞語/術語,並將其中在秩 ,5己形式上與繁體/簡體漢字的詞語/術語不同且不具有確 疋對應關係的簡體/繁體漢字的詞語/術語定義為第一類 詞語/術語; ' 採用映射表將該第一類詞語/術語直接映射成與輸入的 %6\專利說明書(補件^542^5132203 63 200811673 簡體/繁體漢字的詞語/術語唯一 詞語/術語; 對應的繁體/簡體漢字 的 採用統計分類方法將第二類詞語/術語轉換成盘輸入的 簡體/繁體漢字的詞語/術語合理對應的 體 詞語/術語; 门版展子的 ^採用映射表對該第—類詞語/術語直接映射而得到的 體==繁體漢字的詞語/術語唯一對應的繁體,簡 體漢予的同語/術語和採用統計分類方法對第二類詞” 術語轉換而得到的與輸入的簡體/繁體漢字的詞語/術語 合理對應的繁體/簡體漢字的詞語/術語進行組合,形成與 轉換的簡體/繁體漢字字符串對應的繁體/簡體漢、 字字符串,並將其輸出。 申請專利範圍第5項之方法’其中的詞語/術語包 括由單個漢字或多個漢字構成的詞語/術語。 7.如申請專利範圍第5項之方法,其中所使用的映射表 _包括用戶詞語/術語映射表、系統詞語/術語映射表、簡體 /繁體漢字—繁體/簡體漢字映射表、簡體/繁體 體/簡體漢字一對多映射表。 、彳、 '、 8·如申請專利範圍第5項之方法,其中採用的統計方法 是原始貝氏統計方法。 9. 一種將簡體漢字轉換成繁體漢字的轉換系統,該系 包括: ^ / 一 輸入部分,輸入將要被轉換的簡體漢字字符串; 詞語/術語劃分部分,將輸入的簡體漢字字符串劃分成 326\專利說明書(補件)\95-12\95132203 64 200811673 若干個詞語/術語; 鑑別-定義部分,鑑別-定義該輸入的簡體漢字字符串中 的每一個詞語/術語,將其中在標記形式上與繁體漢字的 詞語/術語相同或雖然不同但具有確定對應關係的簡體漢 字的詞語/術語定義為第一類詞語/術語,並將其中在標記 " 形式上與繁體漢字的詞語/術語不同且不具有確定對應關 係的簡體漢字的詞語/術語定義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 •映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢 字的詞語/術語; 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢 字的詞語/術語, 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 •的繁體漢字的詞語/術語和採用統計分類方法對第二類詞 語/術語轉換而得到的與輸入的簡體漢字的詞語/術語合 . 理對應的繁體漢字的詞語/術語進行組合,形成與將要被 轉換的簡體漢字字符串對應的繁體漢字字符串,並將其輸 、 出。 1 (Κ如申請專利範圍第9項之系統,其中的詞語/術語包 括由單個漢字或多個漢字構成的詞語/術語。 11.如申請專利範圍第9項之系統,其中所使用的映射 表包括用戶簡體—繁體詞語/術語映射表、系統簡體—繁 326\專利說明書(補件)\95·12\95132203 65 200811673 ==:表表•繁體_射表、簡體 其中採用的統計方 的轉換方法,包括 12·如申請專利範圍第9項之系統 法疋原始貝氏統計方法。 13. —種將簡體漢字轉換成繁體漢字 步驟: 輸入將要被轉換的簡體漢字字符串; 將輸入的簡體漢字字符串劃分成若干個詞語/術語; 鑑別-定義該輸人的簡體漢字字符串中的每—個詞注/ 術語,將其中在標記形式上與繁體漢字的詞語/術語相同 或雖然不同但具有確定對應關係的簡體漢字的詞語/術扭 == 第:類詞語/術語,並將其中在標記形式上與繁體 “ /術5吾不同且不具有確定對應關係的簡體漢字 的詞語/術語定義為第二類詞語/術語; 、 ”採用映射表將該第-類詞語/術語直接映射成與輸入的 春間體漢字的詞語/術語唯一對應的繁體漢字的詞語/術語; 」木用統汁分類方法將第二類詞語/術語轉換成與輸入的 <簡體漢字的詞語/術語合理對應的繁體漢字的詞語/術語; > 把採用映射表對該第一類詞語/術語直接映射而得到的 '與輸入的簡體漢字的詞語/術語唯一對應的繁體漢字的詞 ' 術語和採用統計分類方法對第二類詞語/術語轉換而 知到的與輸入的簡體漢字的詞語/術語合理對應的繁體漢 子的祠語/術語進行組合,形成與將要被轉換的簡體漢字 字符串對應的繁體漢字字符串,並將其輸出。 326\專利說明書(補件)\95-12\95132203 66 200811673 l .如。申請專利範園第13j員之方法,其令的詞語 包括由單個漢字4多個漢字構成的詞語/術語。UT °° 15·如申請專利範圍第13項之方法,其中 表包括用戶簡體〜繁體五五 、、射 體‘吾/術語映射表、簡體S J 體漢字-對多映射表。 、16·如申請專利範圍第13項之方法,其中 法是原始貝氏統計方法。 、、’汁方 17.種將’體漢字轉換成簡體:叢念&絲4么/ 統包括: ㈣成間體漢子的轉換系統,該系 輸入部分’輸入將要被轉換的繁體漢字字符串· “詞語/術語劃分部分,將輸人的繁體漢字字符’ 若干個詞語/術語; 、串里J刀成 鑑別-定義部分,鑑別_定義該 ”一〜個詞語/術語,將其中在標記形式上與;=字的 吾/術語相同或雖然不同一 ^ 字的詞扭/街任定羞Β ,、有確疋對應關係的繁體漢 子的吾疋義為第一類詞語/術注, 形式上與簡體漢字的詞語/術語不同且;確、中=己 =體漢字的詞語/術語定義為第二 映射轉換部分,採用映射表將該第一類詞^ 映射成與輸人的繁體漢字的詞語’‘二= 字的詞語/術語; 對應的間體漢 統計轉換部分,採用統計分類方 轉換成與輸入的繁體漢字的詞一 ”員祠語/術語 °/術语合理對應的簡體漢 326\專利說明書(補件)\95·ΐ2\95132203 „ 200811673 字的詞語/術語; 組合輸出部分’把採用映射表對該第—類詞 接映射而得到的與輸人的繁體漢字的詞語=庫 的簡體漢字的朗/躲和㈣統計分類方料 語/術語轉換而得到的與輸入的繁 二= 理對應的簡體漢字的詞語/術語進行电 :,合 ^換的%、體4子子付串對應的簡體漢字字符串,並將其輸紅如中睛專利範圍第17項之系統,其中所使用的映射 表,括用戶繁體—簡體詞語/術語映射表、系統繁體 體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡 體漢字-對多映射表和異體字映射表。、20.如申請專利範圍帛j”員之系統,其中採用的統計方 法疋原始貝氏統計方法。 21. -種將繁體漢字轉換成簡體漢字的轉換方法,包括 步驟: 輸入將要被轉換的繁體漢字字符串; 將輸入的繁體漢字字符串劃分成若干個詞語/術語; 鑑別—定義該輸入的繁體漢字字符串中的每一個詞語/ 術語’將其中在標記形式上與簡體漢字的詞語/術語相同 或雖然不同但具有確定對應關係的繁冑漢字的詞語/術語 定義為第一類詞語/術語,並將其中在標記形式上與簡體 326\專利說明書(補件)\95-12\95132203 68 200811673 漢子的詞語/彳丨「1 的詞語/術L:1::同且不具有確定對應關係的繁體漢字 採用映:表二 繁體漢字的詞^二類柯語/術語直接映射成與輸入的 接me i 唯一對應的簡體漢字的詞語/術語; 分類方法將第二類詞語/術語轉換成與輸入的 /術語合理對應的簡體漢字的詞語/術語; 與幹入的够射表對该第一類詞語/術語直接映射而得到的 ^卜五、Λ體漢字的詞語/術語唯—對應的簡體漢字的詞 :^和採用統計分類方法對第二類詞語/術語轉換而 ^ 66 輸人的繁體漢字的詞語/術語合理對應的簡體漢 語/術語進行組合,形成與將要被轉換的繁體漢字 子付串對應的簡體漢字字符串,並將其輸出。 22. 如:請專利範圍第以項之方法,其中的詞語,術語 匕括由早個漢字或多個漢字構成的詞語/術語。 23. 如申請專利範圍第21項之方法,其中所使用的映射 ^括用戶繁體簡體詞語/術語映射表、系統繁體—簡 體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡 體漢字一對多映射表和異體字映射表。 24·如申凊專利範圍第21項之方法,其中採用的統計方 法是原始貝氏統計方法。 326\專利說明書(補件)\95-12\95132203
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101115101A CN101131690B (zh) | 2006-08-21 | 2006-08-21 | 简体汉字和繁体汉字相互转换方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200811673A true TW200811673A (en) | 2008-03-01 |
TWI328174B TWI328174B (zh) | 2010-08-01 |
Family
ID=39128960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW095132203A TW200811673A (en) | 2006-08-21 | 2006-08-31 | Method for conversion between simplified and traditional Chinese characters and system thereof |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5167711B2 (zh) |
CN (1) | CN101131690B (zh) |
TW (1) | TW200811673A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI498756B (zh) * | 2008-12-03 | 2015-09-01 | Microsoft Technology Licensing Llc | 電腦實施語言轉換與檢視系統,以及轉換與檢視資料的電腦實施方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222419A (zh) * | 2011-06-27 | 2011-10-19 | 陈宇慧 | 一种电子文本的显示方法 |
CN103514152B (zh) * | 2012-06-21 | 2017-01-18 | 香港城市大学 | 简繁中文转换中的标识追踪方法及装置 |
CN102929852B (zh) * | 2012-10-15 | 2016-05-04 | 福建榕基软件股份有限公司 | 一种在富文本编辑器内实现简繁体字互转的方法及系统 |
CN103778110B (zh) * | 2012-10-25 | 2016-08-31 | 三星电子(中国)研发中心 | 简繁体汉字的转换方法及系统 |
KR101384139B1 (ko) * | 2012-11-23 | 2014-04-10 | 박선정 | 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기 |
CN103853706B (zh) * | 2012-12-06 | 2017-04-12 | 富士通株式会社 | 用于将简体汉语句子转换为繁体汉语句子的方法和设备 |
CN103870442A (zh) * | 2012-12-17 | 2014-06-18 | 鸿富锦精密工业(深圳)有限公司 | 中文简繁体转换系统及方法 |
CN103885941A (zh) * | 2012-12-24 | 2014-06-25 | 鸿富锦精密工业(深圳)有限公司 | 专利申请文件转换系统及方法 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
CN107145244A (zh) * | 2017-04-26 | 2017-09-08 | 北京汉王数字科技有限公司 | 一种异形字符输入方法、装置及电子设备 |
CN108427671B (zh) * | 2018-01-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 信息转换方法和装置、存储介质及电子装置 |
CN109145297B (zh) * | 2018-08-13 | 2022-06-10 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于hash存储的网络词汇语义分析方法和系统 |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
CN112949283B (zh) * | 2021-04-26 | 2024-01-23 | 合肥工业大学 | 文本处理方法、装置、非易失性存储介质及处理器 |
CN117252154B (zh) * | 2023-11-20 | 2024-01-23 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59172032A (ja) * | 1983-03-18 | 1984-09-28 | Photo Composing Mach Mfg Co Ltd | 文字入力装置 |
JPH08263478A (ja) * | 1995-03-24 | 1996-10-11 | Matsushita Electric Ind Co Ltd | 中国語簡繁体字文書変換装置 |
JPH08287046A (ja) * | 1995-04-14 | 1996-11-01 | Sharp Corp | 情報処理装置 |
CN1192302C (zh) * | 1999-09-22 | 2005-03-09 | 微软公司 | 简繁体汉字输入系统及其方法 |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6393445B1 (en) * | 2001-01-04 | 2002-05-21 | Institute For Information Industry | System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN1462966A (zh) * | 2002-05-29 | 2003-12-24 | 明日工作室股份有限公司 | 简繁体中文内码转换方法以及系统 |
JP4294386B2 (ja) * | 2003-06-13 | 2009-07-08 | 株式会社リコー | 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体 |
-
2006
- 2006-08-21 CN CN2006101115101A patent/CN101131690B/zh active Active
- 2006-08-31 TW TW095132203A patent/TW200811673A/zh unknown
-
2007
- 2007-07-19 JP JP2007187850A patent/JP5167711B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI498756B (zh) * | 2008-12-03 | 2015-09-01 | Microsoft Technology Licensing Llc | 電腦實施語言轉換與檢視系統,以及轉換與檢視資料的電腦實施方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5167711B2 (ja) | 2013-03-21 |
TWI328174B (zh) | 2010-08-01 |
CN101131690B (zh) | 2012-07-25 |
JP2008052720A (ja) | 2008-03-06 |
CN101131690A (zh) | 2008-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW200811673A (en) | Method for conversion between simplified and traditional Chinese characters and system thereof | |
Gu et al. | Unpaired image captioning by language pivoting | |
Lu et al. | Neural baby talk | |
WO2022095345A1 (zh) | 一种多模态模型训练方法、装置、设备及存储介质 | |
WO2020143137A1 (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN108923922A (zh) | 一种基于生成对抗网络的文本隐写方法 | |
CN111680488A (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
WO2020211250A1 (zh) | 中文病历的实体识别方法、装置、设备及存储介质 | |
Li et al. | Similar scenes arouse similar emotions: Parallel data augmentation for stylized image captioning | |
Rathore et al. | PARE: A simple and strong baseline for monolingual and multilingual distantly supervised relation extraction | |
Sehanobish et al. | Using chinese glyphs for named entity recognition | |
Darwish et al. | Effective multi-dialectal arabic POS tagging | |
Pathak et al. | AsPOS: Assamese part of speech tagger using deep learning approach | |
Zhang et al. | Lost in Translation: When GPT-4V (ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond | |
CN117218503A (zh) | 一种融合图像信息的越汉跨语言新闻文本摘要方法 | |
Parida et al. | Multimodal neural machine translation system for English to Bengali | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Li et al. | Cross-lingual transferring of pre-trained contextualized language models | |
Harashima et al. | Two-step validation in character-based ingredient normalization | |
Mi et al. | A neural network based model for loanword identification in Uyghur | |
CN114817510A (zh) | 问答方法、问答数据集生成方法及装置 | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
JP2009230561A (ja) | 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Chen et al. | Improving named entity correctness of abstractive summarization by generative negative sampling | |
Tan et al. | Document-level neural machine translation with hierarchical modeling of global context |