TW200811673A

TW200811673A - Method for conversion between simplified and traditional Chinese characters and system thereof

Info

Publication number: TW200811673A
Application number: TW095132203A
Authority: TW
Inventors: Shau-Ming Liou; Dung-Lei Chian; Chuen-Fa Yuan; De-Fang Tsau; Jing Lin; Yau Weng
Original assignee: Fuji Xerox Co Ltd
Priority date: 2006-08-21
Filing date: 2006-08-31
Publication date: 2008-03-01
Also published as: JP5167711B2; TWI328174B; CN101131690B; JP2008052720A; CN101131690A

Description

200811673 九、發明說明：【發明所屬之技術領域】本發明涉及一種中文字符的轉換方法及其系統，尤其涉 ,及一種簡體漢字和繁體漢字相互轉換方法及其系統。更具、體地兒，本發明涉及一種採用數據表映射技術與數據統計處理技術相結合來實現簡體漢字和繁體漢字相互轉換的方法及其系統。 ⑩【先前技術】由於中國政府實行的漢字簡化工作，在實現原有的漢字 j下稱繁體漢字）簡化而使得漢字的推廣和教育/教學獲 T進二的同蚪，也造成了漢字存在簡體和繁體兩種書寫形 2客觀現只。例如在中國大陸和新加坡，雖然也偶見使用，字的場合，但是在絕大多數情況下都是使用簡體漢 J，：在台灣、香港和澳門地區受教育和長大的華人，則麄幾t不能完全認識被簡化的漢字而完全使用著原有的S體字。人了讓上述簡體漢字使用區和繁體漢字使用區的寫的王相互懂對方所書寫的漢語，則需要對於書使用的簡體字和繁體字不—樣的財進行正萑：轉換。這種不一樣包括以下兩個方面。兄的子對多子（以下簡稱「一對多」）的胡曰苞。的:发」可以對應於繁體漢字的「髮」和、擇，因此在不同的詞彙中應該使用不同的繁 326___#_細細 5 200811673 头发」應該轉換」應該轉換為繁體漢字「髮」和「發」，例如簡體漢字「為繁體漢字「頭髮」，而簡體漢字「发展體漢字「發展」。. *〶二方面是在從簡體到繁體（或從繁體到簡體）的轉換 ★過程：出現的同：個字/詞彼此叫法不同的問題。例：簡體漢子中的「计异机软件」應該轉換為繁體漢字中的「帝腦軟體」，簡體漢字中的「星期」應該轉換电的「禮拜」。、卞τ φ在既有技術中已經存在對於簡體漢字和繁體漢字進行轉換的技術。例如在中國專利公開CN1369833和 CM462966中都公開了簡體漢字和繁體漢字相互轉換的技術。這些專利文件全文結合在此作為參考。在通常的情況下，簡體和繁體漢字的相互轉換是在· 編碼的簡體字和BIG5編碼的繁體字之間的相互轉換。總結上述的既有技術中實施的簡、繁體漢字的相互轉換方二 _包括以下三種情況。、木 1.通過内碼轉換完成基於内碼映射表的字到字的轉換。字到字是指以字為單位進行轉換，而基於内碼映射表是指，過查找繁體―簡冑（簡體i體）漢字映射表將繁體（簡體）漢字轉換與之對應的簡體（繁體）漢字。、，如，將BIG5編碼的繁體漢字「國」轉換為GBK編碼的簡體漢字「国」，處理過程是通過查找繁體—簡體漢字映射表把該漢字的内碼B0EA轉換為B9FA ;反之在簡繁轉換中，則是通過查找簡體—繁體漢字映射表把該漢字的 326\專利說明書(補件)\95-12\95132203 6 200811673 内碼B9FA轉換為B0EA。内碼轉換的優點在於：⑴實現簡單，只需要有繁體— 簡體（簡體―繁體）漢字映射表即可，·⑴轉換效率高， ’ /、品内碼轉換一步處理。内碼轉換的缺點在於轉換準確率低。由於映射表將每個繁體（〶體）體漢字對應到唯—的簡體（繁體）體漢字形，所以這種轉換只能正碟地處理一字對一字（以下簡稱「一春對—」）映射的情況。而對於一對多映射的字，除了收入 ^映射表中的轉換字外，其他可能的轉換字被忽略了，這就不能保證轉換的準確性。例如，在正確的轉換下，簡體的今发」對應到繁體的「頭髮」；但按照採用内碼的簡體—繁體漢字映射表進行簡體到繁體的轉換時，由於簡體字「发」全部被轉換為繁體字「發」，「头发」被錯誤地轉換為「頭發」。因此就造成了轉換準確率低的問題。才 2.通過词級轉換完成基於詞級映射表的詞到詞的轉換。詞到詞是指以詞為單位進行轉換，基於詞級映射表^ 指通過查找簡體—繁體（繁體—簡體）詞級映射表完^ = 換。這個映射表的表項應該包括所有的漢語詞語，其中不僅包括雙漢字組成的詞語，也包括單漢字的詞語和三個字以上的詞語。 /、轉換過程中，首先將需要被轉換的漢字串分成若干詞，然後通過查找簡體—繁體（繁體—簡體）詞級映射表以詞為單位完成轉換。例如，對簡體字符串「梳头发」進行轉換，首先將其分為單字詞語「梳」和雙字詞語「頭髮， 326\專利說明書(補件)\95-12\95132203 7 200811673

然後在簡體—繁體騎映射表中分別查找這兩個詞注，八別：換為繁體詞語「梳」和「頭髮」，得到轉換結果。「J 頭髮」。繁體—簡體轉換的過程與之類似。、詞輯換的優點在於··⑴可以較準確處理—對多漢子的轉換’（2 )只需-張映射表即可同時處理簡體〜繁體轉換和繁體—簡體轉換；⑺㈣㈣較胃二轉換一步處理。 •古詞級轉換的缺點在於：⑴對於系統分詞性能的要求復 2 ’ -旦分詞發生錯誤’就很容易造成最終轉換結果的錯誤。（2)簡體—繁體和繁體—簡體的詞級映射表的構造^ 較困難。中文中的詞語以數十萬計，要完成這樣規模的詞，開銷很大。並且由於詞#是—個開放集，每天都有新的 2產生，ϋ且不此保證所有的人名、地名以及機構名都包 έ在周表中（3)對於某些簡體—繁體和繁體—簡體的— 對多映射的字仍然不能保證轉換的準確性。比如存在一對籲多映射的姓氏等。 3.通過術語轉換完成基於術語映射表的術語到術語的轉換° ^此提到的「術語」是對於「詞」的廣義的解釋，本二上還疋以詞為單位進行轉換，但是有時在簡體和繁體漢子體系中的相互對應的術語在發音和形體上可以沒有同一性，即，可以不存在按字對應的關係。舉例來說，簡，漢字中的術語「计算机」對應繁體漢字中的「電腦」、 ^體漢字中的「星期」應該轉換為繁體漢字中的「禮拜」等等。雖然所指的術語概念上完全相同，但也可以基於詞 326\專利說明書(補件)\95·12\95132203 8 200811673 語映射表通過查找簡體—繁體（繁體-簡體）詞語映射表來完成轉換。術語轉換過程與詞級轉換類似，且簡體—繁體術語映射表和簡體—繁體詞級映射表在形式上很相似。區別僅在於 4 詞級映射中的簡體和繁體詞語是按字對應的，簡體漢字的詞語中的每個字對應到繁體詞語中相應位置上的字；而術語映射中的簡體和繁體詞語是在語義的層次上對應的，詞馨語間不一定存在按字對應的關係。術語轉換的優點在於：（1)可以在語義一級處理漢字簡體和繁體的相互轉換；（2)只需一張映射表即可同時處理簡體—繁體轉換和繁體簡體轉換。術語轉換的缺點在於：（丨）對於系統「分詞」（對於句子中的「詞」的劃定）能力的要求很高，一旦分詞發生錯疾，就很容易造成最終轉換結果的錯誤。（2 )簡體—繁體術語映射表的構造比較困難。首先簡體—繁體術語映射表 _必須像繁體—簡體術語映射表一樣包含所有的中文詞語；另外，這個表需要對中文和外文專有名詞進行處理，否則也會引起轉換錯誤。專有名詞包括姓名、地名以及機構名等。 >因此’在上所述簡體和繁體相互轉換中，除了特殊的術 f外’基本問題就是如何解決轉換中字的-對多的映射間 =°雖__題能夠以詞的形式在—^程度上得到解將：轉換來解決，但是其映射表的龐大和繁雜、认解“方案的進一步完善报困難。而内碼轉換顯 326傳利說明書(補件)\95· ^ 2奶^ 9 200811673 問題，但是其轉換精確然是迴避了龐大和繁雜的映射表的度低下。互轉換的方法和下而不使得映射表因而需要一種新的漢字繁體和簡體相系統，在保證足夠的轉換精確度的條件過大。【發明内容】本發明旨在以最簡單的映射表來解決漢字的簡體和繁 φ，相互轉換，並且保證;1夠的轉換精確度。特別旨在解決間體和繁體相互轉換中的漢字的一（字/詞）對多（A 、詞）的映射問題。、夕子/ 〜根據本發明的卜實施例提供-種簡體漢字和繁體漢字之間進行相互轉換的系統，該系統包括：、輸入部分，輸入將要被轉換的簡體/繁體漢字字符串劃、詞語/術語劃分部分，將輸入的簡體/繁體漢字字符串分成若干個詞語/術語；

M別疋義部分，鑑別-定義該輸入的簡體/繁體漢字字 t的母—個詞語/術語’將其中在標記形式上與繁體/ =漢字的詞語/術語相同或雖然不同但具有確定對應關 ^的簡體/繁體漢字的詞語/術語定義為第一類詞語/術 m 3亚將其中在標記形式上與繁體/簡體漢字的詞語^标語 S真不具有確定對應關係的簡體/繁體漢字的詞語/術 170疋義為第二類詞語/術語；映射轉換部分，採用映射表將該第一類詞語/術語直接映射成與輸入的簡體/繁體漢字的詞語/術語唯一對應的 326\胃$ 書(補件)\9M 2\95132203 10 200811673 繁體/簡體漢字的詞語/術語；統計轉換部分，採用統計分類方法將第二類詞語/術語轉換成與輪入的簡體/繁體漢字的詞語/術語合理對應的繁體/簡體漢字的詞語/術語；組合輸出部分，把採用映射表對該第一類詞語/術語直接映射而得到的與輸入的簡體/繁體漢字的詞語/術語唯一對應的繁體/簡體漢字的詞語/術語和採用統計分類方 _法對第二類詞語/術語轉換而得到的與輪入的簡體/繁體漢字的詞語/術語合理對應的繁體/簡體漢字的詞語/術語進行組合，形成與將要被轉換的簡體/繁體漢字字符串對應的繁體/簡體漢字字符串，並將其輸出。在本發明的第一實施例中，其中的詞語/術語包括由單個漢字或多個漢字構成的詞語/術語。體/在繁本^'的第一實施例中’其中所使用的映射表包括簡體/%體漢子—繁體/簡體漢字用戶詞語/術語映射鲁體/繁體漢字繁體/簡體漢字系統詞語/術語映射表; 體/繁體漢字—繁體/簡體漢字映射表、簡體/繁三繁體/簡體漢字一對多映射表。、一以非

在本發明的第一實施例中，其中採用的統計方法可侷限地例如是原始貝氏（Naive Bayes)統計方法。 ^根據本發明的第二實施例提供一種簡體漢字和子之間進行相互轉換的方法，包括步驟：一輸入將要被轉換的簡體/繁體漢字字符串；將輸入的簡體/繁體漢字字符串劃分成料個詞語/術 326\專利說明書(補件)\95-12\95132203 11 200811673 語； Μι別〜疋義該輸入的簡詞語/術語，將其中在===字料中的每一個 /術語相同或雖然不同4 : ％體’間體漢字的詞語漢字的詞語/術語定義二第有t對應關係的_體我局罘一類词語/術語，並苴記形式上與繁體/簡體漢 1、中在払定對應關係的簡體/繁體漢字二=；；不同且不具有確詞語/術語；^莫子的心/術語定義為第二類簡體/繁體漢字的詞語/術㈣射成=輸入的詞語/術語；冑對應的繁體/簡體漢字的 fi 體二類/法將第二類詞語/術語轉換成與輸入的子詞語/術語合理對應的繁體/簡趙漢字的斑幹入的對5亥第一類巧語/術語直接映射而得到的體/繁體漢字的詞語/術語唯—對應的繁體/簡體漢子的词#/術語和採用統計分類方法對第二類詞語/ 術語轉換而得到的與輸人的簡體/繁體漢字的詞語/#/注合理對應的繁體/簡體漢字的詞語/術語進行组合叩，形τ成口盥將要被轉換的簡體/繁體漢字字符串對應的繁掌、字字符串，並將其輸出。 Ί篮属在本發明的第二實施例中，其中的詞語/術語包括由單個漢字或多個漢字構成的詞語/術語。在本發明的第二實施例中，其中所使用的映射表包括用 ^_說_(補件)\95•咖51322()3 12 200811673 戶詞語/術語映射表、系統詞語/術語映射表、簡體/繁體漢字—繁體/簡體漢字映射表、簡體/繁體漢字—繁體/簡體漢字一對多映射表。在本發明的第二實施例中，其中採用的統計方法可以非侷限地例如是原始貝氏統計方法。根據本發明的第三實施例提供一種將簡體漢字轉換成繁體漢字的轉換系統，該系統包括：輸入部分，輸入將要被轉換的簡體漢字字符串； 0 詞語/術語劃分部分’將輸入的簡體漢字字符串劃分成若干個詞語/術語；鑑別-定義部分，鑑別-定義該輸入的簡體漢字字符串中的每一個詞語/術語，將其中在標記形式上與繁體漢字的詞語/術語相同或雖然不同但具有確定對應關係的簡體漢字的詞語/術語定義為第一類詞語/術語，並將其中在標記形式上與繁體漢字的詞語/術語不同且不具有確定對應關馨係的簡體漢字的詞語/術語定義為第二類詞語/術語；映射轉換部分，採用映射表將該第一類詞語/術語直接映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢字的詞語/術語，統計轉換部分，採用統計分類方法將第二類詞語/術語轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢字的詞語/術語；組合輸出部分，把採用映射表對該第一類詞語/術語直接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 326\專利說明書(補件)\95-12\95132203 13 200811673 的繁體漢字的詞語續語和採語/術語轉以几T刀六貝万次對弟—類岡理對庠的^到的與輸入的簡體漢字的詞語/術語合理對應的繁體漢字的詞語/m 轉換的簡體潷念〜# 士办咸與將要被出。、予子付串對應的繁體漢字字符串，並將其輸的第三實施例中，其中的詞語们漢子以個財構成的m#/術語。田早在本發明的第三實施例中戶簡體—繁體詞語/術語映射表、系表包括用術語映射表、簡體—繁啤，、’ fB _ I體岡#/ 對多映射表。 “漢子映射表、簡體―繁體漢字一在本發明的第三實施例中，i 侷限地例如是原始貝氏統計的、‘十方法可以非根據本發明的第四實繁體漢字的轉換方法，、包括種將㈣漢字轉換成輸入將要被轉換的簡體漢字字將輸入的簡體漢字字符串劃八’ 鑑別-定義哕浐入的斤脑一刀右千個詞語/術語；疋我4輸入的間體漢字字 — :㈣，將其中在標記形式上與繁體漢字的=詞語/ 或雖然不同但具有確定對應簡二：語相同定義為第-類詞語/術語，並將= 莫子的巧語/術語漢字的詞語/術語不同且右成不记形式上與繁體的詞語/術語定義為第二類不詞=對應闕係的簡趙漢字㈣映射表將該第-類詞語/術語直接映射成與輸入的 3抓專利說明書(補件)\95-12\951322〇3 14 200811673 體漢子的巧語/術語唯一對應的繁體漢字的詞語/術注. 計分類方法將第二類詞語/術語轉換成與輸入^ 子的詞語/術語合理對應的繁體漢字的詞語/術語； ^採用=射表對該第一類詞語/術語直接映射而得到的二間體漢字的詞語/術語唯一對應的繁體漢字的詞用統計分類方法對第二類詞語/術語轉換而 —入的簡體漢字的詞語/術語合理對應的繁體漢進行組合，形成與將要被轉換的簡體漢字、子應的繁體漢字字符串，並將其輸出。在本發明的第四實施例中，其中的詞語/術語個漢字或多個漢字構成的詞語/術語。早戶四實施例中，其中所使用的映射表包括用術-術語映射表、系統簡體-繁體詞語/ 何映射表、簡體一繁體漢字映對多映射表。間篮制漢字— 在本發明的第四實施例中，其中採用的統計方侷限地例如是原始貝氏統計方法。乂非 #辦：本^明的第五貫施例提供一種將繁體漢字轉換成間體漢：的轉換系統，該系統包括：于轉換成輸入部分，輸入將要被轉換的繁體漢字字符串· 若部分’將輸入的繁㈣字字符串劃分成，別-定義部分’鐘別_ ^義該輸人的繁體由的母-個詞語/術語，將其中在標記形式上與簡m中 326_ift__)\95.51322()3 15 200811673 詞語/術語相同或雖然不同作字的詞語/術語定義為二:二了應闕係的繁趙漢形式上與簡體漢字的詞語/術注？中在標5己糸^肢漢子的詞語/術語定義為第二類詞語/術語，· ^轉換部分’採用映射表將該第―類詞語/術語直接 2成與輸入的繁體漢字的詞語/術語唯一對應的簡體漢子的祠語/術語； ^十轉換部分，採用統計分類方法將第二類詞語/術語、'與輸入的繁體漢字的詞語/術語合理對應的子的詞語/術語；、組合輸出部分’把採用映射表對該第一類詞語/術語直接=射而得到的與輸人的繁體漢字賴語/術語唯一對應的簡體漢字的詞語/術語和採用料分類方法對第二類詞語/術語轉換而得到的與輸入的繁體漢字的詞語/術語合理對應的簡體漢字的詞語/術語進行組合，形成與將要被轉換的繁體漢字字符_對應的簡體漢字字符_，並將其輸在本發明的第五實施例中，其中的詞語/術語包括由單個漢字或多個漢字構成的詞語/術語。在本發明的第五實施例中，其中所使用的映射表包括繁體—簡體用戶詞語/術語映射表、繁體—簡體系統詞語/ 術語映射表、繁體—簡體漢字映射表、繁體—簡體漢字一對多映射表和異體字映射表。在本發明的第五實施例中，其中採用的統計方法可以非 326\專利說明書(補件)\9542\95 B2203 16 200811673 侷限地例如是原始貝氏統計方法。據士發明的第六實施例提供一種將繁體漢字轉換成間肢漢子的轉換方法，包括步驟：、輸入將要被轉換的繁體漢字字符串；將輸入的繁體漢字字符串劃分成若干個詞語/術語；輸人的繁體漢字字符串中的每—個詞語/ 或^在#記形式上與簡體漢字的詞語/術語相同定同但具有確定對應關係的繁體漢字的詞語/術語 =二：類詞語/術語，並將其中在標記形式上與簡體 2的不同且不具有確定對的同語/術語定義為第二類詞語/術語；體漢予繁二：ΤΓ術語直接映射成與輪入的刀類方法將第二類詞語/術語轉換成與輸入的語/術語合理對應的簡體漢字的詞語/術語；盘輸：㈣J表對該第一類詞語/術語直接映射而得到的語/1-扭Λ漢字的詞語/術語唯一對應的簡體漢字的詞得到二，用統計分類方法對第二類詞語/術語轉換而字的詞二二的繁體漢字的詞語/術語合理對應的簡體漢字符串二:㈣行組合’形成與將要被轉換的繁體漢字對應的簡體漢字字符串，並將其輸出。個明的第六實施例中，其中的詞語/術語包括由單個/莫予或多個漢字構成的詞語/術語。在本發明的第六實施例中，其中所使用的映射表包括用 32____•難聊 17 200811673 T繁體，詞語/術語映射表、繁體—簡體漢字映射表、繁體一簡體二對夕映射表和異體字映射表。在本發明的第六實施例中，其中偈限地例如是原始貝氏統計方法Λ用的^方法可以非【實施方式】這圖式對本發明進行詳細的說明。應該說明，二θ…机程圖意在反映本發明實施例構思而無意本發明限制到且濟报4 重與 ^ 的實施例的具體二在參照圖式理解了隨後田处之後，本專業的技術人員可對於本發明的上述系統的各個部分的功能進行重新分配或將不同 ^刀的功此進行順序的交換、拆解、合併、通過計算機硬 =和权體的早獨操作或結合操作來實現本發明的設計思想的局部或全部’而這些修改都不麟本發明的本質和範圍。圖、1疋根據本發明一個實施例的簡體漢字和繁體漢字之間進仃相互轉換的系統的示意框該的總體構思和舆實際制場合相結合的情況。 Θ斤示根據本發明的簡體漢字和繁體漢字進行相互轉換的系統100包括作為系統核心的轉換處理器101、輸入裝置102和輸出裝置1〇3。作為輸入裝置的例子，圖1中示出了複印機1 〇2ι、傳真機1 022、知、相機1023、外部儲存器1 024、網絡裝置1〇25 以及輸入鍵盤1〇211等。實際上，只要最終能夠將文本格式 326\專利說明書(補件)\95·12\95132203 » 200811673 的中文簡體或繁體字符串輸入到轉換處理器l〇i的任，置都可以作為輸人裝置來使用。在同—個時刻，由這此衣置的任思之-通過復用器（沒示出）對轉換處理提供原始信號。 °° 101 ,應該理解到’例如複印機102l的某些輸入裝置在 (例如光學掃描）之後產生的信號並非為字符文本传號。此時應該通過必要的處理（例如OCR辨識處理）將非字°符籲文本信號轉變成字符文本信號後再提供到轉換處理器 10卜适些内容並非本發明的核心並且屬於本專業技術人員的公知常識，因此不再贅述。作為輸出|置的例子，圖i中示出了印表機^灿、傳真機1〇々32、外部錯存器·、網絡裝置1〇34以及顯示裝置、 1 〇3n等通過復用器（沒示出），轉換處理器1 01把經過轉換的字符文本輸出到這些輸出裝置的一個或多個。如圖1所不，轉換處理器包括中文簡體到繁體轉換子系 _統200和中文繁體到簡體轉換子系、统4〇〇以及内部儲存器 104其中的中文簡體到繁體轉換子系統2⑽和中文繁體到簡體轉換子系統的每—個都可以單獨存在而使得 _1的系統成為單向的中文簡體到繁體或中文繁體到簡體的轉換系統。在調入到内部儲存器104中的控制程序的控制下’中文簡體到繁體轉換子系統200或中文繁體到簡體轉換子系統400進行操作來對從輸入裝置102的字符串進仃轉換。實際上’系統100何時作為中文簡體到繁體轉換子系統200或何時作為中文繁體到簡體轉換子系統· 326\專利說明書(補件)\95-12\95132203 200811673 來操作，既可以根播入裝置102幹入到絲的指令來決定，也可以根據從輪 1轉換處理器的漢字字符串的性質來自動地決疋。内部儲存哭的資料庫文件。逛儲存產生的中間數據和必要門：口轉:奐的中文字符串從輸入裝置1〇2經接口/多路中文繁體到簡體體到繁體轉換子系統200或 ^ ^ ± \ 、子系統400。並且把經過轉換的結果 ==輸出展置。通過下面參照圖2和圖3的用於把 F:體漢：轉換成繁體漢字的轉換系統及其操作流程的描 =和m 4和圖5的用於把繁體漢字轉換成簡體漢字的一換系j及其操作流程的描述’可以最終獲得對於圖1所不的在簡體漢字和繁體漢字之間進行相互轉換的系統100 的清楚理解。下面^…、圖2榣述作為本發明的一個實施例的把簡體漢字轉換成繁體漢字的轉換系統2〇〇。如圖2所不’把簡體漢字轉換成繁體漢字的轉換系統 200包括·轉換部分2(n、數據輸入部分2〇2、輸出部分 203、詞語/術語劃分部分2〇4、鑑別定義部分2〇5。其中的轉換部分2G1中包括簡體—繁體詞語/術語轉換部分 206、GBK簡體編碼— GBK繁體編碼轉換部分2〇7和編碼— BIG5編碼轉換部分208。在操作上，鑑別_定義部分 2 0 5間體繁體列語/術έ吾轉換部分2 〇 6與用戶簡體—繁體詞語/術語映射表209和系統簡體_繁體詞語/術語映射表210相聯繫；GBK簡體編碼—GBK繁體編碼轉換部分 326\專利說明書(補件)\95-12\95132203 20 200811673 207與簡體—繁體一對多字映射表211、統計數據212、簡體—繁體一GBK漢字映射表213和簡體—繁體一對多詞映射表214相聯繫’而GBK編碼—BIG5編碼轉換部分20 8 與BIG5—GBK編碼轉換表215相聯繫。輸入部分2 0 2把將要被轉換的簡體漢字字符串，例如 SC編碼的簡體漢字數據流輸入到詞語/術語劃分部分204 中0 根據控制詞語/術語劃分的規則，詞語/術語劃分部分馨204把輸入的簡體漢字字符串劃分成一個或若干詞語/術语’即「抽出」構成簡體漢字字符數據流的各個詞語（術語）。劃分後形成的詞語/術語可以由一個或若干簡體漢字字符構成。這些作為詞語/術語劃分的結果而產生的全部詞語/術語被輸入到鑑別-定義部分205。在對於簡體/繁體漢字向繁體/簡體漢字的轉換的既有技術中存在各種對於輸入的將被轉換的對象字符串進行 ⑩劃分的（或稱為「分詞」）方法，這些方法均可採用在本發明中作為對從輸入裝置提供的簡體/繁體漢字字符串進 •‘ 行劃分的方法。關於這些方法可以參見例如台灣的蔡佳麟博士的文章「Report to BMM-based Chinese Word ， Segmentor with Context-based Unknown Word ， Identifier for the Second International Chinese Word Segmentation Bakeoff」 (http://acl·ldc·upenn·edu/1/105/105-3020·pdf )和香港揭春雨博士的文章「An Example-Based Chinese Word 326\專利說明書(補件)\95-12\95132203 21 200811673

Segmentation System for CWSB-2」 (http://personal.cityu·edu. hk/〜ctckit/papers/bak eoff2.pdf)。這些内容被作為既有技術結合在此參考。鑑別-定義部分205對於輸入的全部經過劃分的詞語/ 術語進行鑑別和定義，其中的鑑別操作是在預定程序的控制下對於輸入的詞語/術語的合理性進行鑑別，並且可以在控制程序的控制下提供必要的手段（例如顯示界面）供系統的使用者作出新的詞語/術語，並將其輸入和儲存在 ⑩與鑑別-定義部分205相聯繫的用戶簡體—繁體詞語/術語映射表209中。隨後，鑑別-定義部分205對於經過鑑定的全部詞語/術語進行定義而分成兩類：第一類詞語/術語是該簡體漢字的詞語/術語在標記形式上與繁體漢字的詞語/術語相同、或雖然該簡體漢字的詞語/術語在標記形式上與繁體漢字的詞語/術語不同，但該將要被轉換的簡體漢字的詞語/術語具有與其為確定對 •應關係的繁體漢字的詞語/術語。舉例來說，「北京」一詞在簡體漢字和繁體漢字中的標記形式完全相同，因此它屬於第一類詞語/術語。而簡體漢字中的「计算机软件」一詞與繁體漢字中的「電腦軟體」一詞雖然在標記形式上不同，但是二者之間存在確定的對應關係，因此它也屬於第一類詞語/術語。第二類詞語/術語是該簡體漢字的詞語/術語在標記形式上與繁體漢字的詞語/術語不同且不具有確定對應關係的簡體漢字的詞語/術語。例如，簡體漢字的詞語「摆」 326\專利說明書(補件)\95-12\95132203 22 200811673 在繁體漢字中存在有兩個對應的標記形式「擺」和「$ 因此它們之間不僅是標記形式不同，而且不且有確^」’ 關係。在把簡體漢字的詞語「摆」轉換成繁體漢字二貝ΐ 要根據具體的使用情況才能決定選擇「擺」和、一個。因此它Μ於馀, 伽」的哪口此匕屬於弟二類詞語/術語。從上面的分析可Π 4山、心仏狄 , 特點3 .、隹〜絲枯看出，24種弟二類詞語/術語具有的 =疋在進仃轉換中的-對多的問題。即-個簡體漢字：個繁體漢字’使得在進行簡體漢字到繁體漢字的轉換日4生選擇上的錯誤。這也是本發明旨在解決的問題。、針;==的簡體漢字的詞語/術語定義為兩類是為了型的簡體漢字的詞語/術語實施具有本發明特 ‘，沾的處理手段而實現本發明高精度和高效、到繁體漢字的轉換的目的，從下面的描述中將會看點。心逍後轉換。201對於輸入的經過定義的兩類簡體气卜/術語進行從簡體到繁體的轉換。其中：該簡體㈣語/術語轉換部分206利用用戶簡體―繁體詞語/術达，射表_和系統簡體—繁體詞語/術語映射表21〇來對 :-類同語/術語執行映射轉換；該GM簡體編碼一咖繁體編碼轉換部分2()7利關體—繁體—對多字映射表 =!、統計數據212、簡體繁體—GBK漢字映射表213和間體繁體-對多詞映射表214來對第二類詞語/術語執打映射和統計分類方法相結合的轉換；以及該gm編碼— BIG5編碼轉換部分208利用BIG5—GBK編碼轉換表把 326\專利說明書(補件)\95-12\95132203 23 200811673 BIG5簡體漢字轉換成GM繁體漢字。從簡體—繁體詞語/ 術語轉換部分206輸出的轉換結果的繁體漢字和從GBK編碼—BIG5編碼轉換部分208輸出的轉換結果的繁體漢字相結合而形成期望的繁體漢字數據流，並且輸出到輸出部分 203 〇下面將對於發生在轉換部分2〇1中的各種轉換進行更具體的描述，其中著重介紹本發明核心的統計轉換技術原理。 ► 在簡體—繁體詞語/術語轉換部分2〇6利用用戶簡體— 繁體詞語/術語映射表2 〇 9和系統簡體_繁體詞語/術語 =射，210而對於第一類簡體詞語/術語執行映射轉換時，是通過直接查表映射的方法把sc編碼的簡體字轉換為BIG5編碼的繁體字，是一種簡體詞語/術語到繁體詞語術語的直接對應的-對一的轉換。具體地說，簡體詞語/ 吾到繁體詞語/術語是指以詞為單位進行轉換，即通過 1「用戶簡體—繁體詞語/術語映射表」和「系統簡體 2㈣語/術語映射表」完成對輸入的簡體漢字數據流 =-類詞語/術語到對應的繁體漢字數據流的轉換。該、具備雙向性y尤是說「系統簡體―繁體詞語/術語映 = ^戶簡體—繁體詞語/術語映射表」也可用於的轉換（後面將參照圖4進行描述），即「系 '用，二二簡體〜繁體詞語/術語映射表」同用戶繁體1體詞語/術語映射表」結構相同而可以共 326\專利說明書(補件)\95·12\95132203 u 200811673 用。在上述用戶簡體—繁體詞語/術語映射表和系統簡體— 繁體詞語/術語映射表中儲存有簡體詞語中的不能以每個字來對應到繁體詞語中相應位置上的字的詞語和術語。表1是該用戶簡體—繁體詞語/術語映射表和系統簡體 ' —繁體詞語/術語映射表的結構示例。

表 1 簡體漢字詞語繁體漢字詞語位位元字节位元組光盘光碟计算机電腦数据库資料庫档案文件信息資訊因特网網際網路软件軟體星期禮拜乍得查德肯尼迪甘乃迪 • · · 326\專利說明書(補件)\95-12\95132203 25 200811673 :戶說:==1僅用於說明的目的，而不是術語缺射表的結射繁體構的映射表實現簡體L” 绝樣取直觀的結入的將要被轉換的每—個簡體：詞換時，將把輸的「簡體漢字詞語/術語」項進行比/“」同所有記錄換的簡體「詞語/術語」存在於如果該將要被轉的該記錄的「繁體漢字詞語/術纽\中則取出與之對應簡體詞語/術語的轉換結果（繁體°」員:容，做為上述本領域的技術人員顯而易見的是，可::)二輸：。上不同於表1的映射表和相應的映 :匕厂構檢索映射法、2分檢索映射法、方:：如·· Η -據查找法來生成詞語/術語映射表匕索：射f專，同時根的「系統簡體，語/術=射雖用然本示例中蘩舻叫上五/小β吹对表」和「用戶簡體— =體⑽/★語映射表」結構相同， =構…本示例中的「系統簡體—繁二= 映射表」和「用戶簡體—繁體將參照圖4描述的示例中的映射表」與下面映射#夺「田“ 繁體—簡體詞語/術語也可二。繁體一簡體詞語/術語映射表」的結構例如「系統簡體-繁體詞語/術語映射表」和「體^繁體詞語/術語映射表」其中之一可以採用如们二 :的、:構和直觀映射的方法’而另一個可以採用體—繁體詞語/術語映射轉換過程，其中把每一個簡體詞 326Χ專利說明書(補件)\95·12\95132203 26 200811673 語/術語當作一個字符串·· 1)輸入簡體漢字字符串2簡體漢字

Si = clc2c3…cn ^ 2 )用簡體漢字子字符串s i同映身體漢字詞語/術語」項進行比較：如果伙二有，錄的「簡的丽綴‘刀（clc2-.cs…n)存在寸串 ^出該記錄的「繁體漢字詞語/術語」項、、中做^ SC編碼)進行輸出。轉到3 t:;=換結果⑽ 理過程。 $不存纟’則結束該處 3)S=S~clc2··· cs 4 )轉到上述的2 ) 如上所述’圖2中的簡體，利用用戶簡體—繁體詞語/術語映射表2轉換^ 2 〇 6 繁體詞語/術語映射表加完成對於第一類詞^充^體: 體字轉換為^^ 於用戶開放的，並且在執HTt 射表209是對 JL且在執仃轉換時在搜索順序上該體·^繁體詞語/術語映射表2〇q得洙兮/ 戶間語/術語映射表210。 9優先該糸統簡體-繁體詞下面來說明在圖2所示的脸雜碰、甘+ 的將間體漢字轉換成繁體漢字 =系統的實施例中對於第二類詞語/術語，即該簡詞語/術語在標記形式上與繁體漢字的詞語/術组體不同且不具有確定對應體財的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 1η 200811673 X月的特彳玫在於通過統計分類的轉換方法來實現了 ^此專換’攸而實現簡冑漢字字符到繁體漢字字符的一對多映射的準確轉換的問題。 .與字2!:於簡體漢字的詞語/術語在標記形式上 ‘體嚷」°5浯/術語不同且不具有確定對應關係的簡繁體二=/術語的轉換主要是由GBK簡體編碼，κ F篮編碼轉換部分2〇7完成。示，繁體一對多字映射表2ΐι、統計數據〇司昧V—繁體—GBK漢字映射表213和簡體一繁體-對夕映射表214與該GBK簡體編碼—GBK, 分207連接。為體編碼轉換部簡體-繁體一對多字映射表2ΐι 表2的示例結構：旁如下面 326\專利說明書(補件)\95·12\95132203 28 200811673

表2中共有133條記錄，每—你例如第-條記錄的第一個字符是=二個^ 字「摆」不在繁體字中出現，所二體:個付。弟二和第四個字符位置分別是繁體字中與簡體字「撰予相對應的兩個可能的選擇「擺」和「襬」。」 ft體—繁體-對多詞映射表214可以具有按照如下示例規則形成的結構··

J 『赉』號··表示一組「一

對多雨表數據j的開始，F 326\專利說明書(補件)\95-12\95!32203 29 200811673 號後面的漢字為i簡體漢字，該簡體漢字有多個繁體漢字對應。 2. 『$』號：表示對應的1個繁體漢字的信息。『$』號後面的漢字為對應的1個TC繁體漢字。『$』號記錄下面的記錄為包含『$』號後面的繁體漢字的詞的信息。該記錄可以有多個。 3. 『$』號數據記錄組會有多個。 4. 『@』號：表示一組「一對多詞表數據」的結束。例如，簡體漢字「辟」的一對多詞表映射數據組可以是： #辟簡體漢字「辟」的「一對多詞表數據j的開始 $辟簡體漢字「辟」對應繁體漢字「辟」大辟上述對應時的詞表复辟征辟 φ 辟邪辟易 $闢簡體漢字「辟」對應繁體漢字「闢」开辟上述對應時的詞表精辟辟谣 @ 簡體漢字「辟」的「一對多詞表數據」的結束如果一個簡體字/詞能夠通過查表映射的方法直接獲得 326\專利說明書(補件)\95-12\95132203 30 200811673

一、…繁體漢子的轉換結果，則將能又快又準確地實現簡 ^奠子到繁體漢字的轉換。但是如前所述，由於從簡體漢 ^換到繁體漢字的—對多的問題，在既有技術的轉換方 :都存在轉換不準確的問題。本發明利用統計分析技術夕原始貝氏分類器來實現從簡體漢字到繁體漢字的一對卜、射的準確轉換。應該說明，其它能夠實現空間向量的統：分類的方法也可以採用，在此是以原始貝氏分類器進亍么明構思的說明，而不是對本發明的限制。下面先簡要介紹貝氏統計分類用的原始貝氏分類器。的原理’再說明本發明使貝氏分類問題可以如下描述：假設一個對象可以用 2向量表示’如Μχι，X2, ..·，χ〇，炉為對象的特徵 :里，亚且可以分Μ個類C=(ci，。，…，W，則貝氏 ^貝問題可以描述成··已知類條件概率密度則^ 先驗概率p(Ci)求後驗概率p(Ci|q。1中^ 2 大、這可由貝氏公式來計算： /'，，”·’ k。 p(ci I x) = p(ci I Xl, X2, ..., Xn) = PfeX2^->XnlCi)p(ci) P(Xl，X2，··.，Xn) 分類規則可以描述為：對一個特徵向量值為无的其類別指定為Cm，當且僅當p(Cin|i) & p(c . 2,…，1 ; i 尹 m。 1 = 1，可以按照下面的公式來確定對象的分類： 326\專利說明書(補件)\95-12\95132203 31 200811673 :argmax 应1，…，χη | ci)p(ci)

cieC Ρ(Χ1，χ2，···，Χη) P(X1，X2, ···，味)P(C〇 (公式1) 原始貝氏分頬器基於一個簡單的假設

的值時，所右凰k w曰甘、、口疋力負交1 C π有屬性變置相互獨立，也就是說： ρ(χΐ, Χ2,...? xn I Ci) = J~[p(xj I a) 公式2) 將公式代入公式1，得到原始貝氏分類器的分類算法 = arg^p(ci)fjp(xj|cj) 公式3) 在使用公式卩到繁體漢字的轉換氏分類器算法解決從簡體漢字個达料座· 、处里日守的一對多的問題時，需要使用& 划”口枓庫·簡體漢而戈使用兩漢字語料庫Carpus ϋ ϊ卿^和與之㈣的繁體的電腦的預定館存空=個，料庫存放在實施本發明兩種方式：間位置中。在具體的實施中可以採取之對第一種方式是把簡體漢字語料庫Con%和與 m9mmmm\95^12\95132203 200811673 應的繁體漢字語料庫C〇rpus_TC作為圖2中的統計數據 212。假設簡體漢字語料庫c〇rpus—sc和與之對應的繁體漢字語料庫C〇rpus_TC已經達到一定的完備程度，在進行 .針對一對多的簡體漢字到繁體漢字字符的轉換時，GM簡 •體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統^ 處理控制程序操作統計數據212中的簡體漢字語料庫、n c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus—吖，按 ⑩照隨後解釋的原理而獲得正確的轉換結果。由此可見，在該第一種方式中的該圖2的統計數據212應該廣義地理解為是簡體漢字語料庫Corpus_sc和與之對應的繁體漢字語料庫c〇rpus_Tc，真正的統計數據是在GBK簡體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統計處理控制程序操作這兩個語料庫之後獲得的數據。可以理解到，簡體漢字語料庫Corpus—SC和與之對應的繁體漢字語料庫 Corpus—TC的完善程度直接影響GM簡體編碼—GM繁體 #編碼轉換部分207調用貝氏分類統計處理控制程序進行操作的結果的精確度。 " 第二種方式是，不直接將簡體漢字語料庫C〇rpus_SC和，與之對應的繁體漢字語料庫corpus—TC放置在圖2的統計 '數j 2丨2中，而是針對全部所述第二類的簡體漢字到繁體 -漢字轉換，即一對多的轉換而預先對於簡體漢字語料庫 c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus_TC執行統计#作，將統計計算的結果放置在圖2的統計數據212 中。在GBK簡體編碼—GBK繁體編碼轉換部分2〇7針對一 326\專利說明書(補件)\95-12\95132203 200811673 個輸入的第二類簡體漢字執行貝氏分類統計處理轉換時’只需調用預先計算好的結果即可。這將進—步降低系統的資源佔用，提高轉換速度。本發明允許用戶纟規定的條件下不斷充實和完善其自 f使用的簡體漢字語料庫CGrpus—sc和與之對應的繁體漢=語料庫C〇rpus_T€，使之更適合自身使用的需要。貝際上上述第一種方式和第二種方式是基於相同的發明構思的兩種具體的實施方式，在使用結果上並無實質區下面來矹明對於一個第二類簡體漢字執行原始貝氏分一處理的過€。假定需要被轉換的簡體字為$，則它所紫應的“固繁體字形的集合記為T={ti，t2，…，乜}。在簡體漢字語料庫h 〇 △丄竹厍Lorpus-SC中，s和位於它左右的字組成的字符串記為SMS f 其中s-p si分別是變量。使用 ’乂二、刀體字S進行漢字的簡體-繁體轉換的算法如下：學習算法（計算統計特徵） 1·收本Corpus〜sc中所有的簡體字v〇caculary — Corpus-SC中的所有的簡體字的集合 2·計算所需要的概率項pa)#nP°(Si|Ti) 對T中每個目標值知值 Tj，：）E{1，2，…，k} nfC0rpus—sc"j出現的次數，一C〇rPUS—沉中11，T2，…，^出現的總次數， P CT j)=n j/ητ 326傳利說明書(補件)\95-12\951322〇3 34 200811673 對 Vocaculary 中的 Si，i = {-l，1} ni —在簡體字S轉為Tj的情況下，Corpus_SC中 Si的出現次數， P(Si|Tj) = (ni+m/|Vocaculary|)/(nj+m)，這裏使用 m-估計，其中 ^ 當以上的統計特徵計算之後，利用以下的貝氏分類算法的公式來確定轉換為哪一個繁體漢字。

TNB =argmaxP(2；.

TjeT 尸(U丨7；)尸(7；) arg max----—-—

TjeT P(S_lyS) arg max 尸(U I 7；)尸(7；·)

TjeT 二 argmax尸(L|[)P〇S^)P(2；)

TjeT (公式4 ) φ 通過幾個簡單的例子來理解從簡體漢字到繁體漢字的轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1) GBK发—6165發（發展）第一步：GBK簡體編碼—GBK繁體編碼轉換部分207查找簡體—繁體一對多字映射表211，「发」是一對多簡體字。使用原始貝氏分類方法操作統計數據212，得到在詞語「发展」中的「发」對應繁體字「發」。（内碼：B7A2 —B06C) 第二步：GBK編碼—BIG5編碼轉換部分208查找GBK— 326\專利說明書(補件)\95·12\95132203 35 200811673 BIG5編碼轉換映射表215,從GBK編碼轉換為MG5編碼。 (内碼·· B06C—B56F) 2 ) GBK发—6105髮（頭髮）第一步：GBK簡體編碼— GBK繁體編碼轉換部分2〇7查找簡體—繁體一對多字映射表211，「发」是一對多簡體子。使用原始貝氏分類方法操作統計數據212，得到在詞語「头发」中的「发」對應繁體字「髮」。（内碼：B7A2 -^B06C) 第二步：GBK編碼—BIG5編碼轉換部分2〇8查找GBK〜 BIG5編碼轉換映射表215,從GBK編碼轉換為BIG5編碼。 (内碼：B06C—BE76) 3) GBK摆~>BIG5襬（衣襬翩翩） j 第一步：GBK簡體編碼_>GBK繁體編碼轉換部分2〇7查找簡體—繁體一對多字映射表211，「摆」是一對多簡^ 字。使用原始貝氏分類方法操作統計數據212，假設「衣和「翩」在「摆」字左右的情況在語料庫中都沒有能夠得到統計結果’所以此時使用原始貝氏分類方法沒有得到期望的結果。此時系統根據用戶對於詞表的交互，把「的「摆」轉換為繁體字「襬」。（內现· Μη - ^ 伸」I内碼· BOM—D26F)並且將父互的結果記錄在用戶簡體—繁和統計數據211中。術語映射表弟一步· GBK編碼-> BIG5编踩趙4么> DTnc 、.扁碼轉換部分208查找GBK- BIG5編碼轉換映射表215,從GBK绝π ^ 編碼轉換為BIG5編碼 (内碼：D26F — C4FC) 326\專利說明書(補件)\95-12\95132203 36 200811673 4) GBK 囯—BIG5 國第一步：由於「国」不是一對多簡體字，所以簡體〜繁體詞語/術語轉換部分206查找系統簡體—繁體詞語/術語映射表210，「国」對應繁體字「國」。（内碼：B9FA-> 87F8) 弟一步：查找GBK— BIG5編碼轉換映射表，從GBK編碼轉換為BIG5編碼。（内碼：87F8—B0EA) 馨下面將通過一個簡體漢字字符串到繁體漢字字符串的轉換來進一步說明本發明的核心：統計轉換映射技術。例如需要被轉換成繁體漢字的簡體漢字字符串是「心脏是循环系统的动力中心」。它的正確的轉換結果應該是「心臟是循環系統的動力中心」。通過根據圖2的將簡體漢字轉換成繁體漢字的轉換系統的刼作，其中除去「脏」和「系」之外的十個字的簡體字和繁體字之間均是一對一映射的關係。所以對於這十個 ⑩對映射的簡體漢字到繁體漢字的轉換可以通過利用映射表直接轉換即可。對於一對多映射漢字，即該字符串（簡體漢字的句子）中的「脏」和「系」兩個簡體字的轉換操作的實際情況是：其中對「脏」字的轉換使用了簡體—繁體一對多詞表，對「系」字的轉換使用原始貝氏分類，具體說明如下。本發明人特別申明，這裡所說的「實際情況」是在本發明人^ 如下的假設前提條件之下出現的，即：簡體漢字語料庫 C〇rPUS_SC和與之對應的繁體漢字語料庫Corpus—TC中在 326\專利說明書(補件)\95·12\95132203 ^ 200811673 醫學領域方面欠缺；簡體—繁體一對多詞映射表214是相對完備的。首先’從簡體—繁體一對多字映射表211得到簡體漢字脏」字對應的繁體字形有兩個：「髒」和r臟」。

按照本發明的設計構思，首先判斷是否可以由GBK簡體編碼— GBK繁體編碼轉換部分207使用原始貝氏分類的方法進行轉換。根據統計數據顯示，在採用統計數據212的訓練集中，「脏」共出現180次，其中轉換為「髒」的有 180次，轉換為「臟」的有〇次，而無論哪種轉換情況，「脏」字前面出現「心」的次數為0次，後面出現「是」的次數也為〇次。在統計數據稀疏的情況下（說明語料庫中十刀缺J百學類文章），系統將停止使用原始貝氏分類的方法，而通過查找簡體—繁體一對多詞映射表214進行轉換。將「脏」與前後兩個字分別組合，得到「心脏」和 :脏是」，在該映射表中查找「脏」的詞條，在轉換為「臟σ =的情況下找到詞語「心臟」，因此在這個句子中，簡體字「脏」應該轉換為繁體字「臟」。「酼後再度使用貝氏分類技術轉換來嘗試把簡體漢字「系」轉換成適當的繁體漢字。從簡體一繁體一對多字映射表211得到

子對應的繁體字形有三個，分別為「系」、「係」和「繫: 使用原始貝氏分類的方法對其J ^算使用拉普拉斯定律(Laplacj=:= 理。分類算法的公式如下·· 千π處 326\專利說明書(補件)\95-12\95132203 38 200811673 Γλ® =耵|巧狀户-丨丨Z仲丨丨难⑻ 根據統"十數據顯示，在訓練集中，「系」共出現47691 次。情況一：轉換為「系」出現次數：25249 次，p(系）=25249/47691 = 0. 529429 _ 不」子的次數：11，Ρ(环I系）= 〇· 00043565 後面是「& ^ ^ 况」子的次數：14905，Ρ(统丨系）= 0· 590297 Ρ(系）Ρ(环丨系）ρ(统丨系）= 0· 0001361 情況二：轉換為「係」出現次數：17651 次，ρ(係）=17651/47691 = 〇.37〇112 4面疋「环」字的次數：0，Ρ(环|係）= 8· 4667e-9 後面是「统」字的次數：0，P(统I係）= 8.4667e-9 P(係）P(J不丨係）P(统 I 係）= 2. 653e-17 ⑩ 情況三：轉換為「繫」出現次數：24791 次，P(繫）=4791/47691 = 0. 100459 W面是「环」字的次數：〇，p(环|繫）=3· 118833e-9 後面是「统」字的次數：1，p(统|繫）=〇· 0002087 P(繫）P(环 I 繫）P(统 I 繫）=6539e-13 根據分類算法公式可以得到，在這個句子中，簡體字「系j應該轉換為繁體字「系」。 GBK編碼— bIG5編碼轉換部分208使用GBK—BIG5編碼轉換映射表來得出需要的BIG5繁體漢字，該繁體漢字與 326\專利說明書(補件)\95·12\95132203 39 200811673 二/ 1體繁體詞語/術語轉換部分2 0 6的繁體漢字相結合後由_出部分203作為轉換的結果輸出。、° 、一:考圖3來說明圖2所示的將簡體漢字轉換成繁體漢字的轉換系統的操作過程。〃見圖3的流程圖’首先輸入將要被轉換的簡體漢字字符串（步驟S310)。 P現後’詞語/術語劃分部分204根據預定的劃分規則對 ⑩，輪入的簡體漢字字符串進行劃分而「抽取」出組成該字符串的全部簡體詞語/術語（步驟S320 )，並將這些詞語/ 術語提供到鑑別-定義部分205。在接收到每一個簡體詞語/術語之後，鑑別-定義部分 205則將對其進行鑑別和定義，判斷其是否屬於第一類簡體詞語/術語，即在標記形式上與繁體漢字的詞語/術語相同或雖然不同但具有確定對應關係的簡體詞語/術語（步驟S330 )，如果為「是」，則將該簡體詞語/術語輸入到轉 ⑩換部分201的簡體—繁體詞語/術語轉換部分2〇6，由簡體—繁體詞語/術語轉換部分2〇6利用該用戶簡體—繁體詞語/術語映射表209和系統簡體—繁體詞語/術語映射表210把該第一類簡體漢字字符轉換成對應繁體漢字字符（步驟S340 )。如果步驟S330的定義結果為「否」，則定義該簡體詞語 /術語為第二類詞語/術語，即在標記形式上與繁體漢字的詞語/術語不同且不具有確定對應關係的簡體漢字的詞語 /術語，並將其提供到轉換部分201的GBK簡體編碼〜规專利說明書(補件)\95-12\95132203 40 200811673 繁體編碼轉換部分207，通過利用簡體—繁體一對多字映射表21卜統計數據212、簡體^繁體—gm漢 :广繁體-對多詞映射表叫，由簡體編碼1: 繁體編碼轉換部分207採用統計分類與映射組合的方法 ^亥簡體漢字的同語/術語轉換為合理對應的繁體漢字的詞/語術語（步驟S350 )。、將編碼—BIG5編碼轉換部分m❸轉換處理後， f :驟，〇和步驟S350獲得的繁體漢字詞語/術語相結獲得與輸人的㈣漢字字符串對應的繁體漢字字符，亚由輸出部分203將其輸出（步驟S360 )。字Ξ:串圖2的本發明的一個實施例的將簡體漢土、為％、體漢字字符串的系統來實踐圖3所示的-的一^ t 了將簡體漢字轉換成繁體漢字的轉換中出現現子+子夕的映射問題。具體地說’本發明的把能夠實 •=:映射的簡趙漢字的詞語，術語和不能實現-對 •;=體漢字的詞語/術語，即-對多映射漢字分開處㈣ /能採用統計特徵的技術來用原始貝氏分類方法貫現從簡體漢字到繫轉、、蓄— 、繁體，莫予的一對多映射處理，使得從 ^。/、予到繁體漢字的一對多映射處理的精確度大大提體ϋ、、、圖4描述作為本發明的另-個實施例的把, ί執仃轉換與圖2系統所執行的轉換相反，但是在原理：門是相同或相似的。因此那些與圖2相同的描述或公式 326、專利說明書(補件)\95-12\95132203 \ 41 200811673 的推導將被簡化或省略。如圖4所示，把繁體漢字轉換成簡體漢字的轉換系統 400包括··轉換部分401、數據輸入部分4〇2、輸出部分 • 403、词語/術語劃分部分404、鐘別-定義部分405。其中 •的轉換部分401中包括繁體—簡體詞語/術語轉換部分

406、BIG5繁體編碼—GBK繁體編碼轉換部分4〇7和gBK 繁體編碼— GBK簡體編碼轉換部分408。在操作上，鑑別一定義部分405、繁體—簡體詞語/術語轉換部分4〇6與用戶繁體—簡體詞語/術語映射表4〇9和系統繁體—簡體詞語/術語映射表410相聯繫；BIG5繁體編碼—GBK繁體編碼轉換部分407與BIG5—GBK編碼轉換表411相聯繫/而 GBK繁體編碼—GBK簡體編碼轉換部分4〇8與統計數據 412繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體一gbk 漢字映射表416相聯繫。 ⑩輸入部分402把將要被轉換的繁體漢字字符串，例如 BIG5、、扁碼的繁體漢字數據流輸入到詞語/術語劃分部分 404 中。，根據詞語/術語劃分的控制規則，該詞語/術語劃分部分、=4把輸入的繁體漢字字符串劃分成一個或若干詞語/術 • ^即抽出」構成繁體漢字字符數據流的各個詞語（術語）。劃分後形成的詞語/術語可以由一個或若干繁體漢字子符構成。這些作為繁體詞語/術語劃分的結果而產生的全部繁體詞語/術語被輸入到鑑別—定義部分4〇5。 326\專利說明書(補件)\95·ΐ2\95132203 42 200811673 鑑別-定義部分405對於輸入的全部經過劃分的繁體詞語/術語進行㈣和定義，其巾的鏗卿作是在預定的控制下對於輸人的繁體詞語/術語的合理性進行鐘別，並且可以在控制程序的控制下提供必要的手段（例如顯示界面）而使得系統的使用者作出新的詞語/術語的定義，並將其輪入和儲存在與鑑別義部分4{)5相聯繫的用戶繁體-簡體詞語/術語映射表彻中。隨後，鑑別-定 2 4〇5對於經過較的全部詞語/術語進衫義而分成^ 第-，詞語/術語是該繁體漢字的m#/術語在標記形 :土與間m的詞語/術語相同、或雖然該繁體漢字的 ‘吾/術語在標記形式上與簡體漢字的詞語/術語不同，但 =將要被轉換的繁體漢字的詞語/術語具有與其為確定對應關係的簡體漢字的詞語/術語。舉例來說，「在繁體漢字和簡體漢字中的標記形式完全相同，因此它屬 # =-類詞語/術語。而繁體漢字中的「電腦軟體」一詞贫間體漢字中的「计曹如私从 # 了十-机软件」—詞雖然在標記形式上不 …但疋二者之間存在確定的對應關係，因此也一類詞語/術語。、弟字的詞語/術語在標記形同且不具有確定對應關係 ’繁體漢字的詞語「餘」標記形式「余」和「馀」，同，而且不具有確定對應弟一類詞語/術語是該繁體漢式上與簡體漢字的詞語/術語不的繁體漢字的詞語/術語。例如在簡體漢字中存在有兩個對應的因此它們之間不僅是標記形式不 326\專利說明書(補件)\95-12\9513220: 200811673 關係。在把繁體逢念& Μ & r 要粑攄且髀沾估田主。餘」轉換成簡體漢字時則需要根I、體的使用情況才能決定選擇「余」和 ^ 一個。因此它屬於第二類詞語/術語。」的哪從上面的分析可以看出，這種第二類特點是在進行轉換中的-對多的問題。即—個；體;有= 應多個簡體漢字，使得在進行繁體漢字到簡體日"ff選擇的錯誤。這也是本發明旨在解決的問題。、把射形成的繁體漢字的詞語/術語定義針對不同類型的繁體漢字的詞語/術語實施具有本點的處理手段而實現本發明高精度和高效率字簡體漢字的轉換的目的，從下面的描述中將會看語換:401,對於輸入的經過定義的兩類繁體詞二：/二仃攸繁體到簡體的轉換。其中：該繁體-簡體 H吾術語轉換部分4G6利用用戶繁體—簡體詞語/術語 2射表侧和系統繁體^簡體詞語/術語映射表410來對弟-類詞語/術語執行映射轉換；該哪繁體編碼簡=碼轉換部分4Q8利用統計數據412、繁體—簡體— 十^子映射表413、異體字映射表414、繁體》簡體—對 :詞映射表415和繁體—簡體一GBK漢字映射表416來對第一類同語/術語執行映射和統計分類方法相結合的轉換。，繁體—簡體詞語/術語轉換部分406輸出的轉換結的fl體漢子和從GBK繁體編碼GBK簡體編碼轉換部八 4〇8輸出的轉換結果的簡體漢字相結合而形成期望的簡^ ^^mmmmi^&5A2\95n2203 44 200811673 漢字數據流’並且輸出到輸出部分4〇3。下面將對於發生在轉換部分401中的各種轉換進行更 ^體的描述’其中著4介紹本發明核心的統計轉換技術原在繁體—簡體詞語/術語轉換部分傷利用用戶繁體5 簡體詞語/術語映射表彻和系統繁體—簡體詞語/術語 1射，410而對於第一類繁體詞語/術語執行映射轉換。 %，疋通過直接查表映射的方法把mG5編碼的繁體換為GBK編碼的簡體字，是—種繁體詞語/術語到簡體詞 ’/術語的直接對應的一對一的轉換。具體地說，繁體詞语/術語到簡體詞語/術語是指以詞為單位進行轉換，即過查找「系統繁體—簡體詞語/術語映射表」和「用戶繁體—簡體詞語/術語映射表」完成對於輸入的繁體漢字數據流的第一類詞語/術語到對應的簡體漢字數據流的轉換。如上面參照圖2進行的描述中所說的那樣，這種轉換 φ具備雙向性’即「系統繁體—簡體詞語/術語映射表」同 :系統簡體—繁體詞語/術語映射表」，「用戶繁體—簡體詞語/術語映射表」同「用戶簡體—繁體詞語/術語映射表」結構相同而可以共用。，在上述用戶焦體簡體詞語/術語映射表和系統繁體— 簡體詞語/術語映射表中儲存有繁體詞語中的不能以每個字來對應到簡體詞語t相應位置上的字的詞語和術語。相關的示例可參見上述的表I。同樣應該說明，表1的示例結構僅用於說明的目的，而 32轉利說明書(補件)\95-12\95132203 45 200811673 不是對於用戶繁體〜簡體詞語/術簡體詞語/術語映射表的結構進行限制。=!:!體一的結構的映射表實現繁體—簡體詞語/妙的韓^直硯把輸入的將要被轉換的每一個繁體轉換知，將記錄的「繁體漢字詞語/術語」項進行°比;何:」同所有被轉換的繁體「詞語/術語」存在於該表；要對應的該記錄的「簡體漢字詞語/術語」内六出= ί述繁體詞語_的_結果（簡㈣編碼Γ進= 本領域的技術人員顯而易見的是，可以使用其它在於上不同於表1的映射表和相應的映射。檢索映射法、2分檢索映射法、樹檢索映射：等二據查找法來生成詞語/術語映射表。另外，雖然本示^ 的「系統繁體4簡體詞語/術語映射表“、繁體簡體詞語/術語映射表^ 戶繁體同的㈣L ’但它們也可以採用不中的「系統繁體—簡體詞語/術語，射表」#「用戶繁體〜簡體詞語/術語映射 =圖2描述的示例中的「系統簡體—繁體詞語/術語映可用戶簡體—繁體詞語/術語映射表」的結構也例如系統繁體—簡體詞語/術語映射表」和「用戶繁體-簡體詞語/術語映射表」其中之一可以採用如表】所不的、:構和直觀映射的方法，而另-個可以採用如下的繁體—簡體詞語/術語映射轉換過程，其中把每一個繁體詞 326^®θ^·(^ίΦ)\95-12\95132203 46 200811673 語/術語當作一個字符串：體漢字子字符串 1)輸入繁體漢字字符串$繁

Si=clc2c3··· cn 2)用繁體漢字子字符串Si同映射表中體漢字詞語/術語」項進行比較，如果繁體漢字二：取1:刖綴部分（齡，，…）存在該映射表中，則 =該記錄的「簡體漢字詞語/術語」項中内容，做為上 (:“)子字符串的轉換結果(繁體SC 2)。進仃輪出。轉到3)。如果不存在，則結束該處理 3) S=S-clc2…cs 4) 轉到上述的2) 如上所述’目4中的繁體―簡體詞語/術語轉換部分偏利用用戶繁體—簡體詞語/術語映射表彻和系統繁體— 簡體詞語/術語映射表410完成對於第一類詞語/術达映射轉換’即把繁體漢字編碼的_繁體字轉換為咖編碼的簡體字。其中用戶繁體1體詞語/術語映射表4〇9 是對於用戶開放的’並且在執行轉換時在搜索順序上該用戶繁體—簡體詞語/術語映射表4 〇 9優先該系統繁體—簡體詞語/術語映射表410。曰下面來說明在圖4所示的將繁體漢字轉換成簡體漢字的轉換系統的實施例中對於第二類詞語/術語’即該繁體漢字的詞語/術語在標記形式上與簡體漢字的詞語/術語不同且不具有確定對應關係的繁體漢字的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 47 200811673 換。本發明的特徵在於通過統計分類的轉換方法來實現了這種轉換’從而實現繁體漢字字符到簡體漢字字符的一對多映射的準確轉換的問題。，作巾’這種對於繁體漢字的騎/術語在標記形式上與簡體漢字的詞語/術語不同且不具有碟定對應關係的繁體漢字的詞語/術語的轉換主要是由GBK繁體編碼— GBK 簡體編碼轉換部分408完成。在把上述的繁體漢字的詞語/術語字符串輸入到GBK繁體編碼— GBK簡體編碼轉換部分4〇8之前，先由BIG5繁體編碼—GBK繁體編碼轉換部分4〇7利用MG5—GM編碼轉換表411將其從BIG5繁體漢字轉換成GBK繁體漢字。如圖所示，統計數據412、繁體—簡體一對多字映射表 413、異體字映射表414、繁體—簡體一對多詞映射表 415、繁體—簡體_GBK漢字映射表416和與該GBK繁體編碼—GBK簡體編碼轉換部分408連接。 Φ 其中：繁體—簡體一對多字映射表413可以具有如下面表3的不例結構： 326\專利說明書(補件)\95-12\95132203 48 200811673 表3

行號繁簡1 簡2 簡3 1 乾乾干 2 瞭瞭了 3 藉藉借 4 徵徵征 5 於於于 6 餘余馀 7 著著着 • · · • · · • · · • · · • · · ^ m ^ is 表3中示出7條記錄，每一條記丁何組風 ,第六條記錄的第一個字符是繁體字「餘」。由於繁體字斤餘」一不在簡體字中出現，所以第二個字符位置沒有字 ^斜第/Γ帛四個字純置分狀與繁體字「餘相對應的兩個可能的簡體字的選擇「余」和餘. 繁體—簡體—對多詞映射表415可以具有按昭'二示例規則形成的結構：文…、如下的號二』=二對應。 + °亥繁體漢予有多個簡體漢字

2·『$』號：表示對應的丨個簡體漢後面的漢字為對應的1個TC簡體漢字 326\專利說明書(補件)\95-12\95132203 4Q 字的信息。『$』° F $』號記錄下號面 200811673 的圮錄為包含『$』號後面的簡體漢字的詞的信息。該記錄可以有多個。 “ 3·『$』號數據記錄組會有多個。 . 4.『@』號：表示一組「一對多詞表數據」的結束。例·繁體漢字「乾」的—對多詞表數據組始 #乾 $干乾杯 $乾乾坤乾造乾宅繁體漢字「乾」的「一對多詞表數據繁體漢字「乾」對應簡體漢字「干上述對應時的詞表繁體漢字「乾」對應簡體漢字「乾上述對應時的詞表 j 的開 @ 繁體漢字「乾」的「一對多詞表數據」的結束由於在$體’莫字中存在有許多異體字，因此在圖4的將成簡體漢字的轉換系統中把-個異體字映 ===碼，簡體編碼轉換部分偏相連，用於在把％、體漢子向簡體漢應的簡體漢字。、、化把異體字映射為對一個示例性的異體字映射表如卜所示：庵$庵闇$暗 326\專利說明書(補件)\95·12\95132203 50 200811673 晻$暗簟$鞍鼇$鰲皐羽$翻霸$霸栢$柏捭$稗坂$阪異體字映射表的結構由「漢字1 (代碼）」+「$」+ 「漢字2(SC代碼）」來構成。「漢字1 (SC代碼）」是「漢字2 ( SC代碼）」的異體字。在把繁體漢字轉換為簡體漢字時，利用該表把漢字（SC代碼）的異體字映射轉換為標準的SC簡體漢字。如果一個繁體字/詞能夠通過查表映射的方法直接獲得 ⑩確定的簡體漢字的轉換結果，則將能又快又準確地實現繁體漢字到簡體漢字的轉換。但是如前所述，由於從繁體漢子轉換到簡體漢字的一對多的問題，在既有技術的轉換方案中都存在轉換不準確的缺陷。本發明利用統計分析技術一原始貝氏分類器來實現從繁體漢字到簡體漢字的一對夕映射的準確轉換。應該說明，其它能夠實現空間向量的統計分類的方法也可以採用，在此是以原始貝氏分類器進行本發明構思的說明，而不是對本發明的限制。關於貝氏統計分類的原理和原始貝氏分類器的内容可 326X專利說明書(補件)\95-12\95132203 200811673 公式參考上面對於圖2的相公式3、公式4。 Μ刀和公式1 在使用公式3和公式4的及私體漢字到簡體漢字的轉換處^士貝氏分類器算法解決從繁要使用兩個語料庫：繁體漢字對多的問題時’也需應的簡體漢字語料w〇rpussc〜0r卿-%和與之對 :本發明的計算機的預定儲存以：,=二實中可以採取兩種方式·· r隹，、體的貫施第一種方式是把繁體漢字語料庫c〇應的簡體漢字語料廑Γ - 和/、之對 412。假設繁體1莫字語才^S C作為圖4中的統計數據漢字座Γ 、 / 〇rpUS-TC和與之對應的簡體庫CQrpUS_S(：已經達到—定的完鮮度，在進行 2對多的繁體漢字到簡體財字符的轉換時，編碼—GM簡體編碼轉換部分彻將調用貝氏分類統^ 處理控制程序操作統計數據412中的繁體漢字語料庫 C〇rPUS-TC和與之對應的簡體漢字語料庫Corpus一SC，按照前面參照圖2解釋而得到的公式3,獲得正確的轉換結果由此可見’在該第一種方式中的該圖4的統計數據 412應該廣義地理解為是繁體漢字語料庫c〇rpuS-Tc和盥之對應的簡體漢字語料庫corpus_sc，真正的統計數據是在GBK繁體編碼— GBK簡體編碼轉換部分4〇8調用貝民分類統計處理控制程序操作這兩個語料庫之後獲得數據。可以理解到，繁體漢字語料庫Corpus一TC和與之對應的簡體漢字語料庫Corpus一SC的完善程度直接影響GBK繁體編碼 326\專利說明書(補件)\95-12\95132203 52 200811673 — GBK簡體編碼轉換部分408調用貝氏分類統計處理控制程序進行操作的結果的精確度。弟二種方式是，不直接將繁體漢字語料庫corpus—亿和與之對應的簡體漢字語料庫corpus—sc放置在圖4的統計數，412中’而是針對全部所述第二類的繁體漢字到簡體漢字轉換，即—對多的轉換而預先對於繁體漢字語料庫 C〇rPUS—TC和與之對應的簡體漢字語料庫Corpus SC執行統計操作，將統計計算的結果放置在圖4的統計數據412 中。GBK繁體編碼—GBK簡體編碼轉換部分4〇8針對一個輸入的第二類繁體漢字執行貝氏分類統計處理轉換時，只需調用㈣計算好的結果即可。這將進—步降低系統的資源佔用，提高轉換速度。本發明允許用戶在規定的條件下不斷充實和完善盆自身使用的繁體漢字語料庫cQrpus—Tc和與之對應的簡體漢^吾料庫C〇rpus_sc，使之更適合自身使用的需要。貫際上，上述第-種方式和第二種方式是基於相同的每明構思的兩種具體的實施方式，在使用結果上並無實㈣另•卜 … 通過幾個簡單的例子來理解從繁體漢字到簡體漢字的轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1JBIG5漢字「乾」，漢字「干」（乾杯）弟-步：BIG5繁體編碼wGBK繁體編碼轉換部分4〇7用 BIG5—GBK編瑪轉換表411把繁體漢字「乾」從腸編碼轉換為GBK編碼。（内碼：β〇ΑΕ^ ) 326\專利說明書(補件)\95-12\95132203 53 200811673 第二步：GBK繁體編碼sGBK簡體編碼轉換部分4〇8查找繁體—簡體一對多字映射表413，「乾」是一對多繁體字。使用原始貝氏分類方法，得到在詞語「乾杯」中，「乾對應簡體字「干」。（内碼：B8C9 ) 2) BIG5 乾->GBK 乾（乾坤）第一步· BIG5繁體編碼繁體編碼轉換部分用 BIG5-GBK編碼轉換表4Π把繁體漢字「乾」從MG5編碼轉換為GBK編碼。（内碼：boae— C7AC ) 第二步：GBK繁體編碼sGBK簡體編碼轉換部分4〇8查找繁體—簡體一對多字映射表413，「乾」是一對多繁體字。使用原始貝氏分類方法，得到在詞語「乾坤」中，「乾對應簡體字「乾」。（内碼：C7AC— C7AC ) 一 3) BIG5乾-GBK干（衣服干了）第一步：BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「乾」從big5編 ⑩碼轉換為GBK編碼。（内碼：B〇AE— C7AC ) 第一步· GBK繁體編碼—GBK簡體編碼轉換部分4〇8杳 =繁體〜簡體一對多字映射表413，「乾」是一對多繁‘ =。「服」和「了」在「乾」字左右的情況在語料庫中都 /又有、、先计到，此時無法使用原始貝氏分類方法。 /將「乾」與前面的字「服」組成二元詞語「服乾」，與後予了」組成二元詞語「乾了」，查找繁體-簡體夕=映射表415 ’「服乾」和「乾了」均不在在詞表中此日守，本發明的轉換系統把「乾」轉換為預設簡體字 32卿說明書(補件)奶伽_ 54 200811673 「乾」。（内碼：C7AC—B8C9) 4) BIG5 苴-->gBK 豆第一步：BIG5繁體編碼—GBK繁體編碼轉換部分407用 BIG5—GBK編碼轉換表411把繁體漢字「莖」從bIG5編碼轉換為GBK編碼。（内碼：D75E—C757 ) 第二步：GBK繁體編碼—GBK簡體編碼轉換部分408查找繁體—簡體一對多字映射表413,「莖」不是一對多繁體子。查找異體字映射表414，「莖」是異體字，對應簡體字「豆」。（内碼：C757—B6B9 ) 5) BIG5 國— GBK 国第一步：BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「國」從BIG5編碼轉換為GBK編碼。（B〇EA~> 87F8 ) 第二步：GBK繁體編碼— GBK簡體編碼轉換部分4〇8查找繁體—簡體-對多？映射表413,「國」不是—對多繁體字。查找異體字映射表414,「國」不是異體字❶=找繁體-簡體—GBK漢字映射表416,「國」對應簡「；。 (内碼：87F8—B9FA) 于 u」。 GBK繁體編碼— GBK簡體編碼轉換部分4〇8 :字與來自繁體-簡體詞語/術語轉換部分4〇6體嘍字相結合後由輸出部分4〇3作為轉換的結果輪出下面翏考圖5來說明圖4所示的將繁體轆漢字的轉換系統的操作過程。轉換成間體參見圖5的流程圖’首先輸人將要被轉換的繁體漢字的 326\專利說明書(補件)\95·12\95132203 55 200811673 字符串（步驟S510)。隨後’詞語/術語劃分部分404根據預定的劃分規則對於輸入的繁體漢字字符串進行劃分而「抽取」出組成該字符串的全部繁體詞語/術語（步驟S520 )，並將這些詞語/ 術語提供到鑑別-定義部分405。在接收到每一個繁體詞語/術語之後，鑑別-定義部分 405則將對其進行鑑別和定義，判斷其是否屬於第一類繁. 着體詞語/術語，即在標記形式上與簡體漢字的詞語/術語相同或雖然不同但具有確定對應關係的繁體詞語/術語（步驟S530 ) ’如果為「是」，則將該繁體詞語/術語輸入到轉換部分401的繁體—簡體詞語/術語轉換部分406，由繁體—簡體詞語/術語轉換部分406利用該用戶繁體—簡體同语/術語映射表4〇9和系統繁體—簡體詞語/術語映射表410把該第一類繁體漢字字符轉換成對應簡體漢字字符（步驟S540 )。 ⑩如果步驟S530的定義結果為「否」，則定義該繁體詞語 /術^為第二類詞語/術語，即在標記形式上與簡體漢字的 ^詞語/術語不同且不具有確定對應關係的繁體漢字的詞語 -/術語，並將其提供到轉換部分401的BIG5繁體編碼—GBK "繁體編碼轉換部分407，利用BIG5—GBK編碼轉換表411 把BIG5繁體漢字轉換成GBK繁體漢字然後送到繁體編碼— GBK簡體編碼轉換部分4〇8。通過利用統計數據 412、繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體服 326\專利說明書(補件)\95-12\95132203 56 200811673 二416，GBK繁體編^GBK簡體編碼轉換部分 /丫:棘Γ、δ+分類與映射組合的方法把該繁體漢字的詞語二二轉換為合理對應的簡體漢字的詞語/術語（步驟 b 5 ϋ ) 〇 =驟S540和步驟S550獲得的簡體漢字詞語/術語相二 ^與輪人的繁體漢字字符串對應的簡體漢字字亚輸出部分403將其輸出（步驟S56〇)。字^符^3^述圖4的本發明的—個實施例的將繁體漢、表專換為簡體漢字字符串的系統來實踐圖5所示的字的i對^將繁體漢字轉換成簡體漢字的轉換中出現現-饼一扯映射問題。具體地說’本發明的把能夠實映射的繁體漢字的以和不能貫現一對一理，舒士 P一對多映射漢字分開處法實二統計特徵的技術來用原始貝氏分類方 =子]間體漢子的-對多映射處理的精確度大大提 =虞本發明的上述實施例’通過在實現漢子的相互轉換時把其中具有才繁體結合了映射變換的統計分類處理，:、:需:構=: 射表的條件下即可實現高準確度 326\專利說明書(補件)\95-12\95132203 龍術_分_度。㈣允許用戶對於 β °。何浯映射表和統計數據進行修改和變更，使得太、明的系統更能夠實現以人為本的個性化，更能適= 57 200811673 點和滿足專業需要。 2強調’以上根據本發明實施例對本發明進行 …、'思將本發明拘束或限制在公開的具體形式中。顧田迷 •的是，在公開的實施例的具體描述的基礎上，^ ^易見術人員可在本發明精神實質的範圍内對於本發明進^亍1技種修改。例如··對於本發明的上述系統的各個部分：進行重新分配或將不同部分的功能進行順序的交換、拆

⑩解、合併。例如通過計算機硬體和軟體的單獨操作或它尸的結合操作來實現本發明的設計思想的局部或全部、二們修改映射表的結構或其中的内容來實現特定的需要、電路的集成度的不同而選擇不同的電路組成形式等等。X 這些修改和變化均應被考慮為不脫離本發明所附申請專利範圍的本質和範圍。 ^ 【圖式簡單說明】圖1是根據本發明一個實施例的簡體漢字和繁體漢字 _之間進行相互轉換的系統的示意框圖。圖2是根據本發明另一個實施例的一種將簡體漢字轉換成繁體漢字的轉換系統的示意圖，它可以認為是圖丨t 施例的轉換系統的一個子系統。 ' 圖3是圖2所示實施例的操作流程圖。圖4是根據本發明再一個實施例的一種將繁體漢字車專換成簡體漢字的轉換系統的示意圖，它可以認為是圖i實施例的轉換系統的一個子系統。圖5是圖4所示實施例的操作流程圖。 326\專利說明書(補件)\95·12\95132203 58 200811673 【主要元件符號說明】 100 系統 101 轉換處理器 102 輸入裝置 102ι 複印機 * 1 022 傳真機 1 023 照相機 1 024 外部儲存器 _ 1025網絡裝置 102〇輸入鍵盤 103 輸出裝置 103ι 印表機 1 032 傳真機 1 033 外部儲存器 1 034 網絡裝置 φ 103η 顯示裝置 104 内部儲存器 200 中文簡體到繁體轉換子系統 201 轉換部分 . 202 數據輸入部分 203 輸出部分 204 詞語/術語劃分部分 205 鑑別-定義部分 206 簡體—繁體詞語/術語轉換部分 59 326\專利說明書(補件)\95-12\95132203 200811673 207 GBK簡體編碼—GBK繁體編碼轉換部分 208 GBK編碼-> BIG 5編碼轉換部分 209 用戶簡體—繁體詞語/術語映射表 210 糸統簡體-^繁體同語/術語映射表 211 簡體繁體一對多字映射表 ' 212 統計數據 213 簡體—繁體一GBK漢字映·射表 214 簡體-> 繁體一對多詞映射表 • 215 BIG5 — GBK編碼轉換表 400 中文繁體到簡體轉換子系統 401 轉換部分 402 數據輸入部分 403 輸出部分 404 詞語/術語劃分部分 405 鑑別-定義部分 • 406 繁體—簡體詞語/術語轉換部分 407 BIG5繁體編碼— GBK繁體編碼轉換部分 ^ 408 GBK繁體編碼— GBK簡體編碼轉換部分 409 #*· 用戶繁體—簡體詞語/術語映射表、 410 系統繁體—簡體詞語/術語映射表 411 BIG5-> GBK編碼轉換表 412 統計數據 413 繁體—簡體一對多字映射表 414 異體字映射表 326\專利說明書(補件)\95-12\95132203 60 200811673 415 繁體—簡體一對多詞映射表 416 繁體—簡體_GBK漢字映射表

326\專利說明書(補件)\95-12\95132203 61

Claims

200811673 十、申請專利範圍： 1. 一種在簡體漢字和繁統，該系統包括：^莫子之間進订相互轉換的系 ==部分’輸入將要被轉換的簡體/ 詞浯/術語劃分部公，脸认卞于订爭，分成若干個詞語/術語；輸入的簡體/繁體漢字字符串劃鑑別-定義部分，梦〜符串中的每-個詞語：:，:二购簡體漢字的詞語/術 :中在I己形式上與繁體/ 係咖繁體漢字二雖二不Λ但具有她語，並將其中在標記形式;;類詞語/術不同且不具有確定對庫…、—間體漢予的詞語/術語 m外士應關係的簡體/繁體漢字的詞浯疋義為第二類詞語/術語；于们Jm/術映射轉換部分，採用映射表將玆映射成與輸入的簡體/繁體漢詞:：：/術語直接繁體/簡體漢字的詞語/術語’· U術語唯一對應的統計轉換部分，採用統計分類方 :換成與輸入的簡體/繁體漢字的詞語吾繁體/簡體漢字的詞語/術語； t㈠理對應的組合輸出部分，把採用映射表接映射而得到的與輸入的簡體二—賴語/術語直 -對應的繁體/簡體漢字的詞語^:莫和·；的詞語/術語唯法對第二類詞語/術語㈣而得:=用統計分類方漢字的詞語/術語合理對應的繁體輪入^簡體/繁體胺/間體漢字的詞語/術語 326胃明書(補件)\95-12\95132203 62 200811673 進行組合，形成與將要被轉換的簡體/繁體漢字字符串對應的繁體/簡體漢字字符串，並將其輸出。 2·如申請專利範圍第丨項之系統，其中的詞語/術語包 . 括由單個漢字或多個漢字構成的詞語/術語。 . 3 ·如申请專利範圍第1項之系統，其中所使用的映射表包括用戶簡體/繁體漢字—繁體/簡體漢字詞語/術語映射表、系統簡體/繁體漢字—繁體/簡體漢字詞語/術語映射表、簡體/繁體漢字—繁體/簡體漢字映射表、簡體/繁體漢字—繁體/簡體漢字一對多映射表。 4·如申請專利範圍第1項之系統，其中採用的統計方法疋原始貝氏（Naive Bayes )統計方法。 5· —種在簡體漢字和繁體漢字之間進行相互轉換的方法，包括步驟：輸入將要被轉換的簡體/繁體漢字字符串；將輸入的簡體/繁體漢字字符串劃分成若干個詞語/術 _ $吾，鏗別-定義該輸入的簡體/繁體漢字字符串中的每一個 ^詞語/術語，將其中在標記形式上與繁體/簡體漢字的詞笋 -/術語相同或雖然不同但具有確定對應關係的簡體/繁體、漢字的詞語/術語定義為第一類詞語/術語，並將其中在秩，5己形式上與繁體/簡體漢字的詞語/術語不同且不具有確疋對應關係的簡體/繁體漢字的詞語/術語定義為第一類詞語/術語； ' 採用映射表將該第一類詞語/術語直接映射成與輸入的 %6\專利說明書(補件^542^5132203 63 200811673 簡體/繁體漢字的詞語/術語唯一詞語/術語；對應的繁體/簡體漢字的採用統計分類方法將第二類詞語/術語轉換成盘輸入的簡體/繁體漢字的詞語/術語合理對應的體詞語/術語；门版展子的 ^採用映射表對該第—類詞語/術語直接映射而得到的體==繁體漢字的詞語/術語唯一對應的繁體，簡體漢予的同語/術語和採用統計分類方法對第二類詞” 術語轉換而得到的與輸入的簡體/繁體漢字的詞語/術語合理對應的繁體/簡體漢字的詞語/術語進行組合，形成與轉換的簡體/繁體漢字字符串對應的繁體/簡體漢、字字符串，並將其輸出。申請專利範圍第5項之方法’其中的詞語/術語包括由單個漢字或多個漢字構成的詞語/術語。 7.如申請專利範圍第5項之方法，其中所使用的映射表 _包括用戶詞語/術語映射表、系統詞語/術語映射表、簡體 /繁體漢字—繁體/簡體漢字映射表、簡體/繁體體/簡體漢字一對多映射表。、彳、 '、 8·如申請專利範圍第5項之方法，其中採用的統計方法是原始貝氏統計方法。 9. 一種將簡體漢字轉換成繁體漢字的轉換系統，該系包括： ^ / 一輸入部分，輸入將要被轉換的簡體漢字字符串；詞語/術語劃分部分，將輸入的簡體漢字字符串劃分成 326\專利說明書(補件)\95-12\95132203 64 200811673 若干個詞語/術語；鑑別-定義部分，鑑別-定義該輸入的簡體漢字字符串中的每一個詞語/術語，將其中在標記形式上與繁體漢字的詞語/術語相同或雖然不同但具有確定對應關係的簡體漢字的詞語/術語定義為第一類詞語/術語，並將其中在標記 " 形式上與繁體漢字的詞語/術語不同且不具有確定對應關係的簡體漢字的詞語/術語定義為第二類詞語/術語；映射轉換部分，採用映射表將該第一類詞語/術語直接 •映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢字的詞語/術語；統計轉換部分，採用統計分類方法將第二類詞語/術語轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢字的詞語/術語，組合輸出部分，把採用映射表對該第一類詞語/術語直接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 •的繁體漢字的詞語/術語和採用統計分類方法對第二類詞語/術語轉換而得到的與輸入的簡體漢字的詞語/術語合 . 理對應的繁體漢字的詞語/術語進行組合，形成與將要被轉換的簡體漢字字符串對應的繁體漢字字符串，並將其輸、出。 1 (Κ如申請專利範圍第9項之系統，其中的詞語/術語包括由單個漢字或多個漢字構成的詞語/術語。 11.如申請專利範圍第9項之系統，其中所使用的映射表包括用戶簡體—繁體詞語/術語映射表、系統簡體—繁 326\專利說明書(補件)\95·12\95132203 65 200811673 ==:表表•繁體_射表、簡體其中採用的統計方的轉換方法，包括 12·如申請專利範圍第9項之系統法疋原始貝氏統計方法。 13. —種將簡體漢字轉換成繁體漢字步驟：輸入將要被轉換的簡體漢字字符串；將輸入的簡體漢字字符串劃分成若干個詞語/術語；鑑別-定義該輸人的簡體漢字字符串中的每—個詞注/ 術語，將其中在標記形式上與繁體漢字的詞語/術語相同或雖然不同但具有確定對應關係的簡體漢字的詞語/術扭 == 第：類詞語/術語，並將其中在標記形式上與繁體 “ /術5吾不同且不具有確定對應關係的簡體漢字的詞語/術語定義為第二類詞語/術語；、 ”採用映射表將該第-類詞語/術語直接映射成與輸入的春間體漢字的詞語/術語唯一對應的繁體漢字的詞語/術語；」木用統汁分類方法將第二類詞語/術語轉換成與輸入的 <簡體漢字的詞語/術語合理對應的繁體漢字的詞語/術語; > 把採用映射表對該第一類詞語/術語直接映射而得到的 '與輸入的簡體漢字的詞語/術語唯一對應的繁體漢字的詞 ' 術語和採用統計分類方法對第二類詞語/術語轉換而知到的與輸入的簡體漢字的詞語/術語合理對應的繁體漢子的祠語/術語進行組合，形成與將要被轉換的簡體漢字字符串對應的繁體漢字字符串，並將其輸出。 326\專利說明書(補件)\95-12\95132203 66 200811673 l .如。申請專利範園第13j員之方法，其令的詞語包括由單個漢字4多個漢字構成的詞語/術語。UT °° 15·如申請專利範圍第13項之方法，其中表包括用戶簡體〜繁體五五、、射體‘吾/術語映射表、簡體S J 體漢字-對多映射表。、16·如申請專利範圍第13項之方法，其中法是原始貝氏統計方法。、、’汁方 17.種將’體漢字轉換成簡體:叢念&絲4么/ 統包括：㈣成間體漢子的轉換系統，該系輸入部分’輸入將要被轉換的繁體漢字字符串· “詞語/術語劃分部分，將輸人的繁體漢字字符’ 若干個詞語/術語；、串里J刀成鑑別-定義部分，鑑別_定義該 ”一〜個詞語/術語，將其中在標記形式上與;=字的吾/術語相同或雖然不同一 ^ 字的詞扭/街任定羞Β ，、有確疋對應關係的繁體漢子的吾疋義為第一類詞語/術注，形式上與簡體漢字的詞語/術語不同且;確、中=己 =體漢字的詞語/術語定義為第二映射轉換部分，採用映射表將該第一類詞^ 映射成與輸人的繁體漢字的詞語’‘二= 字的詞語/術語；對應的間體漢統計轉換部分，採用統計分類方轉換成與輸入的繁體漢字的詞一 ”員祠語/術語 °/術语合理對應的簡體漢 326\專利說明書(補件)\95·ΐ2\95132203 „ 200811673 字的詞語/術語；組合輸出部分’把採用映射表對該第—類詞接映射而得到的與輸人的繁體漢字的詞語=庫的簡體漢字的朗/躲和㈣統計分類方料語/術語轉換而得到的與輸入的繁二= 理對應的簡體漢字的詞語/術語進行电：，合 ^換的％、體4子子付串對應的簡體漢字字符串，並將其輸

紅如中睛專利範圍第17項之系統，其中所使用的映射表，括用戶繁體—簡體詞語/術語映射表、系統繁體體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡體漢字-對多映射表和異體字映射表。

、20.如申請專利範圍帛j”員之系統，其中採用的統計方法疋原始貝氏統計方法。 21. -種將繁體漢字轉換成簡體漢字的轉換方法，包括步驟：輸入將要被轉換的繁體漢字字符串；將輸入的繁體漢字字符串劃分成若干個詞語/術語；鑑別—定義該輸入的繁體漢字字符串中的每一個詞語/ 術語’將其中在標記形式上與簡體漢字的詞語/術語相同或雖然不同但具有確定對應關係的繁冑漢字的詞語/術語定義為第一類詞語/術語，並將其中在標記形式上與簡體 326\專利說明書(補件)\95-12\95132203 68 200811673 漢子的詞語/彳丨「1 的詞語/術L:1::同且不具有確定對應關係的繁體漢字採用映:表二繁體漢字的詞^二類柯語/術語直接映射成與輸入的接me i 唯一對應的簡體漢字的詞語/術語；分類方法將第二類詞語/術語轉換成與輸入的 /術語合理對應的簡體漢字的詞語/術語；與幹入的够射表對该第一類詞語/術語直接映射而得到的 ^卜五、Λ體漢字的詞語/術語唯—對應的簡體漢字的詞 :^和採用統計分類方法對第二類詞語/術語轉換而 ^ 66 輸人的繁體漢字的詞語/術語合理對應的簡體漢語/術語進行組合，形成與將要被轉換的繁體漢字子付串對應的簡體漢字字符串，並將其輸出。 22. 如：請專利範圍第以項之方法，其中的詞語，術語匕括由早個漢字或多個漢字構成的詞語/術語。 23. 如申請專利範圍第21項之方法，其中所使用的映射 ^括用戶繁體簡體詞語/術語映射表、系統繁體—簡體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡體漢字一對多映射表和異體字映射表。 24·如申凊專利範圍第21項之方法，其中採用的統計方法是原始貝氏統計方法。 326\專利說明書(補件)\95-12\95132203