TW200811673A - Method for conversion between simplified and traditional Chinese characters and system thereof - Google Patents

Method for conversion between simplified and traditional Chinese characters and system thereof Download PDF

Info

Publication number
TW200811673A
TW200811673A TW095132203A TW95132203A TW200811673A TW 200811673 A TW200811673 A TW 200811673A TW 095132203 A TW095132203 A TW 095132203A TW 95132203 A TW95132203 A TW 95132203A TW 200811673 A TW200811673 A TW 200811673A
Authority
TW
Taiwan
Prior art keywords
simplified
traditional
words
terms
word
Prior art date
Application number
TW095132203A
Other languages
English (en)
Other versions
TWI328174B (zh
Inventor
Shau-Ming Liou
Dung-Lei Chian
Chuen-Fa Yuan
De-Fang Tsau
Jing Lin
Yau Weng
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of TW200811673A publication Critical patent/TW200811673A/zh
Application granted granted Critical
Publication of TWI328174B publication Critical patent/TWI328174B/zh

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Machine Translation (AREA)

Description

200811673 九、發明說明: 【發明所屬之技術領域】 本發明涉及一種中文字符的轉換方法及其系統,尤其涉 ,及一種簡體漢字和繁體漢字相互轉換方法及其系統。更具 、體地兒,本發明涉及一種採用數據表映射技術與數據統計 處理技術相結合來實現簡體漢字和繁體漢字相互轉換的 方法及其系統。 ⑩【先前技術】 由於中國政府實行的漢字簡化工作,在實現原有的漢字 j下稱繁體漢字)簡化而使得漢字的推廣和教育/教學獲 T進二的同蚪,也造成了漢字存在簡體和繁體兩種書寫形 2客觀現只。例如在中國大陸和新加坡,雖然也偶見使用 ,字的場合,但是在絕大多數情況下都是使用簡體漢 J,:在台灣、香港和澳門地區受教育和長大的華人,則 麄幾t不能完全認識被簡化的漢字而完全使用著原有 的S體字。 人了讓上述簡體漢字使用區和繁體漢字使用區的 寫的王相互懂對方所書寫的漢語,則需要對於書 使用的簡體字和繁體字不—樣的財進行正 萑:轉換。這種不一樣包括以下兩個方面。 兄的子對多子(以下簡稱「一對多」)的胡曰苞。 的:发」可以對應於繁體漢字的「髮」和 、擇,因此在不同的詞彙中應該使用不同的繁 326___#_細細 5 200811673 头发」應該轉換 」應該轉換為繁 體漢字「髮」和「發」,例如簡體漢字「 為繁體漢字「頭髮」,而簡體漢字「发展 體漢字「發展」。. *〶二方面是在從簡體到繁體(或從繁體到簡體)的轉換 ★過程:出現的同:個字/詞彼此叫法不同的問題。例:簡 體漢子中的「计异机软件」應該轉換為繁體漢字中的「帝 腦軟體」,簡體漢字中的「星期」應該轉換 电 的「禮拜」。 、卞τ φ在既有技術中已經存在對於簡體漢字和繁體漢字進行 轉換的技術。例如在中國專利公開CN1369833和 CM462966中都公開了簡體漢字和繁體漢字相互轉換的技 術。這些專利文件全文結合在此作為參考。 在通常的情況下,簡體和繁體漢字的相互轉換是在· 編碼的簡體字和BIG5編碼的繁體字之間的相互轉換。總 結上述的既有技術中實施的簡、繁體漢字的相互轉換方二 _包括以下三種情況。 、木 1.通過内碼轉換完成基於内碼映射表的字到字的轉 換。字到字是指以字為單位進行轉換,而基於内碼映射表 是指,過查找繁體―簡冑(簡體i體)漢字映射表將繁 體(簡體)漢字轉換與之對應的簡體(繁體)漢字。、 ,如,將BIG5編碼的繁體漢字「國」轉換為GBK編碼 的簡體漢字「国」,處理過程是通過查找繁體—簡體漢字 映射表把該漢字的内碼B0EA轉換為B9FA ;反之在簡繁 轉換中,則是通過查找簡體—繁體漢字映射表把該漢字的 326\專利說明書(補件)\95-12\95132203 6 200811673 内碼B9FA轉換為B0EA。 内碼轉換的優點在於:⑴實現簡單,只需要有繁體— 簡體(簡體―繁體)漢字映射表即可,·⑴轉換效率高, ’ /、品内碼轉換一步處理。 内碼轉換的缺點在於轉換準確率低。由於映射表將每個 繁體(〶體)體漢字對應到唯—的簡體(繁體)體漢字形, 所以這種轉換只能正碟地處理一字對一字(以下簡稱「一 春對—」)映射的情況。而對於一對多映射的字,除了收入 ^映射表中的轉換字外,其他可能的轉換字被忽略了,這 就不能保證轉換的準確性。例如,在正確的轉換下,簡體 的今发」對應到繁體的「頭髮」;但按照採用内碼的簡 體—繁體漢字映射表進行簡體到繁體的轉換時,由於簡體 字「发」全部被轉換為繁體字「發」,「头发」被錯誤地轉 換為「頭發」。因此就造成了轉換準確率低的問題。才 2.通過词級轉換完成基於詞級映射表的詞到詞的轉 換。詞到詞是指以詞為單位進行轉換,基於詞級映射表^ 指通過查找簡體—繁體(繁體—簡體)詞級映射表完^ = 換。這個映射表的表項應該包括所有的漢語詞語,其中不 僅包括雙漢字組成的詞語,也包括單漢字的詞語和三個 字以上的詞語。 /、 轉換過程中,首先將需要被轉換的漢字串分成若干詞, 然後通過查找簡體—繁體(繁體—簡體)詞級映射表以詞 為單位完成轉換。例如,對簡體字符串「梳头发」進行轉 換,首先將其分為單字詞語「梳」和雙字詞語「頭髮, 326\專利說明書(補件)\95-12\95132203 7 200811673
然後在簡體—繁體騎映射表中分別查找這兩個詞注,八 別:換為繁體詞語「梳」和「頭髮」,得到轉換結果。「J 頭髮」。繁體—簡體轉換的過程與之類似。 、詞輯換的優點在於··⑴可以較準確處理—對多 漢子的轉換’(2 )只需-張映射表即可同時處理簡體〜繁 體轉換和繁體—簡體轉換;⑺㈣㈣較胃二 轉換一步處理。 •古詞級轉換的缺點在於:⑴對於系統分詞性能的要求復 2 ’ -旦分詞發生錯誤’就很容易造成最終轉換結果的錯 誤。(2)簡體—繁體和繁體—簡體的詞級映射表的構造^ 較困難。中文中的詞語以數十萬計,要完成這樣規模的詞 ,開銷很大。並且由於詞#是—個開放集,每天都有新的 2產生,ϋ且不此保證所有的人名、地名以及機構名都包 έ在周表中(3)對於某些簡體—繁體和繁體—簡體的— 對多映射的字仍然不能保證轉換的準確性。比如存在一對 籲多映射的姓氏等。 3.通過術語轉換完成基於術語映射表的術語到術語的 轉換° ^此提到的「術語」是對於「詞」的廣義的解釋, 本二上還疋以詞為單位進行轉換,但是有時在簡體和繁體 漢子體系中的相互對應的術語在發音和形體上可以沒有 同一性,即,可以不存在按字對應的關係。舉例來說,簡 ,漢字中的術語「计算机」對應繁體漢字中的「電腦」、 ^體漢字中的「星期」應該轉換為繁體漢字中的「禮拜」 等等。雖然所指的術語概念上完全相同,但也可以基於詞 326\專利說明書(補件)\95·12\95132203 8 200811673 語映射表通過查找簡體—繁體(繁體-簡體)詞語映射表 來完成轉換。 術語轉換過程與詞級轉換類似,且簡體—繁體術語映射 表和簡體—繁體詞級映射表在形式上很相似。區別僅在於 4 詞級映射中的簡體和繁體詞語是按字對應的,簡體漢字的 詞語中的每個字對應到繁體詞語中相應位置上的字;而術 語映射中的簡體和繁體詞語是在語義的層次上對應的,詞 馨語間不一定存在按字對應的關係。 術語轉換的優點在於:(1)可以在語義一級處理漢字簡 體和繁體的相互轉換;(2)只需一張映射表即可同時處理 簡體—繁體轉換和繁體簡體轉換。 術語轉換的缺點在於:(丨)對於系統「分詞」(對於句 子中的「詞」的劃定)能力的要求很高,一旦分詞發生錯 疾,就很容易造成最終轉換結果的錯誤。(2 )簡體—繁體 術語映射表的構造比較困難。首先簡體—繁體術語映射表 _必須像繁體—簡體術語映射表一樣包含所有的中文詞 語;另外,這個表需要對中文和外文專有名詞進行處理, 否則也會引起轉換錯誤。專有名詞包括姓名、地名以及機 構名等。 >因此’在上所述簡體和繁體相互轉換中,除了特殊的術 f外’基本問題就是如何解決轉換中字的-對多的映射間 =°雖__題能夠以詞的形式在—^程度上得到解 將:轉換來解決,但是其映射表的龐大和繁雜 、认解“方案的進一步完善报困難。而内碼轉換顯 326傳利說明書(補件)\95· ^ 2奶^ 9 200811673 問題,但是其轉換精確 然是迴避了龐大和繁雜的映射表的 度低下。 互轉換的方法和 下而不使得映射表 因而需要一種新的漢字繁體和簡體相 系統,在保證足夠的轉換精確度的條件 過大。 【發明内容】 本發明旨在以最簡單的映射表來解決漢字的簡體和繁 φ,相互轉換,並且保證;1夠的轉換精確度。特別旨在解決 間體和繁體相互轉換中的漢字的一(字/詞)對多(A 、 詞)的映射問題。 、夕子/ 〜根據本發明的卜實施例提供-種簡體漢字和繁體漢 字之間進行相互轉換的系統,該系統包括: 、 輸入部分,輸入將要被轉換的簡體/繁體漢字字符串 劃 、詞語/術語劃分部分,將輸入的簡體/繁體漢字字符串 分成若干個詞語/術語;
M別疋義部分,鑑別-定義該輸入的簡體/繁體漢字字 t的母—個詞語/術語’將其中在標記形式上與繁體/ =漢字的詞語/術語相同或雖然不同但具有確定對應關 ^的簡體/繁體漢字的詞語/術語定義為第一類詞語/術 m 3亚將其中在標記形式上與繁體/簡體漢字的詞語^标語 S真不具有確定對應關係的簡體/繁體漢字的詞語/術 170疋義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 映射成與輸入的簡體/繁體漢字的詞語/術語唯一對應的 326\胃$ 書(補件)\9M 2\95132203 10 200811673 繁體/簡體漢字的詞語/術語; 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輪入的簡體/繁體漢字的詞語/術語合理對應的 繁體/簡體漢字的詞語/術語; 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體/繁體漢字的詞語/術語唯 一對應的繁體/簡體漢字的詞語/術語和採用統計分類方 _法對第二類詞語/術語轉換而得到的與輪入的簡體/繁體 漢字的詞語/術語合理對應的繁體/簡體漢字的詞語/術語 進行組合,形成與將要被轉換的簡體/繁體漢字字符串對 應的繁體/簡體漢字字符串,並將其輸出。 在本發明的第一實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 體/在繁本^'的第一實施例中’其中所使用的映射表包括簡 體/%體漢子—繁體/簡體漢字用戶詞語/術語映射 鲁體/繁體漢字繁體/簡體漢字系統詞語/術語映射表; 體/繁體漢字—繁體/簡體漢字映射表、簡體/繁 三 繁體/簡體漢字一對多映射表。 、一 以非
在本發明的第一實施例中,其中採用的統計方法可 侷限地例如是原始貝氏(Naive Bayes)統計方法。 ^根據本發明的第二實施例提供一種簡體漢字和 子之間進行相互轉換的方法,包括步驟: 一 輸入將要被轉換的簡體/繁體漢字字符串; 將輸入的簡體/繁體漢字字符串劃分成料個詞語/術 326\專利說明書(補件)\95-12\95132203 11 200811673 語; Μι別〜疋義該輸入的簡 詞語/術語,將其中在===字料中的每一個 /術語相同或雖然不同4 : %體’間體漢字的詞語 漢字的詞語/術語定義二第有t對應關係的_體 我局罘一類词語/術語,並苴 記形式上與繁體/簡體漢 1、中在払 定對應關係的簡體/繁體漢字二=;;不同且不具有確 詞語/術語;^莫子的心/術語定義為第二類 簡體/繁體漢字的詞語/術 ㈣射成=輸入的 詞語/術語; 冑對應的繁體/簡體漢字的 fi 體二類/法將第二類詞語/術語轉換成與輸入的 子詞語/術語合理對應的繁體/簡趙漢字的 斑幹入的對5亥第一類巧語/術語直接映射而得到的 體/繁體漢字的詞語/術語唯—對應的繁體/簡 體漢子的词#/術語和採用統計分類方法對第二類詞語/ 術語轉換而得到的與輸人的簡體/繁體漢字的詞語/#/注 合理對應的繁體/簡體漢字的詞語/術語進行组合叩,形τ成口盥 將要被轉換的簡體/繁體漢字字符串對應的繁掌、 字字符串,並將其輸出。 Ί篮属 在本發明的第二實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 在本發明的第二實施例中,其中所使用的映射表包括用 ^_說_(補件)\95•咖51322()3 12 200811673 戶詞語/術語映射表、系統詞語/術語映射表、簡體/繁體 漢字—繁體/簡體漢字映射表、簡體/繁體漢字—繁體/簡 體漢字一對多映射表。 在本發明的第二實施例中,其中採用的統計方法可以非 侷限地例如是原始貝氏統計方法。 根據本發明的第三實施例提供一種將簡體漢字轉換成 繁體漢字的轉換系統,該系統包括: 輸入部分,輸入將要被轉換的簡體漢字字符串; 0 詞語/術語劃分部分’將輸入的簡體漢字字符串劃分成 若干個詞語/術語; 鑑別-定義部分,鑑別-定義該輸入的簡體漢字字符串中 的每一個詞語/術語,將其中在標記形式上與繁體漢字的 詞語/術語相同或雖然不同但具有確定對應關係的簡體漢 字的詞語/術語定義為第一類詞語/術語,並將其中在標記 形式上與繁體漢字的詞語/術語不同且不具有確定對應關 馨係的簡體漢字的詞語/術語定義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢 字的詞語/術語, 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢 字的詞語/術語; 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 326\專利說明書(補件)\95-12\95132203 13 200811673 的繁體漢字的詞語續語和採 語/術語轉以 几T刀六貝万次對弟—類岡 理對庠的^到的與輸入的簡體漢字的詞語/術語合 理對應的繁體漢字的詞語/m 轉換的簡體潷念〜# 士 办咸與將要被 出。 、予子付串對應的繁體漢字字符串,並將其輸 的第三實施例中,其中的詞語 们漢子以個財構成的m#/術語。 田早 在本發明的第三實施例中 戶簡體—繁體詞語/術語映射表、系 表包括用 術語映射表、簡體—繁啤 ,、’ fB _ I體岡#/ 對多映射表。 “漢子映射表、簡體―繁體漢字一 在本發明的第三實施例中,i 侷限地例如是原始貝氏統計的、‘十方法可以非 根據本發明的第四實 繁體漢字的轉換方法,、包括種將㈣漢字轉換成 輸入將要被轉換的簡體漢字字 將輸入的簡體漢字字符串劃八’ 鑑別-定義哕浐入的斤脑一刀右千個詞語/術語; 疋我4輸入的間體漢字字 — :㈣,將其中在標記形式上與繁體漢字的=詞語/ 或雖然不同但具有確定對應簡二:語相同 定義為第-類詞語/術語,並將= 莫子的巧語/術語 漢字的詞語/術語不同且 右成 不记形式上與繁體 的詞語/術語定義為第二類不詞=對應闕係的簡趙漢字 ㈣映射表將該第-類詞語/術語直接映射成與輸入的 3抓專利說明書(補件)\95-12\951322〇3 14 200811673 體漢子的巧語/術語唯一對應的繁體漢字的詞語/術注. 計分類方法將第二類詞語/術語轉換成與輸入^ 子的詞語/術語合理對應的繁體漢字的詞語/術語; ^採用=射表對該第一類詞語/術語直接映射而得到的 二間體漢字的詞語/術語唯一對應的繁體漢字的詞 用統計分類方法對第二類詞語/術語轉換而 —入的簡體漢字的詞語/術語合理對應的繁體漢 進行組合,形成與將要被轉換的簡體漢字 、子應的繁體漢字字符串,並將其輸出。 在本發明的第四實施例中,其中的詞語/術語 個漢字或多個漢字構成的詞語/術語。 早 戶四實施例中,其中所使用的映射表包括用 術-術語映射表、系統簡體-繁體詞語/ 何映射表、簡體一繁體漢字映 對多映射表。 間篮制漢字— 在本發明的第四實施例中,其中採用的統計方 侷限地例如是原始貝氏統計方法。 乂非 #辦:本^明的第五貫施例提供一種將繁體漢字轉換成 間體漢:的轉換系統,該系統包括: 于轉換成 輸入部分,輸入將要被轉換的繁體漢字字符串· 若部分’將輸入的繁㈣字字符串劃分成 ,別-定義部分’鐘別_ ^義該輸人的繁體由 的母-個詞語/術語,將其中在標記形式上與簡m中 326_ift__)\95.51322()3 15 200811673 詞語/術語相同或雖然不同作 字的詞語/術語定義為二:二了應闕係的繁趙漢 形式上與簡體漢字的詞語/術注?中在標5己 糸^肢漢子的詞語/術語定義為第二類詞語/術語,· ^轉換部分’採用映射表將該第―類詞語/術語直接 2成與輸入的繁體漢字的詞語/術語唯一對應的簡體漢 子的祠語/術語; ^十轉換部分,採用統計分類方法將第二類詞語/術語 、'與輸入的繁體漢字的詞語/術語合理對應的 子的詞語/術語; 、 組合輸出部分’把採用映射表對該第一類詞語/術語直 接=射而得到的與輸人的繁體漢字賴語/術語唯一對應 的簡體漢字的詞語/術語和採用料分類方法對第二類詞 語/術語轉換而得到的與輸入的繁體漢字的詞語/術語合 理對應的簡體漢字的詞語/術語進行組合,形成與將要被 轉換的繁體漢字字符_對應的簡體漢字字符_,並將其輸 在本發明的第五實施例中,其中的詞語/術語包括由單 個漢字或多個漢字構成的詞語/術語。 在本發明的第五實施例中,其中所使用的映射表包括繁 體—簡體用戶詞語/術語映射表、繁體—簡體系統詞語/ 術語映射表、繁體—簡體漢字映射表、繁體—簡體漢字一 對多映射表和異體字映射表。 在本發明的第五實施例中,其中採用的統計方法可以非 326\專利說明書(補件)\9542\95 B2203 16 200811673 侷限地例如是原始貝氏統計方法。 據士發明的第六實施例提供一種將繁體漢字轉換成 間肢漢子的轉換方法,包括步驟: 、 輸入將要被轉換的繁體漢字字符串; 將輸入的繁體漢字字符串劃分成若干個詞語/術語; 輸人的繁體漢字字符串中的每—個詞語/ 或^在#記形式上與簡體漢字的詞語/術語相同 定同但具有確定對應關係的繁體漢字的詞語/術語 =二:類詞語/術語,並將其中在標記形式上與簡體 2的不同且不具有確定對 的同語/術語定義為第二類詞語/術語; 體漢予 繁二:ΤΓ術語直接映射成與輪入的 刀類方法將第二類詞語/術語轉換成與輸入的 語/術語合理對應的簡體漢字的詞語/術語; 盘輸:㈣J表對該第一類詞語/術語直接映射而得到的 語/1-扭Λ漢字的詞語/術語唯一對應的簡體漢字的詞 得到二,用統計分類方法對第二類詞語/術語轉換而 字的詞二二的繁體漢字的詞語/術語合理對應的簡體漢 字符串二:㈣行組合’形成與將要被轉換的繁體漢字 對應的簡體漢字字符串,並將其輸出。 個明的第六實施例中,其中的詞語/術語包括由單 個/莫予或多個漢字構成的詞語/術語。 在本發明的第六實施例中,其中所使用的映射表包括用 32____•難聊 17 200811673 T繁體,詞語/術語映射表、 繁體—簡體漢字映射表、繁體一簡體二 對夕映射表和異體字映射表。 在本發明的第六實施例中,其中 偈限地例如是原始貝氏統計方法Λ用的^方法可以非 【實施方式】 這圖式對本發明進行詳細的說明。應該說明, 二θ…机程圖意在反映本發明實施例構思而無意 本發明限制到且濟报4 重與 ^ 的實施例的具體二在參照圖式理解了隨後 田处之後,本專業的技術人員可對於本發 明的上述系統的各個部分的功能進行重新分配或將不同 ^刀的功此進行順序的交換、拆解、合併、通過計算機硬 =和权體的早獨操作或結合操作來實現本發明的設計思 想的局部或全部’而這些修改都不麟本發明的本質和範 圍。 圖、1疋根據本發明一個實施例的簡體漢字和繁體漢字 之間進仃相互轉換的系統的示意框該 的總體構思和舆實際制場合相結合的情況。 Θ斤示根據本發明的簡體漢字和繁體漢字進行相互 轉換的系統100包括作為系統核心的轉換處理器101、輸 入裝置102和輸出裝置1〇3。 作為輸入裝置的例子,圖1中示出了複印機1 〇2ι、傳真 機1 022、知、相機1023、外部儲存器1 024、網絡裝置1〇25 以及輸入鍵盤1〇211等。實際上,只要最終能夠將文本格式 326\專利說明書(補件)\95·12\95132203 » 200811673 的中文簡體或繁體字符串輸入到轉換處理器l〇i的任 ,置都可以作為輸人裝置來使用。在同—個時刻,由這此 衣置的任思之-通過復用器(沒示出)對轉換處理 提供原始信號。 °° 101 ,應該理解到’例如複印機102l的某些輸入裝置在 (例如光學掃描)之後產生的信號並非為字符文本传號。 此時應該通過必要的處理(例如OCR辨識處理)將非字°符 籲文本信號轉變成字符文本信號後再提供到轉換處理器 10卜适些内容並非本發明的核心並且屬於本專業技術人 員的公知常識,因此不再贅述。 作為輸出|置的例子,圖i中示出了印表機^灿、傳真 機1〇々32、外部錯存器·、網絡裝置1〇34以及顯示裝置、 1 〇3n等通過復用器(沒示出),轉換處理器1 01把經過 轉換的字符文本輸出到這些輸出裝置的一個或多個。 如圖1所不,轉換處理器包括中文簡體到繁體轉換子系 _統200和中文繁體到簡體轉換子系、统4〇〇以及内部儲存器 104其中的中文簡體到繁體轉換子系統2⑽和中文繁體 到簡體轉換子系統的每—個都可以單獨存在而使得 _1的系統成為單向的中文簡體到繁體或中文繁體到簡 體的轉換系統。在調入到内部儲存器104中的控制程序的 控制下’中文簡體到繁體轉換子系統200或中文繁體到簡 體轉換子系統400進行操作來對從輸入裝置102的字符串 進仃轉換。實際上’系統100何時作為中文簡體到繁體轉 換子系統200或何時作為中文繁體到簡體轉換子系統· 326\專利說明書(補件)\95-12\95132203 200811673 來操作,既可以根播 入裝置102幹入到絲的指令來決定,也可以根據從輪 1轉換處理器的漢字字符串的性質來自 動地決疋。内部儲存哭 的資料庫文件。逛儲存產生的中間數據和必要 門:口轉:奐的中文字符串從輸入裝置1〇2經接口/多路 中文繁體到簡體體到繁體轉換子系統200或 ^ ^ ± \ 、子系統400。並且把經過轉換的結果 ==輸出展置。通過下面參照圖2和圖3的用於把 F:體漢:轉換成繁體漢字的轉換系統及其操作流程的描 =和m 4和圖5的用於把繁體漢字轉換成簡體漢字的 一換系j及其操作流程的描述’可以最終獲得對於圖1所 不的在簡體漢字和繁體漢字之間進行相互轉換的系統100 的清楚理解。 下面^…、圖2榣述作為本發明的一個實施例的把簡體 漢字轉換成繁體漢字的轉換系統2〇〇。 如圖2所不’把簡體漢字轉換成繁體漢字的轉換系統 200包括·轉換部分2(n、數據輸入部分2〇2、輸出部分 203、詞語/術語劃分部分2〇4、鑑別定義部分2〇5。其中 的轉換部分2G1中包括簡體—繁體詞語/術語轉換部分 206、GBK簡體編碼— GBK繁體編碼轉換部分2〇7和編 碼— BIG5編碼轉換部分208。在操作上,鑑別_定義部分 2 0 5間體繁體列語/術έ吾轉換部分2 〇 6與用戶簡體—繁 體詞語/術語映射表209和系統簡體_繁體詞語/術語映 射表210相聯繫;GBK簡體編碼—GBK繁體編碼轉換部分 326\專利說明書(補件)\95-12\95132203 20 200811673 207與簡體—繁體一對多字映射表211、統計數據212、 簡體—繁體一GBK漢字映射表213和簡體—繁體一對多詞 映射表214相聯繫’而GBK編碼—BIG5編碼轉換部分20 8 與BIG5—GBK編碼轉換表215相聯繫。 輸入部分2 0 2把將要被轉換的簡體漢字字符串,例如 SC編碼的簡體漢字數據流輸入到詞語/術語劃分部分204 中0 根據控制詞語/術語劃分的規則,詞語/術語劃分部分 馨204把輸入的簡體漢字字符串劃分成一個或若干詞語/術 语’即「抽出」構成簡體漢字字符數據流的各個詞語(術 語)。劃分後形成的詞語/術語可以由一個或若干簡體漢字 字符構成。這些作為詞語/術語劃分的結果而產生的全部 詞語/術語被輸入到鑑別-定義部分205。 在對於簡體/繁體漢字向繁體/簡體漢字的轉換的既有 技術中存在各種對於輸入的將被轉換的對象字符串進行 ⑩劃分的(或稱為「分詞」)方法,這些方法均可採用在本 發明中作為對從輸入裝置提供的簡體/繁體漢字字符串進 •‘ 行劃分的方法。關於這些方法可以參見例如台灣的蔡佳麟 博士 的文章「Report to BMM-based Chinese Word , Segmentor with Context-based Unknown Word , Identifier for the Second International Chinese Word Segmentation Bakeoff」 (http://acl·ldc·upenn·edu/1/105/105-3020·pdf )和 香港揭春雨博士 的文章「An Example-Based Chinese Word 326\專利說明書(補件)\95-12\95132203 21 200811673
Segmentation System for CWSB-2」 (http://personal.cityu·edu. hk/〜ctckit/papers/bak eoff2.pdf)。這些内容被作為既有技術結合在此參考。 鑑別-定義部分205對於輸入的全部經過劃分的詞語/ 術語進行鑑別和定義,其中的鑑別操作是在預定程序的控 制下對於輸入的詞語/術語的合理性進行鑑別,並且可以 在控制程序的控制下提供必要的手段(例如顯示界面)供 系統的使用者作出新的詞語/術語,並將其輸入和儲存在 ⑩與鑑別-定義部分205相聯繫的用戶簡體—繁體詞語/術 語映射表209中。隨後,鑑別-定義部分205對於經過鑑 定的全部詞語/術語進行定義而分成兩類: 第一類詞語/術語是該簡體漢字的詞語/術語在標記形 式上與繁體漢字的詞語/術語相同、或雖然該簡體漢字的 詞語/術語在標記形式上與繁體漢字的詞語/術語不同,但 該將要被轉換的簡體漢字的詞語/術語具有與其為確定對 •應關係的繁體漢字的詞語/術語。舉例來說,「北京」一詞 在簡體漢字和繁體漢字中的標記形式完全相同,因此它屬 於第一類詞語/術語。而簡體漢字中的「计算机软件」一 詞與繁體漢字中的「電腦軟體」一詞雖然在標記形式上不 同,但是二者之間存在確定的對應關係,因此它也屬於第 一類詞語/術語。 第二類詞語/術語是該簡體漢字的詞語/術語在標記形 式上與繁體漢字的詞語/術語不同且不具有確定對應關係 的簡體漢字的詞語/術語。例如,簡體漢字的詞語「摆」 326\專利說明書(補件)\95-12\95132203 22 200811673 在繁體漢字中存在有兩個對應的標記形式「擺」和「$ 因此它們之間不僅是標記形式不同,而且不且有確^」’ 關係。在把簡體漢字的詞語「摆」轉換成繁體漢字二貝ΐ 要根據具體的使用情況才能決定選擇「擺」和、 一個。因此它Μ於馀, 伽」的哪 口此匕屬於弟二類詞語/術語。 從上面的分析可Π 4山、心仏狄 , 特點3 .、隹〜絲枯看出,24種弟二類詞語/術語具有的 =疋在進仃轉換中的-對多的問題。即-個簡體漢字: 個繁體漢字’使得在進行簡體漢字到繁體漢字的轉換 日4生選擇上的錯誤。這也是本發明旨在解決的問題。、 針;==的簡體漢字的詞語/術語定義為兩類是為了 型的簡體漢字的詞語/術語實施具有本發明特 ‘,沾的處理手段而實現本發明高精度和高效 、 到繁體漢字的轉換的目的,從下面的描述中將會看 點。 心 逍後轉換。201對於輸入的經過定義的兩類簡體气 卜/術語進行從簡體到繁體的轉換。其中:該簡體 ㈣語/術語轉換部分206利用用戶簡體―繁體詞語/術达 ,射表_和系統簡體—繁體詞語/術語映射表21〇來對 :-類同語/術語執行映射轉換;該GM簡體編碼一咖 繁體編碼轉換部分2()7利關體—繁體—對多字映射表 =!、統計數據212、簡體繁體—GBK漢字映射表213和 間體繁體-對多詞映射表214來對第二類詞語/術語執 打映射和統計分類方法相結合的轉換;以及該gm編碼— BIG5編碼轉換部分208利用BIG5—GBK編碼轉換表把 326\專利說明書(補件)\95-12\95132203 23 200811673 BIG5簡體漢字轉換成GM繁體漢字。從簡體—繁體詞語/ 術語轉換部分206輸出的轉換結果的繁體漢字和從GBK編 碼—BIG5編碼轉換部分208輸出的轉換結果的繁體漢字 相結合而形成期望的繁體漢字數據流,並且輸出到輸出部 分 203 〇 下面將對於發生在轉換部分2〇1中的各種轉換進行更 具體的描述,其中著重介紹本發明核心的統計轉換技術原 理。 ► 在簡體—繁體詞語/術語轉換部分2〇6利用用戶簡體— 繁體詞語/術語映射表2 〇 9和系統簡體_繁體詞語/術語 =射,210而對於第一類簡體詞語/術語執行映射轉換 時,是通過直接查表映射的方法把sc編碼的簡體字轉換 為BIG5編碼的繁體字,是一種簡體詞語/術語到繁體詞語 術語的直接對應的-對一的轉換。具體地說,簡體詞語/ 吾到繁體詞語/術語是指以詞為單位進行轉換,即通過 1「用戶簡體—繁體詞語/術語映射表」和「系統簡體 2㈣語/術語映射表」完成對輸入的簡體漢字數據流 =-類詞語/術語到對應的繁體漢字數據流的轉換。該 、具備雙向性y尤是說「系統簡體―繁體詞語/術語映 = ^戶簡體—繁體詞語/術語映射表」也可用於 的轉換(後面將參照圖4進行描述),即「系 '用,二二簡體〜繁體詞語/術語映射表」同 用戶繁體1體詞語/術語映射表」結構相同而可以共 326\專利說明書(補件)\95·12\95132203 u 200811673 用。 在上述用戶簡體—繁體詞語/術語映射表和系統簡體— 繁體詞語/術語映射表中儲存有簡體詞語中的不能以每個 字來對應到繁體詞語中相應位置上的字的詞語和術語。 表1是該用戶簡體—繁體詞語/術語映射表和系統簡體 ' —繁體詞語/術語映射表的結構示例。
表 1 簡體漢字詞語 繁體漢字詞語 位 位元 字节 位元組 光盘 光碟 计算机 電腦 数据库 資料庫 档案 文件 信息 資訊 因特网 網際網路 软件 軟體 星期 禮拜 乍得 查德 肯尼迪 甘乃迪 • · · 326\專利說明書(補件)\95-12\95132203 25 200811673 :戶說:==1僅用於說明的目的,而不是 術語缺射表的結射繁體 構的映射表實現簡體L” 绝樣取直觀的結 入的將要被轉換的每—個簡體:詞換時,將把輸 的「簡體漢字詞語/術語」項進行比/“」同所有記錄 換的簡體「詞語/術語」存在於 如果該將要被轉 的該記錄的「繁體漢字詞語/術纽\中則取出與之對應 簡體詞語/術語的轉換結果(繁體°」員:容,做為上述 本領域的技術人員顯而易見的是,可::)二輸:。 上不同於表1的映射表和相應的映 :匕厂構 檢索映射法、2分檢索映射法、方::如·· Η -據查找法來生成詞語/術語映射表匕索:射f專,同時根 的「系統簡體,語/術=射雖用然本示例中 蘩舻叫上五/小β吹对表」和「用戶簡體— =體⑽/★語映射表」結構相同, =構…本示例中的「系統簡體—繁二= 映射表」和「用戶簡體—繁體 將參照圖4描述的示例中的映射表」與下面 映射#夺「田“ 繁體—簡體詞語/術語 也可二。繁體一簡體詞語/術語映射表」的結構 例如「系統簡體-繁體詞語/術語映射表」和「 體^繁體詞語/術語映射表」其中之一可以採用如们二 :的、:構和直觀映射的方法’而另一個可以採用 體—繁體詞語/術語映射轉換過程,其中把每一個簡體詞 326Χ專利說明書(補件)\95·12\95132203 26 200811673 語/術語當作一個字符串·· 1)輸入簡體漢字字符串2簡體漢字
Si = clc2c3…cn ^ 2 )用簡體漢字子字符串s i同映身 體漢字詞語/術語」項進行比較:如果伙二有,錄的「簡 的丽綴‘刀(clc2-.cs…n)存在 寸串 ^出該記錄的「繁體漢字詞語/術語」項、、中做^ SC編碼)進行輸出。轉到3 t:;=換結果⑽ 理過程。 $不存纟’則結束該處 3)S=S~clc2··· cs 4 )轉到上述的2 ) 如上所述’圖2中的簡體, 利用用戶簡體—繁體詞語/術語映射表2轉換^ 2 〇 6 繁體詞語/術語映射表加完成對於第一類詞^充^體: 體字轉換為^^ 於用戶開放的,並且在執HTt 射表209是對 JL且在執仃轉換時在搜索順序上該 體·^繁體詞語/術語映射表2〇q得洙兮/ 戶間 語/術語映射表210。 9優先該糸統簡體-繁體詞 下面來說明在圖2所示的脸雜碰、甘+ 的將間體漢字轉換成繁體漢字 =系統的實施例中對於第二類詞語/術語,即該簡 詞語/術語在標記形式上與繁體漢字的詞語/術组體 不同且不具有確定對應體財的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 1η 200811673 X月的特彳玫在於通過統計分類的轉換方法來實現了 ^此專換’攸而實現簡冑漢字字符到繁體漢字字符的一對 多映射的準確轉換的問題。 .與字2!:於簡體漢字的詞語/術語在標記形式上 ‘體嚷」°5浯/術語不同且不具有確定對應關係的簡 繁體二=/術語的轉換主要是由GBK簡體編碼,κ F篮編碼轉換部分2〇7完成。 示,繁體一對多字映射表2ΐι、統計數據 〇司昧V—繁體—GBK漢字映射表213和簡體一繁體-對 夕映射表214與該GBK簡體編碼—GBK, 分207連接。 為體編碼轉換部 簡體-繁體一對多字映射表2ΐι 表2的示例結構: 旁如下面 326\專利說明書(補件)\95·12\95132203 28 200811673
表2中共有133條記錄,每—你 例如第-條記錄的第一個字符是=二個^ 字「摆」不在繁體字中出現,所二體:個 付。弟二和第四個字符位置分別是繁體字中與簡體字「撰予 相對應的兩個可能的選擇「擺」和「襬」。 」 ft體—繁體-對多詞映射表214可以具有按照如下 示例規則形成的結構··
J 『赉』號··表示一組「一
對多雨表數據j的開始,F 326\專利說明書(補件)\95-12\95!32203 29 200811673 號後面的漢字為i簡體漢字,該簡體漢字有多個繁體漢字 對應。 2. 『$』號:表示對應的1個繁體漢字的信息。『$』號 後面的漢字為對應的1個TC繁體漢字。『$』號記錄下面 的記錄為包含『$』號後面的繁體漢字的詞的信息。該記 錄可以有多個。 3. 『$』號數據記錄組會有多個。 4. 『@』號:表示一組「一對多詞表數據」的結束。 例如,簡體漢字「辟」的一對多詞表映射數據組可以是: #辟 簡體漢字「辟」的「一對多詞表數據j的開始 $辟 簡體漢字「辟」對應繁體漢字「辟」 大辟 上述對應時的詞表 复辟 征辟 φ 辟邪 辟易 $闢 簡體漢字「辟」對應繁體漢字「闢」 开辟 上述對應時的詞表 精辟 辟谣 @ 簡體漢字「辟」的「一對多詞表數據」的結束 如果一個簡體字/詞能夠通過查表映射的方法直接獲得 326\專利說明書(補件)\95-12\95132203 30 200811673
一、…繁體漢子的轉換結果,則將能又快又準確地實現簡 ^奠子到繁體漢字的轉換。但是如前所述,由於從簡體漢 ^換到繁體漢字的—對多的問題,在既有技術的轉換方 :都存在轉換不準確的問題。本發明利用統計分析技術 夕原始貝氏分類器來實現從簡體漢字到繁體漢字的一對 卜、射的準確轉換。應該說明,其它能夠實現空間向量的 統:分類的方法也可以採用,在此是以原始貝氏分類器進 亍么明構思的說明,而不是對本發明的限制。 下面先簡要介紹貝氏統計分類 用的原始貝氏分類器。 的原理’再說明本發明使 貝氏分類問題可以如下描述:假設一個對象可以用 2向量表示’如Μχι,X2, ..·,χ〇,炉為對象的特徵 :里,亚且可以分Μ個類C=(ci,。,…,W,則貝氏 ^貝問題可以描述成··已知類條件概率密度則^ 先驗概率p(Ci)求後驗概率p(Ci|q。1中^ 2 大、 這可由貝氏公式來計算: /',,”·’ k。 p(ci I x) = p(ci I Xl, X2, ..., Xn) = PfeX2^->XnlCi)p(ci) P(Xl,X2,··.,Xn) 分類規則可以描述為:對一個特徵向量值為无的 其類別指定為Cm,當且僅當p(Cin|i) & p(c . 2,…,1 ; i 尹 m。 1 = 1, 可以按照下面的公式來確定對象的分類: 326\專利說明書(補件)\95-12\95132203 31 200811673 :argmax 应1,…,χη | ci)p(ci)
cieC Ρ(Χ1,χ2,···,Χη) P(X1,X2, ···,味)P(C〇 (公式1) 原始貝氏分頬器基於一個簡單的假設
的值時,所右凰k w曰 甘、、口疋力負交1 C π有屬性變置相互獨立,也就是說: ρ(χΐ, Χ2,...? xn I Ci) = J~[p(xj I a) 公式2) 將公式 代入公式1,得到原始貝氏分 類器的分類算法 = arg^p(ci)fjp(xj|cj) 公式3) 在使用公式卩 到繁體漢字的轉換氏分類器算法解決從簡體漢字 個达料座· 、处里日守的一對多的問題時,需要使用& 划”口枓庫·簡體漢 而戈使用兩 漢字語料庫Carpus ϋ ϊ卿^和與之㈣的繁體 的電腦的預定館存空=個,料庫存放在實施本發明 兩種方式: 間位置中。在具體的實施中可以採取 之對 第一種方式是把簡體漢字語料庫Con%和與 m9mmmm\95^12\95132203 200811673 應的繁體漢字語料庫C〇rpus_TC作為圖2中的統計數據 212。假設簡體漢字語料庫c〇rpus—sc和與之對應的繁體 漢字語料庫C〇rpus_TC已經達到一定的完備程度,在進行 .針對一對多的簡體漢字到繁體漢字字符的轉換時,GM簡 •體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統^ 處理控制程序操作統計數據212中的簡體漢字語料庫、n c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus—吖,按 ⑩照隨後解釋的原理而獲得正確的轉換結果。由此可見,在 該第一種方式中的該圖2的統計數據212應該廣義地理解 為是簡體漢字語料庫Corpus_sc和與之對應的繁體漢字 語料庫c〇rpus_Tc,真正的統計數據是在GBK簡體編碼— GBK繁體編碼轉換部分2〇7將調用貝氏分類統計處理控制 程序操作這兩個語料庫之後獲得的數據。可以理解到,簡 體漢字語料庫Corpus—SC和與之對應的繁體漢字語料庫 Corpus—TC的完善程度直接影響GM簡體編碼—GM繁體 #編碼轉換部分207調用貝氏分類統計處理控制程序進行 操作的結果的精確度。 " 第二種方式是,不直接將簡體漢字語料庫C〇rpus_SC和 ,與之對應的繁體漢字語料庫corpus—TC放置在圖2的統計 '數j 2丨2中,而是針對全部所述第二類的簡體漢字到繁體 -漢字轉換,即一對多的轉換而預先對於簡體漢字語料庫 c〇rpus_sc和與之對應的繁體漢字語料庫c〇rpus_TC執行 統计#作,將統計計算的結果放置在圖2的統計數據212 中。在GBK簡體編碼—GBK繁體編碼轉換部分2〇7針對一 326\專利說明書(補件)\95-12\95132203 200811673 個輸入的第二類簡體漢字執行貝氏分類統計處理轉換 時’只需調用預先計算好的結果即可。這將進—步降低系 統的資源佔用,提高轉換速度。 本發明允許用戶纟規定的條件下不斷充實和完善其自 f使用的簡體漢字語料庫CGrpus—sc和與之對應的繁體 漢=語料庫C〇rpus_T€,使之更適合自身使用的需要。 貝際上上述第一種方式和第二種方式是基於相同的發 明構思的兩種具體的實施方式,在使用結果上並無實質區 下面來矹明對於一個第二類簡體漢字執行原始貝氏分 一處理的過€。假定需要被轉換的簡體字為$,則它所紫 應的“固繁體字形的集合記為T={ti,t2,…,乜}。 在簡體漢字語料庫h 〇 △丄 竹厍Lorpus-SC中,s和位於它左右的字 組成的字符串記為SMS f 其中s-p si分別是變量。使用 ’乂二、刀體字S進行漢字的簡體-繁體轉換 的算法如下: 學習算法(計算統計特徵) 1·收本Corpus〜sc中所有的簡體字v〇caculary — Corpus-SC中的所有的簡體字的集合 2·計算所需要的概率項pa)#nP°(Si|Ti) 對T中每個目標值 知值 Tj,:)E{1,2,…,k} nfC0rpus—sc"j出現的次數, 一C〇rPUS—沉中11,T2,…,^出現的總次數, P CT j)=n j/ητ 326傳利說明書(補件)\95-12\951322〇3 34 200811673 對 Vocaculary 中的 Si,i = {-l,1} ni —在簡體字S轉為Tj的情況下,Corpus_SC中 Si的出現次數, P(Si|Tj) = (ni+m/|Vocaculary|)/(nj+m),這裏使用 m-估計,其中 ^ 當以上的統計特徵計算之後,利用以下的貝氏分類算法 的公式來確定轉換為哪一個繁體漢字。
TNB =argmaxP(2;.
TjeT 尸(U丨7;)尸(7;) arg max----—-—
TjeT P(S_lyS) arg max 尸(U I 7;)尸(7;·)
TjeT 二 argmax尸(L|[)P〇S^)P(2;)
TjeT (公式4 ) φ 通過幾個簡單的例子來理解從簡體漢字到繁體漢字的 轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1) GBK发—6165發(發展) 第一步:GBK簡體編碼—GBK繁體編碼轉換部分207查 找簡體—繁體一對多字映射表211,「发」是一對多簡體 字。使用原始貝氏分類方法操作統計數據212,得到在詞 語「发展」中的「发」對應繁體字「發」。(内碼:B7A2 —B06C) 第二步:GBK編碼—BIG5編碼轉換部分208查找GBK— 326\專利說明書(補件)\95·12\95132203 35 200811673 BIG5編碼轉換映射表215,從GBK編碼轉換為MG5編碼。 (内碼·· B06C—B56F) 2 ) GBK发—6105髮(頭髮) 第一步:GBK簡體編碼— GBK繁體編碼轉換部分2〇7查 找簡體—繁體一對多字映射表211,「发」是一對多簡體 子。使用原始貝氏分類方法操作統計數據212,得到在詞 語「头发」中的「发」對應繁體字「髮」。(内碼:B7A2 -^B06C) 第二步:GBK編碼—BIG5編碼轉換部分2〇8查找GBK〜 BIG5編碼轉換映射表215,從GBK編碼轉換為BIG5編碼。 (内碼:B06C—BE76) 3) GBK摆~>BIG5襬(衣襬翩翩) j 第一步:GBK簡體編碼_>GBK繁體編碼轉換部分2〇7查 找簡體—繁體一對多字映射表211,「摆」是一對多簡^ 字。使用原始貝氏分類方法操作統計數據212,假設「衣 和「翩」在「摆」字左右的情況在語料庫中都沒有能夠得 到統計結果’所以此時使用原始貝氏分類方法沒有得到期 望的結果。此時系統根據用戶對於詞表的交互,把「 的「摆」轉換為繁體字「襬」。(內现· Μη - ^ 伸」I内碼· BOM—D26F)並且 將父互的結果記錄在用戶簡體—繁 和統計數據211中。術語映射表 弟一步· GBK編碼-> BIG5编踩趙4么> DTnc 、.扁碼轉換部分208查找GBK- BIG5編碼轉換映射表215,從GBK绝π ^ 編碼轉換為BIG5編碼 (内碼:D26F — C4FC) 326\專利說明書(補件)\95-12\95132203 36 200811673 4) GBK 囯—BIG5 國 第一步:由於「国」不是一對多簡體字,所以簡體〜繁 體詞語/術語轉換部分206查找系統簡體—繁體詞語/術 語映射表210,「国」對應繁體字「國」。(内碼:B9FA-> 87F8) 弟一步:查找GBK— BIG5編碼轉換映射表,從GBK編碼 轉換為BIG5編碼。(内碼:87F8—B0EA) 馨 下面將通過一個簡體漢字字符串到繁體漢字字符串的 轉換來進一步說明本發明的核心:統計轉換映射技術。 例如需要被轉換成繁體漢字的簡體漢字字符串是「心脏 是循环系统的动力中心」。它的正確的轉換結果應該是「心 臟是循環系統的動力中心」。 通過根據圖2的將簡體漢字轉換成繁體漢字的轉換系 統的刼作,其中除去「脏」和「系」之外的十個字的簡體 字和繁體字之間均是一對一映射的關係。所以對於這十個 ⑩對映射的簡體漢字到繁體漢字的轉換可以通過利用 映射表直接轉換即可。 對於一對多映射漢字,即該字符串(簡體漢字的句子) 中的「脏」和「系」兩個簡體字的轉換操作的實際情況是: 其中對「脏」字的轉換使用了簡體—繁體一對多詞表,對 「系」字的轉換使用原始貝氏分類,具體說明如下。本發 明人特別申明,這裡所說的「實際情況」是在本發明人^ 如下的假設前提條件之下出現的,即:簡體漢字語料庫 C〇rPUS_SC和與之對應的繁體漢字語料庫Corpus—TC中在 326\專利說明書(補件)\95·12\95132203 ^ 200811673 醫學領域方面欠缺;簡體—繁體一對多詞映射表214是相 對完備的。 首先’從簡體—繁體一對多字映射表211得到簡體漢字 脏」字對應的繁體字形有兩個:「髒」和r臟」。
按照本發明的設計構思,首先判斷是否可以由GBK簡體 編碼— GBK繁體編碼轉換部分207使用原始貝氏分類的方 法進行轉換。根據統計數據顯示,在採用統計數據212的 訓練集中,「脏」共出現180次,其中轉換為「髒」的有 180次,轉換為「臟」的有〇次,而無論哪種轉換情況, 「脏」字前面出現「心」的次數為0次,後面出現「是」 的次數也為〇次。在統計數據稀疏的情況下(說明語料庫 中十刀缺J百學類文章),系統將停止使用原始貝氏分類 的方法,而通過查找簡體—繁體一對多詞映射表214進行 轉換。將「脏」與前後兩個字分別組合,得到「心脏」和 :脏是」,在該映射表中查找「脏」的詞條,在轉換為「臟σ =的情況下找到詞語「心臟」,因此在這個句子中,簡體 字「脏」應該轉換為繁體字「臟」。 「酼後再度使用貝氏分類技術轉換來嘗試把簡體漢字 「系」轉換成適當的繁體漢字。 從簡體一繁體一對多字映射表211得到
子對應的繁體字形有三個,分別為「系」、「係」和「繫: 使用原始貝氏分類的方法對其J ^算使用拉普拉斯定律(Laplacj=:= 理。分類算法的公式如下·· 千π處 326\專利說明書(補件)\95-12\95132203 38 200811673 Γλ® =耵|巧狀户-丨丨Z仲丨丨难⑻ 根據統"十數據顯示,在訓練集中,「系」共出現47691 次。 情況一:轉換為「系」 出現次數:25249 次,p(系)=25249/47691 = 0. 529429 _ 不」子的次數:11,Ρ(环I系)= 〇· 00043565 後面是「& ^ ^ 况」子的次數:14905,Ρ(统丨系)= 0· 590297 Ρ(系)Ρ(环丨系)ρ(统丨系)= 0· 0001361 情況二:轉換為「係」 出現次數:17651 次,ρ(係)=17651/47691 = 〇.37〇112 4面疋「环」字的次數:0,Ρ(环|係)= 8· 4667e-9 後面是「统」字的次數:0,P(统I係)= 8.4667e-9 P(係)P(J不丨係)P(统 I 係)= 2. 653e-17 ⑩ 情況三:轉換為「繫」 出現次數:24791 次,P(繫)=4791/47691 = 0. 100459 W面是「环」字的次數:〇,p(环|繫)=3· 118833e-9 後面是「统」字的次數:1,p(统|繫)=〇· 0002087 P(繫)P(环 I 繫)P(统 I 繫)=6539e-13 根據分類算法公式可以得到,在這個句子中,簡體字 「系j應該轉換為繁體字「系」。 GBK編碼— bIG5編碼轉換部分208使用GBK—BIG5編碼 轉換映射表來得出需要的BIG5繁體漢字,該繁體漢字與 326\專利說明書(補件)\95·12\95132203 39 200811673 二/ 1體繁體詞語/術語轉換部分2 0 6的繁體漢字相結 合後由_出部分203作為轉換的結果輸出。 、° 、一:考圖3來說明圖2所示的將簡體漢字轉換成繁體 漢字的轉換系統的操作過程。 〃見圖3的流程圖’首先輸入將要被轉換的簡體漢字 字符串(步驟S310)。 P現後’詞語/術語劃分部分204根據預定的劃分規則對 ⑩,輪入的簡體漢字字符串進行劃分而「抽取」出組成該字 符串的全部簡體詞語/術語(步驟S320 ),並將這些詞語/ 術語提供到鑑別-定義部分205。 在接收到每一個簡體詞語/術語之後,鑑別-定義部分 205則將對其進行鑑別和定義,判斷其是否屬於第一類簡 體詞語/術語,即在標記形式上與繁體漢字的詞語/術語相 同或雖然不同但具有確定對應關係的簡體詞語/術語(步 驟S330 ),如果為「是」,則將該簡體詞語/術語輸入到轉 ⑩換部分201的簡體—繁體詞語/術語轉換部分2〇6,由簡 體—繁體詞語/術語轉換部分2〇6利用該用戶簡體—繁體 詞語/術語映射表209和系統簡體—繁體詞語/術語映射 表210把該第一類簡體漢字字符轉換成對應繁體漢字字 符(步驟S340 )。 如果步驟S330的定義結果為「否」,則定義該簡體詞語 /術語為第二類詞語/術語,即在標記形式上與繁體漢字的 詞語/術語不同且不具有確定對應關係的簡體漢字的詞語 /術語,並將其提供到轉換部分201的GBK簡體編碼〜 规專利說明書(補件)\95-12\95132203 40 200811673 繁體編碼轉換部分207,通過利用簡體—繁體一對多字映 射表21卜統計數據212、簡體^繁體—gm漢 :广繁體-對多詞映射表叫,由簡體編碼1: 繁體編碼轉換部分207採用統計分類與映射組合的方法 ^亥簡體漢字的同語/術語轉換為合理對應的繁體漢字的 詞/語術語(步驟S350 )。 、 將編碼—BIG5編碼轉換部分m❸轉換處理後, f :驟,〇和步驟S350獲得的繁體漢字詞語/術語相結 獲得與輸人的㈣漢字字符串對應的繁體漢字字符 ,亚由輸出部分203將其輸出(步驟S360 )。 字Ξ:串圖2的本發明的一個實施例的將簡體漢 土 、為%、體漢字字符串的系統來實踐圖3所示 的-的一^ t 了將簡體漢字轉換成繁體漢字的轉換中出現 現子+子夕的映射問題。具體地說’本發明的把能夠實 •=:映射的簡趙漢字的詞語,術語和不能實現-對 •;=體漢字的詞語/術語,即-對多映射漢字分開處 ㈣ /能採用統計特徵的技術來用原始貝氏分類方 法貫現從簡體漢字到繫轉、、蓄— 、 繁體,莫予的一對多映射處理,使得從 ^。/、予到繁體漢字的一對多映射處理的精確度大大提 體ϋ、、、圖4描述作為本發明的另-個實施例的把, ί執仃轉換與圖2系統所執行的轉換相反,但是在原理: 門是相同或相似的。因此那些與圖2相同的描述或公式 326、專利說明書(補件)\95-12\95132203 \ 41 200811673 的推導將被簡化或省略。 如圖4所示,把繁體漢字轉換成簡體漢字的轉換系統 400包括··轉換部分401、數據輸入部分4〇2、輸出部分 • 403、词語/術語劃分部分404、鐘別-定義部分405。其中 •的轉換部分401中包括繁體—簡體詞語/術語轉換部分
406、BIG5繁體編碼—GBK繁體編碼轉換部分4〇7和gBK 繁體編碼— GBK簡體編碼轉換部分408。在操作上,鑑別一 定義部分405、繁體—簡體詞語/術語轉換部分4〇6與用 戶繁體—簡體詞語/術語映射表4〇9和系統繁體—簡體詞 語/術語映射表410相聯繫;BIG5繁體編碼—GBK繁體編 碼轉換部分407與BIG5—GBK編碼轉換表411相聯繫/而 GBK繁體編碼—GBK簡體編碼轉換部分4〇8與統計數據 412繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體一gbk 漢字映射表416相聯繫。 ⑩輸入部分402把將要被轉換的繁體漢字字符串,例如 BIG5、、扁碼的繁體漢字數據流輸入到詞語/術語劃分部分 404 中。 , 根據詞語/術語劃分的控制規則,該詞語/術語劃分部分 、=4把輸入的繁體漢字字符串劃分成一個或若干詞語/術 • ^即抽出」構成繁體漢字字符數據流的各個詞語(術 語)。劃分後形成的詞語/術語可以由一個或若干繁體漢字 子符構成。這些作為繁體詞語/術語劃分的結果而產生的 全部繁體詞語/術語被輸入到鑑別—定義部分4〇5。 326\專利說明書(補件)\95·ΐ2\95132203 42 200811673 鑑別-定義部分405對於輸入的全部經過劃分的繁體詞 語/術語進行㈣和定義,其巾的鏗卿作是在預定 的控制下對於輸人的繁體詞語/術語的合理性進行鐘別, 並且可以在控制程序的控制下提供必要的手段(例如顯示 界面)而使得系統的使用者作出新的詞語/術語的定義, 並將其輪入和儲存在與鑑別義部分4{)5相聯繫的用戶 繁體-簡體詞語/術語映射表彻中。隨後,鑑別-定 2 4〇5對於經過較的全部詞語/術語進衫義而分成^ 第-,詞語/術語是該繁體漢字的m#/術語在標記形 :土與間m的詞語/術語相同、或雖然該繁體漢字的 ‘吾/術語在標記形式上與簡體漢字的詞語/術語不同,但 =將要被轉換的繁體漢字的詞語/術語具有與其為確定對 應關係的簡體漢字的詞語/術語。舉例來說,「 在繁體漢字和簡體漢字中的標記形式完全相同,因此它屬 # =-類詞語/術語。而繁體漢字中的「電腦軟體」一詞 贫間體漢字中的「计曹如私从 # 了 十-机软件」—詞雖然在標記形式上不 …但疋二者之間存在確定的對應關係,因此也 一類詞語/術語。 、弟 字的詞語/術語在標記形 同且不具有確定對應關係 ’繁體漢字的詞語「餘」 標記形式「余」和「馀」, 同,而且不具有確定對應 弟一類詞語/術語是該繁體漢 式上與簡體漢字的詞語/術語不 的繁體漢字的詞語/術語。例如 在簡體漢字中存在有兩個對應的 因此它們之間不僅是標記形式不 326\專利說明書(補件)\95-12\9513220: 200811673 關係。在把繁體逢念& Μ & r 要粑攄且髀沾估田主。餘」轉換成簡體漢字時則需 要根I、體的使用情況才能決定選擇「余」和 ^ 一個。因此它屬於第二類詞語/術語。 」的哪 從上面的分析可以看出,這種第二類 特點是在進行轉換中的-對多的問題。即—個;體;有= 應多個簡體漢字,使得在進行繁體漢字到簡體 日"ff選擇的錯誤。這也是本發明旨在解決的問題。、 把射形成的繁體漢字的詞語/術語定義 針對不同類型的繁體漢字的詞語/術語實施具有本 點的處理手段而實現本發明高精度和高效率字 簡體漢字的轉換的目的,從下面的描述中將會看 語換:401,對於輸入的經過定義的兩類繁體詞 二:/二仃攸繁體到簡體的轉換。其中:該繁體-簡體 H吾術語轉換部分4G6利用用戶繁體—簡體詞語/術語 2射表侧和系統繁體^簡體詞語/術語映射表410來對 弟-類詞語/術語執行映射轉換;該哪繁體編碼 簡=碼轉換部分4Q8利用統計數據412、繁體—簡體— 十^子映射表413、異體字映射表414、繁體》簡體—對 :詞映射表415和繁體—簡體一GBK漢字映射表416來對 第一類同語/術語執行映射和統計分類方法相結合的轉 換。,繁體—簡體詞語/術語轉換部分406輸出的轉換結 的fl體漢子和從GBK繁體編碼GBK簡體編碼轉換部八 4〇8輸出的轉換結果的簡體漢字相結合而形成期望的簡^ ^^mmmmi^&5A2\95n2203 44 200811673 漢字數據流’並且輸出到輸出部分4〇3。 下面將對於發生在轉換部分401中的各種轉換進行更 ^體的描述’其中著4介紹本發明核心的統計轉換技術原 在繁體—簡體詞語/術語轉換部分傷利用用戶繁體5 簡體詞語/術語映射表彻和系統繁體—簡體詞語/術語 1射,410而對於第一類繁體詞語/術語執行映射轉換。 %,疋通過直接查表映射的方法把mG5編碼的繁體 換為GBK編碼的簡體字,是—種繁體詞語/術語到簡體詞 ’/術語的直接對應的一對一的轉換。具體地說,繁體詞 语/術語到簡體詞語/術語是指以詞為單位進行轉換,即 過查找「系統繁體—簡體詞語/術語映射表」和「用戶繁 體—簡體詞語/術語映射表」完成對於輸入的繁體漢字數 據流的第一類詞語/術語到對應的簡體漢字數據流的轉 換。如上面參照圖2進行的描述中所說的那樣,這種轉換 φ具備雙向性’即「系統繁體—簡體詞語/術語映射表」同 :系統簡體—繁體詞語/術語映射表」,「用戶繁體—簡體 詞語/術語映射表」同「用戶簡體—繁體詞語/術語映射表」 結構相同而可以共用。 ,在上述用戶焦體簡體詞語/術語映射表和系統繁體— 簡體詞語/術語映射表中儲存有繁體詞語中的不能以每個 字來對應到簡體詞語t相應位置上的字的詞語和術語。相 關的示例可參見上述的表I。 同樣應該說明,表1的示例結構僅用於說明的目的,而 32轉利說明書(補件)\95-12\95132203 45 200811673 不是對於用戶繁體〜簡體詞語/術 簡體詞語/術語映射表的結構進行限制。=!:!體一 的結構的映射表實現繁體—簡體詞語/妙的韓^直硯 把輸入的將要被轉換的每一個繁體 轉換知,將 記錄的「繁體漢字詞語/術語」項進行°比;何:」同所有 被轉換的繁體「詞語/術語」存在於該表;要 對應的該記錄的「簡體漢字詞語/術語」内六出= ί述繁體詞語_的_結果(簡㈣編碼Γ進= 本領域的技術人員顯而易見的是,可以使用其它在於 上不同於表1的映射表和相應的映射 。 檢索映射法、2分檢索映射法、樹檢索映射:等二 據查找法來生成詞語/術語映射表。另外,雖然本示^ 的「系統繁體4簡體詞語/術語映射表“、繁體 簡體詞語/術語映射表^ 戶繁體 同的㈣L ’但它們也可以採用不 中的「系統繁體—簡體詞語/術語 ,射表」#「用戶繁體〜簡體詞語/術語映射 =圖2描述的示例中的「系統簡體—繁體詞語/術語映 可用戶簡體—繁體詞語/術語映射表」的結構也 例如系統繁體—簡體詞語/術語映射表」和「用戶繁 體-簡體詞語/術語映射表」其中之一可以採用如表】所 不的、:構和直觀映射的方法,而另-個可以採用如下的繁 體—簡體詞語/術語映射轉換過程,其中把每一個繁體詞 326^®θ^·(^ίΦ)\95-12\95132203 46 200811673 語/術語當作一個字符串: 體漢字子字符串 1)輸入繁體漢字字符串$繁
Si=clc2c3··· cn 2)用繁體漢字子字符串Si同映射表中 體漢字詞語/術語」項進行比較,如果繁體漢字二: 取1:刖綴部分(齡,,…)存在該映射表中,則 =該記錄的「簡體漢字詞語/術語」項中内容,做為上 (:“)子字符串的轉換結果(繁體SC 2)。進仃輪出。轉到3)。如果不存在,則結束該處理 3) S=S-clc2…cs 4) 轉到上述的2) 如上所述’目4中的繁體―簡體詞語/術語轉換部分偏 利用用戶繁體—簡體詞語/術語映射表彻和系統繁體— 簡體詞語/術語映射表410完成對於第一類詞語/術达映 射轉換’即把繁體漢字編碼的_繁體字轉換為咖編 碼的簡體字。其中用戶繁體1體詞語/術語映射表4〇9 是對於用戶開放的’並且在執行轉換時在搜索順序上該用 戶繁體—簡體詞語/術語映射表4 〇 9優先該系統繁體—簡 體詞語/術語映射表410。 曰 下面來說明在圖4所示的將繁體漢字轉換成簡體漢字 的轉換系統的實施例中對於第二類詞語/術語’即該繁體 漢字的詞語/術語在標記形式上與簡體漢字的詞語/術語 不同且不具有確定對應關係的繁體漢字的詞語/術語的轉 326\專利說明書(補件)\95-12\95132203 47 200811673 換。本發明的特徵在於通過統計分類的轉換方法來實現了 這種轉換’從而實現繁體漢字字符到簡體漢字字符的一對 多映射的準確轉換的問題。 ,作巾’這種對於繁體漢字的騎/術語在標記形式上 與簡體漢字的詞語/術語不同且不具有碟定對應關係的繁 體漢字的詞語/術語的轉換主要是由GBK繁體編碼— GBK 簡體編碼轉換部分408完成。 在把上述的繁體漢字的詞語/術語字符串輸入到GBK繁 體編碼— GBK簡體編碼轉換部分4〇8之前,先由BIG5繁 體編碼—GBK繁體編碼轉換部分4〇7利用MG5—GM編碼 轉換表411將其從BIG5繁體漢字轉換成GBK繁體漢字。 如圖所示,統計數據412、繁體—簡體一對多字映射表 413、異體字映射表414、繁體—簡體一對多詞映射表 415、繁體—簡體_GBK漢字映射表416和與該GBK繁體編 碼—GBK簡體編碼轉換部分408連接。 Φ 其中:繁體—簡體一對多字映射表413可以具有如下面 表3的不例結構: 326\專利說明書(補件)\95-12\95132203 48 200811673 表3
行號 繁 簡1 簡2 簡3 1 乾 乾 干 2 瞭 瞭 了 3 藉 藉 借 4 徵 徵 征 5 於 於 于 6 餘 余 馀 7 著 著 着 • · · • · · • · · • · · • · · ^ m ^ is 表3中示出7條記錄,每一條記 丁何組風 ,第六條記錄的第一個字符是繁體字「餘」。由於繁體字 斤餘」一不在簡體字中出現,所以第二個字符位置沒有字 ^斜第/Γ帛四個字純置分狀與繁體字「餘 相對應的兩個可能的簡體字的選擇「余」和 餘. 繁體—簡體—對多詞映射表415可以具有按昭'二 示例規則形成的結構: 文…、如下的號二』=二 對應。 + °亥繁體漢予有多個簡體漢字
2·『$』號:表示對應的丨個簡體漢 後面的漢字為對應的1個TC簡體漢字 326\專利說明書(補件)\95-12\95132203 4Q 字的信息。『$』° F $』號記錄下 號 面 200811673 的圮錄為包含『$』號後面的簡體漢字的詞的信息。該記 錄可以有多個。 “ 3·『$』號數據記錄組會有多個。 . 4.『@』號:表示一組「一對多詞表數據」的結束。 例·繁體漢字「乾」的—對多詞表數據組 始 #乾 $干 乾杯 $乾 乾坤 乾造 乾宅 繁體漢字「乾」的「一對多詞表數據 繁體漢字「乾」對應簡體漢字「干 上述對應時的詞表 繁體漢字「乾」對應簡體漢字「乾 上述對應時的詞表 j 的開 @ 繁體漢字「乾」的「一對多詞表數據」的結束 由於在$體’莫字中存在有許多異體字,因此在圖4的將 成簡體漢字的轉換系統中把-個異體字映 ===碼,簡體編碼轉換部分偏相連, 用於在把%、體漢子向簡體漢 應的簡體漢字。 、 、化把異體字映射為對 一個示例性的異體字映射表如 卜所示: 庵$庵 闇$暗 326\專利說明書(補件)\95·12\95132203 50 200811673 晻$暗 簟$鞍 鼇$鰲 皐羽$翻 霸$霸 栢$柏 捭$稗 坂$阪 異體字映射表的結構由「漢字1 (代碼)」+「$」+ 「漢字2(SC代碼)」來構成。「漢字1 (SC代碼)」是「漢 字2 ( SC代碼)」的異體字。在把繁體漢字轉換為簡體漢 字時,利用該表把漢字(SC代碼)的異體字映射轉換為 標準的SC簡體漢字。 如果一個繁體字/詞能夠通過查表映射的方法直接獲得 ⑩確定的簡體漢字的轉換結果,則將能又快又準確地實現繁 體漢字到簡體漢字的轉換。但是如前所述,由於從繁體漢 子轉換到簡體漢字的一對多的問題,在既有技術的轉換方 案中都存在轉換不準確的缺陷。本發明利用統計分析技術 一原始貝氏分類器來實現從繁體漢字到簡體漢字的一對 夕映射的準確轉換。應該說明,其它能夠實現空間向量的 統計分類的方法也可以採用,在此是以原始貝氏分類器進 行本發明構思的說明,而不是對本發明的限制。 關於貝氏統計分類的原理和原始貝氏分類器的内容可 326X專利說明書(補件)\95-12\95132203 200811673 公式 參考上面對於圖2的相 公 式3、公式4。 Μ刀和公式1 在使用公式3和公式4的及私 體漢字到簡體漢字的轉換處^士貝氏分類器算法解決從繁 要使用兩個語料庫:繁體漢字對多的問題時’也需 應的簡體漢字語料w〇rpussc〜0r卿-%和與之對 :本發明的計算機的預定儲存以:,=二實 中可以採取兩種方式·· r隹,、體的貫施 第一種方式是把繁體漢字語料庫c〇 應的簡體漢字語料廑Γ - 和/、之對 412。假設繁體1莫字語才^S C作為圖4中的統計數據 漢字座Γ 、 / 〇rpUS-TC和與之對應的簡體 庫CQrpUS_S(:已經達到—定的完鮮度,在進行 2對多的繁體漢字到簡體財字符的轉換時 ,編碼—GM簡體編碼轉換部分彻將調用貝氏分類統^ 處理控制程序操作統計數據412中的繁體漢字語料庫 C〇rPUS-TC和與之對應的簡體漢字語料庫Corpus一SC,按 照前面參照圖2解釋而得到的公式3,獲得正確的轉換結 果由此可見’在該第一種方式中的該圖4的統計數據 412應該廣義地理解為是繁體漢字語料庫c〇rpuS-Tc和盥 之對應的簡體漢字語料庫corpus_sc,真正的統計數據是 在GBK繁體編碼— GBK簡體編碼轉換部分4〇8調用貝民分 類統計處理控制程序操作這兩個語料庫之後獲得數據。可 以理解到,繁體漢字語料庫Corpus一TC和與之對應的簡體 漢字語料庫Corpus一SC的完善程度直接影響GBK繁體編碼 326\專利說明書(補件)\95-12\95132203 52 200811673 — GBK簡體編碼轉換部分408調用貝氏分類統計處理控制 程序進行操作的結果的精確度。 弟二種方式是,不直接將繁體漢字語料庫corpus—亿和 與之對應的簡體漢字語料庫corpus—sc放置在圖4的統計 數,412中’而是針對全部所述第二類的繁體漢字到簡體 漢字轉換,即—對多的轉換而預先對於繁體漢字語料庫 C〇rPUS—TC和與之對應的簡體漢字語料庫Corpus SC執行 統計操作,將統計計算的結果放置在圖4的統計數據412 中。GBK繁體編碼—GBK簡體編碼轉換部分4〇8針對一個 輸入的第二類繁體漢字執行貝氏分類統計處理轉換時,只 需調用㈣計算好的結果即可。這將進—步降低系統的資 源佔用,提高轉換速度。 本發明允許用戶在規定的條件下不斷充實和完善盆自 身使用的繁體漢字語料庫cQrpus—Tc和與之對應的簡體 漢^吾料庫C〇rpus_sc,使之更適合自身使用的需要。 貫際上,上述第-種方式和第二種方式是基於相同的每 明構思的兩種具體的實施方式,在使用結果上並無實㈣ 另•卜 … 通過幾個簡單的例子來理解從繁體漢字到簡體漢字的 轉換過程並且體會貝氏分類法在該轉換過程中的作用。 1JBIG5漢字「乾」,漢字「干」(乾杯) 弟-步:BIG5繁體編碼wGBK繁體編碼轉換部分4〇7用 BIG5—GBK編瑪轉換表411把繁體漢字「乾」從腸編 碼轉換為GBK編碼。(内碼:β〇ΑΕ^ ) 326\專利說明書(補件)\95-12\95132203 53 200811673 第二步:GBK繁體編碼sGBK簡體編碼轉換部分4〇8查 找繁體—簡體一對多字映射表413,「乾」是一對多繁體 字。使用原始貝氏分類方法,得到在詞語「乾杯」中,「乾 對應簡體字「干」。(内碼:B8C9 ) 2) BIG5 乾->GBK 乾(乾坤) 第一步· BIG5繁體編碼繁體編碼轉換部分用 BIG5-GBK編碼轉換表4Π把繁體漢字「乾」從MG5編 碼轉換為GBK編碼。(内碼:boae— C7AC ) 第二步:GBK繁體編碼sGBK簡體編碼轉換部分4〇8查 找繁體—簡體一對多字映射表413,「乾」是一對多繁體 字。使用原始貝氏分類方法,得到在詞語「乾坤」中,「乾 對應簡體字「乾」。(内碼:C7AC— C7AC ) 一 3) BIG5乾-GBK干(衣服干了) 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「乾」從big5編 ⑩碼轉換為GBK編碼。(内碼:B〇AE— C7AC ) 第一步· GBK繁體編碼—GBK簡體編碼轉換部分4〇8杳 =繁體〜簡體一對多字映射表413,「乾」是一對多繁‘ =。「服」和「了」在「乾」字左右的情況在語料庫中都 /又有、、先计到,此時無法使用原始貝氏分類方法。 /將「乾」與前面的字「服」組成二元詞語「服乾」,與 後予了」組成二元詞語「乾了」,查找繁體-簡體 夕=映射表415 ’「服乾」和「乾了」均不在在詞表 中此日守,本發明的轉換系統把「乾」轉換為預設簡體字 32卿說明書(補件)奶伽_ 54 200811673 「乾」。(内碼:C7AC—B8C9) 4) BIG5 苴-->gBK 豆 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分407用 BIG5—GBK編碼轉換表411把繁體漢字「莖」從bIG5編 碼轉換為GBK編碼。(内碼:D75E—C757 ) 第二步:GBK繁體編碼—GBK簡體編碼轉換部分408查 找繁體—簡體一對多字映射表413,「莖」不是一對多繁 體子。查找異體字映射表414,「莖」是異體字,對應簡 體字「豆」。(内碼:C757—B6B9 ) 5) BIG5 國— GBK 国 第一步:BIG5繁體編碼—GBK繁體編碼轉換部分4〇7用 BIG5—GBK編碼轉換表411把繁體漢字「國」從BIG5編 碼轉換為GBK編碼。(B〇EA~> 87F8 ) 第二步:GBK繁體編碼— GBK簡體編碼轉換部分4〇8查 找繁體—簡體-對多?映射表413,「國」不是—對多繁 體字。查找異體字映射表414,「國」不是異體字❶=找 繁體-簡體—GBK漢字映射表416,「國」對應簡「;。 (内碼:87F8—B9FA) 于 u」。 GBK繁體編碼— GBK簡體編碼轉換部分4〇8 :字與來自繁體-簡體詞語/術語轉換部分4〇6體嘍 字相結合後由輸出部分4〇3作為轉換的結果輪出 下面翏考圖5來說明圖4所示的將繁體轆 漢字的轉換系統的操作過程。 轉換成間體 參見圖5的流程圖’首先輸人將要被轉換的繁體漢字的 326\專利說明書(補件)\95·12\95132203 55 200811673 字符串(步驟S510)。 隨後’詞語/術語劃分部分404根據預定的劃分規則對 於輸入的繁體漢字字符串進行劃分而「抽取」出組成該字 符串的全部繁體詞語/術語(步驟S520 ),並將這些詞語/ 術語提供到鑑別-定義部分405。 在接收到每一個繁體詞語/術語之後,鑑別-定義部分 405則將對其進行鑑別和定義,判斷其是否屬於第一類繁. 着體詞語/術語,即在標記形式上與簡體漢字的詞語/術語相 同或雖然不同但具有確定對應關係的繁體詞語/術語(步 驟S530 ) ’如果為「是」,則將該繁體詞語/術語輸入到轉 換部分401的繁體—簡體詞語/術語轉換部分406,由繁 體—簡體詞語/術語轉換部分406利用該用戶繁體—簡體 同语/術語映射表4〇9和系統繁體—簡體詞語/術語映射 表410把該第一類繁體漢字字符轉換成對應簡體漢字字 符(步驟S540 )。 ⑩如果步驟S530的定義結果為「否」,則定義該繁體詞語 /術^為第二類詞語/術語,即在標記形式上與簡體漢字的 ^詞語/術語不同且不具有確定對應關係的繁體漢字的詞語 -/術語,並將其提供到轉換部分401的BIG5繁體編碼—GBK "繁體編碼轉換部分407,利用BIG5—GBK編碼轉換表411 把BIG5繁體漢字轉換成GBK繁體漢字然後送到繁 體編碼— GBK簡體編碼轉換部分4〇8。通過利用統計數據 412、繁體—簡體一對多字映射表413、異體字映射表 414、繁體—簡體一對多詞映射表415和繁體—簡體服 326\專利說明書(補件)\95-12\95132203 56 200811673 二416,GBK繁體編^GBK簡體編碼轉換部分 /丫:棘Γ、δ+分類與映射組合的方法把該繁體漢字的詞語 二二轉換為合理對應的簡體漢字的詞語/術語(步驟 b 5 ϋ ) 〇 =驟S540和步驟S550獲得的簡體漢字詞語/術語相 二 ^與輪人的繁體漢字字符串對應的簡體漢字字 亚輸出部分403將其輸出(步驟S56〇)。 字^符^3^述圖4的本發明的—個實施例的將繁體漢 、表專換為簡體漢字字符串的系統來實踐圖5所示 的字的i對^將繁體漢字轉換成簡體漢字的轉換中出現 現-饼一扯映射問題。具體地說’本發明的把能夠實 映射的繁體漢字的以和不能貫現一對一 理,舒士 P一對多映射漢字分開處 法實二統計特徵的技術來用原始貝氏分類方 =子]間體漢子的-對多映射處理的精確度大大提 =虞本發明的上述實施例’通過在實現 漢子的相互轉換時把其中具有 才繁體 結合了映射變換的統計分類處理,:、:需:構=: 射表的條件下即可實現高準確度 326\專利說明書(補件)\95-12\95132203 龍術_分_度。㈣允許用戶對於 β °。何浯映射表和統計數據進行修改和變更,使得太、 明的系統更能夠實現以人為本的個性化,更能適= 57 200811673 點和滿足專業需要。 2強調’以上根據本發明實施例對本發明進行 …、'思將本發明拘束或限制在公開的具體形式中。顧田迷 •的是,在公開的實施例的具體描述的基礎上,^ ^易見 術人員可在本發明精神實質的範圍内對於本發明進^亍1技 種修改。例如··對於本發明的上述系統的各個部分: 進行重新分配或將不同部分的功能進行順序的交換、拆
⑩解、合併。例如通過計算機硬體和軟體的單獨操作或它尸 的結合操作來實現本發明的設計思想的局部或全部、二們 修改映射表的結構或其中的内容來實現特定的需要、 電路的集成度的不同而選擇不同的電路組成形式等等。X 這些修改和變化均應被考慮為不脫離本發明所附申請專 利範圍的本質和範圍。 ^ 【圖式簡單說明】 圖1是根據本發明一個實施例的簡體漢字和繁體漢字 _之間進行相互轉換的系統的示意框圖。 圖2是根據本發明另一個實施例的一種將簡體漢字轉 換成繁體漢字的轉換系統的示意圖,它可以認為是圖丨t 施例的轉換系統的一個子系統。 ' 圖3是圖2所示實施例的操作流程圖。 圖4是根據本發明再一個實施例的一種將繁體漢字車專 換成簡體漢字的轉換系統的示意圖,它可以認為是圖i實 施例的轉換系統的一個子系統。 圖5是圖4所示實施例的操作流程圖。 326\專利說明書(補件)\95·12\95132203 58 200811673 【主要元件符號說明】 100 系統 101 轉換處理器 102 輸入裝置 102ι 複印機 * 1 022 傳真機 1 023 照相機 1 024 外部儲存器 _ 1025網絡裝置 102〇 輸入鍵盤 103 輸出裝置 103ι 印表機 1 032 傳真機 1 033 外部儲存器 1 034 網絡裝置 φ 103η 顯示裝置 104 内部儲存器 200 中文簡體到繁體轉換子系統 201 轉換部分 . 202 數據輸入部分 203 輸出部分 204 詞語/術語劃分部分 205 鑑別-定義部分 206 簡體—繁體詞語/術語轉換部分 59 326\專利說明書(補件)\95-12\95132203 200811673 207 GBK簡體編碼—GBK繁體編碼轉換部分 208 GBK編碼-> BIG 5編碼轉換部分 209 用戶簡體—繁體詞語/術語映射表 210 糸統簡體-^繁體同語/術語映射表 211 簡體繁體一對多字映射表 ' 212 統計數據 213 簡體—繁體一GBK漢字映·射表 214 簡體-> 繁體一對多詞映射表 • 215 BIG5 — GBK編碼轉換表 400 中文繁體到簡體轉換子系統 401 轉換部分 402 數據輸入部分 403 輸出部分 404 詞語/術語劃分部分 405 鑑別-定義部分 • 406 繁體—簡體詞語/術語轉換部分 407 BIG5繁體編碼— GBK繁體編碼轉換部分 ^ 408 GBK繁體編碼— GBK簡體編碼轉換部分 409 #*· 用戶繁體—簡體詞語/術語映射表 、 410 系統繁體—簡體詞語/術語映射表 411 BIG5-> GBK編碼轉換表 412 統計數據 413 繁體—簡體一對多字映射表 414 異體字映射表 326\專利說明書(補件)\95-12\95132203 60 200811673 415 繁體—簡體一對多詞映射表 416 繁體—簡體_GBK漢字映射表
326\專利說明書(補件)\95-12\95132203 61

Claims (1)

  1. 200811673 十、申請專利範圍: 1. 一種在簡體漢字和繁 統,該系統包括:^莫子之間進订相互轉換的系 ==部分’輸入將要被轉換的簡體/ 詞浯/術語劃分部公,脸认 卞于订爭, 分成若干個詞語/術語;輸入的簡體/繁體漢字字符串劃 鑑別-定義部分,梦〜 符串中的每-個詞語::,:二购 簡體漢字的詞語/術 :中在I己形式上與繁體/ 係咖繁體漢字二雖二不Λ但具有她 語,並將其中在標記形式;;類詞語/術 不同且不具有確定對庫…、—間體漢予的詞語/術語 m外 士應關係的簡體/繁體漢字的詞 浯疋義為第二類詞語/術語; 于们Jm/術 映射轉換部分,採用映射表將玆 映射成與輸入的簡體/繁體漢詞:::/術語直接 繁體/簡體漢字的詞語/術語’· U術語唯一對應的 統計轉換部分,採用統計分類方 :換成與輸入的簡體/繁體漢字的詞語吾 繁體/簡體漢字的詞語/術語; t㈠理對應的 組合輸出部分,把採用映射表 接映射而得到的與輸入的簡體二—賴語/術語直 -對應的繁體/簡體漢字的詞語^:莫和·;的詞語/術語唯 法對第二類詞語/術語㈣而得:=用統計分類方 漢字的詞語/術語合理對應的繁體 輪入^簡體/繁體 胺/間體漢字的詞語/術語 326胃明書(補件)\95-12\95132203 62 200811673 進行組合,形成與將要被轉換的簡體/繁體漢字字符串對 應的繁體/簡體漢字字符串,並將其輸出。 2·如申請專利範圍第丨項之系統,其中的詞語/術語包 . 括由單個漢字或多個漢字構成的詞語/術語。 . 3 ·如申请專利範圍第1項之系統,其中所使用的映射表 包括用戶簡體/繁體漢字—繁體/簡體漢字詞語/術語映射 表、系統簡體/繁體漢字—繁體/簡體漢字詞語/術語映射 表、簡體/繁體漢字—繁體/簡體漢字映射表、簡體/繁體 漢字—繁體/簡體漢字一對多映射表。 4·如申請專利範圍第1項之系統,其中採用的統計方法 疋原始貝氏(Naive Bayes )統計方法。 5· —種在簡體漢字和繁體漢字之間進行相互轉換的方 法,包括步驟: 輸入將要被轉換的簡體/繁體漢字字符串; 將輸入的簡體/繁體漢字字符串劃分成若干個詞語/術 _ $吾, 鏗別-定義該輸入的簡體/繁體漢字字符串中的每一個 ^詞語/術語,將其中在標記形式上與繁體/簡體漢字的詞笋 -/術語相同或雖然不同但具有確定對應關係的簡體/繁體 、 漢字的詞語/術語定義為第一類詞語/術語,並將其中在秩 ,5己形式上與繁體/簡體漢字的詞語/術語不同且不具有確 疋對應關係的簡體/繁體漢字的詞語/術語定義為第一類 詞語/術語; ' 採用映射表將該第一類詞語/術語直接映射成與輸入的 %6\專利說明書(補件^542^5132203 63 200811673 簡體/繁體漢字的詞語/術語唯一 詞語/術語; 對應的繁體/簡體漢字 的 採用統計分類方法將第二類詞語/術語轉換成盘輸入的 簡體/繁體漢字的詞語/術語合理對應的 體 詞語/術語; 门版展子的 ^採用映射表對該第—類詞語/術語直接映射而得到的 體==繁體漢字的詞語/術語唯一對應的繁體,簡 體漢予的同語/術語和採用統計分類方法對第二類詞” 術語轉換而得到的與輸入的簡體/繁體漢字的詞語/術語 合理對應的繁體/簡體漢字的詞語/術語進行組合,形成與 轉換的簡體/繁體漢字字符串對應的繁體/簡體漢、 字字符串,並將其輸出。 申請專利範圍第5項之方法’其中的詞語/術語包 括由單個漢字或多個漢字構成的詞語/術語。 7.如申請專利範圍第5項之方法,其中所使用的映射表 _包括用戶詞語/術語映射表、系統詞語/術語映射表、簡體 /繁體漢字—繁體/簡體漢字映射表、簡體/繁體 體/簡體漢字一對多映射表。 、彳、 '、 8·如申請專利範圍第5項之方法,其中採用的統計方法 是原始貝氏統計方法。 9. 一種將簡體漢字轉換成繁體漢字的轉換系統,該系 包括: ^ / 一 輸入部分,輸入將要被轉換的簡體漢字字符串; 詞語/術語劃分部分,將輸入的簡體漢字字符串劃分成 326\專利說明書(補件)\95-12\95132203 64 200811673 若干個詞語/術語; 鑑別-定義部分,鑑別-定義該輸入的簡體漢字字符串中 的每一個詞語/術語,將其中在標記形式上與繁體漢字的 詞語/術語相同或雖然不同但具有確定對應關係的簡體漢 字的詞語/術語定義為第一類詞語/術語,並將其中在標記 " 形式上與繁體漢字的詞語/術語不同且不具有確定對應關 係的簡體漢字的詞語/術語定義為第二類詞語/術語; 映射轉換部分,採用映射表將該第一類詞語/術語直接 •映射成與輸入的簡體漢字的詞語/術語唯一對應的繁體漢 字的詞語/術語; 統計轉換部分,採用統計分類方法將第二類詞語/術語 轉換成與輸入的簡體漢字的詞語/術語合理對應的繁體漢 字的詞語/術語, 組合輸出部分,把採用映射表對該第一類詞語/術語直 接映射而得到的與輸入的簡體漢字的詞語/術語唯一對應 •的繁體漢字的詞語/術語和採用統計分類方法對第二類詞 語/術語轉換而得到的與輸入的簡體漢字的詞語/術語合 . 理對應的繁體漢字的詞語/術語進行組合,形成與將要被 轉換的簡體漢字字符串對應的繁體漢字字符串,並將其輸 、 出。 1 (Κ如申請專利範圍第9項之系統,其中的詞語/術語包 括由單個漢字或多個漢字構成的詞語/術語。 11.如申請專利範圍第9項之系統,其中所使用的映射 表包括用戶簡體—繁體詞語/術語映射表、系統簡體—繁 326\專利說明書(補件)\95·12\95132203 65 200811673 ==:表表•繁體_射表、簡體 其中採用的統計方 的轉換方法,包括 12·如申請專利範圍第9項之系統 法疋原始貝氏統計方法。 13. —種將簡體漢字轉換成繁體漢字 步驟: 輸入將要被轉換的簡體漢字字符串; 將輸入的簡體漢字字符串劃分成若干個詞語/術語; 鑑別-定義該輸人的簡體漢字字符串中的每—個詞注/ 術語,將其中在標記形式上與繁體漢字的詞語/術語相同 或雖然不同但具有確定對應關係的簡體漢字的詞語/術扭 == 第:類詞語/術語,並將其中在標記形式上與繁體 “ /術5吾不同且不具有確定對應關係的簡體漢字 的詞語/術語定義為第二類詞語/術語; 、 ”採用映射表將該第-類詞語/術語直接映射成與輸入的 春間體漢字的詞語/術語唯一對應的繁體漢字的詞語/術語; 」木用統汁分類方法將第二類詞語/術語轉換成與輸入的 <簡體漢字的詞語/術語合理對應的繁體漢字的詞語/術語; > 把採用映射表對該第一類詞語/術語直接映射而得到的 '與輸入的簡體漢字的詞語/術語唯一對應的繁體漢字的詞 ' 術語和採用統計分類方法對第二類詞語/術語轉換而 知到的與輸入的簡體漢字的詞語/術語合理對應的繁體漢 子的祠語/術語進行組合,形成與將要被轉換的簡體漢字 字符串對應的繁體漢字字符串,並將其輸出。 326\專利說明書(補件)\95-12\95132203 66 200811673 l .如。申請專利範園第13j員之方法,其令的詞語 包括由單個漢字4多個漢字構成的詞語/術語。UT °° 15·如申請專利範圍第13項之方法,其中 表包括用戶簡體〜繁體五五 、、射 體‘吾/術語映射表、簡體S J 體漢字-對多映射表。 、16·如申請專利範圍第13項之方法,其中 法是原始貝氏統計方法。 、、’汁方 17.種將’體漢字轉換成簡體:叢念&絲4么/ 統包括: ㈣成間體漢子的轉換系統,該系 輸入部分’輸入將要被轉換的繁體漢字字符串· “詞語/術語劃分部分,將輸人的繁體漢字字符’ 若干個詞語/術語; 、串里J刀成 鑑別-定義部分,鑑別_定義該 ”一〜個詞語/術語,將其中在標記形式上與;=字的 吾/術語相同或雖然不同一 ^ 字的詞扭/街任定羞Β ,、有確疋對應關係的繁體漢 子的吾疋義為第一類詞語/術注, 形式上與簡體漢字的詞語/術語不同且;確、中=己 =體漢字的詞語/術語定義為第二 映射轉換部分,採用映射表將該第一類詞^ 映射成與輸人的繁體漢字的詞語’‘二= 字的詞語/術語; 對應的間體漢 統計轉換部分,採用統計分類方 轉換成與輸入的繁體漢字的詞一 ”員祠語/術語 °/術语合理對應的簡體漢 326\專利說明書(補件)\95·ΐ2\95132203 „ 200811673 字的詞語/術語; 組合輸出部分’把採用映射表對該第—類詞 接映射而得到的與輸人的繁體漢字的詞語=庫 的簡體漢字的朗/躲和㈣統計分類方料 語/術語轉換而得到的與輸入的繁 二= 理對應的簡體漢字的詞語/術語進行电 :,合 ^換的%、體4子子付串對應的簡體漢字字符串,並將其輸
    紅如中睛專利範圍第17項之系統,其中所使用的映射 表,括用戶繁體—簡體詞語/術語映射表、系統繁體 體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡 體漢字-對多映射表和異體字映射表。
    、20.如申請專利範圍帛j”員之系統,其中採用的統計方 法疋原始貝氏統計方法。 21. -種將繁體漢字轉換成簡體漢字的轉換方法,包括 步驟: 輸入將要被轉換的繁體漢字字符串; 將輸入的繁體漢字字符串劃分成若干個詞語/術語; 鑑別—定義該輸入的繁體漢字字符串中的每一個詞語/ 術語’將其中在標記形式上與簡體漢字的詞語/術語相同 或雖然不同但具有確定對應關係的繁冑漢字的詞語/術語 定義為第一類詞語/術語,並將其中在標記形式上與簡體 326\專利說明書(補件)\95-12\95132203 68 200811673 漢子的詞語/彳丨「1 的詞語/術L:1::同且不具有確定對應關係的繁體漢字 採用映:表二 繁體漢字的詞^二類柯語/術語直接映射成與輸入的 接me i 唯一對應的簡體漢字的詞語/術語; 分類方法將第二類詞語/術語轉換成與輸入的 /術語合理對應的簡體漢字的詞語/術語; 與幹入的够射表對该第一類詞語/術語直接映射而得到的 ^卜五、Λ體漢字的詞語/術語唯—對應的簡體漢字的詞 :^和採用統計分類方法對第二類詞語/術語轉換而 ^ 66 輸人的繁體漢字的詞語/術語合理對應的簡體漢 語/術語進行組合,形成與將要被轉換的繁體漢字 子付串對應的簡體漢字字符串,並將其輸出。 22. 如:請專利範圍第以項之方法,其中的詞語,術語 匕括由早個漢字或多個漢字構成的詞語/術語。 23. 如申請專利範圍第21項之方法,其中所使用的映射 ^括用戶繁體簡體詞語/術語映射表、系統繁體—簡 體詞語/術語映射表、繁體—簡體漢字映射表、繁體—簡 體漢字一對多映射表和異體字映射表。 24·如申凊專利範圍第21項之方法,其中採用的統計方 法是原始貝氏統計方法。 326\專利說明書(補件)\95-12\95132203
TW095132203A 2006-08-21 2006-08-31 Method for conversion between simplified and traditional Chinese characters and system thereof TW200811673A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101115101A CN101131690B (zh) 2006-08-21 2006-08-21 简体汉字和繁体汉字相互转换方法及其系统

Publications (2)

Publication Number Publication Date
TW200811673A true TW200811673A (en) 2008-03-01
TWI328174B TWI328174B (zh) 2010-08-01

Family

ID=39128960

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095132203A TW200811673A (en) 2006-08-21 2006-08-31 Method for conversion between simplified and traditional Chinese characters and system thereof

Country Status (3)

Country Link
JP (1) JP5167711B2 (zh)
CN (1) CN101131690B (zh)
TW (1) TW200811673A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI498756B (zh) * 2008-12-03 2015-09-01 Microsoft Technology Licensing Llc 電腦實施語言轉換與檢視系統,以及轉換與檢視資料的電腦實施方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222419A (zh) * 2011-06-27 2011-10-19 陈宇慧 一种电子文本的显示方法
CN103514152B (zh) * 2012-06-21 2017-01-18 香港城市大学 简繁中文转换中的标识追踪方法及装置
CN102929852B (zh) * 2012-10-15 2016-05-04 福建榕基软件股份有限公司 一种在富文本编辑器内实现简繁体字互转的方法及系统
CN103778110B (zh) * 2012-10-25 2016-08-31 三星电子(中国)研发中心 简繁体汉字的转换方法及系统
KR101384139B1 (ko) * 2012-11-23 2014-04-10 박선정 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기
CN103853706B (zh) * 2012-12-06 2017-04-12 富士通株式会社 用于将简体汉语句子转换为繁体汉语句子的方法和设备
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
CN103885941A (zh) * 2012-12-24 2014-06-25 鸿富锦精密工业(深圳)有限公司 专利申请文件转换系统及方法
CN103559178A (zh) * 2013-05-31 2014-02-05 武汉中文百科网络有限公司 互联网中文简繁字转换系统及方法
CN108108337A (zh) * 2016-11-25 2018-06-01 北大方正集团有限公司 简繁互转方法及装置
CN107145244A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种异形字符输入方法、装置及电子设备
CN108427671B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
CN109145297B (zh) * 2018-08-13 2022-06-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hash存储的网络词汇语义分析方法和系统
CN112199576A (zh) * 2020-10-20 2021-01-08 山东浪潮商用系统有限公司 一种中文拼音搜索的实现方法和系统
CN112949283B (zh) * 2021-04-26 2024-01-23 合肥工业大学 文本处理方法、装置、非易失性存储介质及处理器
CN117252154B (zh) * 2023-11-20 2024-01-23 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59172032A (ja) * 1983-03-18 1984-09-28 Photo Composing Mach Mfg Co Ltd 文字入力装置
JPH08263478A (ja) * 1995-03-24 1996-10-11 Matsushita Electric Ind Co Ltd 中国語簡繁体字文書変換装置
JPH08287046A (ja) * 1995-04-14 1996-11-01 Sharp Corp 情報処理装置
CN1192302C (zh) * 1999-09-22 2005-03-09 微软公司 简繁体汉字输入系统及其方法
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6393445B1 (en) * 2001-01-04 2002-05-21 Institute For Information Industry System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form
CN1369833A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 词汇式繁体中文与简体中文的转换系统及转换方法
CN1462966A (zh) * 2002-05-29 2003-12-24 明日工作室股份有限公司 简繁体中文内码转换方法以及系统
JP4294386B2 (ja) * 2003-06-13 2009-07-08 株式会社リコー 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI498756B (zh) * 2008-12-03 2015-09-01 Microsoft Technology Licensing Llc 電腦實施語言轉換與檢視系統,以及轉換與檢視資料的電腦實施方法

Also Published As

Publication number Publication date
JP5167711B2 (ja) 2013-03-21
TWI328174B (zh) 2010-08-01
CN101131690B (zh) 2012-07-25
JP2008052720A (ja) 2008-03-06
CN101131690A (zh) 2008-02-27

Similar Documents

Publication Publication Date Title
TW200811673A (en) Method for conversion between simplified and traditional Chinese characters and system thereof
Gu et al. Unpaired image captioning by language pivoting
Lu et al. Neural baby talk
WO2022095345A1 (zh) 一种多模态模型训练方法、装置、设备及存储介质
WO2020143137A1 (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN108923922A (zh) 一种基于生成对抗网络的文本隐写方法
CN111680488A (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
WO2020211250A1 (zh) 中文病历的实体识别方法、装置、设备及存储介质
Li et al. Similar scenes arouse similar emotions: Parallel data augmentation for stylized image captioning
Rathore et al. PARE: A simple and strong baseline for monolingual and multilingual distantly supervised relation extraction
Sehanobish et al. Using chinese glyphs for named entity recognition
Darwish et al. Effective multi-dialectal arabic POS tagging
Pathak et al. AsPOS: Assamese part of speech tagger using deep learning approach
Zhang et al. Lost in Translation: When GPT-4V (ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
CN117218503A (zh) 一种融合图像信息的越汉跨语言新闻文本摘要方法
Parida et al. Multimodal neural machine translation system for English to Bengali
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Li et al. Cross-lingual transferring of pre-trained contextualized language models
Harashima et al. Two-step validation in character-based ingredient normalization
Mi et al. A neural network based model for loanword identification in Uyghur
CN114817510A (zh) 问答方法、问答数据集生成方法及装置
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP2009230561A (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Chen et al. Improving named entity correctness of abstractive summarization by generative negative sampling
Tan et al. Document-level neural machine translation with hierarchical modeling of global context