TW411421B - System and method for processing chinese language text - Google Patents

System and method for processing chinese language text Download PDF

Info

Publication number
TW411421B
TW411421B TW084113517A TW84113517A TW411421B TW 411421 B TW411421 B TW 411421B TW 084113517 A TW084113517 A TW 084113517A TW 84113517 A TW84113517 A TW 84113517A TW 411421 B TW411421 B TW 411421B
Authority
TW
Taiwan
Prior art keywords
syllable
chinese
word
words
string
Prior art date
Application number
TW084113517A
Other languages
English (en)
Inventor
Chengjun Julian Chen
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW411421B publication Critical patent/TW411421B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Machine Translation (AREA)

Description

411421 五、發明説明(1 ) —-~一'〜 發明範圍 本專利係關於使用電腦以處理中文語言本文,特別是音 標中文本文與漢字之改良式系統與方法。 疋a 發明背景 在電腦上鍵入(輸入)並處理中文語言本文是件極困難的 問題,這可由中文字母的數目來說明。在中文的方塊字 (漢字)書寫系統中,有3000至6000個常用.中文字(漢 字),包括次常用字則超過一萬個字。増加中文語言困難 之問題是本文標準化、許多同音字,及字的界限定義不 明,以致阻礙電腦上漢字之有效本文處理。儘管數十年的 研究及存在數百種不同方法,漢字電腦輸入與處理仍是阻 礙電腦在中國使用的主要絆腳石,特別是在本文處理上。 當今輸入與處理中文語言本文之電腦系統可分成三類: 經濟部t央橾準局員工消费合作社印製 第一類是根據方塊字拆成數個基本圖形字根,指定鍵盤 上的鍵以表示漢字的不同基本圖形字根’接著按數鍵,並 合併這些基本圖形字根’即可鍵入每個字。這種方法的範 例如台灣使用的蒼頡輸入法,與中國大陸使用的五筆輸入 法,這種方法的主要缺點為漢字字根的鍵指定是人為的, 不論蒼頡或五筆法’都要死記這些指定碼,記下代表字根 的鍵不僅困難1耗時,此外許多情況下漢字折成其基本字 根的方式不一’雖然專業人員已使用這些方法,並可看到 受過精良訓練的輸入員以高速展示其輸入,但電腦專家與 其他從業員卻不常使用,更遑論一般百姓。因此這些方法 限制廣大說中文人口的電腦使用。 -4 - 本紙張尺度通用中囡國家標準(CNS ) A4規格(210X297公釐) 411421 A7 B7 五、發明説明(2 ) 第二及第二類遇到中文語言處理之同音字問題。 第二類是音標輸入,(如中國大陸使用的拼音與台灣使 用的注音符號或BPMF),是專業輸入員之外,—般人最常 用的方法,中文語言的漢字書寫系統是這種方法的概念上 與實際障礙。 因為約僅有1300個不同音標音節,卻要對應上萬個字, 因此一個音標音節可能代表許多不同漢字,例.如國語中” 一 ”的發音可對應一百個以上的漢字,當翻譯音標音節成 漢字時,這會產生混淆。 為了應付這種同音字問題,多數音標輸入系統使用多重 選擇法,例如,5/5/83授予漢茲的德國專利編號 3’142,138 ; 9/19/91授予K c.謝的美國專利編號 5,〇47,932 ; 3/8/91授予唐善岡(譯音)的中國專利編號 1,〇64’957。鍵入一音標音節後,電腦會顯示具有相同發 a的所有可能漢字。在某些例子中螢幕無足夠空間顯示具 有相同發音的所有可能字,此時需要用上下鍵選取,因此 這些根據個別音節的音標法很慢。 經濟部中央標準局員工消费合作社印裝 ^^^1 n^· n^i n^i ^^^1» L ^^—^1 m m «In 、-° {請先閲讀背面之注意事項再填寫本頁) 先前根據相鄰漢字的出現機率將多重選擇法加以改良, 例如4/1/91授予史普洛的英國專利編號2,248,328 ,此機 率法可進一步合併文法限制,可參考K.T.盧(譯音)於 1992年6月發表在「中文與東方語言之電腦處理」6, Num 1.第85頁之文章,然而這些方法的轉換正確率(音標 至漢.字)通常限制在8 0 %左右。 第三類係合併音標字母輸入法與非音標字母。非音標字 -5- 本錄尺度適用中國巧標李(CNS ) A4規格(21〇:<297公爱} A7 B7 411421 五、發明説明(3 ) 母加至音標字母,以人為方式區別相同發音的字母。例 如,包括:以部首作音標拼音(11/20/85授予C.C·陳的英 國專利編號2,15 8,776),及用數個筆畫作音標拼音 (11/25/92授予G_夏的中國專利編號1,066,5 U)。這些方 法需要記住人為規則,或計算筆畫數目’以致實質上減慢 了輸入速度。 除了同音字問題,處理中文語言時還存在.字的界限問 題0 雖然超過8 0 %的當代中文字具有多重音節(即兩個或多 個漢+ ),於書寫系統中卻無字的分離(與所有的歐洲語 »,甚至韓語都相反)。此外音標中文的輸入通常是以音 節接著音節的方式,而沒有計算字的界限^ 儘s多數人已認同多音節字,及缺乏在字界限上定界字 的標準方式’巾文的定義甚至字的存在仍是矛盾的,此外 因為中文傳統上以連續的漢字字串書寫,纟無間隔,一般 二國人對於字的意義並無明晰概念,在許多例子中,何處 β加上子的界限或定界符號即間隔並不明顯,以下是該 矛盾之典型範例。 1二复合名詞’在英語中兩個獨立字可合併成—個複合名 ^一個i、板或響尾蛇。英語中存在是否將這些複合名詞當 成一個或兩個字的矛盾。 ;ljs ^ , m , U為在肀國並慼—般接受的優先 「男撼立3 矛盾更嚴重,例如中國拼音字典中 員 不门人會視為兩個字(男,播音 貝)甚至三個字(男,播音,員)。 ---1---;-----於------訂 (請先閱讀背面之注意事項再填寫本頁) .*£濟部中央樣準局負工消費合作社印裝 411421 A7 -------B7 五、發明説) 〜 — 2.附加字,所有的中文動詞都可附加上造句單元,如 來過,或在,以表示過去、現在完成,或進行式。所有 的=谷列都可加上「的」。不同學派的語言學者視這些造 D°元為不同’有些學派則視之為正確附加字,即屬於該 附加4·的一部分’而其他學派則視之為單獨的質詞, 離字。 附加字是字的一部分,而質詞是單獨字,例如名詞末尾 是化'家、院、性,與主義時,多數語言學者視之為單獨 半的附加字’有些學派视其為單獨質詞(分離字),換言 之’末尾是之、爾與頭時,總视之為名詞的字尾,而非單 獨質。 3 ‘複合動詞’中文的這類動詞很類似德文的可分離動詞 (die zerbrechbar Zeitwort) ’ 如 aufzichen, heraufziehen 等’這些可分離動詞能使用中間詞-zu_與_ge -以成為不 定詞或過去分詞。 颅濟部中央標準局員工消f合作社印製 ---„---Μ----^------ίτ f請先閲讀背面之注意事項再填寫本頁) 中文的類似動詞能使用中間詞-得—或-不-,以表示能或 否定。例如,抬起來,可變成抬得起來或抬不起來,這與 德文動詞很類似,此外片語「抬起頭來」、「抬得起頭 來」’與「抬不起頭來」都是使用複合動詞(如ziehen dein Kapf auf)的類似句型結構,由此觀之,「抬起來」 應該是一個字,然而許多語言學者視這些音節是分離字 (抬,起,來),並以分離方式書寫。 士口上所述,在中文語言中應該於何處界定字的界限時常 並不明顯。 本紙伕尺度適用中國國家標準(CNS )A4規格(21〇X 297公釐) 411421 Α7 Β7 蝗濟部中央榡準局員工消費合作杜印^ 五、發明説明(5 ) 儘管這些矛盾,許多多音節字已普遍视為最小的語言單 元或詞素’如(1)名詞:加大、葡萄、荔枝等;(2)動 詞:爽约、任務等;及(3)形容詞:黑色的、遍佈的等。 此外許多片語已廣為接受是由多個字組成,例如,雖然有 時「電子工業」可視為單獨字,但沒有人認為「發展電子 工業」是一單獨字。有許多四音節成語已廣為接受是字, 雖然在拼音的不同書寫方式中可使用也可不使用連字號。 對於這類字,唯一的字界限已廣為接受β 如上所述,缺乏普遍接受的拼字規則,與中文缺乏字分 離的習慣,因此很難發展出一套簡單實用的標準,供中文 語言本文之電腦輸入與處理,無特別語言學派的觀點廣為 大家接受。甚至在嚴謹定義字時(即視許多複合字為片 語’及視許多附加字為質詞)’仍存在一些混淆。藉著廣 泛定義字(即视許多複合字為單一單元,及接受許多附加 字為字的一部分),可改善正確辨識率,但如此需要存在 電腦記憶體中的字彙就太大,以致無法說明每個單—單元 字’與具有所有附加字組合的字。 外國人使用的中文會話教材是以一種稱為拼音的拼音方 式書寫,其中視多音節字為基本單元。拼音使用羅^字 母,並以多音節字的形式列出其字彙。「中文拼音字囊 於1 964年出版,修正版於1 989年由中國北京的語言金巧 出版,其包含六萬個字。1984年公布拼音形式書寫的中 文辦字規則,以定義字的界限。 發明之目標 -8 - (請先Μ讀背面之注意事項再填寫本頁) —^1 1^—* m ί^-
S1T 本紙張尺度適用中國國家樣隼(CNS) Α4規格(2l0x297公釐) — —, .¾濟部中央標準局員工消費合作社印裝 411421 A7 A7 _______________B7 五、發瓶明(6 ) 本發明之目標是提供一種改良式電腦系統,以便在電腦 上輪入並處理音標中文與漢字。 本發明之另一目標是提供:一種正確的電腦系統,其需 求較小的字彙(記憶體);及一種處理,以轉換音標中文 (拼音或BPMF)輸入成字母書寫(漢字),並可適應不同語 言學派理論與/或中文語言中不同人的字分離習慣。 本發明之另一目標是提供方便且有效的電腦鍵盤設計, 以便利中文語言本文之輸入與處理。 本發明之另一目標是提供一種延伸A s c丨〖碼的設計,以 便於儲存、列印及傳送音標中文資訊串,且不與英語及 GB23 12-80形式(中國政府公布的中文字通訊標準)之方塊 字(漢字)串衝突》 本發明之另一目標是提供一種供音標中文使用之電腦處 理系統,以自動偵錯及改正。 本發明之另一目標是提供一種供音標中文使用之電腦處 理系統’以便能處理混合式中文與非中文(如英語)本文。 發明之概述 本發明是一種系統與方法,以正確且有效的輸入音標中 文(拼音與BPMF)於電腦系統中,並正確轉換成漢字形 式。遠系統之新式鍵盤具有發音符號鍵(與對應之ascii 字碼)’以允許使用者用一發音符號註解各鍵入之音標本 文音節’以表示音節之聲調。當按下發音符號(或定界符 號)鲜時’系統上執行之過程即判定一音節已鍵入。一鍵 入之音標音節接著與可接受音標音節及縮寫表相比,若鍵 -9- 本紙張尺度中SS家標準(CMS ) A4規格(2igx297公楚) ; :k-- f請先閱請背面之注意事項再填寫本頁〕
•IT B7 五、發明説明(7 ) 入之音節在表上,則儲存正確拼音與加重音之音節在記憶 體,並顯示在圖形顯示器之音標部分。該過程在後續音節 中持續直到鍵入一定界符號。 遇到一定界符號時,處理字申(定義為兩個定界符號間 之字元串),以判定表示字串中該字的正確漢字字母。字 串(或字串中之每個字)與音標字字典相比,若字_具有唯 一的漢字翻譯,該漢字翻譯即儲存在記憶體,並顯示在圖 形介面之漢字部分。若在字典中找不到該字串,則作語形 學分析,即自該字串中移走任何標準附加字(列於附加字 表上),再分析剩餘的字串(字根)。若在字典中仍找不到 該字根,則將該字根(剩餘的字串)拆成組成元素/字。若 組成元素在字典中找到唯一相同者,則將這些唯一組成元 素/字的漢字翻譯儲存在記憶體中,並顯示在圖形介面之 漢字部分。 經濟部中央標準局員工消f合作社印製 若輸入字或任何組成元素/字的翻譯不明(字典中找不 到),則作造句分析。字_中的字分成功能字(位於功能字 /附加字表上且具有無音音節),或觀念字(具有至少一音 調音節)。(備註,為配合本發明之目標,功能字、質詞, 及附加字於使用及過程時皆相同)。清晰地翻譯功能字, 並且也決定剩餘字_ (字根)輸入的結構。根據觀念字與翻 譯的功能字之使用,可減少或除去任何觀念字的混淆,藉 著統計模型除去觀念字的任何剩餘混淆。 可用鍵盤以外的裝置,如網路、磁性媒體,或音調系統 將音標本文輸入系統中,藉著特別字元如一空白,定界# -10- 本紙張尺度適用中國國尽標率(CNS > A4規格(210X 297公廣) A7 B7 411421 五、發明説明(8 中文字,以過程中文與非中文字之混合本文。 附圖之簡單說明 圖1是本系統較佳具體實例之方塊圖。 圖2 A是本系統使用的鍵盤之較佳具體實例。 圖2B顯示具有聲調鍵的部分鍵盤之另一具體實例。 圖2C與圖2D顯示本系統使用的鍵盤之另一較佳具體實 例,γ各鍵盤具有空白鍵之分離部分,並將其當^ 鍵0 圖3是A S C 11字碼資料結構之較佳具體實例,其包括下 7位元的發音符號,及上7位元中具有音調發音符號 有可用母音》 圖4的流程圖顯示鍵盤輸入之較佳過程,以暫存拼立— 在記憶體中。 予 β子 圖5的流程圖顯示以拼音形式書窝的中文字之語形學分 析與拆字過程。 ' 乃 圖6的流程囷顯示以混淆字串過程拼音輸入之較佳造句 方法" 圖7(由圖7八_圖7〖所組成)表中的内容是較佳的中文音 節’其中各音節具有一碼形式。 圖8表中的内容是較佳的中文功能字、質詞,及視為功 能字的附加字。, 本發明之詳細說明
圖.1是本系統1000較佳具體實例之方塊圖。系統1〇〇〇包 括:一圖形介面1020,能顯示中文字與英語本文;一 CPU 11 本紙張尺度通用中國國家橾準(CNS ) A4規格(210X297公產) ------i----- ^------訂 (請先閏讀背面之注意事項再填寫本頁) 經濟部中央樣辛局負工消費合作社印裝 經濟部中央標準局員工消費合作社印裝 411421 : ο 7 五、發明説明(9 ) 1010 ’ 一主記憶體1 100 ’及記憶體儲存裝置丨200。鍵盤 功能1070儲存在主記憶體1100與/或記憶體儲存裝置1200 中,系統1000具有一指標裝置103 I如滑鼠,其可接至網 路 1090。IBM RS/6000 是 CPU 1010、記憶體(11〇〇,12〇〇) 及圖形介面1 02 0之具體實例。 另外顯示一新式鍵盤1030 ’鍵盤包括:音調發音符號鍵 1050 ’及音節輸入鍵1040,其是標準羅馬字·母。可使用 另外之聲調鍵1060A ’ B。聲調键l〇6〇A可放在分離空白 鍵上,聲調鍵1060B可加在標準方向移動鍵上,圖2 a - 2 D 討論新式鍵盤之另一種較佳具體實例。 新式資料結構300包括在記憶體儲存裝置12〇〇與/或主 記憶體1100中,以轉換鍵盤1030的按鍵成編碼(如ASCII) 字元及發音符號,其儲存’即暫存在記憶體(丨丨0〇,12〇〇) 中。資料結構700,800,950也儲存在記憶體丨2〇〇中,其 包括:一中文音節表700,一功能字/附加字表80〇,及一 中文字典或字彙950。 記憶體(1100 ’ 1200)中包括新式過程4〇〇,500,600, 過程400是一種方法用以鍵入(輸入)音標中文至系統 1000,亦可定義字的界限。(備註,本文中的音標中文一 般是指拼音)。過程500是一種方法,供語形學分析拼音 本文/字之字串,以決定唯一的漢字翻譯。過程6〇〇是過程 5 0 0使用的造句分析法,以解決混淆字串/字,即那些具有 一苹以上漢字翻譯者。資料結構3〇〇,7〇〇,8〇0分別於圖 3,7,8中說明,過程400,500,600分別於圖4,5,ό -12- 本纸張尺度適用中國國家樣隼(CNS ) Α4規格(210><297公嫠) ---- I 1 I I- .1 I II —^1 1^—· t - - I I 1 11 HI (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 411421 μ ____________B7 五、發明説明() 中說明。 通常使用者使用鍵盤1 030以適當的發音符號(如下所示) 鍵入拼音本文輸入至系統1〇〇〇中。系統用資料結構3〇〇與 過程4〇〇顯示拼音字元1〇22(羅馬字母、發音符號、標點 等)在圖形介面1020上分離螢幕之第一區域1〇21。系統 1000用過程500與600分析拼音輸入,轉換拼音成漢字, 及顯示漢字字母1〇2 5在圖形介面1〇20之第二.區域1024。 備註’藉著使用過程500與6〇〇及額外的語言翻譯裝置 1 034,系統1 〇〇〇能將鍵入的經編碼或加上發音符號之拼 音1022者,轉成其他語言如英語。 系統丨000也可包括鍵盤1〇3〇以外的元件以允許輸入本 文,例如在網路1090上傳送字串。其他輸入包括用於聲 頻本文輸入的元件1033。可用適當驅動器連接這些元件 至系統100。參考3/15/1995授予陳等的美國專利編號 〇8/404,786,名稱:用音調音標系統作語音辨認之統計音 調過程方法與裝置’其在此僅作參考。用其他已知方法包 括磁性媒體1 032如磁碟,編碼的拼音字串,或加上適杏 發音符體號也可輸入系統1000。 輸入本文時用發音符號區分重音節(與某些具體實例中 的無重音節)及中文語言音標表示法中的音調值(參考過程 4〇〇)β發音符號是表示音節音調之符號,在本發明中, 字的符號具有用發音符號註解的音調,以表示該音節具有 周’此外發音符號也表TF音調的類型。國語(枚準中 文)中有四聲,即平、上、去、入。某些語言學家將無立 -13- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) '' ------- -- J— - ~:-----*^--- (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部中央樣iiL局員工消资合作杜印製 411421 五、發明説明(11 ) ' ~一~— 或無聲包括在内稱為第五聲。 鍵入(輸入)本文400至系統1000時’將音調發音符號加 入重音節。用這種編碼或定界法,於後續本文(5〇〇, 6〇〇) 過程中可立刻明瞭觀念字與功能字、質詞,及附加字間的 差異。(重音節的字是觀念字,而功能字、質詞,及附加 字全部列於8〇〇 )。 在另一具體實例中,將無聲發音符號加在各無重音 聲)中文音節(包括:功能字、質詞,及附加字)之後。輸 入混合語言/本文時此具體實例即有用,即英語或其他非 中又本文,包括在中文本文輸入中。因為非中文本文用發 音符號解碼(未作記號),所以中文字/音節(用發音符號包 括無聲發音符號作記號)即可與未作記號的非中文本文區 分。非中文本文也用特殊定界符號定界,例如字之間的空 白。 後續語言過程時’如翻譯、分析,與/或列印,發音符 號區分音節字串中的重音節,以表示各重音節之音調類 型,本發明用它剖析中文的音標表示(拼音)成為字與句型 (參考過程500與600)。在功能字、質詞,與/或附加字2 處分離中文句型之音標表示’以應用規則剖析音標表示。 系統1 000可迅速執行它,這是因為在各中國方言中僅有 較少數目’即小於一百個已知可辨識的功能字(與質詞/附 加字)。因此需要較小電腦記憶體,即可儲存所有有用的 功雖字與質詞/附加字8〇0 » 系統1000可正確判定字的意義與句型結構(參考過程 -14- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐} (請先閲讀背面之注意事項再填寫本頁) 訂 經涛郎中央標準局員工消費合作社印製 411421 at ____B7_ 五、發明说明(12 ) ^ — 5 00與600)。首先翻譯功能字(與質詞/附加字),其具有 唯一且清晰的意義、使用,與音調(無聲)之翻譯。也用功 能字(與質詞/附加字)定義句型結構《用功能字(與質詞/ 附加字)之翻譯,及定義的句型結構,即可決定句型中其 他(觀念)字的意義· ' 再度聲明為了本發明目標’功能字、質詞,與附加字都 以相同方式使用及過程。這是因為在中文書寫·中,時常益 區別’因為字並無明顯界限。功能字、質詞,與附加字也 具有類似音調結構。較佳的功能字、質詞,與附加字儲存 在系統記憶體(1 1 00,1 200)中,如以下圖8所示。 本發明之新功能是一種新式鍵盤’係特別為拼音中文輸 入與/或混合本文過程(拼音中文結合非中文語言如英辞) 而設計。鍵盤提供用發音符號輸入拼音節之方法,圖2A_ 2D是鍵盤1030之其他較佳具體實例,該鍵盤為稱音輸入 而特別設計。這些鍵盤1 030可簡易且快速的將排音輸入 系統1 000。標準美國英語鍵盤不適用於拼音輸入,也不 能輸入音調/發音符號。 圖2A顯示一新式键盤(1030,2000),它是新型改良式 美國英語鍵盤。在此特別較佳具體實例中,用部分鍵作聲 調(發音符號)鍵1 050,而以傳統方式使用其他鍵丨〇4〇作 為音節鍵1040,以輸入将音與其他語言(英語)的字母。 在一較佳具體實例中,一些少用的標點鍵指定為聲調鍵 1 050。在此僅作範例*指定"[,{"鍵為平聲(發音符號) 鍵2〇4〇 ’指定”],}”鍵為上聲(發音符號)2〇50鍵,指定 -15- 本纸乐尺度適用中國國家標準(CNS ) Α4規格(2丨0X29*7公嫠) --------„-----k-- (請先閲讀背面之注意事項再填寫本頁)
*1T
>^:,frp 來 士 I I 啊恭步(CT2S > (2 1。X297&^I
丨Ί© I 1 ^0¾ —唤夫舞命和錄碕皇2200 * 挪衅令i 2200和砷今# 歡2270 * ί 々单批画凇雖 ft a™- N 104-0 + ¾ 钟 禽(舞辱 Jr 1 典 —-\®4T>A#$ 神 ο ^ ο s ^ hfΓ χκ, ^ Lf 岭* 命飱(& $泰換( ^ Φ ^ i ^ r C雖Φ牟親W_^中線)21私。 TΦ牟辑)餘2 ο -^1- _^_ -、汁 _」 2 120 * l· $ < > X墙(蹲Φ o vr S ^ S* $ ψ Μψ β ^ ^ϋ W 隸)2 1 3 Ο )2150¾ Q ^r ^ Άί ΑΛ^ ^ :\ 二:餘 > 屮稂(痒Φ举薄)海2 O 6 O > 益M : : " :·揉鉍X堆 (蹲♦举辦)客2070。S诛募" 麻S —緣絮 海(20仁Ο丨20Τ0)舜忽 X、Θ如步榷装命命5拉各熬喵(拉塒 遗I才哳)吟翁激汫δ _碟布牟隸奋S綠。濟系私S微架 冷> Η翁机ΤΙΓ+外(批雄:> > 外(龄拉凑起命*錄_ )命乘S 舞命和雜碲喻α + * 啦才_t_加一雄Φ牟羯歡 '与龄墦(蹲♦ 举辨)餘 2 Ο 1 Ο 。令J θ s 1 -' p - : β ^w ο Μ ο Λν^ tr S β 。0扣 扣私降辞命卄外(供雜4外1 κ ) $、吟蚱5厘象飱湓 β '飪翁噼凇ί餘睹_ti^"alt:餘食鲥穿hs-zz-龄飱S餘 2020 * W雜來溫尊 >。和jit.扣錄Η皇奇 * 4Ϊ S舛:a I t "餘Λ 1 4麵:隊堂:禽2 Ο 3 Ο。'^Γ S氺S幸凇®歡 險漆Θ w Ρ味歡忍贪氺略夫益府 ' δ舞束命Ψ牟羯靠X 10 5 0 ο Β 2 ro冲療,ίΗ.凇$禽暗〆—-舞命和趨衅皇2 1 Ο Ο - ^ dp ^ ^r 4 i ^ ^ oo 4y * 奉雄冷牟绳禽一 ο β〇含祆凇狼餘睹 13
^χμ^Μμ >rj B7 蛵淹郎中央糅準局貝工消资合作社印袈 411421 at __________B7_ 五、發明説明(14 ) 整。在一較佳具體實例中空白鍵22 70分成四個區域 (2230,2240,2250,2260)。空白键的最左區域2230指 定為上聲(發音符號)2230。其旁邊的大區域2260用作空 白键2260,右手邊的兩個較小區域(2240,2250)分別指 定為入聲2250與去聲2240(發音符號),指定平聲(發音符 號)2220 為” alt"鍵》 這種配置是根據體工學,彈奏鋼琴時拇指最.重要,但打 字時極少用到。這種中文鍵盤於設計上在音調輸入時可更 迅速的利用拇指,新的空白鍵2260位於鍵盤中央,即在 ·_ F "," j "鍵之間》可用兩個拇指舒適的按下,因此空白 鍵的尺寸減小,於混合本文過程時絲毫不影響英語打字。 藉著彎曲拇指到手掌’可輕易的輸入四個聲調鍵(2220, 2230,2240,2250) - 純拼音輸入時不需要無聲調鍵22H),在此具體實例中, 僅於拼音輸入時將空白鍵2260當作無聲調鍵。在圖2匚中 入聲2250與去聲2240的位置與其通常語言順序(第三與第 四聲)相反,因為入音的使用率比去音約大二倍,這種相 反配置可減少疲累並改善效率。 混合本文過程(中文與其他非中文在一起)時,於某些純 中文本文過程的較佳具體實例中,將無聲調鍵221〇加 入。在此較佳具體實例中,指定無聲調鍵(發音符 號)2210為另一’’ait"鍵,指定一控制鍵228〇為"鍵。 閑2 D顯不鍵盤之另一較佳具體實例η 〇〇,這具體實例 使用分離空白鍵2370,如鍵盤2200,其有上2330、入 -17- 本呔標準(CNS ) Α4規格(21GX297公釐) β~ ^1 - I. I —ϋ I Γ n i 1- 1 ;泉 -1 K In I - ; (請先閱讀背面之注意事項再填寫本頁) 421 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(15 2350,與去2340聲(發音符號)位置。然而在此鍵盤23〇〇 中,空白鍵2370中央最大部分231〇指定為無音調調(發音 符號)23 10。一 "a!t "鍵的位置中有空白236〇功能。當使 用鍵盤2 3 0 0輸入混合本文時此特別有用。指定另一,,a丨t,, 鍵為平聲(發音符號)2 3 2 0。再次,指定一',控制"鍵為一 ” &1厂(鍵2380。此具體實例將無聲調鍵231〇定位於極方便 位置以便兩個拇指都能輸入。當系統1〇〇〇過程混合本文 時這更有用,因為常使用無聲調鍵23 1〇。 於鍵上加上額外記號以充實鍵盤23〇〇,例如中文的左引 號23 38與右引號2339不同,因此各指定一鍵。左234〖與 右2342標題記號,及圓點2344、省略符號2345,與小數 點2337都加進去。鍵入混合本文時也使用這些記號,中 文使用的逗號2336也佔有一鍵位置。 键的指定與再指定是以已知方法執行,如鍵盤丨0 3 0的配 置是系統1000記憶體(1100,1200)中的一個樓案1〇70, 以定義鍵的功能。在RS/6000中這稱為鍵盤翻譯表1〇70。 此表1070指定一字元通常是ascii字碼,.或控制鍵盤1 〇3〇 上的各鍵。藉著改變此表1 070中指定的鍵碼,即可改變 鍵盤1 0 3 0上鍵的功能。 使用者用鍵盤1 0 3 0鍵入(輸入)拼音或混合本文至系統, 使用者鍵入一中文(拼音)音節後,使用者鍵入與音節相關 的適當發音符號。當鍵入純拼音時,無重音音節(與功能 字)不需鍵入發音符號(或以空白替代)*當鍵入混合本文 (或於另一較佳具體實例中用以鍵入拼音)時,於各無重音 -18- 本紙張尺度適用中ϋ國家標準(CNS ) A4規格(210X297公釐) -----„-----------1Τ <請先閲讀背面之注項再填寫本頁) 經濟部中央橾率扃負工消費合作社印裝 A7 ________B7 五、發明説明(16) 音節(與功能字)後,使用者鍵入一無聲發音符號。非中文 字之後鍵入空白(或等效的字界限定界符號空白以一般 接受的字界限’定界掛音(中文)字,以改善系統1〇〇〇的 正確性。然而定界中文字供本發明使用並不是必要的參 考過程400。 才并音(或混合本文)輸入儲存在系統1 〇〇〇記憶體(丨丨〇〇, 1200)中。在一具體實例將輸入編碼成ASCII.格式。標準 ASCII字碼表具有英語字元的碼,與/或具有修正成包括 發音符號的GB23 〖2-80漢字碼。在一較佳具體實例,將 平、升、去,與入發音符號編碼用於各常用加重母音之大 小寫,以便在顯示的/列印的拼音音節中的母音上正確顯 示/列印發音符號。 圖3是一資料結構300之較佳具體實例,供拼音或混合 輸入的ASCII編碼。記憶體300區塊具有256個記憶體位 置’這些位置的編號為〇至255。數字也是ASCII字碼,其 指定給各位置/ASCII字碼》 ASCII字碼由資訊的單一位元組組成,包括下7位元部 份(表示位置0-127),及上7位元部分(表示位置128-2 5 5)。指定一記憶體位置給單一字元、標點,或控制功 能’例如指定位置6 6給大寫羅馬字母,,B ",指定位置2 7 給"E s c _',與指定位置3 3給·' !,,。 雖然羅馬字母、標點,與數字的定義完整,ASCII字碼 中0有許多保留空白。不同國家可在這些保留空白上指定 特別符號。 •19- 本紙故尺度適用中國國家橾準(CNS>A4规格(210X297公缓) n 1 - - - =1 ^^1 I I- I» I - HE I ^^1 -- (請先M讀背面之注意事項再填寫本頁) 411421 A7 __B7___ 五、發明説明(17 ) 用一聲調碼或記號表示各發音符號’在一較佳具體實例 中,指定五(或四個)聲碼記號中的每一個至記憶體位置, 其號碼(ASCII字碼)在所有ASCII字碼資料結構300 ( 7位 元從0至127)的下半部。用這些記憶體位置作通訊,因此 藉著指定號碼0至127的發音符號ASCII字碼,聲碼可在網 路1 090上通訊。在圖3的範例中分別指定ASCII字碼2, 3,4,5,6的位置給聲碼(記號)無聲3(H、.平3〇2、上 303 '去304,與入305,這些是美國ASCII字碼中的撲克 牌記號。 在此較佳具體實例中也指定各發音符號(平、上、去, 與入)之各母音(包括大小寫)一位置與一 ASCII字碼,該 位置與ASCII字碼是各母音能具有的。無聲調鍵可使用位 於A S C11字碼下7位元部分的英語母音。此外忽略具有發 音符號的大寫” I"與大寫” U _,’因為沒有音標音節是以這 些母音開始。於是指定ASCII字碼給具有發音符號的32個 母音名稱。在資料結構3〇〇的上半部,即號碼128_255之 間指疋A S C11字碼(1 2 8 - 1 5 9)給這些具有發音符號的母 骨a 翅濟部中央橾準局員Η消費合作祍印製 - -I 1-- - —It -I I n - 1— I - - 1 (讀先閲讀背面之注意事項再填寫本頁) 在圖形介面1 020上顯示拼音節及列印拼音節時,將唯一 的ASCII字碼給具有發音符號的母音就很有用。系統丨〇〇〇 使用以下列發音符號(3〇1_3〇5)鍵入的拼音音節,以顯示/ 列印正確拼音的音節,發音符號並且正確地在音節的母音 上。因此藉著使用在資料結構3〇〇位置128_159中指定具 有發音符號的母音,系統1 〇〇〇即能以傳統方式列印/顯示 -20 - 本^^中關家縣77^4狀(训哪公-- 411421 .¾濟部中央標準局員工消費合作社印¾ 五、發明説明(18) 才并音音節,而且發音符號在母音上面β例如按鍵輸入Pi nl 的拼音音節會顯示/列印成P i,η。 資料結構300上半部有發音符號的母音,即ascii字碼 128至159 ’此配置的優點是GB碼僅使用上半部ascii字 碼資料結構300中的160至255。因此具有發音符號的拼音 母音可與GB碼(及下7位元ASCII字碼)一起儲存及傳送。 圖4顯示一新式過程4〇〇 ’其鍵入一彳并音音節至真實媒 體如電腦記憶體(ΠΟΟ,1200)或顯示器(1〇2〇)。在一較 佳具體實例中過程400提供一拼音檢查器,及一自動偵錯 及改正過程,其藉著按鍵(或其他方法)檢查鍵入系統 1 000的音節。過程4〇〇也允許混合的中文與非中文(如英 語)本文,以最簡易的方式鍵入、處理,及儲存。輸入單 元是系統I 0 0 0執行的輸入過程4 〇 〇。 在步驟401使用者在鍵盤103〇上按鍵輸入一音節(中文 或非中文)’若音節是中文,則在音節之後輸入表示音節 音調的發音符號’(於本文輸人中使用無聲發音符號)。非 :文字如英語之後不輸人發音符號,接著辨識4()2非中文 罕,因為用特別定界符號如空白將其定界。 以純中文本文為例,在某些具體實例中不必於無立 或功能字之後輸入發音符號,雖然純中文本文輸入二不: 要,藉著於中文字之間字的界限,輸入定界符號以改 統圆正確性,該中文字已建立良好的字分離 ^、 可以在字的界限輸入定界符號如空白或其他碼(如雙: 符號,"ESC”)而達成,在此例,於4〇3中參考已建好^ -21 - -------------- <請先閱讀背面之注意事項再填{Sf本頁) 訂 '1 — —^ϋ - I I* .11— I · 411421 五、發明説明(19 ) 離的中文字表,以使其與非中文音節/字區別。 到達音節(或非中文字)的末尾時,系統1G⑽即讀取 音符號如按下的音鍵(或空白)。纟某些處理純中文本文二 具體實例巾’可省略無聲發音符號。在這些範例中,有些 無聲(與未作記號的)音節互相附加在一起。為了剖析這: 音節404,將字串與音節字典7〇〇比較,字典7〇〇中最長= “ρ與第-輸入竽串相it ’若部分輸入字串與最長字串匹 配,則用該匹配字串作音節輸入,並從輸入字串中刪除, 於輸入字串的剩餘部分重覆該過程,若在音節字典7〇〇中 的最長字串中找不到匹配者,則比較音節字典7〇〇中下— 個最長字夢,重覆此過程直到輸入字串中所有的音節都已 比對過。㈣程稱為「最長字串比對」演算法,其範例很 著名,可參考,,本文存取中的中文本文分段:成果與問題 作者Z ‘吳與G 冒,發表於美國資訊科學學會雜結, Vol. 44, No. 9, 1 993 年 10 月,p532_542,該文章在 ^作 為參考。 每濟部中央蟑準局貝工消費合作‘社印裝 f I — 111 I 11 ϋ 訂 ί靖先¾讀背面之注意事項再填寫本頁} 在某些輸入純中文本文與混合本文處理的較佳具體實例 中,用無聲調鍵以中文記下未加重音節。在這些具體實例 中所有的中文音節都編碼(作記號),並且用發音符號清晰 足界。因此可清晰的記下本文音節界限。此具體實例允許 使用中文晋節縮窝’因為縮寫也可清晰定界,並藉著加在 音節表700作唯一地辨識。音節縮寫的使用大量減少輸入 音標中文本文時的按鍵次數需求。 在步驟4 0 2的混合本文處理中,系統丨〇〇〇決定音節是否 -22- 本紙乐尺度通用亡國國家標準((:阳)六4規格(210/ 297公釐) 411421 A7 B7 經濟部中央樣準局員工消費合作社印製 五、發明説明(2〇 是中又音節。若在音節後有—發音符號(包括益聲發 说),則音節是中文404。若無發音符號則音節(字)是二中 又,如英文如。用㈣文字的定界符號也可辨識非中 又’用處理這些語言的已知系統再處理非中文字如稱音 檢查。 ^下音鍵(四聲調鍵之-或無㈣鍵)時,電腦辨認出此 先則;母表示拼音音節404,並餅音檢查4〇5該音節,即 當成縮寫或另一種拼音408,或偵錯等檢查4〇8。這些步 驟(405,407,408)用圖7的中文音節表資料結構7〇〇。一 圖7的中文音節表700是國語之較佳音節表,因為國过 (包括不同音調)共有13〇〇個以上的音節,因此可方便: 二二位元組碼空格(65536個空格)的一小部分編碼這些音 節。指定唯一的二位元組碼或短整數給各音節,明確而: 指定中文音節表700中的:位元組碼給代表各音節^ ASCII字碼串,例如指定二位元組碼"814,,給國語拼音音 節Pi,n,各音節對應一標準拼音形式,包括正確母音:二 音調發音符號。為了將縮寫加在表7〇〇上,指定相同的二 位元組碼給縮寫作為縮寫音節。例如指定M2給縮寫 "d" ’在音節表7〇0上代表的,,de"碼,即,,d,,縮寫該音 節。音節表700需要較小的記憶體(丨丨〇〇 , i 2〇〇)空間。 遇到中文音節404後,系統1000即搜尋中文音節表7〇() 以找到匹配者,若找到匹配者,即用標準拼音4〇5輸入音 節404,即中文音節表700上的拼音,並且用中文音節表 700上匹配字的雙音節字碼,取代輸入的按鍵字争。例如 23- ----------------- (請先W讀背面之注意事項再填寫本頁) 本纸張尺度適财關家辟(CNS) ·21〇χ2974楚 411421五、發明説明(21 A7 B7 赶濟部中央標準局員工消f合作,社印裝 若輸入中文音碎P_in ’則系统1000用ASCII字碼串{ 80, 105,110,6}表示按鍵,參考圖3。當檢查中文音節表 700的匹配者4〇4時,系統發現此字_對應^^,其由二位 元組碼814表示,參考圖7。因此在記憶體中用二位元碼 814取代此音節的ASCII字碼串,因此若偵測到4 〇 5標準 拼一即在記憶體1 〇 1 〇/1020中儲存4 1 2整個音節,此係 1300個中又音節(二位元組碼)之一,並顯示.在螢幕4 11 上,而音調發音符號正確的在母音上。此拼音顯示器 係顯不在顯7F拼音的圖形介面丨〇2〇區域丨〇2丨中。 同理,若使用者輸入一中文音節之縮寫或速記挵音則 代表速記拼音的ASCII字碼即與中文音節表7〇〇中的資料 比幸父406,若找到匹配者,則轉換4〇7速記(縮寫)音節成 正確冗整拼音音節形式,此係藉著對應正確完整拼音音節 的二位元組碼’取代速記拼音的輸入AScn字碼α具有字 碼的縮寫再度加在中文音節表7〇〇上,該字碼可列印縮寫 的冗整音節》 以下是中文音節之縮寫或速記拼音的範例,例如,,z i,,, ”Si","Ci","ji","qi”,"xi"可在不產生混淆的情況 下拼成"Z,,* " C "," s,·," i " q 同理 y "y u"可在不產生混淆的情況下拼成"i ” 其他速記如,,shg_,替代,’sheng"、”xg”替代 ”xing"、"qag1'替代” qiang”、替代,’jia〇"等皆 可夺不產生混淆的情況下辨認。 在具有音節分離記號的音節中,音節分離記號如 vv u ,,V,, -24- 本紙張尺度適用中國國家標準(CNS ) A4規格(2ΐ〇χ297公釐) 翅濟部中央標準局員工消費合作社印繁 411421 五、發明説明(22 "Xi’an”可在打字時一起避免,雖然顯示時其應該出現。 使用本系統丨000與過程400,則上述速記打字之範例會 很方便且不需學[稍微學習後可増加速記音節的數目 (加在中文音節表7 〇 〇 )。 若偵測到408錯誤拼音,即在表7〇〇中找不到,則顯示 409最可能的音節,這可藉著自中文音節表7〇〇中選取可 能的參考表,即最佳匹配者丨023而達成。使用者使用選 擇裝置如滑氣1031或一鍵,自表中選取4〇9正確的音節, 與先前相同,電腦將此選取的音節編碼成二位元組值,並 儲存在記憶體4 1 2中。 若沒遇到413定界符號如空白鍵、輪人鍵,或標點鍵, 則過程400於次一音節中重覆415。若遇到定界符號則儲 存整個_列為字_ 414。在螢幕上顯示此字_的正確拼音 拼字於圖形介面1020的拼音部分1〇21 .備註,當輸入定 界符號(根據一般接受的習慣)時,梘定界符號間的字串 4 14為單一字,而字將具有以定界符號作記號或編碼的唯 一字界限。然而若定界符號未放在各元素字界限中,則字 Ψ414可包括二個或多個字(元素)與/或附加字,例如當沒 有一般接受的字界限以定界元素字時。 在步驟414,編碼拼音形式的本文也可用印表機丨〇8〇列 印成拼音音節,該印表機具有特別的唯讀記憶體1080, ROM,其藉著需求音節之正確母音上的音調符號,將表 700的二位元組碼轉換成一率羅馬字母。接著以拼音形式 連續印出可讀的本文,與供外國人使用的所有中文會話教 ^Ε. --- I } i// ^^^1 · ^^^1 i) ^^^1'* (請先閱讀背面之注意事項再填寫本頁) -25 2 10: 丨Mo)- 命5 Ο O s ¢^-魂命 00 0 势ΐ雄造 他衷(拉綠)。命笨异i S微θ辦辟 姆 β f 择 w m - IP 4 ft Μ- $ f β ry S ^ ^ , S 4 $ # 1。衹S喵3沖系_EL/椒3择释扭择 4^ ^Ύ us^ ' lf ΐ + 3康许3架Ψ VP ^r。皆J會啉4 K /哳 501 知诘一哳 ^ β $ φ β 4Π - t J, ^ mT φ β 4U 外1 Ο 2 5。斧导鸯Φ1022靼/涔ί挪哳1025卄霉> $ Η發4, W 1 Ο 3 4 "择f 雜知拉淳猫Η會批猫。 萍/¾ 蜂商&歡險1 Ο 3 Ο 汸今& 1 Ο 2 OS菜冷盘 幸緣Φ牟舞泮私θ A β sn Η ο Μ L· Ur S ^ ρ 0 4 S 4 - 4 3 I 飱S Μ ,弟1 Ο 3 3,椒3 $溥5架φ卄外尊 ®微5 Ο Ο發痛尊\ 卄 S ΜΨ 砰 > 菜冷淋哳發端1025。伽扛 ^ Μ o w o vx s s, N t Lr 1 p Μ o ^ o f i 旅雜 1 O 3 2 兹稱 ^ 4 $ rM,梁一 ο ο o 奇 Λ.I φ ^ β 4, ^r β Μ ο ο ο β χ^. ^ αλτ 02
S tr ^ φ β '柄 -S-扣 Η loK)to(s^M4- Ρ5 Ο Ο hm— s ^ Λ7 $斗皿3 s 5poo 4 10 3 0」 B违冷φ ^ s , B ^ ^ ο o 4 $ ^ f ^ p β - _避夺102叻和8¾今& 1020 si料哳袅今102仁。0
e S許翁涵沖私W笨Φ如 ^ yr ^r ^Γ 一 ο ο ο ο L^r ,—' Λ^> JP S敢禽霉 > 装φ > Η 1 Ο 22 & 1 Ο 2 Ο S菜命盘今1021 fl I '年 S 势 s <; 23 > 办μμΛΜμ A7 nsl s u^ ΐ - s' 0 4 s 4, ^ 3 tsr β β -fe- Ur Jwq Ur 5 s ψ β 睹 x^r 笨frr El Ο Ο & (卹婶料) 經濟部中央樣準局員工消費合作社印製 411421 A7 ----------B7 五、發明説明(24 )、 或拆字串。因此本發明能在字_中決定元素字,這可 使用字彙950與上述「最長字串匹配」演算法而作到。β 本發明也能以下列習慣正確處理排音成為漢字,i.附加 字包括在字之中’或2.將附加字當成與字分離的質詞。在 -較佳具體實例中,視第二類附加字(質詞)為功能字。對 習慣1而言,過程500執行語形學分析’即去除包括在未 辨認字(習慣”中的標準附加字,在沒附加字的情況下分 析剩餘纟串(字根),於後續過程中視纟㈣附加字為一功 能字* 過程500用語形學處理字串輸入,語形學研究語言中字 的形成’本文的字形特別是指附加字,以及附加字如何影 響子意。多數歐洲語言如英語、德文、西班牙文、芬蘭 文,與匈牙利文的拼字法中.字意是依使用的附加字而 定,例如在”Calvin and Dorothyis Depanment ”這 句英語中’ ”s”屬於"Ca丨vin and Dorothy ",但僅附加在 丨,Dorothy ” 後。 過程500首先分析輸入字或字串的語形學,例如在步驟 414之中。演算法首先將輸入字(字_)5〇丨與一已知字彙 950相比510,字彙950是音標中文字與/或具有相關漢字 翻譯的縮寫(拼音與/或BPMF)的表,也可使用中文字典 950 ’這種字典950很著名,例如1 989年語言出版社出版 的「漢語拼骨字彙j ’藉著合併其他已知字典,並/或增 加t文字’其具有來自其他來源的漢字翻譯。 若輸入字501(字或字串)與字彙51〇中的一個或多個字 -27- 本紙張尺度遘用中國國家標準(CNS ) A4规格(210X297公釐) (讀先聞讀背面之注意事項再填寫本頁) ik- A7 B7 411421 五、發明説明(25 匹配,則檢查5 11其唯一性。若無混淆,即在^ 僅有皁一匹配者,則將該字轉換成漢字形式 510中 漢字部分1024。若混淆(即在字彙(51〇,95〇)中550在 上漢字形式對應輸入字501的音標),則儲存 以 一步考慮(步驟540)。 子作進 若輸入字501不在字彙中’則在輸入字(字串丨上 行語形學分析,於步驟522將部分輸入字與功能詞素表 附加罕相比。較佳的附加字表8〇〇如圖8所示若找到= 準附加字,即位於附加字表8〇〇上,則去除找到的: 加字,再將輸入字(字根)的剩餘部分與字典95〇比較 5 1 〇。若字根的根在字彙中,即跳到步驟5丨丨。若字根不 在字彙5 10中,但是字根522中有許多附加字,則重覆步 驟524以處理剩餘字根中的任何其他標準附加字。 若5 22辨認不出標準附加字,即輸入字5〇丨中無字串在 附加字表800中’則拆解53()字串/字根β在一較佳具體實 例中’藉著比較字根與字彙95〇以使用上述r最長匹配 法」拆解字根》 若字串由一種以上元素組成,則搜尋各元素之唯一性 5 3 1。若一元素是唯一 53 1,則视此字為複合字,並顯示 且記錄550漢字的對應字串。若該字混淆53 i ’如輸入字 501的一個或多個元素具有一種以上漢字翻譯,以及/或有 一種以拆解字串的方法,則儲存這些替代字作進一步考慮 (步埤540 )。 在步驟5 40判定整個片語(或子句或句型),即輸入字串 -28- ^------1T {請先聞讀背面之注意事項再填窝本頁) Μ濟部中央橾準局員工消费合作社印裝 本紙張尺度通财關家辟(CNS > ( 2獻297公幻 411421 A7 B7 五、發明説明(26 ) " 501 ’為字串’使用者指定片語定界符號如標點、輸入 键,或任何其他片語定界符號,以定界該字串。分析整個 片語以決定混淆字的意義,參考以下圖6的過程6〇〇,步 雜540後’於步驟550中以漢字形式顯示整個句型(片語' 子句)。若任何錯誤在步驟56〇,於圖形介面1〇24的本文 顯示5 60中’使用者可以人工56ι方式改正片語、句型或 子句。 - 為了幫助解說以下(過程600)本發明使用的造句分析, 現在討論發現的語音學(音調與重音)、功能字、質詞、附 加字與觀念字等之音標特性。 在中文會話中常忽略一重要音標現象,中文與世界上所 有口述語言一樣,除了僅藉著個別音節字串提供資訊外, 還有大量的資訊是由語音提供》各中文字具有一重音結 搆,這導致字的語音常是了解字意之重要因素。音節如何 結合而形成一個字,可影響重音結構、語音,以及對字的 了解。 再度聲明,字(結合音節)的分離與字的相稱重音結構 (語音),是口述語言中傳達資訊之一部分。中國語言的音 調也是語音的重要一環。中文音節的音調僅在重音節中才 明顯。至於無重音的音節,則音調大致很弱或完全消失。 備註,在多數語言中,包括中文,都有功能字與觀念 字。觀念字包括:所有的名詞、所有的動詞、所有的形容 詞,與語言中多數的副詞。例如:跑、快,與快速都是觀 念字。功能字包括:冠詞、介系詞與某些連接詞。例如 • 29- 本纸乐尺度適用中國國家標準(CNS > Α4規格(210Χ297公釐> (請先聞讀背面之注意事項再填寫本頁} % 郎中央樣箪局員工消費合作社印裝 411421 μ 五、發明説明(27 ) - 一、該、至、從、而且、但是等,都是功能字。視為分離 質詞的附加字具有功能字之特性。 中文的功能子係未加重音,主要是表達文法關係與/或 其他字的功能,而非表達語句的意義。功能字包括:介系 詞、助動詞、連接詞、副詞、感嘆詞、冠詞,與某些代名 詞。中文的功能字(冠詞、介系詞、後置詞等),質詞形式 的附加字’與多音節字中的任何附加字總是不加重音。^ 能字(與質詞形式的附加字及多音節字中的附加字)都是1 聲或大致上是弱聲〇 ‘ 觀念字是具有完整語句意義的字,中文的觀念字包括: 所有的名詞、所有的主要動詞、所有的形容詞’與多數副 司。觀念字包括中文中所有非功能字的字,觀念字的重音 結構依方言而定。 9 直到目前仍不清楚一個人在聽語言時,是如何直覺地辨 餘念字與功能字,以了解語言中的彳,此現象在十國語 s尤其真貫,因為中文功能字的音調與附加字很微弱或完 全消失,因為中國語言已知僅有少數可辨識的功能字,人 們在聽中文時直覺上用功能字了解對方說的話。 經濟部令央標隼局員工消費合作社印製 為了進一步擴大了解功能字、觀念字,與音調對於了解 中國語言之重要性,現在檢視觀念字的重音結構與功能字 (與附加字)的使用。 一上海方言是觀念字重音結構與功能字使用之最佳範例, 每—觀念字以重音節開始,其具有明顯音調,字中所有的 其他音節完全沒有重音,因此第一音節後之音節音調是無 -30- 本紙張尺度相巾®邮刹t (CNS ) ( 21GX297公慶) 蛵濟部中夬樣準局負工消費合作社印製 411421 μ B7 五、發明説明(28 音的,例如上海話的名詞「問題」與「電話」永遠在第— 音節是重音。 上海話的功能字沒有重音’當功能字接在觀念字之後, 有時可視功能字為該觀念字的字尾(即附加字),而非質 詞。然而部分發現是從聽者的觀點出發,這兩種解釋(功 .能字是一質詞或一字尾)並無實質差異。 至於北京話與國語的重音結構則稍有差異。. 多數的北京話中’觀念字的重音是第一音節。然而有許 多例子的重音是在最後音節,而不是第一音。 國語是標準中國語言,國語中,字的重音通常在第—音 節在某些具有二音節以上的字中可察覺到组織的重音結 構,即加重第一與最後音節,而兩者間的所有其他音節則 辨重音並且具有極弱的音(或無聲)。國語中的多音節觀念 子至V具有一個重音,通常在第一音節。例如在音節串n 抬起來中,僅第一音節"抬”具有重音,至於剩餘的兩個 2節,不僅音調能量大量減少,而且音調大致上微弱或完 全消失。在片語"抬不起頭來”中,僅有兩個音節"括,,與ι_ 頭是重音,剩餘的音節"不”、"起",與,,來”都是弱音, 且無聲或幾乎無聲。備註,來是無聲附加字,習慣上當成 分離質詞書寫。 ^ 在北京話與國語中原則上功能字無重音,而功能字的音 碉則很弱或消失(退化)。 發現指出聽者於聽中文時,是直覺使用觀念字的重音結 構(有音調節與無音調節)與無聲功能字(與附加彳)以區分 -31 - 本紙張尺度邮297公廣- ^—^1 ^^^^1 n^l A3. ^ {請先閲讀背面之注意事項再填寫本頁) 411421 A7 B7 — - ___ 五、發明説明(29 ) 字界限,將字分類’及判定字的意義。此自然音標現象與 中文語言學者的不同哲學觀點’以及/或一個人如何以中 文書寫字或片語無關’本發明根據此現象發展及應用,並 以適當過程實行這些規則,以改良音標中文處理(鍵入、 分析、翻譯,與書寫)之正確性。 已全部討論完發現的音標關係,直到現在其仍是先前尚 未認識者,以下的討論解釋過程6 0 0如何使用這些關係在 造句分析中。 圖6是一新式造句分析法’如過程600所示,過程用上 述發現與說明的原理,分析整個片語(或子句,或句型)。 鲤濟部中央榡準局員工消費合作社印褽 I- . -- - - - - m^i ϋ^. - =1 -- —I - - In (請先閲讀背面之注意事項再填寫本頁) 用片語定界符说如標點、輸入鍵,或使用者指定的任何 輸入,定界字串(子句或句型)501。在一較佳具體實例中 這些定界符號或片語定界符號附包括:空白(鍵2360)、片 語記號(鍵2336)、中文句點2335、左引號(鍵23 3 8) '右 引號(鍵23 3 9)、左標題記號(鍵2341)、右標題記號(鍵 2 3 42)、驚嘆號(鍵23 11) '逗點(鍵23 12)、斜線(鍵 23丨3)、左括號(鍵2314)、右括號(鍵2315)、冒號(鍵 2 3 16)、分號(鍵1 3 1 6)、圓點(鍵2344)及問號(鍵23 17), 任何音鍵(2310 ’ 2320,2330,2340與2350)上的雙引號 也是片語定界符號。(括號中的鍵指定為此鍵盤2300具體 實例中的鍵,以輸入片語定界符號。)這些片語清晰定義 字的界限’即片語的末尾與另一片語50 1的啟始。 具有一或多個混淆字的片語如步驟5 1 1與5 3 1定義者, 輸入60 1至過程600,造句單元是系統][〇〇〇上執行的過程 -32-本紙張尺度適用中國國家標準(CNS)A4規格(21〇 乂 297公釐) 經濟"中央樣m局員工消費合作权印装 411421 五、發明説明(3〇 ) 600 * 首先藉著任何音調發音符號的存在將片語6〇ϊ的字元素 刀類’具有至少-發音符號61G的字是觀念字62〇。 然而無發音符號611的字,可能是:無意中省略發音符 號的硯念字 '㈣文字、功能字、附加字或書寫成獨立質 詞的附加字。在混合本文輸人中用空白(或另_相等字元 如” E s c。定界,因此可以辨認。 為了判無發音符號611的字是否是功能字,將字6ιι與 功能字表800比較,根據多數語言學者的意見,功能字的 數目限制在-百個以了,若字611在功能字表議上就 是功能字。各功能字的意義係唯一定義,較佳的功能字表 800如圖8所示。 同理,可以比較無發音符號611的字與附加字表(也包括 在表800中),以決定其是否是附加字與/或書寫成獨立質 詞的附加字。這些獨立質詞的意義係唯一定義。較佳的質 詞附加字表也比較短,只有2 〇筆以下的資料。具有漢字 翻譯的質詞附加字包括在圖8的功能字表上。 列出功能字、質詞,與附加字的資料結構8〇〇,僅佔有 較小的電腦記憶體空間(1丨〇〇,1 2〇〇)。 一互辨識所有的功能字(與/或質詞附加字),因此是唯 一足義’在步驟630分析片語/句型結構。因為已知功能字 (質凋/附加字)的意義與功能,任何特別功能字(附加字) 疋W與1後的字的類型都是有限。因此藉著使用具有—或 多個功能字(質詞/附加字)的混淆觀念字之關係,可以在 -33- II----------^衣------ΪΤ {請先W讀背面之注意事項再填寫本百) 本纸張尺纽財 _ ( CNS ) A^i:( 2[〇x 297^T) 經濟部中央標準局員工消费合作枉印裝 411421 a7 B7__ 五、發明説明(31 ) 步驟640再減少任何觀念字的混淆。例如若於過程5〇〇的 步驟540中,對於一混淆觀念字可辨識五個可能字,藉著 已知混淆字之前或之後的功能字(附加字),可去除這些可 能字中的部分或一個字以外的所有字。 例如視為功能字的介系詞8 1 〇列在圖8上,這些介系詞 必須位於名詞或名詞片語之前’若這些介系詞之後的任何 觀念字具有一種翻譯,其不是名詞或名詞片語·,則去除此 處淆翻譯。 時態質詞8 2 0 (來、在、過)通常接在動詞後,因此其後 具有這些質詞的任何混淆觀念字,都翻譯成名詞片語。若 此觀念字的任何其他翻譯不是動詞,則刪除它。 關係質詞830 (的、此)通常在名詞或形容詞之後,因此 其後具有這些質詞的任何混淆觀念字,都翻譯成名詞或开^ 容詞,其他混淆翻譯則刪除。 連接詞(係、及,與間)840是功能字,通常在名詞之 間,因此在這些連接詞84〇兩邊的任何混淆觀念字都翱譯 成名詞,其他混淆翻譯則刪除。 連接詞8 5 0是功能字,通常在片語之間,在這些連接詞 8 5 0兩邊的任何觀念字都視為片語的—部分。 名巧字尾860是附加字,通常是名詞的一部分,這些字 尾860之前的觀念字翻譯成名詞,其他混淆翻譯則刪除。 也有形容詞與副詞字尾87〇包括:和 '如、不,與見。 這些字尾(質詞)之前的任何觀念字,其具有非形容詞或副 詞的翻譯者,都去除。 -34- 本纸乐尺度適用中國國家標隼(CNS ) Α4規格(---------- (請先聞讀背面之注意事項再填寫本頁) 裝
,一5J 411421 A7 ____— B7 五、發明説明(32 ) 這些規則中的少數例外,可能導致翻譯錯誤,但可用手 改正。 備註,表800不包括功能字、質詞,與附加字的縮寫, 縮寫可包括在其他具體實例中。 若在步驟640中有剩餘的混淆,即仍存在一個以上可能 的觀念字,則應用641出現在片語中相關字的統計,以預 測剩餘的參考觀念字中最可能的字。這類的統計模型64 ! 於語音辨識界很著名,例如拉賓納與鐘所著的「語音辨識 入門」1993,P447-450,該文在此作參考。 在一較佳具體實例中’結果顯示650在圖形介面1〇2〇的 漢字部分1 024上。若有無法清晰解決的字,則剩餘的參 考字出現在圖形介面1〇2〇上供使用者用指標裝置1〇31選 取。此外使用者650也可以人工方式改正顯示結果65〇, 1 025 =在另一具體實例中’最後的顯示可列印在列表機 或經由網路連接1 〇9〇傳送。顯示結果丨〇34也可以漢字輸 入至其他電腦系統’如翻譯器丨034可翻譯漢字本文成為 他種語言。 麵濟部中央標準局員工消费合作社印製 {請先閲讀背面之注意事項再填寫本頁) 藉著使用過程500與600,系統1000能判定輸入字501中 元素字的意義與漢字翻譯,即使字並未根據任何一般接受 的習慣分離,或定界在一界限。 藉著本文業者可發展出在本發明者考慮中的相等具體實 例。例如圖2 D的鍵盤可設計成包括3 7個BPMF注音符 號’此注音符號的鍵盤設計依使用者/製造商的選擇而 定。3 7個符號的ASCII字碼可設定在圖3的上7位元區 域’ BPMF的發音符號也可設在鍵盤上及ASCII字碼表, 然而需要作某些修正,例如要提供高聲的發音符號。音節 -35- 本紙張尺度適用中國國家標準(CNS ) μ規格(2丨0X297公釐} H1421 A7 B7 轉濟部中央樣準局員工消費合作社印繁 五、發明説明(33 ) 1 1 I 表700與功能字、質詞 ,及BPMF的附加字表800與拼音係 1 1 1 一對 一對應,而圖4, 5與7的過程仍 然適用。 1 I 元件符號說明 先 聞 1 1 f 301 聲調碼(記號)無聲 1070 鍵盤翻譯表 讀 背 之 1 1 1 302 303 平聲(發音符號)鍵 上聲(發音符號)鍵 1090 1100 網路 主記憶體_ 注 意 事 項 再 1 1 1 304 305 去聲(發音符號)鍵 入聲(發音符號)鍵 1200 2010、 記憶儲存裝置 2020無聲(發音符號)鍵 填 % 本 頁 1 V 1 | 300、 700、800、950 資料結構 2030 重覆"控制"鍵 1 1 400、 500、600 過程 2040 平聲(發音符號)鍵 I | 1000 系統 2050 上聲(發音符號)鍵 1 1 1010 CPU 2060 去聲(發音符號)鍵 訂 I 1020 圖形介面 2070 入聲(發音符號)鍵 1 i 1021 第一區域 2110 無聲(發音符號)鍵 1 | 1022 拼音字元 2120 平聲(發音符號)鍵 1 1 1024 第二區域 2130 上聲(發音符號)鍵 1 1025 漢字字母 2140 去聲(發音符號)鍵 Ί 1030 鍵盤 2150 入聲(發音符號)鍵 1 I 1031 指標裝置 2200 鍵盤 ! 1 1032 磁性媒體 2220 平聲(發音符號)鍵 1 i 1033 元件 2230、 2240、2250、2260 區域 1 1034 語言翻譯器 2270 分離空白鍵 1 I 1040 音節鍵 2280 控制鍵 1 1050 聲調發音符號鍵 2300 鍵盤 1 f 1060A、B發音符號鍵 2310 無聲(發音符號) i I -36- 1 1 本紙張尺度適用中國國家標準(CNS > A4規格(210 X 297公釐) 411421 蛵濟郎中央樣準局員工消費合作社印裝 A7 B7 五、發明説明() 34 2320 平聲(發音符號) 2342 右標題記號 2330 上聲(發音符號) 2344 圓點 2336 片語記號 2345 省略符號 2337 小數點 2350 入聲(發音符號) 2338 左引號 2360 空白功能 2339 右引號 2370 分離空白鍵 2340 去聲(發音符號) 2380 控制鍵 2341 左標題記號 ---------i -- {請先聞讀背面之注意事項再填寫本頁) -37- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)

Claims (1)

  1. -濟部中央榡牟局員工消費合作杜印製 Λ8 B$ C8 D8
    岭澧 ί ^42l| 申靖專利範圍 1‘〜種輪入中文注士太-姿♦ 祛: ° 5本又至電腦系統之鍵盤,此鍵盤包 說音節輸入鍵,夂立热 元;及 曰^輸入鍵代表一或多個宇 2·根據ΐ聲網鍵’各聲調鍵代表-或多個音調。/ =專利狀鍵盤,於触聲 心例,四個發音符號包括:平聲'上聲、去聲有: :::請專利範圍第丨項之鍵盤’於該組聲調鍵中有五 日嗎,五個發音符號包括:無聲'平聲、上聲、 聲,及入聲。/ 古 =據申請專利範圍第丨項之鍵盤,此鍵盤係美國英語鍵 而且茲组聲調鍵取代美國英語鍵盤上—或 點鍵。 &夕调標 =據申請專利範圍第丨項之鍵盤,此鍵盤係美國英語鍵 盛,其耠著鍵盤上一群方向移動鍵將該組聲調鍵站人 成群。’ 'Q w 6-报據申請專利範圍第1項之鍵盤,鍵盤之空白鍵分成兩 或夕個區域’而一或多個區域係一聲調鍵,以代表一 或多個音調。 7·根據申請專利範圍第6項之鍵盤,空白鍵區域包括:— 或多個左邊區域,一或多個右邊區域,及一中間區 域,其位於左邊區域與右邊區域之間。 8·根據申請專利範圍第7項之鍵盤,中間區域係一空白 -38- 本紙張尺度適用中國國家揉準(CNS > A4洗格(210X297公釐) (請先昶讀背面之注意事項再填寫本頁} -訂 -濟部中央榡牟局員工消費合作杜印製 Λ8 B$ C8 D8
    岭澧 ί ^42l| 申靖專利範圍 1‘〜種輪入中文注士太-姿♦ 祛: ° 5本又至電腦系統之鍵盤,此鍵盤包 說音節輸入鍵,夂立热 元;及 曰^輸入鍵代表一或多個宇 2·根據ΐ聲網鍵’各聲調鍵代表-或多個音調。/ =專利狀鍵盤,於触聲 心例,四個發音符號包括:平聲'上聲、去聲有: :::請專利範圍第丨項之鍵盤’於該組聲調鍵中有五 日嗎,五個發音符號包括:無聲'平聲、上聲、 聲,及入聲。/ 古 =據申請專利範圍第丨項之鍵盤,此鍵盤係美國英語鍵 而且茲组聲調鍵取代美國英語鍵盤上—或 點鍵。 &夕调標 =據申請專利範圍第丨項之鍵盤,此鍵盤係美國英語鍵 盛,其耠著鍵盤上一群方向移動鍵將該組聲調鍵站人 成群。’ 'Q w 6-报據申請專利範圍第1項之鍵盤,鍵盤之空白鍵分成兩 或夕個區域’而一或多個區域係一聲調鍵,以代表一 或多個音調。 7·根據申請專利範圍第6項之鍵盤,空白鍵區域包括:— 或多個左邊區域,一或多個右邊區域,及一中間區 域,其位於左邊區域與右邊區域之間。 8·根據申請專利範圍第7項之鍵盤,中間區域係一空白 -38- 本紙張尺度適用中國國家揉準(CNS > A4洗格(210X297公釐) (請先昶讀背面之注意事項再填寫本頁} -訂 經濟部中央榡準局爲工消費合作社印袈 411421 A8 B8 C8 ________m 六、申請專利範圍 鍵而或多個左邊與右邊區域係一聲調鍵,以代表 一或多個音調* 9. 根據:請專利範固第7項之鍵盤,中間區域代表一無聲 發音符號,而一或多個左邊與右邊區域代表—或多個 音調。 10. 根據申請專利範圍第9項之鍵盤,左邊區域之一代表一 ^第右邊區域,代表一入聲,及第二古邊區域代 表一去聲I» 11. 一種處理中文語言本文之電腦系統’包括: 一電腦記憶體; 一輸入裝置’以輸入複數中文音標語言音節至系 統’各音節具有一或多個字元,輸入裝置以發音符號 於一或多個重音節上作記號,以表示重音節之音調; ,一輸入單元,以提供各字元之字碼,及各發音符號 之聲碼,該發音符號由輸入裝置輸入’輸入單元辨認 一音節為一串字碼,該串字碼以聲調鍵作記號; 一音節表,具有複數音節串,各音節串具有一或多 個q節串碼,輸入單元將記上發音符號碼之字碼串與 一音節_碼比對,並將音節串之音節表示與音節串 馬儲存在電腦記憶體中,該音節串碼匹配記上聲碼 之字碼串。 12. 根據申請專利範圍第丨丨項之系統,其中文語言本文係 拼音β 11根據申請專利範園第11項之系統,其中文語言本文係 本紙乐尺度適用 CNsTa4^( 210X297^) i------ir------.^ (請先聞讀背面之注意ί項再填寫本頁) 41X421 A8 B8 C8 D8 經濟部中央標準局負工消費合作衽印褽 六、申請專利範圍 BPMF V M.根據申請專利範圍第丨丨項之系統,其輸入裝置係一鍵 盤’具有一或多個鍵以輸入發音符號。 Ϊ5.根據申請專利範圍第i丨項之系統,其輸入裝置係一聲 音裝置,以輸入口述中文。· 16.根據申請專利範圍第丨丨項之系統,此系統又包括一印 表機及音節表示,其儲存於電腦記憶體中·,並轉成列 印音節,其印於印表機上。 π.根據申請專利範圍第u項之系統,此系統又包括—圖 形使用者介面及音節表示,其轉成音節本文’其顯示 在圖形使用者介面上。 18_根據申請專利範圍第丨丨項之系統,一或多個音節_碼 表示相關音節串之縮寫γ 以根據申請專利範圍第丨丨項之系統,若沒有音節串碼匹 配疋有聲碼之字碼_,則輸入單元於圖形介面上提供 最佳匹配給使用者。 20. 根據申請專利範圍第丨丨項之系統,其輸入單元辨認字 碼串為一非中文音節,而於字碼串上並未有聲調碼作 記號。 21. —種處理中文語言本文之電腦系統,包括: 一輸入裝置,以輸入一音標中文語言片語,片語具 有一或多個字,各字具有一或多個音節,各音節具有 或多個字元’片語係一字串,位於第—與第二片詳 定界符號之間; Q -40 CNS ) A4«A( 210X297 公釐) 1------1T------V (請先聞讀背面之注^^項再填寫本瓦) ABCD 41-421 六、申請專利範圍 一附加字表,具有複數資料係音標中文附加字; 一中文字字彙,字彙係複數音標中文字之表,此中 文字具有漢字翻譯;及 一語形學單元,自片語去除一或多個附加字以產生 一字根,去除之附加字係附加字表之附加字,語形學 單元將字根與字橐中一或多個字相比,以找出一匹 配,並將字彙中該字之漢字翻譯儲存於電臈記憶體, 該字匹配字根。 22. 根據申請專利範圍第2 1項之系統,又包括一造句單 元,造句單元剖析字根成為重音字與無重音字,重音 字係以發音符號作記號,而無重音字未以發音符號作 記號。 23. 根據申請專利範圍第2 2項之系統,其資料包括:附加 字,功能字,與質詞,各資料具有一漢字翻譯,造句 單元將無重音字與一或多筆資料匹配1匹配無重音字 之資料係一匹配資料,而造句單元用匹配資料之漢字 翻譯作為片語中無重音字之翻譯。 24. 根據申請專利範圍第2 3項之系統,其造句單元又翻譯 一或多個重音字成為一混淆觀念字,混淆觀念字具有 一種混淆,因為混淆觀念字在字彙中有一種以上漢字 翻譯,而造句單元藉著使用混淆觀念字之關係以去除 混淆,該混淆觀念字於片語中具有一或多個無重音 字。 25. 根據申請專利範圍第2 2項之系統,其第一與第二片語 -41 - 本紙伕尺度適用中國國家標準(CNS ) A4说格(210X297公釐) ^^------訂------r*l· (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印繁 經濟部中央標準局員工消費合作社印製 411421_1_ 六、申請專利範圍 定界符號係以下衽一種:一輸入、一空白 '一片語記 號、一中文句號、一左引號、一右引號、一左標題記 號、一右標題記號、一驚嘆號、一逗點、一斜線、一 左括號、一右括號、一冒號、一分號、一圓點、一問 號,及一聲調鍵之雙或多重引號。 26. 根據申請專利範圍第2 2項之系統,若字不匹配字彙中 之字,則語形學裝置將字拆成元素字,而造句單元剖 析元素字。 27. —種處理中文語言本文之電腦系統,包括: 一電腦記憶體; 一輸入裝置,以輸入複數中文音標語言音節至系 統,各音節具有一或多個字元,輸入裝置以發音符號 於一或多個重音節上作記號,以表示重音節之音調類 型; 一輸入處理裝置,以提供各字元之字碼,及各發音 符號之聲碼,該發音符號由輸入裝置輸入,輸入處理 裝置辨認一音節為一 _字碼,該申字碼以聲調鍵作記 號; 一音節表裝置,具有複數音節串,各音節串具有一 或多個音節串碼|輸入處理裝置將記上發音符號碼之 字碼串與一音節串碼比對,並將音節串之音節表示與 音節_碼,儲存在電腦記憶體中,該音節串碼匹配記 上聲碼之字碼串。 28. —種方法,於電腦系統之電腦記憶體中儲存音標中文 -42- 本紙張尺度逍用中國國家標準(CNS ) A4^格(2!0X297公釐) (請先閲讀背面之注意事項再填寫本頁) -β A8 B8 CS D8 411421 ——~— 、申請專利範園 之音節與字,包括以下步驟: {請先閲讀背面之注意事項再填寫本頁) A•用一輸入裝置將一或多個字元輸入電腦系統,一音 節具有一或多個字元’一字具有一或多個音節,及 —片語具有一或多個字,片語之字位於兩個片語定 界符號之間’用發音符號作記號於音節以表示音節 之音調’而音節位於兩個發音符號之間,輸入者係 各輸入字元之字碼儲存,而各發音符號·之聲碼儲存 作記號於一音節上; B .辨認一或多個音節為一中文音節,一中文音節係一 串,由一或多個字碼及一音碼组成; C.將中文字串與一音節表匹配,音節表具有複數音節 串,各音節串結合一或多個音節串碼;及 D,儲存一匹配音節串於電腦記憶體中,匹配音節串係 指與音節串碼結合之音節串’該音節串碼匹配該字 串。 29. 根據申請專利範圍第28項之方法,重覆步驟a_d V 輸入片語定界符號,儲存於電腦記憶體之一或多個匹 配音即辛係一字串。 經濟部中央標牟局—工消費合作社印製 30. -種語形學過程處理—字串,此方 以下步驟: 自字串去除一或多個附加字以產生一宝 在王 子根’去除之 附加字係附加字表之附加字; -將字根與字彙中-或多個字相比,以找出一匹配, 字彙具有複數字,各字具有-或多個漢字翻譯字彙 -43- 本纸張尺度適用中國國家榇準(CNS ) A衫iis· ( 21〇><297公着) 經濟部中央標準局員工消費合作社印製 411421 Ββ sS' _____ 〇l 、申請專利範固 中匹配字根之字係匹配字根;及 錄存匹配字根之漢字翻譯於電腦記憶體中a 31·根據中請專利範園第3 Q項之方法…或多個根係不匹 根不匹配根於字彙中無匹配者,並拆解不匹配根 成元素字。 32, 一種方法’造句分析音標音節之中文片語,包括以下 步驟: . d析中又片語成為:重音字,其具有—或多個以發 :付號作i己號之音節’以表示音節之音;及無重音 丰,其不具有以發音符號作記號之音節; 將無重音字與—或多筆資料匹配,資料係附加字表 上之零或多個附加字,功能字,與質_,各資料具有 一漢字翻譯; 用個自漢字翻譯將無重音翻譯成漢字。 33. 根據申請專利範圍第32項之方法,又包括以下步驟: 翻譯一或多個重音字成為一觀念字,零或多個觀念字 為一混淆觀念字,混淆觀念字於一字彙中具有一種以 上漢字翻譯。 ' 34_根據申請專利範圍第33項之方法,刪除—或多個翻 譯,因為該刪除之翻譯與一無重音字不具有關係。 35. —種經由文數字鍵盤輸入音標中文語言串之方法,包 括以下步驟: -輸入中文I吾s之音標表不至電腦系統之幹入裝置, 該音標表示具有一或多個字*各由一或多個音標音節 -44- 本紙張尺度適用中國國家標準(CND八4说格(2〖〇χ297公釐) Ά------ir------r (請先閲讀背面之注項再填寫本頁) 411421 申請專利範圍 AS B8 C8 D8 經濟部中央樣隼局員工消f合作社印^ 組成’一或多個音節係重音節,而—或 重音音U 1多個音節係無 用—發音符號作記號於重音節,以表 音調類型· 1重音節之 36.—種可由電腦讀取之程式儲存裝置,實 腦可執行之指令程式,以執行方法步;在=化電 ., 以儲存立;^ 又之音節與字於電腦之電腦記憶體中 ^ 以下步鄉: 此万法包括 A,用—輸入裝置將一或多個字元輸入電 節具有一或多個字元,一字具有—岑 a 一 h 子 ·^多铜音節,及 片b具有一或多個字,片語之字位 於兩個片言i定 界符號之間’用發音符號作記號於音筘 & •六, 表^ 7JT 節 之曰調,而音節位於兩個發青符號之間,輪入 各輸入字元之字碼儲存,而备發音符號=入者係 作記號於-音節上; 聲碼儲存 B .辨認一或多個音節為_中文音節,— ^ . ^ A 1人曰郎係一 串’由一或多個字碼及一音碼组成; C.將中文字串與一音節表匹配’音節表具有複數音節 串’各音節串結合一或多個音節串碼;及 均P D .儲存一匹配音節串於電腦記憶體中,匹配音節串夂 指與音節争碼結合之音節串,該音節串碼匹配該2 串。 μ于 -45- 本紙乐尺度適用中國國家樣车(CNS ) A4it^· ( 210X297公釐) -----1----,^------ITr (請先閱讀背面之注$項再填寫本頁) __I
TW084113517A 1995-08-16 1995-12-18 System and method for processing chinese language text TW411421B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/515,547 US5893133A (en) 1995-08-16 1995-08-16 Keyboard for a system and method for processing Chinese language text

Publications (1)

Publication Number Publication Date
TW411421B true TW411421B (en) 2000-11-11

Family

ID=24051782

Family Applications (1)

Application Number Title Priority Date Filing Date
TW084113517A TW411421B (en) 1995-08-16 1995-12-18 System and method for processing chinese language text

Country Status (6)

Country Link
US (2) US5893133A (zh)
JP (1) JP3277123B2 (zh)
KR (1) KR100259407B1 (zh)
CN (1) CN1191514C (zh)
SG (2) SG87039A1 (zh)
TW (1) TW411421B (zh)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044205A (en) * 1996-02-29 2000-03-28 Intermind Corporation Communications system for transferring information between memories according to processes transferred with the information
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US6032164A (en) * 1997-07-23 2000-02-29 Inventec Corporation Method of phonetic spelling check with rules of English pronunciation
JPH1186434A (ja) * 1997-09-11 1999-03-30 Sony Corp 記録装置、記録方法、及びダビング装置
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
JP2000122768A (ja) * 1998-10-14 2000-04-28 Microsoft Corp 文字入力装置、方法および記録媒体
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP2000298667A (ja) * 1999-04-15 2000-10-24 Matsushita Electric Ind Co Ltd 構文情報による漢字変換装置
US6453462B1 (en) * 1999-06-29 2002-09-17 International Business Machines Corporation Mock translation system, method, and program using multi-byte placeholder characters to test translatability of software that will display multi-byte languages
US6507812B1 (en) 1999-06-29 2003-01-14 International Business Machines Corporation Mock translation method, system, and program to test software translatability
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard
CN1171137C (zh) * 2000-06-23 2004-10-13 谭伟雄 改进的hlv汉字拼音输入方法
US6920247B1 (en) * 2000-06-27 2005-07-19 Cardiff Software, Inc. Method for optical recognition of a multi-language set of letters with diacritics
US6692170B2 (en) 2001-02-21 2004-02-17 Eli Abir Method and apparatus for text input
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
US7319950B2 (en) * 2001-04-10 2008-01-15 Chang Po Liu Automated word processor for chinese-style languages
US6993474B2 (en) * 2001-05-17 2006-01-31 Curry David G Interactive conversational speech communicator method and system
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US20030110036A1 (en) * 2001-12-10 2003-06-12 Sayling Wen Chinese input method for providing auxiliary writing model
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
CA2413055C (en) * 2002-07-03 2006-08-22 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
EP1691298B1 (en) * 2002-07-03 2007-09-19 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
AU2003250637A1 (en) 2002-07-03 2004-01-23 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7315982B2 (en) * 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
KR100566204B1 (ko) * 2003-04-22 2006-03-29 삼성전자주식회사 성조가 표기된 한어 병음 입력 방법 및 장치
US7884804B2 (en) * 2003-04-30 2011-02-08 Microsoft Corporation Keyboard with input-sensitive display device
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US8137105B2 (en) * 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
WO2005043370A1 (en) * 2003-10-17 2005-05-12 King Abdulaziz & His Companion Foundation For The Gifted Method for operating an output device
JP4213570B2 (ja) * 2003-11-20 2009-01-21 シャープ株式会社 文字入力方法、文字入力装置およびプログラム
GB2425384A (en) * 2004-01-06 2006-10-25 In-Seop Lee The auto translator and the method thereof and the recording medium to program it
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CA2496872C (en) * 2004-03-17 2010-06-08 America Online, Inc. Phonetic and stroke input methods of chinese characters and phrases
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US20060020567A1 (en) * 2004-07-26 2006-01-26 Li Li Method for message browsing
US7595742B2 (en) * 2004-10-29 2009-09-29 Lenovo (Singapore) Pte. Ltd. System and method for generating language specific diacritics for different languages using a single keyboard layout
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7516062B2 (en) * 2005-04-19 2009-04-07 International Business Machines Corporation Language converter with enhanced search capability
US7366984B2 (en) * 2005-07-29 2008-04-29 Microsoft Corporation Phonetic searching using multiple readings
US7538692B2 (en) * 2006-01-13 2009-05-26 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components
EP1987413A1 (en) * 2006-02-10 2008-11-05 ZI Corporation of Canada, Inc. Method and system of identifying an ideographic character
US20070250307A1 (en) * 2006-03-03 2007-10-25 Iq Technology Inc. System, method, and computer readable medium thereof for language learning and displaying possible terms
WO2007124109A2 (en) * 2006-04-21 2007-11-01 Scomm, Inc. Interactive conversational speech communicator method and system
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
US7565624B2 (en) * 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US20080131031A1 (en) * 2006-12-05 2008-06-05 Sherryl Lee Lorraine Scott Handheld electronic device with diacritical selection and text disambiguation
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN105117376B (zh) * 2007-04-10 2018-07-10 谷歌有限责任公司 多模式输入法编辑器
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
KR101465769B1 (ko) * 2007-06-14 2014-11-27 구글 인코포레이티드 사전 단어 및 어구 판정
EP2120130A1 (en) 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US20100149190A1 (en) * 2008-12-11 2010-06-17 Nokia Corporation Method, apparatus and computer program product for providing an input order independent character input mechanism
US9009591B2 (en) * 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
US8296680B2 (en) * 2009-01-15 2012-10-23 Research In Motion Limited Method and handheld electronic device for displaying and selecting diacritics
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US8381119B2 (en) * 2010-01-11 2013-02-19 Ideographix, Inc. Input device for pictographic languages
US8947076B2 (en) 2010-01-18 2015-02-03 Bourns, Inc. High resolution non-contacting multi-turn position sensor
US8280954B2 (en) 2010-03-25 2012-10-02 Scomm, Inc. Method and system for providing live real-time communication via text between mobile user devices
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
US8473277B2 (en) * 2010-08-05 2013-06-25 David Lynton Jephcott Translation station
WO2012092709A1 (en) * 2011-01-05 2012-07-12 Google Inc. Method and system for facilitating text input
CN102737535A (zh) * 2011-03-31 2012-10-17 赵文志 一种快速学习语言的工具设置
US9864782B2 (en) * 2013-08-28 2018-01-09 AV Music Group, LLC Systems and methods for identifying word phrases based on stress patterns
CN104699000A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 非特定人外语语音遥控的机器人系统
KR101449376B1 (ko) * 2014-03-31 2014-10-10 정창수 컴퓨터의 한자입력 장치 및 한자입력 방법
US10261674B2 (en) * 2014-09-05 2019-04-16 Microsoft Technology Licensing, Llc Display-efficient text entry and editing
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN105242932B (zh) * 2015-10-21 2018-08-31 宁波三星医疗电气股份有限公司 一种基于delphi工具开发的软件的自动翻译方法
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
KR101880868B1 (ko) * 2017-12-29 2018-07-20 영 황보 한자입력장치
CN108536656B (zh) * 2018-03-09 2021-08-24 云知声智能科技股份有限公司 基于wfst的文本正则化方法及系统
US10885286B2 (en) * 2018-10-12 2021-01-05 Microsoft Technology Licensing, Llc Simultaneous and real time translation and language switching across a set of features
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59864B2 (ja) * 1979-03-30 1984-01-09 シャープ株式会社 電子辞書
DE3142138C2 (de) * 1981-10-23 1985-06-27 Siemens AG, 1000 Berlin und 8000 München Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US5212638A (en) * 1983-11-14 1993-05-18 Colman Bernath Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data
GB2158776A (en) * 1984-02-24 1985-11-20 Chang Chi Chen Method of computerised input of Chinese words in keyboards
US4565459A (en) * 1984-06-04 1986-01-21 Dilucia Gilbert Phonetic Chinese printing apparatus
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS6352143A (ja) * 1987-08-12 1988-03-05 Matsushita Electric Ind Co Ltd コ−ド印刷物の作成方法
US5109352A (en) * 1988-08-09 1992-04-28 Dell Robert B O System for encoding a collection of ideographic characters
US5047932A (en) * 1988-12-29 1991-09-10 Talent Laboratory, Inc. Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof
US4949260A (en) * 1989-01-03 1990-08-14 Hsu Su Hsia Method for inputting chinese information through hieroglyphic approach and keyboard arrangement therefor
LU87713A1 (de) * 1989-08-31 1990-07-24 Siemens Ag Kreuzschaltungsverfahren(cross-connect)fuer stm-1-signale der synchron-digital-multiplexhierarchie
JPH03101492A (ja) * 1989-09-14 1991-04-26 Hitachi Ltd 高密度画面変換処理方式
JPH03144846A (ja) * 1989-10-31 1991-06-20 Yokogawa Hewlett Packard Ltd アプリケーション・入力サーバ連携方法
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JPH04109365A (ja) * 1990-06-19 1992-04-10 Ricoh Co Ltd キヤビネツト間の文書コピー機能を有する画像文書フアイリング装置
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US5255355A (en) * 1990-10-10 1993-10-19 Fuji Xerox Co., Ltd. Document processor
TW268115B (zh) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5255189A (en) * 1992-06-09 1993-10-19 Woo Edward P H Method and system for retrieving ideographic characters and the associated dictionary entries
US5331557A (en) * 1993-01-14 1994-07-19 Liu Zhong Yi Audio-video coding system for Chinese characters
US5378068A (en) * 1993-10-12 1995-01-03 Hua; Teyh-Fwu Word processor for generating Chinese characters
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count

Also Published As

Publication number Publication date
JP3277123B2 (ja) 2002-04-22
KR970012111A (ko) 1997-03-29
SG55208A1 (en) 1998-12-21
CN1191514C (zh) 2005-03-02
US5893133A (en) 1999-04-06
KR100259407B1 (ko) 2000-06-15
SG87039A1 (en) 2002-03-19
CN1143769A (zh) 1997-02-26
JPH09128383A (ja) 1997-05-16
US6073146A (en) 2000-06-06

Similar Documents

Publication Publication Date Title
TW411421B (en) System and method for processing chinese language text
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
Farghaly et al. Arabic natural language processing: Challenges and solutions
US6275789B1 (en) Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
TW421750B (en) Language identification device, language identification method and storage media recorded with program of language identification
US20050195171A1 (en) Method and apparatus for text input in various languages
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
Zhang et al. Design and implementation of Chinese Common Braille translation system integrating Braille word segmentation and concatenation rules
JP2007317163A (ja) 電子辞書及び検索方法
CN103246354A (zh) 以通用语文字编码表达汉字的输入法及其键盘
JP5751537B2 (ja) 国際対応型日本語入力システム
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP2001229162A (ja) 中国語文書自動校正方法及び装置
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
Joshi et al. Input Scheme for Hindi Using Phonetic Mapping
CN107066104B (zh) 电脑汉英互读互译键盘最佳键位
WO2006051647A1 (ja) テキストデータ構造、テキストデータ処理方法
Ju-Xiao et al. Design and Implementation of Chinese Common Braille Translation System Integrating Braille Word Segmentation and Concatenation Rules
Zhang et al. Research Article Design and Implementation of Chinese Common Braille Translation System Integrating Braille Word Segmentation and Concatenation Rules
JP3069532B2 (ja) かな漢字変換方法およびその装置並びにかな漢字変換方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Ojha Computing in Indian Languages for Knowledge Management: Technology Perspectives and Linguistic Issues
JPH03260687A (ja) 視覚障害者用点字漢字変換装置
Tanaka-Ishii et al. Text entry in East Asian languages
Shi et al. Chinese online-problems and solutions
CN101866224A (zh) 五码智能语言输入法

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees