TW494318B - Chinese character conversion apparatus using syntax information - Google Patents

Chinese character conversion apparatus using syntax information Download PDF

Info

Publication number
TW494318B
TW494318B TW089107006A TW89107006A TW494318B TW 494318 B TW494318 B TW 494318B TW 089107006 A TW089107006 A TW 089107006A TW 89107006 A TW89107006 A TW 89107006A TW 494318 B TW494318 B TW 494318B
Authority
TW
Taiwan
Prior art keywords
character
syllable
compound
dictionary
word
Prior art date
Application number
TW089107006A
Other languages
English (en)
Inventor
Guei-Jr Liu
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW494318B publication Critical patent/TW494318B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Description

A7
經濟部智慧財產局員工消費合作社印製 發明背景 L發明領域 本發明係關一種中文字元轉換技術,特別係關一種經 由利用中文字的詞類部分相關屬性資訊,轉換音標符號串 成為中文字元,使用語法資訊之中文字元轉換裝置。 2·相關技術之說明 中文文件使用的中文字元有一萬個或以上。於包括中 文文字處理器的處理中文的電腦中,最主要的問題是中文 字元可藉文件形成器等輸入或準確轉換。習知將意欲的中 文字元輸入轉換裝置的實例包括:語音辨識、字元辨識、 鍵盤等。由於利用鍵盤輸入最為可靠,故鍵盤被廣為人實 際採用。 使用鍵盤輸入中文字元的方法被分成兩種方法。其中 一種方法使用中文字元的讀音(發音),而另一種方法使用 中文字元字形。使用形狀的輸入方法中,輸入法則必須事 先登錄’而登錄輸入法則須耗相當長時間。此外,對使用 者而言需要花費相當長時間才能變成熟習該種輸入法。它 方面’使用中文字元讀音的輸入法被廣為採用,也用於日 文文字處理器。因而提議讀音輸入法未來將成為中文字元 輸入方法的主流。本發明係關採用讀音輸入法的中文字元 轉換裝置。 例如中華民國專利公告案第〇89476號揭示一種使用根 據先前技術的讀音輸入法之中文字元轉換裝置。第6圖為 略圖顯示此種中文字元轉換裝置的結構。 ------------φ裝--------訂---------線^- (請先閱讀背面之注意事項再填寫本頁)
‘經,部智慧財產局員工消費合作社印製 五、發明說明(2 ) 第6圖中,輸入區段100輸入音標符號,例如拼音、注 音、羅馬字母等,其意圖轉成中文文件原創者的中文字元 。輸入區段100可輸入任何長度(音標數目)的字元。字典 180儲存音標符號串以及欲轉成對應該等音標的字。' NCHAR暫存器140儲存輸入音標符號串的音節數目。 PTR暫存器120和ΝΡ暫存器130分別用於將音標符號 串轉成字。PTR暫存器120儲存一位置於輸入音標符號串 ,由該位置開始轉成中文字元。ΝΡ暫存器13〇儲存轉換字 長度於將輸入音標符號串轉成字,換言之,組成字的中文 字元或音節數目(中文裡原則上一個中文字元只有一個音 節)〇 比較器150控制轉換控制器,因此於完成有某個長度 或某種中文字元數目的轉換處理後,Np暫存器13〇數值減 1 ’轉換成中文字元優先對數目被減1的字進行。 轉換控制器160循序由輸入音標符號串的最初位置向 後移位PTR暫存器120的設定位置,俾證實是否有個音節 ’其已經基於組成一個字(該字為NP暫存器130設定的轉 換目標)的中文字元或音節數目而被轉換成中文字元。若 轉換尚未進行,且對應字暫存於字典180,則控制器160將 該字轉成字典180的對應字。 字典搜尋區段170使用由轉換控制器160送來的音節串 作為鑰,搜尋字典180。輸出區段19〇輸出由轉換控制器16 進行轉換的結果。 則述中文字元轉換裝置中,轉換的準確率約9%。其 本紙張尺規格⑽ X 297公釐) 494318 A7 經濟部智慧財產局員工消費合作社印製 五、發明說明( 餘4%錯誤轉換包括未登錄字(4()2%),字邊㈣測錯誤 (8·〇%) ’同音字元和字的選擇錯誤(33.9%),破音字元和 音調轉換。字邊界偵測與同音字元和字的選擇屬最難 決的問題。 因此理由故’希望實現一種使用語法資訊的中文字元 轉換裝置’其可防止由於前述字邊界領測錯誤以及由於同 音字元和字選擇錯誤造成的錯誤轉換。本發明係供解決該 等問題。 調查研究(多樣領域,共_〇,_字元)結果顯示如後 ,其指示1985年台灣的用字頻率。 1字元的字 2字元的字 3字元的字 4字元的字 5字元的字 總計 字使用 次數 數量 845,356 451,048 12,274 5,506 220 1,314,404 % 64.3 34.3 0.9 0.4 0.0 100.0 字數 數量 广 3,751 22,941 2,374 Π 2,010 「83 31,159 % 12.0 73.6 7.6 6.4 0.2 100.0 至於字元數’有2或多個字元的字占㈣,而有一$ 字π的子占12%。至於字的使用次數(使用頻率),有^或^ 個子兀的字占35.7%,而有一個字元的字占64·3%。至方 字元數,有2或多個字元的字數大於有一個字元的字。5 =字的使用頻率,有-個字元的字數係大於有兩個或多伯 子元的子數。貫際上’大半有高度使用頻率的中文虛字 字根、字尾、後置詞、量詞、代名詞、序數詞、副詞、連 接詞、前置詞、後置詞、感歎詞)係由一個字元組成。由 於僅有-個字元的字含括於較長字,根據「中文字元轉換 張尺度適用中國國家標準(CNS)A4規格(21〇 χ 297公髮- i. --------^---------^wi. (請先閱讀背面之注意事項再填寫本頁) -6
經,部智慧財產局員工消費合作社印製 ; Α7 —--~~-2Ζ____ 、五、發明說明(4 ) '~ 一 震置」的最長匹配方法的原則,此種字無法被轉換。 因此理由故,於進行字邊界偵測之例,結果常錯。此 外,=音字元的選擇常常誤會,也係根據基於使用頻率做 θ音字元的選擇’或前—字優㈣換的法則選擇(有些字 在轉換則與後有不同的讀音)。 有鑑於前述問題,本發明之一目的係提供一種使用語 法資訊之中文字元轉換裝置,對儲存在字典的每個字給予 -種詞類部分屬性(名詞、動詞等),證實且修改對應於擷 取的複合字元之同音字元和字錯誤的選擇。 發明概述 為了達成前述目的,本發明提供一種使用語法資訊之 中文字元轉換裝置,包含一複合字元字典,一字典,一音 節切出區段,一字典搜尋區段,一複合字元制區段,一 詞類部分屬性處理區段,和一轉換控制器。 複合字元字典儲存中文複合字元的音標符號、複合字 元、和詞類部分屬性其可連接至該複合字元。複合字元和 詞類部分屬性係對應音標符號。 字典儲存音標符號、字和詞類部分屬性。當有多個對 應字之例,對應字和字屬性係以字的使用頻率順序排列。 字和詞類部分屬性係對應音標符號。 音節切出區段提供第一優先順位,係轉成含最多字元 的字’一未被轉換的輸入音標符號串的音節,或音節的一 分’而獲得以輸入順序轉成音節的第二優先順位。音節 切出區段基於優先順位,循序遞減欲被轉換的音節數目, --------------^--------^---------線 (請先閱讀背面之注意事項再填寫本頁)
494318 A7 B7 五、發明說明(5 ) 以及循序向後移位欲被轉換的音節,而切出一個目前被轉 換的音節。 字典搜尋區段搜尋字典,而經由使用由音節切出區段 切出的欲被轉換的音節串作為搜尋鑰,而檢知一個中文字 複合字元偵測區段偵知一複合字元,以及當有一音節 對應於由音節切出區段切出的欲被轉換的音節的複合字元 時,以預定程序偵知連接至該複合字元的詞類部分屬性。 當對應複合子元由複合字元偵測區段摘知時,詞類部 分屬性處理區段使用字典搜尋區段搜尋字典,搜尋時係使 用於由複合字元偵測區段偵知的對應複合字元之的前後音 即作為搜尋鑰。當偵測得一個基於詞類部分屬性可關聯複 合字元的字時,詞類部分屬性處理區段組合複合字元與字 而產生一延長字。 轉換控制器執行控制,因而採用由字典搜尋區段偵知 的字,優先轉換成由詞類部分屬性處理區段產生的延長字 根據本發明之序』述結構,複合字元字典儲存中文複合 | 子70的音標符號、複合字元、以及可關聯至複合字元的詞 | _部分屬性。複合字元和_部分屬性對應於音標符號。 | %果有多個對應字時’音標符號、對應的字、和該字的詞 | 屬性係根據其使用頻率於字典排列和登錄。首先, | 二節切出區段決定優先順位,對一尚未被轉換的輸入音標 f 錢串或—音節的-部分,優先轉成具有-音節的最多字 S(_ 本紙張—用---
494318 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(6 ) 元的字;其次優先轉換前一輸入音節。音節切出區段基於 轉換的優先順位連續遞減欲被轉換的音節數目,以及結果 向後移位一轉換物件音節而切出一欲被轉換的音節串。字 典搜尋區段使用由音節切出區段切出的欲被轉換的音節串 ,作為擷取鑰而搜尋字典,偵測中文字。若於由音節切出 區段切出的欲被轉換的音節串中,有一音節對應於複合字 元,則複合字元偵測區段偵測複合字元以及關聯該複合字 元的詞類部分屬性。詞類部分屬性處理區段經由使用字典 搜尋區段’附有由複合字元偵測區段偵知的對應複合字元 ,作為擷取鑰而搜尋字典;以及當於詞類部分屬性而字可 關聯至複合字元時,組合複合字元與字。轉換控制器進行 控制,故由字典搜尋區段擷取得的字比由詞類部分屬性處 理區段產生的延長字,更優先被轉換成中文字元。 相關申請案 本案係植基於曰本專利申請案第1Μ〇78〇6號,其内 容併述於此以供參考。 圖式之簡單說明 第1圖顯示根據本發明之一具體實施例之中文字元轉 換裝置之結構。 第2圖為流程圖顯示根據具體實施例之暫存器的初 作業。 第3圖為流程圖顯示根據具體實施例之轉換控制器之 作業。 第4圖為構想圖顯示根據具體實施例之複合字元字典 本紙張尺度適用中國國家標準(CNS)A4規格⑵Q χ 297公楚)
丨 — — — — — — — — I· i I (請先閱讀背面之注意事項再填寫本頁) 1^7. 線· 9 經濟部智慧財產局員工消費合作社印製 494318 A7 — —-— H7 五、發明說明(7 ) 之結構。各標不意義如下 AN :其後可連接名詞; AV :其後可連接動詞; AA :其後可連接副詞; A J :其後可連接形容詞; BN :其前方可連接名詞; 其前方可連接動詞; BA:其前方可連接副詞; BJ:其前方可連接形容詞; • " ° 第5圖為構想圖顯示根據具體實施例之其中記錄詞類 部分屬性的字典之結構,其中各個同音字元和字係以使用 頻率順序排列。 第6圖為略圖顯示根據先前技術之中文字元轉換裝置 之結構。 發明之詳細說明 本發明之具體實施例將參照附圖說明如後。 第1圖中’輸入區段1 〇輸入音標符號,例如拼音、注 音、羅馬字母等。字典18其中登錄音標符號串、對應於音 標符號串的中文字,以及各字的詞類部分屬性(顯示字典 資料結構的構想圖示於第5圖)。NCHAR暫存器14儲存輸 入音標符號串的音節數目。中文裡,一個中文字元對應一 個音節。因此輸入音標符號串的音節數指示欲被轉換的中 文字元數目。 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 x 297公釐) 10 ----------------- (請先閱讀背面之注意事項再填寫本頁) 494318 五、發明說明(8 ) PTR暫存器12和NP暫存器13分別用以將音標符號串 轉成字。PTR暫存器12用以儲存輸入音標符號串的轉換位 置,由該位置開始中文字元的轉換。當輸入音標符號串被 轉成字時,NP暫存器13用以儲存欲轉成的字的長度,亦 即儲存中文字元數目和組成該字的音節數。特別當前述二 暫存器的内容分別以ptr*np表示時,表示由第ptr個輸入 音標符號串連續的np個音節用作為擷取字典時的搜尋鑰( 後文中,np、ptr和nchar分別表示NP,PTR和NCHAR暫存 器之值)。 暫存器初始化區段11用於三個暫存器,例如nchar 暫存器14、NP暫存器13、和PTR暫存器12等。其細節作 業顯示於第2圖。求出輸入音標符號串的音節數目(nehar) ,如此所得值設定於NCHAR暫存器14。若數值係大於字 典18登錄的最長字,亦即具有組成該字的最大中文字元數 目的字之中文字元數目(max)(本具體實施例為5),則max 值設定於NP暫存器13。若該值是等於或小於5,則輸入音 標符號串的音節數設定MNP暫存器13,而pTR暫存器12 之值設定為0。 ,經濟部智慧財產局員工消費合作社印製 音節切出區段15證實中文字元轉換作業完成與否。若 作業完成,則儲存在NP暫存器13的欲轉換物件字長度(最 短的轉換長度是長度1的單純中文字元轉換)加至pTR暫存 器12的數值,而NP暫存器13之值復置為nchar-ptr。當復 置值大於max值時,max值設定至Np暫存器η。 複合字元字典21儲存特殊複合字元的讀音、可關聯至 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公髮 494318
經濟部智慧財產局員工消費合作社印製 該中文字元的字元和詞類部分屬性。複合字以貞測區段20 使用輸入音標符號串的第昨個音節作為禅取餘搜尋複合 字元字典21。 當複合字元偵測區段20偵知有個對應複合字元且連 接複合字元的詞類部分是後連接時,詞類部分屬性處理區 段19供給由第⑽+1)個輸人音標符號串算起的㈣〇個字 元作為搜尋鑰而梅取字典18。_,詞類部分屬性處㈣ 段19操取-字,該字對應於可連接至該中文字元的詞類部 分屬性。當對應字被發現或被登記,因而產生一個操作員 原先意圖藉轉換獲得的字亦即延長字時,詞類部分屬性處 理區段19組合對應字與複合字元。 參考編號16表示轉換控制器。轉換控制器16的細節操 作顯示於第3圖。由第ptr個輸入音標符號串連續的叩個音 節供給字典搜尋區段17作為搜尋鑰,用以搜尋字典18。轉 換處理係根據下述原則··偵知的字以第一優先順位轉換, 而詞類部分屬性處理區段19產生的字以第二優先順位轉換 。若該音節已被轉換,則轉換係基於由音節切出區段復置 的PTR暫存器12和NP暫存器13進行。 字典搜尋區段17經由使用由轉換控制器16或詞類部分 屬性處理區段送來的音節、或若有多字時,排在頂頭的具 有最高機率的字作為搜尋錄,由複合字元字典18擷取對應 字。字典搜尋區段17送出擷取得的字給轉換控制器丨6。輸 出區段22輸出由轉換控制器16作轉換所得結果。 第4圖為構想圖顯示根據本具體實施例之複合字元字 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 12 --------^--------- (請先閱讀背面之注意事項再填寫本頁)
、發明說明( 經濟部智慧財產局員工消費合作社印製 ::21的資料結構。複合字元字典21包含-複合字元的基本 讀音或發音,對應的複合字元,以及可關聯至該複合字元 的凋類邛分屬性的對應表。本具體實施例中,前置詞如厂 在」、「從」、「將」等,連接詞如「則」、「若」、「和」、「以 」等,肯定詞以及否定詞如「是」、「不」、「有」等,以及 定冠詞如「其」、「該」等被視為中文的複合字元。此等中 文複合字元耦合至一字而組成一個有較多中文字元的字。 以此種組合組成的字在本專利說明書中被視為「延長字」 ,例如「在台北」,「有一天」等。當複合字元偵測區段2〇 須決定對應一音節的字元是否是複合字元時,須使用此種 複合字元字典21。 第5圖為構想圖顯示記錄詞類部分屬性資訊的字典i 8 之駟料結構。中文字元和字各有一屬性,例如名詞、動詞 、形容詞、副詞等。於偵測得複合字元之例,於字元前或 後可連接至該複合字元的一字,係根據記錄在字典18的各 詞類部分屬性定義偵測《偵測得的字組合複合字元而組構 一個延長字。此一作業流程說明如後。 第2圖主要顯示根據本發明之一具體實施例中,中文 字元轉換裝置的暫存器之初始化作業流程。作業將參照附 圖說明如後。 (51) 首先,計算音節數的暫存器L設定為零。 (52) 輸入音標符號串。 (53) 證實目前輸入的音標符號是否是音調鑰。若音標 符號是音調鑰,則常式前進至(S4)。否則常式前進至(S5)。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) I--I I in--— It---------^ (請先閱讀背面之注意事項再填寫本頁) 494318 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(η) (54) 計算音節數的暫存器L數值遞增1,以及常式返 回(S2)。 (55) 證實目前輸入的音標符號串是否是輸入端鑰。 若目前輸入的音標符號串是輸入端鑰,且音節數非為零’ 則常式前進至(S6)。若目前輸入的音標符號串非為輸入端 鑰,則常式返回(S2)。 (56) 證實目前輸入的音節數目是否大於5,若音節數 等於或大於5,則常式前進至(S7)。若音節數小於5,則常 式前進至(S8)。 (57) ΝΡ暫存器值設定為5。 (58) ΝΡ暫存器值設定為目前輸入的音節數。 (59) NCHAR暫存器值設定為目前輸入的音節數。 (S10) PTR暫存器值設定為〇。 第3圖顯示轉換控制器的操作。操作將參照第3圖說明 如後。 (520) 由第ptr個音標符號串連續的ηρ音節被切出。 (521) 音標符號串轉換長度ηρ遞增i,常式返回(s2〇) 〇 (522) 決定對應(S20)切出音節的字是否儲存於字典^ 。右字係儲存於字典18,則常式前進至(S23),否則常式 前進至(S26)。 工 (523) 由第ptr個輸人音標符號串連續的np音節被轉成 於(S22)偵測得的對應字,然後常式前進至(s24)。 (524) ηρ加至PTR暫存器之值。Np暫存器之值設定為 ----------------- C請先閲讀背面之注意事項再填寫本頁) 訂---------
4318 A7 _B7 五、發明說明(12) 5 〇 (525) 1加至PTR暫存器之值。NP暫存器之值設定為5 -------------裝--------訂. (請先閱讀背面之注意事項再填寫本頁) 〇 (526) 證實NP暫存器值目前是否大於1。若NP暫存器 值大於或等於1,則常式前進至(S27),否則常式前進至(S30) 〇 (527) 證實於(S20)切出的第一音節是否有複合字元讀 音。若第一音節有複合字元讀音,則常式前進至(S34)。 若否,則常式前進至(S21)。 (S34)由(S20)切出的第二音節切出對應各音節數目的 字。 (528) 證實是否有個字對應於(S34)切出的音節。若有 個對應字,則常式前進至(S29)。若否,則常式前進至(S21) 經-^部智慧財產局員工消費合作社印製
(529) 於(S27)偵測得的複合字元組合於(S28)偵測得 的字而產生一字的延長字。由輸入音節ptr連績的np音節 被轉成延長字。然後,常式前進至(S23)。 (530) 於輸入音標符號串位置ptr的音節被轉換成中文 字元,以及常式前進至(S25)。 (S3 1) (ptr+np)值比較nchar值。若前者較大,則常式 前進至(S32)。若較小則常式前進至(S20)。 (532) 音標符號串的轉換長度np遞增1,以及常式前 進至(S33)。 (533) 證實NP暫存器值是否為零。若NP暫存器值為 15 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 494318 經濟部智慧財產局員工消費合作社印製 五、發明說明(13 ) 零,則輸人音標符號串的中文字元轉換過程完成。若否, 則常式前進至(S31丨。 第4圖為構想圖顯轉據本具體實關之複合字元字 典21之㈣結構。字典21包含-㈣接_複合字元的讀音 至-對應複合字元,以及可_至該複合字元的詞類部分 屬性。本具體實施例中’簡單中文字元例如「的」、「會」 、「很」、「太」、「所」、「過」、「較」、「著」、「了」、「能」、 真」、等於中文被視為複合字元。根據本發明,可根據 可連接至中文字元前或後的中文字元轉換裝置,選擇最理 想中文字兀或字候選者。舉例言之,目前台灣年輕人常用 「好遜」此字。此字通常不登錄在字典。在使用「最長一 致法」交換法則的中文字元轉換裝置中,藉字的屬性可得 遠更高的轉換率。 其次’根據本具體實施例之具有前述結構之作業,將 以「媽媽所煮的飯」為例說明。為求容易說明了解,儲存 於字典18對應第一音標符號串的最可能轉換的字說明如後 「ma ma·媽媽」 「suoeV所」 「juV主」 「de·的」 「fan\犯」 參照流程圖,當前述音標符號串被輸入時,第2圖顯 示的暫存器初始化區段經由響應音調信號,劃分輸入音標 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 16 ·裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 494318
經沒部智慧財產局員工消費合作社印製 五、發明說明(14) 符號串’獲得音節數。前述輸入音標符號串有六個音節。 因此音節數6設定於NCHAR暫存器14(S9)。該值大於字典 18的最長字的中文字元數目(本具體實施例為五)(S6)。因 此5设疋為NP暫存器13的初值(S7),PTR暫存器12之值設 疋為0。PTR暫存器12之值ptr表示搜尋字典18的目前開始 位置係在輸入音標符號串的第ptr個音節。 在PTR暫存器12初值之後,基於輸入音節數,設定Np 暫存器13和NCHAR暫存器14,第3圖顯示的轉換控制器16 首先依據PTR暫存器12和NP暫存器13之值,由輸入區段10 送來的第零至第四個音節,切出包含連續音節的音標符號 串的音節串「媽媽所主的犯」(S20)。切出的音節串供給 字典搜尋區段17作為搜尋鑰,而搜尋字典18(S22)。字並 無任何字對應鑰,故複合字元字典21藉複合字元偵測區段 20搜尋。「媽」被決定為非複合字元的讀音。然後「媽媽 所主」的第零至第三音節被切出而以1遞減Np暫存器13之 值。其次’此一音節串被設定為字典搜尋區段17搜尋字典 18的搜尋鑰(S22)。由於並無對應字,故複合字元字典由 複合子元搜尋區段搜尋,而決定「媽」並非複合字元的讀 音。 經由重複前述步驟,由輸入音標符號串連續的音節串 被循序切出,而NP暫存器13的值循序遞減。當NP暫存器13 之值為2時,切出「媽媽」的連續音節串。 經由使用「媽媽」作為搜尋鑰,字典搜尋區段17搜尋 字典18(S22)。因對應字「媽媽」儲存於字典18,故基於 — II----------裝·--— — — — — 訂---II--I ·線 (請先閱讀背面之注意事項再填寫本頁)
A7 ^^--------B7___ 五、發明說明(15) 「最長一致法」的轉換原理,「ma ma·」被轉成「媽媽」 。本例中,PTR暫存器12之值加至2,NP暫存器13之值設 定為最長可能字長度5。此種情況下,NP暫存器13之值5 加至PTR暫存器12之值獲得值7。此時,7大於NCHAR暫 存器的音節數6。因此NP暫存器13之值設定為字的長度, 最高機率被轉成4。 然後,第二至第五連續音節由輸入區段10送來的音節 串中切出而得「所主的犯」音節串(S20)。該音節串被供 給字典搜尋區段17作為搜尋鑰用來搜尋字典18(S22)。由 於字典裡並無對應字,故證實「所」的第一音節是否是複 合字元的讀音(S27)。複合字元字典有個字「所」對應「 所」的讀音。登錄於複合字元字典21可連接「所」的詞類 部分屬性是動詞屬性。 隨後,「主的犯」、「主的」和「主」之連續音節串被 循序切出(S34)。參照切出的音節,在字典丨8搜尋或偵測 對應字(S28)。因登錄字元「煮」具有動詞屬性,故經由 組合複合字元「所」與對應字元「煮」產生一個延長字「 所煮」(S29)。則「所主」被轉換延長字「所煮」(S23)。 其次,延長字長度2被加至PTR暫存器12之值獲得4。 NP暫存器13之值没疋為最可能字長度5。此種情況下,np 暫存器13值5被加至PTR暫存器12之值4獲得9。此時,9係 大於NCHAR暫存器14之音節數6。因此NP暫存器13之值 設定為最可能轉換字長度2。 (請先閱讀背面之注意事項再填寫本頁) ----訂---------線. 經濟部智慧財產局員工消費合作社印製 然後,第四和第五連續音節串由輸入區段1〇送來的音 - >
1〜18 A7
請 先 閱 讀 背 Sj 之 注 意 事 項 再 填 寫 本 頁 k k A7 B7 五、 發明說明(17) ③ 音標符號非限於舉例說明的音標和音節字元, :括音標符號。此外,當曰文或韓文作為中文字:轉二 &時。也可使用例如日文的假名字元、韓文的韓文字母 ④ 當然本發明之應用包括傳統漢字書寫的虚 理器等。 入子羼 ⑤ 也加上學習功能。 根據本發明,輸入音標符號串轉成中文字元時,若中 文字元(其於欲轉換的音節上的中文,具有前置詞、連接 :、肯定詞、否定詞、指示代名詞等特徵)於字典18有其 讀音,且在字典18,有個同音字元或字具有詞類部分屬性 ,其可在複合字元前或後連續的音節,連接至複人字元 則自動選擇最理想的同音字元或字,複合字元組:選定字 而產生-延長字。使用此種語法資訊轉換中文字元的裝置 谷易免除a同音字元和字造成的錯誤轉換。結果可增進於 形成中文文件時中文字元的轉換準確率,而達成極高技術 效果。 經濟部智慧財產局員工消費合作社印製 雖然很方其特定具體實施例說明本發明,但多種其它 修改、校正、和應用為業界人士顯然易知。因此本發明非 僅限於此處提供之揭示,而係受隨附之申請專利範圍所限 --------^--------- (請先閱讀背面之注意事項再填寫本頁)
494318 A7 * B7 五、發明說明(18) 元件標號對照 經濟部智慧財產局員工消費合作社印製 10...輸入區段 11…暫存器初始化區段 12...PTR暫存器 13...NP暫存器 14...NCHAR 暫存器 15·.·音節切出區段 16…轉換控制器 17...字典搜尋區段 18…字典 19…詞類部分屬性處理區段 20…複合字元偵測區段 21...複合字元字典 22…輸出區段 100…輸入區段 110…暫存器初始化區段 120...PTR暫存器 130... NP暫存器 140...NCHAR暫存器 150…比較器 160…轉換控制器 170...字典搜尋區段 180·.·字典 190…輸出區段 Sl-10,S20-35···步驟 -------------裝-------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 21

Claims (1)

  1. 494318 □98 8 8 ABCD 經濟部智慧財產局員工消費合作社印製 申請專利範圍 l 一種使用語法資訊之中文字元轉換裝置,包含: 一複合字元字典,用以儲存中文複合字元的音標 符號、複合字元、和詞類部分屬性其可連接至該複合 字元、對應音標符號的複合字元和詞類部分屬性; 一字典’用以儲存音標符號、字和詞類部分屬性 •’當有多個對應字之例,對應字和字屬性係以字的使 用頻率順序排列,字和詞類部分屬性係對應音標符號 一音節切出區段,用以提供第一優先順位,係轉 成含最多字元的字,一未被轉換的輸入音標符號串的 音節,或音節的一部分,而獲得以輸入順序轉成音節 的第二優先順位;音節切出區段基於優先順位,循序 遞減欲被轉換的音節數目,以及循序向後移位欲被轉 換的音節,而切出一個目前被轉換的音節; 一字典搜尋區段搜尋字典,用以使用由音節切出 區段切出的欲被轉換的音節串作為搜尋鑰,而檢知一 個中文字; 一複合字元偵測區段,用以偵知一複合字元,以 及當有一音節對應於由音節切出區段切出的欲被轉換 的音節的複合字元時,以預定程序偵知連接至該複合 字元的詞類部分屬性; 一詞類部分屬性處理區段,用以當對應複合字元 由複合字元偵測區段偵知時,詞類部分屬性處理區段 使用字典搜尋區段搜尋字典,搜尋時係使用於由複合 --------1-------- (請先閱讀背面之注意事項再填寫本頁) •線 « 22 - 494318 A8 B8 C8 DS 六、申請專利範圍 字元偵測區段偵知的對應複合字元之的前後音節作為 搜尋鑰;以及當偵測得一個基於詞類部分屬性可關聯 複合字元的字時,詞類部分屬性處理區段組合複合字 元與字而產生一延長字;以及 一轉換控制器,用以執行控制因而採用由字典搜 尋區段偵知的字,優先轉換成由詞類部分屬性處理區 段產生的延長字。 I --------------裝--------訂---------線 (請先閱讀背面之注音?事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制π 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 23
TW089107006A 1999-04-15 2000-04-14 Chinese character conversion apparatus using syntax information TW494318B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11107806A JP2000298667A (ja) 1999-04-15 1999-04-15 構文情報による漢字変換装置

Publications (1)

Publication Number Publication Date
TW494318B true TW494318B (en) 2002-07-11

Family

ID=14468518

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089107006A TW494318B (en) 1999-04-15 2000-04-14 Chinese character conversion apparatus using syntax information

Country Status (5)

Country Link
US (1) US6587819B1 (zh)
JP (1) JP2000298667A (zh)
CN (1) CN1200376C (zh)
SG (1) SG93236A1 (zh)
TW (1) TW494318B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI464678B (zh) * 2004-06-18 2014-12-11 Microsoft Corp 用於手寫輸入亞洲語言的方法及系統

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US7512666B2 (en) * 2001-04-18 2009-03-31 Yahoo! Inc. Global network of web card systems and method thereof
TWI220727B (en) * 2003-06-11 2004-09-01 Asustek Comp Inc Character element input correcting device and method
US20070150256A1 (en) * 2004-01-06 2007-06-28 In-Seop Lee Auto translator and the method thereof and the recording medium to program it
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US7861164B2 (en) * 2005-11-03 2010-12-28 Bin Qin Method to sequentially encode PINYIN of Chinese character with few symbols
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
CN102478971A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 一种方块字的键盘输入方法及具有键盘的数字电子装置
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
CN104182390B (zh) * 2014-08-14 2017-08-18 百度在线网络技术(北京)有限公司 对用户信息进行个性化处理的方法及系统
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN109308126B (zh) * 2017-07-27 2022-09-13 北京搜狗科技发展有限公司 一种候选词展示方法和装置
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPH0760434B2 (ja) 1986-12-02 1995-06-28 松下電器産業株式会社 漢字変換装置
TW268115B (zh) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和系统
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI464678B (zh) * 2004-06-18 2014-12-11 Microsoft Corp 用於手寫輸入亞洲語言的方法及系統

Also Published As

Publication number Publication date
JP2000298667A (ja) 2000-10-24
CN1271132A (zh) 2000-10-25
SG93236A1 (en) 2002-12-17
US6587819B1 (en) 2003-07-01
CN1200376C (zh) 2005-05-04

Similar Documents

Publication Publication Date Title
TW494318B (en) Chinese character conversion apparatus using syntax information
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US7810030B2 (en) Fault-tolerant romanized input method for non-roman characters
KR101425182B1 (ko) 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법
JP4833476B2 (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
JPH07325829A (ja) 文法チェックシステム
JPH0844719A (ja) 辞書アクセスシステム
JP2003514304A5 (zh)
KR20050014738A (ko) 표음 입력 모호성 제거 시스템 및 방법
JPH07325828A (ja) 文法チェックシステム
JPS6049932B2 (ja) 日本語情報処理方式
JP2001229162A (ja) 中国語文書自動校正方法及び装置
JP7315420B2 (ja) テキストの適合および修正の方法
JP2003178087A (ja) 外国語電子辞書検索装置および方法
TW460825B (en) Chinese character conversion apparatus with no need to input tone symbols
JPH01229369A (ja) 文字処理装置
WO2006051647A1 (ja) テキストデータ構造、テキストデータ処理方法
JPS6151265A (ja) 日本語ワ−ドプロセツサ
JP3888701B2 (ja) 文字変換装置
JP3351397B2 (ja) 中国語入力装置及び中国語入力方法
Chen et al. PAT-tree-based Language Modeling with Initial Application of Chinese Speech Recognition Output Verification
JP2838850B2 (ja) 仮名漢字変換装置
Sproat et al. Multilingual spoken term detection: Finding and testing new pronunciations

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent