TW497048B

TW497048B - Information processing system

Info

Publication number: TW497048B
Application number: TW089102179A
Authority: TW
Inventors: Osamu Katayama; Takamasa Koyama
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1999-02-12
Filing date: 2000-02-10
Publication date: 2002-08-01
Also published as: CN1263316A; SG92668A1; KR20010006632A; CN1193306C; JP2000231559A

Description

497048 五、發明說明（1) [發明之背景] 本發明有關於資訊處理系統。使用在語言4監別，用來鑑別文件中之語言和在輸入本文之全體本文尋找及尋找/登錄之關鍵字尋找，同時觀測被包含在輸入文件之所有本文 (字元串）作為目標。在習知技術所進行之方法中，於資訊尋找處理領域之文件中，其鑑別本文（字元串）之語言之方法有：根據語言之字典所提供之字之鑑別用來鑑別語言，如日本國專利案公報平8 - 1 3 7 8 8 6號所示；根據語言之字元碼之特定位元（在此處為二位元）用來鑑別語言，如日本國專利案公報平 8 - 1 6 0 9 2 9號所示；和根據語言特異之特定資訊（例如領域名稱等）用來鑑別語言，如日本國專利案公報平1 〇一 1 71 8 1 0 號所示。另外，在資訊尋找處理領域之文件中所描述之本文之關鍵字尋找和登錄/尋找之習知技術所進行之方法中，使用字表其中將分開字元附加到關鍵字之開頭和結尾，如日本國專利案公報平8-166 17號所示。

另外在習知技術中，多語言輸入系統可以有效的輸入混合有多種語言之本文，如曰本國專利案公報平5 —28236〇號所示。亦即，該系統利用有關之字典將輸入本文變換成為，示本文，然後定義顯示本文，和判定語言，其中以未知數目最少者作為輸入語言，或是使用先前較常使用之語言作為輸入語言。在曰本國專利案公報平7-262 1 88號中，揭示有語言鑑別

第5頁

處理方法，可處理。目標語生頻率表，和該正常之發生類型鐘別處理件之一系列之之字進行比較常發生頻率值所累積之總值在曰本國專方法和系統，候選語言中最語言之字表之偶儲存。該有之一種候選語字與被儲存在字和被儲存在持在個別語言文件之語言。以進行言之普字碼結頻率值中，亦字，然 ’然後附加到作為讀利案公用來鑑常用字有關之關字表言之最字表之字表之。選擇鑑別語言或儲存或發送文件之類塑之通字被包含在目標語言/類型之字發合有正常之發生頻率值，和經由使用用來檢測語言/類型。另外，在語言/ 揭示有一種系統用來接受來自輸入文後使該等字與字發生頻率表中之所有在有關之累積器將該等字之結合之正現存之總和，鐘別來自所有之累積器取文件之字之語言鑑別值。

報平1 0 -1 2 4 5 1 3號中揭示有語言鑑別別文件中所描述之語言，使用在多種組。最常用字之組被儲存在有關候選組，依照最常用字之有關組之字元對為NXN位元表。位元表示在丨個位置常用字之指定字元對偶。來自文件之最常用字進行比較。計數來自文件之有關組之字之間之匹配數目，然後保具有最大數目之匹配之候選語言作為然而，在上述之習知技術所說明之方法中，例如，在日本國專利案公報平8-137886號中，可以達成每一個文件之自動鑑別’但是必需設置字典用來鑑別該等字。在曰本國專利案公報平8 -1 6 0 9 2 9號中’利用相同之字元碼（例如單2 一碼）等很難回應不同之語吕（例如漢字集合或之j C K)。在

497048 五、發明說明（3) 曰本國專利案公報平1 0 -1 71 8 1 0號中會有對角一個委託 (cl ient)進行鑑別之問題。在上述之習知技術（例如JP 8-16617)所說明之方法中，所產生之問題是字表槽案必需與原稿文件尋找中所使用之索引分開的設置。在上述之習知技術（例如JP 5-28 236 0 )所說明之方法中，所產生之問題是假如在本文中發生相同之字元碼，很難判定該字元碼屬那一種語言。另外一個問題是因為必需事先設置用以鑑別語言之字典，所以不能對未知項目鑑別語言。另外一個問題是對於已知字，亦即”rec〇gniti〇n" 等，在日文之情況可以辨識該字，因為該字被包含在字成作為字典資料，但是未被包含在字典之字當出現在普通句' 子時不能被鑑別，因為依照傳統之形態該字未被包含在字典。另外一個問題是用以切出字之規則必需為每一種鑑別 ^ δ設置規則，所以除非已有規則可適用於該特定之語吕，否則不能對該字進行處理。 [發明之概要] —本發明用來克服習知技術之上述問題。第一，本發明是用來岔別以某種語言描述之輸入本文之語言，才® =使用國豕之5吾§之描述特徵，亦即檢測作為鑑別

字元之發生率，或檢測特定字元間之J 在特。圍('歹則在特定範圍之字元之發生率，同時觀 :特疋列如曰文之"平假名'"漢字”）之語言或特 ^之特疋子元（例如韓文之空格字元）。 89l02n9.Ptd 第7頁

4^/048 五、發明說明（4) 夺第二，本發明之另一目的是使用尋找系統其中利用文件哥找$來設置使用二字元鏈作為索引，在登錄時將分開字凡之資訊附加到該索引藉以能夠進行關鍵字尋找，在輸入本ί t將分開字元插入在關鍵字之開頭和結尾。攄3 t ’本發明之另—目的是提供資訊處理系、统，可以根曰疋之本文自動的鑑別該指之文古處理系統，在本文之特徵被判定為代碼，；二 =自^ ϊ i類為字元圖型型樣，例如字型等之狀況下，玎以自，的鑑別其語言或群組型式。凡下j 李：：i i上述之目的，依照本發明時，第-在資π,理中檢測特定字；輸入本文之特定字元之發生次數言之特定字元之$▲ ^:儲存裝置用來儲存檢測目標語之特定字元之；；率，和比較裝置用來使輸入本文生率進行比較。第二:測目標語言之特定字元之標準發用來檢測輸人本文二牲資訊處理系統，設有檢測裝置長度，儲存褒置用纟間之非特定本文之平均本文準平均本文長度，矛J:目標語言之非特定字元之標 =平均本文長度和檢=用來使輸入本文之非特定字均本文長度進行比較。笛目軚语言之非特定字元之標據輪入本文之^在^=處理系、統，設有檢定；圍内之發：；特二圍=次數用來檢使輪入本文之字元在特；；=發生率，和比較裝置用乾圍内之發生率和檢測目標語 / 五、發明說明（5) 特ί範圍内之標準發生率進行比較。因此，可 i:自泸：=疋可以鑑別輸入本文之目標語言，其方法是吏k自毛生率計算器之輸入本文中之特定字元之發生率和記憶器之標準發生率進行比較，議定對應到具有與目標語言匹配之特徵之本文。將八=一：f、本發明時設有插入裝置與關鍵字尋找時用來直：1:::入到庫館本文’檢測裝置用來檢測三字元鏈被放置在中間這時在插入有分開字元之 ii! 字元，產生裝置用來產生包含有字元位於二，：二W後”元鏈，包含有分開位元和位於分開位开> =夕=兀之子兀鏈，和包含有分開位元和位於分開位位亓^ X 之字兀鏈，和插入裝置當尋找時用來將分開本t t Μ 7入本文之開頭，或輸入本文之結尾，或輸入時# ffi H、:結尾。因此，可獲得之優點是可以消除尋找蚪使用本文而不是關鍵字。圖: 二卜別i f浴依照本發明之資訊處理系統時，對語言之二目;，I: 一性，其中含有本文資料，數種指定之語元之被分類成為多個：：：君T J在圖型識編多個丰开君笨έ日4廿、λ斗匕3有η子70、，且a和組合有 ΐ:::2 任何一個包含有構成組合之代竭，第 ." 對應到第一資料之組合之圖型，和第-一一來自第-資料和第二資料…，設有字元鏈萃；；資料 497048 五、發明說明（6) 一來攸士文中檢測二字元鏈，和判定含有構成二疋之字元群組，圖型計算裝置，用來比較 ’ ’’ 士子判定之字元群組之組合是否與圖型儲存裝置之：：f置二和用來計算一致之圖型之數值，*圖型； 1定具有由圖型計算裝置計算出之所有字元 ^ “ =型和其組合圖型，與被儲存在圖型置第之第二資料，或第三資料者一致，作為圖型計算裝置所計算出之數值之平均：有12 5儲存裝置之第二資料之值成為 =圖裝置計算所有之字元=用=計型儲存裝置之第二資料之=，，和判定最接近圖合。因此，可以值ΐ為圖型儲存裝置之圖型組判定資料所屬之圖c:圖型之組合可以自動的 ,^ 共干才曰派給所有之圖型，你丨‘ A -

組等，和圖型被分類成兔叙搞Λ| 吓韦之口孓例如子7L 個有意義圖土群組以圖型群組之義圖型群組和多有群ί:組有儲存媒體1來構成含第一資料含有圖型群組之、，且作為圖型識別用和用來儲存先前已知，第二資料含右:字元組合圖髮其中圖型群組為和第三資料用來表示第一資第-資料，：型型式，數，字元鏈萃取裝置，用資料之ti之發生次鏈，從儲存媒體先前對复ί、;：圖型資料之：有之二字元 ”扣/底有圖型型式，子兀鏈頻率計第10頁赞明說明（7) =:置用來計算有關字元鏈之發生次數式之字元鏈圖型和發生次數儲存 σ，母一種圓翌 —，用來從指定圖型中萃取二目、玄，子兀鏈萃取裝 ;取每-個圖型型式之對應到存裝置，用來妻鏈圖型之發生次數，和對照裝置子某：：：之字元鏈之播^置之發生次數和所有之被萃取之字_:使羧自頻率計 ^定具有總發生次數最大之圖 =為，行對照，然 ί:型型式。在這種情況，該對照裝有指定圖型 ‘過某一個臨界值之圖型型式作‘人二二有總發生次式，或是該對照裝置邦定具有有:私定圖型之圖型 =某-個臨界值之字元鏈圖： = 鏈之發生次數 ”，作為含有指定圖型之頻率之圖型式，字型等被圖型，除非字元型類=μ置f吾言對語言之^被为類，另夕卜該圖型之分料萃取所〜依^ ^發明時設有分開裝置，當從圖型資言分開成鏈U來將字元型式，或至少-種語構成含有圖型；：之圖型型式先前被指派，元鏈萃取裝番口之圖型群組作為圖型識別用，字置當該字‘鏈‘人j二開裝置用來萃取字元鏈，鏈變換裝字元鏈’字亓一子7L時用來重複相同之字元藉以形成計數裳置。頻率計數裝置元鏈萃取裝置，和頻率

^ 囚此，可雖P 料所屬之圖型， X传之優點是可以自動的判定測試資和另優點是除非字元型式，字型等被編五、發明說明（8) ::語= : = :分類，另外該圖型之分類不需要設置有含有二字fΑ ^本發明設有圖型儲存裝置，用來儲存有每一種圖型分類或件號碼，和在儲存媒體設含有字元碼^ 4 σ之本文貧料之字元鏈圖型，構成外，設有字5、’且合之圖型群組作為圖型識別用。另元鏈襄置用來萃取本文資料之所有之二字次數和計算裝置用ί計算有關之字元鏈之發生字元頻率比較裝置:决f式之子=鏈圖型和文字號碼，和元鏈圖型之頻^ ^ β取獲自字元鏈頻率計數裝置之字型，比較每-ί:::種圖型類別之儲存媒體中之字元圖字元鏈圖型，心ϋ別之字兀鏈圖型之頻率總值，和將型類別之儲存’】和文件號碼儲存進入具有較大圖型型式作為i有;；r發生次數超過某-個臨界值之圖較裝置用來判定：：二3之5型1式’或是該字元頻率比臨界值之字所有之字元鏈之發生次數超過某一個合有指定圖型之圖 =圖型型式，作為重:的判定測試資料所屬：圖型，和除；之’點是可以自被編碼，該圖型可以被分類。予兀型式，字型等另夕卜，| 依P、?、本發明之I訊處理i 隹—性，其中含有本文資i ί種Γ言之圖個予70子型定義…馬，儲存媒體構成含

第12頁 497048 五、發明說明（9) 儲存在丄ί語群組作為圖型識別用，和用來組合，其中以每種漢字；;;=構成字元之二字ΐ 母，和其他字元之字元型式广片假一名二符號，韓字指派裝置用來讀取集合喝或：：：：：：率，個 ;系！’字元鏈萃取裝置用來從輸』本文字元之一子兀鏈，發生次數計數 2取所有片假名，符號，韓字母，和其他之： = :;平假名/ 符合每一種語言之指派類使其個別語言分布間距離舛I_ =…後刀別计异其發生率，呷间距離汁异裝置，依照指派碼系统用水ο f:，平假名/片假名，符號，韓字母之每”二來叶算 ^之間之總距離，利用用儲存裝 y之發二/片假名’符號，韓字母之每一種語言之發生莫率予，’平假二、置，用來使個別語言分布間距離計算广之注+ Ί /疋/、有取小距#值之語言目錄作為輪入本文生ϋ之= 為可以計算漢字’平假名，符號等之發 [二Λ 距離，所以可以很容易判定語言類別。 L車乂 t具體例之詳細說明] 下面將參照圖式用來說明本發明之具體例。 (具體例1) 統：1 二示本發明之第一方法具體例之字元喝語言鐘別系 :圖」+，符號m表示特定字元鑑別器，用來鐘別輸入 +文C子7L串）之字元是否對應檢測到之目標語言之特定字

元；102是特定字元所鑑別之特定字元之發“’用特定字元鐘別器用來計數輸入本文之所有二，夕疋輪入字元計數器，器，根據該特定字元1 又，104是發生率計算生次數，和該輸入牢分斗之特疋子元之發子兀數，來計算該特定字元之發生率.文？；本文之率記憶器’用來館存檢：定1，，標準發生率；106是比較器，用爽佶恭/、/^：特广子兀之標準發生斗皇4 、*冲六户舍生率什异器1 〇 4所檢測到之發生率和被儲存在標準發生率記憶器105之比較；和1 07是本文社炭於、、目丨丨哭七』心生羊進灯 4又、、、口束檢測态，用來檢測輸入本文之結果0 圖2表示本發明之字元碼語言鑑別之第j方法之概念。在圖2中，符唬20 1表示輸入本文，被施加語言鑑別， 202表示特定字元，發生在輸入本文。在本發明之第1方法中，經由檢測輸入本文中之特定字元之發生率用來鑑別目標語言。假設輸入本文201之字元總數為m，特定字元2〇2 之發生次數為η ’則輸入本文201之特定字元之發生率k成為n / m。假設目標語言之特定字元之發生率最小為a，最大為b，當輸入本文201之特定字元之發生率k成時，本發明之第一方法這時就判定為輸入本文對應到目標語言。利用這種方式可以達成本文之語言鑑別。本發明亦可適用於輸入本文為韓文其鑑別是以，，空白字元”作為韓文之特定字元20 2。這時，根據12萬個字元所構成之韓文報紙計數資料之統計資料，可以使用a = 0 · 1 4，b

89l〇2l79.Ptd 第14頁 497048 五、發明說明（11) = 0.23。利用此種方法，以韓文字母描述之文件可以與其他文件（例如以日文描述之文件）互相鑑別。、/' 如上所述，當利用本文結束檢測器丨〇 7檢測到本文之結束時，在輸入本文中之目標語言之鑑別是使獲自發生率算器1 04之輸入本文中之特定字之發生率，和獲自標準發生率記憶器105之標準發生率進行比較，用來判定輸入^ 文是否對應具有與目標語言匹配之特徵之本文。 (具體例2) 圖3表示本發明之第二方法具體例之字元碼語言鑑統之形態。 ^ 在圖3中，-符號301表示特定字元鑑別器，用來鑑別輸入 f文中之字兀是否對應到檢測目標語言之特定字元；3 2 疋本文長度计數器，用來計數未被特定字元鑑別器3 〇工梦別之非特定字之連續發生數；303是加算器，用來計數從本文長度计數裔302輸出之本文長度之總和；3〇4是特定字，計數器，用來計數該特定字元鏗別器3〇1所鑑別之特定字70之發生次數；3 0 5是平均本文長度計算器，用計算平均本文長度，其計算是以獲得特定字元計數3 〇 4之特定字元之數目，除該加算器303所計算出之本文長度之總和； 306是標準本文長度計數器，用來儲存檢測目標語言之平 $本文長度；307是比較器，用來使獲自平均本文長度計算器305之平均本文長度，和被儲存在標準本文長度記憶器306之標準平均本文長度進行比較；和3〇8是本文結束檢測器’用來檢測輸入本文之結束。

497048 五、發明說明（12) 結果圖4表示本發明之字元碼語言鑑別之第二方法之。在圖4巾，符號401表示輸入本' 二特定，元，發生在該輸入本文；和⑴，= Π::元ΐίΐ 定本文），被特定字元分割。在本第一方法中，目標語言之鑑別是檢測非特定本文 401 4/2 ’^1η ^平均長度，以特別字元402分割輸入本文 ^ 1。假設輸入本文401之非特定字元被n-1個特定字元分吾1J，則輸入本文變成包含有0個非特定本文和非特定本文 =長度為al，a2，a3 ’…抓，這時輸入本文如之文之平均本文長度k成為（al+a2+a3 + ... + a 、設被目標語言之特別字元分割之非特定字元之。又 2小為a，最大為b，當輸入本文401之非特定字元' 均本文長度k為a^k^b時，本發明之筮-十、| 就在這時判定為輸入本文4〇1對應到椤」之^別方法之方式可以達成本文之語言鑑別。‘…利用上述依照本發明之方法，輸入本文中之韓文之梦，空白字元"作為韓文之特定字元40 2。這使用字元所構成之韓文報紙計數資料之統計 X 萬個 a

，b=5 。凡卞貝枓，可以使用另外’對於曰文和中文之鑑別，例如之鑑別可以使用” 在中文之情況），"的，中，之;吾：作為特定字元4〇2。在這時，根據五萬四 _ ° 。之曰文報紙計數資料之統計資料可以使用=凡所構成尺用 a=i〇，b=22，

497048

和根據八萬四千個字元所構成之中文文件資料之統計資可以使用a = 4，b = 9。依照此種方法經由比較平均二’异度可以很容易判定輸入本文之語言是對應到日文或中文广士如上所述，當本文結束檢測器3 〇 8檢測到本文之結，，可以鑑別輪入本文之目標語言，其方法是使獲°自平 =文長度計算器30 5之輸入本文之平均本文長度和獲自护準本文長度記憶器30 6之標準本文長度進行比較，藉以^ 定輸入本文是否對應到具有與目標語言匹配之特徵胃之 X/ r\ 丁 (具體例3) 統ΓΛ示本發明之第三方法具體例之字元碼語言鐘別系別ίΓ太V/號501表示字元在特定範圍鑑別器1來鑑主之字元是否對應到檢測目標語言之特定範圍 =，502表不字兀在特定範圍計數器，用來計數該鑑別11賴狀切定範圍之字元之發生次數，503疋輸入字元計數器，用來計數輸入本文之 =碼之發生；504是發生率計算器，根據該字元在特定範 ^計=502所計數之字元在特定範圍之發生數器503所計數之輸入本文之字元數，用來計算字 =範圍之發生率；50 5是標準發生率記憶器，用來，存檢測目標語言之字元在特定範圍之標準發生〇6 =使ί自發生率計算器…之發生率和被儲存在k準發生率記憶器5 0 5之標準發生率進行比較丨和Μ?

497048 五、發明說明（14) 是本文結束檢測器，用來檢測輸入本文之結束。圖6表示本發明之字元碼語言鑑別之第三方法之概念。在圖6中，符號6 0 1表示輸入本文，被施加語言鑑別；6 0 2 是發生在輸入本文之特定範圍之字元之字元碼之範圍，·和 611，612，613是範圍602所含之特定範圍之字元。在本發明之第三方法中，目標語言之鑑別是經由檢測輸入本文之特定範圍之字元之發生率。假設輸入本文6 0 1之字元之總數為m，特定範圍所含之字元之發生次數為η，則輸入本文 601之特定範圍之字元發生率k成為n/m。假設目標語言之特定範圍之字元發生率最小為a，最大為b，當在輸入本文 601之特定範圍之字元發生率k成為a$k$b時，本發明之第三方法之鑑別方法就判定這時之輸入本文6 0 1對應到目標語言。利用上述之方式可以達成本文之語言鑑別。依照本文發明之方法，輸入本文之日文之鑑別可以指派 π平假名’’或”漢字π作為曰文之特定範圍之字元之範圍 6 0 2。這時，根據五萬四千個字元構成之曰文報紙計數資料之統計資料，，，平假名，，可以使用a = 〇. 1，b = 0 · 5，π漢字π可以使用a = 0 · 2，b = 0 · 6。依照此種方法，可以很容易鑑別輸入本文之描述語言是否對應到日文。如上所述，當本文結束檢測器5 〇 7檢測到有本文之結束時’可以鑑別輸入本文之目標語言，其方法是使獲自發生率計算器504之輸入本文之特定範圍之字元發生率，和獲自標準發生率記憶器50 5之標準發生率進行比較，藉以判定輸入本文是否對應到具有與目標語言匹配之特徵之本

89102179.ptd 第18頁 497048 五、發明說明（15) 文。 (具體例4) 圖8表示本發明之尋找關鍵字之第四方法之概念。在圖8 中，符號801表示本文"v、$ "，在登錄時被輸入； 811，812，813分別為關鍵字；8〇2是插入在本文之分開元，其中以分開字元"a”插入在輸入本文8〇1之關鍵字 811，81 2 ’ 81 3之間之境界；803是二字元鏈” a v、”，登錄在插入本文之分開字元；804是二字元鏈” v、易”，發生 803之後；805是二字元鏈，，"，包含有從中間具有分字元” a”之三字元串” 產生之分開字元；8〇6是二兀鏈，包含有三字元串” ，，之分開字元；8〇7 二字兀鏈” 3 U ” ，未包含有分開字元，越過三字元串,，之分開字元·’ 808是二字元鏈"过（c”，發生在8〇7之a 一個；和807是二字元鏈”（c a”，發生在8〇8之後。另外，在圖8中，二字元鏈8 〇 3儲存n a π和"、、"之發生4 數η，nl ·’二字元鏈804儲存” ν、”和·· ό”之發生次數^，一人 112;二字元鏈8〇5儲存”6”和、，，之發生次數113，11;二〜元鏈80 6儲存”a”和，，U"之發生次數η，η3 ;二字元鏈8^予存"6"和”泣"之發生次數η2，η3 ;二字元鏈8〇8儲存"『省和Me”之發生次數η3，η4 ;和二字元鏈8〇9儲存，，纪” 之發生次數η4，η。、口 a 另外’在圖8中，符號8 2 1表示尋找時之尋找到之本文，， w 6 ic” ； 822是尋找本文，其中具有分開字元,，a，，插入在821之開頭和結尾，經由使用本文821作為關鍵字用來進

89102179.ptd

497048

行完全一致之哥找，823是二字元鏈” av、”，在尋找本文 8 22首先被尋找；824是二字元鏈” v、$ ”，發生在82；3之後；824是二字元鏈π I、ό π，發生在823之後；825是二字元鏈” ό (i π發生在824之後；826是二字元鏈”以u，，，發生在825之後；和827是二字元鏈，發生在826之後。圖7顯示本發明之第四方法具體例之本文尋找方法之資訊處理系統之形態。 '

在圖7和圖8中，符號7 0 1表示本文變換器，用爽將赫定分開字元"a"插入在庫館本文801之關鍵字°°間之邊界’；7〇2 是分開字元檢測器，用來檢測來自庫館本文8 〇 2之分開字元，從本文變換為701輸出，在其中插入有分開字元；yog 是二字元鏈產生器，用來檢測當本文8 〇 2中未找到分開字元時所產生和登錄之二字元鏈804，808 ; 704是分開字元鏈產生器'，用來檢測來自本文802之二字元鏈8〇5，806，

8 0 7 (由二字元串π ό a丨汰"產生，在中間具有分開字元” a ”）和二字元鏈8 0 3 ’ 8 0 9 (在本文之開頭和結尾分別具有分開字元）；705是二字元鏈記憶器，用來儲存該二字元鏈產生器7 0 3和分開字元鏈產生器7 0 4所檢測到之二字元鏈8 〇 3， 804，805，806 ,807，808，809，其中分開字元表示常數值，其他之字元表示其發生次數；7 0 6是本文變換器，用來將指定分開字元n aπ插入到尋找本文8 2 1之開頭和結尾； 7 0 7是二字元鏈檢測器，用來檢測該本文變換器7 〇 6所產生之尋找本文822中之二字元鏈823，824，825，826，827 ; 708是比較器，用檢測二字元鏈823，824，825，826，

89102179.ptd 第20頁五、發明說明（17) ’由一字70鍵檢測器7 0 7自二字元鏈記憶器7 0 5中檢 ^ ，後判定所檢測到二字元鏈之前一個字元之發生次 ^ ’疋否與先檢測到之二字元鏈之後之字元之發生次數、致’和7 0 9是控制部，經由以比較器7 0 8判定二字元鏈檢測部7 0 7所檢測到全部之二字元鏈，用來判定本文之一致。在這日$依照本發明之第四方法是檢測到相當於二字元鍵82 3之1’ a V、’’之二字元鏈，和檢測這時之，，v、”之發生次數 nl ’以及檢測到相當於鏈823後之二字元鏈824之"p易”之二字元鏈804，和檢測這時之” v、”和” ”之發生次數nl， n2 °判定π ν、π之發生次數在二字元鏈8〇3和8〇4之間是否互相一致成為nl。假如是就檢測相當於二字元鏈825之” $以 ’’之二字元鏈8 0 7 ’和檢測這時之” $，，和”试”之發生次數 η2，n3。判定” 0 π之發生次數在二字元鏈804和807之間是否互相一致成為η2。假如是就檢測與二字元鏈826之，，U 1相當之二字元鏈8 0 8，和檢測這時之π泣，，和，，（c ”之發生次數η3，η4。判定n U π之發生次數在二字元鏈8〇7和808之間是否互相一致為η3。假如是就檢測與二字元鏈827之”（can 相當之二字元鏈8 0 9。然後，判定在這時之丨〔’’之發生次數η 4是否與二字元鍵8 0 8之n (c "之發生次數一致。假如是就根據關鍵字之完全一致用來判定本文8 2 1與本文8 0 1 — 致。利用上述之方式可以達成本文之對照。依照本系統時，可以消除使用本文而不是關鍵字之尋找。例如，使用本文π I、6泣η而不是關鍵字進行尋找時，如圖8之本文831，該尋找之進行是使用尋找本文如832其

89102179.ptd 第21頁 / 五、發明說明（18) 广:開子兀，入在開頭和結尾。在這種情況’因為本 ί找太==關鍵字811，812，813，所以產生不能從 =找本文832中k測到之二字元鏈8 32 η,,和不被尋在種十月況5本發明之系# m 士篆你耍-欠> m <糸、、先同樣的可適用於使用字元之位置貢訊用以代替有關之-空& μ > 一〜③頁關之一子兀鏈之字元之發生次數之情 //L 0 (具體例5) 下面將說明本發明之第五具體例之字元圖型鑑別方法。圖9/頁不代碼表之結構，用來對字元圖型進行編碼和將 ^存。纟這種情況，圖型碼以一元方式形成，和單一碼專被選擇作為本文碼之目標4群組9〇1包含有所謂之平假二片假名（例如字元：V，.··”力' ·.·)之碼數，被指派 :群組901之有關字元，例如指派#1給，，务,·，#2給·，、、,，等。相似的，B群組902包含有漢字和從#1〇〇開始之碼數被指派給$關之漢字，和C群組903包含有符號（例如χ，〇，△等）和從# 2 0 0起之碼數被指派給有關之符號。在這種h况’上述之碼數之指派是為著方便，假如在代碼表中具有惟一性則亦可以使用任何之碼數。其次’圖10表示用以儲存包含有字元及其資料之圖型分類之型式之圖型儲存裝置之形態。這時假設由字元組之組合所形成之本文資料，由要被鑑別之圖型中之任何一個本文構成。對於二組之字元圖型，圖型和其值被儲存在含有第一字元圖型和第二字元圖型之編碼表之組中。假如（第

497048 五、發明說明（19) 了字兀，第二字元）分別與（A群組之字元，A 疋（以下簡稱為（A群組，A群組）或（㈣組群予則發生圖型對應到叙合IH和定義成被包含在圓V;) 一致，被配置給此圖型。另外，數值i被指派在數值i B群組）或（B群組，A群組）之組合。對圖i〇 = A群組，同樣的指派數值給圖型2和圖型3’。例如 :2 ’ 3，亦假名’片假名，和漢字’所以圖型i被定義為、、文包含平的，假如C群組為韓字母，貝1J圖型2可以被定義為。相似圖型3可以被定義為中文。疋義為％文，和下面將說日月字元串所屬之圖型中，符號1101是字元串資料m法。在圖11 :、；：、一…合抽出二字元鏈(曰，本)(？— 、〉漢，力>。分別檢測（B群組，㈣ (卷，組），和（B群組，A群組）其中包人（夺，、且’ A群結果如圖12所示，（曰，本)屬於3 =出,：元鏈。其圖型1 ，和（漢，力）屬於圖型i。 ·或2，（务，、、）屬於另外，對應到該等圖型之得分（表示。當該等數值之數目互相值）了乂以1或2，1，1 最頻繁之數值，和圖型丨被檢1"日^，數^被檢測作為因此，判定為本文資料被包含】在=數配之圖型。度之數值是在第五具體例計算：,1。雖。具有最高頻之數值之間具有最小差之_。>疋數值之平均值和圖型資料之圖型。另外，亦可以被判定為包含有本文替平均值。 °，數值之最頻繁之值用來代 89102179.ptd 第23胃 4^7048

依照本方法時’在分析實際資料後發 :/付號除外之平假名/片假名之發生率大嘆、 :之發生，大約為49%。在中文之情況(以六法全書二漢才示），符號之發生率為全部字 '、外之羊傯4/ Η徊々％，漢字/符號除卜千饭名/片叙名之發生率大約為22%，和漢字之發4 i Μ為⑽。在韓字母之情況(以報紙作為目標子二生率發生率為全部字元組之大約丨5%，付戒之 / H ^ ^ ^ ir 漢子/付唬除外之平假名 /片叙名專之發生率大約為3%，韓字母字元之發生 7f 〇3 ^ ^ ^4%^ ^ # ± # A ^ i/ ? ^ ^ ^ ^ ^ ^ — 又 '、子，和私予母字元之形成，假如符號和漢子除外之平假名/片假名之發生率為41 :49時該語言為日文’假如該率為22 : 74時該語言為中文，和假如該率為 3 . 73時該語言為韓字母。最接近該等率之一之語言可、、’ 被分類作為要被鑑別之語言。 " &圖1 3表示本發明之第五方法具體例之資訊處理系統之形。在圖13中，符號13〇1表示字元鍵萃取器，用來從貢料中切出二字元鏈；13〇3是代碼表，其中儲存有圖型之代碼，1305是圖型記憶器，其中儲存有圖型組和數值； 1 302是圖型計算器，用來使構成萃取二字元鏈之字元碼且^、且=圖型圮憶器1 3 0 5中者進行對照，然後計算全部之萃取二字元鏈之對應圖型之數值；和1 304是圖型鑑別。器，根據圖型計算器1 302所計算出之數值，用來計算每個

497048 五、發明說明（21) 數值，或平均值或最頻繁值之發生頻率，然後計算具有生頻率與被儲存在圖型記憶器丨305之圖型之數值最二致^ 或與平均值具有差，或與最頻繁值具有，定具有最小值之圖型。口孓猎Μ匈次1此，依照此種方法時，利用圖型之值可以自動的判 =料所屬之圖型，其中指派給如同字元組之圖型，圖 y刀類成為數種型式之有意義圖型群組，圖型群組之組合表示。夕個有心義群組以以型之字元型式和字型被分類成為多種圖型時，刀類來進行此種方法。單一碼是一實例。在此種是”平假名/片假名'圖型2是"漢字(况， =)，和圖型3是"韓字母"，可以將語言之分類定 =有圖Λ群古組1和圖型群組2之組合之有意義群組成為文包含有圖型群組2和圖型群組3之組合，、、組成為"韓文"，和只包含有群$右立=〇之有思義群 ,,。匕3有鲆組2之有思義群組成為”中文一 f ^五具體例中’該圖型只要是代碼圖型並不口 ΡΡ认〜 ::1 ’和目標並沒有特別之限制，目、：：子符號，圖形等(例如◎，◊等)即可。雖；；代石”標例如個字元即可：疋出…單位並沒有限制，卩要適於二 (具體例6) ::將說明本發：之第六具體例之鑑別字元圖只下面f先况明形成資訊藉以鑑別圖型之方法。/

497048 五、發明說明（22) 圖1 4表示形成資訊之樣本資料。在圖丨4中，示中文樣本資料，從該樣本資料中檢出二字元鏈二另外广 1402表示字元鏈”那些”，丨4〇3表示字元鏈，，些都，，。該等* 元鏈相鄰的檢出。記憶號碼i被指派給樣本資料ΐ4〇ι"之'次子料。然後，從樣本資料檢出全部之字元鍵。在圖i ，貝設四個字元鏈1 402至1 405以下面所說明之方式顯示。又

中，1406，1412是日文樣本資料，全部之二字一 U 所述的從樣本資料萃取。如同中文樣本資料之說= ’、，二上鏈1 407至1411，1413至1416被顯示成如第六具體例之凡鏈。這種情況，記憶號碼2，3被指派給資料丨4〇6， 1412。 f ::，依照如同中文和曰文之圖型型式，將組合圖型， $錄號碼，和萃取字元鏈圖型之發生次數個別的儲存在媒體0 當發生圖15之圖型1501至1 504，於圖型型式為就儲存圖型和記錄號碼。相似的，當發生圖i 5之日、’ 至1 509，於圖型型式為曰文時，就儲存圖型和記錄號因為發生圖型1 504至1 504包含樣本資料14〇1， =。另外，因為發生圖型，至15。9包含樣= 1 406或1412，假如只包含一個記錄就儲存記錄號、如包含有二個記錄就儲存記錄號碼"2，3 „。 ^ 又數=被儲，圖5之記錄號碼之號碼表示，和成疋為鏈%發生不之《— 70表。在圖16中，符號1601表示中文之發生數，16〇2表示日文 4^/048 五、發明說明（23) 之發生數。在圖16之表中’縱轴表型 (第-字元’第二字元），和橫軸：第二鑑別儲存媒體。具有二= 結果是每-個圖型ί 1 例之儲存媒體。其 , 口 ^'玉式之發生次數可以儲存在該表。雖然在第六具體例e 1日日& + ^八蔽列匕祝明中文和日文之二種圖型型式，但是利用相似之方法亦口 i1八 ^ -V ^ ^ ^ ^ 方了將夕種圖型型式之每一種圖型 =存公亥表。下面將說明使用測試圖型用來鑑別語言 ’ 圖1 7中，從測試圖型1 7 0 1萃取相鄰之二字元鏈1°70?4,卒件二字元鏈有鏈1 702，，同事，，，鏈1 703,1事件，，，图，鏈1 70 5"七我，，，鏈1 70 6"我々”。然後，從 β ρ μ女、體之表中檢測與鏈j 7 〇 2，1 7 〇 3，1 7 0 4， 1705 ’1706對岸之恭斗a 4 ^應之1生次數。在中文表（圖16之1601)中， ^。 5 ’ ）之發生次數為1，和其他之發生次數不存获鉍在曰文表（圖16之16〇2)中，圖型（我，々）之 ^ ’圖型（同，時）之發生次數為1，和圖型 (事，件）之發生+童發生次數，則中文^為2。假如對每一個圖型型式計算總比較，可以檢測ίίνΛ 。經由使該二個結果進行以划金兮*目丨&八有較大數值之圖型型式，和其結果是可以判疋该測式圖型對應到日文。雖然在弟六且科u\ 〇方法亦可適於以I:計算發生次數之總數，但是此種 s田*斗μ二用不δ十异總發生次數超過η之圖型型式，或文_用5卞异今-A 4· 之總發生次數。鍵之發生次數超過Η之一些字元鍵

89102179.ptd 第27頁 4^/048

依，、’、此種方法日令’利用可適用具體例5所述之實際資料之-些i例。帛來核對發生字元型式之數目，在使用、日文中文/知文之相同字元碼之局部碼中具有大發生率。在這 =於中文資料使用3469型式漢字（大約74在 ==型式韓字母(大約73%);在曰文資料使用4。〇二式漢子（大約49%);和在日文資料 ϋ大約m)(假如包含有符號則為51〇型式（二名/片 0 利用务生率和字元型式之上述組合，使中文漢字 7;之^4: ί ^頻率和3469發生字元型式，韓字母字元碼之之2°3;發生頻ϋ18發生字元型式，曰文平假名/片假名碼之23/β毛生頻率和13〇發生字元型式，和日文發生字元型式互相比較，假如漢字… 文。相似的，根據時’就判定該語言為中型式，可以判定語言為曰;:;,;;1;發生頻率和發生字元能：在㊁1: ΐ：之第6方法具體例之資訊處理系統之型資料中檢出相鄰之二字元鏈？：取盗，用來從本文用來讀取字元鏈之發生-欠數牙疋子兀鏈頻率計數器，型（語言）型式將ϋί己錄號碼，然後以每一種圖數哭，用ίϊ! 在頻率記憶器1 803 :1804是頻率計数时，用來提取以字元鏈萃疋颁手口r 檢測到之每-種圖型型式之字；=以:己憶器18°3中對照器，用來計算每一種圖式和I，是測到之總發生次數，或苹U之：頻率計數器1804檢次茶 L界值之總發生次數，然後經

497048 五、發明說明（25) 由計算每一種圖型型式之超過某一臨界值之圖型小互相比較，用來判定含有測試圖型之圖型型式。'、又因此，依照此種方法時，τ以自動的判定測試資之圖型。另外之一優點是除非字元型式，字型等碼，可以將圖型分類。另外，不需要設置語言對组典可以將圖型分類。子 (具體例7 ) 下面將說明本發明第七具體例之鏗別字元圖型 =例。下面首先說明形成用以鑑別圖型之資訊之形1二之圖19表示用以形成資訊之樣本資料。在圖19中，μ 1901表示中文之樣本圖型’和從該樣本資们: 鏈。假如字元型式(例如，漢字，片假名出Τ 同，該二字元鏈被檢出時即形成。在這種情況 ^目乂 =指：之語言(例如字典包括該語言），： =二被切出，則該鏈不形成在切出之第二字元和後續 :闰在第7具體例中，因為使用曰文之切出兀本圖型m!之相鄰字元鏈。然後對第六斤乂，成樣 1矣90 一2至1905進行相似之操作。另外，在圖19中，二= J不曰文之樣本圖心在核對每一種字元型；1:6 後，不形成如同，，（i ” ””等之平鏈貝吼 1，Λ 有子凡鏈事件"，則先前字元π同”和二宝开 '事件被分開。其結果是字元鏈被分開成為-字S # 19(Π，1911，和一字元19〇8，19〇9 巧::兀鏈 i y丄υ寻。相反的，經 497048 五、發明說明（26) 由重複相同之字元用來形成一字元19〇8，19〇9，丨字，。圖20表示當判定圖型為一字元時，經；二字元鏈所形成之字元鏈。吳成為 $ : ★第六具體例中，依照中文，曰文等之每一 51聖式，分開的將組合圖型，記憶號碼，和二型之發生次數儲存在儲存據Μ。m 9 !矣-收h有子凡鍵圖二元# w,二圖表不將資料儲存成為一表之貝例。在圖2 1中，符號2 i 〇 J表示中文 J，21〇2表示曰文之發生次數，該二二任二二Vi=儲存到第7具體例之儲存媒體直至 . 八、、、口果是可以將有關之圖型型式之#峰4 數儲存進入該表。與第丄目触Υ丨n m 主I式之赉生次可以將多種圖型（扭”二例同樣的，利用相似之方法表。 H 型式之每一種圖型型式儲存進入該 17:面將說明使用測執圖型進行鑑別圖型之方法。使用圖 i::不之測試圖型。在此種情被卒取。然後從圖LW〇6我々的 17〇3，"。6對應之發生=媒；：表檢測與二字元鏈圖型（同，事）之發生在中文表（圖21之21〇1)中，相對的，在曰文表Γ上為卜不使用其他之數值。生次數為2,和圖型1(事圖2二21°2)中，圖型(我，々)之發型型式計算該等發生次：)之發生次數為2。當對每種圖在日文為m/；數之總數時，其總數在中文為1，雖然在第七具體例中7乂定= 甲计异總發生次數，但是該方法亦可

89102179.ptd 第30頁 497048

以計算具有總發生次數超過n之圖型 ;::;咖之字元鍵之總發生次數。雖。開= 亦了適於卒取對應到測試圖型之字元鏈之方法，所有相鄰 $ 字元之所有之字元鏈亦可以如同第六具體例的撿拾而不需要使用分開規則。

依照此種方法，根據可適用於第五具體例或第六具體例所不之實際資料，經由設定字元數可以判定該圖型，該字 7G數匹配發生頻率％，以n作為發生次數之標準。例如，在中文之情況，假如中文漢字碼之發生頻率為74%和發生字元型式為3469型至100字元，則可以將與漢字碼對應之發生次數之總和η設定為74。 μ圖22表示本發明之第七方法具體例之資訊處理系統之形悲。在圖2 2中，符號2 2 0 2表示間斷鑑別器，依照分開規則用來從本文資料中切出樣本資料；220 1是字元鏈萃取器，當獲得來自間斷鑑別器2202之結果時，用來獲取二字元鏈或一字元鏈和讀取發生次數和記錄號碼，當未獲得來自間斷鑑別2 2 0 2之結果時，萃取所有相鄰字元鏈；2 2 〇 3是鏈變換态’當字元鍵萃取器2201萃取一字元時，經由重複一字元用來形成二字元鏈；2204是字元鏈頻率計數器，用來將母一個圖型（语㊁）型式之二字元鍵，記錄號碼，和發生次數儲存進入頻率記憶器220 5 ; 220 6是頻率計數器，用來從頻率記憶器2205提取每一種圖型型式之字元鏈（由字元鏈萃取器2 2 0 1或鏈變換器2 2 0 3獲得）之發生次數；2 2 0 7是對照器，用來計算每一個圖型型式之從頻率計數器2 2 0 6檢測

89102179.ptd 第31頁 497048 五、發明說明（28) 到之總發生次數，或是某一個臨界值之總發生次數，然後判定含有測試圖型之圖型型式，其方法是計算每一個圖型型式之超過某一臨界值之圖型或比較每一個圖型型式之大 /J、〇因此，依照此種方法時，可以自動的判定測試資料所屬之圖型。另外，可以獲得之優點是除非字元型式，字型等被編碼，可以將圖型分類。另外，圖型之分類不需要設置有關语言之所有規則。 (具體例8)

下面將說明本發明之第八具體例之字元圖型之鑑別方法之實例。首先說明用以鑑別圖型之資訊之形成方法。假設 S類圖型被設定為2(曰文和中文專）。圖23表示用以儲存編碼字元圖型之代碼表之形態。A群組2 3 0 1包含有所謂之

平假名和片假名之如同字元π π ，…等。編碼數指派給A 群組230 1之有關字元，例如指派#10給”七，，。相似的，'^群組2 0 3 2包含有漢字和編碼數指派給有關之漢字，例如指尤 # 1 0 0給’’我”，指派# 1 〇 1給”同"，…。在此種情況，上述編碼數之指派是為著方便，只要在代碼表具有惟_性'，之可以使用任何編碼數。亦

使用圖14中之符號1401，1 406，1412所指示夕梯丄 <樣本圖型之相同貧料，作為用以形成鑑別圖型用之資訊之樣本次土料，下面將說明第八具體例。在此種情況，該第又且貝假設圖14之樣本圖型1401，1 406，1412所屬^圖型二體例 (語言）為未知。圖24表示從圖1 4之樣本表中贫两刀類卞取之字元鏈

89102179.ptd 497048 五、發明說明（29) 圖型之樣本。在回應字元鏈時，例如圖14中之1 404”我同 π ’ 1 405”同事’’，儲存文件號碼丄，第一字元之字元碼 101 ’第二字元之字元碼102，和字元鏈圖型240 1 π我同，，之發生次數1。相似的，24〇2表示字元鏈”同事”之字元鏈圖型。在圖24中之字元鏈圖型yog，2404，2405等如同圖14 之子元鏈圖型14〇6。相似的，在圖2 4中之字元鏈圖型 2406 ,2407等如同圖14之字元鏈圖型1412。

其次，在每一種字元鏈圖型將一些字元鏈圖型放置在一起。依S?、文件號碼將含有相同之字元鏈圖型之一些圖型收集在一起’計算該圖型之數目。圖2 5分別顯示字元鏈圖型被收集在一起之一些實例。如圖2 5中之2 5 〇丨所示，在文件號碼1中’ ”同事”和其他之文件共用，結合之文件號碼為 1 ’共同文字元鏈圖型之數目為2(其中數目1表示沒有共用子7G鍵圖型）。如圖25之2502所示，，，我々”，”事件”與其他之文件共用，共用字元鏈圖型之數目為4。相似的，在文件號碼3，共用字元鏈圖型之數目為4。依照這種方式，判定文件號碼2和3與文件號碼1不同，然後將文件號碼丨分類為圖型 2，和將文件號碼2，3分類為圖型1。然後儲存字元鏈圖型。圖26表示將文件分類成圖型1，2後將其儲存在媒體之貫例。然後’利用樣本資料形成二字元鏈，從被儲存在儲存媒體之二個圖型（圖型1，圖型2)中檢出字元鏈圖型，然後使樣本資料之字元鏈與被儲存在儲存媒體之每一種圖裂型式之字元鏈圖型進行比較，然後將樣本資料中之具有最

89102179.ptd 第33頁五、發明說明（30) 大數目之圖型型式之字元鏈 Θ -^r J=L 1 . # 简存在儲存媒轉。具有最大數目之圖型型式夕全-甘河什烁骽。體例之儲存媒胃，但是圖型型式：：=被儲存在第八具於某一臨界值之字元鏈圖型，或 ^祖、可以經由提取大大於某-臨界值時，比較其情況數田破^取之字元鏈圖型字„方法，當分析實際資料時包含發生次數子7G碼，和JL相人夕八太士丄奴土人数，如具體例5，6，7所述之每例H 1子母/日文成為不同，中，頻率集中在数辟子母字兀，同時頻秦隹士在曰文之平假名/片假名之虹合， J:頻革A中元其頻率成為均勻的分布。/ 一彳各種漢予子率和發生字元型2 r i ; ;言碼中之發生頻八士飞门之敢]、差異，可以判定語言所接近之分f 0 下面將說明使用測試圖型型式之鑑別方法。該鑑別方例至第七具體例相似之方法用來鑑別含有測試圖型之圖型法之達成可以使用與第四具體

圖2 7表示本發明之第八方法具體例之資訊處理系統之形態。在圖27中，符號270 1表示字元鏈萃取器，帛來從本文資料中核出相鄰之二字元鏈；2 7 〇 2是字元鏈頻率計數器，用來項取字元鏈之發生次數和記錄號碼；2 7 0 3是頻率計數斋，用來從頻率記憶器2 7 0 5中提取每一種圖型型式之被字元鏈萃取器2 7 0 1檢測到之字元鏈之發生次數，或假如沒有發生次數存在時計算由字元鏈頻率計數器2 7 〇 2獲得之字元鏈之頻率；和2704是圖型分類器，用來計算字元鏈圖型之

89102179.ptd 第34頁 497048 五、發明說明（31) 總發生次數或某一臨界值之總發式，其中包含有每一種圖型型式之二^，藉以檢測圖型型字元鏈或字元鏈圖型，然後使每頻率計數器2703之比較，然後以較大總和之順序將 θ里型式之大小進行記憶器2705之有關圖型型式，然^ ^圖型儲存進入頻率作為判定結果。圖型型式之測試圖型因此，依照此種方法時，可以自之圖型…卜，可獲得之優點是除=判：，料所屬編碼，可以將圖型分類。另外，不兩:，式，字型等被典就可以將圖型分類。另外，可而^置有關語言之字言或圖S，其*法是參照*則用來^: ^本文所屬之語根據發生關係用來重新構建語言或圖：：言檔案，和 (具體例9) u i之刀類。下面將說明本文資料被用在集合碼（ (EUC等）之情況，作為本文語言鑑別之一 Μ或局/碼之方塊形態圖之流程用來說明具體例。Λ列。依照圖32 =-，當輸入本文被集合碼或局部碼管儲存在圖28所示之個別字元組代碼表記憶器（圖32之-瑪破 3203 )。在圖28中，符號28 0 1至280 4表示隼人石％之# 中：ι表示平假名/片假名代碼表⑽以 2803是符號代碼表；2804是韓字母代碼表。碼數被’ 的指派給有關之表。在圖28中，符號28〇5至28〇9表性代碼表，其中2805表示日文之平假名/片假名局部代'局部表；2806是中文之平假名/片假名局部代碼表；和Μ”是五、發明說明（32) 韓字母之平假名/片^ 數互不相θ。另外二局』代碼表。依照字元型式其螞 2809表示符號局部代：J28:表：漢字局部代碼表，和在第九具體例中料為圖30所示之本文。例中適當的說明=::碼之實例’ ☆第九具體碼數與圖30之:、曰本局 '碼之」:’兄之不同。時，碼鑑別指派哭丄:上V'子之有關字元相關。這局部碼），和-字'蝻J貝和子70碼糸統（集合碼或不一予7L鏈萃取器3202從輸入資料中切出一 "元鍵"日本"，”本，ά，"η·，，"清，^ 。然後，個別語言發生頻率計數器32〇4根據個別字元缸己憶，⑽檢測與單-碼之本文對應之碼數，然後乂、一子兀鏈之第一字元之碼數，然後計算漢字，平假名丄字元型式之發生次數。例如，在圖30之輸入本文之情況時，二字元鏈之數目為6，作為第一字元之具有漢字之鏈為3，作為第一字元之具有平假名/片假名之鏈為、 3，和其他者為〇。因此，漢字之發生程度為5〇%，和平假名/片假名之發生程度為50%。然後，個別語言發生頻率計數器3204發送該二個字元鏈之發生程度給個別語言分距離計算器3 2 0 6。曰然後’從個別語言分布表記憶器3 2 〇 5讀取字元發生率《。該個別語言分布表記憶器3 2 〇 5是學習表，其中具有利用有關語言所描述之資料所算出之二字元鏈之圖型之發生率。如同曰文，中文，韓字母等之漢字，平假名/片假名’符號’韓字母等之每一個字元型式之發生率％，被儲

89102179.ptd 第36頁 497048 五、發明說明（33) " '" "" — 存成為列表。個別語言分布間距離計算器32〇6，以 31之距離計算規則之方式，量度已萃取資料和上述學^，間之分布間距離。例如，在日文標準之情況時，該距二^ (50%(漢字發生率％) — 49%)2 +(5〇%(平假名發生率〜馮 41%)2 +(〇%(符號發生率％) 一1〇%)2 +(〇%(韓^母發生 —〇%)2= 182。相似的，在中文標準之情況，該距離為0 1 376。在韓字母標準之情況，該距離為9895。 ;==〇7。比較器顯核對曰文，中文和韓；果判定輸3文=測182之曰文標準。根據上述之結之之距離之計算方式是（有關字元型式可二滿ί Γ角心V: ΐ之發生率)2。然而’假如該距離 ^ ,y)+d^ 是任何幻。料，在“Λ 是距離函數，x，y 碼圖型，則嗜H i /九八體例中，假如該圖型是被編是被編碼目;m不口;圖型。另外，假如該目標該目標並沒有特別之;;：：圖型…，如同如上所述，本發明述特徵可以鑑別以草種ς ί之優點是使用國家之語言之描即，經由檢測作為= 之輸m之語言，亦或檢測特定字元間之本文之特定字元之發生率，字元之發生率，同時觀測^長度，或檢測在特· ^範圍之或在特定範圍之特定丰二在特定語言經常發生之特定字元子凡，用來進行鑑別。

89102179. Ptd 第37頁五、發明說ΐ^(34) 〜一第一鍵本舍明所具有之另外一個優點是使用具有二字元气之’找系統作為文件尋找之索引，經由將分開字元之資尋附加到當登錄時所設置之索引，可以用來達成關鍵字之 :找’在輸入本文中具有分開字元插入在關鍵字之開頭和、結尾。口第二’本發明所具有之另外一個優點是根據指定之本文可=自動的鑑別該本文所屬之語言，在本文之狀況特徵被 =疋為編碼，尤其是該特徵被字元圖型型樣（例如字型等)「-Ί之^況下，可以自動的鑑別語言或群缸型式。 L兀件編號之說明] 、生Λ 101 102 103 104 特定字元鑑別器特定字元計數器輸入字元計數器發生率計算器

105 106 標準發生率記憶器比較器 107 301 302 303 304 305 306 307 本文結束檢測器特定字元鑑別器本文長度計數器加算器特定字元計數器平均本文長度計算器標準本大長度計數器比較器

497048 五、發明說明（35) 3 08 本文結束檢測器 501 特定範圍鑑別器 502 特定範圍計數器 503 輸入字元計數器 504 發生率計算器 505 標準發生率記憶器 5 0 6 比較器 507 本文結束檢測器 701 本文變換器 702 分開字元檢測器 703 二字元鏈產生器 704 分開字元鏈產生器 70 5 二字元鏈記憶器 706 本文變換器 707 二字元鏈檢測器 7 0 8 比較器 709 控制部 901 A群組之有關字元 902 B群組之有關字元 9 0 3 C群組之有關字元 1101 字元串資料 1301 字元鏈萃取器 1 302 圖型計算器 1 303 代碼表

89102179.ptd 第39頁 497048 五、發明說明（36) 1304 圖型鑑別器 1305 圖型記憶器 1401 中文樣本資料 1402 二字元鏈 1403 二字元鏈 1404 二字元鏈 1405 二字元鏈 1406 曰文樣本資料 1407 二字元鏈 1408 二字元鏈 1409 二字元鏈 1410 二字元鏈 1411 二字兀鍵 1412 曰文樣本貧料 1501 發生圖型 1502 發生圖型 1503 發生圖型 1504 發生圖型 1505 發生圖型 1506 發生圖型 1507 發生圖型 1508 發生圖型 1509 發生圖型 1701 測試圖型

89102179.ptd 第40頁 497048 五、發明說明（37) 1 702 二字元鏈 1 703 二字元鏈 1 704 二字元鏈 1 70 5 二字元鏈 1 70 6 二字元鏈 1901 中文樣本資料 1 902 二字元鏈 1 90 3 二字元鏈 1 904 二字元鏈 1 9 0 5 二字元鏈 1 90 6 日文樣本資料 1 90 7 二字元鏈 1 908 一字元 1 90 9 —字元 1910 一字元 1911 二字元鏈 230 1 A群組之有關字元 2302 B群組之有關字元 240 1 字元鏈圖型 2402 字元鏈圖型 240 3 字元鏈圖型 2404 字元鏈圖型 240 5 字元鏈圖型 2406 字元鏈圖型

89102179.ptd 第41頁 497048 五、發明說明（38) 2407 字元鏈圖型 280 1 平假名/片假名代碼表 2802 漢字代碼 2803 符號代碼 2804 韓字母代碼 28 0 5 日文之平假名/片假名局部代碼表 280 6 中文之平假名/片假名局部代碼表 2807 韓字母之平假名/片假名局部代碼表 2808 漢字局部代碼表 2809 符號局部代碼表

89102179.ptd 第42頁 497048 圖式簡單說明圖1是方塊圖，用來表示本發明之第一方法之資訊處理糸統之形態；圖2是概念圖，用來表示本發明之字元碼語言鑑別之第一方法；圖3是方塊圖，用來表示本發明之第二方法具體例之資訊處理系統之形態；圖4是概念圖，用來表示本發明字元碼語言鑑別之第二方法；圖5是方塊圖，用來表示本發明之第三具體例之資訊處理系統之形態；圖6是概念圖，用來表示本發明之字元碼語言鑑別之第三方法；圖7是方塊圖，用來表示本發明之第四具體例之資訊處理系統之形態；圖8是概念圖，用來表示本發明尋找關鍵字之第四方法；圖9之視圖表示本發明之第五方法具體例之代碼表；圖1 0之視圖表示本發明之第五方法具體例之圖型儲存裝置之形態；圖11是概念圖，用來表示本發明之第五方法具體例之作為鑑別目標之本文；圖1 2之視圖表示本發明之第五方法具體例之圖型鑑別之中間之資料結構；圖1 3是方塊圖，用來表示本發明之第五方法具體例之資

89102179.ptd 第43頁 497048 圖式簡單說明訊處理系統之形態；圖1 4是概念圖，用來表示本發明之第六方法具體例之樣本資料；圖1 5之視圖用來表示本發明之第六方法具體例之字元鏈發生率；圖1 6是概念圖，用來表示本發明之第六方法具體例之頻率記憶器和資料之資料結構；圖1 7是概念圖，用來表示本發明之第六方法具體例之測試本文；圖1 8是方塊圖，用來'表示本發明之第六方法具體例之資訊處理系統之形態；圖1 9是概念圖，用來表示本發明之第七方法具體例之樣本貧料；圖20是概念圖，用來表示本發明之第七方法具體例之鏈變換資料；圖2 1是概念圖，用來表示本發明之第七方法具體例之頻率記憶器和資料之資料結構；圖2 2是方塊圖，用來表示本#明之第七方法具體例之資訊處理系統之形態；圖2 3是概念圖，用來·表示本發明之第八方法具體例之代碼表；圖24是概念圖，用來表示本發明之第八方法具體例之字元鏈；圖2 5是概念圖，用來表示本發明之第八方法具體例之在

89102179.ptd 第44頁 497048 圖式簡單說明字元鏈對照時之字元鏈資料； _ 圖2 6是概念圖，用來表示本發明之第八方法具體例之頻率記憶和貧料之貧料結構，圖2 7是方塊圖，用來表示本發明之第八方法具體例之資訊處理系統之形態；圖2 8之視圖表示本發明之第九方法具體例之個別字元組次代碼表記憶器之形態；圖2 9之視圖表示本發明之第九方法具體例之個別語言分布表記憶器之形態；圖30是概念圖，用來表示本發明之第九方法具體例之輸 _ 入本文貧料，圖3 1之視圖表示本發明之第九方法具體例之計算距離決定之方法；和圖3 2是方塊圖，用來表示本發明之第九具體例之資訊處理系統之形態。

89102179.ptd 第45頁

Claims

六、申請專利範圍 1 · 一種資訊處理系統，其特徵是包含有：、特定字元計數裝置，用來從輸入本文之 ’則和計數具有檢測目標語言之特定字元碼之特定檢特ΐϊ率：ί裝置，根據該特定字元計數裝置所：Ϊ到之數目和在輸入本文中之所有字元之數目用Ϊ 。十异特定字元之發生率；用來 S發生率儲存裝置，用來儲存目標語言之特才示準發生率；和予凡之比？器，用來使獲自發生率計算裝置之輸入本文之疋赉生率和自標準發生率儲存裝置檢測到之標準發适行比較；工干徵ί15定輸人本文是否對應到具有與s標語言匹配之特 t 6 Ϊ貝汛處理系統，其特徵是包含有：測夺ΐ r凡檢測裝置’用來從輸入本文之所有字元中，檢元·°文具有檢测目標語言之字元碼之一個或多個特定字晉Γ ί ί ί文檢測裝置’用來萃取在獲自特定字元檢測裝字开夕ί字70間包含有非特定字元之本文’和檢測非特定子兀之數目； Τ'均本^文县7¾1 穿置 Λ ^ ^凌置，用來計算獲自非特定本文檢測、標準= 均本文長度； — 元之標準平均本文J破置，用來儲存目標語言之非特定子長度’·和

89102179.ptd 第46頁 497048 六、申請專利範圍比較裝置文之非特定準平均本文其中判定徵之本文。 3. —種資字元在特元中檢測和定範圍内之發生率計檢測到之字之數目，用標準發生範圍内之標比較裝置字元在特定測到之標準其中判定徵之本文。 4. 如申請裝置以二個個以上之字 5. —種資第一分開訊處理定範圍計數在字元碼算裝置元在特來計算率儲存準發生，用來範圍内發生率輸入本系統，其内計數裝檢測目標之字元； ^根據該定範圍内字元在特裝置，用率；和使獲自該之發生率進行比較文是否對，用來使獲自平均本文長度計算裝置之輸入本字元長度，和獲自標準本文長度儲存裝置之標長度進行比較；輸入本文是否對應到具有與目標語言匹配之特特徵是包含有：置，用來從輸入本文之所有字語言之特定範圍内之字元在特字元在特定範圍内計數裝置所之數目和在輸入本文内之字元定範圍内之發生率；來儲存目標語言之字元在特定發生率計算裝置之輸入本文之，和從標準發生率儲存裝置檢應到具有與目標語言匹配之特專利範圍第3項之資訊處理系統，其中該比較以上之範圍指定字元在特定範圍内，用來使二元在特定範圍内之發生率進行比較。訊處理系統，其特徵是包含有：字元插入裝置，用來插入分開字元作為特定控

89102179.ptd 第47頁 497048 六、申請專利範圍制字元碼，登錄時表示檢測裝置本文假如發字元鏈產字元鏈，具鏈，和具有鍵；和第二分開到輸入本文和結尾。 6 · —種資分開字元入在關鍵字第一字元開字元前具元後具有字元鏈，這時是特定分開第二字元元之二字元字元鏈儲有關字元之尋找本文不存在於輸入本文之關鍵字間之境界，當本文輸入本文被分開；，用來檢測三字元鏈其中在插入有分開字元之現有分開字元時，就將分開字元放置在中間；生裝置，用來產生在分開字元前後具有字元之有分開字元而且在分開字元前具有字元之字元分開字元而且在分開字元後具有字元之字元字元插入裝置，當尋找時用來將分開字元插入之開頭，輸入本文之結尾，或輸入本文之開頭訊處理系統，其特徵是包含有：插入裝置，當本文被登錄時用來將分開字元插間之境界；. 鏈產生裝置，用來產生具有分開字元而且在分有字元之字元鏈，具有分開字元而且在分開字元之字元鏈，和在分開字元前後具有字元之字該分開字元插入裝置所產生之輸入本文之字元字元；鏈產生裝置，用來產生具有第一字元和後續字鏈，這時輸入字元不是分開字元；存裝置，用來儲存二字元鏈和該二字元鏈中之發生次數；產生裝置，用來將特定分開字元插入在對照本

89102179.ptd 第48頁 497048 t、申請專利範圍文之開頭和結尾；第三字元鏈產生裝置，用來產生二字元鏈，其中包含有第一字元和尋找本文產生裝置所產生之尋找本文之後續字元；檢測裝置，用來檢測利用第三字元鏈產生裝置從該字元鏈儲存裝置產生之字元鏈，和檢測其發生次數；和 ‘ 比較裝置，用來判定二個連續鏈之前一個鏈之第二字元，之發生次數是否等於後一個鏈之第一字元之發生次數，其中前一個鏈之第二字元對應到後一個鏈之第一字元；其中比較裝置依照第三字元鏈產生裝置所萃取之所有鏈 · 之對照，用來判定前一個鏈之第二字元之發生次數是否等於後一個鏈之第一字元之發生次數，經由檢測尋找本文和在尋找本文中之插入分開字元所形成之境界，用來進行關鍵字尋找。 7. —種資訊處理系統，其特徵是包含有：分開字元插入裝置，當本文被登錄時用來將分開字元插入到關鍵字間之境界，第一字元鏈產生裝置，用來產生具有分開字元而且在分開字元前具有字元之字元鏈，具有分開字元而且在分開字 B 元後具有字元之字元鏈，和在分開字元前後具有字元之字元鏈，這時該分開字元插入裝置所產生之輸入本文之字元是特定分開字元；第二字元鏈產生裝置，用來產生具有第一字元和後續字元之二字元鏈，這時輸入字元不是分開字元；

89102179.ptd 第49頁外7048 丄 '—〜一六、申請專利範圍字元鏈儲存關字元之發生尋找本文產文之開頭和結第二字元鏈第一字元和尋元；檢測裝置，儲存裝置產生比較裝置，裝置，用來儲存二字元鏈位置；生裝置’用來將特定分開尾；產生裝置，用來產生二字找本文產生裝置所產生之和字磙二字元元插入到之發生中如一其中之對照於後一在尋找鍵字尋 8.如將特定生裝置檢測尋致尋找 9 ·如將特定位置是個鏈之比較裝，用來個鏈之本文中找。申請專分開字之設置找本文〇申請專分開字用來檢測利用第之字元鏈，和檢用來判定二個連續鏈之否等於後一個鏈第二字元置依照第對應到三字元個鏈之之發生之插入分開字元判定前一第一字元三字元鏈測其發生之第一字後一個鏈鏈產生裝第二字元位置，經所形成之元鏈，其中守找本文之產生裝置從次數；和 —個鏈之第元之發生位之第一字元置所萃取之之發生位置由檢測尋找境界，用來鏈之有對照本包含有後續字該字元二字元置，其 y 所有鏈是否等本文和進行關利範圍第6或7項之資訊處元插入到對照本文之開頭，用來代替該尋找本文產之開頭字元之境界用來進利範圍第6或7項之資訊處元插入到對照本文之結尾理系統，其中用以之第二尋找本文產生裝置，因此經由行尋找本文之前一理系統，其之第三尋找中用以本文產

_2179·_ 第50頁 ------ 六、申請專利範圍碼之組合構成括圖型儲存之步驟’用來儲存圖型群組為先型群組之二字元組合圖型，其t該 ί三ί = : J ”以表示第-資料之圖型型式；和次數。、用來表示第一資料和第二資料之組合之發生 1 6 · —種資訊# 字元鏈萃取Λ 統，其特徵是包含有：體之圖型資料古用ϊ萃取被記錄在電腦可讀取儲存媒指定之語言目錄，一子7°鏈，其中含有本文資料，數種別之圖型群組^組I來記錄程式’該程式構成含有圖型識中該圖型含有字1 σ ，這時字元碼在圖型群組分別重疊其驟，用來儲存第二ί之組合，該程式包括圖型儲存之$八中圖型群組為先#，f含有圖型群組之二字元組合圖型1 之圖型型式，料:：：料含有用以表示第—^ 組合之發生次數；、科用來表不第一資料和第二資料之子元鏈頻率計數數，和將每-種圖型二用土計算有關字元鏈之發生次媒體；式之子元鏈圖型和發生次數儲存在子元鏈萃取裝置，頻率計數裝置，用】以定之圖型中萃取二字元鏈；存媒體萃取之字元鏈^取:―個圖型型式之對應到從儲對照裝置，用來=兀鏈圖型之發生次數；和 __ 自頻率計數裝置之發生次數和所有 89102179.ptd 第53頁 497048 六、申請專利範圍 · *一""：-- .t * 大之圖型型式作為含有指定圖蜇之圖型··型式。· · ·:. 2〇· —種資訊處理系統使用之電腦可讀取儲.存媒體，其特徵是對語言之圖型識別具有惟一性，其中含有本文資料，數種指定之語言目錄，用來記錄程式，該程式構成含有字元碼之字元碼群組之組合之圖型群組，其中編碼字元被用在圖型識別；該程式包含有儲存步驟用來儲存含有二字元組合之字元鍵圖型之文件5虎碼，和每一種圖型分類或語言之本文資料之字元鍵圖型。 · 2 1 · —種資訊處理系統字元鏈萃取裝置，用來體之所有二字元鏈，其中目錄，用來記錄程式，該組之組合，其中編碼字元存步驟用來儲存含有二字石馬’和每一種圖型分類或字元鏈頻率計數裝置，數’和計算每一種圖型型字元頻率比較裝置，用之予元鏈圖型之頻率和每几鏈圖型，比較每一種圖值’和將字元鏈圖型，發有較大圖型類別之儲存媒予元鏈萃取裝置，用來，其特徵是包含有：萃取被記錄在電腦可讀含有本文資料，數種指程式構成含有字元碼之用在圖型識別，該程式元組合之字元鏈圖型之語言之本文資料之字元用來計算有關之字元鏈式子元鏈:圖型和文件號，來提·取獲自字元鏈頻率一種圖型類別之儲存媒型類別之字元鏈圖型之生次數，和文件號碼儲體之圖型類別；從指定圖型中萃取二字取儲存媒定之語言字元碼群包含有儲文字號鏈圖型；之發生次碼；計數裝置體中之字頻率之總存進入具元鏈；六申請專利範圍字元鏈卞取裝置，用來從字元鏈；个又貝柯中卒取所有之二號語發=計數裝置，用來對漢字’ 言之，系統他然後吏其符合每-種算個別浯έ分布間距離計算裝置，扣]、，开漢字，平假名/片假名，符號，=曰派/馬系統用來計發生率之間之總距離，和利用儲存、/母一種語言之假名/片假名，符號，料母之每？置九來管理漢字，平比較裝置，用來使該個別語言分°° °之發^生率；和最小距離值，然後判定具有最小 s Ε 异裝置計算入本文之語言。攻j距離值之語言目錄作為輸