TW497048B - Information processing system - Google Patents

Information processing system Download PDF

Info

Publication number
TW497048B
TW497048B TW089102179A TW89102179A TW497048B TW 497048 B TW497048 B TW 497048B TW 089102179 A TW089102179 A TW 089102179A TW 89102179 A TW89102179 A TW 89102179A TW 497048 B TW497048 B TW 497048B
Authority
TW
Taiwan
Prior art keywords
character
chain
characters
pattern
text
Prior art date
Application number
TW089102179A
Other languages
English (en)
Inventor
Osamu Katayama
Takamasa Koyama
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW497048B publication Critical patent/TW497048B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

497048 五、發明說明(1) [發明之背景] 本發明有關於資訊處理系統。使用在語言4監別,用來鑑 別文件中之語言和在輸入本文之全體本文尋找及尋找/登 錄之關鍵字尋找,同時觀測被包含在輸入文件之所有本文 (字元串)作為目標。 在習知技術所進行之方法中,於資訊尋找處理領域之文 件中,其鑑別本文(字元串)之語言之方法有:根據語言之 字典所提供之字之鑑別用來鑑別語言,如日本國專利案公 報平8 - 1 3 7 8 8 6號所示;根據語言之字元碼之特定位元(在 此處為二位元)用來鑑別語言,如日本國專利案公報平 8 - 1 6 0 9 2 9號所示;和根據語言特異之特定資訊(例如領域 名稱等)用來鑑別語言,如日本國專利案公報平1 〇 一 1 71 8 1 0 號所示。 另外,在資訊尋找處理領域之文件中所描述之本文之關 鍵字尋找和登錄/尋找之習知技術所進行之方法中,使用 字表其中將分開字元附加到關鍵字之開頭和結尾,如日本 國專利案公報平8-166 17號所示。
另外在習知技術中,多語言輸入系統可以有效的輸入混 合有多種語言之本文,如曰本國專利案公報平5 —28236〇號 所示。亦即,該系統利用有關之字典將輸入本文變換成為 ,示本文,然後定義顯示本文,和判定語言,其中以未知 數目最少者作為輸入語言,或是使用先前較常使用之 語言作為輸入語言。 在曰本國專利案公報平7-262 1 88號中,揭示有語言鑑別
第5頁
處理方法,可 處理。目標語 生頻率表,和 該正常之發生 類型鐘別處理 件之一系列之 之字進行比較 常發生頻率值 所累積之總值 在曰本國專 方法和系統, 候選語言中最 語言之字表之 偶儲存。該有 之一種候選語 字與被儲存在 字和被儲存在 持在個別語言 文件之語言。 以進行 言之普 字碼結 頻率值 中,亦 字,然 ’然後 附加到 作為讀 利案公 用來鑑 常用字 有關之 關字表 言之最 字表之 字表之 。選擇 鑑別語言或儲存或發送文件之類塑之 通字被包含在目標語言/類型之字發 合有正常之發生頻率值,和經由使用 用來檢測語言/類型。另外,在語言/ 揭示有一種系統用來接受來自輸入文 後使該等字與字發生頻率表中之所有 在有關之累積器將該等字之結合之正 現存之總和,鐘別來自所有之累積器 取文件之字之語言鑑別值。
報平1 0 -1 2 4 5 1 3號中揭示有語言鑑別 別文件中所描述之語言,使用在多種 組。最常用字之組被儲存在有關候選 組,依照最常用字之有關組之字元對 為NXN位元表。位元表示在丨個位置 常用字之指定字元對偶。來自文件之 最常用字進行比較。計數來自文件之 有關組之字之間之匹配數目,然後保 具有最大數目之匹配之候選語言作為 然而,在上述之習知技術所說明之方法中,例如,在日 本國專利案公報平8-137886號中,可以達成每一個文件之 自動鑑別’但是必需設置字典用來鑑別該等字。在曰本國 專利案公報平8 -1 6 0 9 2 9號中’利用相同之字元碼(例如單2 一碼)等很難回應不同之語吕(例如漢字集合或之j C K)。在
497048 五、發明說明(3) 曰本國專利案公報平1 0 -1 71 8 1 0號中會有對角一個委託 (cl ient)進行鑑別之問題。 在上述之習知技術(例如JP 8-16617)所說明之方法中, 所產生之問題是字表槽案必需與原稿文件尋找中所使用之 索引分開的設置。 在上述之習知技術(例如JP 5-28 236 0 )所說明之方法 中,所產生之問題是假如在本文中發生相同之字元碼,很 難判定該字元碼屬那一種語言。另外一個問題是因為必需 事先設置用以鑑別語言之字典,所以不能對未知項目鑑別 語言。另外一個問題是對於已知字,亦即”rec〇gniti〇n" 等,在日文之情況可以辨識該字,因為該字被包含在字成 作為字典資料,但是未被包含在字典之字當出現在普通句' 子時不能被鑑別,因為依照傳統之形態該字未被包含在字 典。另外一個問題是用以切出字之規則必需為每一種鑑別 ^ δ設置規則,所以除非已有規則可適用於該特定之語 吕,否則不能對該字進行處理。 [發明之概要] —本發明用來克服習知技術之上述問題。第一,本發明 是用來岔別以某種語言描述之輸入本文之語言, 才® =使用國豕之5吾§之描述特徵,亦即檢測作為鑑別
字元之發生率,或檢測特定字元間之J 在特。圍('歹則在特定範圍之字元之發生率,同時觀 :特疋列如曰文之"平假名'"漢字”)之語言或特 ^之特疋子元(例如韓文之空格字元)。 89l02n9.Ptd 第7頁
4^/048 五、發明說明(4) 夺第二,本發明之另一目的是使用尋找系統其中利用文件 哥找$來設置使用二字元鏈作為索引,在登錄時將分開字 凡之資訊附加到該索引藉以能夠進行關鍵字尋找,在輸入 本ί t將分開字元插入在關鍵字之開頭和結尾。 攄3 t ’本發明之另—目的是提供資訊處理系、统,可以根 曰疋之本文自動的鑑別該指之文 古 處理系統,在本文之特徵被判定為代碼,;二 =自^ ϊ i類為字元圖型型樣,例如字型等之狀況下,玎 以自,的鑑別其語言或群組型式。 凡下j 李::i i上述之目的,依照本發明時,第-在資π,理 中檢測特定字;輸入本文之特定字元之發生次數 言之特定字元之$▲ ^:儲存裝置用來儲存檢測目標語 之特定字元之;;率,和比較裝置用來使輸入本文 生率進行比較。第二:測目標語言之特定字元之標準發 用來檢測輸人本文二牲資訊處理系統,設有檢測裝置 長度,儲存褒置用纟間之非特定本文之平均本文 準平均本文長度,矛J:目標語言之非特定字元之標 =平均本文長度和檢=用來使輸入本文之非特定字 均本文長度進行比較。笛目軚语言之非特定字元之標 據輪入本文之^在^=處理系、統,設有檢 定;圍内之發:;特二圍=次數用來檢 使輪入本文之字元在特;;=發生率,和比較裝置用 乾圍内之發生率和檢測目標語 / 五、發明說明(5) 特ί範圍内之標準發生率進行比較。因此,可 i:自泸:=疋可以鑑別輸入本文之目標語言,其方法是 吏k自毛生率計算器之輸入本文中之特定字元之發生率和 記憶器之標準發生率進行比較,議定 對應到具有與目標語言匹配之特徵之本文。 將八=一:f、本發明時設有插入裝置與關鍵字尋找時用來 直:1:::入到庫館本文’檢測裝置用來檢測三字元鏈 被放置在中間這時在插入有分開字元之 ii! 字元,產生裝置用來產生包含有字元位於 二,:二W後”元鏈,包含有分開位元和位於分開位 开> =夕=兀之子兀鏈,和包含有分開位元和位於分開位 位亓^ X 之字兀鏈,和插入裝置當尋找時用來將分開 本t t Μ 7入本文之開頭,或輸入本文之結尾,或輸入 時# ffi H、:結尾。因此,可獲得之優點是可以消除尋找 蚪使用本文而不是關鍵字。 圖: 二卜別i f浴依照本發明之資訊處理系統時,對語言之 二目;,I: 一性,其中含有本文資料,數種指定之語 元之被分類成為多個:::君T J在圖型識編 多個丰开君笨έ日4廿 、λ斗匕3有η子70、,且a和組合有 ΐ:::2 任何一個包含有構成組合之代竭,第 ." 對應到第一資料之組合之圖型,和第-一 一 來自第-資料和第二資料…,設有字元鏈萃;;資料 497048 五、發明說明(6) 一 來攸士文中檢測二字元鏈,和判定含有構成二 疋之字元群組,圖型計算裝置,用來比較 ’ ’’ 士子 判定之字元群組之組合是否與圖型儲存裝置之::f置 二和用來計算一致之圖型之數值,*圖型; 1定具有由圖型計算裝置計算出之所有字元 ^ “ =型和其組合圖型,與被儲存在圖型 置第 之 第二資料,或第三資料者一致,作為 圖型計算裝置所計算出之數值之平均:有12 5儲存裝置之第二資料之值成為 =圖 裝置計算所有之字元=用=計 型儲存裝置之第二資料之=,,和判定最接近圖 合。因此,可以值ΐ為圖型儲存裝置之圖型組 判定資料所屬之圖c:圖型之組合可以自動的 ,^ 共干才曰派給所有之圖型,你丨‘ A -
組等,和圖型被分類成兔叙搞Λ| 吓韦之口孓例如子7L 個有意義圖土群組以圖型群組之義圖型群組和多 有群ί:組有儲存媒體1來構成含 第一資料含有圖型群組之、,且作為圖型識別用和用來儲存 先前已知,第二資料含右:字元組合圖髮其中圖型群組為 和第三資料用來表示第一資第-資料,:型型式, 數,字元鏈萃取裝置,用資料之ti之發生次 鏈,從儲存媒體先前對复ί、;:圖型資料之:有之二字元 ”扣/底有圖型型式,子兀鏈頻率計 第10頁 赞明說明(7) =:置用來計算有關字元鏈之發生次數 式之字元鏈圖型和發生次數儲存 σ,母一種圓翌 —,用來從指定圖型中萃取二目、玄,子兀鏈萃取裝 ;取每-個圖型型式之對應到存裝置,用來 妻鏈圖型之發生次數,和對照裝置子某:::之字元鏈之 播^置之發生次數和所有之被萃取之字_:使羧自頻率計 ^定具有總發生次數最大之圖 =為,行對照,然 ί:型型式。在這種情況,該對照裝有指定圖型 ‘過某一個臨界值之圖型型式作‘人二二有總發生次 式,或是該對照裝置邦定具有有:私定圖型之圖型 =某-個臨界值之字元鏈圖: = 鏈之發生次數 ”,作為含有指定圖型之 頻率之圖型 式,字型等被圖型,除非字元型 類=μ置f吾言對語言之^被为類,另夕卜該圖型之分 料萃取所〜依^ ^發明時設有分開裝置,當從圖型資 言分開成鏈U來將字元型式,或至少-種語 構成含有圖型;:之圖型型式先前被指派, 元鏈萃取裝番 口之圖型群組作為圖型識別用,字 置當該字‘鏈‘人j二開裝置用來萃取字元鏈,鏈變換裝 字元鏈’字亓一子7L時用來重複相同之字元藉以形成 計數裳置。頻率計數裝置元鏈萃取裝置,和頻率
^ 囚此,可雖P 料所屬之圖型, X传之優點是可以自動的判定測試資 和另優點是除非字元型式,字型等被編 五、發明說明(8) ::語= : = :分類,另外該圖型之分類不需要設置有 含有二字fΑ ^本發明設有圖型儲存裝置,用來儲存 有每一種圖型分類或件號碼,和在儲存媒體設 含有字元碼^ 4 σ之本文貧料之字元鏈圖型,構成 外,設有字5、’且合之圖型群組作為圖型識別用。另 元鏈襄置用來萃取本文資料之所有之二字 次數和計算裝置用ί計算有關之字元鏈之發生 字元頻率比較裝置:决f式之子=鏈圖型和文字號碼,和 元鏈圖型之頻^ ^ β取獲自字元鏈頻率計數裝置之字 型,比較每-ί:::種圖型類別之儲存媒體中之字元圖 字元鏈圖型,心ϋ別之字兀鏈圖型之頻率總值,和將 型類別之儲存’】和文件號碼儲存進入具有較大圖 型型式作為i有;;r發生次數超過某-個臨界值之圖 較裝置用來判定::二3之5型1式’或是該字元頻率比 臨界值之字所有之字元鏈之發生次數超過某一個 合有指定圖型之圖 =圖型型式,作為 重:的判定測試資料所屬:圖型,和除;之’點是可以自 被編碼,該圖型可以被分類。 予兀型式,字型等 另夕卜,| 依P、?、本發明之I訊處理i 隹—性,其中含有本文資i ί種Γ言之圖 個予70子型定義…馬,儲存媒體構成含
第12頁 497048 五、發明說明(9) 儲存在丄ί語群組作為圖型識別用,和用來 組合,其中以每種漢字;;;=構成字元之二字ΐ 母,和其他字元之字元型式广片假一名二符號,韓字 指派裝置用來讀取集合喝或: :::::率,個 ;系!’字元鏈萃取裝置用來從輸』本文字元 之一子兀鏈,發生次數計數 2取所有 片假名,符號,韓字母,和其他之: = :;平假名/ 符合每一種語言之指派 類使其 個別語言分布間距離舛I_ =…後刀別计异其發生率, 呷间距離汁异裝置,依照指派碼系统用水ο f:,平假名/片假名,符號,韓字母之每”二來叶算 ^之間之總距離,利用用儲存裝 y之發 二/片假名’符號,韓字母之每一種語言之發生莫率予,’平假 二、置,用來使個別語言分布間距離計算 广 之注+ Ί /疋/、有取小距#值之語言目錄作為輪入本文 生ϋ之= 為可以計算漢字’平假名,符號等之發 [二Λ 距離,所以可以很容易判定語言類別。 L車乂 t具體例之詳細說明] 下面將參照圖式用來說明本發明之具體例。 (具體例1) 統:1 二示本發明之第一方法具體例之字元喝語言鐘別系 :圖」+,符號m表示特定字元鑑別器,用來鐘別輸入 +文C子7L串)之字元是否對應檢測到之目標語言之特定字
元;102是特定字元 所鑑別之特定字元之發“’用特定字元鐘別器 用來計數輸入本文之所有二,夕疋輪入字元計數器, 器,根據該特定字元1 又,104是發生率計算 生次數,和該輸入牢分斗 之特疋子元之發 子兀數,來計算該特定字元之發生率.文?;本文之 率記憶器’用來館存檢 :定1,,標準發生 率;106是比較器,用爽佶恭/、/^:特广子兀之標準發生 斗皇4 、*冲六户舍生率什异器1 〇 4所檢測到之發 生率和被儲存在標準發生率記憶器105之 比較;和1 07是本文社炭於、、目丨丨哭七』 心生羊進灯 4又、、、口束檢測态,用來檢測輸入本文之結 果0 圖2表示本發明之字元碼語言鑑別之第j方法之概念。 在圖2中,符唬20 1表示輸入本文,被施加語言鑑別, 202表示特定字元,發生在輸入本文。在本發明之第1方法 中,經由檢測輸入本文中之特定字元之發生率用來鑑別目 標語言。假設輸入本文201之字元總數為m,特定字元2〇2 之發生次數為η ’則輸入本文201之特定字元之發生率k成 為n / m。假設目標語言之特定字元之發生率最小為a,最大 為b,當輸入本文201之特定字元之發生率k成時, 本發明之第一方法這時就判定為輸入本文對應到目標語 言。利用這種方式可以達成本文之語言鑑別。 本發明亦可適用於輸入本文為韓文其鑑別是以,,空白字 元”作為韓文之特定字元20 2。這時,根據12萬個字元所構 成之韓文報紙計數資料之統計資料,可以使用a = 0 · 1 4,b
89l〇2l79.Ptd 第14頁 497048 五、發明說明(11) = 0.23。利用此種方法,以韓文字母描述之文件可以與其 他文件(例如以日文描述之文件)互相鑑別。 、/' 如上所述,當利用本文結束檢測器丨〇 7檢測到本文之結 束時,在輸入本文中之目標語言之鑑別是使獲自發生率 算器1 04之輸入本文中之特定字之發生率,和獲自標準發 生率記憶器105之標準發生率進行比較,用來判定輸入^ 文是否對應具有與目標語言匹配之特徵之本文。 (具體例2) 圖3表示本發明之第二方法具體例之字元碼語言鑑 統之形態。 ^ 在圖3中,-符號301表示特定字元鑑別器,用來鑑別輸入 f文中之字兀是否對應到檢測目標語言之特定字元;3 2 疋本文長度计數器,用來計數未被特定字元鑑別器3 〇工梦 別之非特定字之連續發生數;303是加算器,用來計數從 本文長度计數裔302輸出之本文長度之總和;3〇4是特定字 ,計數器,用來計數該特定字元鏗別器3〇1所鑑別之特定 字70之發生次數;3 0 5是平均本文長度計算器,用計算平 均本文長度,其計算是以獲得特定字元計數3 〇 4之特定字 元之數目,除該加算器303所計算出之本文長度之總和; 306是標準本文長度計數器,用來儲存檢測目標語言之平 $本文長度;307是比較器,用來使獲自平均本文長度計 算器305之平均本文長度,和被儲存在標準本文長度記憶 器306之標準平均本文長度進行比較;和3〇8是本文結束檢 測器’用來檢測輸入本文之結束。
497048 五、發明說明(12) 結果 圖4表示本發明之字元碼語言鑑別之第二方法之。 在圖4巾,符號401表示輸入本' 二特定,元,發生在該輸入本文;和⑴,= Π::元ΐίΐ 定本文),被特定字元分割。在本 第一方法中,目標語言之鑑別是檢測非特定本文 401 4/2 ’^1η ^平均長度,以特別字元402分割輸入本文 ^ 1。假設輸入本文401之非特定字元被n-1個特定字元分 吾1J,則輸入本文變成包含有0個非特定本文和非特定本文 =長度為al,a2,a3 ’…抓,這時輸入本文如之 文之平均本文長度k成為(al+a2+a3 + ... + a 、 設被目標語言之特別字元分割之非特定字元之 。又 2小為a,最大為b,當輸入本文401之非特定字元' 均本文長度k為a^k^b時,本發明之筮-十、| 就在這時判定為輸入本文4〇1對應到椤」之^別方法 之方式可以達成本文之語言鑑別。‘…利用上述 依照本發明之方法,輸入本文中之韓文之梦 ,空白字元"作為韓文之特定字元40 2。這 使用 字元所構成之韓文報紙計數資料之統計 X 萬個 a
,b=5 。 凡卞貝枓,可以使用 另外’對於曰文和中文之鑑別,例如 之鑑別可以使用” 在中文之情況),"的,中,之;吾: 作為特定字元4〇2。在這時,根據五萬四 _ ° 。 之曰文報紙計數資料之統計資料可以使用=凡所構成 尺用 a=i〇,b=22,
497048
和根據八萬四千個字元所構成之中文文件資料之統計資 可以使用a = 4,b = 9。依照此種方法經由比較平均二’异 度可以很容易判定輸入本文之語言是對應到日文或中文广 士如上所述,當本文結束檢測器3 〇 8檢測到本文之結 ,,可以鑑別輪入本文之目標語言,其方法是使獲°自平 =文長度計算器30 5之輸入本文之平均本文長度和獲自护 準本文長度記憶器30 6之標準本文長度進行比較,藉以^ 定輸入本文是否對應到具有與目標語言匹配之特徵胃之 X/ r\ 丁 (具體例3) 統ΓΛ示本發明之第三方法具體例之字元碼語言鐘別系 別ίΓ太V/號501表示字元在特定範圍鑑別器1來鑑 主之字元是否對應到檢測目標語言之特定範圍 =,502表不字兀在特定範圍計數器,用來計數該 鑑別11賴狀切定範圍之字元之發生次 數,503疋輸入字元計數器,用來計數輸入本文之 =碼之發生;504是發生率計算器,根據該字元在特定範 ^計=502所計數之字元在特定範圍之發生 數器503所計數之輸入本文之字元數,用來計算字 =範圍之發生率;50 5是標準發生率記憶器,用來 ,存檢測目標語言之字元在特定範圍之標準發生 〇6 =使ί自發生率計算器…之發生率和被儲 存在k準發生率記憶器5 0 5之標準發生率進行比較丨和Μ?
497048 五、發明說明(14) 是本文結束檢測器,用來檢測輸入本文之結束。 圖6表示本發明之字元碼語言鑑別之第三方法之概念。 在圖6中,符號6 0 1表示輸入本文,被施加語言鑑別;6 0 2 是發生在輸入本文之特定範圍之字元之字元碼之範圍,·和 611,612,613是範圍602所含之特定範圍之字元。在本發 明之第三方法中,目標語言之鑑別是經由檢測輸入本文之 特定範圍之字元之發生率。假設輸入本文6 0 1之字元之總 數為m,特定範圍所含之字元之發生次數為η,則輸入本文 601之特定範圍之字元發生率k成為n/m。假設目標語言之 特定範圍之字元發生率最小為a,最大為b,當在輸入本文 601之特定範圍之字元發生率k成為a$k$b時,本發明之 第三方法之鑑別方法就判定這時之輸入本文6 0 1對應到目 標語言。利用上述之方式可以達成本文之語言鑑別。 依照本文發明之方法,輸入本文之日文之鑑別可以指派 π平假名’’或”漢字π作為曰文之特定範圍之字元之範圍 6 0 2。這時,根據五萬四千個字元構成之曰文報紙計數資 料之統計資料,,,平假名,,可以使用a = 〇. 1,b = 0 · 5,π漢 字π可以使用a = 0 · 2,b = 0 · 6。依照此種方法,可以很容 易鑑別輸入本文之描述語言是否對應到日文。 如上所述,當本文結束檢測器5 〇 7檢測到有本文之結束 時’可以鑑別輸入本文之目標語言,其方法是使獲自發生 率計算器504之輸入本文之特定範圍之字元發生率,和獲 自標準發生率記憶器50 5之標準發生率進行比較,藉以判 定輸入本文是否對應到具有與目標語言匹配之特徵之本
89102179.ptd 第18頁 497048 五、發明說明(15) 文。 (具體例4) 圖8表示本發明之尋找關鍵字之第四方法之概念。在圖8 中,符號801表示本文"v、$ ",在登錄時被輸入; 811,812,813分別為關鍵字;8〇2是插入在本文之分開 元,其中以分開字元"a”插入在輸入本文8〇1之關鍵字 811,81 2 ’ 81 3之間之境界;803是二字元鏈” a v、”,登錄 在插入本文之分開字元;804是二字元鏈” v、易”,發生 803之後;805是二字元鏈,,",包含有從中間具有分 字元” a”之三字元串” 產生之分開字元;8〇6是二 兀鏈,包含有三字元串” ,,之分開字元;8〇7 二字兀鏈” 3 U ” ,未包含有分開字元,越過三字元串,, 之分開字元·’ 808是二字元鏈"过(c”,發生在8〇7之a 一個;和807是二字元鏈”(c a”,發生在8〇8之後。 另外,在圖8中,二字元鏈8 〇 3儲存n a π和"、、"之發生4 數η,nl ·’二字元鏈804儲存” ν、”和·· ό”之發生次數^,一人 112;二字元鏈8〇5儲存”6”和、,,之發生次數113,11;二〜 元鏈80 6儲存”a”和,,U"之發生次數η,η3 ;二字元鏈8^予 存"6"和”泣"之發生次數η2,η3 ;二字元鏈8〇8儲存"『省 和Me”之發生次數η3,η4 ;和二字元鏈8〇9儲存,,纪” 之發生次數η4,η。 、 口 a 另外’在圖8中,符號8 2 1表示尋找時之尋找到之本文,, w 6 ic” ; 822是尋找本文,其中具有分開字元,,a,,插入 在821之開頭和結尾,經由使用本文821作為關鍵字用來進
89102179.ptd
497048
行完全一致之哥找,823是二字元鏈” av、”,在尋找本文 8 22首先被尋找;824是二字元鏈” v、$ ”,發生在82;3之 後;824是二字元鏈π I、ό π,發生在823之後;825是二字 元鏈” ό (i π發生在824之後;826是二字元鏈”以u,,,發生 在825之後;和827是二字元鏈,發生在826之後。 圖7顯示本發明之第四方法具體例之本文尋找方法之資 訊處理系統之形態。 '
在圖7和圖8中,符號7 0 1表示本文變換器,用爽將赫定 分開字元"a"插入在庫館本文801之關鍵字°°間之邊界’;7〇2 是分開字元檢測器,用來檢測來自庫館本文8 〇 2之分開字 元,從本文變換為701輸出,在其中插入有分開字元;yog 是二字元鏈產生器,用來檢測當本文8 〇 2中未找到分開字 元時所產生和登錄之二字元鏈804,808 ; 704是分開字元 鏈產生器',用來檢測來自本文802之二字元鏈8〇5,806,
8 0 7 (由二字元串π ό a丨汰"產生,在中間具有分開字元” a ”) 和二字元鏈8 0 3 ’ 8 0 9 (在本文之開頭和結尾分別具有分開 字元);705是二字元鏈記憶器,用來儲存該二字元鏈產生 器7 0 3和分開字元鏈產生器7 0 4所檢測到之二字元鏈8 〇 3, 804,805,806 ,807,808,809,其中分開字元表示常數 值,其他之字元表示其發生次數;7 0 6是本文變換器,用 來將指定分開字元n aπ插入到尋找本文8 2 1之開頭和結尾; 7 0 7是二字元鏈檢測器,用來檢測該本文變換器7 〇 6所產生 之尋找本文822中之二字元鏈823,824,825,826,827 ; 708是比較器,用檢測二字元鏈823,824,825,826,
89102179.ptd 第20頁 五、發明說明(17) ’由一字70鍵檢測器7 0 7自二字元鏈記憶器7 0 5中檢 ^ ,後判定所檢測到二字元鏈之前一個字元之發生次 ^ ’疋否與先檢測到之二字元鏈之後之字元之發生次數 、致’和7 0 9是控制部,經由以比較器7 0 8判定二字元鏈檢 測部7 0 7所檢測到全部之二字元鏈,用來判定本文之一 致。在這日$依照本發明之第四方法是檢測到相當於二字元 鍵82 3之1’ a V、’’之二字元鏈,和檢測這時之,,v、”之發生次數 nl ’以及檢測到相當於鏈823後之二字元鏈824之"p易”之 二字元鏈804,和檢測這時之” v、”和” ”之發生次數nl, n2 °判定π ν、π之發生次數在二字元鏈8〇3和8〇4之間是否互 相一致成為nl。假如是就檢測相當於二字元鏈825之” $以 ’’之二字元鏈8 0 7 ’和檢測這時之” $,,和”试”之發生次數 η2,n3。判定” 0 π之發生次數在二字元鏈804和807之間是 否互相一致成為η2。假如是就檢測與二字元鏈826之,,U 1相當之二字元鏈8 0 8,和檢測這時之π泣,,和,,(c ”之發生次 數η3,η4。判定n U π之發生次數在二字元鏈8〇7和808之間 是否互相一致為η3。假如是就檢測與二字元鏈827之”(can 相當之二字元鏈8 0 9。然後,判定在這時之丨〔’’之發生次 數η 4是否與二字元鍵8 0 8之n (c "之發生次數一致。假如是 就根據關鍵字之完全一致用來判定本文8 2 1與本文8 0 1 — 致。利用上述之方式可以達成本文之對照。 依照本系統時,可以消除使用本文而不是關鍵字之尋 找。例如,使用本文π I、6泣η而不是關鍵字進行尋找時, 如圖8之本文831,該尋找之進行是使用尋找本文如832其
89102179.ptd 第21頁 / 五、發明說明(18) 广:開子兀,入在開頭和結尾。在這種情況’因為本 ί找太==關鍵字811,812,813,所以產生不能從 =找本文832中k測到之二字元鏈8 32 η,,和不被尋 在種十月況5本發明之系# m 士篆 你耍-欠> m <糸、、先同樣的可適用於使用字元之 位置貢訊用以代替有關之-空& μ > 一 〜③頁關之一子兀鏈之字元之發生次數之情 //L 0 (具體例5) 下面將說明本發明之第五具體例之字元圖型鑑別方法。 圖9/頁不代碼表之結構,用來對字元圖型進行編碼和將 ^存。纟這種情況,圖型碼以一元方式形成,和單一碼 專被選擇作為本文碼之目標4群組9〇1包含有所謂之平假 二片假名(例如字元:V,.··”力' ·.·)之碼數,被指派 :群組901之有關字元,例如指派#1給,,务,·,#2給·,、、,, 等。相似的,B群組902包含有漢字和從#1〇〇開始之碼數被 指派給$關之漢字,和C群組903包含有符號(例如χ, 〇,△等)和從# 2 0 0起之碼數被指派給有關之符號。在這 種h况’上述之碼數之指派是為著方便,假如在代碼表中 具有惟一性則亦可以使用任何之碼數。 其次’圖10表示用以儲存包含有字元及其資料之圖型分 類之型式之圖型儲存裝置之形態。這時假設由字元組之組 合所形成之本文資料,由要被鑑別之圖型中之任何一個本 文構成。對於二組之字元圖型,圖型和其值被儲存在含有 第一字元圖型和第二字元圖型之編碼表之組中。假如(第
497048 五、發明說明(19) 了字兀,第二字元)分別與(A群組之字元,A 疋(以下簡稱為(A群組,A群組)或(㈣組群予 則發生圖型對應到叙合IH和定義成被包含在圓V;) 一致, 被配置給此圖型。另外,數值i被指派在數值i B群組)或(B群組,A群組)之組合。對圖i〇 = A群組, 同樣的指派數值給圖型2和圖型3’。例如 :2 ’ 3,亦 假名’片假名,和漢字’所以圖型i被定義為、、文包含平 的,假如C群組為韓字母,貝1J圖型2可以被定義為。相似 圖型3可以被定義為中文。 疋義為%文,和 下面將說日月字元串所屬之圖型 中,符號1101是字元串資料m法。在圖11 :、;:、一…合抽出二字元鏈(曰,本)(?— 、〉漢,力>。分別檢測(B群組,㈣ (卷, 組),和(B群組,A群組)其中包人 (夺,、且’ A群 結果如圖12所示,(曰,本)屬於3 =出,:元鏈。其 圖型1 ,和(漢,力)屬於圖型i。 ·或2,(务,、、)屬於 另外,對應到該等圖型之得分( 表示。當該等數值之數目互相值)了 乂以1或2,1,1 最頻繁之數值,和圖型丨被檢1"日^,數^被檢測作為 因此,判定為本文資料被包含】在=數配之圖型。 度之數值是在第五具體例計算:,1。雖。具有最高頻 之數值之間具有最小差之_。>疋數值之平均值和圖型 資料之圖型。另外,亦可以被判定為包含有本文 替平均值。 °,數值之最頻繁之值用來代 89102179.ptd 第23胃 4^7048
依照本方法時’在分析實際資料後發 :/付號除外之平假名/片假名之發生率大 嘆、 :之發生,大約為49%。在中文之情況(以六法全書二漢 才示),符號之發生率為全部字 '、 外之羊傯4/ Η徊々 %,漢字/符號除 卜千饭名/片叙名之發生率大約為22%,和漢字之發4 i Μ為⑽。在韓字母之情況(以報紙作為目標子二生率 發生率為全部字元組之大約丨5%, 付戒之 / H ^ ^ ^ ir 漢子/付唬除外之平假名 /片叙名專之發生率大約為3%,韓字母字元之發生 7f 〇3 ^ ^ ^4%^ ^ # ± # A ^ i/ ? ^ ^ ^ ^ ^ ^ — 又 '、子,和私予母字元之形成,假如符號和漢 子除外之平假名/片假名之發生率為41 :49時該語言為日 文’假如該率為22 : 74時該語言為中文,和假如該率為 3 . 73時該語言為韓字母。最接近該等率之一之語言可、、’ 被分類作為要被鑑別之語言。 " &圖1 3表示本發明之第五方法具體例之資訊處理系統之形 。在圖13中,符號13〇1表示字元鍵萃取器,用來從 貢料中切出二字元鏈;13〇3是代碼表,其中儲存有圖型之 代碼,1305是圖型記憶器,其中儲存有圖型組和數值; 1 302是圖型計算器,用來使構成萃取二字元鏈之字元碼 且^、且=圖型圮憶器1 3 0 5中者進行對照,然後計算全部 之萃取二字元鏈之對應圖型之數值;和1 304是圖型鑑別。 器,根據圖型計算器1 302所計算出之數值,用來計算每個
497048 五、發明說明(21) 數值,或平均值或最頻繁值之發生頻率,然後計算具有 生頻率與被儲存在圖型記憶器丨305之圖型之數值最二致^ 或與平均值具有差,或與最頻繁值具有 , 定具有最小值之圖型。 口孓猎Μ匈 次1此,依照此種方法時,利用圖型之值可以自動的判 =料所屬之圖型,其中指派給如同字元組之圖型,圖 y刀類成為數種型式之有意義圖型群組, 圖型群組之組合表示。 夕個有心義群組以 以型之字元型式和字型被分類成為多種圖型時, 刀類來進行此種方法。單一碼是一實例。在此種 是”平假名/片假名'圖型2是"漢字(况, =),和圖型3是"韓字母",可以將語言之分類定 =有圖Λ群古組1和圖型群組2之組合之有意義群組成為 文 包含有圖型群組2和圖型群組3之組合 ,、、 組成為"韓文",和只包含有群$右立=〇之有思義群 ,,。 匕3有鲆組2之有思義群組成為”中文 一 f ^五具體例中’該圖型只要是代碼圖型並不口 ΡΡ认〜 ::1 ’和目標並沒有特別之限制, 目、::子 符號,圖形等(例如◎,◊等)即可。雖;;代石”標例如 個字元即可:疋出…單位並沒有限制,卩要適於二 (具體例6) ::將說明本發:之第六具體例之鑑別字元圖 只 下面f先况明形成資訊藉以鑑別圖型之方法。/
497048 五、發明說明(22) 圖1 4表示形成資訊之樣本資料。在圖丨4中, 示中文樣本資料,從該樣本資料中檢出二字元鏈二另外广 1402表示字元鏈”那些”,丨4〇3表示字元鏈,,些都,,。該等* 元鏈相鄰的檢出。記憶號碼i被指派給樣本資料ΐ4〇ι"之'次子 料。然後,從樣本資料檢出全部之字元鍵。在圖i ,貝 設四個字元鏈1 402至1 405以下面所說明之方式顯示。又
中,1406,1412是日文樣本資料,全部之二字一 U 所述的從樣本資料萃取。如同中文樣本資料之說= ’、,二上 鏈1 407至1411,1413至1416被顯示成如第六具體例之 凡鏈。這種情況,記憶號碼2,3被指派給資料丨4〇6, 1412。 f ::,依照如同中文和曰文之圖型型式,將組合圖型, $錄號碼,和萃取字元鏈圖型之發生次數個別的儲存在媒 體0 當發生圖15之圖型1501至1 504,於圖型型式為 就儲存圖型和記錄號碼。相似的,當發生圖i 5之 日、’ 至1 509,於圖型型式為曰文時,就儲存圖型和記錄號 因為發生圖型1 504至1 504包含樣本資料14〇1, =。另外,因為發生圖型,至15。9包含樣= 1 406或1412,假如只包含一個記錄就儲存記錄號、 如包含有二個記錄就儲存記錄號碼"2,3 „。 ^ 又 數=被儲,圖5之記錄號碼之號碼表示,和成疋為鏈%發生 不之《— 70表。 在圖16中,符號1601表示中文之發生數,16〇2表示日文 4^/048 五、發明說明(23) 之發生數。在圖16之表中’縱轴表型 (第-字元’第二字元),和橫軸 :第二 鑑別儲存媒體。具有二= 結果是每-個圖型ί 1 例之儲存媒體。其 , 口 ^'玉式之發生次數可以儲存在該表。 雖然在第六具體例e 1日日& + ^八蔽列匕祝明中文和日文之二種圖型型式, 但是利用相似之方法亦 口 i1八 ^ -V ^ ^ ^ ^ 方了 將夕種圖型型式之每一種圖型 =存公亥表。下面將說明使用測試圖型用來鑑別語言 ’ 圖1 7中,從測試圖型1 7 0 1萃取相鄰之二字元 鏈1°70?4,卒件二字元鏈有鏈1 702,,同事,,,鏈1 703,1事件,,, 图 ,鏈1 70 5"七我,,,鏈1 70 6"我々”。然後,從 β ρ μ女、體之表中檢測與鏈j 7 〇 2,1 7 〇 3,1 7 0 4, 1705 ’1706對岸之恭斗a 4 ^應之1生次數。在中文表(圖16之1601)中, ^。 5 ’ )之發生次數為1,和其他之發生次數不存 获鉍在曰文表(圖16之16〇2)中,圖型(我,々)之 ^ ’圖型(同,時)之發生次數為1,和圖型 (事,件)之發生+童 發生次數,則中文^為2。假如對每一個圖型型式計算總 比較,可以檢測ίίνΛ 。經由使該二個結果進行 以划金兮*目丨&八有較大數值之圖型型式,和其結果是可 以判疋该測式圖型對應到日文。 雖然在弟六且科u\ 〇 方法亦可適於以I:計算發生次數之總數,但是此種 s田*斗μ二用不δ十异總發生次數超過η之圖型型式,或 文_用5卞异今-A 4· 之總發生次數。 鍵之發生次數超過Η之一些字元鍵
89102179.ptd 第27頁 4^/048
依,、’、此種方法日令’利用可適用具體例5所述之實際資料 之-些i例。帛來核對發生字元型式之數目,在使用、日文 中文/知文之相同字元碼之局部碼中具有大發生率。在這 =於中文資料使用3469型式漢字(大約74在 ==型式韓字母(大約73%);在曰文資料使用4。〇二 式漢子(大約49%);和在日文資料 ϋ大約m)(假如包含有符號則為51〇型式(二名/片 0 利用务生率和字元型式之上述組合,使中文漢字 7;之^4: ί ^頻率和3469發生字元型式,韓字母字元碼之 之2°3;發生頻ϋ18發生字元型式,曰文平假名/片假名碼 之23/β毛生頻率和13〇發生字元型式,和日文 發生字元型式互相比較,假如漢字… 文。相似的,根據時’就判定該語言為中 型式,可以判定語言為曰;:;,;;1;發生頻率和發生字元 能:在㊁1: ΐ:之第6方法具體例之資訊處理系統之型 資料中檢出相鄰之二字元鏈 ?:取盗,用來從本文 用來讀取字元鏈之發生-欠數牙疋子兀鏈頻率計數器, 型(語言)型式將ϋί己錄號碼,然後以每一種圖 數哭,用ίϊ! 在頻率記憶器1 803 :1804是頻率計 数时,用來提取以字元鏈萃 疋颁手口r 檢測到之每-種圖型型式之字;=以:己憶器18°3中 對照器,用來計算每一種圖式和I,是 測到之總發生次數,或苹U之:頻率計數器1804檢 次茶 L界值之總發生次數,然後經
497048 五、發明說明(25) 由計算每一種圖型型式之超過某一臨界值之圖型 小互相比較,用來判定含有測試圖型之圖型型式。'、又 因此,依照此種方法時,τ以自動的判定測試資 之圖型。另外之一優點是除非字元型式,字型等 碼,可以將圖型分類。另外,不需要設置語言對组 典可以將圖型分類。 子 (具體例7 ) 下面將說明本發明第七具體例之鏗別字元圖型 =例。下面首先說明形成用以鑑別圖型之資訊之形1二之 圖19表示用以形成資訊之樣本資料。在圖19中,μ 1901表示中文之樣本圖型’和從該樣本資们: 鏈。假如字元型式(例如,漢字,片假名 出Τ 同,該二字元鏈被檢出時即形成。在這種情況 ^目乂 =指:之語言(例如字典包括該語言), : =二 被切出,則該鏈不形成在切出之第二字元和後續 :闰在第7具體例中,因為使用曰文之切出兀 本圖型m!之相鄰字元鏈。然後對第六 斤乂,成樣 1矣90 一2至1905進行相似之操作。另外,在圖19中,二= J不曰文之樣本圖心在核對每一種字元型 ;1:6 後,不形成如同,,(i ” ””等之平 鏈貝吼 1,Λ 有子凡鏈事件",則先前字元π同”和二宝开 '事件被分開。其結果是字元鏈被分開成為-字S # 19(Π,1911,和一字元19〇8,19〇9 巧::兀鏈 i y丄υ寻。相反的,經 497048 五、發明說明(26) 由重複相同之字元用來形成一字元19〇8,19〇9,丨 字,。圖20表示當判定圖型為一字元時,經; 二字元鏈所形成之字元鏈。 吳成為 $ : ★第六具體例中,依照中文,曰文等之每一 51聖式,分開的將組合圖型,記憶號碼,和二 型之發生次數儲存在儲存據Μ。m 9 !矣-收h有子凡鍵圖 二元# w,二 圖表不將資料儲存成為 一表之貝例。在圖2 1中,符號2 i 〇 J表示中文 J,21〇2表示曰文之發生次數,該 二二 任二二Vi=儲存到第7具體例之儲存媒體直至 . 八、、、口果是可以將有關之圖型型式之#峰4 數儲存進入該表。與第丄目触Υ丨n m 主I式之赉生次 可以將多種圖型(扭”二例同樣的,利用相似之方法 表。 H 型式之每一種圖型型式儲存進入該 17:面將說明使用測執圖型進行鑑別圖型之方法。使用圖 i::不之測試圖型。在此種情 被卒取。然後從圖LW〇6我々的 17〇3,"。6對應之發生=媒;:表檢測與二字元鏈 圖型(同,事)之發生在中文表(圖21之21〇1)中, 相對的,在曰文表Γ上為卜不使用其他之數值。 生次數為2,和圖型1(事圖2二21°2)中,圖型(我,々)之發 型型式計算該等發生次:)之發生次數為2。當對每種圖 在日文為m/;數之總數時,其總數在中文為1, 雖然在第七具體例中7乂定= 甲计异總發生次數,但是該方法亦可
89102179.ptd 第30頁 497048
以計算具有總發生次數超過n之圖型 ;::;咖之字元鍵之總發生次數。雖。開= 亦了適於卒取對應到測試圖型之字元鏈之方法,所有相鄰 $ 字元之所有之字元鏈亦可以如同第六具體例的撿拾 而不需要使用分開規則。
依照此種方法,根據可適用於第五具體例或第六具體例 所不之實際資料,經由設定字元數可以判定該圖型,該字 7G數匹配發生頻率%,以n作為發生次數之標準。例如,在 中文之情況,假如中文漢字碼之發生頻率為74%和發生字 元型式為3469型至100字元,則可以將與漢字碼對應之發 生次數之總和η設定為74。 μ圖22表示本發明之第七方法具體例之資訊處理系統之形 悲。在圖2 2中,符號2 2 0 2表示間斷鑑別器,依照分開規則 用來從本文資料中切出樣本資料;220 1是字元鏈萃取器, 當獲得來自間斷鑑別器2202之結果時,用來獲取二字元鏈 或一字元鏈和讀取發生次數和記錄號碼,當未獲得來自間 斷鑑別2 2 0 2之結果時,萃取所有相鄰字元鏈;2 2 〇 3是鏈變 換态’當字元鍵萃取器2201萃取一字元時,經由重複一字 元用來形成二字元鏈;2204是字元鏈頻率計數器,用來將 母一個圖型(语㊁)型式之二字元鍵,記錄號碼,和發生次 數儲存進入頻率記憶器220 5 ; 220 6是頻率計數器,用來從 頻率記憶器2205提取每一種圖型型式之字元鏈(由字元鏈 萃取器2 2 0 1或鏈變換器2 2 0 3獲得)之發生次數;2 2 0 7是對 照器,用來計算每一個圖型型式之從頻率計數器2 2 0 6檢測
89102179.ptd 第31頁 497048 五、發明說明(28) 到之總發生次數,或是某一個臨界值之總發生次數,然後 判定含有測試圖型之圖型型式,其方法是計算每一個圖型 型式之超過某一臨界值之圖型或比較每一個圖型型式之大 /J、 〇 因此,依照此種方法時,可以自動的判定測試資料所屬 之圖型。另外,可以獲得之優點是除非字元型式,字型等 被編碼,可以將圖型分類。另外,圖型之分類不需要設置 有關语言之所有規則。 (具體例8)
下面將說明本發明之第八具體例之字元圖型之鑑別方法 之實例。首先說明用以鑑別圖型之資訊之形成方法。假設 S類圖型被設定為2(曰文和中文專)。圖23表示用以儲存 編碼字元圖型之代碼表之形態。A群組2 3 0 1包含有所謂之
平假名和片假名之如同字元π π ,…等。編碼數指派給A 群組230 1之有關字元,例如指派#10給”七,,。相似的,'^群 組2 0 3 2包含有漢字和編碼數指派給有關之漢字,例如指尤 # 1 0 0給’’我”,指派# 1 〇 1給”同",…。在此種情況,上述 編碼數之指派是為著方便,只要在代碼表具有惟_性',之 可以使用任何編碼數。 亦
使用圖14中之符號1401,1 406,1412所指示夕梯丄 <樣本圖型 之相同貧料,作為用以形成鑑別圖型用之資訊之樣本次土 料,下面將說明第八具體例。在此種情況,該第又且貝 假設圖14之樣本圖型1401,1 406,1412所屬^圖型二體例 (語言)為未知。圖24表示從圖1 4之樣本表中贫两 刀類 卞取之字元鏈
89102179.ptd 497048 五、發明說明(29) 圖型之樣本。在回應字元鏈時,例如圖14中之1 404”我同 π ’ 1 405”同事’’,儲存文件號碼丄,第一字元之字元碼 101 ’第二字元之字元碼102,和字元鏈圖型240 1 π我同,,之 發生次數1。相似的,24〇2表示字元鏈”同事”之字元鏈圖 型。在圖24中之字元鏈圖型yog,2404,2405等如同圖14 之子元鏈圖型14〇6。相似的,在圖2 4中之字元鏈圖型 2406 ,2407等如同圖14之字元鏈圖型1412。
其次,在每一種字元鏈圖型將一些字元鏈圖型放置在一 起。依S?、文件號碼將含有相同之字元鏈圖型之一些圖型收 集在一起’計算該圖型之數目。圖2 5分別顯示字元鏈圖型 被收集在一起之一些實例。如圖2 5中之2 5 〇丨所示,在文件 號碼1中’ ”同事”和其他之文件共用,結合之文件號碼為 1 ’共同文字元鏈圖型之數目為2(其中數目1表示沒有共用 子7G鍵圖型)。 如圖25之2502所示,,,我々”,”事件”與其他之文件共 用,共用字元鏈圖型之數目為4。相似的,在文件號碼3, 共用字元鏈圖型之數目為4。依照這種方式,判定文件號 碼2和3與文件號碼1不同,然後將文件號碼丨分類為圖型 2,和將文件號碼2,3分類為圖型1。然後儲存字元鏈圖 型。圖26表示將文件分類成圖型1,2後將其儲存在媒體之 貫例。然後’利用樣本資料形成二字元鏈,從被儲存在儲 存媒體之二個圖型(圖型1,圖型2)中檢出字元鏈圖型,然 後使樣本資料之字元鏈與被儲存在儲存媒體之每一種圖裂 型式之字元鏈圖型進行比較,然後將樣本資料中之具有最
89102179.ptd 第33頁 五、發明說明(30) 大數目之圖型型式之字元鏈 Θ -^r J=L 1 . # 简存在儲存媒轉。 具有最大數目之圖型型式夕全-甘河什烁骽。 體例之儲存媒胃,但是圖型型式::=被儲存在第八具 於某一臨界值之字元鏈圖型,或 ^祖、可以經由提取大 大於某-臨界值時,比較其情況數田破^取之字元鏈圖型 字„方法,當分析實際資料時包含發生次數 子7G碼,和JL相人夕八太士丄 奴土人数, 如具體例5,6,7所述之每例H 1子母/日文成為不同, 中,頻率集中在 数辟子母字兀,同時頻秦隹士 在曰文之平假名/片假名之虹合, J:頻革A中 元其頻率成為均勻的分布。/ 一彳各種漢予子 率和發生字元型2 r i ; ;言碼中之發生頻 八士 飞门之敢]、差異,可以判定語言所接近之 分f 0 下面將說明使用測試圖型 型式之鑑別方法。該鑑別方 例至第七具體例相似之方法 用來鑑別含有測試圖型之圖型 法之達成可以使用與第四具體
圖2 7表示本發明之第八方法具體例之資訊處理系統之形 態。在圖27中,符號270 1表示字元鏈萃取器,帛來從本文 資料中核出相鄰之二字元鏈;2 7 〇 2是字元鏈頻率計數器, 用來項取字元鏈之發生次數和記錄號碼;2 7 0 3是頻率計數 斋,用來從頻率記憶器2 7 0 5中提取每一種圖型型式之被字 元鏈萃取器2 7 0 1檢測到之字元鏈之發生次數,或假如沒有 發生次數存在時計算由字元鏈頻率計數器2 7 〇 2獲得之字元 鏈之頻率;和2704是圖型分類器,用來計算字元鏈圖型之
89102179.ptd 第34頁 497048 五、發明說明(31) 總發生次數或某一臨界值之總發 式,其中包含有每一種圖型型式之二^,藉以檢測圖型型 字元鏈或字元鏈圖型,然後使每頻率計數器2703之 比較,然後以較大總和之順序將 θ里型式之大小進行 記憶器2705之有關圖型型式,然^ ^圖型儲存進入頻率 作為判定結果。 圖型型式之測試圖型 因此,依照此種方法時,可以自 之圖型…卜,可獲得之優點是除=判:,料所屬 編碼,可以將圖型分類。另外,不兩:,式,字型等被 典就可以將圖型分類。另外,可而^置有關語言之字 言或圖S,其*法是參照*則用來^: ^本文所屬之語 根據發生關係用來重新構建語言或圖::言檔案,和 (具體例9) u i之刀類。 下面將說明本文資料被用在集合碼( (EUC等)之情況,作為本文語言鑑別之一 Μ或局/碼 之方塊形態圖之流程用來說明具體例。Λ列。依照圖32 =-,當輸入本文被集合碼或局部碼管 儲存在圖28所示之個別字元組代碼表記憶器(圖32之-瑪破 3203 )。在圖28中,符號28 0 1至280 4表示隼人石%之# 中:ι表示平假名/片假名代碼表⑽以 2803是符號代碼表;2804是韓字母代碼表。碼數被’ 的指派給有關之表。在圖28中,符號28〇5至28〇9表 性 代碼表,其中2805表示日文之平假名/片假名局部代'局部 表;2806是中文之平假名/片假名局部代碼表;和Μ”是 五、發明說明(32) 韓字母之平假名/片^ 數互不相θ。另外二局』代碼表。依照字元型式其螞 2809表示符號局部代:J28:表:漢字局部代碼表,和 在第九具體例中料為圖30所示之本文。 例中適當的說明=::碼之實例’ ☆第九具體 碼數與圖30之:、曰本局 '碼之」:’兄之不同。 時,碼鑑別指派哭丄:上V'子之有關字元相關。這 局部碼),和-字'蝻J貝和子70碼糸統(集合碼或 不一予7L鏈萃取器3202從輸入資料中切出一 "元鍵"日本",”本,ά,"η·,,"清,^ 。然後,個別語言發生頻率計數器32〇4根據個別字元缸 己憶,⑽檢測與單-碼之本文對應之碼數,然後 乂、一子兀鏈之第一字元之碼數,然後計算漢字,平假 名丄字元型式之發生次數。例如,在圖30之輸入本文 之情況時,二字元鏈之數目為6,作為第一字元之具有漢 字之鏈為3,作為第一字元之具有平假名/片假名之鏈為、 3,和其他者為〇。因此,漢字之發生程度為5〇%,和平假 名/片假名之發生程度為50%。然後,個別語言發生頻率計 數器3204發送該二個字元鏈之發生程度給個別語言分 距離計算器3 2 0 6。 曰 然後’從個別語言分布表記憶器3 2 〇 5讀取字元發生率 《。該個別語言分布表記憶器3 2 〇 5是學習表,其中具有利 用有關語言所描述之資料所算出之二字元鏈之圖型之發生 率。如同曰文,中文,韓字母等之漢字,平假名/片假 名’符號’韓字母等之每一個字元型式之發生率%,被儲
89102179.ptd 第36頁 497048 五、發明說明(33) " '" "" — 存成為列表。個別語言分布間距離計算器32〇6,以 31之距離計算規則之方式,量度已萃取資料和上述學^, 間之分布間距離。例如,在日文標準之情況時,該距二^ (50%(漢字發生率%) — 49%)2 +(5〇%(平假名發生率〜馮 41%)2 +(〇%(符號發生率%) 一1〇%)2 +(〇%(韓^母發生 —〇%)2= 182。相似的,在中文標準之情況,該距離為0 1 376。在韓字母標準之情況,該距離為9895。 ;==〇7。比較器顯核對曰文,中文和韓; 果判定輸3文=測182之曰文標準。根據上述之結 之之距離之計算方式是(有關字元型式 可二滿ί Γ角心V: ΐ之發生率)2。然而’假如該距離 ^ ,y)+d^ 是任何幻。料,在“Λ 是距離函數,x,y 碼圖型,則嗜H i /九八體例中,假如該圖型是被編 是被編碼目;m不口;圖型。另外,假如該目標 該目標並沒有特別之;;::圖型…,如同 如上所述,本發明 述特徵可以鑑別以草種ς ί之優點是使用國家之語言之描 即,經由檢測作為= 之輸m之語言,亦 或檢測特定字元間之本文之特定字元之發生率, 字元之發生率,同時觀測^長度,或檢測在特· ^範圍之 或在特定範圍之特定丰二在特定語言經常發生之特定字元 子凡,用來進行鑑別。
89102179. Ptd 第37頁 五、發明說ΐ^(34) 〜 一 第 一 鍵 本舍明所具有之另外一個優點是使用具有二字元 气之’找系統作為文件尋找之索引,經由將分開字元之資 尋附加到當登錄時所設置之索引,可以用來達成關鍵字之 :找’在輸入本文中具有分開字元插入在關鍵字之開頭和 、結尾。 口第二’本發明所具有之另外一個優點是根據指定之本文 可=自動的鑑別該本文所屬之語言,在本文之狀況特徵被 =疋為編碼,尤其是該特徵被字元圖型型樣(例如字型等)「-Ί之^況下,可以自動的鑑別語言或群缸型式。 L兀件編號之說明] 、生Λ 101 102 103 104 特定字元鑑別器 特定字元計數器 輸入字元計數器 發生率計算器
105 106 標準發生率記憶器 比較器 107 301 302 303 304 305 306 307 本文結束檢測器 特定字元鑑別器 本文長度計數器 加算器 特定字元計數器 平均本文長度計算器 標準本大長度計數器 比較器
497048 五、發明說明(35) 3 08 本文結束檢測器 501 特定範圍鑑別器 502 特定範圍計數器 503 輸入字元計數器 504 發生率計算器 505 標準發生率記憶器 5 0 6 比較器 507 本文結束檢測器 701 本文變換器 702 分開字元檢測器 703 二字元鏈產生器 704 分開字元鏈產生器 70 5 二字元鏈記憶器 706 本文變換器 707 二字元鏈檢測器 7 0 8 比較器 709 控制部 901 A群組之有關字元 902 B群組之有關字元 9 0 3 C群組之有關字元 1101 字元串資料 1301 字元鏈萃取器 1 302 圖型計算器 1 303 代碼表
89102179.ptd 第39頁 497048 五、發明說明(36) 1304 圖型鑑別器 1305 圖型記憶器 1401 中文樣本資料 1402 二字元鏈 1403 二字元鏈 1404 二字元鏈 1405 二字元鏈 1406 曰文樣本資料 1407 二字元鏈 1408 二字元鏈 1409 二字元鏈 1410 二字元鏈 1411 二字兀鍵 1412 曰文樣本貧料 1501 發生圖型 1502 發生圖型 1503 發生圖型 1504 發生圖型 1505 發生圖型 1506 發生圖型 1507 發生圖型 1508 發生圖型 1509 發生圖型 1701 測試圖型
89102179.ptd 第40頁 497048 五、發明說明(37) 1 702 二字元鏈 1 703 二字元鏈 1 704 二字元鏈 1 70 5 二字元鏈 1 70 6 二字元鏈 1901 中文樣本資料 1 902 二字元鏈 1 90 3 二字元鏈 1 904 二字元鏈 1 9 0 5 二字元鏈 1 90 6 日文樣本資料 1 90 7 二字元鏈 1 908 一字元 1 90 9 —字元 1910 一字元 1911 二字元鏈 230 1 A群組之有關字元 2302 B群組之有關字元 240 1 字元鏈圖型 2402 字元鏈圖型 240 3 字元鏈圖型 2404 字元鏈圖型 240 5 字元鏈圖型 2406 字元鏈圖型
89102179.ptd 第41頁 497048 五、發明說明(38) 2407 字元鏈圖型 280 1 平假名/片假名代碼表 2802 漢字代碼 2803 符號代碼 2804 韓字母代碼 28 0 5 日文之平假名/片假名局部代碼表 280 6 中文之平假名/片假名局部代碼表 2807 韓字母之平假名/片假名局部代碼表 2808 漢字局部代碼表 2809 符號局部代碼表
89102179.ptd 第42頁 497048 圖式簡單說明 圖1是方塊圖,用來表示本發明之第一方法之資訊處理 糸統之形態; 圖2是概念圖,用來表示本發明之字元碼語言鑑別之第 一方法; 圖3是方塊圖,用來表示本發明之第二方法具體例之資 訊處理系統之形態; 圖4是概念圖,用來表示本發明字元碼語言鑑別之第二 方法; 圖5是方塊圖,用來表示本發明之第三具體例之資訊處 理系統之形態; 圖6是概念圖,用來表示本發明之字元碼語言鑑別之第 三方法; 圖7是方塊圖,用來表示本發明之第四具體例之資訊處 理系統之形態; 圖8是概念圖,用來表示本發明尋找關鍵字之第四方 法; 圖9之視圖表示本發明之第五方法具體例之代碼表; 圖1 0之視圖表示本發明之第五方法具體例之圖型儲存裝 置之形態; 圖11是概念圖,用來表示本發明之第五方法具體例之作 為鑑別目標之本文; 圖1 2之視圖表示本發明之第五方法具體例之圖型鑑別之 中間之資料結構; 圖1 3是方塊圖,用來表示本發明之第五方法具體例之資
89102179.ptd 第43頁 497048 圖式簡單說明 訊處理系統之形態; 圖1 4是概念圖,用來表示本發明之第六方法具體例之樣 本資料; 圖1 5之視圖用來表示本發明之第六方法具體例之字元鏈 發生率; 圖1 6是概念圖,用來表示本發明之第六方法具體例之頻 率記憶器和資料之資料結構; 圖1 7是概念圖,用來表示本發明之第六方法具體例之測 試本文; 圖1 8是方塊圖,用來'表示本發明之第六方法具體例之資 訊處理系統之形態; 圖1 9是概念圖,用來表示本發明之第七方法具體例之樣 本貧料; 圖20是概念圖,用來表示本發明之第七方法具體例之鏈 變換資料; 圖2 1是概念圖,用來表示本發明之第七方法具體例之頻 率記憶器和資料之資料結構; 圖2 2是方塊圖,用來表示本#明之第七方法具體例之資 訊處理系統之形態; 圖2 3是概念圖,用來·表示本發明之第八方法具體例之代 碼表; 圖24是概念圖,用來表示本發明之第八方法具體例之字 元鏈; 圖2 5是概念圖,用來表示本發明之第八方法具體例之在
89102179.ptd 第44頁 497048 圖式簡單說明 字元鏈對照時之字元鏈資料; _ 圖2 6是概念圖,用來表示本發明之第八方法具體例之頻 率記憶和貧料之貧料結構, 圖2 7是方塊圖,用來表示本發明之第八方法具體例之資 訊處理系統之形態; 圖2 8之視圖表示本發明之第九方法具體例之個別字元組 次 代碼表記憶器之形態; 圖2 9之視圖表示本發明之第九方法具體例之個別語言分 布表記憶器之形態; 圖30是概念圖,用來表示本發明之第九方法具體例之輸 _ 入本文貧料, 圖3 1之視圖表示本發明之第九方法具體例之計算距離決 定之方法;和 圖3 2是方塊圖,用來表示本發明之第九具體例之資訊處 理系統之形態。
89102179.ptd 第45頁

Claims (1)

  1. 六、申請專利範圍 1 · 一種資訊處理系統,其特徵是包含有: 、特定字元計數裝置,用來從輸入本文之 ’則和計數具有檢測目標語言之特定字元碼之特定檢 特ΐϊ率:ί裝置,根據該特定字元計數裝置所:Ϊ到之 數目和在輸入本文中之所有字元之數目用Ϊ 。十异特定字元之發生率; 用來 S發生率儲存裝置,用來儲存目標語言之特 才示準發生率;和 予凡之 比?器,用來使獲自發生率計算裝置之輸入本文之 疋赉生率和自標準發生率儲存裝置檢測到之標準發 适行比較; 工干 徵ί15定輸人本文是否對應到具有與s標語言匹配之特 t 6 Ϊ貝汛處理系統,其特徵是包含有: 測夺ΐ r凡檢測裝置’用來從輸入本文之所有字元中,檢 元·°文具有檢测目標語言之字元碼之一個或多個特定字 晉Γ ί ί ί文檢測裝置’用來萃取在獲自特定字元檢測裝 字开夕ί字70間包含有非特定字元之本文’和檢測非特定 子兀之數目; Τ'均本^文县7¾1 穿置 Λ ^ ^凌置,用來計算獲自非特定本文檢測 、標準= 均本文長度; — 元之標準平均本文J破置,用來儲存目標語言之非特定子 長度’·和
    89102179.ptd 第46頁 497048 六、申請專利範圍 比較裝置 文之非特定 準平均本文 其中判定 徵之本文。 3. —種資 字元在特 元中檢測和 定範圍内之 發生率計 檢測到之字 之數目,用 標準發生 範圍内之標 比較裝置 字元在特定 測到之標準 其中判定 徵之本文。 4. 如申請 裝置以二個 個以上之字 5. —種資 第一分開 訊處理 定範圍 計數在 字元碼 算裝置 元在特 來計算 率儲存 準發生 ,用來 範圍内 發生率 輸入本 系統,其 内計數裝 檢測目標 之字元; ^根據該 定範圍内 字元在特 裝置,用 率;和 使獲自該 之發生率 進行比較 文是否對 ,用來使獲自平均本文長度計算裝置之輸入本 字元長度,和獲自標準本文長度儲存裝置之標 長度進行比較; 輸入本文是否對應到具有與目標語言匹配之特 特徵是包含有: 置,用來從輸入本文之所有字 語言之特定範圍内之字元在特 字元在特定範圍内計數裝置所 之數目和在輸入本文内之字元 定範圍内之發生率; 來儲存目標語言之字元在特定 發生率計算裝置之輸入本文之 ,和從標準發生率儲存裝置檢 應到具有與目標語言匹配之特 專利範圍第3項之資訊處理系統,其中該比較 以上之範圍指定字元在特定範圍内,用來使二 元在特定範圍内之發生率進行比較。 訊處理系統,其特徵是包含有: 字元插入裝置,用來插入分開字元作為特定控
    89102179.ptd 第47頁 497048 六、申請專利範圍 制字元碼, 登錄時表示 檢測裝置 本文假如發 字元鏈產 字元鏈,具 鏈,和具有 鍵;和 第二分開 到輸入本文 和結尾。 6 · —種資 分開字元 入在關鍵字 第一字元 開字元前具 元後具有字 元鏈,這時 是特定分開 第二字元 元之二字元 字元鏈儲 有關字元之 尋找本文 不存在於輸入本文之關鍵字間之境界,當本文 輸入本文被分開; ,用來檢測三字元鏈其中在插入有分開字元之 現有分開字元時,就將分開字元放置在中間; 生裝置,用來產生在分開字元前後具有字元之 有分開字元而且在分開字元前具有字元之字元 分開字元而且在分開字元後具有字元之字元 字元插入裝置,當尋找時用來將分開字元插入 之開頭,輸入本文之結尾,或輸入本文之開頭 訊處理系統,其特徵是包含有: 插入裝置,當本文被登錄時用來將分開字元插 間之境界;. 鏈產生裝置,用來產生具有分開字元而且在分 有字元之字元鏈,具有分開字元而且在分開字 元之字元鏈,和在分開字元前後具有字元之字 該分開字元插入裝置所產生之輸入本文之字元 字元; 鏈產生裝置,用來產生具有第一字元和後續字 鏈,這時輸入字元不是分開字元; 存裝置,用來儲存二字元鏈和該二字元鏈中之 發生次數; 產生裝置,用來將特定分開字元插入在對照本
    89102179.ptd 第48頁 497048 t、申請專利範圍 文之開頭和結尾; 第三字元鏈產生裝置,用來產生二字元鏈,其中包含有 第一字元和尋找本文產生裝置所產生之尋找本文之後續字 元; 檢測裝置,用來檢測利用第三字元鏈產生裝置從該字元 鏈儲存裝置產生之字元鏈,和檢測其發生次數;和 ‘ 比較裝置,用來判定二個連續鏈之前一個鏈之第二字元 , 之發生次數是否等於後一個鏈之第一字元之發生次數,其 中前一個鏈之第二字元對應到後一個鏈之第一字元; 其中比較裝置依照第三字元鏈產生裝置所萃取之所有鏈 · 之對照,用來判定前一個鏈之第二字元之發生次數是否等 於後一個鏈之第一字元之發生次數,經由檢測尋找本文和 在尋找本文中之插入分開字元所形成之境界,用來進行關 鍵字尋找。 7. —種資訊處理系統,其特徵是包含有: 分開字元插入裝置,當本文被登錄時用來將分開字元插 入到關鍵字間之境界, 第一字元鏈產生裝置,用來產生具有分開字元而且在分 開字元前具有字元之字元鏈,具有分開字元而且在分開字 B 元後具有字元之字元鏈,和在分開字元前後具有字元之字 元鏈,這時該分開字元插入裝置所產生之輸入本文之字元 是特定分開字元; 第二字元鏈產生裝置,用來產生具有第一字元和後續字 元之二字元鏈,這時輸入字元不是分開字元;
    89102179.ptd 第49頁 外7048 丄 '—〜一 六、申請專利範圍 字元鏈儲存 關字元之發生 尋找本文產 文之開頭和結 第二字元鏈 第一字元和尋 元; 檢測裝置, 儲存裝置產生 比較裝置, 裝置,用來儲存二字元鏈 位置; 生裝置’用來將特定分開 尾; 產生裝置,用來產生二字 找本文產生裝置所產生之 和 字 磙二字元 元插入到 之發生 中如一 其中 之對照 於後一 在尋找 鍵字尋 8.如 將特定 生裝置 檢測尋 致尋找 9 ·如 將特定 位置是 個鏈之 比較裝 ,用來 個鏈之 本文中 找。 申請專 分開字 之設置 找本文 〇 申請專 分開字 用來檢測利用第 之字元鏈,和檢 用來判定二個連續鏈之 否等於後一個鏈 第二字元 置依照第 對應到 三字元 個鏈之 之發生 之插入分開字元 判定前一 第一字元 三字元鏈 測其發生 之第一字 後一個鏈 鏈產生裝 第二字元 位置,經 所形成之 元鏈,其中 守找本文之 產生裝置從 次數;和 —個鏈之第 元之發生位 之第一字元 置所萃取之 之發生位置 由檢測尋找 境界,用來 鏈之有 對照本 包含有 後續字 該字元 二字元置,其 y 所有鏈 是否等 本文和 進行關 利範圍第6或7項之資訊處 元插入到對照本文之開頭 ,用來代替該尋找本文產 之開頭字元之境界用來進 利範圍第6或7項之資訊處 元插入到對照本文之結尾 理系統,其中用以 之第二尋找本文產 生裝置,因此經由 行尋找本文之前一 理系統,其 之第三尋找 中用以 本文產
    _2179·_ 第50頁 ------ 六、申請專利範圍 碼之組合構成 括圖型儲存之步驟’用來儲存 圖型群組為先型群組之二字元組合圖型,其t該 ί三ί = : J ”以表示第-資料之圖型型式;和 次數。、 用來表示第一資料和第二資料之組合之發生 1 6 · —種資訊# 字元鏈萃取Λ 統,其特徵是包含有: 體之圖型資料古用ϊ萃取被記錄在電腦可讀取儲存媒 指定之語言目錄,一子7°鏈,其中含有本文資料,數種 別之圖型群組^組I來記錄程式’該程式構成含有圖型識 中該圖型含有字1 σ ,這時字元碼在圖型群組分別重疊其 驟,用來儲存第二ί之組合,該程式包括圖型儲存之$八 中圖型群組為先#,f含有圖型群組之二字元組合圖型1 之圖型型式,料:::料含有用以表示第—^ 組合之發生次數;、科用來表不第一資料和第二資料之 子元鏈頻率計數 數,和將每-種圖型二用土計算有關字元鏈之發生次 媒體; 式之子元鏈圖型和發生次數儲存在 子元鏈萃取裝置, 頻率計數裝置,用】以定之圖型中萃取二字元鏈; 存媒體萃取之字元鏈^取:―個圖型型式之對應到從儲 對照裝置,用來=兀鏈圖型之發生次數;和 __ 自頻率計數裝置之發生次數和所有 89102179.ptd 第53頁 497048 六、申請專利範圍 · *一"":-- .t * 大之圖型型式作為含有指定圖蜇之圖型··型式。· · ·:. 2〇· —種資訊處理系統使用之電腦可讀取儲.存媒體,其 特徵是對語言之圖型識別具有惟一性,其中含有本文資 料,數種指定之語言目錄,用來記錄程式,該程式構成含 有字元碼之字元碼群組之組合之圖型群組,其中編碼字元 被用在圖型識別; 該程式包含有儲存步驟用來儲存含有二字元組合之字元 鍵圖型之文件5虎碼,和每一種圖型分類或語言之本文資料 之字元鍵圖型。 · 2 1 · —種資訊處理系統 字元鏈萃取裝置,用來 體之所有二字元鏈,其中 目錄,用來記錄程式,該 組之組合,其中編碼字元 存步驟用來儲存含有二字 石馬’和每一種圖型分類或 字元鏈頻率計數裝置, 數’和計算每一種圖型型 字元頻率比較裝置,用 之予元鏈圖型之頻率和每 几鏈圖型,比較每一種圖 值’和將字元鏈圖型,發 有較大圖型類別之儲存媒 予元鏈萃取裝置,用來 ,其特徵是包含有: 萃取被記錄在電腦可讀 含有本文資料,數種指 程式構成含有字元碼之 用在圖型識別,該程式 元組合之字元鏈圖型之 語言之本文資料之字元 用來計算有關之字元鏈 式子元鏈:圖型和文件號, 來提·取獲自字元鏈頻率 一種圖型類別之儲存媒 型類別之字元鏈圖型之 生次數,和文件號碼儲 體之圖型類別; 從指定圖型中萃取二字 取儲存媒 定之語言 字元碼群 包含有儲 文字號 鏈圖型; 之發生次 碼; 計數裝置 體中之字 頻率之總 存進入具 元鏈; 六 申請專利範圍 字元鏈卞取裝置,用來從 字元鏈; 个又貝柯中卒取所有之二 號 語 發=計數裝置,用來對漢字’ 言之,系統他然後吏其符合每-種 算 個別浯έ分布間距離計算裝置, 扣]、, 开漢字,平假名/片假名,符號,=曰派/馬系統用來計 發生率之間之總距離,和利用儲存、/母一種語言之 假名/片假名,符號,料母之每?置九來管理漢字,平 比較裝置,用來使該個別語言分°° °之發^生率;和 最小距離值,然後判定具有最小 s Ε 异裝置計算 入本文之語言。 攻j距離值之語言目錄作為輸
TW089102179A 1999-02-12 2000-02-10 Information processing system TW497048B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11034053A JP2000231559A (ja) 1999-02-12 1999-02-12 情報処理装置

Publications (1)

Publication Number Publication Date
TW497048B true TW497048B (en) 2002-08-01

Family

ID=12403556

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089102179A TW497048B (en) 1999-02-12 2000-02-10 Information processing system

Country Status (5)

Country Link
JP (1) JP2000231559A (zh)
KR (1) KR20010006632A (zh)
CN (1) CN1193306C (zh)
SG (1) SG92668A1 (zh)
TW (1) TW497048B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213240A (ja) 2002-12-27 2004-07-29 Casio Comput Co Ltd データ構造、情報表示制御装置及びプログラム
US8005782B2 (en) 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US8041662B2 (en) 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
JP4550876B2 (ja) * 2007-10-01 2010-09-22 株式会社東芝 構造化文書検索システム及びプログラム
KR101049358B1 (ko) * 2008-12-08 2011-07-13 엔에이치엔(주) 유사어 결정 방법 및 시스템
US10198429B2 (en) * 2015-12-18 2019-02-05 Intel Corporation Automatic text language selection mechanism
KR101946836B1 (ko) * 2017-03-28 2019-04-29 주식회사 와이즈넛 언어 판별 장치 및 방법
JP7243109B2 (ja) * 2018-10-02 2023-03-22 カシオ計算機株式会社 電子機器、電子機器の制御方法及びプログラム
CN111160015B (zh) * 2019-12-24 2024-03-05 北京明略软件系统有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端
CN116275587B (zh) * 2023-04-17 2023-10-27 霖鼎光学(江苏)有限公司 一种激光切割工件的控制系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0744702B1 (en) * 1995-05-22 2002-11-13 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
JP3467160B2 (ja) * 1996-12-13 2003-11-17 ブラザー工業株式会社 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法

Also Published As

Publication number Publication date
CN1263316A (zh) 2000-08-16
SG92668A1 (en) 2002-11-19
KR20010006632A (ko) 2001-01-26
CN1193306C (zh) 2005-03-16
JP2000231559A (ja) 2000-08-22

Similar Documents

Publication Publication Date Title
Koppel et al. Computational methods in authorship attribution
WO2018120899A1 (zh) 一种商标查询结果近似度评价和排序方法、装置
Alam et al. Cyberbullying detection: an ensemble based machine learning approach
El et al. Authorship analysis studies: A survey
Ledger et al. Shakespeare, fletcher, and the two noble kinsmen
Jain et al. Machine Learning based Fake News Detection using linguistic features and word vector features
TW497048B (en) Information processing system
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
Hernández-Castañeda et al. Author verification using a semantic space model
Juola Verifying authorship for forensic purposes: A computational protocol and its validation
Deshmukh et al. Marathi poem classification using machine learning
Xu et al. Using SVM to extract acronyms from text
De la Rosa et al. The life of Lazarillo de Tormes and of his machine learning adversities
CN105701086B (zh) 一种滑动窗口文献检测方法及系统
JP5049965B2 (ja) データ処理装置及び方法
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
JP7324058B2 (ja) 文章解析方法、文章解析プログラム、および文章解析システム
JP4525433B2 (ja) 文書集約装置及びプログラム
EP4054145B1 (en) Document-based access control system
Vesanto Detecting and analyzing text reuse with BLAST
CN114707003A (zh) 一种论文作者姓名消歧的方法、设备及储存介质
Kikkisetti et al. Using LLMs to discover emerging coded antisemitic hate-speech emergence in extremist social media
Omer et al. Arud, the metrical system of arabic poetry, as a feature set for authorship attribution
Johansson et al. FOI Cross-Domain Authorship Attribution for Criminal Investigations.
Astari et al. Analysis Name Entity Disambiguation Using Mining Evidence Method

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees