JPS63233427A - 近似パタ−ン検出方法および装置 - Google Patents

近似パタ−ン検出方法および装置

Info

Publication number
JPS63233427A
JPS63233427A JP62066759A JP6675987A JPS63233427A JP S63233427 A JPS63233427 A JP S63233427A JP 62066759 A JP62066759 A JP 62066759A JP 6675987 A JP6675987 A JP 6675987A JP S63233427 A JPS63233427 A JP S63233427A
Authority
JP
Japan
Prior art keywords
pattern
characters
control information
character
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62066759A
Other languages
English (en)
Inventor
Tadashi Osone
匡 大曽根
Akira Yamamoto
彰 山本
Hiroyuki Kitajima
北嶋 弘行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62066759A priority Critical patent/JPS63233427A/ja
Publication of JPS63233427A publication Critical patent/JPS63233427A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はテキスト、イメージ情報等、記号化可能なパタ
ーンの記号列サーチを行う方法およびそのための装置に
関し、特に近似パターンを記号列から高速に検索する処
理に好適な記号列サーチ方法およびそのための装置に関
する。
〔従来の技術〕
近年、オフィス・オートメーションの進展に伴ない、文
書情報のデータベース化が急速に進んでおり、そのデー
タベースの規模も大規模化する方向にある。従って1文
書情報のデータベース処理の高速化は重要な課題である
この文書情報のデータベース処理のうちで、特に重要な
処理の一つは、テキストと呼ばれる文字列のデータの中
から、パターンと呼ばれる特定の文字列を検索するテキ
スト・サーチ処理である。
従来、数種のテキスト・サーチの方式およびそのための
装置が提案されている。例えば、L、A。
ホラ−による「ハードウェア・システムズ・フォア・テ
キスト・インフオメイション・リトリーバル」(I−I
ollaar、L、A、Hardtiare Syst
ems for TextInformation R
etrieval、ACM  5IGIR6thcon
f 、 198:I)には、パターンを一文字ずつアレ
イ状にレジスタに格納しておき、そこにテキス1−を先
頭から一文字ずつ入力して行きパターンを検出するセル
ラ・アレイ法や、有限オートマトン法を利用して、テキ
ストを先頭から一文字ずつ入力しながら、状態遷移テー
ブルを参照してパターンを検索する有限オートマトン法
等が記載されている。
これらはいずれも、指定されたパターンと完全に一致す
るパターン(don’t care文字を含む)をテキ
ストから検出することを目的としていた。
しかし、将来は、指定されたパターンと近いパターンを
テキストから検出したいというニーズが高まるものと考
えられる。例えば、テキストには「○l−l5AKAJ
という形で記憶されているとき。
ユーザがroO8AKAJやrOsAKAJというパタ
ーンを指定した場合、完全なパターンしか検出しない機
能しか持っていないと、「○ll5AKAJを検出でき
ないことになる。
近似パターンを検出する機能を持っていれば、roO8
AKAJやrOsAKAJというパターンはなかったが
、−文字違いのrOH3AKAJというパターンは存在
することを知らせることができ。
ユーザにとって使い勝手が良くなる。また、ユーザの誤
入力時や、単語のスペルがあいまいであるとき等にも、
この近似パターンの検出という機能が役立つと考えられ
る。
これに対しては、特公昭61−28134号公報に開示
されている如く、近似パターンの検索をねらったものも
あるが、近似パターン検出の一部の機能を果たすもので
はあっても、完全な機能を果たすものではなかった。
〔発明が解決しようとする問題点〕
上述の如く、従来技術では近似パターンを完全に検索す
ることはできないという問題があった。
本発明は上記事情に鑑みてなされたもので、その目的と
するところは、完全なパターンを検出するばかりでなく
、近似パターンをも高速に、しかも、完全に検出できる
検索方法およびそのための装置を提供することにある。
ここで、近似パターンとしては、以下に述べるものを指
す。すなわち、近似パターンの種類は、例えば、指定パ
ターンがro HS A K AJであるとき、rOs
AKAJは指定パターンに対して一文字欠落したパター
ンであり、roO8AKAJは一文字置換したパターン
、rOH3sAKΔ」は−文字過創なパターンである。
本発明においては、上記欠落パターン、置換パターン、
過剰パターンの各々を検出するばかりでなく、これらの
混在したパターンについても、何文字違いであるかを識
別し、近似パターンとして検出できる方法およびそのた
めの装置を提供することを目的とする。
〔問題点を解決するための手段〕
本発明の上記目的は、テキストの入力文字と内部に設定
された指定パターンの文字とを比較し、これらの文字が
一致するか否かを示す制御情報を用いて、与えられた指
定パターンに一致するパターンを検索するパターン検出
方法において、前記制御情報として、前記指定パターン
と何文字一致しているかという一致文字数を表現する情
報を用いることにより、テキストから、予め指定された
文字数以内だけ異なる近似パターンを検出することを特
徴とする近似パターン検出方法、および、テキストの入
力文字と内部に設定された指定パターンの文字とを比較
し、これらの文字が一致するか否かを示す制御情報を発
生する回路を直列に接続し、前記制御情報を逐次伝達す
る如く構成されたパターン検出装置において、前記制御
情報として、前記指定パターンと何文字一致しているか
という一致文字数を表現する情報を泪い、テキストを一
文字毎入力して前記制御情報発生回路で前記制御情報を
生成し、これを一つ上位の制御情報発生回路に伝達する
ことを繰り返すことにより、テキストから、予め指定さ
れた文字数以内だけ異なる近似パターンを検出する如く
構成されたことを特徴とする近似パターン検出装置によ
って達成される。
〔作用〕
従来の制御情報は、一致しているか/一致していないか
を表現する2値情報であったので、指定パターンの最後
尾の文字とテキストからの入力文字を比較した結果生成
される制御情報からは、近似パターンを検出することは
不可能であった。
これに対し、制御情報を指定パターンとの一致文字数を
表現する情報とすることにより、指定パターンの最後尾
の文字とテキストからの入力文字とを比較した後に生成
される制御情報から一致文字数がわかるので、近似パタ
ーンを検出することができるようになる。
すなわち、長さm文字の指定パターンとに文字違いの近
似パターンを検出せよという要求に対して、指定パター
ンの最後尾に対応する一致文字数を表現する制御情報が
Qであるとき、 02m−k が成立すれば、m−n文字違いの近似パターンを検出し
たことがわかり、 Ω< m −k ならば、近似パターンを検出していないことがわかる。
〔実施例〕
以下、本発明の実施例を図面に荘づいて詳細に説明する
。なお、以下の説明では、本発明を、主要な適用分野で
あるテキスト・サーチに適用した場合を、前述の従来技
術との具体的比較を含めて説明する。
近似パターンの検索要求を、指定パターンとに文字以内
の違いしかないパターンをテキストから検出することと
規定する。このとき、検出されたパターンを指定パター
ンの近似パターンと呼ぶ。
本実施例では、テキストの長さをn文字、指定パターン
の長さをm文字とする。また、テキストの1番11の文
字をTEXT(i)、指定パターンのil目の文字をP
ATTERN(i)とする。
前述の、従来の指定パターンの検索方法の一つは、L、
A、ホラ−による「ハードウェア・システムズ・フォア
・テキスト・インフォメイション・リトリーバル」に記
載されている如く、第7図のようなセルラ・アレイ法に
よるハードウェア構成において、第9図に示すアルゴリ
ズムを遂行して、テキスト・サーチを実現するものであ
った。
すなわち、セル10 1 (1” l*2+・・・・m
)を直列に接続し、初期時に各セル10−1に指定パタ
ーンを一文字ずつ設定しくステップ110) 、また、
初期制御情報C(i、O)を設定しくステップ120)
、テキス1−−文字をすべてのセル10−iにテキスト
入力線11を通して入力しくステップ130)、各セル
】0−1にラッチしである指定パターンと入力されたテ
キスト−文字とを比較しくステップ140)、その結果
と一つ下位のセルから転送される制御情報とから新たな
制御情報を生成しくステップ150)、それを一つ上位
のセルに転送することを、同期をとりながら実行するこ
とを繰り返すことにより、テキスト・サーチを実現する
ものであった。
この方式は、各セル10−iの動作が並列して実行でき
るので高速であったが、前述の如く、制御情報はステッ
プ150に示す如< # OII / II I IT
の2値情報であったので、近似パターンの検索には向い
ていなかった。この場合の制御情報C(i、t)の時間
的推移を第8図に示す。
本発明では、アルゴリズムを第1図に示すように変える
ことにより、近似パターンの検索を可能としたものであ
る。ハードウェアの一実施例を第2図に示す。20−1
は第i番目のセルであり、i=1からmまで、直列に接
続されている。21は上記各セル20− i (i =
= 1.2.・・・・m)にテキストの文字を一文字ず
つ同時に入力するテキス1へ入力線である。上記各セル
20−iには、初期時に、指定パターンが一文字ずつ設
定される。すなわち、第i番目のセル20−1には指定
パターンの第i番目の文字PATTERN(i)が設定
される。
各セル20−1では、上記テキスト入力線21から入力
されたテキス1−の一文字と、各セルに設定されている
上記指定パターンの一文字との比絞結果゛α(i、t)
と、セル内にラッチされている現時点での制御情報C(
i、t−1)と、一つ下位のセル2O−(i−1)から
制御情報線22−(i−1)と23−(i−1)を通じ
て伝達される制御情報C(i−1,t−L)とC(i−
1,t)から、ステップ250に従って新たな制御端¥
FiC(i、t)を生成し、それを制御情報Irl;A
22−1と23−jを通じて一つ上位のセル20−iに
伝達する。
ここで、時刻tにセル20−1で生成される制御情報C
(i、t)は、ステップ250のように制御情報C(i
−1,t−1)、C(i、t−1)、C(i−1,t)
とT(t)によって生成される。このうち、T(し)は
上記テキスト入力線21からセル20−1に入力される
。なお、制御情報C(i−1,t−1)は制御情報線2
2−(i−1)から、同C(i、t−1)は同23−(
i−1)から、また、同C(i−L、t)は当該セルの
内部でラッチされているものである。
最終セル20−mにおける制御情報q(m、t)がm−
に以上であるとき、近似パターンが検出される。テキス
トは各時刻に先頭から順に一文字ずつ上記テキスト入力
線21を通じてすべてのセルに入力され、各時刻で上述
の動作を繰り返し実行することにより、近似パターンの
検索が実現できる。
制御情報C(i、t)は指定パターンとの一探文字数を
表現し、ステップ250に従って生成される。
ここで、C(i−1,t−1)+α(iyt)は、新た
な一致文字数は今までの一致文字数に現セルでの一致文
字数を加えることを意味している。また。
C(i、t−1)は、指定パターに対して現セルでの入
力文字が過剰であると仮定した場合は、新たな一致文字
数は現セルでの一致文字数から1を減じた値になること
を意味しており、C(i−1,t)は指定パターンに対
して呪セルでの入力文字が欠落していると仮定した場合
について必要である。これらから生成される値の最大値
を新たな一探文字数とすることにより、置換、過剰、欠
落が混在する近似パターンでも、誤りなく検出できるよ
うになるものである。
次に、テキストが「○08AKAOH8SAKAO3A
KAJで、指定パターンがrOH8AKA」であるとき
の動作例について説明する。このとき、テキスト長n=
18、指定パターン長m=6である。検索要求として「
指定パターンと一文字違いの近似パターンを検出せよ」
というものを考える。
第3図は、前記制御情報C(i、t)の時間的推移を示
すものである。テキストは一時刻に一文字ずつ、すべて
のセルに入力される(第2図参照)。
各セルでは、ステップ250に従って制御情報を生成す
る。この例の場合1時刻t=6と13と18でC(m、
t)=5となるので、−文字違いの近似パターンが検出
されたことがわかる。すなわち、−文字置換のroO8
AKAJ 、−文字過剰のrollSSAKAJ 、−
文字欠落(y)rO8AKAJが検出されたことがわか
る。一方、従来技術では、第8図に示した如く、近似パ
ターンを検出することはできない。
第1図のアルゴリズムは、もちろん、ソフl−ウエアと
しても遂行可能である。しかし、このアルゴリズムは比
較的単純な動作の繰り返しなので、第2図に示す如く、
ハードウェア化して高速化を図ることができる。但し、
第1図のアルゴリズムでは、ステップ250において、
C(i、t)を生成するのバC(i−1,t)を必要と
するので、第2図の如きハードウェア構成では、ステッ
プ250を各セルにおいて並列動作させることはできな
い。
そこで、ハードウェア構成を第4図のように、アルゴリ
ズムを第5図のようにすることが考えられる。ここでは
、テキストの一文字T(i、t)と二つの制御情報C1
(i、t)とC2(i、t)を各時刻で一つ上位のセル
にシフトする構成になっている。上述の二つの制御情報
C1(i、t)とC2(i#t)は、ステップ35Qに
示す如く、時刻1−1の01と02によって生成される
ので、各セルで並列動作が可能となり、高速化を実現す
ることができる。この場合の動作例を第6図に示す。
この例では、時刻t=11と18と23において、C1
(m 、 t )= 5になっているので、−文字違い
の近似パターンが3個検出されたことがわかる。前述の
実施例の場合とは、検出時刻が5時刻だけ異なるが、検
出したパターンは等価である。
なお、ここで、検出時刻が5時刻具なっているが、実際
の動作時間が異なるため、第4図の構成の方が高速動作
が可能である。また、検出したパターンがテキストのど
こにあるかは、アドレス情報を制御情報に付加して伝達
させることにより容易に検知可能とすることができる。
本発明による近似パターン検出装置のハードウェア量を
1例えば、前記don’t care文字を用いて展開
する方法によるものと比較すると、以下の如く大きな差
異がある。すなわち、長さm文字の指定パターンに対し
てに文字以内達いの近似パターンを検出する場合、k=
1としても、3m個のパターンを検索する必要がある。
従って、これを上記セルラ・アレイ法で高速に検索する
ためには、約3m2個のセルが必要となる。
これに対して1本発明の方法に基づく場合は、m個のセ
ルを用いるだけで済み、その違いは極めて大きなもので
ある。
上記実施例では、一つの指定パターンに対する近似パタ
ーンの検索についてだけ述べたが、複数の指定パターン
に対しても、セルを直列/並列に接続し、そこに適宜複
数の指定パターンを配置することにより、容易に実現す
ることができることは明らかである。また、上記実施例
では、セルラ・アレイ法を利用した例を示したが、テキ
ストの一文字とパターンの一文字との比較を実現させる
モジュールを直列に接続し、モジュール間で制御情報を
伝達させるようなその他の方式でも、容易に実現可能で
ある。
〔発明の効果〕
以上述べた如く1本発明によれば、テキストの入力文字
と内部に設定された指定パターンの文字とを比較し、こ
れらの文字が一致するか否かを示す制御情報を用いて、
与えられた指定パターンに一致するパターンを検索する
パターン検出方法において、前記制御情報として、前記
指定パターンと何文字一致しているかという一致文字数
を表現する情報を用いることにより、テキストから、予
め指定された文字数以内だけ異なる近似パターンを検出
するようにしたので、完全なパターンを検出するばかり
でなく、近似パターンをも高速に、しかも、完全に検出
できるパターン検索方法を実現できるとともに、そのた
めの効率的な装置を実現できるという顕著な効果を奏す
るものである。
【図面の簡単な説明】
第1図、第5図は本発明の実施例であるパターン検出方
法を示すフローチャート、第2図、第4図は実施例のハ
ードウェア構成図、第3図、第6図は実施例の動作説明
図、第7図は従来技術のハードウェア講成図、第8図は
その動作説明図、第9図はそのフローチャートである。 20− i 、30− i :セル、 21− i 、
31− i :テキスト入力線、22− i 、23−
 i 、32− iおよび33−i:制御情報線、 2
10〜290,310〜390 :処理ステップ。 第   1   図 第   2   図 第  養  図 第   l   図 第   7   図 第  8   図 第   9   図

Claims (1)

  1. 【特許請求の範囲】 1、テキストの入力文字と内部に設定された指定パター
    ンの文字とを比較し、これらの文字が一致するか否かを
    示す制御情報を用いて、与えられた指定パターンに一致
    するパターンを検索するパターン検出方法において、前
    記制御情報として、前記指定パターンと何文字一致して
    いるかという一致文字数を表現する情報を用いることに
    より、テキストから、予め指定された文字数以内だけ異
    なる近似パターンを検出することを特徴とする近似パタ
    ーン検出方法。 2、前記制御情報が、テキストの入力文字と前記指定パ
    ターンの文字との比較結果に基づいて、前記指定パター
    ン中の文字が別の文字に置換した場合と、前記指定パタ
    ーン中の文字が欠落した場合と、前記指定パターン中に
    他の文字が挿入された場合のそれぞれを考慮して作成さ
    れることを特徴とする特許請求の範囲第1項記載の近似
    パターン検出方法。 3、テキストの入力文字と内部に設定された指定パター
    ンの文字とを比較し、これらの文字が一致するか否かを
    示す制御情報を発生する回路を直列に接続し、前記制御
    情報を逐次伝達する如く構成されたパターン検出装置に
    おいて、前記制御情報として、前記指定パターンと何文
    字一致しているかという一致文字数を表現する情報を用
    い、テキストを一文字毎入力して前記制御情報発生回路
    で前記制御情報を生成し、これを一つ上位の制御情報発
    生回路に伝達することを繰り返すことにより、テキスト
    から、予め指定された文字数以内だけ異なる近似パター
    ンを検出する如く構成されたことを特徴とする近似パタ
    ーン検出装置。 4、前記制御情報発生回路が、テキストの入力文字と前
    記指定パターンの文字との比較結果に基づいて、前記制
    御情報を、前記指定パターン中の文字が別の文字に置換
    した場合と、前記指定パターン中の文字が欠落した場合
    と、前記指定パターン中に他の文字が挿入された場合の
    それぞれを考慮して作成する如く構成されたことを特徴
    とする特許請求の範囲第3項記載の近似パターン検出装
    置。
JP62066759A 1987-03-20 1987-03-20 近似パタ−ン検出方法および装置 Pending JPS63233427A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62066759A JPS63233427A (ja) 1987-03-20 1987-03-20 近似パタ−ン検出方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62066759A JPS63233427A (ja) 1987-03-20 1987-03-20 近似パタ−ン検出方法および装置

Publications (1)

Publication Number Publication Date
JPS63233427A true JPS63233427A (ja) 1988-09-29

Family

ID=13325131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62066759A Pending JPS63233427A (ja) 1987-03-20 1987-03-20 近似パタ−ン検出方法および装置

Country Status (1)

Country Link
JP (1) JPS63233427A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232768A (ja) * 1989-03-07 1990-09-14 Yamaha Corp データ検索システム
JPH06162115A (ja) * 1992-11-25 1994-06-10 Hitachi Ltd 地図情報システムにおける曖昧検索方式
JPH0793376A (ja) * 1993-08-20 1995-04-07 Canon Inc コンピュータを用いた検索方法および検索装置
JPH1055371A (ja) * 1996-02-26 1998-02-24 Matsushita Electric Ind Co Ltd 文書探索および検索システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232768A (ja) * 1989-03-07 1990-09-14 Yamaha Corp データ検索システム
JPH06162115A (ja) * 1992-11-25 1994-06-10 Hitachi Ltd 地図情報システムにおける曖昧検索方式
JPH0793376A (ja) * 1993-08-20 1995-04-07 Canon Inc コンピュータを用いた検索方法および検索装置
JPH1055371A (ja) * 1996-02-26 1998-02-24 Matsushita Electric Ind Co Ltd 文書探索および検索システム

Similar Documents

Publication Publication Date Title
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
EP0293161B1 (en) Character processing system with spelling check function
Jaech et al. Hierarchical character-word models for language identification
EP2162838B1 (en) Phonetic search using normalized string
EP1011057A1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
CN110019649A (zh) 一种建立、搜索索引树的方法及装置
CN115374798A (zh) 计算机实施的方法、用于计算机学习的系统和介质
Muth Jr et al. Correcting human error in alphanumeric terminal input
Yan et al. A unified pretraining framework for passage ranking and expansion
EP0099404B1 (en) Text comparator
Ngo et al. Unsupervised domain adaptation for text classification via meta self-paced learning
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
JPS63233427A (ja) 近似パタ−ン検出方法および装置
JPH086970A (ja) 情報検索装置
JP3794882B2 (ja) 情報処理装置
CN101576877A (zh) 一种快速分词的实现方法
JPH11203315A (ja) 記号列検索方法及び記号列検索装置並びに記号列検索プログラムを記録した記録媒体
JPH056398A (ja) 文書登録装置及び文書検索装置
JP2002183194A (ja) 検索式生成装置およびその方法
JPH0395672A (ja) 文字列検索方法及び装置
JPH0869474A (ja) 類似文字列検索装置
JPH0644305A (ja) 関連項目検索方法およびシステム
Hodge et al. A novel binary spell checker
WO2021040198A1 (ko) 반도체부품 검색 장치
Luo et al. A novel character-word fusion chinese named entity recognition model based on attention mechanism