JPS63198123A - 文字列照合方法 - Google Patents

文字列照合方法

Info

Publication number
JPS63198123A
JPS63198123A JP62031219A JP3121987A JPS63198123A JP S63198123 A JPS63198123 A JP S63198123A JP 62031219 A JP62031219 A JP 62031219A JP 3121987 A JP3121987 A JP 3121987A JP S63198123 A JPS63198123 A JP S63198123A
Authority
JP
Japan
Prior art keywords
state
match
data
register
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62031219A
Other languages
English (en)
Other versions
JPH0664586B2 (ja
Inventor
Ushio Inoue
潮 井上
Haruo Hayamizu
速水 治夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP62031219A priority Critical patent/JPH0664586B2/ja
Publication of JPS63198123A publication Critical patent/JPS63198123A/ja
Publication of JPH0664586B2 publication Critical patent/JPH0664586B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は文字列中に、所定の部分文字列が複数の一致
条件のもとで存在するか否かを判定し。
特に文字コードと状態番号とをアドレスとする2次元の
状態遷移テーブルにより実現される有限オートマトンを
利用して照合する文字列照合方法に関するものである。
「従来の技術」 データ処理システムの分野では、文章等の文字列データ
の集まりの中から特定の部分文字列(以下、検索キーと
呼ぶ)を含むものを検索することがし、ばしは必要とな
る。その部分文字列の一致条件としては、検索キーが文
字列の先頭と一致する前方一致1文字列の末尾と一致す
る後方一致1文字列と完全に一致する完全一致、文字列
中の任意の位置に含まれる任意一致等が使用される。一
般に文字列データは磁気ディスク等の電子計算機の外・
部記憶装置に格納されており、検索時に中央処理装置へ
1文字ずつ直列に転送される。従って検索所要時間の短
縮のためにはデータの転送と同時に1文字ずつ処理を行
うことが有効である。
第4図はこのような文字列照合機構の説明図である。文
字列データは記憶装置1(二格納され1文字列データは
記憶装置1から文字列照合装置2へ転送路3を経由して
1文字ずつ直列に入力される。
文字列照合装置2では予め記憶されている検索キーと入
力された文字列データとを比較照合し、一致条件を満た
すと判定された時点で信号線4に一致信号を出力する。
文字列照合装置2において比較照合を行う方法の一つと
して、有限オートマトンを用いる方法が一般に知られて
いる。(L、A。
Ho1l’aar  ”  Hardware  Sy
s’tems  for  Text  Inform
ationRetrieval ’ ACM  SIG
  IR6th−Conference1983)。
第5図は有限オートマトンを用い、かつ任意一致条件を
持つ複数の検索キーのすべてについて同時に比較照合す
る方法として、特許出願昭58−211720に開示し
たものである。第5図において状態遷移テーブルが格納
されるランダムアクセスメモ!J(RAM)5.一致判
定テーブルが格納されるRAM6が設けられ、RAM5
及び6から読み出すべきデータのアドレスはアドレスレ
ジスタ7に床持され、そのアドレスRAM5、RAM6
共通のアドレスデコーダでデコードされる。メモリレジ
スタ9.10にはそれぞれRAM5、RAM6から読み
出されたデータが格納され、メモリレジスタ10のデー
タは判別回路11に入力されて検索結果が信号線4へ出
力される。
第6図は1文字を8ビツトのコードで表現し。
最大256状態の有限オートマトンを実現するシステム
において、検索キーがr A B CJ’ 、  r 
B CD」、「BADJの3つである場合のRAM5゜
RAM6の内容の一例を表したものである。第6図にお
いて12.13はそれぞれRAM5、RAM6の1つの
アドレスに格納された8ビツトのデータ、14はRAM
5.6のアドレスの上位8ビツト、15はRAM5.6
のアドレスの下位8ビツトである。なお論理的にはRA
M5.6の上位アドレス14が有限オートマトンの状態
番号、下位アドレス15が入力文字コード(二対応し、
16は入力文字コード15で表現される文字を示す。
またデータ12は次に遷移すべき状態番号、データ13
は検索キーが検出されたか否かを示すピントマツプであ
り、例えば1番目のビットがオンになっていれば1番目
の検索キーが検出されたことを示す。
第7因は第6図で表されたRAM5に格納される状態遷
移テーブルの内容を状態遷移図として表現したものであ
る。第7図において17はオートマトンの状態、18は
状態遷移の方向を表わす。
オートマトンの初期状態は状態(00)であり。
例えば状態(00)において入力文字が「A」であると
状態(01)へ、rBJであると状態(03)へそれぞ
れ遷移し、その他の入力文字であれば引き続き状態(0
0)に留まることを示す。前の状態が(02)、つまり
rBJ文字コードBが入力され(その前に文字コード「
A」が入力され)k状態で文字コード「C」が入力され
たことは第1番目の検索キー[ABCJ、つまり(01
)が検出されたことが、一致判定テーブルのRAM6の
検索から得られる。同様にして第2番目の検索キーrB
cDJ (02)、第3番目の検索キー「BADJ (
03)も一致判定テーブルRAM6から検索される。
次に第5図の動作について説明する。入力文字はデータ
転送路3よりアドレスレジスタ7の下位8ビツトにセッ
トされる。アドレスレジスタ7の上位8ビツトには初期
値としてオールゼロがセットされており、アドレスレジ
スタ7の示すアドレスに格納された8ビツトデータ、つ
まり次に遷移すべき状態番号がRAM5からメモリレジ
スタ9に、またRAM6から検索キーが検出されたか否
かを示すデータがメモリレジスタ10にそれぞれ同時に
読み出される。メモリレジスタ10の内容は判別回路1
1経由で信号線4にそまま出力され。
またメモリレジスタ9の内容はアドレスレジスタ7の上
位8ビツトにセットされる。以上の動作は文字列データ
中のすべての文字が1文字ずつデータ転送路3から入力
されるごとに繰り返され、第7図に示した状態遷移図に
従ったオートマトンの動作を行うことになる。
「発明が解決しようとする問題点」 以上説明した従来の方法では、複数の検索キーのそれぞ
れについて入力された文字列データ中に含まれているか
否かを検出することはできるが、それまでどのような経
過で状態遷移を行ってきたかを識別する機構がなかった
ため、前方一致条件の判定は不可能であり、任意一致条
件の判定のみが可能であった。なお従来の方法において
も状態遷移テーブルの作り方を変えることにより前方一
致条件を判定することは可能であるが、その場合は前方
一致条件と任意一致条件とを別々の状態遷移テーブルと
する必要があり、アドレスレジスタ。
アドレスデコーダ等の周辺回路を含めてハードウェアを
二重化しなければならないという欠点があった。
この発明の目的は、従来と同じ作り方で作成した。状態
遷移テーブル及び一致判定テーブルを用いて、前方一致
と任意一致等の異なる一致条件の組み合わせを持つ複数
検索キーの判定を同時に行うことを可能とする文字列照
合方法を提供することにある。
「問題点を解決するための手段」 この発明は状態遷移テーブル、一致判定テーブルに加え
て、状態番号ごとの初期状態からの相対距離を登録した
状態距離テーブルを設け、これら3つのテーブルを1つ
のアドレスレジスタにより同時に索引し、状態距離テー
ブルの索引結果から距離情報が進んでいる場合で、任意
一致が検出された場合にそれを前方一致として出力する
。つまり状態距離テーブルの索引より、距離情報が進ま
ない場合や、後退している場合は、その照合の途中の文
字に不要なものがあり、つまり最初から一致したもので
ないものとなるため、その場合は一致判定テーブルから
一致が検出されてもこれを前方一致とすることなく任意
一致として出力する。
従ってこの発明の従来の技術と異なる点は、状態、距離
テーブルを索引することにより状態遷移の経過を識別し
て前方一致条件を判定できるようにした点である。
「実施例」 第1図は前方一致条件と任意一致条件を同時ζ;判定す
ることが可能なこの発明を用いた文字列照合装置の一実
施例を示したブロック図である。第1図において第5図
と対応する部分には同一番号を付けて示しであるが、こ
の発明では状態距離テーブルが格納されるRAMI 9
.RAMI 9から読み出されたデータが格納されるメ
モリレジスタ20、メモリレジスタ20の直前の内容を
保持するデータレジスタ21,2つのレジスタ20.2
1の内容の比較転送回路22.検索キーごとの一致条件
撞別、即ち前方一致か任意一致かを示すデータレジスタ
23.前方一致条件が有効か否かを示すデータレジスタ
24、一致条件の種別(二応じた判定を行い検索結果を
出力する判別回路25を設ける。
第2図は第6図と同一の条件下におけるRAM5、RA
M6.RAMI 9の内容を表わしたものである。第2
図においてRAM5、RAM6の内容は第6図と同じで
あり、RAMI 9の1つのアドレスに格納された8ビ
ツトのデータ26は、論理的(=はその状態と初期状態
との間の相対的な距離データである。この相対的な距離
とは、例えば第7図における状態(00)と状態(01
)との間の距離は「1」、状態(00)と状態(02)
との間の距離は「2」である。この情報(データ)は状
態が初期状態から遠ざかる方向へ遷移しない場合、即ち
前方一致条件を満たさない場合を検出するために使用さ
れる。つまり前方一致条件が満たされる場合は、文字コ
ードが入力されるごとにその状態の初期状態からの距離
は順次遠くなるか。
前の状態の時の初期状態からの距離が同−又は近くなる
場合、つまり遠くならない場合はその入力文字列は前方
一致にはなり得ない。このことを前方一致か否かの判定
のため(=利用する。
なお状態遷移テーブル5、一致判定テーブル6は状態番
号と入力文字コードとを結合したものを一アートレスと
するが、状態距離テーブルは状態番号のみをアドレスと
する。またこのテーブルは特許出願昭58−21172
0に開示された方法による状態遷移テーブル、一致判定
テーブルの作成時に作業エリアとして使用されるメモリ
の一部であり1作成のための特別な処理は必要としない
。次に第1図の動作について第5図と異なる部分を中心
に説明する。
初期値としてデータレジスタ21には値(00)が、デ
ータレジスタ24には前方一致条件有効のフラグがセッ
トされているものとする。入力文字がデータ転送路3よ
りアドレスレジスタ7の下位8ピツトにセットされ、ア
ドレスレジスタ7の示すアドレスに格納された8ビツト
データがRAM5、RAM6から読み出されるのと同時
に、アドレスレジスタ7の上位8ビツトをアドレスとす
る8ビツトデータがRAM19からメモリレジスタ20
に読み出される。次に比較転送回路22においてメモリ
レジスタ20とデータレジスタ21との各内容が比較さ
れ、メモリレジスタ20の内容の方が大きければビット
Oの信号を、そうでなければ(前方一致の可能性がない
場合)ビット1の信号を判別回路25に対して出力し、
さらにメモリレジスタ20の内容をデータレジスタ21
に転送する。判別回路25ではまずメモリレジスタ1゜
のビットが1になっている検索キーについて、任意一致
に設定されているならば無条件に、前方一致に設定され
ているならば、つまりデータレジスタ24の値が前方一
致条件有効の場合のみ検索キー検出と判別し、結果を信
号線4に出力する。次に比較転送回路22の出力がビッ
ト1であればデータレジスタ24に前方一致条件無効の
フラグをセットする。これらの動作は文字列データ中の
すべての文字が1文字ずつデータ転送路3がら入力され
るごと(=繰り返される。
以上説明した動作から明らかなように、状態遷移の過程
で状態が初期状態の方へ戻ったり、先の状態へ進まなか
った場合には1判別回路25においてそれ以後前方一致
条件を持つ検索キーを無効化するため、検索キーごとに
任意一致と前方一致力5混在している場合C二も、任意
一致条件のみの場合と同一の状態遷移テーブルを使用し
て正しい判別結果の出力が可能になる。
なおデータレジスタ24及び判別回路25の構成(二は
種々の方法が考えられ、例えばデータレジスタ24に検
索キーごとのビットを持ち、判別回路25でメモリレジ
スタ10とデータレジスタ24のビットごとの論理積の
値をそのまま信号線4に出力する方法も可能である。
第3図は前方一致、任意一致に加えて後方一致を同時に
判定することを可能とするこの発明の第2の実施例であ
り、判定回路27は判別回路25の判別論理を拡張した
回路、信号線28は文字列データの最終文字がデータ転
送路3から入力されたことを示す信号線である。第3図
の動作は判別回路27の動作のみが第1図の場合と異な
る。即ち判別回路27ではメモリレジスタ10のビット
がICニなっている検索キーについて、任意一致ならば
無条件に、前方一致ならばデータレジスタ24が前方一
致条件有効の時のみ、後方一致ならば信号線28が最終
文字入力の時のみ検索キー検出と判別する。前方一致と
後方一致の組み合わせ1部ら文字列データと完全に一致
する条件を持つ検索キーについても全く同様に処理が可
能である。
「発明の効果」 以上説明したように、この発明は状態遷移テーブル、一
致判定テーブル、状態距離テーブルを設け、これら3つ
のテーブルを同期して索引し、状態距離テーブルの値に
よって前方一致条件を満足するか否かを識別するもので
あるから、任意一致のみを考慮して作成した状態遷移テ
ーブルを用いた単一の有限オートマトンの実現回路によ
り、前方一致と任意一致条件、前方一致と後方一致条件
完全一致と任意一致条件等の複数の一致条件を持つすべ
ての検索キーについて同時に照合できるという利点があ
る。
【図面の簡単な説明】
第1図はこの発明を用いた文字列照合方法を示すブロッ
ク図、第2図は第1図(−おけるランダムアクセスメモ
リの内容の説明囚、第3図は第1図の方法に後方一致条
件の検出機能を付加した方法のブロック図、第4図は文
字列照合方法を示すブロック図、第5図は有限オートマ
トンを用いた従来の文字列照合方法を示すブロック図、
第6図は第5図におけるランダムアクセスメモリの内容
の説明図、第7図は第6図の状態遷移テーブル1:対応
する状態遷移図である。

Claims (1)

    【特許請求の範囲】
  1. (1)固定長のコードで表現される文字によつて構成さ
    れた文字列中に、所定の部分文字列が存在するか否かを
    判定するため、文字コードと状態番号をアドレスとする
    2次元の状態遷移テーブルと、文字コード及び上記状態
    番号をアドレスとする複数の部分文字列のそれぞれに対
    応する番号を登録した一致判定テーブルとにより実現さ
    れる有限オートマトンを利用して任意一致を検出する文
    字列照合方法において、 上記状態番号ごとの初期状態からの距離を登録した状態
    距離テーブルを設け、これら3つのテーブルを同期して
    索引し、 上記状態距離テーブルの索引結果から距離情報が進む場
    合に、上記任意一致を前方一致として検出することを特
    徴とする文字列照合方法。
JP62031219A 1987-02-13 1987-02-13 文字列照合方法 Expired - Fee Related JPH0664586B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62031219A JPH0664586B2 (ja) 1987-02-13 1987-02-13 文字列照合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62031219A JPH0664586B2 (ja) 1987-02-13 1987-02-13 文字列照合方法

Publications (2)

Publication Number Publication Date
JPS63198123A true JPS63198123A (ja) 1988-08-16
JPH0664586B2 JPH0664586B2 (ja) 1994-08-22

Family

ID=12325321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62031219A Expired - Fee Related JPH0664586B2 (ja) 1987-02-13 1987-02-13 文字列照合方法

Country Status (1)

Country Link
JP (1) JPH0664586B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH031275A (ja) * 1988-09-18 1991-01-07 Internatl Business Mach Corp <Ibm> データ分類及び認識方法
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH031275A (ja) * 1988-09-18 1991-01-07 Internatl Business Mach Corp <Ibm> データ分類及び認識方法
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法

Also Published As

Publication number Publication date
JPH0664586B2 (ja) 1994-08-22

Similar Documents

Publication Publication Date Title
EP0251594B1 (en) Database system for parallel processor
US6000008A (en) Method and apparatus for matching data items of variable length in a content addressable memory
CA1061908A (en) Method and system for the iterative and simultaneous comparison of data with a group of reference data items
JPS5823375A (ja) デ−タ−処理システムにおけるキヤツシユの選択的クリア方法および装置
US20030158725A1 (en) Method and apparatus for identifying words with common stems
JPS63500479A (ja) パタ−ンをアドレス可能なメモリ
US3618027A (en) Associative memory system with reduced redundancy of stored information
EP1227412A2 (en) Pattern retrieval
JPS60105039A (ja) 文字列照合方式
JPS63198123A (ja) 文字列照合方法
US3307153A (en) Method of performing on-the-fly searches for information stored on tape storages or the like
US3996569A (en) Information storage systems and input stages therefor
JP2880199B2 (ja) 記号列検索方法および検索装置
JP3141428B2 (ja) 数値検索装置およびその方法
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH04308B2 (ja)
JPH0746362B2 (ja) 文字列照合方法
JP2880192B2 (ja) 文字列検索方法及び装置
JPS6027938A (ja) 文字列比較装置
JP2773657B2 (ja) 文字列検索装置
JPH04279973A (ja) 文字列比較方式
JPS63187334A (ja) 文字列パタ−ンマツチング装置
JP2519245B2 (ja) 情報検索装置
US4077029A (en) Associative memory
JPH02148174A (ja) Ocrによる住所データベース検索装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees