JPS62179083A - 文字列照合方法 - Google Patents
文字列照合方法Info
- Publication number
- JPS62179083A JPS62179083A JP61020239A JP2023986A JPS62179083A JP S62179083 A JPS62179083 A JP S62179083A JP 61020239 A JP61020239 A JP 61020239A JP 2023986 A JP2023986 A JP 2023986A JP S62179083 A JPS62179083 A JP S62179083A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- state number
- character
- entry
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 230000007704 transition Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 15
- 238000007796 conventional method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 2
- 238000007664 blowing Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- KJFBVJALEQWJBS-XUXIUFHCSA-N maribavir Chemical compound CC(C)NC1=NC2=CC(Cl)=C(Cl)C=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O KJFBVJALEQWJBS-XUXIUFHCSA-N 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(発明の属する技術分野)
本発明は、テキストと呼ばれる比較的長い文字列中に、
別途与えられたパタンと呼ばれる比較的短い文字列が1
部分列として存在するか否かを判定し、存在する場合は
、存在するパタン全てを抽出する文字列照合方式に関す
るものである。
別途与えられたパタンと呼ばれる比較的短い文字列が1
部分列として存在するか否かを判定し、存在する場合は
、存在するパタン全てを抽出する文字列照合方式に関す
るものである。
(従来の技術)
データ処理システムの分野では、文章等の文字列データ
の集りの中から、パタンと呼ばれる特定の部分文字列を
含むもののみを検索したり、文字列データの中に含まれ
る全てのパタンを抽出することがしばしば必要となる。
の集りの中から、パタンと呼ばれる特定の部分文字列を
含むもののみを検索したり、文字列データの中に含まれ
る全てのパタンを抽出することがしばしば必要となる。
通常、1つの文字はnビットの固定長のコードで表現さ
れるため1文字列データはnビット単位のコードの系列
となる。
れるため1文字列データはnビット単位のコードの系列
となる。
一般に文字列データは、磁気ディスク等の電子計算機の
外部記憶装置に格納されており、検索時に中央処理装置
へ1文字ずつ直列に転送される。
外部記憶装置に格納されており、検索時に中央処理装置
へ1文字ずつ直列に転送される。
従って、処理時間の短縮のためには、データの転送と同
時に検索を行うことが必要となる。
時に検索を行うことが必要となる。
第3図は従来の文字列照合機構の説明図であり、1は文
字列データが格納された記憶装置、2は文字列の照合を
行う文字列照合装置、3は文字列データ転送路、4は検
索結果を出力する信号線である。
字列データが格納された記憶装置、2は文字列の照合を
行う文字列照合装置、3は文字列データ転送路、4は検
索結果を出力する信号線である。
文字列データは記憶装置1からデータ転送路3を経由し
て文字列照合装置2へ1文字ずつ直列に入力される。
て文字列照合装置2へ1文字ずつ直列に入力される。
文字列照合装置2では、予め記憶されているパタンとな
る部分文字列と入力されたデータを照合し、両者の一致
が検出された時点で信号線4に一致信号を出力する。
る部分文字列と入力されたデータを照合し、両者の一致
が検出された時点で信号線4に一致信号を出力する。
文字列照合装置2において文字列の照合を行う方式とし
て、従来より有限オー1〜71−ンを用いる方法が一般
に知られている。
て、従来より有限オー1〜71−ンを用いる方法が一般
に知られている。
(L、A、IIollaar“Ilardware s
ystem for Text Informatio
nRetrieval”ACM 5IGIR6th C
onference 1983)第4図は有限オートマ
トンの状態遷移を表わした説明図である。
ystem for Text Informatio
nRetrieval”ACM 5IGIR6th C
onference 1983)第4図は有限オートマ
トンの状態遷移を表わした説明図である。
題4図において、5はオートマトンの状態、6は状態遷
移の方向を表わし、文字列データの中の” D OG
”という3文字のパタンを照合することができる。
移の方向を表わし、文字列データの中の” D OG
”という3文字のパタンを照合することができる。
以下、この動作を説明する。
オートマトンの初期状態は状態(0)であり、入力文字
が″D′″であると状態(1)へ遷移する。
が″D′″であると状態(1)へ遷移する。
第2図において′#″はその他の文字を表わし。
状態(0)における入力文字がxi D n以外ならば
引き続き状態(0)に留まる。
引き続き状態(0)に留まる。
状態(1)についても同様であり、入力文字がII O
IIならば状態(2)へ、II D 11ならば再び状
態(1)へ、それ以外ならば状態(0)へ遷移する。
IIならば状態(2)へ、II D 11ならば再び状
態(1)へ、それ以外ならば状態(0)へ遷移する。
状態(2)において入力文字が11 G 1′ならば状
態(3)へ遷移し、(DOG)というキーを検出したこ
とになり、第3図の信号線4から一致信号が出力される
。
態(3)へ遷移し、(DOG)というキーを検出したこ
とになり、第3図の信号線4から一致信号が出力される
。
第5図は8ビツトのJISコードで表現さ九た文字列デ
ータを対象とする従来の決定性有限オートマトンの実現
回路構成の説明図である。
ータを対象とする従来の決定性有限オートマトンの実現
回路構成の説明図である。
第5図において、3は文字列データ転送路、4は検出結
果を出力する信号線、7は16ビツトのアドレスレジス
タ、8と20はそれぞれ64KB(256X2’B)の
ランダムアクセス・メモリ(RAMと略す)、9はアド
レスデコーダ、10と21はそれぞれ8ビツトのメモリ
レジスタ、12,14,24.25は8ビツト幅のデー
タ線、13は16ビツト幅のアドレス線、22は検出パ
タンの判別回路、23はアドレスデコーダ出力線である
。
果を出力する信号線、7は16ビツトのアドレスレジス
タ、8と20はそれぞれ64KB(256X2’B)の
ランダムアクセス・メモリ(RAMと略す)、9はアド
レスデコーダ、10と21はそれぞれ8ビツトのメモリ
レジスタ、12,14,24.25は8ビツト幅のデー
タ線、13は16ビツト幅のアドレス線、22は検出パ
タンの判別回路、23はアドレスデコーダ出力線である
。
第6図は従来の状態遷移表の構成図であり。
パタンが’A B C”と“BCD”の場合の、第5図
のランダムアクセス・メモリ8に格納される従来の状態
遷移表の内容の一例を表わしたものであり、16は16
進数表現の8ビツトデータであり1次の状態番号を表わ
す。
のランダムアクセス・メモリ8に格納される従来の状態
遷移表の内容の一例を表わしたものであり、16は16
進数表現の8ビツトデータであり1次の状態番号を表わ
す。
17はメモリアドレスの上位8ビツト、18はメモリア
ドレスの下位8ビツトである。なお、論理的にはメモリ
の上位アドレスI7が状態番号、メモリの下位アドレス
18が文字コードに対応しており、19はメモリの下位
アドレス18のコードによって表現されるコードχ、を
応の文字である。
ドレスの下位8ビツトである。なお、論理的にはメモリ
の上位アドレスI7が状態番号、メモリの下位アドレス
18が文字コードに対応しており、19はメモリの下位
アドレス18のコードによって表現されるコードχ、を
応の文字である。
第7図は従来のパタン検出判定表の構成図であり、同じ
くパタンか“ABC”と“BCD”の場合の、第5図の
ランダムアクセス・メモリ20に格納される従来のパタ
ン検出判定表の内容を表わしたものであり、26は8ピ
ッ1−データであり検出パタン符号を表わす。27はメ
モリアドレスの上位8ビツト、28はメモリアドレス下
位8ビツトであり、構成としては第6図の状fフ遷移表
と同一である。
くパタンか“ABC”と“BCD”の場合の、第5図の
ランダムアクセス・メモリ20に格納される従来のパタ
ン検出判定表の内容を表わしたものであり、26は8ピ
ッ1−データであり検出パタン符号を表わす。27はメ
モリアドレスの上位8ビツト、28はメモリアドレス下
位8ビツトであり、構成としては第6図の状fフ遷移表
と同一である。
テキストの入力文字はデータ転送路3よりアドレスレジ
スタ7の下位8ビツトにセラ1〜される。
スタ7の下位8ビツトにセラ1〜される。
アドレスレジスタ7の上位8ビツトには初期値としてオ
ールゼロがセットされており、アドレス線13を経由し
てアドレスデコーダ9に入力される。
ールゼロがセットされており、アドレス線13を経由し
てアドレスデコーダ9に入力される。
アドレスデコーダ9の出力は出力線23によって2方向
へ分配され、ランダムアクセス・メモリ8から当該アド
レスに格納されている8ビツトのデータ16が読出され
、データ線14を経由してメモリレジスタ10ヘセツト
されると共に、ランダムアクセス・メモリ20からも同
一アドレスに格納されている8ビツトのデータ26が読
出され、データ線24を経由してメモリレジスタ21に
セットされる。
へ分配され、ランダムアクセス・メモリ8から当該アド
レスに格納されている8ビツトのデータ16が読出され
、データ線14を経由してメモリレジスタ10ヘセツト
されると共に、ランダムアクセス・メモリ20からも同
一アドレスに格納されている8ビツトのデータ26が読
出され、データ線24を経由してメモリレジスタ21に
セットされる。
メモリレジスタ1(1の内容は、テキストの次の入力文
字がアドレスレジスタ7の下位ビットにセラ1−される
時に、データ線12を経由してアドレスレジスタ7の上
位ビットにセットされる。
字がアドレスレジスタ7の下位ビットにセラ1−される
時に、データ線12を経由してアドレスレジスタ7の上
位ビットにセットされる。
メモリレジスタ21の内容は、データ線25により判別
回路22に加えられ、値がオールゼロ以外なら信号線4
に検出信号およびメモリレジスタ2]の内容が出力され
る。
回路22に加えられ、値がオールゼロ以外なら信号線4
に検出信号およびメモリレジスタ2]の内容が出力され
る。
以上の動作をデータ転送路3から1文字入力される毎に
繰り返すことにより、テキストとパタンの照合処理が実
行される。
繰り返すことにより、テキストとパタンの照合処理が実
行される。
以上説明した従来の方式では、各状態において。
各入力文字に対して1回のテーブル索引動作で次の状態
を決定するために、即ち、決定性有限オートマトンにす
るために、文字コードの全てに対応するエントリが必要
であった。
を決定するために、即ち、決定性有限オートマトンにす
るために、文字コードの全てに対応するエントリが必要
であった。
上記の説明例においては、各状態光り2 ’ = 25
6エントリである。
6エントリである。
また文字が16ビツトのコードで表現される場合は2
” = 65536エントリである。しかし、上記説明
例でも分かる様に、256エントリの中で初期状態以外
の有意な遷移情報が記入されているのは数エントリであ
る。他のエントリには初期状態への遷移情報が記入され
ている。
” = 65536エントリである。しかし、上記説明
例でも分かる様に、256エントリの中で初期状態以外
の有意な遷移情報が記入されているのは数エントリであ
る。他のエントリには初期状態への遷移情報が記入され
ている。
この様に、従来方式では状態遷移表およびパタン検出判
定表を格納するRAMが有意な情報を格納するに必要な
容量以上になるという欠点があった。
定表を格納するRAMが有意な情報を格納するに必要な
容量以上になるという欠点があった。
(発明の目的)
本発明は、状態遷移表およびパタン検出判定表を格納す
るメモリが不必要に大きくなる点を解決した、有限オー
トマトンによる文字列照合方式を提供することにある。
るメモリが不必要に大きくなる点を解決した、有限オー
トマトンによる文字列照合方式を提供することにある。
(発明の構成)
(発明の特徴と従来の技術との差異)
本発明は、状態遷移表および検出パタン判定表を格納す
るメモリとして、連想メモリ〔アドレス内蔵メモリ;
Content Address Memory(CA
Mと略す)とも呼ばれる〕を使用することを最も主要
な特徴とする。
るメモリとして、連想メモリ〔アドレス内蔵メモリ;
Content Address Memory(CA
Mと略す)とも呼ばれる〕を使用することを最も主要
な特徴とする。
状態遷移表において、次の状態番号が初期以外のエント
リ、または、検出パタン判定表の内容がオールゼロ以外
のエンl〜りを有意なエントリと呼び、このエントリに
対応する状態番号と文字コードとの組のみをCAMに格
納し、対応する次の状態番号とパタン検出符号をCAM
に関連付けられたRAMの対応する番地にそれぞれ格納
する。
リ、または、検出パタン判定表の内容がオールゼロ以外
のエンl〜りを有意なエントリと呼び、このエントリに
対応する状態番号と文字コードとの組のみをCAMに格
納し、対応する次の状態番号とパタン検出符号をCAM
に関連付けられたRAMの対応する番地にそれぞれ格納
する。
テキストから1文字入力される毎に、現在の状態番号と
入力文字の組として、CAMに対して一致検索する。
入力文字の組として、CAMに対して一致検索する。
一致エントリが有る場合は、当該エントリと関連付けら
れたRAMから、次の状態番号およびパタン検出符号を
得ることができる。
れたRAMから、次の状態番号およびパタン検出符号を
得ることができる。
また、一致しなかった場合は、次の状態番号は初期値で
あることが分かり、別途回路で初期状態番号を作成する
。
あることが分かり、別途回路で初期状態番号を作成する
。
従来方式では、ランダムアクセスメモリのみを使用する
ために、有意なエントリ以外も格納する必要があったが
、本発明では有意なエントリのみを格納すればよい点が
異なる。
ために、有意なエントリ以外も格納する必要があったが
、本発明では有意なエントリのみを格納すればよい点が
異なる。
(実施例)
第1図は本発明を用いた決定性有限オートマトンの実現
回路の構成を示す一実施例のブロック図であり、8ビツ
トのコードで表現された文字列デ−タを対象とした照合
方式の説明図である。
回路の構成を示す一実施例のブロック図であり、8ビツ
トのコードで表現された文字列デ−タを対象とした照合
方式の説明図である。
図において、30はIK語(1語は2B+1ビツト)の
CAM、31はCA Mの一致エン1−りのアドレスを
作成するエンコーダ、32はCA Mに一致エントリが
無かった場合に次の状態番号として初期値を作成する初
期状態発生回路、33はCAMに対して一致検索を行う
データをセットするCAMアクセスレジスタ、34は8
ビツトのデータ線の選択回路、35は17ビツトのデー
タ線、36はCAMの一致エン1−りが表示されるエン
1〜り対応の一致エントり信号線、37はCAMの一致
エントりのアドレス線、38はCAMに一致エントリが
無かったことを表示する不一致エン1〜り信号線、40
はIK語(1語は2B)のRAM、41はアドレスデコ
ーダ。
CAM、31はCA Mの一致エン1−りのアドレスを
作成するエンコーダ、32はCA Mに一致エントリが
無かった場合に次の状態番号として初期値を作成する初
期状態発生回路、33はCAMに対して一致検索を行う
データをセットするCAMアクセスレジスタ、34は8
ビツトのデータ線の選択回路、35は17ビツトのデー
タ線、36はCAMの一致エン1−りが表示されるエン
1〜り対応の一致エントり信号線、37はCAMの一致
エントりのアドレス線、38はCAMに一致エントリが
無かったことを表示する不一致エン1〜り信号線、40
はIK語(1語は2B)のRAM、41はアドレスデコ
ーダ。
42はメモリレジスタ、43はアドレスデコーダ出力線
、44は16ビツトのデータ線、45,46.47は8
ビツトのデータ線、 301はCAMの有効エントリを表示する1ビツトのデ
ータを格納するエントリ有効性表示ビット格納域、30
2は8ビツトの状態番号格納域、303は8ビツトの文
字コード格納域、 401.402は8ビツトのデータ格納域で、401は
次の状態番号格納域、402はパタン検出符号格納域で
ある。
、44は16ビツトのデータ線、45,46.47は8
ビツトのデータ線、 301はCAMの有効エントリを表示する1ビツトのデ
ータを格納するエントリ有効性表示ビット格納域、30
2は8ビツトの状態番号格納域、303は8ビツトの文
字コード格納域、 401.402は8ビツトのデータ格納域で、401は
次の状態番号格納域、402はパタン検出符号格納域で
ある。
第2図は第1図に対応する状態遷移表とパタン検出判定
表の構成図であり、与えられたパタンか”ABC”と”
BCD”である場合のCAMとRAMの内容の一例を表
わしたものである。
表の構成図であり、与えられたパタンか”ABC”と”
BCD”である場合のCAMとRAMの内容の一例を表
わしたものである。
図において、311,312,313,411,412
はそれぞれ301.302,303,401,402に
格納される内容である。
はそれぞれ301.302,303,401,402に
格納される内容である。
311は1ビツトのデータであり、1′″の時に当該エ
ントリが有効であることを表わす。
ントリが有効であることを表わす。
312は16進数表現の8ビツトのデータであり、現在
の状態番号を表わす。
の状態番号を表わす。
313は16進数表現の8ビツトのデータであり、文字
コードを表わす。
コードを表わす。
411は16進数表現の8ビツトのデータであり。
次の状態番号を表わす。
412は16進数表現の8ビツトのデータであり、パタ
ン検出符号を表わす。
ン検出符号を表わす。
323は313のコードによって表現されるコード対応
の文字である。
の文字である。
次に、第2図と、従来方式の第6図、第7図との対応関
係について説明する。
係について説明する。
現在の状態番号312は、第6図の17および第7図の
27に対応する。
27に対応する。
文字コード313は、第6図の18、第7図の28に対
応するが、第2図の場合はパタン中にある文字コードの
みが使用されている。
応するが、第2図の場合はパタン中にある文字コードの
みが使用されている。
次の状態番号411は、第6図の16に対応するが、第
2図の場合は、初期状態番号(OO)が入っているのは
パタン検出符号412が(00)以外の場合のみである
。
2図の場合は、初期状態番号(OO)が入っているのは
パタン検出符号412が(00)以外の場合のみである
。
パタン検出符号412は第7図の26に対応する。
次に、第1図の動作について説明する。
入力文字はデータ転送路3よりCAMアクセスレジスタ
33の下位8ビツトにセットされる。
33の下位8ビツトにセットされる。
CAMアクセスレジスタ33の中間8ビツトには初期値
として(00)がセットされており、CAMアクセスレ
ジスタ33の上位1ビツトは常に511”がセットされ
ている。
として(00)がセットされており、CAMアクセスレ
ジスタ33の上位1ビツトは常に511”がセットされ
ている。
CAMアクセスレジスタの17ビツトがデータ線35を
経由してCAMに一致検索される。
経由してCAMに一致検索される。
一致エントリが有った場合は、アドレスエンコーダによ
り出語エントリのアドレスがデータ線37を経由してR
AMのアドレスデコーダ41に転送される。
り出語エントリのアドレスがデータ線37を経由してR
AMのアドレスデコーダ41に転送される。
アドレスデコーダでデコードされ、CAMの一致エント
リに対応する番地から、RAM40の内容411.41
2が、データ線44を経由してメモリレジスタ42にセ
ットされる。
リに対応する番地から、RAM40の内容411.41
2が、データ線44を経由してメモリレジスタ42にセ
ットされる。
本発明の場合、CAMの複数のエントりと一致すること
がないことは、CAMの内容から明白である。
がないことは、CAMの内容から明白である。
一致するエントリがない場合は、信号線36が全てゼロ
であることから判定され、不一致エン1−り信号線38
から不一致信号が出力される。
であることから判定され、不一致エン1−り信号線38
から不一致信号が出力される。
不一致信号が初期状態発生回路32に加えられると、次
の状態番号として(00)が作成され、データ線46を
経由して選択回路47へ転送される。
の状態番号として(00)が作成され、データ線46を
経由して選択回路47へ転送される。
−itエン1〜り有りの場合は、メモリレジスタ42の
上位8ビツトは、次の状態番号としてデータ線45を経
由して選択回路34へ転送される。
上位8ビツトは、次の状態番号としてデータ線45を経
由して選択回路34へ転送される。
また、メモリレジスタ42の下位8ピッ1−はパタン検
索符号として、データ線25を経由して判別回路22に
加えられ、値が(00)以外なら、信号線4に、検出信
号およびデータ線25で転送された内容が出力される。
索符号として、データ線25を経由して判別回路22に
加えられ、値が(00)以外なら、信号線4に、検出信
号およびデータ線25で転送された内容が出力される。
選択回路34は一致エン1〜り有りの場合は、データR
Q45を選択し、一致エン1〜り無しの場合は、データ
線46を選択し、データ線47に出力する。
Q45を選択し、一致エン1〜り無しの場合は、データ
線46を選択し、データ線47に出力する。
データ線47を経由したデータは5次の状態番号として
CAMアクセスレジスタ33の中間8ビツトにセラ1−
される。
CAMアクセスレジスタ33の中間8ビツトにセラ1−
される。
以上の動作をデータ転送路3から1文字入力される毎に
繰り返すことにより、テキストパタンの照合処理が実行
される。
繰り返すことにより、テキストパタンの照合処理が実行
される。
以上の説明から明らかなように、状態遷移表と検出パタ
ン判定表の有意なエントリのみをCAMに格納すればよ
いので、メモリ容量の削減ができる。
ン判定表の有意なエントリのみをCAMに格納すればよ
いので、メモリ容量の削減ができる。
有意なエン1〜り以外の初期状態への遷移情報は。
CAMに一致するエントリが無かったことを判定するこ
とにより作成している。
とにより作成している。
なお、上記説明では、初期状態番号として(00)を用
いていたが、任意の番号を用いることも可能である。
いていたが、任意の番号を用いることも可能である。
また、文字コードは8ビツトに限らないことも明白であ
る。
る。
CAMに対して一致検索し、一致エントリがあった場合
、当該エントリのアドレスではなく、当該エントリの内
容を出力する機能を有するCAMも知られている。
、当該エントリのアドレスではなく、当該エントリの内
容を出力する機能を有するCAMも知られている。
この様なCAMを使用する場合は、前記実施例ではRA
Mに格納している情報を、CAMの同一エントリの別格
結城に格納することにより、本発明を実施することも可
能である。
Mに格納している情報を、CAMの同一エントリの別格
結城に格納することにより、本発明を実施することも可
能である。
(発明の効果)
以上説明したように、本発明は状態遷移表およびパタン
検出判定表の有意なエントリのみをメモリに格納するだ
けでよいので、次の利点がある。
検出判定表の有意なエントリのみをメモリに格納するだ
けでよいので、次の利点がある。
■一定容量のメモリに格納できるパタンの合計長の上限
が大きくなる。
が大きくなる。
■一定容量のパタンの状態遷移表とパタン検出判定表を
メモリに格納する時間が短くなる。
メモリに格納する時間が短くなる。
以上の利点は、特に文字コード長が長い場合は、従来方
式との差が著しくなる。
式との差が著しくなる。
第1図は本発明を用いた決定性有限オートマ1−ンの実
現回路の構成を示す一実施例のブロック図、第2図は第
1図に対応する状態遷移表とパタン検出判定表の構成図
、第3図は従来の文字列照合機構の説明図、第4図は有
限オートマトンの状態遷移を表わした説明図、第5図は
8ビツトのJISコードで表現された文字列データを対
象とする従来の決定性有限オートマ1−ンの実現回路構
成の説明図、第6図は従来の状態遷移表の構成図、第7
図は従来のパタン検出判定表の構成図である。 1 ・・・記憶装置、2・・・文字列照合装置、3 ・
・・データ転送路、4 ・・・信号線、5 ・・・オー
トマトンの状態、 6 ・・・状態遷移の方向、 7 ・・・アドレスレジスタ、 8.20.40・・・ランダムアクセス・メモリ、9.
41・・・アドレスデコーダ、 10.21.42・・・メモリレジスタ、12、14,
24,25,35,44,45,46.47・・・デー
タ線。 13.37・・・アドレス線、 16.26 ・・・ データ、 17.27・・・メモリの上位アドレス。 18.28・・・ メモリの下位アドレス、19.29
,323・・・コード対応の文字。 22・・・判別回路、 23.43・・・アドレスデコーダ出力線、30・・・
連想メモリ(CAM)、 31・・アドレスエンコーダ、 32・・・初期状態発生回路、 33・・・CAMアクセスレジスタ、 34・・・選択回路、 36・・・CAMの一致エントリ信号線、37・・・C
AMの一致エン1〜リアドレス線。 38・・・CAMの不一致エントり信号線。 301・・・エントり有効性表示ビット格納域、302
・・・状態番号格納域、 303・・・文字コード格納域、 311・・・エン1−り有効性表示ビット、312・・
・状態番号、313・・・文字コード、401・・・次
の状態番号格納域。 402・・・パタン検出符号格納域、 411・・・次の状態番号。 412・・・パタン検出符号。 特許出願人 日本電信電話株式会社 33− CAM f7ゼスtシ゛スタ 兇・CAMツ一枚二汗ン^■ル 37− CAM ラーNエコトジ1ドしス鳶し38 ・
CAM り 丙・−恢一シトソヘs9郁に40 り
)ダIA fltf、、・メtす42 ・メリ νゾス
ダ 第3図 3−・・テ゛−7転遣鋒 4・・4S 8炎 第4図 6 ・吹態蓋料り方匍 第5図 12・・・ テパ−りt屹 第6図 第7図 手続補正書(自制 昭和61年 6月30日 特許庁長官 宇 賀 道 部 殿 1、事件の表示 特願昭61−20239号2、発明
の名称 文字列照合方式 3、補正をする者 事件との関係 特許出願人 住 所 東京都千代田区内幸町1丁目1番6号名
称 (422) 日本電信゛ポ話株式会社代表
者 真 藤 恒 4、代理人 ゛縣03(431) 8111番〔線〕′q−1゛″9
5、補正により増加する発明の数 06、補正の対象
明細書の特許請求の範囲7、補正の内容 特許請
求の範囲を別紙のとおり訂正特許請求の範囲を記載した
書面 特許請求の範囲 テキストと呼ばれる比較的長い文字列中に、別途与えら
れたパタンと呼ばれる比較的短い文字列が部分列として
存在するか否かを判定するために、 状態番号とパタンを構成する各文字との組合せに対して
、次の状態番号を記入した状態遷移表および状態番号と
、特にパタンの最終文字との組合せにおいては、当該パ
タン検出符号を記入したパタン検出判定表を予め作成し
ておき、 テキストの1文字を入力するたびに、上記状態遷移表に
従って状態遷移しながら、パタン検出判定表を参照して
パタンの存在を判定する決定性有限オートマ1−ンに基
づいたテキストサーチ法において、 前記状態遷移表の状態番号とパタンを構成する文字の組
合せを連凰メモリに、当該組合せに対応する次の状態番
号とパタン検出符号を上記連想メモリと関連付けられた
ランダムアクセスメモリの対応する番地に、それぞれ格
納しておき、テキストの1文字を人力するたびに、現在
の状態番号と、入力された1文字を組として連遮メモリ
に対し一致検索し、 一致エントリが有る場合は、関連付けられたランダムア
クセスから次の状態番号を得て、−fiエントリが無い
場合は、次の状態番号は初期状態にリセットすることに
より、状態遷移を行いながら、一致エントリに関連付け
られたランダムアクセスメモリから得た当該パタン検出
符号によって、パタンの存在を判定することを特徴とす
る文字列照合方式。
現回路の構成を示す一実施例のブロック図、第2図は第
1図に対応する状態遷移表とパタン検出判定表の構成図
、第3図は従来の文字列照合機構の説明図、第4図は有
限オートマトンの状態遷移を表わした説明図、第5図は
8ビツトのJISコードで表現された文字列データを対
象とする従来の決定性有限オートマ1−ンの実現回路構
成の説明図、第6図は従来の状態遷移表の構成図、第7
図は従来のパタン検出判定表の構成図である。 1 ・・・記憶装置、2・・・文字列照合装置、3 ・
・・データ転送路、4 ・・・信号線、5 ・・・オー
トマトンの状態、 6 ・・・状態遷移の方向、 7 ・・・アドレスレジスタ、 8.20.40・・・ランダムアクセス・メモリ、9.
41・・・アドレスデコーダ、 10.21.42・・・メモリレジスタ、12、14,
24,25,35,44,45,46.47・・・デー
タ線。 13.37・・・アドレス線、 16.26 ・・・ データ、 17.27・・・メモリの上位アドレス。 18.28・・・ メモリの下位アドレス、19.29
,323・・・コード対応の文字。 22・・・判別回路、 23.43・・・アドレスデコーダ出力線、30・・・
連想メモリ(CAM)、 31・・アドレスエンコーダ、 32・・・初期状態発生回路、 33・・・CAMアクセスレジスタ、 34・・・選択回路、 36・・・CAMの一致エントリ信号線、37・・・C
AMの一致エン1〜リアドレス線。 38・・・CAMの不一致エントり信号線。 301・・・エントり有効性表示ビット格納域、302
・・・状態番号格納域、 303・・・文字コード格納域、 311・・・エン1−り有効性表示ビット、312・・
・状態番号、313・・・文字コード、401・・・次
の状態番号格納域。 402・・・パタン検出符号格納域、 411・・・次の状態番号。 412・・・パタン検出符号。 特許出願人 日本電信電話株式会社 33− CAM f7ゼスtシ゛スタ 兇・CAMツ一枚二汗ン^■ル 37− CAM ラーNエコトジ1ドしス鳶し38 ・
CAM り 丙・−恢一シトソヘs9郁に40 り
)ダIA fltf、、・メtす42 ・メリ νゾス
ダ 第3図 3−・・テ゛−7転遣鋒 4・・4S 8炎 第4図 6 ・吹態蓋料り方匍 第5図 12・・・ テパ−りt屹 第6図 第7図 手続補正書(自制 昭和61年 6月30日 特許庁長官 宇 賀 道 部 殿 1、事件の表示 特願昭61−20239号2、発明
の名称 文字列照合方式 3、補正をする者 事件との関係 特許出願人 住 所 東京都千代田区内幸町1丁目1番6号名
称 (422) 日本電信゛ポ話株式会社代表
者 真 藤 恒 4、代理人 ゛縣03(431) 8111番〔線〕′q−1゛″9
5、補正により増加する発明の数 06、補正の対象
明細書の特許請求の範囲7、補正の内容 特許請
求の範囲を別紙のとおり訂正特許請求の範囲を記載した
書面 特許請求の範囲 テキストと呼ばれる比較的長い文字列中に、別途与えら
れたパタンと呼ばれる比較的短い文字列が部分列として
存在するか否かを判定するために、 状態番号とパタンを構成する各文字との組合せに対して
、次の状態番号を記入した状態遷移表および状態番号と
、特にパタンの最終文字との組合せにおいては、当該パ
タン検出符号を記入したパタン検出判定表を予め作成し
ておき、 テキストの1文字を入力するたびに、上記状態遷移表に
従って状態遷移しながら、パタン検出判定表を参照して
パタンの存在を判定する決定性有限オートマ1−ンに基
づいたテキストサーチ法において、 前記状態遷移表の状態番号とパタンを構成する文字の組
合せを連凰メモリに、当該組合せに対応する次の状態番
号とパタン検出符号を上記連想メモリと関連付けられた
ランダムアクセスメモリの対応する番地に、それぞれ格
納しておき、テキストの1文字を人力するたびに、現在
の状態番号と、入力された1文字を組として連遮メモリ
に対し一致検索し、 一致エントリが有る場合は、関連付けられたランダムア
クセスから次の状態番号を得て、−fiエントリが無い
場合は、次の状態番号は初期状態にリセットすることに
より、状態遷移を行いながら、一致エントリに関連付け
られたランダムアクセスメモリから得た当該パタン検出
符号によって、パタンの存在を判定することを特徴とす
る文字列照合方式。
Claims (1)
- 【特許請求の範囲】 テキストと呼ばれる比較的長い文字列中に、別途与えら
れたパタンと呼ばれる比較的短い文字列が部分列として
存在するか否かを判定するために、 状態番号とパタンを構成する各文字との組合せに対して
、次の状態番号を記入した状態遷移表および状態番号と
、特にパタンの最終文字との組合せにおいては、当該パ
タン検出符号を記入したパタン検出判定表を予め作成し
ておき、 テキストの1文字を入力するたびに、上記状態遷移表に
従って状態遷移しながら、パタン検出判定表を参照して
パタンの存在を判定する決定性有限オートマトンに基づ
いたテキストサーチ法において、 前記状態遷移表の状態番号とパタンを構成する文字の組
合せを連送メモリに、当該組合せに対応する次の状態番
号とパタン検出符号を上記連想メモリと関連付けられた
ランダムアクセスメモリの対応する番地に、それぞれ格
納しておき、 テキストの1文字を入力するたびに、現在の状態番号と
、入力された1文字を組として連送メモリに対し一致検
索し、 一致エントリが有る場合は、関連付けられたランダムア
クセスから次の状態番号を得て、一致エントリが無い場
合は、次の状態番号は初期状態にリセットすることによ
り、状態遷移を行いながら、一致エントリに関連付けら
れたランダムアクセスメモリから得た当該パタン検出符
号によって、パタンの存在を判定することを特徴とする
文字列照合方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61020239A JPH0746362B2 (ja) | 1986-02-03 | 1986-02-03 | 文字列照合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61020239A JPH0746362B2 (ja) | 1986-02-03 | 1986-02-03 | 文字列照合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62179083A true JPS62179083A (ja) | 1987-08-06 |
JPH0746362B2 JPH0746362B2 (ja) | 1995-05-17 |
Family
ID=12021642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61020239A Expired - Lifetime JPH0746362B2 (ja) | 1986-02-03 | 1986-02-03 | 文字列照合方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0746362B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04348469A (ja) * | 1990-07-23 | 1992-12-03 | Hitachi Ltd | 文字列検索装置およびその方法 |
JP2006505043A (ja) * | 2002-10-29 | 2006-02-09 | ロッキード・マーチン・コーポレイション | ハードウェアパーサアクセラレータ |
US7769753B2 (en) | 2004-01-30 | 2010-08-03 | Nec Corporation | Method and system for retrieving a data pattern |
US7973954B2 (en) | 2006-08-28 | 2011-07-05 | Sharp Laboratories Of America, Inc. | Method and apparatus for automatic language switching for an imaging device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106034192A (zh) * | 2014-07-25 | 2016-10-19 | 滁州华尊电气科技有限公司 | 作为手机和平板机专业拍照用的可拍照文件架 |
-
1986
- 1986-02-03 JP JP61020239A patent/JPH0746362B2/ja not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04348469A (ja) * | 1990-07-23 | 1992-12-03 | Hitachi Ltd | 文字列検索装置およびその方法 |
JP2006505043A (ja) * | 2002-10-29 | 2006-02-09 | ロッキード・マーチン・コーポレイション | ハードウェアパーサアクセラレータ |
US7769753B2 (en) | 2004-01-30 | 2010-08-03 | Nec Corporation | Method and system for retrieving a data pattern |
US7973954B2 (en) | 2006-08-28 | 2011-07-05 | Sharp Laboratories Of America, Inc. | Method and apparatus for automatic language switching for an imaging device |
US8218187B2 (en) | 2006-08-28 | 2012-07-10 | Sharp Laboratories Of America, Inc. | Method and apparatus for automatic language switching for an imaging device |
Also Published As
Publication number | Publication date |
---|---|
JPH0746362B2 (ja) | 1995-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4531201A (en) | Text comparator | |
JPH024026B2 (ja) | ||
JPS62179083A (ja) | 文字列照合方法 | |
US20070130417A1 (en) | CAM with automatic writing to the next free address | |
US10747775B2 (en) | Data conversion device, search system, and method | |
JP3027754B2 (ja) | 連想記憶装置 | |
JPS60105040A (ja) | 文章検索方式 | |
JPS583033A (ja) | 木構造検索処理装置 | |
JPH04308B2 (ja) | ||
JPS63187334A (ja) | 文字列パタ−ンマツチング装置 | |
JPS5960691A (ja) | 光学文字読取装置 | |
JPS6336031B2 (ja) | ||
JPH0664586B2 (ja) | 文字列照合方法 | |
JP2690175B2 (ja) | 不等長符号復号回路 | |
JPH04279973A (ja) | 文字列比較方式 | |
JPH04223566A (ja) | 数値検索装置および数値検索方法 | |
JPS5820075B2 (ja) | パタ−ン認識装置 | |
JPH11331353A (ja) | 無線呼出し機の電話簿及びスケジュ―ル表外部編集装置 | |
JPH06100980B2 (ja) | キャッシュメモリ | |
JPS5966745A (ja) | 記憶装置 | |
JPH02277170A (ja) | 電子式辞書 | |
JPS62278689A (ja) | 単語検索方式 | |
JPS58211251A (ja) | 記憶装置のアドレツシング方法 | |
JPH0610809B2 (ja) | 記号列識別装置 | |
JPS6275761A (ja) | 文字列処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |