JPS6383833A - 文字列検索方法 - Google Patents

文字列検索方法

Info

Publication number
JPS6383833A
JPS6383833A JP61228145A JP22814586A JPS6383833A JP S6383833 A JPS6383833 A JP S6383833A JP 61228145 A JP61228145 A JP 61228145A JP 22814586 A JP22814586 A JP 22814586A JP S6383833 A JPS6383833 A JP S6383833A
Authority
JP
Japan
Prior art keywords
character string
code
character
search
code system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61228145A
Other languages
English (en)
Inventor
Haruo Murakami
晴夫 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61228145A priority Critical patent/JPS6383833A/ja
Publication of JPS6383833A publication Critical patent/JPS6383833A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理システムにおける文字列の検索方法
に係り、特に複数の異なるコード系の文字が混在する文
字列に好適な検索方法に関する。
〔従来の技術〕
情報処理システムで取り扱う文字列には、例えば1バイ
トコード系の文字(英数字)と2バイトコード系の文字
(漢字)というように、複数の異なるコード系の文字が
混在しているのが普通である。一般にかNる文字列は、
各コード系を示すエスケープシーケンスの後にそのコー
ドの文字列が続く形で表現されている。従来、このよう
な文字列を検索する場合、検索に先立って、検索母体と
なる文字列あるいは検索対象となる文字列中の該当文字
がどのコード系に属するかを、エスケープシーケンスを
チェックすることにより判別していた。
なお、文字列の高速検索方式としては、例えば特開昭5
9−112339号があるが、複数の異なるコード系の
文字が混在する文字列の検索については配慮されていな
い。
〔発明が解決しようとする問題点〕
従来技術では、複数の異なるコード系の文字が混在した
文字列の検索は、各コード系を示すエスケープシーケン
スの後にそのコードの文字列が続く表現のま\で行って
おり、検索に先立って、検索母体となる文字列あるいは
検索対象となる文字列中の該当文字がどのコード系に属
するかを、その文字より前にある最も近いエスケープシ
ーケンスを探すことにより判別する必要があった。した
がって、検索対象となる文字列のパターンを、検索母体
となる文字列から探すという単純なパターンマツチング
手法が使えず、検索に時間を要していた。
本発明の目的は、複数の異なるコード系の文字が混在し
た文字列の検索の場合にも、単純なパターンマツチング
手法が適用できるようにし、検索処理の高速化を図るこ
とにある。
〔問題点を解決するための手段〕
上記目的は、検索母体となる文字列の各文字の先頭にコ
ード系の識別子を付加し、同様に検索対象となる文字列
の各文字の先頭にもコード系の識別子を付加し、このコ
ード系識別子の付加された検索対象文字列と検索母体文
字列を比較することにより達成される。
〔作 用〕
複数の異なるコード系の文字が混在した文字列は、各コ
ード系を示すエスケープシーケンスの後にコードの文字
列が続く形で表現されている。検索母体となる文字列か
らこのエスケープシーケンスを取り除いて各文字の先頭
にコード系の識別子を付加し、同様に検索対象となる文
字列からもエスケープシーケンスを取り除いて各文字の
先頭にコード系の識別子を付加する。それによって、あ
る文字の属するコード系がエスケープシーケンスまで立
ち戻ることなく判るので、検索時に単純なパターンマツ
チング手法が使え、検索が簡略化、高速化される。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明による検索システムの一実施例のブロッ
ク図である。本システムはキーボード付ディスプレイ装
置1.主メモリ2、ファイル3及び文書編集装置4を具
備し、文書編集装置4は画面入出力部5、検索処理部6
、ファイル入出力部7で構成される。
いま、ファイル3中の文書は、1バイトコード系の文字
(例えば英数字)と2バイトコード系の文字(漢字)が
混在しているものでする。この文書の中からある文字列
を検索するには、まずディスプレイ装置1がら検索母体
となる文書の入力要求をキー人力する。この要求は、画
面入出力部5を経て、ファイル入出力部7に送られ、検
索母体の文書がファイル3から入力される。このとき、
ファイル入出力部7は入力した文書の各文字の先頭にコ
ード系の識別子を付加して主メモリ2に展開する。次に
、ディスブレス装置1がら検索対象となる文字列を入力
する。このとき入力された文字列は画面入出力部5を経
て検索処理部6に送られ、各文字の先頭にコード系の識
別子が付加される。
検索処理部6は、主メモリ2に格納された検索母体文書
中に、コード系識別子が付加された検索対象文字列がな
いかパターンマツチング手法により比較する。検索対象
文字列があれば、その位置をディスプレイ装置1に表示
し、なければその旨のメツセージをディスプレイ装置1
に表示する。
第2図は、ディスプレイ装置1及びファイル3から入力
された、1バイトコード系と2バイトコード系の文字が
混在する文字列を変換して1文字コードの先頭にコード
系の識別子を付加する概念を表わしている。8はディス
プレイ装置1及びファイル3から入力された文字列を示
す、ESCは拡張制御文字、11は1バイトコード系の
開始を示すコード、ABは1バイトコ一ド表現による文
字コード、工2は2バイトコード系の開始を示すコード
、漢字は2バイトコ一ド表現による文字コードとする。
ESCと工1あるいは工2でエスケープシーケンスを表
わしている。、9は8の文字列を変換した結果であり、
C1は1バイトコード系の各文字の前に付加されるコー
ド系識別子(長さは1バイト)である。
変換の手法としては、変換前データ8からエスケープシ
ーケンス(ESC,Il及びI2)を取り除き、1バイ
トコード系の前にコード系識別子(C1)を付加し、変
換後データ9とする。このコード系識別子(長さ1バイ
ト)を2バイトコード系の文字の1バイト目には現われ
ないコードにすることにより、2バイトコード系の文字
の前には、コード系識別子を付加しないですむ。
第3図は画面入出力部5あるいはファイル入出力部7で
のデータ変換の処理手順を示す。二\では、第2図に示
す8の形式で入力されたデータを9の形式に変換して出
力領域にセットする例について説明する。
まず、入力データの先頭にポインタを位置づける(ステ
ップ10)。次にポインタの指す文字1バイトがESC
かどうかチェックする(ステップ11)。ESCであれ
ば、次の1バイトが1バイト系開始コードかをチェック
する(ステップ12)。
1バイト系開始コード(工1)であればコード系を1バ
イトとしくステップ13)、そうでなければコード系を
2バイトとする(ステップ14)。
次に、ポインタをESCの2バイト先にセットしくステ
ップ15)、入力データが全てチェックされていたら処
理を終了し、そうでなければステップ11に戻る(ステ
ップ16)・ ステップ11でポインタの指す文字がESCでなければ
、コード系が1バイトかどうかチェックする(ステップ
17)。1バイトであれば、ポインタの指す文字1バイ
トの前にコード識別子を付加して2バイトにしてから出
力領域に転送する(ステップ18.19)。1バイトで
なければ、ポインタの指すところから2バイトの文字を
そのま\出力領域に転送する(ステップ19)。その後
ポインタを更新して、入力データの終了するまで同様の
処理を繰り返す。
次にパターンマツチング手法による検索処理を第4図及
び第5図で説明する。
第4図で20はデータ変換後の検索対象文字列、21は
同じくデータ変換後の検索母体文字列である。22.2
3は検索母体文字列中から検索される検索対象文字列を
示している。
第5図は検索処理部6での検索手順を示している。まず
、検索母体文字列21の先頭にポインタを設定する(ス
テップ24)。次にポインタの指すところから、検索対
象文字列20の長さ分の検索母体文字列を該検索対象文
字列と比較する(ステップ25)。同じであれば検索対
象文字列が存在した旨のメツセージを出力する(ステッ
プ26)。
次に検索母体文字列21のポインタを2だけ増加させ(
ステップ27)、検索母体文字列21のチェックが全て
の文字列に対してなされていれば処理を終了し、そうで
なければステップ25に戻る(ステップ28)。
本実施例によれば、1バイトコード系の文字と2バスト
コード系の文字が混在している文字列を検索する場合、
単純なパターンマツチング手法が適用できる。
〔発明の効果〕
本発明によれば、複数の異なるコード系の文字が混在す
る文字列の検索が単純なパターンマツチングでできるの
で、検索処理を簡略化、高速化する効果がある。また、
文字列中の文字のコード系の種類が増加しても検索処理
は変更しなくても済済むので、拡張性にも優れている。
【図面の簡単な説明】
第1図は本発明の一実施例の構成図、第2図はコード識
別子を付加する方法の概念図、第3図はコード識別子を
付加する処理手順を示す図、第4図はパターンマツチン
グ手法の概念図、第5図はパターンマツチング手法の処
理手順を示す図である。 1・・・キーボード付ディスプレイ装置、2・・・主メ
モリ、  3・・・ファイル、4・・・文書編集装置、
 5・・・画面入出力部、6・・・検索処理部、  7
・・・ファイル入出力部。 8・・・変換前データ、 9・・・変換後データ、20
・・・検索対象文字列、 21・・・検索母体文字列、
 22.23・・・検索された文字列。 代理人弁理士  小 川 勝 男 第1図 第3図

Claims (1)

    【特許請求の範囲】
  1. (1)複数の異なるコード系の文字が混在する文字列の
    検索方法において、検索母体となる文字列(検索母体文
    字列)と検索対象となる文字列(検索対象文字列)の少
    なくとも一部文字にコード系の識別子を付加し、該コー
    ド系の識別子を付加された検索対象文字列を、同じくコ
    ード系の識別子を付加された検索母体文字列中からパタ
    ーンマッチングにより検索することを特徴とする文字列
    検索方法。
JP61228145A 1986-09-29 1986-09-29 文字列検索方法 Pending JPS6383833A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61228145A JPS6383833A (ja) 1986-09-29 1986-09-29 文字列検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61228145A JPS6383833A (ja) 1986-09-29 1986-09-29 文字列検索方法

Publications (1)

Publication Number Publication Date
JPS6383833A true JPS6383833A (ja) 1988-04-14

Family

ID=16871929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61228145A Pending JPS6383833A (ja) 1986-09-29 1986-09-29 文字列検索方法

Country Status (1)

Country Link
JP (1) JPS6383833A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式

Similar Documents

Publication Publication Date Title
JPS6383833A (ja) 文字列検索方法
JPH04297923A (ja) 文字コード変換方式
JPH0440554A (ja) 文字データ処理装置
JP2569857B2 (ja) 不定バイト長文字入力制御方式
JPS5985532A (ja) 文章編集範囲指定方式
JPH06119391A (ja) 漢字文字列抽出方式
KR100199238B1 (ko) 문서작성 시스템에서의 기호입력장치
JPH1021192A (ja) 操作抽出方式およびマクロ作成方式
JP2772125B2 (ja) 辞書検索方式
JPH04186424A (ja) データ一覧表示方式
JPS63204434A (ja) 電子化文書検索装置
JPH04167123A (ja) 混在データ処理方式
JPH0348359A (ja) コンピユータシステム端末における複数国語の表示方式
JP3644765B2 (ja) 文書管理方式および文書管理方法
JP2835065B2 (ja) 文字列検索方法
JPH05120278A (ja) 文字列連結方法
JPH0736187B2 (ja) 情報処理装置
JPS60252947A (ja) コ−ド変換装置
JPH021027A (ja) 圧縮形式ソースプログラムのコンパイル方式
JPH0554145B2 (ja)
JPS63228346A (ja) ワ−プロによるデ−タベ−ス登録更新方式
JPS6365572A (ja) 画像情報記憶検索装置
JPH06231017A (ja) データファイル変換装置
JPH03116268A (ja) 文字属性管理方式
JPH08287064A (ja) 文字修飾調整方法