JPS6211932A - 情報検索方法 - Google Patents
情報検索方法Info
- Publication number
- JPS6211932A JPS6211932A JP60150176A JP15017685A JPS6211932A JP S6211932 A JPS6211932 A JP S6211932A JP 60150176 A JP60150176 A JP 60150176A JP 15017685 A JP15017685 A JP 15017685A JP S6211932 A JPS6211932 A JP S6211932A
- Authority
- JP
- Japan
- Prior art keywords
- kana
- character
- kanji
- conversion
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は、部分文字列のマツチングが行なえるキーワー
ド検索に係り、特に必要な情報をもれなく抽出するのに
好適な情報検索方法に関する。
ド検索に係り、特に必要な情報をもれなく抽出するのに
好適な情報検索方法に関する。
従来の情報検索の主流はキーワード検索であった(中原
:″情報検索″′電子通信学会編参照)。
:″情報検索″′電子通信学会編参照)。
これはまず限定面素辞書(シソーラス)を用い、キーワ
ードはその限定面食の中から選び、データベースを構築
している。そして、検索するときは、前記シソーラスか
ら検索の専門家が要求の情報に関して類似語の拡張を含
めてキーワードの選択を行っている。このような検索方
式では、前記シソーラスで限定されたキーワードを、専
門家が代行して検索する限り問題はあまりなかった。
ードはその限定面食の中から選び、データベースを構築
している。そして、検索するときは、前記シソーラスか
ら検索の専門家が要求の情報に関して類似語の拡張を含
めてキーワードの選択を行っている。このような検索方
式では、前記シソーラスで限定されたキーワードを、専
門家が代行して検索する限り問題はあまりなかった。
しかし、近年文書の電子ファイリングが盛んになり、タ
イトル、抄録9本文から内容検索したいという要求が出
ており、また、検索も専門家に依頼するのでなく、要求
者が直接検索したいという要求も高まっている。そのた
めに次のような問題が発生する。
イトル、抄録9本文から内容検索したいという要求が出
ており、また、検索も専門家に依頼するのでなく、要求
者が直接検索したいという要求も高まっている。そのた
めに次のような問題が発生する。
すなわち、文書等は前記シソーラスに載っている面素の
みで限定されてはなく、自由な表現で書かれている。更
に、従来作成されてきたデータベースは、計算機技術の
進歩とともに、データの表現がローマ字からカタカナへ
、更にカタカナから漢字かな混じりの日本語に進歩して
きていて、これらのデータは混在しているのが実状であ
る。
みで限定されてはなく、自由な表現で書かれている。更
に、従来作成されてきたデータベースは、計算機技術の
進歩とともに、データの表現がローマ字からカタカナへ
、更にカタカナから漢字かな混じりの日本語に進歩して
きていて、これらのデータは混在しているのが実状であ
る。
本文等を検索すめための部分列のマツチングでは、−字
一句違わない完全な部分文字列の一致が要求されるが、
自然言語では、一つの概念を表わすのに多数の言語が存
在する。一般に文書やデータベースの作成者は、一つの
概念を表わす多数の単語の中で、どの単語を使うことも
許されている6したがって、検索対象の文書やデータベ
ースがどの単語で書いであるかを知らない検索者は、目
的の情報を示す概念を表す多くの単語を列挙して、検索
を繰り返す。この手間を省くために考えられた方法がシ
ソーラスを導入した検索方法であり、入力した単語が示
す概念に類似した単語を自動発生するようにしたもので
ある。現在の所、シソーラスを用いた検索方法は11ケ
イサンキI′と入力した場合″コンピュータ″といった
同義語を発生するが、”Computer”l ”K
eisanki” 、 ”計算機″といった同一の単
語でも表現の異なるものまでは発生しない。つまり、カ
タカナで記述されたデータは、“ケイサンキ″″コンピ
ュータ″という文字列でマツチングするが、英文字、ロ
ーマ字、漢字で記述されたデータにはマツチングしない
。
一句違わない完全な部分文字列の一致が要求されるが、
自然言語では、一つの概念を表わすのに多数の言語が存
在する。一般に文書やデータベースの作成者は、一つの
概念を表わす多数の単語の中で、どの単語を使うことも
許されている6したがって、検索対象の文書やデータベ
ースがどの単語で書いであるかを知らない検索者は、目
的の情報を示す概念を表す多くの単語を列挙して、検索
を繰り返す。この手間を省くために考えられた方法がシ
ソーラスを導入した検索方法であり、入力した単語が示
す概念に類似した単語を自動発生するようにしたもので
ある。現在の所、シソーラスを用いた検索方法は11ケ
イサンキI′と入力した場合″コンピュータ″といった
同義語を発生するが、”Computer”l ”K
eisanki” 、 ”計算機″といった同一の単
語でも表現の異なるものまでは発生しない。つまり、カ
タカナで記述されたデータは、“ケイサンキ″″コンピ
ュータ″という文字列でマツチングするが、英文字、ロ
ーマ字、漢字で記述されたデータにはマツチングしない
。
また、前記シソーラス導入の検索方法で″ジヨウホウ″
と入力しても、″ジヨウホウ″″ジョウホオ”ジョオホ
オ” ”ZYOUHOU” ”ZYOOHOIJ”1
1ZYOLI!100” ”ZVOOHOO” ”Z’
10HHOU” ”ZYOOI(01(”“ZYOHI
ION”JOtJ)IQU” ”JQO)10[J”
”、70U1100”“JOOIloo” ”、7
0HHOU” ”JOUHOH” ・・・とイッたカナ
やローマ字特有の様々の音節表記までは発生しない。あ
るいは、漢字がな混じり表現の送り仮名表記の問題があ
る。例えば、″読み取り装置″でマツチングしたい場合
、″読み取り装置″″の表記には他に″読取り装置″″
読取装置″が存在していて、単に“読み取り装置”でマ
ツチングしようとしても確実に情報を入手できるとは限
らない。シソーラスを拡張して、これら異表記すべてを
発生させることも考えられるが、辞書としての一貫性が
乱れ煩雑になるし、第一に辞書が巨大化するために実現
が困難であろうと思われる。またカナ。
と入力しても、″ジヨウホウ″″ジョウホオ”ジョオホ
オ” ”ZYOUHOU” ”ZYOOHOIJ”1
1ZYOLI!100” ”ZVOOHOO” ”Z’
10HHOU” ”ZYOOI(01(”“ZYOHI
ION”JOtJ)IQU” ”JQO)10[J”
”、70U1100”“JOOIloo” ”、7
0HHOU” ”JOUHOH” ・・・とイッたカナ
やローマ字特有の様々の音節表記までは発生しない。あ
るいは、漢字がな混じり表現の送り仮名表記の問題があ
る。例えば、″読み取り装置″でマツチングしたい場合
、″読み取り装置″″の表記には他に″読取り装置″″
読取装置″が存在していて、単に“読み取り装置”でマ
ツチングしようとしても確実に情報を入手できるとは限
らない。シソーラスを拡張して、これら異表記すべてを
発生させることも考えられるが、辞書としての一貫性が
乱れ煩雑になるし、第一に辞書が巨大化するために実現
が困難であろうと思われる。またカナ。
ローマ字の表記にはかなり規則性があるが、前記の異表
記をすべて辞書に羅列するのは効率的でないとも考えら
れる。
記をすべて辞書に羅列するのは効率的でないとも考えら
れる。
一般に計算機の内部では文字列を一文字ずつコードとし
て表現しているため、文字列のマツチングには厳密には
検索者が入力した文字列を示すコード列と、検索対象の
コード列とが完全に一致することが要求される。このた
めに、アルファベット文字の大文字と小文字でさえ区別
されており、検索者が”DATA BASE”と大文字
で入力しても検索対象のデータベースに”Data B
a5e”と記述されていれば検索は成功しない。また計
算機が文字を表現スル文字コードに現在は、EBCDI
C,JIS、 ASCII 。
て表現しているため、文字列のマツチングには厳密には
検索者が入力した文字列を示すコード列と、検索対象の
コード列とが完全に一致することが要求される。このた
めに、アルファベット文字の大文字と小文字でさえ区別
されており、検索者が”DATA BASE”と大文字
で入力しても検索対象のデータベースに”Data B
a5e”と記述されていれば検索は成功しない。また計
算機が文字を表現スル文字コードに現在は、EBCDI
C,JIS、 ASCII 。
等多種のコードが存在し、データベースがどのコ−ドで
記述されているかを知る必要がある。
記述されているかを知る必要がある。
以上の問題点をまとめると、探したい内容はデータベー
スでは、 (1)日本語又は英語あるいはその他の言語で表現して
いる。
スでは、 (1)日本語又は英語あるいはその他の言語で表現して
いる。
(2)様々な同義語で同一の概念が表わされている。
(3)日本語で表現しである場合、カナ、ローマ字。
漢字かな混じりの3種類の表現のしたがたがある。
(4)日本語のカナ、ローマ字には音節の表現にいくつ
かの表記法が存在する。漢字かな混じりの文では、漢字
の送り方にいくつかの方法がある。
かの表記法が存在する。漢字かな混じりの文では、漢字
の送り方にいくつかの方法がある。
(5)計算機内部における文字の表わし方にいくつかの
文字コードがある。
文字コードがある。
以上にように、従来の検索手法のみでは、データベース
の検索機能を一般ユーザに解放したり、検索対象が数値
データから文書などのマルチメディア情報に拡大したり
することが困難である。
の検索機能を一般ユーザに解放したり、検索対象が数値
データから文書などのマルチメディア情報に拡大したり
することが困難である。
本発明の目的は、このような従来の欠点を補うため同義
語の他に表現2表記」二での拡張を含めて、一つの概念
を示す多数の文字コード群を発生させて、もれなく必要
情報を抽出する方法を提供することにある。
語の他に表現2表記」二での拡張を含めて、一つの概念
を示す多数の文字コード群を発生させて、もれなく必要
情報を抽出する方法を提供することにある。
かかる目的を達成するために、本発明方法では入力した
検索文字列に関し、 (1)異なる言語を発生するための、辞書を有する言
語変換部と。
検索文字列に関し、 (1)異なる言語を発生するための、辞書を有する言
語変換部と。
(2)同義語を発生するためのシソーラス(同義語辞書
)を有する同義語抽出部と、 (3)カナ、ローマ字、漢字かな混じりの各表現に変換
する手段と、 (4)異なる音節表記、漢字かな混じり文における異な
る送り仮名表記に対処するために、カナ。
)を有する同義語抽出部と、 (3)カナ、ローマ字、漢字かな混じりの各表現に変換
する手段と、 (4)異なる音節表記、漢字かな混じり文における異な
る送り仮名表記に対処するために、カナ。
ローマ字、漢字かな混じり、外国語の各表現に対応する
異表記の発生部と、 (5)様々の文字コードで記述されたデータベースに対
処するために文字コード変換手段とを具備したことを特
徴とする。
異表記の発生部と、 (5)様々の文字コードで記述されたデータベースに対
処するために文字コード変換手段とを具備したことを特
徴とする。
本発明は1以上の言語変換、同義語抽出、カナ。
ローマ字、漢字仮名混じりの各表現相互間の変換。
音節表記、送り仮名表記における異表記の発生。
文字コードの変換の各手段を合わせ持つことにより、デ
ータを記述する言語2表現2表記2文字コードに左右さ
れることなく、検索を成功させる。
ータを記述する言語2表現2表記2文字コードに左右さ
れることなく、検索を成功させる。
以下、本発明を実施例にもとづいて説明する。
第1図は本発明の一実施例による情報検索方法を採用し
た情報検索装置の機能ブロック図である。
た情報検索装置の機能ブロック図である。
同装置は文字コード入力部109文字コード100がカ
ナ、ローマ字、外国語のいずれであるかを判別する文字
コード種別判別部20.ローマ字、カナ、外来語の入力
文字列をそれぞれの種別において標準化する標準化部3
1,32,33.ローマ字、外来語のカナへの変換を行
う変換部41゜42、同義語抽出部50.カナから漢字
かな混じり、ローマ字、外来語への変換を行う変換部6
]−262,63,漢字かな混じり、ローマ字、カナ。
ナ、ローマ字、外国語のいずれであるかを判別する文字
コード種別判別部20.ローマ字、カナ、外来語の入力
文字列をそれぞれの種別において標準化する標準化部3
1,32,33.ローマ字、外来語のカナへの変換を行
う変換部41゜42、同義語抽出部50.カナから漢字
かな混じり、ローマ字、外来語への変換を行う変換部6
]−262,63,漢字かな混じり、ローマ字、カナ。
外国語のそれぞれにおいて、異表記を発生する発生部7
1,72,73,74.前記発生部から出力されたすべ
ての文字コードをデータベース内の情報に照らし合わせ
る検索部80とから成っている。
1,72,73,74.前記発生部から出力されたすべ
ての文字コードをデータベース内の情報に照らし合わせ
る検索部80とから成っている。
処理の流れの概要を次に説明する。
探したい情報がもつ文字コードの部分文字列を文字コー
ド入力部10から入力すると、文字コード100が判別
部20へ送られ、入力した文字コードが、ローマ字、カ
ナ、外国語のいずれであるかを判定する。判別部20で
判定された文字コードは、その種別によってローマ字表
記標準化部31、カナ表記標準化部32.外国語表記標
化部33のいずれかへ送られ、ヘボン式から訓令式への
変換(“JOUHOU”→“ZYOUHOU”) 、
カー1−J%例文字の修正(″ヂョオホウ”→“ジヨウ
ホウ″)。
ド入力部10から入力すると、文字コード100が判別
部20へ送られ、入力した文字コードが、ローマ字、カ
ナ、外国語のいずれであるかを判定する。判別部20で
判定された文字コードは、その種別によってローマ字表
記標準化部31、カナ表記標準化部32.外国語表記標
化部33のいずれかへ送られ、ヘボン式から訓令式への
変換(“JOUHOU”→“ZYOUHOU”) 、
カー1−J%例文字の修正(″ヂョオホウ”→“ジヨウ
ホウ″)。
アルファベットの大文字化(“data”→”DATA
” )という処理を行い本装置で使用する標準的な表記
法に変換する。標準化された文字コード31.0 。
” )という処理を行い本装置で使用する標準的な表記
法に変換する。標準化された文字コード31.0 。
320.330のうち、ローマ字31o、外国語330
は、それぞれローマ字−カナ変換部41゜外来語−カナ
変換部42を通ってカナ表記に統一される。ただし、外
国語で日本語になっていないものは、外来語−カナ変換
部42がカナ表現に変換しないで、外国語420を出力
する。文字コード400は同義語抽出部5oに送られ、
該当する概念の拡張を行う。拡張されて複数になった文
字コード500は、カナ−漢字、カナ−ローマ字。
は、それぞれローマ字−カナ変換部41゜外来語−カナ
変換部42を通ってカナ表記に統一される。ただし、外
国語で日本語になっていないものは、外来語−カナ変換
部42がカナ表現に変換しないで、外国語420を出力
する。文字コード400は同義語抽出部5oに送られ、
該当する概念の拡張を行う。拡張されて複数になった文
字コード500は、カナ−漢字、カナ−ローマ字。
カナ−外来語の変換部61,62.63へ送られ、それ
ぞれの表記へ変換する。漢字かな混じり、ローマ字、カ
ナ、外国語で表現された文字コードは、各表現において
音節、漢字かな混じり文における送り仮名の異表記の発
生を行う発生部71,72゜73.74を通って検索部
80へ送られる。検索部80は入力された複数の文字コ
ードのおのおのに対し、データベースに格納様れた情報
とのマツチングを行い一致するすべての情報800を出
力する。
ぞれの表記へ変換する。漢字かな混じり、ローマ字、カ
ナ、外国語で表現された文字コードは、各表現において
音節、漢字かな混じり文における送り仮名の異表記の発
生を行う発生部71,72゜73.74を通って検索部
80へ送られる。検索部80は入力された複数の文字コ
ードのおのおのに対し、データベースに格納様れた情報
とのマツチングを行い一致するすべての情報800を出
力する。
ここで同義語抽出は公知の技術であり、本実流側では従
来の方式を使用する。
来の方式を使用する。
本発明の特徴をなす表現変換部と異表記発生部について
、以下更に詳細に実現手段を述べる。
、以下更に詳細に実現手段を述べる。
カナ−漢字変換部61は、カナ表現の文字列に対応する
漢字かな混じり表現の文字列を辞書の形式で持っており
、入力したカナの文字列に対応する漢字かな混じり文字
列が存在すれば、その文字列を出力する。一つのカナ文
字列に対し複数個の漢字かな混じりの文字列が導かれる
場合が考えられるが、変換部61は二つのモードをもっ
てこれに対処する。第1のモードは人手を介さずに与え
られたカナ文字列に対応するすべての漢字かな混じりの
文字列を出力し、第2のモードは、人手を介して、対応
する漢字かな混じりの文字列の中から所望の文字列を選
択するモードである。例えば、″ジヨウホウ″というカ
ナ文字列が入力された場合、辞書から″情報” パ定法
” ″乗法″という漢字文字列が引き出されたとする。
漢字かな混じり表現の文字列を辞書の形式で持っており
、入力したカナの文字列に対応する漢字かな混じり文字
列が存在すれば、その文字列を出力する。一つのカナ文
字列に対し複数個の漢字かな混じりの文字列が導かれる
場合が考えられるが、変換部61は二つのモードをもっ
てこれに対処する。第1のモードは人手を介さずに与え
られたカナ文字列に対応するすべての漢字かな混じりの
文字列を出力し、第2のモードは、人手を介して、対応
する漢字かな混じりの文字列の中から所望の文字列を選
択するモードである。例えば、″ジヨウホウ″というカ
ナ文字列が入力された場合、辞書から″情報” パ定法
” ″乗法″という漢字文字列が引き出されたとする。
この場合、第1のモードでは″情報″″定法″″乗法″
という三つの漢字コード列を出力する。しかし、検索者
が目的とするのが“情報”という文字列を探す事であっ
た場合、検索結果に所望の情報は含まれるが、まったく
予期しなかった″定法+1乗法”といった文字列をもっ
た情報までが含まれる。このような危険を避けるには、
第2のモードで、三つの漢字文字列の中から″情報″だ
けを選択すればよい。
という三つの漢字コード列を出力する。しかし、検索者
が目的とするのが“情報”という文字列を探す事であっ
た場合、検索結果に所望の情報は含まれるが、まったく
予期しなかった″定法+1乗法”といった文字列をもっ
た情報までが含まれる。このような危険を避けるには、
第2のモードで、三つの漢字文字列の中から″情報″だ
けを選択すればよい。
この変換部61の2つのモードは、入力部10への検索
文字コード入力時に設定する。
文字コード入力時に設定する。
カナ−ローマ字変換部62は第4図の50音表を基にし
て変換を行う。″ン″以外のカナ文字は50音表に載っ
ているので表からローマ字の子音部、母音部を引き出す
ことができる。例えば、シ”に対して、ローマ字の子音
は表を左に進み(l SI+を得て、母音は表を上へ進
んでLt I 11を得ることができる。50音表にな
い文字“ン”°”1ts u itヤ″″ヨ″″ヨ″
″ツ″に妻いては別途対処する。例えば“ン″に対して
はLLN”を出力し、″。”ゞ”に対してはこの文字が
現われる1文字前で変換した子音を入れ替える。′パ″
という文字列を変換する場合″°”の1文字前の子音”
H”を“P”と入れ替えて、“PA”を得る。
て変換を行う。″ン″以外のカナ文字は50音表に載っ
ているので表からローマ字の子音部、母音部を引き出す
ことができる。例えば、シ”に対して、ローマ字の子音
は表を左に進み(l SI+を得て、母音は表を上へ進
んでLt I 11を得ることができる。50音表にな
い文字“ン”°”1ts u itヤ″″ヨ″″ヨ″
″ツ″に妻いては別途対処する。例えば“ン″に対して
はLLN”を出力し、″。”ゞ”に対してはこの文字が
現われる1文字前で変換した子音を入れ替える。′パ″
という文字列を変換する場合″°”の1文字前の子音”
H”を“P”と入れ替えて、“PA”を得る。
どの子音に対し、どの文字と入れ替えるかは、変換規則
として記憶する″ヤ″ “ユ″″ヨ”については、逆に
1文字前の子音と母音の間にY″′を挿入する。″ショ
″という文字列を変換する場合“SI”に“Y”を挿入
し、” s y o”を得る。
として記憶する″ヤ″ “ユ″″ヨ”については、逆に
1文字前の子音と母音の間にY″′を挿入する。″ショ
″という文字列を変換する場合“SI”に“Y”を挿入
し、” s y o”を得る。
“ツ″′に対しては、次の文字の子音字を二つ重ねる。
″キツプ″という文字列を変換する場合、11フ″の子
音字は“■”であるが、′フ”の次に°”があるために
前記規則で4I P I+に入れ替えられるために“P
”を2つ重ねて”KIPPU”を得る。
音字は“■”であるが、′フ”の次に°”があるために
前記規則で4I P I+に入れ替えられるために“P
”を2つ重ねて”KIPPU”を得る。
変換部62は、前記の様にカナ文字列から、訓令式のロ
ーマ文字列へ変換することを目的とする。
ーマ文字列へ変換することを目的とする。
カナ−外来語変換部63は、カナ−漢字変換部61と同
様にカナ表現の文字列に対応する外来語表現の文字列を
辞書の形式で持っており、入力したカナの文字列に対応
する外来語の文字列が存在すれば、その文字列を出力す
る。対応する文字列が存在しなければ、出力しない。
様にカナ表現の文字列に対応する外来語表現の文字列を
辞書の形式で持っており、入力したカナの文字列に対応
する外来語の文字列が存在すれば、その文字列を出力す
る。対応する文字列が存在しなければ、出力しない。
異表記発生部71,72,73.74は漢字かな混じり
、ローマ字、カナ、外国語と扱う表現が異なる□が、す
べて同一の構造を持つ。これら発生部は一単語として異
表記を発生する第1の発生部と、音節、あるいは−文字
単位で構成された規則を基にした第2の発生部に分解で
きる。第1の発生部は、第2の発生部で用いる規則で表
わせない異表記の発生を受は持つ。例えばカナ−表現の
“バイオリン”から(″ヴァイオリン″ “バイオリン
”)、′モータ”から(11モーター”モータ″)が出
力される。第1の発生部は、漢字かな混じり、ローマ字
、カナ、外国語の各表現において、それぞれ異表記発生
のための辞書をもつ。第5図はそのカナ表現の例である
。もし入力文字列が第5図で示すような辞書に載ってい
ない場合、第1の発生部は異表記が存在しないものとし
て、入力文字列をそのまま出力する。第2の発生部は第
1の発生部の出力を受けて、規則に従って発生を行う。
、ローマ字、カナ、外国語と扱う表現が異なる□が、す
べて同一の構造を持つ。これら発生部は一単語として異
表記を発生する第1の発生部と、音節、あるいは−文字
単位で構成された規則を基にした第2の発生部に分解で
きる。第1の発生部は、第2の発生部で用いる規則で表
わせない異表記の発生を受は持つ。例えばカナ−表現の
“バイオリン”から(″ヴァイオリン″ “バイオリン
”)、′モータ”から(11モーター”モータ″)が出
力される。第1の発生部は、漢字かな混じり、ローマ字
、カナ、外国語の各表現において、それぞれ異表記発生
のための辞書をもつ。第5図はそのカナ表現の例である
。もし入力文字列が第5図で示すような辞書に載ってい
ない場合、第1の発生部は異表記が存在しないものとし
て、入力文字列をそのまま出力する。第2の発生部は第
1の発生部の出力を受けて、規則に従って発生を行う。
ローマ字表現の規則の例を第6図に示す。
本実施例では訓令式を標準としたため、異表記はヘボン
式が主になっている。第2の発生部は入力文字列の中に
規則で示される文字列が存在した場合、標準、異表記の
両方を用いた文字列を出力する。規則で示された文字列
が存在しない場合には第2の発生部は入力文字列をその
まま出力する。
式が主になっている。第2の発生部は入力文字列の中に
規則で示される文字列が存在した場合、標準、異表記の
両方を用いた文字列を出力する。規則で示された文字列
が存在しない場合には第2の発生部は入力文字列をその
まま出力する。
ローマ字表現の例では”NlN5IKI”の文字列に対
し、規則lI S I IT→(“S I” ”SH
I” )を用いて(″訂NS:rKI”、 ”NlN
5IIIKI”)を出力する。規則が適用される部分文
字列が複数個存在するならば、存在する表記法の組み合
わせにより、発生する単語数は多くなる。例えば“KE
NSYUTU”というローマ字表現文字列しこは2つの
規則“SYU”→(” S Y U ” ” S H
U”)、”TU”→(“T U ””TSU”)が適応
し、各規則はそれぞれ2個ずつのり1語を発生するので
、出力は(KENSYUTU”“KF?、NS”l’U
TSU”KENSHUTU”KENSIIUTSU”)
の計4単語となる。
し、規則lI S I IT→(“S I” ”SH
I” )を用いて(″訂NS:rKI”、 ”NlN
5IIIKI”)を出力する。規則が適用される部分文
字列が複数個存在するならば、存在する表記法の組み合
わせにより、発生する単語数は多くなる。例えば“KE
NSYUTU”というローマ字表現文字列しこは2つの
規則“SYU”→(” S Y U ” ” S H
U”)、”TU”→(“T U ””TSU”)が適応
し、各規則はそれぞれ2個ずつのり1語を発生するので
、出力は(KENSYUTU”“KF?、NS”l’U
TSU”KENSHUTU”KENSIIUTSU”)
の計4単語となる。
以上の変換部、発生部の働きをまとめると、類似語抽出
部50から送られる文字列は変換部に送られ、カナ、ロ
ーマ字、外国語、漢字のかな混じりの各表現の標準的な
表記へ変換される。各表現のN4準的な表記は異表記発
生部へ送られさまざまな表記を発生する。類似語抽出部
50から送られる文字列がパジョウホウ″であった場合
、変換部で(″ジヨウホウ” ”ZYOUIIOU”″
情報″)となり、さらに発生部で(″ジヨウホウ″ “
ジョンホオ′″11ジ:+オホウ” ”ジョオホオ”
ZYOUHOU””ZYOUlloo”ZYOOHOI
J” ”ZYOOHOO” ′LZYOHI(OLI
”・・・″情報″)となって検索部80へ送られる。
部50から送られる文字列は変換部に送られ、カナ、ロ
ーマ字、外国語、漢字のかな混じりの各表現の標準的な
表記へ変換される。各表現のN4準的な表記は異表記発
生部へ送られさまざまな表記を発生する。類似語抽出部
50から送られる文字列がパジョウホウ″であった場合
、変換部で(″ジヨウホウ” ”ZYOUIIOU”″
情報″)となり、さらに発生部で(″ジヨウホウ″ “
ジョンホオ′″11ジ:+オホウ” ”ジョオホオ”
ZYOUHOU””ZYOUlloo”ZYOOHOI
J” ”ZYOOHOO” ′LZYOHI(OLI
”・・・″情報″)となって検索部80へ送られる。
次に第2の実施例の機能ブロック図を第2図に示す。第
1の実施例との違いについて主に説明する。第2図にお
いて第1の例と異なるのは同義語抽[P1部50の出力
500をこれから検索を行うデータベースに記載されて
いる文字コードの種類によって振り分ける検索対象種別
判別部90である。
1の実施例との違いについて主に説明する。第2図にお
いて第1の例と異なるのは同義語抽[P1部50の出力
500をこれから検索を行うデータベースに記載されて
いる文字コードの種類によって振り分ける検索対象種別
判別部90である。
検索対象種別判別部9oはデータベースに記載されてい
る文字コード900を検索部80から取り寄せ、その種
類が何であるか判別し、出力を各変換部へ送るか否か決
定する。例えば文字コード900がカナとアルファベッ
トから構成されていればカナ−漢字変換部61へは出力
を送らない。
る文字コード900を検索部80から取り寄せ、その種
類が何であるか判別し、出力を各変換部へ送るか否か決
定する。例えば文字コード900がカナとアルファベッ
トから構成されていればカナ−漢字変換部61へは出力
を送らない。
このようにすることにより、すべての場合を想定した第
1.の実施例よりも発生する文字コードが少なくなるの
で、能率的な検索を行うことができる。
1.の実施例よりも発生する文字コードが少なくなるの
で、能率的な検索を行うことができる。
本発明によれば、′デンサンキ”から(″デンシケイサ
ンキ”、″コンピュータ”といったシソーラス−ヒの拡
張のみでなく、第3図に示すような表現、表記上での拡
張も行うので検索における「もれ」を大幅に少なくする
という効果がある。
ンキ”、″コンピュータ”といったシソーラス−ヒの拡
張のみでなく、第3図に示すような表現、表記上での拡
張も行うので検索における「もれ」を大幅に少なくする
という効果がある。
このことトこより、従来、人間が経験的かつ試行錯誤的
に行っている情報検索作業を一回で済ます事ができる。
に行っている情報検索作業を一回で済ます事ができる。
前記実施例では示していないが、/バイト/文字表記の
EBCDIC,JIS、 ASCnや2バイト/文字表
記の、■I Sなどのコードについて、ある特定のコー
ドへの標準化や、異なるコードを発生するといった拡張
は容易に実現できる。例えば文字コード入力部がASC
Uコードを出力し、データベースが、EBCDICとJ
ISコードで記述されている場合でも、本発明によって
検索を成功させることができる。
EBCDIC,JIS、 ASCnや2バイト/文字表
記の、■I Sなどのコードについて、ある特定のコー
ドへの標準化や、異なるコードを発生するといった拡張
は容易に実現できる。例えば文字コード入力部がASC
Uコードを出力し、データベースが、EBCDICとJ
ISコードで記述されている場合でも、本発明によって
検索を成功させることができる。
同様に、アルファベットの大文字、小文字の区別、日本
語のカタカナと平仮名の区別に対しても、文字コードの
拡張で対処できる。
語のカタカナと平仮名の区別に対しても、文字コードの
拡張で対処できる。
第1図は本発明の情報検索方法の第1の実施例の機能ブ
ロック図、第2図は第2の実施例の機能ブロック図、第
3図は本発明の特徴である表記上での拡張の例、第4図
は本発明の実施例で用いる5o音表、第5図は、本発明
の実施例で用いるカナ表現の異表記辞書、第6図は本発
明の実施例で■3図 ス 4 図 不 5 図 χ 6 図 ■=■甲=甲面
ロック図、第2図は第2の実施例の機能ブロック図、第
3図は本発明の特徴である表記上での拡張の例、第4図
は本発明の実施例で用いる5o音表、第5図は、本発明
の実施例で用いるカナ表現の異表記辞書、第6図は本発
明の実施例で■3図 ス 4 図 不 5 図 χ 6 図 ■=■甲=甲面
Claims (1)
- 【特許請求の範囲】 1、文字コードを入力する手段と、前記文字コードと同
じ対象を指す文字コード群を発生する手段と、前記文字
コード群の中のいずれかの文字コードを持つ情報を検索
する手段より成る情報検索装置において、前記文字コー
ド群の発生がカナ、ローマ字、漢字の各表現を発生する
ことを特徴とする情報検索方法。 2、特許請求の範囲第1項記載の情報検索方法において
前記文字コード群の発生手段は、外来語の表現を発生す
ることを特徴とする情報検索方法。 3、特許請求の範囲第1項記載の情報検索方法において
前記文字コード群の発生手段は、カナ、ローマ字表現の
音節表記、漢字表現の送り仮名表記の違う発生を行うこ
とを特徴とする情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60150176A JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60150176A JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6211932A true JPS6211932A (ja) | 1987-01-20 |
JP2515726B2 JP2515726B2 (ja) | 1996-07-10 |
Family
ID=15491160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60150176A Expired - Lifetime JP2515726B2 (ja) | 1985-07-10 | 1985-07-10 | 情報検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2515726B2 (ja) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63304996A (ja) * | 1987-06-04 | 1988-12-13 | Toray Ind Inc | 融合タンパク質およびその製造方法 |
JPH03116375A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03209564A (ja) * | 1990-01-12 | 1991-09-12 | Hitachi Ltd | 文献データ登録方法 |
JPH0470967A (ja) * | 1990-07-05 | 1992-03-05 | Canon Inc | 画像検索装置及び画像検索方法 |
JPH04119469A (ja) * | 1990-09-10 | 1992-04-20 | Nec Corp | 辞書作成支援装置 |
JPH04158478A (ja) * | 1990-10-22 | 1992-06-01 | Matsushita Electric Ind Co Ltd | 情報の検索方法および情報蓄積装置 |
US5140644A (en) * | 1990-07-23 | 1992-08-18 | Hitachi, Ltd. | Character string retrieving system and method |
US5168533A (en) * | 1989-06-14 | 1992-12-01 | Hitachi, Ltd. | Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus |
US5220625A (en) * | 1989-06-14 | 1993-06-15 | Hitachi, Ltd. | Information search terminal and system |
JPH05324719A (ja) * | 1992-05-26 | 1993-12-07 | Sanyo Electric Co Ltd | 文書検索システム |
JPH06162079A (ja) * | 1992-11-20 | 1994-06-10 | Matsushita Electric Ind Co Ltd | 対訳検索装置 |
JPH06309362A (ja) * | 1993-04-27 | 1994-11-04 | Fujitsu Ltd | 情報検索方法 |
JPH06318222A (ja) * | 1993-05-07 | 1994-11-15 | Matsushita Electric Ind Co Ltd | 翻訳例文検索装置 |
JPH06332934A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 電子辞書引き装置 |
JPH0765013A (ja) * | 1993-08-26 | 1995-03-10 | Toshiba Corp | 文書検索装置 |
JPH0773197A (ja) * | 1993-09-03 | 1995-03-17 | Fujitsu Ltd | 異表記語辞書作成支援装置 |
JPH07152785A (ja) * | 1993-11-30 | 1995-06-16 | Sanyo Electric Co Ltd | カタカナ異表記変換装置 |
US5471610A (en) * | 1989-06-14 | 1995-11-28 | Hitachi, Ltd. | Method for character string collation with filtering function and apparatus |
JPH086970A (ja) * | 1994-06-15 | 1996-01-12 | Ado In Kenkyusho:Kk | 情報検索装置 |
JPH09259142A (ja) * | 1996-03-26 | 1997-10-03 | Mitsubishi Electric Corp | ローマ字/かな表記からの地名検索装置 |
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
JPH1125100A (ja) * | 1997-06-27 | 1999-01-29 | Internatl Business Mach Corp <Ibm> | データベース・アクセス・システム |
JPH11203281A (ja) * | 1998-01-09 | 1999-07-30 | Sharp Corp | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 |
JPH11272678A (ja) * | 1998-03-18 | 1999-10-08 | Fujitsu Ltd | 情報検索装置および方法 |
JP2000348055A (ja) * | 1999-06-08 | 2000-12-15 | Nec Corp | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 |
JP2001167093A (ja) * | 2000-11-10 | 2001-06-22 | Fuji Xerox Co Ltd | 外国語電子辞書の生成、検索のための方法および装置 |
JP2002092018A (ja) * | 2000-09-18 | 2002-03-29 | Nec Software Hokkaido Ltd | 片仮名平仮名も含めた検索システム |
JP2002351868A (ja) * | 2001-05-30 | 2002-12-06 | Seiko Instruments Inc | 電子辞書 |
JP2003178087A (ja) * | 2002-10-21 | 2003-06-27 | Fuji Xerox Co Ltd | 外国語電子辞書検索装置および方法 |
JP2003258786A (ja) * | 2002-02-27 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 公開鍵証明書検索装置、公開鍵証明書検索方法、コンピュータプログラムおよびコンピュータプログラムを記録した記録媒体 |
US6738763B1 (en) | 1999-10-28 | 2004-05-18 | Fujitsu Limited | Information retrieval system having consistent search results across different operating systems and data base management systems |
JP2006004427A (ja) * | 2004-06-12 | 2006-01-05 | Getty Images Inc | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 |
JP2011008784A (ja) * | 2009-06-24 | 2011-01-13 | Nhn Corp | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
JP2011141681A (ja) * | 2010-01-06 | 2011-07-21 | Yahoo Japan Corp | 類似語検索サーバ及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5398749A (en) * | 1977-02-08 | 1978-08-29 | Nec Corp | Information retrieval system |
JPS5692679A (en) * | 1979-12-26 | 1981-07-27 | Fujitsu Ltd | Word retrieval system by reading and writing |
-
1985
- 1985-07-10 JP JP60150176A patent/JP2515726B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5398749A (en) * | 1977-02-08 | 1978-08-29 | Nec Corp | Information retrieval system |
JPS5692679A (en) * | 1979-12-26 | 1981-07-27 | Fujitsu Ltd | Word retrieval system by reading and writing |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63304996A (ja) * | 1987-06-04 | 1988-12-13 | Toray Ind Inc | 融合タンパク質およびその製造方法 |
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
US6094647A (en) * | 1989-06-14 | 2000-07-25 | Hitachi, Ltd. | Presearch type document search method and apparatus |
US5471610A (en) * | 1989-06-14 | 1995-11-28 | Hitachi, Ltd. | Method for character string collation with filtering function and apparatus |
US5168533A (en) * | 1989-06-14 | 1992-12-01 | Hitachi, Ltd. | Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus |
US5220625A (en) * | 1989-06-14 | 1993-06-15 | Hitachi, Ltd. | Information search terminal and system |
JPH03116375A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
JPH03209564A (ja) * | 1990-01-12 | 1991-09-12 | Hitachi Ltd | 文献データ登録方法 |
JPH0470967A (ja) * | 1990-07-05 | 1992-03-05 | Canon Inc | 画像検索装置及び画像検索方法 |
US5140644A (en) * | 1990-07-23 | 1992-08-18 | Hitachi, Ltd. | Character string retrieving system and method |
JPH04119469A (ja) * | 1990-09-10 | 1992-04-20 | Nec Corp | 辞書作成支援装置 |
JPH04158478A (ja) * | 1990-10-22 | 1992-06-01 | Matsushita Electric Ind Co Ltd | 情報の検索方法および情報蓄積装置 |
JPH05324719A (ja) * | 1992-05-26 | 1993-12-07 | Sanyo Electric Co Ltd | 文書検索システム |
JPH06162079A (ja) * | 1992-11-20 | 1994-06-10 | Matsushita Electric Ind Co Ltd | 対訳検索装置 |
JPH06309362A (ja) * | 1993-04-27 | 1994-11-04 | Fujitsu Ltd | 情報検索方法 |
JPH06318222A (ja) * | 1993-05-07 | 1994-11-15 | Matsushita Electric Ind Co Ltd | 翻訳例文検索装置 |
JPH06332934A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 電子辞書引き装置 |
JPH0765013A (ja) * | 1993-08-26 | 1995-03-10 | Toshiba Corp | 文書検索装置 |
JPH0773197A (ja) * | 1993-09-03 | 1995-03-17 | Fujitsu Ltd | 異表記語辞書作成支援装置 |
JPH07152785A (ja) * | 1993-11-30 | 1995-06-16 | Sanyo Electric Co Ltd | カタカナ異表記変換装置 |
JPH086970A (ja) * | 1994-06-15 | 1996-01-12 | Ado In Kenkyusho:Kk | 情報検索装置 |
JPH09259142A (ja) * | 1996-03-26 | 1997-10-03 | Mitsubishi Electric Corp | ローマ字/かな表記からの地名検索装置 |
JPH1125100A (ja) * | 1997-06-27 | 1999-01-29 | Internatl Business Mach Corp <Ibm> | データベース・アクセス・システム |
JPH11203281A (ja) * | 1998-01-09 | 1999-07-30 | Sharp Corp | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 |
JPH11272678A (ja) * | 1998-03-18 | 1999-10-08 | Fujitsu Ltd | 情報検索装置および方法 |
JP2000348055A (ja) * | 1999-06-08 | 2000-12-15 | Nec Corp | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 |
US6738763B1 (en) | 1999-10-28 | 2004-05-18 | Fujitsu Limited | Information retrieval system having consistent search results across different operating systems and data base management systems |
JP2002092018A (ja) * | 2000-09-18 | 2002-03-29 | Nec Software Hokkaido Ltd | 片仮名平仮名も含めた検索システム |
JP2001167093A (ja) * | 2000-11-10 | 2001-06-22 | Fuji Xerox Co Ltd | 外国語電子辞書の生成、検索のための方法および装置 |
JP2002351868A (ja) * | 2001-05-30 | 2002-12-06 | Seiko Instruments Inc | 電子辞書 |
JP2003258786A (ja) * | 2002-02-27 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 公開鍵証明書検索装置、公開鍵証明書検索方法、コンピュータプログラムおよびコンピュータプログラムを記録した記録媒体 |
JP2003178087A (ja) * | 2002-10-21 | 2003-06-27 | Fuji Xerox Co Ltd | 外国語電子辞書検索装置および方法 |
JP2006004427A (ja) * | 2004-06-12 | 2006-01-05 | Getty Images Inc | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 |
JP2012248210A (ja) * | 2004-06-12 | 2012-12-13 | Getty Images Inc | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 |
JP2011008784A (ja) * | 2009-06-24 | 2011-01-13 | Nhn Corp | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
JP2011141681A (ja) * | 2010-01-06 | 2011-07-21 | Yahoo Japan Corp | 類似語検索サーバ及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2515726B2 (ja) | 1996-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6211932A (ja) | 情報検索方法 | |
US20070011132A1 (en) | Named entity translation | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JPH0724056B2 (ja) | コンピュータによる形態論的テキスト解析方法 | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
Kumar et al. | A study of spell checking techniques for indian languages | |
JPH0315980A (ja) | 文字列検索装置 | |
Chaware et al. | Rule-based phonetic matching approach for Hindi and Marathi | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Al-Taani et al. | Searching concepts and keywords in the Holy Quran | |
JP2009230561A (ja) | 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
JP2002132789A (ja) | 文書検索方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
Yahia et al. | An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic | |
Šimon et al. | Transliterated named entity recognition based on Chinese word sketch | |
JP4262529B2 (ja) | 全文検索装置、方法、プログラム及び記録媒体 | |
JP3508312B2 (ja) | キーワード抽出装置 | |
Lee et al. | Automatic acquisition of phrasal knowledge for English-Chinese bilingual information retrieval | |
Kiawkaew et al. | A Practical Technique for Thai-English Word Mapping Using Phonetic Rules: Person Name Matching Case Study | |
Morris | A review of recent developments in term conflation approaches for Arabic text information retrieval | |
Rina et al. | A method for intelligent association of chinese input using inductive learning | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 | |
JPH03229367A (ja) | テキストベース検索方式 | |
JP2014164739A (ja) | 対訳辞書生成装置及び方法、並びにそのためのコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |