JPWO2009066501A1 - 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JPWO2009066501A1
JPWO2009066501A1 JP2009542497A JP2009542497A JPWO2009066501A1 JP WO2009066501 A1 JPWO2009066501 A1 JP WO2009066501A1 JP 2009542497 A JP2009542497 A JP 2009542497A JP 2009542497 A JP2009542497 A JP 2009542497A JP WO2009066501 A1 JPWO2009066501 A1 JP WO2009066501A1
Authority
JP
Japan
Prior art keywords
character string
word
information
document
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009542497A
Other languages
English (en)
Other versions
JP5116775B2 (ja
Inventor
幸生 植松
幸生 植松
健吾 藤岡
健吾 藤岡
小長井 俊介
俊介 小長井
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009542497A priority Critical patent/JP5116775B2/ja
Publication of JPWO2009066501A1 publication Critical patent/JPWO2009066501A1/ja
Application granted granted Critical
Publication of JP5116775B2 publication Critical patent/JP5116775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる情報をインデックスDBから取得する文字列情報検索手段と、該文字列と検索された情報との類似度を算出する類似度算出手段と、類似度の高い順に検索された情報を出力する出力手段と、を有する情報検索装置が提供される。当該情報検索装置において、前記文字列情報検索手段は、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める手段を含み、前記類似度算出手段は、前記単語の出現位置間の距離に基づいて類似度を算出する手段を含む。

Description

本発明は、情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、大量の文書から文字列によって検索を行うための、全文検索のインデックスを構築するための情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。詳しくは、検索条件の文字列が2単語(形態素)以上で構成される場合の情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
大量の文書の中から、検索条件として入力された文字列を含む文書を検索して提示するシステムが実現されている。情報検索装置は、一般的に、情報検索装置の文字列DBに保存される文書情報の中から、検索条件として入力された文字列を含む文書を特定する処理(ルックアップと呼ばれる)と、当該文字列と、当該文字列を含む各文書との類似度(スコアとも呼ばれる)を算出する処理(ランキングと呼ばれる)を行う。そして、情報検索装置は、検索結果として、この類似度が高い順に文書(文書IDでもよい)を表示する。なお、本明細書において、"文書"とは、ある単位の文の集合であり、"文"とは、句点で区切られた単位の文字列である。例えば、1つの文書ファイルは、1つの文書と考えることができる。以下、従来の技術の例をより詳細に説明する。
図1は、従来の情報検索装置10の構成例を示す。図1において、情報検索装置10、クライアント20、及びネットワーク30が、情報検索システムを構成している。図中の、文字列インデックスDB3は、検索対象となる文書群(本明細書において、"文書"を"文書群"の意味で使用する場合がある)の情報を検索しやすいデータ構造で格納したものであり、本例では、転置インデックスを格納する。従来の転置インデックスは、単語毎に、その単語が出現する文書IDと、その文書の中での当該単語の単語単位での出現位置を有する。また、当該単語の当該文書内での出現頻度を転置インデックスに含めてもよい。
同図に示す情報検索装置10において、クライアント20から転送された文字列がクライアント入力受付部1より入力される。入力された文字列は文字列情報検索部2において単語毎に分割される。そして、文字列情報検索部2は、その分割された単語毎に、当該単語が含まれる文書の文書IDとその文書内での単語の出現位置を文字列インデックスDB3から取得する。
さて、検索条件を構成する単語の中には、「東京」と「都」のように、「東京都」という複合語を分割した複数の単語(形態素)が含まれる場合がある。このような複合語では、2つの単語が隣り合って1つの意味を持つものであるから、ルックアップの処理において、2つの単語が検索対象文書の中で隣り合っているかどうかを確認する処理を行うのが一般的である。これを連接処理と呼ぶ。情報検索装置10における連接処理の具体例は以下のとおりである。
入力された文字列が「東京都」である場合、情報検索装置10における文字列情報検索部2は、「東京都」を「東京」と「都」に分割する。そして、文字列情報検索部2は、分割して取得された各単語が存在する文書IDと、その出現位置を文字列インデックスDB3から取得する。図2に、取得した情報の例を示す。図2において、「東京」が、文書ID133、144、170の文書に含まれることが示されている。また、文書ID133の文書では、「東京」の出現頻度が2で、当該文書中の5番目と22番目に出現し、文書ID144の文書では、出現頻度が3で、文書中の1番目、11番目、18番目に出現していることが示されている。「都」についても同様に、出現文書、出現頻度、単語単位の出現位置が示されている。
そして、文字列情報検索部2は、「東京」の次に「都」が出現している文書の有無をチェックし、文書ID144の文書において「東京」の次に「都」が出現していることを確認する。これにより、文字列情報検索部2は、「東京都」という複合語が含まれる文書として文書ID144を出力することができる。
分割された複数の単語において、どれが複合語を構成する単語であるかは最初は不明であるから、文字列情報検索部2は、検索条件に含まれる単語のいずれかを持つ全ての文書に対して連接処理を行うことになり、大きな処理コストがかかるという問題がある。また、単語単位で位置情報を有する文字列インデックスでは、位置情報が多くのリソースを利用してしまうという問題もある。
上記のようにしてルックアップ処理が終わった後、類似度算出部4は、文字列インデックスDB3から取得から得られた情報を用いて、入力された文字列と、当該文字列が出現する各文書との類似度を算出し、その類似度が高い文書順にその結果をクライアント出力部5に転送する。
文字列と文書との類似度は、例えば、TFIDF(Term Frequency Inverse Document Frequency)を利用して算出される(非特許文献1)。この場合の類似度算出部4を詳細に示すと図3のようになる。図3に示すように、類似度算出部4は、単語重要度(idf)を利用して類似度を算出する単語重要度類似度算出部41と、単語頻度(tf)を利用して類似度を算出する単語頻度類似度算出部42より構成され、この二つの値を乗算した値が文書と単語との類似度になる。検索条件である文字列と、文書との類似度は、当該文字列を構成する全ての単語に関して上記の類似度を算出し、これら類似度の和を求めることにより得られる。
Figure 2009066501
上記の式がその計算方法を示す。sim(Q,d)が検索条件Qと文書dの類似度を表す関数であり、wdiが検索条件Qを構成する単語wのスコアで、そのスコアは単語wのtf(単語wの文書d上の出現回数)とidf(wが出現する文書数/全文書数)から算出される。ここでは、単語の位置情報を利用することなく、類似度を算出している。
また、連接をみて類似度を算出する場合は、例えば、「東京都」というq1"東京"とq2"都"という2単語から構成される複合語が入力となった場合、2つの類似度算出方法がある。そのまま、q1、q2をw1、w2とみなしてTFIDFを計算する方法と、q1とq2が連接している複合語を1つの単語wと見做して、類似度を計算する方法する方法がある。前者は、位置情報を無視し、後者は連接している場合をスコア1、連接していない場合をスコア0として、位置情報を利用しているだけである。また、従来技術では、複数の単語が入力となった場合でも、その単語の出現位置情報を考慮しない。
文字列と文書との類似度算出方法としては、BM25と呼ばれる方法もある(非特許文献2)。しかし、この方法でもTFIDFと同様に、文字列が複数の単語を含む場合に、各単語の文中での出現位置情報を考慮せずに類似度を算出している。
また、英語を対象として、入力された語が複数の場合に、その複数の単語が近傍に出現すること(以下、近接)を考慮して類似度を算出する方法もある(例えば、非特許文献3参照)。
Gerard Salton and Chris Buckley, Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management: an International Journal, Pages: 513-523 Vol.24, Issue 5, 1988. Stephen E. Robertson, Steve Walker, Micheline Hancock-Beaulieu, Asrron Gull, and Marianna Lau. Okapi at TREC3. In text Retrieval Conference, pages 21-30, 1992. Tao Tao and ChengXiang Zhai. An exploration of proximity measures in information retrieval. In SIGIR '07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp.295-302. New York, NY, USA, 2007. ACM Press.
上述したように、単語単位で位置情報を有する文字列インデックス(転置インデックス)では、位置情報の量が多いとともに、連接処理に大きな処理コストがかかるという問題がある。
また、非特許文献1及び非特許文献2に記載されている類似度算出方法では、入力された文字列が複数単語(もしくは形態素)で構成されたとしても、入力された文字列が出現する位置とは無関係に類似度算出を行うため、情報検索装置の精度が低いという問題があった。
また、非特許文献3に記載された類似度算出方法では、入力された単語が複数の場合に、その複数の単語が近傍に出現すること(近接)を考慮した類似度の算出を提案しているが、一つの単語が複数の形態素で構成されていることは想定されていない。
本発明は、上記の点に鑑みなされたもので、従来の問題を解消するための文字列インデックスを提供するとともに、近接している情報を利用した類似度の算出を文書全体に対して行うことで、検索精度を高め、また、計算コスト削減が実現可能な情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
上記の課題を解決するために、本発明は、クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる情報をインデックスDBから取得する文字列情報検索手段と、該文字列と検索された情報との類似度を算出する類似度算出手段と、類似度の高い順に検索された情報を出力する出力手段と、を有する情報検索装置であって、前記文字列情報検索手段は、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める手段を含み、前記類似度算出手段は、前記単語の出現位置間の距離に基づいて類似度を算出する手段を含むことを特徴とする情報検索装置として構成される。
また、本発明は、クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる文書に関する情報を、単語毎に文書における文単位の単語出現位置情報を格納したインデックスDBから取得する文字列情報検索手段と、該文字列と文書との類似度を算出する類似度算出手段と、類似度の高い順に検索された文書の情報を出力する出力手段と、を有する情報検索装置であって、前記文字列情報検索手段は、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、前記インデックスDBを検索することにより、各単語の文単位の出現位置情報を文書毎に取得する手段を含み、前記類似度算出手段は、各文書における前記複数の単語の文単位での共起の度合いに基づいて、各文書と前記文字列との類似度を算出する手段を含むことを特徴とする情報検索装置として構成することもできる。
上記の情報検索装置において、前記類似度算出手段は、ある文書において、前記複数の単語が共起する文の数を、当該文書における前記共起の度合いとして求めることとしてもよい。
また、本発明は、上記情報検索装置が実行する処理方法としての情報検索方法としても構成できる。更に、本発明は、上記情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラム、及び、当該情報検索プログラムを格納したコンピュータ読取可能な記録媒体として構成することもできる。
上記のように本発明によれば、2単語以上(もしくは2形態素以上で構成される1単語)を検索条件として検索を要求された場合に、単語の出現位置情報を用いることにより、その2単語が近傍に出現すること、あるいは、その2単語が文中で共起することを考慮した類似度を算出できる。これにより、検索精度を向上させる可能性がある。また、その出現位置をビットで格納し、ビット演算のみで実現することにより低コストで類似度を算出することができる。
また、連接処理を行わずに、単語の近接の度合い(距離)あるいは単語の共起の度合いにより類似度を算出することにより、処理コストが連接処理を行う従来技術より低減する。また、再現率が従来技術に比べて向上する。更に、区切られた区間として、単語単位の位置情報ではなく、文単位の位置情報を用いて文字列インデックスを構成することにより、単語単位の位置情報を用いている従来の文字列インデックスに比べて情報量を削減できる。
情報検索システムの構成図である。 従来の文字列インデックスDBから取得した情報の例を示す図である。 類似度算出部4を示す図である。 本発明の実施の形態に係る情報検索装置の概要構成例を示す図である。 本発明の実施の形態に係る情報検索方法の概要を説明するための図である。 本発明の実施の形態に係るシステム構成図である。 本発明の第1の実施の形態における類似度算出部4'の構成図である。 本発明の第1の実施の形態における情報処理装置10の一連の動作のフローチャートである。 本発明の第1の実施の形態における位置近接情報を利用した類似度算出処理のフローチャートである。 本発明の第1の実施の形態における文字列インデックスDB3'に格納されるデータの構造例を示す図である。 本発明の第1の実施の形態における文字列インデックスDB3'のビット列による位置情報の格納例である。 ビットマップを利用した位置情報を用いる場合の近接計算を説明するための図である。 文内共起回数を説明するための図である。 本発明の第2の実施の形態における情報検索装置10の構成図である。 本発明の第2の実施の形態における近接を考慮しない単語が入力された場合を示す図である。 本発明の第3の実施の形態における情報検索装置10の構成図である。 本発明の第3の実施の形態における文単位で位置情報を持った場合の連接実現方法を説明するための図である。
符号の説明
1 クライアント入力受付部、文字列入力手段
2 文字列情報検索部、文字列情報検索手段
3,3' 文字列インデックスDB
4,4' 類似度算出部、類似度算出手段
5 クライアント出力部、出力手段
6 文字列選択部
10 情報検索装置
12 近接未考慮単語リスト記憶部
14 文書保存DB
20 クライアント
30 ネットワーク
41 単語重要度類似度算出部
42 単語頻度類似度算出部
43 単語位置類似度算出部
以下、図面と共に本発明の実施の形態を説明する。まず、本発明の実施の形態の概要例を図4、図5を参照して説明する。
図4は、本実施の形態に係る情報検索装置の概要構成例を示す図である。図4に示すように、この情報検索装置は、クライアントからの文字列を取得する文字列入力手段1と、該文字列が含まれる情報をDBから取得する文字列情報検索手段2と、該文字列と検索された情報との類似度を算出する類似度算出手段4と、類似度の高い順に検索された情報を出力する出力手段5と、を有する情報検索装置であって、文字列情報検索手段2は、入力された文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDB3'を検索し、該単語の出現位置間の距離を求める手段を含み、類似度算出手段4は、単語の出現位置間の距離に基づいて類似度を算出する手段を含む。
また、インデックスDB3'が、単語と該単語の文中の出現位置情報を文単位で集約した情報を保持し、出現位置情報をビット列で表現し、文字情報検索手段2において、インデックスDB3を検索し、ビット列による単語の出現位置情報を取得する手段を含み、類似度算出手段4において、インデックスDB3'の出現位置情報のビット列を用いてビットの論理演算により類似度を求める手段を含むこととしてもよい。
また、前記情報検索装置において、入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択手段を更に有し、文字列情報検索手段2において、文字列選択手段において、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとしてインデックスDB3を検索する手段を含むこととしてもよい。
また、前記情報検索装置において、文字列情報検索手段2が、インデックスDB3に文単位で文番号及び出現位置情報が格納されている場合には、入力された文字列から得られた単語に基づいて、該インデックスDB3を検索し、得られた文番号を、文書が保存されている文書保存DBから検索し、該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する連接確認手段を更に有することとしてもよい。
図5は、本発明の実施の形態に係る情報検索方法の概要を説明するための図である。当該情報検索方法は、クライアントからの文字列を取得し、該文字列が含まれる情報をDBから取得し、該文字列と検索された情報との類似度を算出し、類似度の高い順に検索された情報を出力する(ステップ3)装置における情報検索方法であって、文字列情報検索手段が、入力された文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める文字列情報検索ステップ(ステップ1)と、類似度算出手段が、単語の出現位置間の距離に基づいて類似度を算出するステップ(ステップ2)と、有する。
また、前記情報検索方法において、インデックスDBが、単語と該単語の文中の出現位置情報を文単位で集約した情報を保持し、該出現位置情報をビット列で表現されている場合に、文字列情報検索ステップにおいて、インデックスDBを検索し、ビット列による単語の出現位置情報を取得し、類似度算出ステップにおいて、インデックスDBの出現位置情報のビット列を用いてビットの論理演算により類似度を求めることとしてもよい。
また、前記情報検索方法において、入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択ステップを更に行い、文字列情報検索ステップにおいて、文字列選択ステップで近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索することとしてもよい。
また、前記情報検索方法における文字列情報検索ステップにおいて、インデックスDBに文単位で文番号及び出現位置情報が格納されている場合には、入力された文字列から得られた単語に基づいて、該インデックスDBを検索し、得られた文番号を、文書が保存されている文書保存DBから検索し、該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力することとしてもよい。
本実施の形態において、情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラムを提供することができる。また、この情報検索プログラムを格納したコンピュータ読取可能な記録媒体を提供することもできる。
以下、本発明の各実施の形態を詳細に説明する。
本発明の実施の形態では、インターネットのWebサーバ上で動作する情報検索プログラムが、ハードディスクなどの記録媒体に保存され、当該Webサーバ上で実行させることを想定している。よって、クライアント側はネットワークを介してWebブラウザ等を利用し、当該情報検索装置にアクセスし、クライアント入力受付部、及び出力部を通して情報を検索する。この方法は、スタンドアロンの形態のシステムにも適用することが可能である。
本発明の実施の形態に係るシステム構成を図6に示す。図6に示すとおり、本発明の実施の形態のシステムは、クライアント20、ネットワーク30、及び情報検索装置10を有する。情報検索装置10は、クライアント入力受付部1、文字列情報検索部2、文字列インデックスDB3'、類似度算出部4'、クライアント出力部5から構成される。その構成は、前述の図1とほぼ同様であるが、文字列インデックスDB3'及び類似度算出部4'の構成は、図1に示した文字列インデックスDB3及び類似度算出部4と異なる。
図6の構成において、情報検索装置10には、クライアント20からネットワーク30を介してクライアント入力受付部1に文字列が入力される。クライアント入力受付部1から文字列が文字列情報検索部2に転送されると、文字列は単語毎に分割される。文字列情報検索部2は、その分割された各単語が含まれる文書とその文書内の単語の出現位置を文字列インデックスDB3'から取得し、それらを類似度算出部4'に転送する。類似度算出部4'は、取得された単語と単語の出現位置に基づいて、文字列と各文書との類似度を計算する。なお、図6に示す構成における機能分担は、以下に説明するものに限られるわけではない。例えば、文字列情報検索部2が、類似度算出部4'における処理の一部(近接の度合いの計算、共起の度合いの計算等)を行うこととしてもよい。
類似度算出部4'は、転送された文字列が単一の単語の場合は、その単語と、その単語が出現する文書との類似度を例えば、前述の非特許文献1の方法で算出し、その類似度が高い文書順に文書IDを出力する。なお、文書IDから、別のデータベースを検索して、文書そのものを出力してもよい。その単語が複数の単語で構成されている場合は、類似度算出部4'は、その複数の単語がどの程度近接しているのかを考慮して、文字列と文書との類似度を算出し、その結果として、類似度が高い文書順に文書ID等をクライアント出力部5に転送する。
図7は、本発明の第1の実施の形態における類似度算出部4'の構成を示す。
同図に示す類似度算出部4'は、従来技術と比較して、単語重要度類似度算出部41、単語頻度類似度算出部42に加え、単語位置類似度算出部43が追加されている。この単語位置類似度算出部43は、近接情報又は共起情報を利用した類似度を算出する。
次に、本発明の実施の形態に係る一連の処理について説明する。
図8は、本発明の第1の実施の形態における情報処理装置10の一連の動作のフローチャートである。
ステップ101) クライアント入力受付部1より文字列が入力されると、文字列情報検索部2は、入力された文字列を単語毎に分割する。例えば、"東京都"という文字列が入力されると、形態素解析処理を利用して単語毎に分割する。単語毎に分割すると、一般的に"東京"及び"都"という文字列に分割される。
ステップ102) 文字列情報検索部2は、文字列が2単語以上で構成されるかをチェックする。2単語以上である場合はステップ103に移行し、単一単語である場合は、ステップ105に移行する。
ステップ103) 文字列情報検索部2は、文字列インデックスDB3'を検索して、分割された単語毎に、分割された単語を持つ文書と単語出現位置を取得する。
ステップ104) 類似度算出部4'は、近接情報を利用して類似度を算出し、ステップ107に移行する。なお、近接情報を利用した類似度の算出方法については後述する。
ステップ105) 類似度算出部4'は、文字列インデックスDB3'から入力文字列である単一の単語を持つ文書と単語出現頻度を取得する。
ステップ106) 類似度算出部4'は、1単語の場合の単語の重要度は全ての文書で共通であるので、単語頻度類似度算出部42において単語の頻度のみで、当該単語と、当該単語が出現する各文書との類似度を算出する。
ステップ107) 上記のステップ102において、入力文字列が2単語以上である場合は、類似度算出部4'は、近接情報を利用した検索結果(例えば、文書ID)を類似度順(例えば類似度の高い順)に並べ、クライアント出力部5に転送する。ステップ102において、入力文字列が単一単語の場合には、類似度算出部4'は、単語頻度情報を用いて算出された類似度順に検索結果をソートしてクライアント出力部5に転送する。これにより、クライアント出力部5は、検索結果をクライアント20に提示する。
次に、上記のステップ104における位置近接情報を利用した類似度算出方法について説明する。
図9は、本発明の第1の実施の形態における位置近接情報を利用した類似度算出処理のフローチャートである。
ステップ201) 類似度算出部4'の単語位置類似度算出部43において、文字列から分割して得られた各単語を含む文書の文書IDとその文書IDでの各単語の出現位置を取得する。その情報は、文字列情報検索部2が文字列インデックスDB3'から取得した情報から取得できる。
ここで、本実施の形態における文字列インデックスDB3'に格納されるデータの構造例を図10に示す。図10の例では、単語毎に、単語とその単語が出現する文書IDが保存され、更に、文書ID毎に、当該単語の出現位置データが保存されている。また、本実施の形態における単語の出現位置は、文単位の出現位置である。
例えば、word1が"東京"という文字列である場合、"東京"はid1という文書に存在し、その出現位置は、id1という文書の中の1文目、3文目、4文目、及び8文目であることを示している。また、その構造をbitmapで持たせた例を図11に示す。図10では文単位の出現位置が数値で示されていたのに対し、図11ではbitmapで表現されている。例えば、word1のid1の文書に関する"0010"は、3文目に単語word1が存在することを示している。本発明の実施の形態では、単語の位置情報を文単位としたが、必ずしもこれに限定されることはなく、ある区切られた区間毎の単位であればよい。例えば、この位置情報を単語単位の出現位置や、段落単位の出現位置などに変更しても同様の近接に基づく類似度算出処理が可能である。
入力された文字列を分割して得られた単語が「東京」と「都」であった場合、ステップ201の処理において、単語位置類似度算出部43は、「東京」と「都」の両方を含む文書の文書IDと、その文書内での「東京」の文単位での出現位置、及び、その文書内での「都」の文単位での出現位置を取得することになる。例えば、図10の例において、word1が「東京」であり、word2が「都」であるとすれば、ステップ201において、単語位置類似度算出部43は、「東京」に対して、文書ID1と、その中の出現位置(1文目、3文目、4文目、8文目)、及び、「都」に対して、文書ID1と、その中の出現位置(1文目、5文目、6文目、8文目)を取得することになる。
この例において、以下では、単語位置類似度算出部43は、文書ID1の文書内で、「東京」の文単位での出現位置と「都」の文単位での出現位置とがどの程度近接しているかを示すスコアを算出し、そのスコアを、入力文字列(「東京都」)と文書ID1の文書との類似度とする処理を行う。
ステップ202) 単語位置類似度算出部43は、カウンタk=0、及び、nをセットする。nとは、前後何文までの近接を見るかを指定するための数値である。例えば、n=1だとすると、隣り合う文のみに着目して近接類似度を求めることになる。逆にある文書がm文で構成され、そのmをnにセットすると文書全体での近接類似度を算出することができる。
ステップ203) 単語位置類似度算出部43は、kの値がn以下かどうかをチェックする。n以下の場合は、ステップ204に移行し、nより大きい場合はステップ207に移行する。
ステップ204〜205) 単語位置類似度算出部43は、ステップ201で得られた出現位置群のペアのうちの一方の出現位置を文単位でkだけずらし(例えば、減算し)て得られた出現位置と、他方の出現位置との一致度 score(Q,d,k) を算出する。一致度score(Q,d,k)は例えば、下記に示される式で算出される。
Figure 2009066501
上記の式において、Qはクエリ集合(文字列を分割して得た単語の集合)、dは文書、Pos(q)は、文書d中のq(単語、例えば上記の例の「東京」)の出現位置を示し、Posdk(q)は文書d中のq(単語、例えば上記の例の「都」)の出現位置からk減算した列を表す。例えば、図10のword2が「都」である例において、kが0の場合、Posdk(q)は(1、5、6、8)である。また、この例において、kが1の場合、Posdk(q)は(0、4、5、7)である。
Count(Pos,Pos)は、2つのポジションデータが与えられた時に、その一致度を返す関数で、例えば、入力がk=0だった場合は、同一文に単語qとq以外の単語であるqが出現する回数の合計を出力する。また、k=1の場合、Count(Pos,Pos)は、隣り合う文に単語qと単語qが出現する回数の合計を出力する。
例えば、単語qが上記の例の「東京」であり、q以外の単語qが上記の例の「都」であるとすると、k=0の場合において、Pos(q)は(1、3、4、8)であり、Posdk(q)は、(1、5、6、8)であるから、Countは2を返す。つまり、これは、対象の文書において、「東京」と「都」が同一文に出現する回数が2回(文1と文8)であることを示す。
αは係数であり、例えば1である。1/(αk+1)によってより近い位置の文に各単語が存在する場合に大きなスコアが算出される。
ステップ206) 単語位置類似度算出部43は、kの値を1インクリメントし、ステップ203に戻る。
ステップ207) 単語位置類似度算出部43は、各kの値で算出されたscoreの値の合計値を入力文字列と文書との類似度として出力する。これが単語の位置情報を考慮した類似度となる。より詳細には、これは近接の度合いを考慮した類似度である。これは、以下の式で算出される。
Figure 2009066501
図11に示すビットマップを利用した位置情報を用いる場合は、PosとPosdkをkビットシフトした情報で論理積をとり、その論理積をとった結果のビットから1の数をカウントするだけでcountを計算することができる。図12は、ビットマップを利用した位置情報を用いる場合の近接計算を説明するための図であり、Q(word_2,word_1),d=1,k=1が入力になったときのスコアの算出例を示している。まず、文字列情報検索部2は、word1とword2の位置情報を文字列インデックスDB3'(図11に示す構成)から取得する。類似度算出部4'は、その取得した位置情報からword_1の位置情報を1ビットシフトし、word_2の位置情報と論理積をとる。その論理積の結果のビット位置が隣の1文にword1とword2が存在した位置である。この例の場合、立っているビットが2ビット目の一つだけなので、scoreは"1"である。このビット列から1の数を数える方法としては、例えば、Intel CPUのSSE4命令POPCNTで高速に求める方法がある。
検索条件である文字列と、文書との類似度の算出方法の他の例を次に説明する。この例では、下記の数式を用いて類似度(スコア)を算出する。
Figure 2009066501
上記の式(1)は、文字列(クエリ)qの集合Qと文書dとの類似度scoreが、クエリ毎の類似度w(q)の和であることを示し、式(2)は、クエリqが、形態素tの集合Tから構成されることを示す。式(3)は、類似度w(q)が、形態素毎の類似度w(t)の和であることを示す。類似度w(t)は、式(4)により求められる。
この式(4)は、非特許文献2に示されているBM25で用いられる下記の式
Figure 2009066501
における、tf(t,d)(形態素tの文書dにおける出現頻度)を、coocc(T,d)に置き換えたものに相当する。それ以外のパラメータについては、BM25におけるパラメータと同様である。Nは全文書数を示す。df(t)は、tを含む文書数であり、kは係数である。Kは、kと文書長等から求められる値である。
coocc(T,d)は、Tの文書dにおける文内共起回数である。例えば、Tが、「東京」と「都」である場合において、類似度算出にあたり、類似度算出部4'は、ぞれぞれの単語についての文書ID、出現頻度、文単位位置情報として、図13に示す情報を、文字列インデックスDB3'から、又は、文字列情報検索部2から取得する。この例では、文字列インデックスDB3'は、文書IDと、文単位の単語出現位置情報とともに、単語の出現頻度を有する。この出現頻度は、ある文に該当の単語が存在すれば、それが2回以上同じ文に出現する場合でも、1加算されるものである。
図13に示す情報を取得した類似度算出部4'は、文単位の位置情報に基づき、文1、文34、文52において、「東京」と「都」が共起していることを検知し、coocc(T,d)(この場合、Tは「東京」と「都」、dは133)を3とする。そして、上記の式(4)、式(3)を用いて、文書133についての、"東京都"に対する類似度を求めることができる。
なお、上記の例では、BM25の式の一部を文内共起回数coocc(T,d)に置き換えた式を用いて類似度を算出しているが、BM25の式に基づくことは必ずしも必須ではない。文内共起回数coocc(T,d)を用いるのであれば、他の式を用いてもよい。また、例えば、文内共起回数coocc(T,d)そのものを類似度とすることも考えられる。
上記のように、本実施の形態では、連接処理を行わずに、区切られた区間(上記の例では文)単位での単語の近接の度合いあるいは単語の共起の度合いにより類似度を算出しているため、処理コストが連接処理を行う従来技術より低減する。また、再現率が従来技術に比べて向上する。更に、区切られた区間として、単語単位の位置情報ではなく、文単位の位置情報を用いて文字列インデックスDB3'を構成することにより、単語単位の位置情報を用いている従来の文字列インデックスDBに比べて情報量を削減できる。
[第2の実施の形態]
上記で入力された文字列が2単語(形態素)以上であった時に、近接していることを利用した類似度の算出方法を説明した。しかしながら、必ずしも近接していることが精度向上に繋がるとは言えない。例えば、"レストラン名 電話番号"という文字列が検索条件として入力された場合、"レストラン名 電話番号"を探しているわけではなく、あるレストランのページで「電話番号」という文字列が存在しているページを提示するだけでよい可能性がある。そこで、本実施の形態では、その検索条件として入力された単語が、近接を考慮するか否かを判断する。
図14は、本発明の第2の実施の形態における情報検索装置10の構成を示す。同図において、図6と同一構成部分については同一符号を付し、その説明を省略する。
同図に示す情報検索装置10は、図6の情報検索装置10に文字列選択部6と、近接未考慮単語リスト記憶部12が付加された構成である。近接未考慮単語リスト記憶部12は、近接を考慮しない単語が登録されている。
文字列選択部6は、検索条件として入力された単語に基づいて、近接未考慮単語リスト記憶部12を参照して、当該単語が近接未考慮単語リスト記憶部12に存在する場合には、近接を考慮しない単語であると判定する。文字列情報検索部2は、文字列選択部6において近接を考慮しない単語であると判断された場合には、全ての位置にその単語が存在することとして近接処理を行う。図15は、本発明の第2の実施の形態における近接を考慮しない単語が入力された場合を示す。同図に示すword_1が近接を考慮しない単語の例で、その出現位置は"0010"である。本実施の形態では、当該単語の出現位置を全ての文に存在する"1111"に変換し、類似度算出部4'による類似度算出処理を行う。類似度算出部4'による処理は、前述の第1の実施の形態での処理と同様である。
近接未考慮単語の出現位置を"1111"に変換することにより、当該単語の出現位置は類似度のスコアに寄与しなくなる。
[第3の実施の形態]
入力された文字列が2単語で構成される場合に、文単位の単語出現位置情報のみを用いた近接処理では、複合語を判別できないので、検索精度が低下する恐れがある。そこで、本実施の形態では、2単語で構成される語の連接処理を単語出現位置情報が文単位で保存されている場合に実現する方法を説明する。
図16は、本発明の第3の実施の形態における情報検索装置10の構成を示す。
同図に示す情報検索装置は、図6の構成に文書保存DB14が追加された構成である。また、文字列インデックスDB3'は、単語に対して、単語単位ではなく、文書IDと文単位の位置情報を保持している。
図17は、本発明の第3の実施の形態における文単位で位置情報を持った場合の、連接実現方法を説明するための図である。
同図に示すように、文字列インデックスDB3'には、単語毎に、当該単語が存在する文書ID(DOC_ID)とビットで表された文単位の単語出現位置情報が格納されている。これにより、文字列情報検索部2は、入力された文字列を形態素解析し、当該文字列が2単語以上である場合には、文字列インデックスDB3'から当該単語を持つ文書IDと、単語の出現位置を取得し、位置情報の論理積をとることにより文内共起の有無を調べる。
そして、該当の単語が文内共起している文がある場合に、文字列情報検索部2は、文書ID及び文番号に基づいて文書保存DB14を検索し、対応する文を取得し、その文の中に、上記複数単語が連接した複合語があるかどうかを調べる。そして、複合語があれば、その複合語を含む文書を検索結果として出力できる。
また、本例でも、類似度算出部4の単語位置類似度算出部43は、第1の実施の形態と同様にして、文字列情報検索部2から取得した2つの単語に対応する文書の近接情報(位置情報)に基づいて、類似度を算出してよいが、上記のように複合語が検知された文書にスコアを加算することとしてもよい。また、単語位置類似度算出部43は、複合語が検知された文書のみについて類似度を算出し、類似度の高い順に検索結果をクライアント出力部5に出力することとしてもよい。
例えば、検索クエリとして"東京都"という文字列が入力された場合、まず、"東京"と"都"が存在する文が特定される。これは、今までの文単位での位置情報による近接処理と同等である。図17の例では、文書1における2番目の文、及び、文書2における1番目の文が、それぞれ"東京"と"都"を含む。特定された文書IDと文番号を文書保存DB14から参照し、"東京都"という文字列が存在するか否かが調査される。この処理は文の前方から全てスキャンすることにより行うことができる。この結果、文字列情報検索部2は、当該文字列が存在した文書のみ(連接語が存在している文書のみ)を類似度算出部4'に出力し、類似度算出部4'は類似度を算出し、クライアント出力部より検索結果を提示することができる。
また、上記の実施の形態における情報検索装置の構成要素の各動作をプログラムとして構築し、情報検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
さらに、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、データベース等の大量の文書から入力された文字列を用いて所望の情報を取得する情報検索に適用可能である。
本国際出願は、2007年11月19日に出願された日本国特許出願第2007−299784号に基づく優先権を主張するものであり、その全内容を本国際出願に援用する。

Claims (16)

  1. クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる情報をインデックスDBから取得する文字列情報検索手段と、該文字列と検索された情報との類似度を算出する類似度算出手段と、類似度の高い順に検索された情報を出力する出力手段と、を有する情報検索装置であって、
    前記文字列情報検索手段は、
    入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める手段を含み、
    前記類似度算出手段は、前記単語の出現位置間の距離に基づいて類似度を算出する手段を含むことを特徴とする情報検索装置。
  2. 前記インデックスDBは、単語と、該単語の文書中における文単位での出現位置情報を保持することを特徴とする請求項1に記載の情報検索装置。
  3. 前記インデックスDBは、
    単語と、該単語の文書中における文単位での出現位置情報を保持し、
    前記出現位置情報をビット列で表現し、
    前記文字列情報検索手段は、
    前記インデックスDBを検索し、前記ビット列による単語の出現位置を取得する手段を含み、
    前記類似度算出手段は、
    前記インデックスDBの前記出現位置情報のビット列を用いてビットの論理演算により類似度を求める手段を含む請求項1記載の情報検索装置。
  4. 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択手段を更に有し、
    前記文字列情報検索手段は、
    前記文字列選択手段において、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する手段を含む請求項1記載の情報検索装置。
  5. 前記文字列情報検索手段は、
    前記インデックスDBに、各単語の文単位での出現位置情報が格納されている場合には、前記入力された文字列から得られた複数の単語に基づいて、該インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する連接確認手段を更に有する請求項1記載の情報検索装置。
  6. クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる文書に関する情報を、単語毎に文書における文単位の単語出現位置情報を格納したインデックスDBから取得する文字列情報検索手段と、該文字列と文書との類似度を算出する類似度算出手段と、類似度の高い順に検索された文書の情報を出力する出力手段と、を有する情報検索装置であって、
    前記文字列情報検索手段は、
    入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、前記インデックスDBを検索することにより、各単語の文単位の出現位置情報を文書毎に取得する手段を含み、
    前記類似度算出手段は、各文書における前記複数の単語の文単位での共起の度合いに基づいて、各文書と前記文字列との類似度を算出する手段を含むことを特徴とする情報検索装置。
  7. 前記類似度算出手段は、ある文書において、前記複数の単語が共起する文の数を、当該文書における前記共起の度合いとして求める請求項6に記載の情報検索装置。
  8. クライアントからの文字列を取得し、該文字列が含まれる情報をインデックスDBから取得し、該文字列と検索された情報との類似度を算出し、類似度の高い順に検索された情報を出力する装置における情報検索方法であって、
    文字列情報検索手段が、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める文字列情報検索ステップと、
    類似度算出手段が、前記単語の出現位置間の距離に基づいて類似度を算出するステップと、を有することを特徴とする情報検索方法。
  9. 前記インデックスDBが、単語と、該単語の文書中における文単位での出現位置情報を保持することを特徴とする請求項8に記載の情報検索方法。
  10. 前記インデックスDBが、単語と、該単語の文書中における文単位での出現位置情報を保持し、該出現位置情報がビット列で表現されている場合に、
    前記文字列情報検索ステップにおいて、
    前記文字列情報検索手段は、前記インデックスDBを検索し、前記ビット列による単語の出現位置情報を取得し、
    前記類似度算出ステップにおいて、
    前記類似度算出手段は、前記インデックスDBの前記出現位置情報のビット列を用いてビットの論理演算により類似度を求める請求項8記載の情報検索方法。
  11. 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択ステップを更に有し、
    前記文字列情報検索ステップにおいて、
    前記文字列情報検索手段は、前記文字列選択ステップにおいて、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する請求項8記載の情報検索方法。
  12. 前記文字列情報検索ステップにおいて、
    前記文字列情報検索手段は、前記インデックスDBに各単語の文単位での出現位置情報が格納されている場合には、前記入力された文字列から得られた複数の単語に基づいて、該インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する請求項8記載の情報検索方法。
  13. クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる文書に関する情報を、単語毎に文書における文単位の単語出現位置情報を格納したインデックスDBから取得する文字列情報検索手段と、該文字列と文書との類似度を算出する類似度算出手段と、類似度の高い順に検索された文書の情報を出力する出力手段と、を有する情報検索装置が実行する情報検索方法であって、
    前記文字列情報検索手段が、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、前記インデックスDBを検索することにより、各単語の文単位の出現位置情報を文書毎に取得する文字列情報検索ステップと、
    前記類似度算出手段が、各文書における前記複数の単語の文単位での共起の度合いに基づいて、各文書と前記文字列との類似度を算出する類似度算出ステップとを有することを特徴とする情報検索方法。
  14. 前記類似度算出手段は、ある文書において、前記複数の単語が共起する文の数を、当該文書における前記共起の度合いとして求める請求項13に記載の情報検索方法。
  15. 請求項1乃至7のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラム。
  16. 請求項15記載の情報検索プログラムを格納したコンピュータ読取可能な記録媒体。
JP2009542497A 2007-11-19 2008-09-10 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Active JP5116775B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009542497A JP5116775B2 (ja) 2007-11-19 2008-09-10 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007299784 2007-11-19
JP2007299784 2007-11-19
PCT/JP2008/066356 WO2009066501A1 (ja) 2007-11-19 2008-09-10 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2009542497A JP5116775B2 (ja) 2007-11-19 2008-09-10 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2009066501A1 true JPWO2009066501A1 (ja) 2011-04-07
JP5116775B2 JP5116775B2 (ja) 2013-01-09

Family

ID=40667330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009542497A Active JP5116775B2 (ja) 2007-11-19 2008-09-10 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (3)

Country Link
US (1) US8909654B2 (ja)
JP (1) JP5116775B2 (ja)
WO (1) WO2009066501A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719701B2 (en) 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
US8612431B2 (en) * 2009-02-13 2013-12-17 International Business Machines Corporation Multi-part record searches
JP5389538B2 (ja) * 2009-06-05 2014-01-15 日本電信電話株式会社 検索結果ランキング方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8463797B2 (en) * 2010-07-20 2013-06-11 Barracuda Networks Inc. Method for measuring similarity of diverse binary objects comprising bit patterns
US9727641B2 (en) * 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
JP6152711B2 (ja) * 2013-06-04 2017-06-28 富士通株式会社 情報検索装置および情報検索方法
US10102274B2 (en) * 2014-03-17 2018-10-16 NLPCore LLC Corpus search systems and methods
US10372739B2 (en) * 2014-03-17 2019-08-06 NLPCore LLC Corpus search systems and methods
US9600542B2 (en) * 2014-06-27 2017-03-21 Sap Se Fuzzy substring search
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
JP6740845B2 (ja) * 2016-10-07 2020-08-19 富士通株式会社 文書符号化プログラム、情報処理装置および文書符号化方法
JP6805720B2 (ja) * 2016-10-21 2020-12-23 富士通株式会社 データ検索プログラム、データ検索装置およびデータ検索方法
JP6900956B2 (ja) * 2016-11-28 2021-07-14 富士通株式会社 検証プログラム、検証装置、検証方法、インデックス生成プログラム、インデックス生成装置およびインデックス生成方法
US10528668B2 (en) * 2017-02-28 2020-01-07 SavantX, Inc. System and method for analysis and navigation of data
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
JP7059516B2 (ja) 2017-03-29 2022-04-26 富士通株式会社 符号化プログラム、符号化装置および符号化方法
CN108959440A (zh) * 2018-06-13 2018-12-07 福建新大陆软件工程有限公司 一种短信聚类方法及装置
US11151325B2 (en) * 2019-03-22 2021-10-19 Servicenow, Inc. Determining semantic similarity of texts based on sub-sections thereof
JP6710007B1 (ja) * 2019-04-26 2020-06-17 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
CN110633356B (zh) * 2019-09-04 2022-05-20 广州市巴图鲁信息科技有限公司 一种词语相似度计算方法、装置以及存储介质
JP7377524B2 (ja) * 2019-12-06 2023-11-10 アイビーリサーチ株式会社 入力支援装置、入力支援システム及びプログラム
CN111950272B (zh) * 2020-06-23 2023-06-27 北京百度网讯科技有限公司 文本相似度的生成方法、装置及电子设备
WO2022219804A1 (ja) * 2021-04-16 2022-10-20 三菱電機株式会社 情報処理装置、作成方法、及び作成プログラム
CN116578666B (zh) * 2023-07-12 2023-09-22 拓尔思信息技术股份有限公司 段句位的倒排索引结构设计及其限定运算全文检索的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP3100955B2 (ja) 1999-02-18 2000-10-23 技術研究組合新情報処理開発機構 情報検索方法及び情報検索装置
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
JP4213931B2 (ja) 2002-08-29 2009-01-28 中部電力株式会社 特定情報検索方法および情報検索装置
US8166033B2 (en) * 2003-02-27 2012-04-24 Parity Computing, Inc. System and method for matching and assembling records
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
JP2005215716A (ja) 2004-01-27 2005-08-11 Hitachi Ltd テキスト検索方法
JP4565106B2 (ja) * 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Also Published As

Publication number Publication date
US20100257159A1 (en) 2010-10-07
JP5116775B2 (ja) 2013-01-09
WO2009066501A1 (ja) 2009-05-28
US8909654B2 (en) 2014-12-09

Similar Documents

Publication Publication Date Title
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP5480093B2 (ja) 検索結果を統合するための方法、コンピュータ・プログラムおよびシステム
US8145617B1 (en) Generation of document snippets based on queries and search results
JP4767694B2 (ja) 不正ハイパーリンク検出装置及びその方法
US8051080B2 (en) Contextual ranking of keywords using click data
US9720904B2 (en) Generating training data for disambiguation
US8321409B1 (en) Document ranking using word relationships
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
US20110302166A1 (en) Search system, search method, and program
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
CN101567011A (zh) 文档处理装置和文档处理方法
JPWO2007119567A1 (ja) 文書処理装置および文書処理方法
CN107870915B (zh) 对搜索结果的指示
Líška et al. Similarity search for mathematics: Masaryk university team at the ntcir-10 math task
JP2024091709A (ja) 文作成装置、文作成方法および文作成プログラム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US20130232134A1 (en) Presenting Structured Book Search Results
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2012208728A (ja) 専門家検索装置、および専門家検索方法
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
US10810236B1 (en) Indexing data in information retrieval systems

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121016

R150 Certificate of patent or registration of utility model

Ref document number: 5116775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350