JPWO2009066501A1 - 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents
情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JPWO2009066501A1 JPWO2009066501A1 JP2009542497A JP2009542497A JPWO2009066501A1 JP WO2009066501 A1 JPWO2009066501 A1 JP WO2009066501A1 JP 2009542497 A JP2009542497 A JP 2009542497A JP 2009542497 A JP2009542497 A JP 2009542497A JP WO2009066501 A1 JPWO2009066501 A1 JP WO2009066501A1
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- information
- document
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 96
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 15
- 150000001875 compounds Chemical class 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Gerard Salton and Chris Buckley, Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management: an International Journal, Pages: 513-523 Vol.24, Issue 5, 1988. Stephen E. Robertson, Steve Walker, Micheline Hancock-Beaulieu, Asrron Gull, and Marianna Lau. Okapi at TREC3. In text Retrieval Conference, pages 21-30, 1992. Tao Tao and ChengXiang Zhai. An exploration of proximity measures in information retrieval. In SIGIR '07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp.295-302. New York, NY, USA, 2007. ACM Press.
2 文字列情報検索部、文字列情報検索手段
3,3' 文字列インデックスDB
4,4' 類似度算出部、類似度算出手段
5 クライアント出力部、出力手段
6 文字列選択部
10 情報検索装置
12 近接未考慮単語リスト記憶部
14 文書保存DB
20 クライアント
30 ネットワーク
41 単語重要度類似度算出部
42 単語頻度類似度算出部
43 単語位置類似度算出部
上記で入力された文字列が2単語(形態素)以上であった時に、近接していることを利用した類似度の算出方法を説明した。しかしながら、必ずしも近接していることが精度向上に繋がるとは言えない。例えば、"レストラン名 電話番号"という文字列が検索条件として入力された場合、"レストラン名 電話番号"を探しているわけではなく、あるレストランのページで「電話番号」という文字列が存在しているページを提示するだけでよい可能性がある。そこで、本実施の形態では、その検索条件として入力された単語が、近接を考慮するか否かを判断する。
入力された文字列が2単語で構成される場合に、文単位の単語出現位置情報のみを用いた近接処理では、複合語を判別できないので、検索精度が低下する恐れがある。そこで、本実施の形態では、2単語で構成される語の連接処理を単語出現位置情報が文単位で保存されている場合に実現する方法を説明する。
Claims (16)
- クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる情報をインデックスDBから取得する文字列情報検索手段と、該文字列と検索された情報との類似度を算出する類似度算出手段と、類似度の高い順に検索された情報を出力する出力手段と、を有する情報検索装置であって、
前記文字列情報検索手段は、
入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める手段を含み、
前記類似度算出手段は、前記単語の出現位置間の距離に基づいて類似度を算出する手段を含むことを特徴とする情報検索装置。 - 前記インデックスDBは、単語と、該単語の文書中における文単位での出現位置情報を保持することを特徴とする請求項1に記載の情報検索装置。
- 前記インデックスDBは、
単語と、該単語の文書中における文単位での出現位置情報を保持し、
前記出現位置情報をビット列で表現し、
前記文字列情報検索手段は、
前記インデックスDBを検索し、前記ビット列による単語の出現位置を取得する手段を含み、
前記類似度算出手段は、
前記インデックスDBの前記出現位置情報のビット列を用いてビットの論理演算により類似度を求める手段を含む請求項1記載の情報検索装置。 - 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択手段を更に有し、
前記文字列情報検索手段は、
前記文字列選択手段において、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する手段を含む請求項1記載の情報検索装置。 - 前記文字列情報検索手段は、
前記インデックスDBに、各単語の文単位での出現位置情報が格納されている場合には、前記入力された文字列から得られた複数の単語に基づいて、該インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する連接確認手段を更に有する請求項1記載の情報検索装置。 - クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる文書に関する情報を、単語毎に文書における文単位の単語出現位置情報を格納したインデックスDBから取得する文字列情報検索手段と、該文字列と文書との類似度を算出する類似度算出手段と、類似度の高い順に検索された文書の情報を出力する出力手段と、を有する情報検索装置であって、
前記文字列情報検索手段は、
入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、前記インデックスDBを検索することにより、各単語の文単位の出現位置情報を文書毎に取得する手段を含み、
前記類似度算出手段は、各文書における前記複数の単語の文単位での共起の度合いに基づいて、各文書と前記文字列との類似度を算出する手段を含むことを特徴とする情報検索装置。 - 前記類似度算出手段は、ある文書において、前記複数の単語が共起する文の数を、当該文書における前記共起の度合いとして求める請求項6に記載の情報検索装置。
- クライアントからの文字列を取得し、該文字列が含まれる情報をインデックスDBから取得し、該文字列と検索された情報との類似度を算出し、類似度の高い順に検索された情報を出力する装置における情報検索方法であって、
文字列情報検索手段が、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の出現位置情報を格納したインデックスDBを検索し、該単語の出現位置間の距離を求める文字列情報検索ステップと、
類似度算出手段が、前記単語の出現位置間の距離に基づいて類似度を算出するステップと、を有することを特徴とする情報検索方法。 - 前記インデックスDBが、単語と、該単語の文書中における文単位での出現位置情報を保持することを特徴とする請求項8に記載の情報検索方法。
- 前記インデックスDBが、単語と、該単語の文書中における文単位での出現位置情報を保持し、該出現位置情報がビット列で表現されている場合に、
前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記インデックスDBを検索し、前記ビット列による単語の出現位置情報を取得し、
前記類似度算出ステップにおいて、
前記類似度算出手段は、前記インデックスDBの前記出現位置情報のビット列を用いてビットの論理演算により類似度を求める請求項8記載の情報検索方法。 - 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択ステップを更に有し、
前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記文字列選択ステップにおいて、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する請求項8記載の情報検索方法。 - 前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記インデックスDBに各単語の文単位での出現位置情報が格納されている場合には、前記入力された文字列から得られた複数の単語に基づいて、該インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する請求項8記載の情報検索方法。 - クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる文書に関する情報を、単語毎に文書における文単位の単語出現位置情報を格納したインデックスDBから取得する文字列情報検索手段と、該文字列と文書との類似度を算出する類似度算出手段と、類似度の高い順に検索された文書の情報を出力する出力手段と、を有する情報検索装置が実行する情報検索方法であって、
前記文字列情報検索手段が、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、前記インデックスDBを検索することにより、各単語の文単位の出現位置情報を文書毎に取得する文字列情報検索ステップと、
前記類似度算出手段が、各文書における前記複数の単語の文単位での共起の度合いに基づいて、各文書と前記文字列との類似度を算出する類似度算出ステップとを有することを特徴とする情報検索方法。 - 前記類似度算出手段は、ある文書において、前記複数の単語が共起する文の数を、当該文書における前記共起の度合いとして求める請求項13に記載の情報検索方法。
- 請求項1乃至7のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラム。
- 請求項15記載の情報検索プログラムを格納したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009542497A JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299784 | 2007-11-19 | ||
JP2007299784 | 2007-11-19 | ||
PCT/JP2008/066356 WO2009066501A1 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
JP2009542497A JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009066501A1 true JPWO2009066501A1 (ja) | 2011-04-07 |
JP5116775B2 JP5116775B2 (ja) | 2013-01-09 |
Family
ID=40667330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009542497A Active JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8909654B2 (ja) |
JP (1) | JP5116775B2 (ja) |
WO (1) | WO2009066501A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719701B2 (en) | 2009-01-02 | 2014-05-06 | Apple Inc. | Identification of guides and gutters of a document |
US8612431B2 (en) * | 2009-02-13 | 2013-12-17 | International Business Machines Corporation | Multi-part record searches |
JP5389538B2 (ja) * | 2009-06-05 | 2014-01-15 | 日本電信電話株式会社 | 検索結果ランキング方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
CN101957828B (zh) * | 2009-07-20 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
US8463797B2 (en) * | 2010-07-20 | 2013-06-11 | Barracuda Networks Inc. | Method for measuring similarity of diverse binary objects comprising bit patterns |
US9727641B2 (en) * | 2013-04-25 | 2017-08-08 | Entit Software Llc | Generating a summary based on readability |
JP6152711B2 (ja) * | 2013-06-04 | 2017-06-28 | 富士通株式会社 | 情報検索装置および情報検索方法 |
US10102274B2 (en) * | 2014-03-17 | 2018-10-16 | NLPCore LLC | Corpus search systems and methods |
US10372739B2 (en) * | 2014-03-17 | 2019-08-06 | NLPCore LLC | Corpus search systems and methods |
US9600542B2 (en) * | 2014-06-27 | 2017-03-21 | Sap Se | Fuzzy substring search |
US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
CN107102998A (zh) * | 2016-02-22 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 一种字符串距离计算方法和装置 |
JP6740845B2 (ja) * | 2016-10-07 | 2020-08-19 | 富士通株式会社 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
JP6805720B2 (ja) * | 2016-10-21 | 2020-12-23 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
JP6900956B2 (ja) * | 2016-11-28 | 2021-07-14 | 富士通株式会社 | 検証プログラム、検証装置、検証方法、インデックス生成プログラム、インデックス生成装置およびインデックス生成方法 |
US10528668B2 (en) * | 2017-02-28 | 2020-01-07 | SavantX, Inc. | System and method for analysis and navigation of data |
US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
JP7059516B2 (ja) | 2017-03-29 | 2022-04-26 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
CN108959440A (zh) * | 2018-06-13 | 2018-12-07 | 福建新大陆软件工程有限公司 | 一种短信聚类方法及装置 |
US11151325B2 (en) * | 2019-03-22 | 2021-10-19 | Servicenow, Inc. | Determining semantic similarity of texts based on sub-sections thereof |
JP6710007B1 (ja) * | 2019-04-26 | 2020-06-17 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
CN110633356B (zh) * | 2019-09-04 | 2022-05-20 | 广州市巴图鲁信息科技有限公司 | 一种词语相似度计算方法、装置以及存储介质 |
JP7377524B2 (ja) * | 2019-12-06 | 2023-11-10 | アイビーリサーチ株式会社 | 入力支援装置、入力支援システム及びプログラム |
CN111950272B (zh) * | 2020-06-23 | 2023-06-27 | 北京百度网讯科技有限公司 | 文本相似度的生成方法、装置及电子设备 |
WO2022219804A1 (ja) * | 2021-04-16 | 2022-10-20 | 三菱電機株式会社 | 情報処理装置、作成方法、及び作成プログラム |
CN116578666B (zh) * | 2023-07-12 | 2023-09-22 | 拓尔思信息技术股份有限公司 | 段句位的倒排索引结构设计及其限定运算全文检索的方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JP3100955B2 (ja) | 1999-02-18 | 2000-10-23 | 技術研究組合新情報処理開発機構 | 情報検索方法及び情報検索装置 |
US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
JP4213931B2 (ja) | 2002-08-29 | 2009-01-28 | 中部電力株式会社 | 特定情報検索方法および情報検索装置 |
US8166033B2 (en) * | 2003-02-27 | 2012-04-24 | Parity Computing, Inc. | System and method for matching and assembling records |
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
JP2005215716A (ja) | 2004-01-27 | 2005-08-11 | Hitachi Ltd | テキスト検索方法 |
JP4565106B2 (ja) * | 2005-06-23 | 2010-10-20 | 独立行政法人情報通信研究機構 | 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム |
-
2008
- 2008-09-10 JP JP2009542497A patent/JP5116775B2/ja active Active
- 2008-09-10 US US12/742,442 patent/US8909654B2/en active Active
- 2008-09-10 WO PCT/JP2008/066356 patent/WO2009066501A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20100257159A1 (en) | 2010-10-07 |
JP5116775B2 (ja) | 2013-01-09 |
WO2009066501A1 (ja) | 2009-05-28 |
US8909654B2 (en) | 2014-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5116775B2 (ja) | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP5480093B2 (ja) | 検索結果を統合するための方法、コンピュータ・プログラムおよびシステム | |
US8145617B1 (en) | Generation of document snippets based on queries and search results | |
JP4767694B2 (ja) | 不正ハイパーリンク検出装置及びその方法 | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US9720904B2 (en) | Generating training data for disambiguation | |
US8321409B1 (en) | Document ranking using word relationships | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
US20110302166A1 (en) | Search system, search method, and program | |
JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
CN101567011A (zh) | 文档处理装置和文档处理方法 | |
JPWO2007119567A1 (ja) | 文書処理装置および文書処理方法 | |
CN107870915B (zh) | 对搜索结果的指示 | |
Líška et al. | Similarity search for mathematics: Masaryk university team at the ntcir-10 math task | |
JP2024091709A (ja) | 文作成装置、文作成方法および文作成プログラム | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
US20130232134A1 (en) | Presenting Structured Book Search Results | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2012208728A (ja) | 専門家検索装置、および専門家検索方法 | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
US10810236B1 (en) | Indexing data in information retrieval systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121009 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5116775 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |