JPWO2010047286A1 - 検索システム、検索方法およびプログラム - Google Patents
検索システム、検索方法およびプログラム Download PDFInfo
- Publication number
- JPWO2010047286A1 JPWO2010047286A1 JP2010534793A JP2010534793A JPWO2010047286A1 JP WO2010047286 A1 JPWO2010047286 A1 JP WO2010047286A1 JP 2010534793 A JP2010534793 A JP 2010534793A JP 2010534793 A JP2010534793 A JP 2010534793A JP WO2010047286 A1 JPWO2010047286 A1 JP WO2010047286A1
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- block
- hash value
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (20)
- 入力された検索語に基づき文書検索を行い、検索結果を出力する検索システムであって、
検索対象となる文書を、指定された分割情報に基づき複数のブロックに分割する分割部と、
各ブロックに含まれる文字列にハッシュ関数を適用して該各ブロックのハッシュ値を計算する計算部と、
得られた前記ハッシュ値を前記文書におけるブロックの位置情報とともに記憶する記憶部と、
前記検索語に基づき検索されて得られた各文書につき、該検索語を含むブロックの位置情報を基に、対応するハッシュ値を前記記憶部から取り出し、前記ハッシュ値が一致する文書をグループ化して、前記検索結果として出力する文書グループ化部とを備える、検索システム。 - 前記分割部は、前記分割情報としてのセンテンス毎、パラグラフ毎、空行、前記文書に付加された付加情報の少なくとも1つにより分割する、請求項1に記載の検索システム。
- 前記文書は、複数の単語(トークン)が順に配列するトークン列とされ、前記各ブロックの位置情報は、前記文書の先頭トークンから前記各ブロックの先頭トークンまでのトークンの順番を含む、請求項1に記載の検索システム。
- 前記各ブロックの位置情報は、前記文書の先頭文字から前記各ブロックの先頭文字までの文字数を含む、請求項1に記載の検索システム。
- 前記計算部は、前記ブロックに含まれる文字列において、指定された文字種を含む場合、前記文字種を除いた文字列にハッシュ関数を適用してハッシュ値を計算する、請求項1に記載の検索システム。
- 前記文書グループ化部は、グループに含まれる複数の文書を、検索スコアに基づきソートするソート部を含む、請求項1に記載の検索システム。
- 入力された検索語に基づき文書検索を行い、検索結果を出力する検索システムにより実行される検索方法であって、
検索対象となる文書を、指定された分割情報に基づき複数のブロックに分割するステップと、
各ブロックに含まれる文字列にハッシュ関数を適用して該各ブロックのハッシュ値を計算するステップと、
得られた前記ハッシュ値を前記文書におけるブロックの位置情報とともに記憶部に記憶するステップと、
前記検索語に基づき検索されて得られた各文書につき、該検索語を含むブロックの位置情報を基に、対応するハッシュ値を前記記憶部から取り出し、前記ハッシュ値が一致する文書をグループ化して、前記検索結果として出力するステップとを含む、検索方法。 - 前記分割するステップと前記計算するステップと前記記憶するステップは、前記検索システムが検索時に使用するインデックスの作成時に実行され、前記出力するステップは、前記検索時に実行される、請求項7に記載の検索方法。
- 前記分割するステップでは、前記分割情報としてのセンテンス毎、パラグラフ毎、空行、前記文書に付加された付加情報の少なくとも1つにより分割する、請求項7に記載の検索方法。
- 前記文書は、複数の単語(トークン)が順に配列するトークン列とされ、前記各ブロックの位置情報は、前記文書の先頭トークンから前記各ブロックの先頭トークンまでのトークンの順番を含む、請求項7に記載の検索方法。
- 前記各ブロックの位置情報は、前記文書の先頭文字から前記各ブロックの先頭文字までの文字数を含む、請求項7に記載の検索方法。
- 前記計算するステップでは、前記ブロックに含まれる文字列において、指定された文字種を含む場合、前記文字種を除いた文字列にハッシュ関数を適用してハッシュ値を計算する、請求項7に記載の検索方法。
- 前記出力するステップは、グループに含まれる複数の文書を、検索スコアに基づきソートするステップを含む、請求項7に記載の検索方法。
- 入力された検索語に基づき文書検索を行い、検索結果を出力する検索システムにより実行される検索方法を実行するためのコンピュータにより読み取り可能なプログラムであって、
検索対象となる文書を、指定された分割情報に基づき複数のブロックに分割するステップと、
各ブロックに含まれる文字列にハッシュ関数を適用して該各ブロックのハッシュ値を計算するステップと、
得られた前記ハッシュ値を前記文書におけるブロックの位置情報とともに記憶部に記憶するステップと、
前記検索語に基づき検索されて得られた各文書につき、該検索語を含むブロックの位置情報を基に、対応するハッシュ値を前記記憶部から取り出し、前記ハッシュ値が一致する文書をグループ化して、前記検索結果として出力するステップとを実行させる、プログラム。 - 前記分割するステップと前記計算するステップと前記記憶するステップを、前記検索システムが検索時に使用するインデックスの作成時に実行させ、前記出力するステップを、前記検索時に実行させる、請求項14に記載のプログラム。
- 前記分割するステップでは、前記分割情報としてのセンテンス毎、パラグラフ毎、空行、前記文書に付加された付加情報の少なくとも1つにより分割する、請求項14に記載のプログラム。
- 前記計算するステップでは、前記ブロックに含まれる文字列において、指定された文字種を含む場合、前記文字種を除いた文字列にハッシュ関数を適用してハッシュ値を計算する、請求項14に記載のプログラム。
- 前記出力するステップは、グループに含まれる複数の文書を、検索スコアに基づきソートするステップを含む、請求項14に記載のプログラム。
- 入力された検索語に基づき文書検索を行い、検索結果を出力する検索システムであって、
検索対象となる文書を、指定された分割情報としてのセンテンス毎、パラグラフ毎、空行、前記文書に付加された付加情報の少なくとも1つに基づき複数のブロックに分割する分割部と、
各ブロックに含まれる文字列にハッシュ関数を適用して該各ブロックのハッシュ値を計算する計算部と、
得られた前記ハッシュ値を、複数の単語(トークン)が順に配列するトークン列とされる前記文書の先頭トークンから前記各ブロックの先頭トークンまでのトークンの順番を含むブロックの位置情報とともに記憶する記憶部と、
前記検索語に基づき検索されて得られた各文書につき、該検索語を含むブロックの位置情報を基に、対応するハッシュ値を前記記憶部から取り出し、前記ハッシュ値が一致する文書をグループ化して、前記検索結果として出力する文書グループ化部とを備え、
前記計算部は、前記ブロックに含まれる文字列において、指定された文字種を含む場合、前記文字種を除いた文字列にハッシュ関数を適用してハッシュ値を計算し、
前記文書グループ化部は、グループに含まれる複数の文書を、検索スコアに基づきソートするソート部を含む、検索システム。 - 入力された検索語に基づき文書検索を行い、検索結果を出力する検索システムであって、
検索対象となる文書を、指定された分割情報としてのセンテンス毎、パラグラフ毎、空行、前記文書に付加された付加情報の少なくとも1つに基づき複数のブロックに分割する分割部と、
各ブロックに含まれる文字列にハッシュ関数を適用して該各ブロックのハッシュ値を計算する計算部と、
得られた前記ハッシュ値を、前記文書の先頭文字から前記各ブロックの先頭文字までの文字数を含むブロックの位置情報とともに記憶する記憶部と、
前記検索語に基づき検索されて得られた各文書につき、該検索語を含むブロックの位置情報を基に、対応するハッシュ値を前記記憶部から取り出し、前記ハッシュ値が一致する文書をグループ化して、前記検索結果として出力する文書グループ化部とを備え、
前記計算部は、前記ブロックに含まれる文字列において、指定された文字種を含む場合、前記文字種を除いた文字列にハッシュ関数を適用してハッシュ値を計算し、
前記文書グループ化部は、グループに含まれる複数の文書を、検索スコアに基づきソートするソート部を含む、検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010534793A JP5138046B2 (ja) | 2008-10-20 | 2009-10-16 | 検索システム、検索方法およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008270028 | 2008-10-20 | ||
JP2008270028 | 2008-10-20 | ||
PCT/JP2009/067929 WO2010047286A1 (ja) | 2008-10-20 | 2009-10-16 | 検索システム、検索方法およびプログラム |
JP2010534793A JP5138046B2 (ja) | 2008-10-20 | 2009-10-16 | 検索システム、検索方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010047286A1 true JPWO2010047286A1 (ja) | 2012-03-22 |
JP5138046B2 JP5138046B2 (ja) | 2013-02-06 |
Family
ID=42119326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010534793A Expired - Fee Related JP5138046B2 (ja) | 2008-10-20 | 2009-10-16 | 検索システム、検索方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9031935B2 (ja) |
EP (1) | EP2367121A4 (ja) |
JP (1) | JP5138046B2 (ja) |
TW (1) | TW201027375A (ja) |
WO (1) | WO2010047286A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990429B2 (en) | 2010-05-14 | 2018-06-05 | Microsoft Technology Licensing, Llc | Automated social networking graph mining and visualization |
JP5618968B2 (ja) * | 2011-11-11 | 2014-11-05 | 日本電信電話株式会社 | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
US20150026159A1 (en) * | 2012-03-05 | 2015-01-22 | Evresearch Ltd | Digital Resource Set Integration Methods, Interfaces and Outputs |
US9026992B2 (en) | 2012-06-22 | 2015-05-05 | Microsoft Technology Licensing, Llc | Folded views in development environment |
CN103577413B (zh) * | 2012-07-20 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 搜索结果排序方法及系统、搜索结果排序优化方法及系统 |
TWI484359B (zh) * | 2012-10-26 | 2015-05-11 | Inst Information Industry | 文章資訊提供方法以及系統 |
CN104283930B (zh) * | 2013-07-11 | 2017-09-22 | 一零四资讯科技股份有限公司 | 安全索引的关键字搜索系统及建立该系统的方法 |
GB2520936A (en) | 2013-12-03 | 2015-06-10 | Ibm | Method and system for performing search queries using and building a block-level index |
CN104077272B (zh) * | 2014-06-23 | 2017-01-04 | 华为技术有限公司 | 一种字典压缩的方法和装置 |
US9996629B2 (en) | 2015-02-10 | 2018-06-12 | Researchgate Gmbh | Online publication system and method |
US9753922B2 (en) | 2015-05-19 | 2017-09-05 | Researchgate Gmbh | Enhanced online user-interaction tracking |
WO2017122352A1 (ja) | 2016-01-15 | 2017-07-20 | 三菱電機株式会社 | 暗号化装置、暗号化方法及び暗号化プログラム |
TWI608415B (zh) * | 2016-11-29 | 2017-12-11 | 關貿網路股份有限公司 | 電子檔案資料擷取系統及其方法 |
CN110546631A (zh) | 2017-04-25 | 2019-12-06 | 三菱电机株式会社 | 检索装置、检索系统、检索方法和检索程序 |
JP7325396B2 (ja) * | 2020-12-25 | 2023-08-14 | 株式会社日立製作所 | データファイル暗号化送受信システム及びデータファイル暗号化送受信方法 |
CN112651236B (zh) * | 2020-12-28 | 2021-10-01 | 中电金信软件有限公司 | 提取文本信息的方法、装置、计算机设备和存储介质 |
US11809493B2 (en) * | 2021-01-19 | 2023-11-07 | Micro Focus Llc | System and method for tokenization of data |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3477812B2 (ja) | 1994-04-21 | 2003-12-10 | 富士ゼロックス株式会社 | 文書処理装置および方法 |
JPH07295994A (ja) | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
US5909677A (en) | 1996-06-18 | 1999-06-01 | Digital Equipment Corporation | Method for determining the resemblance of documents |
JP2001167096A (ja) | 1999-12-06 | 2001-06-22 | Ricoh Co Ltd | 文書検索システム、文書検索方法及びその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US6757675B2 (en) * | 2000-07-24 | 2004-06-29 | The Regents Of The University Of California | Method and apparatus for indexing document content and content comparison with World Wide Web search service |
US6978419B1 (en) | 2000-11-15 | 2005-12-20 | Justsystem Corporation | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments |
US6658423B1 (en) | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
JP2003141027A (ja) | 2001-10-31 | 2003-05-16 | Toshiba Corp | 要約作成方法および要約作成支援装置およびプログラム |
US6910037B2 (en) * | 2002-03-07 | 2005-06-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing search results in response to an information search request |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
JP2005173889A (ja) | 2003-12-10 | 2005-06-30 | Intellectual Capital Group Kk | 削除候補特徴情報生成装置、受信情報処置装置および削除候補判定装置、方法、プログラムおよび記録媒体 |
US7475061B2 (en) * | 2004-01-15 | 2009-01-06 | Microsoft Corporation | Image-based document indexing and retrieval |
US7523098B2 (en) * | 2004-09-15 | 2009-04-21 | International Business Machines Corporation | Systems and methods for efficient data searching, storage and reduction |
JP2006285499A (ja) | 2005-03-31 | 2006-10-19 | Nec Corp | データマイニング装置、データマイニング方法およびそのプログラム |
US7814078B1 (en) * | 2005-06-20 | 2010-10-12 | Hewlett-Packard Development Company, L.P. | Identification of files with similar content |
US20070260450A1 (en) * | 2006-05-05 | 2007-11-08 | Yudong Sun | Indexing parsed natural language texts for advanced search |
US7890533B2 (en) * | 2006-05-17 | 2011-02-15 | Noblis, Inc. | Method and system for information extraction and modeling |
JP2008015774A (ja) | 2006-07-05 | 2008-01-24 | Nagaoka Univ Of Technology | 模倣文書検出システム及びプログラム |
JP5181504B2 (ja) * | 2007-03-22 | 2013-04-10 | 富士通株式会社 | データ処理方法、プログラム及び情報処理装置 |
US20080270436A1 (en) * | 2007-04-27 | 2008-10-30 | Fineberg Samuel A | Storing chunks within a file system |
US7676501B2 (en) * | 2008-03-22 | 2010-03-09 | Wilson Kelce S | Document integrity verification |
-
2009
- 2009-09-30 TW TW098133263A patent/TW201027375A/zh unknown
- 2009-10-16 EP EP09821983A patent/EP2367121A4/en not_active Withdrawn
- 2009-10-16 US US13/124,822 patent/US9031935B2/en not_active Expired - Fee Related
- 2009-10-16 JP JP2010534793A patent/JP5138046B2/ja not_active Expired - Fee Related
- 2009-10-16 WO PCT/JP2009/067929 patent/WO2010047286A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US9031935B2 (en) | 2015-05-12 |
TW201027375A (en) | 2010-07-16 |
EP2367121A1 (en) | 2011-09-21 |
JP5138046B2 (ja) | 2013-02-06 |
EP2367121A4 (en) | 2012-12-26 |
WO2010047286A1 (ja) | 2010-04-29 |
US20110302166A1 (en) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US9069857B2 (en) | Per-document index for semantic searching | |
US7890503B2 (en) | Method and system for performing secondary search actions based on primary search result attributes | |
Wu et al. | Searching services" on the web": A public web services discovery approach | |
JP2010262577A (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
WO2014071100A1 (en) | Search service including indexing text containing numbers in part using one or more number index structures | |
CN102257490A (zh) | 文档信息选择方法和计算机程序产品 | |
US20140358522A1 (en) | Information search apparatus and information search method | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
JP5963310B2 (ja) | 情報処理装置、情報処理方法、及び、情報処理プログラム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
CN112527954A (zh) | 非结构化数据全文搜索方法、系统及计算机设备 | |
US20080033953A1 (en) | Method to search transactional web pages | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5138046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |