JPWO2016075830A1 - 情報取得プログラム、情報取得方法および情報取得装置 - Google Patents
情報取得プログラム、情報取得方法および情報取得装置 Download PDFInfo
- Publication number
- JPWO2016075830A1 JPWO2016075830A1 JP2016558844A JP2016558844A JPWO2016075830A1 JP WO2016075830 A1 JPWO2016075830 A1 JP WO2016075830A1 JP 2016558844 A JP2016558844 A JP 2016558844A JP 2016558844 A JP2016558844 A JP 2016558844A JP WO2016075830 A1 JPWO2016075830 A1 JP WO2016075830A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- document
- acquired
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003860 storage Methods 0.000 claims abstract description 108
- 238000000605 extraction Methods 0.000 description 128
- 238000013500 data storage Methods 0.000 description 41
- 230000000295 complement effect Effects 0.000 description 31
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 239000013589 supplement Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/114—Pagination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
101 入力部
102 出力部
110 通信部
120 記憶部
121 対象記憶部
122 項目記憶部
123 ページ記憶部
124 抽出データ記憶部
130 制御部
131 登録部
132 クロール部
133 抽出部
134 補完部
135 出力制御部
N ネットワーク
Claims (18)
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得し、
前記記憶部を参照して、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する
処理をコンピュータに実行させることを特徴とする情報取得プログラム。 - 前記他のデータと前記所定の関連を有するデータを取得する処理は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項1に記載の情報取得プログラム。
- 前記他のデータと前記所定の関連を有するデータを取得する処理は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得する処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項1に記載の情報取得プログラム。
- 前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項1に記載の情報取得プログラム。
- 前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項1に記載の情報取得プログラム。
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得し、
前記記憶部を参照して、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する
処理をコンピュータに実行させることを特徴とする情報取得プログラム。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得し、
前記記憶部を参照して、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する
処理をコンピュータが実行することを特徴とする情報取得方法。 - 前記他のデータと前記所定の関連を有するデータを取得する処理は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項7に記載の情報取得方法。
- 前記他のデータと前記所定の関連を有するデータを取得する処理は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得する処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項7に記載の情報取得方法。
- 前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項7に記載の情報取得方法。
- 前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項7に記載の情報取得方法。
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得し、
前記記憶部を参照して、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する
処理をコンピュータが実行することを特徴とする情報取得方法。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部と、
前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理、および、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理の双方を実行可能な制御部と
を有することを特徴とする情報取得装置。 - 前記制御部は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得する
ことを特徴とする請求項13に記載の情報取得装置。 - 前記制御部は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理を実行する
ことを特徴とする請求項13に記載の情報取得装置。 - 前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項13に記載の情報取得装置。
- 前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項13に記載の情報取得装置。
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部と、
前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得する処理を実行し、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する処理を実行可能な制御部と
を有することを特徴とする情報取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080269 WO2016075830A1 (ja) | 2014-11-14 | 2014-11-14 | 情報取得プログラム、情報取得方法および情報取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075830A1 true JPWO2016075830A1 (ja) | 2017-08-31 |
JP6601412B2 JP6601412B2 (ja) | 2019-11-06 |
Family
ID=55953943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558844A Active JP6601412B2 (ja) | 2014-11-14 | 2014-11-14 | 情報取得プログラム、情報取得方法および情報取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10726076B2 (ja) |
EP (1) | EP3220287A4 (ja) |
JP (1) | JP6601412B2 (ja) |
SG (1) | SG11201703836RA (ja) |
WO (1) | WO2016075830A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086272A (ja) * | 2002-08-23 | 2004-03-18 | Ntt Data Corp | 位置情報処理装置、方法及びコンピュータプログラム |
JP2008250404A (ja) * | 2007-03-29 | 2008-10-16 | Yahoo Japan Corp | ブックマーク管理装置、ブックマーク管理方法及びコンピュータプログラム |
WO2008142791A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 差分算出プログラム、差分算出装置および差分算出方法 |
JP2011150462A (ja) * | 2010-01-20 | 2011-08-04 | Nec Corp | 広告配信システム、広告配信装置、広告配信方法およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3877957B2 (ja) | 2000-11-30 | 2007-02-07 | シャープ株式会社 | 情報の集約整理支援システム |
JP2008282114A (ja) | 2007-05-09 | 2008-11-20 | Profield Co Ltd | 情報処理装置、サーバ装置、情報処理システム、情報処理方法、およびプログラム |
US20120311436A1 (en) * | 2011-06-03 | 2012-12-06 | Research In Motion Limited | Dynamic display of content using an electronic device |
WO2014127535A1 (en) * | 2013-02-22 | 2014-08-28 | Google Inc. | Systems and methods for automated content generation |
US9304976B1 (en) * | 2013-11-21 | 2016-04-05 | Mashable, Inc. | Positioning media to go viral |
-
2014
- 2014-11-14 JP JP2016558844A patent/JP6601412B2/ja active Active
- 2014-11-14 SG SG11201703836RA patent/SG11201703836RA/en unknown
- 2014-11-14 WO PCT/JP2014/080269 patent/WO2016075830A1/ja active Application Filing
- 2014-11-14 EP EP14905987.5A patent/EP3220287A4/en not_active Withdrawn
-
2017
- 2017-05-09 US US15/590,629 patent/US10726076B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086272A (ja) * | 2002-08-23 | 2004-03-18 | Ntt Data Corp | 位置情報処理装置、方法及びコンピュータプログラム |
JP2008250404A (ja) * | 2007-03-29 | 2008-10-16 | Yahoo Japan Corp | ブックマーク管理装置、ブックマーク管理方法及びコンピュータプログラム |
WO2008142791A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 差分算出プログラム、差分算出装置および差分算出方法 |
JP2011150462A (ja) * | 2010-01-20 | 2011-08-04 | Nec Corp | 広告配信システム、広告配信装置、広告配信方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3220287A4 (en) | 2017-10-11 |
US20170242853A1 (en) | 2017-08-24 |
EP3220287A1 (en) | 2017-09-20 |
JP6601412B2 (ja) | 2019-11-06 |
US10726076B2 (en) | 2020-07-28 |
WO2016075830A1 (ja) | 2016-05-19 |
SG11201703836RA (en) | 2017-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8375286B2 (en) | Systems and methods for displaying statistical information on a web page | |
US10769216B2 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
JP6764115B2 (ja) | 表示プログラム、表示方法および表示装置 | |
US20160117398A1 (en) | Systems and methods for extracting similar group elements | |
KR101331854B1 (ko) | 오픈 api 통합 검색 및 매쉬업 블록 기반코드 생성 장치 및 그 방법 | |
JP4722697B2 (ja) | 情報表示システム | |
JP6601412B2 (ja) | 情報取得プログラム、情報取得方法および情報取得装置 | |
JP2008123425A (ja) | ウェブ文書データ提供装置、方法、およびシステム | |
JP2008071116A (ja) | 情報配信システム、情報配信装置、情報配信方法および情報配信用プログラム | |
JP4602104B2 (ja) | サイト情報収集システム | |
WO2016011699A1 (zh) | 一种用于配置浏览器的导航页的方法与装置 | |
JP5426501B2 (ja) | ドキュメント閲覧システム及びドキュメント画像配信装置並びにドキュメント閲覧方法 | |
JP5585816B2 (ja) | ポータルサイト生成システム、ポータルサイト生成方法、及びコンピュータプログラム | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
JP6528341B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
US20170242839A1 (en) | Data acquisition method, data acquisition device, and recording medium | |
JP2017220104A (ja) | クライアント装置、情報処理システム及びプログラム | |
JP6520955B2 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
JP2020042660A (ja) | 電子ファイル管理装置、電子ファイル管理プログラム、及び電子ファイル管理システム | |
JP6485462B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2009176176A (ja) | ウェブページ配信装置 | |
WO2020148844A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6283321B2 (ja) | 画像管理サーバ及び画像管理方法 | |
US20150347610A1 (en) | Methods and apparatus for modifying a plurality of markup language files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6601412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |