JPWO2016075829A1 - データ取得プログラム、データ取得方法及びデータ取得装置 - Google Patents
データ取得プログラム、データ取得方法及びデータ取得装置 Download PDFInfo
- Publication number
- JPWO2016075829A1 JPWO2016075829A1 JP2016558843A JP2016558843A JPWO2016075829A1 JP WO2016075829 A1 JPWO2016075829 A1 JP WO2016075829A1 JP 2016558843 A JP2016558843 A JP 2016558843A JP 2016558843 A JP2016558843 A JP 2016558843A JP WO2016075829 A1 JPWO2016075829 A1 JP WO2016075829A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- tag
- document
- data acquisition
- extraction target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
101 入力部
102 出力部
110 通信部
120 記憶部
121 対象記憶部
122 項目記憶部
123 ページ記憶部
124 抽出データ記憶部
130 制御部
131 登録部
132 クロール部
133 抽出部
134 出力制御部
N ネットワーク
Claims (15)
- 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容し、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力する
処理をコンピュータに実行させることを特徴とするデータ取得プログラム。 - 前記抽出対象部分の位置は更に、タグの名称又はタグの文書内における順と、前記タグの階層構造との組み合わせを用いて特定されることを特徴とする請求項1に記載のデータ取得プログラム。
- 過去に抜き出した登録された前記タグの階層構造上の位置に対応するデータと、今回抜き出した登録された前記タグの階層構造上の位置に対応するデータとが異なる場合に、データが変化したことを示す情報を出力することを特徴とする請求項1に記載のデータ取得プログラム。
- 前記文書についての前記抽出対象部分の位置が複数登録された場合に、前記複数の位置に対応するデータの内、過去のデータと一致するデータの数又は率に応じた出力を行うことを特徴とする請求項1に記載のデータ取得プログラム。
- HTML形式で記述された前記文書又は該文書のソースを表示し、
表示された該文書又は該文書のソースに含まれる抽出対象部分の選択を受け付け、
受け付けた前記抽出対象部分に対応するタグの階層を特定し、
特定した該階層を前記抽出対象部分の位置を特定する情報として登録することを特徴とする請求項1に記載のデータ取得プログラム。 - 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容し、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力する
処理をコンピュータが実行することを特徴とするデータ取得方法。 - 前記抽出対象部分の位置は更に、タグの名称又はタグの文書内における順と、前記タグの階層構造との組み合わせを用いて特定されることを特徴とする請求項6に記載のデータ取得方法。
- 過去に抜き出した登録された前記タグの階層構造上の位置に対応するデータと、今回抜き出した登録された前記タグの階層構造上の位置に対応するデータとが異なる場合に、データが変化したことを示す情報を出力することを特徴とする請求項6に記載のデータ取得方法。
- 前記文書についての前記抽出対象部分の位置が複数登録された場合に、前記複数の位置に対応するデータの内、過去のデータと一致するデータの数又は率に応じた出力を行うことを特徴とする請求項6に記載のデータ取得方法。
- HTML形式で記述された前記文書又は該文書のソースを表示し、
表示された該文書又は該文書のソースに含まれる抽出対象部分の選択を受け付け、
受け付けた前記抽出対象部分に対応するタグの階層を特定し、
特定した該階層を前記抽出対象部分の位置を特定する情報として登録することを特徴とする請求項6に記載のデータ取得方法。 - 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する登録部と、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力する出力制御部と
を有することを特徴とするデータ取得装置。 - 前記抽出対象部分の位置は更に、タグの名称又はタグの文書内における順と、前記タグの階層構造との組み合わせを用いて特定されることを特徴とする請求項11に記載のデータ取得装置。
- 前記出力制御部は、過去に抜き出した登録された前記タグの階層構造上の位置に対応するデータと、今回抜き出した登録された前記タグの階層構造上の位置に対応するデータとが異なる場合に、データが変化したことを示す情報を出力することを特徴とする請求項11に記載のデータ取得装置。
- 前記出力制御部は、前記文書についての前記抽出対象部分の位置が複数登録された場合に、前記複数の位置に対応するデータの内、過去のデータと一致するデータの数又は率に応じた出力を行うことを特徴とする請求項11に記載のデータ取得装置。
- 前記登録部は、HTML形式で記述された前記文書又は該文書のソースを表示し、
表示された該文書又は該文書のソースに含まれる抽出対象部分の選択を受け付け、
受け付けた前記抽出対象部分に対応するタグの階層を特定し、
特定した該階層を前記抽出対象部分の位置を特定する情報として登録することを特徴とする請求項11に記載のデータ取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080268 WO2016075829A1 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075829A1 true JPWO2016075829A1 (ja) | 2017-08-17 |
JP6500908B2 JP6500908B2 (ja) | 2019-04-17 |
Family
ID=55953942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558843A Active JP6500908B2 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10769216B2 (ja) |
EP (1) | EP3220285A4 (ja) |
JP (1) | JP6500908B2 (ja) |
SG (1) | SG11201703830XA (ja) |
WO (1) | WO2016075829A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
JP7018202B2 (ja) * | 2018-11-27 | 2022-02-10 | 株式会社クリエイト | 掲載情報検索システム |
CN110909123B (zh) * | 2019-10-23 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 一种数据提取方法、装置、终端设备及存储介质 |
TWI757733B (zh) * | 2020-05-05 | 2022-03-11 | 華碩電腦股份有限公司 | 網路資料收集方法 |
US20230229850A1 (en) * | 2022-01-14 | 2023-07-20 | Microsoft Technology Licensing, Llc | Smart tabular paste from a clipboard buffer |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248613A (ja) * | 2001-11-20 | 2003-09-05 | Sharp Corp | 情報配信システムおよびそれに用いられる配信情報生成装置 |
JP2006318138A (ja) * | 2005-05-11 | 2006-11-24 | Nec Personal Products Co Ltd | Webシステム、Webシステム用サーバコンピュータおよびコンピュータプログラム |
JP2011039766A (ja) * | 2009-08-11 | 2011-02-24 | Ricoh Co Ltd | 情報配信サーバ、情報配信システム、情報配信プログラム、及び情報配信方法 |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
JP2012103929A (ja) * | 2010-11-11 | 2012-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法および情報抽出プログラム |
JP2014522030A (ja) * | 2011-07-22 | 2014-08-28 | アリババ・グループ・ホールディング・リミテッド | ウェブページ情報を抽出するためのウェブクローラの構成 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3715444B2 (ja) * | 1998-06-30 | 2005-11-09 | 株式会社東芝 | 構造化文書保存方法及び構造化文書保存装置 |
JP3946934B2 (ja) | 1999-08-05 | 2007-07-18 | 株式会社東芝 | ウェブページ部品統合処理装置、ウェブページ部品統合処理方法及びクライアント装置 |
US6754648B1 (en) * | 1999-09-30 | 2004-06-22 | Software Ag | Method for storing and managing data |
JP2001202283A (ja) | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
US7627571B2 (en) * | 2006-03-31 | 2009-12-01 | Microsoft Corporation | Extraction of anchor explanatory text by mining repeated patterns |
-
2014
- 2014-11-14 WO PCT/JP2014/080268 patent/WO2016075829A1/ja active Application Filing
- 2014-11-14 EP EP14905762.2A patent/EP3220285A4/en not_active Withdrawn
- 2014-11-14 JP JP2016558843A patent/JP6500908B2/ja active Active
- 2014-11-14 SG SG11201703830XA patent/SG11201703830XA/en unknown
-
2017
- 2017-05-08 US US15/589,150 patent/US10769216B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248613A (ja) * | 2001-11-20 | 2003-09-05 | Sharp Corp | 情報配信システムおよびそれに用いられる配信情報生成装置 |
JP2006318138A (ja) * | 2005-05-11 | 2006-11-24 | Nec Personal Products Co Ltd | Webシステム、Webシステム用サーバコンピュータおよびコンピュータプログラム |
JP2011039766A (ja) * | 2009-08-11 | 2011-02-24 | Ricoh Co Ltd | 情報配信サーバ、情報配信システム、情報配信プログラム、及び情報配信方法 |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
JP2012103929A (ja) * | 2010-11-11 | 2012-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法および情報抽出プログラム |
JP2014522030A (ja) * | 2011-07-22 | 2014-08-28 | アリババ・グループ・ホールディング・リミテッド | ウェブページ情報を抽出するためのウェブクローラの構成 |
Also Published As
Publication number | Publication date |
---|---|
WO2016075829A1 (ja) | 2016-05-19 |
SG11201703830XA (en) | 2017-06-29 |
US10769216B2 (en) | 2020-09-08 |
EP3220285A1 (en) | 2017-09-20 |
US20170300574A1 (en) | 2017-10-19 |
JP6500908B2 (ja) | 2019-04-17 |
EP3220285A4 (en) | 2017-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769216B2 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
US9910870B2 (en) | System and method for creating data models from complex raw log files | |
KR102361112B1 (ko) | 유사 그룹 요소 추출 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
US20180181550A1 (en) | Screen information generation device and screen information generation method | |
JP2008123425A (ja) | ウェブ文書データ提供装置、方法、およびシステム | |
JP6601412B2 (ja) | 情報取得プログラム、情報取得方法および情報取得装置 | |
JP6520955B2 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
JP2008071116A (ja) | 情報配信システム、情報配信装置、情報配信方法および情報配信用プログラム | |
EP3370170A1 (en) | Feature term classification method, information processing apparatus, and feature term classification program | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
JP5585816B2 (ja) | ポータルサイト生成システム、ポータルサイト生成方法、及びコンピュータプログラム | |
JP2006209598A (ja) | サイト情報収集システム | |
JP6493413B2 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
JP2019109777A (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2016113887A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP5247543B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
JP5775594B2 (ja) | 計算機、計算機システム及びデータベースの構築支援方法 | |
JP2007086842A (ja) | 入力フォーム提示システムおよび方法 | |
US20150347610A1 (en) | Methods and apparatus for modifying a plurality of markup language files | |
JP2009093391A (ja) | Webサーバ連携方法、Webサーバ連携プログラム、および、Webサーバ連携システム | |
JP2018180979A (ja) | ログ構造可視化装置、ログ構造可視化方法、およびプログラム | |
JP2009139987A (ja) | 検索システム、検索サーバ、検索プログラム、および、検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170517 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6500908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |