KR101708878B1 - 웹 페이지 정보 추출 장치 및 방법 - Google Patents
웹 페이지 정보 추출 장치 및 방법 Download PDFInfo
- Publication number
- KR101708878B1 KR101708878B1 KR1020140170332A KR20140170332A KR101708878B1 KR 101708878 B1 KR101708878 B1 KR 101708878B1 KR 1020140170332 A KR1020140170332 A KR 1020140170332A KR 20140170332 A KR20140170332 A KR 20140170332A KR 101708878 B1 KR101708878 B1 KR 101708878B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- web page
- value
- information table
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
도 2 및 도 3은 본 발명의 일 실시예에 따른 웹 페이지 정보 추출 장치의 동작 예를 나타내는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 웹 페이지 정보 추출 방법을 나타내는 흐름도이다.
NO | URL | 상품명 | 색상 | 사이즈 | 가걱 |
1 | www.shopping.com/product001 | 야상점퍼 | 갈색 | Free | 129,000 |
2 | www.shopping.com/product002 | 트렌치코트 | 붉은색 | Free | 119,000 |
… | … | … | … | … | … |
Claims (5)
- 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하고, 상기 값과 상기 위치 정보에 대한 규칙 정보를 학습하는 규칙 정보 학습부; 및
상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하고, 상기 규칙 정보의 재학습을 요청하는 변경 감지부를 포함하고,
상기 정보 테이블은 미리 저장된 항목에 대한 구분자를 관리하는 데이터 베이스를 통해 생성되되, 상기 항목에 따른 값의 차이가 임계 오차값 이내가 될 때까지 상기 정보 테이블의 생성을 지속하는 것을 특징으로 하는 웹 페이지 정보 추출 장치. - 제 1 항에 있어서,
상기 웹 페이지 정보 추출 장치는,
상기 정보 테이블을 저장하는 정보 테이블 데이터 베이스;
상기 규칙 정보를 이용하여 상기 코드 내에서 값을 추출하는 데이터 추출부를 더 포함하는 것을 특징으로 하는 웹 페이지 정보 추출 장치. - 제 1 항에 있어서,
상기 정보 테이블은 상기 웹 페이지의 URL(Uniform Resource Locator)을 기준으로 상기 복수의 항목과 상기 항목에 따른 값을 저장하는 것을 특징으로 하고,
상기 변경 감지부는 상기 URL을 단위로 상기 웹 페이지의 변경 여부를 감지하는 것을 특징으로 하는 웹 페이지 정보 추출 장치. - 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 입력 받는 단계;
상기 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하여 학습된 상기 값과 상기 위치 정보에 대한 규칙 정보를 생성하는 단계;
상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하는 단계; 및
상기 규칙 정보를 재학습하는 단계를 포함하고,
상기 정보 테이블은 미리 저장된 항목에 대한 구분자를 관리하는 데이터 베이스를 통해 생성되되, 상기 항목에 따른 값의 차이가 임계 오차값 이내가 될 때까지 상기 정보 테이블의 생성을 지속하는 것을 특징으로 하는 웹 페이지 정보 추출 방법. - 제 4 항에 있어서,
상기 정보 테이블은 상기 웹 페이지의 URL(Uniform Resource Locator)을 기준으로 상기 복수의 항목과 상기 항목에 따른 값을 저장하는 것을 특징으로 하고,
상기 변경 여부를 판단하는 단계는 상기 URL을 단위로 상기 웹 페이지의 변경 여부를 감지하는 것을 특징으로 하는 웹 페이지 정보 추출 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140170332A KR101708878B1 (ko) | 2014-12-02 | 2014-12-02 | 웹 페이지 정보 추출 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140170332A KR101708878B1 (ko) | 2014-12-02 | 2014-12-02 | 웹 페이지 정보 추출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160066235A KR20160066235A (ko) | 2016-06-10 |
KR101708878B1 true KR101708878B1 (ko) | 2017-02-21 |
Family
ID=56190592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140170332A Active KR101708878B1 (ko) | 2014-12-02 | 2014-12-02 | 웹 페이지 정보 추출 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101708878B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190055314A (ko) | 2017-11-15 | 2019-05-23 | 강지형 | 웹데이터 추출분석처리 장치 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101996816B1 (ko) | 2017-12-19 | 2019-07-08 | 하트미디어(주) | 반응형 웹에서의 웹 스타일 가이드 준수율 측정방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005301437A (ja) | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
-
2014
- 2014-12-02 KR KR1020140170332A patent/KR101708878B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005301437A (ja) | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190055314A (ko) | 2017-11-15 | 2019-05-23 | 강지형 | 웹데이터 추출분석처리 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20160066235A (ko) | 2016-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664888B2 (en) | Method and system for attribute extraction from product titles using sequence labeling algorithms | |
KR102390547B1 (ko) | 이미지 특징 데이터 추출 및 사용 | |
CN109643318B (zh) | 商标图像的基于内容的搜索和检索 | |
US9424466B2 (en) | Shoe image retrieval apparatus and method using matching pair | |
CN108984577B (zh) | 一种基于机器识别的线上商品专利获取方法及系统 | |
CN103839172B (zh) | 商品推荐方法及系统 | |
WO2016200828A1 (en) | Image and text data hierarchical classifiers | |
CN106610988B (zh) | 网页推荐方法以及推荐装置 | |
CN106033450B (zh) | 一种广告拦截的方法、装置和浏览器 | |
CN106708886B (zh) | 站内搜索词的显示方法及装置 | |
CN102314654A (zh) | 一种信息推送方法及信息推送服务器 | |
US9679081B2 (en) | Navigation control for network clients | |
KR20130086631A (ko) | 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법, 관련어 등록 장치용 프로그램, 기록 매체 및, 관련어 등록 시스템 | |
KR101708878B1 (ko) | 웹 페이지 정보 추출 장치 및 방법 | |
US10339195B2 (en) | Navigation control for network clients | |
US20140136568A1 (en) | System and method for automatic wrapper induction using target strings | |
CN106909545A (zh) | 一种确定用户的归属信息的方法和设备 | |
Alam et al. | Upoma: A dynamic online price comparison tool for bangladeshi e-commerce websites | |
US20230044463A1 (en) | System and method for locating products | |
US20140280337A1 (en) | Attribute detection | |
CN105354224A (zh) | 知识数据的处理方法和装置 | |
CN103823891A (zh) | 用于计算机历史行为分析的数据处理方法和装置 | |
Saranya et al. | Cross-domain fashion cloth retrieval via novel attention-guided cascade neural network and clothing parsing | |
CN112396484B (zh) | 商品的验证方法及装置、存储介质和处理器 | |
CN107577667A (zh) | 一种实体词处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20141202 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150907 Patent event code: PE09021S01D |
|
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20160429 Patent event code: PE09021S02D |
|
PG1501 | Laying open of application | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20161031 Patent event code: PE09021S02D |
|
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20170131 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20170215 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20170216 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20200204 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20200204 Start annual number: 4 End annual number: 4 |
|
PC1903 | Unpaid annual fee | ||
PR0401 | Registration of restoration |
Patent event code: PR04011E01D Patent event date: 20211022 Comment text: Registration of Restoration |
|
PR1001 | Payment of annual fee |
Payment date: 20211022 Start annual number: 5 End annual number: 5 |
|
PC1903 | Unpaid annual fee | ||
PR0401 | Registration of restoration |
Patent event code: PR04011E01D Patent event date: 20221006 Comment text: Registration of Restoration |
|
PR1001 | Payment of annual fee |
Payment date: 20221006 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20230109 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20240103 Start annual number: 8 End annual number: 8 |