KR20030035261A - Method for extracting selective information in webpage using structure analysis - Google Patents

Method for extracting selective information in webpage using structure analysis Download PDF

Info

Publication number
KR20030035261A
KR20030035261A KR1020010067244A KR20010067244A KR20030035261A KR 20030035261 A KR20030035261 A KR 20030035261A KR 1020010067244 A KR1020010067244 A KR 1020010067244A KR 20010067244 A KR20010067244 A KR 20010067244A KR 20030035261 A KR20030035261 A KR 20030035261A
Authority
KR
South Korea
Prior art keywords
web page
information
pattern
layout
filtered
Prior art date
Application number
KR1020010067244A
Other languages
Korean (ko)
Inventor
송한범
황창호
박남규
Original Assignee
송한범
황창호
박남규
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 송한범, 황창호, 박남규 filed Critical 송한범
Priority to KR1020010067244A priority Critical patent/KR20030035261A/en
Publication of KR20030035261A publication Critical patent/KR20030035261A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

PURPOSE: A method for selectively extracting the web page information using structure analysis is provided to extract the specific information selectively by analyzing a structure of a web page provided from an information providing web site. CONSTITUTION: After collecting the web page from the information providing web site and searching a layout structure pattern of the collected web page, the unnecessary information is eliminated by performing the structure filtering to the web page as using the information for the layout structure pattern(306). A table structure of the filtered web page is analyzed and a template pattern having the most similar structure with the analyzed table structure is searched from the stored template patterns(310). The specific information is extracted from the filtered page by using the information of the searched template pattern(312).

Description

구조분석을 이용한 선택적 웹페이지정보 추출 방법{Method for extracting selective information in webpage using structure analysis}Method for extracting selective information in webpage using structure analysis}

본 발명은 웹페이지로부터의 정보추출 방법에 관한 것으로서, 특히 정보제공 웹사이트가 제공하는 웹페이지의 구조를 분석하여 특정정보만을 선택적으로 추출할 수 있게 하는, 구조분석을 이용한 선택적 웹페이지정보 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to a method for extracting information from a web page, and in particular, to selectively extract only specific information by analyzing a structure of a web page provided by an information providing website. And a computer readable recording medium having recorded thereon a program for realizing the method.

도 1 은 종래의 정보추출 에이전트의 정보추출 방법에 대한 설명도이다.1 is an explanatory diagram of an information extraction method of a conventional information extraction agent.

종래의 정보추출 에이전트는 언어적 분석을 통하여 "주요기사"(100)와 "기획이벤트"(102)사이는 추출대상 정보로 간주하고, 또는 시각적 분석을 통하여 Font size 2와 class=font9udr(104)을 만족하는 텍스트는 추출대상 정보로 간주함으로써 특정정보(106)을 추출한다.The conventional information extraction agent regards the information between the "main article" 100 and the "planning event" 102 through linguistic analysis as extraction target information, or through visual analysis, Font size 2 and class = font9udr (104). The text that satisfies the extracted information is regarded as the extraction target information.

그러나, 종래의 정보추출 에이전트는 텍스트에 기반하는 언어적 구조 및 시각적 구조(예를 들면, 글자, 폰트, 색상, 크기 등)를 기준으로(즉, HTML소스 상의 특정 단어나 특징을 기준으로) 정보를 분석하기 때문에, 해당 웹페이지의 변경이 이루어져 특정 기준이 없어지면 정확한 정보추출이 어려웠고, 또한 웹사이트의 개별적인 형식으로 인하여 확장성(Wrapper의 생성)에도 많은 제약이 있다는 문제점이 있었다.Conventional information extraction agents, however, are based on textual linguistic and visual structures (e.g., letters, fonts, colors, sizes, etc.) (i.e., based on a particular word or feature on an HTML source). Because it is analyzed, it is difficult to extract accurate information when the change of the corresponding web page is eliminated, and there is a problem that there are many limitations in the extensibility (creation of a wrapper) due to the individual format of the website.

본 발명은, 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 정보제공 웹사이트가 제공하는 웹페이지의 구조를 분석하여 특정정보만을 선택적으로 추출할 수 있게 하는, 구조분석을 이용한 선택적 웹페이지정보 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.The present invention has been made to solve the above problems, it is possible to selectively extract only specific information by analyzing the structure of the web page provided by the information providing website, selective web page information extraction using structural analysis It is an object of the present invention to provide a computer-readable recording medium having recorded thereon a method and a program for realizing the method.

도 1 은 종래의 정보추출 에이전트의 정보추출 방법에 대한 설명도.1 is an explanatory diagram of an information extraction method of a conventional information extraction agent.

도 2 는 본 발명에 따른 지능형 정보추출 에이전트의 일실시예 구성도.2 is a block diagram of an embodiment of an intelligent information extraction agent according to the present invention;

도 3 은 본 발명에 따른 구조분석을 이용한 선택적 웹페이지정보 추출 방법에 대한 일실시예 흐름도.3 is a flowchart illustrating an exemplary method for extracting selective web page information using structural analysis according to the present invention.

도 4a 및 도 4b 는 본 발명에 따른 웹페이지의 구조분석 및 구조필터링 방법에 대한 일실시예 설명도.4A and 4B are diagrams illustrating an embodiment of a structure analysis and structure filtering method of a web page according to the present invention.

도 5 는 본 발명에 따른 인터넷 쇼핑몰의 웹페이지로부터 상품정보를 추출하는 방법에 대한 일실시예 설명도.5 is a diagram illustrating an embodiment of a method for extracting product information from a web page of an internet shopping mall according to the present invention.

* 도면의 주요 부분에 대한 부호 설명** Explanation of symbols on the main parts of the drawing *

200: 정보제공 웹사이트 202: 인터넷200: Informational website 202: Internet

204: 지능형 정보추출 에이전트 206: 데이터베이스204: intelligent information extraction agent 206: database

208: 수집부 210: 분석부208: collector 210: analyzer

상기의 목적을 달성하기 위한 본 발명은, 정보추출 에이전트(Agent)에 적용되는 웹페이지정보 추출 방법에 있어서, 정보제공 웹사이트로부터 웹페이지를 수집하고, 상기 수집된 웹페이지의 체제(Layout)구조를 분석하여 웹페이지에 대한 체제(Layout)구조패턴을 탐색한 후, 상기 탐색된 체제(Layout)구조패턴에 대한 정보를 이용하여 상기 웹페이지에 구조필터링을 수행하여 불필요한 정보를 제거하는 제 1 단계; 상기 구조필터링된 웹페이지의 테이블(Table)구조를 분석하고, 저장되어 있는 다수의 템플릿 패턴(Template Patterns) 중에서 상기 분석된 테이블 구조와 가장 유사한 구조를 가지는 템플릿 패턴을 검색하는 제 2 단계; 및 상기 검색된 템플릿 패턴에 대한 정보를 이용하여 상기 제 1 단계에서 필터링된 웹페이지로부터 특정정보를 추출하는 제 3 단계를 포함한다.The present invention for achieving the above object, in the web page information extraction method applied to the information extraction agent (Agent), collecting the web page from the information providing website, the structure (layout) structure of the collected web page A first step of searching for a layout pattern for a web page by analyzing the s, and then performing structure filtering on the web page using information on the found layout pattern to remove unnecessary information ; Analyzing a table structure of the structure-filtered web page and searching for a template pattern having a structure most similar to the analyzed table structure among a plurality of stored template patterns; And a third step of extracting specific information from the web page filtered in the first step by using the information about the found template pattern.

한편, 본 발명은 웹페이지로부터 정보를 추출하기 위하여, 프로세서를 구비한 정보추출 에이전트(Agent)에, 정보제공 웹사이트로부터 웹페이지를 수집하고,상기 수집된 웹페이지의 체제(Layout)구조를 분석하여 웹페이지에 대한 체제 (Layout)구조패턴을 탐색한 후, 상기 탐색된 체제(Layout)구조패턴에 대한 정보를 이용하여 상기 웹페이지에 구조필터링을 수행하여 불필요한 정보를 제거하는 제 1 기능; 상기 구조필터링된 웹페이지의 테이블(Table)구조를 분석하고, 저장되어 있는 다수의 템플릿 패턴(Template Patterns) 중에서 상기 분석된 테이블 구조와 가장 유사한 구조를 가지는 템플릿 패턴을 검색하는 제 2 기능; 및 상기 검색된 템플릿 패턴에 대한 정보를 이용하여 상기 제 1 기능에서 필터링된 웹페이지로부터 특정정보를 추출하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.Meanwhile, the present invention collects a web page from an information providing web site, in an information extraction agent having a processor, to extract information from a web page, and analyzes the layout structure of the collected web page. A first function of searching for a layout structure pattern for a web page and then performing structure filtering on the web page using information on the found layout pattern to remove unnecessary information; A second function of analyzing a table structure of the filtered web page and searching a template pattern having a structure most similar to the analyzed table structure among a plurality of stored template patterns; And a computer readable recording medium having recorded thereon a program for realizing a third function of extracting specific information from the web page filtered by the first function using the information on the retrieved template pattern.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2 는 본 발명에 따른 지능형 정보추출 에이전트의 일실시예 구성도이다.2 is a configuration diagram of an embodiment of an intelligent information extraction agent according to the present invention.

지능형 정보추출 에이전트(204)는 정보제공 웹사이트(200)로부터 단순한 웹페이지 전체가 아닌 웹페이지 내부의 특정부분의 정보만을 선택적으로 추출하여 데이터베이스(206)에 저장한다The intelligent information extraction agent 204 selectively extracts only the information of a specific part of the web page from the information providing website 200 and stores it in the database 206 instead of the entire web page.

즉, 지능형 정보추출 에이전트(204)는 정보제공 웹사이트(200)가 제공하는 웹페이지의 구조(예를 들면, 테이블, 셀, 프레임, 위치 등)를 지능화된 추론 능력과 판단력을 통하여 분석하고 선택적으로 정보를 추출한다.That is, the intelligent information extraction agent 204 analyzes and selectively analyzes the structure (eg, table, cell, frame, location, etc.) of the web page provided by the information providing website 200 through intelligent reasoning ability and judgment. Extract information.

예를 들어, 전자상거래 사이트의 웹페이지로부터 노트북에 대한 정보를 추출하고자 하는 경우, 지능형 정보추출 에이전트(204)는 가격, 노트북 사진, 노트북의사용후기, 관련 신문기사, 소비자평가 항목 등만을 선택적으로 추출하여 저장한다.For example, when extracting information about a notebook from a web page of an e-commerce site, the intelligent information extraction agent 204 selectively selects only prices, notebook photos, reviews of the notebook, related newspaper articles, and consumer evaluation items. Extract and save

지능형 정보추출 에이전트(204)는 수집부(208)와 분석부(210)로 구성되며, 수집부(208)가 인터넷을 통하여 특정 정보제공처의 웹페이지를 탐색하여 그웹페이지를 수집하면, 분석부(210)는 그 수집한 웹페이지의 구조를 분석하여 정보라고 판단되는 부분을 제외한 나머지 부분을 구조필터링기법을 이용하여 제거함으로써 특정정보를 추출한다.Intelligent information extraction agent 204 is composed of a collection unit 208 and the analysis unit 210, the collection unit 208 searches the web page of a specific information provider through the Internet and collects the web page, the analysis unit ( 210 analyzes the structure of the collected web page and extracts specific information by removing the remaining portions except the portion determined to be information using a structure filtering technique.

상기와 같이 구축된 데이터베이스(206)는 정보검색 시스템 등과 연동하여 사용자에게 원하는 정보를 제공하게 된다.The database 206 constructed as described above provides the user with desired information in conjunction with an information retrieval system.

도 3 은 본 발명에 따른 구조분석을 이용한 선택적 웹페이지정보 추출 방법에 대한 일실시예 흐름도이다.3 is a flowchart illustrating a method of extracting selective web page information using structural analysis according to the present invention.

웹브라우저상에 표현되는 웹인터페이스는 단순하게 하나의 웹페이지로 인식되지만, 실제로 지능형 정보추출 에이전트이 대상으로 하는 것은 하이퍼텍스트 생성 언어(HTML: HyperText Markup Language)(이하, HTML라 함)의 소스(Source)이다.The web interface represented on the web browser is simply recognized as a web page, but the intelligent information extraction agent actually targets the source of the HyperText Markup Language (HTML) (hereinafter referred to as HTML). )to be.

지능형 정보추출 에이전트는 HTML소스의 구조를 파악하고 필요부분만 추출한다. 여기서, 특정정보 추출 과정은 1차 추출과정과 2차 추출과정으로 이루어 지는데, 1차 추출과정에는 체제(Layerout)구조분석과 구조필터링 과정이 해당하고, 2차 추출과정에는 테이블구조분석과 템플릿 패턴 검색 과정이 해당된다.The intelligent information extraction agent grasps the structure of HTML source and extracts only necessary parts. Here, the specific information extraction process consists of the first extraction process and the second extraction process. The first extraction process includes the layer structure analysis and the structure filtering process, and the second extraction process includes the table structure analysis and the template pattern. The search process is applicable.

이하, 신문기사의 리스트를 추출하는 과정을 예로 들어 설명하면, 다음과 같다.Hereinafter, the process of extracting a list of newspaper articles will be described as an example.

지능형 정보추출 에이전트(204)가 정보제공 사이트(200)에 접속하여(300),그 정보제공 사이트(200)가 제공하는 웹페이지를 수집한다(302).The intelligent information extracting agent 204 accesses the information providing site 200 (300), and collects the web page provided by the information providing site 200 (302).

지능형 정보추출 에이전트(204)는 수집된 웹페이지의 체제(Layerout)구조를 분석한다(304). 신문사 사이트가 제공하는 웹페이지는 신문기사 리스트뿐만 아니라 상단메뉴와 좌측메뉴, 기타 광고, 그리고 불필요한 정보 등으로 이루어져 있는데, 체제(Layerout)구조 분석 과정에서는 웹페이지 체제(Layerout)구조상 반복되는 패턴과 반복되지 않는 패턴을 비교하여 신문기사 리스트를 정확하게 추출해 낸다.The intelligent information extraction agent 204 analyzes the layout of the collected web page (304). The web page provided by the newspaper site consists of the top menu, the left menu, other advertisements, and unnecessary information as well as the list of newspaper articles.In the process of analyzing the structure of the layout, the repeated pattern and repetition in the structure of the layout of the web page are repeated. Accurately extract a list of newspaper articles by comparing unconventional patterns.

예를 들어, 상단메뉴나 좌측메뉴, 및 기타 정보들의 구조적인 위치나 형태 등은 일반적으로 반복되기 때문에, 웹페이지 별로 체제(Layerout)구조를 비교하면 반드시 반복되는 패턴이 발생하는데, 이렇게 반복되는 패턴은 불필요한 정보로 간주하게 된다.For example, the structural position and shape of the top menu, left menu, and other information are generally repeated. Therefore, when comparing the layout structure of each web page, a repeating pattern always occurs. Is considered unnecessary information.

지능형 정보추출 에이전트(204)는 웹페이지의 체제(Layerout)구조 분석 과정 (304)을 통하여 획득된 체제(Layerout)구조분석 정보를 이용하여 웹페이지의 구조필터링을 수행한다(306). 여기서, 구조필터링이란 필요한 정보만 남기고, 나머지 불필요한 HTML소스를 삭제하는것이다.The intelligent information extracting agent 204 performs the structure filtering of the web page using the layered structure analysis information obtained through the layered structure analysis process 304 of the web page (306). In this case, structure filtering means deleting only the necessary information and restless HTML source.

이후, 지능형 정보추출 에이전트(204)는 2차 추출과정을 수행하게 되는데, 1차 추출과정(304, 306)을 통하여 가공된 정보에 대하여 테이블구조 분석 및 유사 템플릿 패턴 검색을 수행한다(308, 310).Thereafter, the intelligent information extraction agent 204 performs a secondary extraction process, and performs table structure analysis and similar template pattern search on the processed information through the primary extraction processes 304 and 306 (308 and 310). ).

1차 추출과정에 의하여 가공된 정보는 일단 "이것이 정보이다"라는 속성만 가지고 있을 뿐, 세부적 사항인 기사제목, 본문내용, 작성일자, 작성자 등과 관련된 사항을 내포하고 있지는 않다. 따라서, 이러한 세부적인 메타데이터 개념의 정의를 내리는 과정이 테이블구조 분석 및 유사 템플릿 패턴 검색 과정인 것이다.The information processed by the primary extraction process only has the attribute "This is information", but does not contain details related to the article title, text content, date of creation, author, etc. Therefore, the process of defining these detailed metadata concepts is the process of analyzing table structure and searching similar template patterns.

일반적으로 정보로 간주되는 HTML 소스의 속성은 테이블(td 및 tr이라는 태그로 이루어짐)의 형태를 이루고 있기 때문에, HTML 소스의 속성 분석은 테이블이 어떻게 이루어져 있는가를 분석하는 과정이다(308).Since the attributes of the HTML source, which are generally regarded as information, are in the form of tables (composed of tags td and tr), the attribute analysis of the HTML source is a process of analyzing how the table is made (308).

예를 들어, 테이블이 횡으로 3인가 혹은 4인가에 따라 다른 패턴의 모델이 적용되며, 또한 이러한 과정에서도 흔하지 않은 태그(li 등)의 사용 등이 이루어지는 경우도 있어 테이블의 구조를 정확하게 분석하는 것이 중요하다.For example, different patterns are applied depending on whether the table is 3 or 4 horizontally, and in this process, the use of rare tags (li, etc.) may occur. It is important.

상기의 같은 과정을 통하여, 정보 HTML소스의 형태는 패턴을 분석하기 용이하게 변형되며, 그 변형된 정보 HTML소스는 이미 구축되어져 있는 템플릿 패턴과 비교하여 가장 유사한 템플릿 패턴을 찾는다(310).Through the same process as described above, the form of the information HTML source is easily modified to analyze the pattern, and the modified information HTML source finds the most similar template pattern by comparing with the template pattern which is already constructed (310).

요컨대, 테이블구조분석 과정은 HTML소스의 테이블의 구조를 분석하는 것이고, 유사 템플릿 패턴 검색 과정은 이미 데이터베이스에 저장되어 있는 템플릿 패턴 중에서 그 분석된 테이블 구조와 가장 유사한 템플릿 패턴을 찾는다.In short, the table structure analysis process is to analyze the structure of the table of HTML source, and similar template pattern search process finds the template pattern most similar to the analyzed table structure among the template patterns already stored in the database.

1차 추출과정에 의하여 가공된 정보는 "308" 및 "310"을 통하여 추출된 패턴(즉, 테이블 구조와 가장 유사한 템플릿 패턴)을 이용하여 특정정보를 추출하여(312), 데이터베이스에 저장한다(314).The information processed by the primary extraction process is extracted (312) and stored in the database by using the pattern extracted through "308" and "310" (that is, the template pattern most similar to the table structure) (3). 314).

도 4a 및 도 4b 는 본 발명에 따른 웹페이지의 체제(Layerout)구조분석 및 구조필터링 방법에 대한 일실시예 설명도이다.4A and 4B illustrate exemplary embodiments of a structure analysis and structure filtering method of a web page according to the present invention.

도 4a 는 웹페이지의 체제구조를 분석하여(즉, 다수의 웹페이지를 비교하여) , 반복되는 패턴을 찾는 과정을 나타내며, 도 4b 는 체제(Layerout)구조 분석에 의하여 찾아낸 반복패턴을 불필요한 정보로 취급하여 웹페이지(400)로부터 필터링(제거)함으로써 필요한 정보(402)만을 추출하는 과정을 나타낸다.FIG. 4A illustrates a process of searching for a repeating pattern by analyzing the structure of a webpage (ie, comparing a plurality of webpages), and FIG. 4B illustrates unnecessary patterns of repetitive patterns found by analyzing a structure of a layer. The process of extracting only the necessary information 402 by filtering (removing) from the web page 400 by handling.

도 5 는 본 발명에 따른 인터넷 쇼핑몰의 웹페이지로부터 상품정보를 추출하는 방법에 대한 일실시예 설명도이다.5 is a diagram illustrating an embodiment of a method for extracting product information from a web page of an internet shopping mall according to the present invention.

도면에 도시된 바와 같이, 지능형 정보추출 에이전트(204)가 인터넷 쇼핑몰의 웹페이지로부터 상품명(506), 상품사진(500), 가격(504), 제품특징(502) 등의 상품정보만을 추출하는 과정을 나타낸다.As shown in the figure, the intelligent information extraction agent 204 extracts only product information such as a product name 506, a product picture 500, a price 504, a product feature 502, etc. from a web page of an Internet shopping mall. Indicates.

또한, 지능형 정보추출 에이전트(204)는 개별 웹사이트의 독특한 포맷관행이나 웹페이지 언어(외국 사이트의 경우)에 관계없이 지능적으로 웹페이지의 구조를 분석하여 특정정보를 선택적으로 추출한다.In addition, the intelligent information extracting agent 204 intelligently analyzes the structure of the web page and selectively extracts specific information regardless of the unique format practice of the individual website or the web page language (for a foreign site).

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the spirit of the present invention for those skilled in the art to which the present invention pertains, and the above-described embodiments and accompanying It is not limited by the drawings.

상기와 같은 본 발명은, 정보제공 웹사이트에서 특정정보만을 선택적으로 추출할 수 있게 하는 효과가 있다. 즉, 본 발명은, 기사를 제공하는 각 신문사 웹사이트로부터 정치, 경제, 연예, 사회면 등 특정 카테고리 내의 부분정보만을 추출하거나, 또는 인터넷 쇼핑몰로부터 상품명, 가격, 상품사진, 제품특징 등만을 선택적으로 추출할 수 있게 하는 효과가 있다.The present invention as described above has the effect of selectively extracting only specific information from the information providing website. That is, the present invention extracts only partial information within a specific category such as politics, economy, entertainment, and social aspects from each newspaper web site providing the article, or selectively extracts only a product name, a price, a product photograph, a product feature, etc. from an internet shopping mall. It has the effect of making it possible.

또한, 본 발명은, 언어적/시각적 특징을 기준으로 하지 않고 HTML소스 자체의 구조를 파악하여 이를 기준으로 정보를 추출하기 때문에, 범용적이고 확장성이 강한 정보추출 에이전트를 개발할 수 있게 하는 효과가 있다.In addition, since the present invention grasps the structure of the HTML source itself and extracts information based on the structure of the HTML source itself, not based on linguistic / visual characteristics, there is an effect of developing a general-purpose and highly scalable information extraction agent. .

또한, 본 발명은, 인터넷 상에서 발생할 수 있는 여러 가지 비즈니스와 웹서비스를 가능하게 만드는 지능형 솔루션으로서, 정보검색시스템, 정보통합시스템, 전자상거래, 컨텐츠산업(Syndication), 고객관계관리(eCRM), 기업정보포털(EIP), 개인포털(PIP), P2P그룹웨어 등 다양한 분야에 적용될 수 있는 효과가 있다.In addition, the present invention is an intelligent solution that enables a variety of business and web services that can occur on the Internet, information retrieval system, information integration system, e-commerce, content industry (Syndication), customer relationship management (eCRM), enterprise It can be applied to various fields such as information portal (EIP), personal portal (PIP), and P2P groupware.

Claims (4)

정보추출 에이전트(Agent)에 적용되는 웹페이지정보 추출 방법에 있어서,In the web page information extraction method applied to the information extraction agent (Agent), 정보제공 웹사이트로부터 웹페이지를 수집하고, 상기 수집된 웹페이지의 체제(Layout)구조를 분석하여 웹페이지에 대한 체제(Layout)구조패턴을 탐색한 후, 상기 탐색된 체제(Layout)구조패턴에 대한 정보를 이용하여 상기 웹페이지에 구조필터링을 수행하여 불필요한 정보를 제거하는 제 1 단계;Collect a web page from an information providing website, analyze the layout structure of the collected web page, search for a layout pattern for the web page, and then search the layout pattern for the web page. A first step of removing unnecessary information by performing structure filtering on the web page using information about the web page; 상기 구조필터링된 웹페이지의 테이블(Table)구조를 분석하고, 저장되어 있는 다수의 템플릿 패턴(Template Patterns) 중에서 상기 분석된 테이블 구조와 가장 유사한 구조를 가지는 템플릿 패턴을 검색하는 제 2 단계; 및Analyzing a table structure of the structure-filtered web page and searching for a template pattern having a structure most similar to the analyzed table structure among a plurality of stored template patterns; And 상기 검색된 템플릿 패턴에 대한 정보를 이용하여 상기 제 1 단계에서 필터링된 웹페이지로부터 특정정보를 추출하는 제 3 단계A third step of extracting specific information from the web page filtered in the first step by using the information on the found template pattern 를 포함하는 구조분석을 이용한 선택적 웹페이지정보 추출 방법.Selective web page information extraction method using a structural analysis comprising a. 제 1 항에 있어서,The method of claim 1, 상기 제 1 단계의 웹페이지의 체제(Layout)구조분석은,The layout structure analysis of the webpage of the first step is 상기 웹페이지를 작성한 하이퍼텍스트생성언어(HTML)의 소스(Source)의 체제 (Layout)구조를 분석하는 것을 특징으로 하는 구조분석을 이용한 선택적 웹페이지정보 추출 방법.Selective web page information extraction method using structure analysis, characterized in that for analyzing the structure (Layout) of the source (Source) of the hypertext generation language (HTML) that created the web page. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 제 1 단계의 구조필터링은,The structure filtering of the first step, 상기 정보제공 웹사이트가 제공하는 다수의 웹페이지마다 반복되는 체제 (Layout)구조패턴을 불필요한 정보로 간주하여 제거하는 것을 특징으로 하는 구조분석을 이용한 선택적 웹페이지정보 추출 방법.Selective web page information extraction method using structure analysis, characterized in that to remove the structure (Layout) structure pattern repeated for each of the plurality of web pages provided by the information providing website as unnecessary information. 웹페이지로부터 정보를 추출하기 위하여, 프로세서를 구비한 정보추출 에이전트(Agent)에,In order to extract information from a web page, to an information extraction agent having a processor, 정보제공 웹사이트로부터 웹페이지를 수집하고, 상기 수집된 웹페이지의 체제(Layout)구조를 분석하여 웹페이지에 대한 체제(Layout)구조패턴을 탐색한 후, 상기 탐색된 체제(Layout)구조패턴에 대한 정보를 이용하여 상기 웹페이지에 구조필터링을 수행하여 불필요한 정보를 제거하는 제 1 기능;Collect a web page from an information providing website, analyze the layout structure of the collected web page, search for a layout pattern for the web page, and then search the layout pattern for the web page. A first function of removing unnecessary information by performing structure filtering on the web page using information about the web page; 상기 구조필터링된 웹페이지의 테이블(Table)구조를 분석하고, 저장되어 있는 다수의 템플릿 패턴(Template Patterns) 중에서 상기 분석된 테이블 구조와 가장 유사한 구조를 가지는 템플릿 패턴을 검색하는 제 2 기능; 및A second function of analyzing a table structure of the filtered web page and searching a template pattern having a structure most similar to the analyzed table structure among a plurality of stored template patterns; And 상기 검색된 템플릿 패턴에 대한 정보를 이용하여 상기 제 1 기능에서 필터링된 웹페이지로부터 특정정보를 추출하는 제 3 기능A third function of extracting specific information from the web page filtered by the first function by using the information on the found template pattern 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for realizing this.
KR1020010067244A 2001-10-30 2001-10-30 Method for extracting selective information in webpage using structure analysis KR20030035261A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010067244A KR20030035261A (en) 2001-10-30 2001-10-30 Method for extracting selective information in webpage using structure analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010067244A KR20030035261A (en) 2001-10-30 2001-10-30 Method for extracting selective information in webpage using structure analysis

Publications (1)

Publication Number Publication Date
KR20030035261A true KR20030035261A (en) 2003-05-09

Family

ID=29567102

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010067244A KR20030035261A (en) 2001-10-30 2001-10-30 Method for extracting selective information in webpage using structure analysis

Country Status (1)

Country Link
KR (1) KR20030035261A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004044774A1 (en) * 2002-11-12 2004-05-27 Jeong-Bum Pyun Data searching method and information data scrapping method using internet
KR100730002B1 (en) * 2006-05-29 2007-06-20 (주)쓰리소프트 Intelligent information collection method and recording medium having program for the method
KR100835307B1 (en) * 2006-12-08 2008-06-04 부산대학교 산학협력단 Agent system and method for crawling schedule on the web

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004044774A1 (en) * 2002-11-12 2004-05-27 Jeong-Bum Pyun Data searching method and information data scrapping method using internet
KR100730002B1 (en) * 2006-05-29 2007-06-20 (주)쓰리소프트 Intelligent information collection method and recording medium having program for the method
KR100835307B1 (en) * 2006-12-08 2008-06-04 부산대학교 산학협력단 Agent system and method for crawling schedule on the web

Similar Documents

Publication Publication Date Title
US9430569B2 (en) System and method for aggregating and ranking data from a plurality of web sites
US10380197B2 (en) Network searching method and network searching system
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
JP4637969B1 (en) Properly understand the intent of web pages and user preferences, and recommend the best information in real time
US20080098300A1 (en) Method and system for extracting information from web pages
Xie et al. Efficient browsing of web search results on mobile devices based on block importance model
CN100444591C (en) Method for acquiring front-page keyword and its application system
CN103955529A (en) Internet information searching and aggregating presentation method
CN102779169A (en) Extracting method and device for webpage content based on HTML (Hypertext Markup Language) label
CN105843796A (en) Microblog emotional tendency analysis method and device
CN110457579B (en) Webpage denoising method and system based on cooperative work of template and classifier
Banić et al. Using big data and sentiment analysis in product evaluation
CN106372232B (en) Information mining method and device based on artificial intelligence
US8266140B2 (en) Tagging system using internet search engine
Yu et al. Web content information extraction based on DOM tree and statistical information
CN104572874B (en) A kind of abstracting method and device of webpage information
Vineel Web page DOM node characterization and its application to page segmentation
Cao et al. Extraction of informative blocks from web pages
CN101593187A (en) The method and system that is used for administration of bookmark
CN109948015B (en) Meta search list result extraction method and system
KR20030035261A (en) Method for extracting selective information in webpage using structure analysis
CN102214179A (en) Method for capturing network information
JP2011070541A (en) Method and device for supporting internet marketing
Man et al. The proposed algorithm for semi-structured data integration: Case study of Setiu wetland data set
Xabier Saralegi Kimatu, a tool for cleaning non-content text parts from HTML docs

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination