KR20150121268A - Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities - Google Patents

Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities Download PDF

Info

Publication number
KR20150121268A
KR20150121268A KR1020140036625A KR20140036625A KR20150121268A KR 20150121268 A KR20150121268 A KR 20150121268A KR 1020140036625 A KR1020140036625 A KR 1020140036625A KR 20140036625 A KR20140036625 A KR 20140036625A KR 20150121268 A KR20150121268 A KR 20150121268A
Authority
KR
South Korea
Prior art keywords
web document
scenario
unit
user
web
Prior art date
Application number
KR1020140036625A
Other languages
Korean (ko)
Inventor
이경일
채수민
이반 베를로셰
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020140036625A priority Critical patent/KR20150121268A/en
Publication of KR20150121268A publication Critical patent/KR20150121268A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Disclosed are a system and a method for collecting a web document based on automatic rule generation according to a user behavior pattern. The system for collecting a web document according to an embodiment of the present invention includes: a scenario processing unit generating a scenario including rules for both heterogeneous document consisting of text and object, and user behavior pattern related to items of interest on web document and web document; and a web document collecting unit for collecting heterogeneous web documents based on the scenario generated by the scenario processing unit.

Description

사용자 행동 패턴에 따른 자동 규칙 생성 기반의 웹 문서 수집 시스템 및 방법 {Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities}Technical Field [0001] The present invention relates to a Web document collection system and method based on automatic rule generation based on a user behavior pattern,

본 발명은 웹 문서 수집 시스템 및 방법에 관한 것으로, 구체적으로 웹(web)에 존재하는 정보를 분석하기 위하여 웹 문서들을 자동으로 수집함에 있어, 변화하는 웹 환경에 적응적으로 동작할 수 있는, 사용자 행동 패턴에 따른 자동 규칙 생성 기반의 웹 문서 수집 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for collecting web documents, and more particularly, to a system and method for collecting web documents in order to automatically collect web documents in order to analyze information existing in the web, And a web document collection system and method based on automatic rule generation according to a behavior pattern.

본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발산업(SW)의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2013.05.01 ~ 2014.04.30, 연구관리 전문기관: 한국산업기술평가관리원, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]The present invention is derived from research conducted and conducted by Saltlux Co., Ltd. as part of the SW Computing Industry Source Technology Development Industry (SW) of the future Creation Science Department. [Research period: 2013.05.01 ~ 2014.04.30, Research institute: Korea Industrial Technology Evaluation & Management Service, Research title: WiseKB: Big data understanding based self-learning knowledge base and inference technology development, task number: 10044494]

웹에 존재하는 다양한 문서들을 분석하기 위해, 미리 웹 상의 문서들을 수집하여 저장할 수 있다. 이러한 웹 문서들의 수집 방법 중 하나로, 사람이 각 웹 문서들을 방문하여 문서의 내용을 복사하고 붙여 넣을 수 있다. 그러나, 이에 대한 시간과 비용의 문제로, 프로그램 등을 통해 자동으로 웹 문서를 수집하는 시스템들이 개발 되었다. 나아가, 웹 환경의 변화에 따라, HTML(Hyper Text Markup Language) 기반의 웹 문서 이외에, 사용자의 행동이 개입될 수 있는 대화식 웹 문서의 수집에 대한 요구가 증대되고 있다. In order to analyze various documents existing on the web, documents on the web can be collected and stored in advance. One of the collection methods of these web documents is that a person can visit each web document and copy and paste the contents of the document. However, due to time and cost problems, systems for automatically collecting Web documents through programs and the like have been developed. Furthermore, as the web environment changes, there is a growing demand for the collection of interactive web documents that can interfere with user behavior in addition to web documents based on Hyper Text Markup Language (HTML).

본 발명은 웹 문서 HTML 기반의 웹 문서와 함께, 사용자의 행동이 개입될 수 있는 대화식 웹 문서의 수집 또한 효율적이고 자동적으로 수집할 수 있는, 웹 문서 수집 시스템 및 방법을 제공한다. The present invention provides a system and method for collecting web documents, which can efficiently and automatically collect interactive web documents, in which user's actions can be intervened, along with web documents HTML based web documents.

본 발명의 일 실시예에 따른 웹 문서 수집 시스템 각각, 텍스트(text) 및 객체(object)로 구현된 이종의 웹 문서에 공통되고, 사용자의 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴에 대한 규칙을 포함하는 시나리오를 생성하는 시나리오 처리부 및 상기 시나리오 처리부에서 생성된 시나리오에 기초하여 상기 이종의 웹 문서를 수집하는 웹 문서 수집부를 포함한다. Each of the web document collection systems according to an embodiment of the present invention is common to heterogeneous web documents implemented with text and objects, A scenario processing unit for generating scenarios including rules, and a web document collecting unit for collecting the heterogeneous web documents based on the scenarios generated by the scenario processing unit.

본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 웹 문서에 대한 행동 패턴을 규칙으로 반영하고 생성된 시나리오에 근거하여 웹 문서를 수집함으로써, 단순히 웹 문서 상의 사용자 행위를 기록하고 그대로 반복하는 방식을 반영하여 웹 문서를 수집하는 경우보다, 웹 문서의 레이아웃 변경 등에 의한 영향을 받지 아니하고 웹 문서 수집이 가능할 수 있다. According to the web document collection system and method according to the embodiment of the present invention, a behavior pattern of a user's web document is reflected as rules, and a web document is collected based on a generated scenario, It is possible to collect a web document without being influenced by a layout change of the web document or the like, as compared with the case of collecting the web document by reflecting the method of repetition as it is.

또한, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 행동 패턴이 반영된 시나리오에 의해 웹 문서를 수집함으로써, 텍스트로 구현되는 정보 제공 위주의 웹 문서들뿐 아니라, 자바스크립트 등으로 구현될 수 있는 커뮤니티 사이트, 소셜 네트워크 서비스 등의 복잡한 대화형 웹 문서들을 효율적으로 수집할 수 있다.According to the web document collection system and method according to the embodiment of the present invention, by collecting web documents according to scenarios in which a behavior pattern of a user is reflected, not only information-oriented web documents implemented in text but also JavaScript It is possible to efficiently collect complex interactive web documents such as a community site and a social network service that can be implemented as a web page.

나아가, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 요구에 보다 포커싱(focusing)된 웹 문서를 수집할 수 있다. Furthermore, according to the web document collection system and method according to the embodiment of the present invention, it is possible to collect more focused web documents at the request of the user.

도 1은 본 발명의 일 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다.
도 2 및 도 3은 각각, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도면이다.
도 4는 도 1의 시나리오 검증부의 일 예를 나타내는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다.
도 6은 본 발명의 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다.
도 7은 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다.
1 is a diagram illustrating a web document collection system according to an embodiment of the present invention.
FIGS. 2 and 3 are views for explaining an example of the operation of the user interface unit of FIG. 1, respectively.
4 is a diagram showing an example of the scenario verifying unit of Fig.
5 is a diagram illustrating a web document collection system according to another embodiment of the present invention.
6 is a diagram illustrating a knowledge base building system according to an embodiment of the present invention.
7 is a diagram illustrating an artificial intelligence system according to an embodiment of the present invention.

이하, 첨부한 도면을 참조하여 본 개시의 실시 예에 대해 상세히 설명한다. 본 개시의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 개시를 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 형태에 대해 한정하려는 것이 아니며, 특허청구범위의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 개시의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. The embodiments of the disclosure are provided to more fully describe the present disclosure to those skilled in the art. The present disclosure is capable of various modifications and may take various forms, and specific embodiments are illustrated and described in the drawings. It is to be understood, however, that the intention is not to limit the present disclosure to the particular forms disclosed, but to include all modifications, equivalents, and alternatives falling within the spirit and scope of the appended claims. Like reference numerals are used for similar elements in describing each drawing. In the accompanying drawings, the dimensions of the structures are shown enlarged or reduced from the actual size for the sake of clarity of the present disclosure.

도 1은 본 발명의 일 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 웹 문서 수집 시스템(100)은 시나리오 처리부(120) 및 웹 문서 수집부(140)를 포함한다. 1 is a diagram illustrating a web document collection system according to an embodiment of the present invention. Referring to FIG. 1, a web document collection system 100 according to an embodiment of the present invention includes a scenario processing unit 120 and a web document collection unit 140.

시나리오 처리부(120)는 사용자에게 인터페이스를 제공하여 사용자가 수집하고자 하는 웹 문서의 수집에 대한 시나리오를 생성한다. 본 발명의 개시에서 웹 문서는 웹 문서의 전부 또는 일부를 나타냄을 알려둔다. 시나리오 처리부(120)는 사용자 인터페이스부(121), 사용자 패턴 분석부(122), 시나리오 생성부(123), 시나리오 검증부(124) 및 시나리오 저장부(125)를 포함할 수 있다. The scenario processing unit 120 provides an interface to a user to generate a scenario for collecting a web document that the user wants to collect. It is noted that in the present disclosure the web document represents all or part of the web document. The scenario processing unit 120 may include a user interface unit 121, a user pattern analysis unit 122, a scenario generation unit 123, a scenario verification unit 124, and a scenario storage unit 125.

사용자 인터페이스부(121)는 사용자로부터 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴에 대한 정보가 입력된다. 사용자 인터페이스부(121)는 이와 같은 웹 문서 수집에 대한 규칙에 근거한 시나리오를 생성하기 위해, 사용자에게 인터페이스를 제공하여 사용자에 의해 웹 문서 상에서 수집할 영역(정보 또는 데이터)이 지정될 수 있도록 한다. 예를 들어, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도 2에 도시되는 바와 같이, 브라우저(browser) 등을 통해 사용자에게 인터페이스를 제공할 수 있다. 사용자 인터페이스부(121)를 통해 웹 문서에 대한 URL(Uniform Resource Locater)이 입력되면, 해당 URL의 웹 문서가 웹 서버로부터 다운로드(download)되어 사용자 인터페이스부(121)에 디스플레이 될 수 있다. 도 1의 예에서, URL은 URL 입력란(①)을 통해 입력되고, 웹 문서는 웹 문서 디스플레이 영역(②)에 디스플레이 될 수 있다. The user interface unit 121 inputs information on the items of interest on the web document and the behavior patterns on the web document from the user. The user interface unit 121 provides an interface to a user so that an area (information or data) to be collected on a web document can be designated by a user in order to create a scenario based on rules for collecting the web document. For example, as shown in FIG. 2 for illustrating an example of the operation of the user interface unit of FIG. 1, an interface may be provided to a user through a browser or the like. When a URL (Uniform Resource Locator) for a web document is inputted through the user interface unit 121, the web document of the URL can be downloaded from the web server and displayed on the user interface unit 121. In the example of Fig. 1, the URL is inputted through the URL input field (1), and the web document can be displayed in the web document display area (2).

또한, 사용자 인터페이스부(121)는 웹 문서 상에 선택된 적어도 하나 이상의 항목(item)을 수신할 수 있다. 예를 들어, 브라우저에 디스플레이 된 쇼핑몰 페이지(웹 문서)에서 상품이 항목으로 선택될 수 있다. 또한, 각 항목에 대해 적어도 하나 이상의 필드(field)가 설정될 수 있다. 예를 들어, 상품인 항목에는 상품명, 가격 및 사용자 리뷰의 필드가 설정될 수 있다. 사용자 인터페이스부(121)는 항목 및 필드의 선택(생성)에 대한 인터페이스를 사용자에게 제공할 수 있다. 상품이 항목인 예에서, 사용자는 사용자 인터페이스부(121)가 제공하는 도 2의 항목 생성 버튼(③)을 클릭하여 팝업창을 통해 새로운 항목을 생성할 수 있다. In addition, the user interface unit 121 may receive at least one item selected on the web document. For example, a commodity may be selected as an item in a shopping mall page (web document) displayed in a browser. Also, at least one field may be set for each item. For example, a field of a product name, a price, and a user review may be set in a product item. The user interface unit 121 can provide the user with an interface for selection (creation) of items and fields. In the example where the product is an item, the user can click on the item creation button (3) of FIG. 2 provided by the user interface unit 121 to create a new item through the pop-up window.

사용자 인터페이스부(121)는 사용자가 항목 및 항목에 포함될 필드를 정의할 수 있도록 인터페이스를 제공한다. 예를 들어, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도 3에 도시되는 바와 같이, 웹 문서 상의 상품명, 가격 및 사용자 리뷰를 캡쳐(capture)함으로써, 항목의 필드를 설정할 수 있다. 캡쳐에 의해, 해당 영역에 대응되는 소스 코드(source code)가 입력될 수 있다. 예를 들어, 해당 영역을 구현하는 HTML(Hyper Text Markup Language), XTHML(Extensible HTML), 자바스크립트(JavaScript) 또는 Ajax(Asynchronous JavaScript and XML) 등의 소스 코드가 입력될 수 있다. The user interface unit 121 provides an interface so that a user can define fields to be included in items and items. For example, as shown in FIG. 3 for explaining an example of the operation of the user interface unit of FIG. 1, a field of an item can be set by capturing a product name, a price, and a user review on a Web document. By the capture, the source code corresponding to the area can be inputted. For example, source code such as HTML (Hyper Text Markup Language), XTHML (Extensible HTML), JavaScript (JavaScript), or Ajax (Asynchronous JavaScript and XML)

사용자 인터페이스부(121)는 또한 기 설정된 항목을 디폴트(default)로 사용자에게 제시할 수 있다. 예를 들어, 상품이 항목으로 설정된 후에, 사용자에게 새로운 상품에 대한 추가할 수 있는 인터페이스를 제공할 수 있다.The user interface unit 121 may also present a preset item to the user by default. For example, after a product is set as an item, the user can be provided with an interface for adding a new product.

각 필드는 적어도 하나 이상의 서브 필드(sub field)를 포함할 수 있다. 예를 들어, 사용자 리뷰에 대한 필드는, 작성자 이름, 작성된 날짜 및 작성된 내용의 서브 필드를 포함할 수 있다. 서브 필드에 대한 설정도 상기와 같을 수 있다. Each field may include at least one or more sub-fields. For example, a field for a user review may include a creator name, a created date, and a subfield of the created content. The setting for the subfield may also be the same as above.

그리고, 사용자 인터페이스부(121)는 사용자의 행동 패턴에 대한 정보를 수신할 수 있다. 예를 들어, 사용자 리뷰가 여러 페이지로 구성되는 때에, 제1 페이지에 대해 설정된 항목(및 항목에 포함되는 필드 및 서브 필드)을 다른 페이지까지 확대하여 적용할지에 대한 정보를 수신하기 위한 인터페이스를 제공할 수 있다. The user interface unit 121 can receive information on the behavior pattern of the user. For example, when the user review is composed of a plurality of pages, an interface is provided to receive information on whether to enlarge and apply the items set for the first page (and the fields and subfields included in the items) to other pages can do.

이상에서는 쇼핑몰 페이지에서의 인터페이스에 대해 예시하였으나, 이에 한정되는 것은 아니다. 예를 들어, 사용자 인터페이스부(121)는 위키피디아(wikipedia)의 지식을 항목으로 설정하고, 지식 1에 대한 웹 문서가 수집되는 때에, 지식 1에 대한 웹 문서 상의 "함께 보기" 영역에 포함된 관련 지식으로 링크하도록 설정할 수 있는 인터페이스를 제공하여, 사용자가 수집하고자 하는 웹 문서 및 이에 대한 사용자 행동 패턴을 수집할 수 있다. 또는, 사용자 인터페이스부(121)는, 예를 들어, 커뮤니티 사이트(community site)의 카테고리 1의 게시판 상의 웹 문서를 수집한 후, 해당 웹 문서의 수집 규칙을 다른 카테고리의 게시판(예를 들어, 카테고리 2의 게시판) 상의 웹 문서를 수집할 수 있는 인터페이스를 제공하여 사용자가 수집하고자 하는 웹 문서 및 이에 대한 사용자 행동 패턴을 수집할 수 있다. Although the interface in the shopping mall page has been described above, the present invention is not limited thereto. For example, the user interface unit 121 sets the knowledge of the wikipedia as an item, and when the web document for the knowledge 1 is collected, the related information included in the "together view" By providing an interface that can be set to link with knowledge, it is possible to collect a web document to be collected by the user and a user behavior pattern thereon. Alternatively, the user interface unit 121 may collect the web document on the bulletin board of the category 1 of the community site, for example, and then collect the collection rule of the web document in another category (for example, a category 2) can collect the web documents on the web page and the user behavior patterns of the web documents to be collected by the user.

또한, 사용자 인터페이스부(121)는 웹 문서 수집에 대한 주기가 설정되도록 인터페이스를 제공할 수 있다. 예를 들어, 수집된 웹 문서에 대한 업데이트를 주기적으로 설정할 수 있도록 인터페이스를 제공할 수 있다. 전술된 인터페이스는 브라우저 상의 버튼 또는 팝업창 등을 통해 제공될 수 있다. In addition, the user interface unit 121 may provide an interface for setting a cycle for web document collection. For example, an interface can be provided to periodically update the collected web documents. The above-described interface can be provided through a button on a browser or a pop-up window or the like.

상기와 같은 사용자 인터페이스부(121)를 통해 수신되는 사용자의 웹 문서 수집 규칙 등에 대한 정보 또는 데이터는 후술되는 웹 문서 수집 시스템(100)의 각 구성에 의해 처리될 수 있다. Information or data about the user's web document collection rules received through the user interface unit 121 may be processed by each component of the web document collection system 100 described later.

계속해서 도 1을 참조하면, 사용자 패턴 분석부(122)는 사용자 인터페이스부(121)로 수신된 정보 또는 데이터를 분석하여 사용자의 웹 문서 수집 행위의 특성(규칙)을 추출한다. 예를 들어, 사용자 패턴 분석부(122)는 사용자의 웹 문서 수집 행위의 종류 및 순서를 추출할 수 있다. 전술된 쇼핑몰 페이지의 예에 대해, 사용자 패턴 분석부(122)는 사용자가 캡쳐한 항목 및 필드(또는 서브 필드)의 소스 코드의 태그(tag) 또는 객체(object)로부터 사용자의 웹 문서 수집 행위의 종류 등의 규칙을 추출할 수 있다. 또한, 전술된 커뮤니티 사이트의 예에 대해, 사용자 패턴 분석부(122)는 사용자가 설정한 게시판 방문 순서를 추출할 수 있다. 1, the user pattern analyzer 122 analyzes the information or data received by the user interface unit 121 and extracts characteristics (rules) of the user's web document collection behavior. For example, the user pattern analyzer 122 may extract the type and order of the user's web document collection behavior. For the example of the shopping mall page described above, the user pattern analyzing unit 122 extracts from the tag or object of the source code of the item (s) captured by the user and the field (or subfield) You can extract rules such as types. In addition, for the example of the above-described community site, the user pattern analyzing unit 122 may extract the visiting order of the bulletin board set by the user.

시나리오 생성부(123)는 사용자 패턴 분석부(122)로부터 사용자의 웹 문서 수집 행위의 특성에 근거하여, 시간 변수가 고려된, 즉 시간에 따른 변화를 반영할 수 있는 시나리오를 생성한다. 전술된 쇼핑몰 페이지의 예에 대해, 시나리오 생성부(123)는 사용자 패턴 분석부(122)가 분석한 소스 코드에 따라, 새로운 상품에 대해 필드 또는 서브 필드에 대한 사항을 수집할 수 있도록 시나리오를 생성할 수 있다. 예를 들어, 상품 1에 대해 설정된 규칙인 상품명, 가격 및 사용자 리뷰에 대한 사항을, 다른 상품에 대해 수집할 수 있도록 시나리오가 생성될 수 있다. 이 경우, 시나리오는 웹 문서 상의 상품명, 가격 및 사용자 리뷰에 대한 태그 또는 객체를 포함하도록 생성될 수 있다. The scenario generating unit 123 generates a scenario in which a time variable is considered, that is, a time-dependent change can be reflected, based on characteristics of a user's web document collection behavior from the user pattern analyzing unit 122. [ For the example of the shopping mall page described above, the scenario generating unit 123 generates a scenario so that items of a field or a sub-field can be collected for a new product according to the source code analyzed by the user pattern analyzing unit 122 can do. For example, a scenario may be created so that the rules set for product 1, product name, price, and user review can be collected for different products. In this case, the scenario may be generated to include a tag or object for the brand name, price, and user review on the web document.

시나리오 생성부(123)는 제1 웹 문서에 대해 설정(추출)된 규칙을 적어도 하나 이상의 제2 웹 문서에 적용할 수 있다. 전술된 커뮤니티 사이트의 예에 대해, 시나리오 생성부(123)는 사용자가 카테고리 1의 게시판 상의 웹 문서에 대해 설정한 사항을, 사용자가 방문할 것으로 설정한 카테고리 1의 게시판 2에 적용하는 시나리오를 생성할 수 있다. 예를 들어, 시나리오 생성부(123)는 카테고리 1의 게시판 상의 웹 문서에 대해 설정된 키워드(keyword)로 카테고리 2의 게시판 상의 웹 문서를 수집하도록 시나리오를 생성할 수 있다. The scenario generating unit 123 may apply the rule set (extracted) to the first web document to at least one second web document. With respect to the above-described example of the community site, the scenario generating unit 123 generates a scenario in which the user applies the matters set for the web document on the bulletin board of the category 1 to the bulletin board 2 of the category 1 set to be visited by the user can do. For example, the scenario generation unit 123 may generate a scenario in which the web document on the bulletin board of category 2 is collected with a keyword set for the web document on the bulletin board of category 1.

시나리오 생성부(123)에서 생성된 시나리오는 이와 같이, 텍스트(text) 및 객체(object)로 구현된 이종의 웹 문서에 공통된다. 본 발명에서 객체는 단순히 자바스크립트 등의 객체에 국한되지 아니하고 함수(function) 등 텍스트가 아닌 모든 언어의 개념을 포함함을 알려둔다. 예를 들어, 시나리오는 텍스트로 구현된 웹 문서 상의 상품명, 가격 및 사용자 리뷰와, 사용자 행위(예를 들어, 클릭(click) 또는 플레이(play)) 등에 의해 실행되는, 객체로 구현된 웹 문서 상의 행위(예를 들어, 페이지 1에서 페이지 2로 이동)가 반영된 시나리오를 생성할 수 있다. The scenarios generated by the scenario generating unit 123 are thus common to heterogeneous web documents implemented with text and objects. In the present invention, an object is not limited to an object such as JavaScript, but includes a concept of all languages other than text such as a function. For example, the scenario may be based on a web document implemented as an object, executed by user action (e.g., click or play) Scenarios that reflect actions (e.g., from page 1 to page 2) can be created.

전술한 바와 같이, 시나리오 생성부(123)는 시간 변수가 고려된 시나리오를 생성할 수 있다. 예를 들어, 시나리오 생성부(123)는 웹 문서 수집에 대해 주기를 설정하여 시나리오를 생성할 수 있다. 이 경우, 예를 들어, 제1 주기에서 "A와 B가 C 회사를 창업"과 관련되어 웹 문서가 수집된 것을, 제2 주기에서 "C 회사 수출 10억불 달성"과 관련된 웹 문서가 수집될 수 있다. As described above, the scenario generating unit 123 can generate scenarios in which time variables are considered. For example, the scenario generating unit 123 may generate a scenario by setting a cycle for web document collection. In this case, for example, in the first cycle, a web document related to "A and B establishing a company C" is collected, and in the second cycle, a web document related to "C company exporting 1 billion dollars" is collected .

시나리오 생성부(123)는 또한, 규칙에 대한 가중치를 달리하여 시나리오를 생성할 수 있다. 예를 들어, 상품 1에 대한 가격이 다수로 존재하는 경우, 최저가인 가격에 대한 웹 문서가 수집되도록 시나리오가 생성될 수 있다. The scenario generating unit 123 may also generate scenarios with different weights for the rules. For example, if there are a plurality of prices for merchandise 1, a scenario may be created such that a web document for the lowest price is collected.

시나리오 검증부(124)는 생성된 시나리오에 대한 검증을 수행할 수 있다. 전술된 쇼핑몰 페이지의 예에 대해, 시나리오 검증부(124)는 생성된 시나리오로 다른 상품에 대한 정보를 수집하여 시나리오에 따라 정확한 수집이 이루어지는 지를 테스트할 수 있다. 사용자 인터페이스부(121)는 시나리오의 검증을 위한 인터페이스, 예를 들어 브라우저 상에 테스트 버튼을 제공할 수 있다. The scenario verification unit 124 can perform verification of the generated scenario. With respect to the above-described example of a shopping mall page, the scenario verifying unit 124 can collect information on other goods in the generated scenario and test whether accurate collection is performed according to the scenario. The user interface unit 121 may provide an interface for verifying the scenario, for example, a test button on the browser.

도 4는 도 1의 시나리오 검증부의 일 예를 나타내는 도면이다. 도 1을 참조하면, 시나리오 검증부(124)는 자동 검증부(124_2) 및 수동 검증부(124_4)를 포함할 수 있다. 자동 검증부(124_2)는 기 설정된 알고리즘 등에 의해, 시나리오 생성부(123)에 의해 생성된 임시의 시나리오에 대해, 자동으로 오류를 검색하고 수정할 수 있다. 또는 자동 검증부(124_2)는 기 설정된 알고리즘 등에 의해, 인터넷, 클라우드 소싱, 및 외부 지식 데이터(예를 들어, 위키피디아)에 근거하여, 자동으로 임시의 시나리오의 오류를 검색하고 수정할 수 있다. 자동 검증부(124_2)는, 예를 들어, 소셜 네트워크 등을 이용하여 시나리오에 대한 피드백(feedback)을 통해 임시의 시나리오의 오류를 검색하고 수정할 수 있다. 4 is a diagram showing an example of the scenario verifying unit of Fig. Referring to FIG. 1, the scenario verification unit 124 may include an automatic verification unit 124_2 and a manual verification unit 124_4. The automatic verification unit 124_2 can automatically search for and correct an error for a temporary scenario generated by the scenario generation unit 123 by a predetermined algorithm or the like. Alternatively, the automatic verification unit 124_2 can automatically search for and correct errors in the temporary scenario based on the Internet, cloud sourcing, and external knowledge data (e.g., Wikipedia) by a predetermined algorithm or the like. The automatic verification unit 124_2 can search for and correct an error in a temporary scenario through, for example, a feedback on the scenario using a social network or the like.

수동 검증부(124_4)는 임시의 시나리오에 대해 수동으로 오류를 검색 또는 수정할 것을 지시할 수 있다. 예를 들어, 수동 검증부(124_4)는 수동으로 오류를 검색 또는 수정할 것이 요구되는 때에, 사용자(또는 지식 큐레이터)에게 이를 알리기 위한 인터페이스(예를 들어, 점등 또는 팝업창 등)로 구현될 수 있다. 수동 검증부(124_4)는 인터페이스를 통해 사용자(또는 지식 큐레이터)로부터 입력되는 데이터 또는 정보에 근거하여, 임시의 시나리오에 대한 오류를 검색 또는 수정할 수 있다. 수동 검증부(124_4)는 예를 들어, 자동 검증부(124_2)로부터 요청이 있는 때에, 상기와 같은 동작을 수행할 수 있다. 전술된 예와 같이 자동 검증부(124_2)가 소셜 네트워크로부터 임시의 시나리오에 대한 오류를 수신하는 때에, 수동 검증부(124_4)에 오류 정정에 대한 요청을 전송할 수 있다. 또는 수동 검증부(124_4)는 자동 검증부(124_2)의 요청이 없더라도 주기적으로 상기와 같은 동작을 수행할 수 있다. The manual verification unit 124_4 can instruct the temporary scenario to manually search for or correct the error. For example, the manual verification unit 124_4 may be implemented with an interface (for example, a lighting or a pop-up window, etc.) for notifying a user (or a knowledge curator) when a manual search or correction of an error is required. The manual verification unit 124_4 can search for or correct an error for a temporary scenario based on data or information input from the user (or knowledge curator) through the interface. The manual verifying unit 124_4 can perform the above-described operation when there is a request from the automatic verifying unit 124_2, for example. When the automatic verification unit 124_2 receives an error for the temporary scenario from the social network as in the above example, it can send a request for error correction to the manual verification unit 124_4. Alternatively, the manual verification unit 124_4 may periodically perform the same operation even if there is no request from the automatic verification unit 124_2.

시나리오 검증부(124)의 상기와 같이, 자동 검증 동작 및 수동 검증 동작의 병행에 의해, 본 발명의 실시예에 따른 웹 문서 수집 시스템(100)은 보다 효율적으로, 정확하고 유용한 시나리오를 생성할 수 있다. 시나리오 검증부(124)에 의해 검증된 시나리오는 시나리오 저장부(125)에 저장된다. By the combination of the automatic verification operation and the manual verification operation as described above of the scenario verification unit 124, the web document collection system 100 according to the embodiment of the present invention can generate a more efficient, accurate and useful scenario have. The scenario verified by the scenario verification unit 124 is stored in the scenario storage unit 125. [

계속해서 도 1을 참조하면, 웹 문서 수집부(140)는 검증된 시나리오에 근거하여, 웹(인터넷) 상에서 웹 문서(또는 웹 문서 상의 데이터)를 수집하기 위해, 웹 문서 다운로드부(141), 웹 문서 분석부(142), 및 웹 문서 저장부(143)를 포함한다. 1, the web document collecting unit 140 collects web documents (or data on a web document) on the web (Internet) based on the verified scenarios, A web document analysis unit 142, and a web document storage unit 143.

웹 문서 다운로드부(141)는 시나리오 저장부(125)로부터 수신되는 시나리오에 근거하여 웹 문서를 수집하여 다운로드 할 수 있다. 예를 들어, 전술된 예에 대해, 시나리오가 정의한 주기에 따라 "A", "B" 또는 "C 회사"에 대한 웹 문서를 수집하여 다운로드 할 수 있다. The web document download unit 141 can collect and download a web document based on a scenario received from the scenario storage unit 125. [ For example, for the example described above, web documents for "A "," B ", or "Company C" can be collected and downloaded according to the cycle defined by the scenario.

웹 문서 분석부(142)는 다운로드 된 웹 문서를 시나리오 처리부(120)로부터 수신되는 시나리오에 따라 분석하여, 시나리오에 대응되는 웹 문서를 추출한다. 시나리오 저장부(125)로부터 수신되는 시나리오에 따라 다운로드 된 웹 문서의 메타 데이터 및 내용 등을 추출할 수 있다. 웹 문서 분석부(142)는 제1 유형 웹 문서 분석부(142_2) 및 제2 유형 웹 문서 분석부(142_4)를 포함할 수 있다. 제1 유형 웹 문서 분석부(142_2)는 예를 들어, HTML 또는 XHTML 등으로 구현된 텍스트 형태의 웹 문서를 분석하여, 태그 사이의 컨텐츠(내용)을 추출할 수 있다. 제2 유형 웹 문서 분석부(142_4)는 예를 들어, 자바스크립트 또는 Ajax 등으로 구현된 객체 형태의 웹 문서를 분석하여 객체가 규정하고 있는 사용자 행위에 대한 내용을 추출할 수 있다. The web document analysis unit 142 analyzes the downloaded web document according to a scenario received from the scenario processing unit 120, and extracts a web document corresponding to the scenario. The metadata and content of the downloaded web document can be extracted according to the scenario received from the scenario storage unit 125. [ The web document analysis unit 142 may include a first type web document analysis unit 142_2 and a second type web document analysis unit 142_4. The first type web document analyzing unit 142_2 may analyze a web document in a text form implemented by, for example, HTML or XHTML to extract content (content) between the tags. The second type web document analyzing unit 142_4 may extract a content of a user action defined by the object by analyzing a web document in the form of an object implemented by, for example, JavaScript or Ajax.

도 5는 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다. 도 5를 참조하면, 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템(100)은 도 1과 마찬가지로, 시나리오 처리부(120) 및 웹 문서 수집부(140)를 포함한다. 다만, 도 5의 웹 문서 수집 시스템(100)의 시나리오 처리부(120)는 규칙 변환부(126)를 더 포함할 수 있다. 사용자 인터페이스부(121)는 항목 및 필드 등, 웹 문서 수집 규칙에 대한 편집을 위한 인터페이스를 사용자에게 제공할 수 있다. 규칙 변환부(126)는 사용자 인터페이스부(121)를 통해 수신되는 사용자의 웹 문서 수집 규칙의 변환에 대한 정보를 수신하여, 시나리오 생성부(123)가 이를 반영한 시나리오를 생성하도록 제어할 수 있다. 예를 들어, 규칙 변환부(126)는 상품에 대한 상품명, 가격 및 사용자 리뷰 외에, 상품의 무게 등에 대한 규칙을 추가할 수 있다. 5 is a diagram illustrating a web document collection system according to another embodiment of the present invention. Referring to FIG. 5, the web document collection system 100 according to another embodiment of the present invention includes a scenario processing unit 120 and a web document collection unit 140, as in FIG. However, the scenario processing unit 120 of the web document collection system 100 of FIG. 5 may further include a rule conversion unit 126. FIG. The user interface unit 121 may provide the user with an interface for editing web document collection rules, such as items and fields. The rule conversion unit 126 may receive information on the conversion of the web document collection rule of the user received through the user interface unit 121 and may control the scenario generation unit 123 to generate a scenario reflecting the same. For example, the rule conversion unit 126 may add rules for product weight, etc. in addition to the product name, price, and user review for the product.

또한, 도 5의 웹 문서 수집 시스템(100)의 웹 문서 수집부(140)는 시나리오 제어부(144) 및 웹 문서 수집 제어부(145)를 더 포함할 수 있다. 시나리오 제어부(144)는 시나리오 처리부(120)로부터 수신되는 시나리오의 처리 순서 및 처리 시기에 대한 제어를 수행할 수 있다. 예를 들어, 시나리오 제어부(144)는 상품에 대한 시나리오 1과 커뮤니티 사이트에 대한 시나리오 2 중 시나리오 2에 의한 웹 문서 수집이 시나리오 1에 의한 것보다 먼저 수행되도록 제어할 수 있다. 또한, 시나리오 제어부(144)는 시나리오 1에 대한 웹 문서 수집을, 예를 들어, 일주일에 한 번 수행되도록 제어할 수 있다. The web document collection unit 140 of the web document collection system 100 of FIG. 5 may further include a scenario control unit 144 and a web document collection control unit 145. The scenario control unit 144 may control the processing sequence and the process timing of the scenario received from the scenario processing unit 120. [ For example, the scenario control unit 144 can control that the web document collection according to the scenario 1 of the product and the scenario 2 of the scenario 2 of the community site is performed earlier than that of the scenario 1. In addition, the scenario control unit 144 can control the web document collection for scenario 1 to be performed once, for example, once a week.

시나리오 제어부(144)는 나아가 시나리오에 의한 웹 문서 수집 또는 웹 문서 분석에 있어서, 가중치를 부여할 수 있다. 예를 들어, 상품에 대한 시나리오에 의해 웹 문서를 수집함에 있어서, 메이저(major) 인터넷 쇼핑몰 또는 해당 상품에 특화된 인터넷 쇼핑몰에서 수집된 웹 문서에 가중치를 높게 부여할 수 있다. The scenario control unit 144 can further assign a weight to the web document collection or the web document analysis according to the scenario. For example, in collecting a web document according to a scenario for a product, a weight can be given to a web document collected at a major Internet shopping mall or an Internet shopping mall specialized in the product.

상기와 같은, 시나리오 제어부(144) 및 웹 문서 수집 제어부(145)의 제어에 따라 웹 문서 다운로드부(141) 및 웹 문서 분석부(142)가 동작할 수 있다. The web document download unit 141 and the web document analysis unit 142 may operate according to the control of the scenario control unit 144 and the web document collection control unit 145 as described above.

이렇듯, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 웹 문서에 대한 행동 패턴을 규칙으로 반영하고 생성된 시나리오에 근거하여 웹 문서를 수집함으로써, 단순히 웹 문서 상의 사용자 행위를 기록하고 그대로 반복하는 방식을 반영하여 웹 문서를 수집하는 경우보다, 웹 문서의 레이아웃 변경 등에 의한 영향을 받지 아니하고 웹 문서 수집이 가능할 수 있다. As described above, according to the web document collection system and method according to the embodiment of the present invention, by collecting web documents based on the generated scenarios, the behavior patterns of the user's web documents are reflected as rules, It is possible to collect a web document without being influenced by a layout change of the web document or the like, as compared with the case of collecting the web document reflecting the method of recording and repeating the same.

또한, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 행동 패턴이 반영된 시나리오에 의해 웹 문서를 수집함으로써, 텍스트로 구현되는 정보 제공 위주의 웹 문서들뿐 아니라, 자바스크립트 등으로 구현될 수 있는 커뮤니티 사이트, 소셜 네트워크 서비스 등의 복잡한 대화형 웹 문서들을 효율적으로 수집할 수 있다.According to the web document collection system and method according to the embodiment of the present invention, by collecting web documents according to scenarios in which a behavior pattern of a user is reflected, not only information-oriented web documents implemented in text but also JavaScript It is possible to efficiently collect complex interactive web documents such as a community site and a social network service that can be implemented as a web page.

나아가, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 요구에 보다 포커싱(focusing)된 웹 문서를 수집할 수 있다. Furthermore, according to the web document collection system and method according to the embodiment of the present invention, it is possible to collect more focused web documents at the request of the user.

본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법은 포함하는 또는 포함되는 컴퓨팅 시스템의 프로세서 등에 의해 제어될 수 있다. 또한, 예를 들어, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법은 워크벤치(workbench)로 구현되어, 사용자가 편리하게 사용할 수 있다. The web document collection system and method according to an embodiment of the present invention may be controlled by a processor or the like of a computing system that includes or includes. Also, for example, the web document collection system and method according to the embodiment of the present invention can be implemented as a workbench, and can be conveniently used by the user.

도 6은 본 발명의 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다. 도 6을 참조하면, 본 발명의 실시예에 따른 지식베이스 구축 시스템(600)은 웹 문서 수집 시스템(100), 지식 획득부(610), 자가 지식 학습부(620), 추론부(630), 및 지식 데이터 저장부(640)를 포함한다. 웹 문서 수집 시스템(100)은 전술된 도 1 또는 도 5의 웹 문서 수집 시스템일 수 있다. 6 is a diagram illustrating a knowledge base building system according to an embodiment of the present invention. 6, a knowledge base construction system 600 according to an embodiment of the present invention includes a web document collection system 100, a knowledge acquisition unit 610, a self knowledge acquisition unit 620, a reasoning unit 630, And a knowledge data storage unit 640. The web document collection system 100 may be the web document collection system of Fig. 1 or Fig. 5 described above.

지식 획득부(610)는 웹 문서 수집 시스템(100)으로부터 웹 문서를 수신하거나, 인터넷 등으로부터 빅 데이터(big data)를 수신함으로써 외부 자원을 크롤링(crwaling)할 수 있다. 지식 획득부(610)는 상기와 같은 외부 자원으로부터, 자연어 처리 및 의미 부여 등을 통해 데이터를 분류 및 정제하고 지식 자원의 선별과 의미적 통합 등을 수행하여 지식을 획득할 수 있다. The knowledge acquisition unit 610 may receive a web document from the web document collection system 100 or may crick external resources by receiving big data from the Internet or the like. The knowledge acquiring unit 610 can acquire knowledge by classifying and refining data through natural language processing and meaning giving from the external resources as described above, sorting and semantic integration of knowledge resources, and the like.

자가 지식 학습부(620)는 지식 획득부(610)에 의해 획득된 지식을 자가 학습하여 보다 정제된 지식으로 처리할 수 있다. 예를 들어, 자가 지식 학습부(620)는 파편화된 지식을 학습을 통해 분석하여 통합할 수 있다. 예를 들어, 자가 지식 학습부(620)는 위키(wiki) 등을 통해 학습되는 외부 지식 데이터를 통해, 파편화된 지식을 연결시키거나, 모순된 지식을 정정할 수 있다. 자가 지식 학습부(620)에 의해 학습된 지식은 지식 데이터 저장부(640)에 지식 데이터의 형태로 저장될 수 있다. 지식 데이터는 트리플(triple) 또는 스키마(schema) 형태로 구현될 수 있다. 또한, 자가 지식 학습부(620)는 지식 데이터 저장부(640)에 저장된 지식 데이터를 시드(seed) 지식으로 활용할 수 있다. The self-knowledge learning unit 620 can self-learn the knowledge acquired by the knowledge acquisition unit 610 and process it into more refined knowledge. For example, the self-knowledge learning unit 620 can analyze and integrate fragmented knowledge through learning. For example, the self-knowledge learning unit 620 can connect the fragmented knowledge or correct the contradictory knowledge through external knowledge data learned through a wiki or the like. The knowledge learned by the self-knowledge learning unit 620 may be stored in the knowledge data storage unit 640 in the form of knowledge data. The knowledge data may be implemented in a triple or schema form. In addition, the self-knowledge learning unit 620 may utilize the knowledge data stored in the knowledge data storage unit 640 as a seed knowledge.

추론부(630)는 외부로부터 수신되는 질의에 대해 자가 지식 학습부(620)로부터 생성된 지식 데이터 또는 지식 데이터 저장부(640)에 저장된 지식 데이터를 기반으로 추론할 수 있다. 추론부(630)에 의해 추론된 결과는 지식 데이터로 지식 데이터 저장부(640)에 저장되거나, 지식 데이터 저장부(640)에 저장된 지식 데이터를 업데이트 또는 정정하는데 활용될 수 있다. The reasoning unit 630 can deduce the query received from the outside based on the knowledge data generated from the self-knowledge learning unit 620 or the knowledge data stored in the knowledge data storage unit 640. The results deduced by the reasoning unit 630 may be stored in the knowledge data storage unit 640 as knowledge data or may be used to update or correct the knowledge data stored in the knowledge data storage unit 640. [

본 발명의 실시예에 따른 지식베이스 구축 시스템(600)은 본 발명의 실시예에 따른 웹 문서 수집 시스템(100)을 포함하여, 다양하고 정확하게 포커싱(focusing)된 웹 문서를 이용함으로써, 보다 정확한 지식베이스를 구축할 수 있다. The knowledge base construction system 600 according to the embodiment of the present invention includes the web document collection system 100 according to the embodiment of the present invention and uses a variety of accurately focused web documents, Base can be constructed.

도 7은 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다. 도 7을 참조하면, 본 발명의 실시예에 따른 인공 지능 시스템(700)은 웹 문서 수집 시스템(100), 지식베이스 구축 시스템(600) 및 지능형 질의 응답 시스템(710)를 포함한다. 웹 문서 수집 시스템(100)은 전술된 도 1 또는 도 5의 웹 문서 수집 시스템일 수 있다. 지식베이스 구축 시스템(600)은 웹 문서 수집 시스템(100)으로부터 웹 문서를 수신하거나, 인터넷 등으로부터 빅 데이터(big data)를 수신하여 지식베이스를 구축한다. 지능형 질의 응답 시스템(710)은 사용자로부터의 질의에 대해 지식베이스 구축 시스템(600)을 이용하여 응답을 생성한다. 7 is a diagram illustrating an artificial intelligence system according to an embodiment of the present invention. Referring to FIG. 7, an artificial intelligence system 700 according to an embodiment of the present invention includes a web document collection system 100, a knowledge base construction system 600, and an intelligent question answering system 710. The web document collection system 100 may be the web document collection system of Fig. 1 or Fig. 5 described above. The knowledge base construction system 600 constructs a knowledge base by receiving a web document from the web document collection system 100 or receiving big data from the Internet or the like. The intelligent question answering system 710 generates a response using a knowledge base building system 600 for a query from a user.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.While the present invention has been described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, is intended to cover various modifications and equivalent arrangements included within the spirit and scope of the appended claims. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

100: 웹 문서 수집 시스템
120: 시나리오 생성부
140: 웹 문서 수집부
100: Web document collection system
120: scenario generating unit
140: Web document collection unit

Claims (9)

각각, 텍스트(text) 및 객체(object)로 구현된 이종의 웹 문서에 공통되고, 사용자의 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴에 대한 규칙을 포함하는 시나리오를 생성하는 시나리오 처리부; 및
상기 시나리오 처리부에서 생성된 시나리오에 기초하여 상기 이종의 웹 문서를 수집하는 웹 문서 수집부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
A scenario processor for generating a scenario that is common to different types of web documents implemented as text and objects, and includes a rule for a topic of interest on a user's web document and a behavior pattern for a web document; And
And a web document collection unit for collecting the heterogeneous web documents based on scenarios generated by the scenario processing unit.
제1 항에 있어서, 상기 시나리오 처리부는,
사용자로부터 상기 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴의 정보가 입력되는 사용자 인터페이스부;
상기 사용자 인터페이스부로 입력되는 정보에 근거하여 사용자의 웹 문서 수집 행위의 규칙을 추출하는 사용자 패턴 분석부;
상기 사용자 패턴 분석부에 의해 추출된 규칙에 근거하여 상기 시나리오를 생성하는 시나리오 생성부;
상기 시나리오 생성부에 의해 생성된 시나리오를 검증하는 시나리오 검증부; 및
상기 검증된 시나리오를 저장하는 시나리오 저장부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
The scenario management system according to claim 1,
A user interface unit for inputting information on an item of interest on the web document and a behavior pattern on the web document from a user;
A user pattern analyzer for extracting rules of a user's web document collection operation based on information input to the user interface unit;
A scenario generating unit for generating the scenario based on the rule extracted by the user pattern analyzing unit;
A scenario verifying unit for verifying a scenario generated by the scenario generating unit; And
And a scenario storage unit for storing the verified scenarios.
제2 항에 있어서, 상기 시나리오는,
상기 객체로 구현된 웹 문서로부터 추출된 사용자의 웹 문서 수집 행위의 규칙을 반영하여, 제1 웹 문서에 대해 설정된 규칙을 적어도 하나 이상의 제2 웹 문서에 적용하도록 생성되는 것을 특징으로 하는 웹 문서 수집 시스템.
3. The method of claim 2,
Wherein the rule is generated so as to apply a rule set for the first web document to at least one second web document by reflecting a rule of the web document collection behavior of the user extracted from the web document implemented by the object. system.
제2 항에 있어서, 상기 시나리오는,
상기 객체로 구현된 웹 문서로부터 추출된 사용자의 웹 문서 수집 행위의 규칙을 반영하여, 시간에 따라 다른 규칙에 의해 웹 문서가 수집되도록 생성되는 것을 특징으로 하는 웹 문서 수집 시스템.
3. The method of claim 2,
Wherein the web document collection system is generated such that a web document is collected by another rule according to a time, reflecting a rule of a web document collection operation of a user extracted from the web document implemented by the object.
제2 항에 있어서, 상기 시나리오 처리부는,
상기 사용자 인터페이스부를 통해 수신되는 사용자의 웹 문서 수집 규칙의 변환에 대한 정보를 수신하여, 상기 시나리오 생성부가 변화된 규칙을 반영한 시나리오를 생성하도록 제어하는 규칙 변환부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
The scenario management system according to claim 2,
Further comprising a rule conversion unit that receives information on a conversion of a user's web document collection rule received through the user interface unit and controls the scenario generation unit to generate a scenario reflecting a changed rule, .
제1 항에 있어서, 상기 웹 문서 수집부는,
상기 시나리오 처리부로부터 수신되는 시나리오에 근거하여, 웹 문서를 수집하여 다운로드 하는 웹 문서 다운로드부;
상기 다운로드 된 웹 문서를 상기 시나리오 처리부로부터 수신되는 시나리오에 따라 분석하여, 상기 시나리오에 대응되는 웹 문서를 추출하는 웹 문서 분석부; 및
상기 웹 문서 분석부에 의해 추출된 웹 문서를 저장하는 웹 문서 저장부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
The web document collecting system according to claim 1,
A web document downloading unit for collecting and downloading a web document based on a scenario received from the scenario processing unit;
A web document analysis unit for analyzing the downloaded web document according to a scenario received from the scenario processing unit and extracting a web document corresponding to the scenario; And
And a web document storage unit for storing the web document extracted by the web document analysis unit.
제6 항에 있어서, 상기 웹 문서 분석부는,
상기 다운로드 된 웹 문서의 태그(tag) 및 태그 사이의 컨텐츠(contents)에 근거하여 상기 시나리오에 대응되는 웹 문서인지를 분석하는 제1 유형 웹 문서 분석부; 및
상기 다운로드 된 웹 문서의 객체에 근거하여 상기 시나리오에 대응되는 웹 문서인지를 분석하는 제2 유형 웹 문서 분석부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
[7] The method of claim 6,
A first type web document analyzing unit for analyzing a web document corresponding to the scenario based on a tag of the downloaded web document and a content between the tags; And
And a second type web document analyzing unit for analyzing whether the web document corresponding to the scenario is based on the object of the downloaded web document.
제6 항에 있어서, 상기 웹 문서 분석부는,
상기 시나리오 처리부로부터 수신되는 시나리오의 처리 순서 및 처리 시기를 설정하여, 상기 웹 문서 다운로드부가 상기 웹 문서를 수집하고 다운로드 하는 동작을 제어하는 시나리오 제어부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
[7] The method of claim 6,
Further comprising a scenario control unit for setting a processing sequence and a processing time of a scenario received from the scenario processing unit and controlling an operation of the web document download unit to collect and download the web document.
제6 항에 있어서,
상기 시나리오 처리부로부터 수신되는 시나리오에 의한 웹 문서 수집 또는 웹 문서 분석에 가중치를 부여하는 시나리오 제어부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.
The method according to claim 6,
Further comprising a scenario control unit for assigning weights to web document collection or web document analysis based on scenarios received from the scenario processing unit.
KR1020140036625A 2014-03-28 2014-03-28 Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities KR20150121268A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140036625A KR20150121268A (en) 2014-03-28 2014-03-28 Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140036625A KR20150121268A (en) 2014-03-28 2014-03-28 Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities

Publications (1)

Publication Number Publication Date
KR20150121268A true KR20150121268A (en) 2015-10-29

Family

ID=54430282

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140036625A KR20150121268A (en) 2014-03-28 2014-03-28 Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities

Country Status (1)

Country Link
KR (1) KR20150121268A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180078031A (en) * 2016-12-29 2018-07-09 (주)해나소프트 Scenario production system and method for scrapping web data
KR20220034489A (en) * 2020-09-11 2022-03-18 차정민 Method for automatically registering product, and computer program recorded on record-medium for executing method therefor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180078031A (en) * 2016-12-29 2018-07-09 (주)해나소프트 Scenario production system and method for scrapping web data
KR20220034489A (en) * 2020-09-11 2022-03-18 차정민 Method for automatically registering product, and computer program recorded on record-medium for executing method therefor

Similar Documents

Publication Publication Date Title
Kranjc et al. Active learning for sentiment analysis on data streams: Methodology and workflow implementation in the ClowdFlows platform
CN102073726B (en) Structured data import method and device for search engine system
Milev Conceptual approach for development of web scraping application for tracking information
KR20100080470A (en) Collaborative development of visualization dashboards
Bakaev et al. I don’t have that much data! Reusing user behavior models for websites from different domains
Kourtzanidis et al. RepoSkillMiner: identifying software expertise from GitHub repositories using natural language processing
De Medio et al. Automatic extraction and sequencing of wikipedia pages for smart course building
KR20150121268A (en) Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities
Milosevic et al. Classification of intangible social innovation concepts
Mahdavi et al. Exploring the utility of semantic web technology in building performance simulation
Ruan et al. Requirements Modeling Aided by ChatGPT: An Experience in Embedded Systems
Qian et al. Structural descriptions of process models based on goal-oriented unfolding
Nabuco et al. Inferring user interface patterns from execution traces of web applications
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
Motger de la Encarnación et al. RESim-Automated detection of duplicated requirements in software engineering projects
Hogo et al. Web-Based expert system for civil service regulations: RCSES
Hadzhikoleva et al. Generalized net model for building responsive design of web pages
Sleiman et al. A reference architecture to devise web information extractors
Gutierrez et al. Cloud Application for the Generation of Static Websites Through the Recognition of Wireframes using Artificial Intelligence
Bratić et al. Centralized Database Access: Transformer Framework and LLM/Chatbot Integration-Based Hybrid Model
El Mhouti et al. A Web Scraping Framework for Descriptive Analysis of Meteorological Big Data for Decision-Making Purposes
US11790892B1 (en) Voice-driven application prototyping using machine-learning techniques
Muchová et al. An approach to support education of data mining algorithms
Rowe et al. Fusing and disaggregating models, data and analysis tools for a dynamic science–society interface
Walker Web applications for interactive environmental modeling

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
E801 Decision on dismissal of amendment
AMND Amendment
E801 Decision on dismissal of amendment