KR20150121268A - Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities - Google Patents
Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities Download PDFInfo
- Publication number
- KR20150121268A KR20150121268A KR1020140036625A KR20140036625A KR20150121268A KR 20150121268 A KR20150121268 A KR 20150121268A KR 1020140036625 A KR1020140036625 A KR 1020140036625A KR 20140036625 A KR20140036625 A KR 20140036625A KR 20150121268 A KR20150121268 A KR 20150121268A
- Authority
- KR
- South Korea
- Prior art keywords
- web document
- scenario
- unit
- user
- web
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
본 발명은 웹 문서 수집 시스템 및 방법에 관한 것으로, 구체적으로 웹(web)에 존재하는 정보를 분석하기 위하여 웹 문서들을 자동으로 수집함에 있어, 변화하는 웹 환경에 적응적으로 동작할 수 있는, 사용자 행동 패턴에 따른 자동 규칙 생성 기반의 웹 문서 수집 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for collecting web documents, and more particularly, to a system and method for collecting web documents in order to automatically collect web documents in order to analyze information existing in the web, And a web document collection system and method based on automatic rule generation according to a behavior pattern.
본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발산업(SW)의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2013.05.01 ~ 2014.04.30, 연구관리 전문기관: 한국산업기술평가관리원, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]The present invention is derived from research conducted and conducted by Saltlux Co., Ltd. as part of the SW Computing Industry Source Technology Development Industry (SW) of the future Creation Science Department. [Research period: 2013.05.01 ~ 2014.04.30, Research institute: Korea Industrial Technology Evaluation & Management Service, Research title: WiseKB: Big data understanding based self-learning knowledge base and inference technology development, task number: 10044494]
웹에 존재하는 다양한 문서들을 분석하기 위해, 미리 웹 상의 문서들을 수집하여 저장할 수 있다. 이러한 웹 문서들의 수집 방법 중 하나로, 사람이 각 웹 문서들을 방문하여 문서의 내용을 복사하고 붙여 넣을 수 있다. 그러나, 이에 대한 시간과 비용의 문제로, 프로그램 등을 통해 자동으로 웹 문서를 수집하는 시스템들이 개발 되었다. 나아가, 웹 환경의 변화에 따라, HTML(Hyper Text Markup Language) 기반의 웹 문서 이외에, 사용자의 행동이 개입될 수 있는 대화식 웹 문서의 수집에 대한 요구가 증대되고 있다. In order to analyze various documents existing on the web, documents on the web can be collected and stored in advance. One of the collection methods of these web documents is that a person can visit each web document and copy and paste the contents of the document. However, due to time and cost problems, systems for automatically collecting Web documents through programs and the like have been developed. Furthermore, as the web environment changes, there is a growing demand for the collection of interactive web documents that can interfere with user behavior in addition to web documents based on Hyper Text Markup Language (HTML).
본 발명은 웹 문서 HTML 기반의 웹 문서와 함께, 사용자의 행동이 개입될 수 있는 대화식 웹 문서의 수집 또한 효율적이고 자동적으로 수집할 수 있는, 웹 문서 수집 시스템 및 방법을 제공한다. The present invention provides a system and method for collecting web documents, which can efficiently and automatically collect interactive web documents, in which user's actions can be intervened, along with web documents HTML based web documents.
본 발명의 일 실시예에 따른 웹 문서 수집 시스템 각각, 텍스트(text) 및 객체(object)로 구현된 이종의 웹 문서에 공통되고, 사용자의 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴에 대한 규칙을 포함하는 시나리오를 생성하는 시나리오 처리부 및 상기 시나리오 처리부에서 생성된 시나리오에 기초하여 상기 이종의 웹 문서를 수집하는 웹 문서 수집부를 포함한다. Each of the web document collection systems according to an embodiment of the present invention is common to heterogeneous web documents implemented with text and objects, A scenario processing unit for generating scenarios including rules, and a web document collecting unit for collecting the heterogeneous web documents based on the scenarios generated by the scenario processing unit.
본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 웹 문서에 대한 행동 패턴을 규칙으로 반영하고 생성된 시나리오에 근거하여 웹 문서를 수집함으로써, 단순히 웹 문서 상의 사용자 행위를 기록하고 그대로 반복하는 방식을 반영하여 웹 문서를 수집하는 경우보다, 웹 문서의 레이아웃 변경 등에 의한 영향을 받지 아니하고 웹 문서 수집이 가능할 수 있다. According to the web document collection system and method according to the embodiment of the present invention, a behavior pattern of a user's web document is reflected as rules, and a web document is collected based on a generated scenario, It is possible to collect a web document without being influenced by a layout change of the web document or the like, as compared with the case of collecting the web document by reflecting the method of repetition as it is.
또한, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 행동 패턴이 반영된 시나리오에 의해 웹 문서를 수집함으로써, 텍스트로 구현되는 정보 제공 위주의 웹 문서들뿐 아니라, 자바스크립트 등으로 구현될 수 있는 커뮤니티 사이트, 소셜 네트워크 서비스 등의 복잡한 대화형 웹 문서들을 효율적으로 수집할 수 있다.According to the web document collection system and method according to the embodiment of the present invention, by collecting web documents according to scenarios in which a behavior pattern of a user is reflected, not only information-oriented web documents implemented in text but also JavaScript It is possible to efficiently collect complex interactive web documents such as a community site and a social network service that can be implemented as a web page.
나아가, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 요구에 보다 포커싱(focusing)된 웹 문서를 수집할 수 있다. Furthermore, according to the web document collection system and method according to the embodiment of the present invention, it is possible to collect more focused web documents at the request of the user.
도 1은 본 발명의 일 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다.
도 2 및 도 3은 각각, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도면이다.
도 4는 도 1의 시나리오 검증부의 일 예를 나타내는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다.
도 6은 본 발명의 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다.
도 7은 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다.1 is a diagram illustrating a web document collection system according to an embodiment of the present invention.
FIGS. 2 and 3 are views for explaining an example of the operation of the user interface unit of FIG. 1, respectively.
4 is a diagram showing an example of the scenario verifying unit of Fig.
5 is a diagram illustrating a web document collection system according to another embodiment of the present invention.
6 is a diagram illustrating a knowledge base building system according to an embodiment of the present invention.
7 is a diagram illustrating an artificial intelligence system according to an embodiment of the present invention.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예에 대해 상세히 설명한다. 본 개시의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 개시를 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 형태에 대해 한정하려는 것이 아니며, 특허청구범위의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 개시의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. The embodiments of the disclosure are provided to more fully describe the present disclosure to those skilled in the art. The present disclosure is capable of various modifications and may take various forms, and specific embodiments are illustrated and described in the drawings. It is to be understood, however, that the intention is not to limit the present disclosure to the particular forms disclosed, but to include all modifications, equivalents, and alternatives falling within the spirit and scope of the appended claims. Like reference numerals are used for similar elements in describing each drawing. In the accompanying drawings, the dimensions of the structures are shown enlarged or reduced from the actual size for the sake of clarity of the present disclosure.
도 1은 본 발명의 일 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 웹 문서 수집 시스템(100)은 시나리오 처리부(120) 및 웹 문서 수집부(140)를 포함한다. 1 is a diagram illustrating a web document collection system according to an embodiment of the present invention. Referring to FIG. 1, a web
시나리오 처리부(120)는 사용자에게 인터페이스를 제공하여 사용자가 수집하고자 하는 웹 문서의 수집에 대한 시나리오를 생성한다. 본 발명의 개시에서 웹 문서는 웹 문서의 전부 또는 일부를 나타냄을 알려둔다. 시나리오 처리부(120)는 사용자 인터페이스부(121), 사용자 패턴 분석부(122), 시나리오 생성부(123), 시나리오 검증부(124) 및 시나리오 저장부(125)를 포함할 수 있다. The
사용자 인터페이스부(121)는 사용자로부터 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴에 대한 정보가 입력된다. 사용자 인터페이스부(121)는 이와 같은 웹 문서 수집에 대한 규칙에 근거한 시나리오를 생성하기 위해, 사용자에게 인터페이스를 제공하여 사용자에 의해 웹 문서 상에서 수집할 영역(정보 또는 데이터)이 지정될 수 있도록 한다. 예를 들어, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도 2에 도시되는 바와 같이, 브라우저(browser) 등을 통해 사용자에게 인터페이스를 제공할 수 있다. 사용자 인터페이스부(121)를 통해 웹 문서에 대한 URL(Uniform Resource Locater)이 입력되면, 해당 URL의 웹 문서가 웹 서버로부터 다운로드(download)되어 사용자 인터페이스부(121)에 디스플레이 될 수 있다. 도 1의 예에서, URL은 URL 입력란(①)을 통해 입력되고, 웹 문서는 웹 문서 디스플레이 영역(②)에 디스플레이 될 수 있다. The user interface unit 121 inputs information on the items of interest on the web document and the behavior patterns on the web document from the user. The
또한, 사용자 인터페이스부(121)는 웹 문서 상에 선택된 적어도 하나 이상의 항목(item)을 수신할 수 있다. 예를 들어, 브라우저에 디스플레이 된 쇼핑몰 페이지(웹 문서)에서 상품이 항목으로 선택될 수 있다. 또한, 각 항목에 대해 적어도 하나 이상의 필드(field)가 설정될 수 있다. 예를 들어, 상품인 항목에는 상품명, 가격 및 사용자 리뷰의 필드가 설정될 수 있다. 사용자 인터페이스부(121)는 항목 및 필드의 선택(생성)에 대한 인터페이스를 사용자에게 제공할 수 있다. 상품이 항목인 예에서, 사용자는 사용자 인터페이스부(121)가 제공하는 도 2의 항목 생성 버튼(③)을 클릭하여 팝업창을 통해 새로운 항목을 생성할 수 있다. In addition, the
사용자 인터페이스부(121)는 사용자가 항목 및 항목에 포함될 필드를 정의할 수 있도록 인터페이스를 제공한다. 예를 들어, 도 1의 사용자 인터페이스부의 동작의 예를 설명하기 위한 도 3에 도시되는 바와 같이, 웹 문서 상의 상품명, 가격 및 사용자 리뷰를 캡쳐(capture)함으로써, 항목의 필드를 설정할 수 있다. 캡쳐에 의해, 해당 영역에 대응되는 소스 코드(source code)가 입력될 수 있다. 예를 들어, 해당 영역을 구현하는 HTML(Hyper Text Markup Language), XTHML(Extensible HTML), 자바스크립트(JavaScript) 또는 Ajax(Asynchronous JavaScript and XML) 등의 소스 코드가 입력될 수 있다. The
사용자 인터페이스부(121)는 또한 기 설정된 항목을 디폴트(default)로 사용자에게 제시할 수 있다. 예를 들어, 상품이 항목으로 설정된 후에, 사용자에게 새로운 상품에 대한 추가할 수 있는 인터페이스를 제공할 수 있다.The
각 필드는 적어도 하나 이상의 서브 필드(sub field)를 포함할 수 있다. 예를 들어, 사용자 리뷰에 대한 필드는, 작성자 이름, 작성된 날짜 및 작성된 내용의 서브 필드를 포함할 수 있다. 서브 필드에 대한 설정도 상기와 같을 수 있다. Each field may include at least one or more sub-fields. For example, a field for a user review may include a creator name, a created date, and a subfield of the created content. The setting for the subfield may also be the same as above.
그리고, 사용자 인터페이스부(121)는 사용자의 행동 패턴에 대한 정보를 수신할 수 있다. 예를 들어, 사용자 리뷰가 여러 페이지로 구성되는 때에, 제1 페이지에 대해 설정된 항목(및 항목에 포함되는 필드 및 서브 필드)을 다른 페이지까지 확대하여 적용할지에 대한 정보를 수신하기 위한 인터페이스를 제공할 수 있다. The
이상에서는 쇼핑몰 페이지에서의 인터페이스에 대해 예시하였으나, 이에 한정되는 것은 아니다. 예를 들어, 사용자 인터페이스부(121)는 위키피디아(wikipedia)의 지식을 항목으로 설정하고, 지식 1에 대한 웹 문서가 수집되는 때에, 지식 1에 대한 웹 문서 상의 "함께 보기" 영역에 포함된 관련 지식으로 링크하도록 설정할 수 있는 인터페이스를 제공하여, 사용자가 수집하고자 하는 웹 문서 및 이에 대한 사용자 행동 패턴을 수집할 수 있다. 또는, 사용자 인터페이스부(121)는, 예를 들어, 커뮤니티 사이트(community site)의 카테고리 1의 게시판 상의 웹 문서를 수집한 후, 해당 웹 문서의 수집 규칙을 다른 카테고리의 게시판(예를 들어, 카테고리 2의 게시판) 상의 웹 문서를 수집할 수 있는 인터페이스를 제공하여 사용자가 수집하고자 하는 웹 문서 및 이에 대한 사용자 행동 패턴을 수집할 수 있다. Although the interface in the shopping mall page has been described above, the present invention is not limited thereto. For example, the
또한, 사용자 인터페이스부(121)는 웹 문서 수집에 대한 주기가 설정되도록 인터페이스를 제공할 수 있다. 예를 들어, 수집된 웹 문서에 대한 업데이트를 주기적으로 설정할 수 있도록 인터페이스를 제공할 수 있다. 전술된 인터페이스는 브라우저 상의 버튼 또는 팝업창 등을 통해 제공될 수 있다. In addition, the
상기와 같은 사용자 인터페이스부(121)를 통해 수신되는 사용자의 웹 문서 수집 규칙 등에 대한 정보 또는 데이터는 후술되는 웹 문서 수집 시스템(100)의 각 구성에 의해 처리될 수 있다. Information or data about the user's web document collection rules received through the
계속해서 도 1을 참조하면, 사용자 패턴 분석부(122)는 사용자 인터페이스부(121)로 수신된 정보 또는 데이터를 분석하여 사용자의 웹 문서 수집 행위의 특성(규칙)을 추출한다. 예를 들어, 사용자 패턴 분석부(122)는 사용자의 웹 문서 수집 행위의 종류 및 순서를 추출할 수 있다. 전술된 쇼핑몰 페이지의 예에 대해, 사용자 패턴 분석부(122)는 사용자가 캡쳐한 항목 및 필드(또는 서브 필드)의 소스 코드의 태그(tag) 또는 객체(object)로부터 사용자의 웹 문서 수집 행위의 종류 등의 규칙을 추출할 수 있다. 또한, 전술된 커뮤니티 사이트의 예에 대해, 사용자 패턴 분석부(122)는 사용자가 설정한 게시판 방문 순서를 추출할 수 있다. 1, the
시나리오 생성부(123)는 사용자 패턴 분석부(122)로부터 사용자의 웹 문서 수집 행위의 특성에 근거하여, 시간 변수가 고려된, 즉 시간에 따른 변화를 반영할 수 있는 시나리오를 생성한다. 전술된 쇼핑몰 페이지의 예에 대해, 시나리오 생성부(123)는 사용자 패턴 분석부(122)가 분석한 소스 코드에 따라, 새로운 상품에 대해 필드 또는 서브 필드에 대한 사항을 수집할 수 있도록 시나리오를 생성할 수 있다. 예를 들어, 상품 1에 대해 설정된 규칙인 상품명, 가격 및 사용자 리뷰에 대한 사항을, 다른 상품에 대해 수집할 수 있도록 시나리오가 생성될 수 있다. 이 경우, 시나리오는 웹 문서 상의 상품명, 가격 및 사용자 리뷰에 대한 태그 또는 객체를 포함하도록 생성될 수 있다. The
시나리오 생성부(123)는 제1 웹 문서에 대해 설정(추출)된 규칙을 적어도 하나 이상의 제2 웹 문서에 적용할 수 있다. 전술된 커뮤니티 사이트의 예에 대해, 시나리오 생성부(123)는 사용자가 카테고리 1의 게시판 상의 웹 문서에 대해 설정한 사항을, 사용자가 방문할 것으로 설정한 카테고리 1의 게시판 2에 적용하는 시나리오를 생성할 수 있다. 예를 들어, 시나리오 생성부(123)는 카테고리 1의 게시판 상의 웹 문서에 대해 설정된 키워드(keyword)로 카테고리 2의 게시판 상의 웹 문서를 수집하도록 시나리오를 생성할 수 있다. The
시나리오 생성부(123)에서 생성된 시나리오는 이와 같이, 텍스트(text) 및 객체(object)로 구현된 이종의 웹 문서에 공통된다. 본 발명에서 객체는 단순히 자바스크립트 등의 객체에 국한되지 아니하고 함수(function) 등 텍스트가 아닌 모든 언어의 개념을 포함함을 알려둔다. 예를 들어, 시나리오는 텍스트로 구현된 웹 문서 상의 상품명, 가격 및 사용자 리뷰와, 사용자 행위(예를 들어, 클릭(click) 또는 플레이(play)) 등에 의해 실행되는, 객체로 구현된 웹 문서 상의 행위(예를 들어, 페이지 1에서 페이지 2로 이동)가 반영된 시나리오를 생성할 수 있다. The scenarios generated by the
전술한 바와 같이, 시나리오 생성부(123)는 시간 변수가 고려된 시나리오를 생성할 수 있다. 예를 들어, 시나리오 생성부(123)는 웹 문서 수집에 대해 주기를 설정하여 시나리오를 생성할 수 있다. 이 경우, 예를 들어, 제1 주기에서 "A와 B가 C 회사를 창업"과 관련되어 웹 문서가 수집된 것을, 제2 주기에서 "C 회사 수출 10억불 달성"과 관련된 웹 문서가 수집될 수 있다. As described above, the
시나리오 생성부(123)는 또한, 규칙에 대한 가중치를 달리하여 시나리오를 생성할 수 있다. 예를 들어, 상품 1에 대한 가격이 다수로 존재하는 경우, 최저가인 가격에 대한 웹 문서가 수집되도록 시나리오가 생성될 수 있다. The
시나리오 검증부(124)는 생성된 시나리오에 대한 검증을 수행할 수 있다. 전술된 쇼핑몰 페이지의 예에 대해, 시나리오 검증부(124)는 생성된 시나리오로 다른 상품에 대한 정보를 수집하여 시나리오에 따라 정확한 수집이 이루어지는 지를 테스트할 수 있다. 사용자 인터페이스부(121)는 시나리오의 검증을 위한 인터페이스, 예를 들어 브라우저 상에 테스트 버튼을 제공할 수 있다. The
도 4는 도 1의 시나리오 검증부의 일 예를 나타내는 도면이다. 도 1을 참조하면, 시나리오 검증부(124)는 자동 검증부(124_2) 및 수동 검증부(124_4)를 포함할 수 있다. 자동 검증부(124_2)는 기 설정된 알고리즘 등에 의해, 시나리오 생성부(123)에 의해 생성된 임시의 시나리오에 대해, 자동으로 오류를 검색하고 수정할 수 있다. 또는 자동 검증부(124_2)는 기 설정된 알고리즘 등에 의해, 인터넷, 클라우드 소싱, 및 외부 지식 데이터(예를 들어, 위키피디아)에 근거하여, 자동으로 임시의 시나리오의 오류를 검색하고 수정할 수 있다. 자동 검증부(124_2)는, 예를 들어, 소셜 네트워크 등을 이용하여 시나리오에 대한 피드백(feedback)을 통해 임시의 시나리오의 오류를 검색하고 수정할 수 있다. 4 is a diagram showing an example of the scenario verifying unit of Fig. Referring to FIG. 1, the
수동 검증부(124_4)는 임시의 시나리오에 대해 수동으로 오류를 검색 또는 수정할 것을 지시할 수 있다. 예를 들어, 수동 검증부(124_4)는 수동으로 오류를 검색 또는 수정할 것이 요구되는 때에, 사용자(또는 지식 큐레이터)에게 이를 알리기 위한 인터페이스(예를 들어, 점등 또는 팝업창 등)로 구현될 수 있다. 수동 검증부(124_4)는 인터페이스를 통해 사용자(또는 지식 큐레이터)로부터 입력되는 데이터 또는 정보에 근거하여, 임시의 시나리오에 대한 오류를 검색 또는 수정할 수 있다. 수동 검증부(124_4)는 예를 들어, 자동 검증부(124_2)로부터 요청이 있는 때에, 상기와 같은 동작을 수행할 수 있다. 전술된 예와 같이 자동 검증부(124_2)가 소셜 네트워크로부터 임시의 시나리오에 대한 오류를 수신하는 때에, 수동 검증부(124_4)에 오류 정정에 대한 요청을 전송할 수 있다. 또는 수동 검증부(124_4)는 자동 검증부(124_2)의 요청이 없더라도 주기적으로 상기와 같은 동작을 수행할 수 있다. The manual verification unit 124_4 can instruct the temporary scenario to manually search for or correct the error. For example, the manual verification unit 124_4 may be implemented with an interface (for example, a lighting or a pop-up window, etc.) for notifying a user (or a knowledge curator) when a manual search or correction of an error is required. The manual verification unit 124_4 can search for or correct an error for a temporary scenario based on data or information input from the user (or knowledge curator) through the interface. The manual verifying unit 124_4 can perform the above-described operation when there is a request from the automatic verifying unit 124_2, for example. When the automatic verification unit 124_2 receives an error for the temporary scenario from the social network as in the above example, it can send a request for error correction to the manual verification unit 124_4. Alternatively, the manual verification unit 124_4 may periodically perform the same operation even if there is no request from the automatic verification unit 124_2.
시나리오 검증부(124)의 상기와 같이, 자동 검증 동작 및 수동 검증 동작의 병행에 의해, 본 발명의 실시예에 따른 웹 문서 수집 시스템(100)은 보다 효율적으로, 정확하고 유용한 시나리오를 생성할 수 있다. 시나리오 검증부(124)에 의해 검증된 시나리오는 시나리오 저장부(125)에 저장된다. By the combination of the automatic verification operation and the manual verification operation as described above of the
계속해서 도 1을 참조하면, 웹 문서 수집부(140)는 검증된 시나리오에 근거하여, 웹(인터넷) 상에서 웹 문서(또는 웹 문서 상의 데이터)를 수집하기 위해, 웹 문서 다운로드부(141), 웹 문서 분석부(142), 및 웹 문서 저장부(143)를 포함한다. 1, the web
웹 문서 다운로드부(141)는 시나리오 저장부(125)로부터 수신되는 시나리오에 근거하여 웹 문서를 수집하여 다운로드 할 수 있다. 예를 들어, 전술된 예에 대해, 시나리오가 정의한 주기에 따라 "A", "B" 또는 "C 회사"에 대한 웹 문서를 수집하여 다운로드 할 수 있다. The web
웹 문서 분석부(142)는 다운로드 된 웹 문서를 시나리오 처리부(120)로부터 수신되는 시나리오에 따라 분석하여, 시나리오에 대응되는 웹 문서를 추출한다. 시나리오 저장부(125)로부터 수신되는 시나리오에 따라 다운로드 된 웹 문서의 메타 데이터 및 내용 등을 추출할 수 있다. 웹 문서 분석부(142)는 제1 유형 웹 문서 분석부(142_2) 및 제2 유형 웹 문서 분석부(142_4)를 포함할 수 있다. 제1 유형 웹 문서 분석부(142_2)는 예를 들어, HTML 또는 XHTML 등으로 구현된 텍스트 형태의 웹 문서를 분석하여, 태그 사이의 컨텐츠(내용)을 추출할 수 있다. 제2 유형 웹 문서 분석부(142_4)는 예를 들어, 자바스크립트 또는 Ajax 등으로 구현된 객체 형태의 웹 문서를 분석하여 객체가 규정하고 있는 사용자 행위에 대한 내용을 추출할 수 있다. The web
도 5는 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템을 나타내는 도면이다. 도 5를 참조하면, 본 발명의 다른 실시예에 따른 웹 문서 수집 시스템(100)은 도 1과 마찬가지로, 시나리오 처리부(120) 및 웹 문서 수집부(140)를 포함한다. 다만, 도 5의 웹 문서 수집 시스템(100)의 시나리오 처리부(120)는 규칙 변환부(126)를 더 포함할 수 있다. 사용자 인터페이스부(121)는 항목 및 필드 등, 웹 문서 수집 규칙에 대한 편집을 위한 인터페이스를 사용자에게 제공할 수 있다. 규칙 변환부(126)는 사용자 인터페이스부(121)를 통해 수신되는 사용자의 웹 문서 수집 규칙의 변환에 대한 정보를 수신하여, 시나리오 생성부(123)가 이를 반영한 시나리오를 생성하도록 제어할 수 있다. 예를 들어, 규칙 변환부(126)는 상품에 대한 상품명, 가격 및 사용자 리뷰 외에, 상품의 무게 등에 대한 규칙을 추가할 수 있다. 5 is a diagram illustrating a web document collection system according to another embodiment of the present invention. Referring to FIG. 5, the web
또한, 도 5의 웹 문서 수집 시스템(100)의 웹 문서 수집부(140)는 시나리오 제어부(144) 및 웹 문서 수집 제어부(145)를 더 포함할 수 있다. 시나리오 제어부(144)는 시나리오 처리부(120)로부터 수신되는 시나리오의 처리 순서 및 처리 시기에 대한 제어를 수행할 수 있다. 예를 들어, 시나리오 제어부(144)는 상품에 대한 시나리오 1과 커뮤니티 사이트에 대한 시나리오 2 중 시나리오 2에 의한 웹 문서 수집이 시나리오 1에 의한 것보다 먼저 수행되도록 제어할 수 있다. 또한, 시나리오 제어부(144)는 시나리오 1에 대한 웹 문서 수집을, 예를 들어, 일주일에 한 번 수행되도록 제어할 수 있다. The web
시나리오 제어부(144)는 나아가 시나리오에 의한 웹 문서 수집 또는 웹 문서 분석에 있어서, 가중치를 부여할 수 있다. 예를 들어, 상품에 대한 시나리오에 의해 웹 문서를 수집함에 있어서, 메이저(major) 인터넷 쇼핑몰 또는 해당 상품에 특화된 인터넷 쇼핑몰에서 수집된 웹 문서에 가중치를 높게 부여할 수 있다. The
상기와 같은, 시나리오 제어부(144) 및 웹 문서 수집 제어부(145)의 제어에 따라 웹 문서 다운로드부(141) 및 웹 문서 분석부(142)가 동작할 수 있다. The web
이렇듯, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 웹 문서에 대한 행동 패턴을 규칙으로 반영하고 생성된 시나리오에 근거하여 웹 문서를 수집함으로써, 단순히 웹 문서 상의 사용자 행위를 기록하고 그대로 반복하는 방식을 반영하여 웹 문서를 수집하는 경우보다, 웹 문서의 레이아웃 변경 등에 의한 영향을 받지 아니하고 웹 문서 수집이 가능할 수 있다. As described above, according to the web document collection system and method according to the embodiment of the present invention, by collecting web documents based on the generated scenarios, the behavior patterns of the user's web documents are reflected as rules, It is possible to collect a web document without being influenced by a layout change of the web document or the like, as compared with the case of collecting the web document reflecting the method of recording and repeating the same.
또한, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 행동 패턴이 반영된 시나리오에 의해 웹 문서를 수집함으로써, 텍스트로 구현되는 정보 제공 위주의 웹 문서들뿐 아니라, 자바스크립트 등으로 구현될 수 있는 커뮤니티 사이트, 소셜 네트워크 서비스 등의 복잡한 대화형 웹 문서들을 효율적으로 수집할 수 있다.According to the web document collection system and method according to the embodiment of the present invention, by collecting web documents according to scenarios in which a behavior pattern of a user is reflected, not only information-oriented web documents implemented in text but also JavaScript It is possible to efficiently collect complex interactive web documents such as a community site and a social network service that can be implemented as a web page.
나아가, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법에 의하면, 사용자의 요구에 보다 포커싱(focusing)된 웹 문서를 수집할 수 있다. Furthermore, according to the web document collection system and method according to the embodiment of the present invention, it is possible to collect more focused web documents at the request of the user.
본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법은 포함하는 또는 포함되는 컴퓨팅 시스템의 프로세서 등에 의해 제어될 수 있다. 또한, 예를 들어, 본 발명의 실시예에 따른 웹 문서 수집 시스템 및 방법은 워크벤치(workbench)로 구현되어, 사용자가 편리하게 사용할 수 있다. The web document collection system and method according to an embodiment of the present invention may be controlled by a processor or the like of a computing system that includes or includes. Also, for example, the web document collection system and method according to the embodiment of the present invention can be implemented as a workbench, and can be conveniently used by the user.
도 6은 본 발명의 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다. 도 6을 참조하면, 본 발명의 실시예에 따른 지식베이스 구축 시스템(600)은 웹 문서 수집 시스템(100), 지식 획득부(610), 자가 지식 학습부(620), 추론부(630), 및 지식 데이터 저장부(640)를 포함한다. 웹 문서 수집 시스템(100)은 전술된 도 1 또는 도 5의 웹 문서 수집 시스템일 수 있다. 6 is a diagram illustrating a knowledge base building system according to an embodiment of the present invention. 6, a knowledge
지식 획득부(610)는 웹 문서 수집 시스템(100)으로부터 웹 문서를 수신하거나, 인터넷 등으로부터 빅 데이터(big data)를 수신함으로써 외부 자원을 크롤링(crwaling)할 수 있다. 지식 획득부(610)는 상기와 같은 외부 자원으로부터, 자연어 처리 및 의미 부여 등을 통해 데이터를 분류 및 정제하고 지식 자원의 선별과 의미적 통합 등을 수행하여 지식을 획득할 수 있다. The
자가 지식 학습부(620)는 지식 획득부(610)에 의해 획득된 지식을 자가 학습하여 보다 정제된 지식으로 처리할 수 있다. 예를 들어, 자가 지식 학습부(620)는 파편화된 지식을 학습을 통해 분석하여 통합할 수 있다. 예를 들어, 자가 지식 학습부(620)는 위키(wiki) 등을 통해 학습되는 외부 지식 데이터를 통해, 파편화된 지식을 연결시키거나, 모순된 지식을 정정할 수 있다. 자가 지식 학습부(620)에 의해 학습된 지식은 지식 데이터 저장부(640)에 지식 데이터의 형태로 저장될 수 있다. 지식 데이터는 트리플(triple) 또는 스키마(schema) 형태로 구현될 수 있다. 또한, 자가 지식 학습부(620)는 지식 데이터 저장부(640)에 저장된 지식 데이터를 시드(seed) 지식으로 활용할 수 있다. The self-
추론부(630)는 외부로부터 수신되는 질의에 대해 자가 지식 학습부(620)로부터 생성된 지식 데이터 또는 지식 데이터 저장부(640)에 저장된 지식 데이터를 기반으로 추론할 수 있다. 추론부(630)에 의해 추론된 결과는 지식 데이터로 지식 데이터 저장부(640)에 저장되거나, 지식 데이터 저장부(640)에 저장된 지식 데이터를 업데이트 또는 정정하는데 활용될 수 있다. The
본 발명의 실시예에 따른 지식베이스 구축 시스템(600)은 본 발명의 실시예에 따른 웹 문서 수집 시스템(100)을 포함하여, 다양하고 정확하게 포커싱(focusing)된 웹 문서를 이용함으로써, 보다 정확한 지식베이스를 구축할 수 있다. The knowledge
도 7은 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다. 도 7을 참조하면, 본 발명의 실시예에 따른 인공 지능 시스템(700)은 웹 문서 수집 시스템(100), 지식베이스 구축 시스템(600) 및 지능형 질의 응답 시스템(710)를 포함한다. 웹 문서 수집 시스템(100)은 전술된 도 1 또는 도 5의 웹 문서 수집 시스템일 수 있다. 지식베이스 구축 시스템(600)은 웹 문서 수집 시스템(100)으로부터 웹 문서를 수신하거나, 인터넷 등으로부터 빅 데이터(big data)를 수신하여 지식베이스를 구축한다. 지능형 질의 응답 시스템(710)은 사용자로부터의 질의에 대해 지식베이스 구축 시스템(600)을 이용하여 응답을 생성한다. 7 is a diagram illustrating an artificial intelligence system according to an embodiment of the present invention. Referring to FIG. 7, an
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.While the present invention has been described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, is intended to cover various modifications and equivalent arrangements included within the spirit and scope of the appended claims. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.
100: 웹 문서 수집 시스템
120: 시나리오 생성부
140: 웹 문서 수집부100: Web document collection system
120: scenario generating unit
140: Web document collection unit
Claims (9)
상기 시나리오 처리부에서 생성된 시나리오에 기초하여 상기 이종의 웹 문서를 수집하는 웹 문서 수집부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템. A scenario processor for generating a scenario that is common to different types of web documents implemented as text and objects, and includes a rule for a topic of interest on a user's web document and a behavior pattern for a web document; And
And a web document collection unit for collecting the heterogeneous web documents based on scenarios generated by the scenario processing unit.
사용자로부터 상기 웹 문서 상의 관심 항목 및 웹 문서에 대한 행동 패턴의 정보가 입력되는 사용자 인터페이스부;
상기 사용자 인터페이스부로 입력되는 정보에 근거하여 사용자의 웹 문서 수집 행위의 규칙을 추출하는 사용자 패턴 분석부;
상기 사용자 패턴 분석부에 의해 추출된 규칙에 근거하여 상기 시나리오를 생성하는 시나리오 생성부;
상기 시나리오 생성부에 의해 생성된 시나리오를 검증하는 시나리오 검증부; 및
상기 검증된 시나리오를 저장하는 시나리오 저장부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템. The scenario management system according to claim 1,
A user interface unit for inputting information on an item of interest on the web document and a behavior pattern on the web document from a user;
A user pattern analyzer for extracting rules of a user's web document collection operation based on information input to the user interface unit;
A scenario generating unit for generating the scenario based on the rule extracted by the user pattern analyzing unit;
A scenario verifying unit for verifying a scenario generated by the scenario generating unit; And
And a scenario storage unit for storing the verified scenarios.
상기 객체로 구현된 웹 문서로부터 추출된 사용자의 웹 문서 수집 행위의 규칙을 반영하여, 제1 웹 문서에 대해 설정된 규칙을 적어도 하나 이상의 제2 웹 문서에 적용하도록 생성되는 것을 특징으로 하는 웹 문서 수집 시스템. 3. The method of claim 2,
Wherein the rule is generated so as to apply a rule set for the first web document to at least one second web document by reflecting a rule of the web document collection behavior of the user extracted from the web document implemented by the object. system.
상기 객체로 구현된 웹 문서로부터 추출된 사용자의 웹 문서 수집 행위의 규칙을 반영하여, 시간에 따라 다른 규칙에 의해 웹 문서가 수집되도록 생성되는 것을 특징으로 하는 웹 문서 수집 시스템. 3. The method of claim 2,
Wherein the web document collection system is generated such that a web document is collected by another rule according to a time, reflecting a rule of a web document collection operation of a user extracted from the web document implemented by the object.
상기 사용자 인터페이스부를 통해 수신되는 사용자의 웹 문서 수집 규칙의 변환에 대한 정보를 수신하여, 상기 시나리오 생성부가 변화된 규칙을 반영한 시나리오를 생성하도록 제어하는 규칙 변환부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템. The scenario management system according to claim 2,
Further comprising a rule conversion unit that receives information on a conversion of a user's web document collection rule received through the user interface unit and controls the scenario generation unit to generate a scenario reflecting a changed rule, .
상기 시나리오 처리부로부터 수신되는 시나리오에 근거하여, 웹 문서를 수집하여 다운로드 하는 웹 문서 다운로드부;
상기 다운로드 된 웹 문서를 상기 시나리오 처리부로부터 수신되는 시나리오에 따라 분석하여, 상기 시나리오에 대응되는 웹 문서를 추출하는 웹 문서 분석부; 및
상기 웹 문서 분석부에 의해 추출된 웹 문서를 저장하는 웹 문서 저장부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템. The web document collecting system according to claim 1,
A web document downloading unit for collecting and downloading a web document based on a scenario received from the scenario processing unit;
A web document analysis unit for analyzing the downloaded web document according to a scenario received from the scenario processing unit and extracting a web document corresponding to the scenario; And
And a web document storage unit for storing the web document extracted by the web document analysis unit.
상기 다운로드 된 웹 문서의 태그(tag) 및 태그 사이의 컨텐츠(contents)에 근거하여 상기 시나리오에 대응되는 웹 문서인지를 분석하는 제1 유형 웹 문서 분석부; 및
상기 다운로드 된 웹 문서의 객체에 근거하여 상기 시나리오에 대응되는 웹 문서인지를 분석하는 제2 유형 웹 문서 분석부를 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.[7] The method of claim 6,
A first type web document analyzing unit for analyzing a web document corresponding to the scenario based on a tag of the downloaded web document and a content between the tags; And
And a second type web document analyzing unit for analyzing whether the web document corresponding to the scenario is based on the object of the downloaded web document.
상기 시나리오 처리부로부터 수신되는 시나리오의 처리 순서 및 처리 시기를 설정하여, 상기 웹 문서 다운로드부가 상기 웹 문서를 수집하고 다운로드 하는 동작을 제어하는 시나리오 제어부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.[7] The method of claim 6,
Further comprising a scenario control unit for setting a processing sequence and a processing time of a scenario received from the scenario processing unit and controlling an operation of the web document download unit to collect and download the web document.
상기 시나리오 처리부로부터 수신되는 시나리오에 의한 웹 문서 수집 또는 웹 문서 분석에 가중치를 부여하는 시나리오 제어부를 더 포함하는 것을 특징으로 하는 웹 문서 수집 시스템.The method according to claim 6,
Further comprising a scenario control unit for assigning weights to web document collection or web document analysis based on scenarios received from the scenario processing unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140036625A KR20150121268A (en) | 2014-03-28 | 2014-03-28 | Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140036625A KR20150121268A (en) | 2014-03-28 | 2014-03-28 | Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20150121268A true KR20150121268A (en) | 2015-10-29 |
Family
ID=54430282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140036625A KR20150121268A (en) | 2014-03-28 | 2014-03-28 | Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20150121268A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180078031A (en) * | 2016-12-29 | 2018-07-09 | (주)해나소프트 | Scenario production system and method for scrapping web data |
KR20220034489A (en) * | 2020-09-11 | 2022-03-18 | 차정민 | Method for automatically registering product, and computer program recorded on record-medium for executing method therefor |
-
2014
- 2014-03-28 KR KR1020140036625A patent/KR20150121268A/en active Search and Examination
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180078031A (en) * | 2016-12-29 | 2018-07-09 | (주)해나소프트 | Scenario production system and method for scrapping web data |
KR20220034489A (en) * | 2020-09-11 | 2022-03-18 | 차정민 | Method for automatically registering product, and computer program recorded on record-medium for executing method therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kranjc et al. | Active learning for sentiment analysis on data streams: Methodology and workflow implementation in the ClowdFlows platform | |
CN102073726B (en) | Structured data import method and device for search engine system | |
Milev | Conceptual approach for development of web scraping application for tracking information | |
KR20100080470A (en) | Collaborative development of visualization dashboards | |
Bakaev et al. | I don’t have that much data! Reusing user behavior models for websites from different domains | |
Kourtzanidis et al. | RepoSkillMiner: identifying software expertise from GitHub repositories using natural language processing | |
De Medio et al. | Automatic extraction and sequencing of wikipedia pages for smart course building | |
KR20150121268A (en) | Crawling System And Method For Web Documents Based On Auto-Generated Rules Using Patterns Of User Activities | |
Milosevic et al. | Classification of intangible social innovation concepts | |
Mahdavi et al. | Exploring the utility of semantic web technology in building performance simulation | |
Ruan et al. | Requirements Modeling Aided by ChatGPT: An Experience in Embedded Systems | |
Qian et al. | Structural descriptions of process models based on goal-oriented unfolding | |
Nabuco et al. | Inferring user interface patterns from execution traces of web applications | |
Shen et al. | A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring | |
Motger de la Encarnación et al. | RESim-Automated detection of duplicated requirements in software engineering projects | |
Hogo et al. | Web-Based expert system for civil service regulations: RCSES | |
Hadzhikoleva et al. | Generalized net model for building responsive design of web pages | |
Sleiman et al. | A reference architecture to devise web information extractors | |
Gutierrez et al. | Cloud Application for the Generation of Static Websites Through the Recognition of Wireframes using Artificial Intelligence | |
Bratić et al. | Centralized Database Access: Transformer Framework and LLM/Chatbot Integration-Based Hybrid Model | |
El Mhouti et al. | A Web Scraping Framework for Descriptive Analysis of Meteorological Big Data for Decision-Making Purposes | |
US11790892B1 (en) | Voice-driven application prototyping using machine-learning techniques | |
Muchová et al. | An approach to support education of data mining algorithms | |
Rowe et al. | Fusing and disaggregating models, data and analysis tools for a dynamic science–society interface | |
Walker | Web applications for interactive environmental modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E90F | Notification of reason for final refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
E801 | Decision on dismissal of amendment | ||
AMND | Amendment | ||
E801 | Decision on dismissal of amendment |