KR101708878B1

KR101708878B1 - 웹 페이지 정보 추출 장치 및 방법

Info

Publication number: KR101708878B1
Application number: KR1020140170332A
Authority: KR
Inventors: 이경일; 양성권; 정교성
Original assignee: 주식회사 솔트룩스
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2017-02-21
Anticipated expiration: 2034-12-02
Also published as: KR20160066235A

Abstract

본 발명은 웹 페이지 내의 정보를 추출하는 장치에 관한 것으로, 웹 페이지 정보 추출 장치는 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하고, 상기 값과 상기 위치 정보에 대한 규칙 정보를 학습하는 규칙 정보 학습부; 및 상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하고, 상기 규칙 정보의 재학습을 요청하는 변경 감지부를 포함한다. 본 발명에 따르면, 웹 페이지로부터 정보 추출 규칙을 기반으로 데이터를 추출할 때, 레이아웃이나 코드의 변경으로 인해 정보 추출 규칙을 매번 재생성할 필요가 없으며, 웹 페이지의 스타일 변경시 자동으로 이를 감지하고 이에 따른 정보 추출 규칙을 자동으로 생성할 수 있어 지속적인 웹 페이지 기반의 지식 정보의 생성이 가능하다.

Description

웹 페이지 정보 추출 장치 및 방법{Apparatus and method for extracting data from web page}

본 발명은 웹 페이지 내의 정보를 추출하는 장치에 관한 것으로, 보다 상세하게는 웹 페이지의 변경을 감지하고 이에 따라 정보를 추출하는 규칙을 갱신하는 방법에 관한 것이다.

웹 페이지로부터 데이터를 추출하는 방법으로는 Internet Explorer, Chrome 등의 웹브라우저와 같이 HTML 렌더링이 가능한 엔진을 이용하여 HTML 코드를 다운받고 해당 HTML 코드로부터 특정 영역을 발췌하여 가져오는 방법이 주로 사용 되었다. HTML 코드로부터 특정 영역을 발췌하는 방법으로는 주로 두 가지 방식이 사용되는데, 하나는 HTML 코드를 직접 분석하여 발췌하고자 하는 영역에 대해 추출 규칙을 생성하고 이를 통해 동일한 형태의 다수의 웹 페이지로부터 데이터를 추출하는 방식이 있다. 이 방법은 HTML 코드만을 다운 받고, 코드로부터 데이터를 직접 추출하기 때문에 비교적 빠르다는 장점이 있다. 다른 하나의 방법은 HTML 렌더링을 지원하는 데이터 추출 프로그램을 이용하여 해석하기 어려운 HTML 코드에 대하여 GUI를 통해 추출을 원하는 영역을 선택하는 방법이다. 사용자는 웹브라우저 상에 보이는 것과 같은 화면을 통해 추출하고자 하는 영역을 선택하고, 프로그램은 이에 대한 규칙을 자동으로 생성해 준다.

이와 관련하여, HTML 코드를 직접 분석하여 데이터 추출 규칙을 직접 생성하는 방법은 직접 코드를 다루게 되므로 사용자가 HTML 코드를 이해할 수 있거나 규칙 생성에 대한 이해도가 높아야 한다는 단점이 있으며, HTML 렌더링이 가능한 GUI 프로그램을 이용하는 경우에는 코드에 대한 이해는 필요 없지만 매번 페이지를 로딩해야 하므로 비교적 시간이 오래 걸리는 단점이 있다. 또한 두 방법 모두 수집 중인 웹 사이트가 데이터는 변경되지 않은 채 페이지의 레이아웃이나 코드를 변경하는 경우 수집이 중단될 수 있으며, 변경된 레이아웃에 대한 규칙을 매번 새로이 생성해야 한다는 단점이 있다.

본 발명의 기술적 과제는 상기한 문제점을 해결하기 위하여, 웹 페이지 내의 항목과 이에 대한 값을 저장하는 테이블을 이용하여 웹 페이지로부터 정보를 추출하는 방법을 제안하는 것을 목적으로 한다.

보다 상세하게는 웹 페이지의 변경을 테이블을 이용하여 감지하고, 변경된 웹 페이지에 대한 정보 추출 규칙을 갱신하여 이를 통해 웹 페이지로부터 정보를 추출하는 방법을 제안하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 웹 페이지 정보 추출 장치는 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하고, 상기 값과 상기 위치 정보에 대한 규칙 정보를 학습하는 규칙 정보 학습부; 및 상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하고, 상기 규칙 정보의 재학습을 요청하는 변경 감지부를 포함한다.

상기 웹 페이지 정보 추출 장치는, 상기 정보 테이블을 저장하는 정보 테이블 데이터 베이스; 상기 규칙 정보를 이용하여 상기 코드 내에서 값을 추출하는 데이터 추출부를 더 포함한다.

상기 정보 테이블은 상기 웹 페이지의 URL(Uniform Resource Locator)을 기준으로 상기 복수의 항목과 상기 항목에 따른 값을 저장하는 것을 특징으로 하고, 상기 변경 감지부는 상기 URL을 단위로 상기 웹 페이지의 변경 여부를 감지한다.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 웹 페이지 정보 추출 방법은 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 입력 받는 단계; 상기 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하여 학습된 상기 값과 상기 위치 정보에 대한 규칙 정보를 생성하는 단계; 상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하는 단계; 및 상기 규칙 정보를 재학습하는 단계를 포함한다.

본 발명에 따르면, 웹 페이지로부터 정보 추출 규칙을 기반으로 데이터를 추출할 때, 레이아웃이나 코드의 변경으로 인해 정보 추출 규칙을 매번 재생성할 필요가 없으며, 웹 페이지의 스타일 변경시 자동으로 이를 감지하고 이에 따른 정보 추출 규칙을 자동으로 생성할 수 있어 지속적인 웹 페이지 기반의 지식 정보의 생성이 가능하다.

도 1은 본 발명의 일 실시예에 따른 웹 페이지 정보 추출 장치를 나타내는 블록도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 웹 페이지 정보 추출 장치의 동작 예를 나타내는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 웹 페이지 정보 추출 방법을 나타내는 흐름도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세하게 설명한다.

도 1은 본 실시예에 따른 웹 페이지 정보 추출 장치를 나타내는 블록도이다.

도 1을 참조하면, 본 실시예에 따른 웹 페이지 정보 추출 장치는 정보 테이블 데이터 베이스(100), 규칙 정보 학습부(200), 데이터 추출부(300), 변경 감지부(400)를 포함한다.

본 실시예에서 정보 테이블 데이터 베이스(100)는 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 항목에 따른 값을 저장하는 정보 테이블을 저장 및 관리한다.

본 실시예에서 정보 테이블은 데이터 추출을 원하는 페이지에 대하여 추출 결과물에 대하여 생성될 수 있다. 즉, 본 실시예에서는 표 1 과 같이 사용자가 데이터 추출을 원하는 웹 사이트로부터 몇 개의 웹 페이지를 선택하여 추출하려는 데이터들을 직접 추출하고 해당 웹 페이지의 URL을 포함하여 생성할 수 있다.

NO	URL	상품명	색상	사이즈	가걱
1	www.shopping.com/product001	야상점퍼	갈색	Free	129,000
2	www.shopping.com/product002	트렌치코트	붉은색	Free	119,000
…	…	…	…	…	…

표 1을 참조하면, 쇼핑몰의 URL(www.shopping.com/product001)을 기준으로 해당 웹 페이지내에서 표시되고 있는 상품의 이름과, 색상, 크기 및 가격의 항목에 따라 미리 입력하여 정보 테이블을 생성할 수 있다.

표 1에서는 이러한 정보 테이블의 각 항목을 URL을 기준으로 구분하고 있으나, 하나의 웹 페이지 상에 복수의 항목, 예를 들어 복수의 의류 제품이 표시되고 있는 경우 만약 URL로 구분이 되지 않는 경우, URL과 웹 페이지 내의 위치 정보를 기준으로 구분하는 것도 가능하다.

또한, 본 실시예에서는 정보 테이블의 생성을 위하여 미리 결정된 수의 웹 페이지를 사용자가 직접 보고 입력하는 것을 예시하고 있으나, 경우에 따라서는 미리 저장된 항목에 대한 데이터베이스를 통해 정보 테이블을 생성하는 것도 가능하다.

즉, 표 1과 같은 예에서 이름은 의류의 종류에 해당하는 것으로 점퍼, 코트, 티셔츠, 치마 등으로 구분될 수 있으며, 색상은 갈색, 붉은색, 검정색, 노란색 등으로 구분될 수 있다. 또한 사이즈는 프리, 라지, 스몰, 미디움 등으로 구분될 수 있다. 또한 가격은 원, 달러, 엔 등의 텍스트 구분자를 이용하여 텍스트 구분자 앞에 존재하는 몇자리 이상의 숫자를 가격으로 인식하여 구분하는 것도 가능하다.

따라서, 이러한 항목에 대한 구분자를 미리 데이터 베이스로 관리하고 이를 통해 몇 개의 웹 페이지에 대한 정보 테이블을 내부적인 컴퓨터 알고리즘을 통해 생성하는 것도 가능하다.

또한, 정보 테이블의 생성을 위하여 이용되는 웹 페이지의 수도 미리 결정된 수 외로 고정되지 않고, 동적으로 웹 페이지에 포함되는 정보의 종류, 항목의 개수 등에 따라 달라질 수 있다.

즉, 웹 페이지에 포함된 정보의 양이 많고, 항목이 많은 경우에는 보다 많은 웹 페이지를 이용하여 정보 테이블을 생성하는 것이 바람직하다.

또는 컴퓨터 알고리즘을 통해 수행되는 경우, 임계 오차값을 미리 결정하고 개별 페이지에서 생성되는 정보 테이블의 값의 차이가 임계 오차값 이내가 될 때까지 웹 페이지로부터 정보 테이블의 생성을 지속하는 것도 가능하다.

규칙 정보 학습부(200)는 정보 테이블을 이용하여 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 값을 포함하는 위치 정보를 인식하고, 값과 위치 정보에 대한 규칙 정보를 학습한다.

구체적으로 정답 탐색부(210)는 해당 하는 웹 페이지로부터 각각의 정보 테이블에 대한 항목에 대한 값으로 정답을 포함하고 있는 코드상의 위치들을 탐색한다. 규칙 정보 생성부(220)는 탐색이 완료 되면 해당 위치에 대한 규칙 정보를 생성하고, 이를 데이터 추출 규칙 데이터 베이스(230)에 저장한다

즉, 도 2를 참조하면 웹 페이지와 정보 테이블을 비교하며 상품명, 색상, 사이즈, 가격에 해당하는 부분을 추출하는 규칙을 오른쪽과 같이 생성한다 따라서, 본 실시예에서 규칙 기반 데이터 추출은 해당 데이터에 대한 필드명과 추출하기 위한 HTML 코드상의 위치를 포함할 수 있다.

즉, 예를 들어 도 2에서 색상에 대한 정보는 HTML 로 명세되는 웹 페이지의 코드 중 html[1]/body[1]/div[1]/h[2]와 관련된 코드에 포함된 것을 규칙 정보로 생성할 수 있다.

데이터 추출부(300)는 상술한 규칙 정보 학습부(200)에 의해 학습된 규칙 정보를 이용하여 각 웹 페이지에서 규칙 정보에 매칭되는 부분들을 탐색한다. 매칭된 데이터는 추출되어 저장된다.

구체적으로 규칙 정보 학습부(200)로부터 전달 받은 데이터 추출규칙을 이용하여 규칙 탐색부(310)는 각 웹 페이지에서 규칙 정보와 매칭되는 부분들을 탐색한다. 데이터 추출부(300)(320)은 탐색되어 매칭된 데이터를 추출하고 추출 데이터 데이터 베이스(340)에 저장한다.

본 실시예에서 변경 감지부(400)는 학습된 규칙 정보를 이용하여 추출된 값과 정보 테이블의 값을 비교하여 웹 페이지의 변경 여부를 판단하고, 규칙 정보의 재학습을 요청한다. 즉, 데이터 추출부(300)로부터 추출된 데이터와 정보 테이블의 값을 비교하여 주기적으로 정보 테이블에 해당하는 웹 페이지들에 대한 레이아웃이나 코드의 변경사항을 모니터링하고 변경이 발생할 경우 규칙 정보 학습부(200)로 재학습을 요청한다.

도 3을 참조하면, 도 2에 따른 웹 페이지에 대하여 생성된 데이터 추출 규칙을 이용하는 도중 사이트 운영자가 사이트 리뉴얼을 하면서 아이템 정보페이지를 도 3과 같이 변경하였다.

즉, 대상 데이터들의 HTML 코드상의 위치가 변경되어 색상에 해당하는 정보가 사이즈 정보 다음 순으로 표시되고 있으며, 따라서, 기존의 도 2에 따른 규칙 정보를 이용하는 경우 '갈색'이 아닌 'free'라는 데이터가 추출하므로, 이를 정보 테이블과 비교하여 데이터 추출이 실패함을 감지한다. 따라서, 본 실시예에 따른 웹 페이지 정보 추출 장치는 정보 테이블을 이용하여 정보 테이블에 있는 페이지를 다시 학습하여 새로운 규칙 정보를 재생성하여 데이터 추출을 계속 수행한다.

이상의 예에 따르면, 추출하고자 하는 데이터의 HTML 코드상의 위치가 'html[1]/body[1]/div[1]/div[2]/h[2]'에서 'html[1]/body[1]/div[1]/div[2]/h[3]' 으로 바뀌게 되었음을 정보 테이블을 통해 인식할 수 있으며, 이에 따른 규칙 정보를 갱신하게 된다.

이하, 도 4를 참조하여 상술한 실시예에 따른 웹 페이지 정보 추출 장치에서 수행되는 정보 추출 방법을 설명한다.

도 4를 참조하면, 본 실시예에 따른 웹 페이지 정보 추출 방법은 정보 테이블 입력 단계, 규칙 정보 생성 단계, 웹 페이지 변경 여부 판단 단계, 규칙 정보 재학습 단계를 포함한다.

정보 테이블 입력 단계는 변경 감지부(400)가 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 항목에 따른 값을 저장하는 정보 테이블을 입력 받는다.

즉, 정보 테이블 데이터 베이스(100)로부터 웹 페이지에 포함된 정보를 정의하는 복수의 항목과 항목에 따른 값을 저장하는 정보 테이블을 입력 받는다.

다음 규칙 정보 생성 단계는 규칙 정보 학습부(200)가 정보 테이블을 이용하여 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 값을 포함하는 위치 정보를 인식하여 학습된 값과 위치 정보에 대한 규칙 정보를 생성한다.

웹 페이지 변경 여부 판단 단계는 변경 감지부(400)가 규칙 정보 학습부(200)에서 학습된 규칙 정보를 이용하여 추출된 값과 정보 테이블의 값을 비교하여 웹 페이지의 변경 여부를 판단한다.

규칙 정보 재학습 단계는 규칙 정보 학습부(200)가, 변경 감지부(400)에서 웹 페이지의 변경을 감지한 경우 규칙 정보를 변경된 웹 페이지에 맞도록 정보 테이블을 이용하여 재 학습한다.

이상의 본 발명에 따르면, 웹 페이지로부터 정보 추출 규칙을 기반으로 데이터를 추출할 때, 레이아웃이나 코드의 변경으로 인해 정보 추출 규칙을 매번 재생성할 필요가 없으며, 웹 페이지의 스타일 변경시 자동으로 이를 감지하고 이에 따른 정보 추출 규칙을 자동으로 생성할 수 있어 지속적인 웹 페이지 기반의 지식 정보의 생성이 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하고, 상기 값과 상기 위치 정보에 대한 규칙 정보를 학습하는 규칙 정보 학습부; 및
상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하고, 상기 규칙 정보의 재학습을 요청하는 변경 감지부를 포함하고,
상기 정보 테이블은 미리 저장된 항목에 대한 구분자를 관리하는 데이터 베이스를 통해 생성되되, 상기 항목에 따른 값의 차이가 임계 오차값 이내가 될 때까지 상기 정보 테이블의 생성을 지속하는 것을 특징으로 하는 웹 페이지 정보 추출 장치.
제 1 항에 있어서,
상기 웹 페이지 정보 추출 장치는,
상기 정보 테이블을 저장하는 정보 테이블 데이터 베이스;
상기 규칙 정보를 이용하여 상기 코드 내에서 값을 추출하는 데이터 추출부를 더 포함하는 것을 특징으로 하는 웹 페이지 정보 추출 장치.
제 1 항에 있어서,
상기 정보 테이블은 상기 웹 페이지의 URL(Uniform Resource Locator)을 기준으로 상기 복수의 항목과 상기 항목에 따른 값을 저장하는 것을 특징으로 하고,
상기 변경 감지부는 상기 URL을 단위로 상기 웹 페이지의 변경 여부를 감지하는 것을 특징으로 하는 웹 페이지 정보 추출 장치.
웹 페이지에 포함된 정보를 정의하는 복수의 항목과 상기 항목에 따른 값을 저장하는 정보 테이블을 입력 받는 단계;
상기 정보 테이블을 이용하여 상기 웹 페이지를 프로그래밍 언어로 명세하는 코드 내에서 상기 값을 포함하는 위치 정보를 인식하여 학습된 상기 값과 상기 위치 정보에 대한 규칙 정보를 생성하는 단계;
상기 학습된 규칙 정보를 이용하여 추출된 값과 상기 정보 테이블의 값을 비교하여 상기 웹 페이지의 변경 여부를 판단하는 단계; 및
상기 규칙 정보를 재학습하는 단계를 포함하고,
상기 정보 테이블은 미리 저장된 항목에 대한 구분자를 관리하는 데이터 베이스를 통해 생성되되, 상기 항목에 따른 값의 차이가 임계 오차값 이내가 될 때까지 상기 정보 테이블의 생성을 지속하는 것을 특징으로 하는 웹 페이지 정보 추출 방법.
제 4 항에 있어서,
상기 정보 테이블은 상기 웹 페이지의 URL(Uniform Resource Locator)을 기준으로 상기 복수의 항목과 상기 항목에 따른 값을 저장하는 것을 특징으로 하고,
상기 변경 여부를 판단하는 단계는 상기 URL을 단위로 상기 웹 페이지의 변경 여부를 감지하는 것을 특징으로 하는 웹 페이지 정보 추출 방법.