KR100907709B1 - 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 - Google Patents

블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 Download PDF

Info

Publication number
KR100907709B1
KR100907709B1 KR1020070119766A KR20070119766A KR100907709B1 KR 100907709 B1 KR100907709 B1 KR 100907709B1 KR 1020070119766 A KR1020070119766 A KR 1020070119766A KR 20070119766 A KR20070119766 A KR 20070119766A KR 100907709 B1 KR100907709 B1 KR 100907709B1
Authority
KR
South Korea
Prior art keywords
information
block
blocks
grouping
document
Prior art date
Application number
KR1020070119766A
Other languages
English (en)
Other versions
KR20090053104A (ko
Inventor
최중민
강진범
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020070119766A priority Critical patent/KR100907709B1/ko
Publication of KR20090053104A publication Critical patent/KR20090053104A/ko
Application granted granted Critical
Publication of KR100907709B1 publication Critical patent/KR100907709B1/ko

Links

Images

Abstract

본 발명은 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법에 관한 것이다. 본 발명은, 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; 대상 문서를 복수 개의 블록들로 분할하는 단계; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법과 이를 수행할 수 있는 블록 그룹핑을 이용한 정보 추출 장치를 제공한다.
Figure R1020070119766
웹 문서, 엔티티, 블록 그룹핑, 정보 추출

Description

블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 {Information Extracting Apparatus Using Block Grouping And Method Of Extracting Information Using Block Grouping}
본 발명은 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 시각적 문서 분할 방법을 이용하여 웹 문서를 분석하고 구조적으로 유사한 블록들을 그룹핑한 후, 의미 그룹을 자동으로 식별하고 의미 블록의 개별 블록들을 대상으로 추출 규칙을 적용하여 사용자가 요구하는 정보를 효과적으로 추출할 수 있는 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법에 관한 것이다.
최근 웹 문서는 다양한 형태로 표현됨으로써 대상 정보를 추출하는 것이 보다 복잡하고 어려워졌다. 인터넷 보급이 확대되고 인터넷을 이용하는 사용자도 증가하면서, 최근 웹 문서에서는 표현하는 콘텐츠의 종류(예를 들어, 동영상, 이미지, 플래시 등) 또한 다양해졌다. 예를 들어, 최근 웹 문서 디자이너는 사용자에게 보이는 시각적인 측면을 강조하고 있고, 뿐만 아니라 좀더 다양한 정보를 사용자에게 제공할 수 있도록 웹 문서를 디자인하고 있다.
웹 문서가 다양한 콘텐츠를 포함함에 따라 HTML 구조는 복잡해졌고, 따라서 이러한 웹 문서에서 사용자가 요구하는 콘텐츠가 어떤 정보를 담고 있는지 식별하는 것이 매우 어려워졌다.
특히 정보 추출 관점에서 규칙의 표현 수준에 따라 성능에 큰 영향을 미친다. 웹 문서에서 세분화된 규칙을 생성한 경우 규칙을 만족하는 데이터가 적어지므로 많은 정보를 추출할 수 없게 된다. 반대로 일반화된 규칙을 생성하면 연관성이 떨어지는 불필요한 정보까지 추출될 수 있다.
일반적으로 복잡한 구조를 갖는 HTML 문서를 대상으로 사용자가 요구하는 정보를 추출하는 것은 명확한 식별을 위해 세분화된 규칙이 생성되어 많은 정보를 추출할 수 없게 된다.
이는 정보 추출에서 사용자가 요구하는 정보를 명확하게 식별하여 많은 정보를 제공되기를 원하는 것과 상반되는 결과를 가져오는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하고 최근의 추세와 요청에 따라 제안된 것으로서, 웹 문서를 단일 정보를 포함하는 블록 형태로 나누고 구조적 특징을 고려한 그룹을 구성한 후, 의미 있는 그룹을 식별하고 정보 추출 대상으로 고려함으로써, 사용자가 추출하고자 하는 모든 정보를 명확하게 식별하여 잘못된 정보가 추출되는 것을 방지하고 웹 문서에 나타나는 관련 있는 모든 정보를 추출할 수 있는 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법을 제공하는데 그 목적이 있다.
상기의 목적을 달성하기 위한 본 발명의 일 양상으로서, 본 발명에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; 대상 문서를 복수 개의 블록들로 분할하는 단계; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를 포함하여 이루어진다.
상기의 목적을 달성하기 위한 본 발명의 다른 양상으로서, 본 발명에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 학습문서에서 특정 속성을 갖는 엔티 티(entity)가 선택되는 단계; 시각적 웹 문서 분할(Vision-based Page Segmentation; 이하 "VIPS"라고 함) 알고리즘을 이용하여 상기 선택된 엔티티를 포함하는 블록을 추출하는 단계; 상기 추출된 블록에서 구조적 및 시각적으로 무의미한 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 제1 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 상기 제1 태그 시퀀스를 이용하여 상기 선택된 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; VIPS를 이용하여 웹 문서를 복수 개의 블록들로 분할하는 단계; 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 상기 의미 그룹에 속한 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 제2 태그 시퀀스로 인코딩하는 단계; 및 상기 제2 태그 시퀀스에 대해 상기 생성된 패턴 규칙을 적용하여 상기 선택된 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를 포함하여 이루어진다.
상기의 목적을 달성하기 위한 본 발명의 또 다른 양상으로서, 본 발명에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 웹 문서와 특정 속성을 갖는 특정 엔티티가 선택되는 단계; 시각적 웹 문서 분할(Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 단계; 토큰을 기 반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 미리 저장된 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 이용하여, 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를 포함하여 이루어진다.
상기의 목적을 달성하기 위한 본 발명의 또 다른 양상으로서, 본 발명에 따른 블록 그룹핑을 이용한 정보 추출 장치는, 학습 문서와 대상 문서를 입력받는 입력부; 상기 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 규칙 학습부; 상기 생성된 패턴 규칙을 저장하는 메모리; 및 상기 패턴 규칙을 이용하여 상기 대상 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고, 상기 정보 추출부는, 상기 대상 문서를 복수 개의 블록들로 분할하는 블록 분할부; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부; 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 규칙 적용부를 포함하여 이루어진다.
상기의 목적을 달성하기 위한 본 발명의 또 다른 양상으로서, 본 발명에 따 른 블록 그룹핑을 이용한 정보 추출 장치는, 웹 문서와 특정 속성을 갖는 특정 엔티티를 입력받는 입력부; 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 저장하는 메모리; 및 상기 패턴 규칙을 이용하여 상기 웹 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고, 상기 정보 추출부는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 블록 분할부; 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및 상기 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 정보를 하나 이상 추출하는 규칙 적용부를 포함하여 이루어진다.
본 발명에 따른 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법에 의하면 다음과 같은 효과가 있다.
첫째, 본 발명에 의하면, 종래 기술에 비해 보다 간결한 규칙만으로 정확한 모든 정보들을 추출할 수 있는 효과가 있다.
둘째, 본 발명에 의하면, 생성된 규칙이 간결하고 이해할 수 있는 형태로 표현되어 피드백이 쉬운 효과가 있다..
셋째, 본 발명에 의하면, 규칙 생성 과정이 매우 짧고 하나의 규칙만으로도 많은 정보를 명확하게 추출할 수 있는 효과가 있다.
넷째, 본 발명에 의하면 의미 그룹을 식별함으로써 규칙이 심플하여 잘못된 정보를 추출할 가능성을 미연에 방지할 수 있는 효과가 있다.
본 발명의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들을 상세히 설명한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 또한, 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치의 블록 구성도이다. 도 1을 참조하여, 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치를 상세히 설명하기로 한다.
본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치는, 입력부(10), 규칙 학습부(20), 정보 추출부(30), 메모리(40), 표시부(50) 및 제어부(60)를 포함하여 구성될 수 있다.
상기 입력부(10)는, 정보를 입력받기 위한 입력 장치로서, 학습 문서와 대상 문서를 입력받는 인터페이스의 기능을 수행한다. 또한 상기 입력부(10)는 특정 엔티티(entity)를 입력받을 수도 있다. 상기 학습 문서와 상기 대상 문서는, 웹(web) 문서일 수 있다.
본 발명에서 말하는 엔티티(entity)란, 의미있는 속성을 갖고 다른 콘텐츠와 구조적으로 구분 가능한 특정 콘텐츠를 말한다. 예를 들어, 인터넷으로 책을 판매하는 북스토어(book store)에서 제공하는 웹페이지의 경우, 책 제목(title)이라는 속성을 갖는 "The Apple Way"라는 텍스트 콘텐츠가 상기 엔티티가 될 수 있다.
상기 규칙 학습부(20)는, 상기 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성한다. 상기 규칙 학습부(20)는, 엔티티 선택부(201), 블록 식별부(203) 및 규칙 생성부(205)를 포함할 수 있다.
상기 엔티티 선택부(201)는, 상기 학습 문서로부터 상기 특정 엔티티를 선택한다. 상기 엔티티 선택부(201)는, 상기 입력부(10)로 대체될 수도 있다. 예를 들어, 사용자는 상기 엔티티 선택부(201) 또는 상기 입력부(10)를 통해 상기 학습 문서에 포함된 특정 엔티티를 입력 또는 선택할 수 있다.
상기 블록 식별부(203)는, 상기 학습 문서에서 상기 선택된 특정 엔티티를 포함하는 블록을 식별한다. 상기 블록 식별부(203)는, 시각적 웹 문서 분할(Vision-based Page Segmentation; 이하 "VIPS"라고 함) 알고리즘을 이용하여 상기 특정 엔티티를 포함하는 블록을 식별할 수 있다. VIPS 알고리즘은, 웹 페이지를 블록 단위로 나누는 비젼 기법을 이용한 페이지 세그멘테이션 알고리즘으로서, 공지된 기술이므로 상세한 내용은 생략하기로 한다. VIPS 알고리즘은, {Cai, D., Yu, S., Wen, J.-R., and Ma, W.-Y.(2003). Vips: a vision-based page segmentation algorithm. Microsoft Technical Report, MSR-TR-2003-79} 문헌에 개시되어 있다.
상기 규칙 생성부(205)는, 상기 블록 식별부(203)에서 전달된 상기 블록을 이용하여 상기 특정 엔티티를 구조적으로 식별하기 위한 상기 패턴 규칙을 생성한다. 상기 패턴 규칙은, 상기 특정 엔티티의 속성에 관한 정보를 포함할 수 있다. 상기 규칙 생성부(205)는, 제1 인코딩부(206)를 포함할 수 있다.
상기 제1 인코딩부(206)는, 상기 블록 식별부(203)에서 식별된 상기 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스(tag sequence)로 인코딩한다. 그리고 상기 규칙 생성부(205)는, 상기 인코딩된 태그 시퀀스에서 상기 특정 엔티티를 고유하게 식별할 수 있는 부분 태그 시퀀스를 찾음으로써 상기 패턴 규칙을 생성한다. 상기 구조적 및 시각적으로 의미없는 태그와 속성들에 관한 정보는, 상기 메모리(40)에 미리 저장되어 있을 수 있다. 상기 제1 인코딩부(206)는, 상기 메모리(40)를 참조하여 상기 구조적 및 시각적으로 의미없는 태그와 속성들을 상기 블록에서 제거할 수 있다. 상기 구조적 및 시각적으로 의미없는 태그와 속성들에 관한 상세한 내용은 후술하기로 한다.
상기 정보 추출부(30)는, 상기 패턴 규칙을 이용하여 상기 대상 문서로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출한다. 상기 특정 엔티티와 관련된 정보는, 상기 특정 엔티티와 동일한 속성을 갖는 정보일 수 있다. 상기 정보 추출부(30)는, 블록 분할부(301), 그룹핑부(303), 의미그룹 식별부(305) 및 규칙 적용부(308)를 포함할 수 있다.
상기 블록 분할부(301)는, 상기 대상 문서를 복수 개의 블록들로 분할한다. 상기 블록 분할부(301)는, VIPS 알고리즘을 이용하여 상기 대상 문서를 복수 개의 블록들로 분할할 수 있다.
상기 그룹핑부(303)는, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 블록 분할부(301)에서 분할된 상기 복수 개의 블록들을 복수 개의 그룹으로 그룹핑한다. 상기 그룹핑부(303)는, 토큰을 기반으로 하는 트리 편집 거리 알고리즘(이하 "편집 거리 알고리즘"이라 함)을 이용하여 상기 분할된 복수 개의 블록들을 상기 복수 개의 그룹들로 그룹핑할 수 있다. 편집 거리 알고리즘에 관한 상세한 내용은 후술하기로 한다.
상기 의미그룹 식별부(305)는, 상기 그룹핑부(303)에서 그룹핑된 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별한다. 상기 의미그룹 식별부(305)는, 텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 그룹을 상기 의미 그룹으로 식별할 수 있다. 상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출될 수 있다. 상기 이미지 정보량은, 이미지의 면적에 의해 산출될 수 있다.
상기 규칙 적용부(308)는, 상기 패턴 규칙을 이용하여 상기 의미그룹 식별부(305)에서 식별된 상기 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보(예를 들어, 상기 특정 엔티티와 동일한 속성을 갖는 정보)를 하나 이상 추출한다. 상기 규칙 적용부(308)는, 제2 인코딩부(308)를 포함할 수 있다.
상기 제2 인코딩부(308)는, 상기 의미 그룹에 포함된 모든 블록들에서 구조 적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스로 인코딩한다. 그리고 상기 규칙 적용부(308)는, 상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 관련된 정보를 추출한다. 상기 구조적 및 시각적으로 의미없는 태그와 속성들에 관한 정보는, 상기 메모리(40)에 미리 저장되어 있을 수 있다. 상기 제2 인코딩부(308)는, 상기 메모리(40)를 참조하여 상기 구조적 및 시각적으로 의미없는 태그와 속성들을 상기 블록에서 제거할 수 있다.
상기 메모리(40)는, 상기 정보 추출 장치의 전반적인 동작을 제어하는 소정의 프로그램을 저장하고 있으며, 상기 제어부(60)에 의해 상기 정보 추출 장치의 전반적인 동작이 수행될 때 입출력되는 데이터 및 처리되는 각종 데이터를 저장한다. 예를 들어, 상기 메모리(40)는, 상기 학습 문서, 상기 대상 문서, 상기 특정 엔티티, 상기 구조적 및 시각적으로 의미없는 태그와 속성들에 관한 정보 및 상기 패턴 규칙을 임시적으로 및/또는 영구적으로 저장할 수 있다.
상기 메모리(40)는, 상기 패턴 규칙을 저장하는 지식베이스(KB: Knowledge-Base)를 포함할 수 있다. 상기 지식베이스는, 다양한 엔티티에 관해 상기 각 엔티티를 구조적으로 식별할 수 있는 패턴 규칙을 저장한다. 상기 규칙 학습부(20)에서 새로운 엔티티를 식별할 수 있는 패턴 규칙이 생성된 경우, 상기 생성된 새로운 패턴 규칙은 상기 지식베이스에 저장될 수 있다. 또한 상기 지식베이스에 저장되어 있는 패턴 규칙이 상기 규칙 학습부(20)에서 갱신된 경우, 상기 갱신된 패턴 규칙은 상기 지식베이스에 저장될 수 있다.
상기 표시부(50)는, 상기 정보 추출 장치에서 처리되는 각종 정보 및 필요한 정보를 표시하기 위한 표시 장치이다.
상기 제어부(60)는, 상기 구성 요소들을 제어하고, 상기 정보 추출 장치의 전반적인 동작을 총괄한다.
도 2는 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법의 흐름도이다. 도 2 및 필요한 도면들을 참조하여, 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법을 상세히 설명하기로 한다. 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 도 1을 참조하여 설명한 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치에서 수행될 수 있다.
먼저 학습 문서(X)와 대상 문서(Y)가 선택되어 있다고 가정한다. 상기 학습 문서(X)와 상기 대상 문서(Y)는 웹 문서일 수 있다. 상기 학습 문서(X)는 특정 속성을 갖는 특정 엔티티를 구조적으로 식별할 수 있는 패턴 규칙을 생성하기 위한 문서이고, 상기 대상 문서(Y)는 상기 학습 문서(X)를 이용하여 생성된 패턴 규칙을 적용하여 상기 특정 엔티티와 관련된 정보를 추출하기 위한 문서이다.
본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 상기 학습 문서(X)로부터 상기 패턴 규칙을 생성하는 과정(도 2에서 S200 내지 S230 단계)과, 상기 대상 문서(Y)에 상기 패턴 규칙을 적용하는 과정(도 2에서 S240 내지 S280 단계)을 포함한다. 도 3은, 패턴 규칙 생성 과정의 구현 예를 도시한 흐름도이다.
상기 학습 문서(X)에서 특정 속성을 갖는 특정 엔티티(70)가 선택된다[S200]. 상기 S200 단계는, 상기 엔티티 선택부(201) 또는 상기 입력부(10)에 의해 수행될 수 있다. 예를 들어, 도 3에서 사용자는 상기 학습 문서(X)에서 "The Apple Way"라는 엔티티(70)를 선택할 수 있다. 도 3에서 선택된 "The Apple Way"라는 엔티티(70)는, 책 제목에 해당하는 "title"이라는 속성을 갖는다.
상기 학습 문서(X)에서 상기 특정 엔티티(70)를 포함하는 블록(80)을 추출한다[S210]. 상기 S210 단계는, 상기 블록 식별부(203)에 의해 수행될 수 있다. 즉 상기 S210 단계는, VIPS 알고리즘에 의해 수행될 수 있다. 예를 들어, 도 3에서 VIPS 알고리즘에 의해 "The Apple Way"(70)가 포함된 블록(80)이 추출된다.
상기 추출된 블록(80)에서 구조적 및 시각적으로 무의미한 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록(80)을 제1 태그 시퀀스(tag sequence)로 인코딩한다[S220]. 상기 S220 단계는, 상기 제1 인코딩부(206)에 의해 수행될 수 있다. 상기 구조적 및 시각적으로 무의미한 태그와 속성들은, 콘텐츠의 정보를 담고 있지 않은 태그일 수 있다. 예를 들어, SPAN, DIV, STYLE, SCRIPT, UL, LI, BODY, LINK, NOSCRIPT와 같이 화면 디자인을 위해 사용되는 태그 및 다이나믹 홈페이지를 구성하기 위해 정의한 스크립트 등이 상기 구조적 및 시각적으로 무의미한 태그와 속성에 해당할 수 있다. 도 3에서 "***"(100)은, 상기 제1 태그 시퀀스에서 상기 특정 엔티티의 영역을 나타낸다.
상기 제1 태그 시퀀스를 이용하여 상기 특정 엔티티(70)를 구조적으로 식별하기 위한 패턴 규칙을 생성한다[S230]. 상기 생성된 패턴 규칙은, 상기 특정 엔티 티(70)의 속성에 관한 정보를 포함할 수 있다. 패턴 규칙을 저장하는 지식베이스(KB)가 존재하는 경우, 상기 S230 단계에서 생성된 상기 패턴 규칙을 상기 지식베이스에 저장하거나 갱신할 수 있다. 상기 S230 단계는, 상기 규칙 생성부(205)에 의해 수행될 수 있다. 즉 상기 S230 단계는, 상기 제1 태그 시퀀스에서 상기 특정 엔티티(70)를 고유하게 식별할 수 있는 부분 태그 시퀀스를 찾음으로써 상기 패턴 규칙을 생성한다.
예를 들어, 도 3에서, "The Apple Way"라는 엔티티(70)를 구조적으로 식별하기 위한 패턴 규칙은, {"A"로 시작해서 "/A"로 끝남}(이하 "제1 패턴 규칙"이라 함)으로 고려될 수 있다. 그러나, 도 4에 도시된 바와 같이, 상기 제1 패턴 규칙은 "IMG"(101)까지 검출할 수 있는 패턴 규칙이다. "IMG"가 이미지(image)의 속성을 갖는 경우, 상기 제1 패턴 규칙을 상기 대상 문서(Y)에 적용하면, 상기 S200 단계에서 선택된 "The Apple Way"(70)가 갖는 속성인 "title"이 아닌 "image"의 속성을 갖는 콘텐츠까지 검출하게 된다. 사용자가 요구하는 정보의 속성은 "title"인데 "title" 뿐만 아니라 "image"의 속성을 갖는 정보까지 검출하게 되면 시스템의 신뢰도가 저하되는 결과를 낳을 수 있다.
상기 제1 패턴 규칙을 더 세분화하여, {"TD|A"로 시작해서 "/A"로 끝남}(이하 "제2 패턴 규칙"이라 함)을 상기 패턴 규칙으로 할 수 있다. 상기 제2 패턴 규칙 또한, 도 3 및 도 4에서 알 수 있는 바와 같이, 상기 대상 문서(Y)에서 "IMG"(101)까지 검출할 수 있는 패턴 규칙이다.
따라서, 상기 제2 패턴 규칙을 더 세분화하여, {"TD|TD|TABLE|TR|TD|A"로 시 작해서 "/A"로 끝남}(이하 "제3 패턴 규칙"이라 함)을 상기 패턴 규칙으로 할 수 있다. 상기 제3 패턴 규칙에 의하면, 도 3 및 도 4에서 참조번호 "100"에 해당하는 "***"만을 상기 대상문서(Y)에서 식별할 수 있다.
상기에서 제1 내지 제3 패턴 규칙을 예로 들어 설명한 바와 같이, 상기 패턴 규칙을 세분화할수록 상기 특정 엔티티와 관련된 정보를 추출할 수 있는 확률은 높아진다. 그러나 상기 패턴 규칙이 너무 세분화되면, 상기 특정 엔티티와 관련된 모든 정보를 추출하지 못할 수 있다. 예를 들어, 도 3 및 도 4에서 "IMG"(101)가 "image"가 아닌 "title"의 속성을 가지는 경우, 상기 제3 패턴 규칙에 의하면 "IMG"(101)은 상기 대상 문서(Y)에서 추출되지 않는다.
반면 상기 패턴 규칙을 세분화하지 않으면, "title"이 아닌 다른 속성을 갖는 정보까지 추출될 수 있는 문제가 있다.
본 발명은, 전술한 바와 같이, 특정 엔티티(70)를 포함하는 블록(80)을 대상으로 상기 패턴 규칙을 생성하기 때문에 상기 패턴 규칙이 너무 세분화되는 것을 막을 수 있다. 만약 상기 학습 문서(X) 전체를 대상으로 상기 특정 엔티티(70)를 구조적으로 식별할 수 있는 패턴 규칙을 생성한다면, 상기 패턴 규칙이 너무 세분화되는 것을 막을 수 없다.
또한 본 발명은 의미있는 블록들만을 포함하는 의미 그룹에 상기 패턴 규칙을 적용함으로써 정보를 추출하는 방법을 제안한다.
상기 대상 문서(Y)를 복수 개의 블록들로 분할한다[S240]. 상기 S240 단계는, 상기 블록 분할부(301)에 의해 수행될 수 있다. 즉 상기 S210 단계는, VIPS 알 고리즘에 의해 수행될 수 있다. 도 5는, S240 단계에 의해 분할된 복수 개의 블록들의 예를 도시한 도면이다. 도 5에서, 참조번호 110a 내지 110m은, 상기 분할된 각 블록을 나타낸다.
구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 S240 단계에서 분할된 상기 복수 개의 블록들을 복수 개의 그룹들로 그룹핑한다[S250]. 상기 S250 단계는, 상기 그룹핑부(203)에 의해 수행될 수 있다. 즉 상기 S250 단계는, 상기 편집 거리 알고리즘을 이용하여 상기 블록들 간의 구조적인 유사도를 판단할 수 있다.
도 6은 편집 거리 알고리즘의 예를 도시한 도면이다. 도 6을 참조하여 편집 거리 알고리즘을 상세히 설명하기로 한다. 편집 거리 알고리즘은, 임의의 블록들이 구조적으로 얼마나 유사한지를 판단하는 알고리즘이다.
예를 들어, 편집 거리 알고리즘은, "<TR><TD></TD><TD></TD><TR>"(이하 "제1 문자열"이라 함)과 "<TR><TD></TD></TR>"(이하 "제2 문자열"이라 함)이 구조적으로 얼마나 유사한지를 평가한다. 이하 상기 제1 문자열과 상기 제2 문자열을 예로 들어 설명하기로 한다.
도 6에서,
Figure 112007084123997-pat00001
는 블록의 길이로서 토큰의 개수를 의미하고,
Figure 112007084123997-pat00002
는 최종 산출된 평가 거리를 의미하고, ti와 tj는 토큰을 의미한다.
상기 제1 문자열과 상기 제2 문자열이 서로 같아질 수 있도록, 상기 제1 문자열과 상기 제2 문자열 중 어느 하나를 기준으로 하여 나머지 하나를 수정해 나간 다. 편집 거리 알고리즘은, 이와 같은 수정이 몇 번 이루어져야 상기 제1 문자열과 상기 제2 문자열이 서로 같아지는지를 측정한다.
상기 제1 문자열을 기준으로 상기 제2 문자열을 수정하는 경우, 상기 제2 문자열에 "<TR><TD></TD>"와 "/TR" 사이에 "<TD></TD>"를 삽입하면 상기 제1 문자열과 동일해진다. 따라서 상기 제1 문자열과 상기 제2 문자열의 편집거리는 2("<TD>"와 "</TD>")가 된다. 편집거리가 0이면 서로 같은 문자열을 의미하고, 편집거리의 값이 크면 클수록 서로 다른 문자열을 의미한다.
도 7은 두 블록 간의 구조적 유사도를 이용해 그룹핑하는 과정의 예를 도시한 도면이다. 도 8은 그룹 생성 함수의 예를 도시한 도면이다. 도 8에 도시한 바와 같이, 편집거리가 α보다 작은 두 블록은 유사한 블록들로 판단되어 동일한 그룹에 속하게 된다.
도 7에 도시된 바와 같이, b1 내지 b7의 7개의 블록이 있다고 가정하고, 이 중 임의의 블록 b1을 임의의 그룹 C1에 포함시키고 나머지 b2 내지 b7의 블록들은 그룹핑되지 않은 블록들(91)로 남겨둔다[S300]. b2와 b1의 편집거리를 산출함으로써 b2와 b1의 구조적 유사도를 측정하여 구조적으로 유사하지 않다고 판단되면 b2를 새로운 그룹 C2에 포함시킨다[S310]. b3를 C1에 포함된 블록(도 7에서는 b1) 및 C2에 포함된 블록(도 7에서는 b2)과 구조적 유사도를 측정하여 구조적으로 유사한 블록이 속한 그룹(도 7에서는 C1)에 포함시킨다[S320]. 이와 같은 과정을 통해 상기 모든 그룹핑되지 않은 블록들(91)에 대해 도 8에 도시된 그룹 생성 함수를 적용하여 구조적으로 유사한 그룹들끼리 동일한 그룹에 속하도록 상기 분할된 블록들을 그룹핑한다[S330].
도 9는 도 5에 도시된 블록들을 구조적으로 유사한 블록끼리 그룹핑한 예를 도시한 도면이다. 도 9에서, 참조번호 120a 내지 120g는 상기 S250 단계에 의해 그룹핑된 각 그룹을 나타낸다. 상기 각 그룹(120a 내지 120g)은, 도 9에 도시된 바와 같이, 도 5에 도시된 블록들 중 구조적으로 유사한 블록들을 포함한다.
상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹(90)을 식별한다[S260]. 상기 S260 단계는, 상기 의미그룹 식별부(305)에 의해 수행될 수 있다. 상기 S260 단계에서 상기 각 그룹의 정보량을 측정함에 있어서, 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려할 수 있다. 상기 텍스트 정보량은 텍스트 토큰 수에 의해 산출될 수 있고, 상기 이미지 정보량은 이미지의 면적에 의해 산출될 수 있다. 도 10은, 의미 그룹을 식별하기 위한 수식의 예를 도시한 도면이다. 도 10에 도시된 바와 같이, 특정 블록의 상기 텍스트 정보량과 상기 이미지 정보량을 특정 비율(β)만큼 곱하여 상기 특정 블록의 정보량을 산출하고, 특정 그룹의 정보량을 산출할 수 있다. 이와 같이 각 그룹의 정보량이 산출된 후, 상기 각 그룹의 정보량을 비교함으로써, 가장 많은 정보량을 갖는 그룹을 선택하여 이를 상기 의미 그룹으로 식별하게 된다.
상기 의미 그룹(90)에 속한 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 제2 태그 시 퀀스로 인코딩한다[S270]. 상기 S270 단계는, 상기 제2 인코딩부(308)에 의해 수행될 수 있다.
상기 제2 태그 시퀀스에 대해 상기 S230 단계에서 생성된 상기 패턴 규칙을 적용하여 상기 특정 엔티티(70)와 관련된 정보를 추출한다[S280]. 상기 S280 단계는, 상기 규칙 적용부(307)에 의해 수행될 수 있다. 도 11은 의미 그룹을 대상으로 정보를 추출한 예를 도시한 도면이다. 도 11에서 참조번호 200은, 의미 그룹(90)으로부터 "title"의 속성을 갖는 정보들만을 추출한 결과를 나타낸다.
도 12는 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치의 블록 구성도이다. 도 12를 참조하여, 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치를 상세히 설명하기로 한다.
본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치는, 입력부(10), 정보 추출부(30), 메모리(40), 표시부(50) 및 제어부(60)를 포함하여 구성될 수 있다. 상기 정보 추출부(30)는, 블록 분할부(301), 그룹핑부(303), 의미그룹 식별부(305) 및 규칙 적용부(307)를 포함할 수 있다. 본 발명의 다른 실시예에 따른 정보 추출 장치의 구성 요소의 기능 및 역할은, 도 1을 참조하여 설명한 본 발명의 일 실시예에 따른 정보 추출 장치의 구성 요소와 동일하다.
다만 도 12에 도시된 본 발명의 다른 실시예에 따른 정보 추출 장치는, 도 1에 도시된 본 발명의 일 실시예에 따른 정보 추출 장치에서 상기 규칙 학습부(20)가 제외된 형태이다. 도 12에 도시된 정보 추출 장치는, 상기 규칙 학습부(20)에서 생성되는 패턴 규칙이 상기 메모리(40)에 미리 저장되어 있다. 따라서, 상기 입력부(10)를 통해 웹 문서(Z)와 특정 엔티티가 입력된 경우, 상기 규칙 적용부(307)는, 상기 입력된 특정 엔티티를 구조적으로 식별할 수 있는 패턴 규칙을 상기 메모리(40)에서 호출하여 상기에서 설명한 바와 같이 적용할 수 있다. 상기 메모리(40)는, 복수의 서로 다른 엔티티 각각에 대한 패턴 규칙을 저장할 수 있다.
도 13은 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법의 흐름도이다. 도 13을 참조하여, 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법을 상세히 설명하기로 한다. 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법은, 도 12를 참조하여 설명한 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치에서 수행될 수 있다.
웹 문서와 특정 엔티티가 선택되거나 입력된다[S400]. 상기 웹 문서를 복수 개의 블록들로 분할한다[S410]. 상기 분할된 복수 개의 블록들을 구조적으로 유사한 블록들끼리 그룹핑한다[S420]. 상기 S420 단계에서 그룹핑된 각 그룹 중 가장 많은 정보량을 갖는 의미 그룹을 식별한다[S430]. 상기 메모리(40)에 미리 저장된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 정보를 하나 이상 추출한다[S440]. 상기 S440 단계에서 추출된 정보를 상기 표시부(50)에 표시한다[S450].
상기 S410 단계 내지 상기 S430 단계는, 도 2의 상기 S240 단계 내지 상기 S260 단계와 동일하다. 그리고 상기 S440 단계는, 도 2의 상기 S270 단계 및 상기 S280 단계에 대응된다. 따라서 더 이상의 상세한 설명은 생략하기로 한다.
상기에서는, 엔티티의 속성을 주로 "title"을 위주로 설명하였으나, 본 발명이 이에 한정되지 않는 것은 물론이다. 예를 들어, 인터넷 쇼핑몰에서는, 제목, 가격, 상품평과 같은 정보를 추출하기 위해 본 발명이 적용될 수 있다. 또한 예를 들어, 도서(book)의 경우 ISBN, title 등과 같은 정보를 추출하기 위해 본 발명이 적용될 수 있다. 또한 예를 들어, 의류 판매 웹사이트의 경우 치수, 뉴스를 제공하는 웹사이트의 경우 불필요한 광고 및 메뉴를 제외한 신문 기사만을 추출하기 위해 본 발명이 적용될 수 있다.
상기에서 설명한 본 발명의 실시예들에 따른 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법의 활용 분야를 예로 들면 다음과 같다. 웹의 다양한 정보는 정형화되어 있지 않기 때문에 본 발명을 활용하여 데이터마이닝을 위한 정보를 데이터베이스화할 수 있다. 또한 본 발명을 이용하여, 사용자의 개인화된 정보 제공의 목적으로 사용되는 RSS와 같이 사용자가 원하는 정보만을 선택하여 제공받을 수 있다. 유비쿼터스 환경에서는 언제 어디서나 사용자가 원하는 정보를 열람할 수 있어야 한다. 이와 같은 작업을 수행하기 위해 사용자가 요구하는 정보만을 요약할 수 있는 기능이 필요하다. 요약 기능은 사용자가 요구하는 정보를 파악하고 추출함으로써 진행될 수 있기 때문에, 본 발명이 이와 같은 분야에 적용될 수 있다. 또한 시맨텍 웹에서 자동화된 온톨로지 생성을 위해 웹의 데이터에서 의미 있는 정보만을 추출해야 한다. 이와 같은 작업에도 본 발명이 적용될 수 있다.
상기에서 설명한 본 발명에 의한 블록 그룹핑을 이용한 정보 추출 방법은, 컴퓨터에서 실행시키기 위한 프로그램으로 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공될 수 있다.
본 발명에 의한 블록 그룹핑을 이용한 정보 추출 방법은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는, ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치의 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방법의 흐름도이다.
도 3은, 패턴 규칙 생성 과정의 구현 예를 도시한 흐름도이다.
도 4는, 패턴 규칙 생성의 예를 설명하기 위한 도면이다.
도 5는, S240 단계에 의해 분할된 복수 개의 블록들의 예를 도시한 도면이다.
도 6은 편집 거리 알고리즘의 예를 도시한 도면이다.
도 7은 두 블록 간의 구조적 유사도를 이용해 그룹핑하는 과정의 예를 도시한 도면이다.
도 8은 그룹 생성 함수의 예를 도시한 도면이다.
도 9는 도 5에 도시된 블록들을 구조적으로 유사한 블록끼리 그룹핑한 예를 도시한 도면이다.
도 10은, 의미 그룹을 식별하기 위한 수식의 예를 도시한 도면이다.
도 11은 의미 그룹을 대상으로 정보를 추출한 예를 도시한 도면이다.
도 12는 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 장치의 블록 구성도이다.
도 13은 본 발명의 다른 실시예에 따른 블록 그룹핑을 이용한 정보 추출 방 법의 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
X: 학습 문서 Y: 대상 문서
Z: 웹 문서 10: 입력부
20: 규칙 학습부 201: 엔티티 선택부
203: 블록 식별부 205: 규칙 생성부
207: 제1 인코딩부 30: 정보 추출부
301: 블록 분할부 303: 그룹핑부
305: 의미그룹 식별부 307: 규칙 적용부
308: 제2 인코딩부 40: 메모리
50: 표시부 60: 제어부
70: 엔티티 80, 110a ~ 110m: 블록
90: 의미 그룹 120a ~ 120g: 그룹

Claims (26)

  1. 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계;
    대상 문서를 복수 개의 블록들로 분할하는 단계;
    구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
    상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및
    상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를
    포함하는 블록 그룹핑을 이용한 정보 추출 방법.
  2. 제 1 항에 있어서, 상기 패턴 규칙을 생성하는 단계는,
    상기 학습 문서로부터 상기 특정 엔티티가 선택되는 단계;
    상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 단계;
    상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및
    상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 단계를
    포함하는 블록 그룹핑을 이용한 정보 추출 방법.
  3. 제 2 항에 있어서, 상기 블록을 식별하는 단계는,
    시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  4. 제 1 항에 있어서, 상기 복수 개의 블록들로 분할하는 단계는,
    시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여, 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  5. 제 1 항에 있어서, 상기 그룹핑하는 단계는,
    토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  6. 제 5 항에 있어서, 상기 의미 그룹을 식별하는 단계는,
    텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 의미 그룹을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  7. 제 6 항에 있어서, 상기 텍스트 정보량은,
    텍스트 토큰 개수에 의해 산출되고,
    상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  8. 제 1 항에 있어서, 상기 정보를 추출하는 단계는,
    상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  9. 제 8 항에 있어서, 상기 정보를 추출하는 단계는,
    상기 식별된 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하는 단계;
    상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및
    상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 단계를
    포함하는 블록 그룹핑을 이용한 정보 추출 방법.
  10. 제 1 항에 있어서, 상기 학습 문서 및 상기 대상 문서는,
    웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  11. 제 1 항 내지 제 10 항의 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  12. 학습문서에서 특정 속성을 갖는 엔티티(entity)가 선택되는 단계;
    시각적 웹 문서 분할(Vision-based Page Segmentation; 이하 "VIPS"라고 함) 알고리즘을 이용하여 상기 선택된 엔티티를 포함하는 블록을 추출하는 단계;
    상기 추출된 블록에서 구조적 및 시각적으로 무의미한 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 제1 태그 시퀀스(Tag Sequence)로 인코딩하는 단계;
    상기 제1 태그 시퀀스를 이용하여 상기 선택된 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계;
    VIPS를 이용하여 웹 문서를 복수 개의 블록들로 분할하는 단계;
    토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
    텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계;
    상기 의미 그룹에 속한 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 제2 태그 시퀀스 로 인코딩하는 단계; 및
    상기 제2 태그 시퀀스에 대해 상기 생성된 패턴 규칙을 적용하여 상기 선택된 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를
    포함하는 블록 그룹핑을 이용한 정보 추출 방법.
  13. 웹 문서와 특정 속성을 갖는 특정 엔티티가 선택되는 단계;
    시각적 웹 문서 분할(Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 단계;
    토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
    텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및
    미리 저장된 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 이용하여, 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를
    포함하는 블록 그룹핑을 이용한 정보 추출 방법.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
    상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법.
  15. 학습 문서와 대상 문서를 입력받는 입력부;
    상기 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 규칙 학습부;
    상기 생성된 패턴 규칙을 저장하는 메모리; 및
    상기 패턴 규칙을 이용하여 상기 대상 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고,
    상기 정보 추출부는,
    상기 대상 문서를 복수 개의 블록들로 분할하는 블록 분할부;
    구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부;
    상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및
    상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 규칙 적용부를
    포함하는 블록 그룹핑을 이용한 정보 추출 장치.
  16. 제 15 항에 있어서, 상기 규칙 학습부는,
    상기 학습 문서로부터 상기 특정 엔티티를 선택하는 엔티티 선택부;
    상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 블록 식별부; 및
    상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스로 인코딩하고, 상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 규칙 생성부를
    포함하는 블록 그룹핑을 이용한 정보 추출 장치.
  17. 제 16 항에 있어서, 상기 블록 식별부는,
    시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 특정 엔티티를 포함하는 블록을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  18. 제 15 항에 있어서, 상기 블록 분할부는,
    시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  19. 제 15 항에 있어서, 상기 그룹핑부는,
    토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 상기 분할된 복 수 개의 블록들을 상기 복수 개의 그룹들로 그룹핑하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  20. 제 19 항에 있어서, 상기 의미그룹 식별부는,
    텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 그룹을 상기 의미 그룹으로 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  21. 제 20 항에 있어서,
    상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
    상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  22. 제 15 항에 있어서, 상기 규칙 적용부는,
    상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  23. 제 22 항에 있어서, 상기 규칙 적용부는,
    상기 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 태그 시 퀀스로(Tag Sequence)로 인코딩하고, 상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  24. 제 15 항에 있어서, 상기 학습 문서 및 상기 대상 문서는,
    웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
  25. 웹 문서와 특정 속성을 갖는 특정 엔티티를 입력받는 입력부;
    상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 저장하는 메모리; 및
    상기 패턴 규칙을 이용하여 상기 웹 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고,
    상기 정보 추출부는,
    시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 블록 분할부;
    토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부;
    텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및
    상기 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 정보를 하나 이상 추출하는 규칙 적용부를
    포함하는 블록 그룹핑을 이용한 정보 추출 장치.
  26. 제 24 항에 있어서,
    상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
    상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치.
KR1020070119766A 2007-11-22 2007-11-22 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 KR100907709B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070119766A KR100907709B1 (ko) 2007-11-22 2007-11-22 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070119766A KR100907709B1 (ko) 2007-11-22 2007-11-22 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20090053104A KR20090053104A (ko) 2009-05-27
KR100907709B1 true KR100907709B1 (ko) 2009-07-14

Family

ID=40860667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070119766A KR100907709B1 (ko) 2007-11-22 2007-11-22 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100907709B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102474042B1 (ko) * 2016-01-15 2022-12-06 한국전자통신연구원 데이터 마이닝을 이용한 질병 연관성 분석 방법
CN106909679B (zh) * 2017-03-03 2020-02-07 东北大学 基于多路分块的渐近式实体识别方法
KR102079304B1 (ko) * 2018-04-18 2020-02-19 롯데정보통신 주식회사 화이트리스트 기반 악성코드 차단 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050013949A (ko) * 2003-07-28 2005-02-05 마이크로소프트 코포레이션 시각 기반 문서 분할
US20050066269A1 (en) 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050013949A (ko) * 2003-07-28 2005-02-05 마이크로소프트 코포레이션 시각 기반 문서 분할
US20050066269A1 (en) 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages

Also Published As

Publication number Publication date
KR20090053104A (ko) 2009-05-27

Similar Documents

Publication Publication Date Title
US9542477B2 (en) Method of automated discovery of topics relatedness
US8954893B2 (en) Visually representing a hierarchy of category nodes
EP3262497B1 (en) Contextual zoom
CN104267947B (zh) 一种编辑弹窗图片的方法及弹窗图片编辑装置
US20130339840A1 (en) System and method for logical chunking and restructuring websites
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN103597469A (zh) 集成开发环境中的实况浏览器工具
CN108334508B (zh) 网页信息的提取方法和装置
CN105431886A (zh) 渲染数据集的层次可视化
US8290925B1 (en) Locating product references in content pages
CN100432996C (zh) 基于网页页面布局提取网页核心内容的系统、方法
CN104169912A (zh) 信息处理终端和方法,以及信息管理设备和方法
CN109191158A (zh) 用户画像标签数据的处理方法及处理设备
US20240104405A1 (en) Schema augmentation system for exploratory research
KR100907709B1 (ko) 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN104346174A (zh) 一种在线矢量图建模过程的描述与重现方法
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
CN105426676A (zh) 一种钻井数据处理方法和系统
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN113887191A (zh) 文章的相似性检测方法及装置
JP5225331B2 (ja) データ抽出装置及び方法
CN114637505A (zh) 一种页面内容提取方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130628

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140701

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150526

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee