KR101302563B1

KR101302563B1 - 개체명 사전 구축 시스템 및 구축 방법

Info

Publication number: KR101302563B1
Application number: KR1020090124980A
Authority: KR
Inventors: 이창기; 장명길; 윤여찬; 최미란; 김현기; 류법모; 임수종; 황이규; 이충희; 오효정; 허정
Original assignee: 한국전자통신연구원
Priority date: 2009-12-15
Filing date: 2009-12-15
Publication date: 2013-09-02
Also published as: US20110145251A1; KR20110068137A

Abstract

본 발명은 개체명 사전 구축 시스템 및 구축 방법에 관한 것으로서, 보다 상세하게는 웹문서에 포함된 특정 형식의 정보로부터 개체명을 추출하여 사전을 구축하는 시스템 및 방법에 관한 것이다. 이를 위해, 수집한 웹문서의 구조를 분석하는 단계와, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 단계와, 추출된 개체명에 대하여 카테고리를 설정하는 단계 및 카테고리가 설정된 개체명을 개체명 사전으로 데이터베이스화하는 단계를 수행하는 시스템과 방법을 제공한다.

개체명, 사전, 테이블, 리스트

Description

개체명 사전 구축 시스템 및 구축 방법{System and method for constructing named entity dictionary}

본 발명은 개체명 사전 구축 시스템 및 구축 방법에 관한 것으로서, 보다 상세하게는 웹문서에 포함된 특정 형식의 정보로부터 개체명을 추출하여 사전을 구축하는 시스템 및 방법에 관한 것이다.

본 발명은 한국과학기술원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-034-03, 과제명:국가 IT온톨로지 인프라 기술개발].

기술, 인문, 사회 등의 다양한 분야에서 작성된 문서의 언어적 내용을 분석하기 위하여 형태소 분석, 개체명 인식, 구문분석 등의 다양한 기술적인 시도가 있다.

이와 관련되어, 언어적 내용을 분석하여 사전 구축을 기술로서 개체명 사전을 구축하는 기술이 있다. 그 일예로서 한국특허 제682897호인 "사전 업데이트 방법 및 그 장치"가 있다. 이 발명은 네트워크를 통해 사용자 관심 분야의 웹 문서를 추출하고, 웹 문서에서 추출된 개체명과 신조어를 사전에 업데이트하는 기술에 관 한 것이다.

그러나, 앞서 언급한 발명은 정해진 사용자 관심분야의 웹문서만을 추출한다는 한계가 있고, 테이블이나 리스트 등으로 이루어진 특정 웹문서의 정보를 사용하지 않는 한계가 있다.

본 발명은 상기와 같은 문제로부터 창출된 것으로서, 본 발명의 목적은 테이블이나 리스트와 같은 특정 형식의 정보를 포함하는 웹문서로부터 개체명을 추출하고 이를 이용하여 개체명 사전을 구축하는 방법과 시스템을 제공하는 것이다.

상기와 같은 본 발명의 목적은, 수집한 웹문서의 구조를 분석하는 단계와, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 단계와, 추출된 개체명에 대하여 카테고리를 설정하는 단계 및 카테고리가 설정된 개체명을 개체명 사전으로 데이터베이스화하는 단계를 포함하는 개체명 사전 구축 방법에 의하여 달성 가능하다.

또한, 본 발명의 목적은, 웹문서를 수집하는 웹문서 수집기와, 수집한 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 정보 추출기와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 개체명 추출기 및 추출한 개체명을 저장하는 개체명 사전를 포함하는 개체명 사전 구축 시스템에 의하여 달성 가능하다.

상기와 같은 본 발명의 일실시예에 따르면, 테이블이나 리스트와 같이 특정 형식의 정보를 포함하는 웹문서로부터 보다 정확하고 용이하게 개체명 사전을 구축 할 수 있다.

또한, 기존에 등록한 웹문서의 주소 등을 별도로 관리하고 이를 이용함으로써, 보다 빠르고 용이하게 개체명을 자동으로 수집하는 할 수 있다는 장점이 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

도 1은 본 발명에 따른 개체명 사전(160) 구축 시스템의 개략적인 구성 블록도이다. 본 발명에 따른 시스템은 웹문서 수집기(110), 주소 추출기(120), 정보 추출기(130), 개체명 추출기(140), 카테고리 결정기(150), 개체명 사전(160) 등을 포함한다.

웹문서 수집기(110)는 초기 URL(Uniform Resource Locator)를 기초로 웹문서를 수집한다. 초기 URL는 개체명 사전(160)을 구축하고자 하는 자가 입력한 것이거나 웹문서 수집기(110)에서 별도로 관리되던 것일 수 있다. 웹문서 수집기(110)에는 기존에 개체명을 추출하던 웹문서의 URL와 기타 URL 등이 저장되어 있을 수 있다. 기존에 저장되었던 URL로부터는 새로 업데이트되거나 신규의 웹문서를 수집할 수 있다.

주소 추출기(120)는 웹문서 수집기(110)가 수집한 웹문서의 주소를 추출하고, 추출된 주소를 웹문서 수집기(110)로 보낸다. 예컨대, 주소 추출기(120)는 웹문서에 대하여 HTML 파싱을 수행함으로써 웹문서로부터 URL 리스트를 추출하고, 추출된 URL 리스트를 웹문서 수집기(110)로 보낸다. 웹문서 수집기(110)는 기존의 주소와 함께 주소 추출기(120)로부터 입력받은 주소를 함께 관리할 수 있다.

정보 추출기(130)는 웹문서 수집기(110)가 수집한 웹문서의 구조를 파악하여, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출한다. 웹문서에는 도 2에 나타난 바와 같은, 테이블 형식의 정보(200)가 포함되어 있다. 정보 추출기(130)는 이와 같은 정보가 포함되어 있는지 구조를 파악하고, 테이블 형식 또는 리스트 형식의 정보 추출하여 개체명 추출기(140)로 보낸다.

개체명 추출기(140)는 테이블 형식 또는 리스트 형식의 정보에 대하여 개체명 인식을 수행하여 개체명을 추출한다. 개체명 추출기(140)는 테이블 형식 또는 리스트 형식의 정보에 개체명이 포함될 확률을 점수화하고, 실제로 개체명 인식을 수행하여 개체명이 인식된 비율을 점수화한다. 이 후, 각각의 점수를 토대로 개체 명 사전(160)에 등록할 개체명을 결정한다. 개체명 추출기(140)의 보다 구체적인 구성은 이하, 해당부분에서 후술하기로 한다.

개체명 사전(160)은 개체명 추출기(140)로부터 추출된 개체명을 데이터베이스화하여 저장한다. 개체명은 개체명 추출기(140)로부터 기체명 사전으로 전달되는 중간에 카테고리 결정기(150)를 거칠 수 있다. 카테고리 결정기(150)는 개체명 추출기(140)에 의해 추출된 개체명이 속한 분류, 즉 카테고리를 결정한다. 카테고리가 결정된 개체명은 개체명 사전(160)에 카테고리별로 저장될 수 있다.

개체명이 추출되고 개체명에 대하여 카테고리가 결정된 경우, 현재 웹문서가 개체명을 포함하고 있다는 피드백을 웹문서 수집기(110)로 보낸다. 웹문서 수집기(110)는 피드백을 받아 현재 웹문서의 URL를 별도로 관리하고, 개체명을 포함하고 있는 웹문서의 주변 웹문서들에 우선순위를 부여하여 이들을 먼저 수집할 수 있다.

도 3은 개체명 추출기(140)의 개략적인 구성을 나타낸 블록도이다. 개체명 추출기(140)는 도 3에 도시된 바와 같이, 헤더분석부(310), 개체명 인식부(320)와 결정부(330) 등을 포함한다. 헤더분석부(310)는 테이블 형식 또는 리스트 형식의 정보의 헤더를 분석하고, 분석된 헤더 정보에 기초하여 테이블 형식 또는 리스트 형식의 정보에 개체명이 포함될 확률을 점수로 계산한다. 예컨대, 웹문서로부터 추출된 테이블 형식의 정보가 개체명 추출기(140)로 입력되면, 헤더 정보를 분석한다. 헤더 정보를 분석한 결과, 개체명이 포함될 가능성이 없다면 점수가 낮을 것이 고, 개체명이 포함될 가능성이 높다면 높은 점수가 부여될 것이다.

개체명 인식부(320)는 테이블 형식 또는 리스트 형식의 정보에 대하여, 개체명 인식을 수행한다. 이 때, 테이블 형식의 정보에 포함된 내용에 따라, 개체명을 인식하는 비율이 달라질 수 있다. 개체명 인식비율은 점수로 계산될 수 있다. 이 경우, 개체명 인식부(320)는 개체명을 이미 데이터베이스화한 개체명 사전(160)을 이용하여 개체명 인식을 수행할 수 있다.

이하에서는 설명의 편의를 위하여, 헤더분석부(310)에서 계산된 점수를 제1점수라고 하고, 개체명 인식부(320)에서 계산된 점수를 제2점수라고 한다.

결정부(330)는 제1점수와 제2점수를 기초로, 개체명 인식부(320)에서 인식한 개체명을 개체명 사전(160)에 등록할지 여부를 결정한다. 예컨대, 제1점수와 제2점수를 합한 결과가 소정의 기준점수를 초과하는 경우에, 결정부(330)는 개체명 인식부(320)에서 인식한 개체명을 개체명 사전(160)에 등록할 개체명으로 결정할 수 있다. 이때, 기준점수는 개체명 사전(160)을 구축하는 자가 임의로 설정하거나 변경할 수 있다.

이하에서는, 첨부된 도면을 참고하여 본 발명에 따른 개체명 사전을 구축하는 방법을 설명한다. 도 4는 본 발명에 따른 개체명 사전 구축 방법의 일실시예를 나타낸 순서도이다.

시스템은 웹문서를 수집한다(S410). 웹문서는 개체명 사전(160)을 구축하고자 하는 자가 별도로 입력한 URL 또는 시스템에 미리 저장되어 있던 URL를 기초로 웹문서를 수집할 수 있다. 시스템에 미리 저장되어 있던 URL 중에는, 기존에 개체명 사전(160)에 저장하였던 개체명을 추출한 웹문서의 URL일 수 있다.

시스템은 수집한 웹문서의 URL를 추출하고, URL 리스트를 작성하여 웹문서의주소를 관리할 수 있다(S420). 추후 본 발명에 따른 개체명 수집을 수행하는 경우, 웹문서를 수집하는데 URL를 다시 사용하기 위함이다.

시스템은 수집한 웹문서의 구조를 분석하여(S430), 웹문서에서 테이블 형식 또는 리스트 형식의 정보를 추출한다(S440). 수집한 웹문서에 대한 HTML 파싱을 통해 웹문서 내에 테이블 형식 또는 리스트 형식의 정보가 있는지 분석하고, 테이블 형식 또는 리스트 형식의 정보가 있는 경우 이를 추출한다. 웹문서에는 도 2에 나타난 바와 같은 테이블 형식의 정보(200)가 포함되어 있다. 이 경우, 테이블 형식의 정보(200)가 포함된 웹페이지에서 추출한 테이블 형식의 정보는 다음과 같다.

추출된 테이블 형식의 정보(S440)

<data>

관악한일유엔아이

북한산힐스테이트 7차

고양3차 풍림아이원

…

검단자이

</data>

이후, 추출된 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출한다(S450). 예컨대, 앞의 일예와 같이 추출된 테이블 형식의 정보에 대하여, 헤더 정보를 분석하여 개체명이 포함될 확률을 점수화한다(제1점수화 단계). 그리고, 테이블 형식의 정보에 대하여 개체명 인식을 수행한다. 이 경우, 개체명이 인식된 비율을 점수화한다(제2점수화 단계). 다음은 앞의 S430단계에서 추출한 정보에 대하여, 제1점수화단계와 개체명 인식을 수행한 결과를 나타낸 것이다. 본 실시예의 경우, 제1점수화로 인하여 점수가 80이 부여된 상태이다.

점수가 부여된 상태(S450)

<header>아파트명</header> → AF _ BUILDING (점수 80)

<data>

관악한일유엔아이 →개체명 인식: AF _ BUILDING

북한산힐스테이트 7차 →개체명 인식 실패

고양3차 풍림아이원 →개체명 인식: AF _ BUILDING

…

검단자이 →개체명 인식: OGG _ BUSINESS

</data>

이 후, 제1점수화의 결과와 제2점수화의 결과를 토대로 인식된 개체명이 개체명 사전(160)에 등록될 만한지 여부를 결정한다. 예컨대, 제1점수와 제2점수를 합한 점수가 기준점수를 초과하는 경우에만 개체명 사전(160)에 등록할 개체명으로 결정할 수 있다.

사전에 등록할 개체명의 추출이 완료되면, 개체명에 대하여 카테고리를 결정할 수 있다(S460). S450 단계에서의 결과를 이용하여 카테고리를 결정할 수 있다.에컨대, 개체명 인식단계(S450)에서 인식된 개체명 중에서 어느 하나의 개체명이 다른 개체명들에 관한 카테고리이므로, 카테고리에 해당하는 개체명을 선별할 수 있다. 다음은 앞의 실시예에 있어서 S460단계를 마친 상태로서, 카테고리가 결정된 개체명을 나타낸 것이다.

카테고리가 결정된 개체명(S460)

<ne_list category='AF_BUILDING'>

관악한일유엔아이

북한산힐스테이트 7차

고양3차 풍림아이원

…

검단자이

</ne_list>

개체명이 추출되고 개체명에 대하여 카테고리가 결정된 경우, 시스템은 웹문서가 개체명을 포함하고 있다는 것을 감지하고, 해당 웹문서의 URL를 별도로 관리한다(S470). 시스템은 별도로 관리되는 URL를 이용하여, 현재 웹문서의 주변 웹문 서들을 우선적으로 수집할 수 있다.

시스템은 카테고리가 설정된 개체명을 개체명 사전(160)에 등록한다(S480).

비록 본 발명이 상기 언급된 바람직한 실시예와 관련하여 설명되어졌지만, 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 따라서 첨부된 특허청구의 범위에는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.

도 1은 본 발명에 따른 개체명 사전 구축 시스템의 개략적인 구성 블록도이고,

도 2는 도 1의 웹문서 수집기에서 수집된 웹문서에 포함된 테이블 형식의 정보를 나타낸 것이며,

도 3은 도 1의 개체명 추출기의 개략적인 구성 블록도이며,

도 4는 본 발명에 따른 개체명 사전 구축 방법의 일실시예에 따른 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

110: 웹문서 수집기

120: 주소 추출기

130: 정보 추출기

140: 개체명 추출기

150: 카테고리 결정기

160: 개체명 사전

200: 테이블 형식의 정보

310: 헤더분석부

320: 개체명 인식부

330: 결정부

Claims

개체명 사전 구축 시스템에 의한 개체명 사전 구축 방법에 있어서,

수집된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계;

추출된 상기 테이블 형식 또는 리스트 형식의 정보에 관한 헤더를 분석하고, 분석된 헤더 정보에 기초하여, 개체명이 포함될 확률을 점수화하는 제1점수화 단계;

추출된 상기 테이블 형식 또는 리스트 형식의 정보에 대하여 개체명 인식을 수행하고, 상기 인식된 개체명의 비율을 점수화하는 제2점수화 단계;

상기 제1점수화 단계와 상기 제2 점수화 단계의 점수들의 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 단계;

등록이 결정된 상기 개체명에 대하여 카테고리를 설정하는 단계; 및

카테고리가 설정된 상기 개체명을 개체명 사전으로 데이터베이스화하는 단계

를 포함하는 개체명 사전 구축 방법.
제1항에 있어서, 상기 추출하는 단계 이전에,

수집된 상기 웹문서의 주소를 추출하여 저장하는 단계;

를 더 포함하는 개체명 사전 구축 방법.
제1항에 있어서, 상기 추출하는 단계 이전에,

기등록된 웹문서에서 업데이트된 웹문서를 수집하는 단계; 및

상기 업데이트된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계를 포함하는 것이 개체명 사전 구축 방법.
제1항에 있어서, 상기 등록 여부를 결정하는 단계는,

상기 제1점수화 단계의 점수와 상기 제2점수화 단계의 점수를 합산하여, 상기 합산한 점수가 기준점수를 초과하는지 판단하는 단계; 및

상기 판단 결과 상기 합산한 점수가 상기 기준점수를 초과하는 경우에 상기 인식된 개체명을 상기 개체명 사전에 등록할 개체명으로 결정하는 단계;

를 포함하는 것인 개체명 사전 구축 방법.
제1항에 있어서, 상기 카테고리를 설정하는 단계는,

상기 카테고리가 설정된 개체명을 포함한 웹문서의 주소를 추출하여 관리하는 단계를 더 포함하는 개체명 사전 구축 방법.
웹문서를 수집하는 웹문서 수집기;

상기 웹문서 수집기에 의해 수집된 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 정보 추출기;

상기 정보 추출기에 의해 추출된 상기 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 개체명 추출기; 및

상기 개체명 추출기에 의해 추출된 상기 개체명을 저장하는 개체명 사전; 을 포함하고,

상기 개체명 추출기는,

상기 웹문서 수집기에 의해 수집된 상기 웹문서 내에 존재하는 테이블 형식 또는 리스트 형식의 정보 중에서 헤더 정보를 분석하는 헤더분석부;

상기 정보 추출기에 의해 추출된 상기 테이블 또는 리스트 형식의 정보로부터 개체명을 인식하는 개체명 인식부; 및

상기 헤더분석부에 의해 분석된 상기 헤더 정보와 상기 개체명 인식부의 상기 개체명의 인식결과를 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 결정부;를 포함하며,

상기 결정부는 상기 헤더분석부에 의해 분석된 상기 헤더정보를 토대로 상기 웹문서에 상기 개체명이 포함될 확률을 반영한 제1점수와 상기 개체명 인식부의 상기 개체명 인식의 빈도를 반영한 제2점수의 합을 기초로, 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 것인 개체명 사전 구축 시스템.
삭제
삭제
삭제
삭제
삭제
삭제