KR20160086255A

KR20160086255A - 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법

Info

Publication number: KR20160086255A
Application number: KR1020150141864A
Authority: KR
Inventors: 최기선; 김영식; 김지성; 함영균
Original assignee: 한국과학기술원
Priority date: 2015-01-09
Filing date: 2015-10-08
Publication date: 2016-07-19
Also published as: KR101663038B1

Abstract

개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법이 개시된다. 여기서, 개체 범위 인식 장치는 텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성하는 학습부, 그리고 상기 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 상기 개체 범위로 인식된 개체 목록을 출력하는 적용부를 포함한다.

Description

개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법{ENTITY BOUNDARY DETECTION APPARATUS IN TEXT BY USAGE-LEARNING ON THE ENTITY'S SURFACE STRING CANDIDATES AND MTEHOD THEREOF}

본 발명은 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법에 관한 것으로서, 특히, 임의의 텍스트에 대하여 위키피디아(Wikipedia)와 같은 웹지식 URI(Uniform Resource Identifier)에 해당하는 개체 탐지 기술에 관한 것이다.

일반적으로, 개체명 인식은 텍스트가 입력으로 주어졌을 때 텍스트 내 개체에 해당되는 문자열을 태깅하는 과정으로서, 개체의 표면형 문자열 범위를 인식하는 과정과 중의성 해소 과정으로 나뉜다. 개체의 표면형 문자열 범위를 인식하는 과정의 종래기술로서, 한국등록특허 10-0829401, 한국등록특허 10-0877477는 형태소 분석을 사용한 자연언어처리도구에 의존한다.

이처럼, 종래에 표면형 문자열 범위 인식 방식은 형태소 분석기의 분석 결과를 이용하는데, 이는 형태소 분석기의 오류가 전체 개체명 인식 장치의 성능을 떨어뜨리는 단점이 있다. 특히, 형태소 분석기가 학습되어있지 않은 분류의 개체의 개체명 인식 성능이 영향을 특히 받게 된다.

영어 텍스트에 대한 위키피디아 개체 연결을 수행하는 연구는 매우 다양한 편이다. 개체 연결에는 개체 탐지가 필수적이기 때문에, 자연스레 이들 연구는 영어 텍스트에서의 개체 탐지 역시 수행하게 된다. 다만, 영어 텍스트에서의 개체 탐지는 어간 추출(stemming) 등의 매우 단순한 수법만 이용할 뿐, 개체 문자열 사전을 이용한 단순 검색만으로도 충분히 좋은 성능이 나오므로 영어 텍스트에서의 개체 연결에 대한 연구들에서 구체적으로 논의되지 않는 편이다.

한국어의 경우, 문자열의 개체 모호성이 영어 텍스트에서보다 흔하다. 예를 들어, 같은 '반도'라는 문자열이라도 '아라비아 반도'에서의 '반도'는 개체이지만, '물이 반도 남지 않았다'에서의 '반도'는 개체가 아니다.

종래에 한국어 텍스트에서의 일반적인 개체 탐지에 대한 연구들에서는 한국어 텍스트를 품사 분석한 데이터를 이용하는데, 이는 프로세스가 품사 분석기에 의존하게 되는 단점이 있다.

한편, 임의의 텍스트에서 오픈 지식베이스인 LOD(linked open data) 개체를 자동으로 인식할 수 있는 능력은 웹상의 비정형 데이터를 링크드 데이터와 연결하여 지식베이스를 넓히는 데에 중요한 능력이다.

종래에 영문 디비피디아 URI(Uniform Resource Locator) 디비피디아 탐지(DBpedia Spotlight)에서는 여러 언어에 대해 동작하게 만들기 위한 연구는 있었지만, 아직 특정 언어에 대해서만 동작한다.

디비피디아 URI 탐지 과정은 개체 범위 인식과 개체 중의성 해소의 두 단계로 이뤄져 있는데 개체 범위 인식 단계에서는 텍스트 속에서 디비피디아 개체에 해당하는 문자열들을 검출한다.

영어 디비피디아 URI 탐지 관련 연구에서는 개체 범위 인식 단계를 그다지 깊게 다루지 않는 경향이 있다. 'DBpedia Spotlight'만 봐도 개체 범위 인식을 단순히 사전 기반의 문자열 검색을 통해 해결한다.

그런데, 디비피디아 URI 탐지 문제는 전통적인 개체명 인식과 다르다. 전통적인 개체명 인식에서는 개체에 장소나 단체 등의 클래스를 정해주는 반면 디비피디아 URI 탐지에서는 개체에 특정 URI를 붙여준다. 예를 들어, '로마'라는 어휘에 대해 일반적인 개체명 인식 과제에서는 'City'등의 클래스로 분류하지만, 디비피디아 URI 탐지 과제에서는 '로마, 이탈리아', '로마, 조지아', '로마, 일리노이' 등의 URI를 태깅해야 한다.

따라서, 기존의 방법은 영어에서는 충분할 수 있으나, 한국어처럼 개체명의 평균 길이가 짧은 언어에서는 단순히 사전 기반의 문자열 검색보다 더 적합한 알고리즘이 필요한 실정이다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 형태소 분석기를 이용하지 않고, 텍스트 내 문자열 및 주변 문자들로 구성된 문자 기반 자질들을 이용한 용례학습기반 알고리즘으로 모델을 생성한 뒤, 이 모델을 이용하여 임의의 텍스트 내의 개체 범위를 인식하는 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법을 제공하는 것이다.

또한, SVM(Support Vector Machine)을 이용한 개체 범위 인식 방법을 이용하는 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법을 제공하는 것이다.

본 발명의 하나의 특징에 따르면, 개체 범위 인식 장치는 텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성하는 학습부, 그리고 상기 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 상기 개체 범위로 인식된 개체 목록을 출력하는 적용부를 포함한다.

상기 단어 기반 자질들은,

상기 텍스트 내 문자열 중 임의의 문자열 자체, 상기 임의의 문자열의 첫 단어와 같은 어절에 있고 상기 임의의 문자열의 앞에 붙은 접두 문자열, 상기 임의의 문자열의 마지막 단어와 같은 어절에 있고 상기 임의의 문자열의 뒤에 붙은 접미 문자열, 상기 임의의 문자열 및 상기 접두 문자열, 상기 임의의 문자열 및 상기 접미 문자열, 상기 임의의 문자열 및 상기 임의의 문자열의 바로 앞 어절, 그리고 상기 임의의 문자열 및 상기 임의의 문자열의 바로 뒤 어절을 포함할 수 있다.

상기 학습부는,

복수의 개체 중에서 일부 개체가 태깅되어 있는 코퍼스 문서 뭉치로부터 개체 후보 문자열들을 추출하는 추출 모듈, 상기 개체 후보 문자열들 별로 각각의 자질값을 계산하는 계산 모듈, 그리고 온라인 백과사전 문서 내 모든 개체의 위치 및 URI(Uniform Resource Identifier) 정보를 가진 정답 집합으로 구성된 정답 문서 뭉치에 상기 자질값을 적용하여 상기 정답 문서 뭉치 내 문자열들 별로 각각의 자질값을 획득하고, 상기 각각의 자질값을 기계 학습 알고리즘으로 학습하여 상기 학습 모델을 생성하는 학습 모듈을 포함할 수 있다.

상기 추출 모듈은,

일회 이상 개체로 태깅된 적이 있는 모든 문자열을 개체 후보 문자열로 추출할 수 있다.

상기 학습 모듈은,

서포트 벡터 머신(SVM, Support Vector Machine) 모델로 학습할 수 있다.

상기 학습부는,

상기 개체 후보 문자열들로 구성된 문자열 사전을 저장하는 문자열 사전 DB, 상기 계산 모듈이 계산한 각각의 자질값을 저장하는 자질값 DB, 그리고 상기 학습 모델을 저장하는 학습 모델 DB를 더 포함하고,

상기 적용부는,

상기 문자열 사전을 이용하여 사용자 입력 텍스트 내에서 모든 개체 후보를 검출하는 검출 모듈, 상기 자질값 DB에 저장된 상기 각각의 자질값 중에서 상기 모든 개체 후보 별로 해당하는 각각의 자질값을 부여하는 자질값 계산 모듈, 그리고 상기 모든 개체 후보 별로 해당하는 각각의 자질값과 상기 학습 모델을 이용하여 개체 후보 중에서 개체 범위로 인식된 개체 목록을 추출하는 문자열 범위 인식 모듈을 포함할 수 있다.

상기 각각의 자질값은, 하기 수학식을 통해 산출될 수 있다.

, 여기서, S는 문자열을 의미함

상기 개체 범위 인식 장치는, 상기 코퍼스 문서 뭉치, 상기 정답 문서 뭉치 및 상기 사용자 입력 텍스트를 입력받기 위한 입력부, 그리고 상기 개체 목록을 출력하는 출력부를 더 포함할 수 있다.

본 발명의 다른 특징에 따르면, 개체 범위 인식 방법은 컴퓨팅 기반의 개체 범위 인식 장치가 텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성하는 단계, 그리고 상기 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 상기 개체 범위로 인식된 개체 목록을 출력하는 단계를 포함한다.

상기 생성하는 단계는,

복수의 개체 중에서 일부 개체가 태깅되어 있는 코퍼스 문서 뭉치로부터 개체 후보 문자열들을 추출하는 단계, 상기 개체 후보 문자열들 별로 각각의 자질값을 계산하여 저장하는 단계, 온라인 백과사전 문서 내 모든 개체의 위치 및 URI(Uniform Resource Identifier) 정보를 가진 정답 집합으로 구성된 정답 문서 뭉치에 상기 자질값을 적용하여 상기 정답 문서 뭉치 내 문자열들 별로 각각의 자질값을 획득하고, 상기 각각의 자질값을 서포트 벡터 머신(SVM, Support Vector Machine) 모델로 학습하여 상기 학습 모델을 생성하는 단계를 포함할 수 있다.

상기 저장하는 단계는,

상기 개체 후보 문자열들이 개체에 해당하는지와, 상기 개체 후보 문자열들이 상기 자질을 만족하는지를 이용한 조건부 확률 계산식에 따라 상기 각각의 자질값을 계산하여 저장할 수 있다.

상기 추출하는 단계는,

일회 이상 개체로 태깅된 적이 있는 모든 문자열을 개체 후보 문자열로 추출하는 단계, 그리고 상기 개체 후보 문자열로 구성된 문자열 사전을 생성하여 저장하는 단계를 포함할 수 있다.

상기 출력하는 단계는,

사용자 입력 테스트를 입력받는 단계, 상기 문자열 사전을 이용하여 상기 사용자 입력 텍스트 내에서 모든 개체 후보를 검출하는 단계, 상기 개체 후보 단여열들에 부여된 각각의 자질값을 이용하여 상기 모든 개체 후보 별로 해당하는 각각의 자질값을 부여하는 단계, 그리고 상기 모든 개체 후보 별로 부여된 해당하는 각각의 자질값과 상기 학습 모델을 이용하여 상기 모든 개체 후보 중에서 개체 범위로 인식된 개체 목록을 추출하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 표면형 문자열 용례학습기반에 의한 방식을 이용함으로써 형태소 분석기에 의해 생길 수 있는 처리 시간 문제 및 품사 태거의 오류 전파 가능성을 배제할 수 있다.

또한, 특정 언어의 특정 형태소해석장치 등이 존재하지 않기 때문에, 영어에 비해 상대적으로 연구가 덜 된 한국어를 비롯한 모든 언어에 적용할 수 있다.

또한, 임의의 텍스트 내의 정보를 이미 존재하는 링크드 데이터(Linked data)와 연결하여 컴퓨터가 이용할 수 있는 정보의 폭을 넓힐 수 있다.

또한, 품사 분석 정보를 이용하는 것에 비해 품사 분석을 이용하지 않고 기계 학습 기법을 이용함으로써 전체적인 성능을 높일 수 있고, 품사 분석기를 개체 탐지 과정에서 제외함으로써 품사 분석기를 구동하고 질의 텍스트를 분석하는 데 소모되는 시간을 줄일 수 있다.

또한, 외부 기술에 대한 의존도를 낮추고 실행 시간을 줄일 수 있다.

또한, 위키피디아에 URI(Uniform Resource Identifier)로 등재된 모든 개체를 탐지하는 시스템에서 임의의 텍스트 내 정보를 위키피디아와 연결할 수 있는 잣대를 마련할 수 있다.

도 1은 본 발명의 한 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치의 구성을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치의 구성을 세부적으로 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 개체 범위 학습 과정을 나타낸 순서도이다.
도 4는 본 발명의 실시예에 따른 개체 범위 인식 과정을 나타낸 순서도이다.
도 5는 본 발명의 실시예에 따른 개체 후보 문자열 내의 모든 개체 범위들을 중괄호로 표시한 예시를 나타낸 것이다.
도 6은 본 발명의 실시예에 따른 개체 범위 인식 과정을 설명하기 위한 것이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법에 대하여 상세히 설명한다.

여기서, 본 발명의 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치는 URI(Uniform Resource Identifier) spotting(탐지)를 수행한다. URI spotting은 텍스트에 있는 문자열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것으로서, 어느 문자열이 URI에 해당하는 개체인가를 인식한다.

이때, 디비피디아(DBpedia) URI를 대상으로 할 수 있다. 디비피디아는 위피키디아로부터 구조화된 데이터를 추출하여 Linked Data(RDF) 형식으로 저장한 지식 베이스로서, 링크드 데이터(Linked Data)에서 가장 핵심적인 데이터베이스이다.

URI 탐지는 개체명 인식과 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 문자열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다.

개체 범위 인식 장치는 LOD(linked open data) 속의 한국어 디비피디아 URI 탐지를 수행한다. 개체 범위 인식 장치는 품사 분석기를 이용하지 않고, 기계학습 기법인 서포트 벡터 머신(Support Vector Machine, 이하 'SVM'라 통칭함) 모델을 다량의 개체가 일부 태깅되어있는 문서, 즉, 코퍼스(corpus)와 소량의 개체 탐지 정답 문서를 이용하여 학습시킨 뒤 질의 텍스트에 적용함으로써 개체 탐지를 수행한다.

그러면, 이러한 개체 범위 인식 장치의 실시예를 도면을 참고하여 설명하면 다음과 같다.

먼저, 도 1은 본 발명의 한 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치의 구성을 개략적으로 나타낸 블록도이다.

도 1을 참조하면, 개체 범위 인식 장치는 입력부(100)와, 학습부(200) 및 적용부(300)로 구성되는 개체 범위 인식부와, 출력부(400)를 포함한다. 여기서, 개체 범위 인식 장치는 컴퓨팅 기반의 장치로 구현될 수 있다. 이러한 컴퓨팅 기반의 장치는 모바일 디바이스가 될 수도 있고, 서버 장치가 될 수도 있으나, 이에 국한되는 것은 아니다.

입력부(100)는 임의의 문서를 입력받는다. 상기 임의의 문서는 페이퍼로된 문서 또는 온라인 상으로 검색이나 판독 가능한 문서로서, 코퍼스 문서 뭉치, 정답 문서 뭉치 및 사용자 입력 텍스트를 포함한다.

개체 범위 인식부는 개체(Entity)에 해당하는 문자열의 목록이 주어졌을 때 텍스트에서 개체에 해당하는 개체 범위를 탐지하는 구성으로서, 학습부(200) 및 적용부(300)를 포함한다.

학습부(200)는 텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성한다. 여기서, 용례학습기반 알고리즘은 SVM 기반 방식의 여러 가지 커널을 이용하여 정답 집합 중 일부를 가지고 학습한 뒤, 학습된 모델을 가지고 개체 후보 문자열(Candidates)이 개체인지 판별하는 알고리즘이다.

학습부(200)는 질의 텍스트, 즉 사용자 입력 텍스트에 대한 개체 탐지를 수행하기 위한 전처리 단계를 수행한다. 학습부(200)는 품사 분석기를 이용하지 않고, SVM 모델을 다량의 개체가 일부 태깅되어있는 문서인 코퍼스(corpus) 문서 뭉치와 소량의 개체 탐지 정답 문서 뭉치를 이용하여 학습시킨다.

학습부(200)는 코퍼스 내의 개체 정보를 이용하여 개체 후보에 해당하는 모든 문자열을 추출하고 SVM 모델에 이용하기 위한 문자열별 자질값 계산을 수행한다. 이때, 코퍼스 문서 뭉치 내에는 텍스트 내 개체 중 일부가 태깅되어있다고 가정한다. 코퍼스 문서 뭉치는 예를 들면, 위키피디아 문서, 디비피디아 문서가 될 수 있다.

학습부(200)는 정답 문서 뭉치의 문자열별 자질값 및 개체 여부를 이용하여 SVM 모델을 학습한다. 이때, 한 번 수행한 뒤에는 SVM 모델과 같은 기계 학습 방법으로 문자열별 자질값, 그리고 개체 후보 문자열 사전을 저장하여 다시 수행할 필요가 없다.

적용부(300)는 전처리 뒤 사용자 입력 텍스트에 적용함으로써 개체 탐지를 수행한다. 적용부(300)는 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 개체 범위로 인식된 개체 목록을 출력한다. 적용부(300)는 개체 판별 알고리즘으로서, SVM 기반 개체 판별 알고리즘을 수행한다.

적용부(300)는 사용자 입력 텍스트에 대한 개체 탐지를 수행하는데, 개체 후보 문자열 사전을 이용하여 질의 텍스트 내의 개체 후보를 모두 찾는다. 이렇게 찾는 모든 개체 후보 문자열에 대한 자질값을 부여한 뒤, 전처리 단계에서 학습시킨 SVM 모델과 같은 기계학습법을 이용하여 개체 후보 중에서 탐지된 개체 목록을 도출한다.

출력부(400)는 적용부(300)가 도출한 개체 목록을 출력한다. 즉, 출력부(400)는 선택된 입력 문서가 나타내고자 하는 개체가 무엇인지 출력한다.

도 2는 본 발명의 다른 실시예에 따른 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치의 구성을 세부적으로 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 개체 범위 학습 과정을 나타낸 순서도이며, 도 4는 본 발명의 실시예에 따른 개체 범위 인식 과정을 나타낸 순서도이다.

도 2를 참조하면, 학습부(200)는 문자열 추출 모듈(201), 문자열 사전 DB(203), 자질값 계산 모듈(205), 자질값 DB(207), 모델 학습부(209) 및 학습 모델 DB(211)를 포함한다. 그리고 적용부(300)는 개체 후보 검출 모듈(301), 자질값 계산 모듈(303) 및 문자열 범위 인식 모듈(305)을 포함한다.

도 2 및 3를 참조하면, 문자열 추출 모듈(201)은 복수의 개체 중에서 일부 개체가 태깅되어 있는 코퍼스 문서 뭉치로부터 개체 후보 문자열들을 추출한다. 여기서, 코퍼스(corpus)는 말뭉치로서, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아놓은 언어 자료를 말한다.

문자열 추출 모듈(201)은 코퍼스 내의 개체 정보를 이용하여 개체 후보에 해당하는 모든 문자열을 추출한다(S101). 즉, 코퍼스 문서 뭉치 내에 태깅된 일부의 개체 데이터에 기반하여 개체 후보 문자열을 추출한다. 이 때, 코퍼스 문서 뭉치 내에서 한 번이라도, 즉 일회 이상 개체로 태깅된 적이 있는 모든 문자열을 모두 개체 후보 문자열로 추출한다.

여기서, 개체에 해당하는 문자열은 텍스트 내에서 그 자체로도 실존하거나 추상적인 특정 개체를 의미하는 문자열로, 텍스트 내의 개체를 탐지하면 탐지한 개체를 바탕으로 개체 연결(Entity Linking)을 수행하여 다른 정보와 연결할 수 있기 때문에 유용하다.

문자열 추출 모듈(201)은 추출한 개체 후보 문자열로 구성된 문자열 사전을 생성하고, 생성된 문자열 사전이 저장된 문자열 사전 DB(203)를 구축한다(S103).

문자열 사전 DB(203)는 개체 범위 인식의 범위인 문자열 사전을 저장한다.

여기서, 문자열 사전은 개체 후보 문자열로 구성된다. 문자열 사전(SurfaceDict)은 데이터 집합 내의 모든 링크의 문자열로 구성되고, 이 사전 내에 포함된 문자열만을 개체가 가질 수 있는 문자열의 범위로 제한한다.

문자열 사전은 수학식 1의 집합으로 정의될 수 있다.

여기서,

는 문서를 의미하고, Surfacexl는 데이터 집합 내

번째 문서의

번째 링크의 문자열을 의미하고, 이러한 문자열과 일치하는 모든 문자열 사전을

로 정의한다.

각 문서의 평문 Text_x에 있을 수 있는 모든 개체 범위의 집합, 즉, 개체 후보 문자열(Candidates_x)은 다음 수학식 2와 같이 정의할 수 있다.

여기서, start는 문서에서의 문자열의 시작 위치를 의미하고, end는 문서에서의 문자열의 끝 위치를 의미하며, Cxstart…Cxend는 xtart번째 문자부터 xend번째 문자까지로 이뤄진 문자열을 의미하며, SurfaceDict는 문서의 부분 문자열 중 수학식 1에서 정의한 문자열 사전 C에 포함된 모든 부분문자열의 집합을 의미한다.

수학식 2에 따라 Text_x에서 개체 범위 인식의 결과로 뽑힌 개체들은 개체 후보 문자열(Candidates_x)의 부분 집합이 되고, 또한 서로 위치상으로 겹치는 개체가 없어야 한다.

자질값 계산 모듈(205)은 문자열 사전 DB(203)에 저장된 문자열 사전을 구성하는 개체 후보 문자열 별로 자질값을 계산(S105)한다.

자질값 계산 모듈(205)은 코퍼스 문서 뭉치 내에 태깅된 일부의 개체 데이터에 기반하여 자질값을 계산한다. 이때, 자질값을 계산한 뒤, 정규화시킨다.

자질값 계산 모듈(205)은 SVM과 같은 기계학습방법에 이용하기 위한 문자열별 자질값 계산을 수행한 후, 자질값 DB를 구축한다(S107).

여기서, SVM 기반 알고리즘에서는 코퍼스 문서 뭉치 내 임의의 문자열(S)(또는 개체로 인식될 수 있는 범위의 문자열)과 상기 임의의 문자열(S)의 주변 단어들로 구성된 표 1과 같은 단어 기반의 자질들을 이용한다. 이러한 자질들은 단어 기반으로 품사 분석을 필요로 하지 않는다. 자질의 종류는 다음 표 1과 같다.

자질의 종류

S 자체

S의 접두(앞) 문자열 : S의 첫 단어와 같은 어절에 있는, S의 앞에 붙은 문자열

S의 접미(뒤) 문자열 : S의 마지막 단어와 같은 어절에 있는, S의 뒤에 붙은 문자열

S + S의 접두(앞) 문자열

S + S의 접미(뒤) 문자열

S + S의 바로 전 단어(어절)

S + S의 바로 후 단어(어절)

S의 길이

자질값 계산 모듈(205)은 표 1의 자질들을 이용해 자질값을 계산하기 위해 다음 수학식 3을 사용한다. 여기서, SVM에 이용하는 자질은 문자열일 수 없기 때문에 문자열과 상기 문자열 주변 문자들을 이용한 조건부 확률식을 자질로 사용한다. 두 함수 C(s)는 '임의의 문자열 S는 어떤 조건 C를 만족한다'와 E(s): '임의의 문자열(S)는 개체이다'를 정의하면, 다음 수학식 3과 같이 된다.

수학식 3은 SVM에 이용할 자질을 계산하는 이상적인 조건부 확률식은 조건 C를 만족하는 문자열이 개체일 확률이 된다. 즉, 자질값 계산 모듈(205)은 개체 후보 문자열(S)들이 개체에 해당하는지와, 상기 개체 후보 문자열(S)들이 상기 자질을 만족하는지를 이용한 조건부 확률 계산식(P)에 따라 상기 각각의 자질값을 계산한다.

이때, 정답 집합의 크기가 작은 경우, 수학식 3의 확률식을 이용하여 만든 자질은 매우 빈약(sparse)할 수밖에 없으므로, 이를 해결하기 위해, 전체 데이터 집합 내의 링크의 분포가 대략적으로 전체 개체의 분포와 비슷할 것이라는 가정을 세우고, 자질값 생성의 범위를 전체 데이터 집합으로 넓힐 수 있다.

Link(s): ‘임의의 문자열(S)는 데이터 집합에서 링크(Link)로 태깅 되어있다’라는 함수를 정의하여 자질값으로 수학식 3 대신 수학식 4를 사용할 수도 있다.

자질값 DB(211)는 자질값 계산 모듈(205)이 계산한 개체 후보 문자열 별 자질값을 저장한다.

모델 학습 모듈(209)은 온라인 백과사전 문서 내 모든 개체의 위치 및 URI(Uniform Resource Identifier) 정보를 가진 정답 집합으로 구성된 정답 문서 뭉치에 자질값 DB(211)에 저장된 자질값을 적용하여 정답 문서 뭉치 내 문자열들 별로 각각의 자질값을 획득한다. 그리고 각각의 자질값을 SVM 알고리즘으로 학습하여 학습 모델을 생성한다. 여기서, 온라인 백과사전은 위키피디아 문서 또는 디비피디아 문서를 포함한다.

모델 학습 모듈(209)은 자질값 DB(211)에 저장된 자질값을 정답 문서 뭉치에 적용하여 얻은 데이터로 SVM 모델을 학습시킨다(S109). 즉, 정답 문서 뭉치의 문자열별 자질값 및 개체 여부를 이용하여 SVM 모델을 학습하고, 학습 모델을 토대로 학습 모델 DB(215)를 구축한다(S111).

여기서, 모델 학습 모듈(209)은 다음 표 2와 같은 SVM 커널을 사용할 수 있다. 즉, 모든 SVM 알고리즘은 scikit-learn 프레임워크를 이용할 수 있다. 수동으로 정한 패러미터 외에는 모두 이 프레임워크에서 정한 기본값을 사용할 수 있다.

SVM-1: linear 커널, 두 클래스에 같은 무게

SVM-2: linear 커널, 두 클래스에 자동으로 무게 부여

SVM-3: 3-degree polynomial 커널, 두 클래스에 같은 무게

SVM-4: 3-degree polynomial 커널, 개체:non-개체 클래스에 3:1의 무게 부여

SVM-5: 3-degree polynomial 커널, 개체:non-개체 클래스에 6:1의 무게 부여

SVM-6: 3-degree polynomial 커널, 두 클래스에 자동으로 무게 부여

SVM-7: RBF 커널, 두 클래스에 같은 무게

SVM-8: RBF 커널, 두 클래스에 자동으로 무게 부여

모델 학습 모듈(209)은 학습을 한 번 수행한 뒤에는 SVM 모델과 같은 기계학습방법으로 문자열 별 자질값, 그리고 개체 후보 문자열 사전을 저장한다.

여기서, 정답 문서 뭉치는 위키피디아 문서 또는 디비피디아의 모든 개체의 위치와 URI에 대한 정보를 가진 정답 집합으로 구성된다. 이때, 데이터 집합 내의 모든 링크를 정답 집합의 일부로 인정할 수 있다. 정답 집합은 모두 한국어 위키피디아 또는 디비피디아의 문서에서 추출한 데이터로 이뤄져 있다.

이때, 정답 집합은 수동 어노테이션을 통해 생성될 수 있다. 수동 어노테이션은 데이터 집합에 포함된 위키피디아 문서 중 일부를 대상으로, MUC-7 Named Entity Task Definition의 가이드라인을 참조하여 문서의 개체에 해당하는 문자열의 위치 및 URI를 부여하는 방식으로 진행할 수 있다.

하나의 실시예로, 정답 집합은 3명의 첨삭자가 55개의 위키피디아 문서에 대한 어노테이션 작업을 수행함으로써 생성될 수 있다. 본문이 한 문장으로 이뤄져있거나 링크의 나열로 구성되어있는 등 형태가 특이한 문서들을 걸러내기 위해 어노테이션 대상 문서로 20~50 개의 문장으로 이뤄져있고 링크:문장 개수 비율이 0.5:1 에서 4:1 사이인 것만 사용하고, 첨삭된 55 개의 문서의 Candidates 합집합은 9,416 개의 개체와 90,221 개의 개체가 아닌 문자열로 이루어질 수 있다.

학습 모델 DB(215)는 모델 학습 모듈(209)이 생성한 SVM 모델을 저장한다.

다음, 도 2 및 도 4를 참조하면, 개체 후보 검출 모듈(303)은 사용자 입력 텍스트가 입력되면(S201), 문자열 사전 DB(203)에 저장된 개체 후보 문자열 사전을 이용하여 사용자 입력 텍스트 내에서 모든 개체 후보를 검출한다(S203).

자질값 계산 모듈(305)은 개체 후보 검출 모듈(303)이 검출한 모든 개체 후보에 대해 각 개체 후보의 문자열 별로 해당하는 각각의 자질값을 자질값 DB(207)에 저장된 자질값 중에서 부여한다(S205).

문자열 범위 인식 모듈(305)은 S205 단계에서 부여한 개체 후보의 자질값과 학습 모델을 이용하여 개체 후보 중에서 개체 목록을 탐지한다. 즉, S205 단계에서 부여한 모든 개체 후보 별로 해당하는 각각의 자질값과 학습 모델 DB(211)에 저장된 학습 모델 을 이용하여 S203 단계에서 검출한 개체 후보 중에서 개체 범위로 인식된 개체 목록을 추출한다(S207). 그리고 추출된 개체 목록은 출력부(400)를 통해 출력된다.

도 5는 본 발명의 실시예에 따른 개체 후보 문자열 내의 모든 개체 범위들을 중괄호로 표시한 예시를 나타낸 것이고, 도 6은 본 발명의 실시예에 따른 개체 범위 인식 과정을 설명하기 위한 것이다.

도 5는“고려 경종은 고려 제5대 황제이다.”의 개체 후보 문자열(Candidates) 내의 모든 개체 범위들을 중괄호로 표시한 예시이다. 이중 실체 개체의 개체 범위를 굵은 중괄호로 구별하였다.

도 6은 개체 범위 인식 과정을 나타낸다.

전체 개체 후보 문자열(Candidates) 집합으로 시작하여 개체라고 생각되는 범위들의 부분집합을 만든 뒤에 겹치는 범위 들 중 가장 긴 범위만 사용한다.

한국어에서는 1~2 문자로 나타낼 수 있는 개체의 수가 매우 많고, 여러 개의 품사를 붙여 쓰기로 쓸 수 있기 때문에 일반적으로 사용자 입력 텍스트 또는 질의 텍스트(Textx)의 모든 개체 범위의 집합인 개체 후보 문자열(Candidatesx)에는 도 5에서 보다시피 서로 위치상으로 겹치는 개체가 굉장히 많다.

정답 집합에서도 개체의 수보다 개체가 아닌 개체 범위의 수가 약 10 배 많은, 도 6과 비슷한 양상을 보인다. 이를 해결하기 위한 가장 간단한 해결책은 먼저 청킹(chunking)을 시행한 뒤, 각 문자열이 개체인지 아닌지 결정하는 것이다. 하지만 한국어에 접두사, 접미사, 합성명사 등이 많이 사용되기 때문에 청킹 과정 자체가 쉽지 않다. 이 연구에서 사용한 최신 한국어 품사태거를 이용한 청킹에 의해 데이터 집합 내 링크의 10% 이상이 품사와 링크의 범위가 일치하지 않아서 손실되었다는 결과가 이를 입증한다. 따라서, 청킹을 이용하지 않는 개체 범위 인식 과정을 이용하였다.

먼저, 개체 범위의 집합(Candidates) 내 모든 개체 범위에 대해 서로 다른 복수의 개체 판별 알고리즘 중 하나를 사용하여 개체 범위가 실제 개체의 범위인지 판별한다. 이렇게 추출한 '개체라고 생각되는' 개체 범위들의 부분 집합의 개체 범위들끼리 위치상으로 겹칠 수 있기 때문에, 이를 해소해야 한다. 디비피디아 개체는 거의 명사이기 때문에, 이 부분 집합 내 겹치는 개체 범위들은 대부분 한 개체 범위가 다른 개체 범위 속에 완전히 포함된 합성명사에 존재한다. 따라서, 서로 겹치는 개체 범위에 대해 항상 가장 긴 개체 범위만 사용하였다.

여기서, 개체 판별 알고리즘은 본 발명의 실시예에 따른 SVM 기반 알고리즘 외에 베이스라인 알고리즘, 어절 기반 알고리즘, 접두접미 기반 알고리즘, 품사 기반 알고리즘이 있다.

이때, 베이스라인 개체 판별의 베이스라인으로 개체 범위의 집합(Candidates) 내의 모든 개체 범위를 개체로 인정하는 방식을 사용하였다.

‘가’나 ‘도’같은 매우 흔한 문자열들도 개체 범위의 집합(Candidates)에 포함되어 있기 때문에(즉, 이와 같은 문자열을 가진 링크가 데이터 집합 내에 존재하기 때문에) 베이스라인의 precision은 굉장히 낮을 것이라고 예상할 수 있다.

어절 기반 DBpedia Spotlight에서 사용된 개체 범위 인식 과정을 재현한 방법으로, 개체 범위의 집합(Candidates) 내의 개체 범위 중 문자열의 바로 앞과 뒤 모두에 공백 또는 특수문자가 있는 개체 후보들만 개체로 인정하는 알고리즘이다.

접두·접미 기반 어절 기반 알고리즘의 확장으로, 개체 범위의 바로 뒤에 오는 단어들이 공백과 특수문자 외에도 데이터 집합 내의 링크 중 약95% 정도를 커버하는 27 가지의 한국어 문자열 중 하나와 일치하면 개체로 인정하는 알고리즘이다. 이 27 가지 문자열은 모두‘은’,‘는’,‘이다’등 명사구 뒤에 붙는 흔한 접미사들이지만, 이 알고리즘에서는 품사 분석을 하지 않고 단순히 문자열 매칭을 이용한다.

품사 기반 최신 한국어 품사태거를 이용하여 전체 문자열을 품사 단위로 쪼갠 뒤, 개체 범위의 집합(Candidates) 내의 개체 범위 중 개체 범위를 하나 이상의 완전한 품사로 나타낼 수 있고 모든 품사가 명사구(nc, np, nn, nb)나 명사 파생 접미사(xsn)인 개체 범위만 개체로 판별하는 알고리즘이다. 이 알고리즘의 기준으로는 데이터 집합의 완전한 품사들로 표현되는 링크 중 95 % 이상을 선택할 수 있다.

이상의 각 개체 판별 알고리즘을 이용한 개체 범위 인식의 성능을 측정하기 위해 CoNLL-2003 shared task에 나온 성능 측정 방식을 이용하였다. 정답 집합을 5개의 균등한 셋으로 쪼개어 5-fold cross-validation을 시행하였다.

표 3은 각 개체 판별 알고리즘의 개체 범위 인식 성능을 나타낸다.

알고리즘	Precision	Recall	F-score
베이스라인	21.03	92.85	34.28
어절 기반	50.55	35.54	41.69
접두·접미 기반	62.70	78.71	69.74
품사 기반	55.64	91.20	69.11
SVM-4	76.83	85.26	80.81

표 3의 결과에 따라 SVM 기반 개체 범위 인식의 성능이 전반적으로 베이스라인, 그리고 규칙 기반 개체 범위 인식보다 좋은 것을 알 수 있다. 특히, 서로 다른 규칙을 사용하는 접두·접미 기반 알고리즘과 품사 기반 알고리즘의 F-score가 비슷하나 SVM 기반 알고리즘의 F-score보다는 낮다.

따라서, 규칙 기반 알고리즘으로는 성능에 한계가 있으며, 이 한계를 SVM같은 기계학습 알고리즘을 통해 개선시킬 수 있다. 특히, SVM 기반 알고리즘의 recall이 품사 기반의 알고리즘과 큰 차이를 보이지 않는 점은 고무적인데, 현재의 한국어 품사태거의 품사 정보를 이용하여 감지할 수 있는 개체만큼을 문자 기준 자질만을 사용한 SVM으로도 충분히 감지할 수 있다는 것을 의미하기 때문이다.

SVM 기반 알고리즘 중에서는 SVM-4(3-degree polynomial 커널과 3:1의 무게 부여)의 성능이 가장 좋았으나, 다른 SVM 기반 알고리즘의 성능과 큰 차이는 보이지 않았다. 모든 범위를 다 개체로 인정한 베이스라인의 recall이 100%에서 큰 차이를 보이는 까닭은 명사구와 접두·접미사가 합쳐져 (문맥에 맞지 않는) 또 다른 개체의 문자열을 만드는 경우 때문이다. 예를 들어,‘일본’에 접미사‘도’가 합쳐져 ‘일본도’가 되는 경우에 베이스라인으로‘일본’이라는 개체를 인식하지 못한다.

전반적인 URI 탐지 과정에서 품사태거를 통해서 얻은 품사 정보가 품사태거를 URI 탐지 파이프라인에 추가할 만큼의 효과를 주지 않는다는 사실을 알 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성하는 학습부, 그리고
상기 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 상기 개체 범위로 인식된 개체 목록을 출력하는 적용부
를 포함하는 개체 범위 인식 장치.
제1항에 있어서,
상기 단어 기반 자질들은,
상기 텍스트 내 문자열 중 임의의 문자열 자체,
상기 임의의 문자열의 첫 단어와 같은 어절에 있고 상기 임의의 문자열의 앞에 붙은 접두 문자열,
상기 임의의 문자열의 마지막 단어와 같은 어절에 있고 상기 임의의 문자열의 뒤에 붙은 접미 문자열,
상기 임의의 문자열 및 상기 접두 문자열
상기 임의의 문자열 및 상기 접미 문자열,
상기 임의의 문자열 및 상기 임의의 문자열의 바로 앞 어절, 그리고
상기 임의의 문자열 및 상기 임의의 문자열의 바로 뒤 어절
을 포함하는 개체 범위 인식 장치.
제1항에 있어서,
상기 학습부는,
복수의 개체 중에서 일부 개체가 태깅되어 있는 코퍼스 문서 뭉치로부터 개체 후보 문자열들을 추출하는 추출 모듈,
상기 개체 후보 문자열들 별로 각각의 자질값을 계산하는 계산 모듈, 그리고
온라인 백과사전 문서 내 모든 개체의 위치 및 URI(Uniform Resource Identifier) 정보를 가진 정답 집합으로 구성된 정답 문서 뭉치에 상기 자질값을 적용하여 상기 정답 문서 뭉치 내 문자열들 별로 각각의 자질값을 획득하고, 상기 각각의 자질값을 기계 학습 알고리즘으로 학습하여 상기 학습 모델을 생성하는 학습 모듈
을 포함하는 개체 범위 인식 장치.
제3항에 있어서,
상기 추출 모듈은,
일회 이상 개체로 태깅된 적이 있는 모든 문자열을 개체 후보 문자열로 추출하는 개체 범위 인식 장치.
제3항에 있어서,
상기 학습 모듈은,
서포트 벡터 머신(SVM, Support Vector Machine) 모델로 학습하는 개체 범위 인식 장치.
제3항에 있어서,
상기 학습부는,
상기 개체 후보 문자열들로 구성된 문자열 사전을 저장하는 문자열 사전 DB,
상기 계산 모듈이 계산한 각각의 자질값을 저장하는 자질값 DB, 그리고
상기 학습 모델을 저장하는 학습 모델 DB를 더 포함하고,
상기 적용부는,
상기 문자열 사전을 이용하여 사용자 입력 텍스트 내에서 모든 개체 후보를 검출하는 검출 모듈,
상기 자질값 DB에 저장된 상기 각각의 자질값 중에서 상기 모든 개체 후보 별로 해당하는 각각의 자질값을 부여하는 자질값 계산 모듈, 그리고
상기 모든 개체 후보 별로 해당하는 각각의 자질값과 상기 학습 모델을 이용하여 개체 후보 중에서 개체 범위로 인식된 개체 목록을 추출하는 문자열 범위 인식 모듈
을 포함하는 개체 범위 인식 장치.
제6항에 있어서,
상기 각각의 자질값은, 하기 수학식을 통해 산출되는 개체 범위 인식 장치.

, 여기서, S는 문자열을 의미함
제6항에 있어서,
상기 코퍼스 문서 뭉치, 상기 정답 문서 뭉치 및 상기 사용자 입력 텍스트를 입력받기 위한 입력부, 그리고
상기 개체 목록을 출력하는 출력부
를 더 포함하는 개체 범위 인식 장치.
컴퓨팅 기반의 개체 범위 인식 장치가 텍스트 내 문자열 및 상기 문자열의 주변 단어들로 구성된 하나 이상의 단어 기반 자질들을 이용한 용례학습기반 알고리즘을 통해 학습 모델을 생성하는 단계, 그리고
상기 학습 모델을 이용하여 사용자 입력 텍스트 내에서 개체 범위를 인식하고, 상기 개체 범위로 인식된 개체 목록을 출력하는 단계
를 포함하는 개체 범위 인식 방법.
제9항에 있어서,
상기 생성하는 단계는,
복수의 개체 중에서 일부 개체가 태깅되어 있는 코퍼스 문서 뭉치로부터 개체 후보 문자열들을 추출하는 단계,
상기 개체 후보 문자열들 별로 각각의 자질값을 계산하여 저장하는 단계, 그리고
온라인 백과사전 문서 내 모든 개체의 위치 및 URI(Uniform Resource Identifier) 정보를 가진 정답 집합으로 구성된 정답 문서 뭉치에 상기 자질값을 적용하여 상기 정답 문서 뭉치 내 문자열들 별로 각각의 자질값을 획득하고, 상기 각각의 자질값을 서포트 벡터 머신(SVM, Support Vector Machine) 모델로 학습하여 상기 학습 모델을 생성하는 단계
를 포함하는 개체 범위 인식 방법.
제10항에 있어서,
상기 저장하는 단계는,
상기 개체 후보 문자열들이 개체에 해당하는지와, 상기 개체 후보 문자열들이 상기 자질을 만족하는지를 이용한 조건부 확률 계산식에 따라 상기 각각의 자질값을 계산하여 저장하는 개체 범위 인식 방법.
제10항에 있어서,
상기 추출하는 단계는,
일회 이상 개체로 태깅된 적이 있는 모든 문자열을 개체 후보 문자열로 추출하는 단계, 그리고
상기 개체 후보 문자열로 구성된 문자열 사전을 생성하여 저장하는 단계
를 포함하는 개체 범위 인식 방법.
제12항에 있어서,
상기 출력하는 단계는,
사용자 입력 테스트를 입력받는 단계,
상기 문자열 사전을 이용하여 상기 사용자 입력 텍스트 내에서 모든 개체 후보를 검출하는 단계,
상기 개체 후보 단여열들에 부여된 각각의 자질값을 이용하여 상기 모든 개체 후보 별로 해당하는 각각의 자질값을 부여하는 단계, 그리고
상기 모든 개체 후보 별로 부여된 해당하는 각각의 자질값과 상기 학습 모델을 이용하여 상기 모든 개체 후보 중에서 개체 범위로 인식된 개체 목록을 추출하는 단계
를 포함하는 개체 범위 인식 방법.