KR20180044800A

KR20180044800A - 개체명 인식 모델 생성 장치 및 방법

Info

Publication number: KR20180044800A
Application number: KR1020170121377A
Authority: KR
Inventors: 강상우
Original assignee: 가천대학교 산학협력단
Priority date: 2016-10-24
Filing date: 2017-09-20
Publication date: 2018-05-03
Also published as: KR101897060B1

Abstract

본 기술은 개체명 인식 모델 생성 장치 및 방법에 관한 것으로서, 제1 학습코퍼스 입력부, 제2 학습코퍼스 입력부, 제3학습코퍼스 입력부 및 개체명 인식 모델 생성부를 포함하여 두 개체를 포함한 문장간 거리(D)를 기준으로 신뢰도를 튜닝하여 심층학습을 유도한다.

Description

개체명 인식 모델 생성 장치 및 방법{ Named Entity Recognition Model Generation Device and Method }

본 발명은 프리베이스 기반 신뢰도 차등적용을 통한 심층학습을 특징으로 하는 개체명 인식모델 생성에 관한 기술이다.

개체명은 인명, 기관명, 지명 등과 같이 고유명사나 일반적인 사전에 등록되지 않은 단어를 의미한다. 비정형화된 텍스트에서 보안 목적의 정보를 추출하는 과정 등에서 개체명을 인식하는 것은 필수적이다. 여기서 정보 추출은 비정형적인 문장으로부터 유용한 정보를 추출하는 자연어 처리(Natural Language Processing) 및 텍스트 마이닝(Text Mining)분야의 주요 연구 대상이고, 개체명 인식은 미리 정의된 개체 종류 별로 텍스트의 요소를 분류하는 것을 의미한다. 이러한 정보 추출 과정에서의 개체명 인식 작업은 문서 내에 존재하는 다양한 개체명의 부류를 인식하는 작업 그 자체가중요한 의미가 있을 뿐만 아니라, 관계 추출 및 대용어 참조 해소와 같은 상위 작업에 있어서도 중요하다.

개체명 인식을 위한 학습 코퍼스 생성 방법으로 다양한 기계 학습 방법이 연구되고 있으며, 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식모델을 생성한다. 생성된 개체명 인식 모델에 새로운 데이터가 입력되면 모델은 개체명 태그가 부착된 결과를 내놓게 된다. 이러한 지도 학습법(Supervised Learning)은 사람이 태깅(Tagging) 작업을 직접 수행하는 과정이 필요하다.

최근에는 지도 학습을 위해 소비되는 비용을 최소화하기 위한 준지도 학습(Semi-Supervised Learning)기법에 대한 연구가 진행되고 있다. 일반적인 준지도 학습 기법은 태깅된 소량의 초기 데이터를 사용하여 다량의 학습 코퍼스를 추출해내는 방법이다. 하지만 이러한 준지도 학습 방법은 여전히 초기 데이터에 표지를 수작업으로 부착해야 하는 번거로움이 따르며, 양질의 초기 데이터를 선택하기 위한 추가적인 작업이 불가피하다.

상술한 바와 같이 개체명 인식을 위한 초기의 지도 학습 방법은 사람이 수작업으로 만든 규칙(rule)을 기반으로 하였으나 이후에는 자동적으로 규칙을 생성하는 규칙 기반 시스템 또는 시퀀스 레이블링(Sequence Labeling) 알고리즘 등을 이용한 방법으로 발전하였다. 개체명 인식에 효과적으로 사용된 시퀀스 레이블링 알고리즘으로는 초기 지도 학습인 은닉 마르코프 모델(Hidden Markov Model) 외에도 최근 영향력 있는 기계 학습 기법으로 결정 트리(Decision Tree), 최대 엔트로피 모델(Maximum EntropyModel), 지지 벡터 머신(Support Vector Machine), Conditional Random Fields(CRFs) 등이 있다. 위와 같은 모델들은 개체명 태그가 부착된 다량의 학습코퍼스, 개체명 사전과 함께 중의적인 태그 문제를 해결할 수 있는 규칙들이 필요하다. 다시 말해 종래의 지도 학습 내지 일반적인 준지도 학습을 이용한 태깅 방법은 다량의 학습 코퍼스를 수작업으로 구축하여야 하고 새로운 언어 현상, 개체명 등을 반영하기 위해 지속적인 추가 작업을 필요로 하기 때문에 고비용의 구조를 갖는 한계가 있다.

이에 본 출원인은 지식 베이스를 활용한 자동 태깅을 이용해 저비용으로 학습 코퍼스를 구축하되, 신뢰도를 차등 적용한 확장된 코퍼스를 생성하여 신뢰도 순으로 튜닝하여 하여 심층학습을 가능하게 하는 개체명 인식 모델을 생성하는 장치 및 방법을 고안하게 되었다.

1. 한국 공개특허 2015-0050140 (코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치)

1. Asahara, M., & Matsumoto, Y. (2003). Japanese named entity extraction with redundantmorphological analysis. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 8-15. 2. Bikel, D. M., Miller, S., Schwartz, R., & Weischedel, R. (1997). Nymble: a highperformance learning name-finder. Proceedings of the fifth conference on Applied natural language processing, 194-201. 3. Blum, A. (2015). Semi-supervised Learning. Springer, 1-7.

본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 다른 특성의 지식 베이스들을 이용하여 자동으로 생성된 학습 코퍼스를 이용하여 학습된 개체명 인식 모델을 생성함으로써 수동 태깅의 비용을 줄이고, 학습코퍼스에 신뢰도를 부가하여 신뢰도 순으로 튜닝할 수 있는 개체명 인식 모델 생성 장치 및 방법을 제공한다.

본 발명은 개체명 인식 모델 생성 장치에 있어서, 편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제1 학습코퍼스를 입력받는 제1 학습코퍼스 입력부; 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력받는 제2 학습코퍼스 입력부; 상기 제1 및 제2 학습코퍼스를 기반으로 하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성하는 개체명 인식 모델 생성부를 포함하는 것을 특징으로 하는 개체명 인식 모델 생성 장치를 제공한다.

본 발명의 일 특징에 따르면, 수동 태깅에 따라 생성된 제3 학습코퍼스를 입력받는 제3 학습코퍼스 입력부를 더 포함하고, 상기 개체명 인식 모델 생성부는, 상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성할 수 있다.

상기 제2 학습코퍼스 입력부는 제2 지식베이스의 관계정보 중 직접 연결된 관계를 사용한다.

본 발명의 다른 특징에 의하면, 개체명 인식 모델 생성 방법에 있어서, 편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제1 학습코퍼스를 입력받는 단계; 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력받는 단계; 상기 제1 및 제2 학습코퍼스를 기반으로 하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 모델 생성 방법을 제공한다.

본 발명의 일 특징에 따르면, 수동 태깅에 따라 생성된 제3 학습코퍼스를 입력받는 단계를 더 포함하고, 상기 개체명 인식 모델을 생성하는 단계는, 상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성하는 것을 특징으로 하는 개체명 인식 모델 생성 방법을 제공한다.

상기 제2 학습코퍼스를 입력받는 단계는 제2 지식베이스의 관계정보 중 직접 연결된 관계를 사용한다.

본 발명에 따르면, 특성을 달리하는 지식 베이스들을 이용하여 자동으로 생성된 학습 코퍼스를 이용하여 학습된 개체명 인식 모델을 생성함으로써 수동 태깅으로 인한 비용을 줄이고, 여러 종류의 지식 베이스를 이용하여 생성된 학습 코퍼스를 이용하여 생성된 개체명 인식 모델을 통해 개체명을 인식함으로써 새로운 언어 현상 등을 반영할 수 있어 기계 학습에 의한 개체명 인식 모델의 정확도와 재현율을 높일 수 있다.

개체명 인식 모델에서 성능하락에 가장 큰 요인은 학습데이터에서 출현하지 않은 개체명(out of vocaburary) 문제와 관련하여, 본 발명에 따라 다수의 문장으로 확장되어 자동태깅된 문장들은 수동태깅 문장에서 출현하지 않는 개체명을 포함하는 문장이 다수 포함되어있기 때문에 이 문서들을 학습하는 것으로 출현하지 않은 개체명(out of vocaburary) 문제는 크게 완화될 수 있다.

또한, 두 개체가 포함된 문장에서 문장간 거리(D)를 기준으로 신뢰도를 차등 적용하여 오류가 많을 것으로 예상되는 것부터 시작하여 점차 오류가 적을 것으로 예상되는 문장을 학습시키는 과정에서 오류가 적은 문장들로 수렴하는 심층학습이 가능한 장점이 있다.

도 1은 본 발명의 일 실시예에서 이용되는 지식베이스를 기반으로 하는 개체명 인식 코퍼스의 생성 구조를 나타내는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 개체명 인식 모델 생성 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따라 이용되는 지식베이스를 기반으로 하는 학습 코퍼스의 생성 예를 나타내는 개념도이다.
도 4는 본 발명의 제2학습코퍼스 입력부의 처리과정을 나타낸 개념도이다.
도 5는 도 4의 방법을 실제 문장에 적용하여 문장간 거리(D)를 구하는 실시예이다.
도 6은 본 발명의 다른 실시예에 따른 개체명 인식 모델 생성 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

개체명 태깅은 사람의 수작업을 통한 태깅이나 소량의 태깅된 데이터로부터 태깅되지 않은 데이터를 자동 태깅시키는 부트스트래핑(Bootstrapping) 태깅 방법 또는 지식베이스(Knowledge Base)를 기반으로 하는 태깅 방법을 이용한다. 이로부터 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식모델을 생성한다. 생성된 개체명 인식 모델에 새로운 데이터가 입력되면 모델은 개체명 태그가 부착된 결과를 내놓게 된다.

본 발명은 특성이 다른 지식베이스들을 활용하여 생성된 학습 코퍼스를 얻고, 이를 이용하여 자동 태깅에 의하면서도 수동 태깅에 근접한 정확도를 얻을 수 있는 개체명 인식모델을 생성한다.

도 1은 본 발명의 일 실시예에서 이용되는 지식베이스를 기반으로 하는 개체명 인식 코퍼스의 생성 구조를 나타내는 개념도이다.

개체명 인식 코퍼스는 학습 코퍼스로서 본 발명의 개체명 인식 모델 생성 장치에 입력될 수 있다.

도 2는 본 발명의 일 실시예에 따른 개체명 인식 모델 생성 장치의 블록도를 도시한다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 개체명 인식 모델 생성 장치는 제1 학습코퍼스 입력부(100), 제2 학습코퍼스 입력부(200), 개체명 인식 모델 생성부(400)를 포함한다. 또한, 제3 학습코퍼스 입력부(300)를 더 포함할 수 있다.

제1 학습코퍼스 입력부(100)는 편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제1 학습코퍼스를 입력 받는다.

일 실시예에서 제1 학습코퍼스 입력부(100)는 제1 지식베이스로 위키피디아(Wikipedia)를 기반으로 하여 생성된 제1 학습코퍼스를 입력받는 것일 수 있다.

규칙 기반 자동 태깅은 구축된 개체명 컨셉 사전을 규칙으로 이용하여 제1 지식베이스의 모든 문장들에 대하여 태깅 작업을 자동으로 수행하는 것이다.

규칙 기반 자동 태깅을 위하여 제1 지식베이스에 포함된 모든 텍스트를 추출하는 문장 추출기를 이용한다. 이러한 과정에서 텍스트 이외의 그림, 표 등의 정보는 제거하도록 한다. 모든 텍스트를 추출한 후에는 텍스트를 문장 단위로 분할하기 위한 파서를 이용한다.

개체명 컨셉 사전은 제1 지식베이스에 포함된 지식 정보의 분류 정보를 이용한다. 분류 정보는 해당 페이지를 나타내는 특징을 표현하는 주요 단어들로 이루어지며 개체명 종류에 따른 분류 규칙을 구성한다.

예를 들면, 지식베이스인 위키피디아의 문장들에는 다른 페이지 엔트리로 연결되는 링크가 존재한다. 이를 이용하여 링크된 부분을 개체명 컨셉 사전과 비교하여 인명(PER), 기관명(ORG), 지명(LOC)과 일치하는 경우 태깅한다.

위키피디아 본문의 모든 문장 추출은 Evan Jones의 Extracting Text from Wildpedia(wikipedia2text)를 이용한다. XML 형태의 파일의 위키피디아의 페이지에는 텍스트 이외의 그림, 표 등의 정보가 포함되어 있으므로 wikipedia2text는 모든 페이지로부터 텍스트 이외의 정보를 제거한 데이터를 추출한다.

추출 후에는 텍스트를 문장 단위로 분할하기 위해 WikiXMLSAXParser(Wikipedia XML SAX Parser, https://code.google.com/p/wikixmlj/)를 이용한다.

위키피디아 컨셉 사전은 각 페이지 엔트리 하단에 포함된 분류 정보를 이용한다. 분류 정보 내에는 해당 페이지를 나타내는 특징을 표현하는 주요 단어들로 이루어져 있다. 표 1은 본 발명에서 구축한 개체명 컨셉 사전의 개체명 종류와 각 개체명에 따른 분류 규칙을 보여준다.

표 1

제2 학습코퍼스 입력부(200)는 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스를 기반으로 관계 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력 받는다.

관계 기반 자동 태깅은 개체 사이의 의미 관계에 따라 태깅 작업을 자동으로 수행하는 것이다.

관계 기반 자동 태깅은 개체 사이의 의미 관계를 파악하기 위하여는 거리 통제 방법을 사용할 수 있다. 거리 통제는 사전에 구축된 지식베이스의 정보들을 참조하여 훈련 데이터 셋에 대한 정답을 자동으로 태깅하여 학습을 진행하는 방법이다. 이러한 방식을 이용하여 지도 학습에서의 단점인 훈련된 사람이 수작업으로 태깅해야 하는 비용 및 시간을 절약할 수 있다.

거리 통제는 다양한 자연어처리 분야에 응용할 수 있으며 특히 관계 추출 코퍼스 생성 분야에서 뛰어난 성능을 보여준다. 거리 통제를 이용한 관계 추출 코퍼스 생성 기법은 지식베이스를 활용한다. 예를 들어 <Microsoft,Organizations founded, Bill Gates>라는 트리플이 지식베이스에 있다고 가정 한다면 수집된 문장에서 Microsoft와 Bill Gates가 함께 포함된 문장들은 모두 Organizations founded 관계로 가정하여 태깅을 수행한다.

일 실시예에서 상기 제2 지식베이스는 프리베이스를 이용할 수 있는바, 프리베이스는 위키피디아, NNDB(Notable Names Database)를 비롯한 다양한 자원으로부터 수집한 데이터를 정리한 지식베이스이다.

각 엔트리는 어떤 두 개체와 그 사이의 관계를 표시하고 있다. 예를 들어 <Petrus Bertius, Place of birth, Beberan> 엔트리에서 두 개체 Petrus Bertius와 Beberan은 Place of birth의 관계를 갖는다는 의미이고, 각 개체는 Person/Person의 타입으로 표시된다.

프리베이스는 인명, 기관명, 지명뿐만 아니라 영화명, 음악명 등 다양한 개체들 간의 관계가 수집되는 지식베이스이며 2015년 6월 기준으로 약 29억개의 개체로 구성되어 있다.

본 발명의 일 실시예에서는 먼저 프리베이스의 관계에서 인명(PER), 기관명(ORG), 지명(LOC)의 개체를 포함하고 있는 관계들 중 각 개체 별로 인스턴스를 많이 보유하고 있는 상위 N개의 관계를 선택한다. 상위 N개의 관계를 추출하기 위해 프리베이스 이지(Freebase Easy)3)를 사용하며 프리베이스 이지의 Query를 인스턴스 타입 즉 개체명 타입으로 입력하면 입력한 타입이 포함된 관계들을 결과로 얻을 수 있다. 예를 들어 프리베이스 이지에 Query를 Person으로 입력하면 인명(PER) 타입을 포함하고 있는 관계를 인스턴스가 많은 순으로 정렬해서 보여준다. Person의 경우 Gender 관계 1,976,747개, Date of birth 관계 1,274,974개, Profession 관계 999,587개 Place of birth 관계 885,071개, Country of nationality 관계 775,486개의 인스턴스를 보유하고 있으므로 인명(PER) 타입을 포함한 상위 5개의 관계임을 알 수 있다. 프리베이스의 관계에서 상위 N개의 관계를 추출한 후 각 관계에 있는 인스턴스가 포함 되어있는 문장을 웹(Web)4)으로부터 수집한 후 프리베이스에 정의된 개체 타입으로 태깅한다. 예를 들어 웹에서“Micorosoft is located in Redmond WA ...” 라는 문장이 추출되었고 상위 N개의 관계중 /Microsoft%ORG/-locate-/Redmond WA%LOC/ 관계가 포함되어 있다면 Microsoft와 Redmond WA는 locate 관계를 가질 확률이 높기 때문에 각각 ORG와 LOC으로 태깅한다.

한편, 제1 학습코퍼스와 제2 학습코퍼스는 각각의 파일 형태로 생성되거나 하나의 파일 형태로 합쳐져서 생성될 수도 있다. 제3 학습코퍼스에 있어서도 마찬가지이다. 위와 같은 제1 학습코퍼스 및 제3 학습코퍼스는 기존에 생성된 것일 수 있고, 제1 학습코퍼스 입력부(100) 및 제2 학습코퍼스 입력부(200)에 입력하기 위하여 지식베이스에 인터넷으로 연결된 정보처리장치를 이용하여 필요에 따라 생성되는 것일 수도 있다. 제3 학습코퍼스에 있어서도 마찬가지이다.

도 3은 본 발명의 일 실시예에 따라 이용되는 위키피디아와 프리베이스를 지식베이스 기반으로 하는 학습 코퍼스의 생성 예를 나타내는 개념도이다.

편집자들이 직접 태깅을 하는 제1 지식베이스인 위키피디아를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 제1 학습코퍼스를 생성하는 것과 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스인 프리베이스를 기반으로 관계 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 제2 학습코퍼스를 생성하는 것을 비교하면 다음과 같은 장단점이 있다.

위키피디아를 기반으로 하는 수단은 편집자들이 직접 태깅을 하였기 때문에 비교적 정확한 성능을 보장한다. 반면 대부분 정형화된 문장들로 이루어져 있기 때문에 다양한 문장 형태를 추출하기 어렵다.

프리베이스를 기반으로 하는 수단의 경우 거리 통제의 가정을 이용한 것이기 때문에 상대적으로 오류가 발생할 확률은 높지만 다양한 형태의 문장을 수집할 수 있다는 장점이 있다.

따라서 본 발명은 두 수단을 상호 보완하도록 제1 학습코퍼스 입력부(100)가 제1 학습코퍼스를, 제2 학습코퍼스 입력부(200)가 제2 학습코퍼스를 입력받도록 하고, 입력된 학습코퍼스들을 이용하여 개체명 인식 모델 생성부(400)가 정확도 높은 개체명 인식 모델을 생성할 수 있도록 한다.

도 4는 제2 학습코퍼스 입력부(200)의 자동태깅방법을 개념화한 도면으로서, 도 5는 도 4의 방법에 의해 문장간 거리(D)를 구하는 실시예이다.

종래의 문장 대상 자동 태깅은 생성된 코퍼스의 양이 적기 때문에 심층학습 기반 개체명 인식 모델의 학습에 적합하지 않은 문제가 있고, 개체명 인식 모델에서 성능하락에 가장 큰 요인은 학습데이터에서 출현하지 않은 개체명(out of vocaburary) 문제를 대응하기 어려웠다.

본 발명에 따른 제2학습 토퍼스 입력부(200)는 freebase의 관계정보를 이용하여 관계가 있는 두 개체가 동시에 출현한 문장의 개체를 자동 태깅하되, 단일 문장에 국한하지 않고 여러 문장 단위로 적용 대상을 확장하여 더욱 다양한 수준의 코퍼스를 생성한다.

프리베이스(freebase)의 관계정보 중 직접 연결된 관계(예제의 Bill Gates와 Microsoft)를 사용하여 문장 대상 자동 태깅을 진행한다.

문장에 대한 태깅은 두 개체(엔티티)가 포함된 문장 간의 거리(문장의 수를 의미, D)를 기준으로 신뢰도를 구분하여 제공되는바, 관계 적용 범위가 넓어지면 신뢰도는 하락하기 때문에 D의 값이 낮을수록 신뢰도는 높으며, 생성된 개체명 인식 코퍼스는 심층학습 기반 개체명 인식 모델의 학습데이터로 활용하는데 적합하다.

학습 과정에서 신뢰도의 등급에 따라 신뢰도가 낮은(D값이 높은) 문장부터 신경망(neural network) 모델을 학습하여 신뢰도가 높은 문장을 학습을 수행한다.

예를 들어 max=3 인경우 (D=4 코퍼스)->(D=3 코퍼스)->(D=2 코퍼스)->(D=0 코퍼스)의 순서로 튜닝하여 높은 성능을 기대할 수 있다.

이와 같이, 본 발명에 따른 제2 학습코퍼스 입력부는 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력받는 특징이 있다.

개체명 인식 모델 생성부(400)는 상기 제1 및 제2 학습코퍼스를 기반으로 하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성한다.

한편, 제1 학습코퍼스 입력부(100) 및 제2 학습코퍼스 입력부(200)는 엄격히 하드웨어적으로나 소프트웨어적으로 구분되는 구성을 취하여야 하는 것은 아니며, 개체명 인식 모델 생성 장치(10)가 특성이 다른 지식베이스에 기반한 학습 코퍼스를 입력받는다는 측면에서 구분되는 구성이다. 이는 제3 학습코퍼스 입력부(300)에 있어서도 마찬가지이다.

또한, 본 발명은 사용자에 의한 수동 태깅을 이용하여 제3 학습코퍼스를 생성하는 제3 학습코퍼스 입력부(300)를 더 포함할 수 있다.

이 경우, 개체명 인식 모델 생성부(400)는, 상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성하여 심층학습을 유도한다.

즉, max=3 인경우 (D=4 코퍼스)->(D=3 코퍼스)->(D=2 코퍼스)->(D=0 코퍼스)->(수동 태깅 코퍼스)의 순서로 튜닝하여 높은 성능을 기대할 수 있다.

딥 뉴럴 네트워크 모델의 학습은 주어진 데이터를 잘 분석하도록 학습을 진행하게 된다. 본 발명에 따라 자동 태깅된 문장은 상당수의 오류를 포함하기 때문에 개체명 인식 모델을 이 문장들을 잘 분석하도록 학습하면 성능의 하락을 가져오게 된다. 따라서 오류가 많을 것으로 예상되는 것부터 시작하여 점차 오류가 적을것으로 예상되는 문장을 학습시키면 오류가 적은 문장들에 맞추어지기 때문에 더 높은 성능을 제공할 수 있는 것이다.

즉, 본 발명에 따라 자동태깅된 문장들은 수동태깅 문장에서 출현하지 않는 개체명을 포함하는 문장이 다수 포함되어있기 때문에 이 문서들을 학습하는 것으로 출현하지 않은 개체명(out of vocaburary) 문제를 크게 완화할 수 있다.

또한 일 실시예에서 개체명 인식 모델 생성부(400)는 입력 데이터 열의 조건부 확률 값을 계산하는 비방향성 그래프 모델인 CRFs(Conditional Random Fields)를 이용하여 개체명 인식 모델을 생성하는 것일 수 있다.

CRFs는 입력 데이터 열의 조건부 확률 값을 계산하기 위한 비방향성 그래프 모델이다. CRFs 모델은 은닉 마르코프 모델의 단점인 독립 가정을 해결하여 다양한 특징(feature)을 사용할 수 있으며 최대 엔트로피 마르코프모델(Maximum Entropy Markov Model)의 단점인 레이블 편향 문제를 완화할 수 있다.

를 입력 데이터 열에 대한 확률 변수라고 하고,

를 입력 데이터 열에 대응하는 표지 열의 확률 변수라고 하면 매개변수

를 갖는 선형 체인 구조의 CRFs는 다음과 같은 조건부 확률로 정의된다.

수학식 1

여기서 Z(x)는 입력 데이터 열에 대한 표지 열의 확률 값의 합이 1이 되도록 하는 정규화 상수이다.

는 전이 특징 함수(transition feature function)이며,

는 상태 특징 함수(state feature function)이다.

와

는 각 특징 함수에 대한 가중치로서 태깅이 된 학습용 데이터로부터 구할 수 있다. 매개변수

는 MLE(Maximum Likelihood Estimation)를 사용하여 구하는데, 다른 알고리즘 보다 수렴 속도가 빠른 BFGS(Broyden Fletcher Goldfarb Shanno)알고리즘이 사용된다. 학습 코퍼스로부터 매개변수

를 구하고 나면, 주어진 입력 데이터 열 x에 대하여 가장 가능성이 높은 열

은 다음 수학식 2에 따라 구할 수 있으며

는 동적 프로그래밍 기법인 Viterbi 알고리즘에 의해 계산된다.

수학식 2

본 발명에서 사용한 특징은 다음과 같다.

단어 특징 : ( i-2, i-1, i, i+1, i+2 ) 위치에 해당하는 단어 정보

품사 특징 : ( i-2, i-1, i, i+1, i+2 ) 위치에 해당하는 품사 정보

접두사/접미사 특징 : (i)위치에 해당하는 단어의 접미사/접두사 N-gram, 여기서 N은 3이 사용된다. 예를 들어 “Young” 라는 단어에 대해 “<Y”, “<Yo”, “<You”, “ung>”, “ng>”, “g>”와 같은 특징들을 추출한다.

단어 패턴 특징 : (i)위치에 해당하는 단어의 문자열 패턴. 패턴은 대문자(X), 소문자(x), 특수문자(-), 숫자(#)를 사용한다. 예를 들어 “Peir-39”라는 단어에 대해 “Xxxx-##)”와 같은 특징을 추출한다.

본 발명의 실시예에 따라 생성되는 개체명 인식 모델에 대한 성능을 비교 평가한 예는 다음과 같다.

ontoNotes는 Linguistic Data Consortium 에서 제공하는 수동 태깅 기반 코퍼스이다.

실험 데이터는 ontoNotes에서 제공하는 태깅된 데이터 약 1M개의 문장과 위키피디아 기반 방법으로 태깅한 약 1M개 문장 그리고 프리베이스 기반 방법으로부터 태깅한 약 6k 문장이다. 개체명 인식을 위한 모델은 ontoNotes 데이터로만 학습시킨 ontoNotes 모델, 위키피디아로부터 추출한 문장으로 학습시킨 Wikipedia 모델, 웹으로부터 추출한 문장들로 학습시킨 프리베이스 모델, 세가지 영역의 학습 코퍼스의 모두 학습시킨 All 모델들로 총 4개의 개체명 인식 모델을 생성하였다. 이때 코퍼스 중 각 영역 별로 200문장씩, 총 600문장을 추출하여 수동 태깅 후 테스트 문장으로 사용하였다. 추출된 600개의 테스트 문장 중 특히 웹에서 추출한 200문장은 기존의 개체명 인식 코퍼스에 비해 새로운 언어현상, 새로운 개체명들이 포함되기 때문에 제안하는 모델의 장점을 측정하는데 효과적이다.

표 2는 학습 코퍼스가 기반하는 지식베이스에 따른 개체명 태깅 성능을 보여준다.

표 2

본 발명에 따른 학습코퍼스로 학습한 모델들은 재현율(Recall)은 다소 낮았으나 평균적으로 약 94% 이상의 높은 정확률(Precision)을 보였다. 이러한 현상은 제안하는 방법의 특성에서 기인하는 것이라고 할 수 있다.

위키피디아 기반 방법의 경우 문서의 링크들이 비교적 정확하게 태깅 되어 있어 정확률이 높은 경향을 보였지만 편집자들이 모든 개체명에 대해 태깅을 하지 않는다는 점이 재현율을 낮추는 원인이 되었다. 프리베이스 기반의 방법은 프리베이스의 관계있는 두 개체가 동시에 나타난다면 높은 확률로 해당 개체명이라고 할 수 있으나 개체명이 한 개만 출현한 경우 또는 서로 관계가 없는 개체명들이 출현한 경우는 태깅하지 못하는 점이 재현율을 낮추는 원인이 되었다. 두 문제점을 비교하면 위키피디아 기반의 방법은 문서의 질에 대한 문제이고 프리베이스 기반의 방법은 방법론의 한계라고 할 수 있다.

표 3은 실제 개체명 인식 모델에 각 코퍼스를 적용한 후 측정한 성능이다.

표 3

또한 표 4는 테스트 문장 중 한 문장의 모든 개체명을 정확하게 맞춘 수의 비율이다.

표 4

개체명 인식 모델의 ontoNotes 코퍼스의 경우 사람이 직접 태깅한 학습 코퍼스로 내부 데이터로만 성능을 평가한 경우 모든 개체 분류에서 90%이상의 성능을 보였다. 하지만 위키피디아와 웹으로부터 추출한 문장들과 함께 테스트한 결과 성능이 현저히 떨어짐을 볼 수 있다. 이러한 현상의 원인은 기존의 수동으로 구축된 코퍼스가 새로운 언어현상을 반영하지 못하는 것으로 분석된다. 또한, 새로운 개체명들도 성능하락에 크게 작용한 것을 알 수 있다. 즉 높은 성능의 개체명 인식모델을 유지하기 위해서는 계속해서 발생되는 문장들을 태깅하는 작업을 필요로 한다. 위키피디아 모델의 경우 ontoNotes모델과 비교해서 매우 높은 정확률을 보여주었지만 상대적으로 낮은 재현율을 나타내고 있다. 이것은 앞서 <표 2>에서 언급한 개체명 태깅 방식의 낮은 재현율이 반영된 것으로 설명할 수 있다. 프리베이스 모델의 경우 위키피디아 모델과 유사한 경향을 보였지만 전체적으로 성능이더 낮은 결과를 보였다. 이러한 현상은 추출된 문장의 수가 더 적다는 점(위키피디아-1백만 문장, 프리베이스-약 6천 문장)이 결정적으로 작용하였다. 하지만 프리베이스 모델은 웹에서 추출한 문장에 대해서는 가장 높은 성능을 보여주었기 때문에 의미 있는 문장들이 수집되었다고 할 수 있다. 마지막으로 세 코퍼스를 모두 합하여 학습한 All 모델의 성능은 가장 높은 F1-Measure를 보여주었는데 이것은 제안 방법이 수동 태깅 코퍼스의 단점을 보완해 주는 것을 알 수 있다.

본 발명에서는 지식베이스를 활용하여 자동으로 개체명 인식 코퍼스를 생성하는 두 가지 방법을 제안하였다. 첫 번째 방법은 위키피디아 문서들의 태깅정보를 이용하는 방법으로서 비교적 높은 정확률을 보여주었다. 두 번째 방법은 거리 통제를 적용하여 프리베이스를 이용해 웹에서 수집된 문장에 태깅을 하는 방법이다. 이 방법은 기존의 수동 태깅이나 위키피디아와 비교하여 최근에 생성된 문장에서 더 좋은 성능을 보여주었다. 또한 수동 태깅된 ontoNotes와 위키피디아, 프리베이스 모델의 코퍼스를 모두 합쳤을 때 가장 높은 성능을 보여주는 것으로 제안하는 발명이 수동 코퍼스의 단점을 보완해준다는 것을 확인하였다.

도 6은 개체명 인식 모델 생성 방법의 흐름도로서, 이를 참조하여 본 발명의 다른 실시예에 따른 개체명 인식 모델 생성 방법을 설명한다.

우선, 편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 제1 학습코퍼스를 생성한다(S100). 여기서 제1 지식베이스로는 위키피디아를 이용할 수 있다. 이어서, 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스를 기반으로 관계 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 제2 학습코퍼스를 생성한다(S200). 여기서 제2 지식베이스로는 프리베이스를 이용할 수 있다.

상기 제2학습코퍼스를 입력받는 단계(S200)는 웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식한다.

상기 제2 학습코퍼스를 입력받는 단계(S200)는 제2 지식베이스의 관계정보 중 직접 연결된 관계를 사용한다.

개체명 인식 모델을 생성하는 단계(S400)는 상기 제1 및 제2 학습코퍼스를 기반으로 개체명 인식모델을 생성하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성한다.

제3 학습코퍼스를 입력받는 단계(S300)는 제3학습코퍼스 생성부(300)가 수동 태깅을 이용하여 제3 학습코퍼스를 생성할 수 있있으며(300), 이 경우 상기 개체명 인식 모델을 생성하는 단계(S400)는 상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성할 수 있다.

또한 개체명 인식 모델을 생성하는 단계는 입력 데이터 열의 조건부 확률 값을 계산하는 비방향성 그래프 모델인 CRFs(Conditional Random Fields)를 이용하는 개체명 인식 모델을 생성하는 것일 수 있다.

10 : 개체명 인식 모델 생성 장치
100 : 제1 학습코퍼스 생성부
200 : 제2 학습코퍼스 생성부
300 : 제3 학습코퍼스 생성부
400 : 개체명 인식 모델 생성부

Claims

개체명 인식 모델 생성 장치에 있어서,
편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제1 학습코퍼스를 입력받는 제1 학습코퍼스 입력부;
웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력받는 제2 학습코퍼스 입력부;
상기 제1 및 제2 학습코퍼스를 기반으로 하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성하는 개체명 인식 모델 생성부를 포함하는 것을 특징으로 하는 개체명 인식 모델 생성 장치.
제1항에 있어서,
상기 제1 지식베이스는 위키피디아이고,
상기 제2 지식베이스는 프리베이스인 것을 특징으로 하는 개체명 인식 모델 생성 장치.
제1항에 있어서,
수동 태깅에 따라 생성된 제3 학습코퍼스를 입력받는 제3 학습코퍼스 입력부를 더 포함하고,
상기 개체명 인식 모델 생성부는,
상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성하는 것을 특징으로 하는 개체명 인식 모델 생성 장치.
제1항에 있어서,
상기 제2 학습코퍼스 입력부는 제2 지식베이스의 관계정보 중 직접 연결된 관계를 사용하는 것을 특징으로 하는 개체명 인식 모델 생성 장치.
제1항에 있어서,
상기 개체명 인식 모델 생성부는,
입력 데이터 열의 조건부 확률 값을 계산하는 비방향성 그래프 모델인 CRFs(Conditional Random Fields)를 이용하는 개체명 인식 모델을 생성하는 것을 특징으로 하는 개체명 인식 모델 생성 장치.
개체명 인식 모델 생성 방법에 있어서,
편집자들이 직접 태깅을 하는 제1 지식베이스를 기반으로 규칙 기반 자동 태깅을 이용하여 개체명 표지를 인식함에 따라 생성된 제1 학습코퍼스를 입력받는 단계;
웹으로부터 수집한 데이터를 이용하여 구축되는 제2 지식베이스의 관계정보를 이용하여 두 개체가 동시에 출현한 단일 또는 다수의 문장을 자동 태깅하되, 상기 두 개체가 모두 포함된 단일 또는 다수의 문장에서 문장 간의 거리가 클수록 낮은 신뢰도를 적용하여 개체명 표지를 인식함에 따라 생성된 제2 학습코퍼스를 입력받는 단계;
상기 제1 및 제2 학습코퍼스를 기반으로 하되, 상기 제2 학습코퍼스는 신뢰도가 낮은 것에서 높은 순서로 튜닝하여 심층학습을 할 수 있는 개체명 인식 모델을 생성하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 모델 생성 방법.
제6항에 있어서,
상기 제1 지식베이스는 위키피디아이고,
상기 제2 지식베이스는 프리베이스인 것을 특징으로 하는 개체명 인식 모델 생성 방법.
제6항에 있어서,
수동 태깅에 따라 생성된 제3 학습코퍼스를 입력받는 단계를 더 포함하고,
상기 개체명 인식 모델을 생성하는 단계는,
상기 신뢰도 순서로 튜닝된 제2 학습코퍼스 이후에 상기 수동 태깅된 제3 학습코퍼스를 학습하는 개체명 인식 모델을 생성하는 것을 특징으로 하는 개체명 인식 모델 생성 방법.
제6항에 있어서,
상기 제2 학습코퍼스를 입력받는 단계는 제2 지식베이스의 관계정보 중 직접 연결된 관계를 사용하는 것을 특징으로 하는 개체명 인식 모델 생성 방법.
제6항에 있어서,
상기 개체명 인식 모델을 생성하는 단계는,
입력 데이터 열의 조건부 확률 값을 계산하는 비방향성 그래프 모델인 CRFs(Conditional Random Fields)를 이용하는 개체명 인식 모델을 생성하는 것을 특징으로 하는 개체명 인식 모델 생성 방법.