KR20190065665A

KR20190065665A - 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법

Info

Publication number: KR20190065665A
Application number: KR1020170165072A
Authority: KR
Inventors: 양기주
Original assignee: 주식회사 솔루게이트
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2019-06-12
Also published as: KR102043353B1

Abstract

본 발명은 딥 러닝을 이용한 개체명 인식 기술에 관한 것으로, 한국어 개체명 인식 방법은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 단어 벡터 및 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 단어 문맥 벡터 및 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성한다.

Description

딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법{Apparatus and method for recognizing Korean named entity using deep-learning}

본 발명은 자연어 처리 기술에 관한 것으로, 특히 한국어 문장이 주어졌을 때 주어진 문장 내에 포함된 개체명(named entity)이 사전에 포함되어 있지 않은 경우에도 해당 개체명을 올바르게 인식할 수 있는 한국어 개체명 인식 장치, 방법 및 그 방법을 기록한 기록매체에 관한 것이다.

개체명(named entity)이란 문서에서 특정한 의미를 가지고 있는 단어 또는 어구를 말한다. 정보 검색에서 개체명은 주요 검색 대상이 되며, 질의/응답에서는 주요 질의/응답 대상이 된다. 이러한 개체명을 추출하기 위해 자연어 처리 분야에서 개체명 인식 및 분류(named entity recognition and classification) 연구가 활발하게 진행되었다.

개체명 인식 및 분류에 관한 연구는 영어권에서 먼저 발전하였다. 영어권에서는 이하에서 제시된 선행기술문헌을 통해 대문자나 호칭 기호 자질 등 영어에서 나타나는 특징을 이용하여 높은 개체명 인식 및 분류 성능을 보여주었다.

초기 개체명 인식은 HMM(Hidden Markov Model)을 이용하여 사람, 단체, 지역, 시간, 날짜, 백분율, 금액, NOT-A-NAME 총 8개의 범주에 대하여 개체명을 부착하였다. 이 연구에서는 대문자나 호칭 기호 등 영어에서 나타나는 문자의 특징을 자질로 사용하여 높은 성능을 보였다. 최근에는 트위터 글을 분석하여 개체명을 인식하는 실험이 있었다. 트위터 글은 오타나 축약어, 신조어 등의 사용으로 단어의 원형을 복원하는 작업이 필요한데, 이러한 축약어 또는 신조어를 정규화하고 학습을 통해 개체명을 인식할 수 있음을 보여주었다.

최근에는 딥 러닝을 이용한 개체명 인식 기술이 꾸준히 연구되고 있는데, 개체명 인식을 위해 개체명 사전을 이용하는 방법이 제시된 바 있다. 이 방법은 개체명 인식 성능 향상을 위해 위키피디아를 이용하여 개체명 사전을 구축하는 방법으로서, 사전의 확장이 가능하다는 장점에도 불구하고 사전에 포함되어 있지 않은 개체명을 인식하는데 어려움이 존재하였다. 나아가, 한국어를 대상으로 하는 개체명 인식에 있어서는 성능 개선을 위해 추가로 사용할 수 있는 자질이 부족한 점이 문제점으로 지적되었다.

DM. Bikel, S. Miller, R. Schwartz, R. Weischedel, "Nymble: a High-Performance Learning Namefinder," Proc. of the 5th Conference on Applied Natural Language Processing, pp. 194-201, 1997. X. Liu, M. Zhou, F. Wei, Z. Fu and X. Zhou, "Joint Inference of Named Entity Recognition and Normalization for Tweets," Proc. of the 50th Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 526-535, 2012.

본 발명이 해결하고자 하는 기술적 과제는, 종래의 자연어 처리에 있어서 개체명 인식을 위해 사용되는 딥 러닝 기술이 영어의 언어적 특성에 기반한 것인 관계로 한국어 문장을 올바르게 처리할 수 없다는 한계를 극복하고, 한국어 개체명 인식을 위한 사전 내에 포함되어 있지 않은 새로운 개체명이 제시되는 경우 인위적인 규칙 생성 내지 사전 갱신/확장으로 인해 추가적인 유지 보수 비용이 발생하는 문제를 해결하고자 한다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 한국어 개체명(named entity) 인식 방법은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하는 단계; 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하는 단계; 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 단계; 및 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성한다.

일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 단어 문맥 벡터를 생성하는 단계는, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다.

일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 태그 문맥 벡터를 생성하는 단계는, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.

일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 형태소를 분석하는 단계는, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있다.

일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 형태소를 분석하는 단계는, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환할 수 있다.

일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 단어 벡터 및 상기 품사 태그 벡터를 생성하는 단계는, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다. 또한, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것이 바람직하다.

일 실시예에 따른 한국어 개체명 인식 방법은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하는 단계; 및 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 단계를 더 포함할 수 있다.

한편, 이하에서는 상기 기재된 한국어 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 한국어 개체명(named entity) 인식 장치는, 한글을 포함하는 문장을 입력받는 입력부; 입력된 상기 문장에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 메모리; 및 상기 프로그램을 구동하는 프로세서를 포함하되, 상기 메모리에 저장된 프로그램은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함한다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환할 수 있다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다. 또한, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것이 바람직하다.

일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킬 수 있다.

본 발명의 실시예들은, 한국어 고유의 특징인 한글 자소 단위에 기반을 둔 단어 벡터를 사용하되, 단어 문맥과 품사 태그 문맥을 동시에 개체명 인식에 활용함으로써, 입력 문장 내에 새로운 개체명이 등장하더라도 해당 한국어 개체명을 효과적으로 인식할 수 있고, 적은 규모의 개체명 태깅 말뭉치만으로도 개체명 인식기를 학습시킬 수 있으며, 사전 기반의 학습 방식을 채택하지 않을 뿐만 아니라 인위적인 규칙을 만들지 않으므로 사전 갱신이나 규칙 보충을 위한 지속적인 유지 보수의 비용과 전문 지식이 요구되지 않는다.

도 1은 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 양방향 LSTM(bidirectional long short-term memory)을 통한 문맥 벡터의 처리 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 개체명 인식기를 학습시키는 추가적인 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 장치를 도시한 블록도이다.

본 발명의 실시예들을 설명하기에 앞서, 자연어 처리 및 개체명 인식 기술들에서 지목되는 문제점을 검토한 후, 이러한 문제점들을 해결하기 위해 본 발명의 실시예들이 채택하고 있는 아이디어와 기술적 수단을 순차적으로 소개하도록 한다.

컴퓨터 연산 성능과 인공지능 기술의 발전과 더불어, 자연어 처리에 대한 연구가 활발히 진행되고 있다. 특히 개체명 인식을 위해, 개체명 사전과 결합 단어 사전 등을 이용한 규칙 기반의 개체명 인식 방법이 제시된 바 있다. 종래의 딥 러닝 기반의 개체명 인식 기술들은 개체명 태그(tag)를 사용하여 말뭉치를 구축한 후, 딥 러닝 기법으로 기계학습을 시키는 방법인데, 이러한 방법들은 대부분의 경우 영어권의 나라들에서 개발되었기에 고유명사는 대문자로 시작하는 영어의 특성을 잘 반영한 것으로 판단된다.

그러나, 한국어의 경우에는 대문자가 존재하지 않을 뿐만 아니라 영어에는 존재하지 않는 명사구의 끝에 붙는 조사 또는 용언의 끝에 위치하는 어미가 문법상의 특별한 의미를 갖는다. 따라서 본 발명의 실시예들에서는 이와 같이 영어에는 존재하지 않지만 한국어에는 존재하는 한국어 고유의 특성에 관한 정보를 추출하여 추출된 정보들을 개체명 태그를 이용한 딥 러닝 기법에 추가하여 개체명 인식의 정확도를 향상시키고자 한다. 이를 위해 본 발명의 실시예들은, 한글 자소를 기반으로 하는 단어 벡터를 사용함으로써 개체명 인식에 한국어 고유의 특성을 반영하였다.

또한, 자질 부족 문제를 해결하기 위해 단어 임베딩(word embedding) 자질을 개체명 인식 및 분류에 이용하였다. 단어 임베딩(word embedding)이란 언어 모델의 하나로서 문장 속 단어들 사이의 관계를 비지도 학습(Unsupervised Learning) 방식으로 분석하여 특징화하는 것이다. 여기서, 언어 모델(language model)은 문장을 이루는 단어들의 확률분포로서, 음성 인식, 기계 번역, 형태소 분석, 필체 인식, 정보 분석 등의 분야에서 매우 중요한 정보로 사용되고 있다.

이하에서는 도면을 참조하여 본 발명의 실시예들을 구체적으로 설명하도록 한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 덧붙여, 명세서 전체에서, 어떤 구성 요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

특별히 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 방법을 도시한 흐름도이다.

S110 단계에서, 한국어 개체명 인식 장치는, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭한다.

여기서, 형태소를 분석하는 과정은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것이 바람직하다.

알파벳이나 기타 영어권 국가의 문자와 차별화되어, 한글은 초성, 중성, 종성의 3개 자소를 기반으로 구성되며, 이들 각각에 문장이나 단어 내의 의미가 부여되는 경우가 존재한다. 따라서, 본 발명의 실시예들은 단어나 글자가 아닌 '자소'를 기준으로 형태소를 분석하여 단어 벡터를 생성하는 전략을 채택하였다.

어떤 단어가 문장 내에서 가지고 있는 의미나 역할을 표현하기 위해 단어 임베딩(word embedding)의 한 가지 방법으로 단어 벡터가 활용될 수 있는데, 일반적으로 단어(word) 단위로 단어 벡터(word vector)를 생성시키는 전략은 영어권에서는 상당히 효율적이라고 알려져 있다. 그러나 한글이나 터키어처럼 조사와 어미의 활용이 높은 언어, 즉 형태적으로 풍부한 언어(morphologically rich language)에서는 단어 중심의 벡터로는 문법적 의미를 충분히 표현할 수 없다. 따라서 형태소 단위로 단어 벡터를 생성하는 전략이 필요하다.

형태적으로 풍부한 언어를 처리하기 위해 영어, 스페인어 등(single byte 문자)를 대상으로 글자(character) 기반으로 단어 벡터를 생성하려는 시도가 다수 있었으며, 한국어의 경우에도 자연스런 발상으로 한글을 글자 단위의 단어 벡터를 생성하려는 시도가 존재하였다. 그러나, 이러한 시도는 자소 단위에도 문장 내의 의미나 역할이 부여될 수 있는 한국어의 특성을 온전히 반영하고 있는 것이 아니었기에 자소 단위의 형태소 분석 내지 데이터 처리 단위의 개선된 형태가 제시될 필요가 있다.

통상적인 한글의 한 글자는 (초성+중성+종성) 또는 (초성+중성)으로 구성된다. 다른 언어에는 없는 특징으로서 초성, 중성, 종성이 글자 및 단어 내에서 부여된 역할이 있으며, 실제로 받침은 형태소 분석의 형태소 단위가 될 수 있다. 따라서 본 발명의 실시예들에서는 한글의 자소를 기반으로 하는 단어 벡터를 생성하여 한국어 개체명 인식에 사용하고자 한다.

한글 조합형 문자 코드에 관하여, 본 발명의 실시예들은 그 일례로서 표준인 KS5700 조합형 한글을 대상으로 하고 있으며 컴퓨터에서 한글에 할당된 총 조합형 한글의 글자수는 11,172개이다(참고: KS5601 완성형의 경우 2,350개). 또한, 한자 코드는 표준 한자 4,888개가 사용될 수 있다.

한글은 자소 문자로서 총 24자의 자소(자음 14자 + 모음 10자)로 구성되는데, 한글 한 글자는 (초성+중성+종성) 또는 (초성+중성)으로 이루어진다. 초성 글자는 기본 자음 14자 및 복합 자음 5자로 총 19자이고, 중성 글자는 기본 모음 10자 및 복합 모음 11자로 총 21자이며, 종성 글자는 홑받침(16자) 및 겹받침(11자)으로 총 27자이다.

분석 대상 문서가 외국어를 포함하는 경우, 표준 ASCII 코드 중 32번부터 127번까지 95개를 모두 수용할 수 있다. 독일어, 스페인어 등 영어가 아닌 단일 바이트(single-byte)로 표현되는 글자는 모두 영어로 대체할 수 있으며, 일본어 및 중국어는 한글 글자로 변환하여 사용할 수 있다.

이제, 본 발명의 실시예들이 제안하는 자소 단위 단어 코딩 방법을 설명하도록 한다.

한글 조합형 글자 수는 앞서 기술한 바와 같이 11,172개이며 이는 영어의 알파벳에 비해서 상당히 큰 수이다. ASCII 코드만 사용하는 영어권에서 적용하는 글자 기반(글자 단위)의 단어 벡터 알고리즘을 그대로 한국어에 적용하는 것은 좋은 성능을 보여주지 못한다.

본 발명의 실시예들에서는 한글의 모든 자소를 별도의 글자로 취급한다. 예를 들어 초성의 'ㄱ'과 종성의 'ㄱ'은 다른 글자로 취급된다. 구현의 관점에서, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것이 바람직하다. 아래 표 1을 참조하여 자소 코드의 예를 설명하도록 한다.

표 1에 따르면, 자소 코드는 자소 글자와 식별자의 결합으로 표현될 수 있다. 여기서, 단독 초성이나 단독 종성은, ㅋㅋㅋ 또는 ㅜㅜ 등과 같은 표기를 말한다. 즉, 본 발명의 실시예들에서는 형태소 분석을 거친 형태소 단위의 단어를 이상에서 제시된 방법에 따라 자소 단위로 구성된 자소 코드로 변환하여 사용한다. 예를 들어, "철수는"이라는 단어는 표 1에 의해 다음과 같은 자소 코드로 변환될 수 있다.

따라서, 본 발명의 실시예들에서 사용되는 자소 코드(글자)는 다음의 표 2와 같이 총 190개의 글자 코드를 사용한다. 물론, 글자 코드의 수는 필요에 따라 변경될 수 있으며 알고리즘의 성능에 영향을 주지 않는다.

이제, 자소 코드 기반의 단어 표현을 살펴보자.

자소 코드 인코딩을 위해, one-of-key 코딩 방식을 사용할 수 있으며, 본 발명의 실시예들에서는 190×1 벡터로 표현될 수 있다. 예를 들어, 'ㄱ1'과 'ㄴ1'이 각각 코드 순서 1과 2에 할당한다면, 다음과 같은 벡터로 표현된다.

따라서 자소 코드의 종류가 총 K개라면, 자소 코드는 K×1 차원 벡터로 표현된다. 그러므로 자소 단위 단어의 조합을 위해, 어떤 하나의 단어가 이상의 표 2를 통해 정의한 자소 코드 N개로 구성된다면, 그 단어는 K×N 차원(여기서, K는 자소 코드의 크기)의 행렬로 표현될 수 있다.

예를 들어, "철수는"이라는 단어는, 총 10 개의 자소 코드 벡터로 구성되므로, 자소 코드가 190×1 차원의 벡터로 표현된다면, 그 행렬 표현은 다음의 표 3과 같다.

S120 단계에서, 상기 한국어 개체명 인식 장치는, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성한다. 여기서, 품사 태그는 각각의 형태소와 1 대 1로 대응하며, 문자열을 형태소화하고 각각의 형태소에 대응하는 품사 태그를 단어처럼 나열하면 품사 태그만으로 구성된 문장을 얻을 수 있다. 이렇게 얻은 태그 문장의 태그 개수는 원래 문장의 단어 개수와 정확히 일치한다.

이러한, 단어 벡터 및 품사 태그 벡터를 생성하는 과정에서는, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다.

단어 임베딩 방법에 관하여는 인공 신경망을 이용하는 NNLM(Neural Network Language Model)이 제시된 바 있으며, 최근에는 현재 단어(word)의 문맥을 이루는 벡터(vector)들의 합으로 현재 단어의 벡터를 결정하는 CBOW 모델이 제안되었다.

CBOW 모델은, NNLM의 구조를 변경해 은닉층(Hidden Layer) 대신 투영층(Projection Layer)을 사용함으로써 학습 시간을 현저히 단축시켰으며, NNLM에 비해 의미 정확도 및 구문 정확도를 향상시켰다. 본 발명의 실시예들에서는 CBOW 모델을 이용하여 단어 임베딩을 수행하고, 이를 통해 생성된 자질을 한국어 개체명 인식 및 분류에 사용하는 방법을 채택하였으나, 본 발명의 실시예들이 제안하는 기술적 수단 및 아이디어가 이러한 단어 임베딩의 특정 유형에 제한되는 것이 아님은 당연하다.

구현의 관점에서, 말뭉치 전체를 대상으로 태그 문장을 만들고 CBOW, Skip-gram 또는 GloVe 모델 중 적어도 하나에 따른 단어 벡터 생성용 알고리즘을 이용하여 태그 벡터를 생성할 수 있다.

S130 단계에서, 상기 한국어 개체명 인식 장치는, S120 단계를 통해 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성한다. 본 발명의 실시예들은, 단어 문맥과 품사 태그 문맥을 동시에 사용하도록 설계되었는데, S120 단계를 통해 생성된 태그 벡터를 사용하여 말뭉치 전체를 태그 문장화시킨 후, 태그 문장 말뭉치에서 각각의 문장을 꺼내어 양방향 LSTM에 입력한다.

LSRM은 장기 의존성(long-term dependency) 문제를 해결하기 위해 도입된 순환신경망(resurrent neural networks, RNN)의 일종으로서, 셀 스테이트(cell state)에 정제된 구조를 가진 게이트(gate)를 활용하여 정보를 더하거나 제거함으로써 특정 구성 요소가 미래의 예측 결과에 영향을 주도록 데이터의 흐름을 제어하는 것을 특징으로 한다. 여기서는 본 발명의 핵심적인 아이디어를 흐릴 우려가 있으므로 LSTM 자체에 관한 자세한 설명은 생략하도록 한다. 다만, 양방향 LSTM을 통해 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 과정에 대해서는 이후 도 2를 참고하여 설명하도록 한다.

S140 단계에서, 상기 한국어 개체명 인식 장치는, S130 단계를 통해 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 새로운 훈련용 문맥 벡터를 생성한다.

도 2는 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 양방향 LSTM(bidirectional long short-term memory)을 통한 문맥 벡터의 처리 과정을 설명하기 위한 도면이다.

우선, 단어 문맥 벡터를 생성하는 과정(S131)을 살펴보면, 입력된 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성한다.

이와 더불어, 태그 문맥 벡터를 생성하는 과정(S132)을 살펴보면, 입력된 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성한다.

이제, S140 단계를 통해 각각의 단어 문맥 벡터와 태그 문맥 벡터를 결합하여 새로운 훈련용 문맥 벡터를 생성하게 된다.

한편, 한국어에서의 개체명 인식을 위해서는, 반지도 학습인 Co-Training 기법을 변형한 규칙 기반의 방식을 활용하거나, 지도 학습인 CRF 내지 최대 엔트로피 모델(Maximum Entropy Model)을 이용하는 방법을 활용 가능하다. 예를 들어, CRF로 개체명의 경계만을 인식하고 최대 엔트로피 모델을 이용하여 개체명을 분류하는 방법을 사용할 수 있다.

도 3은 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 개체명 인식기를 학습시키는 추가적인 과정을 설명하기 위한 흐름도이다.

S150 단계에서, 한국어 개체명 인식 장치는, 앞서 S140 단계를 통해 생성된 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력한다. 그런 다음, S160 단계에서, 상기 한국어 개체명 인식 장치는, 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킨다.

도 4는 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 장치(20)를 도시한 블록도로서, 앞서 도 1 내지 도 3을 통해 기술한 한국어 개체명 인식 방법을 장치 구성의 관점에서 재구성한 것이다. 따라서, 여기서는 설명의 중복을 피하고자 각 구성요소의 기능만을 약술하도록 한다.

입력부(21)는, 한글을 포함하는 문장(10)을 입력받는 구성으로서, 전자적인 형식(format)에 따른 부호화된 문장 데이터를 입력받는 수단이다.

메모리(23)는 입력부(21)를 통해 입력된 상기 문장(10)에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 구성이며, 프로세서(25)는, 이러한 프로그램을 구동하는 수단이다.

여기서, 상기 메모리(23)에 저장된 프로그램은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함한다.

상기 메모리(23)에 저장된 프로그램은, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다. 이와 더불어, 상기 메모리(23)에 저장된 프로그램은, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.

특히, 상기 메모리(23)에 저장된 프로그램은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있으며, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것이 바람직하다.

또한, 상기 메모리(23)에 저장된 프로그램은, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내되, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따를 수 있다.

나아가, 상기 메모리(23)에 저장된 프로그램은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킴으로서, 인식된 개체명(30)을 출력 내지 저장할 수 있다.

본 발명의 실시예들에 따르면, 한국어 고유의 특징인 한글 자소 단위에 기반을 둔 단어 벡터를 사용하되 단어 문맥과 품사 태그 문맥을 동시에 개체명 인식에 활용함으로써, 입력 문장 내에 새로운 개체명이 등장하더라도 해당 한국어 개체명을 효과적으로 인식할 수 있고, 적은 규모의 개체명 태깅 말뭉치만으로도 개체명 인식기를 학습시킬 수 있으며, 사전 기반의 학습 방식을 채택하지 않을 뿐만 아니라 인위적인 규칙을 만들지 않으므로 사전 갱신이나 규칙 보충을 위한 지속적인 유지 보수의 비용과 전문 지식이 요구되지 않는다.

한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: 입력 문장
20: 한국어 개체명 인식 장치 21: 입력부
23: 메모리 25: 프로세서
30: 개체명 DB

Claims

입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하는 단계;
자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하는 단계;
생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 단계; 및
생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 단계를 포함하는 한국어 개체명(named entity) 인식 방법.
제 1 항에 있어서,
상기 단어 문맥 벡터를 생성하는 단계는,
입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 1 항에 있어서,
상기 태그 문맥 벡터를 생성하는 단계는,
입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 1 항에 있어서,
상기 형태소를 분석하는 단계는,
(초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 1 항에 있어서,
상기 형태소를 분석하는 단계는,
초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 1 항에 있어서,
상기 단어 벡터 및 상기 품사 태그 벡터를 생성하는 단계는,
단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 6 항에 있어서,
상기 단어 임베딩은,
CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것을 특징으로 하는 한국어 개체명 인식 방법.
제 1 항에 있어서,
생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하는 단계; 및
상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 단계를 더 포함하는 한국어 개체명 인식 방법.
제 1 항 내지 제 8 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
한글을 포함하는 문장을 입력받는 입력부;
입력된 상기 문장에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 메모리; 및
상기 프로그램을 구동하는 프로세서를 포함하되,
상기 메모리에 저장된 프로그램은,
입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함하는 한국어 개체명(named entity) 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
(초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 15 항에 있어서,
상기 단어 임베딩은,
CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것을 특징으로 하는 한국어 개체명 인식 장치.
제 10 항에 있어서,
상기 메모리에 저장된 프로그램은,
생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 것을 특징으로 하는 한국어 개체명 인식 장치.