KR101941692B1

KR101941692B1 - 한국어 개체명 인식방법 및 장치

Info

Publication number: KR101941692B1
Application number: KR1020170134970A
Authority: KR
Inventors: 권순재; 고영중; 서정연
Original assignee: 서강대학교산학협력단
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2019-01-23

Abstract

본 발명에 따르는 한국어 개체명 인식방법은, 한국어 로 텍스트를 입력받아 음절 바이그램들로 분할하고, 한국어 로 텍스트에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 한국어 로 텍스트에 대한 음절 바이그램들에 대응되는 임베딩을 생성하고, 상기 한국어 로 텍스트에 대한 음절 바이그램들 각각과 그에 대응되는 임베딩을 데이터베이스의 룩업테이블에 기록하는 제1단계; 및 질의문장이 입력되면, 질의문장을 음절 바이그램들로 분할하고, 상기 질의 문장에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 질의 문장에 대한 음절 바이그램들에 대응되는 임베딩을 상기 룩업테이블로부터 독출하여 개체명 인식을 이행하는 제2단계;를 포함하는 것을 특징으로 한다.

Description

한국어 개체명 인식방법 및 장치{named-entity recognition method and apparatus for korean}

본 발명은 한국어 개체명 인식기술에 관한 것으로, 더욱 상세하게는 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명이 어절 어두에 위치하는 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높이는 한국어 개체명 인식방법 및 장치에 관한 것이다.

한국어는 하나의 어절에 여러 형태소가 조합되는 교착어이기 때문에, 한국어 처리를 위해서는 형태소 분석이 선행되어야 하나 상기의 형태소 분석은 많은 어려움이 있었다. 좀 더 설명하면, 대체로 형태소 분석기들은 미리 형태소들을 등록하고 이 정보를 적극적으로 이용하여 형태소 분석을 이행한다. 이러한 특징 때문에 등록되지 않은 형태소를 만나면 정확률이 현저하게 낮아지는 문제가 있었다.

대표적으로 발생하는 오류로는 1음절 또는 2~3음절의 명사들로 구성된 복합명사를 인식하지 못하는 것이며, 이로 인해 조사와 명사의 경계를 구분하지 못하는 문제가 있었다.

이러한 문제를 해소하기 위해 종래에는 미등록 명사를 추정하여 인식하는 기술이 다양하게 연구되고 있다. 이러한 기술로는 박재한, 김명선, 노대욱, 나대열, "백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해", 제16회 한글 및 한국어 정보처리 학술대회, 제16권, 제1호, pp.65-72, 2004가 있으며, 이는 일반적인 복합명사와 미등록 외래어를 포함한 복합명사를 잘 분해하기 위해서 1,000만 어절의 세종말뭉치에서 448만개 명사와 복합명사를 분리해 놓은 것에서 백오프 통계 정보를 학습하여 사용하는 기술을 개시하였고, 상기 백오프 통계 정보는 음절 바이그램, 어휘 바이그램, 품사 바이그램 등임을 기술하고 있다. 이에 따르는 기계학습 방식을 사용한 미등록 명사 추정 모듈은 형태소 분석기 전체 시스템의 성능을 향상시킬 수 있었다.

그리고 대한민국 특허청에 형태소 분석기를 위한 미등록 명사 추정장치 및 방법을 명칭으로 하여 특허공개된 제10-2016-0066387호는, 미리 형태소들이 등록되어 있는 기분석사전을 통하여 형태소 분석을 수행하는 형태소 분석기를 이용하되, 등록되지 않은 미등록어의 경우에 미등록어를 좌측부분 L과 우측부분 R의 두 부분으로 분할하고 기분석사전을 검색하여 우측부분 R의 빈도를 획득하고 좌측부분 L의 빈도 점수를 계산하며 우측부분 R의 빈도, 좌측부분 L의 빈도 점수 및 이 둘의 조합 가능성 정도를 모두 곱하여 후보 점수를 계산하고 가장 높은 점수의 후보를 미등록 명사로 추정함으로써 미등록 명사를 인식하도록 하여 형태소 분석기의 정확률을 향상시키는, 형태소 분석기를 위한 미등록 명사 추정 기술을 개시하고 있다

그리고 대한민국 특허청에 개체명 검출 장치 및 방법을 명칭으로 하여 특허공개된 제10-2007-0045748호는, 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함하는 개체명 검출 기술을 개시하고 있다.

상기한 바와 같이 종래에는 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명 인식률을 높이기 위한 노력을 계속하고 있다.

대한한국특허공개 제10-2013-0014894호 대한한국특허공개 제10-2016-0066387호 대한민국특허공개 제10-2007-0045748호 대한한국특허공개 제10-0877477호

본 발명은 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명이 어절 어두에 위치하는 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높이는 한국어 개체명 인식방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명에 따르는 한국어 개체명 인식방법은, 한국어 로 텍스트를 입력받아 음절 바이그램들로 분할하고, 한국어 로 텍스트에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 한국어 로 텍스트에 대한 음절 바이그램들에 대응되는 임베딩을 생성하고, 상기 한국어 로 텍스트에 대한 음절 바이그램들 각각과 그에 대응되는 임베딩을 데이터베이스의 룩업테이블에 기록하는 제1단계; 및 질의문장이 입력되면, 질의문장을 음절 바이그램들로 분할하고, 상기 질의 문장에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 질의 문장에 대한 음절 바이그램들에 대응되는 임베딩을 상기 룩업테이블로부터 독출하여 개체명 인식을 이행하는 제2단계;를 포함하는 것을 특징으로 한다.

본 발명은 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명이 어절 어두에 위치하는 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높일 수 있는 효과를 야기한다.

도 1은 본 발명의 바람직한 실시예에 따르는 한국어 개체명 인식장치의 구성도.
도 2 및 도 3은 본 발명의 바람직한 실시예에 따르는 음절 바이그램의 생성과정을 예시한 도면.
도 4는 본 발명의 바람직한 실시예에 따라 음절 바이그램들을 이용하여 임베딩을 생성하는 과정을 예시한 도면.
도 5는 본 발명의 바람직한 실시예에 따라 음절 바이그램들을 이용하여 개체명 인식을 이행하는 과정을 예시한 도면.
도 6 및 도 7은 본 발명의 바람직한 실시예에 따르는 한국어 개체명 인식방법의 절차도.

본 발명은 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명이 어절 어두에 위치하는 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높인다.

좀더 설명하면, 한국어는 한자의 영향을 받아 한 음절마다 의미를 가지고 있는 경향이 있다. 그러나 표음문자를 사용하는 한국어의 특성상 음절의 의미적 모호성이 크다. 또한 교착어라는 한국어의 특성상 한국어 띄어쓰기 단위인 어절은 내용어와 기능어로 분석하여야 한다. 이를 해결하는 가장 직관적인 방법은 음절 엔그램(n-gram)을 이용하는 것이다.

이에 본 발명은 한국어 음절 바이그램(bi-gram)을 기반으로 개체명을 인식하며, 예를들어 [ 안양중학교 전세환 감독이]라는 한국어는 음절 바이그램으로 분할하면 [^안 안양 양중 중학 학교 교^ ^전 전세 세환 환^ ^감 감독 독이]로 분할된다. 여기서 ^는 띄어쓰기를 지시한다. 본 발명은 이렇게 분할된 두 음절 단위로 개체명을 인식한다.

이러한 음절 바이그램 단위 개체명 인식은 한국어 음절의 모호성을 해결할 수 있어 한국어 기능어와 내용어의 효과적인 분할이 가능하다.

또한 한국어는 교착어이며 어절에서 내용어가 기능어에 선행한다. 또한 지명이나 기관명과 같은 개체명은 2 음절로 구성되어 있는 경우가 많다. 예를들어 한국어 지명은 대부분은 부산, 울산, 서울, 대전, 인천, 강릉 등과 같이 2 음절이며, 회사명의 대부분은 삼성, 현대, 엘지 등과 같이 2 음절이다. 이에따라 본 발명은 개체명 인식에 있어 가장 중요한 요소로서 어절의 첫번째 2 음절로 결정하며, 이는 어절의 첫번째 2음절이 개체명일 확률이 높기 때문이다.

이에 본 발명은 음절 바이그램에 어절 어두 정보를 부여하여 어절의 첫번째 음절 바이그램을 다른 음절 바이그램과 구분한 상태로 음절 바이그램 임베딩 학습을 이행하여, 룩업 테이블을 구성하고, 이 룩업 테이블을 토대로 질의문장을 입력받아 개체명을 인식하여 정확도를 향상시킨다.

이러한 본 발명의 바람직한 실시예에 따른 한국어 개체명 인식장치의 구성을 도 1을 참조하여 상세히 설명한다.

상기 도 1을 참조하면, 상기 한국어 개체명 인식장치는 제1음절 바이그램 분할부(100)와 제1어절 어두 음절 바이그램 판별 및 표식부(102)와 음절 바이그램 임베딩 학습부(104)와 데이터베이스(106)와 제2음절 바이그램 분할부(108)와 제2어절 어두 음절 바이그램 판별 및 표식부(110)와 기계학습기반 개체명 인식부(112)로 구성된다.

상기 제1음절 바이그램 분할부(100)는 한국어 로 텍스트(raw text)를 입력받아 음절 바이그램으로 분할하여 출력한다.

상기 한국어 로 텍스트를 음절 바이그램으로 분할한 예로는 도 2 및 도 3이 있다. 상기 도 2에 예시한 바와 같이, [안양중학교 전세환 감독이]라는 한국어 로 텍스트가 입력되면, 상기 제1음절 바이그램 분할부(100)는 상기 [안양중학교 전세환 감독이]를 [^안 안양 양중 중학 학교 교^ ^전 전세 세환 환^ ^감 감독 독이]로 분할하여 출력한다. 여기서 ^는 띄어쓰기를 지시한다. 그리고 도 3에 예시한 바와 같이, [기우리다]라는 한국어 로 텍스트가 입력되면, 상기 제1음절 바이그램 분할부(100)는 상기 [기우리다]를 [^기 기우 우리 리다 다^]로 분할하여 출력한다. 그리고 [우리은행]이라는 한국어 로 텍스트가 입력되면, 상기 제1음절 바이그램 분할부(100)는 상기 [우리은행]을 [^우 우리 리은 은행 행^]으로 분할하여 출력한다.

상기 제1어절 어두 음절 바이그램 판별 및 표식부(102)는 상기 제1음절 바이그램 분할부(100)가 출력하는 음절 바이그램들을 입력받아, 상기 음절 바이그램들 중 어절 어두에 해당되는 음절 바이그램을 판별하여 표식하여 출력한다. 즉, 상기 제1어절 어두 음절 바이그램 판별 및 표식부(102)는 음절 바이그램 중 띄어쓰기를 지시하는 ^가 앞 부분에 포함된 음절 바이그램의 다음 음절 바이그램을 어절 어두에 위치하는 음절 바이그램으로 검출하고, 이 검출된 어절 어두에 해당하는 음절 바이그램에 대해서만 표식을 부가한다. 상기 표식은 도 2 및 도 3에 예시한 바와 같이 _1로 정해질 수 있다. 즉 음절 바이그램 [^안 안양 양중 중학 학교 교^ ^전 전세 세환 환^ ^감 감독 독이]는 [^안 안양_1 양중 중학 학교 교^ ^전 전세_1 세환 환^ ^감 감독_1 독이]로 변환되어 출력되고, [^기 기우 우리 리다 다^]는 [^기 기우_1 우리 리다 다^]로 변환되여 출력되고, [^우 우리 리은 은행 행^]은 [^우 우리_1 리은 은행 행^]로 변환되어 출력된다. 상기 어절 어두 바이그램이 표식된 음절 바이그램은 음절 바이그램 임베딩 학습부(104)로 입력된다.

상기 음절 바이그램 임베딩 학습부(104)는 인공신경망 기반 비지도 학습, 예를들어 word2vec를 사용하여, 각 음절 바이그램에 대한 의미를 나타내는 고차원 벡터 표현(vector representation; bigram embedding)인 인베딩을 생성한다.

이러한 고차원 벡터 표현의 예로는 도 2와 도 3에 예시한 '안양_1' = [0.0267647, -0.0245337, 0.0229657, -0.0215525, … , -0.117955, 0.0867267]이 될 수 있고, [우리은행]의 [우리_1]은 [0.015 -0.070, -0.065, ...]가 될 수 있고, [기우리다]의 [우리]는 [0.210, -0.361, 0.119, ...]가 될 수 있다. 상기 고차원 벡터 표현을 참조하면 같은 음절 바이그램인 [우리]에 대해, 어절 어두에 오는 [우리_1]과 어절 어두에 오지 않는 [우리]는 서로 다른 값으로 표현된다. 이는 어절 어두에 오는 경우에는 개체명일 확률이 높은 것을 반영한다.

여기서, 본 발명은 word2vec skip-n-gram 모델을 사용하여 벡터 표현인 임베딩을 생성한다. 이는 Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (Submitted on 16 Jan 2013 (v1), last revised 7 Sep 2013 (this version, v3))에 개시된 바 있다.

상기 word2vec skip-n-gram 모델은 하나의 음절 바이그램에 대하여, 해당 음절 바이그램의 주변 음절 바이그램을 예측하는 방법으로 학습하며, 이는 도 4에 예시한 바와 같다.

상기 도 4는 word2vec skip-n-gram 모델의 구조이며, W(t)는 현재의 음절 바이그램을 의미하고, w(t-2), w(t-1), w(t+1), w(t+2)는 각각 해당 음절 바이그램의 전전, 전, 다음, 다음다음의 음절 바이그램을 의미한다. 예를 들어, '안양중학교'의 '중학'이 w(t)라고 하면, w(t-2)는 '안양_1', w(t-1)는 '양중', w(t+1)는 '학교', w(t+2)는 '교^'가 되며, 상기 word2vec skip-n-gram 모델은 w(t)에 해당하는 주변 음절 바이그램을 예측하는 방향으로 최적화된다.

이와 같이 본 발명은 어절 어두 정보를 반영하는 음절 바이그램을 이용하여 음절 바이그램의 의미적 모호성을 보완으로써 기계학습시 정확도를 향상시킨다. 좀더 설명하면, 음절 바이그램을 사용하는 경우에는 의미적 모호성(Ambiguity)이 형태소에 비해 많다. 즉 [우리은행]과 [기우리다]라는 단어에는 [우리]라는 음절 바이그램을 갖는다. 그러나 [우리은행]의 [우리_1]은 개체명이나 [기우리다]의 [우리]는 개체명이 아니다. 이에 본 발명은 한국어 개체명의 대부분이 어절의 어두에서 발생한다는 점에서 착안하여, 음절 기반 개체명 인식에서는 어절의 어두의 음절들이 개체명 인식을 위한 핵심이라 판단하고, [우리은행]의 [우리_1]과 [기우리다]의 [우리]를 서로 다른 음절 바이그램으로 취급하여 즉 서로 다른 벡터값으로 학습하여 기계학습시 개체명 인식에 유리한 자질로 사용한다.

상기 음절 바이그램 임베딩 학습부(104)가 출력하는 음절 바이그램들 각각에 대한 의미를 나타내는 고차원 벡터 표현인 임베딩들은 데이터베이스(106)의 룩업테이블에 기록된다. 즉 상기 룩업테이블에는 음절 바이그램들과 그에 대응되는 고차원 벡터 표현인 임베딩이 기록되며, 이는 도 2와 도 3에 예시한 바와 같다. 상기 도 2를 참조하면, 음절 바이그램 [^안]은 [0.0562158, -0.0311528, -0.0133177, 0.141272, … -0.0790807, -0.146267]의 고차원 벡터 표현 정보에 대응되게 기록되고, 음절 바이그램 [안양_1]은 [0.0267647, -0.0245337, 0.0229657, -0.0215525, … , -0.117955, 0.0867267]의 고차원 벡터 표현 정보에 대응되게 기록되고, 음절 바이그램 [양중]은 [0.171748, -0.195606, 0.253355, -0.00801581, … -0.0661537 -0.0254227]의 고차원 벡터 표현 정보에 대응되게 기록되고, 음절 바이그램 [중학]은 [0.020927, -0.00706092, 0.171678, 0.114408, … -0.167438, -0.135068]의 고차원 벡터 표현 정보에 대응되게 기록되고, 음절 바이그램 [학교]는 [0.0948399, 0.127745, -0.0607804, -0.0044507, … 0.125292, 0.00124089]의 고차원 벡터 표현 정보에 대응되게 기록되고, 음절 바이그램 [교^]는 [0.0485884, -0.125609, 0.166728, 0.147585, … 0.323984, -0.10872]로 고차원 벡터 표현 정보에 대응되게 기록된다. 그리고 도 3을 참조하면, 음절 바이그램 [^기]는 [-0.015, 0.005, -0.80 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [기우_1]은 [-0.039, -0.043, -0.145 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, -[우리 : 0.210, -0.361, 0.119 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [리다]는 [0.091, -0.112, 0.114 …]의 고차원 벡터 표현 정보에 대응되게 기록되고 [다^]는 [-0.124, 0.012, 0.199 …]의 고차원 벡터 표현 정보에 대응되게 기록된다. 그리고 [^우]는 [0.040, -0.039, 0.176 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [우리_1]은 [0.015, -0.070, -0.065 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [리은]은 [0.210, -0.361, 0.119 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [은행]은 [0.080, -0.114, 0.101 …]의 고차원 벡터 표현 정보에 대응되게 기록되고, [행^]은 [0.047, 0.073, -0.212 …]의 고차원 벡터 표현 정보에 대응되게 기록된다.

이로서 본 발명에 따라 한국어 로 텍스트를 이용한 어절 어두 음절 바이그램을 이용한 음절 바이그램들 각각에 대해 의미를 나타내는 고차원 벡터 표현 정보를 기록한 룩업테이블의 구성이 완료된다.

이와 같이 룩업 테이블의 구성이 완료된 상태에서, 한국어 개체명 인식장치는 질의 문장을 입력받는다.

상기 질의 문장은 제2음절 바이그램 분할부(108)로 입력된다.

상기 제2음절 바이그램 분할부(108)는 상기 질의 문장을 입력받아 음절 바이그램으로 분할하여 제2어절 어두 음절 바이그램 판별 및 표식부(110)로 제공한다. 상기 제2어절 어두 음절 바이그램 판별 및 표식부(110)는 상기 질의 문장에 대한 음절 바이그램들 중 어절 어두 음절 바이그램을 검출하고, 검출된 어절 어두 음절 바이그램에 대해서만 어절 어두 표식을 부가한 음절 바이그램들을 출력한다.

상기 제2어절 어두 음절 바이그램 판별 및 표식부(110)가 출력하는 어절 어두 표식이 부가된 음절 바이그램들은 기계학습기반 개체명 인식부(112)에 제공한다.

상기 기계학습기반 개체명 인식부(112)는 상기 음절 바이그램을 입력되면, 입력된 음절 바이그램에 대응되는 고차원 벡터 표현 정보인 임베딩을 상기 데이터베이스(106)의 룩업테이블로부터 독출한다.

이와 같이 음절 바이그램에 대응되는 고차원 벡터 표현 정보가 독출되면, 상기 기계학습기반 개체명 인식부(112)는 도 5에 예시한 바와 같은 딥러닝 알고리즘인 LSTM-CRF(Long Short-Term Memory - Conditional Random Fields)에 입력하여 개체명 인식을 이행하고 입력된 음절 바이그램에 해당하는 개체명 태그를 출력한다.

상기 도 5를 참조하면, 상기 LSTM-CRF(Long Short-Term Memory - Conditional Random Fields)는 다수의 LSTM과 그에 대응되는 다수의 CRF로 구성된다. 좀더 설명하면, 상기 LSTM-CRF는 '전세환 감독'에서 '전세환'은 인명이고 그 이외에는 개체명이 아니므로, 개체명의 시작을 의미하는 B, 개체명의 중간 혹은 끝을 의미하는 I, 개체명이 아니라는 것을 의미하는 O을 출력하고, 이를 토대로 '전세환'을 문장에서 개체명으로 묶어서 출력한다.

이제 상기한 바와 같은 본 발명의 바람직한 실시예에 따르는 한국어 개체명 인식장치에 적용 가능한 한국어 개체명 인식방법을 도 6 및 도 7을 참조하여 설명한다.

<룩업 테이블 생성과정>

도 6은 본 발명의 바람직한 실시예에 따르는 한국어 로 텍스트를 이용한 룩업 테이블 생성방법의 절차도이다.

상기 도 6을 참조하면, 상기 한국어 개체명 인식장치는 한국어 로 텍스트를 입력받아 음절 바이그램들로 분할한다(200,202단계).

상기 한국어 개체명 인식장치는 상기 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램들을 검출하고, 어절 어두에 위치하는 음절 바이그램들에 대해서만 표식을 부가한다(204단계).

이후 상기 한국어 개체명 인식장치는 상기 음절 바이그램들을 인공신경망 기반 비지도 학습을 이행하여 음절 바이그램들 각각의 의미를 나타내는 고차원 벡터 표현인 임베딩을 생성한다(206단계).

상기 임베딩의 생성후에 상기 한국어 개체명 인식장치는 상기 음절 바이그램들과 그 음절 바이그램들 각각에 대한 고차원 벡터 표현인 임베딩을 대응시켜 데이터베이스의 룩업테이블에 기록한다(208단계).

<개체명 인식과정>

도 7은 본 발명의 바람직한 실시예에 따르는 질의문장에 대한 개체명 인식방법의 절차도이다.

상기 도 7을 참조하면, 상기 한국어 개체명 인식장치는 질의문장이 입력되면 질의문장을 음절 바이그램들로 분할한다(300,302단계).

상기 한국어 개체명 인식장치는 상기 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램들을 검출하고, 어절 어두에 위치하는 음절 바이그램들에 대해서만 표식을 부가한다(304단계).

이후 상기 한국어 개체명 인식장치는 음절 바이그램들에 대응되는 임베딩들을 데이터베이스의 룩업테이블에서 독출하여 기계학습기반의 개체명을 인식한다(306단계).

상기 한국어 개체명 인식장치는 상기 인식된 개체명을 출력한다(308단계).

이와 같이 본 발명은 하나의 어절에 여러 형태소가 조합되는 교착어인 한국어에서의 개체명이 어절 어두에 위치하는 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높인다.

특히 본 발명은 한국어에서의 개체명이 어절 어두에 위치하는 음절 바이그램인 경향을 반영하여 개체명을 인식하여 개체명 인식률을 높인다.

100 : 제1음절 바이그램 분할부
102 : 제1어절 어두 음절 바이그램 판별 및 표식부
104 : 음절 바이그램 임베딩 학습부
106 : 데이터베이스
108 : 제2음절 바이그램 분할부
110 : 제2어절 어두 음절 바이그램 판별 및 표식부
112 : 기계학습기반 개체명 인식부

Claims

한국어 개체명 인식방법에 있어서,
한국어 로 텍스트를 입력받아 음절 바이그램들로 분할하고, 한국어 로 텍스트에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 한국어 로 텍스트에 대한 음절 바이그램들에 대응되는 임베딩을 생성하고, 상기 한국어 로 텍스트에 대한 음절 바이그램들 각각과 그에 대응되는 임베딩을 데이터베이스의 룩업테이블에 기록하는 제1단계; 및
질의문장이 입력되면, 질의문장을 음절 바이그램들로 분할하고, 상기 질의 문장에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램에 대해 표식을 부가한 후에, 상기 질의 문장에 대한 음절 바이그램들에 대응되는 임베딩을 상기 룩업테이블로부터 독출하여 개체명 인식을 이행하는 제2단계;를 포함하는 것을 특징으로 하는 한국어 개체명 인식방법.
제1항에 있어서,
상기 제1단계가,
한국어 로 텍스트를 입력받아 음절 바이그램들로 분할하는 단계;
상기 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램을 검출하여 표식한 후에, 음절 바이그램들을 인공신경망 기반 비지도 학습하여 음절 바이그램의 의미를 나타내는 고차원 벡터 표현인 임베딩을 생성하는 단계; 및
상기 음절 바이그램들 각각과 그에 대응되는 임베딩을 대응시켜 룩업테이블에 기록하는 단계;를 포함하는 것을 특징으로 하는 한국어 개체명 인식방법.
제1항에 있어서,
상기 제2단계에서,
상기 개체명 인식은 기계학습기반의 딥러닝 알고리즘으로 수행됨을 특징으로 하는 한국어 개체명 인식방법.
한국어 개체명 인식장치에 있어서,
한국어 로 텍스트를 입력받아 분할한 음절 바이그램들 중 어절 어두에 위치함이 표식된 음절 바이그램들과 나머지 음절 바이그램들에 대해, 상기 음절 바이그램들 각각과 그에 대응되는 임베딩을 대응시켜 기록한 룩업 테이블을 구비하는 데이터베이스;
질의문장이 입력되면, 질의문장을 음절 바이그램들로 분할하여 출력하는 음절 바이그램 분할부;
상기 질의문장에 대한 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램을 검출하여 표식을 부가하는 어절 어두 음절 바이그램 판별 및 표식부;
상기 어절 어두 음절 바이그램 판별 및 표식부가 출력하는 음절 바이그램들에 대응되는 임베딩을 상기 룩업테이블로부터 독출하여 개체명 인식을 이행하는 개체명 인식부;를 포함하는 것을 특징으로 하는 한국어 개체명 인식장치.
제4항에 있어서,
한국어 로 텍스트를 입력받아 음절 바이그램들로 분할하는 음절 바이그램 분할부;
상기 음절 바이그램들 중 어절 어두에 위치하는 음절 바이그램을 검출하여 표식하는 어절 어두 음절 바이그램 판별 및 표식부; 및
상기 음절 바이그램들을 인공신경망 기반 비지도 학습하여 음절 바이그램의 의미를 나타내는 고차원 벡터 표현인 임베딩을 생성하여 상기 음절 바이그램들과 그에 대응되는 임베딩을 대응시켜 상기 룩업 테이블에 기록하는 음절 바이그램 임베딩 학습부;를 더 포함하는 것을 특징으로 하는 한국어 개체명 인식장치.
제4항에 있어서,
상기 개체명 인식부는, 기계학습기반의 딥러닝 알고리즘에 따라 개체명을 인식함을 특징으로 하는 한국어 개체명 인식장치.