KR20190065665A - 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 - Google Patents

딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 Download PDF

Info

Publication number
KR20190065665A
KR20190065665A KR1020170165072A KR20170165072A KR20190065665A KR 20190065665 A KR20190065665 A KR 20190065665A KR 1020170165072 A KR1020170165072 A KR 1020170165072A KR 20170165072 A KR20170165072 A KR 20170165072A KR 20190065665 A KR20190065665 A KR 20190065665A
Authority
KR
South Korea
Prior art keywords
vector
word
context
tag
sentence
Prior art date
Application number
KR1020170165072A
Other languages
English (en)
Other versions
KR102043353B1 (ko
Inventor
양기주
Original Assignee
주식회사 솔루게이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔루게이트 filed Critical 주식회사 솔루게이트
Priority to KR1020170165072A priority Critical patent/KR102043353B1/ko
Publication of KR20190065665A publication Critical patent/KR20190065665A/ko
Application granted granted Critical
Publication of KR102043353B1 publication Critical patent/KR102043353B1/ko

Links

Images

Classifications

    • G06F17/278
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 딥 러닝을 이용한 개체명 인식 기술에 관한 것으로, 한국어 개체명 인식 방법은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 단어 벡터 및 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 단어 문맥 벡터 및 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성한다.

Description

딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법{Apparatus and method for recognizing Korean named entity using deep-learning}
본 발명은 자연어 처리 기술에 관한 것으로, 특히 한국어 문장이 주어졌을 때 주어진 문장 내에 포함된 개체명(named entity)이 사전에 포함되어 있지 않은 경우에도 해당 개체명을 올바르게 인식할 수 있는 한국어 개체명 인식 장치, 방법 및 그 방법을 기록한 기록매체에 관한 것이다.
개체명(named entity)이란 문서에서 특정한 의미를 가지고 있는 단어 또는 어구를 말한다. 정보 검색에서 개체명은 주요 검색 대상이 되며, 질의/응답에서는 주요 질의/응답 대상이 된다. 이러한 개체명을 추출하기 위해 자연어 처리 분야에서 개체명 인식 및 분류(named entity recognition and classification) 연구가 활발하게 진행되었다.
개체명 인식 및 분류에 관한 연구는 영어권에서 먼저 발전하였다. 영어권에서는 이하에서 제시된 선행기술문헌을 통해 대문자나 호칭 기호 자질 등 영어에서 나타나는 특징을 이용하여 높은 개체명 인식 및 분류 성능을 보여주었다.
초기 개체명 인식은 HMM(Hidden Markov Model)을 이용하여 사람, 단체, 지역, 시간, 날짜, 백분율, 금액, NOT-A-NAME 총 8개의 범주에 대하여 개체명을 부착하였다. 이 연구에서는 대문자나 호칭 기호 등 영어에서 나타나는 문자의 특징을 자질로 사용하여 높은 성능을 보였다. 최근에는 트위터 글을 분석하여 개체명을 인식하는 실험이 있었다. 트위터 글은 오타나 축약어, 신조어 등의 사용으로 단어의 원형을 복원하는 작업이 필요한데, 이러한 축약어 또는 신조어를 정규화하고 학습을 통해 개체명을 인식할 수 있음을 보여주었다.
최근에는 딥 러닝을 이용한 개체명 인식 기술이 꾸준히 연구되고 있는데, 개체명 인식을 위해 개체명 사전을 이용하는 방법이 제시된 바 있다. 이 방법은 개체명 인식 성능 향상을 위해 위키피디아를 이용하여 개체명 사전을 구축하는 방법으로서, 사전의 확장이 가능하다는 장점에도 불구하고 사전에 포함되어 있지 않은 개체명을 인식하는데 어려움이 존재하였다. 나아가, 한국어를 대상으로 하는 개체명 인식에 있어서는 성능 개선을 위해 추가로 사용할 수 있는 자질이 부족한 점이 문제점으로 지적되었다.
DM. Bikel, S. Miller, R. Schwartz, R. Weischedel, "Nymble: a High-Performance Learning Namefinder," Proc. of the 5th Conference on Applied Natural Language Processing, pp. 194-201, 1997. X. Liu, M. Zhou, F. Wei, Z. Fu and X. Zhou, "Joint Inference of Named Entity Recognition and Normalization for Tweets," Proc. of the 50th Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 526-535, 2012.
본 발명이 해결하고자 하는 기술적 과제는, 종래의 자연어 처리에 있어서 개체명 인식을 위해 사용되는 딥 러닝 기술이 영어의 언어적 특성에 기반한 것인 관계로 한국어 문장을 올바르게 처리할 수 없다는 한계를 극복하고, 한국어 개체명 인식을 위한 사전 내에 포함되어 있지 않은 새로운 개체명이 제시되는 경우 인위적인 규칙 생성 내지 사전 갱신/확장으로 인해 추가적인 유지 보수 비용이 발생하는 문제를 해결하고자 한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 한국어 개체명(named entity) 인식 방법은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하는 단계; 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하는 단계; 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 단계; 및 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성한다.
일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 단어 문맥 벡터를 생성하는 단계는, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다.
일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 태그 문맥 벡터를 생성하는 단계는, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.
일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 형태소를 분석하는 단계는, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있다.
일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 형태소를 분석하는 단계는, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환할 수 있다.
일 실시예에 따른 한국어 개체명 인식 방법에서, 상기 단어 벡터 및 상기 품사 태그 벡터를 생성하는 단계는, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다. 또한, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것이 바람직하다.
일 실시예에 따른 한국어 개체명 인식 방법은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하는 단계; 및 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 단계를 더 포함할 수 있다.
한편, 이하에서는 상기 기재된 한국어 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 한국어 개체명(named entity) 인식 장치는, 한글을 포함하는 문장을 입력받는 입력부; 입력된 상기 문장에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 메모리; 및 상기 프로그램을 구동하는 프로세서를 포함하되, 상기 메모리에 저장된 프로그램은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함한다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환할 수 있다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다. 또한, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것이 바람직하다.
일 실시예에 따른 한국어 개체명 인식 장치에서, 상기 메모리에 저장된 프로그램은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킬 수 있다.
본 발명의 실시예들은, 한국어 고유의 특징인 한글 자소 단위에 기반을 둔 단어 벡터를 사용하되, 단어 문맥과 품사 태그 문맥을 동시에 개체명 인식에 활용함으로써, 입력 문장 내에 새로운 개체명이 등장하더라도 해당 한국어 개체명을 효과적으로 인식할 수 있고, 적은 규모의 개체명 태깅 말뭉치만으로도 개체명 인식기를 학습시킬 수 있으며, 사전 기반의 학습 방식을 채택하지 않을 뿐만 아니라 인위적인 규칙을 만들지 않으므로 사전 갱신이나 규칙 보충을 위한 지속적인 유지 보수의 비용과 전문 지식이 요구되지 않는다.
도 1은 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 양방향 LSTM(bidirectional long short-term memory)을 통한 문맥 벡터의 처리 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 개체명 인식기를 학습시키는 추가적인 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 장치를 도시한 블록도이다.
본 발명의 실시예들을 설명하기에 앞서, 자연어 처리 및 개체명 인식 기술들에서 지목되는 문제점을 검토한 후, 이러한 문제점들을 해결하기 위해 본 발명의 실시예들이 채택하고 있는 아이디어와 기술적 수단을 순차적으로 소개하도록 한다.
컴퓨터 연산 성능과 인공지능 기술의 발전과 더불어, 자연어 처리에 대한 연구가 활발히 진행되고 있다. 특히 개체명 인식을 위해, 개체명 사전과 결합 단어 사전 등을 이용한 규칙 기반의 개체명 인식 방법이 제시된 바 있다. 종래의 딥 러닝 기반의 개체명 인식 기술들은 개체명 태그(tag)를 사용하여 말뭉치를 구축한 후, 딥 러닝 기법으로 기계학습을 시키는 방법인데, 이러한 방법들은 대부분의 경우 영어권의 나라들에서 개발되었기에 고유명사는 대문자로 시작하는 영어의 특성을 잘 반영한 것으로 판단된다.
그러나, 한국어의 경우에는 대문자가 존재하지 않을 뿐만 아니라 영어에는 존재하지 않는 명사구의 끝에 붙는 조사 또는 용언의 끝에 위치하는 어미가 문법상의 특별한 의미를 갖는다. 따라서 본 발명의 실시예들에서는 이와 같이 영어에는 존재하지 않지만 한국어에는 존재하는 한국어 고유의 특성에 관한 정보를 추출하여 추출된 정보들을 개체명 태그를 이용한 딥 러닝 기법에 추가하여 개체명 인식의 정확도를 향상시키고자 한다. 이를 위해 본 발명의 실시예들은, 한글 자소를 기반으로 하는 단어 벡터를 사용함으로써 개체명 인식에 한국어 고유의 특성을 반영하였다.
또한, 자질 부족 문제를 해결하기 위해 단어 임베딩(word embedding) 자질을 개체명 인식 및 분류에 이용하였다. 단어 임베딩(word embedding)이란 언어 모델의 하나로서 문장 속 단어들 사이의 관계를 비지도 학습(Unsupervised Learning) 방식으로 분석하여 특징화하는 것이다. 여기서, 언어 모델(language model)은 문장을 이루는 단어들의 확률분포로서, 음성 인식, 기계 번역, 형태소 분석, 필체 인식, 정보 분석 등의 분야에서 매우 중요한 정보로 사용되고 있다.
이하에서는 도면을 참조하여 본 발명의 실시예들을 구체적으로 설명하도록 한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 덧붙여, 명세서 전체에서, 어떤 구성 요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
특별히 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 방법을 도시한 흐름도이다.
S110 단계에서, 한국어 개체명 인식 장치는, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭한다.
여기서, 형태소를 분석하는 과정은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것이 바람직하다.
알파벳이나 기타 영어권 국가의 문자와 차별화되어, 한글은 초성, 중성, 종성의 3개 자소를 기반으로 구성되며, 이들 각각에 문장이나 단어 내의 의미가 부여되는 경우가 존재한다. 따라서, 본 발명의 실시예들은 단어나 글자가 아닌 '자소'를 기준으로 형태소를 분석하여 단어 벡터를 생성하는 전략을 채택하였다.
어떤 단어가 문장 내에서 가지고 있는 의미나 역할을 표현하기 위해 단어 임베딩(word embedding)의 한 가지 방법으로 단어 벡터가 활용될 수 있는데, 일반적으로 단어(word) 단위로 단어 벡터(word vector)를 생성시키는 전략은 영어권에서는 상당히 효율적이라고 알려져 있다. 그러나 한글이나 터키어처럼 조사와 어미의 활용이 높은 언어, 즉 형태적으로 풍부한 언어(morphologically rich language)에서는 단어 중심의 벡터로는 문법적 의미를 충분히 표현할 수 없다. 따라서 형태소 단위로 단어 벡터를 생성하는 전략이 필요하다.
형태적으로 풍부한 언어를 처리하기 위해 영어, 스페인어 등(single byte 문자)를 대상으로 글자(character) 기반으로 단어 벡터를 생성하려는 시도가 다수 있었으며, 한국어의 경우에도 자연스런 발상으로 한글을 글자 단위의 단어 벡터를 생성하려는 시도가 존재하였다. 그러나, 이러한 시도는 자소 단위에도 문장 내의 의미나 역할이 부여될 수 있는 한국어의 특성을 온전히 반영하고 있는 것이 아니었기에 자소 단위의 형태소 분석 내지 데이터 처리 단위의 개선된 형태가 제시될 필요가 있다.
통상적인 한글의 한 글자는 (초성+중성+종성) 또는 (초성+중성)으로 구성된다. 다른 언어에는 없는 특징으로서 초성, 중성, 종성이 글자 및 단어 내에서 부여된 역할이 있으며, 실제로 받침은 형태소 분석의 형태소 단위가 될 수 있다. 따라서 본 발명의 실시예들에서는 한글의 자소를 기반으로 하는 단어 벡터를 생성하여 한국어 개체명 인식에 사용하고자 한다.
한글 조합형 문자 코드에 관하여, 본 발명의 실시예들은 그 일례로서 표준인 KS5700 조합형 한글을 대상으로 하고 있으며 컴퓨터에서 한글에 할당된 총 조합형 한글의 글자수는 11,172개이다(참고: KS5601 완성형의 경우 2,350개). 또한, 한자 코드는 표준 한자 4,888개가 사용될 수 있다.
한글은 자소 문자로서 총 24자의 자소(자음 14자 + 모음 10자)로 구성되는데, 한글 한 글자는 (초성+중성+종성) 또는 (초성+중성)으로 이루어진다. 초성 글자는 기본 자음 14자 및 복합 자음 5자로 총 19자이고, 중성 글자는 기본 모음 10자 및 복합 모음 11자로 총 21자이며, 종성 글자는 홑받침(16자) 및 겹받침(11자)으로 총 27자이다.
분석 대상 문서가 외국어를 포함하는 경우, 표준 ASCII 코드 중 32번부터 127번까지 95개를 모두 수용할 수 있다. 독일어, 스페인어 등 영어가 아닌 단일 바이트(single-byte)로 표현되는 글자는 모두 영어로 대체할 수 있으며, 일본어 및 중국어는 한글 글자로 변환하여 사용할 수 있다.
이제, 본 발명의 실시예들이 제안하는 자소 단위 단어 코딩 방법을 설명하도록 한다.
한글 조합형 글자 수는 앞서 기술한 바와 같이 11,172개이며 이는 영어의 알파벳에 비해서 상당히 큰 수이다. ASCII 코드만 사용하는 영어권에서 적용하는 글자 기반(글자 단위)의 단어 벡터 알고리즘을 그대로 한국어에 적용하는 것은 좋은 성능을 보여주지 못한다.
본 발명의 실시예들에서는 한글의 모든 자소를 별도의 글자로 취급한다. 예를 들어 초성의 'ㄱ'과 종성의 'ㄱ'은 다른 글자로 취급된다. 구현의 관점에서, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것이 바람직하다. 아래 표 1을 참조하여 자소 코드의 예를 설명하도록 한다.
Figure pat00001
표 1에 따르면, 자소 코드는 자소 글자와 식별자의 결합으로 표현될 수 있다. 여기서, 단독 초성이나 단독 종성은, ㅋㅋㅋ 또는 ㅜㅜ 등과 같은 표기를 말한다. 즉, 본 발명의 실시예들에서는 형태소 분석을 거친 형태소 단위의 단어를 이상에서 제시된 방법에 따라 자소 단위로 구성된 자소 코드로 변환하여 사용한다. 예를 들어, "철수는"이라는 단어는 표 1에 의해 다음과 같은 자소 코드로 변환될 수 있다.
Figure pat00002
따라서, 본 발명의 실시예들에서 사용되는 자소 코드(글자)는 다음의 표 2와 같이 총 190개의 글자 코드를 사용한다. 물론, 글자 코드의 수는 필요에 따라 변경될 수 있으며 알고리즘의 성능에 영향을 주지 않는다.
Figure pat00003
이제, 자소 코드 기반의 단어 표현을 살펴보자.
자소 코드 인코딩을 위해, one-of-key 코딩 방식을 사용할 수 있으며, 본 발명의 실시예들에서는 190×1 벡터로 표현될 수 있다. 예를 들어, 'ㄱ1'과 'ㄴ1'이 각각 코드 순서 1과 2에 할당한다면, 다음과 같은 벡터로 표현된다.
Figure pat00004
따라서 자소 코드의 종류가 총 K개라면, 자소 코드는 K×1 차원 벡터로 표현된다. 그러므로 자소 단위 단어의 조합을 위해, 어떤 하나의 단어가 이상의 표 2를 통해 정의한 자소 코드 N개로 구성된다면, 그 단어는 K×N 차원(여기서, K는 자소 코드의 크기)의 행렬로 표현될 수 있다.
Figure pat00005
예를 들어, "철수는"이라는 단어는, 총 10 개의 자소 코드 벡터로 구성되므로, 자소 코드가 190×1 차원의 벡터로 표현된다면, 그 행렬 표현은 다음의 표 3과 같다.
Figure pat00006
S120 단계에서, 상기 한국어 개체명 인식 장치는, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성한다. 여기서, 품사 태그는 각각의 형태소와 1 대 1로 대응하며, 문자열을 형태소화하고 각각의 형태소에 대응하는 품사 태그를 단어처럼 나열하면 품사 태그만으로 구성된 문장을 얻을 수 있다. 이렇게 얻은 태그 문장의 태그 개수는 원래 문장의 단어 개수와 정확히 일치한다.
이러한, 단어 벡터 및 품사 태그 벡터를 생성하는 과정에서는, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타낼 수 있다.
단어 임베딩 방법에 관하여는 인공 신경망을 이용하는 NNLM(Neural Network Language Model)이 제시된 바 있으며, 최근에는 현재 단어(word)의 문맥을 이루는 벡터(vector)들의 합으로 현재 단어의 벡터를 결정하는 CBOW 모델이 제안되었다.
CBOW 모델은, NNLM의 구조를 변경해 은닉층(Hidden Layer) 대신 투영층(Projection Layer)을 사용함으로써 학습 시간을 현저히 단축시켰으며, NNLM에 비해 의미 정확도 및 구문 정확도를 향상시켰다. 본 발명의 실시예들에서는 CBOW 모델을 이용하여 단어 임베딩을 수행하고, 이를 통해 생성된 자질을 한국어 개체명 인식 및 분류에 사용하는 방법을 채택하였으나, 본 발명의 실시예들이 제안하는 기술적 수단 및 아이디어가 이러한 단어 임베딩의 특정 유형에 제한되는 것이 아님은 당연하다.
구현의 관점에서, 말뭉치 전체를 대상으로 태그 문장을 만들고 CBOW, Skip-gram 또는 GloVe 모델 중 적어도 하나에 따른 단어 벡터 생성용 알고리즘을 이용하여 태그 벡터를 생성할 수 있다.
S130 단계에서, 상기 한국어 개체명 인식 장치는, S120 단계를 통해 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성한다. 본 발명의 실시예들은, 단어 문맥과 품사 태그 문맥을 동시에 사용하도록 설계되었는데, S120 단계를 통해 생성된 태그 벡터를 사용하여 말뭉치 전체를 태그 문장화시킨 후, 태그 문장 말뭉치에서 각각의 문장을 꺼내어 양방향 LSTM에 입력한다.
LSRM은 장기 의존성(long-term dependency) 문제를 해결하기 위해 도입된 순환신경망(resurrent neural networks, RNN)의 일종으로서, 셀 스테이트(cell state)에 정제된 구조를 가진 게이트(gate)를 활용하여 정보를 더하거나 제거함으로써 특정 구성 요소가 미래의 예측 결과에 영향을 주도록 데이터의 흐름을 제어하는 것을 특징으로 한다. 여기서는 본 발명의 핵심적인 아이디어를 흐릴 우려가 있으므로 LSTM 자체에 관한 자세한 설명은 생략하도록 한다. 다만, 양방향 LSTM을 통해 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 과정에 대해서는 이후 도 2를 참고하여 설명하도록 한다.
S140 단계에서, 상기 한국어 개체명 인식 장치는, S130 단계를 통해 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 새로운 훈련용 문맥 벡터를 생성한다.
도 2는 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 양방향 LSTM(bidirectional long short-term memory)을 통한 문맥 벡터의 처리 과정을 설명하기 위한 도면이다.
우선, 단어 문맥 벡터를 생성하는 과정(S131)을 살펴보면, 입력된 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성한다.
이와 더불어, 태그 문맥 벡터를 생성하는 과정(S132)을 살펴보면, 입력된 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성한다.
이제, S140 단계를 통해 각각의 단어 문맥 벡터와 태그 문맥 벡터를 결합하여 새로운 훈련용 문맥 벡터를 생성하게 된다.
한편, 한국어에서의 개체명 인식을 위해서는, 반지도 학습인 Co-Training 기법을 변형한 규칙 기반의 방식을 활용하거나, 지도 학습인 CRF 내지 최대 엔트로피 모델(Maximum Entropy Model)을 이용하는 방법을 활용 가능하다. 예를 들어, CRF로 개체명의 경계만을 인식하고 최대 엔트로피 모델을 이용하여 개체명을 분류하는 방법을 사용할 수 있다.
도 3은 본 발명의 일 실시예에 따른 도 1의 한국어 개체명 인식 방법에서, 개체명 인식기를 학습시키는 추가적인 과정을 설명하기 위한 흐름도이다.
S150 단계에서, 한국어 개체명 인식 장치는, 앞서 S140 단계를 통해 생성된 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력한다. 그런 다음, S160 단계에서, 상기 한국어 개체명 인식 장치는, 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킨다.
도 4는 본 발명의 일 실시예에 따른 딥 러닝을 이용한 한국어 개체명 인식 장치(20)를 도시한 블록도로서, 앞서 도 1 내지 도 3을 통해 기술한 한국어 개체명 인식 방법을 장치 구성의 관점에서 재구성한 것이다. 따라서, 여기서는 설명의 중복을 피하고자 각 구성요소의 기능만을 약술하도록 한다.
입력부(21)는, 한글을 포함하는 문장(10)을 입력받는 구성으로서, 전자적인 형식(format)에 따른 부호화된 문장 데이터를 입력받는 수단이다.
메모리(23)는 입력부(21)를 통해 입력된 상기 문장(10)에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 구성이며, 프로세서(25)는, 이러한 프로그램을 구동하는 수단이다.
여기서, 상기 메모리(23)에 저장된 프로그램은, 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함한다.
상기 메모리(23)에 저장된 프로그램은, 입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성할 수 있다. 이와 더불어, 상기 메모리(23)에 저장된 프로그램은, 입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성할 수 있다.
특히, 상기 메모리(23)에 저장된 프로그램은, (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정할 수 있으며, 초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것이 바람직하다.
또한, 상기 메모리(23)에 저장된 프로그램은, 단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내되, 상기 단어 임베딩은, CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따를 수 있다.
나아가, 상기 메모리(23)에 저장된 프로그램은, 생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시킴으로서, 인식된 개체명(30)을 출력 내지 저장할 수 있다.
본 발명의 실시예들에 따르면, 한국어 고유의 특징인 한글 자소 단위에 기반을 둔 단어 벡터를 사용하되 단어 문맥과 품사 태그 문맥을 동시에 개체명 인식에 활용함으로써, 입력 문장 내에 새로운 개체명이 등장하더라도 해당 한국어 개체명을 효과적으로 인식할 수 있고, 적은 규모의 개체명 태깅 말뭉치만으로도 개체명 인식기를 학습시킬 수 있으며, 사전 기반의 학습 방식을 채택하지 않을 뿐만 아니라 인위적인 규칙을 만들지 않으므로 사전 갱신이나 규칙 보충을 위한 지속적인 유지 보수의 비용과 전문 지식이 요구되지 않는다.
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 입력 문장
20: 한국어 개체명 인식 장치 21: 입력부
23: 메모리 25: 프로세서
30: 개체명 DB

Claims (17)

  1. 입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하는 단계;
    자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하는 단계;
    생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하는 단계; 및
    생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 단계를 포함하는 한국어 개체명(named entity) 인식 방법.
  2. 제 1 항에 있어서,
    상기 단어 문맥 벡터를 생성하는 단계는,
    입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 방법.
  3. 제 1 항에 있어서,
    상기 태그 문맥 벡터를 생성하는 단계는,
    입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 방법.
  4. 제 1 항에 있어서,
    상기 형태소를 분석하는 단계는,
    (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것을 특징으로 하는 한국어 개체명 인식 방법.
  5. 제 1 항에 있어서,
    상기 형태소를 분석하는 단계는,
    초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것을 특징으로 하는 한국어 개체명 인식 방법.
  6. 제 1 항에 있어서,
    상기 단어 벡터 및 상기 품사 태그 벡터를 생성하는 단계는,
    단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내는 것을 특징으로 하는 한국어 개체명 인식 방법.
  7. 제 6 항에 있어서,
    상기 단어 임베딩은,
    CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것을 특징으로 하는 한국어 개체명 인식 방법.
  8. 제 1 항에 있어서,
    생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하는 단계; 및
    상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 단계를 더 포함하는 한국어 개체명 인식 방법.
  9. 제 1 항 내지 제 8 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 한글을 포함하는 문장을 입력받는 입력부;
    입력된 상기 문장에 대하여 문장 내에서 특정한 의미를 갖는 단어 또는 어구인 개체명(named entity)을 인식하는 프로그램을 저장하는 메모리; 및
    상기 프로그램을 구동하는 프로세서를 포함하되,
    상기 메모리에 저장된 프로그램은,
    입력된 문장에 대한 한글의 자소를 기반으로 형태소를 분석하여 각각의 형태소에 대응하는 품사 태그(tag)를 매칭하고, 자소 기반의 형태소 및 품사 태그에 대하여 단어 벡터(word vector) 및 품사 태그 벡터(POS-tag vector)를 생성하고, 생성된 상기 단어 벡터 및 상기 품사 태그 벡터를 양방향 LSTM(bidirectional long short-term memory)에 입력하여 각각 단어 문맥 벡터 및 태그 문맥 벡터를 생성하며, 생성된 상기 단어 문맥 벡터 및 상기 태그 문맥 벡터를 결합(concatenate)하여 훈련용 문맥 벡터를 생성하는 명령어를 포함하는 한국어 개체명(named entity) 인식 장치.
  11. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    입력된 상기 단어 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 단어의 역할과 의미가 반영된 단어 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 장치.
  12. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    입력된 상기 품사 태그 벡터에 대하여 전방향(forward) 진행을 통해 좌측 문맥을 추출하고 역방향(backward) 진행을 통해 우측 문맥을 추출한 후, 추출된 상기 좌측 문맥과 상기 우측 문맥을 결합하여 품사 태그의 역할과 의미가 반영된 태그 문맥 벡터를 생성하는 것을 특징으로 하는 한국어 개체명 인식 장치.
  13. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    (초성+중성+종성) 또는 (초성+중성)으로 구성된 한글에 대해 단어 내의 초성, 중성 및 종성 각각의 역할을 형태소 분석의 단위로 설정하는 것을 특징으로 하는 한국어 개체명 인식 장치.
  14. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    초성 자음 또는 중성 모음, 종성 자음 및 단독 초성 또는 단독 종성 각각에 대하여 별도의 글자임을 나타내는 식별자를 부여함으로써, 입력된 문장을 한글의 자소 단위로 구성된 자소 코드로 변환하는 것을 특징으로 하는 한국어 개체명 인식 장치.
  15. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    단어 임베딩(word embedding)을 이용하여 해당 단어가 문장 내에서 갖는 의미 또는 역할을 나타내는 것을 특징으로 하는 한국어 개체명 인식 장치.
  16. 제 15 항에 있어서,
    상기 단어 임베딩은,
    CBOW, Skip-gram 또는 GloVE 모델 중 적어도 하나에 따르는 것을 특징으로 하는 한국어 개체명 인식 장치.
  17. 제 10 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    생성된 상기 훈련용 문맥 벡터를 개체명 태깅을 위한 CRF(conditional random field) 모델에 입력하고, 상기 훈련용 문맥 벡터와 이에 대응하는 개체명 태그를 사용하여 개체명 인식기를 학습시키는 것을 특징으로 하는 한국어 개체명 인식 장치.
KR1020170165072A 2017-12-04 2017-12-04 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 KR102043353B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170165072A KR102043353B1 (ko) 2017-12-04 2017-12-04 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170165072A KR102043353B1 (ko) 2017-12-04 2017-12-04 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190065665A true KR20190065665A (ko) 2019-06-12
KR102043353B1 KR102043353B1 (ko) 2019-11-12

Family

ID=66845972

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170165072A KR102043353B1 (ko) 2017-12-04 2017-12-04 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102043353B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
KR20200092487A (ko) * 2019-01-10 2020-08-04 한국전자통신연구원 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
CN111881692A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 基于多训练目标的机构实体抽取方法、系统及装置
KR20210017973A (ko) * 2019-08-09 2021-02-17 고려대학교 산학협력단 샴쌍둥이 네트워크를 이용한 식재료 페어링 예측 방법 및 서버
KR20210085158A (ko) * 2019-12-30 2021-07-08 한국과학기술원 문맥 정보를 고려한 개체명 인식 방법 및 장치

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DM. Bikel, S. Miller, R. Schwartz, R. Weischedel, "Nymble: a High-Performance Learning Namefinder," Proc. of the 5th Conference on Applied Natural Language Processing, pp. 194-201, 1997.
X. Liu, M. Zhou, F. Wei, Z. Fu and X. Zhou, "Joint Inference of Named Entity Recognition and Normalization for Tweets," Proc. of the 50th Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 526-535, 2012.
나승훈 외 1명, "문자 기반 LSTM CRF를 이용한 개체명 인식", 한국정보과학회 2016년 한국컴퓨터종합학술대회 논문집, pp. 729-731 (2016.06) *
남석현 외, 한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용, 제29회 한글 및 한국어 정보처리 학술대회 논문집 (2017.10.13.)* *
박용민 외, 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV 프로그램 (2014.07.)* *
조형미 외, "순환 신경망과 합성곱 신경망을 이용한 개체명 인식", 한국정보과학회 2017년 한국컴퓨터종합학술대회 논문집, pp.636-638 ( 2017.06) *
최윤수 외, "Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류", 정보과학회논문지 제43권 제6호, 2016.6, pp.678-685 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092487A (ko) * 2019-01-10 2020-08-04 한국전자통신연구원 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
KR20210017973A (ko) * 2019-08-09 2021-02-17 고려대학교 산학협력단 샴쌍둥이 네트워크를 이용한 식재료 페어링 예측 방법 및 서버
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
KR20210085158A (ko) * 2019-12-30 2021-07-08 한국과학기술원 문맥 정보를 고려한 개체명 인식 방법 및 장치
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111881692A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 基于多训练目标的机构实体抽取方法、系统及装置

Also Published As

Publication number Publication date
KR102043353B1 (ko) 2019-11-12

Similar Documents

Publication Publication Date Title
Bharadwaj et al. Phonologically aware neural model for named entity recognition in low resource transfer settings
US10796105B2 (en) Device and method for converting dialect into standard language
KR102043353B1 (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
Lin et al. Hierarchical recurrent neural network for document modeling
Zitouni et al. Maximum entropy based restoration of Arabic diacritics
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
KR20190046432A (ko) 신경망 기계번역 방법 및 장치
US20140163951A1 (en) Hybrid adaptation of named entity recognition
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Poostchi et al. BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset
Antony et al. Machine transliteration for indian languages: A literature survey
Mansur et al. Feature-based neural language model and chinese word segmentation
Arvanitis et al. Translation of sign language glosses to text using sequence-to-sequence attention models
Ekbal et al. Named entity recognition and transliteration in Bengali
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
Nathani et al. Part of Speech Tagging for a Resource Poor Language: Sindhi in Devanagari Script using HMM and CRF
Li et al. Janko at SemEval-2023 Task 2: Bidirectional LSTM Model Based on Pre-training for Chinese Named Entity Recognition
M Noaman et al. A hybrid approach for automatic morphological diacritization of Arabic text
Xia et al. Distributed representation of Chinese collocation

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant