KR101846824B1 - 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 - Google Patents

개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 Download PDF

Info

Publication number
KR101846824B1
KR101846824B1 KR1020170169062A KR20170169062A KR101846824B1 KR 101846824 B1 KR101846824 B1 KR 101846824B1 KR 1020170169062 A KR1020170169062 A KR 1020170169062A KR 20170169062 A KR20170169062 A KR 20170169062A KR 101846824 B1 KR101846824 B1 KR 101846824B1
Authority
KR
South Korea
Prior art keywords
morpheme
word
result
divided
inference
Prior art date
Application number
KR1020170169062A
Other languages
English (en)
Inventor
강상우
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020170169062A priority Critical patent/KR101846824B1/ko
Application granted granted Critical
Publication of KR101846824B1 publication Critical patent/KR101846824B1/ko

Links

Images

Classifications

    • G06F17/2765
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 입력텍스트를 형태소 단위로 분할하고, 임베딩모델을 기초로 이와 같이 분할된 형태소로부터 개체명을 추출하는, 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체에 관한 것으로서, 본 발명의 일 실시예에 따른 시스템은, 입력텍스트를 기설정된 문장단위로 분할한 분할텍스트를 생성하는 텍스트분할부; 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부; 임베딩모델을 기초로 상기 분할형태소로부터 개체명에 대한 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부; 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함한다.

Description

개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체{Automated Named-entity Recognizing Systems, Methods, and Computer-Readable Mediums}
본 발명은 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체에 관한 것으로서, 보다 상세하게는 입력텍스트를 형태소 단위로 분할하고, 임베딩모델을 기초로 이와 같이 분할된 형태소로부터 개체명을 추출하는, 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체에 관한 것이다.
개체명이란 문장 내에서 인명, 지명, 기관명 등과 같은 고유한 의미가 있는 명사를 의미한다. 개체명 인식이란 문서 내에서 이와 같은 개체명을 추출하고 카테고리를 분류하는 것을 의미한다.
종래의 개체명 인식방법은 사전기반, 규칙기반의 방법을 사용하였지만, 최근에는 기계학습기술을 통하여 개체명을 인식을 하기 위한 기술이 개발 중에 있다. 특히, RNN(Recurrent Neural Network), CNN(Convolutional Neural Network) 등의 기술을 기반으로 한 인공신경망 모델이 기존 방법보다 상대적으로 높은 방법을 보인다.
다만, 개체명 인식방법과 같이 문서 내의 순차적인 데이터 패턴을 인식하기 위한 RNN 기반으로 한 인공신경망 모델은 이전 상태를 기억하여 순차적인 데이터 패턴을 인식하는데 탁월하지만, 기울기 손실의 문제로 장기 의존성 문제를 다루지 못한다는 단점을 가지고 있다.
따라서, RNN 기반의 인공신경망 모델이 아닌 이와 같은 단점을 해결할 수 있는 LSTM 기반의 인공신경망 모델을 사용하는 개체명 인식시스템 혹은 개체명 인식방법에 대한 연구가 활발하게 수행되고 있다.
본 발명의 목적은, 입력텍스트를 형태소 단위로 분할하고, 임베딩모델을 기초로 이와 같이 분할된 형태소로부터 개체명을 추출하는, 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체를 제공하는 것이다.
상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는, 개체명 인식시스템으로서, 입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부; 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부; 상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부; 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함하고, 상기 제1 추론부는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고, 상기 제2 추론부는 1 이상의 학습된 인공신경망 모델을 포함하는, 개체명 인식시스템을 제공한다.
본 발명의 일 실시예에서는, 상기 텍스트분할부는, 상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고, 상기 형태소분할부는, 상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성할 수 있다.
본 발명의 일 실시예에서는, 상기 제1 추론부는, 말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델; 및 말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델;을 포함하고, 상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력될 수 있다.
본 발명의 일 실시예에서는, 상기 제1 추론부는, 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 개체명분류에 따라 분류할 수 있도록 하는 개체명사전을 기반으로 학습된 개체명사전모델;을 더 포함하고, 상기 개체명사전모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소가 인명, 지명, 및 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 나타내는 사전세부결과를 도출할 수 있다.
본 발명의 일 실시예에서는, 상기 제1 추론부는, 상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩모델;을 더 포함하고, 상기 음절임베딩모델은 상기 단어임베딩모델 혹은 상기 품사임베딩모델에 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있다.
본 발명의 일 실시예에서는, 상기 단어임베딩모델은, 일반화된 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델; 및 상기 입력텍스트와 관련된 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델;을 포함하고, 상기 글로벌임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제1 단어세부결과를 도출하고, 상기 로컬임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제2 단어세부결과를 도출하고, 상기 단어임베딩모델은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 기초로 상기 단어세부결과를 도출할 수 있다.
본 발명의 일 실시예에서는, 상기 개체명사전모델은, 상기 개체명사전에 저장된 개체명을 N의 음절단위로 분할하여 인명, 지명, 및 기관명 각각에 대한 N그램데이터를 추출하는 N그램추출부; 및 상기 분할형태소가 상기 인명, 지명, 및 기관명 각각의 N그램데이터에 매칭이 되는지 여부에 기초하여 사전세부결과를 도출하는 N그램도출부를 포함할 수 있다.
본 발명의 일 실시예에서는, 상기 음절임베딩모델은, 상기 분할형태소의 각각의 음절이 순방향으로 입력이 되는 LSTM 모듈을 포함하는 순방향LSTM모듈; 및 상기 분할형태소의 각각의 음절이 역방향으로 입력이 되는 LSTM 모듈을 포함하는 역방향LSTM모듈;을 포함할 수 있다.
본 발명의 일 실시예에서는, 제2 추론부는, 상기 제1 추론결과를 기초로 Bidirectional LSTM 방식에 의하여 추론결과를 생성하는 LSTM모듈; 및 Bidirectional LSTM 방식에 의하여 생성된 추론결과를 기초로 CRF 알고리즘방식에 의하여 제2 추론결과를 생성하는 CRFs모듈;을 포함하고, 상기 LSTM모듈은 복수의 인풋 레이어를 가지고, 복수의 인풋레이어 각각에는 복수의 상기 제1 추론결과 각각이 입력될 수 있다.
상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 장치로 구현되는, 개체명 인식방법으로서, 입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계; 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계; 상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계; 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고, 상기 제1 추론단계는 2 이상의 학습된 인공신경망 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고, 상기 제2 추론단계는 1 이상의 학습된 인공신경망 단계를 포함하는, 개체명 인식방법을 제공한다.
본 발명의 일 실시예에서는, 상기 텍스트분할단계는, 상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고, 상기 형태소분할단계는, 상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성할 수 있다.
본 발명의 일 실시예에서는, 상기 제1 추론단계는, 말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및 말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고, 상기 단어임베딩단계 및 상기 품사임베딩단계에는 상기 분할형태소가 입력되고, 상기 제1 추론단계는, 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 개체명분류에 따라 분류할 수 있도록 하는 개체명사전을 기반으로 학습된 개체명사전단계;를 더 포함하고, 상기 개체명사전단계는 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소가 인명, 지명, 및 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 나타내는 사전세부결과를 도출하고, 상기 제1 추론단계는, 상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩단계;를 더 포함하고, 상기 음절임베딩단계는 상기 단어임베딩단계 혹은 상기 품사임베딩단계에서 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있다.
상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 컴퓨터-판독가능 매체로서, 상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은: 입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계; 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계; 상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계; 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고, 상기 제1 추론단계는 2 이상의 학습된 인공신경망 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고, 상기 제2 추론단계는 1 이상의 학습된 인공신경망 단계를 포함하는, 컴퓨터-판독가능 매체를 제공한다.
본 발명의 일 실시예에 따르면, Bidirectional LSTM-CRFs 방식 기반의 인공신경망 모델이 적용된 개체명 인식시스템을 사용하여 입력텍스트로부터 높은 인식율의 시스템을 구현할 수 있다.
본 발명의 일 실시예에 따르면, 단어단위의 임베딩모델, 및 품사단위의 임베딩모델을 사용하여 개체명 인식율을 높일 수 있다.
본 발명의 일 실시예에 따르면, 품사단위의 기학습된 임베딩 모델을 생성함에 있어서 띄어쓰기 정보를 포함함으로써 보다 높은 개체명 인식율의 시스템을 구현할 수 있다.
본 발명의 일 실시예에 따르면, 임베딩모델에 등록되어 있지 않은 개체명이더라도 음절단위의 임베딩모델을 사용하여 유사한 개체명을 인식할 수 있게하여 단점을 보완할 수 있다.
본 발명의 일 실시예에 따르면, 사전에 포함된 개체명단위의 임베딩모델을 사용하여 개체명 인식률을 높일 수 있다.
본 발명의 일 실시예에 따르면, 사전에 포함된 개체명 단위의 임베딩모델을 생성함에 있어서, 통계량 계산을 통하여 독립성이 높은 개체명 단위를 선별함으로써, 제한적인 양의 데이터를 사용하더라도 높은 인식율의 시스템을 구현할 수 있다.
도 1은 본 발명의 일 실시예에 따른 RNN 기반의 인공신경망 모델을 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 개체명 인식시스템의 동작환경을 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 개체명 인식시스템의 내부 구성을 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 텍스트분할부 및 형태소분할부의 동작을 개략적으로 도시한다.
도 5는 본 발명의 일 실시예에 따른 제1 추론부 및 제2 추론부의 동작을 개략적으로 도시한다.
도 6은 본 발명의 일 실시예에 따른 개체명추출부의 동작을 개략적으로 도시한다.
도 7은 본 발명의 일 실시예에 따른 제1 추론결과가 생성되는 과정을 개략적으로 도시한다.
도 8은 본 발명의 일 실시예에 따른 단어임베딩모델의 내부구성 및 동작을 개략적으로 도시한다.
도 9는 본 발명의 일 실시예에 따른 개체명사전모델의 내부구성 및 동작을 개략적으로 도시한다.
도 10은 본 발명의 일 실시예에 따른 N그램추출부의 동작을 예시적으로 도시한다.
도 11은 본 발명의 일 실시예에 따른 음절임베딩모델의 내부구성 및 동작을 개략적으로 도시한다.
도 12는 본 발명의 일 실시예에 따른 제2 추론부의 내부구성 및 동작을 개략적으로 도시한다.
도 13은 본 발명의 일 실시예에 따른 개체명 인식시스템의 성능평가를 개략적으로 도시한다.
도 14는 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 예시적으로 도시한다.
이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.
또한, 다양한 양상들 및 특징들이 다수의 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 컴포넌트들, 모듈들 등 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다.
본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다. 아래에서 사용되는 용어들 '~부', '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명에서 개체명(Named-Entity)이란 문장 내에서 인명, 지명, 기관명, 혹은 조직명 등과 같이 고유한 의미를 갖는 명사를 의미한다. 즉, 개체명 인식(Named-Entity Recognition)이란 입력텍스트로부터 개체명을 추출하고, 추출된 개체명의 카테고리를 분류하는 것을 의미한다.
이하에서는 이와 같은 개체명 인식을 수행하기 위한 개체명 인식 시스템, 방법, 및 컴퓨터-판독매체에 대하여 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 RNN 기반의 인공신경망 모델을 개략적으로 도시한다.
종래 기술은 상기 입력텍스트로부터 개체명을 추출하는 것과 같이 순차적인 데이터의 패턴을 인식하기 위해, RNN(Recurrent Neural Network, 순환신경망) 기반으로 구성된 인공 신경망을 이용하였다.
다만, RNN 기반으로 구성된 인공신경망의 경우, 도 1에 도시된 바와 같이 이전 상태를 기억하여 순차적인 패턴을 인식하는데 탁월하지만, 기울기 손실(Vanishing Gradient) 문제로 장기 의존성 문제를 다루지 못한다는 단점을 갖고 있다.
따라서 본 발명의 일 실시예에 따른 개체명 인식시스템에서는 LSTM(Long-Short Term Memory) 기반으로 구성된 인공신경망을 이용하여, LSTM 기반으로 구성된 인공신경망의 입출력을 제어하는 3개의 게이트구조 및 순차적 정보를 저장하는 메모리셀을 활용하여 장기 의존성을 학습함으로써, RNN 기반으로 구성된 인공신경망의 기울기 손실 문제를 해결하였다.
즉, 상기 입력텍스트로부터 새롭게 입력되는 벡터와 그 전에 입력된 셀벡터의 값을 조정하여 멀리 떨어진 단어 사이의 자질 값을 손실 없이 유지하여 장기 의존성이 유지될 수 있다.
도 2는 본 발명의 일 실시예에 따른 개체명 인식시스템의 동작환경을 개략적으로 도시한다.
본 발명의 일 실시예는 전술한 종래기술의 문제점들을 고려한 시스템, 방법, 및 컴퓨터-판독매체를 제공한다. 본 발명에서는, 이와 같은 개체명 인식을 수행하기 위하여 기본적으로 입력텍스트를 입력받고, 딥러닝과 같은 기계학습기술을 통하여 임베딩모델을 기초로 상기 입력텍스트로부터 추론결과 및 개체명추출결과를 도출한다.
여기서, 본 발명의 개체명 인식시스템(1000)의 전체 혹은 세부 결과를 도출하는 모듈/부는 임베딩모델에 해당할 수 있다. 반대로 본 발명의 개체명 인식시스템(1000)의 임베딩모델은 전체 혹은 세부결과를 도출하는 모듈/부에 해당할 수 있다. 또한, 상기 입력텍스트는 외부로부터 입력되는 텍스트 DB로부터 전부 혹은 일부의 텍스트를 추출하여 생성되거나 혹은 개체명 인식시스템(1000)의 메모리에 기저장된 텍스트로부터 전부 혹은 일부의 텍스트를 추출하여 생성됨으로써, 상기 개체명 인식시스템(1000)에 입력될 수 있다.
본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 상기 입력텍스트를 통하여 개체명을 인식하는 모델을 포함한다. 구체적으로, 본 발명에서는 상기 입력텍스트로부터 RNN 기반의 인공신경망 기술과 같이 시간적 개념이 포함된 인공 신경망 기술을 이용하여 개체명을 식별하는 모델을 포함할 수 있지만, 상술한 바와 같이 바람직하게는, 본 발명의 경우, Bidirectional LSTM CRFs 기반으로 구성된 인공신경망을 이용하여 상기 입력텍스트를 양방향으로 입력받아 입력텍스트 별로 은닉계층의 결과를 얻고, CRF 알고리즘을 통해 결과 사이의 의존성(전이확률)을 추가할 수 있다. 이와 같은 Bidirectional LSTM CRFs 기반으로 구성된 인공신경망이 이용되는 상기 개체명 인식시스템을(1000) 구성하는 세부 모듈/부에 대하여는 자세하게 후술하도록 한다.
도 2에 도시된 바와 같이 상기 개체명 인식시스템(1000)에 상기 입력텍스트가 입력되고, 상기 개체명 인식시스템(1000)은 상기 입력텍스트로부터 후술하는 제1 추론결과 및 제2 추론결과를 포함하는 추론결과를 자동적으로 도출하고, 상기 추론결과를 기초로 상기 입력텍스트로부터 개체명결과를 자동적으로 도출할 수 있다.
이와 같은 개체명 인식시스템(1000)은 이미 저장된 텍스트로부터 전부 혹은 일부의 텍스트를 추출하여 상기 개체명 결과를 도출하거나 혹은 실시간으로 입력되는 텍스트로부터 상기 개체명 결과를 도출할 수도 있다.
도 3는 본 발명의 일 실시예에 따른 개체명 인식시스템의 내부 구성을 개략적으로 도시한다.
상기 실시예에 따른 개체명 인식시스템(1000)은 1 이상의 프로세서 및 1 이상의 메모리를 갖는 컴퓨팅 장치에 의하여 구현될 수 있다.
이와 같은 컴퓨팅장치는 프로세서(A), 버스(프로세서, 메모리, 네트워크 인터페이스 사이의 양방향 화살표에 해당), 네트워크 인터페이스(B) 및 메모리(C)를 포함할 수 있다. 메모리(C)에는 운영체제, 및 인공신경망을 구현하는 데 있어서 학습된 학습데이터로서 후술하는 본 발명의 추론 혹은 예측을 하는 모듈/부에서 이용되는 추론부학습데이터가 저장되어 있을 수 있다. 혹은 상기 추론부학습데이터는 딥러닝이 진행된 모델링 정보 자체를 의미할 수도 있다. 프로세서(A)에서는 텍스트분할부(100), 형태소분할부(200), 제1 추론부(300), 제2 추론부(400), 개체명추출부(500)가 실행될 수 있다. 다른 실시예들에서 개체명 인식시스템(1000)은 도 3의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.
메모리는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(B)를 통해 메모리에 로딩될 수도 있다.
버스는 컴퓨팅 장치의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.
네트워크 인터페이스(B)는 개체명 인식시스템(1000)을 구현하는 컴퓨팅장치를 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성 요소일 수 있다. 네트워크 인터페이스(B)는 개체명 인식시스템(1000)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.
프로세서(A)는 기본적인 산술, 로직 및 개체명 인식시스템(1000)을 구현하는 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(C) 또는 네트워크 인터페이스(B)에 의해, 그리고 버스를 통해 프로세서로 제공될 수 있다. 프로세서는 텍스트분할부(100), 형태소분할부(200), 제1 추론부(300) 제2 추론부(400), 개체명추출부(500)를 위한 프로그램 실행코드를 실행하도록 구성될 수 있다. 이러한 프로그램 실행코드는 메모리와 같은 기록 장치에 저장될 수 있다.
텍스트분할부(100), 형태소분할부(200), 제1 추론부(300) 제2 추론부(400), 개체명추출부(500)는 이하에서 설명하게 될 개체명 인식방법을 수행하기 위해 구성될 수 있다. 상기한 프로세서는 개체명 인식방법에 따라 일부 컴포넌트가 생략되거나, 도시되지 않은 추가의 컴포넌트가 더 포함되거나, 2개 이상의 컴포넌트가 결합될 수 있다.
한편, 이와 같은 상기 컴퓨팅 장치는 바람직하게는 개인용 컴퓨터 혹은 서버에 해당하고, 경우에 따라서는 스마트 폰(smart phone)과, 태블릿(tablet)과, 이동 전화기와, 화상 전화기와, 전자책 리더(e-book reader)와, 데스크 탑(desktop) PC와, 랩탑(laptop) PC와, 넷북(netbook) PC와, 개인용 복합 단말기(personal digital assistant: PDA, 이하 'PDA'라 칭하기로 한다)와, 휴대용 멀티미디어 플레이어(portable multimedia player: PMP, 이하 'PMP'라 칭하기로 한다)와, 엠피3 플레이어(mp3 player)와, 이동 의료 디바이스와, 카메라와, 웨어러블 디바이스(wearable device)(일 예로, 헤드-마운티드 디바이스(head-mounted device: HMD, 일 예로 'HMD'라 칭하기로 한다)와, 전자 의류와, 전자 팔찌와, 전자 목걸이와, 전자 앱세서리(appcessory)와, 전자 문신, 혹은 스마트 워치(smart watch) 등에 해당할 수 있다.
즉, 본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부(100); 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부(200); 상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부(300); 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부(400); 및 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부(500);를 포함하고, 상기 제1 추론부(300)는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고, 상기 제2 추론부(400)는 1 이상의 학습된 인공신경망 모델을 포함할 수 있다.
이하에서는, 상기 개체명 인식시스템(1000)의 세부 구성요소에 대하여 상술하도록 한다.
도 4는 본 발명의 일 실시예에 따른 텍스트분할부 및 형태소분할부의 동작을 개략적으로 도시한다.
상술한 바와 같이 본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부(100)를 포함할 수 있다.
바람직하게는, 상기 텍스트분할부(100)는, 상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성한다.
구체적으로, 상기 텍스트분할부(100)는 상기 입력텍스트를 사용자의 설정에 의하여 문장, 구, 및 절을 포함하는 사용자에 의하여 기설정된 단위를 갖는 분할텍스트로 나누고, 1 이상의 상기 분할텍스트로 구성된 상기 분할텍스트그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면, 상기 입력텍스트가 “특허는 산업상 이용할 수 있는 발명에 대하여 한다. 동일한 발명에 대하여 다른 날에 2건 이상의 특허출원이 있는 때에는 먼저 특허출원한 자만이 그 발명에 대하여 특허를 받을 수 있다. 특허청장·특허심판원장은 보정명령의 불이행이나 특허료의 미납 등의 경우에는 그 특허에 관한 절차를 무효로 할 수 있다.”와 같을 때, 상기 텍스트분할부(100)는, 상기 입력텍스트를 문장을 기설정된 단위로 하여 분할텍스트를 생성할 때, “특허는 산업상 이용할 수 있는 발명에 대하여 한다.”, 및 “동일한 발명에 대하여 다른 날에 2건 이상의 특허출원이 있는 때에는 먼저 특허출원한 자만이 그 발명에 대하여 특허를 받을 수 있다.” 등과 같이 분할된 상기 분할텍스트를 포함하는 상기 분할텍스트 그룹을 생성할 수 있다.
또한, 상술한 바와 같이 본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부(200);를 더 포함할 수 있다.
바람직하게는, 상기 형태소분할부(200)는, 상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성할 수 있다.
즉, 상기 형태소분할부(200)는 상기 텍스트분할부(100)에서 생성된 상기 분할텍스트그룹을 구성하는 사용자에 의하여 기설정된 단위를 갖는 각각의 분할텍스트를 언어에서 뜻을 가진 가장 작은 단위인 형태소의 단위를 갖는 분할형태소로 나누고, 1 이상의 상기 분할형태소로 구성된 상기 분할형태소그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면, 상기 분할텍스트가 상술한 “특허는 산업상 이용할 수 있는 발명에 대하여 한다.”와 같을 때, 상기 형태소분할부(200)는, 상기 분할텍스트를 형태소단위로 분할된 “특허/는/산업/상/이용/할/수/있는/발명/에/대하여/한다.”와 같은 형태소 단위로 분할된 상기 분할형태소를 포함하는 상기 분할형태소그룹을 생성할 수 있다.
결과적으로 도 4에 도시된 바와 같이 상기 텍스트분할부(100)는 상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고, 상기 형태소분할부(200)는 상기 분할텍스트그룹으로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 제1 추론부 및 제2 추론부의 동작을 개략적으로 도시한다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 임베딩모델을 기초로 상기 분할형태소로부터 개체명에 대한 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부(300);을 더 포함할 수 있다.
바람직하게는, 상기 제1 추론부(300)는, 상기 임베딩모델을 기초로 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 개체명에 대한 벡터형태의 데이터인 제1 추론결과를 도출할 수 있다. 구체적으로, 상기 제1 추론부(300)는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함할 수 있다.
본 발명에서 상기 임베딩모델은 상기 개체명 인식시스템(1000)에서 개체명을 인식하기 위하여 사용되는, 다차원 공간에서 단어 사이의 공통점을 나타낼 수 있도록 벡터 형식으로 표현되는 학습된 데이터로서, 이에 더하여 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 상기 임베딩모델을 구성하는 하부 모듈/부를 통하여 실시간으로 학습될 수 있다.
상기 임베딩모델은 학습데이터를 기초로 공지된 인공신경망의 추론 결과로서의 데이터, 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론 과정에서 생성되는 중간 결과로서의 데이터인 상기 제1 추론결과 혹은 상기 제2 추론결과, 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론 과정의 결과로서의 데이터인 상기 개체명결과, 상기 개체명 인식시스템(1000)을 통한 상기 개체명결과에 대한 데이터, 혹은 기설정된 방법으로 도출된 개체명정보에 대한 데이터를 포함할 수 있다.
상기 제1 추론부(300)는 상기 임베딩모델을 기초로 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론 과정에서 상기 분할형태소로부터 개체명에 대한 벡터형태의 데이터인 중간 결과로서의 제1 추론결과를 도출할 수 있고, 또한 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론 과정에서 상기 임베딩모델이 실시간으로 학습될 수 있다.
상기 개체명 인식시스템(1000)의 제1 추론부(300)에서 사용되는 상기 임베딩모델은 후술하는 바와 같이 다양한 형태의 임베딩모델이 학습되어 사용될 수 있다. 이와 같이 상기 개체명 인식시스템(1000)에서 사용되는 다양항 형태의 임베딩모델 각각으로부터 추론 결과로서의 데이터가 생성되고, 각각의 추론 결과의 데이터가 조합되어 백터형태의 데이터인 상기 제1 추론결과가 도출될 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 개체명 인식시스템(1000)은 상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부(400);를 포함할 수 있다.
바람직하게는, 상기 제2 추론부(400)는 1 이상의 학습된 인공신경망 모델을 포함할 수 있다.
구체적으로 상기 제2 추론부(400)는 후술하는 바와 같이 상기 제1 추론결과를 기초로 Bidirectional LSTM CRFs 모델을 이용할 수 있다. 이와 같은 Bidirectional LSTM CRFs 기반으로 구성된 인공신경망을 모델을 사용하여 LSTM을 통하여 상기 제1 추론결과를 양방향으로 받고, 상기 제1 추론결과에 대한 은닉계층의 결과를 얻고, CRF 알고리즘을 통하여 결과 사이의 의존성(전이확률)을 추가함으로써 상기 제1 추론결과와 같은 벡터형태의 연속적인 데이터를 다루는데 효율을 높일 수 있다. 즉, 이와 같은 모델을 사용하여 입력텍스트로부터 개체명 인식률이 높아질 있다.
또한 후술하는 바와 같이 상기 제1 추론결과는 상기 제2 추론부(400)를 구성하는 복수의 인풋레이어에 입력될 수 있다. 상기 제2 추론부(400)를 구성하는 복수의 상기 인풋레이어에 입력되는 상기 제1 추론결과는, 1 이상의 분할형태소로부터 생성된 1 이상의 제1 추론결과가 사용자의 설정에 의하여 동시에 복수의 상기 인풋레이어에 입력되거나, 혹은 사용자의 설정에 의하여 1 이상의 분할형태소로부터 생성된 1 이상의 제1 추론결과 중 각각이 따로 상기 인풋레이어에 입력될 수 있다.
이와 같이 복수의 상기 인풋레이어에 입력되는 상기 제1 추론결과의 단위는 사용자에 의하여 설정될 수 있다.
도 6은 본 발명의 일 실시예에 따른 개체명추출부의 동작을 개략적으로 도시한다.
상술한 바와 같이 본 발명의 일 실시예에 따른 개체명인식시스템(1000)은 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부(500)를 포함할 수 있다.
구체적으로, 상기 개체명추출부(500)는 도 6의 (B)에 도시된 바와 같이 OOBIIOOOBOOO의 연속적인 형태를 갖는 제2 추론결과가 입력될 수 있다.
상기 제2 추론결과는, 상기 제2 추론부(400)에서 도출된 추론결과 개체명으로 분류된 “B”, 상기 제2 추론부(400)에서 도출된 추론결과 개체명이 아닌 것으로 분류된 “O”, 혹은 상기 제2 추론부(400)에서 도출된 추론결과 개체명으로 분류되지도 않고 개체명이 아닌 것으로 분류되지도 않은 “I”와 같이 분류될 수 있고, 연속적인 데이터를 갖는 상기 제2 추론결과가 개체명으로 분류된 “B”로 시작되어 “O”가 입력되기 전까지, “B” 및 “O” 사이의 모든 단어를 하나의 단위의 개체명으로 인식하여 개체명결과를 도출할 수 있다.
이하에서는, 상기 제1 추론부(300)에서 상기 제1 추론결과를 도출하기 위하여 기초가 되는 상기 임베딩모델의 구성에 대해 설명한다.
도 7은 본 발명의 일 실시예에 따른 제1 추론결과가 생성되는 과정을 개략적으로 도시한다.
상기 실시예에 따르면, 상기 제1 추론부(300)는, 말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델(310); 및 말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델(330);을 포함하고, 상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력되고, 상기 제1 추론부(300)는, 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 개체명분류에 따라 분류할 수 있도록 하는 개체명사전을 기반으로 학습된 개체명사전모델(340);을 더 포함하고, 상기 개체명사전모델(340)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소가 인명, 지명, 및 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 나타내는 사전세부결과를 도출하고, 상기 제1 추론부(300)는, 상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩모델(320);을 더 포함하고, 상기 음절임베딩모델(320)은 상기 단어임베딩모델 혹은 상기 품사임베딩모델에 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있다.
상기 실시예에 따르면, 상기 제1 추론부(300)는, 상기 단어세부결과, 상기 음절세부결과, 상기 품사세부결과, 및 상기 사전세부결과로부터 벡터형태의 데이터인 상기 제1 추론결과를 도출할 수 있다.
이하에서는 상기 제1 추론부(300)에서 상기 임베딩모델에 해당하는 세부결과를 생성하고, 이와 같은 세부결과로부터 상기 제1 추론결과가 도출되는 과정에 대하여 설명한다.
상기 임베딩모델은, 상기 제1 추론부(300)의 상기 제1 추론결과를 얻기 위하여 사용되는 학습된 데이터일 수 있고, 또한 상기 제1 추론결과를 얻기 위하여 사용되는 데이터를 학습하기 위하여 상기 제1 추론부를 구성하는 세부 모듈/부이거나, 혹은 상기 제1 추론결과를 얻기 위하여 사용되는 데이터를 학습하기 위하여 실행되는 세부단계를 포함할 수 있다.
상기 실시예에 따르면, 상기 제1 추론부(300)는, 말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델(310); 및 말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델(330);을 포함하고,
상기 단어임베딩모델(310) 및 상기 품사임베딩모델(330)은 상기 분할형태소가 입력될 수 있다.
상술한 바와 같이 상기 상기 제1 추론부(300)에 포함되는 상기 단어임베딩모델(310)은 상기 개체명 인식시스템(1000)에서 개체명을 인식하기 위하여 사용되는, 다차원 공간에서 단어 사이의 공통점을 나타낼 수 있도록 말뭉치를 기반으로 단어단위로 학습된 데이터로서, 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
또한, 본 발명의 일 실시예에 따르면, 상기 단어임베딩모델(310)은 세종코퍼스, 위키피디아, 뉴스데이터, 및 국어정보처리 시스템 경진대회에서 제공된 학습데이터를 기초로 Gensim 소프트웨어를 사용하여 단어단위로 사전(事前)학습될 수 있다.
다만, 상기 단어임베딩모델(310)은 상기 실시예의 학습데이터에 한정되지 않고, 인터넷 네트워크를 통하여 다운로드 가능한 모든 텍스트 형태의 데이터를 포함할 수 있다.
상기 단어임베딩모델(310)은 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론과정에서 생성되는 중간 결과로서의 데이터인 상기 단어세부결과를 도출할 수 있다.
상술한 바와 같이 상기 제1 추론부에 포함되는 상기 품사임베딩모델(330)은 상기 개체명 인식시스템(1000)에서 개체명을 인식하기 위하여 사용되는, 다차원 공간에서 단어 사이의 공통점을 나타낼 수 있도록 말뭉치를 기반으로 품사단위로 학습된 데이터로서, 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
또한, 본 발명의 일 실시예에 따르면, 상기 품사임베딩모델(330)은 상기 단어임베딩모델(310)과 마찬가지로 국어정보처리 시스템 경진대회에서 제공된 학습데이터를 기초로 Gensim 소프트웨어를 사용하여 품사단위로 사전(事前)학습될 수 있다.
상기 품사임베딩모델(330)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론과정에서 생성되는 중간 결과로서의 데이터인 상기 품사세부결과를 도출할 수 있다.
상술한 바와 같이 상기 제1 추론부(300)을 구성하는 학습된 상기 단어임베딩모델(310) 및 상기 품사임베딩모델(330)의 자질을 확장하기 위하여, 상기 제1 추론부(300)은 상기 개체명사전모델(340) 및 상기 음절임베딩모델(320)을 더 포함할 수 있다.
즉, 상기 제1 추론부를 구성하는 상기 개체명사전모델(340) 및 상기 음절임베딩모델(320)을 통하여 상기 개체명 인식시스템(1000)의 개체명 인식율을 높일 수 있다.
이하에서는, 상기 제1 추론부에 포함되는 상기 개체명사전모델(340) 및 상기 음절임베딩모델(320)이 학습되거나 혹은 상기 제1 추론부를 구성하는 상기 개체명사전모델(340) 및 상기 음절임베딩모델(320)을 통하여 세부결과를 도출하는 동작에 대하여 설명한다.
상기 실시예에 따르면, 상기 제1 추론부(300)는, 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 개체명분류에 따라 분류할 수 있도록 하는 개체명사전을 기반으로 학습된 개체명사전모델(340);을 더 포함하고, 상기 개체명사전모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소가 인명, 지명, 및 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 나타내는 사전세부결과를 도출할 수 있다.
상기 상기 제1 추론부(300)에 포함되는 상기 개체명사전모델(340)은 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 분할형태소가 인명, 지명, 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 분류할 수 있도록 하는 상기 개체명사전으로 학습될 수 있고, 상기 개체명사전은 상기 인명, 지명, 기관명을 포함하는 개체명에 대한 데이터가 저장될 수 있다. 또한, 상기 개체명사전모델(330)은 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
상기 개체명사전에 저장된 상기 인명, 지명, 기관명을 포함하는 개체명에 대한 데이터는 상기 개체명 인식시스템(1000)을 구성하는 네트워크 인터페이스를 통하여 외부와 연결된 데이터베이스를 통하여 상기 개체명사전모델로 다운로드 되거나 혹은 상기 개체명 인식시스템(1000)을 구성하는 메모리에 저장된 데이터베이스를 통하여 상기 개체명사전모델로 다운로드 될 수 있다.
본 발명의 일 실시예에 따르면, 상기 개체명사전모델(340)은 국어정보처리 시스템 경진대회에서 제공된 사전 말뭉치, 세종코퍼스, 및 위키피디아를 기초로 추출된 개체명을 활용하는 상기 개체명사전으로 사전(事前)학습될 수 있다.
상기 개체명사전모델모델(340)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각이 인명, 지명, 및 기관명을 포함하는 상기 개체명분류 중 어느 분류에 속하는지를 나타내는 사전세부결과를 도출할 수 있다.
상기 실시예에 따르면, 상기 제1 추론부(300)는, 상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩모델(320);을 더 포함하고, 상기 음절임베딩모델(320)은 상기 단어임베딩모델 혹은 상기 품사임베딩모델에 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있다.
구체적으로, 상기 제1 추론부(300)에 포함되는 상기 음절임베딩모델(320)은 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 분할형태소가 상기 단어임베딩모델(310), 및 상기 품사임베딩모델(330)에 학습되지 않은 미등록어인 경우에 발생할 수 있는 문제를 보완하기 위하여 학습될 수 있다.
또한, 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
상기 음절임베딩모델(320)은 상기 분할형태소가 상기 미등록어인 경우, 상기 분할형태소를 음절단위로 분절하고, 음절단위로 분절된 상기 분할형태소를 상기 단어임베딩모델에 포함된 유사한 단어 및/또는 상기 품사임베딩모델에 포함된 유사한 품사를 기반으로 음절단위로 학습될 수 있다.
이와 같은 음절임베딩모델(320)은 bidirectional LSTM을 사용하여 학습될 수 있고, 자세한 세부 과정은 후술하도록 한다.
상기 음절임베딩모델(320)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소 각각으로부터 상기 개체명인식시스템(1000)을 구성하는 인공신경망의 추론과정에서 생성되는 중간 결과로서의 데이터인 상기 음절세부결과를 도출할 수 있다.
이와 같이 도출된 상기 단어세부결과, 상기 품사세부결과, 상기 사전세부결과, 및 상기 음절세부결과는 상기 제1 추론부(300)에서 벡터형태의 데이터인 상기 제1 추론결과로 변환될 수 있다.
즉, 상기 단어세부결과, 상기 품사세부결과, 상기 사전세부결과, 및 상기 음절세부결과가 조합되어 이루어진 벡터형태의 데이터인 상기 제1 추론결과로 변환될 수 있고, 이와 같은 상기 제1 추론결과는 상기 제2 추론부(400)로 입력되어 상기 제2추론결과를 도출하기 위한 기초가 된다.
도 8은 본 발명의 일 실시예에 따른 단어임베딩모델의 내부구성 및 동작을 개략적으로 도시한다.
바람직하게는, 상기 단어임베딩모델(310)은, 일반화된 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델(311); 및 입력텍스트의 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델(312);을 포함하고, 상기 글로벌임베딩모델(311)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제1 단어세부결과를 도출하고, 상기 로컬임베딩모델(312)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제2 단어세부결과를 도출하고, 상기 단어임베딩모델(300)은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 기초로 상기 단어세부결과를 도출할 수 있다.
구체적으로, 상기 단어임베딩모델(310)은 상기 개체명 인식시스템(1000)에서 개체명을 인식하기 위하여 사용되는, 다차원 공간에서 단어 사이의 공통점을 나타낼 수 있도록 말뭉치를 기반으로 단어단위로 학습된 데이터로서, 일반화된 영역의 특성이 반영될 수 있는 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델(311), 및 입력텍스트의 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델(312)를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 글로벌임베딩모델(311)은 세종코퍼스, 위키피디아, 및 뉴스데이터 등을 포함하는 데이터를 기초로 Gensim 소프트웨어를 사용하여 단어단위로 사전(事前)학습될 수 있고, 상기 로컬임베딩모델(312)는 국어정보처리 시스템 경진대회에서 제공된 학습데이터를 기초로 Gensim 소프트웨어를 사용하여 단어단위로 사전(事前)학습될 수 있다.
또한 상기 글로벌임베딩모델(311) 및 상기 로컬임베딩모델(312)는 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 각각의 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
상기 글로벌임베딩모델(311)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 상기 제1 단어세부결과를 도출할 수 있고, 상기 로컬임베딩모델(312)은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 상기 제2 단어세부결과를 도출할 수 있다.
결국 상기 단어임베딩모델(310)은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 조합하여 상기 개체명 인식시스템(1000)을 구성하는 인공신경망의 추론과정에서 생성되는 중간결과로서의 데이터인 상기 단어세부결과를 도출할 수 있다.
도 9는 본 발명의 일 실시예에 따른 개체명사전모델의 내부구성 및 동작을 개략적으로 도시한다.
바람직하게는, 상기 개체명사전모델(340)은, 상기 개체명사전에 저장된 개체명을 N의 음절단위로 분할하여 인명, 지명, 및 기관명 각각에 대한 N그램데이터를 추출하는 N그램추출부(342); 및 상기 분할형태소가 상기 인명, 지명, 및 기관명 각각의 N그램데이터에 매칭이 되는지 여부에 기초하여 사전세부결과를 도출하는 N그램도출부(343);를 포함할 수 있다.
상기 실시예에 따르면, 상기 개체명사전모델(340)은 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 상기 개체명분류에 따라 분류할 수 있도록 하는 개체명사전으로 학습된 개체명사전생성부(341); 를 포함할 수 있다.
구체적으로, 상기 개체명사전생성부(341)는, 상술한 상기 개체명사전모델(340)을 구성하는 모듈로서, 상술한 상기 개체명사전모델(340)에서 상기 분할형태소를 인명, 지명, 및 기관명을 포함하는 상기 개체명분류에 따라 분류할 수 있도록 하는 개체명사전이 학습되는 기능을 수행하지만, 학습되는 개체명사전에 포함된 데이터의 양이 제한적일 수 있다는 한계를 보완하기 위하여 상기 N그램추출부(342)를 더 포함할 수 있다.
즉, 상기 N그램추출부(342)는 상기 개체명사전에 저장된 개체명을 N의 음절단위로 분할하여 인명, 지명, 및 기관명 각각에 대한 N그램데이터를 추출할 수 있다. 즉, 상기 개체명사전생성부(341)에서 학습되는 상기 개체명사전의 데이터의 양이 제한적일 때, 통계량 계산을 통해 개체명사전의 데이터를 선별하여 추출함으로써 이러한 한계를 보완할 수 있다.
도 10은 본 발명의 일 실시예에 따른 N그램추출부의 동작을 예시적으로 도시한다.
상기 실시예에 따르면, 상기 N그램추출부(342)는 상기 개체명사전에 저장된 개체명을 N의 음절단위로 분할하여 인명, 지명, 및 기관명 각각에 대한 N그램데이터를 추출할 수 있다.
즉, 도 10에 도시된 바와 같이 개체명사전에 포함된 데이터가 문재인, 구글, 강남 등이 있을 때, 이와 같이 개체명사전에 포함된 데이터를 2, 3, 및 4와 같은 2 이상의 음절단위로 분할하고, 통계량 계산을 통하여 독립성이 높은 개체명을 선별한다. 이와 같은 과정을 통하여 상기 개체명 사전의 데이터의 양이 제한적일 수 있다는 한계를 보완할 수 있다.
본 발명의 일 실시예에 따르면, 상기 개체명사전에 포함된 데이터를 카이제곱 통계량 계산을 통하여 독립성이 높은 상위 20%를 선별하여, 독립성이 높은 개체명사전에 포함된 데이터가 추출된 새로운 개체명 사전을 생성할 수 있다.
또한, 도 10에 도시된 바와 같이 개체명사전에 포함된 데이터인 문재인은 PS(person, 인명), OG(organization, 기관명), LC(Location, 지명)과 같이 인명, 지명, 기관명을 포함하는 상기 개체명분류에 따라 분류되어 저장된 데이터임을 확인할 수 있고, 전술한 상기 제2 추론결과의 형태인 “BIO” 중 개체명으로 인식된 “B”를 추론하기 위하여 사용되는 데이터가 될 수 있다.
상기 N그램도출부(343)은 상기 분할형태소가 상기 인명, 지명, 및 기관명 각각의 N그램데이터에 매칭이 되는지 여부에 기초하여 상기 사전세부결과를 도출할 수 있다.
도 11은 본 발명의 일 실시예에 따른 음절임베딩모델의 내부구성 및 동작을 개략적으로 도시한다.
바람직하게는, 상기 분할형태소의 각각의 음절이 순방향으로 입력이 되는 LSTM 모듈을 포함하는 순방향LSTM모듈; 및 상기 분할형태소의 각각의 음절이 역방향으로 입력이 되는 LSTM 모듈을 포함하는 역방향LSTM모듈;을 포함할 수 있다.
구체적으로 상기 음절임베딩모델(320)은 상술한 바와 같이 상기 임베딩모델에 포함되는 상기 음절임베딩모델(320)은 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 분할형태소가 상기 단어임베딩모델(310), 및 상기 품사임베딩모델(330)에 학습되지 않은 미등록어인 경우에 발생할 수 있는 문제를 보완하기 위하여 학습될 수 있다. 또한, 상기 제1 추론부(300)로 입력되는 상기 분할형태소그룹을 구성하는 상기 분할형태소로부터 실시간으로 학습될 수도 있다.
상기 음절임베딩모델(320)은 상기 분할형태소가 상기 미등록어인 경우, 상기 분할형태소를 음절단위로 분절하고, 음절단위로 분절된 상기 분할형태소를 상기 단어임베딩모델(310)에 포함된 유사한 단어 및/또는 상기 품사임베딩모델(330)에 포함된 유사한 품사를 기반으로 음절단위로 학습될 수 있다.
본 발명의 일 실시예에 따르면, 도 11의 (B)에 도시된 바와 같이 인명으로 분류될 수 있는 “홍길동”과 같은 상기 분할형태소가 입력될 때, “홍길동”이 상기 단어임베딩모델(310) 및 상기 품사임베딩모델(330)에 학습되지 않은 미등록어인 경우, 입력된 상기 분할형태소인 “홍길동”을 음절단위로 분절하고, 순방향의 “홍”, “길”, “동”을 상기 Bidirectional LSTM 기반의 인공신경망 모델에 입력하여, 상기 단어임베딩모델(310), 및 상기 품사임베딩모델(330)을 기반으로 상기 단어임베딩모델(310)에 포함된 유사한 단어 및/또는 상기 품사임베딩모델(330)에 포함된 유사한 품사에 대하여 학습하거나 혹은 이를 상기 순방향LSTM모듈의 순방향 단어세부결과로 도출할 수 있다.
이와 같은 방식으로 입력된 상기 분할형태소인 “홍길동”을 음절단위로 분절하고, 역방향의 “동”, “길”, 및 “홍”을 상기 Bidirectional LSTM 기반의 인공신경망 모델에 입력하여, 상기 단어임베딩모델(310), 및 상기 품사임베딩모델(330)을 기반으로 상기 단어임베딩모델(310)에 포함된 유사한 단어 및/또는 상기 품사임베딩모델(330)에 포함된 유사한 품사에 대하여 학습하거나 혹은 이를 상기 역방향LSTM모듈의 역방향 단어세부결과로 도출할 수 있다.
결국 상기 음절임베딩모델(320)은 도 11의 (B)에 도시된 바와 같이 상기 분할형태소인 “홍길동”이 입력되어 학습된 상기 단어임베딩모델(310)에 포함된 유사한 단어 및/또는 상기 품사임베딩모델(330)에 포함된 유사한 품사에 대하여 학습되어 벡터형태의 데이터로 표현될 수 있다.
또는, 상기 음절임베딩모델(320)은 도 11의 (B)에 도시도니 바와 같이 상기 분할형태소인 “홍길동”이 입력되어 도출된 상기 순방향 단어세부결과 및 상기 역방향 단어세부결과를 기초로 개체명인식시스템(1000)을 구성하는 인공신경망의 추론과정에서 생성되는 중간 결과로서의 데이터인 상기 음절세부결과를 도출할 수 있다.
이와 같은 방식으로 상기 제1 추론부(300)는 상기 단어세부결과, 상기 음절세부결과, 상기 품사세부결과, 및 상기 사전세부결과로부터 벡터형태의 데이터인 상기 제1 추론결과를 도출할 수 있다.
도 12는 본 발명의 일 실시예에 따른 제2 추론부의 내부구성 및 동작을 개략적으로 도시한다.
바람직하게는, 상기 제2 추론부(400)는, 상기 제1 추론결과를 기초로 Bidirectional LSTM 방식에 의하여 추론결과를 생성하는 LSTM모듈(410); 및 Bidirectional LSTM 방식에 의하여 생성된 추론결과를 기초로 CRF 알고리즘방식에 의하여 제2 추론결과를 생성하는 CRFs모듈(420);을 포함하고, 상기 LSTM모듈(410)은 복수의 인풋 레이어를 가지고, 복수의 인풋레이어 각각에는 복수의 상기 제1 추론결과 각각이 입력될 수 있다.
구체적으로 상기 제2 추론부(400)는 상기 제1 추론결과를 기초로 Bidirectional LSTM CRFs 모델을 이용할 수 있다. 도 12의 (B)에 도시된 바와 같이, 이와 같은 Bidirectional LSTM CRFs 기반으로 구성된 인공신경망을 모델을 사용하여 제2 추론부(400)를 구성하는 상기 LSTM모듈(410)은 bidirectional LSTM 방식으로 상기 제1 추론결과를 양방향으로 받고, 상기 제1 추론결과에 대한 은닉계층의 결과를 얻고, 상기 CRFs모듈(420)은 CRF 알고리즘을 통하여 결과 사이의 의존성(전이확률)을 추가함으로써 상기 제1 추론결과와 같은 벡터형태의 연속적인 데이터를 다루는데 효율을 높일 수 있다. 즉, 이와 같은 모델을 사용하여 입력텍스트로부터 개체명 인식률이 높아질 있다.
상술한 바와 같이 상기 제1 추론결과는 상기 제2 추론부(400)를 구성하는 복수의 인풋레이어에 입력될 수 있다. 상기 제2 추론부(400)를 구성하는 복수의 상기 인풋레이어에 입력되는 상기 제1 추론결과는, 1 이상의 분할형태소로부터 생성된 1 이상의 제1 추론결과가 사용자의 설정에 의하여 동시에 복수의 상기 인풋레이어에 입력되거나, 혹은 사용자의 설정에 의하여 1 이상의 분할형태소로부터 생성된 1 이상의 제1 추론결과 중 각각이 따로 상기 인풋레이어에 입력될 수 있다.
이와 같이 복수의 상기 인풋레이어에 입력되는 상기 제1 추론결과의 단위는 사용자에 의하여 설정될 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 개체명인식시스템(1000)은 상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부(500)를 포함할 수 있다.
구체적으로, 상기 개체명추출부(500)는 도 6의 (B)에 도시된 바와 같이 OOBIIOOOBOOO의 연속적인 형태를 갖는 제2 추론결과가 입력될 수 있다.
상기 제2 추론결과는, 상기 제2 추론부(400)에서 도출된 추론결과 개체명으로 분류된 “B”, 상기 제2 추론부(400)에서 도출된 추론결과 개체명이 아닌 것으로 분류된 “O”, 혹은 상기 제2 추론부(400)에서 도출된 추론결과 개체명으로 분류되지도 않고 개체명이 아닌 것으로 분류되지도 않은 “I”와 같이 분류될 수 있고, 연속적인 데이터를 갖는 상기 제2 추론결과가 개체명으로 분류된 “B”로 시작되어 “O”가 입력되기 전까지, “B” 및 “O” 사이의 모든 단어를 하나의 단위의 개체명으로 인식하여 개체명결과를 도출할 수 있다.
도 13은 본 발명의 일 실시예에 따른 개체명 인식시스템의 성능평가를 개략적으로 도시한다.
상기 실시예에 따르면 개체명 인식시스템(1000)의 성능평가를 위하여 Bidirectional LSTM CRF 기반의 인공신경망 모델을 Tensorflow로 구현하였다.
상기 개체명 인식시스템(1000)의 평가 데이터로는 2016~2017년 국어정보처리 시스템 경진대회에서 배포한 개체명 말뭉치 문장을 사용하였다. 총 9,316 문장 중 6,522 문장을 학습데이터로, 1,764 문장을 평가데이터로, 1,000 문장을 최종 평가 데이터로 사용하였다.
전체적인 실험 성능은 가장 높은 성능을 보인 30epoch로 진행하였다.
실험은 상기 임베딩모델을 25, 50, 75, 100차원으로 설정하여 최종적으로 상기 제1 추론결과를 86, 161, 236, 311 차원으로 변경하며 F1 score로 실험 성능을 평가하였다.
도 13에 도시된 바와 같이 상기 제2 추론부(400)의 Bidirectioanl LSTM CRFs 기반의 인공신경망 모델에 입력되는 상기 제1 추론결과를 조합하는 각 세부결과를 25, 50, 75, 100으로 차원을 변경하고, 조합하여 구성하였을 때의 성능을 실험하였다. 실험결과 도 13에 도시된 바와 같이 각 세부결과가 50차원으로 설정되어 상기 제1 추론결과를 조합하였을 경우 0.8462로 가장 높은 성능을 나타내었다.
도 14는 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 예시적으로 도시한다.
도 14에 도시한 바와 같이, 컴퓨팅 장치(11000)은 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/Osubsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅 장치(11000)는 개체명 인식시스템에 연결된 사용자단말기(A) 혹은 전술한 컴퓨팅 장치(B)에 해당될 수 있다.
메모리(11200)는, 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅 장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 학습된 임베딩모델에 포함하는 그밖에 다양한 데이터를 포함할 수 있다.
이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.
주변장치 인터페이스(11300)는 컴퓨팅 장치(11000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅 장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.
입/출력 서브시스템(11400)은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템(11400)은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템(11400)을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.
전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.
통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅 장치와 통신을 가능하게 할 수 있다.
또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅 장치와 통신을 가능하게 할 수도 있다.
이러한 도 14의 실시예는, 컴퓨팅 장치(11000)의 일례일 뿐이고, 컴퓨팅 장치(11000)은 도 14에 도시된 일부 컴포넌트가 생략되거나, 도 16에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅 장치는 도 16에도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(1160)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅 장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅 장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 애플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 이용자 단말에 설치될 수 있다. 일 예로, 파일 배포 시스템은 이용자 단말이기의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (13)

1 이상의 프로세서 및 1 이상의 메모리를 포함하는, 개체명 인식시스템으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함하고,
상기 제1 추론부는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론부는 1 이상의 학습된 인공신경망 모델을 포함하고,
상기 텍스트분할부는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할부는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론부는,
말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델; 및
말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력되고,
상기 제1 추론부는,
상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩모델;을 더 포함하고,
상기 음절임베딩모델은 상기 단어임베딩모델 혹은 상기 품사임베딩모델에 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있는, 개체명 인식시스템.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는, 개체명 인식시스템으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함하고,
상기 제1 추론부는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론부는 1 이상의 학습된 인공신경망 모델을 포함하고,
상기 텍스트분할부는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할부는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론부는,
말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델; 및
말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력되고,
상기 단어임베딩모델은,
일반화된 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델; 및
상기 입력텍스트와 관련된 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델;을 포함하고,
상기 글로벌임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제1 단어세부결과를 도출하고,
상기 로컬임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제2 단어세부결과를 도출하고,
상기 단어임베딩모델은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 기초로 상기 단어세부결과를 도출하는, 개체명 인식시스템.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는, 개체명 인식시스템으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함하고,
상기 제1 추론부는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론부는 1 이상의 학습된 인공신경망 모델을 포함하고,
상기 텍스트분할부는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할부는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론부는,
말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델; 및
말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력되고,
상기 제2 추론부는,
상기 제1 추론결과를 기초로 Bidirectional LSTM 방식에 의하여 추론결과를 생성하는 LSTM모듈; 및
Bidirectional LSTM 방식에 의하여 생성된 추론결과를 기초로 CRF 알고리즘방식에 의하여 제2 추론결과를 생성하는 CRFs모듈;을 포함하고,
상기 LSTM모듈은 복수의 인풋 레이어를 가지고, 복수의 인풋레이어 각각에는 복수의 상기 제1 추론결과 각각이 입력되는, 개체명 인식시스템.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는, 개체명 인식시스템으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할부;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할부;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론부;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론부; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출부;를 포함하고,
상기 제1 추론부는 2 이상의 학습된 인공신경망 모델을 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론부는 1 이상의 학습된 인공신경망 모델을 포함하고,
상기 텍스트분할부는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할부는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론부는,
말뭉치를 기반으로 단어단위로 학습되고 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩모델; 및
말뭉치를 기반으로 품사단위로 학습되고 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩모델;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델은 상기 분할형태소가 입력되고,
상기 제1 추론부는,
상기 분할형태소가 음절단위로 학습되고, 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩모델;을 더 포함하고,
상기 음절임베딩모델은 상기 단어임베딩모델 혹은 상기 품사임베딩모델에 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있고,
상기 음절임베딩모델은,
상기 분할형태소의 각각의 음절이 순방향으로 입력이 되는 LSTM 모듈을 포함하는 순방향LSTM모듈; 및
상기 분할형태소의 각각의 음절이 역방향으로 입력이 되는 LSTM 모듈을 포함하는 역방향LSTM모듈;을 포함하는, 개체명 인식시스템.

1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 장치로 구현되는, 개체명 인식방법으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 제1 추론단계는,
상기 분할형태소가 음절단위로 학습되는 음절임베딩모델을 이용하여 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩단계;를 더 포함하고,
상기 음절임베딩단계는 상기 단어임베딩단계 혹은 상기 품사임베딩단계에서 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있는, 개체명 인식방법.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 장치로 구현되는, 개체명 인식방법으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 단어임베딩단계에서 수행되는 상기 단어임베딩모델은,
일반화된 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델; 및
상기 입력텍스트와 관련된 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델;을 포함하고,
상기 글로벌임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제1 단어세부결과를 도출하고,
상기 로컬임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제2 단어세부결과를 도출하고,
상기 단어임베딩단계에서 수행되는 상기 단어임베딩모델은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 기초로 상기 단어세부결과를 도출하는, 개체명 인식방법.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 장치로 구현되는, 개체명 인식방법으로서,
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 제2 추론단계는,
상기 제1 추론결과를 기초로 Bidirectional LSTM 방식에 의한 LSTM모듈을 이용하여 추론결과를 생성하고,
상기 LSTM모듈을 이용하여 생성된 추론결과를 기초로 CRF 알고리즘방식에 의한 CRFs모듈을 이용하여 제2 추론결과를 생성하고,
상기 LSTM모듈은 복수의 인풋 레이어를 가지고, 복수의 인풋레이어 각각에는 복수의 상기 제1 추론결과 각각이 입력되는, 개체명 인식방법.
컴퓨터-판독가능 매체로서,
상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은:
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 제1 추론단계는,
상기 분할형태소가 음절단위로 학습되는 음절임베딩모델을 이용하여 상기 분할형태소의 각각의 음절이 입력되어 음절세부결과를 도출하는 음절임베딩단계;를 더 포함하고,
상기 음절임베딩단계는 상기 단어임베딩단계 혹은 상기 품사임베딩단계에서 등록이 되지 않은 분할형태소에 대해 음절세부결과를 도출할 수 있는, 컴퓨터-판독가능 매체.
컴퓨터-판독가능 매체로서,
상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은:
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 단어임베딩단계에서 수행되는 상기 단어임베딩모델은,
일반화된 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 글로벌임베딩모델; 및
상기 입력텍스트와 관련된 분석대상 영역의 특성이 반영된 말뭉치를 기반으로 단어단위로 학습된 로컬임베딩모델;을 포함하고,
상기 글로벌임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제1 단어세부결과를 도출하고,
상기 로컬임베딩모델은 상기 분할형태소그룹을 구성하는 상기 1 이상의 분할형태소의 각각으로부터 제2 단어세부결과를 도출하고,
상기 단어임베딩단계에서 수행되는 상기 단어임베딩모델은 상기 제1 단어세부결과 및 상기 제2 단어세부결과를 기초로 상기 단어세부결과를 도출하는, 컴퓨터-판독가능 매체.
컴퓨터-판독가능 매체로서,
상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은:
입력텍스트를 기설정된 단위로 분할한 분할텍스트를 생성하는 텍스트분할단계;
상기 분할텍스트를 형태소단위로 분할하여 분할형태소를 생성하는 형태소분할단계;
상기 분할형태소로부터 벡터형태의 데이터인 제1 추론결과를 도출하는 제1 추론단계;
상기 제1 추론결과를 기초로 개체명에 대한 벡터형태의 데이터인 제2 추론결과를 도출하는 제2 추론단계; 및
상기 제2 추론결과를 기초로 개체명을 추출하여 개체명결과를 도출하는 개체명추출단계;를 포함하고,
상기 제1 추론단계는 2 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고, 상기 제1 추론결과는 상기 2 이상의 학습된 인공신경망 모델에서 도출되는 2 이상의 도출결과를 포함하고,
상기 제2 추론단계는 1 이상의 학습된 인공신경망 모델을 이용하여 수행하는 단계를 포함하고,
상기 텍스트분할단계는,
상기 입력텍스트로부터 1 이상의 상기 분할텍스트로 구성된 분할텍스트그룹을 생성하고,
상기 형태소분할단계는,
상기 분할텍스트그룹을 구성하는 각각의 상기 분할텍스트로부터 1 이상의 상기 분할형태소로 구성된 분할형태소그룹을 생성하고,
상기 제1 추론단계는,
말뭉치를 기반으로 단어단위로 학습되는 단어임베딩모델을 이용하여 입력된 단어에 대해 벡터값인 단어세부결과를 도출하는 단어임베딩단계; 및
말뭉치를 기반으로 품사단위로 학습되는 품사임베딩모델을 이용하여 입력된 단어에 대해 품사와 관련된 품사세부결과를 도출하는 품사임베딩단계;을 포함하고,
상기 단어임베딩모델 및 상기 품사임베딩모델에는 상기 분할형태소가 입력되고,
상기 제2 추론단계는,
상기 제1 추론결과를 기초로 Bidirectional LSTM 방식에 의한 LSTM모듈을 이용하여 추론결과를 생성하고,
상기 LSTM모듈을 이용하여 생성된 추론결과를 기초로 CRF 알고리즘방식에 의한 CRFs모듈을 이용하여 제2 추론결과를 생성하고,
상기 LSTM모듈은 복수의 인풋 레이어를 가지고, 복수의 인풋레이어 각각에는 복수의 상기 제1 추론결과 각각이 입력되는, 컴퓨터-판독가능 매체.
삭제
삭제
삭제
KR1020170169062A 2017-12-11 2017-12-11 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 KR101846824B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170169062A KR101846824B1 (ko) 2017-12-11 2017-12-11 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170169062A KR101846824B1 (ko) 2017-12-11 2017-12-11 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체

Publications (1)

Publication Number Publication Date
KR101846824B1 true KR101846824B1 (ko) 2018-04-09

Family

ID=61977908

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170169062A KR101846824B1 (ko) 2017-12-11 2017-12-11 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체

Country Status (1)

Country Link
KR (1) KR101846824B1 (ko)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214642A (zh) * 2018-07-10 2019-01-15 华中科技大学 一种建筑施工工序约束的自动抽取和分类方法及系统
CN109344390A (zh) * 2018-08-23 2019-02-15 昆明理工大学 一种基于多特征神经网络的柬语实体识别的方法
CN109389982A (zh) * 2018-12-26 2019-02-26 江苏满运软件科技有限公司 发货信息语音识别方法、系统、设备及存储介质
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统
CN109815253A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 一种查询语句的主语实体识别方法及装置
CN110442858A (zh) * 2019-06-24 2019-11-12 平安科技(深圳)有限公司 一种问句实体识别方法、装置、计算机设备及存储介质
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
KR102139272B1 (ko) * 2019-02-20 2020-07-30 광주과학기술원 생의학적 개체명 인식 시스템
WO2021042516A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置及计算机可读存储介质
CN112528662A (zh) * 2020-12-15 2021-03-19 深圳壹账通智能科技有限公司 基于元学习的实体类别识别方法、装置、设备和存储介质
WO2021172700A1 (ko) * 2020-02-27 2021-09-02 주식회사 와들 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법
KR20210136791A (ko) * 2020-05-08 2021-11-17 쿠팡 주식회사 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법
KR102592859B1 (ko) * 2022-12-21 2023-10-24 주식회사 지뉴소프트 인공지능 챗봇에서의 다중입력정보에 기초한 답변정보 도출방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
박용민 외, 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램, 정보처리학회논문지, 소프트웨어및데이터공학 제3권 제7호, pp.285-292 (2014.7)
조병철 외, 의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 , 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214642B (zh) * 2018-07-10 2020-09-18 华中科技大学 一种建筑施工工序约束的自动抽取和分类方法及系统
CN109214642A (zh) * 2018-07-10 2019-01-15 华中科技大学 一种建筑施工工序约束的自动抽取和分类方法及系统
CN109344390A (zh) * 2018-08-23 2019-02-15 昆明理工大学 一种基于多特征神经网络的柬语实体识别的方法
CN109471895B (zh) * 2018-10-29 2021-02-26 清华大学 电子病历表型抽取、表型名称规范化方法及系统
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统
CN109815253A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 一种查询语句的主语实体识别方法及装置
CN109389982A (zh) * 2018-12-26 2019-02-26 江苏满运软件科技有限公司 发货信息语音识别方法、系统、设备及存储介质
KR102139272B1 (ko) * 2019-02-20 2020-07-30 광주과학기술원 생의학적 개체명 인식 시스템
CN110442858A (zh) * 2019-06-24 2019-11-12 平安科技(深圳)有限公司 一种问句实体识别方法、装置、计算机设备及存储介质
CN110442858B (zh) * 2019-06-24 2024-01-30 平安科技(深圳)有限公司 一种问句实体识别方法、装置、计算机设备及存储介质
WO2021042516A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置及计算机可读存储介质
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN110807069B (zh) * 2019-10-23 2022-06-07 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
WO2021172700A1 (ko) * 2020-02-27 2021-09-02 주식회사 와들 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법
KR20210136791A (ko) * 2020-05-08 2021-11-17 쿠팡 주식회사 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법
KR102330819B1 (ko) 2020-05-08 2021-12-01 쿠팡 주식회사 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법
CN112528662A (zh) * 2020-12-15 2021-03-19 深圳壹账通智能科技有限公司 基于元学习的实体类别识别方法、装置、设备和存储介质
KR102592859B1 (ko) * 2022-12-21 2023-10-24 주식회사 지뉴소프트 인공지능 챗봇에서의 다중입력정보에 기초한 답변정보 도출방법 및 시스템

Similar Documents

Publication Publication Date Title
KR101846824B1 (ko) 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
Magueresse et al. Low-resource languages: A review of past work and future challenges
Li et al. A survey on deep learning for named entity recognition
Zhang et al. Adversarial attacks on deep-learning models in natural language processing: A survey
Sahu et al. Recurrent neural network models for disease name recognition using domain invariant features
Li et al. Incremental joint extraction of entity mentions and relations
KR101896973B1 (ko) 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
WO2020232943A1 (zh) 用于事件预测的知识图构建方法与事件预测方法
Ma et al. Accurate linear-time Chinese word segmentation via embedding matching
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
Nie et al. Embedding assisted prediction architecture for event trigger identification
Ding et al. An attentive neural sequence labeling model for adverse drug reactions mentions extraction
KR102152120B1 (ko) 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
Bahcevan et al. Deep neural network architecture for part-of-speech tagging for turkish language
Rumeng et al. A hybrid neural network model for joint prediction of presence and period assertions of medical events in clinical notes
WO2023173823A1 (zh) 药物对相互作用关系的预测方法、设备及介质
Durrani et al. On the transformation of latent space in fine-tuned nlp models
Shin et al. Learning context using segment-level LSTM for neural sequence labeling
KR102000248B1 (ko) 의생명 문헌데이터 기반 약효능 도출 방법, 장치 및 컴퓨터-판독가능 매체
Che et al. Fast and effective biomedical named entity recognition using temporal convolutional network with conditional random field
Weegar et al. Deep medical entity recognition for Swedish and Spanish
KR102329920B1 (ko) 기계학습된 모델을 이용한 의료원문데이터를 증강하는 방법 및 시스템
Azroumahli et al. An overview of a distributional word representation for an arabic named entity recognition system
Wu et al. A radical-based method for Chinese named entity recognition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant