KR20230055021A - Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 - Google Patents

Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 Download PDF

Info

Publication number
KR20230055021A
KR20230055021A KR1020210138239A KR20210138239A KR20230055021A KR 20230055021 A KR20230055021 A KR 20230055021A KR 1020210138239 A KR1020210138239 A KR 1020210138239A KR 20210138239 A KR20210138239 A KR 20210138239A KR 20230055021 A KR20230055021 A KR 20230055021A
Authority
KR
South Korea
Prior art keywords
layer
entity name
output
name recognition
deep learning
Prior art date
Application number
KR1020210138239A
Other languages
English (en)
Other versions
KR102605709B1 (ko
Inventor
조인휘
최성민
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020210138239A priority Critical patent/KR102605709B1/ko
Publication of KR20230055021A publication Critical patent/KR20230055021A/ko
Application granted granted Critical
Publication of KR102605709B1 publication Critical patent/KR102605709B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델이 개시된다. 일 실시예에 따른 개체명 인식 시스템에 의해 수행되는 개체명 인식 방법은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.

Description

Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델{A PYRAMID LAYERED ATTENTION MODEL FOR NESTED AND OVERLAPPED NAMED ENTITY RECOGNITION}
아래의 설명은 개체명 인식 기술에 관한 것이다.
개체명 인식(Named Entity Recognition; NER)은 텍스트에서 개체명(NE)의 위치를 식별하고 이를 사람, 조직, 위치, 기산 등과 같은 정의된 범주로 분류하는 것을 목표로 하는 정보 추출의 하위 작업이다. 개체명 인식은 정보 추출을 위한 도구일 뿐만 아니라 텍스트 이해, 자동 텍스트 요약, 질문 응답 시스템, 기계 번역 및 지식 기반 구축과 같은 다양한 자연어 처리 응용 프로그램에서 중요한 역할을 한다.
초기의 개체명 인식 시스템은 정확도가 높았지만, 많은 인력이 규칙을 설계해야 하기 때문에 다른 분야로 바꿀 때 많은 양의 규칙을 재설계해야 했었다. 최근 몇 년 동안 딥러닝의 급속한 발전이 각 분야에서 좋은 효과를 보고 있기 때문에 많은 개체명 인식 시스템이 딥러닝 모델을 채택하여 최고의 성능을 내고 있다.
딥러닝 모델을 이용하여 네스티드(nested)와 중복 개체명(overlapped Named Entity) 인식을 해결하는 방법 및 시스템을 제공할 수 있다.
개체명 인식 시스템에 의해 수행되는 개체명 인식 방법은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.
상기 딥러닝 모델은, 텍스트 데이터로부터 단어 임베딩과 문자 임베딩을 수행하는 인코더; 및 상기 인코더를 통해 출력된 인코딩 결과를 입력 데이터로 시용하여 서로 인접한 복수 개의 입력 데이터의 어텐션 스코어를 계산하는 동작을 통해 각 레이어의 출력 데이터를 획득하는 디코더를 포함할 수 있다.
상기 디코더는, 복수 개의 어텐션 레이어가 피라미드 형태로 구성되고, 상기 인코더로부터 출력된 인코딩 결과에 서로 다른 행렬을 곱하여 각 시점에서 인코딩 결과에 대해 복수 개의 벡터를 생성하고, 서로 인접한 두 개의 입력 데이터 사이의 상관관계를 획득하기 위하여 두 개의 입력 데이터에 대한 쿼리를 각각의 상대방 키와 곱셈 연산을 수행하는 어텐션 스코어를 계산하는 동작을 통해 상관관계의 값을 획득하고, tanh 함수를 사용하여 상기 획득된 상관관계의 값을 -1 내지 1사의 값으로 변환할 수 있다.
상기 디코더는, 상기 - 1 내지 1사이의 값으로 변환된 상관관계의 값에 벨류를 곱한 값을 가산하여 각 어텐션 레이어의 출력을 획득하고, 상기 획득된 각 어텐션 레이어의 출력이 완전 연결 레이어로 전달됨에 따라 소프트맥스 함수를 통해 분류 예측을 수행할 수 있다.
상기 인코더는, 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)로 구성되고, 상기 임베딩 레이어에서, 텍스트 데이터로부터 워드 임베딩과 문자 임베딩을 수행하고, 상기 인코딩 레이어에서, 상기 워드 임베딩의 결과와 상기 문자 임베딩의 결과를 연결한 임베딩 결과가 Bidirectional LSTM로 통과됨에 따라 인코딩 출력이 획득되고, 상기 연결 레이어에서, 상기 획득된 인코딩 출력과 사전 훈련된 언어 모델의 출력이 연결됨에 따라 완전 연결 레이어를 통해 인코딩 결과가 출력될 수 있다.
개체명 인식 시스템은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 데이터 입력부; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 개체명 인식부를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.
텍스트의 내용을 잘 학습하기 위해 문자, 단어 및 문맥 수준의 특징을 활용하고, 피라미드 모양의 어텐션 기반 디코더를 사용함으로써 플랫 개체명 인식(flat NER)을 해결할 수 있을 뿐만 아니라 네스티드나 중복 개체명 인식에도 적용할 수 있다.
도 1은 일 실시예에 따른 개체명 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 개체명 인식 시스템의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 있어서, 어텐션 레이어를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 개체명 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 개체명 인식 시스템에서 개체명 인식 방법을 설명하기 위한 흐름도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 개체명 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
개체명 인식 시스템(100)은 딥러닝 모델(110)을 이용하여 네스티드(nested)와 중복 개체명(overlapped Named Entity) 인식을 해결할 수 있다. 개체명 인식 시스템(100)은 딥러닝 모델(110)에 텍스트 데이터를 입력받을 수 있다. 개체명 인식 시스템(100)은 딥러닝 모델(110)을 통해 텍스트 데이터(101)로부터 개체명을 인식(102)할 수 있다.
이때, 딥러닝 모델(110)은 어텐션 메커니즘을 기반으로 피라미드 모델이 설계될 수 있다. 텍스트의 임베딩 결과와 인코딩 결과가 피라미드 기반으로 구성된 디코더에 입력되면, 아래에서 위로 피라미드 모양으로 쌓아올린다. 설계된 어텐션 메커니즘에 기반한 레이어는 서로 인접해 있는 복수 개(예를 들면, 두 개)의 어텐션을 계산하여 결과를 출력하므로, 각 레이어로부터 출력된 결과는 입력 길이에 비해 1이 적어지게 된다. 디코더의 L(L은 자연수)번째 레이어는 길이가 L+1인 개체명을 인식하는데 사용되므로 네스티드나 중복 개체명을 인식할 때 서로 영향을 미치지 않는다. 이에, 플랫 개체명 인식, 네스티드 개체명 인식 및 중복 개체명 인식 작업에 적합하다.
참고로, 네스티드 개체명 인식(nested NER), 중복 개체명(overlapped Named Entity), 플랫 개체명 인식(flat NER) 인식에 대하여 설명하기로 한다. 많은 개체명들 자체가 다른 개체명들을 포함하고 있는데, 이를 인식하는 것을 네스티드 개체명 인식이라고 한다. 예를 들어 University of Washington 이 span에서 University of Washington은 조직이고 Washington은 위치이다. 이러한 종류의 작업은 단순히 일련의 라벨링 작업으로 볼 수 없다. 왜냐하면 Washington이라는 단어에 분류를 표시할 때 조직의 끝이자 하나의 위치이다. 최근에는 네스티드 개체명 인식을 해결하기 위해 컴퓨터 비전에서 객체 감지 방법을 사용하여 모델이 개체의 경계 및 분류를 직접 예측하는 작업이 많이 이루어지고 있다.
또한, 복수 개의 개체명이 겹치는 부분이 있을 때 이를 인식하는 태스크를 중복 개체명 인식이라고 한다. 따라서 네스티드 개체명 인식은 중복 개체명 인식의 특수한 상황이라고 볼 수 있다. 그러나 복수 개의 개체명이 겹치는 부분이 있지만 그 중 어느 것도 다른 엔터티를 완전히 포함하지 않는 경우도 많다. 따라서 경계 검출에 기반한 방법은 중복 개체명 인식에도 적합하다.
플랫 개체명 인식 작업은 개체명의 주석에 단조롭게 주석을 부가하는 것이다. 모든 엔터티 간에 중첩 또는 겹침이 없다. 이런 임무의 해결 방식은 상대적으로 간단해서 이 작업을 시퀀스 라벨링 작업으로 직접 간주할 수 있다. 최근 유행하는 해결 방식은 Long short-term memory (LSTM)와 conditional random fields (CRF) 또는 간단한 소프트맥스(softmax)를 이용해 각각의 단어를 분류하는 방식이다.
도 2는 일 실시예에 따른 개체명 인식 시스템의 동작을 설명하기 위한 도면이다.
개체명 인식 시스템은 딥러닝 모델(110)을 통해 텍스트 데이터로부터 개체명을 인식할 수 있다. 개체명 인식 시스템은 개체명 인식을 위한 태스크를 해결하기 위한 딥러닝 모델(110)을 설계할 수 있다. 딥러닝 모델(110)은 인코더(210)와 디코더(220)로 구성될 수 있다.
인코더(210)는 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)를 포함하는 세 가지의 구성 요소로 구성될 수 있다. 상세하게는, 임베딩 레이어에서 임베딩을 결합하는 방식이 채택될 수 있다. 문자 임베딩(Character Embedding)과 워드 임베딩(Word Embedding)이 결합될 수 있다. 문자 임베딩과 워드 임베딩이 결합된 접근 방식은 단어 수준의 특징과 문자 수준의 특징을 결합한다. 임베딩 결과는 인코딩 레이어로 전달될 수 있다. 인코딩 레이어의 목적은 컨텍스트 정보를 결합하는 것이다. 인코딩 레이어의 출력 결과가 BERT의 임베딩 결과와 같은 사전 훈련된 언어 모델과 결합되어 디코딩 레이어로 전달될 수 있다.
디코더(220)는 피라미드 형태의 어텐션(Attention) 모델로 설계될 수 있다. L(L은 자연수) 번째 레이어의 출력은 길이 범위(Span of length) L-1의 특징이며, 마지막으로 분류를 위해 소프트맥스 방법을 사용할 수 있다.
상세하게는, 개체명 인식 시스템은 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 예를 들면, 텍스트 데이터는 문장일 수 있다. 이때, 딥러닝 모델에 입력되는 입력 데이터는 T 길이의 텍스트 문장이다. 출력은 각각 길이가 T, T-1, ??, T-L+1인 L개의 IOB2형식 태그 시퀀스(tag sequences)이다. IOB2 포맷(format)에서 B-{class}는 개체명의 시작에 쓰이고, I-{class}는 개체명에 해당하는 1개 이상의 토큰 중 두번째 토큰부터 쓰이고, O는 개체명에 해당되지 않는 토큰이다.
딥러닝 모델(110)은 인코더(210)와 디코더(220)를 포함하는 두 부분으로 구분될 수 있다. 딥러닝 모델(110)에 구성된 인코더(210)를 통한 인코딩이 수행될 수 있다. 인코딩이 수행됨에 따라 획득된 임베딩 시퀀스는 개체명 인식을 위한 디코더(디코딩 레이어)에 재귀적으로 공급될 수 있다. 디코더(220)의 각 레이어는 길이가 T-L인 특징에 대한 순차적 레이블링이다.
먼저, T 토큰을 포함하는 문장은
Figure pat00001
로 표시될 수 있다.
인코더(210)는 문자 임베딩의 경우, Bidirectional LSTM을 사용할 수 있다. 워드 임베딩의 경우, GloVe 방법을 사용할 수 있다. 문자 임베딩 및 워드 임베딩을 수행한 결과를 결합하여 인코딩 레이어로 전달할 수 있다. 인코딩 레이어에서는 Bidirectional LSTM을 사용하여 컨텍스트 정보를 결합할 수 있다. 인코더의 끝에서 인코딩 레이어의 출력과 BERT의 임베딩 결과가 결합되어 완전 연결 레이어(Fully Connected Layer)를 통해 인코더의 출력으로 사용된다. 따라서, 입력 데이터
Figure pat00002
에 대한 인코더 공식은 다음과 같이 나타낼 수 있다.
Figure pat00003
보다 구체적으로, 워드 임베딩은 사전 훈련된 단어 벡터로 초기화될 수 있다. 여기서, 사전 훈련된 GloVe이 선택될 수 있다. GloVe이 없는 단어들은 랜덤하게 초기화될 수 있다. 이런 문제는 out-of-vocabulary(OOV)라고 한다. 수식으로 표현하자면,
Figure pat00004
이 된다.
또한, 문자 임베딩은 Bidirectional LSTM를 사용하여 문자 임베딩을 동적으로 생성하고, 트레이닝 중에 가중치를 업데이트할 수 있다. 문자 임베딩을 도입하면 모델이 OOV 단어를 더욱 잘 처리할 수 있다. 단어를 글자 단위로 분리하고, 임베딩을 이용하여 글자에 대해서 임베딩을 수행할 수 있다. 최종적으로 정방향 LSTM의 마지막 히든 스테이트(hidden state)와 역방향 LSTM의 첫번째 히든 스테이트(hidden state)를 연결(concatenate)한 결과를 단어의 벡터로 사용할 수 있다. 수식으로 표현하자면,
Figure pat00005
,
Figure pat00006
이 된다.
또한, 인코딩 레이어는 워드 임베딩 결과와 문자 임베딩 결과를 연결(concatenate)하고, Bidirectional LSTM로 전달할 수 있다. 이는, 컨텍스트 정보(contextual information)를 더욱 활용하기 위함이다. 수식으로 표현하자면,
Figure pat00007
,
Figure pat00008
이 된다.
또한, 더 나은 컨텍스트 정보를 이용하기 위하여 사전 훈련된 언어 모델이 사용될 수 있다. 여기서는, BERT가 사용될 수 있다. 수식으로 표현하자면,
Figure pat00009
이 된다.
연결 레이어(concatenate Layer)는 인코딩 레이어의 출력과 사전 훈련된 언어 모델의 출력을 연결한 다음 완전 연결 레이어를 통해 결과 데이터를 출력할 수 있다. 수식으로 표현하자면,
Figure pat00010
이 된다.
도 3을 참고하면, 어텐션 레이어(230)를 설명하기 위한 도면이다. 디코더(220)는 쌍 어텐션 레이어(Pairwise Attention Layer)로 구성될 수 있다. 디코더는 각 입력에 3개의 다른 행렬을 곱하여 3개의 벡터 q, k, v를 획득할 수 있다. 다시 말해서, 디코더(220)는 인코더 부분의 출력에 3개의 서로 다른 행렬을 곱하여 각 시점에서 출력에 대해 3개의 벡터를 생성할 수 있다. 디코더의 입력 데이터는
Figure pat00011
이다. 여기서, q는 쿼리(query), k는 키(key), v는 벨류(value)를 나타낸다. 벡터 q, k, v의 계산 방식은 다음과 같다.
Figure pat00012
Figure pat00013
Figure pat00014
여기서,
Figure pat00015
는 디코더의 L번째 어텐션 레이어의 i번째 입력 데이터이다.
Figure pat00016
Figure pat00017
의 키, 쿼리, 벨류이다. 그리고 dk=dq이다.
Figure pat00018
는 학습할 파라미터들이고, 디코더의 어텐션 레이어 사이에 공유될 수 있다.
그런 다음, 인접하는 두 입력 데이터 사이에 상관관계를 획득하기 위하여, 두 입력 데이터에 대한 쿼리를 상대방의 키와 곱셈 연산을 수행할 수 있다. 이때, 값이 높을수록 두 점 사이의 관계가 강하다는 것을 의미한다. 그리고, tanh 함수를 사용하여 상관관계의 값을 [-1, 1]사이에 스케일링(scaling)한다. 어텐션 스코어를 계산하는 수식은 아래와 같다.
Figure pat00019
Figure pat00020
는 입력 데이터
Figure pat00021
의 쿼리이고,
Figure pat00022
는 입력 데이터
Figure pat00023
의 키의 전치이다.
Figure pat00024
는 입력 데이터
Figure pat00025
에 대한 입력 데이터
Figure pat00026
의 어텐션 스코어를 나타낸다.
디코더(220)에 구성된 어텐션 레이어(230)의 출력은 인접한 두 입력 데이터의 어텐션 스코어에 해당 벨류를 곱하고 가산함으로써 결과 데이터가 획득될 수 있다. 계산 방법은 다음과 같다.
Figure pat00027
여기서,
Figure pat00028
는 디코더의 L번째 어텐션 레이어의 i번째 출력이고, L+1번째 어텐션 레이어의 i번째 입력이다.
디코더에 어텐션 레이어가 출력될 때마다 출력 길이가 1씩 줄어들게 된다. 그리고, 어텐션 레이어 L의 출력은 텍스트에 대한 슬라이딩 윈도우(window)를 설정하는 것과 동일하며, 윈도우의 크기는 L+1이다.
마지막으로, 완전 연결 레이어와 소프트맥스 방법을 사용하여 각 어텐션 레이어에서 분류 작업이 수행될 수 있다. 각 어텐션 레이어의 출력은 완전 연결 레이어로 전송되고, 소프트맥스 함수는 분류 예측을 수행하는데 사용될 수 있다. 수식은 다음과 같다.
Figure pat00029
여기서,
Figure pat00030
는 디코더의 L번째 어텐션 레이어의 i번째 출력의 예측 결과이다. dclass는 태그 총 클래스의 개수이다.
도 4는 일 실시예에 따른 개체명 인식 시스템의 구성을 설명하기 위한 블록도이고, 도 5는 일 실시예에 따른 개체명 인식 시스템에서 개체명 인식 방법을 설명하기 위한 흐름도이다.
개체명 인식 시스템(100)의 프로세서는 데이터 입력부(410) 및 개체명 인식부(320)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 개체명 인식 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 5의 개체명 인식 방법이 포함하는 단계들(510 내지 520)을 수행하도록 개체명 인식 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 개체명 인식 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 개체명 인식 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 개체명 인식 시스템을 제어할 수 있다. 이때, 프로세서는 데이터 입력부(410) 및 개체명 인식부(420) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(510 내지 520)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(510)에서 데이터 입력부(410)는 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 데이터 입력부(410)는 문장 형태의 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 이때, 텍스트 데이터는 적어도 하나 이상으로 구성된 문장을 포함할 수 있다. 또한, 텍스트 데이터는 한글, 영어 등 하나의 언어 또는 여러 가지 언어가 혼용된 형태를 포함할 수도 있다.
단계(520)에서 개체명 인식부(420)는 딥러닝 모델을 통해 입력받은 텍스트 데이터로부터 개체명을 인식할 수 있다. 이를 통해, 플랫 개체명 인식, 네스티드 개체명 인식 및 중복 개체명 인식 작업에 적합한 개체명 인식이 가능하게 된다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (6)

  1. 개체명 인식 시스템에 의해 수행되는 개체명 인식 방법에 있어서,
    텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및
    상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계
    를 포함하고,
    상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된
    것을 특징으로 하는 개체명 인식 방법.
  2. 제1항에 있어서,
    상기 딥러닝 모델은,
    텍스트 데이터로부터 단어 임베딩과 문자 임베딩을 수행하는 인코더; 및
    상기 인코더를 통해 출력된 인코딩 결과를 입력 데이터로 시용하여 서로 인접한 복수 개의 입력 데이터의 어텐션 스코어를 계산하는 동작을 통해 각 레이어의 출력 데이터를 획득하는 디코더
    를 포함하는 개체명 인식 방법.
  3. 제2항에 있어서,
    상기 디코더는, 복수 개의 어텐션 레이어가 피라미드 형태로 구성되고,
    상기 인코더로부터 출력된 인코딩 결과에 서로 다른 행렬을 곱하여 각 시점에서 인코딩 결과에 대해 복수 개의 벡터를 생성하고, 서로 인접한 두 개의 입력 데이터 사이의 상관관계를 획득하기 위하여 두 개의 입력 데이터에 대한 쿼리를 각각의 상대방 키와 곱셈 연산을 수행하는 어텐션 스코어를 계산하는 동작을 통해 상관관계의 값을 획득하고, tanh 함수를 사용하여 상기 획득된 상관관계의 값을 -1 내지 1사의 값으로 변환하는
    것을 특징으로 하는 개체명 인식 방법.
  4. 제3항에 있어서,
    상기 디코더는,
    상기 - 1 내지 1사이의 값으로 변환된 상관관계의 값에 벨류를 곱한 값을 가산하여 각 어텐션 레이어의 출력을 획득하고, 상기 획득된 각 어텐션 레이어의 출력이 완전 연결 레이어로 전달됨에 따라 소프트맥스 함수를 통해 분류 예측을 수행하는
    것을 특징으로 하는 개체명 인식 방법.
  5. 제2항에 있어서,
    상기 인코더는, 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)로 구성되고,
    상기 임베딩 레이어에서, 텍스트 데이터로부터 워드 임베딩과 문자 임베딩을 수행하고,
    상기 인코딩 레이어에서, 상기 워드 임베딩의 결과와 상기 문자 임베딩의 결과를 연결한 임베딩 결과가 Bidirectional LSTM로 통과됨에 따라 인코딩 출력이 획득되고,
    상기 연결 레이어에서, 상기 획득된 인코딩 출력과 사전 훈련된 언어 모델의 출력이 연결됨에 따라 완전 연결 레이어를 통해 인코딩 결과가 출력되는
    것을 특징으로 하는 개체명 인식 방법.
  6. 개체명 인식 시스템에 있어서,
    텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 데이터 입력부; 및
    상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 개체명 인식부
    를 포함하고,
    상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된
    것을 특징으로 하는 개체명 인식 시스템.
KR1020210138239A 2021-10-18 2021-10-18 Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 KR102605709B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210138239A KR102605709B1 (ko) 2021-10-18 2021-10-18 Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210138239A KR102605709B1 (ko) 2021-10-18 2021-10-18 Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델

Publications (2)

Publication Number Publication Date
KR20230055021A true KR20230055021A (ko) 2023-04-25
KR102605709B1 KR102605709B1 (ko) 2023-11-23

Family

ID=86101527

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210138239A KR102605709B1 (ko) 2021-10-18 2021-10-18 Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델

Country Status (1)

Country Link
KR (1) KR102605709B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316372A (zh) * 2023-11-30 2023-12-29 天津大学 一种基于深度学习的耳疾电子病历解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180070103A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
KR101941692B1 (ko) * 2017-10-18 2019-01-23 서강대학교산학협력단 한국어 개체명 인식방법 및 장치
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
KR20210018571A (ko) * 2019-08-05 2021-02-18 강원대학교산학협력단 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180070103A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
KR101941692B1 (ko) * 2017-10-18 2019-01-23 서강대학교산학협력단 한국어 개체명 인식방법 및 장치
KR20210018571A (ko) * 2019-08-05 2021-02-18 강원대학교산학협력단 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
‘어텐션 메커니즘(Attention Mechanism) 간단히 이해하기’, (url: https://moondol-ai.tistory.com/316), 2021.07., pp.1-11. 1부.* *
Jue Wang 외 3명, ‘Pyramid: A Layered Model for Nested Named Entity Recognition’, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.07., pp.5918-5928. 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316372A (zh) * 2023-11-30 2023-12-29 天津大学 一种基于深度学习的耳疾电子病历解析方法
CN117316372B (zh) * 2023-11-30 2024-04-09 天津大学 一种基于深度学习的耳疾电子病历解析方法

Also Published As

Publication number Publication date
KR102605709B1 (ko) 2023-11-23

Similar Documents

Publication Publication Date Title
US11657233B2 (en) Systems and methods for unifying question answering and text classification via span extraction
CN111699498B (zh) 作为问答的多任务学习
US11755885B2 (en) Joint learning of local and global features for entity linking via neural networks
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108615036B (zh) 一种基于卷积注意力网络的自然场景文本识别方法
CN109670029B (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
JP2021524623A (ja) 質問応答としてのマルチタスク学習
CN109657226B (zh) 多联结注意力的阅读理解模型、系统及方法
EP3596666A1 (en) Multi-task multi-modal machine learning model
WO2018126213A1 (en) Multi-task learning using knowledge distillation
WO2017168252A1 (en) Method and system for processing an input query
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
KR102476383B1 (ko) 딥러닝 기반 키워드 추출 방법 및 장치
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN116324804A (zh) 训练问答对话系统以避免对抗性攻击
KR102605709B1 (ko) Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델
CN113051910B (zh) 一种用于预测人物角色情绪的方法和装置
Dilawari et al. Neural attention model for abstractive text summarization using linguistic feature space
CN115906861A (zh) 基于交互方面信息融合的语句情感分析方法以及装置
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
Julian Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python
Rafat et al. Vector representation of bengali word using various word embedding model
KR102498670B1 (ko) 단락의 순위화를 위한 방법 및 장치
KR20210044003A (ko) 단어 임베딩 방법 및 장치와 단어 검색 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant