KR20230055021A - Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 - Google Patents
Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 Download PDFInfo
- Publication number
- KR20230055021A KR20230055021A KR1020210138239A KR20210138239A KR20230055021A KR 20230055021 A KR20230055021 A KR 20230055021A KR 1020210138239 A KR1020210138239 A KR 1020210138239A KR 20210138239 A KR20210138239 A KR 20210138239A KR 20230055021 A KR20230055021 A KR 20230055021A
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- entity name
- output
- name recognition
- deep learning
- Prior art date
Links
- 238000013136 deep learning model Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델이 개시된다. 일 실시예에 따른 개체명 인식 시스템에 의해 수행되는 개체명 인식 방법은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.
Description
아래의 설명은 개체명 인식 기술에 관한 것이다.
개체명 인식(Named Entity Recognition; NER)은 텍스트에서 개체명(NE)의 위치를 식별하고 이를 사람, 조직, 위치, 기산 등과 같은 정의된 범주로 분류하는 것을 목표로 하는 정보 추출의 하위 작업이다. 개체명 인식은 정보 추출을 위한 도구일 뿐만 아니라 텍스트 이해, 자동 텍스트 요약, 질문 응답 시스템, 기계 번역 및 지식 기반 구축과 같은 다양한 자연어 처리 응용 프로그램에서 중요한 역할을 한다.
초기의 개체명 인식 시스템은 정확도가 높았지만, 많은 인력이 규칙을 설계해야 하기 때문에 다른 분야로 바꿀 때 많은 양의 규칙을 재설계해야 했었다. 최근 몇 년 동안 딥러닝의 급속한 발전이 각 분야에서 좋은 효과를 보고 있기 때문에 많은 개체명 인식 시스템이 딥러닝 모델을 채택하여 최고의 성능을 내고 있다.
딥러닝 모델을 이용하여 네스티드(nested)와 중복 개체명(overlapped Named Entity) 인식을 해결하는 방법 및 시스템을 제공할 수 있다.
개체명 인식 시스템에 의해 수행되는 개체명 인식 방법은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.
상기 딥러닝 모델은, 텍스트 데이터로부터 단어 임베딩과 문자 임베딩을 수행하는 인코더; 및 상기 인코더를 통해 출력된 인코딩 결과를 입력 데이터로 시용하여 서로 인접한 복수 개의 입력 데이터의 어텐션 스코어를 계산하는 동작을 통해 각 레이어의 출력 데이터를 획득하는 디코더를 포함할 수 있다.
상기 디코더는, 복수 개의 어텐션 레이어가 피라미드 형태로 구성되고, 상기 인코더로부터 출력된 인코딩 결과에 서로 다른 행렬을 곱하여 각 시점에서 인코딩 결과에 대해 복수 개의 벡터를 생성하고, 서로 인접한 두 개의 입력 데이터 사이의 상관관계를 획득하기 위하여 두 개의 입력 데이터에 대한 쿼리를 각각의 상대방 키와 곱셈 연산을 수행하는 어텐션 스코어를 계산하는 동작을 통해 상관관계의 값을 획득하고, tanh 함수를 사용하여 상기 획득된 상관관계의 값을 -1 내지 1사의 값으로 변환할 수 있다.
상기 디코더는, 상기 - 1 내지 1사이의 값으로 변환된 상관관계의 값에 벨류를 곱한 값을 가산하여 각 어텐션 레이어의 출력을 획득하고, 상기 획득된 각 어텐션 레이어의 출력이 완전 연결 레이어로 전달됨에 따라 소프트맥스 함수를 통해 분류 예측을 수행할 수 있다.
상기 인코더는, 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)로 구성되고, 상기 임베딩 레이어에서, 텍스트 데이터로부터 워드 임베딩과 문자 임베딩을 수행하고, 상기 인코딩 레이어에서, 상기 워드 임베딩의 결과와 상기 문자 임베딩의 결과를 연결한 임베딩 결과가 Bidirectional LSTM로 통과됨에 따라 인코딩 출력이 획득되고, 상기 연결 레이어에서, 상기 획득된 인코딩 출력과 사전 훈련된 언어 모델의 출력이 연결됨에 따라 완전 연결 레이어를 통해 인코딩 결과가 출력될 수 있다.
개체명 인식 시스템은, 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 데이터 입력부; 및 상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 개체명 인식부를 포함하고, 상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된 것일 수 있다.
텍스트의 내용을 잘 학습하기 위해 문자, 단어 및 문맥 수준의 특징을 활용하고, 피라미드 모양의 어텐션 기반 디코더를 사용함으로써 플랫 개체명 인식(flat NER)을 해결할 수 있을 뿐만 아니라 네스티드나 중복 개체명 인식에도 적용할 수 있다.
도 1은 일 실시예에 따른 개체명 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 개체명 인식 시스템의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 있어서, 어텐션 레이어를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 개체명 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 개체명 인식 시스템에서 개체명 인식 방법을 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 개체명 인식 시스템의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 있어서, 어텐션 레이어를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 개체명 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 개체명 인식 시스템에서 개체명 인식 방법을 설명하기 위한 흐름도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 개체명 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
개체명 인식 시스템(100)은 딥러닝 모델(110)을 이용하여 네스티드(nested)와 중복 개체명(overlapped Named Entity) 인식을 해결할 수 있다. 개체명 인식 시스템(100)은 딥러닝 모델(110)에 텍스트 데이터를 입력받을 수 있다. 개체명 인식 시스템(100)은 딥러닝 모델(110)을 통해 텍스트 데이터(101)로부터 개체명을 인식(102)할 수 있다.
이때, 딥러닝 모델(110)은 어텐션 메커니즘을 기반으로 피라미드 모델이 설계될 수 있다. 텍스트의 임베딩 결과와 인코딩 결과가 피라미드 기반으로 구성된 디코더에 입력되면, 아래에서 위로 피라미드 모양으로 쌓아올린다. 설계된 어텐션 메커니즘에 기반한 레이어는 서로 인접해 있는 복수 개(예를 들면, 두 개)의 어텐션을 계산하여 결과를 출력하므로, 각 레이어로부터 출력된 결과는 입력 길이에 비해 1이 적어지게 된다. 디코더의 L(L은 자연수)번째 레이어는 길이가 L+1인 개체명을 인식하는데 사용되므로 네스티드나 중복 개체명을 인식할 때 서로 영향을 미치지 않는다. 이에, 플랫 개체명 인식, 네스티드 개체명 인식 및 중복 개체명 인식 작업에 적합하다.
참고로, 네스티드 개체명 인식(nested NER), 중복 개체명(overlapped Named Entity), 플랫 개체명 인식(flat NER) 인식에 대하여 설명하기로 한다. 많은 개체명들 자체가 다른 개체명들을 포함하고 있는데, 이를 인식하는 것을 네스티드 개체명 인식이라고 한다. 예를 들어 University of Washington 이 span에서 University of Washington은 조직이고 Washington은 위치이다. 이러한 종류의 작업은 단순히 일련의 라벨링 작업으로 볼 수 없다. 왜냐하면 Washington이라는 단어에 분류를 표시할 때 조직의 끝이자 하나의 위치이다. 최근에는 네스티드 개체명 인식을 해결하기 위해 컴퓨터 비전에서 객체 감지 방법을 사용하여 모델이 개체의 경계 및 분류를 직접 예측하는 작업이 많이 이루어지고 있다.
또한, 복수 개의 개체명이 겹치는 부분이 있을 때 이를 인식하는 태스크를 중복 개체명 인식이라고 한다. 따라서 네스티드 개체명 인식은 중복 개체명 인식의 특수한 상황이라고 볼 수 있다. 그러나 복수 개의 개체명이 겹치는 부분이 있지만 그 중 어느 것도 다른 엔터티를 완전히 포함하지 않는 경우도 많다. 따라서 경계 검출에 기반한 방법은 중복 개체명 인식에도 적합하다.
플랫 개체명 인식 작업은 개체명의 주석에 단조롭게 주석을 부가하는 것이다. 모든 엔터티 간에 중첩 또는 겹침이 없다. 이런 임무의 해결 방식은 상대적으로 간단해서 이 작업을 시퀀스 라벨링 작업으로 직접 간주할 수 있다. 최근 유행하는 해결 방식은 Long short-term memory (LSTM)와 conditional random fields (CRF) 또는 간단한 소프트맥스(softmax)를 이용해 각각의 단어를 분류하는 방식이다.
도 2는 일 실시예에 따른 개체명 인식 시스템의 동작을 설명하기 위한 도면이다.
개체명 인식 시스템은 딥러닝 모델(110)을 통해 텍스트 데이터로부터 개체명을 인식할 수 있다. 개체명 인식 시스템은 개체명 인식을 위한 태스크를 해결하기 위한 딥러닝 모델(110)을 설계할 수 있다. 딥러닝 모델(110)은 인코더(210)와 디코더(220)로 구성될 수 있다.
인코더(210)는 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)를 포함하는 세 가지의 구성 요소로 구성될 수 있다. 상세하게는, 임베딩 레이어에서 임베딩을 결합하는 방식이 채택될 수 있다. 문자 임베딩(Character Embedding)과 워드 임베딩(Word Embedding)이 결합될 수 있다. 문자 임베딩과 워드 임베딩이 결합된 접근 방식은 단어 수준의 특징과 문자 수준의 특징을 결합한다. 임베딩 결과는 인코딩 레이어로 전달될 수 있다. 인코딩 레이어의 목적은 컨텍스트 정보를 결합하는 것이다. 인코딩 레이어의 출력 결과가 BERT의 임베딩 결과와 같은 사전 훈련된 언어 모델과 결합되어 디코딩 레이어로 전달될 수 있다.
디코더(220)는 피라미드 형태의 어텐션(Attention) 모델로 설계될 수 있다. L(L은 자연수) 번째 레이어의 출력은 길이 범위(Span of length) L-1의 특징이며, 마지막으로 분류를 위해 소프트맥스 방법을 사용할 수 있다.
상세하게는, 개체명 인식 시스템은 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 예를 들면, 텍스트 데이터는 문장일 수 있다. 이때, 딥러닝 모델에 입력되는 입력 데이터는 T 길이의 텍스트 문장이다. 출력은 각각 길이가 T, T-1, ??, T-L+1인 L개의 IOB2형식 태그 시퀀스(tag sequences)이다. IOB2 포맷(format)에서 B-{class}는 개체명의 시작에 쓰이고, I-{class}는 개체명에 해당하는 1개 이상의 토큰 중 두번째 토큰부터 쓰이고, O는 개체명에 해당되지 않는 토큰이다.
딥러닝 모델(110)은 인코더(210)와 디코더(220)를 포함하는 두 부분으로 구분될 수 있다. 딥러닝 모델(110)에 구성된 인코더(210)를 통한 인코딩이 수행될 수 있다. 인코딩이 수행됨에 따라 획득된 임베딩 시퀀스는 개체명 인식을 위한 디코더(디코딩 레이어)에 재귀적으로 공급될 수 있다. 디코더(220)의 각 레이어는 길이가 T-L인 특징에 대한 순차적 레이블링이다.
인코더(210)는 문자 임베딩의 경우, Bidirectional LSTM을 사용할 수 있다. 워드 임베딩의 경우, GloVe 방법을 사용할 수 있다. 문자 임베딩 및 워드 임베딩을 수행한 결과를 결합하여 인코딩 레이어로 전달할 수 있다. 인코딩 레이어에서는 Bidirectional LSTM을 사용하여 컨텍스트 정보를 결합할 수 있다. 인코더의 끝에서 인코딩 레이어의 출력과 BERT의 임베딩 결과가 결합되어 완전 연결 레이어(Fully Connected Layer)를 통해 인코더의 출력으로 사용된다. 따라서, 입력 데이터 에 대한 인코더 공식은 다음과 같이 나타낼 수 있다.
보다 구체적으로, 워드 임베딩은 사전 훈련된 단어 벡터로 초기화될 수 있다. 여기서, 사전 훈련된 GloVe이 선택될 수 있다. GloVe이 없는 단어들은 랜덤하게 초기화될 수 있다. 이런 문제는 out-of-vocabulary(OOV)라고 한다. 수식으로 표현하자면, 이 된다.
또한, 문자 임베딩은 Bidirectional LSTM를 사용하여 문자 임베딩을 동적으로 생성하고, 트레이닝 중에 가중치를 업데이트할 수 있다. 문자 임베딩을 도입하면 모델이 OOV 단어를 더욱 잘 처리할 수 있다. 단어를 글자 단위로 분리하고, 임베딩을 이용하여 글자에 대해서 임베딩을 수행할 수 있다. 최종적으로 정방향 LSTM의 마지막 히든 스테이트(hidden state)와 역방향 LSTM의 첫번째 히든 스테이트(hidden state)를 연결(concatenate)한 결과를 단어의 벡터로 사용할 수 있다. 수식으로 표현하자면, , 이 된다.
또한, 인코딩 레이어는 워드 임베딩 결과와 문자 임베딩 결과를 연결(concatenate)하고, Bidirectional LSTM로 전달할 수 있다. 이는, 컨텍스트 정보(contextual information)를 더욱 활용하기 위함이다. 수식으로 표현하자면, , 이 된다.
연결 레이어(concatenate Layer)는 인코딩 레이어의 출력과 사전 훈련된 언어 모델의 출력을 연결한 다음 완전 연결 레이어를 통해 결과 데이터를 출력할 수 있다. 수식으로 표현하자면, 이 된다.
도 3을 참고하면, 어텐션 레이어(230)를 설명하기 위한 도면이다. 디코더(220)는 쌍 어텐션 레이어(Pairwise Attention Layer)로 구성될 수 있다. 디코더는 각 입력에 3개의 다른 행렬을 곱하여 3개의 벡터 q, k, v를 획득할 수 있다. 다시 말해서, 디코더(220)는 인코더 부분의 출력에 3개의 서로 다른 행렬을 곱하여 각 시점에서 출력에 대해 3개의 벡터를 생성할 수 있다. 디코더의 입력 데이터는 이다. 여기서, q는 쿼리(query), k는 키(key), v는 벨류(value)를 나타낸다. 벡터 q, k, v의 계산 방식은 다음과 같다.
그런 다음, 인접하는 두 입력 데이터 사이에 상관관계를 획득하기 위하여, 두 입력 데이터에 대한 쿼리를 상대방의 키와 곱셈 연산을 수행할 수 있다. 이때, 값이 높을수록 두 점 사이의 관계가 강하다는 것을 의미한다. 그리고, tanh 함수를 사용하여 상관관계의 값을 [-1, 1]사이에 스케일링(scaling)한다. 어텐션 스코어를 계산하는 수식은 아래와 같다.
디코더(220)에 구성된 어텐션 레이어(230)의 출력은 인접한 두 입력 데이터의 어텐션 스코어에 해당 벨류를 곱하고 가산함으로써 결과 데이터가 획득될 수 있다. 계산 방법은 다음과 같다.
디코더에 어텐션 레이어가 출력될 때마다 출력 길이가 1씩 줄어들게 된다. 그리고, 어텐션 레이어 L의 출력은 텍스트에 대한 슬라이딩 윈도우(window)를 설정하는 것과 동일하며, 윈도우의 크기는 L+1이다.
마지막으로, 완전 연결 레이어와 소프트맥스 방법을 사용하여 각 어텐션 레이어에서 분류 작업이 수행될 수 있다. 각 어텐션 레이어의 출력은 완전 연결 레이어로 전송되고, 소프트맥스 함수는 분류 예측을 수행하는데 사용될 수 있다. 수식은 다음과 같다.
도 4는 일 실시예에 따른 개체명 인식 시스템의 구성을 설명하기 위한 블록도이고, 도 5는 일 실시예에 따른 개체명 인식 시스템에서 개체명 인식 방법을 설명하기 위한 흐름도이다.
개체명 인식 시스템(100)의 프로세서는 데이터 입력부(410) 및 개체명 인식부(320)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 개체명 인식 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 5의 개체명 인식 방법이 포함하는 단계들(510 내지 520)을 수행하도록 개체명 인식 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 개체명 인식 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 개체명 인식 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 개체명 인식 시스템을 제어할 수 있다. 이때, 프로세서는 데이터 입력부(410) 및 개체명 인식부(420) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(510 내지 520)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(510)에서 데이터 입력부(410)는 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 데이터 입력부(410)는 문장 형태의 텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받을 수 있다. 이때, 텍스트 데이터는 적어도 하나 이상으로 구성된 문장을 포함할 수 있다. 또한, 텍스트 데이터는 한글, 영어 등 하나의 언어 또는 여러 가지 언어가 혼용된 형태를 포함할 수도 있다.
단계(520)에서 개체명 인식부(420)는 딥러닝 모델을 통해 입력받은 텍스트 데이터로부터 개체명을 인식할 수 있다. 이를 통해, 플랫 개체명 인식, 네스티드 개체명 인식 및 중복 개체명 인식 작업에 적합한 개체명 인식이 가능하게 된다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (6)
- 개체명 인식 시스템에 의해 수행되는 개체명 인식 방법에 있어서,
텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 단계; 및
상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 단계
를 포함하고,
상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된
것을 특징으로 하는 개체명 인식 방법. - 제1항에 있어서,
상기 딥러닝 모델은,
텍스트 데이터로부터 단어 임베딩과 문자 임베딩을 수행하는 인코더; 및
상기 인코더를 통해 출력된 인코딩 결과를 입력 데이터로 시용하여 서로 인접한 복수 개의 입력 데이터의 어텐션 스코어를 계산하는 동작을 통해 각 레이어의 출력 데이터를 획득하는 디코더
를 포함하는 개체명 인식 방법. - 제2항에 있어서,
상기 디코더는, 복수 개의 어텐션 레이어가 피라미드 형태로 구성되고,
상기 인코더로부터 출력된 인코딩 결과에 서로 다른 행렬을 곱하여 각 시점에서 인코딩 결과에 대해 복수 개의 벡터를 생성하고, 서로 인접한 두 개의 입력 데이터 사이의 상관관계를 획득하기 위하여 두 개의 입력 데이터에 대한 쿼리를 각각의 상대방 키와 곱셈 연산을 수행하는 어텐션 스코어를 계산하는 동작을 통해 상관관계의 값을 획득하고, tanh 함수를 사용하여 상기 획득된 상관관계의 값을 -1 내지 1사의 값으로 변환하는
것을 특징으로 하는 개체명 인식 방법. - 제3항에 있어서,
상기 디코더는,
상기 - 1 내지 1사이의 값으로 변환된 상관관계의 값에 벨류를 곱한 값을 가산하여 각 어텐션 레이어의 출력을 획득하고, 상기 획득된 각 어텐션 레이어의 출력이 완전 연결 레이어로 전달됨에 따라 소프트맥스 함수를 통해 분류 예측을 수행하는
것을 특징으로 하는 개체명 인식 방법. - 제2항에 있어서,
상기 인코더는, 임베딩 레이어(Embedding Layer), 인코딩 레이어(Encoding Layer) 및 연결 레이어(Concatenate Layer)로 구성되고,
상기 임베딩 레이어에서, 텍스트 데이터로부터 워드 임베딩과 문자 임베딩을 수행하고,
상기 인코딩 레이어에서, 상기 워드 임베딩의 결과와 상기 문자 임베딩의 결과를 연결한 임베딩 결과가 Bidirectional LSTM로 통과됨에 따라 인코딩 출력이 획득되고,
상기 연결 레이어에서, 상기 획득된 인코딩 출력과 사전 훈련된 언어 모델의 출력이 연결됨에 따라 완전 연결 레이어를 통해 인코딩 결과가 출력되는
것을 특징으로 하는 개체명 인식 방법. - 개체명 인식 시스템에 있어서,
텍스트 데이터를 개체명 인식을 위한 딥러닝 모델에 입력받는 데이터 입력부; 및
상기 딥러닝 모델을 통해 상기 입력받은 텍스트 데이터로부터 개체명을 인식하는 개체명 인식부
를 포함하고,
상기 딥러닝 모델은, 인코더로부터 출력된 인코딩 결과를 어텐션 기반의 디코더의 입력 데이터로 사용하여 디코더의 각 레이어의 출력 길이가 감소되도록 구축된
것을 특징으로 하는 개체명 인식 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210138239A KR102605709B1 (ko) | 2021-10-18 | 2021-10-18 | Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210138239A KR102605709B1 (ko) | 2021-10-18 | 2021-10-18 | Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230055021A true KR20230055021A (ko) | 2023-04-25 |
KR102605709B1 KR102605709B1 (ko) | 2023-11-23 |
Family
ID=86101527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210138239A KR102605709B1 (ko) | 2021-10-18 | 2021-10-18 | Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102605709B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316372A (zh) * | 2023-11-30 | 2023-12-29 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180070103A (ko) * | 2016-12-16 | 2018-06-26 | 삼성전자주식회사 | 인식 방법 및 인식 장치 |
KR101941692B1 (ko) * | 2017-10-18 | 2019-01-23 | 서강대학교산학협력단 | 한국어 개체명 인식방법 및 장치 |
KR20190019748A (ko) * | 2017-08-18 | 2019-02-27 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
KR20210018571A (ko) * | 2019-08-05 | 2021-02-18 | 강원대학교산학협력단 | 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법 |
-
2021
- 2021-10-18 KR KR1020210138239A patent/KR102605709B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180070103A (ko) * | 2016-12-16 | 2018-06-26 | 삼성전자주식회사 | 인식 방법 및 인식 장치 |
KR20190019748A (ko) * | 2017-08-18 | 2019-02-27 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
KR101941692B1 (ko) * | 2017-10-18 | 2019-01-23 | 서강대학교산학협력단 | 한국어 개체명 인식방법 및 장치 |
KR20210018571A (ko) * | 2019-08-05 | 2021-02-18 | 강원대학교산학협력단 | 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법 |
Non-Patent Citations (2)
Title |
---|
‘어텐션 메커니즘(Attention Mechanism) 간단히 이해하기’, (url: https://moondol-ai.tistory.com/316), 2021.07., pp.1-11. 1부.* * |
Jue Wang 외 3명, ‘Pyramid: A Layered Model for Nested Named Entity Recognition’, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.07., pp.5918-5928. 1부.* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316372A (zh) * | 2023-11-30 | 2023-12-29 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
CN117316372B (zh) * | 2023-11-30 | 2024-04-09 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102605709B1 (ko) | 2023-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657233B2 (en) | Systems and methods for unifying question answering and text classification via span extraction | |
CN111699498B (zh) | 作为问答的多任务学习 | |
US11755885B2 (en) | Joint learning of local and global features for entity linking via neural networks | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN108615036B (zh) | 一种基于卷积注意力网络的自然场景文本识别方法 | |
CN109670029B (zh) | 用于确定问题答案的方法、装置、计算机设备及存储介质 | |
JP2021524623A (ja) | 質問応答としてのマルチタスク学習 | |
CN109657226B (zh) | 多联结注意力的阅读理解模型、系统及方法 | |
EP3596666A1 (en) | Multi-task multi-modal machine learning model | |
WO2018126213A1 (en) | Multi-task learning using knowledge distillation | |
WO2017168252A1 (en) | Method and system for processing an input query | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN109325242B (zh) | 基于词对和翻译判断句子是否对齐的方法、装置及设备 | |
KR102476383B1 (ko) | 딥러닝 기반 키워드 추출 방법 및 장치 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN116324804A (zh) | 训练问答对话系统以避免对抗性攻击 | |
KR102605709B1 (ko) | Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델 | |
CN113051910B (zh) | 一种用于预测人物角色情绪的方法和装置 | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
CN115906861A (zh) | 基于交互方面信息融合的语句情感分析方法以及装置 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
Julian | Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python | |
Rafat et al. | Vector representation of bengali word using various word embedding model | |
KR102498670B1 (ko) | 단락의 순위화를 위한 방법 및 장치 | |
KR20210044003A (ko) | 단어 임베딩 방법 및 장치와 단어 검색 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |