KR102550753B1

KR102550753B1 - 개체명 교정 시스템 및 이를 훈련시키는 방법

Info

Publication number: KR102550753B1
Application number: KR1020210156067A
Authority: KR
Inventors: 이경일
Original assignee: 주식회사 솔트룩스
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-07-04
Also published as: WO2023085506A1; KR20230069731A

Abstract

개체명 교정 시스템이 제공된다. 개체명 교정 시스템은 원문으로부터 원문 개체명들을 획득하고 요약문으로부터 요약문 개체명들을 획득하도록 구성된 개채명 추출 컴포넌트, 상기 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 상기 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득하도록 구성된 언어 컴포넌트, 상기 요약문 개체명 벡터들 중 타겟 요약문 개체명 벡터 및 상기 원문 개체명 벡터들로부터 상기 타겟 요약문 개체명 벡터에 대응하는 타겟 요약문 개체명이 상기 원문에 비추어 옳은지 여부를 판정하도록 구성된 판정 컴포넌트, 및 상기 타겟 요약문 개체명이 옳지 않은 경우 상기 타겟 요약문 개체명을 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명으로 변경하도록 구성된 교정 컴포넌트를 포함하고, 상기 판정 컴포넌트 및 상기 교정 컴포넌트는, 상기 원문 개체명 벡터들 및 상기 타겟 요약문 개체명 벡터로부터 인코더 은닉 상태들, 디코더 은닉 상태, 어텐션 분포, 및 문맥 벡터를 획득하도록 구성된 공통 서브컴포넌트를 공유할 수 있다.

Description

개체명 교정 시스템 및 이를 훈련시키는 방법{Named-entity correction systems and methods for training the same}

본 개시는 개체명 교정 시스템 및 이를 훈련시키는 방법에 관한 것이다. 보다 구체적으로는 인공 신경망을 이용한 개체명 교정 시스템 및 이를 훈련시키는 방법에 관한 것이다.

기계 요약은 소프트웨어를 이용하여 원문으로부터 요약문을 생성하는 것을 의미한다. 기계 요약은 추출 요약(Extractive summarization)과 생성 요약(Abstractive summarization)으로 분류될 수 있다. 추출 요약은 원문으로부터 중요한 문장 또는 부분을 추출함으로써 요약문을 생성하는 방법이다. 생성 요약은 원문에 기초하여 단어들을 순차적으로 생성함으로써 요약문을 생성하는 방법이다. 생성 요약은 자연스러운 요약문을 생성할 수 있다는 장점이 있다. 그러나 생성 요약은 원문에 비추어 틀린 단어를 생성할 수 있다. 최근 보고된 연구에 따르면, 생성 요약문들 중 약30%는 원문에 비추어 틀리다. 통계적으로, 틀린 요약문들 중 약 60%는 개체명이 잘못 생성되었다. 따라서 잘못된 개체명을 교정하기 위한 개체명 교정 시스템 및 이를 훈련시키는 방법의 개발이 필요하다.

본 개시가 해결하고자 하는 과제는 개체명 교정 시스템 및 이를 훈련시키기 위한 방법을 제공하는 것이다.

본 개시의 일 실시예에 따른 개체명 교정 시스템은 원문으로부터 원문 개체명들을 획득하고 요약문으로부터 요약문 개체명들을 획득하도록 구성된 개채명 추출 컴포넌트, 상기 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 상기 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득하도록 구성된 언어 컴포넌트, 상기 요약문 개체명 벡터들 중 타겟 요약문 개체명 벡터 및 상기 원문 개체명 벡터들로부터 상기 타겟 요약문 개체명 벡터에 대응하는 타겟 요약문 개체명이 상기 원문에 비추어 옳은지 여부를 판정하도록 구성된 판정 컴포넌트, 및 상기 타겟 요약문 개체명이 옳지 않은 경우 상기 타겟 요약문 개체명을 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명으로 변경하도록 구성된 교정 컴포넌트를 포함하고, 상기 판정 컴포넌트 및 상기 교정 컴포넌트는, 상기 원문 개체명 벡터들 및 상기 타겟 요약문 개체명 벡터로부터 인코더 은닉 상태들, 디코더 은닉 상태, 어텐션 분포, 및 문맥 벡터를 획득하도록 구성된 공통 서브컴포넌트를 공유할 수 있다.

본 개시의 일 실시예에서. 상기 공통 서브컴포넌트는, 상기 원문 개체명 벡터들로부터 인코더 은닉 상태들을 획득하도록 구성된 인코더 서브컴포넌트, 상기 타겟 요약문 개체명 벡터로부터 디코더 상태를 획득하도록 구성된 디코더 서브컴포넌트, 상기 인코더 은닉 상태들 및 상기 디코더 상태로부터 어텐션 분포를 획득하도록 구성된 어텐션 분포 서브컴포넌트, 및 상기 어텐션 분포와 상기 인코더 은닉 상태들로부터 문맥 벡터를 획득하도록 구성된 문맥 벡터 서브컴포넌트를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 판정 컴포넌트는 상기 문맥 벡터 및 상기 디코더 상태로부터 상기 원문에 비추어 상기 타겟 요약문 개체명이 옳은지 여부를 판정하도록 구성된 판정 서브컴포넌트를 더 포함할 수 있다.

본 개시의 일 실시예에서, 상기 교정 컴포넌트는 상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 생성 확률을 획득하도록 구성된 생성 확률 서브컴포넌트, 상기 문맥 벡터, 및 상기 디코더 상태로부터 생성 분포를 획득하도록 구성된 생성 분포 서브컴포넌트, 상기 생성 확률, 상기 생성 분포, 및 상기 어텐션 분포로부터 혼합 분포를 획득하도록 구성된 혼합 분포 서브컴포넌트, 및 상기 타겟 요약문 개체명이 옳지 않은 경우 상기 혼합 분포로부터 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 상이한 새로운 개체명인 최종 개체명으로 상기 타겟 요약문 개체명을 변경하도록 구성된 교정 서브컴포넌트를 더 포함할 수 있다.

본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법은 언어 컴포넌트가 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득할 수 있도록 상기 언어 컴포넌트를 훈련시키는 단계, 및 판정 컴포넌트가 상기 요약문 개체명 벡터들 중 타겟 요약문 개체명 벡터 및 상기 원문 개체명 벡터들로부터 상기 타겟 요약문 개체명 벡터에 대응하는 타겟 요약문 개체명이 원문에 비추어 옳은지 여부를 판정하는 판정 태스크를 수행할 수 있고, 교정 컴포넌트가 상기 타겟 요약문 개체명을 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들이 아닌 새로운 개체명으로 교정하는 교정 태스크를 수행할 수 있도록 상기 판정 컴포넌트 및 상기 교정 컴포넌트를 동시에 학습시키는 단계를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 언어 컴포넌트를 훈련시키는 단계는 사전 훈련된 상기 언어 컴포넌트를 미세 튜닝하는 단계를 포함하고, 상기 언어 컴포넌트를 미세 튜닝하는 단계는, 훈련 요약문 내의 제1 개체명에 대응하는 제1 문장으로부터 상기 제1 개체명의 제1 벡터를 획득하는 단계, 훈련 원문 내의 상기 제1 개체명과 동일한 제2 개체명에 대응하는 제2 문장으로부터 상기 제2 개체명의 제2 벡터를 획득하는 단계, 상기 훈련 원문 내의 상기 제1 개체명과 상이한 제3 개체명에 대응하는 제3 문장으로부터 상기 제3 개체명의 제3 벡터를 획득하는 단계, 및 상기 제1 벡터와 상기 제2 벡터 사이의 거리가 감소되고 상기 제1 벡터와 상기 제3 벡터 사이의 거리가 증가되도록 상기 언어 컴포넌트의 가중치들을 조절하는 단계를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터는 상기 제1 문장, 상기 제2 문장, 및 상기 제3 문장으로부터 크로스-인코더 방식에 의해 획득될 수 있다.

본 개시의 일 실시예에 따른 개체명 교정 시스템은 원문으로부터 원문 개체명들을 획득하고 요약문으로부터 요약문 개체명들을 획득하도록 구성된 개채명 추출 컴포넌트, 상기 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 상기 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득하도록 구성된 언어 컴포넌트, 및 상기 요약문 개체명들 중 타겟 요약문 개체명을 다른 개체명으로 변경하지 않거나, 상기 타겟 요약문 개체명을 상기 타겟 요약문 개체명과 다른 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명으로 변경하도록 구성된 교정 컴포넌트를 포함하고, 상기 교정 컴포넌트는 상기 원문 개체명 벡터들로부터 인코더 은닉 상태들을 획득하도록 구성된 인코더 서브컴포넌트, 상기 요약문 개체명 벡터들 중 상기 타겟 개체명에 대응하는 타겟 요약문 개체명 벡터로부터 디코더 상태를 획득하도록 구성된 디코더 서브컴포넌트, 상기 인코더 은닉 상태들 및 상기 디코더 상태로부터 어텐션 분포를 획득하도록 구성된 어텐션 분포 서브컴포넌트, 상기 어텐션 분포와 상기 인코더 은닉 상태들로부터 문맥 벡터를 획득하도록 구성된 문맥 벡터 서브컴포넌트, 상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 통과 확률을 획득하도록 구성된 통과 확률 서브컴포넌트, 상기 통과 확률로부터 통과 분포를 획득하도록 구성된 통과 분포 서브컴포넌트, 상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 생성 확률을 획득하도록 구성된 생성 확률 서브컴포넌트, 상기 문맥 벡터 및 상기 디코더 상태로부터 생성 분포를 획득하도록 구성된 생성 분포 서브컴포넌트, 상기 생성 확률, 상기 생성 분포, 및 상기 어텐션 분포로부터 혼합 분포를 획득하도록 구성된 혼합 분포 서브컴포넌트, 상기 혼합 분포 및 상기 통과 분포로부터 최종 분포를 획득하도록 구성된 최종 분포 서브컴포넌트 및 상기 최종 분포로부터 상기 타겟 요약문 개체명, 상기 타겟 요약문 개체명과 다른 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명을 획득하도록 구성된 교정 서브컴포넌트를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 타겟 요약문 개체명에 대한 상기 통과 분포의 값은 상기 통과 확률과 같고, 상기 타겟 요약문 개체명 이외의 개체명에 대한 상기 통과 분포의 값은 1 빼기 상기 통과 확률일 수 있다.

본 개시의 일 실시예에서, 상기 최종 분포는 상기 혼합 분포와 상기 통과 분포의 곱일 수 있다.

인공 신경망을 이용하여 요약문을 교정하기 위한 시스템 및 이를 훈련시키기 위한 방법이 제공된다.

도 1은 본 개시의 일 실시예에 따른 개체명 교정 시스템을 나타낸 블록도이다.
도 2는 본 개시의 일 실시예에 따른 개체명 교정 시스템에 포함되는 판정 컴포넌트 및 교정 컴포넌트를 나타낸 블록도이다.
도 3은 본 개시의 일 실시예에 따른 개체명 교정 시스템에 포함되는 개체명 추출 컴포넌트의 동작을 설명하기 위한 개념도이다.
도 4는 본 개시의 일 실시예에 따른 개체명 교정 시스템에 포함되는 언어 컴포넌트의 동작을 설명하기 위한 개념도이다.
도 5는 본 개시의 일 실시예에 따른 개체명 교정 시스템에 포함되는 판정 컴포넌트 및 교정 컴포넌트의 동작을 설명하기 위한 개념도이다.
도 6은 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법을 나타낸 흐름도이다.
도 7은 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법에 포함되는 언어 컴포넌트를 훈련시키는 단계에 사용되는 데이터 셋을 구축하는 단계를 나타낸 개념도이다.
도 8a는 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법에 포함되는 언어 컴포넌트를 훈련시키는 단계를 나타낸 개념도이다.
도 8b는 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법에 포함되는 언어 컴포넌트를 훈련시키는 단계를 나타낸 개념도이다.
도 9는 본 개시의 일 실시예에 따른 개체명 교정 시스템을 나타낸 블록도이다.
도 10은 본 개시의 일 실시예에 따른 개체명 교정 시스템에 포함되는 교정 컴포넌트의 동작을 나타낸 개념도이다.

이하에서 첨부된 도면을 참조하여 본 개시의 실시예들이 상세히 설명될 것이다. 그러나, 본 개시의 실시예들은 여러 가지 다른 형태로 변형 또는 수정될 수 있으므로, 본 발명의 범위가 아래의 실시예들에 의해 한정되는 것으로 해석되어서는 안 된다. 본 개시의 실시예들은 당 업계의 통상의 기술자에게 본 발명을 보다 상세히 설명하기 위해서 제공되는 것으로 해석되어야 한다. 도면들에 걸쳐 동일한 부호는 동일하거나 유사한 요소를 나타낼 수 있다. 방법 청구항이 방법 청구항을 구성하는 단계들이 따라야할 순서를 명시적으로 개시하지 않는한, 단계들의 순서는 방법 청구항의 범위를 제한하지 않는다.

도 1은 본 개시의 일 실시예에 따른 개체명 교정 시스템(100)을 나타낸 블록도이다. 도 2는 본 개시의 일 실시예에 따른 개체명 교정 시스템(100)에 포함되는 판정 컴포넌트(130) 및 교정 컴포넌트(140)를 나타낸 블록도이다. 도 3은 본 개시의 일 실시예에 따른 개체명 교정 시스템(100)에 포함되는 개체명 추출 컴포넌트(110)의 동작을 설명하기 위한 개념도이다. 도 4는 본 개시의 일 실시예에 따른 개체명 교정 시스템(100)에 포함되는 언어 컴포넌트(120)의 동작을 설명하기 위한 개념도이다. 도 5는 본 개시의 일 실시예에 따른 개체명 교정 시스템(100)에 포함되는 판정 컴포넌트(130) 및 교정 컴포넌트(140)의 동작을 설명하기 위한 개념도이다.

도 1 내지 도 5를 참조하면, 개체명 교정 시스템(100)은 개체명 추출 컴포넌트(110), 언어 컴포넌트(120), 판정 컴포넌트(130) 및 교정 컴포넌트(140)를 포함할 수 있다.

개체명 추출 컴포넌트(110)는 도 3에 도시된 바와 같이 원문(ST)으로부터 원문 개체명들(ES)을 획득하고 요약문(AT)으로부터 요약문 개체명들(EA)을 획득할 수 있다. 도 3에서 원문 개체명들(ES)은 원문(ST) 내의 밑줄들에 의해 표시되고, 요약문 개체명들(EA)은 요약문(aT) 내의 밑줄들에 의해 표시된다. 본 명세서에 개체명이란 사람 이름, 기관 명칭, 지역 명칭 등을 포함할 수 있다. 개체명 추출에는 구문 분석 시스템이 사용될 수 있다. 예를 들어, 한국전자통신연구원(ETRI) 인공지능 Open API 서비스의 의존 구문분석 API, 미국 스탠포드 대학교의 Stanford Parser, 또는 이들의 조합이 사용될 수 있다.

언어 컴포넌트(120)는 도 4에 도시된 바와 같이 원문 개체명들(ES, 도 3 참조)에 대응하는 원문 문장들(SST)로부터 원문 개체명들(ES, 도 3 참조)의 원문 개체명 벡터들(VES)을 획득할 수 있다. 언어 컴포넌트(120)는 또한 도 4에 도시된 바와 같이 요약문 개체명들(EA, 도 3 참조)에 대응하는 요약문 문장들(SAT)로부터 요약문 개체명들(EA, 도 3 참조)의 원문 개체명 벡터들(VEA)을 획득할 수 있다. 원문 개체명들(ES, 도 3 참조)에 대응하는 원문 문장들(SST)은 원문 개체명들(ES, 도 3 참조)을 포함하는 원문(ST, 도 3 참조) 내의 문장들에서 원문 개체명들(ES, 도 3 참조)을 각각 마스킹함으로써 얻어질 수 있다. 유사하게, 요약문 개체명들(EA, 도 3 참조)에 대응하는 요약문 문장들(SAT)은 요약문 개체명들(EA, 도 3 참조)을 포함하는 요약문(AT, 도 3 참조) 내의 문장들에서 요약문 개체명들(EA, 도 3 참조)을 각각 마스킹함으로써 얻어질 수 있다. 언어 컴포넌트(120)는 예를 들어 BERT(Bidirectional Encoder Representations from Transformers), ALBERT, ELECTRA, RoBERTa, Distill BERT, 또는 이들의 조합을 포함할 수 있다.

판정 컴포넌트(130)는 도 5에 도시된 바와 같이 요약문 개체명 벡터들(VEA, 도 3 참조) 중 타겟 요약문 개체명(V_rgr) 및 원문 개체명 벡터들(VES1, VES2, VES3, ...)로부터 타겟 요약문 개체명 벡터(V_rgr)에 대응하는 타겟 요약문 개체명이 원문(ST, 도 3 참조)에 비추어 옳은지 여부를 판정할 수 있다. 예를 들어, 도 3에 도시된 실시예에서, 타겟 요약문 개체명이 첫번째 요약문 개체명(웅진그룹), 두번째 요약문 개체명(코웨이), 또는 세번째 요약문 개체명(웅진그룹)인 경우 타겟 요약문 개체명은 원문(ST)에 비추어 옳은 것으로 판정될 수 있다. 반면, 타겟 요약문 개체명이 네번째 요약문 개체명(선파워)인 경우 타겟 요약문 개체명은 원문(ST)에 비추어 틀린 것으로 판정될 수 있다.

교정 컴포넌트(140)는 타겟 요약문 개체명이 옳지 않은 경우 타겟 요약문 개체명을 원문 개체명들(ES, 도 3 참조) 중 하나 또는 원문 개체명들(ES, 도 3 참조)과 다른 새로운 개체명으로 변경할 수 있다. 예를 들어, 타겟 요약문 개체명이 네번째 요약문 개체명(선파워)인 경우, 타겟 요약문 개체명은 원문(ST)에 비추어 틀렸으므로 올바른 개체명인 웅진그룹으로 변경될 수 있다. 반면, 타겟 요약문 개체명이 첫번째 요약문 개체명(웅진그룹), 두번째 요약문 개체명(코웨이), 또는 세번째 요약문 개체명(웅진그룹)인 경우 타겟 요약문 개체명은 원문(ST)에 비추어 옳은 것으로 판정되므로 타겟 요약문 개체명은 교체되지 않을 수 있다.

도 2 및 도 5에 도시된 바와 같이 판정 컴포넌트(130) 및 교정 컴포넌트(140)는 원문 개체명 벡터들(VES1, VES2, VES3, ...) 및 타겟 요약문 개체명 벡터(V_tgt)로부터 인토더 은닉 상태들 (h₁, h₂, h₃, ...), 디코더 은닉 상태(s), 어텐션 분포(a_i), 및 문맥 벡터(h^*)를 획득하도록 구성된 공통 서브 컴포넌트(CSC)를 공유할 수 있다. 구체적으로, 공통 서브 컴포넌트(CSC)는 인코더 서브컴포넌트(ESC), 디코더 서브컴포넌트(DSC), 어텐션 분포 서브컴포넌트(ADC), 및 문맥 벡터 서브컴포넌트(CVC)를 포함할 수 있다.

인코더 서브컴포넌트(ESC)는 도 5에 도시된 바와 같이 원문 개체명 벡터들(VES1, VES2, VES3, ...)로부터 인코더 은닉 상태들(h1, h2, h3, ...)을 획득할 수 있다. 인코더 서브컴포넌트(ESC)는 순환신경망(recurrent neural network, RNN), 장단기 메모리(long short-term memory, LSTM), 게이티드 순환 유닛(gated recurrent unit, GRU), 또는 이들의 조합을 포함할 수 있다.

디코더 서브컴포넌트(DSC)는 도 5에 도시된 바와 같이 타겟 요약문 개체명 벡터(V_tgt)로부터 디코더 상태(s)를 획득할 수 있다. 디코더 서브컴포넌트(DSC)는 순환신경망(recurrent neural network, RNN), 장단기 메모리(long short-term memory, LSTM), 게이티드 순환 유닛(gated recurrent unit, GRU), 또는 이들의 조합을 포함할 수 있다.

어텐션 분포 서브컴포넌트(ADC)는 도 5에 도시된 바와 같이 인코더 은닉 상태들(h1, h2, h3, ...) 및 디코더 상태(s)로부터 어텐션 분포(a_i)를 획득할 수 있다. 예를 들어, 어텐션 분포(a_i)는 다음과 같은 식(1) 및 식(2)에 의해 계산될 수 있다.

식 (1)

식 (2)

여기서 v, W_h, W_s 및 b_attn은 학습가능한 파라미터들이다. 그러나, 어텐션 분포(a_i)는 식(1) 및 식 (2) 외에 공지된 다양한 방법에 의해 계산될 수 있다.

문맥 벡터 서브컴포넌트(CVC)는 도 5에 도시된 바와 같이 어텐션 분포(a_i)와 인코더 은닉 상태들(h1, h2, h3, ...)로부터 문맥 벡터(h^*)를 획득할 수 있다. 예를 들어 문맥 벡터(h^*)는 다음과 같은 식 (3)에 의해 계산될 수 있다.

식 (3)

판정 컴포넌트(130)는 도 2에 도시된 바와 같이 판정 서브컴포넌트(131)를 더 포함할 수 있다. 판정 서브컴포넌트(131)는 도 5에 도시된 바와 같이 문맥 벡터(h^*) 및 디코더 상태(s)로부터 원문(ST, 도 3 참조)에 비추어 타겟 요약문 개체명이 옳은지 여부를 판정할 수 있다. 이러한 판정을 위해 판정 서브컴포넌트(131)는 문맥 벡터(h^*)와 디코더 상태(s)를 연결하는(concatenating) 레이어 및 덴스(dense) 레이어를 포함할 수 있다.

교정 컴포넌트(140)는 도 2에 도시된 바와 같이 생성 확률 서브컴포넌트(141), 생성 분포 서브컴포넌트(142), 혼합 분포 서브컴포넌트(143), 및 교정 서브컴포넌트(144)를 더 포함할 수 있다. 생성 확률 서브컴포넌트(141)는 도 5에 도시된 바와 같이 문맥 벡터(h^*), 디코더 상태(s), 및 타겟 요약문 개체명 벡터(V_tgt)로부터 생성 확률(P_gen)을 획득할 수 있다. 예를 들어, 생성 확률(P_gen)은 다음과 같은 식 (4)에 의해 계산될 수 있다.

식 (4)

여기서 w_h*, w_s, w_Vtgt 및 b_ptr은 학습가능한 파라미터들이다.

생성 분포 서브컴포넌트(142)는 도 5에 도시된 바와 같이 문맥 벡터(h^*) 및 디코더 상태(s)로부터 생성 분포(D₂(E))를 획득할 수 있다. 예를 들어 생성 분포(D₂(E))는 다음과 같은 식 (5)에 의해 생성 분포(D₂(E))획득될 수 있다.

식 (5)

여기서 v, V', b', 및 b'은 학습가능한 파라미터들이고 E는 개체명이다.

혼합 분포 서브컴포넌트(143)는 도 5에 도시된 바와 같이 생성 확률(P_gen), 생성 분포(D₂(E)), 및 어텐션 분포(a_i)로부터 혼합 분포(MD(E))를 획득할 수 있다. 예를 들어 혼합 분포 서브컴포넌트(143)는 다음과 같은 식 (6)에 의해 혼합 분포(MD(E))를 얻을 수 있다.

식 (6)

교정 서브컴포넌트(144)는 타겟 요약문 개체명이 옳지 않은 경우 혼합 분포(MD(E))로부터 원문 개체명들(ES, 도 3 참조) 중 하나 또는 원문 개체명들(ES, 도 3 참조)과 다른 새로운 개체명을 획득할 수 있다. 예를 들어, 교정 서브컴포넌트(144)는 타겟 요약문 개체명이 옳은 경우 타겟 요약문 개체명을 통과시킬 수 있다. 교정 서브컴포넌트(144)는 타겟 요약문 개체명이 옳지 않은 경우 혼합 분포(MD(E))의 값을 최대로 하는 최종 개체명(E_fin)을 획득하고 최종 개체명(E_fin)으로 타겟 요약문 개체명을 변경할 수 있다.

도 6은 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법(1100)을 나타낸 흐름도이다. 도 7은 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법(1100)에 포함되는 언어 컴포넌트를 훈련시키는 단계(1120)에 사용되는 데이터 셋을 구축하는 단계를 나타낸 개념도이다. 도 8a는 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법(1100)에 포함되는 언어 컴포넌트를 훈련시키는 단계(1120)를 나타낸 개념도이다. 도 8b는 본 개시의 일 실시예에 따른 개체명 교정 시스템을 훈련시키는 방법(1100)에 포함되는 언어 컴포넌트를 훈련시키는 단계(1120)를 나타낸 개념도이다.

도 6, 도 7, 도 8a 및 도 8b를 참조하면, 도 6에 도시된 바와 같이 개체명 교정 시스템을 훈련시키는 방법(1100)은 언어 컴포넌트를 훈련시키는 단계(1120) 및 판정 컴포넌트 및 교정 컴포넌트를 동시에 훈련시키는 단계(1135)를 포함할 수 있다.

언어 컴포넌트는 원문 개체명들(ES, 도 3 참조)에 대응하는 원문 문장들로부터 원문 개체명들(ES, 도 3 참조)의 원문 개체명 벡터들을 획득하고 요약문 개체명들(EA, 도 3 참조)에 대응하는 요약문 문장들로부터 요약문 개체명들(EA, 도 3 참조)의 요약문 개체명 벡터들을 획득할 수 있도록 훈련될 수 있다. 언어 컴포넌트를 훈련시키는 단계(1120)는 사전 훈련된 언어 컴포넌트를 미세 튜닝하는 단계를 포함할 수 있다. 언어 컴포넌트를 미세 튜닝하는 단계는 도 7에 도시된 바와 같이 데이터 셋을 구축하는 단계, 및 구축된 상기 데이터 셋을 이용하여 언어 컴포넌트를 훈련시키는 단계를 포함할 수 있다.

도 7에 도시된 바와 같이, 데이터 셋을 구축하는 단계에서 훈련 요약문(AT0) 내의 제1 개체명(E_a), 훈련 원문(ST0) 내의 제2 개체명(E_p), 및 훈련 원문(ST0) 내의 제3 개체명(E_n)이 선택될 수 있다. 제2 개체명(E_p)은 제1 개체명(E_a)과 동일할 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 제2 개체명(E_p)과 제1 개체명(E_a)은 "카카오페이"로 동일할 수 있다. 만약 훈련 원문(ST0) 내에 제1 개체명(E_a)과 동일한 복수의 개체명들이 존재하는 경우, 훈련 요약문(AT0) 내의 제1 개체명(E_a)을 포함하는 문장과 가장 많은 형태소가 중복되며 훈련 원문(ST0) 내의 문장 내의 제1 개체명(E_a)과 동일한 개체명을 제2 개체명(E_p)으로서 선택할 수 있다. 도 7에 도시된 실시예에서, 제1 개체명(E_a)("카카오페이")을 포함하는 문장은 "카카오페이가 공모가 확정을 위한 기관 투자자 수요예측에서 긍정적 반응을 얻었으나 주가 추이는 지켜봐야 할 것으로 보인다."이고, 이 문장과 가장 많은 형태소가 중복되며 "카카오페이"를 포함하는 문장은 "11월 상장을 앞둔 카카오페이가 공모가 확정을 위한 기관 투자자 수용예측에서 긍정적 반응을 얻었다."이다. 도 7에 도시된 바와 같이, 제3 개체명(E_n)은 제1 개체명(E_a)과 상이할 수 있다. 예를 들어, 도 7에 도시된 실시예에서, 제3 개체명(E-_n)은 "카카오뱅크"이고, 제1 개체명(E_a) 및 제2 개체명(E_p)은 "카카오페이"일 수 있다. 제3 개체명(E_n)은 다음과 같은 방법에 의해 선정될 수 있다.

1. 제2 개체명(E_p)을 포함하는 문장 내에 제2 개체명(E_p)과 다르며 제2 개체명(E_p)과 개체명 타입(예를 들어, 회사 이름, 사람 이름, 장소 이름, 수치 등)은 동일한 개체명을 제3 개체명(E_n)으로서 선택할 수 있다.

2. 1을 만족하는 개체명이 제2 개체명(E_p)을 포함하는 문장 내에 없을 경우, 훈련 원문(ST0) 내의 다른 문장 내에서 제2 개체명(E_p)과 다르며 제2 개체명(E_p)과 개체명 타입은 동일한 개체명을 제3 개체명(E_n)으로서 선택할 수 있다.

3. 1 및 2를 통해 제3 개체명(E_n)을 선택하지 못한 경우, 훈련 원문(ST0)으로부터 무작위적으로 선택된 문장 내의 개체명을 제3 개체명(E_n)으로서 선택할 수 있다.

제1 개체명(E_a)에 대응하는 제1 문장(S_a)은 제1 개체명(E_a)을 포함하는 문장으로부터 제1 개체명(E_a)을 마스킹한 문장일 수 있다. 예를 들어, 도 7에 도시된 실시예에서, 제1 문장(S_a)은 "[MASK]가 공모가 확정을 위한 기관 투자자 수요예측에서 긍정적 반응을 얻었으나 주가 추이는 지켜봐야 할 것으로 보인다." 이다. 제2 개체명(E_p)에 대응하는 제2 문장(S_p)은 제2 개체명(E_p)을 포함하는 문장으로부터 제2 개체명(E_p)을 마스킹한 문장일 수 있다. 예를 들어, 도 7에 도시된 실시예에서, 제2 문장(S_p)은 "11월 상장을 앞둔 [MASK]가 공모가 확정을 위한 기관 투자자 수요예측에서 긍정적 반응을 얻었다."이다. 제3 개체명(E_n)에 대응하는 제3 문장(S_n)은 제3 개체명(E_n)을 포함하는 문장으로부터 제3 개체명(E_n)을 마스킹한 문장일 수 있다. 예를 들어, 도 7에 도시된 실시예에서, 제3 문장(S_n)은 "앞서 [MASK]가 금융 대장주로 떠오르며 시장의 관심을 받았지만 이후 기관의 대형 매도 등 여러가지 요건이 작용하면서 주가가 불안정한 상황이다."이다.

도 8a에 도시된 바와 같이, 언어 컴포넌트(120)를 사용하여 제1 문장(S_a)으로부터 제1 벡터(V_a)를 획독할 수 있다. 또한 언어 컴포넌트(120)를 사용하여 제2 문장(S_p)으로부터 제2 벡터(V_p)를 획득할 수 있다. 또한 언어 컴포넌트(120)를 사용하여 제3 문장(S_n)으로부터 제3 벡터(V_n)를 획득할 수 있다. 이와 같이 바이-인코더(Bi-encoder) 방식을 이용하여 독립적으로 제1 문장(S_a), 제2 문장(S_p), 및 제3 문장(S_n)으로부터 제1 벡터(V_a), 제2 벡터(V_p), 및 제3 벡터(V_n)를 획득할 수 있다.

대안적으로, 도 8b에 도시된 바와 같이, 크로스-인코더(Cross-encoder) 방식을 이용하여 언어 컴포넌트(120)를 사용하여 제1 문장(S_a), 제2 문장(S_p), 및 제3 문장(S_n)으로부터 제1 벡터(V_a), 제2 벡터(V_p), 및 제3 벡터(V_n)를 획득할 수 있다. 제1 문장(S_a), 제2 문장(S_p), 및 제3 문장(S_n)이 언어 컴포넌트(120)에 연속적으로 입력되며, 각각의 제1 문장(S_a), 제2 문장(S_p), 및 제3 문장(S_n)의 시작임을 나타내는 토큰([CLS])과 각각의 제1 문장(S_a), 제2 문장(S_p), 및 제3 문장(S_n)의 끝임을 나타내는 토큰([SEP])이 삽입될 수 있다.

제1 벡터(V_a)와 제2 벡터(V_p) 사이의 거리가 감소되고 제1 벡터(V_a)와 제3 벡터(V_n) 사이의 거리가 증가되도록 언어 컴포넌트(120)의 가중치들이 조절될 수 있다. 예를 들어, 도 8a 및 도 8b에 도시된 바와 같이, 손실 함수(L)이 감소되도록 언어 컴포넌트(120)의 가중치들이 조절될 수 있다. 손실 함수(L)는 다음과 같은 식 (7)에 의해 정의될 수 있다.

식 (7)

여기서 α는 마진 파라미터이다.

판정 컴포넌트(130, 도 1 참조) 및 교정 컴포넌트(140, 도 1 참조)를 동시에 훈련시키는 단계(1135)에서 판정 컴포넌트(130, 도 1 참조)는 요약문 개체명 벡터들(VEA, 도 4 참조) 중 타겟 요약문 개체명 벡터(V_tgt, 도 5 참조) 및 원문 개체명 벡터들(VES1, VES2, VES3, ..., 도 5 참조)로부터 타겟 요약문 개체명 벡터(V_tgt, 도 5 참조)에 대응하는 타겟 요약문 개체명이 원문(ST, 도 3 참조)에 비추어 옳은지 여부를 판정하는 판정 태스크를 수행할 수 있도록 훈련될 수 있다. 동시에, 교정 컴포넌트(140, 도 1 참조)가 타겟 요약문 개체명을 원문 개체명들(ES, 도 3 참조) 중 하나 또는 원문 개체명들(ES, 도 3 참조)과 다른 새로운 개체명으로 교정하는 교정 태스크를 수행할 수 있도록 훈련될 수 있다. 판정 컴포넌트(130, 도 1 참조) 및 교정 컴포넌트(140, 도 1 참조)를 동시에 훈련시키는 단계(1135)의 손실함수는 판정 태스크와 관련된 손실함수와 교정 태스크와 관련된 손실함수의 합일 수 있다. 이러한 손실함수가 감소하도록 판정 컴포넌트(130, 도 1 참조) 및 교정 컴포넌트(140, 도 1 참조)의 가중치들이 조절될 수 있다.

도 9는 본 개시의 일 실시예에 따른 개체명 교정 시스템(200)을 나타낸 블록도이다. 도 10은 본 개시의 일 실시예에 따른 개체명 교정 시스템(200)에 포함되는 교정 컴포넌트(230)의 동작을 나타낸 개념도이다.

도 9 및 도 10을 참조하면, 도 9에 도시된 바와 같이 개체명 교정 시스템(200)은 개체명 추출 컴포넌트(210), 언어 컴포넌트(220), 및 교정 컴포넌트(230)를 포함할 수 있다. 개체명 추출 컴포넌트(210)는 도 1 및 도 3을 참조하여 설명한 개체명 추출 컴포넌트(110)와 동일할 수 있다. 언어 컴포넌트(220)는 도 1 및 도 4를 참조하여 설명한 언어 컴포넌트(120)와 유사할 수 있다. 교정 컴포넌트(230)는 요약문 개체명들(EA, 도 3 참조) 중 타겟 요약문 개체명을 변경하지 않거나, 타겟 요약문 개체명을 원문 개체명들(ES, 도 3 참조) 중 하나 또는 원문 개체명들(ES, 도 3 참조)과 다른 새로운 개체명으로 변경할 수 있다.

교정 컴포넌트(230)는 인코더 서브컴포넌트(ESC), 디코더 서브컴포넌트(DSC), 어텐션 분포 서브컴포넌트(ADC), 문맥 벡터 서브컴포넌트(CVC), 통과 확률 서브컴포넌트(235), 통과 분포 서브컴포넌트(236), 생성 확률 서브컴포넌트(231), 생성 분포 서브컴포넌트(232), 혼합 분포 서브컴포넌트(233), 최종 분포 서브컴포넌트(237), 및 교정 서브컴포넌트(234)를 포함할 수 있다.

인코더 서브컴포넌트(ESC)는 도 2 및 도 5를 참조하여 설명한 인코더 서브컴포넌트(ESC)와 동일할 수 있다. 디코더 서브컴포넌트(DSC)는 도 2 및 도 5를 참조하여 설명한 디코더 서브컴포넌트(DSC)와 동일할 수 있다. 어텐션 분포 서브컴포넌트(ADC)는 도 2 및 도 5를 참조하여 설명한 어텐션 분포 서브컴포넌트(ADC)와 동일할 수 있다. 문맥 벡터 서브컴포넌트(CVC)는 도 2 및 도 5를 참조하여 설명한 문맥 벡터 서브컴포넌트(CVC)와 동일할 수 있다.

도 10에 도시된 바와 같이 통과 확률 서브컴포넌트(235)는 문맥 벡터(h^*), 디코더 상태(s), 및 타겟 요약문 개체명 벡터(V_tgt)로부터 통과 확률(P_pass)을 획득할 수 있다. 예를 들어, 통과 확률(P_pass)은 다음과 같은 식 (8)에 의해 계산될 수 있다.

식 (8)

여기서 x_h*, x_s, x_Vtgt 및 b_pass은 학습가능한 파라미터들이다.

통과 분포 서브컴포넌트(236)는 도 10에 도시된 바와 같이 통과 확률(P_pass)로부터 통과 분포(D₃(E))를 얻을 수 있다. 타겟 요약문 개체명의 통과 분포(D₃(E))의 값은 통과 확률(P_pass)과 같고, 타겟 요약문 개체명 이외의 개체명의 통과 분포(D₃(E))의 값은 1 빼기 통과 확률(P_pass)일 수 있다. 즉, 통과 분포(D₃(E))는 다음과 같은 식 (9)에 의해 획득될 수 있다.

식 (9)

여기서 E는 개체명이고, E_tgt는 타겟 요약문 개체명이다.

생성 확률 서브컴포넌트(231)는 도 2 및 도 5를 참조하여 설명한 생성 확률 서브컴포넌트(141)와 동일할 수 있다. 생성 분포 서브컴포넌트(232)는 도 2 및 도 5를 참조하여 설명한 생성 분포 서브컴포넌트(142)와 동일할 수 있다. 혼합 분포 서브컴포넌트(233)는 도 2 및 도 5를 참조하여 설명한 혼합 분포 서브컴포넌트(143)와 동일할 수 있다.

최종 분포 서브컴포넌트(237)는 도 10에 도시된 바와 같이 혼합 분포(MD(E)) 및 통과 분포(D₃(E))로부터 최종 분포(FD(E))를 획득할 수 있다. 최종 분포(FD(E))는 혼합 분포(MD(E))와 통과 분포(D₃(E))의 곱일 수 있다. 예를 들어 최종 분포 서브컴포넌트(237)는 다음과 같은 식 (10)에 의해 최종 분포(FD(E))를 획득할 수 있다.

식 (10)

교정 서브컴포넌트(234)는 최종 분포(FD(E))로부터 최종 개체명(E_fin)을 획득할 수 있다. 최종 개체명(E_fin)은 타겟 요약문 개체명(E_tgt), 타겟 요약문 개체명(E_tgt)이 아닌 원문 개체명들(ES, 도 3 참조) 중 하나, 또는 원문 개체명들(ES, 도 3 참조)이 아닌 새로운 개체명일 수 있다. 최종 개체명(E_fin)이 타겟 요약문 개체명(E_tgt)인 경우 교정 서브컴포넌트(234)는 타겟 요약문 개체명(E_tgt)을 다른 개체명으로 변경하지 않을 수 있다. 최종 개체명(E_fin)이 타겟 요약문 개체명(E_tgt)과 다른 경우, 교정 서브컴포넌트(234)는 최종 개체명(E_fin)으로 타겟 요약문 개체명(E_tgt)을 변경할 수 있다.

본 개시에 개시된 실시예들은 본 개시의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 개시의 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 개시의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 개체명 교정 시스템, 110: 개체명 추출 컴포넌트, 120: 언어 컴포넌트, 130: 판정 컴포넌트, 131: 판정 서브컴포넌트, 140: 교정 컴포넌트, 141: 생성 확률 서브컴포넌트, 142: 생성 분포 서브컴포넌트, 143: 혼합 분포 서브컴포넌트, 144: 교정 서브컴포넌트, 공통 서브컴포넌트(CSC), ESC: 인코더 서브컴포넌트, DSC: 디코더 서브컴포넌트, ADC: 어텐션 분포 서브컴포넌트, CVC: 문맥 벡터 서브컴포넌트, 200: 개체명 교정 시스템, 210: 개체명 추출 컴포넌트, 220: 언어 컴포넌트, 230: 교정 컴포넌트, 231: 생성 확률 서브컴포넌트, 232ㅣ 생성 분포 서브컴포넌트, 233: 혼합 분포 서브컴포넌트, 234: 교정 서브컴포넌트, 235: 통과 확률 서브컴포넌트, 236: 통과 분포 서브컴포넌트, 237: 최종 분포 서브컴포넌트

Claims

원문으로부터 원문 개체명들을 획득하고 요약문으로부터 요약문 개체명들을 획득하도록 구성된 개채명 추출 컴포넌트;
상기 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 상기 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득하도록 구성된 언어 컴포넌트;
상기 요약문 개체명 벡터들 중 타겟 요약문 개체명 벡터 및 상기 원문 개체명 벡터들로부터 상기 타겟 요약문 개체명 벡터에 대응하는 타겟 요약문 개체명이 상기 원문에 비추어 옳은지 여부를 판정하도록 구성된 판정 컴포넌트; 및
상기 타겟 요약문 개체명이 옳지 않은 경우 상기 타겟 요약문 개체명을 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명으로 변경하도록 구성된 교정 컴포넌트를 포함하고,
상기 판정 컴포넌트 및 상기 교정 컴포넌트는,
상기 원문 개체명 벡터들 및 상기 타겟 요약문 개체명 벡터로부터 인코더 은닉 상태들, 디코더 은닉 상태, 어텐션 분포, 및 문맥 벡터를 획득하도록 구성된 공통 서브컴포넌트를 공유하는 것을 특징으로 하는 개체명 교정 시스템.
제1 항에 있어서,
상기 공통 서브컴포넌트는,
상기 원문 개체명 벡터들로부터 인코더 은닉 상태들을 획득하도록 구성된 인코더 서브컴포넌트;
상기 타겟 요약문 개체명 벡터로부터 디코더 상태를 획득하도록 구성된 디코더 서브컴포넌트;
상기 인코더 은닉 상태들 및 상기 디코더 상태로부터 어텐션 분포를 획득하도록 구성된 어텐션 분포 서브컴포넌트; 및
상기 어텐션 분포와 상기 인코더 은닉 상태들로부터 문맥 벡터를 획득하도록 구성된 문맥 벡터 서브컴포넌트를 포함하는 것을 특징으로 하는 개체명 교정 시스템.
제1 항에 있어서,
상기 판정 컴포넌트는 상기 문맥 벡터 및 상기 디코더 상태로부터 상기 원문에 비추어 상기 타겟 요약문 개체명이 옳은지 여부를 판정하도록 구성된 판정 서브컴포넌트를 더 포함하는 것을 특징으로 하는 개체명 교정 시스템.
제1 항에 있어서,
상기 교정 컴포넌트는
상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 생성 확률을 획득하도록 구성된 생성 확률 서브컴포넌트;
상기 문맥 벡터, 및 상기 디코더 상태로부터 생성 분포를 획득하도록 구성된 생성 분포 서브컴포넌트;
상기 생성 확률, 상기 생성 분포, 및 상기 어텐션 분포로부터 혼합 분포를 획득하도록 구성된 혼합 분포 서브컴포넌트; 및
상기 타겟 요약문 개체명이 옳지 않은 경우 상기 혼합 분포로부터 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 상이한 새로운 개체명인 최종 개체명으로 상기 타겟 요약문 개체명을 변경하도록 구성된 교정 서브컴포넌트를 더 포함하는 것을 특징으로 하는 개체명 교정 시스템
언어 컴포넌트가 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득할 수 있도록 상기 언어 컴포넌트를 훈련시키는 단계; 및
판정 컴포넌트가 상기 요약문 개체명 벡터들 중 타겟 요약문 개체명 벡터 및 상기 원문 개체명 벡터들로부터 상기 타겟 요약문 개체명 벡터에 대응하는 타겟 요약문 개체명이 원문에 비추어 옳은지 여부를 판정하는 판정 태스크를 수행할 수 있고, 교정 컴포넌트가 상기 타겟 요약문 개체명을 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들이 아닌 새로운 개체명으로 교정하는 교정 태스크를 수행할 수 있도록 상기 판정 컴포넌트 및 상기 교정 컴포넌트를 동시에 학습시키는 단계를 포함하는 것을 특징으로 하는 개체명 교정 시스템을 훈련시키는 방법.
제5 항에 있어서,
상기 언어 컴포넌트를 훈련시키는 단계는
사전 훈련된 상기 언어 컴포넌트를 미세 튜닝하는 단계를 포함하고,
상기 언어 컴포넌트를 미세 튜닝하는 단계는,
훈련 요약문 내의 제1 개체명에 대응하는 제1 문장으로부터 상기 제1 개체명의 제1 벡터를 획득하는 단계;
훈련 원문 내의 상기 제1 개체명과 동일한 제2 개체명에 대응하는 제2 문장으로부터 상기 제2 개체명의 제2 벡터를 획득하는 단계;
상기 훈련 원문 내의 상기 제1 개체명과 상이한 제3 개체명에 대응하는 제3 문장으로부터 상기 제3 개체명의 제3 벡터를 획득하는 단계; 및
상기 제1 벡터와 상기 제2 벡터 사이의 거리가 감소되고 상기 제1 벡터와 상기 제3 벡터 사이의 거리가 증가되도록 상기 언어 컴포넌트의 가중치들을 조절하는 단계를 포함하는 것을 특징으로 하는 개체명 교정 시스템을 훈련시키는 방법.
제6 항에 있어서,
상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터는 상기 제1 문장, 상기 제2 문장, 및 상기 제3 문장으로부터 크로스-인코더 방식에 의해 획득되는 것을 특징으로 하는 개체명 교정 시스템을 훈련시키는 방법.
원문으로부터 원문 개체명들을 획득하고 요약문으로부터 요약문 개체명들을 획득하도록 구성된 개채명 추출 컴포넌트;
상기 원문 개체명들에 대응하는 원문 문장들로부터 상기 원문 개체명들의 원문 개체명 벡터들을 획득하고 상기 요약문 개체명들에 대응하는 요약문 문장들로부터 상기 요약문 개체명들의 요약문 개체명 벡터들을 획득하도록 구성된 언어 컴포넌트; 및
상기 요약문 개체명들 중 타겟 요약문 개체명을 다른 개체명으로 변경하지 않거나, 상기 타겟 요약문 개체명을 상기 타겟 요약문 개체명과 다른 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명으로 변경하도록 구성된 교정 컴포넌트를 포함하고,
상기 교정 컴포넌트는
상기 원문 개체명 벡터들로부터 인코더 은닉 상태들을 획득하도록 구성된 인코더 서브컴포넌트;
상기 요약문 개체명 벡터들 중 상기 타겟 개체명에 대응하는 타겟 요약문 개체명 벡터로부터 디코더 상태를 획득하도록 구성된 디코더 서브컴포넌트;
상기 인코더 은닉 상태들 및 상기 디코더 상태로부터 어텐션 분포를 획득하도록 구성된 어텐션 분포 서브컴포넌트;
상기 어텐션 분포와 상기 인코더 은닉 상태들로부터 문맥 벡터를 획득하도록 구성된 문맥 벡터 서브컴포넌트;
상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 통과 확률을 획득하도록 구성된 통과 확률 서브컴포넌트;
상기 통과 확률로부터 통과 분포를 획득하도록 구성된 통과 분포 서브컴포넌트;
상기 문맥 벡터, 상기 디코더 상태, 및 상기 타겟 요약문 개체명 벡터로부터 생성 확률을 획득하도록 구성된 생성 확률 서브컴포넌트;
상기 문맥 벡터 및 상기 디코더 상태로부터 생성 분포를 획득하도록 구성된 생성 분포 서브컴포넌트;
상기 생성 확률, 상기 생성 분포, 및 상기 어텐션 분포로부터 혼합 분포를 획득하도록 구성된 혼합 분포 서브컴포넌트;
상기 혼합 분포 및 상기 통과 분포로부터 최종 분포를 획득하도록 구성된 최종 분포 서브컴포넌트 및
상기 최종 분포로부터 상기 타겟 요약문 개체명, 상기 타겟 요약문 개체명과 다른 상기 원문 개체명들 중 하나 또는 상기 원문 개체명들과 다른 새로운 개체명을 획득하도록 구성된 교정 서브컴포넌트를 포함하는 것을 특징으로 하는 개체명 교정 시스템
제8 항에 있어서,
상기 타겟 요약문 개체명에 대한 상기 통과 분포의 값은 상기 통과 확률과 같고,
상기 타겟 요약문 개체명 이외의 개체명에 대한 상기 통과 분포의 값은 1 빼기 상기 통과 확률인 것을 특징으로 하는 개체명 교정 시스템.
제8 항에 있어서,
상기 최종 분포는 상기 혼합 분포와 상기 통과 분포의 곱인 것을 특징으로 하는 개체명 교정 시스템.