KR20220062986A

KR20220062986A - 비지도 기반 질의 생성 모델의 학습 방법 및 장치

Info

Publication number: KR20220062986A
Application number: KR1020200148808A
Authority: KR
Inventors: 맹성현; 강준모; 푸에르토 산 로만 아리츠; 홍기원
Original assignee: 한국과학기술원
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-05-17
Also published as: KR102486440B1; WO2022097909A1

Abstract

학습 장치의 동작 방법으로서, 문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계, 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계, 상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고 상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계를 포함한다.

Description

비지도 기반 질의 생성 모델의 학습 방법 및 장치{METHOD AND APPARATUS FOR TRAINING UNSUPERVISED QUESTION GENERATION MODEL}

본 발명은 질의 생성에 관한 것이다.

질의 생성(Question Generation, QG) 모델은, 주어진 문서(context)와 정답(answer)에 가장 알맞은 질의(question)를 생성하는 것을 목표로 하며, 주어진 문서와 질의로부터 정답을 유추하는 질의 응답(Question Answering, QA)과 관련된다.

일반적으로 질의 응답 모델은 문서, 질의, 정답 구조로 미리 구축되어있는 질의 응답 데이터셋을 통해 학습할 수 있다. 데이터셋의 품질에 따라 질의 응답 모델의 성능이 달라지는데, 고품질의 데이터셋을 생성하는 비용이 만만치 않다.

한편, 질의 응답 데이터셋 없이, 주어진 문서로부터 정답과 질의를 생성하는 비지도 학습이 제안되었고, 이를 통해 질의 응답 데이터셋을 생성 및 확장할 수 있다. 하지만, 종래의 비지도 기반 질의 생성 모델은, 역번역(back-translation) 기반으로 질의를 생성하므로, 질의가 문서와 같은 단어와 순서로 생성된다. 결과적으로 비지도 기반으로 생성된 질의 응답 데이터셋의 난이도가 낮아서, 강인한 질의 응답 모델을 학습시키기 어렵다.

해결하고자 하는 과제는 서로 다른 질의 생성 모델들을 비편향적으로 정규화(regularization)하는 교사 모델, 그리고 교사 모델의 정규화 과정에서 전달된 정보를 이용하여 질의 생성을 학습하는 학생 모델을 제공하는 것이다.

해결하고자 하는 과제는 교사 모델이 현재까지 생성된 단어 토큰들의 편향성을 기초로 서로 다른 질의 생성 모델들 중에서 다음 단어 토큰의 확률 분포를 생성할 모델을 결정하는 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 제공하는 것이다.

해결하고자 하는 과제는 학생 모델이 교사 모델로부터 순차적으로 전달된 단어 토큰의 확률 분포를 이용하여 비지도 학습하는 방법을 제공하는 것이다.

한 실시예에 따른 학습 장치의 동작 방법으로서, 문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계, 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계, 상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고 상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계를 포함한다.

상기 입력 정보는 상기 문서, 상기 정답, 그리고 상기 현재까지 추출된 단어 토큰들을 포함할 수 있다.

상기 동작 방법은 상기 특정 질의 생성 모델이 상기 입력 정보로부터 예측한 새로운 단어 토큰을 추출하고, 상기 현재까지 추출된 단어 토큰들에 상기 새로운 단어 토큰을 추가하고, 상기 질의 생성 과정을 반복하는 단계를 더 포함할 수 있다.

상기 정규화된 레이블은 상기 복수의 질의 생성 모델들 중에서 선택된 질의 생성 모델에서 생성될 수 있다.

상기 복수의 질의 생성 모델들은 언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함할 수 있다.

상기 다음 단어 토큰을 생성할 모델로 결정하는 단계는 상기 현재까지 생성된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 질의 생성 모델을 선택할 수 있다.

다른 실시예에 따른 학습 장치의 동작 방법으로서, 서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하는 단계, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 단계, 그리고 상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를 상기 문서에 대한 질의 생성을 학습하는 신규 질의 생성 모델로 제공하는 단계를 포함한다.

상기 단어 토큰들을 순차적으로 추출하는 단계는 현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하는 단계, 그리고 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는 단계를 포함할 수 있다.

상기 특정 질의 생성 모델을 결정하는 단계는 상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정할 수 있다.

상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포는, 상기 복수의 질의 생성 모델들을 정규화한 레이블로써 상기 신규 질의 생성 모델의 학습에 사용될 수 있다.

또 다른 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 학습 장치로서, 서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하고, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 교사 모델, 그리고 상기 교사 모델로부터, 상기 단어 토큰들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를, 입력 정보에 대한 레이블로 전달받고, 상기 입력 정보로부터 예측한 다음 단어 토큰의 확률 분포와 상기 레이블과의 손실을 학습하는 학생 모델을 포함한다.

상기 교사 모델은 현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하며, 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출할 수 있다.

상기 교사 모델은 상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정할 수 있다.

상기 복수의 질의 생성 모델들은 언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하고, 상기 교사 모델과 상기 학생 모델은 파이프라인으로 연결될 수 있다.

실시예에 따르면 비지도 환경에서 다양한 질의 생성 모델들을 조합하고 정규화할 수 있다.

실시예에 따르면 교사 모델과 학생 모델 구조를 기초로, 다양한 질의 생성 모델들의 특징이 일반화된 질의 생성 모델을 생성할 수 있다.

실시예에 따라 생성된 모델은 챗봇과 같은 대화 시스템, QA 시스템, 정보 검색 시스템 등의 자연어 처리 분야에 폭 넓게 적용될 수 있다.

실시예에 따라 생성된 모델은 특히 비지도 학습 환경에서의 질의 생성 및 질의 응답을 제공하므로, 여러 도메인과 언어에 적용될 수 있는 확장성을 가진다.

실시예에 따라 생성된 모델은 질의 응답 데이터셋이 부족한 언어에 적용되어, 해당 언어를 사용하는 사람들을 위한 QA 시스템 개발에 활용될 수 있다.

도 1은 한 실시예에 따른 학습 장치의 구성도이다.
도 2는 인스턴스 수준 정규화(Instance-level regularization) 방법과, 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 설명하는 도면이다.
도 3은 한 실시예에 따른 비지도 기반 질의 생성 모델의 학습을 설명하는 도면이다.
도 4는 한 실시예에 따른 학습 장치의 동작 방법을 설명하는 흐름도이다.
도 5는 한 실시예에 따른 교사 모델의 동작 방법을 설명하는 흐름도이다.
도 6은 한 실시예에 따른 학생 모델의 동작 방법을 설명하는 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

설명에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

설명에서, "전송 또는 제공"은 직접적인 전송 또는 제공하는 것뿐만 아니라 다른 장치를 통해 또는 우회 경로를 이용하여 간접적으로 전송 또는 제공도 포함할 수 있다.

설명에서, 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.

설명에서, 흐름도에 기재된 동작 순서는 변경될 수 있고, 여러 동작들이 병합되거나, 어느 동작이 분할될 수 있고, 특정 동작은 수행되지 않을 수 있다.

설명에서, "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

설명에서, 장치는 적어도 하나의 프로세서가 명령어들(instructions)을 실행함으로써, 본 개시의 동작을 수행할 수 있도록 구성 및 연결된다. 컴퓨터 프로그램은 프로세서가 본 개시의 동작을 실행하도록 기술된 명령어들(instructions)을 포함하고, 비일시적-컴퓨터 판독가능 저장매체(non-transitory computer readable storage medium)에 저장될 수 있다. 컴퓨터 프로그램은 네트워크를 통해 다운로드되거나, 제품 형태로 판매될 수 있다.

본 개시의 “모델”은 적어도 하나의 태스크(task)를 학습하는 기계학습모델(machine learning model)로서, 프로세서에 의해 실행되는 컴퓨터 프로그램으로 구현될 수 있다. 본 개시의 “모델”은 입력 데이터, 태스크 종류, 학습 방법 등에 맞게, 신경망(neural network) 기반의 다양한 모델을 이용하여 구성될 수 있다.

질의 생성(Question Generation, QG) 모델은, 문서(context, C)와 정답(answer, A)에 해당하는 질의(question)를 생성하는 모델로서, 다양한 방식으로 질의를 생성할 수 있다. 본 개시에서는, 비지도 환경에서 질의 생성하는 모델로서, 역번역(back-translation) 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델(copy-type QG), 그리고 언어 모델 타입의 질의 생성 모델(Language Model(LM)-type QG)을 예로 들어 설명하나, 질의 생성 모델 타입이나 조합되는 질의 생성 모델들의 수는 다양하게 변경될 수 있다.

먼저, 복사 타입의 질의 생성 모델(copy-type QG)은 역번역(back-translation) 기반으로 질의를 생성한다. 따라서, 복사 타입의 질의 생성 모델(copy-type QG)은 문서와 같은 단어와 순서로 질의를 생성하게 된다. 예를 들면, “~Level 1 of DDM Architecture was formally published in 1986. ~”를 포함하는 문서(context)로부터, “When level 1 of DDM Architecture was formally published?”가 생성되는데, “level 1 of DDM Architecture was formally published”가 문서로부터 그대로 복사된 단어들이다.

언어 모델 타입의 질의 생성 모델(LM-type QG)은 사전 학습된 언어 모델(Pre-trained Language Model)에 문서를 입력해서 질의를 생성한다. 하지만, 언어 모델이 질의 생성을 학습한 것이 아니라서, 문서와 너무 다른 질의를 생성하게 된다. 예를 들면, “~Level 1 of DDM Architecture was formally published in 1986. ~”를 포함하는 문서로부터, “When did the rst level 1 of DDM Architecture come out?”가 생성될 수 있다.

하지만, 비지도 환경에서는 기준(ground truth) 질문이 제공되지 않기 때문에 복사 타입의 질의 생성 모델(copy-type QG)과 언어 모델 타입의 질의 생성 모델(LM-type QG)의 문제를 해결하는 것이 쉽지 않다.

본 개시는 서로 다른 종류의 질의 생성 모델들을 조합 및 정규화(regularization)해서 각 질의 생성 모델들이 가지는 단점을 해결하고, 정규화 과정에서 생성된 정보를 이용하여 질의 생성 모델들의 특징을 하나의 질의 생성 모델(학생 모델)로 일반화하는 방법에 대해 자세히 설명한다.

설명에서, 생성 모델로서, 질의 생성 모델을 예로 들어 설명하지만, 본 개시에서 제안된 프레임워크는 텍스트 생성(text generation)과 같은 다양한 정보 생성 분야에 일반화될 수 있다. 예를 들어, 질의 생성 모델들을 조합 및 정규화하는 방법이 텍스트 생성 모델들을 앙상블하는 방법으로 활용될 수 있다.

도 1은 한 실시예에 따른 학습 장치의 구성도이다.

도 1을 참고하면, 학습 장치(10)는 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치로 구현될 수 있다. 학습 장치(10)는 하나 이상의 프로세서(11), 프로세서(11)에 의하여 수행되는 컴퓨터 프로그램을 로드하는 메모리(13), 컴퓨터 프로그램 및 각종 데이터를 저장하는 저장 장치(15), 통신 인터페이스(17), 그리고 이들을 연결하는 버스(19)를 포함할 수 있다. 이외에도, 학습 장치(10)는 다양한 구성 요소가 더 포함될 수 있다.

프로세서(11)는 학습 장치(10)의 동작을 제어하는 장치로서, 컴퓨터 프로그램에 포함된 명령어들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다.

메모리(13)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(13)는 본 개시의 동작을 실행하도록 기술된 명령어들이 프로세서(11)에 의해 처리되도록 해당 컴퓨터 프로그램을 저장 장치(15)로부터 로드할 수 있다. 메모리(13)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다.

저장 장치(15)는 컴퓨터 프로그램, 각종 데이터를 비임시적으로 저장할 수 있다. 저장 장치(15)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

통신 인터페이스(17)는 유/무선 통신을 지원하는 유/무선 통신 모듈일 수 있다.

버스(19)는 학습 장치(10)의 구성 요소 간 통신 기능을 제공한다.

컴퓨터 프로그램은, 프로세서(11)에 의해 실행되는 명령어들(instructions)을 포함하고, 비일시적-컴퓨터 판독가능 저장매체(non-transitory computer readable storage medium)에 저장되며, 명령어들은 프로세서(11)가 본 개시의 동작을 실행하도록 만든다. 컴퓨터 프로그램은 네트워크를 통해 다운로드되거나, 제품 형태로 판매될 수 있다.

본 개시에서 설명하는 “모델”은 프로세서(11)에 의해 실행되는 컴퓨터 프로그램으로 구현될 수 있다. 설명에서는, 학습 장치(10), 프로세서(11), 또는 교사 모델, 학생 모델, 생성 모델, 정규화 모델을 동작의 주체로 설명할 수 있다.

도 2는 인스턴스 수준 정규화(Instance-level regularization) 방법과, 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 설명하는 도면이다.

도 2의 (a)를 참고하면, 서로 다른 종류의 생성 모델들을 사용하여 생성 모델들의 특징을 하나의 생성 모델(설명에서 “학생 모델”이라고 함)로 일반화하는 방법으로서, 인스턴스 수준 정규화가 가능하다.

인스턴스 수준 정규화 방법은 서로 다른 생성 모델들(예를 들면, copy-type QG 및 LM-type QG)의 데이터셋을 통합하고, 각 생성 모델에서 생성된 인스턴스들(예를 들면, 질의 문장들)을 선택하여 학생 모델(student QG)을 학습시킬 수 있다.

도 2의 (b)를 참고하면, 전체 문장을 선택하는 인스턴스 수준 정규화 대신, 좀더 세분화된 단어 토큰 수준 정규화 방법을 통해, 서로 다른 종류의 생성 모델들을 정규화할 수 있다. 이때, 학생 모델이 균형 있는 데이터로 학습해야, 문서와 너무 유사하거나 문서와 너무 다른 질의를 생성하는 각 생성 모델의 단점을 해결할 수 있다.

따라서, 교사 모델은 학생 모델이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 질문을 구성하는 단어 토큰들이 서로 다른 생성 모델들에서 고르게 생성되도록 판단한다. 다음에서, 학생 모델이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 교사 모델이 복수의 생성 모델들을 정규화 방법, 그리고 이를 통한 학생 모델의 학습에 대해 자세히 설명한다.

도 3은 한 실시예에 따른 비지도 기반 질의 생성 모델의 학습을 설명하는 도면이다.

도 3을 참고하면, 학습 장치(10)는 교사 모델(Teacher model)(100)을 이용하여 학생 모델(Student model)(200)을 학습시킨다. 학생 모델(200)이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 교사 모델(100)이 복수의 생성 모델들을 정규화한다. 교사 모델(100)과 학생 모델(200)은 파이프라인으로 연결될 수 있다. 참고로, 학생 모델이 교사 모델을 모방하면서 학습하는 일반적인 지식 증류(Knowledge distillation)와 달리, 교사 모델(100)이 학생 모델(200)을 비편향된 생성 모델로 만들기 위해 확률 분포를 선별하는 특징이 있고, 이러한 관계를 교사 모델과 학습 모델로 명명한 것이다.

교사 모델(100)은 복수의 생성 모델들(110, 130), 그리고 정규화 모델(150)로 구성될 수 있다. 생성 모델(110)은 언어 모델 타입의 질의 생성 모델(LM-type QG)이라고 가정한다. 생성 모델(130)은 복사 타입의 질의 생성 모델(copy-type QG)이라고 가정한다.

복수의 생성 모델들(110, 130) 각각은 입력 정보를 기초로 다음에 생성할 단어 토큰의 확률 분포를 출력하고, 단어 토큰의 확률 분포를 정규화 모델(150)에게 제공한다. 단어 토큰의 확률 분포는 어휘(vocabulary)에 포함된 모든 토큰들의 확률 분포를 의미한다. 타임 스텝마다 각 생성 모델로 입력 정보가 입력되는데, 현재 타임 스텝(step=t)의 입력 정보는 문서(Context, C), 정답(Answer, A) 그리고 현재까지 연속적으로 생성된 단어 토큰들(q_t<t)일 수 있다. 정답은 문서에서 인식된 임의의 개체명(named entity)일 수 있다.

정규화 모델(150)은 현재까지 생성된 단어 토큰들(q_t<t)이 복수의 생성 모델들 중에서 어느 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 생성 모델을 선택한다. 정규화 모델(150)은 단어 토큰들로 구성된 질문이 언어 모델 타입(LM-type)이나 복사 타입(Copy-type)으로 쉽게 판별되는 것을 방지하는 인공신경망 모델일 수 있다. 예를 들면, 정규화 모델(150)은 생성적 적대 신경망(Generative Adversarial Networks, GAN)의 판별기(discriminator)로 구현될 수 있다.

정규화 모델(150)은 현재 타입 스텝(step=t)까지 생성된 단어 토큰들(q_t<t)이 LM-type과 Copy-type일 확률을 계산하고, LM-type 확률이 더 크다면, 다음 단어 토큰(q_t')은 Copy-type의 점수를 최대로 만들고, Copy-type 확률이 더 크다면, 다음 단어 토큰은 LM-type의 점수를 최대로 만들 수 있다.

정규화 모델(150)은 입력 정보(C, A, q_t<t)에 대한 정규화된 레이블(regularized label)을 생성하고, 정규화된 레이블을 학생 모델(200)로 전달한다. 정규화된 레이블은 다음 단어 토큰(q_t')의 확률 분포이다. 정규화 모델(150)은 다음 단어 토큰을 생성할 생성 모델을 선택하고, 선택한 생성 모델에서 출력된 단어 토큰의 확률 분포를, 파이프라인 연결된 학생 모델(200)에게 전달한다.

교사 모델(100)를 구성하는 복수의 생성 모델들(110, 130) 각각은 질문이 완성될 때까지 입력 정보(C, A, q_t<t)로부터 다음 단어 토큰의 확률 분포를 생성하는 과장을 반복한다. 정규화 모델(150)은 질문이 완성될 때까지 입력 정보(C, A, q_t<t)로부터, 현재까지 생성된 단어 토큰들(q_t<t)의 편향을 제거하기 위한 생성 모델을 선택하고, 선택한 생성 모델이 생성한 다음 단어 토큰의 확률 분포를 학생 모델(200)에게 전달하는 정규화 과정을 반복한다.

학생 모델(200)은 다양한 생성 모델들의 특징을 학습하는 단일 생성 모델이고, 설명에서는 질의 생성 모델이라고 가정한다. 학생 모델(200)은 현재 타임 스텝(step=t)의 입력 정보(C, A, q_t<t)를 기초로 다음 단어 토큰의 확률 분포를 추론한다. 이때, 학생 모델(200)은 정규화 모델(150)로부터 전달된 정규화된 레이블인 확률 분포와의 손실(loss)을 최소화하는 학습을 반복한다. 학생 모델(200)은 KL-divergence loss를 이용하여 손실을 최소화하는 학습을 할 수 있다.

이와 같이, 학생 모델(200)은 질문 스타일이 어느 생성 모델로 편향되지 않도록 선택된 단어 토큰 수준의 확률 분포를 제공받고, 제공받은 확률 분포와의 손실을 최소화하는 학습을 한다. 따라서, 학생 모델(200)은 비지도 환경에서도 문서와 너무 유사하거나 문서와 너무 다른 두 질의 타입이 혼합된 질의를 생성할 수 있다.

도 4는 한 실시예에 따른 학습 장치의 동작 방법을 설명하는 흐름도이다.

도 4를 참고하면, 학습 장치(10)는 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 판단한 질의 타입과 다른 타입의 질의 생성 모델을 다음 단어 토큰을 생성할 모델로 결정한다(S110).

학습 장치(10)는 결정한 질의 생성 모델이 입력 정보로부터 어휘에 대해 예측한 확률 분포를 획득한다(S120). 입력 정보는, 문서, 정답, 그리고 현재까지 추출된 단어 토큰들로 구성될 수 있다.

학습 장치(10)는 결정한 질의 생성 모델이 예측한 확률 분포를, 입력 정보에 대한 정규화된 레이블로 생성한다(S130).

학습 장치(10)는 입력 정보에 대한 정규화된 레이블을 이용하여, 신규 질의 생성 모델(학생 모델)을 학습시킨다(S140).

도 5는 한 실시예에 따른 교사 모델의 동작 방법을 설명하는 흐름도이다.

도 5를 참고하면, 교사 모델(100)은 문서를 입력받는다(S210).

교사 모델(100)은 문서에서 인식된 임의의 개체명을 정답으로 선택하고, 문서와 정답을 포함하는 초기 입력 정보를 생성한다(S220).

교사 모델(100)은 복수의 생성 모델들로 입력 정보를 입력하고, 현재까지 생성된 단어 토큰들의 질의 타입을 기초로, 복수의 생성 모델들 중에서 다음 단어 토큰을 생성할 특정 생성 모델을 결정한다(S230). 교사 모델(100)은 현재까지 생성된 단어 토큰들(q_t<t)로부터 질의 타입(LM-type인지 Copy-type)을 판단하고, 판단한 타입과 다른 타입의 생성 모델에서 예측한 다음 단어 토큰을 사용한다.

교사 모델(100)은 특정 생성 모델에서 예측한 새로운 단어 토큰을 추출하고, 이전에 추출한 단어 토큰들에 새로운 단어 토큰을 추가하여 질의를 생성한다(S240).

한편, 교사 모델(100)은 특정 생성 모델에서 예측한 입력정보에 대한 확률 분포를 저장하고, 입력 정보에 대한 확률 분포를 학생 모델(200)의 학습 데이터로 제공한다(S250). 교사 모델(100)은 선택된 특정 단어 토큰을 입력 정보의 레이블로 전달하는 대신, 확률 분포를 레이블로 제공한다. 이를 통해, 학생 모델(200)은 어휘에 포함된 단어 토큰들 전체의 확률을 학습할 수 있다.

교사 모델(100)은 현재 타임 스텝에서 질의 생성 완료인지 판단한다(S260). 교사 모델(100)은 물음표가 생성되면 질의 생성 완료로 판단할 수 있다.

교사 모델(100)은 질의 생성 미완료이면, 다음 단어 토큰 추출을 위해, 선택한 단어 토큰을 입력 정보에 추가하여 질의 생성 과정(S130)을 반복한다(S270). 입력 정보는 문서, 정답, 그리고 지금까지 선택된 단어 토큰들로 구성될 수 있다.

교사 모델(100)은 질의 생성이 완료되면, 문서로부터의 질의 생성 과정을 종료한다(S280).

도 6은 한 실시예에 따른 학생 모델의 동작 방법을 설명하는 흐름도이다.

도 6을 참고하면, 학생 모델(200)은 교사 모델(100)로부터 전달된 입력 정보를 이용하여 다음 단어 토큰의 확률 분포를 예측한다(S310).

학생 모델(200)은 교사 모델(100)로부터 전달된 입력 정보에 대한 확률 분포와 예측한 확률 분포의 손실을 계산하고, 손실을 학습한다(S320). 입력 정보에 대한 확률 분포는 입력 정보로부터 다음 단어 토큰을 예측한 생성 모델이 어휘에 대해 예측한 확률 분포다. 입력 정보에 대한 확률 분포를 제공하는 생성 모델은 교사 모델(100)의 판단에 따라 결정된다. 따라서, 학생 모델(200)이 제공받는 입력 정보에 대한 확률 분포는, 교사 모델(100)에 의해 정규화된 레이블이다.

이와 같이, 실시예에 따르면 비지도 환경에서 다양한 질의 생성 모델들을 조합하고 정규화할 수 있다. 실시예에 따르면 교사 모델과 학생 모델 구조를 기초로, 다양한 질의 생성 모델들의 특징이 일반화된 질의 생성 모델을 생성할 수 있다. 실시예에 따라 생성된 모델은 챗봇과 같은 대화 시스템, QA 시스템, 정보 검색 시스템 등의 자연어 처리 분야에 폭 넓게 적용될 수 있다. 실시예에 따라 생성된 모델은 특히 비지도 학습 환경에서의 질의 생성 및 질의 응답을 제공하므로, 여러 도메인과 언어에 적용될 수 있는 확장성을 가진다. 실시예에 따라 생성된 모델은 질의 응답 데이터셋이 부족한 언어에 적용되어, 해당 언어를 사용하는 사람들을 위한 QA 시스템 개발에 활용될 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

학습 장치의 동작 방법으로서,
문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계,
복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계,
상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고
상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계
를 포함하는 동작 방법.
제1항에서,
상기 입력 정보는
상기 문서, 상기 정답, 그리고 상기 현재까지 추출된 단어 토큰들을 포함하는, 동작 방법.
제1항에서,
상기 특정 질의 생성 모델이 상기 입력 정보로부터 예측한 새로운 단어 토큰을 추출하고, 상기 현재까지 추출된 단어 토큰들에 상기 새로운 단어 토큰을 추가하고, 상기 질의 생성 과정을 반복하는 단계
를 더 포함하는, 동작 방법.
제1항에서,
상기 정규화된 레이블은
상기 복수의 질의 생성 모델들 중에서 선택된 질의 생성 모델에서 생성되는, 동작 방법.
제1항에서,
상기 복수의 질의 생성 모델들은
언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하는, 동작 방법.
제1항에서,
상기 다음 단어 토큰을 생성할 모델로 결정하는 단계는
상기 현재까지 생성된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 질의 생성 모델을 선택하는, 동작 방법.
학습 장치의 동작 방법으로서,
서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하는 단계,
상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 단계, 그리고
상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를 상기 문서에 대한 질의 생성을 학습하는 신규 질의 생성 모델로 제공하는 단계
를 포함하는, 동작 방법.
제7항에서,
상기 단어 토큰들을 순차적으로 추출하는 단계는
현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하는 단계, 그리고
상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는 단계
를 포함하는, 동작 방법.
제7항에서,
상기 특정 질의 생성 모델을 결정하는 단계는
상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정하는, 동작 방법.
제7항에서,
상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포는, 상기 복수의 질의 생성 모델들을 정규화한 레이블로써 상기 신규 질의 생성 모델의 학습에 사용되는, 동작 방법.
제7항에서,
상기 복수의 질의 생성 모델들은
언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하는, 동작 방법.
적어도 하나의 프로세서에 의해 동작하는 학습 장치로서,
서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하고, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 교사 모델, 그리고
상기 교사 모델로부터, 상기 단어 토큰들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를, 입력 정보에 대한 레이블로 전달받고, 상기 입력 정보로부터 예측한 다음 단어 토큰의 확률 분포와 상기 레이블과의 손실을 학습하는 학생 모델
을 포함하는 학습 장치.
제12항에서,
상기 교사 모델은
현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하며, 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는, 학습 장치.
제12항에서,
상기 교사 모델은
상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정하는, 학습 장치.
제12항에서,
상기 복수의 질의 생성 모델들은
언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하고,
상기 교사 모델과 상기 학생 모델은 파이프라인으로 연결되는, 학습 장치.