KR20220078083A - 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치 - Google Patents

적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치 Download PDF

Info

Publication number
KR20220078083A
KR20220078083A KR1020200167224A KR20200167224A KR20220078083A KR 20220078083 A KR20220078083 A KR 20220078083A KR 1020200167224 A KR1020200167224 A KR 1020200167224A KR 20200167224 A KR20200167224 A KR 20200167224A KR 20220078083 A KR20220078083 A KR 20220078083A
Authority
KR
South Korea
Prior art keywords
incorrect answer
vector
model
answer
question
Prior art date
Application number
KR1020200167224A
Other languages
English (en)
Other versions
KR102587265B1 (ko
Inventor
김동환
김한수
정우태
성기봉
김현대
Original Assignee
주식회사 포티투마루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포티투마루 filed Critical 주식회사 포티투마루
Priority to KR1020200167224A priority Critical patent/KR102587265B1/ko
Priority to US17/120,075 priority patent/US11960838B2/en
Priority to EP20213257.7A priority patent/EP4009250A1/en
Publication of KR20220078083A publication Critical patent/KR20220078083A/ko
Priority to KR1020230128185A priority patent/KR20230141711A/ko
Application granted granted Critical
Publication of KR102587265B1 publication Critical patent/KR102587265B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 방법에 관한 것으로, 선다형 QA 모델의 트레이닝 과정에 사용되는 데이터 세트를 기반으로 오답을 더 생성함으로써 선다형 QA 모델이 학습 가능한 데이터를 풍부하게 하는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은 오답 생성 모델은, 자연어 텍스트 기반의 본문 및 질문을 인코딩하고, 상기 본문 및 질문을 기반으로 제2 오답을 생성하여 오답 검사 모델에 전송하는 A 단계, 오답 검사 모델은, 상기 본문, 질문, 본문 및 질문에 대응하는 제1 정답, 제1 오답과 제2 오답을 인코딩하고, 이를 기반으로 제2 정답을 선택하는 B 단계, 오답 검사 모델은, 제1 정답과 제2 정답이 동일한 지를 판단하여 피드백을 생성하는 C 단계, 및 오답 생성 모델 및 오답 검사 모델은, 상기 피드백을 기반으로 스스로 학습하는 D 단계를 포함하는 것을 특징으로 한다.

Description

적대적 학습 기법 기반의 선다형 QA 모델의 강화 방법 및 장치{METHOD AND DEVICE FOR REINFORCEMENT OF MULTIPLE CHOICE QA MODEL BASED ON ADVERSARIAL LEARNING TECHNIQUES}
본 발명은 적대적 학습 기법 기반의 선다형 QA 모델의 강화 방법 및 장치에 관한 것으로, 보다 자세하게는 선다형 QA 모델의 트레이닝 과정을 강화하기 위해 오답 생성 모델을 통해 선다형 QA 문제에 대한 네거티브 샘플링을 수행하는 방법 및 장치에 관한 것이다.
MRC(Machine Reading Comprehension) 및 QA(Question Answering)은 자연어 이해를 위한 기본적인 작업 중 하나로, 심층 신경망의 복잡성이 증가하고 대규모 말뭉치에 대해 사전 훈련된 언어 모델의 지식 이전으로 인해 최첨단 QA 모델은 인간 수준의 성능을 달성하였다. 그러나, 선다형 질의의 경우 기존의 추출형 질의응답 시스템은 정확도가 떨어져 성능 향상이 필요하다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 선다형 QA 모델의 트레이닝 과정에 사용되는 데이터 세트를 기반으로 오답을 더 생성함으로써 선다형 QA 모델이 학습 가능한 데이터를 풍부하게 하여 선다형 QA 모델을 강화할 수 있게 하는 것을 일 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 방법에 있어서, 오답 생성 모델은, 자연어 텍스트 기반의 본문 및 질문을 인코딩하고, 상기 본문 및 질문을 기반으로 제2 오답을 생성하여 오답 검사 모델에 전송하는 A 단계, 오답 검사 모델은, 상기 본문, 질문, 본문 및 질문에 대응하는 제1 정답, 제1 오답과 제2 오답을 인코딩하고, 이를 기반으로 제2 정답을 선택하는 B 단계, 오답 검사 모델은, 제1 정답과 제2 정답이 동일한 지를 판단하여 피드백을 생성하는 C 단계, 및 오답 생성 모델 및 오답 검사 모델은, 상기 피드백을 기반으로 스스로 학습하는 D 단계를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 시스템에 있어서, 자연어 텍스트 기반의 본문 및 질문을 인코딩하고, 상기 본문 및 질문을 기반으로 제2 오답을 생성하며, 오답 검사 모델로부터 수신한 제2 오답에 대응하는 제2 피드백을 수신하여 가중치를 조절하는 오답 생성 모델, 및 상기 본문, 질문, 본문 및 질문에 대응하는 제1 정답, 제1 오답과 제2 오답을 인코딩하고, 이를 기반으로 제2 정답을 선택하며, 제1 정답과 제2 정답이 동일한 지를 판단하여 제1 및 제2 피드백을 생성하고, 제1 피드백을 기반으로 가중치를 조절하는 오답 검사 모델을 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 선다형 QA 모델의 트레이닝 과정에 사용되는 데이터 세트를 기반으로 오답을 더 생성함으로써 선다형 QA 모델이 학습 가능한 데이터를 풍부하게 하여 선다형 QA 모델을 강화할 수 있다. 본 발명을 통해 트레이닝 된 선다형 QA 모델은 검색 엔진의 성능을 향상시키는 데 더 활용될 수 있다.
도 1은 본 발명의 일 실시 예에 의한 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 시스템의 구성을 도시한 도면,
도 2는 본 발명의 일 실시 예에 의한 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 방법을 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 의한 적대적 학습 기법 기반의 선다형 QA 모델의 강화 시스템의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 의한 선다형 QA 모델의 강화 시스템은 스스로 학습함으로써 성능을 강화할 수 있다.
인공지능은 인공신경망을 이용해 기계를 학습함에 따라 알고리즘이 내재하고 있는 취약점에 의해 잘못된 판단을 할 수 있기 때문에, 본 발명의 일 실시 예에 의한 선다형 QA 모델 강화 장치는 적대적 학습 기법을 통해 선다형 QA 모델을 트레이닝하기 위한 트레이닝 데이터 세트를 생성할 수 있다.
통상적으로 질문에 대한 선택지가 4개 존재하는 경우와, 10개 존재하는 경우 그 질문의 난이도가 더 높음에 따라 본 발명의 선다형 QA 모델 강화 시스템은 선다형 QA 모델의 트레이닝 데이터 세트에 오답의 수를 더하여 선택지를 풍부하게 만듦으로써 선다형 QA 모델을 강력하게 학습시킬 수 있다.
본 발명의 일 실시 예에 의한 선다형 QA 모델의 강화 시스템은 선다형 QA 모델의 트레이닝 과정에서 필요한 데이터 세트를 생성함에 있어서, 문제를 해결함에 있어서 가장 쉽고 빠른 방법을 선택하는 인공지능의 특성을 고려하여 오답 생성 모델(10) 뿐 아니라 오답 검사 모델(20)을 더 구성하여 동시에 트레이닝 시켜 오답의 질을 향상시키고 이를 기반으로 선다형 QA 모델을 강화할 수 있다.
본 발명의 일 실시 예에 의한 오답 생성 모델(10)은 사용자로부터 자연어 텍스트 기반의 본문 및 질문을 획득하고, 본문 및 질문을 분석하여 문맥을 기반으로 제2 오답을 생성하도록 구성된 장치일 수 있다.
오답 생성 모델(10)은 생성된 제2 오답을 오답 검사 모델(20)에 전송하여, 오답 검사 모델(20)로부터 제2 오답에 대한 피드백을 수신하여 스스로를 학습시켜 최적의 제2 오답을 생성할 수 있을 것이다.
오답 검사 모델(20)은 사용자로부터 자연어 텍스트 기반의 본문, 질문 및 그에 따른 제1 정답(실제 정답)과 제1 오답(실제 오답)을 획득하고, 오답 생성 모델(10)으로부터 생성된 제2 오답을 획득하여, 본문, 질문, 제1 정답, 제1 오답, 그리고 제2 오답을 입력 데이터로 하여 제1 정답, 제1 오답, 그리고 제2 오답 중 제2 정답을 선택하도록 구성된 장치일 수 있다. 이 때, 오답 검사 모델(20)이 제2 정답을 선택함에 있어서 제1 정답, 제1 오답 그리고 제2 오답은 서로 구분되지 않으며 단순히 선택지로만 존재할 수 있다.
오답 검사 모델(20)은 제2 정답을 선택함에 있어서 도출되는 결과 값을 기반으로 오답 생성 모델(10)에 피드백을 전송할 수 있다.
이하에서는, 오답 생성 모델(10)과 오답 검사 모델(20)에 대해 보다 자세히 설명한다.
오답 생성 모델(10)
오답 생성 모델(10)은 트랜스포머(Transfomer) 구조를 기반으로 하며, SEQ2SEQ 모델을 사용할 수 있다. 오답 생성 모델(10)은 6-24개의 트랜스포머 계층으로 구성되어 있으며, 각 계층에서 선형 Softmax 분류기를 이용하여 사용자로부터 수신한 본문과 질문의 문맥을 기반으로 제2 오답을 생성할 수 있다. 보다 구체적으로 오답 생성 모델은 제1 수신부(110), 제1 인코더(120), 질문 분석부(130), 오답 생성부(140), 그리고 제1 학습부(150)를 포함할 수 있다.
제1 수신부(110)는 사용자로부터 본문과 질문을 수신할 수 있다. 본문은 Passage 또는 Dialogue의 형태를 가지고, 질문은 본문에 종속될 것이다. 본문과 질문은 세그먼트 ID(segment ID)를 통해 구분될 수 있다.
제1 인코더(120)는 본문과 질문 각각을 인코딩하여 제1 본문 벡터와 제1 질문 벡터를 생성할 수 있다. 제1 인코더(120)는 복수 개의 인코더로 구성되어 본문과 질문에 대한 데이터 처리를 위해 각각에 할당될 수도 있고, 하나의 인코더로 구성되어 본문과 질문 전체에 할당될 수도 있다. 제1 인코더(120)는 본문과 질문을 형태소 단위로 인코딩할 수 있다.
질문 분석부(130)는 제1 본문 벡터와 제1 질문 벡터를 기반으로 제1 질문 벡터를 분석할 수 있다. 질문 분석부(130)는 제1 질문 벡터를 분석하기 위해 선형 Softmax 분류기를 이용할 수 있으며, 이 외에 형태소 분석, 구문 분석, 어휘의미 분석 등의 공지된 알고리즘을 이용할 수도 있다.
오답 생성부(140)는 제1 본문 벡터와 질문 분석부(130)로부터 분석된 제2 질문 벡터를 기반으로 본문과 질문의 문맥에 맞는 오답을 생성할 수 있다.
제1 학습부(150)는 오답 생성부(140)로 하여금 오답을 생성함에 있어서 오답 검사 모델(20)을 속이는 것을 목적으로 하게 학습할 수 있다. 보다 구체적으로 제1 학습부(150)는 오답 검사 모델(20)로부터 수신한 제2 피드백을 기반으로 오답 생성부(140)를 학습할 수 있다.
제1 학습부(150)는 교차 엔트로피 함수를 이용하여 오답 생성부(140)의 성능을 향상시킬 수 있다. 제1 학습부(150)는 1) 제1 수신부(110)에서 수신한 본문, 질문과 그에 대응하는 제1 오답, 그리고 오답 생성부(140)에서 생성된 제2 오답을 기반으로 오답 생성 모델(10)의 손실을 연산하여 이를 최소화하고, 2) 오답 검사 모델(20)로부터 수신한 제2 피드백을 기반으로 오답 생성 모델(10)의 손실을 연산하여 이를 최대화하도록 학습할 수 있다.
Figure pat00001
오답 검사 모델(20)
본 발명의 일 실시 예에 의한 오답 검사 모델(20)은 트랜스포머(Transfomer) 구조를 기반으로 하며, 최상위 계층에 선형 레이어를 형성함으로써 오답 생성 모델(10)로부터 생성된 제2 오답과 사용자로부터 수신한 본문 및 질문에 대한 실제 정답인 제1 정답, 실제 오답인 제1 오답을 기반으로 둘 중 어느 것이 실제 정답(제2 정답)인 지 판단할 수 있다. 보다 구체적으로 오답 검사 모델은 제2 수신부(210), 제2 인코더(220), 정답 선택부(230), 피드백 생성부(240), 그리고 제2 학습부(250)를 포함할 수 있다.
제2 수신부(210)는 사용자로부터 본문, 질문, 본문과 질문에 대응하는 제1 정답 및 제1 오답을 수신할 수 있다. 또한 제2 수신부(210)는 오답 생성 모델(10)에서 생성된 제2 오답을 더 수신하여 질문에 대한 선택지로 설정할 수 있다.
제2 수신부(210)에서 사용자로부터 수신되는 본문과 질문은 오답 생성 모델(10)의 제1 수신부(110)가 사용자로부터 수신한 본문과 질문과 서로 동일한 것이다.
제2 인코더(220)는 본문, 질문, 제1 정답, 제1 오답 및 제2 오답 각각을 인코딩하여 제2 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 생성할 수 있다. 제2 인코더는 복수 개의 인코더로 구성되어 본문, 질문, 제1 정답, 제1 오답 및 제2 오답의 데이터 처리를 위해 각각에 할당될 수도 있고, 하나의 인코더로 구성되어 수신된 데이터 전체에 할당될 수도 있다. 제2 인코더(220)는 데이터를 인코딩함에 있어서 형태소 단위로 인코딩할 수 있다.
정답 선택부(230)는 제2 인코더(220)로부터 생성된 제2 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터, 그리고 제2 오답 벡터를 기반으로 제2 정답을 선택할 수 있다. 이하에서는 오답 검사 모델(20)의 설명에 있어서, 직관적인 이해를 위해 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 선택지 벡터로 통칭한다.
정답 선택부(230)는 제1 정답 벡터, 제1 오답 벡터 그리고 제2 오답 벡터를 포함하는 선택지 벡터 중 가장 질문에 적합한 제2 정답 벡터를 선택할 수 있다. 구체적으로 정답 선택부(230)는 선택지 벡터가 얼마나 제2 본문 벡터와 제2 질문 벡터에 적합한 지를 분석하여, 분석 결과에 따라 선택지 벡터 각각에 대한 제1 점수를 연산할 수 있다. 정답 선택부(230)는 분석 과정에 있어서 문맥 상의 연관성을 연산하여 본문과 질문 대비 선택지가 얼마나 적합한 지를 분석할 수 있다. 정답 선택부(230)는 연관성을 연산하기 위해 종래의 방식을 이용할 수 있다.
정답 선택부(230)는 제1 점수의 범위를 -10~10으로 설정할 수 있는데, 이는 설정에 따라 변경될 수 있다. 정답 선택부(230)는 선택지 벡터가 제2 본문 벡터 및 제2 질문 벡터와 연관성이 높으면 제1 점수를 10점으로, 낮으면 -10점으로 연산할 수 있다.
정답 선택부(230)는 선택지 벡터 각각에 대한 제1 점수를 순위화하고, 순위화된 제1 점수 중 가장 높은 제1 점수를 갖는 일 선택지 벡터를 제2 정답 벡터로 선택할 것이다.
예를 들어, 본문의 일 내용이 "미선은 철수에게 문자를 전송했다. -철수야 오늘 어버이날인데 집에 안 오니?-"이고, 질문이 "미선과 철수의 관계는 무엇인가?"이고, 선택지가 "1. 아버지, 2. 어머니, 3. 학교 친구, 4. 담임선생님"일 경우, 정답 선택부(230)는 선택지 1의 제1 점수를 7점, 선택지 2의 제1 점수를 9점, 선택지 3의 제1 점수를 -8점, 선택지 4의 제1 점수를 -3점으로 연산할 수 있다. 정답 선택부(230)는 선택지 1과 선택지 2에 있어서 미선의 성별을 식별하고 제1 점수를 연산할 수 있다. 정답 선택부(230)는 제1 점수를 순위화하여 (선택지 벡터 2, 선택지 벡터 1, 선택지 벡터 4, 선택지 벡터 3) 제1 점수가 가장 높은 선택지 벡터 2를 제2 정답 벡터로 선택할 수 있다.
피드백 생성부(240)는 정답 선택부(230)에서 선택한 제2 정답 벡터가 제1 정답 벡터와 동일한 지의 여부를 판단할 수 있다. 피드백 생성부(240)는 제1 정답 벡터와 제2 정답 벡터가 동일하면 제2 학습부(250)에 전달할 제1 피드백을 긍정적으로 생성하고, 오답 생성 모델(10)에 전달할 제2 피드백을 부정적으로 생성할 수 있다. 이는 오답 검사 모델(20)이 정답을 맞춘 경우 오답 생성 모델(10)이 생성한 오답은 잘 만들어진 것이 아니기 때문이다.
제2 학습부(250)는 피드백 생성부(240)로부터 수신한 제1 피드백을 기반으로 오답 검사 모델(20)을 학습할 수 있다. 제2 학습부(250)는 정답 선택부(230)가 제1 정답 벡터와 동일한 제2 정답 벡터를 선택할 수 있도록 학습할 수 있다.
제2 학습부(250)는 교차 엔트로피 함수를 이용하여 정답 선택부(230)의 성능을 향상시킬 수 있다. 제2 학습부(250)는 제2 수신부(210)에서 수신한 제1 정답과 정답 선택부(230)에서 선택한 제2 정답을 기반으로 오답 검사 모델(20)의 손실을 연산하여 이를 최대화하도록 학습할 수 있다.
Figure pat00002
BIAS 해결 방법
본 발명의 일 실시 예에 의한 선다형 QA 모델 강화 시스템은 트레이닝 과정에 있어서 오답 생성 모델(10)이 과적합(Overfitting)되는 것을 해결하는 것을 일 과제로 하고 있다. 오답 생성 모델(10)이 과적합되면 오답 검사 모델(20)을 속이기 위한 방향으로 오답을 생성하는데, 구체적으로 정답과 유사한 오답을 생성하여 오답 검사 모델(20)이 정답을 원활하게 선택하기 어렵게 할 것이다.
이를 해결하기 위한 본 발명의 일 실시 예에 의한 선다형 QA 모델 강화 장치는 오답 검사 모델(20)의 제2 학습부(250)로 하여금 오답 생성 모델(10)이 생성한 제2 오답 벡터의 제1 점수가 제1 정답 벡터의 제1 점수와 제1 오답의 제1 점수의 중간 값을 가질 수 있게 가중치를 조절하여 학습할 수 있게 한다.
본 발명의 다른 실시 예에 의한 선다형 QA 모델 강화 시스템은 상기 과제를 해결하기 위한 다른 방법으로 오답 검사 모델(20)을 하나 더 구성하여 오답 생성 모델(10)이 생성한 제2 오답과 실제 정답(제1 정답)을 비교하여 유사도를 연산함으로써 상기 유사도가 기 설정된 임계 값 이상이면 오답 생성 모델(10)에 부정적인 피드백을 전송할 수 있다. 이를 통해 오답 생성 모델(10)은 정답과 크게 유사하지 않은 제2 오답을 생성할 수 있도록 학습될 것이다. 이 경우 추가되는 오답 검사 모델(20)은 제2 오답 벡터와 제1 정답 벡터의 유사도를 연산하기 위해 TFIDF와 같은 기존 모델을 사용할 수 있다.
도 2는 본 발명의 일 실시 예에 의한 적대적 학습 기법 기반의 선다형 QA 모델 강화 방법을 설명하기 위한 순서도로, 이하에서는 도 2를 참조하여 본 발명의 일 실시 예에 의한 선다형 QA 모델 강화 방법에 대해 설명한다. 이와 관련된 설명에 있어서 전술한 선다형 QA 모델 강화 시스템과 중복되는 세부 실시 예는 생략될 수 있다.
본 발명의 선다형 QA 모델 강화 방법은 선다형 QA 모델을 트레이닝하기 위한 데이터 세트의 오답을 확장하기 위해 오답을 생성하는 오답 생성 모델과 오답 생성 모델로부터 생성된 오답을 검증하는 오답 검사 모델에 의해 동작될 것이다.
오답 생성 모델(10)은 사용자로부터 본문과 질문을 수신(S110)할 수 있다. 본문은 Passage 또는 Dialogue의 형태를 가지고, 질문은 본문에 종속될 것이다. 본문과 질문은 세그먼트 ID(segment ID)를 통해 구분될 수 있다.
오답 생성 모델(10)은 본문과 질문 각각을 인코딩하여 제1 본문 벡터와 제1 질문 벡터를 생성(S120)할 수 있다. 오답 생성 모델(10)은 본문과 질문을 형태소 단위로 인코딩할 수 있다.
오답 생성 모델(10)은 제1 본문 벡터와 제1 질문 벡터를 기반으로 제1 질문 벡터를 분석(S130)할 수 있다. 오답 생성 모델(10)은 제1 질문 벡터를 분석하기 위해 선형 Softmax 분류기를 이용할 수 있으며, 이 외에 형태소 분석, 구문 분석, 어휘의미 분석 등의 공지된 알고리즘을 이용할 수도 있다.
오답 생성 모델(10)은 제1 본문 벡터 및 분석된 제2 질문 벡터를 기반으로 본문과 질문의 문맥에 맞는 제2 오답을 생성(S140)할 수 있다.
오답 생성 모델(10)은 생성된 제2 오답을 오답 검사 모델(20)에 전송(S145)할 것이다.
오답 검사 모델(20)은 사용자로부터 본문, 질문, 제1 정답 및 제1 오답을, 오답 생성 모델(10)로부터 제2 오답을 수신하면, 본문, 질문, 제1 정답, 제1 오답 및 제2 오답 각각을 인코딩하여 제2 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 생성(S150)할 수 있다. 오답 검사 모델(20)은 데이터를 인코딩함에 있어서 형태소 단위로 인코딩할 수 있다.
오답 검사 모델(20)은 제2 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터, 그리고 제2 오답 벡터를 기반으로 제2 정답을 선택(S160)할 수 있다. 이하에서는 오답 검사 모델(20)의 설명에 있어서, 직관적인 이해를 위해 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 선택지 벡터로 통칭한다.
단계 160을 구체적으로 설명하면, 오답 검사 모델(20)은 제1 정답 벡터, 제1 오답 벡터 그리고 제2 오답 벡터를 포함하는 선택지 벡터 중 가장 질문에 적합한 제2 정답 벡터를 선택할 수 있다. 구체적으로 오답 검사 모델(20)은 선택지 벡터가 얼마나 제2 본문 벡터와 제2 질문 벡터에 적합한 지를 분석하여 분석 결과에 따라 선택지 벡터 각각에 대한 제1 점수를 연산할 수 있다. 오답 검사 모델(20)은 분석 과정에 있어서 문맥 상의 연관성을 연산하여 본문과 질문 대비 선택지가 얼마나 적합한 지를 분석할 수 있다. 오답 검사 모델(20)은 연관성을 연산하기 위해 종래의 방식을 이용할 수 있다.
오답 검사 모델(20)은 제1 점수의 범위를 -10~10으로 설정할 수 있는데, 이는 설정에 따라 변경될 수 있다. 오답 검사 모델(20)은 선택지 벡터가 제2 본문 벡터 및 제2 질문 벡터와 연관성이 높으면 제1 점수를 10점으로, 낮으면 -10점으로 연산할 수 있다.
오답 검사 모델(20)은 가장 높은 제1 점수를 갖는 일 선택지 벡터를 제2 정답 벡터로 선택할 것이다.
오답 검사 모델(20)은 제2 정답 벡터가 제1 정답 벡터와 동일한 지의 여부를 판단하여 제1 및 제2 피드백을 생성(S170)할 수 있다. 오답 검사 모델(20)은 제1 정답 벡터와 제2 정답 벡터가 동일하면 스스로를 학습하기 위한 제1 피드백을 긍정적으로 생성하고, 오답 생성 모델(10)에 전달할 제2 피드백을 부정적으로 생성할 수 있다. 이는 오답 검사 모델(20)이 정답을 맞춘 경우 오답 생성 모델(10)이 생성한 오답은 잘 만들어진 것이 아니기 때문이다.
오답 검사 모델(20)은 제1 피드백을 기반으로 제2 정답을 선택함에 있어서 가중치를 조절하여 성능을 강화(S180)할 수 있다. 오답 검사 모델(20)은 제1 정답 벡터와 동일한 제2 정답 벡터를 선택할 수 있게 학습할 것이다.
오답 검사 모델(20)은 제2 피드백을 오답 생성 모델(10)에 전송(S185)하면, 오답 생성 모델(10)은 제2 피드백을 기반으로 제2 오답을 생성함에 있어서 가중치를 조절하여 성능을 강화(S190)할 수 있다.
한편 오답 검사 모델(20)은 오답 생성 모델(10)이 과적합(Overfitting)되는 것을 방지하기 위해 오답 생성 모델(10)이 생성한 제2 오답 벡터의 제1 점수가 제1 정답 벡터의 제1 점수와 제1 오답의 제1 점수의 중간 값을 가질 수 있게 가중치를 조절하여 더 학습할 수 있다.
이와 같이 본 발명의 일 실시 예에 의한 선다형 QA 모델 강화 시스템은 선다형 QA 모델의 트레이닝 데이터 세트 중 오답을 더 생성하는 것을 기술적 특징으로 함에 따라, 생성된 트레이닝 데이터 세트를 통해 기존 선다형 QA 모델을 평가하는 데 더 활용할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (11)

  1. 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 방법에 있어서,
    오답 생성 모델은, 자연어 텍스트 기반의 본문 및 질문을 인코딩하고, 상기 본문 및 질문을 기반으로 제2 오답을 생성하여 오답 검사 모델에 전송하는 A 단계;
    오답 검사 모델은, 상기 본문, 질문, 본문 및 질문에 대응하는 제1 정답, 제1 오답과 제2 오답을 인코딩하고, 이를 기반으로 제2 정답을 선택하는 B 단계;
    오답 검사 모델은, 제1 정답과 제2 정답이 동일한 지를 판단하여 피드백을 생성하는 C 단계;
    오답 생성 모델 및 오답 검사 모델은, 상기 피드백을 기반으로 스스로 학습하는 D 단계;를 포함하는 선다형 QA 모델 강화 방법.
  2. 제1항에 있어서, 오답 생성 모델이 수행하는 A 단계는,
    상기 본문 및 질문을 인코딩하여 제1 본문 벡터 및 제1 질문 벡터를 각각 생성하는 단계;
    제1 질문 벡터를 분석하고, 제1 본문 벡터 및 분석된 제1 질문 벡터를 기반으로 제2 오답 벡터를 생성하는 단계;
    제2 오답 벡터를 디코딩한 제2 오답을 오답 검사 모델에 전송하는 단계를 더 포함하는 선다형 QA 모델 강화 방법.
  3. 제1항에 있어서, 오답 검사 모델이 수행하는 B 단계는,
    상기 본문, 질문, 제1 정답, 제1 오답 및 제2 오답을 인코딩하여 제1 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 각각 생성하는 단계;
    제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터와 제2 본문 벡터 및 제2 질문 벡터 사이의 연관성을 통해 제1 점수를 연산하는 단계;
    제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터 중 제1 점수가 가장 높은 것을 제2 정답 벡터로 선택하는 단계를 더 포함하는 선다형 QA 모델 강화 방법.
  4. 제3항에 있어서, 오답 검사 모델이 수행하는 C 단계는,
    제1 정답 벡터와 제2 정답 벡터가 동일한 지의 여부를 판단하여, 동일하면 제1 피드백을 긍정적으로 생성하고 제2 피드백을 부정적으로 생성하는 단계;
    동일하지 않으면 제1 피드백을 부정적으로 생성하고 제2 피드백을 긍정적으로 생성하는 단계;
    상기 과정에서 생성된 제2 피드백을 오답 생성 모델에 전송하는 단계를 포함하는 선다형 QA 모델 강화 방법.
  5. 제4항에 있어서, D 단계는,
    오답 생성 모델은 더 나은 제2 오답을 생성할 수 있게 제2 피드백을 기반으로 가중치를 조절하는 단계;
    오답 검사 모델은 제1 정답과 동일한 제2 정답을 생성할 수 있게 제1 피드백을 기반으로 가중치를 조절하는 단계를 포함하는 선다형 QA 모델 강화 방법.
  6. 제5항에 있어서,
    오답 생성 모델은 교차 엔트로피 함수를 이용하여 제2 오답을 생성함에 있어서 손실을 최소화하게 가중치를 조절하는 단계;
    오답 검사 모델은 교차 엔트로피 함수를 이용하여 제2 정답을 선택함에 있어서 손실을 최대화하게 가중치를 조절하는 단계를 포함하는 선다형 QA 모델 강화 방법.
  7. 적대적 학습 기법을 기반으로 하는 선다형 QA 모델의 강화 시스템에 있어서,
    자연어 텍스트 기반의 본문 및 질문을 인코딩하고, 상기 본문 및 질문을 기반으로 제2 오답을 생성하며, 오답 검사 모델로부터 수신한 제2 오답에 대응하는 제2 피드백을 수신하여 가중치를 조절하는 오답 생성 모델;
    상기 본문, 질문, 본문 및 질문에 대응하는 제1 정답, 제1 오답과 제2 오답을 인코딩하고, 이를 기반으로 제2 정답을 선택하며, 제1 정답과 제2 정답이 동일한 지를 판단하여 제1 및 제2 피드백을 생성하고, 제1 피드백을 기반으로 가중치를 조절하는 오답 검사 모델을 포함하는 선다형 QA 모델 강화 시스템.
  8. 제7항에 있어서, 상기 오답 생성 모델은,
    상기 본문 및 질문을 인코딩하여 제1 본문 벡터 및 제1 질문 벡터를 각각 생성하고, 제1 질문 벡터를 분석하여 제1 본문 벡터 및 분석된 제1 질문 벡터를 기반으로 제2 오답 벡터를 생성하고, 제2 오답 벡터를 디코딩한 제2 오답을 상기 오답 검사 모델에 전송하는 선다형 QA 모델 강화 시스템.
  9. 제7항에 있어서, 상기 오답 검사 모델은,
    상기 본문, 질문, 제1 정답, 제1 오답 및 제2 오답을 인코딩하여 제1 본문 벡터, 제2 질문 벡터, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터를 각각 생성하고, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터와 제2 본문 벡터 및 제2 질문 벡터 사이의 연관성을 통해 제1 점수를 연산하며, 제1 정답 벡터, 제1 오답 벡터 및 제2 오답 벡터 중 제1 점수가 가장 높은 것을 제2 정답 벡터로 선택하는 선다형 QA 모델 강화 시스템.
  10. 제9항에 있어서, 오답 검사 모델이 수행하는 C 단계는,
    제1 정답 벡터와 제2 정답 벡터가 동일한 지의 여부를 판단하여, 동일하면 제1 피드백을 긍정적으로 생성하고 제2 피드백을 부정적으로 생성하고, 동일하지 않으면 제1 피드백을 부정적으로 생성하고 제2 피드백을 긍정적으로 생성하여, 제2 피드백을 오답 생성 모델에 전송하는 선다형 QA 모델 강화 시스템.
  11. 제10항에 있어서,
    상기 오답 생성 모델은 더 나은 제2 오답을 생성할 수 있게 제2 피드백을 기반으로 교차 엔트로피 함수의 손실을 최소화하도록 가중치를 조절하고,
    상기 오답 검사 모델은 제1 정답과 동일한 제2 정답을 생성할 수 있게 제1 피드백을 기반으로 교차 엔트로피 함수의 손실을 최대화하도록 가중치를 조절하는 선다형 QA 모델 강화 시스템.
KR1020200167224A 2020-12-03 2020-12-03 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치 KR102587265B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020200167224A KR102587265B1 (ko) 2020-12-03 2020-12-03 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치
US17/120,075 US11960838B2 (en) 2020-12-03 2020-12-11 Method and device for reinforcement of multiple choice QA model based on adversarial learning techniques
EP20213257.7A EP4009250A1 (en) 2020-12-03 2020-12-11 Method and device for reinforcement of multiple choice qa model based on adversarial learning techniques
KR1020230128185A KR20230141711A (ko) 2020-12-03 2023-09-25 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200167224A KR102587265B1 (ko) 2020-12-03 2020-12-03 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020230128185A Division KR20230141711A (ko) 2020-12-03 2023-09-25 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220078083A true KR20220078083A (ko) 2022-06-10
KR102587265B1 KR102587265B1 (ko) 2023-10-11

Family

ID=73834169

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200167224A KR102587265B1 (ko) 2020-12-03 2020-12-03 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치
KR1020230128185A KR20230141711A (ko) 2020-12-03 2023-09-25 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230128185A KR20230141711A (ko) 2020-12-03 2023-09-25 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치

Country Status (3)

Country Link
US (1) US11960838B2 (ko)
EP (1) EP4009250A1 (ko)
KR (2) KR102587265B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11567914B2 (en) 2018-09-14 2023-01-31 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
US11334832B2 (en) 2018-10-03 2022-05-17 Verint Americas Inc. Risk assessment using Poisson Shelves
US11610580B2 (en) 2019-03-07 2023-03-21 Verint Americas Inc. System and method for determining reasons for anomalies using cross entropy ranking of textual items
WO2020257304A1 (en) * 2019-06-18 2020-12-24 Verint Americas Inc. Detecting anomalies in textual items using cross-entropies

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786352B1 (ko) * 2006-08-10 2007-12-14 울산대학교 산학협력단 한국어 어휘 학습을 위한 자동 문제 생성 방법
KR20190059084A (ko) * 2017-11-22 2019-05-30 한국전자통신연구원 자연어 질의응답 시스템 및 그 학습 방법
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150348433A1 (en) * 2014-05-29 2015-12-03 Carnegie Mellon University Systems, Methods, and Software for Enabling Automated, Interactive Assessment
US9684876B2 (en) * 2015-03-30 2017-06-20 International Business Machines Corporation Question answering system-based generation of distractors using machine learning
US11250332B2 (en) * 2016-05-11 2022-02-15 International Business Machines Corporation Automated distractor generation by performing disambiguation operations
US11086920B2 (en) * 2017-06-22 2021-08-10 Cerego, Llc. System and method for automatically generating concepts related to a target concept
US11164473B2 (en) * 2019-02-18 2021-11-02 International Business Machines Corporation Generating probing questions to test attention to automated educational materials
US20200388184A1 (en) * 2019-06-07 2020-12-10 The Toronto-Dominion Bank System and method for providing status indications using multiple-choice questions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786352B1 (ko) * 2006-08-10 2007-12-14 울산대학교 산학협력단 한국어 어휘 학습을 위한 자동 문제 생성 방법
KR20190059084A (ko) * 2017-11-22 2019-05-30 한국전자통신연구원 자연어 질의응답 시스템 및 그 학습 방법
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"자동 추출된 지식에 기반한 한국어 학습 지원 시스템", 정보처리학회논문지/소프트웨어 및 데이터 공학 제1권 제2호(pp. 91-102), 2012.11.* *

Also Published As

Publication number Publication date
US20220180061A1 (en) 2022-06-09
KR20230141711A (ko) 2023-10-10
US11960838B2 (en) 2024-04-16
KR102587265B1 (ko) 2023-10-11
EP4009250A1 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
KR102587265B1 (ko) 적대적 학습 기법 기반의 선다형 qa 모델의 강화 방법 및 장치
CN109657041A (zh) 基于深度学习的问题自动生成方法
Yao et al. Teaching Machines to Ask Questions.
KR102213476B1 (ko) 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법
US11687731B2 (en) Method and device for tracking dialogue state in goal-oriented dialogue system
CN109271496B (zh) 一种基于文本、知识库及序列到序列的自然问答方法
KR102334583B1 (ko) 대화식 질의 시스템에서 교육 컨텐츠에 관한 학습자 질의에 응답하기 위한 질의 응답 방법 및 질의 응답 시스템
KR20210076804A (ko) 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체
KR20220031857A (ko) 성어 괄호넣기문제의 답안 선택방법, 장치와 컴퓨터장비
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN110619042A (zh) 一种基于神经网络的导学问答系统及方法
CN113254604A (zh) 一种基于参考规范的专业文本生成方法及装置
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112329435A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN110263143A (zh) 提高相关性的神经问题生成方法
CN115510814A (zh) 一种基于双重规划的篇章级复杂问题生成方法
Lombardi et al. Using learning to control artificial avatars in human motor coordination tasks
Rao et al. Ensemble based learning style identification using VARK
Knox et al. Reinforcement learning with human feedback in mountain car
KR20220078082A (ko) 텍스트 요약 성능 개선 방법 및 시스템
CN101739852B (zh) 基于语音识别的实现自动口译训练的方法和装置
KR102059015B1 (ko) 인공 지능 기반의 대화 시스템 및 그 응답 제어 방법
Kavitha et al. Mapping artificial intelligence and education
KR20210152976A (ko) 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법
CN112668344A (zh) 基于混合专家模型的复杂度可控的多样化问题生成方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant