KR20220046276A

KR20220046276A - 기계 독해 학습 데이터 자동 생성 장치 및 그 방법

Info

Publication number: KR20220046276A
Application number: KR1020200129497A
Authority: KR
Inventors: 배용진; 임준호; 김민호; 김현; 김현기; 류지희; 배경만; 이형직; 임수종; 장명길; 최미란; 허정
Original assignee: 한국전자통신연구원
Priority date: 2020-10-07
Filing date: 2020-10-07
Publication date: 2022-04-14
Also published as: US11983501B2; KR102584452B1; US20220108076A1

Abstract

본 발명은 기계 독해 학습 데이터를 자동 생성하는 장치 및 방법에 관한 것으로, 보다 상세하게는 텍스트 의미 분석에 기반하여 기계 독해 학습 데이터를 자동으로 생성하고 관리하는 장치 및 그 방법에 관한 것이다.
본 발명에 따른 기계 독해 학습 데이터 자동 생성 장치 도메인 및 주제에 따라 텍스트 데이터를 수집하는 도메인 선별 텍스트 수집부와, 수집된 텍스트 데이터를 이용하여 단락을 선정하고, 질문 및 정답을 생성할 수 있는지 여부를 판단하는 단락 선정부 및 선별된 단락에서 질문과 정답을 생성하는 질문 및 정답 생성부를 포함한다.

Description

기계 독해 학습 데이터 자동 생성 장치 및 그 방법{APPARATUS AND METHOD FOR AUTOMATIC GENERATION OF MACHINE READING COMPREHENSION DATA}

본 발명은 기계 독해 학습 데이터를 자동 생성하는 장치 및 방법에 관한 것으로, 보다 상세하게는 텍스트 의미 분석에 기반하여 기계 독해 학습 데이터를 자동으로 생성하고 관리하는 장치 및 그 방법에 관한 것이다.

학습 데이터의 양은 딥러닝 알고리즘으로 생성되는 모델의 성능에 직접적으로 영향을 미치는 것으로, 데이터 구축 행위가 반드시 필요하다.

종래 기술에 따르면, 사람의 손으로 데이터를 구축하여 많은 비용이 발생하고, 데이터 구축 수량이 늘어남에 따라 기억력의 한계에 의해, 중복되는 데이터나 특정 주제의 문서에서만 비대칭적으로 학습 데이터를 생성하여, 데이터가 바이어스 되는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위해 제안된 것으로, 텍스트 의미 분석에 기반하여 기계 독해 학습 데이터를 자동으로 생성하고 관리하는 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명에 따른 기계 독해 학습 데이터 자동 생성 장치 도메인 및 주제에 따라 텍스트 데이터를 수집하는 도메인 선별 텍스트 수집부와, 수집된 텍스트 데이터를 이용하여 단락을 선정하고, 질문 및 정답을 생성할 수 있는지 여부를 판단하는 단락 선정부 및 선별된 단락에서 질문과 정답을 생성하는 질문 및 정답 생성부를 포함한다.

도메인 선별 텍스트 수집부는 딥러닝 학습에 사용된 데이터 분포 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 판단된 추가 학습 필요 도메인에 관한 원시 텍스트 데이터를 수집한다.

도메인 선별 텍스트 수집부는 수집된 텍스트 데이터를 도메인에 따라 분류한다.

단락 선정부는 수집된 텍스트에서 문서의 특성에 따라 구조적으로 단락을 구분하거나, 텍스트를 개별 문장으로 분리 후 결합하여 단락을 구성한다.

단락 선정부는 길이 적정성, 정보성 및 완성도를 확인하여 질문 및 정답을 생성할 수 있는지 여부를 판단한다.

단락 선정부는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 정보성을 확인한다.

단락 선정부는 내용어에 속하는 품사와 기능어 품사의 비율을 고려하여 정보성을 확인한다.

단락 선정부는 의존 구문 분석 결과를 이용하여 상기 완성도를 확인한다.

단락 선정부는 주어, 목적어, 동사를 포함하는 주요 성분의 포함 정도를 고려하여 완성도를 확인한다.

질문 및 정답 생성부는 의미역 인식을 활용하여 질문 및 정답을 생성한다.

질문 및 정답 생성부는 특정 의미역을 공백으로 두고 평서문을 의문문으로 변경하여 질문을 생성하고, 공백으로 변경한 특정 의미역을 정답으로 사용하여, 질문 및 정답을 자동 생성한다.

질문 및 정답 생성부는 의미역 표지에 관한 레이블을 이용하여 질문 및 정답을 자동 생성한다.

본 발명에 따른 기계 독해 학습 데이터 자동 생성 장치는 생성된 질문 및 정답을 저장 및 관리하는 데이터 관리부를 더 포함하고, 데이터 관리부는 질의응답 시스템에 사용 중인 모델을 학습한 데이터에 대한 카테고리 별 분류 결과를 제공한다.

본 발명에 따른 기계 독해 학습 데이터 자동 생성 방법은 (a) 텍스트 데이터를 선별하여 수집하는 단계와, (b) 수집된 텍스트 데이터를 이용하여 단락을 선정하고, 충분한 정보가 들어 있는지 여부, 오타 또는 불완전 문장이 있는지 여부를 확인하여 단락을 선별하는 단계 및 (c) 선별된 단락을 이용하여 의미 분석을 통해 질문 및 정답 쌍을 자동으로 추출하는 단계를 포함한다.

(b) 단계는 길이 적정성, 정보성 및 완성도를 확인하여 단락을 선별하되, 상기 단락 내 품사들의 비율을 고려하여 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 완성도를 확인한다.

(c) 단계는 의미역 표지에 관한 레이블을 참조하여 특정 의미역을 공백으로 두고 의문문을 생성하고, 특정 의미역을 정답으로 생성하여, 질문 및 정답을 자동 추출한다.

본 발명에 따른 기계 독해 학습 데이터 자동 생성 시스템은 웹 기반으로 텍스트를 수집하는 입력부와, 텍스트를 이용하여 기계 독해 학습 데이터를 생성하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 수집된 텍스트를 이용하여 질문 및 정답의 생성 가능 여부를 판단하고, 선별된 텍스트를 이용하여 질문 및 정답을 자동 생성한다.

입력부는 딥러닝 학습에 사용된 데이터 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 분석된 추가 학습 필요 도메인에 관한 텍스트를 수집한다.

프로세서는 텍스트에서 구조적으로 단락을 구분하거나, 개별 문장으로 분리 후 결합하여 단락을 선정하고, 정보성 및 완성도를 확인하여 질문 및 정답의 생성 가능 여부를 판단한다.

프로세서는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 완성도를 확인하며, 의미역 인식을 활용하여 질문 및 정답을 자동 생성한다.

본 발명에 따르면, 딥러닝 알고리즘 사용이 활발히 사용되고 학습 데이터의 수요가 큰 환경에서, 데이터 구축에 사용되는 비용(리소스 구축 비용)을 줄이는 효과가 있다.

텍스트에 기반한 질의응답 시스템뿐 아니라, 기계학습을 응용한 시스템에 사용 가능한 프레임워크를 제공하는 효과가 있다.

종래 기술에 따르면 태스크(예: 법률 질의응답, 일반분야 질의응답, 특허 질의응답)마다 질의응답 모델을 생성하기 위해 도메인 별 학습 데이터를 생성하여 도메인을 확장하였으나, 본 발명에 따르면 특정 도메인뿐 아니라 다양한 도메인으로의 확장이 용이한 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 장치를 도시한다.
도 2는 본 발명의 실시예에 따른 문서의 구조적인 특징에 기반한 단락 구분을 도시한다.
도 3은 본 발명의 실시예에 따른 구분 분석 결과를 설명하기 위한 예제를 도시한다.
도 4는 본 발명의 실시예에 따른 SRL 분석 결과를 설명하기 위한 예제를 도시한다.
도 5는 본 발명의 실시예에 따른 SRL 분석에 사용되는 레이블 정보를 도시한다.
도 6은 본 발명의 실시예에 따른 SRL 분석에 기반한 질문/정답 생성 예를 도시한다.
도 7은 본 발명의 실시예에 따른 데이터 관리부의 인터페이스를 도시한다.
도 8은 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 시스템을 도시한다.
도 9는 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 방법을 도시한다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.

딥러닝 알고리즘이 소개된 이후, 인공지능 기술은 다양한 분야에 도입되고 있고, 기존의 전통적인 기계학습(SVM, Decision Tree 등)보다 높은 성능을 나타내고 있다.

종래 기술에 따르면, 딥러닝 모델이 좋은 성능을 낼 수 있게 학습하기 위해서, 전통적인 기계학습에 사용되던 데이터보다 많은 학습 데이터가 필요하며, 학습 데이터를 만들기 위해 다수의 사용자들이 수작업으로 정답 데이터를 생성한다.

종래 기술에 따르면, 기계학습이나 딥러닝 알고리즘의 학습을 위해 데이터를 생성하는 방법이 제안되어 왔으나, 학습 데이터의 도메인 중 대부분은 이미지와 관련되는 것으로, 표면적인 글자만으로는 처리가 어려워 텍스트와 관련되어서는 데이터 생성 방법에 대해 거의 제안되지 않은 한계가 있다.

종래 기술에 따르면, 사용자가 미리 학습 데이터를 구축하고, 신규 데이터들 중에서 학습 데이터와 유사도가 높은 데이터를 선택하여 데이터를 추가함으로써, 텍스트와 관련하여 학습 데이터를 생성한다.

그러나, 종래 기술에 따르면, 유사도 높은 데이터를 추출하여 학습 데이터를 새롭게 생성하는 것이 가능하지만, 사용자가 직접 유사도를 측정하기 위해 사용되는 기준 데이터를 만들어야 하는 비용이 발생된다.

또한, 기준이 되는 데이터와 유사한 데이터를 찾는 문제이기 때문에, 기 구축된 데이터의 도메인과 관련 있는 데이터가 추가될 확률이 높아, 데이터가 바이어스 될 확률이 높다는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위해 제안된 것으로, 사용자가 수작업으로 데이터를 구축하지 않고 신규 학습 데이터를 자동 생성하는 장치 및 방법을 제안한다.

본 발명에 따르면, 특정 도메인에 종속되지 않고, 다양한 도메인과 관련한 학습 데이터를 생성하는 것이 가능하므로, 데이터의 밸런스가 높아 인공지능 모델 학습에 더욱 좋은 효과를 낼 수 있다.

종래 기술에 따르면, 이미지 관련하여 자동으로 학습 데이터를 생성하는 방법은 텍스트와 동일하게 미리 구축된 학습 데이터가 존재한다는 가정하에, 이미지의 크기를 조절하거나, 방향을 조절하여 가상 학습 데이터를 생성한다.

학습 데이터의 유형이 텍스트와 다르기도 하지만, 종래 기술은 기존의 데이터를 가공하여 재사용하는 반면, 본 발명은 신규 유형의 텍스트로부터 새로운 데이터를 자동 생성하는 차이점이 있다.

본 발명에 따르면, 기존의 자동으로 학습 데이터를 구축하는데 있어 사용자가 직접 개입해야 하는 비용을 없애고, 자동으로 학습 데이터를 생성하는 것이 가능하다.

본 발명은 자연어 이해 기술, 텍스트 분류 기술, 텍스트 생성 기술, 텍스트 세그먼테이션 기술과 관련이 있다.

자연어 이해 기술은 본 발명의 기반이 되는 기술로 텍스트를 어휘 레벨에서 문장 레벨까지 다각적으로 문장의 정보를 분석하며, 대표적인 기술로는 형태소 분석 기술, 개체명 인식 기술, 의존구문 분석 기술, 의미역 인식 기술 등이 있다.

텍스트 분류 기술은 사용자가 미리 정의한 카테고리 분류 레이블에 기반하여, 자연어 이해의 내용을 바탕으로 기계학습이나 딥러닝 알고리즘을 이용하여 텍스트를 특정 카테고리로 분류하는 기술로서, 본 발명에서는 텍스트의 주제(도메인)을 분류하기 위해 사용된다.

텍스트 생성 기술은 일반적으로 기 생성된 언어모델에 기반하여 주어진 특정 어휘나 구 이후에 생성될 확률이 높은 어휘들을 추가하면서 새로운 문장을 생성하는 기술로서, 본 발명에서는 언어모델로 새로운 문장을 생성하지 않고, 도치를 통하여 평서문에서 의문문을 생성하기 위해 사용된다.

텍스트 세그먼테이션 기술은 길이가 긴 문서를 의미적 단위로 구분하기 위하여 문서 내의 구문적/의미적인 단위로 문서를 구획하는 기술로서, 본 발명에서는 길이가 긴 텍스트를 기계가 처리할 수 있는 단위로 구분하기 위해 사용된다.

도 1은 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 장치를 도시한다.

본 발명의 실시예에 따르면, 딥러닝 알고리즘에 사용되는 학습 데이터를 사용자가 직접 구축하지 않고, 장치가 자동으로 학습 데이터를 생성, 관리, 학습한다.

본 발명의 실시예에 따르면, 질의응답 시스템에서 정답을 추출하는 모델을 학습하기 위해 사용되는 학습 데이터인 질문-정답-단락 쌍을 자동으로 생성한다.

먼저, 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 과정에 대해 설명하면, 질의응답 시스템에 사용 중인 모델을 학습한 데이터를 분석하여 데이터의 도메인 분포를 파악하고, 부족한 도메인의 데이터를 수집하거나, 서비스 이용자들로부터 실시간으로 수집되는 질의 데이터 중에서 자주 언급되는 질문의 도메인을 분석한다.

이어서, 웹을 통해 백과사전, 뉴스, SNS데이터를 수집하고, 부족한 도메인에 해당하는 데이터를 선별 수집을 한다.

선별 수집된 데이터들 중에서도 텍스트 내에 정보가 있는지, 오타나 불완전 문장은 제외하기 위해 정문인지 판단한다.

수집된 데이터가 정상적인 문장이고 정보성이 있으면 의미 분석을 이용하여 질문/정답 쌍을 자동으로 추출한다.

자동으로 추출된 질문/정답/단락이 저장되고, 저장된 데이터들은 다시 딥러닝 알고리즘 학습에 사용되어 최종적으로 질의응답 서비스 어플리케이션에 반영된다.

저장된 데이터의 분포를 파악하면서, 다시 도메인 선별 텍스트 수집 단계부터 일련된 과정을 반복 수행할 수 있다.

본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 장치는 도메인 및 주제에 따라 텍스트를 수집하는 도메인 선별 텍스트 수집부(110), 수집된 텍스트에서 질문 및 정답을 생성할 수 있는지 판단하고, 문서에서 처리 단위인 단락을 선정하는 단락 선정부(120), 선정된 단락에서 질문과 정답을 생성하는 질문 및 정답 생성부(130), 생성된 데이터를 저장 및 관리하는 데이터 관리부(140)를 포함한다.

도메인 선별 텍스트 수집부(110)는 딥러닝 학습에 사용된 데이터 분포를 분석하거나, 서비스에서 수집한 사용자의 질의 로그를 분석하여 추가 학습이 필요한 도메인을 판단하고, 부족한 도메인에 관한 원시 텍스트 데이터를 수집한다.

도메인 선별 텍스트 수집부(110)는 웹으로부터 텍스트의 소스를 수집하며, 백과사전, 뉴스, SNS 등이 사용된다.

본 발명의 실시예에 따른 질의 응답 시스템은 도메인 제한이 없으므로, 다양한 소스 데이터가 수집/활용된다.

도메인 선별 텍스트 수집부(110)는 수집된 데이터의 도메인을 목적에 맞게 사용하게 위해 분류를 수행한다.

분류 과정은 기계학습이나, 딥러닝 알고리즘을 사용하여 기정의된 도메인 카테고리에 맞게 수행된다.

예를 들어 기계학습 알고리즘으로는 Support Vector Machine, Decision Tree와 같은 알고리즘이 사용되고, 딥러닝 학습 방법으로는 RNN, DNN, BERT와 같은 알고리즘이 사용된다.

문서 주제 분류 카테고리는 문서의 주제에 맞게 스포츠, 연예, 인물, 역사, 식물 등 사용자의 목적에 맞게 설정된다.

도메인 선별 텍스트 수집부(110)에 의해 수집된 데이터들은 도메인에 따라 주제 분류만 된 텍스트이므로, 이를 질의응답 학습 데이터로 사용할 수 있는지 여부를 판단하기 위해, 단락 선정부(120)는 텍스트 길이의 적정성, 정보성, 문장의 완성도를 확인한다.

이는 SNS데이터들 중, 줄임말이나 비속어 등과 같이, 정문이 아닌 경우 학습 데이터로 사용하기 어렵고, 질의응답에서 필요한 정보가 부족할 수 있기 때문이다.

또한, 정보가 포함되어 있다 하더라도, 텍스트가 길면 다양한 정보와 주제가 포함되어 있어, 컴퓨터가 학습함에 있어 노이즈로 작용할 수 있기 때문이다.

단락 선정부(120)는 도 2에 도시한 바와 같이, 수집된 텍스트에서 문서의 특성에 따라 구조적으로 단락을 구분하거나, 문장 분리기를 사용하여 텍스트를 개별 문장으로 분리한 후, 1개 이상의 문장을 결합하여 하나의 단락을 구성한다.

단락 선정부(120)는 문서의 정보성과 완성도를 판단함에 있어서, 단락 내 사용된 어휘의 종류 및 구문분석 결과를 이용한다.

정보성이 있는지 여부를 판단하는 척도로는 단락 내 사용된 어휘의 품사들의 종류들을 고려한다.

즉, 단락 내 어휘들 중 내용어에 속하는 품사(명사, 동사, 형용사, 부사, 관형사)들과 기능어 품사(조사, 어미)들의 비율을 고려하되, 내용어의 비중이 높으면 정보성이 있다고 판단하며, 내용어 대비 기능어의 비중이 높으면 정보성이 낮은 것으로 판단한다.

또한, 문서의 완성도 여부(텍스트가 완전 문장인지 여부)를 판단하기 위해, 의존 구문 분석 기술의 결과를 활용한다.

의존 구문 분석 기술은 문장의 구성 성분을 분석하는 기술로, 주어나 목적어, 동사와 같은 성분을 분석한다.

도 3은 본 발명의 실시예에 따른 구분 분석 결과를 설명하기 위한 예제를 도시하며, 예를 들어 "이들은 아테네 사람들을 대상으로 하였고, 수사학과 웅변술을 가르쳤다." 문장에 대한 분석 결과를 도시한다.

도 3에 도시한 바와 같이, 주어(SBJ), 목적어(OBJ), 동사(VP) 등과 같이 주요 성분이 포함되어 있으면 완전 문장인 것으로 판단하고, 그렇지 않은 경우 불완전 문장인 것으로 판단한다.

단락 선정부(120)를 통해 선별된 단락들은 학습 데이터로서 활용이 충분한 것으로, 질문 및 정답 생성부(130)로 전송된다.

질문 및 정답 생성부(130)는 단락 선정부(120)로부터 수신한 선별된 단락에서 질문과 정답을 추출한다.

질문 및 정답 생성부(130)는 SRL(Semantic Role Labeling, 의미역 인식)을 활용하여 질문 및 정답을 추출한다.

SRL은 자연어 텍스트에서 문장을 완성하기 위해 필요한 성분들의 무장 내 의미적 관계를 분석하는 기술이다.

예컨대, 문장1 "신민회는 1907년에 조직되었다", 문장2 "1907년에 조직된 신민회는..."이 있을 때, 문장의 구조가 바뀌더라도 의미적으로 보았을 때 도 4와 같이 분석이 가능하도록 하며, SRL분석에 사용되는 레이블은 도 5에 도시한 바와 같이 설정된다.

본 발명의 실시예에 따른 질문 및 정답 생성부(130)는 도 4에 도시한 예제와 같이, 어절 간의 의미적 관계에 대한 분석이 가능하므로, 필수 요소를 갖춘 문장을 분석하고 난 뒤 특정 의미역을 공백으로 두고, 의문문으로 변경하여 질문을 생성하고, 공백으로 변경한 의미역 부분을 정답으로 사용하여 질문 및 정답 쌍을 자동으로 생성한다.

질문 및 정답 생성부(130)는 다양한 의미역 표지의 종류에 따라, 행위자를 묻는 질문인 'WHO'에 해당하는 질문뿐 아니라, 'M-TMP'레이블을 이용하여 'WHEN'과 관련된 질문, 'M-LOC'을 이용하여 'WHERE'과 관련된 질문, 'M-CAU' 레이블을 이용하여 'WHY'형 질문, 'M-MNR'레이블을 이용하여 'HOW'형 질문, 그 외의 레이블을 사용하여 'WHAT'형의 질문을 생성한다.

도 6은 본 발명의 실시예에 따른 SRL 분석에 기반한 질문/정답 생성 예를 도시한다.

질문 및 정답 생성부(130)는 질문 생성을 위해 문장을 재생성함에 있어서, who, when, where, how, why, what의 위치에 의문사를 삽입하여 텍스트(단락)로부터 자동으로 질문 및 정답 쌍을 생성한다.

전술한 과정에 따라 자동으로 추출된 텍스트(단락), 질문, 정답은 데이터 관리부(400)로 전송된다.

데이터 관리부(140)는 단락으로부터 자동으로 추출된 텍스트(단락), 질문, 정답을 저장 및 관리하여, 추가 학습 및 부족한 도메인 분석, 서비스 이용자의 질의 로그 도메인, 재학습 등의 기능을 수행한다.

도 7은 본 발명의 실시예에 따른 데이터 관리부의 인터페이스를 도시한다.

데이터 관리부(140)는 질의응답 시스템에 사용 중인 모델을 학습한 데이터에 대한 카테고리 별 분류를 통해, 시스템의 질의응답 수행 능력을 유추할 수 있도록 한다.

데이터 관리부(140)는 질의응답 시스템의 성능에 직접적으로 영향을 미치는 학습 데이터와 관련하여. 부족한 데이터를 추가적으로 수집하여 관리하고 모델 재학습을 수행하도록 지원한다.

본 발명의 실시예에 따르면, 단순히 데이터의 양만 고려하여 수집하는 것이 아니라, 카테고리화된 도메인에 따라 데이터의 비율을 유지하는 것이 가능하며, 성능적으로도 우수한 효과를 거둘 수 있다.

질의응답 시스템 서비스의 사용자들로부터 실시간으로 수집한 데이터들에 대해, 인기가 많은 도메인들의 데이터를 추가적으로 선별 및 수집함으로써, 모델 재학습을 수행하고 서비스 품질을 유지한다.

도 8은 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 시스템을 도시한다.

본 발명에 따른 기계 독해 학습 데이터 자동 생성 시스템은 웹 기반으로 텍스트를 수집하는 입력부(810)와, 텍스트를 이용하여 기계 독해 학습 데이터를 생성하는 프로그램이 저장된 메모리(820) 및 프로그램을 실행시키는 프로세서(830)를 포함하고, 프로세서(830)는 수집된 텍스트를 이용하여 질문 및 정답의 생성 가능 여부를 판단하고, 선별된 텍스트를 이용하여 질문 및 정답을 자동 생성한다.

입력부(810)는 딥러닝 학습에 사용된 데이터 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 분석된 추가 학습 필요 도메인에 관한 텍스트를 수집한다.

프로세서(830)는 텍스트에서 구조적으로 단락을 구분하거나, 개별 문장으로 분리 후 결합하여 단락을 선정하고, 정보성 및 완성도를 확인하여 질문 및 정답의 생성 가능 여부를 판단한다.

프로세서(830)는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 완성도를 확인하며, 의미역 인식을 활용하여 질문 및 정답을 자동 생성한다.

도 9는 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 방법을 도시한다.

데이터 관리 및 모니터링이 수행되고(S910), 질의응답 시스템에 사용될 모델 학습이 수행되면(S920), 모델을 학습한 데이터를 분석하기 위해 데이터를 수집한다(S930).

S930 단계에서는, 딥러닝 학습에 사용된 데이터 분포를 분석하거나, 서비스에서 수집한 사용자의 질의 로그를 분석하여 추가 학습이 필요한 도메인을 판단하고, 부족한 도메인에 관한 원시 텍스트 데이터를 수집한다.

S940 단계는 수집된 데이터의 도메인을 목적에 맞게 사용하기 위해 분류를 수행하며, 도메인 적합 여부를 판단한다.

S950 단계는 수집된 텍스트에서 문서의 특성에 따라 구조적으로 단락을 구분하거나, 텍스트를 개별 문장으로 분리하고 1개 이상의 문장을 결합하여 단락을 구성한다.

S960 단계는 도메인에 따라 주제 분류된 텍스트에 대해, 질의응답 학습 데이터로 사용할 수 있는지 여부를 판단하며, 텍스트 길이의 적정성, 정보성, 문장의 완성도를 확인한다.

S960 단계는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 정보성을 확인하고, 의존 구문 분석 결과를 활용하여 완성도를 확인한다.

S970 단계는 선별된 단락에서 질문 및 정답을 추출하며, 이 때 SRL을 활용하여 질문 및 정답을 추출한다.

S970 단계는 의미역 표지의 종류에 따라 질문을 생성하고, 공백으로 변경한 의미역 부분을 정답으로 사용하여 질문 및 정답을 자동 생성한다.

한편, 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 기계 독해 학습 데이터 자동 생성 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 기계 독해 학습 데이터 자동 생성 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 기계 독해 학습 데이터 자동 생성 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

Claims

도메인 및 주제에 따라 텍스트 데이터를 수집하는 도메인 선별 텍스트 수집부;
수집된 텍스트 데이터를 이용하여 단락을 선정하고, 질문 및 정답을 생성할 수 있는지 여부를 판단하는 단락 선정부; 및
선별된 단락에서 질문과 정답을 생성하는 질문 및 정답 생성부
를 포함하는 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 도메인 선별 텍스트 수집부는 딥러닝 학습에 사용된 데이터 분포 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 판단된 추가 학습 필요 도메인에 관한 원시 텍스트 데이터를 수집하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 도메인 선별 텍스트 수집부는 상기 수집된 텍스트 데이터를 도메인에 따라 분류하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 단락 선정부는 수집된 텍스트에서 문서의 특성에 따라 구조적으로 단락을 구분하거나, 상기 텍스트를 개별 문장으로 분리 후 결합하여 단락을 구성하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 단락 선정부는 정보성 및 완성도 중 적어도 어느 하나를 확인하여 질문 및 정답을 생성할 수 있는지 여부를 판단하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제5항에 있어서,
상기 단락 선정부는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 상기 정보성을 확인하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제6항에 있어서,
상기 단락 선정부는 내용어에 속하는 품사와 기능어 품사의 비율을 고려하여 상기 정보성을 확인하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제6항에 있어서,
상기 단락 선정부는 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제8항에 있어서,
상기 단락 선정부는 주어, 목적어, 동사를 포함하는 주요 성분의 포함 정도를 고려하여 상기 완성도를 확인하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 질문 및 정답 생성부는 의미역 인식을 활용하여 질문 및 정답을 생성하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제10항에 있어서,
상기 질문 및 정답 생성부는 특정 의미역을 공백으로 두고 평서문을 의문문으로 변경하여 상기 질문을 생성하고, 공백으로 변경한 상기 특정 의미역을 상기 정답으로 사용하여, 상기 질문 및 정답을 자동 생성하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제11항에 있어서,
상기 질문 및 정답 생성부는 의미역 표지에 관한 레이블을 이용하여 상기 질문 및 정답을 자동 생성하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
제1항에 있어서,
상기 생성된 질문 및 정답을 저장 및 관리하는 데이터 관리부를 더 포함하고,
상기 데이터 관리부는 질의응답 시스템에 사용 중인 모델을 학습한 데이터에 대한 카테고리 별 분류 결과를 제공하는 것
인 기계 독해 학습 데이터 자동 생성 장치.
(a) 텍스트 데이터를 선별하여 수집하는 단계;
(b) 상기 수집된 텍스트 데이터를 이용하여 단락을 선정하고, 충분한 정보가 들어 있는지 여부, 오타 또는 불완전 문장이 있는지 여부를 확인하여 상기 단락을 선별하는 단계; 및
(c) 상기 선별된 단락을 이용하여 의미 분석을 통해 질문 및 정답 쌍을 자동으로 추출하는 단계
를 포함하는 기계 독해 학습 데이터 자동 생성 방법.
제14항에 있어서,
상기 (b) 단계는 길이 적정성, 정보성 및 완성도를 확인하여 상기 단락을 선별하되, 상기 단락 내 품사들의 비율을 고려하여 상기 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하는 것
인 기계 독해 학습 데이터 자동 생성 방법.
제14항에 있어서,
상기 (c) 단계는 의미역 표지에 관한 레이블을 참조하여 특정 의미역을 공백으로 두고 의문문을 생성하고, 상기 특정 의미역을 상기 정답으로 생성하여, 상기 질문 및 정답을 자동 추출하는 것
인 기계 독해 학습 데이터 자동 생성 방법.
웹 기반으로 텍스트를 수집하는 입력부;
상기 텍스트를 이용하여 기계 독해 학습 데이터를 생성하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는 수집된 상기 텍스트를 이용하여 질문 및 정답의 생성 가능 여부를 판단하고, 선별된 텍스트를 이용하여 질문 및 정답을 자동 생성하는 것
인 기계 독해 학습 데이터 자동 생성 시스템.
제17항에 있어서,
상기 입력부는 딥러닝 학습에 사용된 데이터 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 분석된 추가 학습 필요 도메인에 관한 상기 텍스트를 수집하는 것
인 기계 독해 학습 데이터 자동 생성 시스템.
제17항에 있어서,
상기 프로세서는 상기 텍스트에서 구조적으로 단락을 구분하거나, 개별 문장으로 분리 후 결합하여 단락을 선정하고, 상기 단락의 정보성 및 완성도를 확인하여 상기 질문 및 정답의 생성 가능 여부를 판단하는 것
인 기계 독해 학습 데이터 자동 생성 시스템.
제19항에 있어서,
상기 프로세서는 상기 단락 내 사용된 어휘의 품사들의 종류를 고려하여 상기 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하며, 의미역 인식을 활용하여 상기 질문 및 정답을 자동 생성하는 것
인 기계 독해 학습 데이터 자동 생성 시스템.