KR20190056184A

KR20190056184A - 기계 독해를 위한 질의응답 데이터 생성 시스템

Info

Publication number: KR20190056184A
Application number: KR1020170153356A
Authority: KR
Inventors: 황이규; 홍수린; 유태준; 장재용; 오연택; 민경구; 홍윤기; 고석태
Original assignee: 주식회사 마인즈랩; 주식회사 엘지유플러스
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2019-05-24
Also published as: KR102100951B1

Abstract

본 개시는 기계 독해 기반 질의 응답 시스템의 학습을 위한 데이터 셋을 생성하는 시스템 및 방법에 관한 것이다. 이를 위한, 학습 데이터 생성 방법은, 학습하고자 하는 본문에 대한 언어 처리를 수행하는 단계; 상기 본문과 관련된 질문 및 정답 세트를 수신하는 단계; 상기 본문 내 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치를 특정하는 단계; 및 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치 차이가 기 설정된 값 이상인지 여부를 기초로, 상기 질문 및 정답 세트의 유효성을 검증하는 단계를 포함할 수 있다.

Description

기계 독해를 위한 질의응답 데이터 생성 시스템{SYSTEM FOR GENERATING QUESTION-ANSWER DATA FOR MACHING LEARNING BASED ON MACHING READING COMPREHENSION }

본 개시는 기계 독해 기반 질의 응답 모델의 학습을 위한 데이터 셋을 생성하는 시스템 및 방법에 관한 것이다.

기계 독해(Machine Reading Comprehension, MRC)는 기계가 문서를 읽고 이해할 수 있도록 하는 기계 학습 방법을 의미한다. MRC에 기반한 질의 응답 모델을 이용할 경우, 기계 독해를 통해 문서 내 답을 찾을 수 있는 질문 및 질문에 대한 정답의 위치를 학습하고, 학습한 결과를 토대로 새로운 문서 또는 질문이 입력되었을 때, 입력된 질문에 대한 정답의 위치를 유추할 수 있다.

MRC 기반의 질의 응답 모델을 효과적으로 학습하기 위해서는, 이에 적합한 질문-정답 세트를 생성하는 것이 중요하다. 다만, 현재까지는 개개인이 본문을 보고 직접 질문-정답을 생성하는 것에 그쳐, MRC 기반의 질의 응답 모델을 위한 효과적인 학습 데이터 생성이 불가능했다.

본 개시의 기술적 과제는, 기계 독해에 적합한 기계 학습 데이터를 생성하는 시스템 및 방법을 제공하는 것이다.

본 개시의 기술적 과제는, 제작된 질문 및 정답 세트의 유효성을 검증할 수 있는 학습 데이터 생성 시스템 및 방법을 제공하는 것이다.

본 개시의 기술적 과제는 기계 독해를 기초로 학습된 질의 응답 모델을 이용한 경우, 입력된 질문에 대해 예측된 응답을 후보정하여, 신뢰도가 높은 질의 응답 시스템 및 방법을 제공하는 것이다.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법은, 학습하고자 하는 본문에 대한 언어 처리를 수행하고, 상기 본문과 관련된 질문 및 정답 세트를 수신하고, 상기 본문 내 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치를 특정하고, 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치 차이가 기 설정된 값 이상인지 여부를 기초로, 상기 질문 및 정답 세트의 유효성을 검증할 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 본문에 포함된 문장 중 상기 질문에 포함된 실질 형태소를 가장 많이 포함하는 문장이 상기 질문과 관련된 문장으로 결정될 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 질문 및 정답 세트가 유효한 것으로 판단되는 경우, 상기 정답과 관련된 문장의 위치는, 상기 정답을 포함하는 문장들 중 상기 질문과 유사도가 가장 높은 것으로 결정될 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 질문 및 정답 세트가 유효한 것으로 판단되는 경우, 상기 본문 내용 중에서 상기 질문에 대한 추가 정답을 추출할 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 추가 정답은, 상기 본문 내 상기 정답을 포함하는 문장에서, 상기 정답에 인접한 괄호 표현과 상기 정답을 결합함으로써 생성될 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 본문 내 상기 정답을 포함하는 문장에서, 상기 정답이 포함된 구 전체가 상기 추가 정답으로 생성될 수 있다.

본 개시의 일 양상에 따른 학습 데이터 생성 시스템 및 방법에 있어서, 상기 질문 및 정답 세트가 유효한 것으로 판단되고, 상기 정답이 상기 본문 중 열거형으로 표현된 요소들 중 일부만을 포함하는 경우, 상기 열거형으로 표현된 요소들 모두를 포함하도록 상기 정답이 보정될 수 있다.

본 개시의 일 양상에 따른 질의 응답 시스템 및 방법은, 본문을 입력받고, 상기 본문에 대한 언어 처리를 수행하고, 상기 본문과 관련된 질문을 입력받고, 상기 본문을 기초로 상기 질문에 대한 정답을 예측하고, 상기 정답을 보정할 수 있다.

본 개시의 일 양상에 따른 질의 응답 시스템 및 방법에 있어서, 상기 예측된 정답을 포함하는 문장을 전후하여, 상기 질문에 포함된 실질 형태소와 의미적 유사도가 일정 수준 이상인 단어가 포함되는 경우, 상기 단어를 추가함으로써 상기 보정이 수행될 수 있다.

본 개시의 일 양상에 따른 질의 응답 시스템 및 방법에 있어서, 상기 예측된 정답을 포함하는 문장을 전후하여, 상기 예측된 정답과 인접한 단어가 동일한 구를 형성하는 경우, 상기 인접 단어를 추가함으로써 상기 보정이 수행될 수 있다.

본 개시의 일 양상에 따른 질의 응답 시스템 및 방법에 있어서, 상기 예측된 정답이 명사로 종결되지 않는 경우, 상기 보정은, 상기 예측된 정답을 포함하는 문장에서 상기 예측된 정답 이후 처음으로 명사가 발견되는 지점 까지 상기 정답의 위치를 변경함으로써 수행될 수 있다.

본 개시의 일 양상에 따른 질의 응답 시스템 및 방법에 있어서, 상기 예측된 정답을 보정할 것인지 여부는, 상기 예측된 정답의 길이, 상기 예측된 정답의 종결어가 명사인지 여부 또는 상기 예측된 정답의 종결어미가 서술형인지 여부에 따라 결정될 수 있다.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.

본 개시에 따르면, 기계 독해에 적합한 기계 학습 데이터를 생성할 수 있는 효과가 있다.

본 개시에 따르면, 제작된 질문 및 정답 세트의 유효성을 검증할 수 있는 효과가 있다.

본 개시에 따르면, 기계 독해를 기초로 학습된 질의 응답 모델을 이용한 경우, 입력된 질문에 대해 예측된 응답을 후보정하여, 신뢰도가 높은 질의 응답 시스템을 제공할 수 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명에 따른, MRC에 기반한 질의 응답 모델을 위한 학습 데이터 생성 시스템을 도시한 도면이다.
도 2는 본 발명에 따른, 학습 데이터 생성 방법을 나타낸 흐름도이다.
도 3은, 입력되는 본문들에 대한 언어 처리 과정을 개략적으로 도시한 도면이다.
도 4는 정답의 위치가 보정되는 예를 나타낸 도면이다.
도 5는 본 발명에 따른 질의 응답 시스템을 도시한 도면이다.
도 6은 본 발명에 따른, 정답 보정부의 동작을 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.

본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 발명의 어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급 또는 표현된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들은, 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 일 예로, 각 구성부들은, 데이터 통신을 수행하기 위한 통신부, 데이터를 저장하는 메모리, 데이터 처리를 수행하는 제어부(또는 프로세서) 중 적어도 하나 이상의 조합으로 구현될 수 있다.

또는, 본 실시예에 나타난 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어져야 하는 것은 아니다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함될 수 있다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

본 발명의 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명에 따른, MRC에 기반한 질의 응답 모델을 위한 학습 데이터 생성 시스템을 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른, 학습 데이터 생성 시스템(100)은, 입력부(110), 언어 처리부(120), 질문 추천부(130) 및 질의 응답 보정부(140)를 포함할 수 있다.

입력부(110)는 학습 데이터 생성을 위해, 본문, 질문, 상기 질문에 대한 정답 등의 데이터를 입력 받는 역할을 수행한다. 이때, 입력되는 데이터는, 제작자가 수동으로 입력하는 것일 수도 있고, 웹 수집 등을 통해 자동으로 입력되는 것일 수도 있다. 입력부(110)는 학습 데이터 생성과 관련한 다양한 사용자 입력을 수신할 수도 있다.

언어 처리부(120)는 입력부(110)를 통해 입력된 데이터에 대한 언어 처리를 수행할 수 있다. 일 예로, 언어 처리부(120)는, 질문 제작 대상 본문에 대한 언어 처리를 수행하는 한편, 제작자에 의해 입력되는, 질문 또는 정답 등에 대해 언어처리를 수행할 수 있다. 언어 처리부(120)는 언어 처리 결과에 따른 데이터를 데이터베이스에 축적할 수 있다. 축적된 데이터는, 추천 질문 생성, 질문-정답 유효성 검증 등에 이용될 수 있다.

MRC 기반 질의 응답 모들을 학습시키기 위해, 제작자는 기계 학습에 적합한 질문-정답 세트를 생성하고, 이를 입력부(110)를 통해 학습 데이터 생성 시스템에 입력할 수 있다. 다만, 개개인이 본문에서 유추 가능한 모든 질문을 생성하기를 기대하기 어렵다. 제작자의 질문 생성을 돕기 위해, 질문 추천부(130)는, 기 정의된 템플릿을 출력하거나, 언어 처리를 통해 축적된 데이터 등을 기초로 추천 질문을 생성할 수 있다.

템플릿은 자주 제작되는 질문 형태를 정의한 것이다. 제작자가 템플릿에 기초한 질문을 생성할 수 있도록, 질문 추천부(130)는 기 저정된 템플릿 목록을 출력할 수 있다. 다만, 템플릿 목록을 이용하는 경우, 제작자의 창작성이 제한될 염려가 있으므로, 질문 추천부(130)는 기 정의된 조건이 만족되는 경우에 한하여, 템플릿 목록을 출력할 수 있다. 예컨대, 질문 추천부(130)는, 템플릿 목록 출력을 요청하는 사용자 입력이 수신된 경우에 한하여, 템플릿 목력을 출력할 수 있다. 또는, 질문 추천부(130)는, 가장 최근 질문이 입력된 이래로 소정 시간이 경과하였음에도 추가 질문이 입력되지 않는 경우에 한하여 템플릿 목록을 출력할 수 있다. 또는, 질문 추천부(130)는, 기 입력된 질문의 개수가 소정 개수 이상인 경우에 한하여 템플릿 목록을 출력할 수 있다.

질문 추천부(130)는, 제작자가 입력한 질문의 분석 결과가에 기초하여, 템플릿을 실시간으로 업데이트 할 수도 있다. 예컨대, 제작자가 입력한 질문의 형태를 분석하여, 제작자가 자주 사용하는 질문 패턴을 템플릿에 추가 하거나, 제작자가 자주 사용하는 질문 패턴에 기초하여, 템플릿을 수정 또는 삭제할 수 있다.

질문 추천부(130)는, 본문에 대한 언어 처리 결과를 기초로, 질문으로 제작이 가능할 만한 문장 구조(즉, 추천 질문)를 생성할 수 있다. 일 예로, 질문 추천부(130)는, 본문에 대한 형태소 분석 또는 개체명 인식(Named Entity Recognition, NER) 결과에 기초하여, 추천 질문을 생성할 수 있다. 구체적으로, 질문 추천부(130)는 개체명 인식을 통해 인식된 개체 중 질문의 중심이 될 수 있는 개체를 선정한 뒤, 이와 인접한 실질 형태소를 연결하여, 질문을 생성할 수 있다. 제작자는 질문 추천부(130)를 통해 생성된 추천 질문을 MRC 기반 질의 응답 모델의 학습 데이터로 이용할 것인지 선택할 수 있다.

질의 응답 보정부(140)는, 제작자에 의해 입력된 질의 응답이 기계 학습에 적합한 데이터인지 여부를 검증하고, 입력된 질문-정답을 확장 또는 보정하는 역할을 수행한다. 구체적으로, 질의 응답 보정부(140)는, 입력된 질의에 대한 복수 정답 추가, 입력된 정답에 대한 보정, 입력된 질문-정답에 대한 위치 보정 또는 입력된 질문-정답에 대한 검증을 수행할 수 있다.

질의 응답 보정부(140)의 보정 결과에 따라, 기계 학습을 위한 데이터가 추가 수정될 수 있다. 기계 학습을 위한 데이터가 생성되면, 생성된 데이터를 이용하여 MRC 기반 질의 응답 모델에 대한 학습이 진행될 수 있다.

이하, 예시를 곁들여, 학습 데이터 생성 시스템에서, 기계 독해를 위한 학습 데이터를 생성하는 방법을 보다 상세히 설명하기로 한다.

도 2는 본 발명에 따른, 학습 데이터 생성 방법을 나타낸 흐름도이다.

학습하고자 하는 본문이 입력되면(S201), 언어 처리부(120)는 입력된 본문들에 대한 언어 처리를 수행할 수 있다(S202). 이때, 학습 데이터 생성의 기초가 되는 본문은 제작자에 의해 수동 입력된 것이거나, 웹 데이터 수집 등에 의해 자동 입력된 것일 수 있다.

언어 처리는, 문장 분리, 형태소 분석, 개체명 인식 또는 구문 분석 등을 거쳐 수행될 수 있다. 일 예로, 도 3은, 입력되는 본문들에 대한 언어 처리 과정을 개략적으로 도시한 도면이다.

문장 분리는 본문 내 문장들 각각을 분리하는 역할을 수행하고, 형태소 분석은 분리된 문장 각각을 형태소 단위로 분리하는 역할을 수행한다. 개체명 인식은, 분리된 형태소에서 개체명을 추출하는 역할을 수행하고, 구문 분석은 분리된 문장을 구문별로 분리하는 역할을 수행한다. 본문의 언어 처리 결과에 따라, 개별 형태소의 분류 결과(예컨대, 체언, 용언, 수식언, 독립언, 관계언 또는 의존형태 등)가 축적되고, 개체명의 종류(예컨대, 기관, 지명 또는 인물 등)가 축적될 수 있다.

표 1은 학습 대상이 되는 본문 예를 나타낸 것이다.

마인즈랩(대표 유태준)은 28일 부산에서 열린 'ITU 텔레콤월드 2017' 시상식에서 ITU 인증 우수 기업(Recognition of Excellence Certificate)으로 선정됐다고 밝혔다. 행사에 참여한 기업 중 가장 혁신적인 미래 기술 경쟁력을 지닌 중소기업에 부여되는 인증으로, 국내 기업으로는 마인즈랩이 유일하게 선정됐다. 마인즈랩은 전시회에서 인공지능 플랫폼 기반의 고객 센터 분석 및 품질 관리, 상답원 지원 솔루션인 마인즈 VOC, QC, RS 제품군을 선보였다. 해당 제품군은, 마인즈랩이 기업 고객을 대상으로 개발해 국내외 주요 기업의 전화 상담 센터에 도입된 인공지능 고객센터 솔루션이다.

언어 처리 결과에 따라, 상기 본문은, 4개의 문장으로 분리되는 한편, 각각의 문장에 대한 형태소 분석, 개체명 인식 또는 구분 문석 등이 수행될 수 있다.

질문 추천부(130)는, 제작자가 질문을 생성하기 위해 도움을 주기 위한 템플릿 또는 언어 처리 데이터를 기초로 자동으로 생성된 질문을 출력할 수 있다(S203).

템플릿은 자주 제작되는 질문 형태를 정의한 것으로, 질문 추천부(130)는 기 정의된 조건이 달성된 경우에 한하여, 하나 이상의 템플릿을 포함하는 템플릿 목록을 출력할 수 있다. 여기서, 기 정의된 조건은, 제작자의 요청이 입력되었는지 여부, 질문 또는 질의 응답 데이터가 입력된 이후 소정 시간이 경과하였는지 여부 또는 기 정의된 개수 이상의 질문 또는 질의 응답 데이터가 입력되었는지 여부 등을 포함할 수 있다.

표 2는 템플릿 및 템플릿을 이용하여 제작된 질문을 예시한 것이다.

<템플릿 예시>
1. 00의 00은 누구야
2. 00은 어디에서 00했어?

<질문 제작 예시>
1. <마인즈랩>의 <대표>는 누구야?
2. <'ITU 텔레콤월드 2017' 시상식>은 어디에서 <열렸>어?

표 2에 나타난 바와 같이, 템플릿을 이용하는 경우, 템플릿에 포함된 소정 형태소를 대체 형태소(제작 문장에서 괄호<>로 병기된 부분)을 대체함으로써 생성될 수 있다. 제작자가 질문을 보다 용이하게 생성할 수 있도록, 질문 추천부(130)는 본문의 언어 처리 결과에 따른, 형태소 또는 개체명 목록 등을 추가로 출력할 수도 있다.

질문 추천부(130)는 본문의 언어 처리 결과에 기초하여, 추천 질문을 생성할 수도 있다.

표 3은 질문 추천부(130)에서 추천 질문이 생성되는 예를 나타낸 것이다.

<언어 처리 결과 예시>
마인즈랩/NNP<ORG>, 대표/NNG, 유태준/NNP<PERSON>, 부산/NNG<LOC>, 열/VV...

<질문-정답 제작 예시>
1. 마인즈랩의 대표는 누구야? - 유태준

질문 추천부(130)는 질문의 중심이 될 수 있는 개체를 선택하고, 선택된 개체에 실질 형태소를 붙여 추천 질문을 생성할 수 있다. 표 3의 예시에서, NNP (고유 명사), NNG (일반 명사), VV (동사) 등은 형태소 분류 결과를 나타내고, ORG (기관), PERSON (인물), LOC (지명) 등은 개체명 인식 결과를 나타낸다. 도 3에서는, 개체명 '마인즈랩'에 실질 형태소 '대표'를 붙여 추천 질문을 생성하는 것으로 도시되었다.

질문 추천부(130)는 생성된 질문에 대한 정답을 자동으로 생성할 수도 있다. 일 예로, 표 3의 예에서는, 질문 및 이에 대한 정답이 자동으로 생성되는 것으로 예시되었다.

제작자는 입력부(110)를 통해 템플릿에 기초하여 생성한 질문을 입력하거나, 질문 추천부(130)에서 자동으로 생성된 질문을 취사 선택함으로써, 질의 응답 데이터를 입력할 수 있다.

제작자로부터 질의 응답 데이터가 입력되면(S204), 질의 응답 보정부(140)는 제작자에 의해 입력된 질의 응답에 대한 보충, 보정 또는 검증 등을 수행할 수 있다.

구체적으로, 질의 응답 보정부(140)는 제작자가 입력한 질문 또는 정답에 대한 본문 내 위치를 확인할 수 있다(S205). 구체적으로, 질의 응답 보정부(140)는, 제작자가 입력한 질문 또는 정답에 대한 실시간 언어처리를 수행하여, 질문 또는 정답의 본문 상 인덱스를 파악할 수 있다. 일 예로, 질의 응답 보정부(140)는, 질문 또는 정답에 포함된 실질 형태소를 가장 많이 포함된 문장을 질문 또는 정답과 관련된 문장으로 결정할 수 있다. 또는, 질의 응답 보정부(140)는, 문장 임베딩 또는 워드 임베딩 결과에 기초하여, 질문 또는 정답과 관련된 문장을 결정할 수도 있다.

질의 응답 보정부(140)는, 질문과 관련된 문장의 위치와 정답과 관련된 문장의 위치를 확인하고, 상기 문장들의 거리가 기 정의된 한계값 이상인지 여부를 판단할 수 있다(S206). 여기서, 기 정의된 한계값은, 문장간의 거리를 나타내는 것일 수 있다. 만약, 질문과 관련된 문장과 정답과 관련된 문장 사이의 거리가 기 정의된 한계값 이상인 경우라면, 질의 응답 보정부(140)는 입력된 질문-정답이 기계 학습에 적합하지 않은 데이터인 것으로 판단하고 오류 메시지를 출력할 수 있다(S207).

또는, 정답과 관련한 문장을 결정한 뒤, 정답과 관련한 문장 또는 정답과 관련한 문장에 인접한 문장에 입력된 질문의 실질 형태소가 일정 개수 또는 일정 비율 이상 포함되어 있지 않은 경우, 오류 메시지를 출력할 수도 있다. 반대로, 질문과 관련한 문장을 결정한 뒤, 질문과 관련된 문장 또는 질문과 관련한 문장에 인접한 문장에 정답의 실질 형태소가 일정 개수 또는 일정 비율 이상 포함되어 있지 않은 경우, 오류 메시지를 출력할 수도 있다.

일 예로, 표 4는 입력된 질문-정답에 대한 에러 메시지가 출력되는 예를 나타낸 것이다.

<질의 응답 예시>
Q : ITU 텔레콤월드 2017' 시상식에서 ITU 인증 우수 기업으로 선정된 기업이 제공하는 솔루션이 뭐야?
A : 인공지능 고객센터 솔루션

<시스템 에러 문구 예시>
- 질문 관련 문장과 정답이 <3> 문장 떨어져 있습니다.
- 정답 근처에 질문과 연관 있는 내용이 없습니다.
- 질문 관련 문장 근처에 정답과 연관 있는 내용이 없습니다.

질문 또는 정답과 관련된 문장의 위치는 제작자에 의해 정의될 수도 있다. 예컨대, 질문과 관련된 문장의 위치 및 정답과 관련된 문장의 위치를 모두 제작자가 지정하거나, 이중 어느 하나만을 제작자가 지정할 수도 있다. 정답과 관련된 문장의 위치가 지정되었으나, 입력된 정답이 본문 내 복수회 반복적으로 나타나고, 정답과 관련된 문장 중 질문과의 유사도가 더 높은 문장이 존재하는 경우, 질의 응답 보정부(140)는 질문과 의미적으로 유사한 문장으로, 정답의 위치를 보정할 수 있다.

일 예로, 도 4는 정답의 위치가 보정되는 예를 나타낸 도면이다. 언어 처리부(120)는 본문 문장을 분리하고, 각 문장에 대한 문장 임베딩(sentence embedding) 값을 산출할 수 있다. 질의 응답 보정부(140)는 질문의 문장 임베딩값과, 유사한 문장 임베딩 값을 갖는 순으로, 본문 문장을 순위화 할 수 있다. 이후, 정답과 관련된 문장 중, 제작자가 지정한 위치의 문장보다 질문과의 유사도가 더 높은 문장이 존재한다면, 질의 응답 보정부(140)는, 정답과 관련된 문장의 위치를 변경할 수 있다.

예컨대, 도 4에 도시된 예에서, 제작자에 의해 입력된 정답 '마인즈랩'이 본문 내 세번째 문장과 관련된 것으로 지정된 것으로 가정한다. 이때, 정답 '마인즈랩'을 포함하는 문장이 본문 내 첫번째 문장, 두번째 문장, 세번째 문장 및 네번째 문장 모두 정답 '마인즈랩'을 포함하는 경우, 질의 응답 보정부(140)는, 첫번째 내지 네번째 문장 중 입력된 질문과 가장 유사한 문장을 판단할 수 있다.

이중, 첫번째 문장이 질문과 가장 유사한 문장으로 판단되었다면, 질의 응답 보정부(140)는, 정답과 관련된 문장의 위치를 세번째에서 첫번째 문장으로 보정할 수 있다.

질의 응답 보정부(140)는 변경된 정답과 관련된 위치에 기초하여, 질문-정답 세트의 유효성을 판단할 수 있다.

질문-정답이 유효한 것으로 판단되면, 질의 응답 보정부(140)는, 입력된 질문-정답을 보충 또는 보정할 수 있다(S208). 구체적으로, 질의 응답 보정부(140)는, 입력된 질문에 대한 복수 정답 추천 또는 열거식 정답의 자동 보충 등을 수행하여, 입력된 정답을 보충할 수 있다.

표 5는 복수 정답이 추천되는 예를 나타낸 것이다.

<질의 응답 예시>
Q : 마인즈랩 뭘로 선정됐어?
A : ITU 인증 우수 기업

<시스템이 추천한 복수 정답>
A1 : ITU 인증 우수 기업(Recognition of Excellence Certificate)
A2 : 'ITU 텔레콤월드 2017' 시상식에서 ITU 인증 우수 기업(Recognition of Excellence Certificate)

입력된 정답에 개체명이 포함된 경우, 질의 응답 보정부(140)는, 본문 내 동일한 개체명이 포함된 다른 곳도 정답으로 추천할 수 있다.

질의 응답 보정부(140)는, 입력된 정답 뒤 괄호를 병기한 표현이 존재하는 경우, 입력된 정답과 괄호 병기 표현을 결합한 것을 복수 정답으로 추천할 수 있다 (표 5의 A1 참조).

질의 응답 보정부(140)는, 본문의 구문분석 결과를 기초로, 입력된 정답이 포함된 구 전체를 복수 정답으로 추천할 수 있다 (표 5의 A2 참조).

표 6은 열거식 정답이 자동 보충되는 예를 나타낸 것이다.

<질의 응답 예시>
Q : 마인즈랩이 공개한 솔루션 뭐 있어?
A : 마인즈 VOC, QC

<시스템이 추천한 정답>
A : 마인즈 VOC, QC, RS

입력된 정답이 쉼표, 슬래시 등의 문장 부호 등 열거식 특수문자를 포함하는 경우, 본문 내 입력된 정답과 일치하는 열거식 표현을 찾아 열거식에 포함된 요소 전체가 정답에 포함되도록 보충할 수 있다.

질의 응답 검증 및 보정과정을 거쳐, 최종적으로 기계 학습을 위한 질문-정답 데이터 셋이 완성되면, 완성된 데이터 셋을 기초로, MRC 질의 응답 모델에 대한 학습이 진행될 수 있다.

도 2에서는, 일련의 순서에 따라 MRC 질의 응답 모델을 위한 학습 데이터 생성이 이루어지는 것으로 도시되었으나, 본 발명이 도시된 순서에 한정되는 것은 아니다. 예컨대, 도 2에서는, 질문-정답의 검증 이후, 정답에 대한 보충이 이루어지는 것으로 설명하였으나, 각각의 프로세스가 병렬적으로 처리되거나, 각각의 프로세스가 순서의 제약 없이 수행될 수도 있다. 또한, 도 2에 도시된 모든 단계가 본 발명의 실시에 필수적인 것은 아니어서, 도시된 단계 중 일부를 생략하여 본 발명을 구현할 수도 있다.

다음으로, 학습된 MRC 질의 응답 모델에 기반한 질의 응답 시스템에 대해 살펴보기로 한다.

도 5는 본 발명에 따른 질의 응답 시스템을 도시한 도면이다.

본문, 해당 본문과 관련된 질문-정답 등의 데이터 셋을 통한 기계 학습이 이루어지면, 학습된 데이터를 바탕으로, 질의 응답 시스템은 신규 본문 또는 신규 질문에 대한 답변을 생성할 수 있다. 구체적으로, 기계 학습을 통해 특정 질문에 대한 응답의 시작 위치/끝 위치 등을 학습함으로써, 신규 본문 또는 신규 질문에 대해서도 적절한 답변을 생성하는 것이 가능하다.

MRC에 기반한 질의 응답 시스템(200)은, 도 5에 도시된 예에서와 같이, 입력부(210), 언어 처리부(220), 정답 예측부(230), 정답 보정부(240) 및 출력부(250)를 포함할 수 있다.

입력부(210)는, 본문 또는 질문을 입력받는 역할을 수행한다. 본문 또는 질문의 입력은 텍스트의 형태일 수도 있고, 음성 형태일 수도 있다. 또는, 화상 처리를 통한 텍스트 형태의 입력도 가능하다. 음성 형태 또는 화상 형태의 본문 또는 질문을 입력받기 위해, 입력부(210)는, STT (Speech to Text) 또는 화상 처리 등을 위한 구성을 포함할 수도 있다.

언어 처리부(220)는 입력된 본문 또는 질문에 대한 언어 처리를 수행한다. 언어 처리부(220)의 동작은 앞서 도 1을 통해 설명한 학습 데이터 시스템과 유사하므로, 이에 대한 상세한 설명은 생략하기로 한다.

정답 예측부(230)는, 학습된 MRC 모델을 이용하여, 본문으로부터 입력된 질문에 대한 정답을 예측할 수 있다. 구체적으로, 정답 예측부(230)는 입력된 본문 내 입력된 질문에 대한 정답 부분을 예측하고, 이를 추출할 수 있다.

정답 보정부(240)는, 정답 예측부(230)에서 예측한 정답이 오답 유형에 해당하는지 검증하고, 검증 결과에 따라, 정답을 보정한다. 정답 보정부(240)에 대한 상세 동작은 도 6을 통해 설명하기로 한다.

출력부(250)는, 보정된 정답을 출력한다. 정답의 출력은 텍스트 형태로 이루어질 수도 있고, 음성 형태로 이루어질 수도 있다. 정답을 음성 형태로 출력하기 위해, 출력부(250)는, TTS (Text to Speech) 등 음성 합성을 위한 구성을 포함할 수도 있다.

도 6은 본 발명에 따른, 정답 보정부의 동작을 설명하기 위한 도면이다.

학습된 MRC 모델에 기초하여 정답을 생성한다 하더라도, 신규 본문 또는 신규 질문에 대해 완벽한 정답을 출력하기는 어렵다. 특히, 정답 추출 과정에서 입력된 질문에 포함된 단어들이 배제되는 경우가 빈번하기 때문에, 불완전 문장 또는 불완전 어구의 정답이 빈번하게 출력될 염려가 있다. 이에, 정답 보정부(240)는, 정답 예측부(230)에서 추출한 불완전 문장 또는 불완전 어구를 보완하는 역할을 수행할 수 있다.

도 6을 참조하면, 정답 보정부(240)는, 정답 예측부(230)에서 추출한 정답을 대상으로, 어휘 의미망에 기초한 보정, 구분 분석에 기초한 보정 또는 형태소 분석에 기초한 보정 중 적어도 하나를 수행할 수 있다. 이때, 예측된 정답을 보정할 것인지 여부는, 예측된 정답의 길이, 예측된 정답에 포함된 종결어의 품사 또는 예측된 정답이 서술형인지 여부 등에 기초하여 결정될 수 있다. 예컨대, 정답 보정부(240)는 예측된 정답이 N개 이하의 어절로 구성되었는지 여부, 종결어의 품사가 명사인지 여부 또는 예측된 정답의 종결 어미가 서술형인지 여부 등에 기초하여, 예측된 정답을 보정할 것인지 여부를 결정할 수 있다.

이때, 상기 보정 형태에는 우선 순위가 설정될 수 있다. 정답 보정부(240)는 설정된 우선순위에 따른 보정 방법을 순차적으로 적용하여, 추출된 정답을 보정할 수 있다.

또는, 정답 보정부(240)는 질문의 속성 또는 정답의 속성 중 적어도 하나에 기초하여, 복수의 보정 방법 중 적어도 하나를 선택하여 예측된 정답을 보정할 수도 있다. 여기서, 질문의 속성은 질문의 길이, 질문에 개체명이 포함되는지 여부 또는 질문에 사용된 의문사의 종류 등을 포함하고, 정답의 속성은 정답의 길이, 정답에 개체명이 포함되는지 여부 또는 종결어의 품사 등을 포함할 수 있다. 예컨대, 질문 또는 정답에 개체명이 포함된 경우, 정답 보정부(240)는 어휘 의미망에 기초한 정답 보정을 수행하고, 질문 또는 정답에 개체명이 포함되어 있지 않은 경우, 정답 보정부(240)는 구문 분석 또는 형태소 분석에 기반한 정답 보정을 수행할 수 있다.

표 7은 정답 보정부(240)에서의 정답 보정이 이루어지는 것을 예시한 도면이다.

<입력된 질문>
Q : 마인즈랩은 어떤 기업이야?

<본문 중 정답을 추출할 부분>
마인즈랩은 인공지는 플랫폼을 만드는 회사로 현재…

<모델이 예측한 정답>
마인즈랩은 인공지능 플랫폼을 만드는

<보정된 정답>
마인즈랩은 인공지는 플랫폼을 만드는 회사

어휘 의미망에 기초한 보정은, 정답을 포함하는 문장에서, 질문에 포함된 실질 형태소와 의미적 유사도가 일정 수준인 단어가 정답과 인접한 위치에 있는 경우, 정답의 시작 또는 종료 위치를 해당 부분까지 확장함으로써 수행될 수 있다. 이에 따라, 질문에 포함된 실질 형태소와 의미적 유사도가 일정 수준인 단어가 정답에 추가될 수 있다. 일 예로, 상기 표 7의 예에서와 같이, 질문에 '기업'이라는 실질 형태소가 포함되어 있고, 예측된 정답을 포함하는 본문 내용 중 정답에 해당하는 부분 뒤로, '기업'과 유사한 '회사'라는 단어가 존재하므로, 정답 보정부(240)는 본문 정답의 종료 위치를 '만드는'에서 '회사'로 변경할 수 있다. 이때, 단어간 유사 여부는, 워드 임베딩에 기초하여 판단될 수도 있고, 유의어 사전 등을 통해 판단될 수도 있다.

구문 분석에 기초한 보정은, 정답을 포함하는 문장에서, 정답에 인접한 단어가 같은 구에 속하는지 여부를 판단하여, 정답의 시작 또는 종료 위치를 정답과 동일한 구문에 포함하는 부분까지 확장함으로써 수행될 수 있다. 일 예로, 상기 표 7의 예에서와 같이, 질문의 종결어인 '만드는'과 이에 인접한 단어인 '회사'는 동일한 구에 속하므로, 정답 보정부(240)는 정답의 종료 위치를 '만드는'에서 '회사'로 변경할 수 있다.

형태소 분석에 기초한 보정은, 예측된 정답의 마지막 단어의 품사가 명사가 아닌 경우, 문장 내 정답 이후의 부분에서 가장 처음으로 발견되는 명사까지 정답의 종료 위치를 변경하는 방법이다. 상기 표 7의 예에서와 같이, 질문의 종결어에 해당하는 '만드는'의 품사는 동사이므로, 정답 보정부(240)는 '만드는' 이후 최초로 발견되는 명사인 '회사'까지 정답의 종료 위치를 확장할 수 있다.

이상, 도 1 내지 도 6을 통해 설명한 설명한 학습 데이터 생성 시스템 및 질의 응답 시스템의 구성 및 이들의 동작 순서는 도시된 예에 한정되지 않는다. 일 예로, 도시된 시스템 또는 단계 중 일부가 생략된 채 본 발명이 수행되거나, 도시되지 않은 구성요소를 추가하여 본 발명이 수행될 수도 있다.

또한, 본 발명에 따른 학습 데이터 생성 시스템 및 질의 응답 시스템은, 서두에 언급한 바와 같이, 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현될 수 있다. 예컨대, 상기 시스템들은, 디지털 연산이 가능한 컴퓨팅 디바이스들(예컨대, PC, 스마트폰, PDA, 태블릿 PC, 서버 등)에 의해 구현될 수 있다. 아울러, 이들 컴퓨팅 디바이스들을 구성하는 소프트웨어 또는 하드웨어 중 적어도 하나를 기초로, 상기 시스템을 구현할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

100 : 학습 데이터 생성 시스템
200 : 질의 응답 시스템

Claims

학습하고자 하는 본문에 대한 언어 처리를 수행하는 단계;
상기 본문과 관련된 질문 및 정답 세트를 수신하는 단계;
상기 본문 내 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치를 특정하는 단계; 및
상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치 차이가 기 설정된 값 이상인지 여부를 기초로, 상기 질문 및 정답 세트의 유효성을 검증하는 단계를 포함하는, 학습 데이터 생성 방법.
제1 항에 있어서,
상기 본문에 포함된 문장 중 상기 질문에 포함된 실질 형태소를 가장 많이 포함하는 문장이 상기 질문과 관련된 문장으로 결정되는 것을 특징으로 하는, 학습 데이터 생성 방법.
제1 항에 있어서,
상기 질문 및 정답 세트가 유효한 것으로 판단되는 경우, 상기 정답과 관련된 문장의 위치는, 상기 정답을 포함하는 문장들 중 상기 질문과 유사도가 가장 높은 것으로 결정되는 것을 특징으로 하는, 학습 데이터 생성 방법.
제1 항에 있어서,
상기 질문 및 정답 세트가 유효한 것으로 판단되는 경우, 상기 본문 내용 중에서 상기 질문에 대한 추가 정답을 추출하는 단계를 더 포함하는, 학습 데이터 생성 방법.
제4 항에 있어서,
상기 추가 정답은, 상기 본문 내 상기 정답을 포함하는 문장에서, 상기 정답에 인접한 괄호 표현과 상기 정답을 결합함으로써 생성되는 것을 특징으로 하는, 학습 데이터 생성 방법.
제4 항에 있어서,
상기 본문 내 상기 정답을 포함하는 문장에서, 상기 정답이 포함된 구 전체가 상기 추가 정답으로 생성되는 것을 특징으로 하는, 학습 데이터 생성 방법.
제1 항에 있어서,
상기 질문 및 정답 세트가 유효한 것으로 판단되고, 상기 정답이 상기 본문 중 열거형으로 표현된 요소들 중 일부만을 포함하는 경우, 상기 열거형으로 표현된 요소들 모두를 포함하도록 상기 정답이 보정되는 것을 특징으로 하는, 학습 데이터 생성 방법.
학습하고자 하는 본문에 대한 언어 처리를 수행하는 언어 처리부;
상기 본문과 관련된 질문 및 정답 세트를 수신하는 입력부; 및
상기 본문 내 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치를 특정하고, 상기 질문과 관련된 문장의 위치 및 상기 정답과 관련된 문장의 위치 차이가 기 설정된 값 이상인지 여부를 기초로, 상기 질문 및 정답 세트의 유효성을 검증하는 질의 응답 보정부를 포함하는, 학습 데이터 생성 시스템.
본문을 입력받는 단계;
상기 본문에 대한 언어 처리를 수행하는 단계;
상기 본문과 관련된 질문을 입력받는 단계;
상기 본문을 기초로 상기 질문에 대한 정답을 예측하는 단계; 및
상기 정답을 보정하는 단계를 포함하는, 기계 독해에 기반한 질의 응답 방법.
제9 항에 있어서,
상기 예측된 정답을 포함하는 문장을 전후하여, 상기 질문에 포함된 실질 형태소와 의미적 유사도가 일정 수준 이상인 단어가 포함되는 경우, 상기 단어를 추가함으로써 상기 보정이 수행되는 것을 특징으로 하는, 기계 독해에 기반한 질의 응답 방법.
제9 항에 있어서,
상기 예측된 정답을 포함하는 문장을 전후하여, 상기 예측된 정답과 인접한 단어가 동일한 구를 형성하는 경우, 상기 인접 단어를 추가함으로써 상기 보정이 수행되는 것을 특징으로 하는, 기계 독해에 기반한 질의 응답 방법.
제9 항에 있어서,
상기 예측된 정답이 명사로 종결되지 않는 경우, 상기 보정은, 상기 예측된 정답을 포함하는 문장에서 상기 예측된 정답 이후 처음으로 명사가 발견되는 지점 까지 상기 정답의 위치를 변경함으로써 수행되는 것을 특징으로 하는, 기계 독해에 기반한 질의 응답 방법.
제9 항에 있어서,
상기 예측된 정답을 보정할 것인지 여부는, 상기 예측된 정답의 길이, 상기 예측된 정답의 종결어가 명사인지 여부 또는 상기 예측된 정답의 종결어미가 서술형인지 여부에 따라 결정되는 것을 특징으로 하는, 기계 독해에 기반한 질의 응답 방법.
본문 및 질문을 입력받는 입력부;
상기 본문에 대한 언어 처리를 수행하는 언어 처리부;
상기 본문을 기초로 상기 질문에 대한 정답을 예측하는 정답 예측부; 및
상기 예측된 정답을 보정하는 정답 보정부를 포함하는, 기계 독해에 기반한 질의 응답 시스템.