KR20220060780A

KR20220060780A - 언어학습을 위한 지식 기반 대화 시스템 및 방법

Info

Publication number: KR20220060780A
Application number: KR1020200146762A
Authority: KR
Inventors: 황금하
Original assignee: 한국전자통신연구원
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-05-12
Also published as: US20220139248A1; US11989524B2; KR102654480B1

Abstract

본 발명은 언어학습을 위한 대화 기술 및 텍스트 이해기반 대화 기술에서 대화 코퍼스 구축이 어렵고 시스템 발화의 정확도 보장과 사용자 발화에 대한 평가가 어려운 문제를 해결하기 위한 것이다. 본 발명에 따르면, 언어 교육 및 학습 현장에서 많이 사용하는 독해 지문과 연습문제를 활용하여 언어학습 대화 코퍼스를 구축하고, 이 언어학습 대화 코퍼스로 대화 모델과 대화평가 모델을 학습시켜, 주어진 독해 지문을 기반으로 사용자와 시스템 간에 대화를 진행하도록 하여, 학습자의 언어 학습을 도와주는 시스템 및 방법이 제공된다. 본 발명을 통하여 평가 가능하고 도메인 확장(학습 컨텐츠 확장)이 용이한, 언어학습을 위한 대화 시스템이 가능해질 것으로 기대된다.

Description

언어학습을 위한 지식 기반 대화 시스템 및 방법 {Knowledge based dialogue system and method for language learning}

본 발명은 언어학습 또는 언어교육을 위한 대화 기술에 관한 것으로, 더 상세하게는, 언어학습 대화 코퍼스를 기계학습하여 언어학습자가 대화를 통해 언어학습을 하도록 하는 시스템 및 방법에 관한 것이다.

본 발명의 주요 배경기술로 '언어교육을 위한 대화' 기술과 '텍스트 이해기반 대화' 기술이 있고, 이들에 관련된 것으로 '질의 응답' 기술이 있다.

언어교육을 위한 대화 기술은 시스템이 학습자와의 대화를 통해 학습자의 언어 능력이 향상되도록 돕는 기술이다. 이 경우, 주어진 대화 시나리오를 따라 대화가 진행되어야 하는데, 다만 발화의 순서나 표현 등에서 일정한 자유가 허락된다. 예를 들면 피자를 주문하는 대화에서 피자 선택 후 음료를 주문할 수도 있고 피자와 음료를 동시에 주문할 수도 있다. 이런 종래의 대화시스템의 대화 시나리오(대화맵이라고도 함)는 구축 난이도가 높으며, 특히 언어교육을 위한 대화 시나리오 구축을 위해서는 언어교육과 대화 시나리오 구축 모두를 잘 이해하고 있는 전문인력의 투입이 필요하였다. 자유대화 기술, 즉 챗봇의 경우에는 발화의 적절성과 정확성에 문제가 있고 다양한 주제에 대한 심도 있는 발화가 불가능하기에 이 또한 언어교육 분야의 활용에 적절하지 않았다.

텍스트 이해기반 대화 기술은 주어진 텍스트에 관하여 사람과 기계의 대화를 가능케 하는 기술로, 시스템이 텍스트와 해당 텍스트에 관한 대화를 포함한 코퍼스를 학습한 다음에 주어진 텍스트 및 주제에 관하여 사용자와 대화하는 기술이다. 이 기술을 특정 분야에 활용하기 위해서는 텍스트를 포함한 대화 코퍼스의 구축 그리고 시스템 대화의 정확도 평가가 중요한 문제가 되며, 특히 언어교육에 사용하기 위해서는 사용자 발화에 대한 평가도 해결해야 할 문제이다. 이와 같이 종래의 텍스트이해 기반 대화 기술 정확도 평가가 불가능하여 언어교육에서의 활용에 한계를 가지고 있었다.

한편, 상기 두 기술에 관련된 질의 응답 기술은, 텍스트와 해당 텍스트에 관련된 질문이 주어지면 질문과 관련된 텍스트를 찾은 다음에 해당 텍스트에서 정답을 인식하여 사용자에게 출력해 주는 기술이다. 일반적으로 말하는 전문가 시스템이 이런 질의 응답 기술의 활용 예이다.

본 발명의 목적은 언어학습을 위한 대화 기술 및 텍스트 이해기반 대화 기술에서 대화 코퍼스 구축이 어렵고 시스템 발화의 정확도 보장과 사용자 발화에 대한 평가가 어려운 문제를 해결하기 위한 것이다. 본 발명을 통하여 평가 가능하고 도메인 확장(학습 컨텐츠 확장)이 용이한, 언어학습을 위한 대화 시스템이 가능해질 것으로 기대된다.

본 발명은 상기 과제를 해결하기 위하여, 언어 교육 및 학습 현장에서 많이 사용하는 독해 지문과 연습문제를 활용하여 언어학습 대화 코퍼스를 구축하고, 이 언어학습 대화 코퍼스로 대화 모델과 대화평가 모델을 학습시켜(training), 주어진 독해 지문을 기반으로 사용자와 시스템 간에 대화를 진행하도록 하여, 학습자의 언어 학습을 도와주는 시스템 및 방법을 제공한다.

구체적으로, 본 발명의 한 측면에 따르면, 언어학습용 독해 지문 및 연습문제- 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 언어학습 대화 코퍼스를 생성하는 대화 코퍼스 생성부; 상기 생성된 언어학습 대화 코퍼스로부터 대화 모델을 학습시키는 텍스트 이해기반 대화 모델 학습부; 상기 생성된 언어학습 대화 코퍼스로부터 대화평가 모델을 학습시키는 대화평가 모델 학습부; 영어학습용 독해 지문, 지문 관련 연습문제, 및 대화문맥을 입력으로 받아, 학습된 상기 대화평가 모델을 이용하여 최근 발화를 평가하는 대화 평가부; 및 상기 독해 지문, 지문 관련 연습문제, 대화문맥, 및 상기 대화평가부의 평가결과를 입력으로 받아 시스템 발화를 생성하는 대화 생성부를 포함하는 언어학습을 위한 지식 기반 대화 시스템이 제공된다.

또한 본 발명의 다른 측면에 따르면, 언어학습용 독해 지문 및 연습문제- 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 언어학습 대화 코퍼스를 생성하고; 상기 생성된 언어학습 대화 코퍼스로부터 대화 모델을 학습시키고; 상기 생성된 언어학습 대화 코퍼스로부터 대화평가 모델을 학습시키고; 영어학습용 독해 지문, 지문 관련 연습문제, 및 대화문맥을 입력으로 받아, 학습된 상기 대화평가 모델을 이용하여 최근 발화를 평가하고; 상기 독해 지문, 지문 관련 연습문제, 대화문맥, 및 상기 대화평가부의 평가결과를 입력으로 받아 시스템 발화를 생성하는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법이 제공된다.

또한 본 발명의 또다른 측면에 따르면, 언어학습용 독해 지문 및 연습문제- 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 생성된 대화 코퍼스로서, 상기 언어학습 독해 데이터에 포함된 질문으로부터변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보 중 어느 하나로부터 변환되어 생성된 학생발화를 포함하는 언어학습을 위한 지식 기반 대화 코퍼스가 제공된다.

본 발명의 구성 및 작용은 이후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.

본 발명은 언어교육용 대화시스템에서 대화 시나리오 구축의 어려움을 극복하기 위하여, 독해 연습문제를 이용하여 정답을 가진 언어학습 대화 코퍼스를 자동으로 생성함으로써, 종래의 언어교육용 대화 시스템에서 언어교육을 위한 대화데이터를 구축하는 데 많은 전문인력을 투입하고 많은 시간을 소요해야 하는 문제를 해결할 수 있게 된다. 본 발명을 이용하면 언어 독해문제를 보유하고 있는 교육업체들이 언어학습 대화 코퍼스를 쉽게 구축할 수 있게 되어, 대화시스템을 이용한 언어교육서비스가 크게 확대될 것이다.

또한 종래의 텍스트이해 기반 대화 기술을 포함한 자유 대화 기술은 정확도 평가가 불가능하여 언어교육에서의 활용에 한계를 가지고 있었다. 이에 본 발명에서는 독해 연습문제를 포함한 언어학습 대화 코퍼스를 설계하였고, 정답을 가진 이 언어학습 대화 코퍼스를 이용하여 학생발화에 대한 평가가 가능해져 딥러닝 기반 대화 기술을 언어교육에서 활용할 수 있게 된다.

아울러, 종래의 텍스트이해기반 대화 기술은 텍스트 지식과 대화문맥 정보만 이용하여 근거지식을 찾고 대화를 생성하는 반면, 본 발명에서는 언어학습 대화 코퍼스의 연습문제를 활용하여 보다 정확한 근거문장 검색과 시스템 발화 생성이 가능해진다.

도 1은 본 발명에 따른 언어학습 대화 시스템의 구성도이다.
도 2는 언어학습 독해 데이터(R100)의 예시도이다.
도 3은 대화 코퍼스 생성부(100)의 구성도이다.
도 4는 도 1의 언어학습 대화 코퍼스(R200)의 한 가지 예시도이다.
도 5는 도 1의 언어학습 대화 코퍼스(R200)의 다른 예시도이다.
도 6은 텍스트이해기반 대화모델 학습부(200)의 한 가지 예시도이다.
도 7은 텍스트이해기반 대화모델 학습부(200)의 다른 예시도이다.
도 8은 대화평가모델 학습부(300)의 예시도이다.

본 발명의 이점 및 특징, 그리고 이들을 달성하는 방법은 이하 첨부된 도면과 함께 상세하게 기술된 바람직한 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에 기술된 실시예에 한정되는 것이 아니라 다양한 다른 형태로 구현될 수 있다. 실시예는 단지 본 발명을 완전하게 개시하며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐, 본 발명은 청구항의 기재 내용에 의해 정의되는 것이다. 또한, 본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것이 아니다. 본 명세서에서, 단수형은 특별히 언급하지 않는 한 복수형도 포함한다. 또한 명세서에 사용된 '포함한다(comprise, comprising 등)'라는 용어는 언급된 구성요소, 단계, 동작, 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작, 및/또는 소자의 존재 또는 추가를 배제하지 않는 의미로 사용된 것이다.

이하, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세히 설명한다. 실시예의 설명에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명을 생략한다. 또한 이하의 설명에서는 서술의 편의를 위하여 모든 예시에서 영어를 학습 대상 언어로 가정하지만, 본 발명은 특정 언어와 무관하게 모든 언어의 교육 및 학습에서 활용 가능하다.

본 발명의 실시예를 설명하기 전에, 이해의 편의를 위하여 다음과 같이 개념 정의를 한다: 본 발명에서 '대화문맥'이라 함은 주어진 지문에 관하여 사용자와 시스템 간에 진행된 대화의 일부 또는 전부를 뜻하며, '최근 발화'라 함은 시스템이 입력으로 받은 가장 최근에 한 발화를 뜻한다.

본 발명에 따른 언어학습(language learning)을 위한 지식 기반 대화 시스템은 도 1과 같이 구성된다. 도 1의 언어학습 대화 시스템은, 언어학습 독해 데이터(R100)으로부터 언어학습 대화 코퍼스(R200)를 생성하는 대화 코퍼스 생성부(100); 생성된 언어학습 대화 코퍼스(R200)로부터 대화 모델(R300)을 학습시키는(train) 텍스트 이해기반 대화 모델 학습부(train)(200); 상기 생성된 언어학습 대화 코퍼스(R200)로부터 대화평가 모델(R400)을 학습시키는 대화평가모델 학습부(train)(300); 독해 지문(T100), 지문 관련 연습문제(T200), 및 최근 발화를 포함한 대화문맥(T300)을 입력으로 받아, 학습된(trained) 상기 대화평가 모델(R400)에 기반하여 최근 발화를 평가하는 대화 평가부(400); 독해 지문(T100), 지문 관련 연습문제(T200), 대화문맥(T300), 및 대화평가부(400)의 평가결과를 입력으로 받아 시스템 발화(T400)를 생성하는 대화 생성부(500)를 포함한다.

도 2는 언어학습 독해 데이터(R100)의 예시도이다.

상기 언어학습을 위한 지식 기반 대화 시스템(도 1)에서, 언어학습 독해 데이터(R100)는 통상의 언어학습 및 교육용 독해 지문과 연습문제로 구성되는데, 하나의 지문은 1개 이상의 질문, 정답후보, 및 정답 중 적어도 하나를 포함한 연습문제를 가지고 있다. 따라서 언어학습 독해 데이터(R100)에는 도 2와 같이 지문(R101), 질문(R102), 정답후보(R103), 그리고 정답(R104) 중 적어도 하나가 포함된다. 여기서, '독해'는 언어학습 분야에서 활용되는 Reading and Comprehension('읽기'라고도 함)을 의미한다.

도 2에 나타낸 것은 단지 언어학습 독해 데이터(R100)의 한 가지 예시로, 독해 데이터의 연습문제는 다양한 포맷을 가질 수 있다. 일 예로, 정답후보(R103) 없이 질문(R102)과 정답(R104)만으로 구성될 수도 있고, 정답(R104)이 "My aunt"와 같이 텍스트로 표현될 수도 있다.

도 3은 대화 코퍼스 생성부(100)의 구성도이다. 대화 코퍼스 생성부(100)는 근거문장 검색부(101)와 대화 변환부(102)로 구성된다.

근거문장 검색부(101)는 도 2에 나타낸 독해 데이터(R100)의 질문(R102)과 정답(R104)을 참조하여, 주어진 지문(R101)에서 해당 정답(R104)의 근거 문장을 찾는다.

대화 변환부(102)는 언어학습 독해 데이터(R100)으로부터의 질문(R102)과 정답(R103)을, 언어학습 대화 코퍼스(R200)를 위한 대화로 변환한다. 예를 들어, 도 2에서와 같이 빈칸(blank)을 가진 질문(R102)을 의문문으로 변환하고, 정답(R104)이 단어나 구인 경우 이를 그대로 응답문으로 채택하거나 완전한 응답 문장으로 변환해 준다. 예제를 들자면, 도 2에 나타낸 "[질문(R102)] _ likes to grow flowers."를 "Who likes to grow flowers?"라는 의문문으로 변환하고, "[정답(R104)] My aunt"를 "My aunt likes to grow flowers."라는 응답 문장으로 변환한다.

질문(R102)을 대화를 위한 발화 문장으로 변환하는 방법의 한 예시로, 정답(R104)이 단어나 구인 경우 그 유형을 개수, 시간, 장소, 인물 등(정답의 이들 유형은 다만 예시일 뿐 다양하게 정의할 수 있다)으로 분류하고, 문장인 경우 해당 문장이 원인에 대한 것인지 방법에 대한 것인지 분류한 다음, 이를 참고하여 질문(R102)을 How, When, Where, Who, Which, Why 등 형태의 의문문으로 변환할 수 있다. 어떠한 형태의 의문문으로 변환해야 할지 정하는 방법으로는, 규칙기반 방법 또는 학습기반 방법 등을 다양하게 사용할 수 있다. 한편, 정답(R104)을 대화를 위한 발화 문장으로 변환하는 경우에는, 정답(R104)을 그대로 채택하여 짧은 응답문으로 사용할 수도 있지만(예: 정답이 "My aunt"인 경우, 응답문도 "My aunt."로 하거나, "The answer is 'my aunt'"로 한다), 정답(R104)을 질문(R102)의 빈칸에 대입하여 완전한 문장으로 변환하는 규칙기반 또는 패턴 기반 방법을 사용하거나(예: 질문이 "_ likes to grow flowers."이고, 정답이 "My aunt"인 경우, 응답문에서는 질문을 패턴으로 간주하고, 정답을 질문의 빈칸에 대입하여 "My aunt likes to grow flowers."로 응답문을 생성한다), 충분한 학습 데이터가 있는 경우 학습기반 방법으로 생성할 수도 있다(예: 질문과 정답을 입력으로, 응답문을 출력문으로 한 seq2seq(sequence-to-sequence) 기반 딥러닝 방법 등이 가능하다). 또한 상기 규칙기반 또는 패턴 기반 방법을 사용하여 완전한 응답 문장을 구성한 다음 패러프레이징(paraphrasing) 기법으로 다양한 응답 발화문장을 생성할 수도 있다.

대화 코퍼스 생성부(100)의 상기 근거문장 검색부(101)와 대화 변환부(102)는 다양한 방법으로 구현할 수 있다. 가능한 구현 형태로, 근거문장 검색부(101)에서는 전통적인 정보 검색 기법 또는 학습기반 분류기법을 이용하여 질문(R102) 및 정답(R104)과 유사도를 갖는 근거문장을 검색할 수 있다. 이러한 근거문장 검색을 위해서 유사 문장을 계산해야 하는데, 유사 문장의 계산을 위하여 단어 기반 유사도 계산 방법, 단어 벡터 또는 문장 벡터기반 유사도 계산방법 등 다양한 방법을 사용할 수 있다. 또한 대화 변환부(102)에서는, 학습 가능한 충분한 데이터가 있는 경우에는 기계학습 기반 생성 방법으로 정답(R104)을 참고하여 질문(R102)으로부터 질문형 대화를 위한 의문문을 생성(변환)할 수 있고, 학습 가능한 데이터가 없는 경우에는 패턴 기반 또는 규칙 기반 방법을 사용하여 의문문을 생성하되 이를 위하여 형태소 분석과 구문분석 등 분석 도구를 활용할 수 있다.

예를 들어, 상기 기계학습 기반 방법의 경우, 정답(R104)과 질문(R102)을 예문 데이터로 사용하고, 질의 유형 "who, when, where, what, why, how"를 분류 카테고리로 하여 질문 생성 문제를 분류 문제로 간주하여 질의 유형을 분류한 다음, 질의 유형 단어(상기 "who, when" 등)를 질문(R102)의 빈칸에 대입하여 의문문을 생성할 수 있다. 또한 대용량 선행학습 언어모델을 사용할 경우에는, 정답(R104)과 질문(R102)을 입력 데이터로 사용하고 생성된 의문문장을 출력 데이터로 사용하여 선행학습 언어모델을 미세 조정(fine tuning)함으로써 의문문 생성 모델을 학습시킬 수 있다. 또한 패턴 또는 규칙 기반 방법을 사용할 경우에는, 질문(R102)과 정답(R104)에 대한 분석을 통해 정답이 사람이면 "who", 시간이면 "when", 장소이면 "where", 사물이면 "what"으로 질의 유형을 분류할 수 있고, 기타 유형인 경우, 질문(R102)의 유형이 원인에 대한 것인지 방법에 대한 것인지 분석하여 "why" 또는 "how"로 질의 유형을 분류할 수 있다. 이런 분석에서는 형태소 분석, 구문분석, 의미 분석, 개체명 분석 등 다양한 방법을 사용할 수 있다.

추가적 실시형태로, 상기 대화 변환부(102)는 실제 언어교육 및 학습 상황과 유사하게 대화를 구성하기 위하여 정답(R104)과 함께 정답후보(R103)를 참고하여 오답 발화를 변환 및 생성할 수 있다. 이러한 경우, 대화 변환부(102)는 추가로 질문(R102)과 함께 근거문장 검색부(101)에서 검색한 근거문장을 참고하여 정답 유도를 위한 발화(정답 유도 발화)를 생성하고(예를 들면, 도4에서 질문 "_ likes to grow flowsers."에 대한 정답 "My aunt" 대신에, 학생이 대답을 못하거나 오답 "My mom"이라고 응답한 경우, 시스템은 지문에 있는 근거문장 "My aunt loves flowers. And she likes to grow flowers."를 참고하여, 정답 유도 발화 "Read the text, it says, who loves flowers and likes to grow flowers. So the answer is?"라는 문장을 생성할 수 있음), 추가로, 이 정답 유도 발화에 대한 응답에 대해, 정답 후보(R103)를 참고하여 정답 발화를 생성할 수 있다.

도 4는 도 1의 언어학습 대화 코퍼스(R200)의 한 가지 예시도이다.

상기 대화 코퍼스 생성부(100)에 의하여 변환 및 생성된 언어학습 대화 코퍼스(R200)의 예시는 도 4와 같이, 지문(R201), 질문(R202), 정답후보(R203), 정답(R204), 근거문장(R205), 교사발화(R206), 및 학생발화(R207)로 구성될 수 있다. 여기서, 정답후보(R203)는 필수적 구성요소가 아니며 필요에 따라 선택적으로 포함될 수 있음은 앞에서 언급한 것과 같다.

도 4의 언어학습 대화 코퍼스(R200)에 포함되는 지문(R201), 질문(R202), 정답후보(R203), 정답(R204)은 상기 도 2의 경우와 같으나 다만 텍스트의 앞에 (또는 앞과 뒤에) 구분표시를 추가하여 학습시 서로 구별되게 한다. (예를 들어, 도 4에서 시스템 발화의 경우 해당 텍스트 앞에 구분표시 “[교사발화]”를 사용할 수 있다. 만일 해당 텍스트의 앞뒤에 구분표시를 추가할 경우에는, 앞에 “[교사발화]”를 사용하고 뒤에 “[/교사발화]”를 사용할 수 있다. 본 구분표시는 단지 예시로, 실제 활용에서는 데이터 처리가 용이하도록 “[TEU]” 등의 기호를 사용하는 것도 가능하다.)

여기에서 교사발화(R206)와 학생발화(R207)는 직관적인 이해를 위해 사용한 용어로, 교사발화는 “질의발화”(또는 “질의 및 피드백 발화”), 학생발화는 “응답발화”(또는 “정답 또는 응답 제공 발화”)를 뜻한다. 실제 사용에서는 시스템이 질문하고 사용자가 응답하거나, 사용자가 질문하고(예: “Who likes to grow flowers?”, 또는 “I don't know who likes to grow flowers.”) 시스템이 정답을 알려주는 등 다양하게 활용할 수 있다. 즉, 시스템은 사용자의 발화에 따라 응답발화를 생성할 수도 있고 질의발화를 생성할 수도 있다. 다만, 실제 사용에서 시스템을 “교사발화”(즉, “질의발화”, 또는 “질문 및 피드백 발화)”만 생성하도록 제한하여 학습시킬 수 있는데 이는 본 발명에서 설명하는 시스템을 “교사 모델”(또는 “질의모델”)로만 사용하고자 하는 경우이고; 또 다른 실시예로 시스템을 “학생발화”(즉, “응답발화”, 또는 “정답 또는 응답 제공 발화”)”만 생성하도록 학습시키는 경우, 이는 본 발명에서 설명하는 시스템을 “학생 모델”(또는 “응답 모델”)로만 사용하고자 하는 경우이다. 시스템 발화를 특정 유형으로 제한하지 않고 모델을 학습시키는 경우 이를 “범용 모델”로 칭한다.

다시 도 4로 돌아가, 근거문장(R205)은 상기 대화 코퍼스 생성부(100)(구체적으로는, 도 3의 근거문장 검색부(101))의 결과물이다. 교사발화(R206)는 도 2의 질문(R102)으로부터 변환되어 생성된 것이다. 학생발화(R207)는 도 2의 정답(R104) 및/또는 정답후보(R103)로부터 변환되어 생성된다. 이들 변환 및 생성된 교사발화(R206)와 학생발화(R207)는 한 쌍의 발화(대화 턴)를 이룬다. 각 대화 턴은 하나 이상의 근거문장(R205)을 가지며, 턴들이 모여서 대화문맥을 이루게 된다(대화문맥의 활용에 대해서는 후술함). 교사발화(R206)와 학생발화(R207)를 생성하기 위하여 상기 근거문장(R205)이 반드시 필요한 것은 아닐 것이다. 다시 말해, 근거문장(R205)이 없이도 교사발화(R206)와 학생발화(R207)를 생성할 수 있다면, 상기 근거문장(R205)이 도 4의 언어학습 대화 코퍼스(R200)에 포함될 필요는 없는 것이다.

도 5는 도 1의 대화 코퍼스 생성부(100)에 의하여 변환 및 생성된 언어학습 대화 코퍼스(R200)의 또 다른 예시로, 오답을 포함한 대화의 예시이다.

하나의 대화 코퍼스에 얼마만큼의 오답을 포함시킬지 그리고 교사발화(R206)가 몇 번의 정답 유도 후에 정답 발화을 하도록 할지는, 전체 학생발화(R207) 중 오답의 퍼센티지를 미리 정하고 발화를 변환 및 생성하여 결정할 수 있다. 학생발화의 오답의 유형은 모르겠다는 응답, 정답 외의 기타 응답, 무응답 등 다양할 수 있다. 학생발화가 오답인 경우 태그를 부착(예를 들어, 도 5의 [wrong](210))할 수 있다.

또한, 상기 대화 코퍼스 생성부(100)에 의하여 변환 및 생성된 언어학습 대화 코퍼스(R200)가 다양성 또는 정확도 면에서 부족함이 있을 경우 해당 대화 코퍼스 생성부(100)를 이용하여 자동으로 변환 및 생성된 코퍼스를 사람의 개입으로 수정 보완하여 인력과 시간을 절약할 수 있다. 즉 대화 코퍼스 생성부(100)를 대화의 반자동 구축에 활용할 수 있다.

다시 도 1로 돌아가, 텍스트이해기반 대화모델 학습부(200)는 신경망 기반 딥러닝 학습 방법을 사용한다. 종래의 텍스트이해기반 대화모델 학습 기술은 지문관련 연습문제를 사용하지 않기 때문에 높은 정확도가 요구되는 언어학습용 대화의 생성에 한계를 가지고 있는 것과 달리, 본 발명에서는 언어 독해 연습문제를 활용하여 대화의 정확도를 향상시킬 수 있다.

도 6은 텍스트이해기반 대화모델 학습부(200)의 한 실시예의 구성도이다.

여기서 '대화문맥(211)'은 교사발화(R206)와 학생발화(R207)의 대화 턴들이 모여 이루어지는 대화 이력을 의미하는 것으로, 기본 의미는 서두에 정의한 대화문맥과 동일하다.

도 6은 언어 독해 연습문제를 포함한 언어학습 대화 코퍼스를 이용한 텍스트이해기반 대화모델 학습부(200)의 실시예로, 대화문맥(211)을 고려하여 지문 관련 연습문제(R202, R204, R203)로부터 턴별로 근거문장을 위한 정보(근거정보)를 선택하여 선택된 근거정보를 턴별 근거지식(T201)으로 출력하는 턴별 근거정보 선택부(201); 상기 턴별 근거지식(T201)을 질의로 하여 지문(R201)로부터 근거문장 후보(T202)를 검색하는 근거문장 검색부(202); 근거문장 후보(T202)를 인코딩하는 근거문장 후보 인코더(203); 대화문맥(211)과 턴별 근거지식(T201)을 인코딩하는 대화문맥 인코더(204); 인코딩된 대화문맥(211)과 근거문장 후보(T202)에 대하여 주의집중(attention)하여 중요한 근거문장 후보(T202)에 가중치를 부여하는 주의집중부(205); 인코딩된 대화문맥(211)과 가중치가 부여된 근거문장 후보(T202)의 벡터 표현을 결합하여 표현하는 지식 대화 표현 결합부(206); 결합된 지식 대화 표현을 디코딩하여 시스템 발화(T203)를 생성하는 디코더(207); 생성된 시스템 발화(T203)와 정답 발화(212)를 비교하여 loss를 계산하는 Loss계산부(208); 계산된 loss에 대한 역전파를 통하여 일정 배치(batch) 학습 후 파리미터(parameter)를 업데이트 하고 일정 에폭(epoch) 학습 후 이를 대화 모델(R300)로 저장하는 파라미터 수정 및 저장부(209)로 구성된다.

여기서, 상기 턴별 근거정보 선택부(201)는 교사발화(R206)와 학생발화(R207)의 대화문맥(211)을 고려하여, 최근 발화가 학생발화(R207)이었던 경우에는 시스템 발화(T203)가 교사발화(R206)로 되어야 하기에 지문 관련 연습문제(R202, R204, R203)에서 선택된 근거정보인 질문(R202)과 정답(R204)을 턴별 근거지식(T201)으로 출력하며, 대화문맥의 최근 발화가 교사발화(R206)이었던 경우에는 시스템 발화(T203)가 학생발화(R207)로 되어야 하기에 선택된 근거정보인 질문(R202) 및/또는 정답후보(R203)를 턴별 근거지식(T201)으로 출력한다. 이 내용은 상기 텍스트이해기반 대화모델 학습부(200)가, 입력된 최근 발화에 따라 교사발화도 할 수 있고, 학생발화도 할 수 있는 범용 모델로 사용될 수 있다는 의미이다.

이러한 범용 모델로서의 상기 텍스트이해기반 대화모델 학습부(200)의 사용에 덧붙여, 시스템의 용도를 특정하여 제한함으로써 시스템 성능을 높이기 위한 목적의 일환으로, 시스템을 교사 모델(즉 “질의 모델”)로만 사용하고자 교사발화만 학습시켜 시스템 발화를 교사발화로 제한시킬 수 있다. 이러한 목적은 도 6의 지문 관련 연습문제(R202, R204, R203)를 질문(R202)과 정답(R204)으로 특정하고, 대화문맥은 최근 발화가 학생발화(R207)인 경우의 대화문맥만 사용하여, 즉 최근 발화를 학생발화(R207)로만 특정하여 대화모델을 학습시킴으로써 이룰 수 있다. 또 한편, 상기 목적을 이루기 위해 시스템을 학생 모델(즉 “응답 모델”)로만 사용하여 학생발화만 학습 발화로 사용할 수 있다. 이를 위해 도 6에서 지문 관련 연습문제(R202, R204, R203)를 질문(R202) 및/또는 정답후보(R203)만으로 특정하고 대화문맥은 최근 발화가 교사발화(R206)인 경우의 대화문맥만 사용하여, 즉 최근 발화를 교사발화(R206)로만 특정하여 대화모델을 학습시킴으로써 목적을 이룰 수 있다.

도 7은 텍스트이해기반 대화모델 학습부(200)의 다른 실시예 구성도로서, 대화평가부(400)의 결과를 이용한 대화모델 학습부를 나타낸다. 도 7의 경우에 텍스트이해기반 대화모델 학습부(200)는 대화 평가부(400)의 출력을 입력으로 받는다. 구체적으로, 대화평가부(도 1의 400)의 결과를 대화문맥(211)에 추가하여, 평가결과를 가진 대화문맥(T204)을 만들어 대화문맥 인코더(204)에 입력해서 대화모델 학습부(200)가 활용하도록 한다.

이상에서와 같이 본 발명의 텍스트이해기반 대화모델 학습부(200)는 그 활용에서 다양한 선행학습 언어모델 또는 선행학습 대화모델을 활용할 수 있다.

도 8은 대화평가모델 학습부(300)의 구성도이다.

대화평가모델 학습부(300)는 턴별 근거정보 선택부(301)와 평가모델 학습부(302)로 구성된다. 대화문맥(211)의 최근 발화가 학생발화(R207)인 경우, 턴별 근거정보 선택부(301)는 정답(R204) 및/또는 정답후보(R203)를 턴별 근거지식(T301)으로 출력하며, 평가모델 학습부(302)는 해당 발화가 정답(R204)과 일치한지 분류하는 분류 기반 평가모델 또는 정답(R204) 대비 학생발화(R207)의 점수를 평가하는 회귀(regression) 기반 평가모델을 학습시킨다. 대화문맥(211)의 최근 발화가 교사발화(R206)인 경우 턴별 근거정보 선택부(301)는 질문(R202)과 근거문장(R206)을 턴별 근거지식(T301)으로 출력하며, 평가모델 학습부(302)는 해당 발화가 질문(R202) 또는 근거문장(R205)과 유사한지 여부를 분류하는 모델을 학습시킨다.

여기서 평가모델 학습부(302)는 두 개의 독립적인, 학생발화 평가모델 학습부와 교사발화 평가모델 학습부로 나뉠 수 있다. 본 발명에서는 평가모델 학습부(302)의 구성이나 사용하는 방법에 대하여 특정하지 않으며 다양한 기계학습 기법 또는 딥러닝 기법을 이용한 분류 또는 회귀 방법을 사용할 수 있다.

다시 도 1로 돌아가, 대화 평가부(400)와 대화 생성부(500)는, 대화평가 모델 학습부(300)와 텍스트이해기반 대화모델 학습부(200)의 방식과 구조를 사용하되 다만 Loss를 계산하고 파라미터를 업데이트하며 모델을 저장하는 부분만 빠질 뿐이기에 이들 대화 평가부(400)와 대화 생성부(500)의 구성에 대한 설명은 생략하기로 한다.

지금까지 본 발명의 바람직한 실시예를 통하여 본 발명을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.

이와 같이, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다. 또한 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.

Claims

언어학습용 독해 지문 및 연습문제 - 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 언어학습 대화 코퍼스를 생성하는 대화 코퍼스 생성부;
상기 생성된 언어학습 대화 코퍼스로부터 대화 모델을 학습시키는 텍스트 이해기반 대화 모델 학습부;
상기 생성된 언어학습 대화 코퍼스로부터 대화평가 모델을 학습시키는 대화평가 모델 학습부;
영어학습용 독해 지문, 지문 관련 연습문제, 및 대화문맥을 입력으로 받아, 학습된 상기 대화평가 모델을 이용하여 최근 발화를 평가하는 대화 평가부; 및
상기 독해 지문, 지문 관련 연습문제, 대화문맥, 및 상기 대화평가부의 평가결과를 입력으로 받아 시스템 발화를 생성하는 대화 생성부를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 대화 코퍼스 생성부는
상기 언어학습 독해 데이터으로부터의 질문, 및 정답과 정답후보 중 적어도 하나를, 언어학습 대화 코퍼스를 위한 대화로 변환하는 대화 변환부를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 언어학습 대화 코퍼스는
지문, 질문, 정답후보와 정답 중 적어도 하나, 교사발화, 및 학생발화를 포함하되,
상기 교사발화는 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 것이고,
상기 학생발화는 상기 언어학습 독해 데이터에 포함된 정답과 정답후보 중 적어도 하나로부터 변환되어 생성된 것을 특징으로 하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답후보와 정답 중 적어도 하나; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 텍스트이해기반 대화모델 학습부는 상기 지문, 상기 지문 관련 연습문제에 포함된 질문, 및 정답과 정답후보 중 적어도 하나, 및 상기 대화문맥을 이용하여 대화모델을 학습시키도록 구성되는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답후보; 정답; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 텍스트이해기반 대화모델 학습부는 상기 지문, 상기 지문 관련 연습문제에 포함된 질문과 정답후보, 및 상기 대화문맥 중 최근발화가 교사발화인 대화문맥을 이용하여 학생 모델을 학습시키도록 구성되는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 텍스트이해기반 대화모델 학습부는 상기 지문, 상기 지문 관련 연습문제에 포함된 질문과 정답, 및 상기 대화문맥 중 최근발화가 학생발화인 대화문맥을 이용하여 교사 모델을 학습시키도록 구성되는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답후보와 정답 중 적어도 하나; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 텍스트이해기반 대화모델 학습부는
상기 대화문맥의 벡터 표현을 결합하여 표현하는 지식 대화 표현 결합부; 및
결합된 지식 대화 표현을 디코딩하여 시스템 발화를 생성하는 디코더를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 텍스트이해기반 대화모델 학습부는
상기 대화평가부의 결과가 대화문맥에 추가된, 평가결과를 가진 대화문맥을 이용하여 대화모델을 학습시키도록 구성되는 것을 특징으로 하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 대화평가모델 학습부는
정답과 정답후보 중 적어도 하나를 근거지식으로 출력하는 근거정보 선택부; 및
발화의 점수를 평가하는 평가모델을 학습시키는 평가모델 학습부를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 대화평가모델 학습부는
상기 대화 코퍼스 생성부가 상기 언어학습 독해 데이터를 참조하여, 질문을 턴별 근거지식으로 출력하는 근거정보 선택부; 및
발화가 상기 질문과 유사한지 여부를 분류하는 모델을 학습시키는 평가모델 학습부를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
제1항에 있어서, 상기 대화평가모델 학습부는
상기 언어학습을 위한 지식 기반 대화 시스템의 입력인 대화문맥의 최근 발화가 교사발화인 경우, 해당 교사발화를 평가하는 모델을 학습시키는 교사발화 평가모델 학습부; 및
상기 언어학습을 위한 지식 기반 대화 시스템의 입력인 대화문맥의 최근 발화가 학생발화인 경우, 해당 학생발화를 평가하는 모델을 학습시키는 학생발화 평가모델 학습부를 포함하는 언어학습을 위한 지식 기반 대화 시스템.
언어학습용 독해 지문 및 연습문제- 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 언어학습 대화 코퍼스를 생성하고;
상기 생성된 언어학습 대화 코퍼스로부터 대화 모델을 학습시키고;
상기 생성된 언어학습 대화 코퍼스로부터 대화평가 모델을 학습시키고;
영어학습용 독해 지문, 지문 관련 연습문제, 및 대화문맥을 입력으로 받아, 학습된 상기 대화평가 모델을 이용하여 최근 발화를 평가하고;
상기 독해 지문, 지문 관련 연습문제, 대화문맥, 및 상기 대화평가부의 평가결과를 입력으로 받아 시스템 발화를 생성하는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서, 상기 대화 코퍼스를 생성하는 것은
상기 언어학습 독해 데이터으로부터의 질문, 및 정답과 정답후보 중 적어도 하나를, 언어학습 대화 코퍼스를 위한 대화로 변환하는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답후보; 정답; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 대화모델을 학습시키는 것은 상기 지문 관련 연습문제에 포함된 질문, 및 정답후보와 정답 중 적어도 하나, 및 상기 교사발화 및 학생발화를 포함한 대화문맥을 이용하여 대화모델을 학습시키는 것을 특징으로 하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서,
상기 언어학습 대화 코퍼스는 지문; 질문; 정답후보와 정답 중 적어도 하나; 상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및 상기 언어학습 독해 데이터에 포함된 정답과 정답후보로부터 변환되어 생성된 학생발화를 포함하고,
상기 대화모델을 학습시키는 것은
상기 대화문맥의 벡터 표현을 결합하여 표현하고; 및
상기 결합된 지식 대화 표현을 디코딩하여 시스템 발화를 생성하는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서, 상기 대화모델을 학습시키는 것은
상기 대화평가의 결과가 대화문맥에 추가된, 평가결과를 가진 대화문맥을 이용하여 대화모델을 학습시키는 것을 특징으로 하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서, 상기 대화평가모델을 학습시키는 것은
정답과 정답후보 중 적어도 하나를 근거지식으로 출력하고;
발화의 점수를 평가하는 평가모델을 학습시키는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법.
제12항에 있어서, 상기 대화평가모델을 학습시키는 것은
상기 언어학습 독해 데이터를 참조하여, 질문을 턴별 근거지식으로 출력하고;
발화가 상기 질문과 유사한지 여부를 분류하는 모델을 학습시키는 것을 포함하는 언어학습을 위한 지식 기반 대화 방법.
언어학습용 독해 지문 및 연습문제- 연습문제에는 질문, 및 정답과 정답후보 중 적어도 하나가 포함됨 - 를 포함하는 언어학습 독해 데이터로부터 생성된 대화 코퍼스로서,
상기 언어학습 독해 데이터에 포함된 질문으로부터 변환되어 생성된 교사발화; 및
상기 언어학습 독해 데이터에 포함된 정답과 정답후보 중 어느 하나로부터 변환되어 생성된 학생발화를 포함하는 언어학습을 위한 지식 기반 대화 코퍼스.
제19항에 있어서, 상기 정답과 정답후보 중 적어도 하나로부터 변환되어 생성된 오답 발화를 추가로 포함하는 언어학습을 위한 지식 기반 대화 코퍼스.