KR101832816B1

KR101832816B1 - 질의에 대한 응답 생성 장치 및 방법

Info

Publication number: KR101832816B1
Application number: KR1020160168843A
Authority: KR
Inventors: 정진우; 김준규; 조양규; 김수희; 양기
Original assignee: 동국대학교 산학협력단
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2018-02-27

Abstract

질의에 대한 응답 생성 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 응답 생성 장치는, 사용자 단말로부터 질의 음성을 수신하고 상기 질의 음성에 대한 응답을 사용자 단말로 송신하는 송수신부, 적어도 하나의 후보 질의들 및 상기 후보 질의들 각각에 대응하는 응답들을 저장하는 질의-응답 데이터 저장부, 상기 질의 음성을 텍스트로 변환하는 텍스트 변환부, 상기 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는지 여부를 판단하는 판단부, 상기 변환된 텍스트로부터 적어도 하나의 키워드를 추출하는 키워드 추출부, 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 상기 추출된 키워드를 이용한 웹 검색을 통해 상기 질의 음성에 대한 응답을 생성하는 제1 응답 생성부 및 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 상기 추출된 키워드와 상기 후보 질의들 사이의 유사도를 계산하고, 상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 제2 응답 생성부를 포함한다.

Description

질의에 대한 응답 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING ANSWER FOR QUESTION}

본 발명의 실시예들은 질의에 대한 응답을 생성하기 위한 기술과 관련된다.

동영상 강의는 시간 및 공간적인 제약이 없어 언제 어디서든지 학습자의 필요에 따라 시청할 수 있는 장점이 있으며, 이에 따라 동영상 강의에 대한 수요가 꾸준히 증가하고 있다.

그러나, 실시간으로 진행되지 않는 동영상 강의의 특성상 학습자가 질의가 있더라도 바로 질의에 대한 응답을 받아볼 수 없다는 단점이 있다.

또한, 기존의 동영상 강의 질의-응답 방식은 자주 올라오는 몇 가지의 질의에 대한 응답을 달아놓는 형식을 취하고 있으나, 질의 및 응답의 개수가 매우 한정적이어서 실효성이 없다는 단점이 있다.

한국공개특허 제10-2009-0097304호 (2009.09.16. 공개)

본 발명의 실시예들은 사용자의 질의에 대한 응답을 생성하기 위한 장치 및 방법을 제공하기 위한 것이다.

본 발명의 일 실시예에 따른 응답 생성 장치는, 사용자 단말로부터 질의 음성을 수신하고 상기 질의 음성에 대한 응답을 사용자 단말로 송신하는 송수신부, 적어도 하나의 후보 질의들 및 상기 후보 질의들 각각에 대응하는 응답들을 저장하는 질의-응답 데이터 저장부, 상기 질의 음성을 텍스트로 변환하는 텍스트 변환부, 상기 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는지 여부를 판단하는 판단부, 상기 변환된 텍스트로부터 적어도 하나의 키워드를 추출하는 키워드 추출부, 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 상기 추출된 키워드를 이용한 웹 검색을 통해 상기 질의 음성에 대한 응답을 생성하는 제1 응답 생성부 및 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 상기 추출된 키워드와 상기 후보 질의들 사이의 유사도를 계산하고, 상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 제2 응답 생성부를 포함한다.

상기 텍스트 변환부는, 음성 인식 모델을 이용하여 상기 질의 음성을 상기 텍스트로 변환할 수 있다.

상기 텍스트 변환부는, 복수의 외부 음성 인식 엔진을 이용하여 상기 질의 음성을 텍스트로 변환하고, 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 상기 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 상기 판단된 유사도에 기초하여 상기 질의 음성에 대한 텍스트를 결정할 수 있다.

상기 텍스트 변환부는, 상기 판단된 유사도가 기 설정된 값 이상인 경우, 상기 음성 인식 모델을 이용하여 변환된 텍스트를 상기 질의 음성에 대한 텍스트로 결정할 수 있다.

상기 텍스트 변환부는, 상기 질의 음성 및 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여, 상기 음성 인식 모델을 갱신할 수 있다.

상기 제2 응답 생성부는, 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 상기 변환된 텍스트에 대응되는 질의에 대한 응답 및 상기 변환된 텍스트와 상기 대응되는 질의 사이의 유사도를 제공받고, 상기 후보 질의들 각각에 대응하는 응답 및 상기 외부 챗봇 엔진들로부터 제공된 응답 중 상기 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 상기 질의 음성에 대한 응답을 생성할 수 있다.

본 발명의 일 실시예에 따른 응답 생성 방법은, 적어도 하나의 후보 질의들 및 상기 후보 질의들 각각에 대응하는 응답들을 저장하는 단계, 사용자 단말로부터 질의 음성을 수신하는 단계, 상기 질의 음성을 텍스트로 변환하는 단계, 상기 변환된 텍스트로부터 적어도 하나의 키워드를 추출하는 단계, 상기 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는지 여부를 판단하는 단계, 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 상기 추출된 키워드를 이용한 웹 검색을 통해 상기 질의 음성에 대한 응답을 생성하는 단계, 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 상기 추출된 키워드와 상기 후보 질의들 사이의 유사도를 계산하고, 상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 단계 및 상기 질의 음성에 대한 응답을 사용자 단말로 송신하는 단계를 포함한다.

상기 변환하는 단계는, 음성 인식 모델을 이용하여 상기 질의 음성을 상기 텍스트로 변환할 수 있다.

상기 변환하는 단계는, 복수의 외부 음성 인식 엔진을 이용하여 상기 질의 음성을 텍스트로 변환하고, 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 상기 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 상기 판단된 유사도에 기초하여 상기 질의 음성에 대한 텍스트를 결정할 수 있다.

상기 변환하는 단계는, 상기 판단된 유사도가 기 설정된 값 이상인 경우, 상기 음성 인식 모델을 이용하여 변환된 텍스트를 상기 질의 음성에 대한 텍스트로 결정할 수 있다.

상기 변환하는 단계는, 상기 질의 음성 및 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여, 상기 음성 인식 모델을 갱신할 수 있다.

상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 단계는, 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 상기 변환된 텍스트에 대응되는 질의에 대한 응답 및 상기 변환된 텍스트와 상기 대응되는 질의 사이의 유사도를 제공받고, 상기 후보 질의들 각각에 대응하는 응답 및 상기 외부 챗봇 엔진들로부터 제공된 응답 중 상기 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 상기 질의 음성에 대한 응답을 생성할 수 있다.

본 발명의 실시예들에 따르면, 사용자의 질의에 대해 실시간으로 응답을 생성하여 학습 이해도를 높일 수 있다.

또한, 본 발명의 실시예들에 따르면, 외부 검색 엔진을 함께 활용함으로써 데이터베이스에 존재하지 않는 질의에도 응답을 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 응답 생성 장치의 구성도
도 2는 본 발명의 일 실시예에 따른 응답 생성 방법의 순서도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 본 발명의 일 실시예에 따른 응답 생성 장치(100)의 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 응답 생성 장치(100)는 송수신부(110), 질의-응답 데이터 저장부(120), 텍스트 변환부(130), 판단부(140), 키워드 추출부(150), 제1 응답 생성부(160) 및 제2 응답 생성부(170)을 포함한다.

응답 생성 장치(100)는 사용자 단말(미도시)로부터 질의 음성을 수신하여, 수신한 질의 음성에 대한 응답을 제공하기 위한 것으로, 예를 들어, 하나 이상의 서버로 구현될 수 있다.

한편, 사용자 단말은 예를 들어, 데스크톱 PC, 랩톱 PC, 태블릿 PC, 스마트폰, PDA(Personal Digital Assistant) 등과 같이 유무선 네트워크를 통한 데이터 통신 기능 및 정보 처리 기능을 구비한 다양한 형태의 장치를 포함할 수 있다.

송수신부(110)는 사용자 단말로부터 질의 음성을 수신하고, 수신한 질의 음성에 대한 응답을 사용자 단말로 송신한다.

구체적으로, 사용자 단말은 사용자에 의해 입력된 질의 음성을 응답 생성 장치(100)로 제공하고, 응답 생성 장치(100)로부터 질의 음성에 대한 응답을 수신하여 사용자 단말의 디스플레이 화면 상에 표시하기 위한 애플리케이션이 설치될 수 있다.

질의-응답 데이터 저장부(120)는 적어도 하나의 후보 질의들 및 후보 질의들 각각에 대응하는 응답들을 저장한다.

이때, 질의-응답 데이터 저장부(120)는 예를 들어, 응답 생성 장치(100)의 내부 또는 외부에 존재하는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 메모리카드 등일 수 있다. 또한, 후보 질의들 및 후보 질의들에 대응하는 응답들은 텍스트 형태로 저장될 수 있다.

텍스트 변환부(130)는 송수신부(110)를 통해 사용자 단말로부터 제공받은 질의 음성을 텍스트로 변환한다.

구체적으로, 텍스트 변환부(130)는 음성 인식 모델을 이용하여 질의 음성을 텍스트로 변환할 수 있다. 이때, 음성 인식 모델은 음성 및 음성에 대응되는 텍스트들을 통해 학습되는 기계 학습 기반의 음성 인식 모델일 수 있다.

또한, 텍스트 변환부(130)는 복수의 외부 음성 인식 엔진을 이용하여 질의 음성을 텍스트로 변환할 수 있다. 또한, 텍스트 변환부(130)는 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 판단된 유사도에 기초하여 질의 음성에 대한 텍스트를 결정할 수 있다.

예를 들어, 텍스트 변환부(130)는 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 음성 인식 모델을 이용하여 변환된 텍스트들간 글자의 일치 여부, 텍스트 길이의 일치 여부, 동일한 음운의 개수 등을 이용하여 유사도를 판단할 수 있다.

다만, 유사도 판단은 반드시 상술한 예에 한정되는 것은 아니며, 상술한 예 외에도 텍스트 간 유사도를 판단할 수 있는 다양한 방식에 의해 수행될 수 있다.

한편, 텍스트 변환부(130)는 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도가 기 설정된 값 이상인 경우, 음성 인식 모델을 이용하여 변환된 텍스트를 질의 음성에 대한 텍스트로 결정할 수 있다. 이때, 기 설정된 값은 예를 들어, 유사도와 비교를 위해 관리자에 의해 미리 설정된 값일 수 있다.

반면, 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 음성 인식 모델을 이용하여 변환된 텍스트의 유사도가 기 설정된 값 미만인 경우, 텍스트 변환부(130)는 질의 음성 및 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여 음성 인식 모델을 갱신할 수 있으며, 송수신부(110)를 통해 사용자 단말로 추가적인 질의 음성을 요청할 수 있다.

예를 들어, 텍스트 변환부(130)는 외부 음성 인식 엔진을 이용하여 변환된 텍스트들 사이의 유사도는 기 설정된 값 이상이나 음성 인식 모델을 이용하여 변환된 텍스트와 외부 음성 인식 엔진을 이용하여 변환된 텍스트들 사이의 유사도가 기 설정된 값 미만인 경우, 질의 음성 및 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여 음성 인식 모델을 갱신하고, 사용자 단말로 추가적인 질의 음성을 요청할 수 있다.

또한, 텍스트 변환부(130)는 외부 음성 인식 엔진을 이용하여 추가적인 질의 음성으로부터 변환된 텍스트들과 음성 인식 모델을 이용하여 추가적인 질의 음성으로부터 변환된 텍스트 사이의 유사도가 기 설정된 값 이상이 될 때까지 음성 인식 모델의 갱신 및 추가적인 질의 음성 요청을 반복 수행할 수 있다.

한편, 텍스트 변환부(130)는 외부 음성 인식 엔진을 이용하여 변환된 텍스트들 사이의 유사도와 음성 인식 모델을 이용하여 변환된 텍스트와 외부 음성 인식 엔진을 이용하여 변환된 텍스트들 사이의 유사도가 모두 기 설정된 값 미만인 경우, 송수신부(110)를 통해 관리자 단말로 사용자 단말로부터 수신된 질의 음성에 대응되는 음성 및 텍스트의 입력을 요청할 수 있다. 이 경우, 텍스트 변환부(130)는 관리자 단말로부터 수신된 음성 및 텍스트를 학습 데이터로 이용하여 음성 인식 모델을 갱신할 수 있다.

판단부(140)는 텍스트 변환부(130)에서 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 변환된 텍스트가 미리 설정된 질의 형식들 중 하나에 해당하는지 여부를 판단한다.

이때, 미리 설정된 질의 형식은 관리자에 의해 미리 설정된 텍스트 형식일 수 있다. 또한, 미리 설정된 질의 형식은 예를 들어, '~ 검색해줘', '~의 정의는?' 등과 같이 특정한 어휘가 포함된 텍스트 형식일 수 있다.

키워드 추출부(150)는 텍스트 변환부(130)를 통해 변환된 텍스트로부터 적어도 하나의 키워드를 추출한다.

구체적으로, 키워드 추출부(150)는 텍스트 변환부(130)에서 변환된 텍스트로부터 조사 등을 제외하여 키워드를 추출할 수 있다. 예를 들어, 텍스트 변환부(130)를 통해 변환된 텍스트가 '엔진의 정의는?'인 경우, 키워드 '엔진'이 될 수 있다.

제1 응답 생성부(160)는 텍스트 변환부(130)에서 변환된 텍스트가 미리 설정된 질의 형식들 중 하나에 해당하는 경우 키워드 추출부(150)를 통해 추출된 키워드를 이용한 웹 검색을 통해 질의 음성에 대한 응답을 생성한다.

이때, 제1 응답 생성부(160)는 질의 음성에 대한 응답 생성을 위해 하나 이상의 웹 검색 엔진을 이용할 수 있다. 구체적으로, 관리자는 미리 설정된 질의 형식들 각각에 대하여, 응답 생성을 위해 이용할 웹 검색 엔진을 미리 지정할 수 있으며, 제1 응답 생성부(160)는 텍스트 변환부(130)에서 변환된 텍스트가 미리 설정된 질의 형식들 중 하나에 해당하는 경우, 해당 질의 형식에 대해 지정된 웹 검색 엔진을 이용하여 응답을 생성할 수 있다.

예를 들어, 텍스트 변환부(130)를 통해 변환된 텍스트가 '~ 검색해줘'의 형식으로 판단되고 키워드가 '엔진'으로 추출된 경우, 제1 응답 생성부(160)는 구글 검색 엔진에서 '엔진'을 검색하여 질의 음성에 대한 응답을 생성할 수 있다.

다른 예로, 텍스트 변환부(130)를 통해 변환된 텍스트가 '~의 정의는?'의 형식으로 판단되고 키워드가 '엔진'으로 추출된 경우, 제1 응답 생성부(160)는 네이버 검색 엔진을 이용하여 '엔진'의 정의를 검색하고, 검색된 결과로 질의 응답에 대한 응답을 생성할 수 있다.

제2 응답 생성부(170)는 텍스트 변환부(130)를 통해 변환된 텍스트가 미리 설정된 질의 형식들 중 하나에 해당하지 않는 경우 키워드 추출부(150)를 통해 추출된 키워드와 질의-응답 데이터 저장부(120)에 저장된 후보 질의들 사이의 유사도를 계산하고, 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 질의 음성에 대한 응답을 생성한다.

예를 들어, 제2 응답 생성부(170)는 추출된 키워드와 후보 질의들 사이의 유사도에 기반한 사례 기반 추론(CBR; Case Based Reasoning)을 이용하여 질의 음성에 대한 응답을 생성할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 제2 응답 생성부(170)는 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 텍스트 변환부(130)를 통해 변환된 텍스트에 대응되는 질의에 대한 응답 및 변환된 텍스트와 대응되는 질의 사이의 유사도를 제공받을 수 있다.

또한, 제2 응답 생성부(170)는 질의-응답 데이터 저장부(120)에 저장된 후보 질의들 각각에 대응하는 응답 및 외부 챗봇 엔진들로부터 제공된 응답 중 텍스트 변환부(130)를 통해 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 질의 음성에 대한 응답을 생성할 수 있다.

한편, 외부 챗봇 엔진들은 사례 기반 추론을 이용하여 텍스트에 대응되는 질의에 대한 응답을 검색하는 장치일 수 있다.

한편, 송수신부(110)는 사용자 단말로부터 질의 음성에 대한 응답의 평가 점수를 수신할 수 있다. 또한, 질의-응답 데이터 저장부(120)는 송수신부(110)를 통해 수신한 평가 점수를 저장할 수 있다. 또한, 제2 응답 생성부(170)는 질의-응답 데이터 저장부(120)에 저장된 평가 점수를 반영하여 유사도를 계산할 수 있다.

이때, 평가 점수는 질의 음성에 대한 응답에 대해 사용자의 만족도를 나타내는 지표일 수 있다. 예를 들어, 평가 점수는 사용자의 만족도에 따라 1점 내지 5점으로 구성된 지표일 수 있다.

구체적으로, 제2 응답 생성부(170)는 질의-응답 데이터 저장부(120)에 저장된 평가 점수의 평균을 계산하고, 계산된 평균을 반영하여 키워드 추출부(150)를 통해 추출된 키워드와 후보 질의들 사이의 유사도를 계산할 수 있다.

예를 들어, 제2 응답 생성부(170)는 질의 음성에 대한 응답에 대해 계산된 평가 점수의 평균이 3점보다 낮은 경우, 낮은 정도에 비례하여 유사도를 감소시킬 수 있다. 반대로, 제2 응답 생성부(170)는 질의 음성에 대한 응답에 대해 계산된 평가 점수의 평균이 3점보다 높은 경우, 높은 정도예 비례하여 유사도를 증가시킬 수 있다.

한편, 일 실시예에서, 도 1에 도시된 송수신부(110), 질의-응답 데이터 저장부(120), 텍스트 변환부(130), 판단부(140), 키워드 추출부(150), 제1 응답 생성부(160) 및 제2 응답 생성부(170)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 하나 이상의 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

도 2는 본 발명의 일 실시예에 따른 응답 생성 방법의 순서도이다.

도 2에 도시된 방법은 예를 들어, 도 1에 도시된 응답 생성 장치(100)에 의해 수행될 수 있다.

한편, 도시된 순서도에서는 동작을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 2를 참조하면, 응답 생성 장치(100)는 적어도 하나의 후보 질의들 및 후보 질의들 각각에 대응하는 응답들을 저장한다(201).

응답 생성 장치(100)는 사용자 단말로부터 질의 음성을 수신한다(202).

응답 생성 장치(100)는 질의 음성을 텍스트로 변환한다(203).

이때, 응답 생성 장치(100)는 음성 인식 모델을 이용하여 질의 음성을 텍스트로 변환할 수 있다.

또한, 응답 생성 장치(100)는 복수의 외부 음성 인식 엔진을 이용하여 질의 음성을 텍스트로 변환하고, 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 판단된 유사도에 기초하여 질의 음성에 대한 텍스트를 결정할 수 있다.

또한, 응답 생성 장치(100)는 판단된 유사도가 기 설정된 값 이상인 경우, 음성 인식 모델을 이용하여 변환된 텍스트를 질의 음성에 대한 텍스트로 결정할 수 있다.

또한, 응답 생성 장치(100)는 질의 음성 및 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여, 음성 인식 모델을 갱신할 수 있다.

응답 생성 장치(100)는 변환된 텍스트로부터 적어도 하나의 키워드를 추출한다(204).

응답 생성 장치(100)는 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 변환된 텍스트가 질의 형식들 중 하나에 해당하는지 여부를 판단한다(205).

변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 응답 생성 장치(100)는 추출된 키워드를 이용한 웹 검색을 통해 질의 음성에 대한 응답을 생성한다(206).

변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 응답 생성 장치(100)는 추출된 키워드와 후보 질의들 사이의 유사도를 계산하고, 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 질의 음성에 대한 응답을 생성한다(207).

이때, 응답 생성 장치(100)는 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 변환된 텍스트에 대응되는 질의에 대한 응답 및 변환된 텍스트와 대응되는 질의 사이의 유사도를 제공받고, 후보 질의들 각각에 대응하는 응답 및 외부 챗봇 엔진들로부터 제공된 응답 중 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 질의 음성에 대한 응답을 생성할 수 있다.

또한, 응답 생성 장치(100)는 평가 점수를 반영하여 유사도를 계산할 수 있다.

응답 생성 장치(100)는 질의 음성에 대한 응답을 사용자 단말로 송신한다(208).

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램, 및 상기 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 프로그램의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 응답 생성 장치
110: 송수신부
120: 질의-응답 데이터 저장부
130: 텍스트 변환부
140: 판단부
150: 키워드 추출부
160: 제1 응답 생성부
170: 제2 응답 생성부

Claims

사용자 단말로부터 질의 음성을 수신하고 상기 질의 음성에 대한 응답을 사용자 단말로 송신하는 송수신부;
적어도 하나의 후보 질의들 및 상기 후보 질의들 각각에 대응하는 응답들을 저장하는 질의-응답 데이터 저장부;
상기 질의 음성을 텍스트로 변환하는 텍스트 변환부;
상기 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는지 여부를 판단하는 판단부;
상기 변환된 텍스트로부터 적어도 하나의 키워드를 추출하는 키워드 추출부;
상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 상기 추출된 키워드를 이용한 웹 검색을 통해 상기 질의 음성에 대한 응답을 생성하는 제1 응답 생성부; 및
상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 상기 추출된 키워드와 상기 후보 질의들 사이의 유사도를 계산하고, 상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 제2 응답 생성부를 포함하는 응답 생성 장치.
청구항 1에 있어서,
상기 텍스트 변환부는, 음성 인식 모델을 이용하여 상기 질의 음성을 상기 텍스트로 변환하는 응답 생성 장치.
청구항 2에 있어서,
상기 텍스트 변환부는, 복수의 외부 음성 인식 엔진을 이용하여 상기 질의 음성을 텍스트로 변환하고, 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 상기 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 상기 판단된 유사도에 기초하여 상기 질의 음성에 대한 텍스트를 결정하는 응답 생성 장치.
청구항 3에 있어서,
상기 텍스트 변환부는, 상기 판단된 유사도가 기 설정된 값 이상인 경우, 상기 음성 인식 모델을 이용하여 변환된 텍스트를 상기 질의 음성에 대한 텍스트로 결정하는 응답 생성 장치.
청구항 3에 있어서,
상기 텍스트 변환부는, 상기 질의 음성 및 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여, 상기 음성 인식 모델을 갱신하는 응답 생성 장치.
청구항 1에 있어서,
상기 제2 응답 생성부는, 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 상기 변환된 텍스트에 대응되는 질의에 대한 응답 및 상기 변환된 텍스트와 상기 대응되는 질의 사이의 유사도를 제공받고,
상기 후보 질의들 각각에 대응하는 응답 및 상기 외부 챗봇 엔진들로부터 제공된 응답 중 상기 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 응답 생성 장치.
적어도 하나의 후보 질의들 및 상기 후보 질의들 각각에 대응하는 응답들을 저장하는 단계;
사용자 단말로부터 질의 음성을 수신하는 단계;
상기 질의 음성을 텍스트로 변환하는 단계;
상기 변환된 텍스트로부터 적어도 하나의 키워드를 추출하는 단계;
상기 변환된 텍스트를 미리 설정된 질의 형식들과 비교하여 상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는지 여부를 판단하는 단계;
상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하는 경우 상기 추출된 키워드를 이용한 웹 검색을 통해 상기 질의 음성에 대한 응답을 생성하는 단계;
상기 변환된 텍스트가 상기 질의 형식들 중 하나에 해당하지 않는 경우 상기 추출된 키워드와 상기 후보 질의들 사이의 유사도를 계산하고, 상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 단계; 및
상기 질의 음성에 대한 응답을 사용자 단말로 송신하는 단계를 포함하는 응답 생성 방법.
청구항 7에 있어서,
상기 변환하는 단계는, 음성 인식 모델을 이용하여 상기 질의 음성을 상기 텍스트로 변환하는 응답 생성 방법.
청구항 8에 있어서,
상기 변환하는 단계는, 복수의 외부 음성 인식 엔진을 이용하여 상기 질의 음성을 텍스트로 변환하고, 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들과 상기 음성 인식 모델을 이용하여 변환된 텍스트 사이의 유사도를 판단하고, 상기 판단된 유사도에 기초하여 상기 질의 음성에 대한 텍스트를 결정하는 응답 생성 방법.
청구항 9에 있어서,
상기 변환하는 단계는, 상기 판단된 유사도가 기 설정된 값 이상인 경우, 상기 음성 인식 모델을 이용하여 변환된 텍스트를 상기 질의 음성에 대한 텍스트로 결정하는 응답 생성 방법.
청구항 9에 있어서,
상기 변환하는 단계는, 상기 질의 음성 및 상기 복수의 외부 음성 인식 엔진을 이용하여 변환된 텍스트들을 학습 데이터로 이용하여, 상기 음성 인식 모델을 갱신하는 응답 생성 방법.
청구항 7에 있어서,
상기 유사도가 가장 높은 후보 질의에 대응하는 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 단계는, 적어도 하나의 외부 챗봇(chatbot) 엔진들로부터 상기 변환된 텍스트에 대응되는 질의에 대한 응답 및 상기 변환된 텍스트와 상기 대응되는 질의 사이의 유사도를 제공받고, 상기 후보 질의들 각각에 대응하는 응답 및 상기 외부 챗봇 엔진들로부터 제공된 응답 중 상기 변환된 텍스트와의 유사도가 가장 높은 질의에 대한 응답을 선택하여 상기 질의 음성에 대한 응답을 생성하는 응답 생성 방법.