KR101891495B1

KR101891495B1 - 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치

Info

Publication number: KR101891495B1
Application number: KR1020180005342A
Authority: KR
Inventors: 설재호; 임보훈; 손보경; 장세영
Original assignee: 주식회사 머니브레인
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-08-27
Also published as: WO2019142976A1

Abstract

서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 중에, 통화에 개입하여 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하는, 컴퓨터에 의해 수행되는 방법이 제공된다. 통화는, 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함한다. 방법은, 통화 수행 중에, 디스플레이로 하여금, 제1 사용자 단말 상에서 제1 사용자에 의해 입력된 사용자 발화 입력이, 소정의 지식베이스 모델에 따라 자연어 처리됨에 의해 결정된 사용자 인텐트의 텍스트 표현을 표시하도록 하는 단계; 및 사용자 인텐트에 기초하여 결정된, 사용자 발화 입력에 대한 대화 응답으로서 제공될 수 있는 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계를 포함한다.

Description

사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치{METHOD AND COMPUTER DEVICE FOR CONTROLLING A DISPLAY TO DISPLAY CONVERSATIONAL RESPONSE CANDIDATES TO A USER UTTERANCE INPUT, AND COMPUTER READABLE RECORDING MEDIUM}

본 개시는, 대화 이해 AI 시스템에 의한 사용자 발화의 분석에 관한 것이며, 보다 구체적으로는 대화 이해 AI 시스템에 의한 사용자 발화의 분석의 결과를 시각화하여 제시하는 방법 등에 관한 것이다.

근래, 인공지능 분야, 특히 자연어 이해 분야의 기술 발전에 따라, 전통적인 기계 중심의 명령 입출력 방식에 따른 기계 조작에서 벗어나, 사용자로 하여금, 보다 사람 친화적인 방식, 예컨대 음성 및/또는 텍스트 형태의 자연어를 매개로 한 대화 방식으로 기계를 조작하고 기계로부터 원하는 서비스를 얻을 수 있도록 하는 대화 이해 AI 시스템(예컨대, 챗봇)의 개발 및 활용이 점차 늘어나고 있다. 그에 따라, 고객 상담 센터나 온라인 쇼핑몰 등을 비롯한 (그러나 이에 한정되지 않은 더 많은) 다양한 분야에서, 대화 이해 AI 시스템을 채택하여 각 사용자로 하여금 대화 이해 AI 시스템과의 자연어 대화를 통해 원하는 정보나 서비스를 편리하고 신속하게 획득할 수 있게 하려는 시도가 늘고 있다.

특허문헌 1: 한국 특허 출원 제10-2015-0175948호

대화 이해 AI 시스템은, 사용자를 상대로 스스로 대화 당사자로 나서서 대화를 주도하기도 하지만, 사람 사용자 간의 대화에 개입하여 대화 진행이 원활해지도록 돕는 방향으로 활용될 수도 있다.

본 개시의 일 특징에 의하면, 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 통화는, 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 - 중에, 통화에 개입하여 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하는, 컴퓨터에 의해 수행되는 방법이 제공된다. 본 개시의 방법은, 통화 수행 중에, 디스플레이로 하여금, 제1 사용자 단말 상에서 제1 사용자에 의해 입력된 사용자 발화 입력이, 소정의 지식베이스 모델에 따라 자연어 처리됨에 의해 결정된 사용자 인텐트의 텍스트 표현을 표시하도록 하는 단계; 및 사용자 인텐트에 기초하여 결정된, 사용자 발화 입력에 대한 대화 응답으로서 제공될 수 있는 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계를 포함한다.

본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 획득된 제1 사용자의 감정 정보- 감정 정보는, 제1 사용자의 감정 상태를 나타내는 정보를 표시하도록 하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에 의하면, 감정 정보는, 사용자 발화 입력의 분석에 기초하여, 복수의 감정 유형 각각에 대해 할당된 값 정보를 포함하고, 복수의 감정 유형은 열의, 행복, 기쁨, 안도감, 걱정, 분노, 슬픔, 놀람, 좌절, 공허, 증오, 자제함 중 적어도 하나의 감정 유형을 포함할 수 있다.

본 개시의 일 실시예에 의하면, 제2 사용자 단말에 연관된 소정의 디스플레이는, 제2 사용자 단말 상에서 통화를 수행하는 제2 사용자를 위한 디스플레이 및 제2 사용자 단말과 원격으로 배치된 관리자 디스플레이 중 하나를 포함할 수 있다.

본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 추정된 제1 사용자의 프로필 정보- 프로필 정보는, 제1 사용자의 성별, 연령대, 및 사용 언어의 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 획득된 음성 음향 정보- 음성 음향 정보는, 사용자 발화 입력의, 볼륨, 피치 및 속도 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에 의하면, 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계는, 하나 이상의 대화 응답 후보의 각 텍스트 표현을 각각의 대응하는 확률적 신뢰도와 함께 표시하도록 하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 텍스트 표현을 표시하도록 하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력에 대한 대화 응답이 제공되어야 할 시점인지 여부의 확률적 표시자를 표시하도록 하는 단계를 더 포함할 수 있다.

본 개시의 다른 특징에 의하면, 하나 이상의 명령어를 수록한 컴퓨터 판독가능 기록 매체로서, 하나 이상의 명령어는, 실행될 경우, 컴퓨터 장치로 하여금, 전술한 방법들 중 어느 하나의 방법을 수행하도록 하는, 컴퓨터 판독가능 기록 매체가 제공된다.

본 개시의 또 다른 특징에 의하면, 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 통화는, 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 -에 개입하여 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하도록 구성된 컴퓨터 장치가 제공된다. 본 개시의 컴퓨터 장치는, 제1 사용자 단말로부터 사용자 발화 입력을 수신하도록 구성된 수신 모듈; 수신된 사용자 발화 입력을 분석하는 대화 이해 모듈- 대화 이해 모듈은, 소정의 지식베이스 모델을 포함하고, 소정의 지식베이스 모델에 따라, 수신된 사용자 발화 입력을 자연어 처리하여 사용자 발화 입력에 부합하는 사용자 인텐트를 결정하고, 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 결정하도록 구성됨 -; 및 결정된 사용자 인텐트 및 하나 이상의 대화 응답 후보의 정보를 디스플레이로 전송하도록 구성된 통신 모듈을 포함한다.

본 개시에 의한 방법 및 장치는, 고객 상담 센터의 상담 직원과 고객 간의 전화 상담에 활용될 경우, 각 상황별로 사람 상담 직원의 응답 방향을 제시해줄 수 있기 때문에, 미숙한 상담 직원을 보조하여 원활한 고객 상담이 이루어질 수 있도록 할 뿐 아니라, 사람 상담 직원의 감정 노동 피로도를 완화하는 효과를 가져올 수 있다. 본 개시에 의한 방법 및 장치는, 또한 사람들 간의 유무선 음성 통화에도 적용되어 대화자로 하여금 대화 상대방의 감정을 읽고 그에 따라 섬세한 응답을 할 수 있도록 도울 수 있다.

도 1은, 본 개시의 일 실시예에 따라, 대화 이해 AI 시스템이 구현될 수 있는 시스템 환경을 개략적으로 도시한 도면이다.
도 2는, 본 개시의 일 실시예에 따른, 도 1의 대화 이해 서비스 서버(104)의 기능적 구성을 개략적으로 도시한 기능 블록도이다.
도 3은, 본 개시의 일 실시예에 따른, 도 2의 대화 이해부(204)의 기능적 구성을 개략적으로 도시한 기능 블록도이다.
도 4는, 본 개시의 일 실시예에 따른, 도 1의 응답 사용자 단말(108)의 기능적 구성을 개략적으로 도시한 기능 블록도이다.
도 5는, 본 개시의 일 실시예에 따라, 도 1의 응답 사용자 단말(108)의 화면 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다.
도 6은, 본 개시의 다른 실시예에 따라, 도 1의 응답 사용자 단말(102)의 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다.

이하, 첨부 도면을 참조하여 본 개시의 실시예에 관하여 상세히 설명한다. 이하에서는, 본 개시의 요지를 불필요하게 흐릴 우려가 있다고 판단되는 경우, 이미 공지된 기능 및 구성에 관한 구체적인 설명을 생략한다. 또한, 이하에서 설명하는 내용은 어디까지나 본 개시의 일 실시예에 관한 것일 뿐 본 개시가 이로써 제한되는 것은 아님을 알아야 한다.

본 개시에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로 본 개시를 한정하려는 의도에서 사용된 것이 아니다. 예를 들면, 단수로 표현된 구성요소는 문맥상 명백하게 단수만을 의미하지 않는다면 복수의 구성요소를 포함하는 개념으로 이해되어야 한다. 본 개시에서 사용되는 "및/또는"이라는 용어는, 열거되는 항목들 중 하나 이상의 항목에 의한 임의의 가능한 모든 조합들을 포괄하는 것임이 이해되어야 한다. 본 개시에서 사용되는 '포함하다' 또는 '가지다' 등의 용어는 본 개시 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐이고, 이러한 용어의 사용에 의해 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하려는 것은 아니다.

본 개시의 실시예에 있어서 '모듈' 또는 '부'는 적어도 하나의 기능이나 동작을 수행하는 기능적 부분을 의미하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 또는 '부'는, 특정한 하드웨어로 구현될 필요가 있는 '모듈' 또는 '부'를 제외하고는, 적어도 하나의 소프트웨어 모듈로 일체화되어 적어도 하나의 프로세서에 의해 구현될 수 있다.

본 개시의 실시예에 있어서 '대화 이해 AI 시스템'은, 사용자로부터 음성 형태의 자연어를 매개로 한 대화형 인터랙션을 통해, 사용자로부터 입력되는 자연어 입력(예컨대, 자연어로 된 사용자로부터의 명령, 진술, 요청, 질문 등)을 수신 및 해석하여 사용자의 인텐트(intent)를 알아내고 그 알아낸 사용자의 인텐트에 기초하여 필요한 동작, 즉 적절한 대화 응답 및/또는 태스크를 제공할 수 있는 임의의 정보 처리 시스템을 지칭할 수 있으며, 특정 형태로 제한되는 것은 아니다.

덧붙여, 달리 정의되지 않는 한 기술적 또는 과학적인 용어를 포함하여, 본 개시에서 사용되는 모든 용어들은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의된 용어들은, 관련 기술의 문맥상 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명백하게 달리 정의하지 않는 한 과도하게 제한 또는 확장하여 해석되지 않는다는 점을 알아야 한다.

이하, 첨부된 도면을 참조하여, 본 개시의 실시예에 대해 구체적으로 설명하기로 한다.

도 1은, 본 개시의 일 실시예에 따라, 대화 이해 AI 시스템이 구현될 수 있는 시스템 환경(100)을 개략적으로 도시한 도면이다. 도시된 바에 의하면, 시스템 환경(100)은, 복수의 요청 사용자 단말(102a-102n), 대화 이해 서비스 서버(104), 통신망(106) 및 복수의 응답 사용자 단말(108a-108m)을 포함한다.

본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n)은 유선 또는 무선 형태의 전화 기능을 구비한 임의의 사용자 장치일 수 있다. 요청 사용자 단말(102a-102n) 각각은, 예컨대 유무선 전화기, 스마트 폰, 태블릿 PC, 스마트 스피커, 데스크탑, 랩탑, PDA, 디지털 TV, 셋탑박스 등을 포함한 다양한 유선 또는 무선 전화 통신 단말일 수 있으며, 특정 형태로 제한되지 않음을 알아야 한다. 본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n) 각각은, 예컨대 PSTN, VoIP, GSM, CDMA, TDMA, OFDM, EDGE(Enhanced Data GSM Environment), TCP/IP, Wi-Fi, LAN, WAN, 기타 임의의 다양한 유선 또는 무선 통신 프로토콜을 이용하여 대화 이해 서비스 서버(104)에 접속할 수 있다. 본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n) 각각은 대화 이해 서비스 서버(104)에 접속하여 원하는 서비스를 요청할 수 있다.

본 개시의 일 실시예에 의하면, 요청 사용자 단말(102a-102n) 각각은, 해당 단말 상의 사용자로부터 음성 입력을 수신할 수 있을 뿐 아니라, 텍스트 및/또는 터치 형태 등 기타 다른 다양한 형태의 사용자 입력을 수신할 수 있고, 수신된 사용자 입력 신호를, 소정의 통신 방식에 따라, 대화 이해 서비스 서버(104)로 송신할 수 있다. 본 개시의 일 실시예에 의하면, 요청 사용자 단말(102a-102n) 각각은, 대화 이해 서비스 서버(104)로부터 소정의 통신 방식에 따라 음성 형태의 응답 신호를 수신할 수 있을 뿐 아니라, 기타 시각 및/또는 촉각 형태 등 기타 다른 다양한 형태의 응답 신호를 수신할 수도 있다.

본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 소정의 유선 또는 무선 통신 방식에 따라, 요청 사용자 단말(102a-102n)과 통신할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 요청 사용자 단말(102a-102n)로부터 들어오는 음성 전화 호출(음성 정보가 포함된, 영상 및 텍스트 등 기타 다른 형태의 정보를 포함하는 다양한 형태의 전화 호출을 포함함)을 수신하고, 요청 사용자 단말(102a-102n)과 후술하는 응답 사용자 단말(108a-108m) 중 하나 사이에 통화 호(통신 세션)를 수립할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 수립된 통화 호를 통하여, 요청 사용자 단말(102a-102n)로부터 사용자 발화(및 음성 발화 입력이 포함된, 영상 및 텍스트 등 기타 다른 형태의 정보를 포함한 다양한 형태의) 입력을 수신할 수 있다.

본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 미리 준비된 지식베이스 모델들에 기초해서 위 수신된 사용자 발화 입력을 처리하여 사용자의 인텐트(intent)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 결정된 사용자 인텐트 및 문맥을 고려하여 사용자에게 답변을 제공할 차례인지를 나타내는 지표(예컨대, 확률적 표시자)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는 또한 수신된 사용자 발화 등을 분석하여 사용자에 관한 정보, 예컨대 사용자 프로필, 사용자 음성의 음향 특징 및/또는 감정 등에 관한 분석 결과를 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 예컨대 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보(제안)를 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 예컨대 위 사용자 프로필, 음성 음향 특징 및/또는 감정 등에 관한 분석 결과를 고려하여, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 생성할 수 있다.

본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 통화 호를 통하여 수신된 사용자 발화 입력을, 그 수신된 사용자 발화 입력을 분석 및 처리하여 획득한 결과, 예컨대 사용자 인텐트(및 문맥) 정보, 답변을 제공할 차례인지 나타내는 지표, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 기타 사용자 프로필 특징, 음성 음향 특징 및 감정 특징 등의 분석 결과 정보 등과 함께, 후술하는 통신망(106)을 통해, 대응하는 응답 사용자 단말(108a-108m) 중 하나로 전송할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 금융, 의료, 법률, 쇼핑 등 다양한 분야의 각종 고객 센터 서버일 수 있으나, 본 개시가 이로써 제한되는 것은 아니다.

본 도면에서는, 대화 이해 서비스 서버(104)가 대화 이해 기능(예컨대, 전술한 사용자 음성의 분석 및 처리에 의한 사용자 인텐트 및 기타 다양한 분석 결과의 획득 및 제공 기능 등)을 내부에 구비한 독립적 형태의 서버로 도시되어 있으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 대화 이해 서비스 서버(104)는, 대화 이해 기능을 내부에 구비하는 대신에, 별도의 외부 대화 이해 서버와의 통신을 통해 필요한 대화 이해 기능을 획득할 수도 있음을 알아야 한다.

본 개시의 일 실시예에 의하면, 통신망(106)은, 임의의 유선 또는 무선 통신망, 예컨대 TCP/IP 통신망을 포함할 수 있다. 본 개시의 일 실시예에 의하면, 통신망(106)은, 예컨대 Wi-Fi망, LAN망, WAN망, 인터넷망 등을 포함할 수 있으며, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 일 실시예에 의하면, 통신망(106)은, 예컨대 이더넷, GSM, EDGE, CDMA, TDMA, OFDM, 블루투스, VoIP, Wi-MAX, Wibro 기타 임의의 다양한 유선 또는 무선 통신 프로토콜을 이용하여 구현될 수 있다.

본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m) 각각은, 통신망(106)을 통하여, 대화 이해 서비스 서버(104)로부터, 전술한 요청 사용자 단말(102a-102n)에서 수신된 사용자 발화 입력과, 그 사용자 발화 입력의 분석 및 처리 결과, 예컨대 사용자 인텐트(및 문맥) 정보, 답변을 제공할 차례인지 나타내는 지표, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 기타 사용자 프로필 특징, 음성 음향 특징 및 감정 특징 등에 관한 분석 결과 등을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m)은, 수신된 사용자 발화 입력과, 각종 분석 결과 등을 각각 음성 출력부 및 화면 출력부(디스플레이)를 통해 해당 응답 사용자 단말(108a-108m) 상의 응답 사용자(예컨대, 상담 직원)에게 제시할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m)은 또한 해당 단말 상의 응답 사용자로부터 음성(및 기타 다양한 형태의) 입력을 수신하고 이를 통신망(106)을 통하여 대화 이해 서비스 서버(104)로 전달할 수 있다.

도 2는, 본 개시의 일 실시예에 따른, 도 1의 대화 이해 서비스 서버(104)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 대화 이해 서비스 서버(104)는, 전화 호 수립/중계부(202), 대화 이해부(204), 및 통신부(206)를 포함한다.

본 개시의 일 실시예에 의하면, 전화 호 수립/중계부(202)는, 요청 사용자 단말(102a-102n) 중 하나와, 응답 사용자 단말(108a-108m) 중 하나 사이에 통화 호를 수립하고, 수립된 통화 호를 통해 양자간 전화 통화(즉, 음성 등의 송수신)가 이루어지도록 동작할 수 있다. 본 개시의 일 실시예에 의하면, 전화 호 수립/중계부(202)는, 소정의 통신 프로토콜에 따라, 요청 사용자 단말(102a-102n)로부터 들어오는 사용자 발화 음성 입력 등을 수신하고, 또한 응답 사용자 단말(108a-108m) 중 하나로부터 전송되어 온 응답 사용자로부터의 음성 입력 등을, 대응하는 요청 사용자 단말(102a-102n)로 전송할 수 있다.

본 개시의 일 실시예에 의하면, 대화 이해부(204)는, 전화 호 수립/중계부(202)를 통하여, 요청 사용자 단말(102a-102n)로부터 수신된 사용자 발화 입력을 수신하고 수신된 발화 입력을 텍스트로 변환할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해부(204)는 또한 미리 준비된 지식베이스 모델들에 기초해서 수신된 사용자 발화 입력에 대응하는 사용자 인텐트(intent)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는 또한 수신된 사용자 발화 입력을 분석하여 사용자에 관한 정보, 예컨대 사용자 프로필 정보, 음성 음향 특징 정보 및 감정 정보 등을 획득할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해부(204)는 또한, 미리 준비된 지식베이스 모델들과, 위 분석된 사용자에 관한 정보 등에 기초하여, 앞서 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 생성할 수 있다.

본 개시의 일 실시예에 의하면, 통신부(206)는, 대화 이해 서비스 서버(104)가, 도 1의 통신망(106)을 통하여, 응답 사용자 단말(108a-108m) 각각과 통신할 수 있게 한다. 본 개시의 일 실시예에 의하면, 통신부(206)는, 전화 호 수립/중계부(202)를 통해 요청 사용자 단말(102a-102n)로부터 수신된 사용자 발화 입력 신호 등과, 그 사용자 발화 입력 신호 등으로부터 대화 이해부(204)에서 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과를, 소정의 프로토콜에 따라 응답 사용자 단말(108a-108m) 중 하나로 전송할 수 있다.

도 3은, 본 개시의 일 실시예에 따른, 도 2의 대화 이해부(204)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 대화 이해부(204)는, 음성-텍스트 변환(Speech-To-Text; STT) 모듈(302), 음향 특징 분석 모듈(304), 자연어 이해(Natural Language Understanding; NLU) 모듈(306), 대화 이해 지식베이스(308), 사용자 프로필 분석 모듈(310), 대화 관리 모듈(312), 감정 분석 모듈(314), 및 대화 생성 모듈(316)을 포함한다.

본 개시의 일 실시예에 의하면, STT 모듈(302)은, 도 2의 전화 호 수립/중계부(202)를 통해 수신된, 전화 호 요청 사용자의 발화 입력을 수신하고, 수신된 발화 입력을 패턴 매칭 등에 기초하여 텍스트 데이터로 변환할 수 있다. 본 개시의 일 실시예에 의하면, STT 모듈(302)은, 전화 호 요청 사용자의 발화 입력으로부터 특징을 추출하여 특징 벡터열을 생성할 수 있다. 본 개시의 일 실시예에 의하면, STT 모듈(302)은, DTW(Dynamic Time Warping) 방식이나 HMM 모델(Hidden Markov Model), GMM 모델(Gaussian-Mixture Mode), 딥 신경망 모델, n-gram 모델 등의 다양한 통계적 모델에 기초하여, 텍스트 인식 결과, 예컨대 단어들의 시퀀스를 생성할 수 있다.

본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, STT 모듈(302)와 마찬가지로, 도 2의 전화 호 수립/중계부(202)를 통해 수신된 사용자 발화 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, 수신된 사용자 발화 입력으로부터 음성의 음향 특징 정보들을 측정 및/또는 추출할 수 있다. 본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, 예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등을 측정 및/또는 추출할 수 있다.

본 개시의 일 실시예에 의하면, NLU 모듈(306)은, STT 모듈(302)로부터 텍스트 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, NLU 모듈(306)에서 수신되는 텍스트 입력은, 예컨대 도 2의 전화 호 수립/중계부(202)를 통해 수신된 사용자 발화 입력으로부터 STT 모듈(302)에서 생성된 텍스트 인식 결과, 예컨대 단어들의 시퀀스일 수 있다. 본 개시의 일 실시예에 의하면, NLU 모듈(306)은, 후술하는 대화 이해 지식베이스(308)에 기초하여, 위 수신된 텍스트 입력을 하나 이상의 사용자 인텐트(intent)에 대응시킬 수 있다. 여기서 사용자 인텐트는, 그 사용자 인텐트에 따라 대화 이해 서비스 서버(104)에 의해 이해되고 수행될 수 있는 일련의 동작(들)과 연관될 수 있다.

본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 예컨대 미리 정의된 온톨로지 모델을 포함할 수 있다. 본 개시의 일 실시예에 의하면, 온톨로지 모델은, 예컨대 노드들 간의 계층 구조로 표현될 수 있는데, 각 노드는 사용자의 인텐트에 대응한 "인텐트" 노드 또는 "인텐트" 노드에 링크된 하위 "속성" 노드("인텐트" 노드에 직접 링크되거나 "인텐트" 노드의 "속성" 노드에 다시 링크된 하위 "속성" 노드) 중 하나일 수 있다. 본 개시의 일 실시예에 의하면, "인텐트" 노드와 그 "인텐트" 노드에 직접 또는 간접 링크된 "속성" 노드들은 하나의 도메인을 구성할 수 있고, 온톨로지는 이러한 도메인들의 집합으로 구성될 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 예컨대 대화 이해 서비스 서버(104)가 이해하고 그에 대응한 동작을 수행할 수 있는 모든 인텐트들에 각각 대응하는 도메인들을 포함하도록 구성될 수 있다. 본 개시의 일 실시예에 의하면, 온톨로지 모델은, 노드의 추가나 삭제, 또는 노드 간의 관계의 수정 등에 의해 동적으로 변경될 수 있음을 알아야 한다.

본 개시의 일 실시예에 의하면, 온톨로지 모델 내의 각 도메인의 인텐트 노드 및 속성 노드들은, 그에 대응하는 사용자 인텐트 또는 속성들에 관련된 단어들 및/또는 구절들과 각각 연관될 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 온톨로지 모델을, 계층 구조의 노드들과, 각 노드 별로 연관된 단어들 및/또는 구절들의 집합으로 구성된, 예컨대 어휘 사전 형태(구체적으로 도시되지 않음)로 구현할 수 있고, NLU 모듈(306)은 이와 같이 어휘 사전 형태로 구현된 온톨로지 모델에 기초하여 사용자 인텐트를 결정할 수 있다. 예컨대, 본 개시의 일 실시예에 의하면, NLU 모듈(306)은, 텍스트 입력 또는 단어들의 시퀀스를 수신하면, 그 시퀀스 내의 각 단어들이 온톨로지 모델 내의 어떤 도메인의 어떤 노드들에 연관되는지 결정할 수 있고, 그러한 결정에 기초하여 대응하는 도메인, 즉 사용자 인텐트를 결정할 수 있다.

본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력을 분석하여 사용자 프로필에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력과, 그 발화 입력에 관한 처리 및 분석 결과, 예컨대 전술한 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트 등을 종합적으로 분석하여, 사용자 프로필에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 예컨대 사용자의 성별, 연령대, 사용 언어 등을 추정 또는 획득하고, 획득된 정보를 제공할 수 있다.

본 개시의 일 실시예에 의하면, 대화 관리 모듈(312)은, NLU 모듈(306)에 의해 결정된 사용자 인텐트에 기초하고, 소정의 대화 관리 지식베이스 모델에 따라, 위 사용자 인텐트에 대응하는 일련의 동작 흐름을 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 관리 모듈(312)은, 소정의 대화 관리 지식베이스 모델에 기초하여, 예컨대 NLU 모듈(306)로부터 수신된 사용자 인텐트에 대응하여 어떠한 동작, 예컨대 어떠한 대화 응답을 행하여야 할지를 결정하고, 그에 따른 세부 동작 흐름을 생성할 수 있다.

본 개시의 일 실시예에 의하면, 감정 분석 모듈(314)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력을 분석하여, 사용자의 현재 감정에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 감정 분석 모듈(314)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력, 그 발화 입력에 관한 처리 및 분석 결과, 예컨대 전술한 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트, 및/또는 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보(예컨대, 사용자의 성별, 연령대, 사용 언어 등) 등을 종합적으로 분석하여, 사용자의 현재 감정에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 감정 분석 모듈(312)은, 사람의 감정 유형을 소정의 복수 개수의 유형으로 분류하고(예컨대, 열의, 행복, 기쁨, 안도감, 걱정, 분노, 슬픔, 놀람, 좌절, 공허, 증오, 자제함 등), 위 정보들의 종합적 분석에 따라 각 감정 유형별로 값을 할당하여, 그 할당된 값을 통해 사용자의 현재 감정 상태를 나타낼 수 있다.

본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 대화 관리 모듈(312) 에 의하여 생성된 대화 흐름에 기초하여 사용자에게 제공될 대화 응답으로서 적절한 후보를 하나 이상 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 전술한 감정 분석 모듈(314)에 의하여 각 감정 유형별로 할당된 값(즉, 사용자의 현재 감정 상태 정보)을 고려하여 현재 대화에서 적절하다고 판단되는 대화 응답 후보를 하나 또는 복수 개 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 사용자의 감정 상태에 관한 정보 뿐만 아니라, 전술한 사용자 음성 입력에 관한 전술한 처리 및 분석 결과, 예컨대 전술한 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트, 및/또는 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보(예컨대, 사용자의 성별, 연령대, 사용 언어 등) 등을 참조하여, 사용자에게 제공될 대화 응답으로서 적절한 후보를 하나 이상 생성할 수 있다.

도 4는, 본 개시의 일 실시예에 따른, 도 1의 응답 사용자 단말(108)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 응답 사용자 단말(108)은, 통신부(402), 응답 사용자 입력 수신부(404), 정보 시각화/화면 출력부(406) 및 음성 출력부(408)를 포함한다.

본 개시의 일 실시예에 의하면, 통신부(402)는, 응답 사용자 단말(108)이 통신망(106)을 통하여, 대화 이해 서비스 서버(104)와 통신할 수 있게 한다. 본 개시의 일 실시예에 의하면, 통신부(402)는, 예컨대 응답 사용자 입력 수신 모듈(404) 상에서 획득된 신호가 소정의 프로토콜에 따라 통신망(106)을 통하여 대화 이해 서비스 서버(104)로 전송되도록 할 수 있다. 본 개시의 일 실시예에 의하면, 통신부(402)는, 예컨대 통신망(106)을 통하여 대화 이해 서비스 서버(104)로부터 수신된 각종 신호, 예컨대 사용자 음성 입력 신호, 그 사용자 음성 입력 신호 등으로부터 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과 등을 수신하고, 소정의 프로토콜에 따라 적절한 처리를 수행할 수 있다.

본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 응답 사용자 단말(108) 상의 응답 사용자(예컨대, 상담 직원)로부터 음성 형태의 자연어 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 예컨대 마이크로폰 및 오디오 회로를 포함하며, 마이크로폰을 통해 사용자 음성 입력 신호를 획득하고 획득된 신호를 오디오 데이터로 변환할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자로부터의 자연어 입력은, 예컨대 전술한 하나 이상의 대화 응답 후보, 즉 통신망(106) 및 통신부(402)를 통하여 대화 이해 서비스 서버(104)로부터 수신된, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보 중 하나로서 응답 사용자 단말(108) 상의 응답 사용자에 의해 선택된 것에 대응할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 또한, 예컨대 마우스, 조이스틱, 트랙볼 등의 각종 포인팅 장치, 키보드, 터치패널, 터치스크린, 스타일러스 등 다양한 형태의 입력 장치를 포함할 수 있고, 이들 입력 장치를 통해 응답 사용자로부터 입력된 텍스트 입력 및/또는 터치 입력 신호를 획득할 수 있다.

본 개시의 일 실시예에 의하면, 정보 시각화/화면 출력부(406)는, 통신망(106)을 통하여 대화 이해 서비스 서버(104)로부터 수신된 각종 신호, 예컨대 사용자 음성 입력 신호 등으로부터 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과(예컨대, 전술한 도 3의 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보, 도 3의 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보, 도 3의 감정 분석 모듈(312)에 의해 결정된 사용자 감정 정보 등)을 시각 정보로서 변환하고, 이를 표시할 수 있다. 본 개시의 일 실시예에 의하면, 정보 시각화/화면 출력부(406)는, 예컨대 LCD, LED, OLED, QLED 등의 기술에 기초한 터치 스크린 등의 각종 디스플레이 장치를 포함하고, 이들 디스플레이 장치를 통해 사용자 입력에 대응하는 시각적 응답, 예컨대 텍스트, 기호, 비디오, 이미지, 하이퍼링크, 애니메이션, 각종 노티스 등을 사용자에게 제시할 수 있다.

본 개시의 일 실시예에 의하면, 음성 출력부(408)는, 통신망(106) 및 통신부(402)를 통하여 전송되어 온, 사용자 단말(102)로부터의 사용자 음성 입력 신호를 수신하고, 이를 응답 사용자 단말(108) 상에서 재생 및 출력할 수 있다. 본 개시의 일 실시예에 의하면, 음성 출력부(408)는, 예컨대 스피커 또는 헤드셋을 포함하고, 전술한 사용자 음성 입력 신호를 스피커 또는 헤드셋을 통해 응답 사용자에게 제공할 수 있다.

도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 대화 이해 AI 시스템이 주로 고객 상담 센터 등에 활용되는 경우를 중심으로 설명되었으나 본 개시가 이로써 제한되는 것은 아님을 알아야 한다. 본 개시의 다른 실시예에 의하면, 대화 이해 AI 시스템은, 고객 상담 센터 이외에도 대화 이해 서비스 서버를 경유한 다양한 형태의 사용자간 음성 통화에도 적용될 수 있음을 알아야 한다. 또한, 도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 대화 이해 서비스 서버(104)에 의하여 분석된 정보의 시각 정보를 응답 사용자 단말(108) 상의 화면 출력부를 통해 제시되는 경우를 중심으로 설명되었으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 대화 이해 서비스 서버(104)에 의하여 분석된 정보의 시각 정보가 복수의 응답 사용자 단말(108)을 관리하는 관리자 단말(도시되지 않음) 상에 제시될 수도 있음을 알아야 한다.

도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 또한 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 간 기능에 있어서, 응답 사용자 단말(108)은 오로지 사용자 입출력 기능만을 제공하고 그 외 대화 이해 등 모든 기능들이 대화 이해 서비스 서버(104)에 위임된, 소위 "씬 클라이언트-서버 모델"에 기초하여 구현된 것과 같이 설명되어 있으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 전술한 기능들이 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 사이에 분배되어 구현될 수도 있고, 또는 모든 기능들이 응답 사용자 단말(108) 상에 설치된 독립형 애플리케이션으로 구현될 수도 있음을 알아야 한다. 또한, 본 개시의 일 실시예에 따라 전술한 대화 이해 기능 등의 각 기능들을 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 사이에 분배하여 구현하는 경우, 각 기능의 분배는 실시예마다 달리 구현될 수 있음을 알아야 한다. 또한, 도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 편의상 특정 모듈이 소정의 동작들을 수행하는 것처럼 설명되었으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 위 설명에서 어느 특정 모듈에 의해 수행되는 것과 같이 설명된 동작들이, 그와 다른 별개의 모듈에 의해 각각 수행될 수 있음을 알아야 한다.

도 5는, 본 개시의 일 실시예에 따라, 응답 사용자 단말(108)의 화면 출력부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다. 도시된 예는, 예컨대, 쇼핑몰 고객 센터에 전화를 한 사용자와 상담 직원 간의 통화에 관한 것이라 할 수 있다.

도시된 바에 의하면, 화면 좌측 상단 박스(502)에는 사용자로부터의 발화 문장이 텍스트로 변환되어 표시되어 있다. 도시된 바에 의하면, 텍스트로 변환된 사용자 발화 문장(즉, "hi, do you have a moto drill?")의 각 단어가 각 품사 표시와 함께 표시되어 있는데, 본 발명이 이로써 제한되는 것은 아니다. 도 5에 도시된 바에 의하면, 또한, 화면 좌측 중간 박스(504)에는, 위 사용자 발화 문장을 처리하여 획득된 사용자 인텐트가 문장 표현으로 나타나 있다(즉, 위 사용자 발화 문장을 말한 사용자의 속마음에 해당하는 인텐트가, 예컨대 "Do I really have to buy this?"의 형태로 표시되어 있다). 본 개시의 일 실시예에 의하면, 사용자 발화 문장의 인텐트의 문장 표현이 화면 상에 표현될 때 해당 단말 상의 사용자가 쉽게 인지할 수 있게 하는 방식(예컨대, 시각적으로 현저한 색깔, 하이라이트 또는 볼드체 형식 등을 비롯한 다양한 방식)으로 표현될 수 있음을 알아야 한다. 그리고, 화면 좌측 하단 박스(506)에는, 응답 시기인지가 되었는지 확률적 상태를 알리는 turn taking 항목이 1로 표시되어, 사용자의 발화가 끝났고 응답을 제공할 시기가 되었음이 표시되어 있다.

도 5를 참조하면, 또한, 화면 중간 상단 박스(508)에는, 발화 사용자의 성별, 나이, 및 사용 언어의 프로필 정보가 표시되어 있고, 화면 우측 상단 박스(510)에는, 사용자에 의한 발화 문장 등으로부터 획득 및 분석된, 사용자의 현재 감정 상태를 각 감정 표지별로 확률로서 표시한 것을 알 수 있다. 도시된 바에 의하면, 현재 발화 사용자의 감정 상태는 중립(neutral)의 상태가 가장 우세함을 알 수 있다. 도시된 바에 의하면, 도 5의 화면 우측 중간 박스(512)에는, 사용자 발화 문장의 음성 음향 특징, 예컨대 볼륨, 피치, 및 속도 등의 분석 결과가 표시되어 있다. 또한, 도 5에 도시된 바에 의하면, 화면의 중간 하단 박스(514)에는, 위 사용자 발화 문장 및 기타 다양한 분석 결과 등을 종합한 결과로서, 사용자에게 현재 단계에서 제공될 수 있는 하나의 후보 응답(즉, "Where do you want to use this for?)가 그 신뢰도에 관한 확률적 표시와 함께 표시되어 있다. 본 개시의 일 실시예에 의하면, 화면 상에 후보 응답을 표현할 때 해당 단말 상의 사용자가 쉽게 인지할 수 있게 하는 가시성 높은 방식(예컨대, 시각적으로 현저한 색깔, 하이라이트 또는 볼드체 형식 등을 비롯한 다양한 방식)으로 표현될 수 있음을 알아야 한다.

도 6은, 본 개시의 다른 실시예에 따라, 응답 사용자 단말(102)의 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다. 도시된 예는, 예컨대 커플 간의 전화 통화에 관한 것이라 할 수 있다.

도시된 바에 의하면, 화면 좌측 상단 박스(602)에는 사용자로부터의 발화 문장이 텍스트로 변환되어 표시되어 있다. 도시된 바에 의하면, 텍스트로 변환된 사용자 발화 문장(즉, "Sarah posted photos of the newly built Hotel restaurant.")의 각 단어가 각 품사 표시와 함께 표시되어 있는데, 본 발명이 이로써 제한되는 것은 아니다. 도 6에 도시된 바에 의하면, 또한, 화면 좌측 중간 박스(604)에는, 위 사용자 발화 문장을 처리하여 획득된 사용자 인텐트가 문장 표현으로 나타나 있다(즉, 위 사용자 발화 문장을 말한 사용자의 속마음에 해당하는 인텐트가, 예컨대 "Make a reservation. I want to go there."의 형태로 표시되어 있다). 그리고, 화면 좌측 하단 박스(606)에는, 응답 시기인지가 되었는지 확률적 상태를 알리는 turn taking 항목이 0.7로 표시되어 있다.

도 6을 참조하면, 또한, 화면 중간 상단 박스(608)에는, 발화 사용자의 성별, 나이, 및 사용 언어의 프로필 정보가 표시되어 있고, 화면 우측 상단 박스(610)에는, 사용자에 의한 발화 문장 등으로부터 획득 및 분석된, 사용자의 현재 감정 상태를 각 감정 표지별로 확률로서 표시한 것을 알 수 있다. 도시된 바에 의하면, 현재 발화 사용자의 감정 상태는 중립(neutral)의 상태가 가장 우세함을 알 수 있다. 도시된 바에 의하면, 도 6의 화면 우측 중간 박스(612)에는, 사용자 발화 문장의 음성 음향 특징, 예컨대 볼륨, 피치, 및 속도 등의 분석 결과가 표시되어 있다. 또한, 도 6에 도시된 바에 의하면, 화면의 중간 하단 박스(614)에는, 위 사용자 발화 문장 및 기타 다양한 분석 결과 등을 종합한 결과로서, 사용자에게 현재 단계에서 제공될 수 있는 하나의 후보 응답(즉, "I already made a reservation for our one-year anniversary.)가 그 신뢰도에 관한 확률적 표시와 함께 표시되어 있다.

당업자라면 알 수 있듯이, 본 발명이 본 개시에 기술된 예시에 한정되는 것이 아니라 본 개시의 범주를 벗어나지 않는 범위 내에서 다양하게 변형, 재구성 및 대체될 수 있다. 본 명세서에 기술된 다양한 기술들은 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 조합에 의해 구현될 수 있음을 알아야 한다.

본 개시의 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨터 프로세서 등에 의해 판독 가능한 저장 매체, 예컨대 EPROM, EEPROM, 플래시 메모리장치와 같은 비휘발성 메모리, 내장형 하드 디스크와 착탈식 디스크 같은 자기 디스크, 광자기 디스크, 및 CDROM 디스크 등을 포함한 다양한 유형의 저장 매체에 저장된 형태로 구현될 수 있다. 또한, 프로그램 코드(들)는 어셈블리어나 기계어로 구현될 수 있다. 본 개시의 진정한 사상 및 범주에 속하는 모든 변형 및 변경을 이하의 특허청구범위에 의해 모두 포괄하고자 한다.

Claims

서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 상기 통화는, 상기 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 - 중에, 상기 통화에 개입하여 상기 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하는, 컴퓨터에 의해 수행되는 방법으로서,
상기 통화 수행 중에, 상기 디스플레이로 하여금,
상기 제1 사용자 단말 상에서 제1 사용자에 의해 입력된 사용자 발화 입력이, 소정의 지식베이스 모델에 따라 자연어 처리됨에 의해 결정된 사용자 인텐트의 텍스트 표현을 표시하도록 하는 단계; 및
상기 사용자 인텐트에 기초하여 결정된, 상기 사용자 발화 입력에 대한 대화 응답으로서 제공될 수 있는 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계를 포함하는,
디스플레이 제어 방법.
삭제
삭제
제1항에 있어서,
상기 제2 사용자 단말에 연관된 상기 소정의 디스플레이는, 상기 제2 사용자 단말 상에서 상기 통화를 수행하는 제2 사용자를 위한 디스플레이 및 상기 제2 사용자 단말과 원격으로 배치된 관리자 디스플레이 중 하나를 포함하는, 디스플레이 제어 방법.
제1항에 있어서,
상기 통화 수행 중에, 상기 디스플레이로 하여금,
상기 사용자 발화 입력의 분석에 의하여 추정된 상기 제1 사용자의 프로필 정보- 상기 프로필 정보는, 상기 제1 사용자의 성별, 연령대, 및 사용 언어의 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함하는,
디스플레이 제어 방법.
제1항에 있어서,
상기 통화 수행 중에, 상기 디스플레이로 하여금,
상기 사용자 발화 입력의 분석에 의하여 획득된 음성 음향 정보- 상기 음성 음향 정보는, 상기 사용자 발화 입력의, 볼륨, 피치 및 속도 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함하는,
디스플레이 제어 방법.
삭제
제1항에 있어서,
상기 통화 수행 중에, 상기 디스플레이로 하여금,
상기 사용자 발화 입력의 텍스트 표현을 표시하도록 하는 단계를 더 포함하는, 디스플레이 제어 방법.
삭제
하나 이상의 명령어를 수록한 컴퓨터 판독가능 기록 매체로서,
상기 하나 이상의 명령어는, 실행될 경우, 컴퓨터 장치로 하여금, 제1항, 제4항 내지 제6항 및 제8항 중 어느 한 항의 방법을 수행하도록 하는, 컴퓨터 판독가능 기록 매체.
서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 상기 통화는, 상기 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 -에 개입하여 상기 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하도록 구성된 컴퓨터 장치로서,
상기 제1 사용자 단말로부터 사용자 발화 입력을 수신하도록 구성된 수신 모듈;
상기 수신된 사용자 발화 입력을 분석하는 대화 이해 모듈- 상기 대화 이해 모듈은, 소정의 지식베이스 모델을 포함하고, 상기 소정의 지식베이스 모델에 따라, 상기 수신된 사용자 발화 입력을 자연어 처리하여 상기 사용자 발화 입력에 부합하는 사용자 인텐트를 결정하고, 상기 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 결정하도록 구성됨 -; 및
상기 결정된 사용자 인텐트 및 상기 하나 이상의 대화 응답 후보의 정보를 상기 디스플레이로 전송하도록 구성된 통신 모듈을 포함하는,
컴퓨터 장치.