WO2023219298A1

WO2023219298A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2023219298A1
Application number: PCT/KR2023/005365
Authority: WO
Inventors: 최형탁; 라부루로힛; 고현목; 양해훈; 이승철
Original assignee: 삼성전자주식회사
Priority date: 2022-05-09
Filing date: 2023-04-20
Publication date: 2023-11-16

Abstract

전자 장치가 개시된다. 본 전자 장치는 통신 장치, 적어도 하나의 인스트럭션을 저장하고, 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 메모리, 및 적어도 하나의 인스트럭션을 실행함으로써, 대화 컨텐츠로부터 텍스트를 추출하고, 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출하고, 산출된 벡터 값 및 저장된 하나 이상의 벡터 값을 이용하여 응답 정보를 생성하는 프로세서를 포함한다.

Description

전자 장치 및 이의 제어 방법

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 사용자 대화 이력을 벡터화하여 저장하여 이용하는 전자 장치 및 이의 제어 방법에 관한 것이다.

최근에는 메시지 어플리케이션(혹은, 메신저 어플리케이션, 채팅 어플리케이션) 또는 음성 인식 어플리케이션을 통해 입력된 음성 또는 텍스트로부터 사용자 요청(또는 명령)을 확인하고, 확인된 사용자 요청에 대응되는 서비스(예를 들어, 스케줄 관리 서비스, 예약 서비스, 쇼핑 서비스 등)를 제공하고 있다.

사용자가 요청한 서비스에 대한 정확한 응답을 위해서는, 사용자가 입력한 텍스트 또는 음성으로부터 사용자의 의도 및 명령을 정확하게 파악하는 것이 요구되었다.

상기 정보는 본 개시의 이해를 돕기 위한 정보로만 제공된다. 상술한 내용 중 어느 것이 본 개시와 관련하여 선행 기술로 적용될 수 있는지에 대해서 어떠한 결정도 없으며, 어떠한 주장도 이루어지지 않았다.

본 개시의 예는 적어도 상술한 문제점 및/또는 단점을 해결하기 위한 것이고, 후술하는 이점을 제공하는 것이다. 따라서, 본 개시의 목적은 사용자의 대화 이력을 벡터화하여 저장할 수 있는 전자 장치 및 그 제어 방법을 제공하는 데 있다.

추가적으로 예에 대해서는 다음의 설명에 후술할 것이고, 본 개시의 예들로부터 명백해지거나 학습될 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치는 통신 장치. 적어도 하나의 인스트럭션을 저장하고, 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 메모리, 및 상기 적어도 하나의 인스트럭션을 실행함으로써, 대화 컨텐츠로부터 텍스트를 추출하고, 상기 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출하고, 상기 산출된 벡터 값 및 상기 저장된 하나 이상의 벡터 값을 이용하여 응답 정보를 생성하는 프로세서를 포함한다.

한편, 본 개시의 일 실시 예에 따른 전자 장치에서의 제어 방법은 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 단계, 대화 컨텐츠를 수신하는 단계, 상기 대화 컨텐츠에 대응되는 응답 정보를 생성하는 단계, 및 상기 응답 정보를 전송하는 단계를 포함하고, 상기 응답 정보를 생성하는 단계는, 상기 대화 컨텐츠로부터 텍스트를 추출하는 단계, 상기 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출하는 단계, 및 상기 산출된 벡터 값 및 상기 저장된 하나 이상의 벡터 값을 이용하여 응답 정보를 생성하는 단계를 포함한다.

한편, 본 개시의 일 실시 예에 따른 전자 장치에서의 제어 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서, 상기 제어 방법은, 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 단계, 대화 컨텐츠에 포함된 텍스트에 대응되는 벡터 값을 수신하는 단계, 상기 대화 컨텐츠에 대응되는 응답 정보를 생성하는 단계, 및 상기 응답 정보를 전송하는 단계를 포함하고, 상기 응답 정보를 생성하는 단계는, 상기 저장된 벡터 값 중 상기 수신된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 선택하고, 상기 선택된 벡터 값 및 상기 수신된 벡터 값 각각을 기설정된 디코딩 알고리즘을 이용하여 텍스트로 변환하고, 상기 수신된 벡터 값에 대응되는 텍스트를 이용하여 확인된 사용자의 요청 및 슬롯 정보와 상기 기설정된 유사도를 갖는 벡터 값을 이용하여 확인된 슬롯 정보를 이용하여 응답 정보를 생성한다.

본 개시의 실시예들의 상술하거나 다른 측면, 특징, 이익들은 첨부도면을 참조한 아래의 설명으로부터 더욱 명백해질 것이다. 첨부도면에서:

도 1은 본 개시의 일 실시 예에 따른 대화 시스템을 나타내는 도면,

도 2는 본 개시의 일 실시 예에 따른 대화 시스템의 동작을 나타내는 시퀀스도,

도 3은 본 개시의 일 실시 예에 따른 TOD(task_oriented Dialogue) 시스템의 동작 예를 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블럭도,

도 5는 본 개시의 일 실시 예에 따른 전자 장치의 다른 구성을 도시한 블록도,

도 6은 본 개시의 일 실시 예에 따른 대화 서비스 모델을 설명하기 위한 도면,

도 7은 도 6의 벡터 DB의 구성을 설명하기 위한 도면,

도 8은 도 6의 인코더의 동작을 설명하기 위한 블럭도,

도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도,

도 10은 본 개시의 일 실시 예에 따른 전자 장치에서의 대화 방법을 설명하기 위한 흐름도,

도 11은 본 개시의 일 실시 예에 따른 대화 시스템에 대한 트리거 방법을 설명하기 위한 흐름도, 그리고,

도 12는 본 개시의 일 실시 예에 따른 대화 시스템의 동작을 나타내는 시퀀스도이다.

도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

-

이하에서는 본원의 청구항 및 그의 등가물(equivalent)의 포괄적인 이해를 돕기 위하여, 본 발명의 다양한 실시 예가 기재된다. 그러나 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.

이하의 설명 및 청구항에 사용된 용어 및 단어는 서지적 의미로 제한되지 않으며, 발명자가 개시 내용을 명화하고 일관되게 설명하기 위하여 사용된 것이다. 따라서, 본 발명의 다양한 실시예에 대한 다음의 설명은 청구항 및 그 등가물에 의해 정의된 바와 같이 본 발명을 제한할 목적이 아니라, 예시 목적으로 사용되었다.

그리고 단수 형태(예를 들어, "a", "an", "the")는 문맥상 명백하게 달리 지시하지 않는 한 복수 지시 대상을 포함하는 것으로 이해되어야 한다. 예를 들어, "부품 표면"과 같은 표현은 하나 이상의 표면을 의미할 수 있다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다." 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상 "등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째, "등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않은 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

그리고 본 개시에서 "값"이라 함은 스칼라값뿐만 아니라 벡터도 포함하는 개념으로 정의된다. 그리고 본 개시에서 '산출한다', '계산한다' 등의 표현은 해당 산출 또는 계산의 결과물을 생성한다는 표현으로 대체될 수 있다.

한편, 본 개시의 대화 이력 정보는 대화창 내의 사용자와 전자 장치의 응답으로 구성된 텍스트 정보를 의미한다. 사용자 요청 및 전자 장치의 응답은 대화창 내의 표시된 내용 중 적어도 하나이거나, 전자 장치의 출력하는 음성 내용일 수도 있다. 이와 같은 이력 정보는 하나의 사용자와 하나의 응답 봇 간의 대화 이력일 수 있으며, 복수의 사용자와 하나의 응답 봇 간의 대화 이력일 수 있다. 여기서 응답 봇은 사용자의 요청에 따라 특정의 서비스를 제공하는 자동화된 기계 프로그램이다. 그리고 이러한 대화 이력 정보는 사용자로부터 직접 입력받은 텍스트 정보뿐만 아니라, 음성 신호 또는 음성 신호에 대한 음성 인식 결과인 텍스트, 동영상, 이모티콘 등을 포함할 수 있다.

그리고 본 개시에서 텍스트 정보는 적어도 하나의 사용자 요청 및/또는 사용자 요청에 대응되는 슬롯 정보를 갖는 정보이다. 이러한 텍스트 정보는 문장 정보, 명령 정보, 요청 정보, 쿼리 등으로 지칭될 수 있다. 그리고 텍스트 정보는 하나의 문장으로 구성될 수 있고, 복수의 문장으로 구성될 수도 있다.

그리고 사용자 요청은 특정 서비스의 수행을 요청하는 명령이고, 슬롯 정보는 해당 요청을 특정하기 위한 목적물 또는 부가 설명 정보일 수 있다. 예를 들어, "TV Turn-on"이란 문장에서 "turn-on"은 사용자 요청이고, TV가 슬롯 정보일 수 있다. 이와 같은 구분은 일 예이며, 시스템 구현 방식에 따라 다양하게 구현될 수 있다. 즉, 사용자 요청을 보다 상세하게 구분하는 경우에는 상술한 "TV turn-on"이 하나의 사용자 요청일 수 있다.

그리고 본 개시에서의 서비스는 해당 장치에 설치된 어플리케이션의 구동을 통하여 수행할 수 있는 기능뿐만 아니라, 다른 장치를 이용 또는 제어하여 수행할 수 있는 기능, 복수의 장치를 이용 또는 제어하여 수행할 수 있는 기능 등을 포함할 수 있다.

그리고 본 개시에서 문자형 데이터는 실수, 허수 등과 같은 수치형 데이터를 제외한 데이터를 의미하며, 텍스트로 구성되는 데이터뿐만 아니라, 특정 정보를 수치 값으로 변환할 수 있는 모든 형태의 데이터(예를 들어, 이미지 데이터, 음성 데이터)를 포함한다.

후술하는 본 개시의 각 단계의 수학적 연산 및 산출은 해당 연산 또는 산출을 하기 위해 공지되어 있는 코딩 방법 및/또는 본 개시에 적합하게 고안된 코딩에 의해서 컴퓨터 연산으로 구현될 수 있다.

이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시 예에 따른 대화 시스템을 나타내는 도면이다.

도 1을 참조하면, 대화 시스템(1000)은 단말장치(100) 및 서버(200)를 포함할 수 있다.

단말장치(100)는 사용자로부터 대화 정보를 입력받고, 입력받은 대화 정보를 서버(200)에 전송할 수 있다. 여기서 대화 정보는 사용자가 직접 입력한 텍스트이거나, 사용자의 발화 음성을 음성 인식을 통하여 텍스트로 변환한 음성 인식 결과일 수 있다.

이러한 대화 정보는 대화 컨텐츠로 지칭될 수 있다. 예를 들어, 대화 컨텐츠에는 텍스트(구체적으로, 문장(phrase)), 음성, 동영상, 이모티콘 등을 포함할 수 있다. 이하에서는 설명을 용이하게 하기 위하여, 텍스트 기반의 정보를 대화 정보라고 지칭하고, 텍스트 이외에 컨텐츠로 구성되는 정보를 대화 컨텐츠라고 지칭한다.

서버(200)는 단말장치(100)로부터 대화 정보를 수신하고, 수신된 대화 정보에 대응되는 응답 정보를 생성하여 단말장치(100)에 전송할 수 있다.

이때, 서버(200)는 현재 대화 정보만을 이용하여 응답 정보를 생성하거나, 현재 사용자의 대화 이력 정보에 포함된 텍스트만을 이용하여 응답 정보를 생성하거나, 현재 사용자뿐만 아니라 다른 사용자들의 대화 이력 정보에 대응되는 벡터 값을 이용하여 응답 정보를 생성할 수 있다.

예를 들어, 수신된 대화 정보에 "A 음악 틀어줘"라는 텍스트가 포함되어 있는 경우, 서버(200)는 사용자의 요청(intent)이 음악 재생명령이고, "A음악"(슬롯)것을 확인하여, 음악재생 애플리케이션을 통하여 A 음악 재생이 필요하다는 응답 정보를 생성할 수 있다.

한편, 사용자의 요청에 대응되는 서비스를 진행함에 있어서, 상술한 대화 정보만으로 특정의 서비스를 진행하기 어려운 경우나, 해당 요청을 수행하는 방법의 가짓수가 여러 가지인 경우, 현재 입력된 대화 정보만으로 특정 서비스를 진행하기 어려운 경우가 있다.

예를 들어, 수신된 대화 정보에 "TV 틀어줘"라는 텍스트가 포함되어 있는 경우, TV라는 별도의 전자 기기의 제어를 요청하는 것인지, 아니면, 단말장치(100) 내에 포함된 특정 어플리케이션의 실행을 요청하는 것인지를 구분하기 어려운 경우가 있다.

즉, 단말장치(100)에 별도의 TV 장치를 제어하기 위한 제1 어플리케이션 및 직접 TV 컨텐츠를 제어하기 위한 제2 어플리케이션이 설치되어 있는 경우에, 사용자의 "TV 틀어줘"라는 요청은 해당 대화 정보만으로 사용자의 요청을 정확하게 파악하기 어렵다.

이 경우, 서버(200)는 사용자의 기존의 대화 이력을 이용하여, 기존에 사용자가 별도의 TV 장치의 제어를 요청한 이력이 있다면, 두 가지 선택지 중 TV 장치의 제어를 요청한 것으로 파악하고, 별도의 TV 장치의 제어를 수행하기 위한 응답 정보를 생성할 수 있다.

이와 같이 사용자의 대화 이력에 사용자의 요청을 특정하기 위한 정보(즉, 슬롯 정보)가 포함되어 있으면, 서버(200)는 해당 정보를 활용하여 더욱 정확한 응답 정보를 활용하여 응답 정보를 생성하는 것이 가능하다.

또한, 사용자의 발화가 정확하게 인식되지 못한 경우에도 서버(200)는 정확한 응답 정보를 생성하기 어렵다. 예를 들어, 사용자가 표준어가 아닌 비표준어를 사용하여 발화한 경우, 또는 사용자의 연령이 낮아 사용자의 발화 의도 또는 슬롯의 내용을 정확하게 인식하지 못하는 경우가 있다. 예를 들어, TV에 대한 객체를 서버(200)는 텔레비전으로 인식하고 있는데, 사용자가 TV를 테레비, 티비 등의 명칭으로 지칭하는 경우, 서버(200)는 사용자의 요청을 인식하지 못할 수 있다.

만약, 다른 사용자의 "테레비 켜줘"라는 요청에 대응하여 외부 TV를 턴-온하는 응답한 이력이 있었던 경우, 서버(200)는 현재 사용자에게 발화 의도 등을 재차 확인하는 과정 없이, 다른 사용자의 상술한 바와 같은 이력을 참고하여 응답 정보를 생성하는 것이 가능하다.

이와 같이 서버(200)는 사용자의 대화 정보에 대한 응답 정보를 생성하는 과정에서, 현재 사용자의 대화 이력뿐만 아니라, 다른 사용자의 대화 이력도 활용하여 응답 정보를 생성하는 것이 서비스 성능 향상에 유리하다.

그러나 다른 사용자의 대화 이력을 활용하기 위하여, 다른 사용자의 대화 이력을 그대로 저장하는 경우, 개인 정보 노출 등이 문제될 수 있다.

따라서, 본 개시에서는 사용자의 대화 이력을 그대로 저장하지 않고, 대화 이력에 대응되는 대화 이력을 기설정된 자연어 처리 모델로 인코딩하여 저장하여 이용한다. 이하에서는 기설정된 자연어 처리 모델로 변환하는 과정을 인코딩 처리라 지칭하지만, 사용자의 대화 이력을 암호화하여 저장한다고 지칭될 수도 있다.

이와 같은 서버(200)에서의 구체적인 동작에 대해서는 도 4 내지 도 8을 참조하여 후술한다.

이상과 같이 본 개시에 따른 대화 시스템(1000)은 사용자의 대화 컨텐츠에 대한 응답 메시지를 생성하는 과정에서, 사용자의 대화 이력 정보뿐만 아니라, 인코딩된 다른 사용자의 대화 이력(또는 암호화된 다른 사용자의 대화 이력)을 이용함으로써 더욱 정확한 응답 정보를 생성하는 것이 가능하다. 또한, 대화 이력을 인코딩(또는 암호화)하여 저장하는바, 개인 정보의 유출을 방지하는 것도 가능하다.

도 2는 본 개시의 일 실시 예에 따른 대화 시스템의 동작을 나타내는 시퀀스도이다. 구체적으로, 도 2는 사용자의 발화에 기초한 대화 시스템의 예를 도시한 도면이다.

도 2를 참조하면, 단말장치(100)는 사용자로부터 사용자 발화를 수신하면(201), 수신된 발화를 음성 인식하여 사용자 발화에 대응되는 대화 정보(즉, 텍스트)를 생성할 수 있다(203).

만약, 해당 서비스에 대한 발화가 연속적으로 진행중이었으면 단말장치(100)는 해당 텍스트 및 이전 서버(200)에서의 응답을 포함하는 대화 컨텐츠를 생성할 수도 있다. 한편, 이와 같은 대화 컨텐츠는 단말장치(100) 측이 아닌 서버(200) 측에서 생성할 수도 있다.

텍스트를 생성하면, 단말장치(100)는 서버(200)에 대화 컨텐츠를 전송할 수 있다(205).

서버(200)는 해당 대화 컨텐츠를 수신하면, 해당 컨텐츠에 대응하는 응답 컨텐츠를 생성한다(207). 구체적으로, 서버(200)는 해당 대화 컨텐츠를 자연어 이해 알고리즘에 적용하여 사용자의 의도 및 슬롯을 확인하고, 확인된 의도 및 슬롯에 대응되는 응답 컨텐츠를 생성할 수 있다.

그리고 생성된 응답 컨텐츠를 단말장치(100)에 전송할 수 있다(209). 이와 같은 응답 컨텐츠는 텍스트만으로 구성되거나, 텍스트 또는 사용자의 요청에 대응되는 컨텐츠 정보를 포함할 수도 있다.

그리고 응답 컨텐츠를 수신한 단말장치(100)는 해당 응답 컨텐츠를 수행할 수 있다.

예를 들어, 사용자가 "A 음악 틀어줘!"라는 발화를 하였으면, 단말장치(100)는 입력된 발화에 대응되는 텍스트를 생성하고, 해당 텍스트를 서버(200)에 전송할 수 있다. 이에 대응하여, 서버(200)는 단말장치(100)의 음악 어플리케이션에서 "A" 음악 컨텐츠 재생을 수행하라는 응답 컨텐츠를 생성하여, 단말장치(100)에 제공할 수 있다.

이러한 응답 컨텐츠를 제공받은 단말장치(100)는 음악 어플리케이션을 구동시키고, 해당 음악 어플리케이션을 이용하여 A 음악을 재생할 수 있다.

한편, 상술한 과정에서, 사용자가 "A 음악"이라는 제목을 "A'"과 같은 동일한 용어가 아닌 유사한 용어를 이용할 수 있다. 또는 사용자는 정확한 발화를 하였음에도 음성 전달 과정 또는 음성 인식의 오류에 의하여 "A"가 아닌 "A"와 유사한 "A'"가 인식 될 수도 있다. 예를 들어, 'dun dun"이라는 제목에 대해서, 발화자가 "둥둥 음악 틀어줘!"라고 발화하고, 음악 DB에 "둥둥"이라는 음악 컨텐츠가 존재하지 않은 경우, 기존의 대화 시스템에서는 사용자가 요청한 음악 컨텐츠가 무엇인지를 재차 물어보는 응답을 진행하거나, 둥둥가 발음이 유사한 사용자의 요청과 다른 음악 컨텐츠가 재생될 수 있다.

그러나 본 개시에서는 다른 사용자의 대화 이력 정보를 이용하는바, 서버(200)는 기설정된 인코딩 알고리즘을 이용하여 "둥둥 음악 재생"에 대응되는 벡터 값을 산출하고, 기저장된 벡터 값 중 산출된 벡터 값과 유사한 후보 벡터 값을 선별하고, 해당 선별된 벡터 값을 디코딩하여 사용자의 발화 의도가 "던던 음악 틀어줘~"라는 것을 식별할 수 있다. 이상에서는 간단한 예를 이용하여 다른 사용자의 대화 이력을 사용하는 경우의 이점에 대해서 설명하였으나, 이와 같은 동작은 하나의 예시이며, 다양한 형태로 구현될 수 있다. 벡터 값을 이용하는 보다 구체적인 내용에 대해서는 도 3을 참조하여 이하에서 설명한다.

한편, 도 2에서는 음성 기반의 대화 시스템의 동작 예를 도시하고 설명하였지만, 구현시에는 사용자로부터 직접 텍스트를 입력받는 경우에도 동일하게 동작 가능하다. 즉, 대화창(또는 채팅 창) 기반의 대화 시스템에도 본 개시는 적용될 수 있다.

한편, 도 1 및 도 2를 도시하고 설명함에 있어서, 대화 서비스를 수행하기 위하여, 단말장치(100)와 서버(200)가 협동하여 동작하는 것으로 도시하고 설명하였지만, 상술한 기능은 하나의 장치에서 수행될 수도 있다.

또한, 도 2에서는 서버(200)에서 해당 대화 컨텐츠를 수신하고, 서버(200)가 벡터 값을 산출하는 것으로 도시하였지만, 상술한 인코딩 동작은 단말장치(100) 측에서 수행될 수도 있다. 이와 같은 구현 예에 대해서는 도 12에서 후술한다.

도 3은 본 개시의 일 실시 예에 따른 TOD(task_oriented Dialogue) 시스템의 동작 예를 설명하기 위한 도면이다. 구체적으로, 도 3은 사용자가 호텔과 택시를 예약하는 대규모 다중 도메인 Wizard-of-Oz(MutliWOZ) 데이터 세트의 예이다.

여기서, 대화 상태(Dialogue State)는 특정 도메인에 대한 <슬롯-값>의 쌍으로 표시된다. 1 턴은 단말장치(100)에서 캡처된 단일 사용자의 발화(211)와 그에 대한 시스템(즉, 서버(200))의 응답(213)을 나타낸다. 그리고 대화 상태는 이전 대화 상태, 현재 사용자 발화 및 이전 1 턴 컨텍스트를 기반으로 업데이트될 수 있다.

TOD(Task-oriented Dialogue) 시스템은 음성 대화를 통해 사용자와 컴퓨터 시스템 간의 상호 작용을 향상시키고 사용자가 호텔 예약 또는 택시 예약과 같은 사용자 서비스를 지원하는 시스템이다.

이러한 대화 시스템은 일반적으로 사용자의 의도를 이해, 요청의 실행, 해당 요청에 대한 결과 응답과 같은 모듈식으로 동작이 가능하다.

이 중 사용자의 의도를 이용하는 것이 해당 서비스를 수행함에 있어서 가장 주요한 동작인데, 이를 위하여 대화 상태의 추적이 필요하다.

대화 상태 추적(DST, Dialogue State Tracking)은 사용자의 목표 또는 의도를 파악하는데 필수적인 정보 정보인 대화 상태(Dialogue state)를 추적하는 주요한 동작이다.

대화 상태 추적은 사용자의 대화 및 이전 턴 상태에서의 표현을 분석하여, 사용자의 목적 또는 의도를 추출하고, 잘 정의된 슬롯 및 값으로 대화 상태를 표현하는 것이 필요하다. 만약, 사용자의 대화가 많은 도메인에 걸쳐 있는 경우, 대화 상태를 정확하게 파악하는 것은 매우 어려운 작업이 된다.

여러 도메인에서 동작하는 대규모의 멀티 도메인 데이터 세트(MultiWOZ)는 대화 시스템의 발전에 많은 영향을 주었다. 여기서 도메인은 특정 서비스와 관련된 영역을 의미한다. 예를 들어, 호텔 예약, 택시 예약, 기차 예약 각각이 도메인이 될 수 있으며, 이러한 도메인은 시스템을 구성하는 방식에 따라 다양하게 구성될 수 있다. 그리고, 이러한 도메인은 사용자의 요청(intent)으로 지칭될 수도 있다.

도 3은 사용자가 호텔 예약으로 대화를 시작한 다음 택시 예약을 요청하고, 마지막으로 호텔 예약을 변경하는 데이터 세트의 예를 도시한다.

여기서 대화 상태는 각 도메인에 대한 <슬롯-값>의 쌍의 목록으로 정의된다. 예를 들어, ([hotel] people 2 stay 5 days) , ([taxi] arrival Hotel Santa)).

이러한 대화 상태는 전체 대화의 표현으로 간주될 수 있으며, 시스템의 작업 및 응답과 같은 모듈에서 사용될 수 있다. 따라서, 대화 상태에서의 오류는 상술한 모듈뿐만 아니라, 다음 턴의 대화 상태에도 전파 될 수 있다.

이러한 문제를 해결하기 위하여 본 개시에서는 이전 대화 상태를 MinTL 모델에서의 ground truth로 대체하였다. 여기서 ground thuth는 이전 대화 턴에서 생성한 대화 상태가 아닌 실제 대화 정보를 이용하는 경우를 의미한다.

아래의 표 1은 이전 대화의 상태 정보의 이용 대신에 실제 대화 정보를 이용하는 경우의 에러 분석 값이다.

	Predicted Dialogue State	Ground Truth Dialogue State
MinTl(T5-small)	51.0	78.0
MinTl(T5-base)	51.4	78.3

표 1을 참조하면, 이전 대화 턴에서 사용한 대화 상태 정보를 이용하는 대신에, 이전 대화를 이용하는 경우, 에러 전파율이 27% 차이가 발생함을 확인할 수 있다.

따라서, 성능 격차 및 오류 전파를 줄이기 위하여, 본 개시에서는 사전 계산된 인덱스에서 유사한 대화 컨텍스트를 이용하여 대화 상태를 보강하였다. 이를 위하여, 본 개시에서는 사전 훈련된 대규모 모듈을 이용한다. 이러한 사전 훈련된 대규모 모듈은 희소 표현과 비교하여 검색 기반 접근 방식에 비하여 매우 효율적이며, 개방형 질문에 대한 응답 시에 더 나은 응답 생성이 가능하여, 검색 기반 결과에 대한 높은 응답 정확도를 갖게 된다.

한편, 이와 같은 동작은 일반적인 질문이나 구절과 같은 자연 텍스트를 이용하여야 한다. 그러나 앞서 설명한 바와 같이 다른 사용자의 텍스트 및 구절을 그대로 저장하여 이용하는 경우, 개인 정보 보호라는 문제가 발생할 수 있다는 점에서, 본 개시에서는 상술한 텍스트(또는 구절) 등을 벡터화하여 저장하고, 해당 벡터화된 값들을 구조화하여 색인한 DB를 만들어 이용한다.

이를 통하여 벡터화된 데이터를 이용하여서도 현재 사용자의 대화와 유사한 텍스트를 갖는 다른 사용자의 대화를 효율적으로 검색할 수 있으며, 검색된 다른 사용자의 대화에 대응되는 벡터 값을 활용하여 높은 정밀도의 응답 처리가 가능하다.

이와 같은 알고리즘은 NRA-DST 프레임워크라 지칭될 수 있으며, 해당 프레임 워크의 구체적인 동작 및 구성에 대해서는 도 7 및 도 8에서 자세히 설명한다.

도 4는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블럭도이다.

구체적으로, 도 1의 시스템에서 서버 등과 같이 직접적으로 응답 정보를 생성하는 장치 및 단말장치와 같이 대화 메시지 또는 음성을 수집하고, 그에 필요한 대화 정보를 생성하는 장치 등을 전자 장치라고 지칭할 수 있다. 즉, 도 4의 전자 장치는 도 1의 단말장치(100) 또는 도 1의 서버(200)로서 동작하는 것이 가능하다. 또한, 도 1의 단말장치 및 서버의 기능을 하나의 장치에서 수행하는 것도 가능하다.

도 4의 전자 장치(300)는 PC(Personal computer), 노트북, 스마트폰, 태블릿, 서버 등 다양한 장치일 수 있다. 도 4를 참조하면, 전자 장치(300)는 통신 장치(310), 메모리(320), 프로세서(330)를 포함할 수 있다.

통신 장치(310)는 전자 장치(300)를 외부 장치(미도시)와 연결하기 위해 형성되고, 근거리 통신망(LAN: Local Area Network) 및 인터넷망을 통해 외부 장치에 접속되는 형태뿐만 아니라, USB(Universal Serial Bus) 포트 또는 무선 통신(예를 들어, cellular communication, WiFi 802.11a/b/g/n, NFC, Bluetooth) 포트를 통하여 접속되는 형태도 가능하다. 이러한 통신 장치(310)는 송수신부(transceiver)로 지칭될 수도 있다.

통신 장치(310)는 다른 장치로부터 대화 컨텐츠(또는 대화 정보)를 수신하거나, 다른 장치에 대화 컨텐츠를 전송할 수 있다. 여기서 대화 컨텐츠는 하나의 사용자 메시지를 포함하거나, 여러 턴을 통하여 입력한 메시지를 포함할 수 있다. 여기서 사용자 메시지는 사용자가 직접 타이핑하여 입력한 텍스트일 수 있으며, 사용자의 발화 음성을 음성 인식을 통하여 텍스트로 변환한 메시지이거나, 사용자의 발화 음성에 대응되는 음성 데이터일 수도 있다.

통신 장치(310)는 대화 컨텐츠를 송신한 다른 장치에 해당 대화 컨텐츠에 대응되는 응답 컨텐츠를 전송하거나, 대화 컨텐츠에 대응되는 응답 컨텐츠를 수신할 수 있다. 이러한 응답 컨텐츠는 특정 서비스를 실행하기 위한 명령 정보가 포함된 정보이거나, 사용자가 요청한 정보에 대응되는 컨텐츠이거나, 사용자가 요청한 서비스에 대한 실행 결과에 대한 안내 정보 등일 수 있다.

예를 들어, 대화 컨텐츠에 사용자가 특정 어플리케이션의 실행을 요청하는 메시지가 포함되어 있는 경우, 특정 어플리케이션 실행을 위한 명령 정보가 포함된 응답 컨텐츠를 수신할 수 있다. 또는 대화 컨텐츠에 호텔 예약, 택시 예약, 특정 물품의 주문 등의 특정 서비스의 주문/예약 등의 메시지가 포함되어 있는 경우, 사용자가 요청한 주문 또는 예약 결과에 대한 정보를 응답 컨텐츠로 수신할 수 있다. 상술한 응답 컨텐츠의 예는 하나의 예시에 불가하며, 대화 시스템에서 발생할 수 있는 다양한 사용자 요청 및 그에 따른 다양한 응답이 이루어질 수 있다.

메모리(320)는 전자 장치(300)를 구동하기 위한 O/S나 각종 소프트웨어, 데이터 등을 저장하기 위한 구성요소이다. 메모리(320)는 RAM이나 ROM, 플래시 메모리, HDD, 외장 메모리, 메모리 카드 등과 같은 다양한 형태로 구현될 수 있으며, 어느 하나로 한정되는 것은 아니다.

메모리(320)는 적어도 하나의 인스트럭션을 저장한다. 이러한 적어도 하나의 인스트럭션은 상술한 대화 시스템의 수행에 필요한 어플리케이션, 음성 인식을 위한 어플리케이션, 응답 정보에 대응되는 서비스를 실행하기 위한 각 종 어플리케이션을 수행하기 위한 것들을 포함할 수 있다.

메모리(320)은 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장한다. 여기서 대화 이력 정보는 현재 사용자의 대화 이력 뿐만 아니라 다른 사용자의 대화 이력도 포함할 수 있다. 앞서 설명한 바와 같이 다른 사용자의 대화 이력은 개인 정보 보호에 문제가 발생할수 있는바, 본 개시에서는 다른 사용자의 대화 이력을 벡터 값으로 변환하여 저장한다.

이러한 벡터 값은 BERT(Bidirectional Encoder Representations from Transformers) 자연어 처리 모델, RoBERTa(Robustly Optimized BERT Pretraining Approach) 자연어 처리 모델, T5 자연어 처리 모델 등과 같은 기설정된 인코딩 알고리즘을 이용하여 생성한 것일 수 있다. 한편, 구현시에는 자연어 처리를 위하여 텍스트를 벡터 값으로 변환할 수 있는 알고리즘이라면, 상술한 예시 이외에에 다른 알고리즘을 이용할 수도 있다.

프로세서(330)는 전자 장치(300) 내의 각 구성을 제어한다. 이러한 프로세서(330)는 CPU(central processing unit), ASIC(application-specific integrated circuit)과 같은 단일 장치로 구성될 수 있으며, CPU, GPU(Graphics Processing Unit) 등의 복수의 장치로 구성될 수도 있다.

프로세서(330)는 사용자로부터 텍스트를 입력받거나, 사용자 발화 음성을 입력받으면, 입력된 텍스트를 이용하여 대화 컨텐츠를 생성하고, 생성한 대화 컨텐츠를 외부 장치에 전송하도록 통신 장치(310)를 제어할 수 있다.

이때 프로세서(330)는 생성한 대화 컨텐츠에 포함된 대화 정보((예를 들어, 텍스트)를 기설정된 알고리즘을 이용하여 벡터 값으로 인코딩하고, 인코딩 결과인 벡터 값을 외부 장치에 전송하도록 통신 장치(310)를 제어할 수도 있다.

프로세서(330)는 대화 컨텐츠가 수신되면 수신된 대화 컨텐츠를 이용하여 사용자의 요청(intent) 및/또는 슬롯(slot) 정보 등을 식별할 수 있다. 예를 들어, 프로세서(330)는 자연어 인식 알고리즘을 이용하여 대화 컨텐츠에 포함된 텍스트 등을 분석하여 사용자의 요청 및/또는 슬롯 정보 등을 식별할 수 있다.

이때, 프로세서(330)는 수신한 대화 컨텐츠로부터 부가 정보를 식별할 수 있다. 예를 들어, 부가 정보는 시간 정보, 대화 빈도, 사용자 감정 정보일 수 있다. 그리고, 시간 정보는 대화 컨텐츠의 시간 정보일 수 있으며, 대화 빈도는 사용자 요청에 따른 응답을 진행하기 위한 대화 턴수 등일 수 있으며, 사용자 감정 정보는 대화 컨텐츠에 포함된 이모티콘 또는 사용자의 목소리 톤, 대화 컨텐츠에 포함된 대상자와의 관계(상사, 부부) 등의 다양한 정보로 통해 유추되는 정보있다. 이상에서는 상술한 정보 들을 부가 정보라고 지칭하였지만, 이러한 부가 정보는 상술한 슬롯 정보로서 이용될 수도 있다.

그리고 프로세서(330)는 식별된 슬롯 정보 각각에 대한 가중치를 결정할 수 있다. 구체적으로, 프로세서(330)는 식별된 슬롯 정보와 사용자의 요청과의 연관성에 기초하여 각각의 슬롯 정보에 대한 가중치를 결정할 수 있다. 이와 같은 가중치에 대해서는 미리 설정된 룩업 테이블에 의하여 결정되거나, 대화 컨텐츠에서의 해당 슬롯 정보의 빈도수 등을 통하여 결정될 수도 있다.

그리고, 프로세서(330)는 식별된 사용자 요청 또는 슬롯 정보만으로 응답 정보를 생성하는 것인지를 식별할 수 있다. 구체적으로, 프로세서(330)는 식별된 사용자 요청에 대응되는 응답 정보의 생성이 식별된 슬롯 정보만을 이용하여 생성하는 것이 가능한지를 판단할 수 있다.

만약, 대화 컨텐츠에 있는 텍스트만으로 응답 정보를 생성하는 것이 가능한 경우, 프로세서(330)는 응답 정보를 생성하고, 생성한 응답 정보가 전송되도록 통신 장치(310)를 제어할 수 있다.

만약, 대화 컨텐츠에 있는 텍스트만으로 응답 정보를 생성하는 것이 어렵다고 판단되면, 메모리(320)에 저장된 벡터 값을 추가적으로 이용하여 응답 정보를 생성할 수 있다.

구체적으로, 프로세서(330)는 대화 컨텐츠에 포함된 텍스트를 기설정된 알고리즘을 이용하여 벡터 값으로 변환할 수 있다. 예를 들어, 프로세서(330)는 대화 컨텐츠에 포함된 문자형 데이터를 하나의 문장으로 생성하고, 기설정된 인코딩 알고리즘을 이용하여 상기 생성된 문장에 대응되는 벡터 값을 산출할 수 있다. 또는 프로세서(330)는 대화 컨텐츠에 포함된 텍스트를 각 턴 단위(또는 문장 단위)로 구분하고, 턴 단위(또는 문장 단위)별 텍스트 각각을 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출할 수도 있다.

이때, 프로세서(330)는 대화 컨텐츠에 포함된 문장 중에서 불필요한 기호(예를 들어, 부호, 특수문자) 등을 제거하는 처리를 수행하거나, 반드시 포함되어야 하는 슬롯 정보에 대응되는 단어 등을 식별하고, 상술한 처리 결과에 따른 문장을 이용하여 벡터 값을 산출할 수도 있다. 또한, 프로세서(330)는 대화 컨텐츠에 포함된 텍스트 이외에 컨텐츠(예를 들어, 이모티콘) 또는 대화 시간, 대화 빈도, 대화 컨텐츠에 포함된 대상자와의 관계(상사, 부부) 등 다양한 정보에 대해서도 대응되는 단어를 상술한 문장에 추가할 수도 있다.

그리고, 프로세서(330)는 기저장된 벡터 값 중 변환된 벡터 값과 일정 유사도를 갖는 벡터 값을 획득할 수 있다. 이때 프로세서(330)는 기저장된 벡터 값 중에 복수개의 벡터 값을 후보 벡터 값으로 식별(또는 검색)할 수 있다. 예를 들어, 프로세서(330)는 유사도가 높은 벡터 값 중 일정 순위(예를 들어, 2순위까지 또는 3순위 까지)의 벡터 값을 획득할 수 있다. 이때, 프로세서(330)는 해당 선별시에 기설정된 유사도 이상인 벡터 값 들 중에서 변환된 벡터 값과 유사한 벡터 값을 획득할 수도 있다.

이때, 프로세서(330)는 기설정된 유사도 이상인지를 확인할때, 앞서 확인된 슬롯 별 가중치를 이용하여, 가중치가 높은 슬롯 정보와 유사도가 높은 벡터 값을 획득할 수 있다. 예를 들어, 기차표 예매 시에 "가족", "4매", "고향" 등의 슬롯 정보가 식별되었고, "가족"이라는 슬롯 정보에 높은 가중치가 적용된 경우, 프로세서(330)는 저장된 DB의 기차표 예매 도메인 내에서 가족 -> 4매 -> 고향의 순서로 인덱스를 검색하여 기설정된 유사도를 갖는 벡터 값을 식별할 수 있다. 또는 확인된 슬롯 각각에 대응되는 벡터 값을 검색하고, 검색된 벡터 값 각각에 대해서 상술한 가중치를 반영하여 유사도를 산출하는 등의 다양한 방식이 이용될 수 있다.

그리고, 프로세서(330)는 상술한 인코딩 방식에 반대되는 디코딩 방식을 이용하여 검색된 벡터 값으로 텍스트로 변환하고, 해당 텍스트에서 슬롯 정보를 추출하고, 대화 컨텐츠에 포함된 슬롯 정보와 함께 이용하여 응답 정보를 생성할 수도 있다. 구체적으로 대화 컨텐츠를 통하여 확인된 사용자의 요청 및/또는 슬롯 정보와 일정 유사도를 갖는 벡터 값에 대응되는 텍스트를 통하여 확인된 슬롯 정보를 이용하여 응답 정보를 생성할 수 있다.

한편, 이상에서는 기저장된 벡터 값의 슬롯 정보만을 응답 정보의 생성시에 이용하는 것으로 설명하였다. 구체적으로, 기저장된 벡터 값 중 기설정된 유사도를 갖는 벡터 값을 식별하는 과정에서, 사용자의 의도에 대응되는 벡터 값을 식별하기 때문에, 응답 정보의 생성시에는 기저장된 벡터에 대응되는 슬롯 정보만을 이용하는 것으로 설명하였다. 그러나, 대화 컨텐츠에 포함된 텍스트를 통하여 사용자의 의도가 불분명한 경우에는 반대로, 기저장된 벡터 값 중 대화 컨텐츠에 포함된 슬롯 정보와 기설정된 유사도를 갖는 벡터 값을 식별하고, 해당 식별된 벡터 값에 대응되는 사용자 의도를 이용할 수도 있다.

예를 들어, 대화 컨텐츠에 포함된 텍스트가 "A 지역"만으로 포함하는 경우, 사용자의 의도가 A 지역의 정보를 알려달라는 요청인지, 아니면 A 지역으로 안내하는 네이게이션 어플리케이션의 구동을 요청하는 것인지 불분명할 수 있다. 이와 같은 경우에는 기저장된 벡터 값 중 A 지역과 유사도가 있는 벡터 값을 식별하고, 식벼된 벡터 값에서 추출된 사용자 의도를 이용할 수 있다.

이때, 프로세서(330)는 A 지역과 유사도가 있는 복수의 후보 벡터 값을 산출하고, 복수의 후보 벡터 값들 각각의 사용자 의도를 확인하고, 확인된 사용자 의도의 빈도수가 가장 높은 것을 사용자 의도로 확인하거나, 복수의 후보벡터 값 중 가장 최근의 후보 벡터 값의 사용자 의도를 이용할 수도 있다.

또한, 프로세서(330)는 상술한 벡터화 과정에서, 문장에 포함되는 슬롯 또는 사용자 의도에 대응되는 단어 각각에 대한 가중치 값을 산출하고, 기저장된 벡터 값과의 유사도의 분석시에 상술한 단어에 대한 가중치를 고려하여, 기설정된 유사도를 갖는 벡터 값을 식별할 수도 있다.

또한, 이상에서는 전자 장치(300)가 대화 정보(또는 대화 컨텐츠)를 수신하고, 수신된 대화 정보 내의 텍스트를 벡터 값으로 산출하여 기저장된 벡터 값과의유사도를 판단하는 것으로 설명하였지만, 구현시에 벡터화 동작을 다른 장치에서 수행하고, 전자 장치(300)는 벡터 값을 수신하고, 수신된 벡터 값 및/또는 기저장된 벡터 값을 이용하여 응답 정보를 생성하는 것도 가능하다.

그리고, 프로세서(330)는 상술한 응답 메시지의 응답 이후에, 상술한 대화 컨텐츠 및 상기 응답 정보에 기초하여 대화 이력 정보를 업데이트하여 메모리(320)에 저장할 수 있다. 예를 들어, 대화 컨텐츠에 포함된 문자형 데이터와 상술한 응답 정보에 기초하여 하나의 문장을 생성하고, 생성된 문장을 기설정된 인코딩 알고리즘을 이용하여 하나의 벡터 값을 산출하고, 산출한 벡터 값을 메모리(320)에 저장할 수 있다.

이상과 같이 본 개시에 따른 단말 장치(100)는 응답 정보의 생성 과정에서 사용자의 대화 이력 뿐만 아니라 다른 사용자의 대화 이력에 대응되는 벡터 값도 이용하는바 보다 높은 정확도로 응답 정보를 생성하는 것이 가능하다. 또한, 다른 사용자의 대화 이력을 그대로 저장하지 않고, 기설정된 알고리즘을 이용하여 인코딩하여 저장하는바, 개인 정보의 누출되는 것을 방지할 수 있다.

또한, 앞서 도 3에서 설명한 바와 같이 특정 키워드(상태 정보)만 이용하여 응답 정보를 생성하는 것보다, 실제 대화 정보를 이용하는 것이 응답 정보의 정확도가 높으며, 본 개시에서는 대화 이력 정보로써 키워드(의도, 슬롯 정보)만을 저장하는 것이 아니라, 실제 대화 정보에 대응되는 텍스트를 벡터화하여 저장한다는 점에서, 높은 응답 정확도를 가질 수 잇다.

한편, 도 4에서는 단말장치(100)(또는 전자 장치)가 기본적인 구성(즉, 통신장치, 메모리, 프로세서)만을 포함하는 것으로 도시하였지만, 단말장치(100)는 상술한 구성 이외에 다양한 구성을 더 포함할 수도 있다. 이러한 예시에 대해서는 도 5를 참조하여 이하에서 설명한다.

도 5는 본 개시의 일 실시 예에 따른 전자 장치의 다른 구성을 도시한 블록도이다.

도 5를 참조하면, 전자 장치(300')는 통신 장치(310), 메모리(320), 프로세서(330), 디스플레이(340), 입력 인터페이스(350), 스피커(360)를 더 포함할 수 있다.

통신 장치(310) 및 메모리(320)에 대해서는 도 4에서 설명하였는바 중복 설명은 생략한다.

디스플레이(340)는 전자 장치(300)가 지원하는 기능을 선택받기 위한 사용자 인터페이스 창을 표시한다. 구체적으로, 디스플레이(340)는 전자 장치(400)가 제공하는 각종 기능을 선택받기 위한 사용자 인터페이스 창을 표시할 수 있다. 이러한 디스플레이(430)는 LCD(liquid crystal display), OLED(Organic Light Emitting Diodes) 등과 같은 모니터일 수 있으며, 후술할 입력 인터페이스(350)의 일부 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.

디스플레이(340)는 응답 정보에 대응되는 컨텐츠를 표시하거나, 현재 대화 이력 정보를 표시할 수 있다.

입력 인터페이스(350)는 사용자로부터 전자 장치(300)의 기능 선택 및 해당 기능에 대한 제어 명령을 입력받을 수 있다. 이러한 입력 인터페이스(350)는 키보드, 마우스, 터치 패드 등일 수 있으며, 사용자의 음성을 입력받기 위한 마이크를 포함할 수도 있다.

스피커(360)는 소리를 출력한다. 이러한 스피커(360)는 수신한 응답 메시지에 대응되는 응답 정보를 소리로 출력할 수 있다.

예를 들어, 전자 장치(300)가 AI 스피커로 구현되는 경우, 프로세서(330)는 마이크를 통하여 입력된 사용자 발화 음성을 텍스트로 변환하고, 변환된 텍스트를 외부 서버(200)에 전송할 수 있다. 그리고, 외부 서버(200)로부터 응답 정보를 수신하면, 수신된 응답 정보에 대응되는 텍스트를 TTS 기능을 이용하여 스피커(360)를 통해 출력할 수 있다.

또한, 전자 장치(300)는 기설정된 트리거 명령의 음성이 입력되었는지를 지속적으로 감시하고, 입력된 사용자 발화 음성에 기설정된 트리거 명령이 포함되어 있다고 판단되면, 프로세서(330)는 앞서 설명한 바와 같은 대화 서비스를 실행할 수 있다.

그리고 전자 장치(300)는 외부 장치로부터 현재 설정된 트리거 명령과 유사한 유사 트리거 명칭을 수신하고, 상술한 트리거 명령의 포함 여부의 판단시에 사용자가 설정한 트리거 명칭뿐만 아니라 유사 트리거 명칭을 함께 이용하여 대화 서비스의 시작 여부를 판단할 수도 있다.

예를 들어, 현재 전자 장치(300)의 대화 시스템의 개시(또는 웨이크 업)를 알리는 명령어가 "하이 빅스비"인데, 다른 사용자가 "하이 빅~", "하이 빅스~"로 이용하는 빈도가 높은 경우, 서버(200)는 특정 단말장치(100)에서도 "하이 빅~", "하이 빅스"에 대응한 사용자 발화에도 대화 서비스가 트리거 될 수 있도록, 해당 유사 명칭에 대한 정보를 단말장치에 제공할 수 있다.

이러한 유사 트리거 정보를 입력받은 전자 장치(300)는 유사 트리거 정보를 메모리(320)에 저장하고, 발화 서비스의 시작 여부를 판단할 때, 사용자가 설정한 트기거 명령뿐만 아니라, 유사 트리거 명령도 이용할 수 있다.

도 5에서는 도 4와 다른 구성들(예를 들어, 디스플레이, 스피커, 사용자 입력 장치) 등을 더 도시하였지만, 구현시에 상술한 구성들이 다 포함될 필요는 없고, 상술한 구성 중 일부만이 더 포함되는 형태로 구현될 수도 있다. 예를 들어, 전자 장치(300)가 AI 스피커로 구성되는 경우, 마이크와 스피커만 추가될 수도 있다.

도 6은 본 개시의 일 실시 예에 따른 대화 서비스 모델을 설명하기 위한 도면이다.

도 6을 참조하면, 프로세서(600)는 NLU 모듈(610), 대화 매니저 모듈(620), 쿼리 인코더(630), 벡터 DB(640), 응답 모듈(650)을 포함할 수 있다.

NLU 모듈(610)은 대화 컨텐츠에 포함된 텍스트를 추출하고, 추출된 텍스트 내에서 사용자의 요청(또는 목적), 슬롯 등을 추출할 수 있다. 이때, NLU 모델(610)은 텍스트 정보뿐만 아니라, 대화 컨텐츠에 포함된 다양한 정보(예를 들어, 사용자의 기분을 예측할 수 있는 이모티콘, 또는 대화 시간, 대화 빈도 등)을 이용하여 사용자의 요청 및/똔느 슬롯 정보를 추출할 수 있다.

대화 매니저 모듈(620)은 추출된 사용자의 목적, 슬롯에 기초하여 이용할 도메인을 결정하고, 결정된 도메인에 대응되는 DB 및/또는 응답 모델에 해당 정보를 전송할 수 있다.

이때 대화 매니저 모듈(620)은 추출된 슬롯에 대한 가중치를 산출할 수 있다. 구체적으로, 대화 컨텐츠에 포함된 텍스트에는 다양한 슬롯 정보가 포함될 수 있으며, 포함된 슬롯 정보는 사용자의 요청(또는 목적)과 깊은 연관이 있는 것도 있을 수 있으며, 연관성이 낮은 것도 있을 수 있다. 사용자 요청에 정확한 응답을 위해서는 사용자의 요청과 깊은 연관성이 높은 슬롯 정보를 이용하는 것이 유리하다는 점에서, 대화 매니저 모듈(620)은 추출된 슬롯 각각에 대한 가중치 정보를 산출할 수 있다.

예를 들어, 사용자의 텍스트가 "친구 가족과 같이 여행하는데, 이번 주 금요일 7시에 부산가는 기차표 4장 예약해줘"인 경우, 사용자의 목적은 기차표 예약이고, "이번 주 금요일 7시", "기차표 4장", "친구 가족" 등이 슬롯 정보로 이용될 수 있다. 해당 서비스 실행을 위해서는 시간 및 예약 매수 등이 주요한 키워드인바, 시간 정보 및 예약 매수에 대한 슬롯 정보는 높은 가중치를 부여하고, 여행 목적, 대상자 등은 상대적으로 낮은 가중치를 부여할 수 있다.

반대로, 사용자의 텍스트가 "친구 가족과 이번 주 금요일에 여행 가는데 어디가 좋을까"인 경우, 사용자 목적은 여행지 추천이고, "친구 가족", 이번 주 금요일"이 슬롯 정보로 이용될 수 있다. 해당 서비스 실행을 위해서는 시간 정보 및 여행 대상자가 주요한 키워드인바, 앞선 예시와 반대로 여행 대상자에 대해서는 높은 가중치를 부여할 수도 있다. 즉, 각 키워드에 가중치는 고정적으로 적용되지 않고, 상술한 사용자 목적과의 관련성에 따라 슬롯 정보의 가중치는 변경될 수 있다.

쿼리 인코더(630)는 추출된 사용자의 목적 및 슬롯에 대응되는 벡터 값을 산출할 수 있다. 예를 들어, 추출된 사용자의 목적 및 슬롯을 이용하여 문장을 구성하고, 구성된 문장을 기설정된 알고리즘을 이용하여 벡터 값을 산출할 수 있다. 구현시에는 추출된 목적 및 슬롯을 통하여 문장을 재구성하지 않고, 사용자의 입력 문장 그대로를 기설정된 알고리즘으로 처리하여 벡터 값을 산출하는 것도 가능하다. 또한, 쿼리 인코더(630)는 상술한 바와 같이 슬롯에 대한 가중치 정보를 활용하여 기설정된 가중치 이상의 슬롯 정보와 사용자 요청을 이용하여 문장을 재구성하고, 재구성된 문장을 이용하여 기설정된 알고리즘에 적용하여 벡터 값을 산출할 수 잇다.

벡터 DB(640)는 입력된 벡터 값과 기저장된 벡터 값들 간의 유사도를 비교하고, 기저장된 벡터 값들 중 후보 벡터를 검색할 수 있다. 이때, 검색된 후보 벡터의 개수는 설계 방식에 따라 다양하게 구성될 수 있으며, 최소 2~3개의 후보 벡터가 검색되도록 한다거나, 일정 유사도 값을 갖는 벡터들 중에서 후보 벡터를 검색할 수도 있다. 이때, 벡터 DB(640)는 슬롯 각각에 대한 가중치 정보를 입력받을 수 있으며, 상술한 유사도 비교 과정에서 상술한 슬롯의 가중치를 고려하여 후보 벡터를 검색할 수 있다. 벡터 DB(640)의 구체적인 구성 및 동작에 대해서는 도 7을 참조하여 후술한다.

응답 모듈(650)은 대화 이력 등을 이용하여 응답 컨텐츠를 생성할 수 있다. 구체적으로, 응답 모듈(650)은 대화 상태 추적 모듈(651), 대화 상태 추적 업데이터(653), 대화 상태 인코더(655), 대화 상태 디코더(657)를 포함할 수 있다.

대화 상태 추적 모듈(651)은 대화 매니저 모듈(620)로부터 대화 이력을 수신하고, 수신된 대화 이력을 통하여 응답 정보를 생성할 수 있는지를 우선적으로 판단할 수 있다. 수신된 대화 이력을 통하여 응답 정보를 생성할 수 있다면, 대화 상태 추적 모듈(651)은 해당 대화 컨텐츠에 포함된 정보만으로 응답 정보를 생성할 수 있다. 즉, 벡터 DB를 이용하지 않고, 응답을 수행할 수도 있다.

만약, 대화 이력만으로 응답 정보를 생성하는 것이 어렵다고 판단되면, 대화 상태 추적 모듈(651)은 벡터 DB(640)로부터 제공된 후보 벡터 값이 텍스트로 변환되도록 디코더(657)를 제어하고, 디코딩된 정보와 대화 컨텐츠에 포함된 정보를 이용하여 응답 정보를 생성할 수 있다.

구체적으로, 대화 상태 추적 모듈(651)은 대화 매니저 모듈(620)로부터 수신된 정보와 디코더(657)를 통하여 수신된 정보 모두 텍스트 정보인바, 텍스트 임베딩을 수행하여 두 텍스트 정보를 합치고, 합쳐진 정보를 이용하여 응답 정보를 생성할 수 있다. 이때, 대화 상태 추적 모듈(651)은 대화 정보의 문맥 정보에 따라 적용 여부를 결정하는 Dialogue information Gating 매커니즘을 적용하여 두 텍스트 정보를 합칠 수 있다. Gating 매커니즘을 이용함에 따라 전달된 정보들의 균형이 맞춰짐에 따라 기능 과다 사용 또는 기능 부족 사용 문제를 방지하는 것이 가능하다.

그리고, 대화 상태 추적 모듈(651)은 응답이 완료되면, 해당 응답을 통하여 생성된 응답 정보, 디코딩된 정보, 대화 컨텐츠에 포함된 정보에 기초하여 대화 상태가 업데이트하도록 대화 상태 업데이터(653)를 제어하고, 업데이트된 대화 상태에 대응되는 벡터 값이 생성되어 DB에 저장되도록 인코더(655)를 제어할 수 있다.

한편, 도 6을 도시하고 설명함에 있어서, 수신한 대화 정보에 기초하여 벡터 값을 프로세서(600) 측에서 변환하는 것으로 설명하였지만, 구현시에 벡터 값으로 변환하는 인코딩 동작은 단말장치 측에서 수행하고, 단말장치에서 전달된 벡터 값을 이용하여 상술한 동작을 수행하는 형태로도 구현될 수 있다.

도 7은 도 6의 벡터 DB의 구성을 설명하기 위한 도면이다.

구체적으로, 벡터 DB는 대화 이력 정보에 대응되는 벡터 값을 저장한다. 벡터 값을 손쉽게 검색 이용하기 위하여, 본 개시에서는 벡터 값들을 구조화하여 색인화한다. 이와 같은 DB를 만드는 방법에 대해서 먼저 설명한다.

먼저, DB 생성기는 쿼리 인코더(710) 및 슬롯 인코더(720)를 포함할 수 있다.

쿼리 인코더(710)는 대화 컨텐츠에 대응되는 텍스트에서, 사용자의 요청 또는 의도를 파악하는 모듈이다. 쿼리 인코더(710)는 통하여 사용자 요청 또는 의도에 대응되는 벡터 값을 산출할 수 있다. 이때, 쿼리 인코더(710)는 텍스트뿐만 아니라, 대화 컨텐츠를 통하여 확인할 수 있는 다양한 부가 정보(예를 들어, 대화 시간, 대화 빈도, 사용자 이외에 대상자 정보 등)을 이용할 수도 있다.

슬롯 인코더(720)는 상술한 요청에 대응되는 세부 항목들을 검출하는 모듈이다. 구체적으로, 슬롯 인코드(720)는 대화 컨텐츠에 포함된 텍스트를 수신하고, 수신된 텍스트를 이용하여 슬롯 정보에 대응되는 벡터 값을 산출할 수 있다. 이때, 슬롯 인코더(720)는 postive context(c_i+)와 negative context(c_i-)를 생성할 수 있다. 슬롯 인코더(720)도, 텍스트뿐만 아니라, 대화 컨텐츠를 통하여 확인할 수 있는 다양한 부가 정보를 이용하여 벡터 값을 산출할 수도 있다.

이와 같이 쿼리 인코더(710) 및 슬롯 인코더(720)에서 생성된 벡터 값을 이용하여 유사도를 산출할 수 있다.

[수학식 1]

sim(c_i, c_j) = E_q(c_i)^TE_k(c_j)

여기서 는 c_i,c_isms 는 사용자가 입력한 텍스트, E_q는 쿼리 인코더, E_k는 슬롯 인코더, sim는 dot procut 연산자이다.

이와 같이 유사도 값이 산출되면, 해당 산출된 유사도 값을 색인 값으로 활용하여 복수의 벡터 값을 구조화할 수 있다.

이와 같이 구조화된 경우, 향후에 수신된 입력 텍스트를 인코딩하여 벡터 값을 산출하고(730), 산출된 벡터 값와 앞서 생성한 색인 값을 비교하여 기저장된 복수의 벡터 값(740) 중 기설정된 유사도를 갖는 벡터 값을 검색할 수 있다.

예를 들어, 도시된 바와 같이 사용자의 요청이 특정 호텔의 예약이고, 그에 대응되는 벨류(슬롯으로, 와이파이, 주차장 등)이 포함되어 있는 경우, DB는 호텔 예약, 주차장, 와이파이 등과 관련된 벡터 값을 검색할 수 있다.

도 8은 본 개시의 일 실시 예에 따른 응답 모듈의 다른 형태를 설명하기 위한 도면이다.

도 8을 참조하면, 응답 모듈은 벡터값 수신 모듈(830), 인코더(840), 디코더(850)를 포함한다.

앞서 도 7과 비교하였을 때 도 8의 방식은 서로 다른 인코딩 방식을 이용한다는 점이 차이가 있다. 구체적으로, 도 7에서는 입력된 대화 컨텐츠에서 벡터 값을 산출하거나, 후보 벡터 값을 텍스트로 변환하는 과정에서 하나의 인코딩 방식을 이용하였다.

그러나, 도 8에서는 DB 검색을 위한 인코딩 방식과 후보 벡터를 활용하는 과정에서의 인코딩 방식을 서로 다른 알고리즘을 이용할 수 있다.

예를 들어, 뉴럴 인덱스(820)를 이용하여 대화 컨텐츠에서 벡터 값을 산출하는 과정(810)에서는 SOTA pre-trained DNN 모델인 RoBERTa를 이용하고, 응답 모듈(840, 850)에서는 SOTA DNN Generation 모델인 T5를 이용할 수 있다. 이와 같이 구현시에는 특정 과정에서 보다 높은 성능을 갖는 인코딩 및 디코딩 방식을 이용할 수도 있다.

도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

먼저, 대화 이력 정보에 대응되는 벡터 값을 저장한다. 구체적으로, 서로 다른 사용자 각각의 대화 이력 정보에 대응되는 벡터 값을 저장할 수 있다. 여기서, 벡터 값은 기설정된 인코딩 알고리즘을 이용하여 산출된 것으로, 기설정된 인코딩 알고리즘은 BERT(Bidirectional Encoder Representations from Transformers) 자연어 처리 모델, RoBERTa(Robustly Optimized BERT Pretraining Approach) 자연어 처리 모델, T5 자연어 처리 모델 등일 수 있다.

그리고, 대화 컨텐츠를 수신한다(910). 이러한 대화 컨텐츠는 하나의 문장만을 포함할 수 있으며, 복수의 문장을 포함할 수도 있다. 또한 해당 컨텐츠는 텍스트일 수 있으며, 사용자 발화 음성에 대응되는 음성 데이터일 수도 있으며, 텍스트뿐만 아니라, 컨텐츠, 해당 대화의 시간 정보 등의 부가 정보도 포함할 수 있다.

그리고, 대화 컨텐츠에 대응되는 응답 컨텐츠를 생성한다. 구체적으로, 대화 컨텐츠로부터 텍스트를 추출한다.

예를 들어, 추출된 텍스트를 이용하여 응답 정보를 획득하기 위한 추가 정보가 필요한지 여부를 선행적으로 식별할 수 있다. 예시로, 대화 컨텐츠의 마지막 문장을 이용하여 대화 컨텐츠의 사용자의 요청을 확인하고, 대화 컨텐츠 내의 포함된 슬롯 정보들을 이용하여 사용자의 요청에 대응되는 응답 정보를 획득 가능한지를 판단할 수 있다. 만약, 추가 정보가 필요하지 않다면, 추출된 텍스트 정보만을 이용하여 응답 정보를 생성할 수 있다.

반대로, 추가 정보가 필요한 것으로 식별되면 저장된 벡터 값 중 산출된 벡터 값을 이용하여 기설정된 유사도를 갖는 벡터 값을 획득하고, 획득된 벡터 값과 산출된 벡터 값을 이용하여 응답 정보를 획득할 수 있다.

그리고, 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출할 수 있다. 예를 들어, 대화 컨텐츠에 포함된 문자형 데이터를 하나의 문장으로 생성하고, 생성된 하나의 문장에 대해서 기설정된 인코딩 알고리즘을 이용하여 벡터를 산출할 수 있다. 또는 대화 컨텐츠에 포함된 문자형 데이터를 문장 단위로 구분하고, 문장 단위별 텍스트 각각을 기설정된 인코딩 알고리즘을 이용하여 벡터를 산출할 수도 있다.

그리고 산출된 벡터 값 및 저장된 벡터 값을 이용하여 응답 정보를 획득할 수 있다. 예를 들어, 기설정된 유사도를 갖는 후보 벡터 값을 텍스트로 디코딩하고, 디코딩된 텍스트 내의 슬롯 정보를 추출하고, 사용자의 요청, 대화 컨텐츠 내의 포함된 슬롯 정보 및 추출된 슬롯 정보를 이용하여 응답 정보를 생성할 수 있다. 이때, 사술한 후보 벡터 값은 복수 개 일 수 있으며, 복수개의 후보 벡터 값 각각을 텍스트로 변환하고, 변환된 텍스트와 추출된 텍스트에 기초하여 응답 정보를 생성할 수도 있다.

그리고, 상술한 대화 이력을 다른 사용자 또는 이후의 대화 과정에서 이용하기 위하여, 변환된 텍스트와 추출된 텍스트에 기초하여 하나의 텍스트 문장을 생성하고, 생성된 텍스트 문장을 기설정된 인코딩 알고리즘을 이용하여 하나의 벡터를 산출하고, 산출된 벡터를 저장할 수 있다.

그리고 응답 컨텐츠를 전송하거나, 해당 응답 컨텐츠에 대응되는 이벤트를 수행할 수 있다.

이상과 같이 본 개시에 따른 전자 장치의 제어 방법은 응답 컨텐츠의 생성 과정에서 사용자의 대화 이력 뿐만 아니라 다른 사용자의 대화 이력에 대응되는 벡터 값도 이용하는바 보다 높은 정확도로 응답 정보를 생성하는 것이 가능하다. 또한, 다른 사용자의 대화 이력을 그대로 저장하지 않고, 기설정된 알고리즘을 이용하여 인코딩하여 저장하는바, 개인 정보의 누출되는 것을 방지할 수 있다.

도 10은 본 개시의 일 실시 예에 따른 전자 장치에서의 대화 방법을 설명하기 위한 흐름도이다.

도 10을 참조하면, 사용자 발화에 대응되는 텍스트 정보를 입력받을 수 있다. 이때, 현재 발화에 대응되는 텍스트 정보만을 입력받을 수 있으며, 현재 여러 발화 및 응답 과정이 진행 중인 경우라면, 이전 대화 이력을 포함하는 대화 컨텐츠를 입력받을 수 있다. 이때, 대화 컨텐츠는 현재 대화의 시간, 별도의 알고리즘을 통하여 확인할 수 있는 사용자 감정 정보 등 텍스트 이외에 정보를 더 포함할 수도 있다.

그리고, 사용자 발화로부터 사용자의 의도 및 슬롯 정보를 추출할 수 있다. 구체적으로, 앞서 설명한 바와 같은 NLU 모델을 이용하여 사용자 텍스트로부터 사용자가 의도하는 요청 및 해당 요청에 대응되는 상세 정보(또는 슬롯 정보)를 추출할 수 있다. 이때, 텍스트 정보뿐만 아니라, 부가 정보(예를 들어, 시간, 대화 빈도, 감정 정보)등을 이용할 수도 있다.

그리고, 추출된 정보만으로 응답 정보를 생성하는 것이 가능한지를 판단한다(S1020).

만약, 추출된 정보만으로 응답 정보를 생성하는 것이 충분하면, 추출된 정보만으로 응답 정보를 생성하여 해당 사용자에 대응되는 단말장치에 응답 정보를 제공하거나, 직접 응답 정보에 대응되는 서비스를 수행할 수 있다.

만약, 추출된 정보만으로 응답 정보를 생성하는 것이 어려운 경우, 사용자의 발화 정보에 포함된 텍스트들을 기설정된 인코딩 알고리즘을 이용하여 벡터 값으로 산출한다. 이때, 벡터 값은 대화 컨텐츠에 포함된 텍스트뿐만 아니라, 대화 컨텐츠에 포함된 다양한 부가 정보가 반영될 수도 있다.

그리고, 기저장된 벡터 값 중 산출된 벡터 값과 기설정된 유사도를 갖는 후보 벡터 값을 검색한다.

그리고, 검색된 후보 벡터 값을 텍스트로 디코딩하고, 디코딩된 텍스트에 포함된 슬롯 정보등을 추가로 활용하여 응답 정보를 생성할 수 있다.

도 11은 본 개시의 일 실시 예에 따른 대화 시스템에 대한 트리거 방법을 설명하기 위한 흐름도이다.

도 11을 참조하면, 실시간으로 응성 정보를 수신하면(S1110), 수신된 음성 데이터와 기저장된 트리거 명령을 비교하여, 웨이커 업이 필요한지를 판단할 수 잇다(S1120).

만약, 해당 사용자 발화가 트리거 명령으로 인식되면(S1130), 음성 인식(또는 대화 서비스)를 실행할 수 있다(S1160).

만약, 정확한 트리거로 인식되지 않으면, 해당 트리거를 음성 데이터와 함께 벡터화하고(S1140), 해당 트리거와 유사한 벡터 값이 존재하는지를 확인할 수 있다(S1150). 이와 같은 판단 및 동작은 다른 장치(예를 들어, 서버에 현재 트리거 명령에 대한 정보를 전송하고, 그에 대한 유사 트리거 명령의 수신)과의 협업을 통하여 수행될 수 있다.

만약, 유사한 벡터 값이 존재하면, 후보 트리거 정보를 이용하여 단말장치의 트리거 정보를 업데이트할 수 있다.

이상과 같이 본 개시에 따른 트리거 방법은 사용자가 설정한 트리거 뿐만 아니라, 유사 트리거도 등록하는바, 보다 높은 유연하게 사용자의 대화 서비스 요청에 대응하는 것이 가능하다.

도 12는 본 개시의 일 실시 예에 따른 대화 시스템의 동작을 나타내는 시퀀스도이다. 구체적으로, 도 12는 대화 정보에 대한 인코딩을 단말장치(100)에서 수행하는 경우의 예를 도시한 도면이다.

도 12를 참조하면, 단말장치(100)는 사용자로부터 사용자 발화를 수신하면(S1201), 수신된 발화를 음성 인식하여 사용자 발화에 대응되는 대화 정보(즉, 텍스트)를 생성할 수 있다(S1203).

*만약, 해당 서비스에 대한 발화가 연속적으로 진행중이었으면 단말장치(100)는 해당 텍스트 및 이전 서버(200)에서의 응답을 포함하는 대화 컨텐츠를 단말장치(100)는 저장하고 있을 수 있다.

그리고, 단말장치(100)는 상술한 대화 컨텐츠에 포함된 텍스트 및 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 생성할 수 있다. 이때, 단말장치(100)는 상술한 대화 컨텐츠에 포함된 마지막 턴의 대화 텍스트만을 이용하여 벡터 값을 산출하거나, 상술한 대화 컨텐츠에 포함된 모든 대화 텍스트를 이용하여 사용자 의도 및 슬롯 정보를 인식하고, 인식된 사용자 의도 및 슬롯 정보를 이용하여 하나의 문장을 생성하고, 생성된 문장을 기설정된 인코딩 알고리즘을 이용하여 하나의 벡터로 생성할 수 있다.

이때, 단말장치(100)는 대화 컨텐츠에 포함된 대화 텍스트를 자연어 이해 알고리즘을 이용하여 사용자 의도 및 슬롯을 확인하고, 확인된 사용자 의도 및 슬롯 정보를 이용하여 하나의 문장을 생성할 수 있다. 또는 단말장치(!00)는 대화 컨텐츠에 포함된 대화 텍스트 각각을 턴 단위(또는 문자 단위)로 벡터 값을 산출하고, 산출된 복수의 벡터 값을 서버(200)에 전송하는 형태로 구현될 수도 있다.

또한, 단말장치(100)는 대화 텍스트뿐만 아니라, 현재 대화 시간, 대화 빈도, 예측된 사용자 감정 등의 부가 정보를 반영하여 벡터 값을 산출할 수도 있다.

서버(200)는 벡터 값을 수신하고, 수신된 벡터 값을 기초로 응답 정보를 생성할 수 있다(S1207). 구체적으로, 서버(200)는 저장된 벡터 값 중 수신된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 선택하고, 선택된 벡터 값 및 수신된 벡터 값 각각을 기설정된 디코딩 알고리즘을 이용하여 텍스트로 변환하고, 수신된 벡터 값에 대응되는 텍스트를 이용하여 확인된 사용자의 요청 및 슬롯 정보와 기설정된 유사도를 갖는 벡터 값를 이용하여 확인된 슬롯 정보를 이용하여 응답 컨텐츠(또는 응답 정보)를 생성할 수 있다.

응답 컨텐츠를 생성하면, 서버(200)는 생성된 응답 컨텐츠를 단말장치(100)에 전송할 수 있다). 그리고 응답 컨텐츠를 수신한 단말장치(100)는 해당 응답 컨텐츠를 수행할 수 있다(S1209).

이와 같이 본 실시 예에서는 사용자 대화 정보를 직접적으로 서버(200)에 제공하지 않고, 벡터화 하여 서버(200)에 제공하는바, 사용자 개인 정보의 노출을 최소화할 수 있다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작할 수 있는 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(300))를 포함할 수 있다. 상술한 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 상술한 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시 예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

본 개시의 내용은 다양한 실시예를 참조하여 도시하고 설명하였지만, 본 개시의 사상 및 범위를 벗어나지 않는 범위 내에서 다양한 변경이 이루어 질 수 있다.

Claims

전자 장치에 있어서,

통신 장치;

적어도 하나의 인스트럭션을 저장하고, 대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 메모리; 및

상기 적어도 하나의 인스트럭션을 실행함으로써, 대화 컨텐츠로부터 텍스트를 추출하고, 상기 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출하고, 상기 산출된 벡터 값 및 상기 저장된 하나 이상의 벡터 값을 이용하여 응답 정보를 생성하는 프로세서;를 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 수신한 대화 컨텐츠로부터 부가 정보를 추출하고,

상기 벡터 값은 상기 추출된 부가 정보를 추가적으로 이용하여 산출되고,

상기 부가 정보는,

상기 대화 컨텐츠의 시간 정보, 대화 빈도, 사용자 감정 정보 중 적어도 하나를 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 응답 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하고, 추가 정보가 필요한 것으로 식별되면 상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값와 기설정된 유사도를 갖는 벡터 값을 획득하고,

상기 응답 정보는,

상기 획득된 벡터 값을 추가적으로 이용하여 생성되는 전자 장치.
제3항에 있어서,

상기 프로세서는,

상기 추출된 텍스트를 이용하여 사용자의 요청 및 슬롯 정보를 확인하고, 상기 확인된 슬롯 정보를 이용하여 상기 사용자의 요청에 대응되는 응답 정보를 획득 가능한지를 판단하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 디코딩하여 텍스트를 확인하고, 상기 확인된 텍스트 내의 슬롯 정보를 확인하고,

상기 응답 정보는,

상기 대화 컨텐츠를 이용하여 확인된 사용자 요청 및 슬롯 정보와 상기 기설정된 유사도를 갖는 벡터 값을 이용하여 확인된 슬롯 정보를 이용하여 생성되는 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 대화 컨텐츠를 이용하여 확인된 슬롯 정보 각각에 대한 가중치를 결정하고, 상기 결정된 가중치를 이용하여 상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 획득하는 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 복수개의 후보 벡터 값을 획득하고, 상기 획득된 복수개의 후보 벡터 값 각각을 텍스트로 디코딩하는 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 기설정된 유사도를 갖는 벡터값에 대응되는 텍스트와 상기 대화 컨텐츠에서 추출된 텍스트를 이용하여 하나의 텍스트 문장을 생성하고, 상기 생성된 텍스트 문장을 기설정된 인코딩 알고리즘을 이용하여 하나의 벡터를 산출하고, 상기 산출된 벡터를 상기 메모리에 저장하는 전자 장치.
전자 장치에서의 제어 방법에 있어서,

대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 단계;

대화 컨텐츠를 수신하는 단계;

상기 대화 컨텐츠에 대응되는 응답 정보를 생성하는 단계; 및

상기 응답 정보를 전송하는 단계;를 포함하고,

상기 응답 정보를 생성하는 단계는,

상기 대화 컨텐츠로부터 텍스트를 추출하는 단계;

상기 추출된 텍스트를 기설정된 인코딩 알고리즘을 이용하여 벡터 값을 산출하는 단계; 및

상기 산출된 벡터 값 및 상기 저장된 하나 이상의 벡터 값을 이용하여 응답 정보를 생성하는 단계;를 포함하는 제어 방법.
제9항에 있어서,

상기 벡터 값을 산출하는 단계는,

상기 수신한 대화 컨텐츠로부터 부가 정보를 추출하고,

상기 벡터 값은 상기 추출된 부가 정보를 추가적으로 이용하여 산출되고,

상기 부가 정보는,

상기 대화 컨텐츠의 시간 정보, 대화 빈도, 사용자 감정 정보 중 적어도 하나를 포함하는 제어 방법.
제9항에 있어서,

상기 응답 정보를 생성하는 단계는,

상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 텍스트로 변환하기 위한 디코딩 단계;

상기 텍스트 내의 슬롯 정보를 확인하는 단계;를 포함하고,

상기 응답 정보는,

상기 대화 컨텐츠를 이용하여 확인된 사용자 요청 및 슬롯 정보와 상기 기설정된 유사도를 갖는 벡터 값을 이용하여 확인된 슬롯 정보를 이용하여 생성되는 제어 방법.
제11항에 있어서,

상기 응답 정보를 생성하는 단계는,

상기 대화 컨텐츠를 이용하여 확인된 슬롯 정보 각각에 대한 가중치를 결정하고, 상기 결정된 가중치를 이용하여 상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 획득하는 단계;를 더 포함하는 제어 방법.
제11항에 있어서,

상기 디코딩하는 단계는,

상기 저장된 하나 이상의 벡터 값 중 상기 산출된 벡터 값과 기설정된 유사도를 갖는 복수개의 후보 벡터 값을 획득하고, 상기 획득된 복수개의 후보 벡터 값 각각을 텍스트로 디코당하는 제어 방법.
제11항에 있어서,

상기 기설정된 유사도를 갖는 벡터값에 대응되는 텍스트와 상기 대화 컨텐츠에서 추출된 텍스트를 이용하여 하나의 텍스트 문장을 생성하고, 상기 생성된 텍스트 문장을 기설정된 인코딩 알고리즘을 이용하여 하나의 벡터를 산출하고, 상기 산출된 벡터를 저장하는 단계;를 더 포함하는 제어 방법.
전자 장치에서의 제어 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서,

상기 제어 방법은,

대화 이력 정보에 대응되는 하나 이상의 벡터 값을 저장하는 단계;

대화 컨텐츠에 포함된 텍스트에 대응되는 벡터 값을 수신하는 단계;

상기 대화 컨텐츠에 대응되는 응답 정보를 생성하는 단계; 및

상기 응답 정보를 전송하는 단계;를 포함하고,

상기 응답 정보를 생성하는 단계는,

상기 저장된 벡터 값 중 상기 수신된 벡터 값과 기설정된 유사도를 갖는 벡터 값을 선택하고, 상기 선택된 벡터 값 및 상기 수신된 벡터 값 각각을 기설정된 디코딩 알고리즘을 이용하여 텍스트로 변환하고, 상기 수신된 벡터 값에 대응되는 텍스트를 이용하여 확인된 사용자의 요청 및 슬롯 정보와 상기 기설정된 유사도를 갖는 벡터 값을 이용하여 확인된 슬롯 정보를 이용하여 응답 정보를 생성하는 컴퓨터 판독 가능 기록 매체.