KR102677052B1 - 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 - Google Patents

보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 Download PDF

Info

Publication number
KR102677052B1
KR102677052B1 KR1020190114053A KR20190114053A KR102677052B1 KR 102677052 B1 KR102677052 B1 KR 102677052B1 KR 1020190114053 A KR1020190114053 A KR 1020190114053A KR 20190114053 A KR20190114053 A KR 20190114053A KR 102677052 B1 KR102677052 B1 KR 102677052B1
Authority
KR
South Korea
Prior art keywords
model
character
voice
response message
voice assistant
Prior art date
Application number
KR1020190114053A
Other languages
English (en)
Other versions
KR20200033189A (ko
Inventor
황인철
강도희
김승연
마동철
박민규
이대근
차도헌
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190062589A external-priority patent/KR20200033140A/ko
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20200033189A publication Critical patent/KR20200033189A/ko
Application granted granted Critical
Publication of KR102677052B1 publication Critical patent/KR102677052B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법은, 캐릭터 특화 모델을 수신하는 동작; 캐릭터를 지시하는 단어와 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력을 수신하는 동작; 상기 캐릭터를 지시하는 상기 단어에 따라 상기 캐릭터 특화 모델을 결정하는 동작; 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하는 동작; 및 상기 생성된 응답 메시지를 출력하는 동작;을 포함한다.

Description

보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 {SYSTEM AND METHOD FOR PROVIDING VOICE ASSISTANT SERVICE}
본 개시는 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 소정의 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것이다.
보이스 어시스턴트 서비스는, 오디오 신호에 음성 인식(ASR: Automated Speech Recognition) 처리, 자연어 이해(NLU: Natural Language Understanding) 처리, 대화 관리(DM: Dialogue Manager) 처리, 자연어 생성(NLG: Natural Language generation) 처리 및 텍스트 투 스피치(TTS: Text To Speech) 처리를 통해, 사용자 발화에 대한 응답을 제공하는 서비스이다.
종래에는 보이스 어시스턴트 서비스는 미리 정해진 스타일로만 답변을 제공하며 스타일을 변경하기 위해서는 설정 메뉴를 통해 변경을 해야 했다. 또한, 보이스 어시스턴트의 ASR, NLU, DM, NLG, TTS는 인공지능 이외의 규칙 기반 알고리즘을 통해 동작될 수 있으며, 보이스 어시스턴트의 성능 향상을 위해 인공지능이 접목될 수 있다.
일부 실시예는, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다.
또한, 일부 실시예는, 캐릭터에 특화된 인공지능 모델을 이용하여 보이스 어시스턴트 서비스를 제공할 수 있는 시스템 및 방법을 제공할 수 있다.
또한, 일부 실시예는, 보이스 어시스턴트의 모델 및 3rd party의 다른 디바이스에 의해 생성된 캐릭터 특화 모델을 함께 이용하여, 다양한 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있는 시스템 및 방법을 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 외부 디바이스로부터 캐릭터 특화 모델을 수신하는 동작; 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력을 수신하는 동작; 상기 캐릭터를 지시하는 상기 단어에 따라 상기 캐릭터 특화 모델을 결정하는 동작; 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하는 동작; 및 상기 생성된 응답 메시지를 출력하는 동작; 을 포함하는, 디바이스가 보이스 어시스턴트 프로그램을 통해 보이스 어시스턴트 서비스를 제공하는 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 사용자 음성 입력을 수신하는 마이크; 통신 인터페이스; 하나 이상의 명령어들을 저장하는 메모리; 및 상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 하나 이상의 프로세서; 를 포함하며, 상기 프로세서는, 상기 통신 인터페이스를 통해 서버로부터 상기 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 수신하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 상기 마이크를 통해 수신하고, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하고, 상기 생성된 응답 메시지를 출력하는, 보이스 어시스턴트 서비스를 제공하는 디바이스를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 통신 인터페이스; 하나 이상의 명령어들을 저장하는 메모리; 및 상기 하나 이상의 명령어들을 실행하는 하나 이상의 프로세서;를 포함하며, 상기 프로세서는, 상기 통신 인터페이스를 통해 디바이스의 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 획득하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 디바이스로부터 상기 통신 인터페이스를 통해 수신되면, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장에 대한 응답 메시지를 생성하는, 보이스 어시스턴트 서비스를 제공하는 서버를 제공할 수 있다.
도 1은 일부 실시예에 따른 보이스 어시스턴트 서비스를 제공하기 위한 시스템의 개요도이다.
도 2는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
도 3은 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
도 4는 일부 실시예에 따른 디바이스가 소정의 제품에 근접함으로써 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
도 5는 일부 실시예에 따른 디바이스가 보이스 어시스턴트의 응답 모드를 변경하는 방법의 흐름도이다.
도 6은 일부 실시예에 따른 서버가 다른 디바이스에게 학습 모델 생성 툴을 다른 디바이스에게 제공하고, 다른 디바이스에 의해 생성된 캐릭터 특화 모델을 디바이스에게 제공하는 방법의 흐름도이다.
도 7은 일부 실시예에 따른 다른 디바이스가 학습 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성하고 업데이트하는 방법의 흐름도이다.
도 8은 일부 실시예에 따른 디바이스, 서버 및 다른 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
도 9는 일부 실시예에 따른 학습 모델 생성 툴의 블록도이다.
도 10은 일부 실시예에 따른 학습 모델 생성 툴을 이용하여 캐릭터 특화 모델이 생성되는 예시를 나타내는 도면이다.
도 11은 일부 실시예에 따른 다른 디바이스가 캐릭터 특화 모델을 생성하는 예시를 나타내는 도면이다.
도 12는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델 및 보이스 어시스턴트의 학습 모델을 함께 이용하는 예시를 나타내는 도면이다.
도 13은 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 예시를 나타내는 도면이다.
도 14는 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스를 제공하는 세부 동작을 나타내는 도면이다.
도 15는 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 예시를 나타내는 도면이다.
도 16은 일부 실시예에 따른 디바이스가 캐릭터 제품에 근접함으로써 캐릭터 특화 모델을 획득하는 예시를 나타내는 도면이다.
도 17은 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스의 대화창을 나타내는 도면이다.
도 18은 일부 실시예에 따른 응답 모드에 따른 응답 메시지의 예시를 나타내는 도면이다.
도 19 및 도 20은 일부 실시예에 따른 디바이스의 블록도이다.
도 21은 일부 실시예에 따른 서버의 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 본 명세서에서 보이스 어시스턴트 서비스는, 사용자와의 대화를 제공하는 서비스일 수 있다. 보이스 어시스턴트 서비스에서는 사용자의 상황, 디바이스의 상황 등을 고려하여 사람이 사용자와 직접 대화하는 것처럼 사용자에게 응답 메시지를 제공할 수 있다. 또한, 보이스 어시스턴트 서비스에서는, 사용자의 개인 비서처럼 사용자가 필요한 정보를 적절하게 생성하여 사용자에게 제공할 수 있다.
인공지능 모델은 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 모델일 수 있다.
보이스 어시스턴트 서비스의 모델 모델은, 보이스 어시스턴트 서비스에서 사용자에게 응답 메시지를 제공하기 위한 기준 및 방법 등이 학습된 인공지능 모델일 수 있다. 보이스 어시스턴트 서비스의 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 모델, 사용자의 입력 음성을 해석하기 위한 모델, 사용자에게 제공할 응답 메시지를 생성하기 위한 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 모델을 포함할 수 있으나, 이에 제한되지 않는다. 보이스 어시스턴트 서비스의 모델을 구성하는 모델들은 인공지능 알고리즘이 적용된 인공지능 모델일 수 있다.
캐릭터 특화 모델은, 보이스 어시스턴트 서비스를 위한 모델로서, 소정의 캐릭터에 특징이 반영된 인공지능 모델이다. 캐릭터 특화 모델은, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등을 이용하여, 사용자에게 캐릭터에 특화된 응답 메시지를 제공하기 위한 기준 및 방법이 학습된 모델일 수 있다. 캐릭터 특화 모델은, 보이스 어시스턴트 서비스의 모델에 대하여 독립적으로, 병렬적으로 또는 보조적으로 이용될 수 있다. 캐릭터 특화 모델을 구성하는 모델들은 인공지능 알고리즘이 적용된 인공지능 모델일 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일부 실시예에 따른 보이스 어시스턴트 서비스를 제공하기 위한 시스템의 개요도이다.
도 1을 참조하면, 보이스 어시스턴트 서비스를 제공하기 위한 시스템은 디바이스(1000), 서버(2000) 및 다른 디바이스(3000)를 포함할 수 있다.
디바이스(1000)는 보이스 어시스턴트 서비스를 제공하기 위하여 보이스 어시스턴트 서비스의 모델을 이용하여 사용자의 음성 입력에 대한 응답 메시지를 출력할 수 있다. 보이스 어시스턴트 서비스의 모델은 디바이스(1000)에 디폴트로 설치된 보이스 어시스턴트 프로그램에 의해 이용되는 기본 모델일 수 있다. 또한, 디바이스(1000)는 소정의 캐릭터에 대한 캐릭터 특화 모델을 수신하여 디바이스(1000) 내에 설치할 수 있으며, 캐릭터 특화 모델을 이용하여 소정의 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다.
서버(2000)는 보이스 어시스턴트 서비스에서 이용될 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)에게 제공하고, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 다른 디바이스(3000)로부터 수신할 수 있다. 또한, 서버(2000)는 수신된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다. 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 서버(2000)는 보이스 어시스턴트 서비스를 제공하기 위한 서버일 수 있으나, 이에 제한되지 않는다. 서버(2000)는, 예를 들어, 디바이스에게 애플리케이션을 제공하기 위한 서버, 및 디바이스에게 디바이스에 설치된 OS의 테마 데이터를 제공하기 위한 서버를 포함할 수 있다.
다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있다. 다른 디바이스(3000)는 캐릭터 특화 모델을 서버(2000)로부터 수신하거나 다른 소스로부터 획득할 수 있다. 다른 디바이스(3000)는 3rd party의 디바이스이거나 일반 사용자의 디바이스일 수 있다. 모델 생성 툴은, 보이스 어시스턴트 서비스를 제공하는데 필요한 기능들에 대하여, 하나 이상의 모델을 생성할 수 있도록 하는 소프트웨어 개발 킷(SDK)을 포함할 수 있다. 다른 디바이스(3000)는 서버(2000)를 통하여 디바이스(1000)에게 캐릭터 특화 모델을 제공하거나 다른 서버(미도시)를 통하여 디바이스(1000)에게 캐릭터 특화 모델을 제공할 수 있다.
디바이스(1000) 및 다른 디바이스(3000)는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 서버, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 그러나, 이에 제한되지 않으며, 디바이스(1000) 및 다른 디바이스(3000)는 서버(2000)와 네트워크를 통하여 통신 연결되고 데이터를 서로 송수신할 수 있는 모든 종류의 기기를 포함할 수 있다.
네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 포함하며, 도 1에 도시된 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다.
도 2는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
동작 S200에서, 디바이스(1000)는 캐릭터 특화 모델을 수신할 수 있다. 디바이스(1000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 이 경우, 디바이스(1000)는 서버(2000)에 의해 제공되는 캐릭터 모델 리스트를 디스플레이하고, 사용자의 선택 입력에 기초하여 캐릭터 특화 모델을 서버(2000)로부터 다운로드할 수 있다.
또한, 디바이스(1000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을, 소정의 제품(미도시)으로부터 수신할 수 있다. 근거리 통신 기능 및 데이터 저장 기능을 포함하는 제품(미도시)에 디바이스(1000)가 근접하면, 디바이스(1000)는 제품(미도시)과 근거리 통신을 형성할 수 있다. 이 경우, 제품(미도시)는, 예를 들어, 캐릭터 인형, 캐릭터 장난감, 열쇠 고리, 태그 제품, 및 스피커를 포함하는 전자 제품 등으로 구현될 수 있으나, 이에 제한되지 않는다. 또한, 디바이스(1000)는 제품(미도시)으로부터 제품(미도시) 내에 저장된 캐릭터 특화 모델을 근거리 통신을 통하여 수신할 수 있다. 또한, 제품(미도시) 내에는 캐릭터 특화 모델을 다운로드하기 위한 링크 정보가 저장될 수 있으며, 디바이스(1000)는 제품(미도시) 내에 저장된 링크 정보를 제품(미도시)으로부터 수신하고, 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드할 수 있다.
동작 S210에서 디바이스(1000)는 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 디바이스(1000)는 디바이스(1000) 내에 설치된 보이스 어시스턴트 프로그램을 실행하고 실행된 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 디바이스(1000)는 사용자 입력에 기초하여 디바이스(1000) 내에 설치된 복수의 캐릭터 특화 모델 중 하나를 선택할 수 있으며, 선택된 캐릭터 특화 모델에 액세스할 수 있다. 복수의 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력은 사용자의 음성 입력일 수 있다. 예를 들어, 디바이스(1000)는 소정의 캐릭터에 대응되는 콜 네임을 발성하는 사용자의 음성 입력을 수신할 수 있다. 보이스 어시스턴트 프로그램은, 운영체제(OS) 상에서 실행되는 애플리케이션으로 구현될 수 있고, 미들웨어를 구성하는 하나의 소프트웨어 모듈로 구현될 수 있다.
동작 S220에서 디바이스(1000)는 사용자의 음성 입력을 수신할 수 있다. 디바이스(1000)는 보이스 어시스턴트 서비스를 제공하기 위하여 사용자의 음성 입력을 수신할 수 있다. 동작 S210 및 S220은, 개별 동작으로 수행될 수도 있지만, 끊김없이 연속된(seamless) 동작으로 수행될 수도 있다. 예를 들어, 동작 S210에서 “너는 이제 뽀로로야” 등과 같이 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력이 수신되고, 캐릭터 특화 모델 중 하나가 선택된 후, 동작 S220에서 “오늘 날씨는 어때?” 등과 같이 보이스 어시스턴트 서비스를 요청하기 위한 사용자의 음성 입력이 수신될 수 있다. 또한, 동작 S210과 동작 S220이 끊김없이 연속적으로 동작되어, “뽀로로야, 오늘 날씨는 어때?” 등과 같이 캐릭터 특화 모델 중 하나를 선택하는 입력과 보이스 어시스턴트 서비스를 요청하기 위한 입력이 함께 수신되면, 디바이스(1000)는 이를 분석하여 캐릭터 특화 모델 중 하나를 선택하고, 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용을 특정할 수 있다.
보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용은, 사용자의 발화를 NLU(Natural Language Understanding)를 통해 분석함으로써 획득될 수 있다. 디바이스(1000)는 사용자 발화에서 Intent와, 및 Intent와 관련된 Slot 정보를 취득하여 서비스의 내용을 특정할 수 있다. 예를 들어, 디바이스(1000)는 “오늘 날씨는 어때?”라는 발화가 ASR(automatic response system)을 통해 획득되면, NLU를 통해 Intent는 ‘날씨 검색’이며, Slot이 ‘오늘 날씨’임을 식별할 수 있다. NLU는 샘플 문장과 각 샘플 문장이 의미하는 Intent/Slot으로 학습된 모델이며, 인공지능 기술이 접목될 수 있다. NLU를 통해 Intent와 Slot이 획득되면, 보이스 어시스턴트 프로그램은 획득된 Intent에 대응하는 서비스를 제공할 수 있는 애플리케이션과 연동될 수 있다. 예를 들면, 획득된 Intent가 ‘날씨 검색’인 경우에, 보이스 어시스턴트 프로그램은 날씨 애플리케이션과 연동하여 동작할 수 있다. ‘날씨 검색’이라는 Intent와 ‘오늘 날씨’라는 Slot은, 날씨 애플리케이션의 API에 따라 ‘오늘 날씨를 검색하여 결과를 획득’있도록 하기 위한 API 데이터로 변환되고, API 데이터는 날씨 애플리케이션에 전달될 수 있다. API 데이터는 애플리케이션마다 그 형태가 상이할 수 있으며, Intent/Slot을 특정 애플리케이션의 API 데이터로 변환하는 별도의 프로그램을 통해, API 데이터로의 데이터 변환이 수행될 수 있다.
날씨 애플리케이션은 API 데이터를 받아, 오늘 날씨에 대한 정보를 검색하여 검색 결과를 보이스 어시스턴트 프로그램에 전달할 수 있다. 보이스 어시스턴트 프로그램에게 전달된 검색 결과는 날씨 애플리케이션의 API 데이터일 수 있으며, 보이스 어시스턴트 프로그램은 전달된 검색 결과를 자연어의 형태의 데이터로 변환할 수 있다. 데이터 변환 작업은 보이스 어시스턴트 프로그램에 의해 수행될 수도 있지만, 별도로 마련된 데이터 변환을 위한 프로그램을 통해 수행될 수 있다. 날씨 애플리케이션과 관련하여 보이스 어시스턴트 서비스가 제공되는 예시를 설명하였지만 다른 애플리케이션에 대해서도 동일 또는 유사한 방식으로 보이스 어시스턴트 서비스가 제공될 수 있다.
동작 S230에서 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여 응답 메시지를 생성할 수 있다. 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 사용자의 음성 입력을 해석하고, 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다.
디바이스(1000)는 응답 메시지를 생성하기 위하여, 서비스의 내용에 대응하는 애플리케이션으로부터 획득된 데이터를 이용할 수 있다. 디바이스(1000)는 애플리케이션으로부터 획득된 데이터를 보이스 어시스턴트 프로그램이 처리할 수 있는 형태의 데이터로 변경한 후, 변경된 데이터를 이용하여 응답 메시지를 생성할 수 있다. 응답 메시지의 생성은 DM(Dialog Management)과 NLG(Natural Language Generation)에 의해 수행될 수 있으며, DM이 응답 메시지의 유형을 결정하면 NLG이 응답 메시지의 유형에 맞는 형태로 응답 메시지를 생성할 수 있다. DM은 질문과 응답으로 구성되는 샘플 대화를 이용하여 학습된 모델일 수 있으며, 인공지능 기술이 접목될 수 있다. NLG는 응답에 포함될 데이터와 이에 대응하는 자연어 문장으로 구성되는 샘플 데이터를 이용하여 학습된 모델일 수 있으며, 인공지능 기술이 접목될 수 있다. 예를 들면, 디바이스(1000)는 날씨 애플리케이션로부터 전달된 검색 결과를 이용하여 응답 메시지를 생성할 수 있다. 날씨 애플리케이션이 오늘 날씨에 대한 검색 결과(예. 맑음)를 보이스 어시스턴트 프로그램에게 전달하면, 보이스 어시스턴트 프로그램의 DM은 날씨 검색 요청에 대한 응답의 유형이 날씨 검색 결과 전달이라는 결과를 출력할 수 있다. 또한, 보이스 어시스턴트 프로그램의 NLG는 출력된 결과를 수신하여, 날씨 검색 결과 전달을 위한 문장을 생성할 수 있다. 문장 생성 결과, 날씨 검색 결과 전달의 유형에 가장 적합한 형태의 문장이 결정되고, 결정된 문장에 날씨 애플리케이션에서 획득한 오늘 날씨에 대한 검색 결과가 반영되어 응답 문장(예, 오늘 날씨는 맑음 입니다.)이 생성될 수 있다.
디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트 프로그램의 모델에 사용자의 음성 입력 또는 사용자의 음성 입력으로부터 변환된 텍스트를 적용함으로써, 캐릭터 특화 모델 및 보이스 어시스턴트 프로그램의 모델로부터 출력되는 응답 메시지를 획득할 수 있다. 보이스 어시스턴트의 NLG가 보이스 어시스턴트의 일반적인 응답 메시지인 “오늘 날씨는 맑음 입니다”라는 문장을 생성하면, 캐릭터 특화 모델의 NLG는 생성된 문장을 입력받을 수 있다. 또한, 캐릭터 특화 모델은, 입력된 문장을, 캐릭터에 특화된 응답 메시지인 “친구들이랑 밖에 나가서 놀기 좋은 맑은 날씨예요”로 변경할 수 있다.
물론, 디바이스(1000)는 보이스 어시스턴트의 NLG를 사용하지 않고, 캐릭터 특화 모델의 NLG만을 사용하여, 캐릭터에 특화된 응답 메시지인 “친구들이랑 밖에 나가서 놀기 좋은 맑은 날씨예요”를 바로 생성할 수 있다. 또한, 보이스 어시스턴트의 NLG 모델이 캐릭터의 특성이 반영되도록 학습되어 캐릭터 특화 NLG 모델로 변경되고, 캐릭터의 특성이 반영되도록 변경된 보이스 어시스턴트의 NLG 모델을 통해 캐릭터 특화된 응답 메시지가 생성될 수 있다.
또한, 보이스 어시스턴트의 TTS(Text To Speech)에서 보이스 어시스턴트의 일반적인 음성 특성으로 응답 메시지의 출력 특성을 결정할 수 있고, 캐릭터 특화 모델의 TTS가 이 특성을 입력받아 캐릭터의 특성이 반영된 출력 특성을 결정할 수 있다. 물론, 캐릭터 특화 모델의 NLG가 생성한 캐릭터에 특화된 응답 메시지를 캐릭터 특화 모델의 TTS가 수신하여, 캐릭터 특성이 반영된 출력 특성을 결정하고 캐릭터 특성이 반영되도록 응답 메시지를 출력할 수 있다.
이 경우, 사용자의 음성 입력에 대한 응답 메시지에는, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등이 반영될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지는, 캐릭터의 어투에 따른 표현을 포함할 수 있다. 또한, 응답 메시지가 음향으로 출력되는 경우에, 응답 메시지가 캐릭터의 억양에 따라 출력될 수 있도록, 응답 메시지는 억양에 관한 정보를 포함할 수 있다.
보이스 어시스턴트 서비스의 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 ASR 모델, 사용자의 입력 음성을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다.
또한, 캐릭터 특화 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 ASR 모델, 사용자의 입력 음성을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 캐릭터 특화 모델은, 보이스 어시스턴트 서비스의 모델에 대하여 독립적으로, 병렬적으로 또는 보조적으로 이용될 수 있다.
동작 S240에서 디바이스(1000)는 생성된 응답 메시지를 출력할 수 있다. 디바이스(1000)는 응답 메시지의 텍스트를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 디바이스(1000)는 응답 메시지의 사운드를 디바이스(1000)의 스피커를 통해 출력할 수 있다.
도 3은 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
동작 S300에서 디바이스(1000)는 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 실행 화면 내의 소정 객체를 선택함으로써, 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다. 또한, 디바이스(1000)는 디바이스(1000)에 설치된 OS(Operating System)의 테마를 변경하기 위한 화면 내의 소정 객체를 선택함으로써, 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다.
캐릭터 특화 모델을 제공하는 서버(2000)는 보이스 어시스턴트 서비스를 제공하는 서버일 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델을 획득하기 위하여, 예를 들어, 앱 마켓과 같이 애플리케이션을 제공하는 애플리케이션 제공 서버에 접속할 수도 있다.
동작 S310에서 디바이스(1000)는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 보이스 어시스턴트의 실행 화면 내의 소정 객체를 선택하는 사용자 입력이 수신되면, 디바이스(1000)는 서버(2000)에서 제공되는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 또는, 디바이스(1000)에 설치된 OS(Operating System)의 테마를 변경하기 위한 화면 내의 소정 객체가 선택되면, OS(Operating System)의 테마 목록과 함께 캐릭터 특화 모델의 목록이 디스플레이될 수 있다. 또한, OS(Operating System)의 테마 내에 캐릭터 특화 모델이 포함될 수 있다. 캐릭터 특화 모델의 목록은, 예를 들어, 캐릭터의 이름을 포함하는 목록일 수 있으나, 이에 제한되지 않는다.
동작 S320에서 디바이스(1000)는 캐릭터 특화 모델을 선택할 수 있다. 디바이스(1000)는 캐릭터 특화 모델의 목록에서 소정의 캐릭터 특화 모델을 선택하는 사용자 입력을 수신할 수 있으며, 수신된 사용자 입력에 따라 캐릭터 특화 모델을 선택할 수 있다.
동작 S330에서 디바이스(1000)는 선택된 캐릭터 특화 모델을 다운로드하고 설치할 수 있다. 디바이스(1000)는 선택된 캐릭터 특화 모델을 서버(2000)에게 요청하고, 선택된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 또한, 디바이스(1000)는 수신된 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 디바이스(1000)는 캐릭터 특화 모델이 디바이스(1000) 내의 보이스 어시스턴트의 모델과 연동할 수 있도록, 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 연동하여 동작하는 상세한 내용은 뒤에 기술한다.
도 4는 일부 실시예에 따른 디바이스가 소정의 제품에 근접함으로써 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
동작 S400에서 디바이스(1000)는 캐릭터 특화 모델을 제공하는 제품에 접근할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)은, 근거리 통신 기능 및 데이터 저장 기능을 포함하는 장치를 포함할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)는, 예를 들어, 캐릭터 인형, 캐릭터 장난감, 열쇠 고리, 태그 제품, 및 스피커를 포함하는 전자 제품 등으로 구현될 수 있으나, 이에 제한되지 않는다. 디바이스(1000)는 캐릭터 특화 모델을 제공하는 제품(미도시)의 통신 범위 내에 접근함에 따라, 캐릭터 특화 모델을 제공하는 제품(미도시)과 근거리 통신을 형성할 수 있다.
동작 S410에서 디바이스(1000)는 제품(미도시)으로부터 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 수신할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)은 캐릭터 특화 모델을 제공하는 소스의 링크 정보를 저장할 수 있으며, 디바이스(1000)는 제품(미도시)와 형성된 근거리 통신을 통하여 링크 정보를 수신할 수 있다.
동작 S420에서 디바이스(1000)는 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드하고 설치할 수 있다. 디바이스(1000)는 수신된 링크 정보를 이용하여, 캐릭터 특화 모델을 제공하는 서버(2000)에 액세스할 수 있으며, 서버(2000)로부터 제공되는 캐릭터 특화 모델을 수신할 수 있다. 또한, 디바이스(1000)는 수신된 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 디바이스(1000)는 캐릭터 특화 모델이 디바이스(1000) 내의 보이스 어시스턴트의 모델과 연동할 수 있도록, 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다.
한편, 상기에서는, 디바이스(1000)가 캐릭터 특화 모델을 제공하는 제품(미도시)로부터 캐릭터 특화 모델의 링크 정보를 수신하는 것으로 설명하였지만, 이에 제한되지 않는다. 디바이스(1000)가 캐릭터 특화 모델을 제공하는 제품(미도시)로부터 캐릭터 특화 모델을 직접 수신할 수도 있다. 이 경우, 디바이스(1000)는, 캐릭터 특화 모델을 생성한 3rd party의 다른 디바이스(3000)를 통하여, 디바이스에 설치된 캐릭터 특화 모델을 업데이트할 수 있다.
도 5는 일부 실시예에 따른 디바이스가 보이스 어시스턴트의 응답 모드를 변경하는 방법의 흐름도이다.
동작 S500에서 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 변경하기 위한 사용자 음성 입력을 수신할 수 있다. 디바이스(1000)는 캐릭터 특화 모델을 설치하고, 설치된 캐릭터 특화 모델을 호출 또는 실행하기 위한 콜 네임을 설정할 수 있다. 또한, 디바이스(1000)는 설정된 콜 네임을 부르는 사용자의 음성 입력을 수신할 수 있다. 예를 들어, 디바이스(1000)는 ‘뽀로로’라는 캐릭터에 대한 캐릭터 특화 모델을 호출 또는 실행하기 위한 콜 네임으로, ‘뽀로로’를 설정할 수 있다. ‘뽀로로’를 부르는 사용자의 음성 입력을 수신한 것으로 판단된 경우 뽀로로 캐릭터에 대한 캐릭터 특화 모델이 호출 또는 실행될 수 있다.
동작 S510에서 디바이스(1000)는 사용자의 음성 입력에 기초하여, 보이스 어시스턴트에 이용될 캐릭터 특화 모델을 선택할 수 있다. 디바이스(1000)는 사용자의 음성 입력과 디바이스(1000) 내에 설정된 캐릭터 특화 모델의 콜 네임을 비교할 수 있다. 예를 들어, 디바이스(1000)는 사용자의 음성 입력을 텍스트로 변환하고, 변환된 텍스트를 디바이스(1000) 내에 설정된 캐릭터 특화 모델의 콜 네임과 비교할 수 있다. 디바이스(1000)는 비교 결과에 기초하여, 사용자의 음성 입력에 대응되는 캐릭터 특화 모델을 선택할 수 있다. 특히, 복수 개의 캐릭터 특화 모델이 설치되어 있는 경우, 복수 개의 캐릭터 특화 모델 중 하나를 선택하는 데 콜 네임이 이용될 수 있다. 예를 들어, ‘뽀로로’를 부르는 사용자의 음성 입력이 수신되면, 디바이스(1000)는 복수 개의 캐릭터 특화 모델 중에서 뽀로로에 대한 캐릭터 특화 모델을 선택할 수 있다.
동작 S520에서 디바이스(1000)는 선택된 캐릭터 특화 모델에 따라, 어시스턴트의 응답 모드를 캐릭터 응답 모드로 변경할 수 있다. ‘뽀로로’를 부르는 사용자의 음성 입력에 따라, 뽀로로에 대한 캐릭터 특화 모델이 선택되면, 디바이스(1000)는 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다.
도 6은 일부 실시예에 따른 서버(2000)가 다른 디바이스(3000)에게 모델 생성 툴을 제공하고, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 디바이스(1000)에게 제공하는 방법의 흐름도이다.
동작 S600에서 서버(2000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 저장할 수 있다. 모델 생성 툴은, 캐릭터 특화 모델을 생성하기 위한 학습 모델 생성 툴일 수 있다., 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델을 생성하는 기능, 사용자의 음성 입력을 해석하기 위한 NLU 모델을 생성하는 기능, 응답 메시지의 유형을 결정하기 위한 DM 모델을 생성하는 기능, 응답 메시지를 생성하기 위한 NLG 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다.
동작 S610에서 서버(2000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)에게 제공할 수 있다. 다른 디바이스(3000)의 사용자는 캐릭터에 특화된 모델을 생성하고 캐릭터에 관한 서비스를 제공할 수 있으며, 다른 디바이스(3000)는 서버(2000)에 접속하여 서버(2000)에게 모델 생성 툴을 요청할 수 있다.
동작 S620에서 서버(2000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 수신할 수 있다. 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 생성된 캐릭터 특화 모델을 서버(2000)에 업로드할 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 서버(2000)는 수신된 캐릭터 특화 모델을 3rd party 별로 DB에 저장할 수 있다.
동작 S630에서 서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공할 수 있으며, 동작 S640에서 서버(2000)는 캐릭터 특화 모델의 목록 중에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다.
도 7은 일부 실시예에 따른 다른 디바이스가 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성하고 업데이트하는 방법의 흐름도이다.
동작 S700에서 다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 획득할 수 있다. 다른 디바이스(3000)는 서버(2000)에게 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 요청하고, 서버(2000)로부터 모델 생성 툴을 수신할 수 있다. 또는 다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 제공하는 다른 소스(미도시)로부터 모델 생성 툴을 수신할 수 있다.
동작 S710에서 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델을 생성하는 기능, 사용자의 음성 입력을 해석하기 위한 NLU 모델을 생성하는 기능, 응답 메시지의 유형을 결정하기 위한 DM 모델을 생성하는 기능, 응답 메시지를 생성하기 위한 NLG 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다.
다른 디바이스(3000)는 모델 생성 툴을 이용하여, 캐릭터에 관련된 학습 데이터를 이용하여 캐릭터 특화 모델을 학습시킴으로써 캐릭터 특화 모델을 생성할 수 있다. 예를 들어, 다른 디바이스(3000)는 캐릭터에 관한 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관한 대화 스크립트, 캐릭터에 관련된 콘텐트 정보, 캐릭터에 관련된 QNA 데이터, 캐릭터에 관련된 연관 정보를 이용하여, 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 학습시킴으로써, 캐릭터 특화 모델을 생성할 수 있다.
캐릭터 특화 모델은, 대응하는 캐릭터 특화 모델을 호출하기 위한 콜 네임 정보 및 콜 네임 인식 모델을 포함할 수 있다. 대응하는 캐릭터 특화 모델을 호출하기 위한 콜 네임 정보 및 콜 네임 인식 모델은 보이스 어시스턴트 서비스의 모델에 포함될 수도 있다.
동작 S720에서 다른 디바이스(3000)는 생성된 캐릭터 특화 모델을 서버(2000)에게 제공할 수 있다. 다른 디바이스(3000)는 생성된 캐릭터 특화 모델을 서버(2000)에 등록할 수 있다.
동작 S730에서 다른 디바이스(3000)는 캐릭터 특화 모델을 이용한 응답 결과 데이터를 디바이스(1000)로부터 수신할 수 있다. 캐릭터 특화 모델은 서버(2000)로부터 디바이스(1000)에게 제공될 수 있으며, 디바이스(1000)는 디바이스(1000) 내의 보이스 어시스턴트 애플리케이션을 통하여 캐릭터 특화 모델을 이용할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델에 기초한 보이스 어시스턴트 서비스를 사용자에게 제공할 수 있다. 이 경우, 디바이스(1000)는 사용자와 보이스 어시스턴트 서비스를 통하여 주고 받은 대화 내용 및 디바이스(1000)의 동작 이력을 저장할 수 있다. 또한, 디바이스(1000)는 사용자와 디바이스(1000) 간의 대화 내용 및 디바이스(1000)의 동작 이력을 포함하는 응답 결과 데이터를 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다. 디바이스(1000)는 응답 결과 데이터를 빅 데이터 형식으로 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다. 예를 들어, 디바이스(1000)는 사용자 ID, 전화 번호 등과 같은 개인의 프라이버시와 관련된 데이터를 제외한 응답 결과 데이터를 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다.
동작 S740에서 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 추가로 학습시킴으로써, 캐릭터 특화 모델을 업데이트할 수 있다. 예를 들어, 다른 디바이스(3000)는 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델 중 적어도 하나를, 응답 결과 데이터를 이용하여 재학습시킬 수 있다.
도 8은 일부 실시예에 따른 디바이스, 서버 및 다른 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
동작 S800에서 서버(2000)는 모델 생성 툴을 저장할 수 있다. 서버(2000)는 캐릭터 특화 모델을 생성하기 위하여 이용되는 모델 생성 툴을 저장할 수 있다. 캐릭터 특화 모델은 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는데 필요한 데이터 분석 및 생성을 위하여, 복수의 하위 모델을 포함할 수 있다. 또한, 모델 생성 툴은 복수의 하위 모델을 포함하는 캐릭터 특화 모델을 생성하기 위하여 필요한 기능들을 제공할 수 있다.
동작 S805에서 서버(2000)는 다른 디바이스(3000)에게 모델 생성 툴을 제공할 수 있다. 서버(2000)는, 다른 디바이스(3000)를 대상으로 하여, 모델 생성 툴을 배포하기 위한 서비스를 제공할 수 있다. 다른 디바이스(3000)는 서버(2000)에 접속하여 모델 생성 툴을 다운로드할 수 있다.
동작 S810에서 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 동작 S815에서 다른 디바이스(3000)는 캐릭터 특화 모델을 서버(2000)로 전송할 수 있다.
동작 S820에서 서버(2000)는 캐릭터 특화 모델을 등록할 수 있다. 서버(2000)는 캐릭터 특화 모델을 관리하기 위한 별도의 DB(미도시)를 운영할 수 있다. 또한, 서버(2000)는, 다른 디바이스(3000) 별로 또는 캐릭터 별로, 캐릭터 특화 모델을 DB(미도시)에 등록하고 관리할 수 있다.
동작 S825에서 디바이스(1000)는 보이스 어시스턴트 애플리케이션을 실행할 수 있다. 보이스 어시스턴트 애플리케이션은 디바이스(1000)의 제조사에 의해 디바이스에 설치되는 어시스턴트 프로그램일 수 있으나, 이에 제한되지 않는다.
동작 S830에서 서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 전송할 수 있으며, 동작 S835에서 디바이스(1000)는 목록에서 캐릭터를 선택할 수 있고, 동작 S840에서 서버(2000)는 디바이스(1000)에게 선택된 캐릭터 특화 모델을 전송할 수 있다.
서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공하고, 캐릭터 특화 모델의 목록에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 전송할 수 있다. 또한, 디바이스(1000)의 OS의 테마 내에 캐릭터 특화 모델이 포함될 수 있으며, 서버(2000)는 OS의 테마 목록을 디바이스(1000)에게 제공할 수 있다. 이 경우, 디바이스(1000)는 테마 목록에서 소정의 테마를 선택할 수 있으며, 서버(2000)는 선택된 테마를 디바이스(1000)에게 전송함으로써, 테마 내의 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다.
동작 S845에서 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 디바이스(1000)는 사용자 입력에 기초하여, 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 예를 들어, 소정의 콜 네임을 부르는 사용자의 음성 입력이 입력되면, 디바이스(1000)는 음성 입력의 콜 네임을 인식함으로써, 콜 네임에 대응되는 캐릭터의 응답 모드로 보이스 어시스턴트의 응답 모드를 변경할 수 있다.
예를 들어, ‘뽀로로’라는 콜 네임이 디바이스(1000)에 음성 입력되면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다. 만약, 디바이스(1000)의 OS의 테마와 함께 캐릭터 특화 모델이 제공된다면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경하면서, OS의 테마를 뽀로로 테마로 함께 변경할 수 있다.
동작 S850에서 디바이스(1000)는 보이스 어시스턴트 애플리케이션을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 보이스 어시스턴트 애플리케이션은 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 보이스 어시스턴트 서비스를 제공할 수 있다.
동작 S855에서 디바이스(1000)는 사용자의 음성 입력을 수신할 수 있다. 사용자는 보이스 어시스턴트 서비스를 제공받기 위하여 디바이스(1000)에 음성을 입력할 수 있다.
동작 S860에서 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 응답 메시지를 생성할 수 있다. 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 사용자의 음성 입력의 의미를 해석하고, 사용자에게 응답해야 할 응답 메시지를 생성하고 응답 메시지의 음성 특성을 결정할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 디바이스(1000)의 응답 동작을 결정할 수 있다.
동작 S865에서 디바이스(1000)는 생성된 응답 메시지를 출력할 수 있다. 디바이스(1000)는 텍스트 형식의 응답 메시지를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 또한, 디바이스(1000)는 사운드 형식의 응답 메시지를 디바이스(1000)의 스피커를 통하여 출력할 수 있다. 또한, 디바이스(1000)의 결정된 응답 동작에 따라 디바이스(1000)의 동작을 제어할 수 있다.
동작 S870에서 디바이스(1000)는 캐릭터 특화 모델의 응답 결과 데이터를 서버(2000)에게 제공하며, 동작 S875에서 서버(2000)는 캐릭터 특화 모델의 응답 결과 데이터를 다른 디바이스(3000)에게 제공할 수 있다. 응답 결과 데이터는, 예를 들어, 사용자와 디바이스(1000) 간의 대화 내용 및 디바이스(1000)의 응답 동작에 관한 데이터를 포함할 수 있다. 또는, 디바이스(1000)는 디바이스(1000)는 캐릭터 특화 모델의 응답 결과 데이터를 다른 디바이스(3000)에게 전송할 수 있다.
동작 S880에서 다른 디바이스(3000)는 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 추가로 학습시킴으로써, 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 캐릭터 특화 모델을 사용자 또는 디바이스(1000) 별로 업데이트하고 업데이트된 캐릭터 특화 모델을 관리할 수 있다.
한편, 디바이스(1000)가 캐릭터 특화 모델의 응답 결과 데이터를 이용하여, 디바이스(1000) 내의 캐릭터 특화 모델을 업데이트할 수도 있다.
도 9는 일부 실시예에 따른 모델 생성 툴의 블록도이다.
도 9를 참조하면, 모델 생성 툴(90)은 모델 생성 모듈(92), 어시스턴트 설정 변경 모듈(97) 및 업데이트 모듈(98)을 포함할 수 있다.
모델 생성 모듈(92)는 캐릭터 특화 모델을 생성하기 위한 기능들을 제공할 수 있다. 캐릭터 특화 모델에 포함되는 복수의 하위 모델을 생성하기 위한 모듈들을 포함할 수 있다. 모델 생성 모듈(92)는 NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95)를 포함할 수 있다.
NLU 모델 생성 모듈(93)은 캐릭터의 특성을 고려하여 사용자의 음성 입력을 해석하기 위한 모델을 생성할 수 있다. 사용자의 음성 입력을 해석하기 위한 모델은 사용자의 입력 음성의 의미를 분석하는 학습 모델일 수 있으며, 인공지능 알고리즘이 접목된 모델일 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 NLU 모델 생성 모듈(93)에 입력함으로써, 사용자의 음성 입력을 해석하기 위한 학습 모델을 생성하고 학습시킬 수 있다.
NLG 모델 생성 모듈(94)은 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 생성할 수 있다. 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델은, 사용자의 음성 입력에 대한 응답 메시지를 생성하고 디바이스(1000)의 응답 동작을 결정하는 학습 모델일 수 있다. 다른 디바이스(3000)는 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 NLG 모델 생성 모듈(94)에 입력함으로써, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 생성하고 학습시킬 수 있다. 또한, 다른 디바이스(3000)는 디바이스(1000)의 사용자 정보, 디바이스(1000)에 관련된 컨텍스트 정보를 NLG 모델 생성 모듈(94)에 입력함으로써, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 학습시켜 생성할 수 있다. 이에 따라, 응답 메시지를 생성하기 위한 모델은 사용자의 상황, 디바이스(1000)의 상황 및 캐릭터의 특성을 반영하여 사용자에게 제공할 응답 메시지를 생성할 수 있다. 이 경우, 응답 메시지는 캐릭터의 어투를 반영하여 생성될 수 있다.
TTS 모델 생성 모듈(95)은 응답 메시지의 음성 특성을 결정하기 위한 모델을 생성할 수 있다. 응답 메시지의 음성 특성을 결정하기 위한 모델은, 캐릭터의 음성 특성을 반영하여 응답 메시지의 음성 특성을 결정하는데 이용될 수 있다. 다른 디바이스(3000)는 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 TTS 모델 생성 모듈(95)에 입력함으로써, 캐릭터의 음성 특성을 반영하여 응답 메시지의 음성 특성을 결정하기 위한 모델을 학습시켜 생성할 수 있다. 이에 따라, 응답 메시지의 음성 특성을 결정하기 위한 모델은 캐릭터의 억양 및 음색에 따라 응답 메시지의 사운드가 디바이스(1000)의 스피커를 통해 출력되도록 할 수 있다.
한편, 모델 생성 툴(92)는 ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시)를 더 포함할 수 있다. ASR 모델 생성 모듈(미도시)은 캐릭터의 특성을 고려하여 사용자의 음성 입력을 인식하기 위한 인공지능 모델을 생성할 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 ASR 모델 생성 모듈(미도시)에 입력함으로써, 사용자의 음성 입력을 인식하기 위한 학습 모델을 생성하고 학습시킬 수 있다. DM 모델 생성 모듈(미도시)는, 캐릭터의 특성을 고려하여 응답 메시지의 유형을 결정하기 위한 인공지능 모델을 생성할 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 DM 모델 생성 모듈(미도시)에 입력함으로써, 응답 메시지의 유형을 결정하기 위한 학습 모델을 생성하고 학습시킬 수 있다.
상기에서는 모델 생성 모듈(92) 내에, NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95), ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시)이 개별적으로 동작하는 것으로 설명되었지만 이에 제한되지 않는다. 예를 들어, 모델 생성 모듈(92) 내에는, NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95), ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시) 중 적어도 둘 이상이 통합된 모듈이 포함될 수도 있다.
어시스턴트 설정 변경 모듈(97)은 보이스 어시스턴트에 설정된 설정 값을 변경하도록 하는 기능을 제공할 수 있다. 다른 디바이스(3000)는 어시스턴트 설정 변경 모듈(97)을 이용하여, 캐릭터 특화 모델을 호출하기 위한 콜 네임, 캐릭터 특화 모델의 응답 모드에 관련된 설정 값 등을 변경할 수 있다. 캐릭터 특화 모델의 응답 모드는, 예를 들어, 대화 모드, 비서 모드, 학습 모드 및 플레이 모드를 포함할 수 있으나, 이에 제한되지 않는다. 대화 모드는 사용자와 일반적인 대화를 제공하는 모드일 수 있으며, 비서 모드는 사용자의 일정을 관리하는 모드일 수 있으며, 학습 모드는 사용자의 공부를 위한 모드일 수 있으며, 플레이 모드는 사용자와의 게임을 제공하기 위한 모드일 수 있다.
업데이트 모듈(98)은 캐릭터 특화 모델을 업데이트하기 위한 기능을 제공할 수 있다. 다른 디바이스(98)는 업데이트 모듈(98)을 이용하여 캐릭터 특화 모델을 업데이트할 수 있다.
도 10은 일부 실시예에 따른 모델 생성 툴을 이용하여 캐릭터 특화 모델이 생성되는 예시를 나타내는 도면이다.
도 10을 참조하면, 다른 디바이스(3000)는 모델 생성 툴(90)에 다양한 학습 데이터를 입력함으로써, 캐릭터 특화 모델(100)을 생성할 수 있다. 예를 들어, 다른 디바이스(3000)는 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 모델 생성 툴(90)에 입력함으로써, 캐릭터 특화 모델(100)을 학습을 통해 생성할 수 있다.
캐릭터와 관련된 대화 스크립트는, 캐릭터의 대화 내용을 포함하는 데이터일 수 있다. 캐릭터와 관련된 대화 스크립트는, 예를 들어, ‘뽀로로’가 애니메이션에서 대화한 대화 내용, 가수 ‘싸이’가 방송에서 얘기한 대화 내용 등을 포함할 수 있다. 캐릭터와 관련된 대화 스크립트는, 예를 들어, 캐릭터 특화 모델을 이용하여 디바이스(1000)가 사용자와 대화한 대화 내용을 포함할 수 있다.
캐릭터의 어투 데이터는 캐릭터의 어투에 관련된 정보를 포함하는 데이터일 수 있으며, 캐릭터의 억양 데이터는 캐릭터의 억양에 관련된 정보를 포함하는 데이터일 수 있다.
캐릭터에 관련된 컨텐츠 정보는 캐릭터에 관한 영상 데이터 및 음성 데이터 등을 포함할 수 있다. 예를 들어, 캐릭터에 관련된 컨텐츠 정보는, ‘뽀로로’의 애니메이션 영상, ‘뽀로로’의 음성 데이터, ‘뽀로로’에 관한 뉴스 데이터, 가수 ‘싸이’의 인터뷰 음성 데이터, 가수 ‘싸이’의 음원 데이터, 가수 ‘싸이’에 관한 뉴스 데이터 등을 포함할 수 있으나, 이에 제한되지 않는다.
캐릭터에 관련된 QNA 데이터는 캐릭터와 관련된 서비스에서 고객과 주고 받은 QNA에 관한 데이터를 포함할 수 있다.
또한, 다른 디바이스(3000)는 디바이스(1000)의 사용자 정보, 디바이스(1000)에 관련된 컨텍스트 정보를 모델 생성 툴(90)에 입력함으로써, 캐릭터 특화 모델(100)을 학습을 통해 생성할 수 있다. 컨텍스트 정보는, 예를 들어, 디바이스(1000)의 주변 환경 정보, 디바이스(1000)의 상태 정보, 사용자의 상태 정보, 사용자의 디바이스(1000) 사용 이력 정보 및 사용자의 일정 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 디바이스(1000)의 주변 환경 정보는, 디바이스(1000)로부터 소정 반경 내의 환경 정보를 의미하는 것으로서, 예를 들어, 날씨 정보, 온도 정보, 습도 정보, 조도 정보, 소음 정보, 소리 정보 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 디바이스(1000)의 상태 정보는, 디바이스(1000)의 모드 정보(예컨대, 소리 모드, 진동 모드, 무음 모드, 절전 모드, 차단 모드, 멀티 윈도우 모드, 자동 회전 모드 등), 디바이스(1000)의 위치 정보, 시간 정보, 통신 모듈의 활성화 정보(예컨대, Wi-Fi ON / Bluetooth OFF / GPS ON/ NFC ON 등), 디바이스(1000)의 네트워크 접속 상태 정보, 디바이스(1000)에서 실행되는 애플리케이션 정보(예컨대, 애플리케이션의 식별 정보, 애플리케이션 종류, 애플리케이션 이용 시간, 애플리케이션 이용 주기) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 사용자의 상태 정보는 사용자의 움직임, 생활 패턴 등에 관한 정보로서, 사용자의 걷는 상태, 운동하는 상태, 운전 중인 상태, 수면 상태, 사용자의 기분 상태 등에 관한 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 사용자의 디바이스(1000) 사용 이력 정보는, 사용자가 디바이스(1000)를 이용한 이력에 관한 정보로서, 애플리케이션의 실행 이력, 애플리케이션에서 실행된 기능의 이력, 사용자의 통화 내역, 및 사용자의 문자 내역 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
또한, 다른 디바이스(3000)는 어시스턴트 설정 변경 모듈(97)에 의해 제공되는 GUI를 통하여 어시스턴트 설정 값을 입력할 수 있다. 이에 따라, 캐릭터 특화 모델(100)은 어시스턴트 설정 값을 포함할 수 있다. 어시스턴트 설정 값은 캐릭터 특화 모델에 부수적인 데이터로 캐릭터 특화 모델과 함께 디바이스(1000)로 제공될 수 있다.
도 11은 일부 실시예에 따른 다른 디바이스가 캐릭터 특화 모델을 생성하는 예시를 나타내는 도면이다.
도 11을 참조하면, 캐릭터 특화 모델의 개발자의 다른 디바이스(3000)는 다양한 학습 데이터를 이용하여 가수 ‘싸이’의 캐릭터 특화 모델을 생성할 수 있다.
다른 디바이스(3000)는 가수 ‘싸이’의 캐릭터 특화 모델을 호출하기 위한 콜 네임을 ‘싸이’로 설정할 수 있다. 또한, 다른 디바이스(3000)는 음성 예제로서 싸이의 방송 음성 데이터를 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 대화 스크립트로서 싸이의 방송 스크립트를 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 영상 정보로서 싸이의 동영상을 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 연관 정보로서 싸이의 SNS (Social Network System) 데이터를 모델 생성 툴에 입력할 수 있다.
또한, 다른 디바이스(3000)는 생성된 ‘싸이’의 캐릭터 특화 모델을 배포하고, 디바이스(1000)의 OS 테마에 ‘싸이’의 캐릭터 특화 모델을 등록할 수 있다.
도 12는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하는 예시를 나타내는 도면이다.
도 12를 참조하면, 디바이스(1000)는 보이스 어시스턴트의 모델 및 캐릭터 특화 모델을 서로 연동시킴으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다.
예를 들어, 디바이스(1000)는 보이스 어시스턴트의 모델 내의 제1 NLU 모델(121)을 캐릭터 특화 모델 내의 제2 NLU 모델(126)과 연동시킬 수 있다. 제1 NLU 모델(121) 및 제2 NLU 모델(126)은 사용자의 음성 입력을 해석하기 위한 학습 모델일 수 있다.
예를 들어, 사용자의 음성 입력이 인식되고 인식된 데이터가 제1 NLU 모델(121)에 입력됨으로써, 사용자의 음성 입력을 1차적으로 해석한 데이터가 제1 NLU 모델(121)로부터 출력될 수 있다. 또한, 제1 NLU 모델(121)로부터 출력된 데이터가 제2 NLU 모델(126)에 입력됨으로써, 사용자의 음성 입력을 2차적으로 해석한 데이터가 제2 NLU 모델(126)로부터 출력될 수 있다.
캐릭터가 선택되지 않은 경우에는 사용자의 음성 입력을 해석한 데이터가 제1 NLU 모델(121)로부터 출력되고, 이후에 캐릭터가 선택되면, 사용자의 음성 입력을 캐릭터를 고려하여 해석한 데이터가 제2 NLU 모델(126)을 통해 출력될 수 있다.
또한, 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 학습 모델 내의 제1 NLG 모델(122)을 캐릭터 특화 모델 내의 제2 NLG 모델(127)과 연동시킬 수 있다. 제1 NLG 모델(122) 및 제2 NLG 모델(127)은 사용자에게 제공할 응답 메시지를 생성하기 위한 학습 모델일 수 있다. 제1 NLG 모델(122) 및 제2 NLG 모델(127)은 디바이스(1000)의 응답 동작을 결정할 수 있다. 특히, 제1 NLG모델(122)에서 출력한 데이터가 제2 NLG모델(127)에 입력되어 최종 응답 메시지가 생성되어 출력될 수 있다. 또한, 캐릭터가 선택되지 않았을 때는 제1 NLG모델(122)을 통해 응답 메시지가 생성되어 출력되다가, 캐릭터가 선택되었을 때는 제2 NLG모델(127)을 통해 응답 메시지가 생성되어 출력될 수 있다.
또한, 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 모델 내의 제1 TTS 모델(123)을 캐릭터 특화 모델 내의 제2 TTS 모델(128)과 연동시킬 수 있다. 제1 TTS 모델(123) 및 제2 TTS 모델(128)은 응답 메시지의 사운드를 출력하는 경우에, 응답 메시지의 사운드의 음성 특성을 결정하기 위한 학습 모델일 수 있다. 특히, 캐릭터가 선택되지 않았을 때는 제1 TTS 모델(123)을 이용하여 응답 메시지의 사운드를 출력하다가, 캐릭터가 선택되었을 때는 제2 TTS 모델(128)을 통해 응답 메시지의 사운드가 출력될 수 있다. 이 경우, 제1 TTS 모델(123)은 제1 NLG 모델에서 출력되는 응답 메시지를 입력받아, 제1 TTS 모델(123)에 대응하는 사운드로 응답 메시지를 출력한다. 또한, 제2 TTS 모델(128)은 제2 NLG 모델에서 출력되는 응답 메시지를 입력 받아, 제2 TTS 모델(128)에 대응하는 사운드로 응답 메시지를 출력한다.
도 12에서 보이스 어시스턴트의 모델과 캐릭터 특화 모델이 연동하여 동작하는 실시예를 설명하였으나, 보이스 어시스턴트의 모델 중 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제1 TTS 모델(123)이 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)로 변경되어, 보이스 어시스턴트의 모델 중 나머지 모델과 연동하여 동작할 수 있다. 이 경우, 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)은 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제2 TTS 모델(123)을 캐릭터에 대한 학습 데이터를 이용하여 재학습한 결과 생성된 모델일 수 있다. 또한, 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)은 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제2 TTS 모델(123)과는 독립적으로, 별도로 생성된 모델일 수 있다.
한편, 도 12의 보이스 어시스턴트의 모델은 제1 ASR 모델(미도시) 및 제1 DM 모델(미도시)를 더 포함하고, 캐릭터 특화 모델은, 제2 ASR 모델(미도시) 및 제2 DM 모델(미도시)를 더 포함할 수 있다. 이 경우, 사용자의 음성 입력은 제1 ASR 모델(미도시) 또는 제2 ASR 모델(미도시) 중 적어도 하나에 의해 인식될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지의 유형은, 제1 DM 모델(미도시) 또는 제2 DM 모델(미도시) 중 적어도 하나에 의해 결정될 수 있다.
도 13은 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 예시를 나타내는 도면이다.
도 13을 참조하면, 디바이스(1000)의 사용자가 ‘뽀로로야 안녕’이라는 음성을 입력하면, 동작 130에서 디바이스(1000)는 사용자의 음성 입력에 따라 사용자의 음성을 텍스트로 변환하고 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다. 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 ASR 모델을 이용하여 사용자의 음성 입력을 인식할 수 있으며, 인식된 사용자의 음성 입력이 뽀로로 모드로 변경하기 위한 콜 네임을 포함하는지를 식별할 수 있다. 또한, 인식된 사용자의 음성 입력이 뽀로로 모드로 변경하기 위한 콜 네임을 포함하면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다.
또한, 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델을 함께 이용하여 음성 입력을 해석할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델에 사용자의 음성 입력을 입력할 수 있으며, 사용자의 음성 입력을 해석한 해석 데이터를 출력 값으로 획득할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다.
또한, 동작 132에서 디바이스(1000)는 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델을 함께 이용하여 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에 동작 130에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지를 출력 값으로 획득할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. 응답 메시지는 뽀로로에 관련된 다양한 정보 및 뽀로로의 어투를 반영하여 생성될 수 있다.
한편, 디바이스(1000)는 음성 입력에 대한 응답 메시지를 생성하기 위하여 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델을 이용할 수 있다. 디바이스(1000)는, 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델을 이용하여 응답 메시지를 생성하기 이전에, 보이스 어시스턴트의 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델을 이용하여 응답 메시지의 유형을 결정할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델에 동작 130에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지의 유형을 나타내는 데이터를 출력 값으로 획득할 수 있다. 또한, 디바이스(1000)는 응답 메시지의 유형을 나타내는 데이터를 동작 130에서의 출력 값과 함께 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에 입력할 수 있다.
또한, 동작 134에서 디바이스(1000)는 응답 메시지의 사운드를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 TTS 모델 및 캐릭터 특화 모델의 제2 TTS 모델을 함께 이용하여 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 TTS 모델 및 캐릭터 특화 모델의 제2 TTS 모델에 동작 132에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지의 음성 특성을 결정할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. 또한, 디바이스(1000)는 결정된 음성 특성을 반영하여 음성 메시지의 사운드를 생성할 수 있다.
또한, 동작 136에서 디바이스(1000)는 응답 메시지의 텍스트를 보이스 어시스턴트의 메시지 창 내에 디스플레이하고, 보이스 어시스턴트를 나타내는 아이콘을 뽀로로 아이콘으로 변경할 수 있다. 또한, 디바이스(1000)는 뽀로로의 음성 특성을 반영한 음성 메시지의 사운드를 출력할 수 있다.
도 14는 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스를 제공하는 세부 동작을 나타내는 도면이다.
도 14를 참조하면, 동작 140에서 디바이스(1000)의 보이스 어시스턴트는 사용자의 음성을 텍스트로 변환함으로써 사용자의 음성을 인식할 수 있으며, 캐릭터 특화 모델 내에 설정된 콜 네임을 참조하여 보이스 어시스턴트의 콜 네임을 변경할 수 있다. 보이스 어시스턴트는 ASR 모델을 이용하여, 사용자의 음성 입력을 인식하고 사용자의 인식된 음성을 나타내는 텍스트를 생성할 수 있다.
동작 141에서 디바이스(1000)의 보이스 어시스턴트는 사용자의 인식된 음성을 캐릭터 특화 모델을 이용하여 해석할 수 있다. 디바이스(1000)의 NLU 모델을 이용함으로써, 사용자의 인식된 음성을 해석할 수 있다. 보이스 어시스턴트는 NLU 모델에 사용자의 인식된 음성을 나타내는 텍스트를 입력할 수 있으며, 사용자의 인식된 음성을 해석한 해석 데이터를 출력 값으로 획득할 수 있다. 출력되는 해석 데이터는, 예를 들어, Intent 정보, 및 Intent 정보와 관련된 Slot 정보를 포함할 수 있다. 이 경우, 보이스 어시스턴트는 NLU 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다.
동작 142에서 디바이스(1000)의 보이스 어시스턴트는 사용자에 대한 응대를 결정하고, 캐릭터 특화 모델 내의 설정 값을 참조하여 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 보이스 어시스턴트는 DM 모델을 이용함으로써, 사용자에 대한 응대 여부를 결정할 수 있다. 사용자에 대한 응대가 결정되면, 보이스 어시스턴트는 응답 모드를 캐릭터 응답 모드와 변경할 수 있다. 응답 모드의 변경에 의해 보이스 어시스턴트는 변경된 응대 스타일에 따라 사용자와의 대화를 제공할 수 있게 된다.
동작 143에서 디바이스(1000)의 보이스 어시스턴트는, 캐릭터 특화 모델을 이용하여, 디바이스(1000)의 응답 동작을 결정할 수 있으며, 동작 144에서 디바이스(1000)의 보이스 어시스턴트는, 캐릭터 특화 모델을 이용하여, 응답 메시지를 생성하고 응답 메시지의 어투를 변경할 수 있다. 디바이스(1000)의 보이스 어시스턴트는 캐릭터와 관련된 서비스와 연동하여 응답 동작을 결정하고 응답 메시지를 생성할 수 있다.
보이스 어시스턴트는 AP(Action Planner) 모델을 이용하여 응답 동작을 결정할 수 있다. AP(Action Planner) 모델은 사용자에게 응답하기 위한 동작을 결정하기 위한 인공지능 모델일 수 있다. 보이스 어시스턴트는 NLU 모델로부터 출력된 데이터를 AP 모델에 입력함으로써, 응답 동작을 결정할 수 있다. 이 경우, 보이스 어시스턴트는 소정의 서비스와 연동함으로써, 응답 동작을 결정할 수 있다. 보이스 어시스턴트는, 서비스에 관한 정보를 NLU 모델로부터 출력된 데이터와 함께 AP 모델에 입력함으로써, 서비스에 관련된 응답 동작을 결정할 수 있다. AP 모델은 NLU 모델로부터 출력된 INTENT 정보에 기초하여 응답 동작의 시퀀스를 출력할 수 있다. 서비스에 관한 정보는, 예를 들어, 서비스의 종류, 서비스에서 제공되는 기능, 서비스에서 제공되는 정보 등에 관한 정보를 포함할 수 있으나, 이에 제한되지 않는다.
또한, 보이스 어시스턴트는, NLG 모델을 이용하여, 응답 메시지를 생성하고 응답 메시지의 어투를 변경할 수 있다. 응답 메시지는 텍스트 형식의 데이터일 수 있다. NLG 모델은 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 기초로 학습된 인공지능 모델일 수 있다.
또한, 동작 145에서 디바이스(1000)의 보이스 어시스턴트는 응답 메시지의 사운드를 생성할 수 있다. 보이스 어시스턴트는 캐릭터 특화 모델을 이용하여, 캐릭터의 억양을 반영하여 응답 메시지의 사운드를 생성할 수 있다. 보이스 어시스턴트는, TTS 모델을 이용하여 응답 메시지로부터 생성될 사운드의 억양을 캐릭터의 억양으로 변경할 수 있다.
도 15는 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 예시를 나타내는 도면이다.
도 15를 참조하면, 디바이스(1000)는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 예를 들어, 디바이스(1000)는 디바이스(1000)의 OS의 테마를 다운로드하기 위한 GUI 내에 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델의 목록에서 캐릭터 특화 모델을 선택할 수 있으며, 선택된 캐릭터 특화 모델을 다운로드할 수 있다. 예를 들어, 디바이스(1000)가 ‘뽀로로 Bixby’(152)를 선택하면, 디바이스(1000)는 뽀로로에 대한 캐릭터 특화 모델을 다운로드할 수 있다. 이 경우, 디바이스(1000)는 뽀로로에 대한 캐릭터 특화 모델을 뽀로로에 대한 OS 테마와 함께 다운로드할 수 있다.
도 16은 일부 실시예에 따른 디바이스가 캐릭터 제품에 근접함으로써 캐릭터 특화 모델을 획득하는 예시를 나타내는 도면이다.
도 16을 참조하면, 디바이스(1000)가 뽀로로 인형(160)에 근접하면 디바이스(1000)는 뽀로로 인형(160)과 근거리 통신을 형성할 수 있다. 또한, 디바이스(1000)는 근거리 통신을 통하여 뽀로로 인형(160)으로부터 캐릭터 특화 모델을 수신할 수 있다. 캐릭터 특화 모델은 뽀로로에 대한 캐릭터 특화 모델일 수 있다.
또한, 사용자가 디바이스(1000)에 ‘넌 누구니’라는 음성을 입력하면, 디바이스(1000)는 캐릭터 특화 모델을 이용하여 응답 데이터를 생성할 수 있으며, 생성된 응답 데이터를 뽀로로 인형(160)에게 전송할 수 있다. 뽀로로 인형(160)은 응답 데이터를 수신하여 뽀로로 인형(160)의 스피커를 통하여 응답 데이터를 출력할 수 있다.
도 17은 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스의 대화창을 나타내는 도면이다.
도 17을 참조하면, 보이스 어시스턴트가 사용자와 대화를 하고 있는 도중에, 사용자가 ‘넌 이제 뽀로로야’라는 음성을 디바이스(1000)에 입력하면, 보이스 어시스턴트는 사용자의 음성 입력 내의 ‘뽀로로’를 인식하고, 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다. 이후, 보이스 어시스턴트는 뽀로로의 캐릭터 특화 모델을 이용하여 사용자와 대화를 진행할 수 있다.
도 18은 일부 실시예에 따른 응답 모드에 따른 응답 메시지의 예시를 나타내는 도면이다.
도 18을 참조하면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드에 따라, 응답 모드에 대응되는 캐릭터 특화 모델을 이용할 수 있다. 또한, 디바이스(1000)는 보이스 어시스턴트의 응답 모드에 따라, 상이한 내용 및 상이한 어투의 응답 메시지를 생성할 수 있다.
도 19 및 도 20은 일부 실시예에 따른 디바이스의 블록도이다.
도 19에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 통신부(1500), 출력부(1200), 메모리(1700), 및 프로세서(1300)를 포함할 수 있다. 그러나, 도 19에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 19에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있고, 도 19에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있다.
예를 들어, 도 20에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 통신부(1500), 출력부(1200), 메모리(1700), 및 프로세서(1300) 이외에 사용자 입력부(1100), 센싱부(1400), 및 A/V 입력부(1600)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
사용자 입력부(1100)는, 보이스 어시스턴트 서비스를 위한 사용자 입력을 수신할 수 있다. 사용자 입력부(1100)는 보이스 어시스턴트 서비스를 실행하고 보이스 어시스턴트 서비스의 응답 모드를 변경하기 위한 사용자 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 디바이스(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1210)는, 보이스 어시스턴트 서비스를 위한 GUI를 디스플레이할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디바이스(1000)의 구현 형태에 따라 디바이스(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 디바이스(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부(1220)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다. 음향 출력부(1220)는 보이스 어시스턴트 서비스의 응답 메시지의 사운드를 출력할 수 있다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다.
프로세서(1300)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 본 명세서에서의 디바이스(1000)의 동작을 제어할 수 있다.
구체적으로, 프로세서(1300)는, 통신부(1500)를 통하여 캐릭터 특화 모델을 수신할 수 있다. 프로세서(1300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 이 경우, 프로세서(1300)는, 서버(2000)에 의해 제공되는 캐릭터 특화 모델 리스트를 디스플레이하고, 사용자의 선택 입력에 기초하여 캐릭터 특화 모델을 서버(2000)로부터 다운로드할 수 있다.
또한, 프로세서(1300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을, 소정의 제품(미도시)으로부터 수신할 수 있다. 근거리 통신 기능 및 데이터 저장 기능을 포함하는 제품(미도시)에 디바이스(1000)가 근접하면, 디바이스(1000)는 제품(미도시)과 근거리 통신을 형성할 수 있다. 또한, 프로세서(1300)는, 제품(미도시)으로부터 제품(미도시) 내에 저장된 캐릭터 특화 모델을 근거리 통신을 통하여 수신할 수 있다. 또한, 제품(미도시) 내에는 캐릭터 특화 모델을 다운로드하기 위한 링크 정보가 저장될 수 있으며, 디바이스(1000)는 제품(미도시) 내에 저장된 링크 정보를 제품(미도시)으로부터 수신하고, 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드할 수 있다.
프로세서(1300)는, 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 프로세서(1300)는, 디바이스(1000) 내에 설치된 보이스 어시스턴트 프로그램을 실행하고 실행된 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 이 때, 보이스 어시스턴트 프로그램은, 운영체제(OS) 상에서 실행되는 애플리케이션으로 구현될 수 있고, 미들웨어를 구성하는 하나의 소프트웨어 모듈로 구현될 수 있다.
프로세서(1300)는, 사용자 입력에 기초하여 디바이스(1000) 내에 설치된 복수의 캐릭터 특화 모델 중 하나를 선택할 수 있으며, 선택된 캐릭터 특화 모델에 액세스할 수 있다. 복수의 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력은 캐릭터를 지칭하는 정보가 포함된 사용자의 음성 입력일 수 있다.
프로세서에서 동작하는 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션은, 사용자 입력부를 통해 캐릭터 특화 모델 중 하나를 선택하기 위한 사용자의 음성 입력을 입력 받을 수 있으며, 출력부를 통해 GUI를 제공하여 이 GUI를 통해 캐릭터 특화 모델 중 하나를 선택하기 위한 사용자 입력을 받을 수 있다.
프로세서(1300)는, 사용자의 음성 입력을 수신할 수 있다. 프로세서(1300)는, 보이스 어시스턴트 서비스를 제공하기 위하여 사용자의 음성 입력을 수신할 수 있으며, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다. 프로세서(1300)에서 동작하는 보이스 어시스턴트 프로그램은,캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 사용자의 음성 입력을 해석하고, 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다.
프로세서(1300)는, 프로세서에서 동작하는 보이스 어시스턴트 프로그램을 통해, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델에, 사용자의 음성 입력 또는 사용자의 음성 입력으로부터 변환된 텍스트를 적용함으로써, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델로부터 출력되는 응답 메시지를 획득할 수 있다. 이 경우, 사용자의 음성 입력에 대한 응답 메시지는, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등을 고려하여 생성될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지는, 캐릭터의 어투에 따른 표현을 포함할 수 있다. 또한, 응답 메시지가 음향으로 출력되는 경우에, 응답 메시지가 캐릭터의 억양에 따라 출력될 수 있도록, 응답 메시지는 억양에 관한 정보를 포함할 수 있다.
프로세서(1300)는 사용자의 음성 입력을 분석하여 캐릭터 특화 모델들 중 하나를 선택하고, 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용을 결정할 수 있다. 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용은, 사용자의 발화를 NLU(Natural Language Understanding)를 통해 분석함으로써 획득될 수 있다. 프로세서(1300)는 사용자 발화에서 Intent와, 및 Intent와 관련된 Slot 정보를 취득하여 서비스의 내용을 특정할 수 있다.
프로세서(1300)는 응답 메시지를 생성하기 위하여, 서비스의 내용에 대응하는 애플리케이션으로부터 획득된 데이터를 이용할 수 있다. 프로세서(1300)는 애플리케이션으로부터 획득된 데이터를 보이스 어시스턴트 프로그램이 처리할 수 있는 형태의 데이터로 변경한 후, 변경된 데이터를 이용하여 응답 메시지를 생성할 수 있다. 응답 메시지의 생성은 DM(Dialog Management)과 NLG(Natural Language Generation)에 의해 수행될 수 있으며, DM이 응답 메시지의 유형을 결정하면 NLG이 응답 메시지의 유형에 맞는 형태로 응답 메시지를 생성할 수 있다. 또한, 프로세서(1300)는 응답 메시지를 생성하기 이전에, AP 모델을 이용하여 응답 동작을 결정할 수도 있다.
프로세서(1300)는, 출력부를 통해 생성된 응답 메시지를 출력할 수 있다. 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션은, 응답 메시지의 텍스트를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 또한, 프로세서(1300)는 응답 메시지의 사운드를 디바이스(1000)의 스피커를 통해 출력할 수 있다.
한편, 프로세서(1300)는, 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션을 통해, 보이스 어시스턴트의 응답 모드를 변경하기 위한 사용자 음성 입력을 수신할 수 있다. 프로세서(1300)는, 보이스 어시스턴트 프로그램을 통해, 캐릭터 특화 모델을 설치하고, 설치된 캐릭터 특화 모델을 호출하기 위한 콜 네임을 설정할 수 있다. 또한, 프로세서(1300)는, 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션을 통해, 설정된 콜 네임을 부르는 사용자의 음성 입력을 수신할 수 있다. 프로세서(1300)는, 사용자의 음성 입력에 기초하여, 보이스 어시스턴트에 이용될 캐릭터 특화 모델을 선택할 수 있다. 프로세서(1300)는, 선택된 캐릭터 특화 모델에 따라, 어시스턴트의 응답 모드를 캐릭터 응답 모드로 변경할 수 있다. 예를 들어, ‘뽀로로’를 부르는 사용자의 음성 입력에 따라, 뽀로로에 대한 캐릭터 특화 모델을 선택되면, 디바이스(1000)는 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다.
센싱부(1400)는, 디바이스(1000)의 상태 또는 디바이스(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 서버(2000) 및 다른 디바이스(3000)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
또한, 통신부(1500)는, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위하여 필요한 정보를, 서버(2000) 및 다른 디바이스(3000)와 송수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 디바이스(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 또한, 터치스크린의 터치를 감지하기 위한 센서의 일례로 근접 센서가 있다. 사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 디바이스(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.
도 21은 일부 실시예에 따른 서버의 블록도이다.
도 21을 참조하면, 일부 실시예에 따른 서버(2000)는 통신부(2100), DB(2200) 및 프로세서(2300)를 포함할 수 있다.
통신부(2100)는, 디바이스(1000) 및 다른 디바이스(3000)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다.
DB(2200)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 서버(2000)로 입력되거나 서버(2000)로부터 출력되는 데이터를 저장할 수도 있다.
DB(2200)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나, 이에 제한되지 않는다.
DB(2200)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다.
프로세서(2300)는, 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, DB(2200)에 저장된 프로그램들을 실행함으로써, 통신부(2100) 및 DB(2200) 등을 전반적으로 제어할 수 있다. 프로세서(1300)는, DB(2200)에 저장된 프로그램들을 실행함으로써, 본 명세서에서의 서버(2000)의 동작을 제어할 수 있다. 프로세서(2300)는, 보이스 어시스턴트 서비스에서 캐릭터 특화 모델이 이용될 수 있도록, 캐릭터 특화 모델의 생성 및 이용을 관리할 수 있다.
구체적으로, 프로세서(2300)는, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 저장할 수 있다. 모델 생성 툴은, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델을 생성하는 기능, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다.
프로세서(2300)는, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)게 제공할 수 있다. 다른 디바이스(3000)의 사용자는 캐릭터에 특화된 학습 모델을 생성하고 캐릭터에 관한 서비스를 제공할 수 있으며, 다른 디바이스(3000)는 서버(2000)에 접속하여 서버(2000)에게 모델 생성 툴을 요청할 수 있다.
프로세서(2300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 수신할 수 있다. 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 생성된 캐릭터 특화 모델을 서버(2000)에 업로드할 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델은 ASR 모델 및 NLU 모델을 포함할 수 있고, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델은 AP 모델, DM 모델 및 NLG 모델을 포함할 수 있으며, 응답 메시지의 음성 특성을 결정하기 위한 학습 모델은 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 프로세서(2300)는, 수신된 캐릭터 특화 모델을 3rd party 별로 DB에 저장할 수 있다.
프로세서(2300)는, 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공할 수 있으며, 프로세서(2300)는, 캐릭터 특화 모델의 목록에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다.
한편, 다른 디바이스(3000)는 디바이스(1000)의 구성 요소 또는 서버(2000)의 구성 요소로 구현될 수 있으며, 다른 디바이스(3000) 내의 프로세서(미도시)는 본 명세서에서의 다른 디바이스(3000)의 동작을 제어할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
캐릭터 특화 모델은, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습함으로써 생성될 수 있다. 캐릭터 특화 모델은, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 어떻게 제공할 지에 관한 기준을 학습함으로써 생성될 수 있다. 예를 들어, 캐릭터 특화 모델은, 사용자의 음성 입력을 어떻게 해석하고, 응답 메시지를 어떻게 생성하고, 응답 메시지를 어떻게 출력할 지에 관한 기준을 학습함으로써 생성될 수 있다.
캐릭터 특화 모델은 소정의 입력 데이터에 기초하여, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 출력 데이터를 출력할 수 있다. 캐릭터 특화 모델은, 소정의 데이터로부터 사용자의 음성 입력을 해석하고, 응답 메시지를 생성하고, 응답 메시지의 억양을 결정할 수 있다. 캐릭터 특화 모델은, 기 설정된 기준에 따른 소정의 데이터를 입력 값으로 하여, 소정의 데이터에 기초한 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 출력 데이터를 제공할 수 있다. 또한, 캐릭터 특화 모델에 의해 출력된 결과 값은, 캐릭터 특화 모델을 갱신하는데 이용될 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델은 ASR 모델 및 NLU 모델을 포함할 수 있고, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델은 AP 모델, DM 모델 및 NLG 모델을 포함할 수 있으며, 응답 메시지의 음성 특성을 결정하기 위한 학습 모델은 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다.
디바이스(1000) 및 서버(2000)가 서로 연동함으로써 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다.
서버(2000)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습함으로써 캐릭터 특화 모델을 생성할 수 있으며, 디바이스(1000)는 서버(2000)로부터 캐릭터 특화 모델을 수신하여, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. 또는, 서버(2000)는 캐릭터 특화 모델에 적용될 입력 데이터를 디바이스(1000)로부터 수신하고, 수신된 입력 데이터를 캐릭터 특화 모델에 적용함으로써 캐릭터 특화 모델로부터 출력되는 출력 데이터를 디바이스(1000)에게 제공할 수도 있다.
한편, 디바이스(1000), 서버(2000), 및 다른 디바이스(3000)가 함께 연동함으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스가 제공될 수도 있다. 이 경우, 서버(2000)는 보이스 어시스턴트 서비스를 위한 일반적인 학습 모델을 관리하고, 다른 디바이스(3000)는 캐릭터 특화 모델을 관리할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 디바이스가 보이스 어시스턴트 프로그램을 통해 보이스 어시스턴트 서비스를 제공하는 방법에 있어서,
    외부 디바이스로부터 캐릭터 특화 모델을 수신하는 동작;
    캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력을 수신하는 동작;
    상기 캐릭터를 지시하는 상기 단어에 따라 상기 캐릭터 특화 모델을 결정하는 동작;
    상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하는 동작;
    상기 보이스 어시스턴트 프로그램에 포함되는 제1 TTS(text-to-speech) 모델과 상기 캐릭터 특화 모델에 포함되는 제2 TTS 모델을 이용하여, 상기 캐릭터의 음색 또는 억양 중 적어도 하나를 포함하는 상기 캐릭터의 음성 특성을 반영하는 상기 응답 메시지의 사운드를 생성하는 동작; 및
    스피커를 통해 상기 생성된 응답 메시지의 사운드를 출력하는 동작;
    을 포함하고,
    상기 제2 TTS 모델은 상기 캐릭터와 관련된 대화 스크립트, 상기 캐릭터의 어투 데이터, 상기 캐릭터의 억양 데이터, 상기 캐릭터에 관련된 컨텐츠 정보, 및 상기 캐릭터에 관련된 질의 응답(QNA) 데이터를 인공지능 모델에 입력함으로써, 상기 캐릭터의 음성 특성을 반영하여 상기 응답 메시지의 사운드를 생성하도록 학습된(trained) 모델인, 방법.
  2. 삭제
  3. 제1 항에 있어서,
    상기 응답 메시지를 생성하는 동작은, 상기 보이스 어시스턴트 프로그램의 모델을 상기 캐릭터 특화 모델과 함께 이용하여, 상기 응답 메시지를 생성하는 것인, 방법.
  4. 제3 항에 있어서,
    상기 보이스 어시스턴트 프로그램의 모델은, 음성 해석을 위한 제1 NLU (Natural Language Understanding) 모델, 상기 응답 메시지의 유형을 결정하기 위한 제1 DM (Dialog Management) 모델, 및 상기 응답 메시지를 생성하기 위한 제1 NLG (Natural Language Generation) 모델 중 적어도 하나를 더 포함하고,
    상기 캐릭터 특화 모델은, 음성 해석을 위한 제2 NLU 모델, 상기 응답 메시지의 유형을 결정하기 위한 제2 DM 모델, 및 상기 응답 메시지를 생성하기 위한 제2 NLG 모델 중 적어도 하나를 더 포함하는, 방법.
  5. 제4 항에 있어서,
    상기 캐릭터 특화 모델은, 다른 디바이스에게 제공된 모델 생성 툴을 이용하여 상기 다른 디바이스에 의해 학습된 것이며, 상기 캐릭터 특화 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델인 것인, 방법.
  6. 제5 항에 있어서,
    상기 다른 디바이스에게 제공된 모델 생성 툴은, 상기 다른 디바이스에 의해, 상기 제2 NLU 모델, 상기 제2 NLG 모델 및 상기 제2 TTS 모델 중 적어도 하나를 생성하는데 이용되는 것인, 방법.
  7. 제4 항에 있어서,
    상기 음성 입력에 대한 응답 메시지를 생성하는 동작은,
    상기 제1 NLU 모델 및 상기 제2 NLU 모델을 함께 이용하는 동작; 또는 상기 제1 NLG 모델 및 상기 제2 NLG 모델을 함께 이용하는 동작; 중 적어도 하나를 포함하는 것인, 방법.
  8. 제1 항에 있어서,
    캐릭터 특화 모델의 목록을 제공하는 서버에 접속하는 동작;
    상기 캐릭터 특화 모델의 목록을 디스플레이하는 동작; 및
    상기 캐릭터 특화 모델의 목록에서 상기 캐릭터 특화 모델을 선택하는 동작;
    을 더 포함하며,
    상기 캐릭터 특화 모델을 수신하는 동작은, 상기 선택된 캐릭터 특화 모델을 상기 서버로부터 수신하는 것인, 방법.
  9. 제1 항에 있어서,
    상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 제공하는 제품과 근거리 통신을 형성하는 동작; 및
    상기 제품으로부터 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 다운로드하는 동작;
    을 더 포함하며,
    상기 캐릭터 특화 모델을 수신하는 동작은, 상기 링크 정보를 이용하여 상기 캐릭터 특화 모델을 다운로드하는 것인, 방법.
  10. 제1 항에 있어서,
    상기 보이스 어시스턴트 프로그램을 통해 상기 수신된 캐릭터 특화 모델에 액세스하는 동작;
    을 더 포함하는 것인, 방법.
  11. 보이스 어시스턴트 서비스를 제공하는 디바이스에 있어서,
    사용자 음성 입력을 수신하는 마이크;
    통신 인터페이스;
    음향 신호를 출력하는 스피커;
    하나 이상의 명령어들을 저장하는 메모리; 및
    상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 하나 이상의 프로세서;
    를 포함하며,
    상기 프로세서는,
    상기 통신 인터페이스를 통해 서버로부터 상기 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 수신하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 상기 마이크를 통해 수신하고, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하고, 상기 보이스 어시스턴트 프로그램에 포함되는 제1 TTS(text-to-speech) 모델과 상기 캐릭터 특화 모델에 포함되는 제2 TTS 모델을 이용하여, 상기 캐릭터의 음색 또는 억양 중 적어도 하나를 포함하는 상기 캐릭터의 음성 특성을 반영하는 상기 응답 메시지의 사운드를 생성하고, 상기 스피커를 통해 상기 생성된 응답 메시지의 사운드를 출력하고,
    상기 제2 TTS 모델은 상기 캐릭터와 관련된 대화 스크립트, 상기 캐릭터의 어투 데이터, 상기 캐릭터의 억양 데이터, 상기 캐릭터에 관련된 컨텐츠 정보, 및 상기 캐릭터에 관련된 질의 응답(QNA) 데이터를 인공지능 모델에 입력함으로써, 상기 캐릭터의 음성 특성을 반영하여 상기 응답 메시지의 사운드를 생성하도록 학습된(trained) 모델인, 디바이스.
  12. 삭제
  13. 제11 항에 있어서,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 보이스 어시스턴트 프로그램의 모델을 상기 캐릭터 특화 모델과 함께 이용하여, 상기 응답 메시지를 생성하는 것인, 디바이스.
  14. 제13 항에 있어서,
    상기 보이스 어시스턴트 프로그램의 모델은, 음성 해석을 위한 제1 NLU 모델, 상기 응답 메시지의 유형을 결정하기 위한 제1 DM 모델, 및 상기 응답 메시지를 생성하기 위한 제1 NLG 모델 중 적어도 하나를 더 포함하고,
    상기 캐릭터 특화 모델은, 음성 해석을 위한 제2 NLU 모델, 상기 응답 메시지의 유형을 결정하기 위한 제2 DM 모델, 및 상기 응답 메시지를 생성하기 위한 제2 NLG 모델 중 적어도 하나를 더 포함하는, 디바이스.
  15. 제14 항에 있어서,
    상기 캐릭터 특화 모델은, 다른 디바이스에게 제공된 모델 생성 툴을 이용하여 상기 다른 디바이스에 의해 학습된 것이며, 상기 캐릭터 특화 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델인 것인, 디바이스.
  16. 제15 항에 있어서,
    상기 다른 디바이스에게 제공된 모델 생성 툴은, 상기 다른 디바이스에 의해, 상기 제2 NLU 모델, 상기 제2 NLG 모델 및 상기 제2 TTS 모델 중 적어도 하나를 생성하는데 이용되는 것인, 디바이스.
  17. 제14 항에 있어서,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 제1 NLU 모델 및 상기 제2 NLU 모델을 함께 이용하는 동작; 또는 상기 제1 NLG 모델 및 상기 제2 NLG 모델을 함께 이용하는 동작; 중 적어도 하나를 실행하는 것인, 디바이스.
  18. 제11 항에 있어서,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 캐릭터 특화 모델의 목록을 제공하는 서버에 접속하고, 상기 캐릭터 특화 모델의 목록을 디스플레이하고, 상기 캐릭터 특화 모델의 목록에서 상기 캐릭터 특화 모델을 선택하고, 상기 선택된 캐릭터 특화 모델을 상기 서버로부터 수신하는 것인, 디바이스.
  19. 제11 항에 있어서,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 제공하는 제품과 근거리 통신을 형성하고, 상기 제품으로부터 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 다운로드하고, 상기 링크 정보를 이용하여 상기 캐릭터 특화 모델을 다운로드하는 것인, 디바이스.
  20. 보이스 어시스턴트 서비스를 제공하는 서버에 있어서,
    통신 인터페이스;
    하나 이상의 명령어들을 저장하는 메모리; 및
    상기 하나 이상의 명령어들을 실행하는 하나 이상의 프로세서;
    를 포함하며,
    상기 프로세서는,
    상기 통신 인터페이스를 통해 디바이스의 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 획득하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 디바이스로부터 상기 통신 인터페이스를 통해 수신되면, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장에 대한 응답 메시지를 생성하고, 상기 보이스 어시스턴트 프로그램에 포함되는 제1 TTS(text-to-speech) 모델과 상기 캐릭터 특화 모델에 포함되는 제2 TTS 모델을 이용하여, 상기 캐릭터의 음색 또는 억양 중 적어도 하나를 포함하는 상기 캐릭터의 음성 특성을 반영하는 상기 응답 메시지의 사운드를 생성하고,
    상기 제2 TTS 모델은 상기 캐릭터와 관련된 대화 스크립트, 상기 캐릭터의 어투 데이터, 상기 캐릭터의 억양 데이터, 상기 캐릭터에 관련된 컨텐츠 정보, 및 상기 캐릭터에 관련된 질의 응답(QNA) 데이터를 인공지능 모델에 입력함으로써, 상기 캐릭터의 음성 특성을 반영하여 상기 응답 메시지의 사운드를 생성하도록 학습된(trained) 모델인, 서버.
KR1020190114053A 2018-09-19 2019-09-17 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 KR102677052B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020180112378 2018-09-19
KR20180112378 2018-09-19
KR1020190062589A KR20200033140A (ko) 2018-09-19 2019-05-28 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
KR1020190062589 2019-05-28

Publications (2)

Publication Number Publication Date
KR20200033189A KR20200033189A (ko) 2020-03-27
KR102677052B1 true KR102677052B1 (ko) 2024-06-24

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003210835A (ja) * 2002-01-21 2003-07-29 Aruze Corp キャラクター選択システム、キャラクター選択装置、キャラクター選択方法、プログラム及び記録媒体
US20080183678A1 (en) * 2006-12-29 2008-07-31 Denise Chapman Weston Systems and methods for personalizing responses to user requests
US20100324905A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Voice models for document narration

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003210835A (ja) * 2002-01-21 2003-07-29 Aruze Corp キャラクター選択システム、キャラクター選択装置、キャラクター選択方法、プログラム及び記録媒体
US20080183678A1 (en) * 2006-12-29 2008-07-31 Denise Chapman Weston Systems and methods for personalizing responses to user requests
US20100324905A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Voice models for document narration

Similar Documents

Publication Publication Date Title
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US11670302B2 (en) Voice processing method and electronic device supporting the same
KR102596436B1 (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US11501755B2 (en) Apparatus and method for providing voice assistant service
KR20190109868A (ko) 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
CN110930994B (zh) 用于提供语音助理服务的系统和方法
US11120792B2 (en) System for processing user utterance and controlling method thereof
US11314548B2 (en) Electronic device and server for processing data received from electronic device
KR20200099380A (ko) 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
US11862178B2 (en) Electronic device for supporting artificial intelligence agent services to talk to users
US20200143807A1 (en) Electronic device and operation method thereof
US20220270605A1 (en) Electronic apparatus and assistant service providing method thereof
US20210217406A1 (en) Voice recognition service operating method and electronic device supporting same
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
KR20200033140A (ko) 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
KR102458343B1 (ko) 음성 데이터를 송수신하는 디바이스 및 방법
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
KR102677052B1 (ko) 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
KR20190117856A (ko) 사용자와의 대화를 위한 정보를 생성하는 시스템 및 방법
US20220083882A1 (en) Electronic device and operating method for providing information about why response has changed
KR20190130202A (ko) 전자 장치 및 전자 장치의 기능 실행 방법
US11978449B2 (en) Electronic device for processing user utterance and operation method therefor
KR20220036781A (ko) 응답이 변화된 이유에 관한 정보를 제공하는 전자 장치 및 그 동작 방법
KR20240020137A (ko) 전자 장치 및 음성 인식 방법
KR20240045927A (ko) 음성인식 장치 및 음성인식 장치의 동작방법