KR20190072777A

KR20190072777A - 커뮤니케이션 방법 및 장치

Info

Publication number: KR20190072777A
Application number: KR1020170173827A
Authority: KR
Inventors: 유민선
Original assignee: 주식회사 엘지유플러스
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-06-26
Also published as: KR102522867B1

Abstract

TTS 엔진을 이용한 커뮤니케이션 방법 및 장치가 제공된다. 텍스트 메시지에 대응하는 최종 음성을 출력하기 위해, 텍스트 메시지에 기초하여 발화 내용 및 발화 내용의 카테고리가 결정되고, 발화 내용 및 발화 내용의 카테고리에 기초하여 표현 정보가 생성되며, 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어가 결정되고, 합성 단어에 대응하는 제1 음성 및 미리 녹음된 단어에 대응하는 제2 음성에 기초하여 최종 음성을 생성하고, 최종 음성을 출력한다.

Description

커뮤니케이션 방법 및 장치{METHOD AND APPARATUS FOR COMMUNICATION}

기술 분야는 커뮤니케이션을 위한 기술에 관한 것으로, 특히, TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법에 관한 것이다.

TTS(text to speech) 엔진은 텍스트의 음소들을 합성하여 음성을 발화할 수 있다. 발화되는 음성은 기계적으로 합성된 음성이므로, 사람의 감정이 표현되지 않는다. 특히, 감탄사는 사람의 감정을 나타내는 단어이나, 합성된 음성은 단어에 해당하는 감정을 나타내지 못한다.

한국공개특허 제10-2010-0117284호(공개일 2010년 11월 03일)에는 티티에스 모듈이 구비된 방송용 동보 장치가 개시되어 있다. 공개발명은 티티에스 모듈이 구비된 방송용 동보 장치에 관한 것으로, 위험 재해 예상지역이나 관할 구역의 취약지에 구비되는 방송용 동보 장치에 티티에스 모듈을 탑재하여 원격지의 서버나 담당자로부터 방송 데이터만을 동보 장치 측으로 전송한 후 음성으로 변환하여 안내방송을 실시할 수 있도록 함으로써 정확한 데이터 전송이 이루어질 수 있도록 함과 아울러 통신 비용의 절감도 구현될 수 있도록 한 티티에스 모듈이 구비된 방송용 동보 장치가 개시된다.

일 실시예는 커뮤니케이션 장치 및 방법을 제공할 수 있다.

일 실시예는 TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법을 제공할 수 있다.

일 측면에 따른, 커뮤니케이션 장치에 의해 수행되는 커뮤니케이션 방법은, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 포함한다.

상기 제1 음성을 합성하는 단계는, 캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계를 포함할 수 있다.

상기 제2 음성을 로드하는 단계는, 상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계, 및 상기 결정된 제2 음성을 로드하는 단계를 포함할 수 있다.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 최종 음성을 출력하는 단계는, 상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계, 상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계, 상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계, 및 상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계를 포함할 수 있다.

상기 최종 음성을 출력하는 단계는, 상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계를 더 포함할 수 있다.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 커뮤니케이션 방법은, 상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계를 더 포함할 수 있다.

상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고, 상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정될 수 있다.

다른 일 측면에 따른, 커뮤니케이션 어플리케이션은, 커뮤니케이션 장치에 저장되고, 상기 커뮤니케이션 장치가, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 실행하도록 상기 커뮤니케이션 장치를 제어한다.

또 다른 일 측면에 따른, 커뮤니케이션 장치는, 커뮤니케이션을 위한 출력하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 수행한다.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 프로그램은, 상기 제2 음성에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계를 더 수행할 수 있다.

상기 텍스트 메시지는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고, 상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정될 수 있다.

커뮤니케이션 장치 및 방법이 제공된다.

TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법이 제공된다.

도 1은 일 예에 따른 입력된 텍스트에 대해 음성 및 제스쳐가 출력되는 방법을 도시한다.
도 2는 일 실시예에 따른 커뮤니케이션 장치의 구성도이다.
도 3은 일 실시예에 따른 커뮤니케이션 방법의 흐름도이다.
도 4는 일 예에 따른 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 방법의 흐름도이다.
도 5는 일 예에 따른 최종 음성을 출력하는 방법의 흐름도이다.
도 6은 일 예에 따른 표현 정보에 대응하는 제스쳐를 나타내도록 로봇을 제어하는 방법의 흐름도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 예에 따른 입력된 텍스트에 대해 음성 및 제스쳐가 출력되는 방법을 도시한다.

사용자는 로봇을 통해 다른 사용자들과 인터랙션 할 수 있다. 예를 들어, 사용자가 텍스트(110)를 로봇에 입력하면, 텍스트(110)에 대응하는 음성 및 제스쳐가 로봇에 의해 출력될 수 있다.

수문자로 구성된 텍스트(110)는 시각적으로 사용자에게 전달될 수 있으나, 청각적으로는 사용자에게 전달될 수 없다. 따라서, 텍스트(110)의 의미는 TTS(Text To Speech) 엔진(120)을 통해 음성(125)으로 변환될 수 있다. TTS 엔진(120)은 변환한 음성을 기반으로 음성 데이터를 갖는 음성 파일을 생성할 수 있다. 예를 들어, 생성되는 음성 파일의 포맷(format)은 엠피쓰리(MP3)의 포맷일 수 있고, 이에 한정되지 않는다. 음성 파일이 실행되는 경우, 음성이 출력된다.

텍스트(110)는 의미뿐만 아니라, 장치에 대한 입력 명령 또는 메시지를 포함할 수 있다. 입력 명령은 텍스트(110)에 대해 출력될 로봇의 제스쳐(gesture)에 관한 것일 수 있다. 제스쳐 DB(database)(130)는 텍스트(110)에 대해 로봇이 나타내야 할 제스쳐에 대한 정보가 소정의 카테고리 별로 저장되어 있을 수 있다. 제스쳐 DB(130)를 이용하여 텍스트(110)에 대한 제스쳐 정보(135)가 생성될 수 있다.

로봇이 텍스트(110)에 대한 음성 및 제스쳐를 출력하는 경우, 다른 사용자들은 보다 자연스럽게 로봇과 인터랙션할 수 있다. 아래에서 도 2 내지 도 6을 참조하여 텍스트에 대한 음성 및 제스쳐를 출력하는 방법이 상세히 설명된다.

도 2는 일 실시예에 따른 커뮤니케이션 장치의 구성도이다.

커뮤니케이션 장치(200)는 통신부(210), 프로세서(220) 및 메모리(230)를 포함한다. 커뮤니케이션 장치(200)는 로봇에 포함될 수 있다. 로봇은 로봇의 동작을 제어하는 구동부, 처리부 및 사용자 인터페이스를 포함할 수 있다. 커뮤니케이션 장치(200)는 로봇의 처리부에 포함될 수 있다.

사용자 인터페이스는 디스플레이, 터치 패널 및 스피커 중 적어도 하나를 포함할 수 있다. 예를 들어, 도 1을 참조하여 생성된 음성은 스피커를 통해 출력될 수 있다.

통신부(210)는 프로세서(220) 및 메모리(230)와 연결되어 데이터를 송수신한다. 통신부(210)는 외부의 다른 장치와 연결되어 데이터를 송수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다.

통신부(210)는 커뮤니케이션 장치(200) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신부(210)는 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신부(210)는 커뮤니케이션 장치(200)와 외부의 장치를 연결하는 요소일 수 있다. 통신부(210)는 인터페이스(interface)일 수 있다. 통신부(210)는 외부의 장치로부터 데이터를 수신하여, 프로세서(220) 및 메모리(230)에 데이터를 전송할 수 있다.

프로세서(220)는 통신부(210)가 수신한 데이터 및 메모리(230)에 저장된 데이터를 처리한다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(220)는 메모리(예를 들어, 메모리(230))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(220)에 의해 유발된 인스트럭션들을 실행한다.

메모리(230)는 통신부(210)가 수신한 데이터 및 프로세서(220)가 처리한 데이터를 저장한다. 예를 들어, 메모리(230)는 프로그램을 저장할 수 있다. 저장되는 프로그램은 로봇이 음성 및 제스쳐를 출력할 수 있도록 코딩되어 프로세서(220)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.

일 측면에 따르면, 메모리(230)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다.

메모리(230)는 커뮤니케이션 장치(200)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장한다. 커뮤니케이션 장치(200)를 동작 시키는 명령어 세트는 프로세서(220)에 의해 실행된다.

통신부(210), 프로세서(220) 및 메모리(230)에 대해, 아래에서 도 3 내지 도 6을 참조하여 상세히 설명된다.

도 3은 일 실시예에 따른 커뮤니케이션 방법의 흐름도이다.

아래의 단계들(310 내지 350)은 도 2를 참조하여 전술된 커뮤니케이션 장치(200)에 의해 수행된다.

단계(310)에서, 통신부(210)는 텍스트 메시지를 수신한다. 예를 들어, 텍스트 메시지는 커뮤니케이션 장치(200)의 사용자 또는 커뮤니케이션 장치(200)를 포함하는 로봇의 사용자로부터 수신할 수 있다. 사용자는 터치 패널 또는 키보드를 이용하여 텍스트 메시지를 입력할 수 있다. 텍스트 메시지는 문자 및 숫자를 포함할 수 있다.

예를 들어, "안녕하세요 만나서 반갑습니다"라는 텍스트 메시지가 입력된 경우에 대해서 아래를 참조하여 설명한다.

단계(320)에서, 프로세서(220)는 텍스트 메시지에 기초하여 발화 내용 및 발화 내용의 카테고리를 결정한다. 메모리(230)는 감탄사 DB 및 제스처 DB를 포함하고, 감탄사 DB에는 감탄사에 대한 음성들이 카테고리 별로 저장되어 있고, 제스쳐 DB에는 제스처를 위한 구동 정보가 카테고리 별로 저장되어 있을 수 있다.

예를 들어, 특정 단어나 구문이 특정한 카테고리에 대응할 수 있고, 프로세서(220)가 텍스트 메시지에 포함된 특정 단어나 구문을 인식함으로써 발화 내용의 카테고리를 결정할 수 있다. 다른 예로, 발화 내용의 카테고리는 텍스트 메시지 내에 표시될 수 있다.

발화 내용을 분류하기 위한 카테고리는 계층적으로 배열된 하나 이상의 상위 카테고리 및 각 상위 카테고리에 종속적인 하나 이상의 하위 카테고리를 포함할 수 있다.

예를 들어, 상위 카테고리는 발화 내용의 문장 유형을 나타낼 수 있으며, 예/아니오로 구분 가능한 질의를 의미하는 "ask_if", 특정 대상에 대한 질의를 의미하는 "ask_ref", 사용자 반응에 대한 재확인을 의미하는 "ask_confirm", 제안을 의미하는 "suggest", 요청을 의미하는 "request", 사용자 반응에 대한 수용을 의미하는 "accept", 사용자 반응에 대한 대답을 의미하는 "response", 사용자 반응에 대한 거절을 의미하는 "reject", 특정 대상에 대한 인지를 의미하는 "acknowledge", 정보의 제시를 의미하는 "inform", 대화 종료를 의미하는 "closing", 자기 소개를 의미하는 "introduce_oneself", 대화 개시를 의미하는 "opening"으로 이루어진 13개 카테고리를 포함할 수 있다. 하위 카테고리는 발화 내용에 대응되는 세부 감정을 나타낼 수 있으며, 예를 들어, "joy"는 기쁨을 의미한다.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, 프로세서(220)는 텍스트 메시지를 각 어절 별로 분리하고, 텍스트 메시지의 내용에 따라 해당하는 카테고리를 결정할 수 있다. "안녕하세요 만나서 반갑습니다"라는 텍스트 메시지는 발화 내용이 소개이므로, 발화 내용에 대한 상위 카테고리는 "introduce_oneself"로 결정되고, 세부 감정을 나타내는 하위 카테고리는 "joy" 등으로 결정될 수 있다.

그러나, 기재된 상위 및 하위 카테고리의 종류는 단지 예시적인 것으로서, 발화 내용 및 이에 따른 감정 상태를 분류하기 위한 카테고리의 개수 및 종류는 본 명세서에 기재된 실시예들에 의하여 한정되는 것이 아니며, 출력하고자 하는 감정 표현의 특징 및 로봇과 사용자 간의 상호작용의 특징 등에 따라 다른 상이한 방식으로 결정될 수도 있다/

단계(330)에서, 프로세서(220)는 텍스트 메시지의 발화 내용과 발화 내용에 대해 결정된 카테고리를 포함하는 표현 정보를 생성한다.

일 측면에 따르면, 표현 정보에는 카테고리뿐만 아니라 발화 내용에 삽입될 감탄사를 지정하는 식별자가 포함될 수도 있다. 추가적으로, 표현 정보에는 발화 내용 중 감탄사가 삽입될 부분의 위치 정보가 포함될 수도 있다. 프로세서(220)는 텍스트 메시지에 포함된 발화 내용에서 발화 내용 전체의 앞, 발화 내용 전체의 뒤, 및/또는 발화 내용에서 각 어절의 앞 또는 뒤 등에 감탄사를 삽입하도록 위치 정보를 결정할 수 있다.

다른 일 측면에 따르면, 표현 정보에는 전체 발화 내용의 길이를 지시하는 길이 정보가 포함될 수 있다. 예를 들어, 발화 내용의 글자 수가 미리 설정된 개수 이상일 경우 길이 정보를 "long"으로 결정하고, 발화 내용의 글자 수가 미리 설정된 개수 미만일 경우에는 길이 정보를 "short"으로 결정할 수 있다.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, 프로세서(220)는 발화 내용의 길이 정보를 "short"으로 결정할 수 있다. 프로세서(220)는 텍스트 메시지를 어절에 따라 "안녕하세요", "만나서" 및 "반갑습니다"의 세 부분으로 분리할 수 있다. 프로세서(220)는 텍스트 메시지의 각 부분의 전후를 감탄사 삽입 위치로 결정하며, 이러한 삽입 위치 및 각 삽입 위치에 삽입될 감탄사의 식별자를 포함하도록 표현 정보를 생성할 수 있다.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short] 과 같은 형태의 표현 정보가 생성될 수 있다. 상기의 표현 정보에서 각 정보는 + 기호에 의하여 구분되며, 각 어절의 앞뒤에 삽입된 21, 10, 55 및 30 숫자는 해당 위치에 삽입될 감탄사 음성의 식별자를 나타낸다. 또한, 표현 정보의 맨 뒤에는 발화 내용의 상위 카테고리(introduce_oneself), 하위 감정 카테고리(joy) 및 길이 정보(short)가 삽입될 수 있다.

그러나, 이상에 기재한 표현 정보의 형태는 단지 예시적인 것으로서, 다른 실시예에서 표현 정보는 본 명세서에 기재된 실시예들과 상이한 형태로 구성될 수도 있으며, 특정 형식에 한정되지 않는다.

단계(340)에서, 프로세서(220)는 생성된 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 결정한다. 단어들을 구분하는 기준은 음절일 수 있다. 합성 단어는 기계음으로 합성되어야 할 단어일 수 있다. 미리 녹음된 단어는 해당하는 단어에 대한 음성이 미리 녹음되어 있는 단어일 수 있다. 표현 정보에는 미리 녹음된 단어를 나타내는 식별자를 포함할 수 있다. 예를 들어, 미리 녹음된 단어는 숫자인 식별자일 수 있다. 미리 녹음된 단어는 식별자에 기초하여 결정될 수 있다. 미리 녹음된 단어는 단어의 음성을 발화한 사람의 감정이 이입된 감탄사, 의성어 및 의태어 등을 포함할 수 있다.

예를 들어, 표현 정보가 [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short]인 경우, "안녕하세요", "만나서", "반갑습니다"가 합성 단어로 결정되고, "21", "10", "55", "30"은 미리 녹음된 단어로 결정될 수 있다.

단계(350)에서, 프로세서(220)는 TTS 엔진을 이용하여 합성 단어에 대응하는 제1 음성을 합성한다. 예를 들어, 캐릭터 정보가 수신된 경우, 캐릭터 정보에 기초하여 제1 음성이 합성될 수 있다. 다른 예로, 캐릭터 정보는 결정된 카테고리에 기초하여 미리 결정될 수 있다. 캐릭터 정보는 제1 음성의 특징일 수 있다. 캐릭터 정보는 사용자로부터 추가로 수신되거나, 텍스트 메시지에 포함될 수 있다. 예를 들어, 캐릭터 정보는 성별 정보, 나이 정보, 및 성격 정보를 포함할 수 있다. 캐릭터 정보가 반영되도록 제1 음성이 합성될 수 있다. 예를 들어, 제1 음성의 음색, 음높이, 휴지, 크기, 및 속도가 캐릭터 정보가 반영되도록 조절될 수 있다.

단계(360)에서, 프로세서(220)는 미리 녹음된 단어에 대응하는 제2 음성을 로드한다. 예를 들어, 프로세서(220)는 제2 음성에 대응하는 음성 파일을 로드할 수 있다. 음성 파일은 메모리(230)에 미리 저장되어있을 수 있다.

제2 음성을 로드하는 방법에 대해, 아래에서 도 4를 참조하여 상세히 설명된다.

단계(370)에서, 프로세서(220)는 제1 음성 및 제2 음성에 기초하여 표현 정보에 대응하는 최종 음성을 출력한다. 프로세서(220)는 최종 음성에 대한 음성 파일을 생성하고, 음성 파일에 기초하여 음성이 스피커를 통해 출력될 수 있다. 제2 음성은 사람의 감정이 표현된 음성이므로, 감정이 표현된 음성이 함께 출력되는 최종 음성이 보다 자연스럽게 전달될 수 있다. 최종 음성이 출력되는 방법이 아래에서 도 5를 참조하여 상세히 설명된다.

도 4는 일 예에 따른 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 방법의 흐름도이다.

도 3을 참조하여 전술된 단계(360)는 아래의 단계들(410 및 420)을 포함한다.

단계(410)에서, 프로세서(220)는 캐릭터 정보에 기초하여 미리 녹음된 단어에 대응하는 복수의 음성들 중 제2 음성을 결정한다. 예를 들어, 캐릭터 정보 각각과 음성이 매칭되어 있을 수 있다.

단계(420)에서, 프로세서(220)는 결정된 제2 음성을 로드한다.

도 5는 일 예에 따른 최종 음성을 출력하는 방법의 흐름도이다.

도 3을 참조하여 전술된 단계(370)는 아래의 단계들(510 내지 550)을 포함한다.

단계(510)에서, 프로세서(220)는 제1 음성에 대한 로봇의 제1 입술 변화 정보를 생성한다. 사람이 제1 음성을 발음할 때 나타나는 입술의 변화와 유사하게 로봇의 입술이 움직이도록 제1 입술 변화 정보가 생성될 수 있다.

단계(520)에서, 프로세서(220)는 제2 음성에 대한 제2 입술 변화 정보를 로드한다.

단계(530)에서, 프로세서(220)는 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산한다. 입술 모양 전이 시간은 제1 입술 변화 정보에 기초한 입술의 모양에서 제2 입술 변화 정보에 기초한 입술의 모양으로 전이하는데 필요한 시간일 수 있다. 예를 들어, 입술 모양 전이 시간은 입술이 변화하는데 필요한 최소 시간일 수 있다.

단계(540)에서, 프로세서(220)는 입술 모양 전이 시간에 기초하여 최종 음성을 출력한다. 예를 들어, 제1 음성이 출력되고, 입술 모양 전이 시간이 경과한 이후 제2 음성이 출력되도록 최종 음성이 출력될 수 있다.

단계(550)는 단계(540)가 수행된 후 수행되는 것으로 도시되었으나, 단계(550)는 단계(540)와 병렬적으로 수행될 수 있다.

단계(550)에서, 프로세서(220)는 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 출력되는 최종 음성에 대응하도록 로봇의 입술을 제어한다. 프로세서(220)는 제1 입술 변화 정보, 제2 입술 변화 정보 및 입술 모양 전이 시간에 기초하여 로봇의 입술을 제어할 수 있다. 예를 들어, 로봇의 입술은 로봇의 구동부를 통해 움직일 수 있고, 프로세서(220)는 로봇의 구동부를 제어함으로써 입술을 제어할 수 있다.

도 6은 일 예에 따른 표현 정보에 대응하는 제스쳐를 나타내도록 로봇을 제어하는 방법의 흐름도이다.

아래의 단계들(610 및 620)은 도 3을 참조하여 전술된 단계(330)가 수행된 후 수행될 수 있다.

단계(610)에서, 프로세서(220)는 표현 정보에 대응하는 로봇의 제스쳐(gesture)를 결정한다. 로봇의 제스쳐는 로봇이 움직일 수 있는 부분의 종합적인 움직임일 수 있다. 예를 들어, 제스쳐는 팔의 움직임, 다리 움직임 및 얼굴 표정으로 표현될 수 있다. 제스쳐는 캐릭터 정보에 따라 상이하게 결정될 수 있다.

로봇의 제스쳐를 구현하기 위해, 제스처 DB에는, 카테고리 별로 구동 정보가 미리 저장되어 있을 수 있다. 예를 들어, 구동 정보는 하나 이상의 상위 카테고리 및 각각의 상위 카테고리에 종속된 하나 이상의 하위 카테고리 별로 저장되어 있을 수도 있다. 여기서, 구동 정보란 로봇이 최종 음성과 함께 표출하기에 적합한 제스처를 출력하도록 로봇의 일부 또는 전체를 제어하기 위한 정보를 지칭한다. 예를 들어, 구동 정보는 로봇의 바퀴, 발광 다이오드(Light Emitting Diode; LED) 등의 조명 장비, 스피커 등의 음향 출력 장비, 목, 팔, 다리, 안면 또는 다른 적당한 부분을 움직이기 위한 정보일 수 있다.

프로세서(220)는, 표현 정보에 포함된 카테고리 정보를 이용하여, 제스처 DB에 저장된 구동 정보 중 최종 음성에 적합한 구동 정보를 결정할 수 있다. 예를 들어, 표현 정보가 [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short]일 경우, 프로세서(220)는 "introduce_oneself"의 상위 카테고리 및 "joy"의 하위 카테고리에 대응되며, 길이 정보가 "short"에 대응되는 구동 정보를 제스처 DB 로부터 추출할 수 있다.

단계(620)에서, 프로세서(220)는 로봇이 제스쳐를 나타내도록 로봇을 제어한다. 예를 들어, 프로세서(220)는 구동 정보를 이용하여 로봇의 구동부를 제어할 수 있다.

프로세서(220)는 최종 음성의 출력 및 입술 구동이 이루어지는 것과 동기화되어 제스처의 표현이 이루어지도록 로봇을 제어할 수 있다. 그 결과, 최종 음성의 출력과 일치된 자연스러운 제스처 표현이 이루어질 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

200: 커뮤니케이션 장치
210: 통신부
220: 프로세서
230: 메모리

Claims

커뮤니케이션 장치에 의해 수행되는 커뮤니케이션 방법에 있어서,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계; 및
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계
를 포함하는,
커뮤니케이션 방법.
제1항에 있어서,
상기 제1 음성을 합성하는 단계는,
캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계
를 포함하는,
커뮤니케이션 방법.
제2항에 있어서,
상기 제2 음성을 로드하는 단계는,
상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계; 및
상기 결정된 제2 음성을 로드하는 단계
를 포함하는,
커뮤니케이션 방법.
제1항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 최종 음성을 출력하는 단계는,
상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계;
상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계;
상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계; 및
상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계
를 포함하는,
커뮤니케이션 방법.
제4항에 있어서,
상기 최종 음성을 출력하는 단계는,
상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계
를 더 포함하는,
커뮤니케이션 방법.
제1항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 커뮤니케이션 방법은,
상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계
를 더 포함하는,
커뮤니케이션 방법.
제1항에 있어서,
상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고,
상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정되는,
커뮤니케이션 방법.
제1항 내지 제7항 중 어느 한 항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
커뮤니케이션 장치에 저장되고, 상기 커뮤니케이션 장치가,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계; 및
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계
를 실행하도록 상기 커뮤니케이션 장치를 제어하는,
커뮤니케이션 어플리케이션
커뮤니케이션 장치에 있어서,
커뮤니케이션을 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 수행하는 프로세서
를 포함하고,
상기 프로그램은,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계; 및
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계
를 수행하는,
커뮤니케이션 장치.
제10항에 있어서,
상기 제1 음성을 합성하는 단계는,
캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계
를 포함하는,
커뮤니케이션 장치.
제13항에 있어서,
상기 제2 음성을 로드하는 단계는,
상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계; 및
상기 결정된 제2 음성을 로드하는 단계
를 포함하는,
커뮤니케이션 장치.
제10항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 최종 음성을 출력하는 단계는,
상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계;
상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계;
상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계; 및
상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계
를 포함하는,
커뮤니케이션 장치.
제13항에 있어서,
상기 최종 음성을 출력하는 단계는,
상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계
를 더 포함하는,
커뮤니케이션 장치.
제10항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 프로그램은,
상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계
를 더 수행하는,
커뮤니케이션 장치.
제10항에 있어서,
상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고,
상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정되는,
커뮤니케이션 장치.