KR102522867B1 - Method and apparatus for communication - Google Patents

Method and apparatus for communication Download PDF

Info

Publication number
KR102522867B1
KR102522867B1 KR1020170173827A KR20170173827A KR102522867B1 KR 102522867 B1 KR102522867 B1 KR 102522867B1 KR 1020170173827 A KR1020170173827 A KR 1020170173827A KR 20170173827 A KR20170173827 A KR 20170173827A KR 102522867 B1 KR102522867 B1 KR 102522867B1
Authority
KR
South Korea
Prior art keywords
voice
information
word
communication device
speech
Prior art date
Application number
KR1020170173827A
Other languages
Korean (ko)
Other versions
KR20190072777A (en
Inventor
유민선
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020170173827A priority Critical patent/KR102522867B1/en
Publication of KR20190072777A publication Critical patent/KR20190072777A/en
Application granted granted Critical
Publication of KR102522867B1 publication Critical patent/KR102522867B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

TTS 엔진을 이용한 커뮤니케이션 방법 및 장치가 제공된다. 텍스트 메시지에 대응하는 최종 음성을 출력하기 위해, 텍스트 메시지에 기초하여 발화 내용 및 발화 내용의 카테고리가 결정되고, 발화 내용 및 발화 내용의 카테고리에 기초하여 표현 정보가 생성되며, 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어가 결정되고, 합성 단어에 대응하는 제1 음성 및 미리 녹음된 단어에 대응하는 제2 음성에 기초하여 최종 음성을 생성하고, 최종 음성을 출력한다.A communication method and apparatus using a TTS engine are provided. In order to output a final voice corresponding to the text message, the content of speech and the category of the content of speech are determined based on the text message, expression information is generated based on the content of speech and the category of content of speech, and synthesis is performed based on the expression information. The word and the pre-recorded word are determined, a final voice is generated based on the first voice corresponding to the compound word and the second voice corresponding to the pre-recorded word, and the final voice is output.

Description

커뮤니케이션 방법 및 장치{METHOD AND APPARATUS FOR COMMUNICATION}Communication method and device {METHOD AND APPARATUS FOR COMMUNICATION}

기술 분야는 커뮤니케이션을 위한 기술에 관한 것으로, 특히, TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법에 관한 것이다.The technical field relates to technology for communication, and in particular, to a device and method for outputting voice using a TTS engine.

TTS(text to speech) 엔진은 텍스트의 음소들을 합성하여 음성을 발화할 수 있다. 발화되는 음성은 기계적으로 합성된 음성이므로, 사람의 감정이 표현되지 않는다. 특히, 감탄사는 사람의 감정을 나타내는 단어이나, 합성된 음성은 단어에 해당하는 감정을 나타내지 못한다.A text to speech (TTS) engine may synthesize phonemes of text and utter speech. Since the uttered voice is a mechanically synthesized voice, human emotions are not expressed. In particular, exclamations are words representing human emotions, but synthesized voices do not represent emotions corresponding to the words.

한국공개특허 제10-2010-0117284호(공개일 2010년 11월 03일)에는 티티에스 모듈이 구비된 방송용 동보 장치가 개시되어 있다. 공개발명은 티티에스 모듈이 구비된 방송용 동보 장치에 관한 것으로, 위험 재해 예상지역이나 관할 구역의 취약지에 구비되는 방송용 동보 장치에 티티에스 모듈을 탑재하여 원격지의 서버나 담당자로부터 방송 데이터만을 동보 장치 측으로 전송한 후 음성으로 변환하여 안내방송을 실시할 수 있도록 함으로써 정확한 데이터 전송이 이루어질 수 있도록 함과 아울러 통신 비용의 절감도 구현될 수 있도록 한 티티에스 모듈이 구비된 방송용 동보 장치가 개시된다.Korean Patent Publication No. 10-2010-0117284 (published on November 03, 2010) discloses a broadcast device equipped with a TTS module. The disclosed invention relates to a broadcasting device equipped with a TTS module, which is equipped with a TTS module in a broadcasting device provided in a vulnerable area in a disaster-predicted area or jurisdictional area, and transmits only broadcasting data from a remote server or person in charge to the broadcasting device. Disclosed is a broadcasting device equipped with a TTS module that enables accurate data transmission and reduction of communication costs by converting the information into voice after transmission so that announcements can be made.

일 실시예는 커뮤니케이션 장치 및 방법을 제공할 수 있다.One embodiment may provide a communication device and method.

일 실시예는 TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법을 제공할 수 있다.An embodiment may provide a device and method for outputting voice using a TTS engine.

일 측면에 따른, 커뮤니케이션 장치에 의해 수행되는 커뮤니케이션 방법은, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 포함한다.According to one aspect, a communication method performed by a communication device may include receiving a text message, determining a content of speech and a category of the content of speech based on the text message, and a content of speech and a category of the content of speech. generating expression information based on the expression information, determining a synthesized word and a pre-recorded word based on the expression information, and synthesizing a first voice corresponding to the synthesized word using a Text To Speech (TTS) engine. and outputting a final voice corresponding to the text message based on the first voice and the second voice.

상기 제1 음성을 합성하는 단계는, 캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계를 포함할 수 있다.Synthesizing the first voice may include synthesizing the first voice based on character information.

상기 제2 음성을 로드하는 단계는, 상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계, 및 상기 결정된 제2 음성을 로드하는 단계를 포함할 수 있다.The loading of the second voice includes determining the second voice among a plurality of voices corresponding to the pre-recorded word based on the character information, and loading the determined second voice. can do.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 최종 음성을 출력하는 단계는, 상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계, 상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계, 상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계, 및 상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계를 포함할 수 있다.The communication device is included in the robot, and the outputting of the final voice includes generating first lip change information of the robot with respect to the first voice, and loading second lip change information with respect to the second voice. and calculating a lip shape transition time based on the first lip change information and the second lip change information, and outputting the final voice based on the lip shape transition time.

상기 최종 음성을 출력하는 단계는, 상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계를 더 포함할 수 있다.The outputting of the final voice may further include controlling the lips of the robot to correspond to the output final voice based on the first lip change information and the second lip change information.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 커뮤니케이션 방법은, 상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계를 더 포함할 수 있다.The communication device may be included in a robot, and the communication method may further include controlling the robot to show a gesture corresponding to the expression information.

상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고, 상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정될 수 있다.The expression information may include an identifier representing the pre-recorded word, and the pre-recorded word may be determined based on the identifier.

다른 일 측면에 따른, 커뮤니케이션 어플리케이션은, 커뮤니케이션 장치에 저장되고, 상기 커뮤니케이션 장치가, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 실행하도록 상기 커뮤니케이션 장치를 제어한다.According to another aspect, a communication application is stored in a communication device, and the communication device receives a text message, determines speech content and a category of the speech content based on the text message, and determines the speech content based on the text message. and generating expression information based on the category of the utterance, determining a synthesized word and a pre-recorded word based on the expression information, and corresponding to the synthesized word using a Text To Speech (TTS) engine. synthesizing a first voice that says, loading a second voice corresponding to the pre-recorded word, and outputting a final voice corresponding to the text message based on the first voice and the second voice. Control the communication device to execute.

또 다른 일 측면에 따른, 커뮤니케이션 장치는, 커뮤니케이션을 위한 출력하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 텍스트 메시지를 수신하는 단계, 상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계, 상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계, 상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계, TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계, 상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계, 및 상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계를 수행한다.According to another aspect, a communication device includes a memory in which an outputting program for communication is recorded, and a processor that executes the program, wherein the program includes receiving a text message, based on the text message Determining the content of speech and the category of the content of speech, generating expression information based on the content of speech and the category of the content of speech, determining a compound word and a prerecorded word based on the expression information, respectively synthesizing a first voice corresponding to the synthesized word using a Text To Speech (TTS) engine, loading a second voice corresponding to the pre-recorded word, and loading the first voice and the second voice Outputting a final voice corresponding to the text message based on the voice is performed.

상기 제1 음성을 합성하는 단계는, 캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계를 포함할 수 있다.Synthesizing the first voice may include synthesizing the first voice based on character information.

상기 제2 음성을 로드하는 단계는, 상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계, 및 상기 결정된 제2 음성을 로드하는 단계를 포함할 수 있다.The loading of the second voice includes determining the second voice among a plurality of voices corresponding to the pre-recorded word based on the character information, and loading the determined second voice. can do.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 최종 음성을 출력하는 단계는, 상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계, 상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계, 상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계, 및 상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계를 포함할 수 있다.The communication device is included in the robot, and the outputting of the final voice includes generating first lip change information of the robot with respect to the first voice, and loading second lip change information with respect to the second voice. and calculating a lip shape transition time based on the first lip change information and the second lip change information, and outputting the final voice based on the lip shape transition time.

상기 최종 음성을 출력하는 단계는, 상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계를 더 포함할 수 있다.The outputting of the final voice may further include controlling the lips of the robot to correspond to the output final voice based on the first lip change information and the second lip change information.

상기 커뮤니케이션 장치는 로봇에 포함되고, 상기 프로그램은, 상기 제2 음성에 대응하는 제스쳐(gesture)를 나타내도록 상기 로봇을 제어하는 단계를 더 수행할 수 있다.The communication device may be included in a robot, and the program may further perform a step of controlling the robot to show a gesture corresponding to the second voice.

상기 텍스트 메시지는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier)를 포함하고, 상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정될 수 있다.The text message may include an identifier representing the pre-recorded word, and the pre-recorded word may be determined based on the identifier.

커뮤니케이션 장치 및 방법이 제공된다.A communication device and method are provided.

TTS 엔진을 이용하여 음성을 출력하는 장치 및 방법이 제공된다.An apparatus and method for outputting voice using a TTS engine are provided.

도 1은 일 예에 따른 입력된 텍스트에 대해 음성 및 제스쳐가 출력되는 방법을 도시한다.
도 2는 일 실시예에 따른 커뮤니케이션 장치의 구성도이다.
도 3은 일 실시예에 따른 커뮤니케이션 방법의 흐름도이다.
도 4는 일 예에 따른 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 방법의 흐름도이다.
도 5는 일 예에 따른 최종 음성을 출력하는 방법의 흐름도이다.
도 6은 일 예에 따른 표현 정보에 대응하는 제스쳐를 나타내도록 로봇을 제어하는 방법의 흐름도이다.
1 illustrates a method of outputting a voice and a gesture with respect to input text according to an example.
2 is a configuration diagram of a communication device according to an embodiment.
3 is a flowchart of a communication method according to an exemplary embodiment.
4 is a flowchart of a method of loading a second voice corresponding to a pre-recorded word according to an example.
5 is a flowchart of a method of outputting a final voice according to an example.
6 is a flowchart of a method of controlling a robot to indicate a gesture corresponding to expression information according to an example.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the patent application is not limited or limited by these examples. Like reference numerals in each figure indicate like elements.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Various changes may be made to the embodiments described below. The embodiments described below are not intended to be limiting on the embodiments, and should be understood to include all modifications, equivalents or substitutes thereto.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in the examples are used only to describe specific examples, and are not intended to limit the examples. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which the embodiment belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, they should not be interpreted in an ideal or excessively formal meaning. don't

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, in the description with reference to the accompanying drawings, the same reference numerals are given to the same components regardless of reference numerals, and overlapping descriptions thereof will be omitted. In describing the embodiment, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the embodiment, the detailed description will be omitted.

도 1은 일 예에 따른 입력된 텍스트에 대해 음성 및 제스쳐가 출력되는 방법을 도시한다.1 illustrates a method of outputting a voice and a gesture with respect to input text according to an example.

사용자는 로봇을 통해 다른 사용자들과 인터랙션 할 수 있다. 예를 들어, 사용자가 텍스트(110)를 로봇에 입력하면, 텍스트(110)에 대응하는 음성 및 제스쳐가 로봇에 의해 출력될 수 있다.Users can interact with other users through robots. For example, when the user inputs text 110 to the robot, voice and gestures corresponding to the text 110 may be output by the robot.

수문자로 구성된 텍스트(110)는 시각적으로 사용자에게 전달될 수 있으나, 청각적으로는 사용자에게 전달될 수 없다. 따라서, 텍스트(110)의 의미는 TTS(Text To Speech) 엔진(120)을 통해 음성(125)으로 변환될 수 있다. TTS 엔진(120)은 변환한 음성을 기반으로 음성 데이터를 갖는 음성 파일을 생성할 수 있다. 예를 들어, 생성되는 음성 파일의 포맷(format)은 엠피쓰리(MP3)의 포맷일 수 있고, 이에 한정되지 않는다. 음성 파일이 실행되는 경우, 음성이 출력된다.The text 110 composed of alphanumeric characters can be delivered to the user visually, but cannot be delivered to the user aurally. Accordingly, the meaning of the text 110 may be converted into voice 125 through a Text To Speech (TTS) engine 120 . The TTS engine 120 may generate a voice file having voice data based on the converted voice. For example, the format of the generated voice file may be an MP3 format, but is not limited thereto. When the audio file is executed, the audio is output.

텍스트(110)는 의미뿐만 아니라, 장치에 대한 입력 명령 또는 메시지를 포함할 수 있다. 입력 명령은 텍스트(110)에 대해 출력될 로봇의 제스쳐(gesture)에 관한 것일 수 있다. 제스쳐 DB(database)(130)는 텍스트(110)에 대해 로봇이 나타내야 할 제스쳐에 대한 정보가 소정의 카테고리 별로 저장되어 있을 수 있다. 제스쳐 DB(130)를 이용하여 텍스트(110)에 대한 제스쳐 정보(135)가 생성될 수 있다.Text 110 may include meaning as well as input commands or messages for the device. The input command may relate to a gesture of the robot to be output to the text 110 . The gesture DB (database) 130 may store information on gestures to be displayed by the robot with respect to the text 110 for each predetermined category. Gesture information 135 for the text 110 may be generated using the gesture DB 130 .

로봇이 텍스트(110)에 대한 음성 및 제스쳐를 출력하는 경우, 다른 사용자들은 보다 자연스럽게 로봇과 인터랙션할 수 있다. 아래에서 도 2 내지 도 6을 참조하여 텍스트에 대한 음성 및 제스쳐를 출력하는 방법이 상세히 설명된다.When the robot outputs a voice and a gesture for the text 110, other users can interact with the robot more naturally. Hereinafter, a method of outputting a voice and a gesture for text will be described in detail with reference to FIGS. 2 to 6 .

도 2는 일 실시예에 따른 커뮤니케이션 장치의 구성도이다.2 is a configuration diagram of a communication device according to an embodiment.

커뮤니케이션 장치(200)는 통신부(210), 프로세서(220) 및 메모리(230)를 포함한다. 커뮤니케이션 장치(200)는 로봇에 포함될 수 있다. 로봇은 로봇의 동작을 제어하는 구동부, 처리부 및 사용자 인터페이스를 포함할 수 있다. 커뮤니케이션 장치(200)는 로봇의 처리부에 포함될 수 있다.The communication device 200 includes a communication unit 210 , a processor 220 and a memory 230 . The communication device 200 may be included in a robot. The robot may include a driving unit for controlling an operation of the robot, a processing unit, and a user interface. The communication device 200 may be included in the processing unit of the robot.

사용자 인터페이스는 디스플레이, 터치 패널 및 스피커 중 적어도 하나를 포함할 수 있다. 예를 들어, 도 1을 참조하여 생성된 음성은 스피커를 통해 출력될 수 있다.The user interface may include at least one of a display, a touch panel, and a speaker. For example, the sound generated with reference to FIG. 1 may be output through a speaker.

통신부(210)는 프로세서(220) 및 메모리(230)와 연결되어 데이터를 송수신한다. 통신부(210)는 외부의 다른 장치와 연결되어 데이터를 송수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다.The communication unit 210 is connected to the processor 220 and the memory 230 to transmit and receive data. The communication unit 210 may transmit/receive data by being connected to another external device. Hereinafter, the expression “transmitting and receiving “A” may indicate transmitting and receiving “information or data indicating A”.

통신부(210)는 커뮤니케이션 장치(200) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신부(210)는 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신부(210)는 커뮤니케이션 장치(200)와 외부의 장치를 연결하는 요소일 수 있다. 통신부(210)는 인터페이스(interface)일 수 있다. 통신부(210)는 외부의 장치로부터 데이터를 수신하여, 프로세서(220) 및 메모리(230)에 데이터를 전송할 수 있다.The communication unit 210 may be implemented as a circuitry within the communication device 200 . For example, the communication unit 210 may include an internal bus and an external bus. As another example, the communication unit 210 may be an element that connects the communication device 200 and an external device. The communication unit 210 may be an interface. The communication unit 210 may receive data from an external device and transmit the data to the processor 220 and the memory 230 .

프로세서(220)는 통신부(210)가 수신한 데이터 및 메모리(230)에 저장된 데이터를 처리한다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.The processor 220 processes data received by the communication unit 210 and data stored in the memory 230 . A “processor” may be a data processing device implemented in hardware having circuitry having a physical structure for executing desired operations. For example, desired operations may include codes or instructions included in a program. For example, a data processing unit implemented in hardware includes a microprocessor, a central processing unit, a processor core, a multi-core processor, and a multiprocessor. , Application-Specific Integrated Circuit (ASIC), and Field Programmable Gate Array (FPGA).

프로세서(220)는 메모리(예를 들어, 메모리(230))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(220)에 의해 유발된 인스트럭션들을 실행한다.Processor 220 executes computer readable code (eg, software) stored in memory (eg, memory 230 ) and instructions invoked by processor 220 .

메모리(230)는 통신부(210)가 수신한 데이터 및 프로세서(220)가 처리한 데이터를 저장한다. 예를 들어, 메모리(230)는 프로그램을 저장할 수 있다. 저장되는 프로그램은 로봇이 음성 및 제스쳐를 출력할 수 있도록 코딩되어 프로세서(220)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.The memory 230 stores data received by the communication unit 210 and data processed by the processor 220 . For example, the memory 230 may store a program. The stored program may be a set of syntaxes coded so that the robot can output voices and gestures and executed by the processor 220 .

일 측면에 따르면, 메모리(230)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다.According to one aspect, the memory 230 may include one or more of volatile memory, non-volatile memory and random access memory (RAM), flash memory, a hard disk drive, and an optical disk drive.

메모리(230)는 커뮤니케이션 장치(200)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장한다. 커뮤니케이션 장치(200)를 동작 시키는 명령어 세트는 프로세서(220)에 의해 실행된다.The memory 230 stores a command set (eg, software) for operating the communication device 200 . A set of instructions for operating the communication device 200 are executed by the processor 220 .

통신부(210), 프로세서(220) 및 메모리(230)에 대해, 아래에서 도 3 내지 도 6을 참조하여 상세히 설명된다.The communication unit 210, the processor 220, and the memory 230 will be described in detail with reference to FIGS. 3 to 6 below.

도 3은 일 실시예에 따른 커뮤니케이션 방법의 흐름도이다.3 is a flowchart of a communication method according to an exemplary embodiment.

아래의 단계들(310 내지 350)은 도 2를 참조하여 전술된 커뮤니케이션 장치(200)에 의해 수행된다.Steps 310 to 350 below are performed by the communication device 200 described above with reference to FIG. 2 .

단계(310)에서, 통신부(210)는 텍스트 메시지를 수신한다. 예를 들어, 텍스트 메시지는 커뮤니케이션 장치(200)의 사용자 또는 커뮤니케이션 장치(200)를 포함하는 로봇의 사용자로부터 수신할 수 있다. 사용자는 터치 패널 또는 키보드를 이용하여 텍스트 메시지를 입력할 수 있다. 텍스트 메시지는 문자 및 숫자를 포함할 수 있다.In step 310, the communication unit 210 receives a text message. For example, the text message may be received from a user of the communication device 200 or a user of a robot including the communication device 200 . A user may input a text message using a touch panel or a keyboard. Text messages can contain letters and numbers.

예를 들어, "안녕하세요 만나서 반갑습니다"라는 텍스트 메시지가 입력된 경우에 대해서 아래를 참조하여 설명한다.For example, a case in which a text message "Hello, nice to meet you" is input will be described with reference to the following.

단계(320)에서, 프로세서(220)는 텍스트 메시지에 기초하여 발화 내용 및 발화 내용의 카테고리를 결정한다. 메모리(230)는 감탄사 DB 및 제스처 DB를 포함하고, 감탄사 DB에는 감탄사에 대한 음성들이 카테고리 별로 저장되어 있고, 제스쳐 DB에는 제스처를 위한 구동 정보가 카테고리 별로 저장되어 있을 수 있다.In step 320, the processor 220 determines a speech content and a category of the speech content based on the text message. The memory 230 may include an exclamation DB and a gesture DB. Voices for exclamations may be stored in the exclamation DB according to categories, and driving information for gestures may be stored in the gesture DB according to categories.

예를 들어, 특정 단어나 구문이 특정한 카테고리에 대응할 수 있고, 프로세서(220)가 텍스트 메시지에 포함된 특정 단어나 구문을 인식함으로써 발화 내용의 카테고리를 결정할 수 있다. 다른 예로, 발화 내용의 카테고리는 텍스트 메시지 내에 표시될 수 있다.For example, a specific word or phrase may correspond to a specific category, and the processor 220 may determine the category of the spoken content by recognizing the specific word or phrase included in the text message. As another example, the category of utterance content may be displayed in a text message.

발화 내용을 분류하기 위한 카테고리는 계층적으로 배열된 하나 이상의 상위 카테고리 및 각 상위 카테고리에 종속적인 하나 이상의 하위 카테고리를 포함할 수 있다.Categories for classifying utterances may include one or more hierarchically arranged higher categories and one or more lower categories dependent on each higher category.

예를 들어, 상위 카테고리는 발화 내용의 문장 유형을 나타낼 수 있으며, 예/아니오로 구분 가능한 질의를 의미하는 "ask_if", 특정 대상에 대한 질의를 의미하는 "ask_ref", 사용자 반응에 대한 재확인을 의미하는 "ask_confirm", 제안을 의미하는 "suggest", 요청을 의미하는 "request", 사용자 반응에 대한 수용을 의미하는 "accept", 사용자 반응에 대한 대답을 의미하는 "response", 사용자 반응에 대한 거절을 의미하는 "reject", 특정 대상에 대한 인지를 의미하는 "acknowledge", 정보의 제시를 의미하는 "inform", 대화 종료를 의미하는 "closing", 자기 소개를 의미하는 "introduce_oneself", 대화 개시를 의미하는 "opening"으로 이루어진 13개 카테고리를 포함할 수 있다. 하위 카테고리는 발화 내용에 대응되는 세부 감정을 나타낼 수 있으며, 예를 들어, "joy"는 기쁨을 의미한다. For example, the upper category can indicate the sentence type of the utterance, "ask_if" meaning a query that can be distinguished as yes/no, "ask_ref" meaning a query for a specific target, and reconfirmation of a user's response. "ask_confirm" to "ask_confirm", "suggest" to mean a suggestion, "request" to mean a request, "accept" to mean acceptance of a user response, "response" to mean an answer to a user response, "rejection" to a user response "reject" meaning to, "acknowledge" meaning recognition of a specific target, "inform" meaning presentation of information, "closing" meaning ending conversation, "introduce_oneself" meaning self-introduction, initiation of conversation It can include 13 categories consisting of "opening". The sub-category may represent detailed emotions corresponding to utterances, and for example, “joy” means joy.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, 프로세서(220)는 텍스트 메시지를 각 어절 별로 분리하고, 텍스트 메시지의 내용에 따라 해당하는 카테고리를 결정할 수 있다. "안녕하세요 만나서 반갑습니다"라는 텍스트 메시지는 발화 내용이 소개이므로, 발화 내용에 대한 상위 카테고리는 "introduce_oneself"로 결정되고, 세부 감정을 나타내는 하위 카테고리는 "joy" 등으로 결정될 수 있다.Regarding the text message “Hello, nice to meet you”, the processor 220 may separate the text message for each word and determine a corresponding category according to the content of the text message. Since the text message "Hello, nice to meet you" is an introduction, the upper category of the utterance may be determined as "introduce_oneself" and the lower category representing detailed emotion may be determined as "joy" and the like.

그러나, 기재된 상위 및 하위 카테고리의 종류는 단지 예시적인 것으로서, 발화 내용 및 이에 따른 감정 상태를 분류하기 위한 카테고리의 개수 및 종류는 본 명세서에 기재된 실시예들에 의하여 한정되는 것이 아니며, 출력하고자 하는 감정 표현의 특징 및 로봇과 사용자 간의 상호작용의 특징 등에 따라 다른 상이한 방식으로 결정될 수도 있다/However, the types of upper and lower categories described are merely illustrative, and the number and type of categories for classifying the content of speech and the emotional state according to it are not limited by the embodiments described in this specification, and the emotion to be output. Depending on the characteristics of the expression and the characteristics of the interaction between the robot and the user, it may be determined in other different ways/

단계(330)에서, 프로세서(220)는 텍스트 메시지의 발화 내용과 발화 내용에 대해 결정된 카테고리를 포함하는 표현 정보를 생성한다.In step 330, the processor 220 generates expression information including the content of the speech of the text message and the category determined for the content of the speech.

일 측면에 따르면, 표현 정보에는 카테고리뿐만 아니라 발화 내용에 삽입될 감탄사를 지정하는 식별자가 포함될 수도 있다. 추가적으로, 표현 정보에는 발화 내용 중 감탄사가 삽입될 부분의 위치 정보가 포함될 수도 있다. 프로세서(220)는 텍스트 메시지에 포함된 발화 내용에서 발화 내용 전체의 앞, 발화 내용 전체의 뒤, 및/또는 발화 내용에서 각 어절의 앞 또는 뒤 등에 감탄사를 삽입하도록 위치 정보를 결정할 수 있다.According to one aspect, expression information may include not only categories but also identifiers designating interjections to be inserted into utterances. Additionally, the expression information may include location information of a part where an interjection is to be inserted in the contents of speech. The processor 220 may determine location information to insert an exclamation point before or after the entire speech content included in the text message, and/or before or after each word in the speech content.

다른 일 측면에 따르면, 표현 정보에는 전체 발화 내용의 길이를 지시하는 길이 정보가 포함될 수 있다. 예를 들어, 발화 내용의 글자 수가 미리 설정된 개수 이상일 경우 길이 정보를 "long"으로 결정하고, 발화 내용의 글자 수가 미리 설정된 개수 미만일 경우에는 길이 정보를 "short"으로 결정할 수 있다.According to another aspect, the expression information may include length information indicating the length of the entire utterance. For example, the length information may be determined as "long" when the number of characters in the content of speech is greater than or equal to a preset number, and the length information may be determined as "short" when the number of characters in the content of speech is less than the preset number.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, 프로세서(220)는 발화 내용의 길이 정보를 "short"으로 결정할 수 있다. 프로세서(220)는 텍스트 메시지를 어절에 따라 "안녕하세요", "만나서" 및 "반갑습니다"의 세 부분으로 분리할 수 있다. 프로세서(220)는 텍스트 메시지의 각 부분의 전후를 감탄사 삽입 위치로 결정하며, 이러한 삽입 위치 및 각 삽입 위치에 삽입될 감탄사의 식별자를 포함하도록 표현 정보를 생성할 수 있다. For the text message “Hello, nice to meet you”, the processor 220 may determine length information of the utterance as “short”. The processor 220 may separate the text message into three parts of "hello", "nice to meet you" and "nice to meet you" according to the word. The processor 220 may determine the front and back of each part of the text message as an interjection insertion position, and generate expression information to include the insertion position and an identifier of an interjection to be inserted at each insertion position.

"안녕하세요 만나서 반갑습니다"라는 텍스트 메시지에 대해, [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short] 과 같은 형태의 표현 정보가 생성될 수 있다. 상기의 표현 정보에서 각 정보는 + 기호에 의하여 구분되며, 각 어절의 앞뒤에 삽입된 21, 10, 55 및 30 숫자는 해당 위치에 삽입될 감탄사 음성의 식별자를 나타낸다. 또한, 표현 정보의 맨 뒤에는 발화 내용의 상위 카테고리(introduce_oneself), 하위 감정 카테고리(joy) 및 길이 정보(short)가 삽입될 수 있다.For a text message that reads "hello nice to meet you", [21 + hello + 10 + nice to meet you + 55 + nice to meet you + 30 + introduce_oneself | joy | short] may be generated. In the above expression information, each piece of information is distinguished by a + sign, and the numbers 21, 10, 55, and 30 inserted before and after each word indicate the identifier of the exclamation voice to be inserted at the corresponding position. In addition, an upper category of utterance (introduce_oneself), a lower emotion category (joy), and length information (short) may be inserted at the end of the expression information.

그러나, 이상에 기재한 표현 정보의 형태는 단지 예시적인 것으로서, 다른 실시예에서 표현 정보는 본 명세서에 기재된 실시예들과 상이한 형태로 구성될 수도 있으며, 특정 형식에 한정되지 않는다.However, the form of expression information described above is merely exemplary, and expression information in other embodiments may be configured in a form different from that of the embodiments described herein, and is not limited to a specific form.

단계(340)에서, 프로세서(220)는 생성된 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 결정한다. 단어들을 구분하는 기준은 음절일 수 있다. 합성 단어는 기계음으로 합성되어야 할 단어일 수 있다. 미리 녹음된 단어는 해당하는 단어에 대한 음성이 미리 녹음되어 있는 단어일 수 있다. 표현 정보에는 미리 녹음된 단어를 나타내는 식별자를 포함할 수 있다. 예를 들어, 미리 녹음된 단어는 숫자인 식별자일 수 있다. 미리 녹음된 단어는 식별자에 기초하여 결정될 수 있다. 미리 녹음된 단어는 단어의 음성을 발화한 사람의 감정이 이입된 감탄사, 의성어 및 의태어 등을 포함할 수 있다.At step 340, processor 220 determines a compound word and a prerecorded word based on the generated expression information. A criterion for classifying words may be syllables. The synthesized word may be a word to be synthesized with a mechanical sound. The pre-recorded word may be a word in which a voice for the corresponding word is pre-recorded. The expression information may include identifiers representing pre-recorded words. For example, a pre-recorded word could be an identifier that is a number. A pre-recorded word may be determined based on the identifier. The pre-recorded words may include interjections, onomatopoeia, mimetic words, etc., in which the person who utters the word's voice has empathy.

예를 들어, 표현 정보가 [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short]인 경우, "안녕하세요", "만나서", "반갑습니다"가 합성 단어로 결정되고, "21", "10", "55", "30"은 미리 녹음된 단어로 결정될 수 있다.For example, if the expression information is [21 + hello + 10 + nice to meet you + 55 + nice to meet you + 30 + introduce_oneself | joy | short], "Hello", "Nice to meet you", and "Nice to meet you" may be determined as synthesized words, and "21", "10", "55", and "30" may be determined as pre-recorded words.

단계(350)에서, 프로세서(220)는 TTS 엔진을 이용하여 합성 단어에 대응하는 제1 음성을 합성한다. 예를 들어, 캐릭터 정보가 수신된 경우, 캐릭터 정보에 기초하여 제1 음성이 합성될 수 있다. 다른 예로, 캐릭터 정보는 결정된 카테고리에 기초하여 미리 결정될 수 있다. 캐릭터 정보는 제1 음성의 특징일 수 있다. 캐릭터 정보는 사용자로부터 추가로 수신되거나, 텍스트 메시지에 포함될 수 있다. 예를 들어, 캐릭터 정보는 성별 정보, 나이 정보, 및 성격 정보를 포함할 수 있다. 캐릭터 정보가 반영되도록 제1 음성이 합성될 수 있다. 예를 들어, 제1 음성의 음색, 음높이, 휴지, 크기, 및 속도가 캐릭터 정보가 반영되도록 조절될 수 있다.In step 350, the processor 220 synthesizes a first voice corresponding to the synthesized word using a TTS engine. For example, when character information is received, a first voice may be synthesized based on the character information. As another example, character information may be previously determined based on the determined category. The character information may be characteristics of the first voice. Character information may be additionally received from the user or included in a text message. For example, character information may include gender information, age information, and personality information. The first voice may be synthesized to reflect character information. For example, the tone, pitch, pause, volume, and speed of the first voice may be adjusted to reflect character information.

단계(360)에서, 프로세서(220)는 미리 녹음된 단어에 대응하는 제2 음성을 로드한다. 예를 들어, 프로세서(220)는 제2 음성에 대응하는 음성 파일을 로드할 수 있다. 음성 파일은 메모리(230)에 미리 저장되어있을 수 있다.At step 360, processor 220 loads a second voice corresponding to the pre-recorded word. For example, the processor 220 may load a voice file corresponding to the second voice. Voice files may be previously stored in the memory 230 .

제2 음성을 로드하는 방법에 대해, 아래에서 도 4를 참조하여 상세히 설명된다.The method of loading the second voice is described in detail with reference to FIG. 4 below.

단계(370)에서, 프로세서(220)는 제1 음성 및 제2 음성에 기초하여 표현 정보에 대응하는 최종 음성을 출력한다. 프로세서(220)는 최종 음성에 대한 음성 파일을 생성하고, 음성 파일에 기초하여 음성이 스피커를 통해 출력될 수 있다. 제2 음성은 사람의 감정이 표현된 음성이므로, 감정이 표현된 음성이 함께 출력되는 최종 음성이 보다 자연스럽게 전달될 수 있다. 최종 음성이 출력되는 방법이 아래에서 도 5를 참조하여 상세히 설명된다.In step 370, the processor 220 outputs a final voice corresponding to the expression information based on the first voice and the second voice. The processor 220 may generate a voice file for the final voice, and based on the voice file, the voice may be output through a speaker. Since the second voice is a voice expressing human emotions, the final voice in which the voice expressing emotions is output together can be transmitted more naturally. A method of outputting the final voice will be described in detail with reference to FIG. 5 below.

도 4는 일 예에 따른 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 방법의 흐름도이다.4 is a flowchart of a method of loading a second voice corresponding to a pre-recorded word according to an example.

도 3을 참조하여 전술된 단계(360)는 아래의 단계들(410 및 420)을 포함한다.Step 360 described above with reference to FIG. 3 includes steps 410 and 420 below.

단계(410)에서, 프로세서(220)는 캐릭터 정보에 기초하여 미리 녹음된 단어에 대응하는 복수의 음성들 중 제2 음성을 결정한다. 예를 들어, 캐릭터 정보 각각과 음성이 매칭되어 있을 수 있다.In step 410, the processor 220 determines a second voice among a plurality of voices corresponding to the pre-recorded word based on the character information. For example, each character information may be matched with a voice.

단계(420)에서, 프로세서(220)는 결정된 제2 음성을 로드한다.At step 420, the processor 220 loads the determined second voice.

도 5는 일 예에 따른 최종 음성을 출력하는 방법의 흐름도이다.5 is a flowchart of a method of outputting a final voice according to an example.

도 3을 참조하여 전술된 단계(370)는 아래의 단계들(510 내지 550)을 포함한다.Step 370 described above with reference to FIG. 3 includes steps 510 to 550 below.

단계(510)에서, 프로세서(220)는 제1 음성에 대한 로봇의 제1 입술 변화 정보를 생성한다. 사람이 제1 음성을 발음할 때 나타나는 입술의 변화와 유사하게 로봇의 입술이 움직이도록 제1 입술 변화 정보가 생성될 수 있다.In step 510, the processor 220 generates first lip change information of the robot with respect to the first voice. The first lip change information may be generated so that the lips of the robot move similarly to the change of lips that appear when a person pronounces the first voice.

단계(520)에서, 프로세서(220)는 제2 음성에 대한 제2 입술 변화 정보를 로드한다.At step 520, the processor 220 loads second lip change information for the second voice.

단계(530)에서, 프로세서(220)는 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산한다. 입술 모양 전이 시간은 제1 입술 변화 정보에 기초한 입술의 모양에서 제2 입술 변화 정보에 기초한 입술의 모양으로 전이하는데 필요한 시간일 수 있다. 예를 들어, 입술 모양 전이 시간은 입술이 변화하는데 필요한 최소 시간일 수 있다.In step 530, the processor 220 calculates a lip shape transition time based on the first lip change information and the second lip change information. The lip shape transition time may be a time required to transition from the shape of the lips based on the first lip change information to the shape of the lips based on the second lip change information. For example, the lip shape transition time may be the minimum time required for lips to change.

단계(540)에서, 프로세서(220)는 입술 모양 전이 시간에 기초하여 최종 음성을 출력한다. 예를 들어, 제1 음성이 출력되고, 입술 모양 전이 시간이 경과한 이후 제2 음성이 출력되도록 최종 음성이 출력될 수 있다.In step 540, the processor 220 outputs the final voice based on the lip shape transition time. For example, the final voice may be output so that the second voice is output after the first voice is output and the lip shape transition time elapses.

단계(550)는 단계(540)가 수행된 후 수행되는 것으로 도시되었으나, 단계(550)는 단계(540)와 병렬적으로 수행될 수 있다.Although step 550 is shown as being performed after step 540 has been performed, step 550 may be performed in parallel with step 540 .

단계(550)에서, 프로세서(220)는 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 출력되는 최종 음성에 대응하도록 로봇의 입술을 제어한다. 프로세서(220)는 제1 입술 변화 정보, 제2 입술 변화 정보 및 입술 모양 전이 시간에 기초하여 로봇의 입술을 제어할 수 있다. 예를 들어, 로봇의 입술은 로봇의 구동부를 통해 움직일 수 있고, 프로세서(220)는 로봇의 구동부를 제어함으로써 입술을 제어할 수 있다.In step 550, the processor 220 controls the lips of the robot to correspond to the final voice output based on the first lip change information and the second lip change information. The processor 220 may control the lips of the robot based on the first lip change information, the second lip change information, and the lip shape transition time. For example, the lips of the robot may move through the driving unit of the robot, and the processor 220 may control the lips by controlling the driving unit of the robot.

도 6은 일 예에 따른 표현 정보에 대응하는 제스쳐를 나타내도록 로봇을 제어하는 방법의 흐름도이다.6 is a flowchart of a method of controlling a robot to indicate a gesture corresponding to expression information according to an example.

아래의 단계들(610 및 620)은 도 3을 참조하여 전술된 단계(330)가 수행된 후 수행될 수 있다.Steps 610 and 620 below may be performed after step 330 described above with reference to FIG. 3 is performed.

단계(610)에서, 프로세서(220)는 표현 정보에 대응하는 로봇의 제스쳐(gesture)를 결정한다. 로봇의 제스쳐는 로봇이 움직일 수 있는 부분의 종합적인 움직임일 수 있다. 예를 들어, 제스쳐는 팔의 움직임, 다리 움직임 및 얼굴 표정으로 표현될 수 있다. 제스쳐는 캐릭터 정보에 따라 상이하게 결정될 수 있다.In step 610, the processor 220 determines a gesture of the robot corresponding to the expression information. A gesture of the robot may be a comprehensive movement of a movable part of the robot. For example, gestures may be expressed as arm movements, leg movements, and facial expressions. A gesture may be determined differently according to character information.

로봇의 제스쳐를 구현하기 위해, 제스처 DB에는, 카테고리 별로 구동 정보가 미리 저장되어 있을 수 있다. 예를 들어, 구동 정보는 하나 이상의 상위 카테고리 및 각각의 상위 카테고리에 종속된 하나 이상의 하위 카테고리 별로 저장되어 있을 수도 있다. 여기서, 구동 정보란 로봇이 최종 음성과 함께 표출하기에 적합한 제스처를 출력하도록 로봇의 일부 또는 전체를 제어하기 위한 정보를 지칭한다. 예를 들어, 구동 정보는 로봇의 바퀴, 발광 다이오드(Light Emitting Diode; LED) 등의 조명 장비, 스피커 등의 음향 출력 장비, 목, 팔, 다리, 안면 또는 다른 적당한 부분을 움직이기 위한 정보일 수 있다.In order to implement the gestures of the robot, drive information for each category may be pre-stored in the gesture DB. For example, driving information may be stored for each of one or more upper categories and one or more lower categories subordinate to each of the upper categories. Here, the driving information refers to information for controlling part or all of the robot so that the robot outputs a gesture suitable for expression together with a final voice. For example, the driving information may be information for moving the robot's wheels, lighting equipment such as light emitting diodes (LEDs), sound output equipment such as speakers, neck, arms, legs, face, or other appropriate parts. there is.

프로세서(220)는, 표현 정보에 포함된 카테고리 정보를 이용하여, 제스처 DB에 저장된 구동 정보 중 최종 음성에 적합한 구동 정보를 결정할 수 있다. 예를 들어, 표현 정보가 [21 + 안녕하세요 + 10 + 만나서 + 55 + 반갑습니다 + 30 + introduce_oneself | joy | short]일 경우, 프로세서(220)는 "introduce_oneself"의 상위 카테고리 및 "joy"의 하위 카테고리에 대응되며, 길이 정보가 "short"에 대응되는 구동 정보를 제스처 DB 로부터 추출할 수 있다.The processor 220 may determine driving information suitable for the final voice from among driving information stored in the gesture DB by using category information included in the expression information. For example, if the expression information is [21 + hello + 10 + nice to meet you + 55 + nice to meet you + 30 + introduce_oneself | joy | short], the processor 220 may extract drive information corresponding to the upper category of "introduce_oneself" and the lower category of "joy" and the length information corresponding to "short" from the gesture DB.

단계(620)에서, 프로세서(220)는 로봇이 제스쳐를 나타내도록 로봇을 제어한다. 예를 들어, 프로세서(220)는 구동 정보를 이용하여 로봇의 구동부를 제어할 수 있다.At step 620, the processor 220 controls the robot so that the robot exhibits a gesture. For example, the processor 220 may control the driving unit of the robot using driving information.

프로세서(220)는 최종 음성의 출력 및 입술 구동이 이루어지는 것과 동기화되어 제스처의 표현이 이루어지도록 로봇을 제어할 수 있다. 그 결과, 최종 음성의 출력과 일치된 자연스러운 제스처 표현이 이루어질 수 있다.The processor 220 may control the robot so that the expression of the gesture is synchronized with the output of the final voice and the driving of the lips. As a result, a natural gesture expression consistent with the final voice output can be achieved.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

200: 커뮤니케이션 장치
210: 통신부
220: 프로세서
230: 메모리
200: communication device
210: communication department
220: processor
230: memory

Claims (16)

커뮤니케이션 장치에 의해 수행되는 커뮤니케이션 방법에 있어서,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계;
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계; 및
상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 커뮤니케이션 장치를 포함하는 로봇을 상기 표현 정보에 대응하는 미리 저장된 구동 정보에 기초하여 제어하는 단계
를 포함하고,
상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier) 및 상기 미리 녹음된 단어가 삽입될 부분의 위치 정보를 포함하고,
상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정되고,
상기 제스쳐는 캐릭터 정보에 따라 상이하게 결정되는,
커뮤니케이션 방법.
In a communication method performed by a communication device,
receiving a text message;
determining a speech content and a category of the speech content based on the text message;
generating expression information based on the speech contents and categories of the speech contents;
determining a compound word and a prerecorded word, respectively, based on the expression information;
Synthesizing a first voice corresponding to the synthesized word using a Text To Speech (TTS) engine;
loading a second voice corresponding to the pre-recorded word;
outputting a final voice corresponding to the text message based on the first voice and the second voice; and
Controlling a robot including the communication device to show a gesture corresponding to the expression information based on previously stored driving information corresponding to the expression information
including,
The expression information includes an identifier indicating the pre-recorded word and location information of a part where the pre-recorded word is to be inserted,
the pre-recorded word is determined based on the identifier;
The gesture is determined differently according to character information,
communication method.
제1항에 있어서,
상기 제1 음성을 합성하는 단계는,
캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계
를 포함하는,
커뮤니케이션 방법.
According to claim 1,
Synthesizing the first voice,
synthesizing the first voice based on character information;
including,
communication method.
제2항에 있어서,
상기 제2 음성을 로드하는 단계는,
상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계; 및
상기 결정된 제2 음성을 로드하는 단계
를 포함하는,
커뮤니케이션 방법.
According to claim 2,
The step of loading the second voice,
determining the second voice among a plurality of voices corresponding to the pre-recorded word based on the character information; and
loading the determined second voice
including,
communication method.
제1항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 최종 음성을 출력하는 단계는,
상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계;
상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계;
상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계; 및
상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계
를 포함하는,
커뮤니케이션 방법.
According to claim 1,
The communication device is included in the robot,
In the step of outputting the final voice,
generating first lip change information of the robot for the first voice;
loading second lip change information for the second voice;
calculating a lip shape transition time based on the first lip change information and the second lip change information; and
Outputting the final voice based on the lip shape transition time
including,
communication method.
제4항에 있어서,
상기 최종 음성을 출력하는 단계는,
상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계
를 더 포함하는,
커뮤니케이션 방법.
According to claim 4,
In the step of outputting the final voice,
Controlling the lips of the robot to correspond to the output final voice based on the first lip change information and the second lip change information
Including more,
communication method.
삭제delete 삭제delete 제1항 내지 제5항 중 어느 한 항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
A computer-readable recording medium containing a program for performing the method of any one of claims 1 to 5.
커뮤니케이션 장치에 저장되고, 상기 커뮤니케이션 장치가,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계;
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계; 및
상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 커뮤니케이션 장치를 포함하는 로봇을 상기 표현 정보에 대응하는 미리 저장된 구동 정보에 기초하여 제어하는 단계
를 실행하도록 상기 커뮤니케이션 장치를 제어하고,
상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier) 및 상기 미리 녹음된 단어가 삽입될 부분의 위치 정보를 포함하고,
상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정되고,
상기 제스쳐는 캐릭터 정보에 따라 상이하게 결정되는,
컴퓨터에 의해 판독 가능한 기록 매체에 저장된,
커뮤니케이션 어플리케이션
stored in a communication device, and the communication device,
receiving a text message;
determining a speech content and a category of the speech content based on the text message;
generating expression information based on the speech contents and categories of the speech contents;
determining a compound word and a prerecorded word, respectively, based on the expression information;
Synthesizing a first voice corresponding to the synthesized word using a Text To Speech (TTS) engine;
loading a second voice corresponding to the pre-recorded word;
outputting a final voice corresponding to the text message based on the first voice and the second voice; and
Controlling a robot including the communication device to show a gesture corresponding to the expression information based on previously stored driving information corresponding to the expression information
Control the communication device to execute,
The expression information includes an identifier indicating the pre-recorded word and location information of a part where the pre-recorded word is to be inserted,
the pre-recorded word is determined based on the identifier;
The gesture is determined differently according to character information,
stored on a computer-readable recording medium,
communication application
커뮤니케이션 장치에 있어서,
커뮤니케이션을 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 수행하는 프로세서
를 포함하고,
상기 프로그램은,
텍스트 메시지를 수신하는 단계;
상기 텍스트 메시지에 기초하여 발화 내용 및 상기 발화 내용의 카테고리를 결정하는 단계;
상기 발화 내용 및 상기 발화 내용의 카테고리에 기초하여 표현 정보를 생성하는 단계;
상기 표현 정보에 기초하여 합성 단어 및 미리 녹음된 단어를 각각 결정하는 단계;
TTS(Text To Speech) 엔진을 이용하여 상기 합성 단어에 대응하는 제1 음성을 합성하는 단계;
상기 미리 녹음된 단어에 대응하는 제2 음성을 로드하는 단계;
상기 제1 음성 및 상기 제2 음성에 기초하여 상기 텍스트 메시지에 대응하는 최종 음성을 출력하는 단계; 및
상기 표현 정보에 대응하는 제스쳐(gesture)를 나타내도록 상기 커뮤니케이션 장치를 포함하는 로봇을 상기 표현 정보에 대응하는 미리 저장된 구동 정보에 기초하여 제어하는 단계
를 수행하고,
상기 표현 정보는 상기 미리 녹음된 단어를 나타내는 식별자(Identifier) 및 상기 미리 녹음된 단어가 삽입될 부분의 위치 정보를 포함하고,
상기 미리 녹음된 단어는 상기 식별자에 기초하여 결정되고,
상기 제스쳐는 캐릭터 정보에 따라 상이하게 결정되는,
커뮤니케이션 장치.
In the communication device,
a memory in which a program for communication is recorded; and
Processor that runs the above program
including,
said program,
receiving a text message;
determining a speech content and a category of the speech content based on the text message;
generating expression information based on the speech contents and categories of the speech contents;
determining a compound word and a prerecorded word, respectively, based on the expression information;
Synthesizing a first voice corresponding to the synthesized word using a Text To Speech (TTS) engine;
loading a second voice corresponding to the pre-recorded word;
outputting a final voice corresponding to the text message based on the first voice and the second voice; and
Controlling a robot including the communication device to show a gesture corresponding to the expression information based on previously stored driving information corresponding to the expression information
and
The expression information includes an identifier indicating the pre-recorded word and location information of a part where the pre-recorded word is to be inserted,
the pre-recorded word is determined based on the identifier;
The gesture is determined differently according to character information,
communication device.
제10항에 있어서,
상기 제1 음성을 합성하는 단계는,
캐릭터 정보에 기초하여 상기 제1 음성을 합성하는 단계
를 포함하는,
커뮤니케이션 장치.
According to claim 10,
Synthesizing the first voice,
synthesizing the first voice based on character information;
including,
communication device.
제11항에 있어서,
상기 제2 음성을 로드하는 단계는,
상기 캐릭터 정보에 기초하여 상기 미리 녹음된 단어에 대응하는 복수의 음성들 중 상기 제2 음성을 결정하는 단계; 및
상기 결정된 제2 음성을 로드하는 단계
를 포함하는,
커뮤니케이션 장치.
According to claim 11,
The step of loading the second voice,
determining the second voice among a plurality of voices corresponding to the pre-recorded word based on the character information; and
loading the determined second voice
including,
communication device.
제10항에 있어서,
상기 커뮤니케이션 장치는 로봇에 포함되고,
상기 최종 음성을 출력하는 단계는,
상기 제1 음성에 대한 상기 로봇의 제1 입술 변화 정보를 생성하는 단계;
상기 제2 음성에 대한 제2 입술 변화 정보를 로드하는 단계;
상기 제1 입술 변화 정보 및 제2 입술 변화 정보에 기초하여 입술 모양 전이 시간을 계산하는 단계; 및
상기 입술 모양 전이 시간에 기초하여 상기 최종 음성을 출력하는 단계
를 포함하는,
커뮤니케이션 장치.
According to claim 10,
The communication device is included in the robot,
In the step of outputting the final voice,
generating first lip change information of the robot for the first voice;
loading second lip change information for the second voice;
calculating a lip shape transition time based on the first lip change information and the second lip change information; and
Outputting the final voice based on the lip shape transition time
including,
communication device.
제13항에 있어서,
상기 최종 음성을 출력하는 단계는,
상기 제1 입술 변화 정보 및 상기 제2 입술 변화 정보에 기초하여 상기 출력되는 최종 음성에 대응하도록 상기 로봇의 입술을 제어하는 단계
를 더 포함하는,
커뮤니케이션 장치.
According to claim 13,
In the step of outputting the final voice,
Controlling the lips of the robot to correspond to the output final voice based on the first lip change information and the second lip change information
Including more,
communication device.
삭제delete 삭제delete
KR1020170173827A 2017-12-18 2017-12-18 Method and apparatus for communication KR102522867B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170173827A KR102522867B1 (en) 2017-12-18 2017-12-18 Method and apparatus for communication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170173827A KR102522867B1 (en) 2017-12-18 2017-12-18 Method and apparatus for communication

Publications (2)

Publication Number Publication Date
KR20190072777A KR20190072777A (en) 2019-06-26
KR102522867B1 true KR102522867B1 (en) 2023-04-17

Family

ID=67105035

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170173827A KR102522867B1 (en) 2017-12-18 2017-12-18 Method and apparatus for communication

Country Status (1)

Country Link
KR (1) KR102522867B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
JP2010277588A (en) * 2009-05-28 2010-12-09 Samsung Electronics Co Ltd Device for generating animation script, animation output device, receiving terminal device, transmitting terminal device, portable terminal device and method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002318594A (en) * 2001-04-20 2002-10-31 Sony Corp Language processing system and language processing method as well as program and recording medium
KR101089184B1 (en) * 2010-01-06 2011-12-02 (주) 퓨처로봇 Method and system for providing a speech and expression of emotion in 3D charactor
KR101221188B1 (en) * 2011-04-26 2013-01-10 한국과학기술원 Assistive robot with emotional speech synthesizing function, method of synthesizing emotional speech for the assistive robot, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
JP2010277588A (en) * 2009-05-28 2010-12-09 Samsung Electronics Co Ltd Device for generating animation script, animation output device, receiving terminal device, transmitting terminal device, portable terminal device and method

Also Published As

Publication number Publication date
KR20190072777A (en) 2019-06-26

Similar Documents

Publication Publication Date Title
US11170776B1 (en) Speech-processing system
US20230012984A1 (en) Generation of automated message responses
US11538478B2 (en) Multiple virtual assistants
US10365887B1 (en) Generating commands based on location and wakeword
US11869495B2 (en) Voice to voice natural language understanding processing
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US11862174B2 (en) Voice command processing for locked devices
US11443733B2 (en) Contextual text-to-speech processing
US10319365B1 (en) Text-to-speech processing with emphasized output audio
US8566098B2 (en) System and method for improving synthesized speech interactions of a spoken dialog system
US11289082B1 (en) Speech processing output personalization
US20240185833A1 (en) Dynamic system response configuration
US10600408B1 (en) Content output management based on speech quality
US9978359B1 (en) Iterative text-to-speech with user feedback
US20170169811A1 (en) Text-to-speech processing systems and methods
US11715472B2 (en) Speech-processing system
US11810556B2 (en) Interactive content output
US20240071385A1 (en) Speech-processing system
US20240257808A1 (en) Cross-assistant command processing
US11564194B1 (en) Device communication
KR102522867B1 (en) Method and apparatus for communication
US12001260B1 (en) Preventing inadvertent wake in a speech-controlled device
US11670285B1 (en) Speech processing techniques
EP4445364A1 (en) Multiple wakeword detection
US11763809B1 (en) Access to multiple virtual assistants

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant