KR20230164954A - 대화형 가상 아바타의 구현 방법 - Google Patents

대화형 가상 아바타의 구현 방법 Download PDF

Info

Publication number
KR20230164954A
KR20230164954A KR1020220064732A KR20220064732A KR20230164954A KR 20230164954 A KR20230164954 A KR 20230164954A KR 1020220064732 A KR1020220064732 A KR 1020220064732A KR 20220064732 A KR20220064732 A KR 20220064732A KR 20230164954 A KR20230164954 A KR 20230164954A
Authority
KR
South Korea
Prior art keywords
user
motion
utterance
avatar
text
Prior art date
Application number
KR1020220064732A
Other languages
English (en)
Inventor
정민영
신사임
장진예
김산
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020220064732A priority Critical patent/KR20230164954A/ko
Priority to PCT/KR2022/017339 priority patent/WO2023229117A1/ko
Publication of KR20230164954A publication Critical patent/KR20230164954A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명에 따른 실시예들의 일 목적은 사용자 발화에 대응하여 적절한 응답을 발화할 뿐만 아니라 적절한 모션을 취하는 대화형 가상 아바타를 제공하는 것에 있다.
이를 위해, 본 발명의 일 실시예에 따른 대화형 가상 아바타를 구현하기 위한 방법은, 사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 단계와, 수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 단계와, 상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하는 단계와, 상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계와, 상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 단계와, 상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는 단계를 포함한다.

Description

대화형 가상 아바타의 구현 방법{METHOD FOR IMPLEMENTING INTERACTIVE VIRTUAL AVATAR}
본 개시는 대화형 가상 아바타의 구현 방법에 관한 것으로서, 보다 구체적으로는 사용자 발화에 대해 적절한 응답 및 모션을 생성하여 멀티 모달을 활용해 대화하는 대화형 가상 아바타의 구현 방법에 관한 것이다.
기존의 대화 시스템은 주로 텍스트나 음성 입출력으로 이루어진 챗봇을 이용하여 진행되는 방식이 있다. 챗봇은 사람과의 문자 대화를 통해 질문에 알맞은 답이나 각종 연관 정보를 제공하는 인공지능 기반의 커뮤니케이션 소프트웨어를 의미하는 것으로서, 사람들이 필요로 하는 서비스와 데이터를 찾아주는 등의 기업과 개인을 연결해주는 역할을 한다. 최근 언어학습을 위한 챗봇, 날씨정보를 제공하는 챗봇 및 쇼핑몰 서비스를 제공하는 챗봇 등 다양한 분야에서 챗봇의 활용도가 증가하고 있는 실정이다. 그러나, 챗봇은 주로 텍스트/음성 입출력으로만 이루어지므로, 사용자의 몰입도가 높지 않다는 단점을 가진다.
또한, 가상 아바타를 동작시키는 기술의 경우, 사용자가 가상 아바타를 수동으로 조작하거나 가상 아바타가 사용자의 행동을 모사하도록 구현되었을 뿐, 대화 시스템에서 대화의 상대방으로 가상 아바타를 활용하는 경우는 찾아보기 힘들다.
이에, 본 발명의 일 목적은, 사용자 발화에 대응하여 적절한 응답을 발화할 뿐만 아니라 적절한 모션을 취하는 대화형 가상 아바타를 제공하는 것에 있다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 바로 제한되지 않으며, 언급되지는 않았으나 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 목적을 포함할 수 있다.
본 발명의 일 실시예에 따른 대화형 가상 아바타를 구현하기 위한 방법은, 사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 단계와, 수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 단계와, 상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하는 단계와, 상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계와, 상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 단계와, 상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는 단계를 포함한다.
본 발명의 일 실시예에 따른 대화형 가상 아바타 플랫폼을 구현하기 위한 서버 장치는 명령어를 저장하고 있는 메모리 및 프로세서를 포함하고, 사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 통신 모듈과, 수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 변환 모듈과, 상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하고, 상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하고, 상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 분석 모듈을 포함하며, 상기 통신 모듈은, 상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송한다.
본 발명의 일 실시예에 따른 명령어를 저장하는 컴퓨터 판독가능한 기록매체에 있어서, 상기 명령어는 프로세서에 의해서 실행될 때, 상기 프로세서로 하여금 사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 것과, 수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 것과, 상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하는 것과, 상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것과, 상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 것과, 상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는 것을 포함하는 동작들을 수행하게 한다.
본 발명의 실시예들에 따르면, 사용자 발화에 대응하여 적절한 응답을 발화할 뿐만 아니라 적절한 모션을 취하는 멀티모달 표현이 가능한 대화형 가상 아바타를 제공할 수 있으며, 이를 통해 사용자가 대화하고 싶으며 사용자의 공감을 얻을 수 있도록 하여 사용자 경험을 향상시킬 수 있다.
다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일 실시예에 따른 대화형 가상 아바타 구현 시스템을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 대화형 가상 아바타 구현 서버의 내부 구성을 나타내는 개략도이다.
도 3은 본 발명의 일 실시예에 따른 대화형 가상 아바타 시스템의 동작 과정을 설명하는 모식도이며, 도 4는 본 발명의 일 실시예에 따른 대화형 가상 아바타 시스템의 동작을 설명하는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 대화형 가상 아바타 서버의 분석 모듈이 시스템 발화에 대응하는 모션을 결정하는 과정을 설명하는 흐름도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 예에 한정되지 않는다. 또한, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있거나 위/아래에 있다고 할 때, 이는 직접적으로 연결되어 있거나, 위/아래에 있는 경우뿐만 아니라, 그 중간에 다른 구성요소를 사이에 두고, 간접적으로 연결되거나 위/아래에 있는 경우도 포함한다.
나아가, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
"제1", "제2" 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 해당 용어들에 의해 한정되어서는 안 된다. 즉, 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
또한, 달리 구체적으로 명시하지 않는 한, "단수"의 표현은 본 명세서에서 하나 이상의 개체를 포함하는 것으로 사용된다. 마지막으로, 본 명세서에서 사용된 바와 같이, "또는"은 달리 구체적으로 명시하지 않는 한, 비-배타적인 "또는"을 의미한다.
또한, 본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
대화형 가상 아바타 구현 시스템
도 1은 본 발명의 일 실시예에 따른 대화형 가상 아바타 구현 시스템을 개략적으로 나타내는 도면이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 대화형 가상 아바타 구현 시스템(1)은, 사용자 디바이스(UE)(10), 네트워크(20) 및 대화형 가상 아바타 구현 서버(30)를 포함할 수 있다.
사용자 디바이스(10)는 대화형 가상 아바타 구현 서버(30)와 네트워크(20)를 통해 접속될 수 있다. 사용자 디바이스(10)는 휴대폰, PC, 노트북, PDA, 태블릿, 웨어러블 디바이스 등 사용자의 발화를 수신하고 이를 오디오의 형태로 네트워크(20)를 통해 대화형 가상 아바타 구현 서버(30)에 전달할 수 있는 작용을 할 수 있으며, 대화형 가상 아바타 플랫폼을 통해 대화형 가상 아바타(11)를 구현할 수 있는 작용을 할 수 있는 임의의 디바이스일 수 있다.
사용자 디바이스(10), 또는 사용자 디바이스(10)에 설치된 대화형 가상 아바타 플랫폼에 따라서는 사용자의 발화를 수신하여 대화형 가상 아바타 구현 서버(30)에 단순 전달하는 것에 그치지 않고, 사용자의 발화를 음성 인식 모듈을 통해 인식하여 텍스트의 형태로 대화형 가상 아바타 구현 서버(30)에 전달할 수도 있으며, 그 구체적인 구현 방식에 대해 한정하지는 않는다.
사용자 디바이스(10)는 사용자의 발화를 대화형 가상 아바타 구현 서버(30)로 전달한 이후, 대화형 가상 아바타 구현 서버(30)로부터 시스템 응답을 수신할 수 있다. 이 때의 시스템 응답은 사용자 디바이스(10)의 사용자 인터페이스에서 구현되는 가상 아바타 플랫폼의 아바타(11)의 모션을 제어하는 모션 데이터 및 사용자 디바이스(10)를 통해 출력되는 시스템 발화를 포함할 수 있다. 이에 대해서는 자세히 후술하도록 한다.
네트워크(20)는 임의의 유선 또는 무선 네트워크일 수 있다. 예를 들어, 네트워크(20)는 이더넷(Ethernet), 유선 홈 네트워크(Power Line Communication), 전화선 통신 장치 및 RS-serial 통신 등의 유선 네트워크, 이동통신망, WLAN(Wireless LAN), Wi-Fi, Bluetooth 및 ZigBee 등과 같은 무선 네트워크 또는 그 조합으로 구성될 수 있다.
대화형 가상 아바타 구현 서버(30)는 사용자 디바이스(10)로부터 수신한 오디오 또는 텍스트 형태의 사용자 발화를 분석하여 시스템 응답을 생성하고 생성된 시스템 응답을 사용자 디바이스(10)로 전송할 수 있다.
도 2는 본 발명의 일 실시예에 따른 대화형 가상 아바타 구현 서버(30)의 내부 구성을 나타내는 개략도이다. 대화형 가상 아바타 구현 서버(30)는 프로세서(31), 메모리(32), 통신 모듈(33) 및 분석 모듈(34)을 포함할 수 있으며, 서버(30)의 내부 또는 외부에 별도로 인공 신경망 모듈(40)을 포함될 수 있으나, 그 구체적인 구성에 대해 한정하지는 않는다.
메모리(32)는 대화형 가상 아바타 플랫폼을 구현하기 위한 컴퓨터 실행가능한 명령어들을 저장하는 명령어 DB(321), 사용자 발화에 대응하는 시스템 응답과 관련되는 모션을 분류하여 저장하고 있는 모션 분류 DB(323)를 포함할 수 있다. 또한, 메모리(32)는 이외에도 다양한 데이터, 예를 들어, 자연어 처리를 위해 필요한 데이터, 사용자 정보 데이터 등을 포함할 수도 있다.
프로세서(31)는 범용 프로세서, FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor)및/또는 등등 일 수 있다.
프로세서(31)에 의해 명령어 DB(321)의 명령어들이 실행되는 경우, 프로세서(31)는 통신 모듈(33), 분석 모듈(34)을 포함하는 복수의 모듈들을 구현할 수 있다. 다만, 이러한 모듈(33, 34)들 중 전부 또는 일부는 프로세서에 의한 명령어들의 실행에 따른 소프트웨어적 구현이 아니라, 별도의 하드웨어적 구성으로서 구현될 수도 있다. 일례로, 통신 모듈(33)의 경우 별도의 하드웨어 장치로서 서버(30)에 포함되어 있을 수 있다.
통신 모듈(33)은 사용자 디바이스(10)로부터 오디오 또는 텍스트 형태의 사용자 발화를 네트워크(20)를 통해 수신할 수 있으며, 또한, 대화형 가상 아바타 구현 서버(30)의 분석 모듈(34)에서 생성된 시스템 응답을 사용자 디바이스(10)로 네트워크(20)를 통해 전송할 수 있다.
변환 모듈(미도시)은 수신한 오디오 형태의 사용자 발화를 음성 인식 프로세서를 거쳐 텍스트 형태의 사용자 발화로 변환할 수 있다.
분석 모듈(34)은 사용자 발화를 분석하여 시스템 응답을 생성하는데, 이 때의 시스템 응답은 사용자 디바이스(10)의 사용자 인터페이스에서 구현되는 가상 아바타 플랫폼의 아바타(11)의 모션을 제어하는 모션 데이터 및 사용자 디바이스(10)를 통해 출력될 시스템 발화를 포함할 수 있다. 일 실시예에 따르면, 이러한 모션 데이터는 모션 분류 DB(323)에 저장된 복수의 모션들 중 시스템 응답에 대응하는 모션을 결정한 것일 수 있다. 또한, 다른 일 실시예에 따르면, 분석 모듈(34)은 사전 학습된 인공 신경망 모듈(40)을 통한 자연어 처리 기술 및/또는 모션 분류 DB를 활용하여 사용자 발화에 기초하여 적절한 시스템 응답을 생성할 수 있다. 이러한 인공 신경망 모듈(40)은 대화형 가상 아바타 구현 서버(30)의 내부 또는 외부에 위치할 수 있다.
대화형 가상 아바타 구현 서버의 동작
도 3은 본 발명의 일 실시예에 따른 대화형 가상 아바타 시스템의 동작 과정을 설명하는 모식도이며, 도 4는 본 발명의 일 실시예에 따른 대화형 가상 아바타 시스템의 동작을 설명하는 흐름도이다. 이하에서는, 도 3 및 도 4를 참조하여 본 발명의 일 실시예에 따른 대화형 가상 아바타 시스템의 동작에 대해 설명한다.
먼저, 단계 S310에서, 대화형 가상 아바타 서버(30)는 사용자의 오디오(음성) 또는 텍스트 형태의 사용자 발화를 사용자 디바이스(10)로부터 수신할 수 있다.
단계 S320에서, 대화형 가상 아바타 서버(30)의 변환 모듈은 수신한 사용자 발화를 전처리하여 대화형 가상 아바타 서버(30)의 분석 모듈(34)에서 처리 가능한 텍스트 형태의 사용자 발화로 변환할 수 있다. 일례로, 오디오 형태로 사용자 발화를 수신한 경우, 음성 인식을 통해 사용자 발화를 대화형 가상 아바타 서버(30)의 분석 모듈(34)에서 처리 가능한 텍스트 형태의 사용자 발화로 변환할 수 있다.
또한, 텍스트 형태의 사용자 발화를 사용자 디바이스(10)로부터 수신한 경우, 음성 인식 과정은 불필요하지만, 이 경우에도 수신한 텍스트 형태의 사용자 발화가 대화형 가상 아바타 서버(30)의 분석 모듈(34)에서 처리 가능한지 여부를 확인하는 과정을 거칠 수 있다.
단계 S330에서, 분석 모듈(34)은 텍스트 형태의 사용자 발화를 분석하여 텍스트 형태의 시스템 발화를 생성할 수 있다. 이러한 사용자 발화의 분석 및 시스템 발화의 생성은 사전학습된 인공신경망 모듈을 통한 자연어 처리(NLP) 기술을 통해 이루어질 수 있다.
보다 구체적으로 설명하면, 인공신경망 모듈은 대량의 대화 데이터를 통해 사전학습될 수 있다. 예를 들어, 대화 데이터를 말뭉치(corpus) 단위, 토큰 단위 또는 단어 단위 또는 이들의 조합으로 분할하여 인공신경망 모듈에 입력하고 그 출력으로 나온 예상 답변과 실제 대화에서의 답변을 비교하고, 두 답변 사이의 차이(즉, 손실 함수)가 줄어들도록 인공신경망 모듈을 사전학습시킬 수 있다. 그리고, 이러한 사전학습된 인공신경망 모듈에 텍스트 형태의 사용자 발화를 입력하면, 사전학습된 인공신경망 모듈은 그 응답으로서 텍스트 형태의 시스템 발화를 출력할 수 있다. 또 다른 예로써, 인공 신경망은 대량의 텍스트를 시나리오 별로 사전 학습하고 사전 학습된 인공 신경망에 사용자 발화를 입력하면, 시나리오에 따라 적절한 시스템 발화가 생성되도록 할 수도 있다. 이와 같이 시스템 발화가 생성되는 구체적인 구현 방식에 대해서는 한정하지 않는다. 이러한 인공신경망 모듈은 순환신경망(RNN), 트랜스포머(Transformers) 등 자연어 처리에 관계된 인공 신경망을 미세 조정(fine tuning)한 것일 수 있다.
단계 S340에서, 분석 모듈(34)은 텍스트 형태의 시스템 발화에 대응하는 적절한 모션을 모션 분류 과정을 통해 결정하고, 또한, 음성 합성을 통해 텍스트 형태의 시스템 발화를 오디오 형태의 시스템 발화로 변환할 수 있다. 이에 대해서는 도 5를 참조하여 자세히 후술한다.
단계 S350에서는, 통신 모듈(33)은 시스템 발화에 대응하는 것으로 결정된 모션과 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 네트워크(20)를 통해 사용자 디바이스(10)에 전송할 수 있다. 그리고, 사용자 디바이스(10)에서는 이러한 시스템 응답에 기초하여, 대화형 가상 아바타 플랫폼의 아바타(11)가 사용자 발화에 맞추어 적절한 모션 및 오디오 형태의 시스템 발화를 출력하게 된다. 이와 같이, 대화형 가상 아바타 플랫폼을 통해 아바타(11)는 사용자의 발화에 대해 모션과 음성이 조합된 응답을 출력하게 되므로, 사용자로 하여금 멀티 모달을 활용해 대화형 가상 아바타 플랫폼 상에서 대화가 가능하게 되어, 사용자 경험이 현저히 향상될 수 있다.
도 5는 본 발명의 일 실시예에 따른 대화형 가상 아바타 서버의 분석 모듈이 시스템 발화에 대응하는 모션을 결정하는 과정을 설명하는 흐름도이다.
먼저, 단계 S510에서, 분석 모듈(34)은 텍스트 형태의 시스템 발화의 상황 카테고리를 분류할 수 있다. 예를 들어, 시스템 발화의 상황이 [일상 대화]인지, [질의에 대한 답변](예: 상품이나 서비스에 대한 질의에 대한 답변)인지, [특수한 목적의 상담(예: 진로 상담, 법률 상담 등)]인지 등을 결정할 수 있다. 시스템 발화가 여러 개의 문장으로 이루어진 경우, 각 문장마다 상황 카테고리가 결정될 수 있다.
그 다음, 단계 S520에서, 분석 모듈(34)은 시스템 발화의 분류된 상황 카테고리에 따라서, 시스템 발화의 상황 카테고리별로 하나 이상의 하위 카테고리를 결정할 수 있다. 일 실시예에 따르면, 시스템 발화의 상황 카테고리가 [일상 대화]인 경우, 해당 시스템 발화에 대응하는 하위 카테고리는 "긍정", "부정" 및 "중립" 중 어느 하나가 될 수 있다. 구체적으로는, 사용자 발화가 「오늘 날씨가 맑네요」이고 시스템 발화는 「맞아요, 산책하고 싶은 날씨네요」라고 하면, 이러한 시스템 발화에 대응하는 하위 카테고리는 "긍정"이 된다. 또 다른 예로써, 시스템 발화의 상황 카테고리가 [질의에 대한 답변]인 경우, 해당 시스템 발화에 대응하는 하위 카테고리는 "확인", "미확인", "질의에 대한 재질의" 등일 수 있다. 구체적으로는, 사용자 발화가 「이 상품의 가격은 얼마에요?」이고 시스템 발화는 「이 상품은 할인가로 만원이에요」라고 하면, 이러한 시스템 발화에 대응하는 하위 카테고리는 "확인"이 된다. 다만, 상황 카테고리마다 관련된 하위 카테고리의 개수나, 추가적인 하위 카테고리의 존재 여부가 달라질 수 있으며, 이와 같은 상황 카테고리별 하위 카테고리는 대화형 가상 아바타 시스템의 설계 구현에 따라 다양하게 변형될 수 있으므로, 이에 대해 한정하지는 않는다.
단계 S530에서, 분석 모듈(34)은 시스템 발화의 상황 카테고리 및 하위 카테고리가 결정된 경우, 모션 분류 DB(323)에 저장되어 있는 복수의 모션들 중에서 시스템 발화에 대응하는 아바타(11)의 하나 이상의 모션을 결정할 수 있다. 아바타(11)의 모션은, 아바타의 표정, 아바타의 손/발의 모션, 아바타의 몸통의 모션 등을 포함할 수 있다. 모션 분류 DB(323)에는 시스템 발화의 카테고리와 아바타의 모션의 사전결정된 대응관계가 저장되어 있을 수 있다. 시스템 발화가 여러 개의 문장으로 이루어진 경우, 각 문장마다 상황 및 하위 카테고리가 결정되고 대응하는 모션이 결정될 수 있다. 또한, 하나의 문장에 대해서도, 경우에 따라서는 대응하는 모션이 둘 이상이 결정될 수 있다.
한편, 분석 모듈(34)은 모션 분류 DB(323)를 활용하여 시스템 발화에 대응하는 아바타의 모션을 결정하는 대신에, 사전 학습된 인공 신경망 모듈을 활용하여 아바타의 모션을 결정할 수도 있다. 일 예로써, 대량의 텍스트를 입력으로 하고 텍스트에 대응하는 아바타의 모션을 출력으로 하는 인공 신경망 모듈에 있어서, 출력된 아바타의 모션을 현실에서 사람이 행할 것으로 기대되는 기대 모션과 비교하고 이러한 비교에 따른 오차 값을 최소화하도록 인공 신경망 모듈을 사전 학습할 수 있다. 그리고, 이렇게 사전 학습된 인공 신경망 모듈에 텍스트 형태의 시스템 발화를 입력한 결과 출력되는 모션을 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션으로 결정할 수 있다.
또한, 다른 예로써, 인공 신경망 모듈의 사전학습시 시스템 발화의 카테고리를 입력 값으로 추가하여 사전학습을 진행할 수 있으며, 이 경우, 시스템 발화에 대해 결정된 카테고리를 시스템 발화와 함께 사전학습된 인공 신경망 모듈에 입력하면 시스템 발화에 대한 적절한 모션이 인공 신경망 모듈로부터 출력될 수도 있다.
또 다른 예에 따르면, 인공 신경망 모듈에 아바타의 현재 이미지(예를 들어, 아바타의 각 관절에 대응하는 점을 이은 이미지)가 입력되면, 결정된 시스템 발화의 카테고리에 따라 사전학습된 인공 신경망 모듈이 아바타의 다음 모션의 이미지를 출력하는 방식을 이용할 수도 있다.
즉, 시스템 발화에 대응하는 아바타의 모션을 결정하는 구체적인 방식은, 모션 분류 DB(323)를 이용한 룰-기반 방식으로 이루어지거나, 인공 신경망을 이용한 AI 기반으로 이루어질 수 있으며, 그 구체적인 구현 방식에 대해 한정하지는 않는다.
더 나아가, 분석 모듈(34)은 시스템 발화에 대응하는 아바타의 모션의 적절한 구현 타이밍을 결정할 수 있다. 또한, 분석 모듈(34)은 시스템 발화에 대응하는 아바타의 모션이 두 개 이상인 경우, 이와 같은 두 개 이상의 모션의 조합 방식, 즉, 두 개 이상의 모션이 어떻게 조합될 것인지에 대해 결정할 수 있다. 이러한 모션들의 조합 방식은 모션 분류 DB(323)에 저장되어 있어 이를 참조할 수도 있고, 인공 신경망 모듈에 의해 그 조합 방식이 결정될 수도 있으며, 그 구체적인 구현 방식에 대해서는 한정하지 않는다. 이러한 모션의 구현 타이밍 및 두 개 이상의 모션의 조합 방식은, 사용자 디바이스에 전송되는 시스템 응답의 모션 데이터에 포함될 수 있다.
구체적인 예를 들어 설명하면, 가벼운 일상 대화의 경우, 시스템 발화가 진행되는 동안 아바타(11)는 가벼운 손/발의 모션만 취하도록 결정될 뿐, 큰 움직임을 수반하는 모션은 시스템 발화가 수행되는 동안 발생하지 않을 수 있어, 연계 모션이 존재하지 않을 수 있다. 즉, 이 경우, 처음에 결정된 아바타의 모션(즉, 가벼운 손/발의 모션)이 시스템 발화(오디오)가 진행되는 동안 지속적으로 구현될 수 있다.
그러나, 다른 예를 들어, 사용자 발화가 「오늘 내 생일이야」인 경우, 그 응답인 시스템 발화로서 「생일을 진심으로 축하해요」와 함께 아바타가 수행하는 생일을 축하해주는 모션은, 시스템 발화(오디오)가 이루어지는 초기에는 박수를 치는 모션을 구현하고, 이와 연계하여 소정의 타이밍 이후에 선물을 가져다 주거나 폭죽을 터트리는 특수 효과와 관련된 모션이 구현될 수도 있다.
단계 S540에서는, 시스템 발화에 대해 대응하는 것으로 결정된 모션과, 텍스트 형태의 시스템 발화를 음성 합성하여 생성된 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 서버(30)의 통신 모듈(33)이 사용자 디바이스(10)로 전송할 수 있다. 텍스트 형태의 시스템 발화를 음성 합성하는 것은, 사용자가 선택한 아바타의 유형 및 시스템 발화에 대응하는 카테고리에 따라 적절한 억양 및 음색의 음성이 선택하는 것을 포함할 수 있다.
컴퓨터 판독 가능한 기록매체
본 발명의 실시예들에 따른 각 단계들이나 동작들은, 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램의 실행에 따라 하나 이상의 프로세서를 포함하는 컴퓨터에 의해 수행될 수 있음은 자명하다.
전술한 기록매체에 저장된 각 명령어(instruction)는, 해당하는 각 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 통해 구현 가능하되, 이러한 컴퓨터 프로그램은 컴퓨터 판독 가능한 기록매체에 저장될 수 있고, 프로세서에 의해 실행 가능하다. 컴퓨터 판독 가능한 기록매체는 비일시적 판독 가능 매체(non-transitory readable medium)일 수 있다. 이 때, 비일시적 판독 가능 매체란 레지스터, 캐시, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 방법을 수행하기 위한 프로그램들은 소거가능 프로그래머블 판독 전용 메모리(EPROM), 전기적 소거가능 프로그래머블 판독 전용 메모리(EEPROM), 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스, 내부 하드 디스크 및 이동식 디스크와 같은 자기 디스크, 광학-자기 디스크, 및 CD-ROM 및 DVD-ROM 디스크를 포함하는 비휘발성 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 문서에 개시된 다양한 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.

Claims (13)

  1. 대화형 가상 아바타를 구현하기 위한 방법으로서,
    사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 단계와,
    수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 단계와,
    상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하는 단계와,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계와,
    상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 단계와,
    상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는 단계
    를 포함하는 대화형 가상 아바타 구현 방법.
  2. 제 1 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계는,
    모션 분류 데이터베이스(DB)에 저장되어 있는 복수의 모션들 중에서 상기 텍스트 형태의 시스템 발화에 대응하는 상기 아바타의 하나 이상의 모션을 결정하는 단계를 포함하는
    대화형 가상 아바타 구현 방법.
  3. 제 1 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계는,
    상기 텍스트 형태의 시스템 발화의 상황 카테고리를 분류하는 단계와,
    상기 텍스트 형태의 시스템 발화의 분류된 상황 카테고리에 따른 하나 이상의 하위 카테고리를 결정하는 단계와,
    결정된 상기 상황 카테고리 및 상기 하나 이상의 하위 카테고리에 기초하여, 모션 분류 데이터베이스(DB)에 저장되어 있는 복수의 모션들 중에서 상기 텍스트 형태의 시스템 발화에 대응하는 상기 아바타의 하나 이상의 모션을 결정하는 단계를 포함하는
    대화형 가상 아바타 구현 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 모션 분류 데이터베이스(DB)는 상기 텍스트 형태의 시스템 발화에 대해 결정된 카테고리와 상기 아바타의 모션의 사전결정된 대응관계를 저장하고 있는
    대화형 가상 아바타 구현 방법.
  5. 제 1 항에 있어서,
    상기 방법은,
    텍스트를 입력으로 하고 입력된 텍스트에 대응하는 아바타의 모션을 출력으로 하되, 상기 출력된 아바타의 모션을 현실에서 사람이 행할 것으로 기대되는 기대 모션과 비교하여 상기 비교에 따른 오차 값을 최소화하도록 인공 신경망 모듈을 사전 학습하는 단계를 더 포함하고,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계는,
    상기 사전 학습된 인공 신경망 모듈에 상기 텍스트 형태의 시스템 발화를 입력하여 상기 사전 학습된 인공 신경망 모듈에서 출력되는 모션을 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시된 아바타의 모션으로 결정하는 단계를 포함하는
    대화형 가상 아바타 구현 방법.
  6. 제 1 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계는,
    상기 시스템 발화에 대응하는 것으로 결정된 상기 아바타의 모션의 구현 타이밍을 결정하는 단계를 포함하는
    대화형 가상 아바타 구현 방법.
  7. 제 1 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 단계는,
    상기 시스템 발화에 대응하는 것으로 결정된 상기 아바타의 모션이 두 개 이상이라는 것을 결정하고, 상기 두 개 이상의 모션의 조합 방식을 결정하는 단계를 포함하는
    대화형 가상 아바타 구현 방법.
  8. 대화형 가상 아바타 플랫폼을 구현하기 위한 서버 장치로서,
    명령어를 저장하고 있는 메모리 및 프로세서를 포함하고,
    사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 통신 모듈과,
    수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 변환 모듈과,
    상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하고, 상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하고, 상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 분석 모듈
    을 포함하며,
    상기 통신 모듈은, 상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는
    서버 장치.
  9. 제 8 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것은,
    모션 분류 데이터베이스(DB)에 저장되어 있는 복수의 모션들 중에서 상기 텍스트 형태의 시스템 발화에 대응하는 상기 아바타의 하나 이상의 모션을 결정하는 것을 포함하는
    서버 장치.
  10. 제 8 항에 있어서,
    상기 서버 장치는,
    텍스트를 입력으로 하고 입력된 텍스트에 대응하는 아바타의 모션을 출력으로 하되, 상기 출력된 아바타의 모션을 현실에서 사람이 행할 것으로 기대되는 기대 모션과 비교하여 상기 비교에 따른 오차 값을 최소화하도록 사전 학습된 인공 신경망 모듈을 더 포함하고,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것은,
    상기 사전 학습된 인공 신경망 모듈에 상기 텍스트 형태의 시스템 발화를 입력하여 상기 사전 학습된 인공 신경망 모듈에서 출력되는 모션을 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시된 아바타의 모션으로 결정하는 것을 포함하는
    서버 장치.
  11. 명령어를 저장하는 컴퓨터 판독가능한 기록매체로서,
    상기 명령어는 프로세서에 의해서 실행될 때, 상기 프로세서로 하여금
    사용자의 사용자 발화를 사용자 디바이스로부터 수신하는 것과,
    수신한 상기 사용자 발화를 텍스트 형태의 사용자 발화로 변환하는 것과,
    상기 텍스트 형태의 사용자 발화를 분석하여 상기 사용자 발화에 대한 응답으로서의 텍스트 형태의 시스템 발화를 생성하는 것과,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것과,
    상기 텍스트 형태의 시스템 발화에 음성 합성을 수행하여 오디오 형태의 시스템 발화를 생성하는 것과,
    상기 모션 데이터 및 상기 오디오 형태의 시스템 발화를 포함하는 시스템 응답을 상기 사용자 디바이스로 전송하는 것을 포함하는 동작들을 수행하게 하는
    컴퓨터 판독가능한 기록매체.
  12. 제 11 항에 있어서,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것은,
    모션 분류 데이터베이스(DB)에 저장되어 있는 복수의 모션들 중에서 상기 텍스트 형태의 시스템 발화에 대응하는 상기 아바타의 하나 이상의 모션을 결정하는 것을 포함하는
    컴퓨터 판독가능한 기록매체.
  13. 제 11 항에 있어서,
    상기 동작들은,
    텍스트를 입력으로 하고 입력된 텍스트에 대응하는 아바타의 모션을 출력으로 하되, 상기 출력된 아바타의 모션을 현실에서 사람이 행할 것으로 기대되는 기대 모션과 비교하여 상기 비교에 따른 오차 값을 최소화하도록 인공 신경망 모듈을 사전 학습하는 것을 더 포함하고,
    상기 텍스트 형태의 시스템 발화를 분석하여 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시될 아바타의 모션에 대한 모션 데이터를 결정하는 것은,
    상기 사전 학습된 인공 신경망 모듈에 상기 텍스트 형태의 시스템 발화를 입력하여 상기 사전 학습된 인공 신경망 모듈에서 출력되는 모션을 상기 사용자의 사용자 디바이스의 사용자 인터페이스에 표시된 아바타의 모션으로 결정하는 것을 포함하는
    컴퓨터 판독가능한 기록매체.
KR1020220064732A 2022-05-26 2022-05-26 대화형 가상 아바타의 구현 방법 KR20230164954A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220064732A KR20230164954A (ko) 2022-05-26 2022-05-26 대화형 가상 아바타의 구현 방법
PCT/KR2022/017339 WO2023229117A1 (ko) 2022-05-26 2022-11-07 대화형 가상 아바타의 구현 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220064732A KR20230164954A (ko) 2022-05-26 2022-05-26 대화형 가상 아바타의 구현 방법

Publications (1)

Publication Number Publication Date
KR20230164954A true KR20230164954A (ko) 2023-12-05

Family

ID=88919381

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220064732A KR20230164954A (ko) 2022-05-26 2022-05-26 대화형 가상 아바타의 구현 방법

Country Status (2)

Country Link
KR (1) KR20230164954A (ko)
WO (1) WO2023229117A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063471A (ko) * 2003-12-22 2005-06-28 정태철 네트워크를 이용한 대화형 아바타
KR20200033140A (ko) * 2018-09-19 2020-03-27 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
AU2020287622A1 (en) * 2019-06-06 2021-11-18 Artie, Inc. Multi-modal model for dynamically responsive virtual characters
KR20210117066A (ko) * 2020-03-18 2021-09-28 라인플러스 주식회사 음향 기반 아바타 모션 제어 방법 및 장치
KR102368300B1 (ko) * 2020-09-08 2022-03-02 박일호 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템

Also Published As

Publication number Publication date
WO2023229117A1 (ko) 2023-11-30

Similar Documents

Publication Publication Date Title
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN111226224B (zh) 用于翻译语音信号的方法及电子设备
US10089974B2 (en) Speech recognition and text-to-speech learning system
US20220188361A1 (en) Voice-based Auto-Completions and Auto-Responses for Assistant Systems
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
US20190221208A1 (en) Method, user interface, and device for audio-based emoji input
US11194973B1 (en) Dialog response generation
US11574637B1 (en) Spoken language understanding models
KR102644992B1 (ko) 교육 컨텐츠 주제 기반의 대화형 인공지능 아바타 영어 말하기 교육 방법, 장치 및 이에 대한 시스템
KR20200027331A (ko) 음성 합성 장치
CN113761841B (zh) 将文本数据转换为声学特征的方法
CN112863489B (zh) 语音识别方法、装置、设备及介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
US20220253609A1 (en) Social Agent Personalized and Driven by User Intent
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
KR20230164954A (ko) 대화형 가상 아바타의 구현 방법
US20220122596A1 (en) Method and system of automatic context-bound domain-specific speech recognition
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Tripathi et al. CycleGAN-Based Speech Mode Transformation Model for Robust Multilingual ASR
Reddy et al. Indian sign language generation from live audio or text for tamil
KR20220039594A (ko) 발화자의 감정 및 운율을 반영한 자동 통역 장치 및 방법
Janokar et al. Text-to-Speech and Speech-to-Text Converter—Voice Assistant
Tong Speech to text with emoji
Paaß et al. Understanding Spoken Language