KR20210001857A - 정보 생성 방법 및 장치 - Google Patents

정보 생성 방법 및 장치 Download PDF

Info

Publication number
KR20210001857A
KR20210001857A KR1020190166709A KR20190166709A KR20210001857A KR 20210001857 A KR20210001857 A KR 20210001857A KR 1020190166709 A KR1020190166709 A KR 1020190166709A KR 20190166709 A KR20190166709 A KR 20190166709A KR 20210001857 A KR20210001857 A KR 20210001857A
Authority
KR
South Korea
Prior art keywords
information
target
person image
feedback information
image
Prior art date
Application number
KR1020190166709A
Other languages
English (en)
Inventor
징보 황
메이화 판
잔빈 허
리하오 왕
전셩 카이
시캉 콩
야페이 자오
잔샹 왕
차오 첸
보 첸
콴강 리
위 리우
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210001857A publication Critical patent/KR20210001857A/ko
Priority to KR1020210176319A priority Critical patent/KR102471202B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명의 실시예는 정보 생성 방법 및 장치를 제공하며 클라우드 컴퓨팅 분야에 관한 것이다. 상기 정보 생성 방법의 일 구체적인 실시형태는, 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 단계; 상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정하는 단계; 상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하는 단계; 상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 단계; 및 상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함한다. 상기 실시형태는 클라이언트에 사용자 의도 타입을 만족하는 3차원 가상 인물 이미지의 영상을 피드백하여 사용자와 3차원 가상 인물 이미지의 현장 인터랙션 정확성을 향상시킨다.

Description

정보 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING INFORMATION}
본 발명의 실시예는 컴퓨터 기술분야에 관한 것이고, 구체적으로 정보 생성 방법 및 장치에 관한 것이다.
인공지능(Artificial Intelligence, AI) 기술이 빠르게 발전함에 따라, 스마트 서비스는 금융분야의 스마트 고객 서비스, 스마트 재테크 컨설턴트 등 다양한 분야에 응용되고 있다. 가상 인물 이미지 기술은 3차원 가상 인물 이미지를 렌더링하여 스마트 서비스를 위해 더 간편한 사용 체험을 제공함으로써 사용자와 3차원 가상 인물 이미지의 인터랙션 시 3차원 가상 인물 이미지의 의인화 정도를 향상시킨다. 기존의 가상 인물 이미지 기술은 아주 높은 의인화 효과를 구비하지만, 대부분 스크립트화된 응용 상황에 멈추어져 있으며 예를 들면 3차원 게임, 영화 CG(Computer Graphics, 컴퓨터 그래픽) 등은 지시된 내용에 따라 이미 설계된 동작에 대해 응답하는 정도만 가능하고 연구 인력과 시간 원가가 비교적 높다.
본 발명은 정보 생성 방법 및 장치를 제공한다.
제1 양태에 있어서, 정보 생성 방법에 있어서, 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 단계; 상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정하는 단계; 상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하는 단계; 상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 단계; 및 상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함하는 방법을 제공한다.
일부 실시예에 있어서, 상기 피드백 정보는 텍스트 피드백 정보이고; 상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 단계는, 상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 단계; 상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 단계 - 상기 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함함 - ; 상기 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함하고, 상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 단계는, 상기 텍스트 피드백 정보에 따라 상기 표정 정보 집합으로부터 타겟 표정 정보를 확정하는 단계; 상기 텍스트 피드백 정보에 따라 상기 입모양 정보 집합으로부터 타겟 입모양 정보를 확정하는 단계; 상기 텍스트 피드백 정보에 따라 상기 동작 정보 집합으로부터 타겟 동작 정보를 확정하는 단계; 및 상기 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 하는 단계를 포함한다.
일부 실시예에 있어서, 상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 단계는, 상기 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성하는 단계를 포함하고, 상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타내며, 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻는다
일부 실시예에 있어서, 상기 정보 생성 방법은, 3차원 가상 인물 이미지의 맞춤 요청을 수신하는 단계 - 상기 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함함 - ; 및 상기 맞춤 요청에 따라, 3차원 가상 인물 이미지의 외관을 결정하는 단계를 더 포함한다.
제2 양태에 있어서, 정보 생성 장치에 있어서, 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 수신 유닛; 상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정하는 분석 유닛; 상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하는 제1 생성 유닛; 상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 제2 생성 유닛; 및 상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 송신 유닛을 포함하는 장치를 제공한다.
일부 실시예에 있어서, 상기 피드백 정보는 텍스트 피드백 정보이고; 상기 제2 생성 유닛은, 상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 소리 생성 유닛; 상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 획득 유닛 - 상기 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함함 - ; 상기 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성하는 영상 생성 유닛을 포함한다.
일부 실시예에 있어서, 상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함하고, 상기 획득 유닛은 또한, 상기 텍스트 피드백 정보에 따라 상기 표정 정보 집합으로부터 타겟 표정 정보를 확정하고; 상기 텍스트 피드백 정보에 따라 상기 입모양 정보 집합으로부터 타겟 입모양 정보를 확정하며; 상기 텍스트 피드백 정보에 따라 상기 동작 정보 집합으로부터 타겟 동작 정보를 확정하고; 상기 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 한다.
일부 실시예에 있어서, 상기 소리 생성 유닛은 또한, 상기 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성하고, 상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타내며, 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻는다.
일부 실시예에 있어서, 상기 정보 생성 장치는, 3차원 가상 인물 이미지의 맞춤 요청을 수신하는 요청 수신 유닛 - 상기 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함함 - ; 및 상기 맞춤 요청에 따라, 3차원 가상 인물 이미지의 외관을 결정하는 결정 유닛을 더 포함한다.
제3 양태에 있어서, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 서버에 있어서, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하도록 하는 서버를 제공한다.
제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서, 상기 프로그램은 프로세서에 의해 실행될 경우, 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체를 제공한다.
본 발명의 실시예가 제공하는 정보 생성 방법 및 장치는 우선 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신한다. 다음, 영상 및 음성에 대해 분석 처리를 진행하여 사용자의 의도 타입을 확정한다. 그 다음, 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성한다. 그 다음, 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성한다. 마지막으로, 생성된 3차원 가상 인물 이미지의 영상을 클라이언트에 송신하여 클라이언트가 상기 사용자에게 보여주도록 한다. 이로써 클라이언트에 사용자 의도 타입을 만족하는 3차원 가상 인물 이미지의 영상을 피드백하여 사용자와 3차원 가상 인물 이미지의 현장 인터랙션 정확성 및 3차원 가상 인물 이미지의 의인화 정도를 향상시키고, 사용자 체험을 향상시킨다.
아래 첨부 도면에 도시된 비제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 이점은 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 구현될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 정보 생성 방법의 일 응용 상황의 모식도이다.
도 4는 본 발명에 따른 정보 생성 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 발명에 따른 정보 생성 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예에 따른 서버를 구현할 수 있는 컴퓨터 시스템의 구조 모식도이다.
이하 첨부 도면 및 실시예를 결부시켜 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
모순되지 않는 한 본 발명의 실시예 및 실시예 중의 특징은 서로 결합될 수 있음을 유의해야 한다. 이하 첨부 도면을 참조하고 실시예를 결부시켜 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 정보 생성 방법 또는 정보 생성 장치를 구현할 수 있는 예시적 시스템 아키텍처(100)이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션 함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 다양한 통신 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들면 채팅 로봇 애플리케이션, 웹페이지 브라우징 애플리케이션, 쇼핑 애플리케이션, 검색 애플리케이션, 인스턴트 통신 도구, 메일 애플리케이션 등이다.
단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 디스플레이 스크린, 영상 수집 기기(예를 들면 카메라), 음성 수집 장치(예를 들면 마이크) 등을 구비하는 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿PC, 휴대형 랩톱 및 데스크톱 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101, 102, 103)가 소프트웨어인 경우 상기 열거된 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버일 수 있고, 예를 들면 단말 기기(101, 102, 103)에 표시된 3차원 가상 인물 이미지를 지원하는 백엔드 서버일 수 있다. 백엔드 서버는 수신된 영상 및 음성 등 데이터에 대해 분석 등 처리를 진행하고 처리 결과(예를 들면 3차원 가상 인물 이미지의 영상)를 단말 기기(101, 102, 103)에 피드백할 수 있다.
설명해야 할 것은, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실시 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 정보 생성 방법은 일반적으로 서버(105)에 의해 수행되고, 상응하게, 정보 생성 장치는 일반적으로 서버(105)에 설치된다.
계속하여 도 2를 참조하면, 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도(200)이다. 상기 정보 생성 방법은 하기 단계를 포함한다.
단계 (201)에서 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신한다.
본 실시예에서, 정보 생성 방법의 수행 주체(예를 들면 도 1에 도시된 서버(105))는 유선 방식 또는 무선 방식으로 클라이언트로부터 사용자의 영상 및 음성을 수신할 수 있다. 여기서 사용자가 클라이언트를 통해 텍스트 정보를 입력할 경우, 클라이언트는 텍스트 정보를 수행 주체에 송신할 수도 있다. 이 밖에, 클라이언트는 자체의 위치 정보를 수행 주체에 송신할 수도 있다.
일반적으로, 사용자는 단말기(예를 들면 도 1에 도시된 단말 기기(101, 102, 103))에 설치된 클라이언트를 이용하여 정보 인터랙션을 진행한다. 여기서 사용자가 사용하는 단말기에는 영상 수집 기기(예를 들면 카메라), 음성 수집 장치(예를 들면 마이크)가 설치되어 있을 수 있다. 클라이언트는 사용자의 영상, 음성 등 정보를 실시간으로 수집하고 클라이언트가 수집된 영상 음성 등 정보를 수행 주체에 실시간으로 전송할 수 있다. 여기서 수행 주체는 클라이언트를 지원하는 백엔드 서버일 수 있다. 이로써 백엔드 서버는 사용자의 영상 및 음성 등 정보를 실시간으로 처리할 수 있다.
단계(202)에서 영상 및 음성에 대해 분석 처리를 진행하여 사용자의 의도 타입을 확정한다.
본 실시예에서, 수행 주체는 단계(201)에서 얻은 영상 및 음성에 대해 다양한 분석 처리를 진행하여 사용자의 의도 타입을 확정할 수 있다. 예시적으로, 수행 주체는 영상 중의 영상 프레임에 대해 예를 들면 안면 인식, 표정 인식, 제스처 인식, 자세 인식 등 다양한 처리를 수행하여 사용자의 신분, 표정, 제스처, 자세 등 사용자 특징 정보를 얻을 수 있다. 수행 주체는 상기 음성에 대해 소리 인식을 진행하여 음성에 대응되는 텍스트 정보를 얻을 수 있다. 다음 수행 주체는 사용자 특징 정보 및 음성에 대응되는 텍스트 정보에 대해 의미 분석 등 처리를 진행하여 사용자의 의도 타입을 확정할 수 있다. 여기서 의도 타입은 사용자가 클라이언트를 통해 영상 및 음성을 송신한 의도의 타입을 가리킬 수 있다.
실제 응용에서, 클라이언트가 응용되는 서비스 상황에 따라 의도 타입을 미리 설정해 놓을 수 있다. 클라이언트가 응용되는 서비스 상황이 금융(예컨대 은행) 상황인 경우를 예로 들면, 기설정된 의도 타입은 개인 정보 업데이트, 서비스 컨설팅, 서비스 취급 등을 포함할 수 있다. 이로써 수행 주체는 사용자 특징 정보 및 음성에 대응되는 텍스트 정보에 대해 다양한 의미 분석 수단(예컨대 단어 분할, 단어 성질 표기, 명명 엔티티 인식 등)을 사용하여 사용자의 의도 타입을 확정할 수 있다. 예시적으로, 수행 주체는 사용자 특징 정보 및 음성에 대응되는 텍스트 정보에 대해 단어 분할을 진행하여 적어도 하나의 분할된 단어를 얻을 수 있다. 다음 적어도 하나의 분할된 단어에 대해, 기설정된 의도 타입 모형을 입력하여 사용자의 의도 타입을 얻는다. 여기서 의도 타입 모형은, 분할된 단어 집합과 의도 타입의 대응 관계를 나타낸다. 상기 의도 타입 모형은 머신러닝 방법에 의해 얻은 것일 수 있다.
단계(203)에서 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성한다.
본 실시형태에서, 수행 주체는 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성할 수 있다. 여기서 서비스 정보 집합은, 클라이언트가 응용되는 서비스 상황에 관련된 다양한 서비스 정보를 저장한다. 예시적으로, 클라이언트가 응용되는 서비스 상황이 은행이고, 사용자의 의도 타입이 서비스 컨설팅이라고 가정하면, 수행 주체는 서비스 정보 집합으로부터 사용자가 컨설팅하고자 하는 서비스에 관련된 정보를 획득하고, 획득된 관련 정보에 따라 피드백 정보를 생성할 수 있다. 예를 들면 획득된 관련 정보를 직접 피드백 정보로 사용할 수 있다. 또한 다른 예로, 기설정된 대화 템플릿에 따라 획득된 관련 정보를 사용하여 피드백 정보를 생성한다.
단계(204)에서 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성한다.
본 실시예에서, 수행 주체는 단계(203)에서 생성된 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성할 수 있다. 구체적으로, 수행 주체는 우선 TTS(Text To Speech, 텍스트로부터 음성)를 통해 피드백 정보를 답변 음성으로 변환시킬 수 있다. 실제 필요에 따라 답변 음성은 중국어, 영어, 일본어, 한국어, 태국어 등 다양한 언어의 답변 음성일 수 있다. 일반적으로 답변 음성과 사용자의 음성은 같은 언어이다. 예시적으로, 피드백 정보를 답변 음성으로 변환시키는 과정에서, 수행 주체는 사용자 특징 정보에 따라 변환되는 답변 음성의 일부 특성을 설정할 수 있는데, 예를 들면 음조, 말하는 속도, 음색 등이다. 여기서 수행 주체 내에는 사용자 특징 정보와 답변 음성의 특성 사이의 대응 관계가 미리 저장되어 있을 수 있고, 예를 들면 나이가 어린 사용자에 대해서는 답변 음성의 말하는 속도를 약간 느리게 설정할 수 있다. 다음, 수행 주체는 답변 음성에 따라, 3차원 가상 인물 이미지의 영상을 생성할 수 있다. 여기서 3차원 가상 인물 이미지는 애니메이션 엔진을 통해 개발된 것일 수 있고, 애니메이션 엔진은 UE4(Unreal Engine 4, 언리얼 엔진 4), Maya, Unity3D 등을 포함하나 이에 한정되는 것은 아니다.
단계(205)에서 3차원 가상 인물 이미지의 영상을 클라이언트에 송신하여, 클라이언트가 사용자에게 보여주도록 한다.
본 실시예에서, 수행 주체는 단계(204)에서 생성된 3차원 가상 인물 이미지의 영상을 클라이언트에 송신하여, 클라이언트가 사용자에게 보여주도록 할 수 있다. 이로써 사용자와 3차원 가상 인물 이미지 사이의 인터랙션을 실현한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 정보 생성 방법은 도 2에 도시되지 않은 아래 단계를 더 포함할 수 있다.
우선 3차원 가상 인물 이미지의 맞춤 요청을 수신한다.
본 실시형태에서, 수행 주체는 3차원 가상 인물 이미지의 맞춤 요청을 수신할 수 있다. 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함할 수 있다, 일례로, 맞춤 요청에 포함된 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보는, 사람에 기초하여 획득한 정보일 수 있다. 예를 들면, 실제 사람이 착용한 특수한 장치(예를 들면, 헬멧)를 통해 특수한 장치 상의 이미지 수집 장치(예를 들면 카메라), 센서 등을 이용하여 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 수집할 수 있다. 수행 주체는 실제 사람이 수집한 정보를 통해 실제 사람 효과의 3차원 가상 인물 이미지를 생성할 수 있다. 다른 일례로, 맞춤 요청에 포함된 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보는, 카툰 형상 디자인 데이터일 수 있다. 수행 주체는 카툰 형상 디자인 데이터를 통해 카툰 효과의 3차원 가상 인물 이미지를 생성할 수 있다.
다음, 맞춤 요청에 따라 3차원 가상 인물 이미지의 외관을 결정한다.
본 실시형태에서, 수행 주체는 맞춤 요청 중의 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보에 따라 3차원 가상 인물 이미지의 외관을 결정할 수 있다. 예시적으로, 3차원 가상 인물 이미지는 전신 이미지 또는 반신 이미지일 수 있고 여기서는 한정하지 않는다. 본 실시형태를 통해 수행 주체는 맞춤 요청에 따라 3차원 가상 인물 이미지의 외관을 결정함으로써 3차원 가상 인물 이미지의 형상 맞춤을 실현한다.
계속하여 도 3을 참조하면, 도 3은 본 발명에 따른 정보 생성 방법의 일 응용 상황의 모식도이다. 도 3의 응용 상황에서 사용자는 우선 클라이언트(302)를 통해 서버(302)에 "재테크 상품을 알아보고 싶습니다"라는 사용자의 영상 및 음성을 송신한다. 다음, 서버(302)는 수신된 영상 및 음성에 대해 분석 처리를 진행하여 사용자의 의도 타입이 재테크 상품에 대한 서비스 컨설팅임을 확정한다. 그 다음, 서버(302)는 사용자의 의도 타입 및 서비스 정보 집합에 따라 피드백 정보를 생성하고, 상기 피드백 정보에는 다양한 재테크 상품이 포함되어 있다. 그 다음, 서버(302)는 피드백 정보에 기초하여 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성한다. 마지막으로, 서버(302)는 생성된 3차원 가상 인물 이미지의 영상을 클라이언트(301) 송신하여 클라이언트(301)가 사용자에게 보여주도록 한다.
본 발명의 상기 실시예가 제공하는 방법은 사용자의 영상 및 음성에 대해 종합적인 분석 처리를 진행하여 사용자의 의도 타입을 확정하고, 의도 타입 및 서비스 정보 집합에 기초하여 피드백 정보를 생성하며, 피드백 정보에 기초하여 3차원 가상 인물 이미지의 영상을 생성함으로써, 클라이언트에 사용자 의도 타입을 만족하는 3차원 가상 인물 이미지의 영상을 피드백하여 사용자와 3차원 가상 인물 이미지의 현장 인터랙션 정확성 및 3차원 가상 인물 이미지의 의인화 정도를 향상시키고, 사용자 체험을 향상시킨다.
나아가 도 4를 참조하면, 정보 생성 방법의 다른 일 실시예의 흐름도(400)이다. 상기 정보 생성 방법의 흐름(400)은 하기 단계를 포함한다.
단계(401)에서 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신한다.
본 실시예에서, 단계(401)은 도 2에 도시된 실시예의 단계(201)과 유사하기에 여기서는 더이상 설명하지 않는다.
단계(402)에서 영상 및 음성에 대해 분석 처리를 진행하여 사용자의 의도 타입을 확정한다.
본 실시예에서, 단계(402)는 도 2에 도시된 실시예의 단계(202)와 유사하기에 여기서는 더이상 설명하지 않는다.
단계(403)에서 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성한다.
본 실시예에서, 수행 주체는 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성할 수 있다. 여기서 서비스 정보 집합은 클라이언트가 응용되는 서비스 상황에 관련된 다양한 서비스 정보를 저장한다. 여기서 상기 피드백 정보는 텍스트 피드백 정보일 수 있다.
단계(404)에서 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성한다.
본 실시예에서, 수행 주체는 단계(403)에서 생성된 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성할 수 있다. 구체적으로, 수행 주체는 TTS(Text To Speech, 텍스트로부터 음성)를 통해 텍스트 피드백 정보를 소리 피드백 정보로 생성할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 단계(404)는 구체적으로 아래와 같이 수행될 수 있다. 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성한다.
본 실시예에서, 수행 주체는 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 얻을 수 있다. 여기서 상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타낼 수 있다. 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻은 것일 수 있다. 예시적으로, 상기 소리 생성 모형은 머신러닝 모형일 수 있다. 상기 머신러닝 모형은 아래 방식으로 트레이닝된 것일 수 있다. 우선 트레이닝 샘플 집합을 획득하고, 트레이닝 샘플 집합 중의 트레이닝 샘플은 샘플 텍스트 및 샘플 텍스트에 대응되는 실제 사람 소리를 포함한다. 다음, 트레이닝 샘플 집합 중의 트레이닝 샘플의 샘플 텍스트를 입력하면, 입력된 샘플 텍스트에 대응되는 실제 사람 소리를 출력되는 방식으로 트레이닝하여 머신러닝 모형을 얻는다.
단계(405)에서 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득한다.
본 실시예에서, 수행 주체는 단계(403)에서 생성된 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득할 수 있다. 여기서 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함할 수 있다. 여기서, 타겟 표정 정보는 단계(404)에서 얻은 소리 피드백 정보를 재생 시 3차원 가상 인물 이미지의 표정을 제어할 수 있다. 타겟 입모양 정보는 단계(404)에서 얻은 소리 피드백 정보를 재생 시 3차원 가상 인물 이미지의 입모양을 제어할 수 있다. 타겟 동작 정보는 단계(404)에서 얻은 소리 피드백 정보를 재생 시 3차원 가상 인물 이미지의 자세, 제스처 등을 제어할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함할 수 있다. 여기서, 표정 정보 집합은 기설정된 다양한 표정의 표정 정보를 포함할 수 있다. 입모양 정보 집합은 기설정된 다양한 입모양 변화의 입모양 정보를 포함할 수 있다. 동작 정보 집합은 기설정된 다양한 자세, 제스처 변화의 동작 정보를 포함할 수 있다. 상기 단계(405)는 구체적으로 하기와 같이 수행될 수 있다.
우선, 텍스트 피드백 정보에 따라 표정 정보 집합으로부터 타겟 표정 정보를 확정한다.
본 실시형태에서, 수행 주체 내에는 복수의 텍스트와 표정 정보의 대응 관계가 미리 저장되어 있을 수 있다. 이러한 대응 관계는 인위적으로 설정한 것일 수 있다. 이로써 수행 주체는 텍스트 피드백 정보와 복수의 대응관계 중의 복수의 텍스트를 매칭시키고, 복수의 텍스트 중의 하나의 텍스트와 텍스트 피드백 정보가 같거나 유사하면 상기 텍스트에 대응되는 표정 정보를 타겟 표정 정보로 할 수 있다.
다음, 텍스트 피드백 정보에 따라 입모양 정보 집합으로부터 타겟 입모양 정보를 확정한다.
본 실시형태에서, 수행 주체 내에는 복수의 텍스트와 입모양 정보의 대응 관계가 미리 저장되어 있을 수 있다. 이러한 대응 관계는 인위적으로 설정한 것일 수 있다. 이로써 수행 주체는 텍스트 피드백 정보에 따라 입모양 정보 집합으로부터 타겟 입모양 정보를 확정할 수 있다.
그 다음, 텍스트 피드백 정보에 따라 동작 정보 집합으로부터 타겟 동작 정보를 확정한다.
본 실시형태에서, 수행 주체 내에는 복수의 텍스트와 동작 정보의 대응 관계가 미리 저장되어 있을 수 있다. 이러한 대응 관계는 인위적으로 설정한 것일 수 있다. 이로써 수행 주체는 텍스트 피드백 정보에 따라 동작 정보 집합으로부터 타겟 동작 정보를 확정할 수 있다.
마지막으로, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 한다.
본 실시형태에서, 수행 주체는 결정된 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 할 수 있다.
단계(406)에서 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성한다.
본 실시예에서, 수행 주체는 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 애니메이션 엔진에 송신할 수 있다. 애니메이션 엔진은 수신된 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라 3차원 가상 인물 이미지의 영상을 렌더링하고, 렌더링된 영상을 수행 주체에 피드백할 수 있다. 여기서, 애니메이션 엔진이 렌더링한 3차원 가상 인물 이미지의 영상은 소리 피드백 정보를 포함하는 영상이다.
단계(407)에서 3차원 가상 인물 이미지의 영상을 클라이언트에 송신하여, 클라이언트가 사용자에게 보여주도록 한다.
본 실시예에서, 단계(407)은 도 2에 도시된 실시예의 단계(205)와 유사하기에 여기서는 더이상 설명하지 않는다.
도 4에서 볼 수 있다시피, 도 2에 대응되는 실시예와 비교하여 본 실시예에 따른 정보 생성 방법의 흐름(400)은 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 단계를 강조한다. 이로써 본 실시예에 기술된 해결수단은 텍스트 피드백 정보에 따라 3차원 가상 인물 이미지를 생성하기 위한 타겟 인물 이미지 정보를 빠르게 획득할 수 있기에, 3차원 가상 인물 이미지의 영상의 생성 효율을 높이며 나아가 클라이언트와 서버의 인터랙션 실시간 특성을 향상시킨다.
나아가 도 5를 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 발명은 정보 생성 장치의 일 실시예를 제공하며, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예에 따른 정보 생성 장치(500)는 수신 유닛(501), 분석 유닛(502), 제1 생성 유닛(503), 제2 생성 유닛(504) 및 송신 유닛(505)을 포함한다. 수신 유닛(501)은 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신한다. 분석 유닛(502)은 상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정한다. 제1 생성 유닛(503)은 상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성한다. 제2 생성 유닛(504)은 상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성한다. 송신 유닛(505)은 상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여 상기 클라이언트가 상기 사용자에게 보여주도록 한다.
본 실시예에서, 정보 생성 장치(500)의 수신 유닛(501), 분석 유닛(502), 제1 생성 유닛(503), 제2 생성 유닛(504) 및 송신 유닛(505)의 구체적인 처리 및 그 기술적 효과는 도 2의 대응되는 실시예의 단계(201), 단계(202), 단계(203), 단계(204) 및 단계(205)의 관련 설명을 참조할 수 있기에 여기서는 더이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 피드백 정보는 텍스트 피드백 정보이고, 상기 제2 생성 유닛(504)은 상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 소리 생성 유닛(미도시); 상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 획득 유닛(미도시) - 상기 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함함 - ; 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성하는 영상 생성 유닛(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함하고, 상기 획득 유닛은 또한, 상기 텍스트 피드백 정보에 따라 상기 표정 정보 집합으로부터 타겟 표정 정보를 확정하고; 상기 텍스트 피드백 정보에 따라 상기 입모양 정보 집합으로부터 타겟 입모양 정보를 확정하며; 상기 텍스트 피드백 정보에 따라 상기 동작 정보 집합으로부터 타겟 동작 정보를 확정하고; 상기 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 소리 생성 유닛은 또한, 상기 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성하고, 상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타내며, 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻은 것이다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 정보 생성 장치(500)는, 3차원 가상 인물 이미지의 맞춤 요청을 수신하는 요청 수신 유닛(미도시) - 상기 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함함 - ; 및 상기 맞춤 요청에 따라, 3차원 가상 인물 이미지의 외관을 결정하는 결정 유닛(미도시)을 더 포함한다.
하기 도 6을 참조하면 본 발명의 실시예에 따른 전자 기기(예를 들면 도 1의 서버)(600)를 구현할 수 있는 구조 모식도이다. 도 6에 도시된 전자 기기는 하나의 예시일 뿐, 본 발명의 실시예의 기능 또는 사용범위에 대한 어떠한 한정도 아니다.
도 6에 도시된 바와 같이, 전자 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜덤 액세스 메모리(RAM)(603)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를들면 중앙 처리 장치, 그래픽 처리 장치 등)(601)를 포함한다. RAM(603)에는 또한 전자 기기(600)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.
일반적으로, 하기 장치는 I/O 인터페이스(605); 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(608); 및 통신 장치(609)에 연결될 수 있다. 통신 장치(609)는 전자 기기(600)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 6에서 다양한 장치를 갖는 전자 기기(600)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 6에 도시된 각각의 블록은 하나의 장치를 가리키거나 필요에 따라 복수의 장치를 가리킬 수 있다.
특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(609)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나 및/또는 저장 장치(608)로부터 설치되거나 ROM(602)으로부터 설치될 수 있다. 컴퓨터 프로그램이 중앙 처리 장치(CPU)(601)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다.
본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합 일 수 있지만, 이에 한정되지는 않는다. 컴퓨터 판독 가능 매체의 보다 구체적인 예는 하나 또는 복수의 도선을 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되지는 않는다. 본 발명의 실시예에서, 컴퓨터 판독 가능 저장 매체는 명령 운행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이런 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 수송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 전기선, 광섬유 케이블, RF(무선주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 전자 기기에 포함될 수 있고, 상기 전자 기기에 탑재되지 않고 단독으로 존재할 수도 있다. 상기 컴퓨터 판독가능 매체에는 하나 또는 복수의 프로그램이 베어링되고, 상기 하나 또는 복수의 프로그램이 상기 전자 기기에 의해 실행될 경우 상기 전자기기는 클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하고, 영상 및 음성에 대해 분석 처리를 진행하여 사용자의 의도 타입을 확정하며, 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하고, 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하며, 3차원 가상 인물 이미지의 영상을 클라이언트에 송신하여, 클라이언트가 사용자에게 보여주도록 한다.
본 발명의 실시예에 따른 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성 될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결함).
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 마크업된 기능은 또한 도면에 도시된 것과 다른 순서로 발생할 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬로 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에서 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서에 설치될 수 있고, 예를 들어 수신 유닛, 분석 유닛, 제1 생성 유닛, 제2 생성 유닛 및 송신 유닛을 포함하는 프로세서로 기술될 수도 있다. 이러한 유닛의 명칭은 경우에 따라서는 유닛 자체로 한정되지 않으며, 예를 들어, 수신 유닛은 "클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 유닛"으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술적 특징 또는 그 균등한 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims (12)

  1. 정보 생성 방법에 있어서,
    클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 단계;
    상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정하는 단계;
    상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하는 단계;
    상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 단계; 및
    상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여, 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함하는 정보 생성 방법.
  2. 제1항에 있어서,
    상기 피드백 정보는 텍스트 피드백 정보이고;
    상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 단계는,
    상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 단계;
    상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 단계 - 상기 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함함 - ;
    상기 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성하는 단계를 포함하는 정보 생성 방법.
  3. 제2항에 있어서,
    상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함하고,
    상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 단계는,
    상기 텍스트 피드백 정보에 따라 상기 표정 정보 집합으로부터 타겟 표정 정보를 확정하는 단계;
    상기 텍스트 피드백 정보에 따라 상기 입모양 정보 집합으로부터 타겟 입모양 정보를 확정하는 단계;
    상기 텍스트 피드백 정보에 따라 상기 동작 정보 집합으로부터 타겟 동작 정보를 확정하는 단계; 및
    상기 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 하는 단계를 포함하는 정보 생성 방법.
  4. 제2항에 있어서,
    상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 단계는,
    상기 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성하는 단계를 포함하고,
    상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타내며, 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻은 것인 정보 생성 방법.
  5. 제1항에 있어서,
    상기 정보 생성 방법은,
    3차원 가상 인물 이미지의 맞춤 요청을 수신하는 단계 - 상기 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함함 - ; 및
    상기 맞춤 요청에 따라, 3차원 가상 인물 이미지의 외관을 결정하는 단계를 더 포함하는 정보 생성 방법.
  6. 정보 생성 장치에 있어서,
    클라이언트로부터 송신한 사용자의 영상 및 음성을 수신하는 수신 유닛;
    상기 영상 및 음성에 대해 분석 처리를 진행하여 상기 사용자의 의도 타입을 확정하는 분석 유닛;
    상기 사용자의 의도 타입 및 기설정된 서비스 정보 집합에 따라, 피드백 정보를 생성하는 제1 생성 유닛;
    상기 피드백 정보에 기초하여, 애니메이션 엔진으로 미리 구축된 3차원 가상 인물 이미지의 영상을 생성하는 제2 생성 유닛; 및
    상기 3차원 가상 인물 이미지의 영상을 상기 클라이언트에 송신하여, 상기 클라이언트가 상기 사용자에게 보여주도록 하는 송신 유닛을 포함하는 정보 생성 장치.
  7. 제6항에 있어서,
    상기 피드백 정보는 텍스트 피드백 정보이고;
    상기 제2 생성 유닛은,
    상기 텍스트 피드백 정보에 따라 소리 피드백 정보를 생성하는 소리 생성 유닛;
    상기 텍스트 피드백 정보에 따라, 기설정된 인물 이미지 정보 집합으로부터 타겟 인물 이미지 정보를 획득하는 획득 유닛 - 상기 타겟 인물 이미지 정보는 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 포함함 - ;
    상기 소리 피드백 정보, 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보에 따라, 애니메이션 엔진에 의해 3차원 가상 인물 이미지의 영상을 생성하는 영상 생성 유닛을 포함하는 정보 생성 장치.
  8. 제7항에 있어서,
    상기 인물 이미지 정보 집합은 표정 정보 집합, 입모양 정보 집합 및 동작 정보 집합을 포함하고,
    상기 획득 유닛은 또한,
    상기 텍스트 피드백 정보에 따라 상기 표정 정보 집합으로부터 타겟 표정 정보를 확정하고;
    상기 텍스트 피드백 정보에 따라 상기 입모양 정보 집합으로부터 타겟 입모양 정보를 확정하며;
    상기 텍스트 피드백 정보에 따라 상기 동작 정보 집합으로부터 타겟 동작 정보를 확정하고;
    상기 타겟 표정 정보, 타겟 입모양 정보 및 타겟 동작 정보를 타겟 인물 이미지 정보로 하도록 구축되는 정보 생성 장치.
  9. 제7항에 있어서,
    상기 소리 생성 유닛은 또한,
    상기 텍스트 피드백 정보를 미리 구축된 소리 생성 모형에 입력하여 소리 피드백 정보를 생성하도록 구축되고,
    상기 소리 생성 모형은 텍스트와 소리의 대응 관계를 나타내며, 상기 소리 생성 모형은 실제 사람 소리 트레이닝을 거쳐 얻은 것인 정보 생성 장치.
  10. 제6항에 있어서,
    상기 정보 생성 장치는,
    3차원 가상 인물 이미지의 맞춤 요청을 수신하는 요청 수신 유닛 - 상기 맞춤 요청은 3차원 가상 인물 이미지의 외관을 결정하기 위한 정보를 포함함 - ; 및
    상기 맞춤 요청에 따라, 3차원 가상 인물 이미지의 외관을 결정하는 결정 유닛을 더 포함하는 정보 생성 장치.
  11. 하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 서버에 있어서,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제5항 중 어느 한 항에 따른 정보 생성 방법을 구현하도록 하는 서버.
  12. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서,
    상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제5항 중 어느 한 항에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체.
KR1020190166709A 2019-06-28 2019-12-13 정보 생성 방법 및 장치 KR20210001857A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210176319A KR102471202B1 (ko) 2019-06-28 2021-12-10 정보 생성 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573150.4A CN110298906B (zh) 2019-06-28 2019-06-28 用于生成信息的方法和装置
CN201910573150.4 2019-06-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210176319A Division KR102471202B1 (ko) 2019-06-28 2021-12-10 정보 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210001857A true KR20210001857A (ko) 2021-01-06

Family

ID=68029203

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190166709A KR20210001857A (ko) 2019-06-28 2019-12-13 정보 생성 방법 및 장치
KR1020210176319A KR102471202B1 (ko) 2019-06-28 2021-12-10 정보 생성 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210176319A KR102471202B1 (ko) 2019-06-28 2021-12-10 정보 생성 방법 및 장치

Country Status (4)

Country Link
US (1) US11151765B2 (ko)
JP (1) JP7104683B2 (ko)
KR (2) KR20210001857A (ko)
CN (1) CN110298906B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063339A (zh) * 2019-11-11 2020-04-24 珠海格力电器股份有限公司 智能交互方法、装置、设备及计算机可读介质
CN112929253B (zh) * 2019-12-05 2023-08-08 北京沃东天骏信息技术有限公司 一种虚拟形象交互方法和装置
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111400441A (zh) * 2020-02-28 2020-07-10 东莞市易联交互信息科技有限责任公司 一种应用于虚拟影院的虚拟交互方法及系统
CN111340920B (zh) * 2020-03-02 2024-04-09 长沙千博信息技术有限公司 一种语义驱动的二维动画自动生成方法
CN111401921B (zh) * 2020-03-05 2023-04-18 成都威爱新经济技术研究院有限公司 一种基于虚拟人的远程客服方法
CN111523981A (zh) * 2020-04-29 2020-08-11 深圳追一科技有限公司 虚拟试用方法、装置、电子设备及存储介质
CN111627440A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种基于三维虚拟人物和语音识别实现交互的学习系统
CN112543342B (zh) 2020-11-26 2023-03-14 腾讯科技(深圳)有限公司 虚拟视频直播处理方法及装置、存储介质、电子设备
CN113822967A (zh) * 2021-02-09 2021-12-21 北京沃东天骏信息技术有限公司 人机交互方法、装置、系统、电子设备以及计算机介质
CN112925898B (zh) * 2021-04-13 2023-07-18 平安科技(深圳)有限公司 基于人工智能的问答方法、装置、服务器及存储介质
CN115243095A (zh) * 2021-04-30 2022-10-25 百度在线网络技术(北京)有限公司 推送待播报数据、播报数据的方法和装置
CN114221940B (zh) * 2021-12-13 2023-12-29 北京百度网讯科技有限公司 音频数据处理方法、系统、装置、设备以及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248841A (ja) 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
CN102196300A (zh) * 2010-03-18 2011-09-21 国际商业机器公司 虚拟世界场景的图像的提供方法和设备及处理方法和设备
GB2480108B (en) 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
JP6392497B2 (ja) 2012-05-22 2018-09-19 コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガニゼーション ビデオを生成するためのシステムおよび方法
US10824310B2 (en) * 2012-12-20 2020-11-03 Sri International Augmented reality virtual personal assistant for external representation
US10755704B2 (en) * 2015-11-17 2020-08-25 Sony Interactive Entertainment Inc. Information processing apparatus
KR102616172B1 (ko) * 2016-08-12 2023-12-19 주식회사 케이티 캐릭터 제공 시스템 및 이를 이용한 정보 수집 방법
WO2018222828A1 (en) * 2017-05-31 2018-12-06 L'oreal System for manipulating a 3d simulation of a person by adjusting physical characteristics
US20190095775A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human
KR102078627B1 (ko) * 2017-11-14 2020-02-19 네이버 주식회사 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置

Also Published As

Publication number Publication date
CN110298906B (zh) 2023-08-11
KR102471202B1 (ko) 2022-11-25
US20200410732A1 (en) 2020-12-31
CN110298906A (zh) 2019-10-01
KR20220002820A (ko) 2022-01-07
US11151765B2 (en) 2021-10-19
JP7104683B2 (ja) 2022-07-21
JP2021010156A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
KR102471202B1 (ko) 정보 생성 방법 및 장치
US11158102B2 (en) Method and apparatus for processing information
KR102346046B1 (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
US20210201550A1 (en) Method, apparatus, device and storage medium for animation interaction
JP7225188B2 (ja) ビデオを生成する方法および装置
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
US20220405986A1 (en) Virtual image generation method, device, terminal and storage medium
CN112162628A (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
US11158210B2 (en) Cognitive real-time feedback speaking coach on a mobile device
Umetani et al. Scalable component-based manzai robots as automated funny content generators
JP6949931B2 (ja) 情報を生成するための方法および装置
CN111312243A (zh) 设备交互方法和装置
CN116610777A (zh) 具有提取问答的会话式ai平台
JP2023551169A (ja) 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること
CN113157241A (zh) 交互设备、交互装置及交互系统
CN110288683B (zh) 用于生成信息的方法和装置
KR102663846B1 (ko) 아나포라 처리
Gilda et al. Integration of Voice Assistance System for Visually Challenged Person
CN115393476A (zh) 有声表情的生成方法、装置和设备
Mlakar et al. Developing multimodal web interfaces by encapsulating their content and functionality within a multimodal shell

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination