KR102694330B1 - 인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스 - Google Patents

인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스 Download PDF

Info

Publication number
KR102694330B1
KR102694330B1 KR1020217029221A KR20217029221A KR102694330B1 KR 102694330 B1 KR102694330 B1 KR 102694330B1 KR 1020217029221 A KR1020217029221 A KR 1020217029221A KR 20217029221 A KR20217029221 A KR 20217029221A KR 102694330 B1 KR102694330 B1 KR 102694330B1
Authority
KR
South Korea
Prior art keywords
expression
target
base
facial
facial expression
Prior art date
Application number
KR1020217029221A
Other languages
English (en)
Other versions
KR20210123399A (ko
Inventor
린차오 바오
스인 캉
성 왕
샹카이 린
싱 지
잔투 주
퀑츠 레이
더이 퉈
펑 류
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210123399A publication Critical patent/KR20210123399A/ko
Application granted granted Critical
Publication of KR102694330B1 publication Critical patent/KR102694330B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

인공 지능에 기초한 애니메이션 이미지 구동 방법 및 관련 디바이스. 방법은: 화자가 음성을 말할 때 얼굴 표정 변화들의 미디어 데이터를 수집하고, 화자에 대응하는 제1 애니메이션 이미지의 제1 표정 베이스를 결정하는 단계- 제1 표정 베이스는 제1 애니메이션 이미지의 상이한 표정들을 반영할 수 있음 -; 제2 애니메이션 이미지를 구동하기 위해 사용되는 타깃 텍스트 정보가 결정된 후에, 타깃 텍스트 정보, 수집된 미디어 데이터 및 제1 표정 베이스에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하는 단계; 및 제2 애니메이션 이미지가 음향 특징 시뮬레이션에 의해 화자가 말하는 타깃 텍스트 정보의 사운드를 제공할 수 있도록, 음향 특징 및 타깃 표정 파라미터에 의해 제2 표정 베이스를 갖는 제2 애니메이션 이미지를 구동하는 단계를 포함하고, 화자의 적당한 표정에 부합하는 얼굴 표정이 사운딩 프로세스에서 행해져, 생생한 대체감 및 몰입감이 사용자에게 전달되고, 사용자와 애니메이션 이미지의 상호작용 경험이 개선된다.

Description

인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스
관련 출원
본 출원은 2019년 9월 2일자로 중국 지적 재산권 관리국(China National Intellectual Property Administration)에 출원된 "ARTIFICIAL INTELLIGENCE-BASED ANIMATION CHARACTER DRIVE METHOD AND RELATED APPARATUS"라는 명칭의 중국 특허 출원 제201910824770.0호에 대한 우선권을 주장하며, 그 전체가 본 명세서에 참고로 포함된다.
기술 분야
본 출원은 데이터 처리 분야에 관한 것으로, 특히 애니메이션 캐릭터의 구동에 관한 것이다.
컴퓨터 기술들의 개발로, 인간-컴퓨터 상호작용들이 더 일반화되었지만, 그 대부분은 순수한 음성 상호작용들이다. 예를 들어, 상호작용 디바이스는 사용자에 의해 입력된 텍스트 또는 음성에 따라 응답 콘텐츠를 결정하고, 응답 콘텐츠에 따라 합성된 가상 사운드를 재생할 수 있다.
이러한 타입의 인간-컴퓨터 상호작용들에 의해 야기되는 사용자의 몰입감은 사용자에 의한 현재의 상호작용 요구를 충족시키기 어렵다. 사용자의 몰입감을 개선하기 위해, 사용자와 상호작용하는 상호작용 객체로서, 예를 들어, 입 형상을 변경할 수 있는 표정 변경 능력을 갖는 애니메이션 캐릭터의 사용이 현재 연구 및 개발 방향이다.
그러나, 현재 정교한 애니메이션 캐릭터 구동 방법은 없다.
전술한 기술적 문제들을 해결하기 위해, 본 출원은 인공 지능 기반(AI 기반) 애니메이션 캐릭터 구동 방법 및 장치를 제공하여, 사용자에게 현실적인 존재감 및 몰입감을 야기함으로써, 사용자와 애니메이션 캐릭터 사이의 상호작용의 경험을 개선한다.
다음의 기술적 해결책들이 본 출원의 실시예들에 개시된다:
제1 양태에 따르면, 본 출원의 실시예는 오디오 및 비디오 처리 디바이스에 의해 수행되는 애니메이션 캐릭터 구동 방법을 제공하고, 이 방법은 다음을 포함한다:
화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하는 단계;
얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 단계- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용됨 -;
타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하는 단계- 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 단계.
제2 양태에 따르면, 본 출원의 실시예는 애니메이션 캐릭터 구동 장치를 제공하고, 이 장치는 오디오 및 비디오 처리 디바이스 상에 배치되고, 이 장치는 획득 유닛, 제1 결정 유닛, 제2 결정 유닛, 및 구동 유닛을 포함하고;
획득 유닛은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하도록 구성되고;
제1 결정 유닛은 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용됨 -;
제2 결정 유닛은 타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하도록 구성되고- 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
구동 유닛은 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하도록 구성된다.
제3 양태에 따르면, 본 출원의 실시예는 오디오 및 비디오 처리 디바이스에 의해 수행되는 애니메이션 캐릭터 구동 방법을 제공하고, 이 방법은 다음을 포함한다:
화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하는 단계;
얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 단계- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하는 단계- 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 타깃 표정 베이스는 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 타깃 표정 베이스의 차원 수량은 제2 차원 수량임 -;
화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하는 단계- 타깃 표정 파라미터는 타깃 표정 베이스에 대해 화자가 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
타깃 표정 파라미터 및 음향 특징에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 단계.
제4 양태에 따르면, 본 출원의 실시예는 애니메이션 캐릭터 구동 장치를 제공하고, 이 장치는 오디오 및 비디오 처리 디바이스 상에 배치되고, 이 장치는 획득 유닛, 제1 결정 유닛, 제2 결정 유닛, 제3 결정 유닛, 및 구동 유닛을 포함하고;
획득 유닛은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하도록 구성되고;
제1 결정 유닛은 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
제2 결정 유닛은 제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하도록 구성되고- 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 타깃 표정 베이스는 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 타깃 표정 베이스의 차원 수량은 제2 차원 수량임 -;
제3 결정 유닛은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하도록 구성되고- 타깃 표정 파라미터는 타깃 표정 베이스에 대해 화자가 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
구동 유닛은 타깃 표정 파라미터 및 음향 특징에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하도록 구성된다.
제5 양태에 따르면, 본 출원의 실시예는 애니메이션 캐릭터 구동 디바이스를 제공하고, 이 디바이스는 프로세서 및 메모리를 포함하고,
메모리는 프로그램 코드를 저장하고 프로그램 코드를 프로세서에 송신하도록 구성되고; 및
프로세서는 프로그램 코드 내의 명령어들에 따라 제1 양태 또는 제3 양태에 따른 방법을 수행하도록 구성된다.
제6 양태에 따르면, 본 출원의 실시예는 프로그램 코드를 저장하도록 구성된 컴퓨터 판독가능 저장 매체를 제공하고, 프로그램 코드는 제1 양태 또는 제3 양태에 따른 방법을 수행하기 위해 사용된다.
제7 양태에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램 제품은, 실행될 때, 제1 양태 또는 제3 양태에 따른 방법을 수행하기 위해 사용된다.
전술한 기술적 해결책들로부터, 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스는 화자가 음성을 말할 때 얼굴 표정 변화를 포함하는 미디어 데이터를 취득함으로써 결정될 수 있고, 제1 표정 베이스는 제1 애니메이션 캐릭터의 상이한 표정들을 반영할 수 있다는 것을 알 수 있다. 제2 애니메이션 캐릭터를 구동하기 위해 사용되는 타깃 텍스트 정보가 결정된 후에, 타깃 텍스트 정보, 전술한 미디어 데이터, 및 제1 표정 베이스에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터가 결정될 수 있다. 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용될 수 있고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용될 수 있다. 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터는 음향 특징 및 타깃 표정 파라미터에 따라 구동될 수 있어, 제2 애니메이션 캐릭터는 음향 특징에 따라, 화자가 타깃 텍스트 정보를 말할 때 생성되는 사운드를 시뮬레이팅하고, 발성 동안 화자의 표정에 부합하는 얼굴 표정을 행하여, 사용자에게 현실적인 존재감 및 몰입감을 야기함으로써, 사용자와 애니메이션 캐릭터 사이의 상호작용의 경험을 개선할 수 있다.
이 출원의 실시예들에서 또는 관련된 기술에서 기술적 해결책들을 더 명확하게 설명하기 위하여, 다음은 실시예들 또는 관련된 기술을 설명하기 위하여 요구된 첨부 도면들을 간략하게 설명한다. 명확하게, 다음 설명에서의 첨부 도면들은 이 출원의 일부 실시예를 단지 도시하고, 본 기술분야의 통상의 기술자는 창조적인 노력들없이 이 첨부 도면들로부터 다른 도면들을 여전히 유도할 수 있다.
도 1은 본 출원의 실시예에 따른 인공 지능 기반(AI 기반) 애니메이션 캐릭터 구동 방법의 응용 시나리오의 개략도이다.
도 2는 본 출원의 실시예에 따른 AI 기반 애니메이션 캐릭터 구동 방법의 흐름도이다.
도 3은 본 출원의 실시예에 따른 애니메이션 캐릭터 구동 시스템의 구조적 흐름도이다.
도 4는 본 출원의 실시예에 따른 미디어 데이터를 취득하는 시나리오의 예시적인 도면이다.
도 5는 본 출원의 실시예에 따른 3DMM 라이브러리 내의 M의 각각의 차원의 분포 및 의미의 예시적인 도면이다.
도 6은 본 출원의 실시예에 따른 결정된 얼굴-대-파라미터 변환 파라미터에 기초한 애니메이션 캐릭터 구동 방법의 응용 시나리오의 개략도이다.
도 7은 본 출원의 실시예에 따른 결정된 매핑 관계에 기초한 애니메이션 캐릭터 구동 방법의 응용 시나리오의 개략도이다.
도 8은 본 출원의 실시예에 따른 시간 간격과 음소 사이의 대응의 예시적인 도면이다.
도 9는 본 출원의 실시예에 따른 AI 기반 애니메이션 캐릭터 구동 방법의 흐름도이다.
도 10a는 본 출원의 실시예에 따른 AI 기반 애니메이션 캐릭터 구동 방법의 흐름도이다.
도 10b는 본 출원의 실시예에 따른 애니메이션 캐릭터 구동 장치의 구조도이다.
도 11은 본 출원의 실시예에 따른 애니메이션 캐릭터 구동 장치의 구조도이다.
도 12는 본 출원의 실시예에 따른 애니메이션 캐릭터 구동 디바이스의 구조도이다.
도 13은 본 출원의 실시예에 따른 서버의 구조도이다.
아래에서는 첨부 도면들을 참조하여 본 출원의 실시예들을 설명한다.
현재, 사용자와 상호작용하는 상호작용 타깃으로서 표정 변화 능력을 갖는 애니메이션 캐릭터를 사용하는 것은 인간-컴퓨터 상호작용의 주요 연구 방향이다.
예를 들어, 게임 장면에서, 사용자와 동일한 얼굴 형상을 갖는 게임 캐릭터(애니메이션 캐릭터)가 구성될 수 있고, 사용자가 텍스트 또는 음성을 입력할 때, 게임 캐릭터는 음성을 생성하고 대응하는 표정(예컨대, 입 형상)을 행할 수 있거나; 또는 게임 장면에서, 사용자와 동일한 얼굴 형상을 갖는 게임 캐릭터가 구성되고, 반대측이 텍스트 또는 음성을 입력할 때, 게임 캐릭터는 반대측의 입력에 따라 음성을 응답하고 대응하는 표정을 행할 수 있다.
애니메이션 캐릭터를 더 잘 구동하기 위해, 예를 들어, 애니메이션 캐릭터를 구동하여 음성을 생성하고 대응하는 표정을 행하기 위해, 본 출원의 실시예는 인공 지능 기반(AI 기반) 애니메이션 캐릭터 구동 방법을 제공한다. 이 방법에서, 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스는 화자가 음성을 말할 때 얼굴 표정 변화를 포함하는 미디어 데이터를 취득함으로써 결정될 수 있다. 제2 애니메이션 캐릭터를 구동하기 위해 사용되는 타깃 텍스트 정보가 결정된 후에, 타깃 텍스트 정보, 전술한 취득된 미디어 데이터, 및 제1 표정 베이스에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터가 결정될 수 있어, 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하여, 제2 애니메이션 캐릭터가 음향 특징에 따라, 화자가 타깃 텍스트 정보를 말할 때 생성되는 사운드를 시뮬레이팅하고, 발성 동안 화자의 표정에 부합하는 얼굴 표정을 행하여, 텍스트 정보에 기초하여 제2 애니메이션 캐릭터를 구동한다.
본 출원의 실시예들에서 제공되는 애니메이션 캐릭터 구동 방법은 AI에 기초하여 구현된다는 점이 주목되어야 한다. AI는 디지털 컴퓨터 또는 디지털 컴퓨터에 의해 제어되는 머신을 사용하여, 인간 지능을 시뮬레이팅, 연장, 및 확장하고, 환경을 인지하고, 지식을 습득하고, 지식을 사용하여 최적의 결과를 획득하는 이론, 방법, 기술, 및 응용 시스템이다. 즉, AI는 지능의 본질을 이해하려고 시도하고, 인간 지능과 유사한 방식으로 반응할 수 있는 새로운 지능형 머신을 생산하는, 컴퓨터 과학의 포괄적인 기술이다. AI는 다양한 지능형 머신들의 설계 원리들 및 구현 방법들을 연구하여, 머신들이 인식, 추론, 및 의사 결정의 기능을 가질 수 있게 한다.
AI 기술은 포괄적인 분야이며, 하드웨어-레벨 기술들 및 소프트웨어-레벨 기술들 둘 다를 포함하는 광범위한 분야에 관한 것이다. AI 기초 기술들은 일반적으로 센서, 전용 AI 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅 데이터 처리 기술, 운영/상호작용 체제, 및 전기기계적 통합과 같은 기술들을 포함한다. AI 소프트웨어 기술들은 주로 컴퓨터 비전 기술, 음성 처리 기술, 자연 언어 처리 기술, 및 머신 러닝(ML)/딥 러닝(DL)과 같은 여러 주요 방향들을 포함한다.
본 출원의 실시예들에서, 주로 관련된 AI 기술들은 음성 처리 기술, ML, 및 컴퓨터 비전(이미지)과 같은 방향들을 포함한다.
예를 들어, 음성 인식(Automatic Speech Recognition, ASR) 기술, 음성 합성(Text-To-Speech, TTS) 기술, 및 성문(voiceprint) 인식 기술이 음성 기술에 수반될 수 있다. 음성 인식 기술은 음성 신호 전처리, 음성 신호 주파수 분석, 음성 신호 특징 추출, 음성 신호 특징 매칭/인식, 음성 훈련 등을 포함한다. 음성 합성은 텍스트 분석, 음성 생성 등을 포함한다.
예를 들어, 머신 러닝(ML)이 수반될 수 있다. ML은 다-분야 간-학문(multi-field inter-discipline)이고, 확률 이론, 통계, 근사 이론, 볼록 분석(convex analysis), 및 알고리즘 복잡도 이론과 같은 복수의 학문에 관련된다. ML은 컴퓨터가 새로운 지식 또는 스킬들을 획득하기 위해 인간 학습 거동을 어떻게 시뮬레이팅 또는 구현하는지를 연구하는 것을 전문화하고, 기존의 지식 구조를 재조직하여, 그 성능을 계속 개선시킨다. ML은 AI의 핵심이고, 컴퓨터를 지능적으로 만드는 기본적인 방식이며, AI의 다양한 분야들에 적용된다. ML은 일반적으로 딥 러닝(DL)과 같은 기술들을 포함하고, DL은 합성곱 신경망(CNN), 순환 신경망(RNN) 및 딥 신경망(DNN)과 같은 인공 신경망들을 포함한다.
예를 들어, 컴퓨터 비전에서의 비디오 처리, 비디오 시맨틱 이해(VSU), 얼굴 인식 등이 수반될 수 있다. VSU는, 타깃 인식, 타깃 검출/국지화 등을 포함한다. 얼굴 인식은 얼굴 3D 재구성, 얼굴 검출, 얼굴 추적 등을 포함한다.
본 출원의 실시예들에서 제공되는 AI 기반 애니메이션 캐릭터 구동 방법은 애니메이션 캐릭터를 구동하는 능력을 갖는 오디오 및 비디오 처리 디바이스에 적용가능하다. 오디오 및 비디오 처리 디바이스는 단말 디바이스일 수 있거나, 서버일 수 있다.
오디오 및 비디오 처리 디바이스는 음성 기술을 구현하기 위한 능력을 가질 수 있다. 오디오 및 비디오 처리 디바이스가 듣고, 보고, 느낄 수 있게 하는 것은 인간-컴퓨터 상호작용의 미래의 개발 방향이고, 음성은 미래에 가장 유망한 인간-컴퓨터 상호작용 방법들 중 하나가 되었다.
본 출원의 실시예들에서, 오디오 및 비디오 처리 디바이스는 전술한 컴퓨터 비전 기술을 구현함으로써 미디어 데이터에서 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정할 수 있고, 타깃 텍스트 정보 및 미디어 데이터에 따라 음성 기술 및 ML을 통해, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정할 수 있고, 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 추가로 구동할 수 있다.
오디오 및 비디오 처리 디바이스가 단말 디바이스인 경우, 단말 디바이스는 스마트 단말, 컴퓨터, PDA(personal digital assistant), 태블릿 컴퓨터 등일 수 있다.
오디오 및 비디오 처리 디바이스가 서버인 경우, 서버는 독립적인 서버일 수 있거나, 클러스터 서버일 수 있다. 서버가 방법을 구현할 때, 단말 디바이스는 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 서버에 업로드할 수 있고, 서버는 음향 특징 및 타깃 표정 파라미터를 결정하고, 음향 특징 및 타깃 표정 파라미터에 따라 단말 디바이스 상에서 제2 애니메이션 캐릭터를 구동한다.
본 출원의 실시예들에서 제공되는 AI 기반 애니메이션 캐릭터 구동 방법은 뉴스 방송, 날씨 예보, 게임 코멘터리, 및 사용자와 동일한 얼굴 형상을 갖는 게임 캐릭터가 구성되는 것이 허용되는 게임 장면과 같은, 애니메이션 캐릭터들에 적합한 다양한 응용 시나리오들에 적용가능하고, 또한 애니메이션 캐릭터들이 개인 서비스들을 착수하기 위해 사용되는 시나리오들, 예를 들어, 심리학자 또는 가상 비서와 같은 개인들에 관한 일대일 서비스에 적용가능하다는 것을 이해할 수 있다. 이러한 시나리오들에서, 애니메이션 캐릭터는 본 출원의 실시예들에서 제공되는 방법을 사용하여 구동될 수 있다.
본 출원의 기술적 해결책들의 이해의 용이함을 위해, 본 출원의 실시예들에서 제공되는 AI 기반 애니메이션 캐릭터 구동 방법이 실제 응용 시나리오를 참조하여 아래에 설명된다.
도 1은 본 출원의 실시예에 따른 AI 기반 애니메이션 캐릭터 구동 방법의 응용 시나리오의 개략도이다. 오디오 및 비디오 처리 디바이스가 단말 디바이스인 응용 시나리오를 예로서 사용하여 설명이 이루어진다. 응용 시나리오는 단말 디바이스(101)를 포함한다. 단말 디바이스(101)는 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득할 수 있다. 하나 이상의 미디어 데이터가 있을 수 있다. 미디어 데이터는 비디오일 수 있거나, 비디오 및 오디오일 수 있다. 미디어 데이터 내의 음성에 포함된 캐릭터에 대응하는 언어는 중국어, 영어, 한국어 또는 다른 언어일 수 있다.
얼굴 표정은 화자가 음성을 말할 때 얼굴에 의해 행해진 액션, 예를 들어, 입 형상, 눈 액션 또는 눈썹 액션일 수 있고, 비디오 시청자는 화자의 얼굴 표정을 통해 미디어 데이터 내의 음성이 화자에 의해 말해지는 것을 인지할 수 있다.
단말 디바이스(101)는 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정할 수 있고, 제1 표정 베이스는 제1 애니메이션 캐릭터의 상이한 표정들을 식별하기 위해 사용된다.
제2 애니메이션 캐릭터를 구동하기 위해 사용되는 타깃 텍스트 정보를 결정한 후에, 단말 디바이스(101)는 타깃 텍스트 정보, 전술한 취득된 미디어 데이터, 및 제1 표정 베이스에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정할 수 있다. 후속하여 수반될 수 있는 얼굴-대-파라미터 변환 파라미터 및 표정 파라미터의 표정 형태는 계수, 예를 들어, 특정 차원을 갖는 벡터일 수 있다.
미디어 데이터 내의 음성 및 얼굴 표정이 동기화되고, 음향 특징 및 타깃 표정 파라미터 둘 다가 미디어 데이터에 기초하여 획득되고 동일한 시간 축에 대응하기 때문에, 음향 특징에 의해 식별된 사운드 및 타깃 표정 파라미터에 의해 식별된 표정은 동일한 시간 축 상에서 동기적으로 변한다. 생성된 음향 특징은 시간 축과 관련된 시퀀스이고, 타깃 표정 파라미터는 동일한 시간 축과 관련된 시퀀스이고, 둘 다는 텍스트 정보가 변함에 따라 적절히 조정될 수 있다. 그러나, 조정에 관계없이, 음향 특징은 전술한 미디어 데이터에서의, 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 전술한 미디어 데이터에서의, 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용된다.
그 후, 단말 디바이스(101)는 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동할 수 있어서, 제2 애니메이션 캐릭터는 음향 특징에 따라, 화자가 타깃 텍스트 정보를 말할 때 생성되는 사운드를 시뮬레이팅하고, 발성 동안 화자의 표정에 부합하는 얼굴 표정을 행할 수 있다. 제2 애니메이션 캐릭터는 제1 애니메이션 캐릭터와 동일한 애니메이션 캐릭터일 수 있거나, 제1 애니메이션 캐릭터와 상이한 애니메이션 캐릭터일 수 있으며, 이는 본 출원의 이 실시예에서 제한되지 않는다.
다음으로, 본 출원의 실시예들에서 제공되는 AI 기반 애니메이션 캐릭터 구동 방법이 첨부 도면들을 참조하여 상세히 설명된다. 도 2를 참조하면, 방법은 아래의 단계들을 포함한다:
S201. 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득한다.
얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터는 카메라를 이용한 기록 환경에서, 카메라를 사용하는 것에 의해 화자가 말한 음성 및 화자에 대응하는 얼굴 표정을 기록함으로써 획득될 수 있다.
카메라를 사용하여 취득된 비디오가 화자의 얼굴 표정 및 대응하는 음성 둘 다를 포함하는 경우, 미디어 데이터는 비디오이다; 카메라를 사용하여 취득된 비디오가 화자의 얼굴 표정을 포함하고 음성이 다른 디바이스, 예를 들어, 음성 기록 디바이스를 사용하여 취득되는 경우, 미디어 데이터는 비디오 및 오디오를 포함한다. 이 경우, 비디오 및 오디오는 동기적으로 취득되고, 비디오는 화자의 얼굴 표정을 포함하고, 오디오는 화자의 음성을 포함한다.
본 출원의 실시예들에서 제공되는 방법은 애니메이션 캐릭터 구동 시스템을 사용하여 구현될 수 있다는 점에 유의해야 한다. 도 3을 참조하면, 시스템은 주로 4개의 부분: 데이터 취득 모듈, 얼굴 모델링 모듈, 음향 특징 및 표정 파라미터 결정 모듈, 및 애니메이션 구동 모듈을 포함한다. 데이터 취득 모듈은 S201을 수행하도록 구성되고, 얼굴 모델링 모듈은 S202를 수행하도록 구성되고, 음향 특징 및 표정 파라미터 결정 모듈은 S203을 수행하도록 구성되고, 애니메이션 구동 모듈은 S204를 수행하도록 구성된다.
화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터는 데이터 취득 모듈을 사용하여 획득될 수 있다. 데이터 취득 모듈에 대한 많은 선택들이 있을 수 있다. 데이터 취득 모듈은, 특수 디바이스를 사용하여, 화자의 음성 및 얼굴 표정을 포함하는 미디어 데이터를 취득할 수 있는데, 예를 들어, 액션 캡처링 시스템 또는 얼굴 표정 캡처링 시스템과 같은 특수 디바이스를 사용하여 화자의 얼굴 표정을 캡처한다. 얼굴 표정은 예를 들어, 얼굴 액션, 표정 또는 입 형상일 수 있다. 화자의 음성은 특수 음성 기록 디바이스를 사용하여 기록되고, 음성 및 얼굴 표정의 데이터 동기화는 동기화 신호 트리거링에 의해 상이한 디바이스들 사이에서 구현된다.
실제로, 특수 디바이스는 사용되는 고가의 캡처링 시스템으로 제한되지 않고, 멀티-뷰 초고화질(multi-view ultra-high-definition) 디바이스일 수 있다. 화자의 음성 및 얼굴 표정을 포함하는 비디오는 멀티-뷰 초고화질 디바이스를 사용하여 취득된다.
데이터 취득 모듈은, 복수의 주변 카메라에 의해, 화자의 음성 및 얼굴 표정을 포함하는 미디어 데이터를 추가로 취득할 수 있다. 가능한 구현에서, 3개, 5개, 또는 훨씬 더 많은 초고화질 카메라가 전방에서의 화자를 둘러쌈으로써 촬영을 위해 선택될 수 있다. 취득 환경은 안정적인 주변 조명을 가질 필요가 있고, 화자가 특정 옷을 착용할 필요가 없다. 도 4를 참조하면, 예를 들어, 3개의 초고화질 카메라가 사용된다. 상부 파선 화살표들은 안정적인 조명을 나타내고, 좌측 상의 3개의 화살표는 초고화질 카메라들과 화자의 시야각들 사이의 관계들을 나타내어, 화자의 음성 및 얼굴 표정을 포함하는 미디어 데이터를 취득한다. 이 경우, 초고화질 카메라를 사용하여 취득된 비디오는 음성 및 얼굴 표정 둘 다를 포함할 수 있다. 즉, 미디어 데이터는 비디오이다.
미디어 데이터가 취득될 때, 취득된 미디어 데이터의 표정 형태들은 얼굴 표정을 취득하기 위해 사용되는 상이한 센서들에 따라 상이할 수 있다는 점에 유의해야 한다. 일부 경우들에서, 화자는 얼굴 모델을 확립하기 위해 RGBD(red-green-blue deep) 센서를 사용함으로써 촬영될 수 있다. RGBD 센서가 깊이 정보를 취득하여, 화자의 3차원(3D) 재구성 결과를 획득할 수 있기 때문에, 미디어 데이터는 화자에 대응하는 얼굴의 정적 모델링, 즉 3D 데이터를 포함한다. 일부 다른 경우들에서, RGBD 센서가 없을 수 있고 화자는 대신에 2차원(2D) 센서를 사용하여 촬영된다. 이 경우, 화자의 3D 재구성 결과는 없다. 미디어 데이터는 화자에 대응하는 비디오 프레임들, 즉 2D 데이터를 포함한다.
S202. 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정한다.
전술한 미디어 데이터가 획득된 후에, 도 3의 얼굴 모델링 모듈을 사용하여 화자에 대해 얼굴 모델링을 수행하여, 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 획득할 수 있다. 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용된다.
얼굴 모델링의 목적은 위에서 언급된 화자와 같은 취득된 객체가 컴퓨터에 의해 이해되고 저장될 수 있는 것을 가능하게 하는 것이고, 이는 취득된 객체의 형상 및 텍스처를 포함한다. 얼굴 모델링은 복수의 방식으로 수행될 수 있고, 주로 하드웨어, 수동 작업, 및 소프트웨어의 3가지 관점으로부터 구현된다. 하드웨어 관점으로부터의 구현은 특수 디바이스, 예를 들어, 3D 스캐닝 기기를 사용하여 화자 상에서 고정밀 스캐닝을 수행하는 것일 수 있고, 획득된 얼굴 모델에 대해 데이터를 수동/자동 클리닝하는 것이 선택될 수 있다; 수동 작업 관점으로부터의 구현은 아트 디자이너에 의해 수동으로 데이터를 설계하거나, 데이터를 클리닝하거나, 또는 데이터를 조정하는 것일 수 있다; 소프트웨어 관점으로부터의 구현은 파라미터화된 얼굴-대-파라미터 변환 알고리즘을 사용하여 화자의 얼굴 모델을 자동으로 생성하는 것일 수 있다.
표정 파라미터화 동안, 얼굴 모델링은 또한 하드웨어, 수동 작업 및 소프트웨어의 3개의 관점으로부터 구현될 수 있다. 예를 들어, 표정을 갖는 화자가 특수 얼굴 스캐닝 디바이스를 사용하여 스캐닝된 후에, 현재 표정의 파라미터화된 설명이 자동으로 주어진다. 이러한 설명은 스캐닝 디바이스에서의 맞춤형 표정 설명과 관련된다. 그러나, 아트 디자이너에 의해 수동으로 조정된 표정 파라미터에 대해, 표정 타입 및 대응하는 얼굴 파라미터화, 예컨대, 입 열기 및 닫기의 정도 또는 얼굴 근육의 움직임 진폭이 일반적으로 미리 정의될 필요가 있다. 소프트웨어를 통해 구현되는 표정 파라미터화의 경우, 상이한 표정들에서의 얼굴의 수학적 설명들이 일반적으로 정의될 필요가 있다. 예를 들어, 대량의 실제 얼굴 데이터가 PCA(principal component analysis) 방법을 사용하여 분해된 후에, 평균 얼굴에 대한 각각의 표정의 변화의 정도를 가장 잘 반영하는 수치적 설명이 획득된다.
이 실시예에서, 주로 소프트웨어에 기초한 얼굴 모델링 및 표정 파라미터화가 설명된다. 이 경우, 상이한 표정들에서의 얼굴의 수학적 설명들은 모델 라이브러리를 사용하여 정의될 수 있다. 본 출원의 이 실시예에서의 애니메이션 캐릭터(예를 들어, 제1 애니메이션 캐릭터 및 후속 제2 애니메이션 캐릭터)는 모델 라이브러리 내의 모델일 수 있거나, 모델 라이브러리 내의 모델들의 선형 조합을 통해 획득될 수 있다. 모델 라이브러리는 얼굴 3D 모핑가능 모델(3DMM) 라이브러리, 또는 다른 모델 라이브러리일 수 있으며, 이는 이 실시예에서 제한되지 않는다. 애니메이션 캐릭터는 3D 그리드일 수 있다.
3DMM 라이브러리가 예로서 사용된다. 3DMM 라이브러리는 PCA 방법을 사용하여 대량의 고정밀 얼굴 데이터에 기초하여 획득되거나, 평균 얼굴에 대한 고차원 얼굴 형상 및 표정의 주요 변화를 설명하거나, 텍스처 정보를 설명할 수 있다.
일반적으로, 3DMM 라이브러리가 무표정 얼굴 형상을 설명할 때, 3DMM 라이브러리는
Figure 112021105031333-pct00001
를 통해 획득될 수 있다. mu는 자연 표정을 갖는 평균 얼굴이고,
Figure 112021105031333-pct00002
는 제i 얼굴 형상 주성분이고, αi는 각각의 얼굴 형상 주성분의 가중치, 즉 얼굴-대-파라미터 변환 파라미터이다.
3DMM 라이브러리 내의 애니메이션 캐릭터에 대응하는 그리드가 M에 의해 표현될 수 있다고 가정하면, 즉, 3DMM 라이브러리 내의 얼굴 형상, 수학식, 및 정점 간의 관계가 M에 의해 표현되고, M은 [m × n × d] 3D 행렬이고, 여기서 차원들은 각각 그리드의 정점 좌표 (m), 얼굴 형상 주성분 (n), 및 표정 주성분 (d)이다. 3DMM 라이브러리 내의 M의 각각의 차원의 분포 및 의미가 도 5에 도시되고, 좌표 축들은 각각 정점 좌표 (m), 얼굴 형상 주성분 (n), 및 표정 주성분 (d)을 나타낸다. m은 x, y 및 z의 3개의 좌표의 값들을 나타내기 때문에, 그리드의 정점들의 수량은 m/3이고, 이는 v로 표시된다. 애니메이션 캐릭터의 얼굴 형상 또는 표정이 결정되는 경우, M은 2D 행렬일 수 있다.
본 출원의 이 실시예에서, 3DMM 라이브러리에서의 텍스처 차원을 고려하지 않고, 애니메이션 캐릭터의 구동이 F라고 가정하면,
Figure 112021105031333-pct00003
(1)
여기서, M은 애니메이션 캐릭터의 그리드이고, α는 얼굴-대-파라미터 변환 파라미터이고, β는 표정 파라미터이고; 여기서, n은 얼굴-대-파라미터 변환 베이스에서의 얼굴-대-파라미터 변환 그리드들의 수량이고, d는 표정 베이스에서의 표정 그리드들의 수량이고,
Figure 112021105031333-pct00004
는 제i 표정 그리드 및 제j 얼굴-대-파라미터 변환 그리드를 포함하는 제k 그리드이고, αj는 얼굴-대-파라미터 변환 파라미터들의 세트 내의 제j 차원이고, 제j 얼굴 형상 주성분의 가중치를 나타내고, βi는 표정 파라미터들의 세트 내의 제i 차원이고, 제i 표정 주성분의 가중치를 나타낸다.
얼굴-대-파라미터 변환 파라미터를 결정하는 프로세스는 얼굴-대-파라미터 변환 알고리즘이고, 표정 파라미터를 결정하는 프로세스는 표정-대-파라미터 변환 알고리즘이다. 얼굴-대-파라미터 변환 파라미터는 얼굴-대-파라미터 변환 베이스와 선형 조합하여 대응하는 얼굴 형상을 획득하기 위해 사용된다. 예를 들어, 50개의 얼굴-대-파라미터 변환 그리드들(변형가능한 그리드들, 예를 들어, 블렌드셰이프(blendshape)들에 관련됨)을 포함하는 얼굴-대-파라미터 변환 베이스가 있고, 얼굴-대-파라미터 변환 베이스에 대응하는 얼굴-대-파라미터 변환 파라미터는 50개의 차원을 갖는 벡터이고, 각각의 차원은 얼굴-대-파라미터 변환 파라미터에 대응하는 얼굴 형상과 하나의 얼굴-대-파라미터 변환 그리드 사이의 상관의 정도를 식별할 수 있다. 얼굴-대-파라미터 변환 베이스에 포함된 얼굴-대-파라미터 변환 그리드들은 각각 상이한 얼굴 형상을 나타내고, 각각의 얼굴-대-파라미터 변환 그리드는 평균 얼굴에 대해 크게 변하는 얼굴 외관이고, 많은 수량의 얼굴을 PCA가 분해함으로써 획득된 상이한 차원의 얼굴 형상 주성분이고, 동일한 얼굴-대-파라미터 변환 베이스 내의 상이한 얼굴-대-파라미터 변환 그리드들에 대응하는 정점 일련 번호들은 서로 일치한다.
표정 파라미터는 표정 베이스와 선형 조합하여 대응하는 표정을 획득하기 위해 사용된다. 예를 들어, 50개(50개의 차원 수량과 동등함)의 표정 그리드들(변형가능한 그리드들, 예를 들어, 블렌드셰이프(blendshape)들에 관련됨)을 포함하는 표정 베이스가 있고, 표정 베이스에 대응하는 표정 파라미터는 50개의 차원을 갖는 벡터이고, 각각의 차원은 표정 파라미터에 대응하는 표정과 하나의 표정 그리드 사이의 상관의 정도를 식별할 수 있다. 표정 베이스에 포함된 표정 그리드들 각각은 상이한 표정을 나타내고, 각각의 표정 그리드는 상이한 표정들 하에서 동일한 3D 모델을 변경함으로써 형성되고, 동일한 표정 베이스 내의 상이한 표정 그리드들에 대응하는 정점 일련 번호들은 서로 일치한다.
전술한 변형가능한 그리드들에 대해, 단일 그리드가 미리 정의된 형상에 따라 변형되어, 임의의 수량의 그리드들을 획득할 수 있다.
화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스는 전술한 수학식 (1)과 조합하여 획득되어, 후속하여 제2 애니메이션 캐릭터를 구동할 수 있다.
S203. 타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정한다.
타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터는 도 3의 음향 특징 및 표정 파라미터 결정 모듈을 사용하여 결정될 수 있다. 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용된다.
타깃 텍스트 정보를 획득하는 복수의 방식이 존재할 수 있다는 점이 이해될 수 있다. 예를 들어, 타깃 텍스트 정보는 단말 디바이스를 통해 사용자에 의해 입력될 수 있거나, 단말 디바이스에 입력된 음성에 따른 변환을 통해 획득될 수 있다.
S204. 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동한다.
도 3의 애니메이션 구동 모듈을 사용함으로써, 음향 특징에 의해 식별된 음성과 조합하여 타깃 표정 파라미터에 의해 식별된 표정은 사람이 직관적으로 이해할 수 있는 방식으로 복수의 감각을 사용하여 제시된다. 실현가능한 방식은 타깃 표정 파라미터가 제2 표정 베이스 내의 표정 그리드들의 가중치들을 나타낸다고 가정하면, 대응하는 표정이 제2 표정 베이스의 선형 가중 조합을 통해 획득될 수 있다는 것이다. 음성 생성 동안, 음성에 대응하는 표정을 행하는 제2 애니메이션 캐릭터가 렌더링 방법을 사용하여 렌더링되어, 제2 애니메이션 캐릭터를 구동한다.
전술한 기술적 해결책들로부터, 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스는 화자가 음성을 말할 때 얼굴 표정 변화를 포함하는 비디오를 취득함으로써 결정될 수 있고, 제1 표정 베이스는 제1 애니메이션 캐릭터의 상이한 표정들을 반영할 수 있다는 것을 알 수 있다. 제2 애니메이션 캐릭터를 구동하기 위해 사용되는 타깃 텍스트 정보가 결정된 후에, 타깃 텍스트 정보, 전술한 미디어 데이터, 및 제1 표정 베이스에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터가 결정될 수 있다. 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용될 수 있고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용될 수 있다. 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터는 음향 특징 및 타깃 표정 파라미터에 따라 구동될 수 있어, 제2 애니메이션 캐릭터는 음향 특징에 따라, 화자가 타깃 텍스트 정보를 말할 때 생성되는 사운드를 시뮬레이팅하고, 발성 동안 화자의 표정에 부합하는 얼굴 표정을 행하여, 사용자에게 현실적인 존재감 및 몰입감을 야기함으로써, 사용자와 애니메이션 캐릭터 사이의 상호작용의 경험을 개선할 수 있다.
S203의 복수의 구현이 있을 수 있다는 점에 유의해야 한다. 일 구현은 본 출원의 이 실시예에서 상세히 설명된다.
가능한 구현에서, S203의 구현은 타깃 텍스트 정보 및 미디어 데이터에 따라 타깃 텍스트 정보에 대응하는 음향 특징 및 표정 특징을 결정하는 것을 포함할 수 있다. 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 표정 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정을 식별하기 위해 사용된다. 그 후, 제1 표정 베이스 및 표정 특징에 따라 타깃 표정 파라미터가 결정된다.
화자의 얼굴 표정 및 음성은 미디어 데이터에 동기적으로 기록되었다. 즉, 미디어 데이터에서의 화자의 얼굴 표정 및 음성은 동일한 시간 축에 대응한다. 따라서, 많은 수량의 미디어 데이터가 훈련 데이터로서 오프라인으로 미리 취득될 수 있다. 텍스트 특징, 음향 특징, 및 표정 특징은 미디어 데이터로부터 추출되고, 지속기간 모델, 음향 모델, 및 표정 모델은 특징들로 훈련함으로써 획득된다. 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터가 온라인으로 획득될 때, 타깃 텍스트 정보에 대응하는 지속기간은 지속기간 모델을 사용하여 결정될 수 있고, 그 후 대응하는 음향 특징 및 표정 특징은 지속기간을 타깃 텍스트 정보에 대응하는 텍스트 특징과 조합함으로써 음향 모델 및 표정 모델을 각각 사용하여 결정된다. 음향 특징 및 표정 특징 둘 다가 동일한 지속기간 모델에 기초하여 획득된 지속기간에 대응하기 때문에, 음성은 표정과 용이하게 동기화되어, 제2 애니메이션 캐릭터는 화자를 시뮬레이팅하여 대응하는 표정을 행하는 한편 화자를 시뮬레이팅하여 타깃 텍스트 정보에 대응하는 음성을 말한다.
다음은 S204의 가능한 구현을 설명한다. 이 실시예에서, 제2 애니메이션 캐릭터는 제1 애니메이션 캐릭터와 동일한 애니메이션 캐릭터일 수 있거나, 제1 애니메이션 캐릭터와 상이한 애니메이션 캐릭터일 수 있다는 것을 이해해야 한다. 2개의 경우에, S204의 구현들은 상이할 수 있다.
제1 경우에, 제1 애니메이션 캐릭터 및 제2 애니메이션 캐릭터는 동일한 애니메이션 캐릭터이다.
이 경우, 구동될 필요가 있는 애니메이션 캐릭터가 제1 애니메이션 캐릭터이다. 이러한 방식으로, 제1 애니메이션 캐릭터를 구동하기 위해, 제1 표정 베이스를 결정하는 것에 더하여 제1 애니메이션 캐릭터의 얼굴-대-파라미터 변환 파라미터가 추가로 결정되어, 제1 애니메이션 캐릭터의 얼굴 형상을 획득할 필요가 있다. 따라서, 단계 S202에서, 제1 애니메이션 캐릭터의 제1 표정 베이스 및 제1 애니메이션 캐릭터의 얼굴-대-파라미터 변환 파라미터가 얼굴 표정에 따라 결정될 수 있고, 얼굴-대-파라미터 변환 파라미터는 제1 애니메이션 캐릭터에 대응하는 얼굴-대-파라미터 변환 베이스에 대한 제1 애니메이션 캐릭터의 얼굴 형상의 변화 정도를 식별하기 위해 사용된다.
제1 애니메이션 캐릭터의 제1 표정 베이스 및 제1 애니메이션 캐릭터의 얼굴-대-파라미터 변환 파라미터를 결정하는 복수의 방식이 있다. 일부 경우들에서, 얼굴-대-파라미터 변환 파라미터가 얼굴 모델을 확립하기 위해 미디어 데이터에 기초하여 결정될 때, 취득된 미디어 데이터는 일반적으로 낮은 정밀도 및 비교적 큰 노이즈를 갖는다. 따라서, 확립된 얼굴 모델은 열악한 품질 및 많은 불확실성들을 갖고, 구성될 객체의 실제 외관을 정확하게 반영하는 것은 어렵다. 예를 들어, 모델링 품질은 비표준 취득으로 인해 낮다; 재구성 프로세스는 주변 조명, 사용자 메이크업 등에 의해 용이하게 영향을 받는다; 재확립된 얼굴 모델은 자연 상태에 있지 않은 표정을 포함한다; 확립된 얼굴 모델은 표정 파라미터가 추출될 비디오에 적응할 수 없다. 문제를 해결하기 위해, 본 출원의 실시예는 도 6을 참조하여 얼굴-대-파라미터 변환 파라미터를 결정하기 위한 방법을 제공한다.
도 6에서, 획득된 미디어 데이터가 복수의 얼굴 정점 데이터 세트를 포함할 수 있는 경우, 초기 얼굴-대-파라미터 변환 파라미터는 타깃 얼굴 모델을 식별하기 위해 사용되는 3DMM 라이브러리 내의 타깃 정점 데이터 및 복수의 얼굴 정점 데이터 세트 내의 제1 정점 데이터에 기초하여 결정될 수 있다. 초기 얼굴-대-파라미터 변환 파라미터를 결정하는 것에 기초하여, 미디어 데이터 내의 제2 정점 데이터를 획득함으로써 초기 얼굴-대-파라미터 변환 파라미터 및 타깃 정점 데이터에 기초하여 표정 파라미터가 결정되고, 그 후 표정 파라미터가 고정되어, 얼굴-대-파라미터 변환 파라미터를 역으로 추론하거나, 얼굴 형상을 어떻게 변경할지를 역으로 추론하여 표정 파라미터 하에서 화자의 얼굴 외관을 획득한다. 즉, 얼굴 형상을 역으로 추론하고 표정을 고정함으로써 초기 얼굴-대-파라미터 변환 파라미터가 정정되어, 타깃 얼굴-대-파라미터 변환 파라미터를 획득하여, 타깃 얼굴-대-파라미터 변환 파라미터를 제1 애니메이션 캐릭터의 얼굴-대-파라미터 변환 파라미터로서 사용한다.
제2 정점 데이터 및 제1 정점 데이터는 각각 구성될 객체의 상이한 얼굴 외관들을 식별하기 때문에, 제2 정점 데이터 및 제1 정점 데이터가 완전히 동일한 불확실성에 의해 영향을 받을 확률은 비교적 작다. 제1 정점 데이터에 기초하여 초기 얼굴-대-파라미터 변환 파라미터를 결정하는 것에 기초하여, 제2 정점 데이터에 기초하여 정정된 타깃 얼굴-대-파라미터 변환 파라미터는 제1 정점 데이터 내의 노이즈를 어느 정도 오프셋할 수 있어, 타깃 얼굴-대-파라미터 변환 파라미터를 사용하여 결정되는 화자에 대응하는 얼굴 모델은 비교적 높은 정확도를 갖는다.
제1 표정 베이스와 제2 표정 베이스가 동일하기 때문에, 즉 제1 표정 베이스와 제2 표정 베이스의 차원 수량들 및 각각의 차원의 시맨틱 정보가 동일하기 때문에, 결정된 타깃 표정 파라미터는 제2 애니메이션 캐릭터를 직접 구동할 수 있다. 따라서, S204에서 제2 애니메이션 캐릭터를 구동하는 방식은 음향 특징, 타깃 표정 파라미터, 및 얼굴-대-파라미터 변환 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 것일 수 있다.
제2 경우에, 제1 애니메이션 캐릭터 및 제2 애니메이션 캐릭터는 상이한 애니메이션 캐릭터들이다.
이 경우, 제1 표정 베이스는 제2 표정 베이스와 상이하기 때문에, 즉, 제1 표정 베이스 및 제2 표정 베이스의 차원 수량들 및 각각의 차원의 시맨틱 정보에 차이들이 있기 때문에, 타깃 표정 파라미터를 직접 사용함으로써 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 것이 어렵다. 제1 애니메이션 캐릭터에 대응하는 표정 파라미터와 제2 애니메이션 캐릭터에 대응하는 표정 파라미터 사이에 매핑 관계가 있고, 제1 애니메이션 캐릭터에 대응하는 표정 파라미터와 제2 애니메이션 캐릭터에 대응하는 표정 파라미터 사이의 매핑 관계는 함수 f()를 사용하여 표현될 수 있다. 이러한 방식으로, 제1 애니메이션 캐릭터에 대응하는 표정 파라미터에 따라 제2 애니메이션 캐릭터에 대응하는 표정 파라미터를 계산하기 위한 수학식은 다음과 같다:
Figure 112021105031333-pct00005
(2)
여기서, βb는 제2 애니메이션 캐릭터에 대응하는 표정 파라미터이고, βa는 제1 애니메이션 캐릭터에 대응하는 표정 파라미터이고, f()는 제1 애니메이션 캐릭터에 대응하는 표정 파라미터와 제2 애니메이션 캐릭터에 대응하는 표정 파라미터 사이의 매핑 관계를 나타낸다.
따라서, 매핑 관계가 결정되는 경우, 제2 애니메이션 캐릭터(예를 들어, 애니메이션 캐릭터 b)는 제1 애니메이션 캐릭터(예를 들어, 애니메이션 캐릭터 a)에 대응하는 표정 파라미터를 사용하여 직접 구동될 수 있다. 매핑 관계는 선형 매핑 관계 또는 비선형 매핑 관계일 수 있다.
타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하기 위해, 매핑 관계가 결정될 필요가 있다. 매핑 관계를 결정하는 복수의 방식이 있을 수 있고, 그 중 2개가 이 실시예에서 주로 기술된다.
제1 결정 방식은 제1 애니메이션 캐릭터에 대응하는 제1 표정 베이스 및 제2 애니메이션 캐릭터에 대응하는 제2 표정 베이스에 기초하여 표정 파라미터들 간의 매핑 관계를 결정하는 것을 포함할 수 있다. 도 7을 참조하면, 제1 애니메이션 캐릭터는 제1 애니메이션 캐릭터에 대응하는 실제 표정 파라미터에 따라 구동되어 실제 표정을 만들 수 있고, 실제 표정 파라미터는 상이한 차원들 하에서의 실제 표정과 표정 베이스 사이의 상관도를 반영할 수 있는데, 즉, 제2 애니메이션 캐릭터에 대응하는 실제 표정 파라미터는 또한 상이한 차원들 하에서의 제2 애니메이션 캐릭터의 실제 표정과 표정 베이스 사이의 상관도를 반영할 수 있다. 따라서, 표정 파라미터들 간의 매핑 관계는 제1 애니메이션 캐릭터에 대응하는 제1 표정 베이스 및 제2 애니메이션 캐릭터에 대응하는 제2 표정 베이스에 따라 전술한 표정 파라미터와 표정 베이스 사이의 연관 관계에 기초하여 결정될 수 있다. 그 후, 음향 특징, 타깃 표정 파라미터, 및 매핑 관계에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터가 구동된다.
제2 결정 방식은 음소와 제2 표정 베이스 사이의 미리 설정된 관계에 기초하여 표정 파라미터들 간의 매핑 관계를 결정하는 것을 포함할 수 있다.
음소는 음성의 자연 속성에 따라 분할을 통해 획득되는 최소 음성 단위이고, 음절에서의 발음 액션들에 대한 분석에 따라, 액션(예를 들어, 입 형상)이 음소를 형성한다. 즉, 음소는 화자와 독립적이다. 입 형상들과 같은 대응하는 표정들은, 화자가 누구인지, 음성의 언어가 영어인지 중국어인지, 및 생성된 음소들에 대응하는 텍스트들이 동일한지에 관계없이, 음성에서의 시간 간격 내의 음소들이 동일한 한 일관성을 갖는다. 도 8을 참조하면, 도 8은 시간 간격과 음소 사이의 대응을 도시하고, 어느 시간 간격이 음성에서의 어느 음소에 대응하는지를 설명한다. 예를 들어, 제2 행의 "5650000" 및 "6300000"은 타임스탬프들을 나타내고, 5.65초와 6.3초 사이의 시간 간격을 나타내며, 시간 간격에서 화자에 의해 생성된 음소는 "u"이다. 음소들에 대한 통계를 수집하기 위한 다양한 방법이 있으며, 본 실시예에서는 33개의 중국어 음소가 예로서 사용된다.
미디어 데이터에서의 얼굴 표정 및 음성은 동기적으로 취득되고, 대응하는 비디오 프레임들은 음성의 분할을 통해 편리하게 획득될 수 있다. 즉, 음성에 의해 식별된 음소, 음소에 대응하는 시간 간격, 및 시간 간격 내의 미디어 데이터의 비디오 프레임들이 미디어 데이터에 따라 결정된다. 이어서, 비디오 프레임들에 따라 음소에 대응하는 제1 표정 파라미터가 결정되고, 제1 표정 파라미터는 제1 표정 베이스에 대해 음소를 제공할 때 화자의 얼굴 표정의 변화 정도를 식별하기 위해 사용된다.
예를 들어, 도 8의 제2 행에서, 음소 "u"에 대해, 음소에 대응하는 시간 간격은 5.65초와 6.3초 사이이고, 5.65초와 6.3초 사이의 시간 간격에서의 비디오 프레임들이 결정되고, 음소 "u"에 대응하는 제1 표정 파라미터가 비디오 프레임들에 따라 추출된다. 제1 애니메이션 캐릭터가 애니메이션 캐릭터 a인 경우, 제1 표정 파라미터는 βa로 표현될 수 있다. 제1 표정 베이스의 차원 수량이 na인 경우, 획득된 제1 표정 파라미터 βa는 na의 길이를 갖는 벡터들의 세트이다.
매핑 관계를 결정하는 방식의 전제는 다른 애니메이션 캐릭터의 표정 베이스, 예를 들어, 제2 애니메이션 캐릭터에 대응하는 제2 표정 베이스가 음소와의 미리 설정된 관계에 따라 생성되는 것이다. 미리 설정된 관계는 하나의 음소가 하나의 표정 그리드에 대응하는 것을 나타낸다. 예를 들어, 제2 애니메이션 캐릭터 b에 대해, 미리 설정된 관계에서의 음소 "u"는 제1 표정 그리드에 대응하고, 음소 "i"는 제2 표정 그리드에 대응하는 등등이다. nb개의 음소가 있는 경우, nb개의 표정 그리드를 포함하는 제2 표정 베이스가 미리 설정된 관계에 따라 결정될 수 있다. 이 경우, 음성에 의해 식별된 음소가 결정된 후, 음소에 대응하는 제2 표정 파라미터는 미리 설정된 관계 및 제2 표정 베이스에 따라 결정될 수 있다. 이어서, 제1 표정 파라미터 및 제2 표정 파라미터에 따라 매핑 관계가 결정된다.
예를 들어, 음성에 의해 식별된 음소가 "u"이고, 제2 표정 베이스 및 미리 설정된 관계에 따라 음소 "u"가 제1 표정 그리드에 대응한다는 것을 알 수 있는 경우, 제2 표정 파라미터가
Figure 112021105031333-pct00006
이고, βb는 nb개의 요소를 포함하고, 나머지 (nb-1)개의 요소는 제1 요소가 1인 것을 제외하고는 모두 0인 것으로 결정될 수 있다.
이러한 방식으로, βb 와 βa 사이의 매핑 관계들이 확립된다. 많은 수량의 제1 표정 파라미터 βa가 획득될 때, 많은 수량의 대응하는 제2 표정 파라미터 βb가 생성될 수 있다. L개의 제1 표정 파라미터 βa 및 L개의 제2 표정 파라미터 βb가 있다고 가정하면, L개의 제1 표정 파라미터 βa는 제1 행렬을 형성하고, L개의 제2 표정 파라미터 βb는 제2 행렬을 형성하며, 이들은 각각 βA 및 βB로 표시되고, 여기서
Figure 112021105031333-pct00007
(3).
이 해결책에서, 예를 들어, 제1 표정 파라미터와 제2 표정 파라미터 사이에 선형 매핑 관계가 있다; 따라서, 전술한 수학식 (2)는 다음으로 변환될 수 있다:
Figure 112021105031333-pct00008
(4)
수학식 (3) 및 수학식 (4)에 따르면, 매핑 관계를 결정하기 위한 수학식은 다음과 같을 수 있다:
Figure 112021105031333-pct00009
여기서, f는 매핑 관계이고, βA는 제1 행렬이고, βB는 제2 행렬이고, inv는 행렬 역전 연산(matrix inversion operation)이다.
매핑 관계 f가 획득된 후에, 임의의 제1 표정 파라미터 βa에 대해, 대응하는
Figure 112021105031333-pct00010
가 획득되어, 제1 표정 파라미터에 따라 제2 표정 파라미터를 획득하여, 제2 애니메이션 캐릭터, 예를 들어, 애니메이션 캐릭터 b를 구동할 수 있다.
텍스트 정보에 기초하여 애니메이션 캐릭터를 구동하는 방법은 전술한 실시예들에서 주로 설명된다. 일부 경우들에서, 애니메이션 캐릭터는 미디어 데이터에 기초하여 직접 구동될 수 있다. 예를 들어, 미디어 데이터 내의 화자에 대응하는 제1 애니메이션 캐릭터는 제1 표정 베이스를 갖고, 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지이고, 제1 표정 베이스는 Ea로 표현될 수 있고, 제1 차원 수량은 Na로 표현될 수 있고, 제1 정점 토폴로지는 Ta로 표현될 수 있고, 제1 표정 베이스의 외관 Ea는 Fa이다; 구동될 제2 애니메이션 캐릭터는 제2 표정 베이스를 갖고, 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 제2 표정 베이스는 Eb로 표현될 수 있고, 제2 차원 수량은 Nb로 표현될 수 있고, 제2 정점 토폴로지는 Tb로 표현될 수 있고, 제2 표정 베이스의 외관 Eb는 Fb이다. 제2 애니메이션 캐릭터는 화자의 얼굴 표정 및 음성을 포함하는 미디어 데이터를 사용하여 구동될 것으로 예상된다.
이를 위해, 본 출원의 실시예는 AI 기반 애니메이션 캐릭터 구동 방법을 추가로 제공한다. 도 9를 참조하면, 방법은 다음의 단계들을 포함한다:
S901. 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득한다.
S902. 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정한다.
S903. 제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정한다.
이 실시예에서, 제1 표정 베이스의 차원 수량은 제2 표정 베이스의 차원 수량과 상이하고, 미디어 데이터 내의 화자의 얼굴 표정 및 음성에 따라 제2 애니메이션 캐릭터를 구동하기 위해, 새로운 표정 베이스, 예를 들어, 타깃 표정 베이스가 구성될 수 있어, 타깃 표정 베이스는 제1 표정 베이스 및 제2 표정 베이스 둘 다의 특징들을 갖는다.
일 구현에서, S903의 구현은 다음을 포함할 수 있다: 제1 표정 베이스로부터, 무표정인 제1 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하고, 제2 표정 베이스로부터, 무표정인 제2 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하는 것; 제1 캐릭터에 대응하는 무표정 그리드 및 제2 캐릭터에 대응하는 무표정 그리드에 따라 조정 그리드를 결정하는 것- 조정 그리드는 무표정인 제1 애니메이션 캐릭터를 식별하기 위해 제2 정점 토폴로지를 가짐 -; 및 조정 그리드 및 제2 표정 베이스에서의 그리드 변형 관계에 따라 타깃 표정 베이스를 생성하는 것.
제1 표정 베이스가 Ea이고, 제1 차원 수량이 Na이고, 제1 정점 토폴로지가 Ta이고, 제1 표정 베이스 Ea의 외관이 Fa이고, 제2 표정 베이스가 Eb이고, 제2 차원 수량이 Nb이고, 제2 정점 토폴로지가 Tb이고, 제2 표정 베이스 Eb의 외관이 Fb인 경우, 방법의 흐름도에 대해서는 도 10a를 참조할 수 있다. 타깃 표정 베이스 Eb'는 제1 표정 베이스 Ea 및 제2 표정 베이스 Eb에 기초하여 결정된다. 타깃 표정 베이스 Eb'를 결정하는 방식은 제2 표정 베이스 Eb의 무표정 그리드 및 제1 표정 베이스 Ea의 무표정 그리드를 추출하는 것을 포함할 수 있다. Eb의 무표정 그리드는 얼굴-대-파라미터 변환 알고리즘, 예를 들어, nricp 알고리즘을 사용하여 Ea의 무표정 그리드에 첨부되어, Eb의 무표정 그리드의 외관은 정점 토폴로지 Fb를 유지하면서 Ea의 외관으로 변경되어, 조정 그리드를 획득한다. 조정 그리드는 Newb에 의해 표현될 수 있다. 후속하여, Newb 및 제2 표정 베이스 Eb 내의 각각의 차원에서의 표정과 자연 표정(표정 없음) 사이의 그리드 변형 관계가 이미 알려져 있기 때문에, 타깃 표정 베이스 Eb'는 Newb 및 제2 표정 베이스 Eb 내의 그리드 변형 관계에 따라 Newb로부터 변형될 수 있다. 타깃 표정 베이스 Eb'의 외관은 Fa이고, 타깃 표정 베이스 Eb'의 차원들의 수량은 Nb이고, 타깃 표정 베이스 Eb'의 정점 토폴로지는 Tb이다.
S904. 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정한다.
타깃 표정 베이스가 획득된 후에, 도 10a를 참조하면, 음향 특징은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스 Eb'에 따라 추출되고, 타깃 표정 파라미터 Bb는 표정-대-파라미터 변환 알고리즘을 사용하여 획득된다. 타깃 표정 파라미터는 타깃 표정 베이스에 대해 화자가 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용된다.
이 방법을 사용하여 획득된 타깃 표정 파라미터 및 음향 특징은 전술한 음향 모델 및 표정 모델을 재훈련시키기 위해 사용될 수 있다는 것이 이해될 수 있다.
S905. 타깃 표정 파라미터 및 음향 특징에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동한다.
S901, S902, 및 S905의 특정 구현들에 대해, S201, S202, 및 S204의 전술한 구현들이 각각 참조될 수 있고, 세부 사항들은 본 명세서에서 다시 설명되지 않는다.
다음으로, 본 출원의 실시예들에서 제공되는 AI 기반 애니메이션 캐릭터 구동 방법이 실제 응용 시나리오를 참조하여 설명된다.
이 응용 시나리오에서, 제1 애니메이션 캐릭터는 화자의 캐릭터를 모방함으로써 구성되고, 제2 애니메이션 캐릭터는 게임에서 사용자와 상호작용하는 게임 역할의 캐릭터인 것으로 가정된다. 게임 역할이 입력된 타깃 텍스트 정보에 따라 사용자와 통신할 때, 타깃 텍스트 정보에 따라, 화자를 시뮬레이팅하여 타깃 텍스트 정보에 대응하는 음성을 생성하고 대응하는 표정을 행하도록 게임 역할을 구동할 것으로 예상된다. 따라서, 단말 디바이스는 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하고, 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정할 수 있다. 그 후, 단말 디바이스는, 타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하여, 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하여, 제2 애니메이션 캐릭터가 타깃 텍스트 정보에 대응하는 음성을 생성하고, 대응하는 표정을 행하게 한다. 이러한 방식으로, 사용자는 게임 역할이 화자를 시뮬레이팅하여 음성을 생성하고 대응하는 표정을 행하는 것을 알 수 있으며, 이는 현실적인 존재감 및 몰입감을 사용자에게 가져오며, 따라서 사용자와 애니메이션 캐릭터 사이의 상호작용의 경험을 개선한다.
전술한 실시예들에서 제공되는 방법에 기초하여, 실시예는 애니메이션 캐릭터 구동 장치(1000)를 추가로 제공한다. 장치(1000)는 오디오 및 비디오 처리 디바이스 상에 배치된다. 도 10b를 참조하면, 장치(1000)는 획득 유닛(1001), 제1 결정 유닛(1002), 제2 결정 유닛(1003), 및 구동 유닛(1004)을 포함한다:
획득 유닛(1001)은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하도록 구성되고;
제1 결정 유닛(1002)은 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고, 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고;
제2 결정 유닛(1003)은 타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하도록 구성되고, 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용되고; 및
구동 유닛(1004)은 음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하도록 구성된다.
가능한 구현에서, 제1 애니메이션 캐릭터 및 제2 애니메이션 캐릭터는 동일한 애니메이션 캐릭터이고, 제1 표정 베이스는 제2 표정 베이스와 동일하고, 제1 결정 유닛(1002)은:
얼굴 표정에 따라 제1 애니메이션 캐릭터의 제1 표정 베이스 및 제1 애니메이션 캐릭터의 얼굴-대-파라미터 변환 파라미터를 결정하도록 구성되고, 얼굴-대-파라미터 변환 파라미터는 제1 애니메이션 캐릭터에 대응하는 얼굴-대-파라미터 변환 베이스에 대한 제1 애니메이션 캐릭터의 얼굴 형상의 변화 정도를 식별하기 위해 사용된다.
구동 유닛(1004)은:
음향 특징, 타깃 표정 파라미터, 및 얼굴-대-파라미터 변환 파라미터에 따라 제2 애니메이션 캐릭터를 구동하도록 구성된다.
가능한 구현에서, 제1 애니메이션 캐릭터 및 제2 애니메이션 캐릭터는 상이한 애니메이션 캐릭터들이고, 제1 표정 베이스는 제2 표정 베이스와 상이하고, 구동 유닛(1004)은:
제1 표정 베이스에 대응하는 표정 파라미터와 제2 표정 베이스에 대응하는 표정 파라미터 사이의 매핑 관계를 결정하고; 및
음향 특징, 타깃 표정 파라미터, 및 매핑 관계에 따라 제2 애니메이션 캐릭터를 구동하도록 구성된다.
가능한 구현에서, 제2 표정 베이스는 제2 표정 베이스와 음소 사이의 미리 설정된 관계에 따라 생성되고, 구동 유닛(1004)은:
미디어 데이터에 따라, 음성에 의해 식별된 음소, 음소에 대응하는 시간 간격, 및 시간 간격에서의 미디어 데이터의 비디오 프레임들을 결정하고;
비디오 프레임들에 따라 음소에 대응하는 제1 표정 파라미터를 결정하고- 제1 표정 파라미터는 제1 표정 베이스에 대해 음소를 제공할 때 화자의 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -;
미리 설정된 관계 및 제2 표정 베이스에 따라 음소에 대응하는 제2 표정 파라미터를 결정하고; 및
제1 표정 파라미터 및 제2 표정 파라미터에 따라 매핑 관계를 결정하도록 추가로 구성된다.
가능한 구현에서, 제2 결정 유닛(1003)은:
타깃 텍스트 정보 및 미디어 데이터에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 표정 특징을 결정하고- 표정 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정을 식별하기 위해 사용됨 -; 및
제1 표정 베이스 및 표정 특징에 따라 타깃 표정 파라미터를 결정하도록 구성된다.
실시예는 애니메이션 캐릭터 구동 장치(1000)를 추가로 제공한다. 장치(1100)는 오디오 및 비디오 처리 디바이스 상에 배치된다. 도 11을 참조하면, 장치(1100)는 획득 유닛(1101), 제1 결정 유닛(1102), 제2 결정 유닛(1103), 제3 결정 유닛(1104), 및 구동 유닛(1105)을 포함한다:
획득 유닛(1101)은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하도록 구성되고;
제1 결정 유닛(1102)은 얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
제2 결정 유닛(1103)은 구동될 제2 애니메이션 캐릭터의 제1 표정 베이스 및 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하도록 구성되고- 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 타깃 표정 베이스는 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 타깃 표정 베이스의 차원 수량은 제2 차원 수량임 -;
제3 결정 유닛(1104)은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하도록 구성되고- 타깃 표정 파라미터는 타깃 표정 베이스에 대해 화자가 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
구동 유닛(1105)은 타깃 표정 파라미터 및 음향 특징에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하도록 구성된다.
가능한 구현에서, 제2 결정 유닛(1103)은: 제1 표정 베이스로부터, 무표정인 제1 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하고, 제2 표정 베이스로부터, 무표정인 제2 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하고;
제1 애니메이션 캐릭터에 대응하는 무표정 그리드 및 제2 애니메이션 캐릭터에 대응하는 무표정 그리드에 따라 조정 그리드를 결정하고- 조정 그리드는 무표정인 제1 애니메이션 캐릭터를 식별하기 위해 제2 정점 토폴로지를 가짐 -; 및
조정 그리드 및 제2 표정 베이스에서의 그리드 변형 관계에 따라 타깃 표정 베이스를 생성하도록 구성된다.
본 출원의 실시예는 애니메이션 캐릭터 구동 디바이스를 추가로 제공한다. 디바이스는 음성을 사용하여 애니메이션을 구동할 수 있고, 디바이스는 오디오 및 비디오 처리 디바이스일 수 있다. 이하, 첨부 도면을 참조하여 디바이스가 설명된다. 도 12를 참조하면, 본 출원의 실시예는 애니메이션 캐릭터 구동 디바이스를 제공하고, 디바이스는 대안적으로 단말 디바이스일 수 있다. 단말 디바이스는 모바일 폰, 태블릿 컴퓨터, PDA, POS(point of sales), 또는 온-보드 컴퓨터를 포함하는 임의의 스마트 단말일 수 있고, 모바일 폰인 단말 디바이스가 예로서 사용된다.
도 12는 본 출원의 실시예에 따른 단말 디바이스와 관련된 모바일 폰의 일부의 구조의 블록도이다. 도 12를 참조하면, 모바일 폰은 무선 주파수(RF) 회로(1210), 메모리(1220), 입력 유닛(1230), 디스플레이 유닛(1240), 센서(1250), 오디오 회로(1260), Wi-Fi(wireless fidelity) 모듈(1270), 프로세서(1280), 및 전원(1290)과 같은 컴포넌트들을 포함한다. 본 기술분야의 통상의 기술자는 도 12에 도시된 모바일 폰의 구조가 모바일 폰에 대한 제한을 구성하지 않으며, 모바일 폰은 도면에 도시된 것들보다 많은 컴포넌트들 또는 적은 컴포넌트들을 포함할 수 있거나, 일부 컴포넌트들이 결합될 수 있거나, 상이한 컴포넌트 배치가 사용될 수 있다는 것을 이해할 수 있다.
다음은 도 12를 참조하여 모바일 폰의 컴포넌트들을 상세히 설명한다.
RF 회로(1210)는 정보 수신 및 전송 프로세스 또는 호출 프로세스 동안 신호들을 전송 및 수신하도록 구성될 수 있다. 특히, RF 회로는 기지국으로부터 다운링크 정보를 수신하고, 그 후 처리하기 위한 프로세서(1280)에 다운링크 정보를 전달하고, 설계된 업링크 데이터를 기지국에 전송한다. 일반적으로, RF 회로(1210)는 안테나, 적어도 하나의 증폭기, 송수신기, 커플러, 저노이즈 증폭기(low noise amplifier, LNA), 및 듀플렉서를 포함하지만, 이에 제한되지 않는다. 덧붙여서, RF 회로(1210)는 네트워크 및 다른 디바이스와는 무선 통신에 의해 또한 통신할 수 있다. 무선 통신은 GSM(Global system for mobile communications), GPRS(general packet radio service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 이메일, SMS(Short Messaging Service) 등을 포함하지만 이에 제한되지 않는 임의의 통신 표준 또는 프로토콜을 사용할 수 있다.
메모리(1220)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(1280)는 메모리(1220)에 저장되는 소프트웨어 프로그램 및 모듈을 실행하여, 모바일 폰의 다양한 기능 애플리케이션들 및 데이터 처리를 수행한다. 메모리(1220)는 프로그램 저장 영역 및 데이터 저장 영역을 주로 포함할 수 있다. 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능(예컨대 사운드 재생 기능 및 이미지 디스플레이 기능)에 의해 요구되는 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 모바일 폰의 사용, 기타 등등에 따라 생성된 데이터(예를 들어 오디오 데이터 및 주소록)를 저장할 수 있다. 게다가, 메모리(1220)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비휘발성 메모리, 예를 들어, 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리 디바이스, 또는 다른 휘발성 고체 상태 저장 디바이스를 또한 포함할 수 있다.
입력 유닛(1230)은 입력된 숫자 또는 캐릭터 정보를 수신하고, 모바일 폰의 사용자 설정 및 기능 제어에 관련된 키보드 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 입력 유닛(1230)은 터치 패널(1231) 및 다른 입력 디바이스(1232)를 포함할 수 있다. 터치 스크린이라고도 지칭될 수 있는 터치 패널(1231)은 터치 패널 상의 또는 그 부근에서의 사용자의 터치 동작(예컨대 임의의 적합한 물체 또는 손가락 또는 스타일러스와 같은 액세서리를 사용한 터치패널(1231) 상의 또는 그 부근에서의 사용자의 동작)을 수집하고, 미리 설정된 프로그램에 따라 대응하는 접속 장치를 구동할 수 있다. 선택적으로, 터치 패널(1231)은 2개의 부분: 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 동작에 의해 발생된 신호를 검출하고, 신호를 터치 제어기에 전달한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 정보를 터치 포인트 좌표로 변환하고, 터치 포인트 좌표를 프로세서(1280)에 송신한다. 또한, 터치 제어기는 프로세서(1280)로부터 송신된 커맨드를 수신하고 실행할 수 있다. 게다가, 터치 패널(1231)은 저항성 타입, 용량성 타입, 적외선 타입, 및 표면 탄성파 타입과 같은 다수의 타입을 사용하여 구현될 수 있다. 터치 패널(1231)에 더하여, 입력 유닛(1230)은 다른 입력 디바이스(1232)를 추가로 포함할 수 있다. 구체적으로, 다른 입력 디바이스(1232)는 물리적 키보드, 기능 키(예컨대 볼륨 제어 키 또는 스위치 키), 트랙 볼, 마우스, 및 조이스틱 중 하나 이상을 비제한적으로 포함할 수 있다.
디스플레이 유닛(1240)은 사용자에 의해 입력된 정보 또는 사용자에 대해 제공된 정보, 및 모바일 폰의 다양한 메뉴들을 디스플레이하도록 구성될 수 있다. 디스플레이 유닛(1240)은 디스플레이 패널(1241)을 포함할 수 있다. 선택적으로, 디스플레이 패널(1241)은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 등의 형태로 구성될 수 있다. 또한, 터치 패널(1231)은 디스플레이 패널(1241)을 커버할 수 있다. 터치 패널 상의 또는 그 근처의 터치 동작을 검출한 후에, 터치 패널(1231)은 터치 동작을 프로세서(1280)에 전달하여, 터치 이벤트의 타입을 결정한다. 그 후, 프로세서(1280)는 터치 이벤트의 타입에 따라 디스플레이 패널(1241) 상에 대응하는 시각적 출력을 제공한다. 도 12에서는 터치 패널(1231) 및 디스플레이 패널(1241)이 모바일 폰의 입력 및 출력 기능들을 구현하기 위해 2개의 별개의 부분으로서 사용되지만, 일부 실시예들에서는, 터치 패널(1231) 및 디스플레이 패널(1241)이 통합되어 모바일 폰의 입력 및 출력 기능들을 구현할 수 있다.
모바일 폰은 광학 센서, 모션 센서, 및 다른 센서들과 같은 적어도 하나의 센서(1250)를 추가로 포함할 수 있다. 구체적으로, 광학 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널(1241)의 휘도를 조정할 수 있다. 근접 센서는 모바일 폰이 귀로 이동될 때 디스플레이 패널(1241) 및/또는 백라이트를 스위치 오프(switch off)할 수 있다. 모션 센서의 일 타입으로서, 가속도 센서가 다양한 방향들에서의(일반적으로 3개의 축 상의) 가속도들의 크기를 검출할 수 있고, 정적일 때 중력의 크기 및 방향을 검출할 수 있으며, 모바일 폰의 자세를 인지하는 애플리케이션(예를 들어, 가로 배향과 세로 배향 사이의 전환, 관련된 게임, 및 자력계 자세 교정), 진동 인지와 관련된 기능(예컨대 만보계 및 노크), 기타 등등에 적용될 수 있다. 모바일 폰에서 구성될 수 있는 자이로스코프, 기압계, 습도계, 온도계, 및 적외선 센서와 같은 다른 센서들은 본 명세서에서 추가로 설명되지 않는다.
오디오 회로(1260), 확성기(1261), 및 마이크로폰(1262)은 사용자와 모바일 폰 사이에 오디오 인터페이스들을 제공할 수 있다. 오디오 회로(1260)는 수신되는 오디오 데이터를 전기 신호로 변환할 수 있고, 전기 신호를 확성기(1261)에 전송할 수 있다. 확성기(1261)는 전기 신호를 출력을 위한 사운드 신호로 변환한다. 한편, 마이크로폰(1262)은 수집된 사운드 신호를 전기 신호로 변환한다. 오디오 회로(1260)는 전기 신호를 수신하고 전기 신호를 오디오 데이터로 변환하고, 처리를 위해 프로세서(1280)에 오디오 데이터를 출력한다. 그 후, 프로세서는 오디오 데이터를 RF 회로(1210)를 사용하여 예를 들어, 다른 모바일 폰에 전송하거나, 오디오 데이터를 추가 처리를 위해 메모리(1220)에 출력한다.
Wi-Fi는 단거리 무선 송신 기술이다. 모바일 폰은, Wi-Fi 모듈(1270)을 사용하여, 사용자가 이메일을 수신 및 송신하고, 웹 페이지를 브라우징하고, 스트림 미디어에 액세스하는 것 등을 도울 수 있다. 이는 사용자에게 무선 광대역 인터넷 액세스를 제공한다. 도 12는 Wi-Fi 모듈(1270)을 도시하지만, Wi-Fi 모듈은 모바일 폰의 필수 컴포넌트가 아니고, Wi-Fi 모듈은 본 발명의 본질의 범위가 변경되지 않는 한 필요에 따라 생략될 수 있다는 것을 이해할 수 있다.
프로세서(1280)는 모바일 폰의 제어 센터이고, 다양한 인터페이스들 및 라인들을 사용하여 모바일 폰의 다양한 부분들에 접속된다. 메모리(1220)에 저장된 소프트웨어 프로그램 및/또는 모듈을 가동 또는 실행하고, 메모리(1220)에 저장된 데이터를 호출하는 것에 의해, 프로세서는 모바일 폰의 다양한 기능들 및 데이터 처리를 수행하고, 이로써 모바일 폰에 대한 전반적인 모니터링을 수행한다. 선택적으로, 프로세서(1280)는 하나 이상의 처리 유닛을 포함할 수 있다. 바람직하게는, 프로세서(1280)는 애플리케이션 프로세서와 모뎀을 통합할 수 있다. 애플리케이션 프로세서는 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 주로 처리한다. 모뎀은 주로 무선 통신을 처리한다. 모뎀이 프로세서(1280)에 통합되지 않을 수도 있다는 것이 이해될 수 있다.
모바일 폰은 컴포넌트들에 전력을 공급하기 위한 전원(1290)(예컨대 배터리)을 추가로 포함한다. 바람직하게는, 전원은 전력 관리 시스템을 사용하는 것에 의해 프로세서(1280)에 논리적으로 접속됨으로써, 전력 관리 시스템을 사용하는 것에 의한 충전, 방전, 및 소비 전력 관리와 같은 기능들을 구현할 수 있다.
도면에 도시되지는 않았지만, 모바일 폰은 카메라, 블루투스 모듈 등을 추가로 포함할 수 있다. 세부 사항들은 본 명세서에서 설명되지 않는다.
이 실시예에서, 단말 디바이스에 포함된 프로세서(1280)는 다음의 기능들을 추가로 갖는다:
화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하는 기능;
얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 기능- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용됨 -;
타깃 텍스트 정보, 미디어 데이터, 및 제1 표정 베이스에 따라, 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하는 기능- 음향 특징은 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 타깃 표정 파라미터는 제1 표정 베이스에 대해 화자가 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
음향 특징 및 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 기능;
또는,
화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하는 기능;
얼굴 표정에 따라 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 기능- 제1 표정 베이스는 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하는 기능- 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 타깃 표정 베이스는 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 타깃 표정 베이스의 차원 수량은 제2 차원 수량임 -;
화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하는 기능- 타깃 표정 파라미터는 타깃 표정 베이스에 대해 화자가 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
타깃 표정 파라미터 및 음향 특징에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 기능.
본 출원의 실시예는 서버를 추가로 제공한다. 도 13은 본 출원의 실시예에 따른 서버(1300)의 구조도이다. 서버(1300)는 상이한 구성들 또는 성능으로 인해 크게 변할 수 있고, 하나 이상의 중앙 처리 유닛(CPU)(1322)(예를 들어, 하나 이상의 프로세서) 및 메모리(1332), 및 애플리케이션 프로그램들(1342) 또는 데이터(1344)를 저장하는 하나 이상의 저장 매체(1330)(예를 들어, 하나 이상의 대용량 저장 디바이스)를 포함할 수 있다. 메모리(1332) 및 저장 매체(1330)는 일시적 저장 또는 영구적 저장을 구현할 수 있다. 저장 매체(1330)에 저장되는 프로그램은 하나 이상의 모듈(도면에 나타나지 않음)을 포함할 수 있고, 각각의 모듈은 서버 상에 일련의 명령 동작들을 포함할 수 있다. 게다가, CPU(1322)는 저장 매체(1330)와 통신하고, 서버(1300) 상에서, 저장 매체(1330)에서의 일련의 명령 동작들을 수행하도록 구성될 수 있다.
서버(1300)는 하나 이상의 전원(1326), 하나 이상의 유선 또는 무선 네트워크 인터페이스(1350), 하나 이상의 입력/출력 인터페이스(1358), 및/또는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, 및 FreeBSDTM와 같은 하나 이상의 운영 체제(1341)를 추가로 포함할 수 있다.
전술한 실시예들에서 서버에 의해 수행되는 단계들은 도 13에 도시된 서버 구조에 기초할 수 있다.
본 출원의 실시예는 프로그램 코드를 저장하도록 구성되는 컴퓨터 판독가능 저장 매체를 추가로 제공하며, 프로그램 코드는 전술한 실시예들에 따른 애니메이션 캐릭터 구동 방법을 수행하기 위해 사용된다.
본 출원의 실시예는 명령어들을 포함하는 컴퓨터 프로그램 제품을 추가로 제공하고, 이러한 명령어들은, 컴퓨터 상에서 실행될 때, 컴퓨터로 하여금 전술한 실시예들에 따른 애니메이션 캐릭터 구동 방법을 수행하게 한다.
본 출원의 명세서 및 첨부 도면들에서, 용어들 "제1", "제2", "제3", "제4" 등(존재하는 경우)은 특정 시퀀스 또는 우선 순위를 설명하기보다는 유사한 객체들을 구별하도록 의도된다. 이러한 방식으로 사용되는 데이터는 본 명세서에 설명된 본 출원의 실시예들이 본 명세서에 예시되거나 설명된 시퀀스 이외의 시퀀스로 구현될 수 있도록, 적절할 때 교환될 수 있다는 것을 이해해야 한다. 더욱이, "포함하다(include)", "포함하다(contain)"이라는 용어들 및 임의의 다른 변형들은 비-배타적인 포함을 커버하는 것을 의미하고, 예를 들어, 단계들 또는 유닛들의 리스트를 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스가 반드시 이러한 명시적으로 열거된 단계들 또는 유닛들로 제한되는 것은 아니고, 명시적으로 열거되지 않은 또는 이러한 프로세스, 방법, 시스템, 제품, 또는 디바이스에 고유한 다른 단계들 또는 유닛들을 포함할 수 있다.
본 출원에서, "적어도 하나"는 하나 이상을 지칭하고, "복수의"는 2개 이상을 지칭한다는 것을 이해해야 한다. 용어 "및/또는"은 연관된 객체들 사이의 연관을 설명하고 3개의 연관이 존재할 수 있음을 나타내기 위해 사용된다. 예를 들어, "A 및/또는 B"는 A만 존재하고, B만 존재하고, A와 B 둘 다가 존재함을 표시할 수 있으며, 여기서 A와 B는 단수 또는 복수일 수 있다. 문자 "/"는 일반적으로 연관된 객체들 사이의 "또는" 관계를 표시한다. "다음 중 적어도 하나" 또는 그의 유사한 표현은 하나의 항목 또는 복수의 항목의 임의의 조합을 포함하는 이들 항목의 임의의 조합을 지칭한다. 예를 들어, a, b, 또는 c 중 적어도 하나는 a, b, c, "a 및 b", "a 및 c", "b 및 c", 또는 "a, b, 및 c"를 표시할 수 있고, 여기서 a, b, 및 c는 단수 또는 복수일 수 있다.
본 출원에서 제공되는 몇몇 실시예들에서, 개시된 시스템, 장치, 및 방법은 다른 방식들로 구현될 수 있다. 예를 들어, 설명된 장치 실시예는 단지 예시적이다. 예를 들어, 유닛 분할은 단지 논리 기능 분할이고 실제 구현 동안 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 조합되거나 다른 시스템에 통합되거나, 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되는 또는 논의되는 상호 결합들 또는 직접 결합들 또는 통신 접속들은 일부 인터페이스들을 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접적인 결합들 또는 통신 접속들은 전자적, 기계적 또는 기타의 형태들로 구현될 수 있다.
별개의 부분들로서 설명된 유닛들은 물리적으로 분리되거나 분리되지 않을 수도 있고, 유닛들로서 표시된 컴포넌트들은 물리적 유닛들이거나 아닐 수도 있는데, 즉, 한 위치에 위치하거나, 복수의 네트워크 유닛에 분산될 수도 있다. 일부 또는 모든 유닛들은 실제 요건들에 따라 선택되어 실시예들에서 해결책들의 목적들을 달성할 수 있다.
또한, 본 출원의 실시예들에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 이러한 유닛들 각각은 물리적으로 분리될 수 있거나, 또는 2개 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 통합된 유닛은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 또는 사용될 때, 통합된 유닛은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결책들은 본질적으로, 또는 관련 기술에 기여하는 부분, 또는 기술적 해결책들의 전부 또는 일부는, 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 출원의 실시예들에 설명되는 방법들의 단계들의 전부 또는 일부를 수행하라고 명령하는 수개의 명령어를 포함한다. 전술한 저장 매체는: USB 플래시 드라이브, 이동식 하드 디스크, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크, 또는 광 디스크와 같이, 컴퓨터 프로그램을 저장할 수 있는 임의의 매체를 포함한다.
전술한 실시예들은, 본 출원을 제한하기 위해서가 아니라, 단지 본 출원의 기술적 해결책들을 설명하기 위해 의도된다. 본 출원이 전술한 실시예들을 참조하여 상세히 설명되더라도, 본 기술분야에서의 통상의 기술자들은, 본 출원의 실시예들의 기술적 해결책들의 사상 및 범위로부터 벗어나지 않고, 여전히 전술한 실시예들에서 설명되는 기술적 해결책들에 수정들을 행할 수 있거나 또는 그 일부 기술적 특징들에 대해 동등한 대체들을 행할 수 있다는 점을 이해한다.

Claims (16)

  1. 오디오 및 비디오 처리 디바이스에 의해 수행되는 애니메이션 캐릭터 구동 방법으로서,
    화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하는 단계;
    상기 얼굴 표정에 따라 상기 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 단계- 상기 제1 표정 베이스는 상기 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용됨 -;
    타깃 텍스트 정보, 상기 미디어 데이터, 및 상기 제1 표정 베이스에 따라, 상기 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하는 단계- 상기 음향 특징은 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 상기 타깃 표정 파라미터는 상기 제1 표정 베이스에 대해 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
    상기 음향 특징 및 상기 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 단계를 포함하고,
    상기 제1 애니메이션 캐릭터 및 상기 제2 애니메이션 캐릭터는 상이한 애니메이션 캐릭터들이고, 상기 제1 표정 베이스는 상기 제2 표정 베이스와 상이하고, 상기 음향 특징 및 상기 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하는 것은:
    상기 제1 표정 베이스에 대응하는 표정 파라미터와 상기 제2 표정 베이스에 대응하는 표정 파라미터 사이의 매핑 관계를 결정하는 것; 및
    상기 음향 특징, 상기 타깃 표정 파라미터, 및 상기 매핑 관계에 따라 상기 제2 애니메이션 캐릭터를 구동하는 것을 포함하는 애니메이션 캐릭터 구동 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 제2 표정 베이스는 상기 제2 표정 베이스와 음소 사이의 미리 설정된 관계에 따라 생성되고, 상기 제1 표정 베이스에 대응하는 표정 파라미터와 상기 제2 표정 베이스에 대응하는 표정 파라미터 사이의 매핑 관계를 결정하는 것은:
    상기 미디어 데이터에 따라, 상기 음성에 의해 식별된 음소, 상기 음소에 대응하는 시간 간격, 및 상기 시간 간격에서의 상기 미디어 데이터의 비디오 프레임들을 결정하는 것;
    상기 비디오 프레임들에 따라 상기 음소에 대응하는 제1 표정 파라미터를 결정하는 것- 상기 제1 표정 파라미터는 상기 제1 표정 베이스에 대해 상기 음소를 제공할 때 상기 화자의 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -;
    상기 미리 설정된 관계 및 상기 제2 표정 베이스에 따라 상기 음소에 대응하는 제2 표정 파라미터를 결정하는 것; 및
    상기 제1 표정 파라미터 및 상기 제2 표정 파라미터에 따라 상기 매핑 관계를 결정하는 것을 포함하는, 애니메이션 캐릭터 구동 방법.
  5. 제1항에 있어서,
    상기 타깃 텍스트 정보, 상기 미디어 데이터, 및 상기 제1 표정 베이스에 따라, 상기 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하는 것은:
    상기 타깃 텍스트 정보 및 상기 미디어 데이터에 따라, 상기 타깃 텍스트 정보에 대응하는 상기 음향 특징 및 표정 특징을 결정하는 것- 상기 표정 특징은 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정을 식별하기 위해 사용됨 -; 및
    상기 제1 표정 베이스 및 상기 표정 특징에 따라 상기 타깃 표정 파라미터를 결정하는 것을 포함하는, 애니메이션 캐릭터 구동 방법.
  6. 오디오 및 비디오 처리 디바이스 상에 배치된 애니메이션 캐릭터 구동 장치로서,
    획득 유닛, 제1 결정 유닛, 제2 결정 유닛 및 구동 유닛을 포함하고,
    상기 획득 유닛은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 미디어 데이터를 획득하도록 구성되고;
    상기 제1 결정 유닛은 상기 얼굴 표정에 따라 상기 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고- 상기 제1 표정 베이스는 상기 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용됨 -;
    상기 제2 결정 유닛은 타깃 텍스트 정보, 상기 미디어 데이터, 및 상기 제1 표정 베이스에 따라, 상기 타깃 텍스트 정보에 대응하는 음향 특징 및 타깃 표정 파라미터를 결정하도록 구성되고- 상기 음향 특징은 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 사운드를 식별하기 위해 사용되고, 상기 타깃 표정 파라미터는 상기 제1 표정 베이스에 대해 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
    상기 구동 유닛은 상기 음향 특징 및 상기 타깃 표정 파라미터에 따라 제2 표정 베이스를 갖는 제2 애니메이션 캐릭터를 구동하도록 구성되고,
    상기 제1 애니메이션 캐릭터 및 상기 제2 애니메이션 캐릭터는 상이한 애니메이션 캐릭터들이고, 상기 제1 표정 베이스는 상기 제2 표정 베이스와 상이하고, 상기 구동 유닛은:
    상기 제1 표정 베이스에 대응하는 표정 파라미터와 상기 제2 표정 베이스에 대응하는 표정 파라미터 사이의 매핑 관계를 결정하고;
    상기 음향 특징, 상기 타깃 표정 파라미터, 및 상기 매핑 관계에 따라 상기 제2 애니메이션 캐릭터를 구동하도록 구성되는 애니메이션 캐릭터 구동 장치.
  7. 삭제
  8. 삭제
  9. 제6항에 있어서,
    상기 제2 표정 베이스는 상기 제2 표정 베이스와 음소 사이의 미리 설정된 관계에 따라 생성되고, 상기 구동 유닛은:
    상기 미디어 데이터에 따라, 상기 음성에 의해 식별된 음소, 상기 음소에 대응하는 시간 간격, 및 상기 시간 간격에서의 상기 미디어 데이터의 비디오 프레임들을 결정하고;
    상기 비디오 프레임들에 따라 상기 음소에 대응하는 제1 표정 파라미터를 결정하고- 상기 제1 표정 파라미터는 상기 제1 표정 베이스에 대해 상기 음소를 제공할 때 상기 화자의 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -;
    상기 미리 설정된 관계 및 상기 제2 표정 베이스에 따라 상기 음소에 대응하는 제2 표정 파라미터를 결정하고;
    상기 제1 표정 파라미터 및 상기 제2 표정 파라미터에 따라 상기 매핑 관계를 결정하도록 추가로 구성되는, 애니메이션 캐릭터 구동 장치.
  10. 제6항에 있어서,
    상기 제2 결정 유닛은,
    상기 타깃 텍스트 정보 및 상기 미디어 데이터에 따라, 상기 타깃 텍스트 정보에 대응하는 상기 음향 특징 및 표정 특징을 결정하고- 상기 표정 특징은 상기 화자가 상기 타깃 텍스트 정보를 말할 때 시뮬레이팅되는 얼굴 표정을 식별하기 위해 사용됨 -; 및
    상기 제1 표정 베이스 및 상기 표정 특징에 따라 상기 타깃 표정 파라미터를 결정하도록 구성되는, 애니메이션 캐릭터 구동 장치.
  11. 오디오 및 비디오 처리 디바이스에 의해 수행되는 애니메이션 캐릭터 구동 방법으로서,
    화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하는 단계;
    상기 얼굴 표정에 따라 상기 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하는 단계- 상기 제1 표정 베이스는 상기 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 상기 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 상기 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
    상기 제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하는 단계- 상기 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 상기 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 상기 타깃 표정 베이스는 상기 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 상기 타깃 표정 베이스의 차원 수량은 상기 제2 차원 수량임 -;
    상기 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 상기 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하는 단계- 상기 타깃 표정 파라미터는 상기 타깃 표정 베이스에 대해 상기 화자가 상기 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
    상기 타깃 표정 파라미터 및 상기 음향 특징에 따라 상기 제2 표정 베이스를 갖는 상기 제2 애니메이션 캐릭터를 구동하는 단계를 포함하는 애니메이션 캐릭터 구동 방법.
  12. 제11항에 있어서,
    상기 제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하는 것은:
    상기 제1 표정 베이스로부터, 무표정인 상기 제1 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하고, 상기 제2 표정 베이스로부터, 무표정인 상기 제2 애니메이션 캐릭터에 대응하는 무표정 그리드를 결정하는 것;
    상기 제1 애니메이션 캐릭터에 대응하는 무표정 그리드 및 상기 제2 애니메이션 캐릭터에 대응하는 무표정 그리드에 따라 조정 그리드를 결정하는 것- 상기 조정 그리드는 무표정인 상기 제1 애니메이션 캐릭터를 식별하기 위해 상기 제2 정점 토폴로지를 가짐 -; 및
    상기 조정 그리드 및 상기 제2 표정 베이스에서의 그리드 변형 관계에 따라 상기 타깃 표정 베이스를 생성하는 것을 포함하는, 애니메이션 캐릭터 구동 방법.
  13. 애니메이션 캐릭터 구동 장치로서,
    상기 장치는 오디오 및 비디오 처리 디바이스 상에 배치되고, 상기 장치는 획득 유닛, 제1 결정 유닛, 제2 결정 유닛, 제3 결정 유닛, 및 구동 유닛을 포함하고,
    상기 획득 유닛은 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제1 미디어 데이터를 획득하도록 구성되고;
    상기 제1 결정 유닛은 상기 얼굴 표정에 따라 상기 화자에 대응하는 제1 애니메이션 캐릭터의 제1 표정 베이스를 결정하도록 구성되고- 상기 제1 표정 베이스는 상기 제1 애니메이션 캐릭터의 표정들을 식별하기 위해 사용되고, 상기 제1 표정 베이스의 차원 수량은 제1 차원 수량이고, 상기 제1 표정 베이스의 정점 토폴로지는 제1 정점 토폴로지임 -;
    상기 제2 결정 유닛은 상기 제1 표정 베이스 및 구동될 제2 애니메이션 캐릭터의 제2 표정 베이스에 따라 타깃 표정 베이스를 결정하도록 구성되고- 상기 제2 표정 베이스의 차원 수량은 제2 차원 수량이고, 상기 제2 표정 베이스의 정점 토폴로지는 제2 정점 토폴로지이고, 상기 타깃 표정 베이스는 상기 제2 정점 토폴로지를 갖는 제1 애니메이션 캐릭터에 대응하는 표정 베이스이고, 상기 타깃 표정 베이스의 차원 수량은 상기 제2 차원 수량임 -;
    상기 제3 결정 유닛은 상기 화자의 얼굴 표정 및 대응하는 음성을 포함하는 제2 미디어 데이터 및 상기 타깃 표정 베이스에 따라 타깃 표정 파라미터 및 음향 특징을 결정하도록 구성되고- 상기 타깃 표정 파라미터는 상기 타깃 표정 베이스에 대해 상기 화자가 상기 음성을 말할 때 얼굴 표정의 변화 정도를 식별하기 위해 사용됨 -; 및
    상기 구동 유닛은 상기 타깃 표정 파라미터 및 상기 음향 특징에 따라 상기 제2 표정 베이스를 갖는 상기 제2 애니메이션 캐릭터를 구동하도록 구성되는, 애니메이션 캐릭터 구동 장치.
  14. 애니메이션 캐릭터 구동 디바이스로서,
    프로세서 및 메모리를 포함하고,
    상기 메모리는 프로그램 코드를 저장하고 상기 프로그램 코드를 상기 프로세서에 송신하도록 구성되고;
    상기 프로세서는 상기 프로그램 코드 내의 명령어들에 따라 제1항, 제4항, 제5항, 제11항 및 제12항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 애니메이션 캐릭터 구동 디바이스.
  15. 프로그램 코드를 저장하도록 구성된 컴퓨터 판독가능 저장 매체로서,
    상기 프로그램 코드는 제1항, 제4항, 제5항, 제11항 및 제12항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 컴퓨터 판독가능 저장 매체.
  16. 저장 매체 상에 저장된 컴퓨터 프로그램으로서,
    실행될 때, 제1항, 제4항, 제5항, 제11항 및 제12항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 저장 매체 상에 저장된 컴퓨터 프로그램.
KR1020217029221A 2019-09-02 2020-08-27 인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스 KR102694330B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910824770.0 2019-09-02
CN201910824770.0A CN110531860B (zh) 2019-09-02 2019-09-02 一种基于人工智能的动画形象驱动方法和装置
PCT/CN2020/111615 WO2021043053A1 (zh) 2019-09-02 2020-08-27 一种基于人工智能的动画形象驱动方法和相关装置

Publications (2)

Publication Number Publication Date
KR20210123399A KR20210123399A (ko) 2021-10-13
KR102694330B1 true KR102694330B1 (ko) 2024-08-13

Family

ID=68666304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217029221A KR102694330B1 (ko) 2019-09-02 2020-08-27 인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스

Country Status (6)

Country Link
US (2) US11605193B2 (ko)
EP (1) EP3929703A4 (ko)
JP (1) JP7408048B2 (ko)
KR (1) KR102694330B1 (ko)
CN (1) CN110531860B (ko)
WO (1) WO2021043053A1 (ko)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111627095B (zh) * 2019-02-28 2023-10-24 北京小米移动软件有限公司 表情生成方法及装置
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110531860B (zh) 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质
US11593984B2 (en) 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
CN111294665B (zh) * 2020-02-12 2021-07-20 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN111311712B (zh) * 2020-02-24 2023-06-16 北京百度网讯科技有限公司 视频帧处理方法和装置
CN111372113B (zh) * 2020-03-05 2021-12-21 成都威爱新经济技术研究院有限公司 基于数字人表情、嘴型及声音同步的用户跨平台交流方法
WO2021196751A1 (zh) * 2020-03-30 2021-10-07 上海商汤临港智能科技有限公司 基于数字人的车舱交互方法、装置及车辆
CN111736700A (zh) * 2020-06-23 2020-10-02 上海商汤临港智能科技有限公司 基于数字人的车舱交互方法、装置及车辆
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111988658B (zh) * 2020-08-28 2022-12-06 网易(杭州)网络有限公司 视频生成方法及装置
CN114787759B (zh) * 2020-10-14 2024-08-06 住友电气工业株式会社 交流支持方法、交流支持系统、终端装置以及存储介质
US20220184506A1 (en) * 2020-11-12 2022-06-16 Tencent Technology (Shenzhen) Company Limited Method and apparatus for driving vehicle in virtual environment, terminal, and storage medium
CN112527115B (zh) * 2020-12-15 2023-08-04 北京百度网讯科技有限公司 用户形象生成方法、相关装置及计算机程序产品
CN112669424B (zh) * 2020-12-24 2024-05-31 科大讯飞股份有限公司 一种表情动画生成方法、装置、设备及存储介质
CN114578969B (zh) * 2020-12-30 2023-10-20 北京百度网讯科技有限公司 用于人机交互的方法、装置、设备和介质
CN112927712B (zh) * 2021-01-25 2024-06-04 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113066156A (zh) * 2021-04-16 2021-07-02 广州虎牙科技有限公司 表情重定向方法、装置、设备和介质
CN113256821B (zh) * 2021-06-02 2022-02-01 北京世纪好未来教育科技有限公司 一种三维虚拟形象唇形生成方法、装置及电子设备
KR20230100205A (ko) * 2021-12-28 2023-07-05 삼성전자주식회사 영상 처리 방법 및 장치
CN114420088A (zh) * 2022-01-20 2022-04-29 安徽淘云科技股份有限公司 一种展示方法及其相关设备
CN114612600B (zh) * 2022-03-11 2023-02-17 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备和存储介质
CN116778107A (zh) * 2022-03-11 2023-09-19 腾讯科技(深圳)有限公司 表情模型的生成方法、装置、设备及介质
CN114708636A (zh) * 2022-04-01 2022-07-05 成都市谛视科技有限公司 一种密集人脸网格表情驱动方法、装置及介质
CN115050067B (zh) * 2022-05-25 2024-07-02 中国科学院半导体研究所 人脸表情构建方法、装置、电子设备、存储介质及产品
CN115617169B (zh) * 2022-10-11 2023-05-30 深圳琪乐科技有限公司 一种语音控制机器人及基于角色关系的机器人控制方法
KR102652652B1 (ko) * 2022-11-29 2024-03-29 주식회사 일루니 아바타 생성 장치 및 방법
US20240265605A1 (en) * 2023-02-07 2024-08-08 Google Llc Generating an avatar expression
CN116188649B (zh) * 2023-04-27 2023-10-13 科大讯飞股份有限公司 基于语音的三维人脸模型驱动方法及相关装置
CN116452709A (zh) * 2023-06-13 2023-07-18 北京好心情互联网医院有限公司 动画生成方法、装置、设备及存储介质
CN116778043B (zh) * 2023-06-19 2024-02-09 广州怪力视效网络科技有限公司 一种表情捕捉及动画自动生成系统和方法
US12045639B1 (en) * 2023-08-23 2024-07-23 Bithuman Inc System providing visual assistants with artificial intelligence
CN118331431B (zh) * 2024-06-13 2024-08-27 海马云(天津)信息技术有限公司 虚拟数字人驱动方法与装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141564A (ja) * 2001-10-31 2003-05-16 Minolta Co Ltd アニメーション生成装置およびアニメーション生成方法
WO2019084481A1 (en) 2017-10-26 2019-05-02 Snap Inc. COMMON AUDIO-VIDEO SYSTEM OF FACIAL ANIMATION

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8555164B2 (en) * 2001-11-27 2013-10-08 Ding Huang Method for customizing avatars and heightening online safety
US8803889B2 (en) 2009-05-29 2014-08-12 Microsoft Corporation Systems and methods for applying animations or motions to a character
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US10702773B2 (en) * 2012-03-30 2020-07-07 Videx, Inc. Systems and methods for providing an interactive avatar
WO2015145219A1 (en) * 2014-03-28 2015-10-01 Navaratnam Ratnakumar Systems for remote service of customers using virtual and physical mannequins
JP2015210739A (ja) 2014-04-28 2015-11-24 株式会社コロプラ キャラクタ画像生成方法及びキャラクタ画像生成プログラム
CN104217454B (zh) * 2014-08-21 2017-11-03 中国科学院计算技术研究所 一种视频驱动的人脸动画生成方法
WO2016070354A1 (en) * 2014-11-05 2016-05-12 Intel Corporation Avatar video apparatus and method
US9911218B2 (en) * 2015-12-01 2018-03-06 Disney Enterprises, Inc. Systems and methods for speech animation using visemes with phonetic boundary context
CN105551071B (zh) * 2015-12-02 2018-08-10 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
US10528801B2 (en) * 2016-12-07 2020-01-07 Keyterra LLC Method and system for incorporating contextual and emotional visualization into electronic communications
KR20190078015A (ko) * 2017-12-26 2019-07-04 주식회사 글로브포인트 3d 아바타를 이용한 게시판 관리 서버 및 방법
CN108875633B (zh) * 2018-06-19 2022-02-08 北京旷视科技有限公司 表情检测与表情驱动方法、装置和系统及存储介质
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109447234B (zh) * 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN109961496B (zh) * 2019-02-22 2022-10-28 厦门美图宜肤科技有限公司 表情驱动方法及表情驱动装置
US11202131B2 (en) * 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
US10949715B1 (en) * 2019-08-19 2021-03-16 Neon Evolution Inc. Methods and systems for image and voice processing
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141564A (ja) * 2001-10-31 2003-05-16 Minolta Co Ltd アニメーション生成装置およびアニメーション生成方法
WO2019084481A1 (en) 2017-10-26 2019-05-02 Snap Inc. COMMON AUDIO-VIDEO SYSTEM OF FACIAL ANIMATION

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P.Garrid et. al., "VDub: Modifying Face Video of Actors for Plausible Visual Alignment to a Dubbed Audio Track," Comp. Graph. Forum, Vol.34, pp. 193-204, No.2, 2015.06.22.

Also Published As

Publication number Publication date
KR20210123399A (ko) 2021-10-13
WO2021043053A1 (zh) 2021-03-11
EP3929703A1 (en) 2021-12-29
EP3929703A4 (en) 2022-10-05
CN110531860A (zh) 2019-12-03
US20230123433A1 (en) 2023-04-20
US20210383586A1 (en) 2021-12-09
JP7408048B2 (ja) 2024-01-05
JP2022527155A (ja) 2022-05-31
US11605193B2 (en) 2023-03-14
CN110531860B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
KR102694330B1 (ko) 인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스
EP3992845A1 (en) Action identification method based on artificial intelligence and related apparatus
US12002138B2 (en) Speech-driven animation method and apparatus based on artificial intelligence
CN112379812B (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
WO2020233464A1 (zh) 模型训练方法、装置、存储介质及设备
CN110288077A (zh) 一种基于人工智能的合成说话表情的方法和相关装置
CN110286756A (zh) 视频处理方法、装置、系统、终端设备及存储介质
CN110517340B (zh) 一种基于人工智能的脸部模型确定方法和装置
US20210152751A1 (en) Model training method, media information synthesis method, and related apparatuses
CN110555507B (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
CN107294837A (zh) 采用虚拟机器人进行对话交互的方法和系统
CN109271018A (zh) 基于虚拟人行为标准的交互方法及系统
CN111538456A (zh) 基于虚拟形象的人机交互方法、装置、终端以及存储介质
CN115909015A (zh) 一种可形变神经辐射场网络的构建方法和装置
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN110517339A (zh) 一种基于人工智能的动画形象驱动方法和装置
CN110794964A (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
CN113750523A (zh) 三维虚拟对象的动作生成方法、装置、设备及存储介质
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN116229311B (zh) 视频处理方法、装置及存储介质
CN115526772A (zh) 视频处理方法、装置、设备和存储介质
CN109636898B (zh) 3d模型生成方法及终端
CN113559500B (zh) 动作数据的生成方法、装置、电子设备及存储介质
CN114550185B (zh) 一种文档生成的方法、相关装置、设备以及存储介质
CN118250523A (zh) 数字人视频生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant