KR102346046B1 - 3차원 가상 인물 입모양 변화 제어 방법 및 장치 - Google Patents

3차원 가상 인물 입모양 변화 제어 방법 및 장치 Download PDF

Info

Publication number
KR102346046B1
KR102346046B1 KR1020190167247A KR20190167247A KR102346046B1 KR 102346046 B1 KR102346046 B1 KR 102346046B1 KR 1020190167247 A KR1020190167247 A KR 1020190167247A KR 20190167247 A KR20190167247 A KR 20190167247A KR 102346046 B1 KR102346046 B1 KR 102346046B1
Authority
KR
South Korea
Prior art keywords
mouth shape
voice
sequence
mouth
control parameter
Prior art date
Application number
KR1020190167247A
Other languages
English (en)
Other versions
KR20210001859A (ko
Inventor
차오 첸
지엔샹 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210001859A publication Critical patent/KR20210001859A/ko
Application granted granted Critical
Publication of KR102346046B1 publication Critical patent/KR102346046B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 실시예는 3차원 가상 인물 입모양 변화 제어 방법 및 장치를 개시하는 것으로 클라우드 컴퓨팅 분야에 관한 것이다. 본 방법의 일 구체적인 실시형태는 상기 3차원 가상 인물 입모양 변화 제어 방법의 하나의 구체적인 실시형태는 재생할 음성을 획득하는 단계; 상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득하는 단계; 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계; 및 상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 단계를 포함한다. 상기 실시형태는 재생할 음성에 기반하여 입모양 제어 파라미터 시퀀스를 자동으로 생성함으로써 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물을 고효율적으로 렌더링한다.

Description

3차원 가상 인물 입모양 변화 제어 방법 및 장치{3D VIRTUAL FIGURE MOUTH SHAPE CONTROL METHOD AND DEVICE}
본 발명의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로는 3차원 가상 인물 입모양 변화 제어 방법 및 장치에 관한 것이다.
3차원 가상 인물 음성 입모양 동기화는 항상 연구의 화제로 되고 있으며 또한 영화 및 TV 애니메이션, 게임 오락 등 통상적인 광범위한 응용 분야를 가지고 있다. 종래의 3차원 가상 인물 음성 입모양 동기화 기술은 일반적으로 전문 기술자가 주어진 음성 세그먼트에 따라 3차원 가상 인물의 키 프레임을 수동으로 설정하고 이러한 키 프레임 중의 3차원 가상 인물의 입모양을 조정해야 하나 키 프레임 사이의 전이 프레임 중의 3차원 가상 인물 입모양은 예를 들어, UE4(Unreal Engine 4, 언리얼 엔진 4), Maya, Unity3D 등 애니메이션 엔진에 의해 자동으로 생성될 수 있다. 이러한 방법은 기술자의 전문 기술에 크게 의존하고, 또한 FBF(Frame By Frame) 수동 작업은 대량의 인력을 소비할 뿐만아니라 이러한 방식은 실시간성을 구현할 수 없다.
본 발명의 실시예는 3차원 가상 인물 입모양 변화 제어 방법 및 장치를 제공한다.
제1 양태에 있어서, 3차원 가상 인물 입모양 변화 제어 방법에 있어서, 재생할 음성을 획득하는 단계; 상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득하는 단계; 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계; 및 상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 단계를 포함하는 방법을 제공한다.
일부 실시예에 있어서, 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계는, 상기 적어도 하나의 음성 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 단계; 및 상기 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득하는 단계를 포함하고, 상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타낸다.
일부 실시예에 있어서, 상기 적어도 하나의 음성 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 단계는, 상기 적어도 하나의 언어 세그먼트 중의 음성 세그먼트에 대해, 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계; 및 상기 재생할 음성에서의 상기 적어도 하나의 음성 세그먼트의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱(Splicing)하는 단계를 포함한다.
일부 실시예에 있어서, 상기 적어도 하나의 언어 세그먼트 중의 음성 세그먼트에 대해, 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계는, 상기 음성 세그먼트를 기설정된 개수의 음성 서브 세그먼트로 분할하는 단계(여기서, 인접된 2개의 음성 서브 세그먼트는 부분적으로 중첩됨); 상기 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득하는 단계; 및 획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계는, 상기 적어도 하나의 음성 세그먼트 중의 음성 세그먼트에 대해 상기 음성 세그먼트의 음소 시퀀스를 생성하고 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득하는 단계; 적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득하는 단계(여기서, 상기 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타냄); 및 상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계는, 상기 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득하는 단계; 및 획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 입모양 키포인트 예측 모형은 순환 신경망이고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크이다.
제2 양태에 있어서, 3차원 가상 인물 입모양 변화 제어 장치에 있어서, 재생할 음성을 획득하는 획득 유닛; 상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득하는 슬라이딩 유닛; 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 생성 유닛; 및 상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 제어 유닛을 포함한다.
일부 실시예에 있어서, 상기 생성 유닛은, 상기 적어도 하나의 음성 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 제1 생성 서브 유닛; 및 상기 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득하는 제2 생성 서브 유닛을 포함하고, 상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타낸다.
일부 실시예에 있어서, 상기 제1 생성 서브 유닛은, 상기 적어도 하나의 언어 세그먼트 중의 음성 세그먼트에 대해, 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 제1 생성 모듈; 및 상기 재생할 음성에서의 상기 적어도 하나의 음성 세그먼트의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱하는 제2 생성 모듈을 포함한다.
일부 실시예에 있어서, 상기 제1 생성 모듈은 또한, 상기 음성 세그먼트를 기설정된 개수의 음성 서브 세그먼트로 분할하되, 인접된 2개의 음성 서브 세그먼트는 부분적으로 중첩되고; 상기 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득하며; 획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성한다.
일부 실시예에 있어서, 상기 생성 유닛은, 상기 적어도 하나의 음성 세그먼트 중의 음성 세그먼트에 대해 상기 음성 세그먼트의 음소 시퀀스를 생성하고 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득하는 정보 생성 유닛; 적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득하는 정보 시퀀스 생성 유닛(여기서, 상기 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타냄); 및 상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 파라미터 시퀀스 생성 유닛을 포함한다.
일부 실시예에 있어서, 상기 파라미터 시퀀스 생성 유닛은 또한, 상기 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득하고; 획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성한다.
일부 실시예에 있어서, 상기 입모양 키포인트 예측 모형은 순환 신경망이고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크이다.
제3 양태에 있어서, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 단말기에 있어서, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1양태 중 어느 한 실시예에 따른 3차원 가상 인물 입모양 변화 제어 방법을 구현하도록 하는 단말기를 제공한다.
제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1 양태 중 어느 한 실시예에 따른 3차원 가상 인물 입모양 변화 제어 방법을 구현하는 컴퓨터 판독 가능 매체를 제공한다.
본 발명의 실시예에 의해 제공되는 3차원 가상 인물 입모양 변화 제어 방법 및 장치는, 우선 획득된 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득한 후, 획득된 적어도 하나의 음성 세그먼트에 기반하여 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 생성하고, 마지막으로 재생할 음성 재생 시, 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어함으로써, 재생할 음성에 기반하여 입모양 제어 파라미터 시퀀스를 자동으로 생성하여 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물을 고효율적으로 렌더링한다.
아래 첨부 도면에 도시된 비제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 이점이 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 적용 가능한 예시적인 시스템 아키텍처이다.
도 2는 본 발명에 따른 3차원 가상 인물 입모양 변화 제어 방법의 일 실시예의 흐름도이다.
도 3a 및 도 3b는 각각 jaw_open=0 및 jaw_open=1에 대응되는 3차원 가상 인물의 턱의 개폐 정도를 도시한다.
도 4는 본 발명에 따른 재생할 음성으로부터 입모양 키포인트 정보 시퀀스까지의 일 모식도이다.
도 5는 본 발명에 따른 3차원 가상 인물 입모양 변화 제어 방법의 일 응용 상황의 모식도이다.
도 6은 본 발명에 따른 3차원 가상 인물 입모양 변화 제어 방법의 다른 실시예의 흐름도이다.
도 7은 본 발명에 따른 3차원 가상 인물 입모양 변화 제어 장치의 일 실시예의 구조 모식도이다.
도 8은 본 발명의 실시예에 따른 기기를 구현하기에 적합한 컴퓨터 시스템의 구조 모식도이다.
이하 첨부 도면 및 실시예를 결부시켜 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
충돌되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 결합될 수 있음을 유의해야 한다. 이하 첨부 도면을 참조하여 실시예를 결부시켜 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예가 적용 가능한 3차원 가상 인물 입모양 변화 제어 방법 또는 3차원 가상 인물 입모양 변화 제어 장치의 예시적 시스템 아키텍처(100)를 도시한다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)에는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)가 포함될 수 있다. 네트워크(104)는 단말 기기(101, 102, 103) 및 서버(105) 사이에서 통신 링크를 제공하는 매체로 사용된다. 네트워크(104)는 예를 들어, 유선, 무선 통신 링크 또는 광섬유 케이블 등 다양한 연결 타입을 포함할 수 있다.
사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙팅하여 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 예를 들어 웹 브라우저 애플리케이션, 게임 타입의 애플리케이션, 구매 타입의 애플리케이션, 검색 타입의 애플리케이션, 인스턴트 메시징 툴 등 다양한 통신 클라이언트 애플리케이션이 설치될 수 있다.
단말 기기(101, 102, 103)는 하드웨어일 수 있고, 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)는 하드웨어인 경우 스마트 폰, 태블릿 PC, 랩톱 휴대용 컴퓨터 및 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는, 디스플레이 스크린을 구비하고 음성 재생을 지원하는 다양한 전자 기기일 수 있다. 단말 기기(101, 102, 103)는 소프트웨어인 경우 위에 열거한 전자 기기에 장착될 수 있다. 이는 (예를 들어 분산식 서비스를 제공하기 위한) 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서 구체적으로 한정하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버일 수 있는데, 예를 들어, 단말 기기(101, 102, 103)에서 재생되는 음성에 지원을 제공하는 백엔드 서버일 수 있다. 백엔드 서버는 수신된 텍스트, 음성 등 데이터에 분석 등 처리를 수행하고 처리 결과(예를 들어, 재생할 음성)을 단말 기기(101, 102, 103)에 피드백할 수 있다.
서버(105)는 하드웨어 또는 소프트웨어일 수 있음에 유의해야 한다. 서버가 하드웨어인 경우, 복수의 서버로 구성된 분산식 서버 클러스터로 구현되거나 단일 서버로 구현될 수 있다. 서버(105)가 소프트웨어인 경우, (예를 들어 분산식 서비스를 제공하기 위한) 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 구체적으로 한정하지 않는다.
도 1의 단말 기기, 네트워크 및 서버의 개수는 단지 예시적인 것일 뿐 구현 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버가 구비될 수 있음을 이해해야 한다.
설명해야 할 것은, 본 발명의 실시예에 의해 제공되는 3차원 가상 인물 입모양 변화 제어 방법은 일반적으로 단말 기기(101, 102, 103)에 의해 수행되며, 대응되게 3차원 가상 인물 입모양 변화 제어 장치는 일반적으로 단말 기기(101, 102, 103)에 설치된다.
계속해서 도 2를 참조하면, 이는 본 발명에 따른 3차원 가상 인물 입모양 변화 제어 방법의 일 실시예의 흐름(200)을 도시한다. 상기 3차원 가상 인물 입모양 변화 제어 방법은 하기와 같은 단계를 포함한다.
단계 (201)에서, 재생할 음성을 획득한다.
본 실시예에서, 3차원 가상 인물 입모양 변화 제어 방법의 수행주체(예를 들어, 도 1에 도시된 단말 기기(101, 102, 103))는 다양한 방식으로 재생할 음성을 획득할 수 있는데, 일 예시로서, 재생할 음성은 수행주체에 의해 자율적으로 생성된 음성일 수 있다. 예를 들어, 수행주체는 사용자에 의해 입력된 정보(예를 들어, 텍스트 정보, 음성 정보, 이미지 정보 등)에 따라 응답 음성을 생성하고 생성된 응답 음성을 재생할 음성으로 사용할 수 있다. 다른 예시로서, 재생할 음성은 수행주체가 다른 기기(예를 들어, 도 1에 도시된 서버(105))로부터 획득한 음성일 수 있다.
단계(202)에서, 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득한다.
본 실시예에서, 수행주체 내에는 시간 윈도우가 미리 설정될 수 있다. 여기서, 시간 윈도우는 하나의 시간대를 지칭할 수 있고, 상기 시간대의 시간 길이는 실제 필요에 따라 설정할 수 있는데 예시로서, 시간 윈도우를 520㎳(밀리초)로 설정할 수 있다. 수행주체는, 단계(201)에서 획득된 재생할 음성에서 기설정된 스텝 사이즈로 상기 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득할 수 있다. 실행 과정에서, 매번 슬라이딩 후 시간 윈도우 중의 음성을 하나의 음성 세그먼트로 사용할 수 있다. 여기서, 상기 스텝 사이즈는 실제 필요에 따라 설정할 수 있는데 예시로서, 스텝 사이즈를 10㎳로 설정할 수 있다.
단계(203)에서, 적어도 하나의 음성 세그먼트에 기반하여, 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득한다.
본 실시예에서, 수행주체는 단계(202)에서 획득된 적어도 하나의 음성 세그먼트에 따라, 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 생성할 수 있다. 여기서, 입모양 제어 파라미터 시퀀스는, 미리 설정된 3차원 가상 인물의 입모양 변화를 제어할 수 있다. 실행 과정에서, 각각의 음성 세그먼트에 대해 하나의 입모양 제어 파라미터를 생성함으로써 하나의 입모양 제어 파라미터 시퀀스를 획득할 수 있다. 시간 윈도우의 슬라이딩 스텝 사이즈가 10㎳인 경우를 예로 들면, 10㎳ 슬라이딩 시 하나의 음성 세그먼트를 확정하고, 각각의 음성 세그먼트는 하나의 입모양 제어 파라미터를 획득한다. 따라서, 10㎳당 하나의 입모양 제어 파라미터를 생성할 수 있으며, 즉 재생할 음성에 대한 입모양 제어 파라미터 시퀀스에서 각각의 입모양 제어 파라미터의 간격은 10㎳이다.
여기서, 입모양 제어 파라미터는 3차원 가상 인물 개발 툴에 의해 개발된 3차원 가상 인물의 입모양 변화 파라미터를 지칭할 수 있다. 실행 과정에서, 기존의 UE4, Maya, Unity3D 등 애니메이션 엔진을 3차원 가상 인물을 개발하는 개발 툴로 사용할 수 있다. 3차원 가상 인물의 얼굴(또는 입모양)의 구동은 일부 미리 정의된 파라미터에 의해 제어될 수 있는데, 상기 파라미터는 하나의 벡터일 수 있으며, 상기 벡터의 각 차원의 값 범위는 [0, 1]이고, 하나의 특정된 얼굴 운동을 나타낸다. 예를 들어, 상기 벡터는 3차원 가상 인물의 턱의 개폐 정도를 제어하기 위한 jaw_open 차원을 포함할 수 있고, 상기 수치가 클수록 더 크게 개구됨을 나타낸다. 도 3a 및 도 3b는 각각 jaw_open=0 및 jaw_open=1에 대응되는 3차원 가상 인물의 턱의 개폐 정도를 도시한다. 설명해야 할 것은, 도 3a 및 도 3b 중의 3차원 가상 인물은 예시적인 것일 뿐, 3차원 가상 인물의 성별, 외형 등은 이에 한정되지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 단계(203)은 구체적으로 하기와 같은 내용을 포함한다.
단계(S1)에서, 적어도 하나의 음성 세그먼트 중의 음성 세그먼트에 대해 상기 음성 세그먼트의 음소 시퀀스를 생성하고, 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득한다.
본 실시형태에서, 단계(202)에서 획득된 적어도 하나의 음성 세그먼트 중의 각각의 음성 세그먼트에 대해, 수행주체는 상기 음성 세그먼트의 음소 시퀀스를 생성할 수 있다. 여기서, 음소 시퀀스는 시간축에 배열된 복수의 음소를 지칭할 수 있다. 음소는 음성 중의 최소 단위이며 각 음소는 특정된 발음에 대응된다. 현재, 기존의 음향 모형을 통해 음성 세그먼트의 음소 시퀀스를 생성한 후, 수행주체는 획득된 음소 시퀀스를 인코딩하여 음소 정보를 생성할 수 있다. 이에 따라, 수행주체는 각각의 음성 세그먼트에 따라 하나의 음소 정보를 생성할 수 있다. 여기서, 인코딩은 추가 처리를 위해 음소 시퀀스를 디지털 형태의 음소 정보로 변환하는 것을 지칭할 수 있다.
단계(S2)에서, 적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득한다.
본 실시형태에서, 수행주체는 우선 단계(S1)에서 획득된 적어도 하나의 음소 정보를 사용하여 음소 정보 시퀀스를 구성할 수 있다. 예시로서, 상기 적어도 하나의 음소 정보 중의 각각의 음소 정보에 대해, 수행주체는 재생할 음성 내에서 상기 음소 정보를 생성하는 음성 세그먼트의 위치에 따라, 음소 정보 시퀀스에서의 상기 음소 정보의 위치를 확정할 수 있다. 그 후, 수행주체는 상기 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력함으로써, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득할 수 있다. 여기서, 입모양 키포인트 정보는 입모양과 관련된 기설정된 개수(예를 들어, 20개)의 안면 키포인트 위치 정보를 나타낼 수 있고, 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타낼 수 있다. 일 예시로서, 입모양 키포인트 예측 모형은 기술자가 대량의 음소 정보 시퀀스 및 입모양 키포인트 정보 시퀀스에 대한 통계에 기반하여 미리 결정하고, 복수의 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계의 대응 관계표가 저장될 수 있다. 다른 예시로서, 수행주체는 기계 학습 알고리즘에 기반하여 훈련을 거쳐 획득된 기계 학습 모형일 수 있다.
일부 선택 가능한 실시형태에서, 단계(S2)에서의 입모양 키포인트 예측 모형은 순환 신경망일 수 있고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크일 수 있다.
본 실시형태에서, 단계(S2)에서의 입모양 키포인트 예측 모형은 순환 신경망일 수 있다. 순환 신경망(Recurrent Neural Network, RNN)은 시퀀스 데이터를 입력하고, 시퀀스의 진화 방향으로 재귀하며 모든 노드(루프 바디)가 체인식으로 연결된 재귀적 신경망이다. 여기서, 순환 신경망의 루프 바디는 장단기 메모리 네트워크(Long Short-Term Memory, LSTM)일 수 있다. 예시로서, 도 4는 재생할 음성으로부터 입모양 키포인트 정보 시퀀스까지의 모식도를 예시적으로 도시한다. 여기서, 루프 바디가 장단기 메모리 네트워크인 순환 신경망을 사용한다. 도 4 의 점선 블록은 시간 윈도우를 나타내고, 점선 블록의 화살표는 시간 윈도우의 슬라이딩 방향을 나타낸다. 도 4에 도시된 정보로부터 알 수 있는 바와 같이, 음소 정보 시퀀스 중의 어느 하나의 음소 정보에 대응되는 입모양 키포인트 정보를 예측할 경우, 이전 음소 정보에 기반하여 획득된 입모양 키포인트 정보를 사용한다. 이에 따라, 본 실시형태는 입모양 키포인트 정보 시퀀스 생성시, 전후 두개의 입모양 키포인트 정보 사이의 관련성을 포괄적으로 고려하므로 생성된 입모양 키포인트 정보 시퀀스가 보다 정확하다. 설명해야 할 것은, 도 4에 설명된 순환 신경망의 구조는 예시적인 것일 뿐 순환 신경망의 구조는 이에 한정되지 않는다.
단계(S3)에서, 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성한다.
본 실시형태에서, 수행주체는 입모양 키포인트 정보 시퀀스에 따라 입모양 제어 파라미터 시퀀스를 생성할 수 있다. 실행 과정에서, 하나의 특정된 입모양 키포인트 정보는 하나의 특정된 입모양에 대응되고, 하나의 특정된 입모양은 또한 하나의 특정된 입모양 제어 파라미터에 대응될 수 있는데, 즉 입모양 키포인트 정보와 입모양 제어 파라미터는 매우 강한 관련성이 있다. 따라서, 수행주체는 하나의 입모양 키포인트 정보에 따라 하나의 입모양 제어 파라미터를 확정할 수 있다.
일부 선택 가능한 실시형태에서, 상기 단계(203)은 구체적으로 하기와 같은 내용을 포함할 수 있다.
우선, 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득한다.
본 실시형태에서, 수행주체 내부에는 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계, 즉 복수(샘플 입모양 키포인트 정보, 샘플 입모양 제어 파라미터)의 관계 쌍이 미리 저장될 수 있다. 이에 따라, 입모양 키포인트 정보 시퀀스 중의 각각의 입모양 키포인트 정보에 대해, 수행주체는 상기 입모양 키포인트 정보와 복수의 관계 쌍 중의 샘플 입모양 키포인트 정보 사이의 유사도 계산을 수행하고, 복수의 관계 쌍 중의 상기 입모양 키포인트 정보와의 유사도가 가장 높은 샘플 입모양 키포인트 정보에 대응되는 샘플 입모양 제어 파라미터를 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터로 사용한다.
다음, 획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성한다.
본 실시형태에서, 입모양 키포인트 정보 시퀀스 중의 각각의 입모양 키포인트 정보에 대해, 수행주체는 모두 하나의 입모양 제어 파라미터를 획득할 수 있으며, 이에 따라 수행주체는 적어도 하나의 입모양 제어 파라미터를 획득하고 획득된 적어도 하나의 입모양 제어 파라미터를 사용하여 입모양 제어 파라미터 시퀀스를 생성할 수 있다.
단계(204)에서, 재생할 음성의 재생에 응답하여, 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어한다.
본 실시예에서, 수행주체는 재생할 음성을 재생하는 동시에 단계(203)에서 생성된 입모양 제어 파라미터에 따라 3차원 가상 인물의 입모양 발생 변화를 동기적으로 제어할 수 있다. 이에 따라, 수행주체는 사용자에게 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물을 구현할 수 있게 되어, 3차원 가상 인물의 진실성 및 사용자의 체험감을 향상시킨다.
계속해서 도 5를 참조하면, 도 5는 본 실시예에 따른 3차원 가상 인물 입모양 변화 제어 방법의 일 응용 상황의 모식도이다. 도 5의 응용 상황에서, 단말 기기(501)는 우선 재생할 음성(502)을 획득한다. 그 후, 단말 기기(501)는 재생할 음성(502)에서 10㎳의 스텝 사이즈로 520㎳의 시간 윈도우(점선 블록에 도시된 바와 같음)를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득한다. 다음, 단말 기기(501)는 적어도 하나의 음성 세그먼트에 기반하여 재생할 음성(502)에 대한 입모양 제어 파라미터 시퀀스를 생성한다. 마지막으로, 재생할 음성(502)의 재생에 응답하여, 단말 기기(501)는 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어함으로써 사용자에게 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물을 구현한다.
본 발명의 상기 실시예에 의해 제공되는 방법은 재생할 음성에 기반하여 입모양 제어 파라미터 시퀀스를 자동으로 생성함으로써 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물을 고효율적으로 렌더링한다.
추가로 도 6을 참조하면, 이는 3차원 가상 인물 입모양 변화 제어 방법의 다른 실시예의 흐름(600)을 도시한다. 상기 3차원 가상 인물 입모양 변화 제어 방법의 흐름(600)은 하기와 같은 단계를 포함한다.
단계(601)에서, 재생할 음성을 획득한다.
본 실시예에서, 단계(601)은 도 2에 도시된 실시예의 단계(201)과 유사하므로 여기서 더 이상 설명하지 않는다.
단계(602)에서, 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득한다.
본 실시예에서, 단계(602)는 도 2에 도시된 실시예의 단계(202)와 유사하므로 여기서 더 이상 설명하지 않는다.
단계(603)에서, 적어도 하나의 음성 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성한다.
본 실시예에서, 수행주체는 다양한 방식으로 단계(602)에서 획득된 적어도 하나의 음성 세그먼트에 따라 2차원 특징 매트릭스 시퀀스를 생성할 수 있다. 예를 들어, 음성 세그먼트에 대해 특징 추출을 수행하고 특징 추출 결과에 따라 2차원 특징 매트릭스 시퀀스를 생성한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 단계(603)은 구체적으로 하기와 같은 단계를 포함할 수 있다.
단계(1)에서, 적어도 하나의 언어 세그먼트 중의 음성 세그먼트에 대해, 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성한다.
본 실시형태에서, 상기 적어도 하나의 음성 세그먼트 중의 각각의 음성 세그먼트에 대해, 수행주체는 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성할 수 있다. 여기서, 수행주체는 다양한 방식을 사용하여 상기 음성 세그먼트에서 특징을 추출하고 2차원 특징 매트릭스를 생성할 수 있다.
일부 선택 가능한 실시형태에서, 상기 단계(1)은 구체적으로 하기와 같은 방식으로 수행될 수 있다.
우선, 상기 음성 세그먼트를 기설정된 개수의 음성 서브 세그먼트로 분할한다.
본 실시형태에서, 수행주체는 상기 음성 세그먼트를 기설정된 개수의 음성 서브 세그먼트로 분할하되, 인접된 2개의 음성 서브 세그먼트는 부분적으로 중첩될 수 있다. 상기 음성 세그먼트가 520㎳의 음성 세그먼트인 경우를 예로 들어, 수행주체는 상기 음성 세그먼트를 각각의 음성 서브 세그먼트가 16㎳인 64개의 음성 서브 세그먼트로 분할하되, 인접된 2개의 음성 서브 세그먼트 사이는 8㎳가 중첩된다. 여기서, 인접된 2개의 음성 서브 세그먼트는 부분적으로 중첩되므로 후속적으로 특징 추출 시 충분히 많은 특징을 추출할 수 있다.
다음, 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득한다.
본 실시형태에서, 기설정된 개수의 음성 서브 세그먼트 중의 각각의 음성 서브 세그먼트에 대해, 수행주체는 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득할 수 있다. 예시로서, 각각의 음성 서브 세그먼트에 대해, 수행주체는 LPC(Linear Predictive Coding, 선형 예측 부호화)의 이전 기설정된 개수(예를 들어, 이전 32개) 요소를 추출하고 이전 기설정된 개수의 요소를 음성 특징 벡터로 사용할 수 있다. 이에 따라, 기설정된 개수의 음성 서브 세그먼트에 기반하여 수행주체는 기설정된 개수의 음성 특징 벡터를 획득할 수 있다.
마지막으로, 획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성한다.
본 실시형태에서, 획득된 기설정된 개수의 음성 특징 벡터에 따라, 수행주체는 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성할 수 있다. 예시로서, 수행주체는 상기 음성 세그먼트에서의 음성 서브 세그먼트의 선후 순서에 따라 시맨틱 서브 세그먼트에 기반하여 생성된 음성 특징 벡터를 위에서 아래로 정렬함으로써 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 획득할 수 있다.
단계(2)에서, 적어도 하나의 음성 세그먼트에 기반하여 재생할 음성 중의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱한다.
본 실시형태에서, 재생할 음성에서의 상기 적어도 하나의 음성 세그먼트 중 각각의 음성 세그먼트의 순서에 따라, 적어도 하나의 음성 세그먼트에 따라 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱한다.
단계(604)에서, 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득한다.
본 실시예에서, 수행주체 내에는 콘볼루션 신경망이 미리 구축될 수 있는데, 상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타낼 수 있다. 이에 따라, 수행주체는 단계(603)에서 생성된 2차원 특징 매트릭스 시퀀스를 상기 콘볼루션 신경망에 입력할 수 있다. 콘볼루션 신경망은 2차원 특징 매트릭스 시퀀스 중의 2차원 특징 매트릭스를 순차적으로 처리함으로써 입모양 제어 파라미터 시퀀스를 획득할 수 있다.
여기서, 상기 콘볼루션 신경망의 네트워크 구조는 실제 필요에 따라 설정될 수 있다. 예시로서, 상기 콘볼루션 신경망은 입력층, 콘볼루션층, 완전 연결층, 출력층 등을 포함할 수 있다. 예를 들어, 상기 콘볼루션 신경망은 차례로 입력층, 기설정된 개수(예를 들어, 10개)의 콘볼루션층, 기설정된 개수(예를 들어, 2개)의 완전 연결층, 출력층을 포함할 수 있다. 실행 과정에서, 상기 콘볼루션 신경망은 대량의 샘플 데이터를 사용하여 훈련을 거쳐 획득된 것일 수 있다. 여기서, 샘플 데이터는 샘플 2차원 특징 매트릭스 및 샘플 2차원 특징 매트릭스에 대응되는 샘플 입모양 제어 파라미터를 포함할 수 있다. 훈련 시, 샘플 2차원 특징 매트릭스를 입력하고, 입력된 샘플 2차원 특징 매트릭스에 대응되는 샘플 입모양 제어 파라미터를 희망 출력으로 하여 훈련을 거쳐 콘볼루션 신경망을 획득할 수 있다.
단계(605)에서, 재생할 음성의 재생에 응답하여, 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어한다.
본 실시예에서, 단계(605)는 도 2에 도시된 실시예의 단계(204)와 유사하므로 여기서 더 이상 설명하지 않는다.
도 6에 나타낸 바와 같이, 도 2에 대응되는 실시예에 비해, 본 실시예의 3차원 가상 인물 입모양 변화 제어 흐름(600)은 콘볼루션 신경망에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계를 강조하나, 콘볼루션 신경망은 대량의 샘플 데이터에 기반하여 훈련을 거쳐 획득된 것이므로 생성된 입모양 제어 파라미터 시퀀스는 보다 정확할 수 있다. 이에 따라, 본 실시예에서 설명된 해결수단은 음성과 입모양이 동기적으로 변화되는 3차원 가상 인물의 입모양 변화를 보다 현실에 가깝도록 할 수 있다.
추가로 도 7을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 발명은 3차원 가상 인물 입모양 변화 제어 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도 2에 도시된 방법 실시에와 서로 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.
도 7에 도시된 바와 같이, 본 실시예의 3차원 가상 인물 입모양 변화 제어 장치(700)는 획득 유닛(701), 슬라이딩 유닛(702), 생성 유닛(703) 및 제어 유닛(704)을 포함한다. 여기서, 획득 유닛(701)은 재생할 음성을 획득하고; 슬라이딩 유닛(702)은 상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득하며; 생성 유닛(703)은 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하고; 제어 유닛(704)은 상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어한다.
본 실시예에서, 3차원 가상 인물 입모양 변화 제어 장치(700)의 획득 유닛(701), 슬라이딩 유닛(702), 생성 유닛(703) 및 제어 유닛(704)의 구체적인 처리 및 이에 따른 기술적 효과는 각각 도 2의 대응되는 실시예에서 단계(201), 단계(202), 단계(203) 및 단계(204)의 관련 설명을 참조할 수 있으며 여기서 더 이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 생성 유닛(703)은, 상기 적어도 하나의 음성 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 제1 생성 서브 유닛(도면에 도시되지 않음); 상기 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득하는 제2 생성 서브 유닛(도면에 도시되지 않음)을 포함하고, 상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타낸다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 제1 생성 서브 유닛은, 상기 적어도 하나의 언어 세그먼트 중의 음성 세그먼트에 대해, 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 제1 생성 모듈(도면에 도시되지 않음); 및 상기 재생할 음성에서의 상기 적어도 하나의 음성 세그먼트의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱하는 제2 생성 모듈(도면에 도시되지 않음)을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 제1 생성 모듈은 또한, 상기 음성 세그먼트를 기설정된 개수의 음성 서브 세그먼트로 분할하되, 인접된 2개의 음성 서브 세그먼트는 부분적으로 중첩되고; 상기 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득하며; 획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 세그먼트에 대한 2차원 특징 매트릭스를 생성한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 생성 유닛(703)은, 상기 적어도 하나의 음성 세그먼트 중의 음성 세그먼트에 대해 상기 음성 세그먼트의 음소 시퀀스를 생성하고 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득하는 정보 생성 유닛(도면에 도시되지 않음); 적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득하는 정보 시퀀스 생성 유닛(도면에 도시되지 않음) - 상기 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타냄 -; 및 상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 파라미터 시퀀스 생성 유닛(도면에 도시되지 않음)을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 파라미터 시퀀스 생성 유닛은 또한, 상기 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득하고; 획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 입모양 키포인트 예측 모형은 순환 신경망이고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크이다.
이하 도 8을 참조하면, 이는 본 발명의 실시예에 따른 전자 기기(800)(예를 들어, 도 1의 단말 기기)를 구현하기에 적합한 구조 모식도를 도시한다. 본 발명의 실시예에 따른 단말 기기는 휴대폰, 노트북 컴퓨터, 디지털 방송 수신기, PDA(개인 휴대 정보 단말기), PAD(태블릿), PMP(휴대용 멀티미디어 플레이어), 차량용 단말기(예를 들어, 차량용 내비게이션 단말기) 등과 같은 이동 단말기 및 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기를 포함할 수 있으나 이에 한정되지는 않는다. 도 8에 도시된 단말 기기는 하나의 예시일 뿐, 본 발명의 실시예들의 기능 및 사용 범위에 어떠한 한정도 해서는 안된다.
도 8에 도시된 바와 같이, 전자 기기(800)는 판독 전용 메모리(ROM)(802)에 저장된 프로그램 또는 저장 장치(808)로부터 랜덤 액세스 메모리(RAM)(803)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를 들어, 중앙 처리 장치, 그래픽 처리 장치)(801)를 포함할 수 있다. RAM(803)에는 또한 전자 기기(800)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입력/출력(I/O, Input/Output) 인터페이스(805) 역시 버스(804)에 연결된다.
일반적으로, 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로 등을 포함하는 입력 장치(806); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(807); 예를 들어 자기 테이프, 하드 디스크 등을 포함하는 저장 장치(808); 및 통신 장치(809)는 I/O 인터페이스(805)에 연결될 수 있다. 통신 장치(809)는 전자 기기(800)가 다른 기기와 데이터를 교환하도록 무선 또는 유선 통신을 진행하도록 할 수 있다. 비록 도 8에서 다양한 장치를 구비하는 전자 기기(800)를 도시하였지만, 도시된 모든 장치를 실시 또는 구비해야 되는 것이 아님을 이해해야 한다. 더욱 많거나 적은 장치를 대체로 실시 또는 구비할 수 있다. 도 8에 도시된 각각의 블록은 하나의 장치를 나타낼 수 있고, 필요에 따라 복수의 장치를 나타낼 수도 있다.
특히, 본 발명의 실시예에 따르면, 상기에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(809)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나, 저장 장치(808)로부터 설치될 수 있거나, ROM(802)으로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 처리 장치(801)에 의해 실행될 경우, 본 발명의 방법에 한정된 상기 기능들이 수행된다.
본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지는 않는다. 컴퓨터 판독 가능 매체의 보다 구체적인 예는 하나 또는 복수의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되지는 않는다. 본 발명에서, 컴퓨터 판독 가능 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 유형 매체(tangible medium)일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이러한 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 송신, 전파 또는 전송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 전기선, 광 케이블, RF(무선 주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 전자 기기에 포함될 수 있고, 상기 전자 기기에 장착되지 않고 단독으로 존재할 수도 있다. 상기 컴퓨터 판독 가능 매체에는 하나 또는 복수의 프로그램이 베어링되고, 상기 하나 또는 복수의 프로그램이 상기 전자 기기에 의해 실행될 경우, 상기 전자 기기가 재생할 음성을 획득하는 단계; 상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 적어도 하나의 음성 세그먼트를 획득하는 단계; 상기 적어도 하나의 음성 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계; 상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 단계를 수행하도록 한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 복수의 프로그래밍 언어, 또는 그들의 조합으로 작성될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 하나의 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 원격 컴퓨터는 구내 정보 통신망(LAN) 또는 광역 통신망(WAN)을 포함한 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결됨).
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능을 구현하기 위한 하나 또는 복수의 실행 가능한 명령을 포함하는 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 마크업된 기능은 또한 도면에 도시된 것과 다른 순서로 발생할 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬로 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령을 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서, 예를 들어, 획득 유닛, 슬라이딩 유닛, 생성 유닛 및 제어 유닛을 포함하는 프로세서에 설치될 수도 있다. 여기서 이들 유닛의 명칭은 경우에 따라서는 유닛 자체로 한정되지 않으며, 예를 들어, 획득 유닛은 "재생할 음성을 획득하는 유닛"으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술특징 또는 그 균등한 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims (16)

  1. 3차원 가상 인물 입모양 변화 제어 방법으로서,
    재생할 음성을 획득하는 단계;
    상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 기설정된 갯수의 음성 서브 세그먼트를 획득하는 단계로서, 인접한 2개의 음성 서브 세그먼트마다 일정한 시간 길이로 부분적으로 중첩되는, 상기 음성 서브 세그먼트를 획득하는 단계;
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계; 및
    상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 단계를 포함하되,
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계는,
    상기 기설정된 갯수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해 상기 음성 서브 세그먼트의 음소 시퀀스를 생성하고 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득하는 단계;
    적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득하는 단계로서, 상기 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타내는, 상기 입모양 키포인트 정보 시퀀스를 획득하는 단계; 및
    상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계를 포함하고,
    상기 음소 정보 시퀀스 중의 어느 하나의 음소 정보에 대응되는 입모양 키포인트 정보를 예측할 때, 이전 음소 정보에 기반하여 획득된 입모양 키포인트 정보를 사용하는, 3차원 가상 인물 입모양 변화 제어 방법.
  2. 제1항에 있어서,
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 단계는,
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 단계; 및
    상기 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득하는 단계를 포함하되,
    상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타내는, 3차원 가상 인물 입모양 변화 제어 방법.
  3. 제2항에 있어서,
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 단계는,
    상기 기설정된 갯수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계; 및
    상기 재생할 음성에서의 상기 기설정된 갯수의 음성 서브 세그먼트의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱(Splicing)하는 단계를 포함하는, 3차원 가상 인물 입모양 변화 제어 방법.
  4. 제3항에 있어서,
    상기 기설정된 갯수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계는,
    상기 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득하는 단계; 및
    획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 서브 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 단계를 포함하는, 3차원 가상 인물 입모양 변화 제어 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계는,
    상기 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득하는 단계; 및
    획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 단계를 포함하는, 3차원 가상 인물 입모양 변화 제어 방법.
  7. 제1항에 있어서,
    상기 입모양 키포인트 예측 모형은 순환 신경망이고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크인 3차원 가상 인물 입모양 변화 제어 방법.
  8. 3차원 가상 인물 입모양 변화 제어 장치로서,
    재생할 음성을 획득하는 획득 유닛;
    상기 재생할 음성에서 기설정된 스텝 사이즈로 기설정된 시간 윈도우를 슬라이딩하여, 기설정된 갯수의 음성 서브 세그먼트를 획득하는 슬라이딩 유닛으로서, 인접한 2개의 음성 서브 세그먼트마다 일정한 시간 길이로 부분적으로 중첩되는, 슬라이딩 유닛;
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여, 상기 재생할 음성에 대한 입모양 제어 파라미터 시퀀스를 획득하는 생성 유닛; 및
    상기 재생할 음성의 재생에 응답하여, 상기 입모양 제어 파라미터 시퀀스에 기반하여, 미리 설정된 3차원 가상 인물의 입모양 발생 변화를 제어하는 제어 유닛을 포함하되,
    상기 생성 유닛은,
    상기 기설정된 갯수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해 상기 음성 서브 세그먼트의 음소 시퀀스를 생성하고 상기 음소 시퀀스를 인코딩하여 음소 정보를 획득하는 정보 생성 유닛;
    적어도 하나의 음소 정보로 구성된 음소 정보 시퀀스를 미리 구축된 입모양 키포인트 예측 모형에 입력하여, 적어도 하나의 입모양 키포인트 정보로 구성된 입모양 키포인트 정보 시퀀스를 획득하는 정보 시퀀스 생성 유닛으로서, 상기 입모양 키포인트 예측 모형은 음소 정보 시퀀스와 입모양 키포인트 정보 시퀀스의 대응 관계를 나타내는, 상기 입모양 키포인트 정보 시퀀스를 획득하는 정보 시퀀스 생성 유닛; 및
    상기 입모양 키포인트 정보 시퀀스에 기반하여 입모양 제어 파라미터 시퀀스를 생성하는 파라미터 시퀀스 생성 유닛을 포함하고,
    상기 음소 정보 시퀀스 중의 어느 하나의 음소 정보에 대응되는 입모양 키포인트 정보를 예측할 때, 이전 음소 정보에 기반하여 획득된 입모양 키포인트 정보를 사용하는, 3차원 가상 인물 입모양 변화 제어 장치.
  9. 제8항에 있어서,
    상기 생성 유닛은,
    상기 기설정된 갯수의 음성 서브 세그먼트에 기반하여 2차원 특징 매트릭스 시퀀스를 생성하는 제1 생성 서브 유닛; 및
    상기 2차원 특징 매트릭스 시퀀스를 미리 구축된 콘볼루션 신경망에 입력하여 입모양 제어 파라미터 시퀀스를 획득하는 제2 생성 서브 유닛을 포함하되,
    상기 콘볼루션 신경망은 2차원 특징 매트릭스와 입모양 제어 파라미터의 대응 관계를 나타내는, 3차원 가상 인물 입모양 변화 제어 장치.
  10. 제9항에 있어서,
    상기 제1 생성 서브 유닛은,
    상기 기설정된 갯수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트에 대한 2차원 특징 매트릭스를 생성하는 제1 생성 모듈; 및
    상기 재생할 음성에서의 상기 기설정된 갯수의 음성 서브 세그먼트의 순서에 따라, 생성된 적어도 하나의 2차원 특징 매트릭스를 2차원 특징 매트릭스 시퀀스로 스플라이싱하는 제2 생성 모듈을 포함하는, 3차원 가상 인물 입모양 변화 제어 장치.
  11. 제10항에 있어서,
    상기 제1 생성 모듈은 또한,
    상기 기설정된 개수의 음성 서브 세그먼트 중의 음성 서브 세그먼트에 대해, 상기 음성 서브 세그먼트의 특징을 추출하여 상기 음성 서브 세그먼트에 대한 음성 특징 벡터를 획득하며;
    획득된 기설정된 개수의 음성 특징 벡터에 따라 상기 음성 서브 세그먼트에 대한 2차원 특징 매트릭스를 생성하도록 구성된, 3차원 가상 인물 입모양 변화 제어 장치.
  12. 삭제
  13. 제8항에 있어서,
    상기 파라미터 시퀀스 생성 유닛은 또한,
    상기 입모양 키포인트 정보 시퀀스 중의 입모양 키포인트 정보에 대해, 미리 구축된 샘플 입모양 키포인트 정보와 샘플 입모양 제어 파라미터의 대응 관계에 기반하여, 상기 입모양 키포인트 정보에 대응되는 입모양 제어 파라미터를 획득하고;
    획득된 적어도 하나의 입모양 제어 파라미터에 기반하여 입모양 제어 파라미터 시퀀스를 생성하도록 구성된, 3차원 가상 인물 입모양 변화 제어 장치.
  14. 제8항에 있어서,
    상기 입모양 키포인트 예측 모형은 순환 신경망이고, 상기 순환 신경망의 루프 바디는 장단기 메모리 네트워크인, 3차원 가상 인물 입모양 변화 제어 장치.
  15. 단말기로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 단말기에 있어서,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제4항, 제6항 및 제7항 중 어느 한 항에 따른 3차원 가상 인물 입모양 변화 제어 방법을 구현하도록 하는, 단말기.
  16. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제4항, 제6항 및 제7항 중 어느 한 항에 따른 3차원 가상 인물 입모양 변화 제어 방법을 구현하는, 컴퓨터 판독 가능 매체.
KR1020190167247A 2019-06-28 2019-12-13 3차원 가상 인물 입모양 변화 제어 방법 및 장치 KR102346046B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573170.1 2019-06-28
CN201910573170.1A CN110288682B (zh) 2019-06-28 2019-06-28 用于控制三维虚拟人像口型变化的方法和装置

Publications (2)

Publication Number Publication Date
KR20210001859A KR20210001859A (ko) 2021-01-06
KR102346046B1 true KR102346046B1 (ko) 2021-12-30

Family

ID=68019899

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190167247A KR102346046B1 (ko) 2019-06-28 2019-12-13 3차원 가상 인물 입모양 변화 제어 방법 및 장치

Country Status (4)

Country Link
US (1) US11308671B2 (ko)
JP (1) JP6936298B2 (ko)
KR (1) KR102346046B1 (ko)
CN (1) CN110288682B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930481A (zh) * 2019-12-11 2020-03-27 北京慧夜科技有限公司 一种口型控制参数的预测方法和系统
CN111294665B (zh) * 2020-02-12 2021-07-20 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN113672194A (zh) * 2020-03-31 2021-11-19 北京市商汤科技开发有限公司 声学特征样本的获取方法、装置、设备以及存储介质
CN111698552A (zh) * 2020-05-15 2020-09-22 完美世界(北京)软件科技发展有限公司 一种视频资源的生成方法和装置
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
CN112333179B (zh) * 2020-10-30 2023-11-10 腾讯科技(深圳)有限公司 虚拟视频的直播方法、装置、设备及可读存储介质
JP2022113426A (ja) 2021-01-25 2022-08-04 三菱重工サーマルシステムズ株式会社 光照射ユニット、及び車両用空調装置
CN112991006A (zh) * 2021-03-01 2021-06-18 深圳市改购时尚科技有限公司 基于试衣机的智能试衣方法、装置、设备及存储介质
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备
KR102649818B1 (ko) * 2022-05-26 2024-03-21 주식회사 딥브레인에이아이 3d 립싱크 비디오 생성 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법
WO2019084481A1 (en) * 2017-10-26 2019-05-02 Snap Inc. COMMON AUDIO-VIDEO SYSTEM OF FACIAL ANIMATION

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
JP4543263B2 (ja) * 2006-08-28 2010-09-15 株式会社国際電気通信基礎技術研究所 アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP6518134B2 (ja) * 2015-05-27 2019-05-22 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
KR20180071029A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
CN108447474B (zh) * 2018-03-12 2020-10-16 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN108763190B (zh) * 2018-04-12 2019-04-02 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
CN108831463B (zh) * 2018-06-28 2021-11-12 广州方硅信息技术有限公司 唇语合成方法、装置、电子设备及存储介质
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539B (zh) * 2018-11-06 2023-04-11 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법
WO2019084481A1 (en) * 2017-10-26 2019-05-02 Snap Inc. COMMON AUDIO-VIDEO SYSTEM OF FACIAL ANIMATION

Also Published As

Publication number Publication date
JP6936298B2 (ja) 2021-09-15
US11308671B2 (en) 2022-04-19
US20200410731A1 (en) 2020-12-31
CN110288682A (zh) 2019-09-27
CN110288682B (zh) 2023-09-26
JP2021009669A (ja) 2021-01-28
KR20210001859A (ko) 2021-01-06

Similar Documents

Publication Publication Date Title
KR102346046B1 (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
US11158102B2 (en) Method and apparatus for processing information
US11151765B2 (en) Method and apparatus for generating information
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
CN110347867B (zh) 用于生成嘴唇动作视频的方法和装置
CN111599343B (zh) 用于生成音频的方法、装置、设备和介质
CN113421547B (zh) 一种语音处理方法及相关设备
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN112153460A (zh) 一种视频的配乐方法、装置、电子设备和存储介质
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN112383721B (zh) 用于生成视频的方法、装置、设备和介质
WO2023046016A1 (en) Optimization of lip syncing in natural language translated video
CN114255737B (zh) 语音生成方法、装置、电子设备
CN115376487A (zh) 数字人的控制方法、模型训练方法和装置
CN112328751A (zh) 用于处理文本的方法和装置
KR102663654B1 (ko) 적응형 시각적 스피치 인식
US20220148583A1 (en) Intelligent media transcription
CN117373455B (zh) 一种音视频的生成方法、装置、设备及存储介质
CN112383722B (zh) 用于生成视频的方法和装置
CN117012200A (zh) 语音识别方法、装置、电子设备及存储介质
CN116309989A (zh) 生成动画曲线的方法、装置、可读介质及电子设备
CN117935323A (zh) 人脸驱动模型的训练方法、视频生成方法及装置
CN116958346A (zh) 三维虚拟角色的表情驱动方法、装置、设备及存储介质
CN117596452A (zh) 视频生成方法、装置、介质及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant