KR20210124312A - 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체 - Google Patents

인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체 Download PDF

Info

Publication number
KR20210124312A
KR20210124312A KR1020217027717A KR20217027717A KR20210124312A KR 20210124312 A KR20210124312 A KR 20210124312A KR 1020217027717 A KR1020217027717 A KR 1020217027717A KR 20217027717 A KR20217027717 A KR 20217027717A KR 20210124312 A KR20210124312 A KR 20210124312A
Authority
KR
South Korea
Prior art keywords
phoneme
posture parameter
interactive object
parameter value
driving
Prior art date
Application number
KR1020217027717A
Other languages
English (en)
Inventor
원옌 우
첸이 우
천 첸
린썬 쑹
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210124312A publication Critical patent/KR20210124312A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • G06K9/00315
    • G06K9/00342
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체를 공개하고, 상기 인터랙티브 대상은 표시 디바이스에 전시되어 있어, 상기 방법은 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하는 것; 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것; 및 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것을 포함한다.

Description

인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
<관련 출원의 상호 인용>
본 발명은 출원 번호가 2020102457619이고, 출원일이 2020년3월31일인 중국 특허 출원의 우선권을 주장하며, 당해 중국 특허 출원의 모든 내용을 인용하여 본원에 통합시킨다.
본 발명은 컴퓨터 기술 분야에 관한 것이며, 구체적으로는 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체에 관한 것이다.
인간과 컴퓨터의 상호 작용은 주로 키 입력, 터치 및 음성을 통해 입력하고, 표시 스크린에 이미지, 텍스트 또는 가상 캐릭터를 표시하여 응답한다. 현재, 가상 캐릭터는 주로 음성 비서를 기반으로 개량한 것이다.
본 발명의 실시예는 인터랙티브 대상을 구동하는 기술적 해결책을 제공한다.
본 발명에 일 측면에 따르면, 표시 디바이스에 전시되어 있는 인터랙티브 대상의 구동 방법을 제공하며, 상기 방법은 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하는 것; 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것; 및 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것을 포함한다. 본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 방법은 상기 음소 시퀀스에 기반하여 상기 표시 디바이스의 출력 음성 및/또는 텍스트를 제어하는 것을 더 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것은, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻는 것; 및 상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻는 것은, 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소 각각의 코드 시퀀스를 생성하는 것; 상기 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 음소 시퀀스 중 복수 종류의 음소에 각각 대응하는 시간 길이에 기반하여 상기 음소 각각의 코드 시퀀스의 특징 정보를 얻는 것; 및 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보에 기반하여 상기 음소 시퀀스의 특징 정보를 얻는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소 각각의 코드 시퀀스를 생성하는 것은, 각 시점에 상기 음소가 대응되어 있는지 여부를 검출하는 것; 및 상기 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하고, 상기 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정함으로써, 상기 음소에 대응하는 상기 코드 시퀀스를 얻는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 복수 종류의 음소에 각각 대응하는 시간 길이에 기반하여 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보를 얻는 것은, 상기 복수 종류의 음소 중의 각 음소에 대해, 상기 음소에 대응하는 코드 시퀀스에 대해 가우스 필터를 이용하여 상기 음소의 시간 상의 연속 값에 대해 가우스 컨볼루션 조작을 실행하여, 상기 음소에 대응하는 코드 시퀀스의 특징 정보를 얻는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 자태 파라미터는 얼굴 자태 파라미터를 포함하고, 상기 얼굴 자태 파라미터는 얼굴 근육 제어 계수를 포함하며, 상기 얼굴 근육 제어 계수는 적어도 하나의 얼굴 근육의 운동 상태를 제어하는데 사용되고, 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것은, 상기 음소 시퀀스에 매칭하는 얼굴 근육 제어 계수 값에 기반하여 상기 인터랙티브 대상이 상기 음소 시퀀스 중의 각 음소에 매칭하는 얼굴 동작을 수행하도록 상기 인터랙티브 대상을 구동하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 방법은 상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터를 취득하는 것; 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것, 및 상기 얼굴 자태 파라미터 값에 관련된 상기 몸 자태의 상기 구동 데이터에 기반하여 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동하는 것을 더 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것은, 소정의 시간 간격으로 상기 음소 시퀀스의 특징 정보를 샘플링하여, 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻는 것; 및 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 상기 인터랙티브 대상의 상기 자태 파라미터 값을 얻는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 뉴럴 네트워크는 장단기 기억 네트워크와 완전 접속 네트워크를 포함하고, 상기 제1 샘플링 시간에 대응하는 상기 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 인터랙티브 대상의 자태 파라미터 값을 얻는 것은, 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 상기 장단기 기억 네트워크에 입력하고, 상기 제1 샘플링 시간 전의 샘플링 특징 정보에 기반하여 관련 특징 정보를 출력하는 것; 및 상기 관련 특징 정보를 상기 완전 접속 네트워크에 입력하며, 상기 완전 접속 네트워크의 분류 결과에 기반하여 상기 관련 특징 정보에 대응하는 자태 파라미터 값을 확정하는 것을 포함하되, 여기서, 상기 분류 결과 중의 각각의 종류는 일 그룹의 자태 파라미터 값에 대응된다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 뉴럴 네트워크는 음소 시퀀스 샘플을 이용하여 훈련하여 얻은 것이며, 상기 방법은 캐릭터가 발한 음성의 비디오 세그먼트를 취득하는 것; 상기 비디오 세그먼트에 기반하여 상기 캐릭터가 포함된 복수의 제1 이미지 프레임 및 복수의 상기 제1 이미지 프레임에 각각 대응하는 복수의 오디오 프레임을 취득하는 것; 상기 제1 이미지 프레임을 상기 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하고, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값을 취득하는 것; 상기 제2 이미지 프레임에 대응하는 상기 자태 파라미터 값에 기반하여 상기 제1 이미지 프레임에 대응하는 상기 오디오 프레임을 라벨링하는 것; 및 상기 자태 파라미터 값이 라벨링되어 있는 상기 오디오 프레임에 기반하여 상기 음소 시퀀스 샘플을 얻는 것을 더 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 방법은 상기 음소 시퀀스에 대해 샘플 특징 인코딩을 실행하고, 상기 제2 샘플링 시간에 대응하는 특징 정보를 얻고, 상기 특징 정보 라벨링에 대응하는 자태 파라미터 값에 대해 특징 정보 샘플을 얻는 것; 및 상기 특징 정보 샘플에 기반하여 초기 뉴럴 네트워크를 훈련하고, 네트워크 손실의 변화가 결속 조건을 만족시키는 후에 상기 뉴럴 네트워크를 훈련하여 얻는 것을 더 포함하며, 여기서, 상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값 사이의 차이를 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값의 차의 두 번째 노름을 포함하고, 상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값의 첫번째 노름을 더 포함한다.
본 발명에 일 측면에 따르면, 표시 디바이스에 전시되어 있는 인터랙티브 대상의 구동 장치를 제공하며, 상기 장치는 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하기 위한 음소 시퀀스 취득 유닛; 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하기 위한 파라미터 취득 유닛; 및 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하기 위한 구동 유닛을 구비한다.
본 발명에 일 측면에 따르면, 전자 디바이스를 제공하며, 상기 디바이스는 메모리와 프로세서를 구비하며, 상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고, 상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 본 발명에 의해 제공되는 임의의 실시 형태에 기재된 인터랙티브 대상의 구동 방법이 실현된다.
본 발명에 일 측면에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하며, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명에 의해 제공되는 임의의 실시 형태에 기재된 인터랙티브 대상의 구동 방법이 실현된다.
본 발명의 하나 또는 복수의 실시예의 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 컴퓨터 판독 가능 기록 매체에 따르면, 표시 디바이스에 전시되어 있는 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하고, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하며, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어함으로써, 상기 인터랙티브 대상이 상기 목표 대상과 교류하거나 또는 상기 목표 대상에 응답하기 위한 매칭된 자태를 취하도록 하기에, 목표 대상이 인터랙티브 대상과 교류하고 있는 것처럼 느끼도록 하고, 목표 대상의 인터랙티브 대상과의 인터랙티브 체험을 개선했다.
이하, 본 명세서의 하나 또는 복수의 실시예 또는 선행 기술에서의 기술적 해결책을 더 명확히 설명하기 위하여, 실시예 또는 선행 기술의 설명에 사용할 필요가 있는 도면을 간단히 소개한다. 물론, 아래에서 설명되는 도면은 본 명세서의 하나 또는 복수의 실시예에 기재된 몇몇의 실시예에 지나지 않으며, 당업자는 창조적인 작업 없이 이러한 도면에 기반하여 기타 도면을 얻을 수 있다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 인터랙티브 대상의 구동 방법 중의 표시 디바이스의 모식도이다.
도 2는 본 발명의 적어도 하나의 실시예에 의해 제공되는 인터랙티브 대상의 구동 방법의 플로우 챠트이다.
도 3은 본 발명의 적어도 하나의 실시예에 의해 제공되는 음소 시퀀스에 대해 특징 인코딩을 실행하는 과정의 모식도이다.
도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 음소 시퀀스 샘플의 모식도이다.
도 5는 본 발명의 적어도 하나의 실시예에 의해 제공되는 인터랙티브 대상의 구동 장치의 구성의 모식도다.
도 6 은 본 발명의 적어도 하나의 실시예에 의해 제공되는 전자 디바이스의 구성 모식도이다.
이하, 예시적인 실시예를 상세하게 설명하며, 그 예를 도면에 나타낸다. 이하의 설명에서 도면을 언급할 경우, 특히 명기하지 않는 한, 서로 다른 도면 내의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 이하의 예시적인 실시예에서 서술되는 실시 형태는 본 발명과 일치하는 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구의 범위에 기재된 본 발명의 몇몇의 양태와 일치하는 장치 및 방법의 예에 불과하다.
본 명세서 내의 "및/또는"이라고 하는 용어는 단지 관련 대상의 관련 관계를 설명하는 것이며, 세가지 관계가 존재할 수 있음을 나타낸다. 예를 들면, A 및/또는 B는, A가 단독으로 존재하는 것, A와 B가 동시에 존재하는 것 및 B가 단독으로 존재하는 것과 같은 세가지 관계를 포함한다. 또한, 본 명세서 내의 "적어도 일 종"이라고 하는 용어는 복수 종류 중의 임의의 일 종 또는 복수 종류 중의 적어도 두 종류의 임의의 조합을 나타낸다. 예를 들면, A, B, C 중의 적어도 일 종을 포함하는 것은, A, B 및 C로 구성된 세트에서 선택한 임의의 하나 또는 복수의 요소를 포함하는 것을 나타낸다.
본 발명의 적어도 하나의 실시예는 인터랙티브 대상의 구동 방법을 제공하며, 상기 구동 방법은 단말 디바이스 또는 서버 등의 전자 디바이스에 의해 실행될 수 있다. 상기 단말 디바이스는 휴대전화, 태블릿 컴퓨터, 게임기, 데스크탑 컴퓨터, 광고기기, 올인원기기, 차량용 단말 등의 고정 단말 또는 이동 단말일 수 있다. 상기 서버는 로컬 서버 또는 클라우드 서버 등을 포함한다. 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능 명령을 호출하는 방법에 의해 실현될 수 있다.
본 발명의 실시예에 있어서, 인터랙티브 대상은 목표 대상과 인터랙티브를 실행할 수 있는 임의의 가상 이미지일 수 있다. 일 실시예에 있어서, 인터랙티브 대상은 가상 캐릭터일 수 있고, 또한 가상 동물, 가상 물품, 만화 이미지 등의 인터랙티브 기능을 실현할 수 있는 기타 가상 이미지일 수 있다. 인터랙티브 대상의 표시 형식은 2D 또는 3D일 수 있지만, 본 발명은 이에 대해 한정하지 않는다. 상기 목표 대상은 사용자, 로봇 또는 기타 스마트 디바이스일 수 있다. 상기 인터랙티브 대상의 상기 목표 대상과의 인터랙티브 방법은 능동적 인터랙티브 방법 또는 수동적 인터랙티브 방법일 수 있다. 일 예에 있어서, 목표 대상이 제스처 또는 신체 동작을 수행하여 요구를 발함으로써, 능동적 인터랙티브 방법에 따라 인터랙티브 대상을 트리거하여 인터랙티브를 실행할 수 있다. 다른 일 예에 있어서, 인터랙티브 대상이 능동적으로 인사함으로써, 목표 대상이 동작 등을 수행하도록 프롬프트 하는 방법을 통해, 목표 대상이 수동적 방법을 통해 인터랙티브 대상과 인터랙티브를 실행하도록 할 수 있다.
상기 인터랙티브 대상은 단말 디바이스를 이용하여 전시할 수 있으며, 상기 단말 디바이스는 텔레비전, 표시 기능을 가지는 올인원기, 프로젝터, 가상 현실(Virtual Reality, VR) 디바이스, 확장 현실(Augmented Reality, AR) 디바이스 등일 수 있으며, 본 발명은 단말 디바이스의 구체적인 형태에 대해 한정하지 않는다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 표시 디바이스를 나타낸다. 도 1에 나타낸바와 같이, 당해 표시 디바이스는 투명 표시 스크린을 구비하며, 투명 표시 스크린에 입체 이미지를 표시함으로써, 입체 효과를 가지는 가상 씬 및 인터랙티브 대상을 나타낼 수 있다. 예를 들면, 도 1의 투명 표시 스크린에 표시된 인터랙티브 대상은 가상 만화 인물을 포함한다. 몇몇의 실시예에 있어서, 본 발명에 기재된 단말 디바이스는 상기의 투명 표시 스크린을 가지는 표시 디바이스일 수 있다. 표시 디바이스는 메모리와 프로세서를 구비하며, 여기서 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고, 상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 본 발명에 의해 제공되는 인터랙티브 대상의 구동 방법을 실현함으로써, 투명 표시 스크린에 표시된 인터랙티브 대상을 구동하여 목표 대상과 교류 또는 응답을 수행하도록 할 수 있다.
몇몇의 실시예에 있어서, 인터랙티브 대상이 음성을 출력하도록 구동하기 위한 음성 구동 데이터에 응답하여, 인터랙티브 대상은 목표 대상에 대해 지정된 음성을 발할 수 있다. 단말 디바이스는 단말 디바이스의 주변 목표 대상의 동작, 표정, 신분, 기호 등에 기반하여 음성 구동 데이터를 생성함으로써, 인터랙티브 대상이 지정된 음성을 발하여 교류 또는 응답을 수행하도록 구동하여, 목표 대상에 대해 의인화 서비스를 제공할 수 있다. 음성 구동 데이터는 기타 방법에 의해 생성될 수도 있으며, 예를 들면, 서버가 생성하여 단말 디바이스에 송신할 수 있음을 설명할 필요가 있다.
인터랙티브 대상이 목표 대상과 인터랙티브를 실행하는 과정에 있어서, 당해 음성 구동 데이터에 기반하여 인터랙티브 대상이 지정된 음성을 발하도록 구동할 때에, 상기 인터랙티브 대상이 당해 지정된 음성과 동기화된 얼굴 부의 동작을 수행하도록 구동할 수 없기에, 인터랙티브 대상이 음성을 발할 때에 둔하게 부자연스러울 수 있으며, 목표 대상의 인터랙티브 대상과의 인터랙티브 체험에 영향을 줄 가능성이 있다. 이에 감안하여 본 발명의 적어도 하나의 실시예는 인터랙티브 대상의 구동 방법을 제안하며, 목표 대상의 인터랙티브 대상과의 인터랙티브의 체험을 향상시킨다.
도 2는 본 발명의 적어도 하나의 실시예의 인터랙티브 대상의 구동 방법을 나타내는 플로우 챠트이며, 도 2에 나타낸바와 같이, 상기 방법은 단계 201∼단계 203을 포함한다.
단계 201이며, 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득한다.
상기 음성 구동 데이터는 오디오 데이터(음성 데이터), 텍스트 등을 포함할 수 있다. 음성 구동 데이터가 오디오 데이터인 것에 응답하여, 직접 당해 오디오 데이터를 이용하여 인터랙티브 대상이 음성을 출력하도록 구동할 수 있으며, 즉 단말 디바이스는 당해 오디오 데이터에 기반하여 직접 음성을 출력할 수 있다. 음성 구동 데이터가 텍스트인 것에 응답하여, 상기 텍스트에 포함되어 있는 형태소에 기반하여 해당하는 음소를 생성하고, 생성한 음소에 기반하여 인터랙티브 대상이 음성을 출력하도록 구동할 필요가 있다. 상기 음성 구동 데이터는 기타 형식의 구동 데이터일 수 있으며, 본 발명은 이에 대해 한정하지 않는다.
본 발명의 실시예에 있어서, 상기 음성 구동 데이터는 서버 또는 단말 디바이스에 의해 인터랙티브 대상과 인터랙티브를 실행하는 목표 대상의 동작, 표정, 신분, 기호 등에 기반하여 생성한 구동 데이터일 수도 있고, 단말 디바이스에 의해 내부 메모리로부터 호출된 음성 구동 데이터일 수도 있다. 본 발명은 당해 음성 구동 데이터의 취득 방법에 대해 한정하지 않는다.
상기 음성 구동 데이터가 오디오 데이터인 것에 응답하여, 오디오 데이터를 복수의 오디오 프레임으로 분할하고, 오디오 프레임의 상태에 기반하여 오디오 프레임을 조합 음소를 형성함으로써, 상기 오디오 데이터에 의해 형성된 각각의 음소에 기반하여 음소 시퀀스를 형성할 수 있다. 여기서, 음소는 음성이 자연스러운 속성에 기반하여 분할된 최소의 음성 단위이며, 실제로 존재하는 인물의 하나의 발음 동작이 하나의 음소를 형성할 수 있다.
상기 음성 구동 데이터가 텍스트인 것에 응답하여, 상기 텍스트에 포함되어 있는 형태소에 기반하여 상기 형태소에 대응하는 음소를 얻음으로써 해당하는 음소 시퀀스를 얻을 수 있다.
당업자는 또한 기타 방법을 통해 상기 음성 구동 데이터에 대응하는 음소 시퀀스를 얻을 수 있으며, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
단계 202에 있어서, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득한다.
본 발명의 실시예에 있어서, 상기 음소 시퀀스의 음향 특징에 기반하여 상기 음소 시퀀스에 매칭하는 인터랙티브 대상의 자태 파라미터 값을 얻고, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 특징 코드에 대응하는 자태 파라미터 값을 확정함으로써, 상기 음소 시퀀스에 대응하는 자태 파라미터 값을 확정할 수도 있다.
자태 파라미터는 상기 인터랙티브 대상의 자태를 제어하는데 사용되며, 서로 다른 자태 파라미터 값을 이용하여 상기 인터랙티브 대상이 해당하는 자태를 취하도록 구동할 수 있다. 당해 자태 파라미터는 얼굴 자태 파라미터를 포함하며, 몇몇의 실시예에 있어서, 당해 자태 파라미터는 신체 자태 파라미터를 더 포함할 수 있다. 여기서, 얼굴 자태 파라미터는 표정, 입의 모양, 오관의 동작, 머리의 자태 등을 포함하는 상기 인터랙티브 대상의 얼굴 자태를 제어하는데 사용되고, 신체 자태 파라미터는 상기 인터랙티브 대상의 신체 자태를 제어하는데 사용되며, 즉 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동하기 위하여 사용된다. 본 발명의 실시예에 있어서, 음소 시퀀스의 특정의 특징과 인터랙티브 대상의 자태 파라미터 값 사이의 대응 관계를 사전에 구축함으로써, 상기 음소 시퀀스에 기반하여 대응하는 자태 파라미터 값을 얻을 수 있다. 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 구체적인 방법은 나중에 상세하게 설명한다. 자태 파라미터의 구체적 형태는 인터랙티브 대상 모델의 타입에 따라 확정할 수 있다.
단계 203에 있어서, 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어한다.
상기 자태 파라미터 값은 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스에 매칭된다. 상기 자태 파라미터 값에 기반하여 상기 인터랙티브 대상의 자태를 제어하면, 인터랙티브 대상의 자태와 인터랙티브 대상이 상기 목표 대상에 대해 실행하는 교류 또는 응답이 매칭되도록 할 수 있다. 예를 들면, 인터랙티브 대상이 음성으로 목표 대상과 교류 또는 응답을 수행하고 있을 때에, 수행하는 자태와 출력하는 음성이 동기화되도록 하며, 따라서 목표 대상에게 상기 인터랙티브 대상이 이야기하고 있는 것 같은 감각을 준다.
본 발명의 실시예에 있어서, 표시 디바이스에 전시되어 있는 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하고, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하며, 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어함으로써, 상기 목표 대상과 교류할지 또는 상기 목표 대상에 응답하기 위한 매칭된 자태를 취하도록 하며, 목표 대상이 인터랙티브 대상과 교류하고 있는 것처럼 느끼도록 하고, 목표 대상의 인터랙티브 체험을 개선했다.
몇몇의 실시예에 있어서, 상기 방법은 서버에 적용되며, 당해 서버는 로컬 서버 또는 클라우드 서버 등을 포함한다. 상기 서버는 인터랙티브 대상의 음성 구동 데이터에 대해 처리를 실행하여, 상기 인터랙티브 대상의 자태 파라미터 값을 생성하고, 상기 자태 파라미터 값에 기반하여 3차원 렌더링 엔진을 이용하여 렌더링하여 상기 인터랙티브 대상의 동영상을 얻는다. 상기 서버는 상기 동영상을 단말에 송신하여 전시함으로써, 목표 대상과 교류 또는 응답을 실행할 수 있고, 또한 상기 동영상을 클라우드에 송신함으로써, 단말이 클라우드로부터 상기 동영상을 취득하여 목표 대상과 교류 또는 응답을 실행하도록 할 수 있다. 서버는 상기 인터랙티브 대상의 자태 파라미터 값을 생성한 후에, 또한 상기 자태 파라미터 값을 단말에 송신함으로써, 단말이 렌더링의 실행, 동영상의 생성, 전시의 실행 등의 과정을 완료하도록 한다.
몇몇의 실시예에 있어서, 상기 방법은 단말에 적용되며, 상기 단말은 인터랙티브 대상의 음성 구동 데이터에 대해 처리를 실행하여, 상기 인터랙티브 대상의 자태 파라미터 값을 생성하고, 상기 자태 파라미터 값에 기반하여 3차원 렌더링 엔진을 이용하여 렌더링하여 상기 인터랙티브 대상의 동영상을 얻는다. 상기 단말은 상기 동영상을 전시함으로써 목표 대상과 교류 또는 응답을 실행할 수 있다.
몇몇의 실시예에 있어서, 상기 음소 시퀀스에 기반하여 상기 표시 디바이스의 출력 음성 및/또는 전시 텍스트를 제어할 수 있다. 또한, 상기 음소 시퀀스에 기반하여 상기 표시 디바이스의 출력 음성 및/또는 전시 텍스트를 제어하는 동시에, 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어할 수 있다.
본 발명의 실시예에 있어서, 상기 자태 파라미터 값과 상기 음소 시퀀스가 매칭되기 때문에, 음소 시퀀스에 기반하여 출력한 음성 및/또는 전시의 텍스트와 상기 자태 파라미터 값에 기반하여 제어한 인터랙티브 대상의 자태가 동기화될 경우, 인터랙티브 대상이 취한 자태와 출력한 음성 및/또는 전시한 텍스트가 동기화되므로, 목표 대상에게 상기 인터랙티브 대상과 이야기하고 있는 감각을 준다.
음성의 출력은 연속성을 유지할 필요가 있기 때문에, 일 실시예에 있어서, 음소 시퀀스 상에서 시간 윈도우를 이동시키며, 매회의 이동 과정에서 시간 윈도우 내의 음소를 출력한다. 여기서, 소정의 시간 길이를 매회의 이동 시간 윈도우의 스텝 길이로 설정한다. 예를 들면 시간 윈도우의 길이를 1초로 설정하고, 소정의 시간 길이를 0.1초로 설정할 수 있다. 시간 윈도우 내의 음소를 출력하는 동시에, 시간 윈도우의 소정의 위치의 음소 또는 음소의 특징 정보에 대응하는 자태 파라미터 값을 취득하고, 상기 자태 파라미터 값을 이용하여 상기 인터랙티브 대상의 자태를 제어한다. 당해 소정의 위치는 시간 윈도우의 시작 위치부터의 소정의 시간 길이의 위치이며, 예를 들면 시간 윈도우의 길이를 1s로 설정할 경우, 당해 소정의 위치는 시간 윈도우의 시작 위치부터의 0.5s의 위치일 수 있다. 시간 윈도우를 이동할 때마다, 시간 윈도우 내의 음소를 출력하는 동시에, 시간 윈도우의 소정의 위치에 대응하는 자태 파라미터 값으로 인터랙티브 대상의 자태를 제어함으로써, 인터랙티브 대상의 자태와 출력되는 음성이 동기화되도록 하고, 목표 대상에게 상기 인터랙티브 대상과 이야기하고 있는 감각을 준다.
소정의 시간 길이를 변경함으로써, 자태 파라미터 값을 취득하는 시간 간격(빈도)을 변경할 수 있고, 따라서 인터랙티브 대상이 자태를 취하는 빈도를 변경할 수 있다. 실제의 인터랙티브 씬에 따라 당해 소정의 시간 길이를 설정할 수 있으며, 인터랙티브 대상의 자태 변화가 더 자연스러워 지도록 할 수 있다.
몇몇의 실시예에 있어서, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻고, 상기 특징 정보에 기반하여 상기 인터랙티브 대상의 자태 파라미터 값을 확정할 수 있다.
본 발명의 실시예에 따르면, 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스에 대해 특징 인코딩을 실행하고, 얻어진 특징 정보에 기반하여 대응하는 자태 파라미터 값을 얻음으로써 음소 시퀀스에 기반하여 음성을 출력하는 동시에, 상기 특징 정보에 대응하는 자태 파라미터 값에 기반하여 상기 인터랙티브 대상의 자태를 제어할 수 있다. 특히, 상기 특징 정보에 대응하는 얼굴 자태 파라미터 값에 기반하여 상기 인터랙티브 대상이 얼굴 동작을 수행하도록 구동하고, 상기 인터랙티브 대상의 표정과 발하는 음성을 동기화할 수 있기에, 목표 대상에게 인터랙티브 대상과 이야기하고 있는 감각을 주며, 목표 대상의 인터랙티브 체험을 개선했다.
몇몇의 실시예에 있어서, 이하의 방법을 통해 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻을 수 있다.
먼저 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소에 대해, 복수 종류의 음소에 각각 대응하는 코드 시퀀스를 생성한다.
일 예에 있어서, 각 시점에 제1 음소가 대응되어 있는지 여부를 검출하되, 상기 제1 음소는 상기 복수의 음소 중의 임의의 하나이다. 상기 제1 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하고, 상기 제1 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정함으로써, 각각의 시점의 코드 값에 대해 값을 할당하여, 제1 음소에 대응하는 코드 시퀀스를 얻을 수 있다. 예를 들면, 상기 제1 음소가 대응되어 있는 시점의 코드 값을 1로 설정하고, 상기 제1 음소가 대응되어 있지 않는 시점의 코드 값을 0로 설정할 수 있다. 즉, 상기 음소 시퀀스에 포함되어 있는 복수의 음소 중의 각 음소에 대해 각 시점에 당해 음소가 대응되어 있는지 여부를 검출하고, 상기 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하며 상기 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정하고, 각각의 시점의 코드 값에 대해 값을 할당한 후에, 당해 음소에 대응하는 코드 시퀀스를 얻을 수 있다. 당업자는 상술한 코드 값의 설정은 예에 불과할 뿐, 또한 코드 값을 기타 값으로 설정할 수도 있으며, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
그 다음, 상기 각각의 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 음소 시퀀스 중 각각의 음소의 시간 길이에 기반하여 각각의 음소에 각각 대응하는 코드 시퀀스의 특징 정보를 얻는다.
일 예에 있어서, 제1 음소에 대응하는 코드 시퀀스에 대해, 가우스 필터를 이용하여 상기 제1 음소의 시간 상의 연속 값에 대해 가우스 컨볼루션 조작을 실행하여, 상기 제1 음소에 대응하는 코드 시퀀스의 특징 정보를 얻되, 여기서 상기 제1 음소는 상기 복수의 음소 중의 임의의 하나이다.
마지막으로, 각각의 코드 시퀀스의 특징 정보의 세트에 기반하여 상기 음소 시퀀스의 특징 정보를 얻는다.
도 3은 음소 시퀀스에 대해 특징 인코딩을 실행하는 과정을 나타내는 모식도이다. 도 3에 나타낸바와 같이, 음소 시퀀스 (310)는 음소 j, i, j, ie4(간소화를 위하여 일부의 음소만을 나타냄)을 포함하고, 각각의 음소 j, i, ie4에 대해 각각 상술한 각 음소에 각각 대응하는 코드 시퀀스(321, 322, 323)을 얻는다. 각각의 코드 시퀀스에 있어서, 상기 음소가 대응되어 있는 시점에 대응하는 코드 값을 제1 수치로 설정하고(예를 들면 1로 설정함), 상기 음소가 대응되어 있지 않는 시점에 대응하는 코드 값을 제2 수치로 설정한다 (예를 들면 0로 설정한다). 코드 시퀀스(321)의 예를 들면, 음소 시퀀스 (310) 상의 음소 j가 있는 시점에서 코드 시퀀스(321)의 값이 제1 수치이며, 음소 j가 없는 시점에서 코드 시퀀스(321)의 값이 제2 수치이다. 모든 코드 시퀀스(321, 322, 323)에 의해 완전한 코드 시퀀스(320)가 구성된다.
음소 j, i, ie4에 각각 대응하는 코드 시퀀스(321, 322, 323)의 코드 값 및 당해 세개의 코드 시퀀스 중의 대응하는 음소의 시간 길이에 기반하여, 즉 코드 시퀀스(321) 상의 j의 시간 길이, 코드 시퀀스(322) 상의 i1의 시간 길이 및 코드 시퀀스(323) 상의 ie4의 시간 길이에 기반하여, 코드 시퀀스(321, 322, 323)의 특징 정보를 얻을 수 있다.
예를 들면, 가우스 필터를 이용하여 각각 상기 코드 시퀀스(321, 322, 323) 중의 음소 j, i, ie4의 시간 상의 연속 값을 이용하여, 가우스 컨볼루션 조작을 실행하여 상기 코드 시퀀스의 특징 정보를 얻을 수 있다. 즉, 가우스 필터를 이용하여 음소의 시간 상의 연속 값에 대해 가우스 컨볼루션 조작을 실행함으로써, 각각의 코드 시퀀스 중의 코드 값이 제2 수치로부터 제1 수치 또는 제1 수치로부터 제2 수치에로의 변화 단계가 원활해지도록 한다. 각각의 코드 시퀀스(321, 322, 323)에 대해 각각 가우스 컨볼루션 조작을 실행하여, 각각의 코드 시퀀스의 특징 값을 얻는다. 여기서, 특징 값은 특징 정보의 파라미터를 구성하고, 각각의 코드 시퀀스의 특징 정보의 세트에 기반하여 당해 음소 시퀀스 (310)에 대응하는 특징 정보(330)를 얻는다. 당업자는 각각의 코드 시퀀스에 대해 기타 조작을 실행하여 상기 코드 시퀀스의 특징 정보를 얻을 수 있으며, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
본 발명의 실시예에 있어서, 음소 시퀀스 중의 각각의 음소의 시간 길이에 기반하여 상기 코드 시퀀스의 특징 정보를 얻음으로써 코드 시퀀스의 변화 단계가 원활해지도록 한다. 예를 들면, 코드 시퀀스의 값은 0과 1 이외에, 중간 상태의 값일 수 있으며, 예를 들면 0.2, 0.3 등일 수 있다. 이러한 중간 상태의 값에 기반하여 취득한 자태 파라미터 값은 인터랙티브 인물의 자태 변화가 더 원활하고 자연스러워지도록 하며, 특히 인터랙티브 인물의 표정 변화를 더 원활하고 자연스러워지도록 하여, 목표 대상의 인터랙티브 체험을 개선했다.
몇몇의 실시예에 있어서, 상기 얼굴 자태 파라미터는 얼굴 근육 제어 계수를 포함할 수 있다.
인간의 얼굴 운동은 해부학의 관점에서, 다양한 얼굴의 근육 협조적인 변형의 결과이다. 따라서, 인터랙티브 대상의 얼굴 근육을 분할하여 얼굴 근육 모델을 얻고, 분할하여 얻은 각 근육(영역)에 대해 대응하는 얼굴 근육 제어 계수에 기반하여 그 운동을 제어할 수 있으며, 즉 각 근육에 대해 수축/확장 제어를 실행하여, 인터랙티브 인물의 얼굴이 다양한 표정을 짖도록 할 수 있다. 상기 얼굴 근육 모델의 각각의 근육에 대해, 근육이 위치한 얼굴 상의 위치 및 근육 자신의 운동 특징에 기반하여 서로 다른 근육 제어 계수에 대응하는 운동 상태를 설정할 수 있다. 예를 들면, 윗 입술의 근육 경우, 그 제어 계수의 수치 범위는 0∼1이며, 당해 범위 내의 서로 다른 수치는 윗 입술의 근육의 서로 다른 수축/확장 상태에 대응되며, 당해 수치를 변경함으로써, 입 부의 세로 방향의 개폐를 실현할 수 있다. 입의 근육 왼쪽 모서리의 경우, 그 제어 계수의 수치 범위는 0∼1이며, 당해 범위 내의 서로 다른 수치는 입의 근육 왼쪽 모서리의 수축/확장 상태에 대응되며, 당해 수치를 변경함으로써 입 부의 가로 방향의 변화를 실현할 수 있다.
음소 시퀀스에 기반하여 음성을 출력하는 동시에, 상기 음소 시퀀스에 대응하는 얼굴 근육 제어 계수 값에 기반하여 상기 인터랙티브 대상이 얼굴 표정을 짖도록 구동하여, 표시 디바이스가 음성을 출력할 때에 인터랙티브 대상이 동시에 당해 음성을 발하는 표정을 짖도록 함으로써, 목표 대상에게 당해 인터랙티브 대상과 이야기하고 있는 감각을 주며, 목표 대상의 인터랙티브 체험을 개선했다.
몇몇의 실시예에 있어서, 상기 인터랙티브 대상의 얼굴 동작과 몸 자태를 관련시킬 수 있다. 즉, 당해 얼굴 동작에 대응하는 얼굴 자태 파라미터 값과 상기 몸 자태를 관련시킬 수 있고, 상기 몸 자태는 신체 동작, 제스처 동작, 걸어 자태 등을 포함할 수 있다.
인터랙티브 대상을 구동하는 과정에서, 상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터를 취득하고, 상기 음소 시퀀스에 기반하여 음성을 출력하는 동시에, 상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터에 기반하여 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동한다. 즉, 상기 인터랙티브 대상의 음성 구동 데이터에 기반하여 상기 인터랙티브 대상이 얼굴 동작을 수행하도록 구동하는 동시에, 또한 당해 얼굴 동작에 대응하는 얼굴 자태 파라미터 값에 기반하여 관련시킨 몸 자태의 구동 데이터를 취득하고, 음성을 출력할 때에 인터랙티브 대상이 동기에 해당하는 얼굴 동작 및 신체 동작을 수행하도록 구동함으로써, 인터랙티브 대상의 말하는 상태가 더 생생하고 자연스러워지도록 하여, 목표 대상의 인터랙티브 체험을 개선했다.
몇몇의 실시예에 있어서, 이하의 방법을 통해 상기 음소 시퀀스의 특징 정보에 대응하는 인터랙티브 대상의 자태 파라미터 값을 취득할 수 있다.
먼저 소정의 시간 간격으로 상기 음소 시퀀스의 특징 정보를 샘플링하여, 각각의 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻는다. 예를 들면, 소정의 시간 간격이 0.1s이면, 각각의 제1 샘플링 시간은 0.1s, 0.2s, 0.3s등일 수 있다.
도 3을 참조하면, 특징 정보(330)는 시간에 의존하는 정보이다. 따라서, 소정의 시간 간격으로 당해 특징 정보를 샘플링할 때에, 각각의 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻을 수 있다.
이어서, 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 인터랙티브 대상의 자태 파라미터 값을 얻을 수 있다. 각각의 제1 샘플링 시간에 대응하는 샘플링 특징 정보에 기반하여 각각의 제1 샘플링 시간에 대응하는 인터랙티브 대상의 자태 파라미터 값을 얻을 수 있다.
상술한 바와 같이, 음소 시퀀스 상에서 시간 윈도우를 이동하여 음소를 출력할 경우, 시간 윈도우의 소정의 위치의 특징 정보를 취득한다. 즉, 시간 윈도우의 소정의 위치에 대응하는 제1 샘플링 시간의 특징 정보를 얻고, 당해 특징 정보에 대응하는 자태 파라미터 값을 취득하여 상기 인터랙티브 대상의 자태를 제어함으로써, 인터랙티브 대상이 발하고 있는 음성에 일치하는 자태를 취하도록 하여, 인터랙티브 대상이 음성을 발하는 과정이 더 생생하고 자연스러워지도록 한다.
몇몇의 실시예에 있어서, 상기 뉴럴 네트워크는 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 및 완전 접속 네트워크를 포함한다. 여기서, 장단기 기억 네트워크는 시간 순환 뉴럴 네트워크이며, 입력된 샘플링 특징 정보의 이력 정보를 학습할 수 있다. 또한, 상기 장단기 기억 네트워크와 완전 접속 네트워크는 공동으로 훈련된다.
상기 뉴럴 네트워크가 장단기 기억 네트워크와 완전 접속 네트워크를 포함할 경우, 먼저 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 장단기 기억 네트워크에 입력한다. 장단기 기억 네트워크는 상기 제1 샘플링 시간 전의 샘플링 특징 정보에 기반하여 관련 특징 정보를 출력한다. 즉, 장단기 기억 네트워크가 출력한 정보는 이력 특징 정보의 현재 특징 정보에 대한 영향을 포함한다. 이어서, 상기 관련 특징 정보를 상기 완전 접속 네트워크에 입력하며, 상기 완전 접속 네트워크의 분류 결과에 기반하여 상기 관련 특징 정보에 대응하는 자태 파라미터 값을 확정한다. 여기서, 각 분류는 일 그룹의 자태 파라미터 값에 대응되며, 즉 일 종의 얼굴 근육 제어 계수의 분포 정황에 대응된다.
본 발명의 실시예에 있어서, 장단기 기억 네트워크 및 완전 접속 네트워크에 기반하여 음소 시퀀스의 샘플링 특징 정보에 대응하는 자태 파라미터 값을 예측하고, 관련성이 있는 이력 특징 정보와 현재 특징 정보를 융합함으로써, 이력 자태 파라미터 값이 현재 자태 파라미터 값의 변화에 대해 영향을 주도록 하여, 인터랙티브 인물의 자태 파라미터 값의 변화가 더 원활하고 자연스러워지도록 한다.
몇몇의 실시예에 있어서, 이하의 방법을 통해 상기 뉴럴 네트워크를 훈련할 수 있다.
먼저 음소 시퀀스 샘플을 취득한다. 상기 음소 시퀀스 샘플은 소정의 시간 간격의 제2 샘플링 시간으로 라벨링한 상기 인터랙티브 대상의 자태 파라미터 값을 포함한다. 도 4에 나타낸 음소 시퀀스 샘플과 같이, 그 중의 점선은 제2 샘플링 시간을 나타낸다. 각각의 제2 샘플링 시간에 대해 인터랙티브 대상의 자태 파라미터 값을 라벨링한다.
이어서, 상기 음소 시퀀스에 대해 샘플 특징 인코딩을 실행하여, 각각의 제2 샘플링 시간에 대응하는 특징 정보를 얻고, 상기 특징 정보 라벨링에 대응하는 자태 파라미터 값에 대해 특징 정보 샘플을 얻는다. 즉, 특징 정보 샘플은 제2 샘플링 시간에 대해 라벨링한 상기 인터랙티브 대상의 자태 파라미터 값을 포함한다.
특징 정보 샘플을 얻은 후, 당해 특징 정보 샘플에 기반하여 상기 뉴럴 네트워크를 훈련할 수 있다. 네트워크 손실이 소정의 손실값보다 작으면, 훈련을 완료한다. 여기서, 상기 네트워크 손실은 상기 뉴럴 네트워크가 예측하여 얻은 자태 파라미터 값과 라벨링한 자태 파라미터 값 사이의 차이를 포함한다.
일 예에 있어서, 네트워크 손실 함수의 수학식은 수학식(1)에 나타낸바와 같다.
Figure pct00001
(1)
여기서,
Figure pct00002
는 뉴럴 네트워크가 예측하여 얻은 i번째의 자태 파라미터 값이며,
Figure pct00003
는 라벨링한 i번째의 자태 파라미터 값이며, 즉 실재의 값이며,
Figure pct00004
는 벡터에 두 번째 노름을 나타낸다.
상기 뉴럴 네트워크 네트워크 파라미터 값을 조정하여 네트워크 손실 함수를 최소화하고, 네트워크 손실의 변화가 결속 조건을 충족시키면, 예를 들면 네트워크 손실의 변화량이 소정의 한계값보다 작거나 또는 반복 회수가 소정의 회수에 달하면, 훈련을 완료하여 훈련된 뉴럴 네트워크를 얻는다.
또 하나의 예에 있어서, 네트워크 손실 함수의 수학식은 수학식(2)에 나타낸바와 같다.
Figure pct00005
(2)
여기서,
Figure pct00006
는 뉴럴 네트워크가 예측하여 얻은 i번째의 자태 파라미터 값이며,
Figure pct00007
는 라벨링한 i번째의 자태 파라미터 값이며, 즉 실재의 값이며,
Figure pct00008
는 벡터에 두 번째 노름을 나타내고,
Figure pct00009
는 벡터의 첫번째 노름을 나타낸다.
네트워크 손실 함수 중에 예측하여 얻은 자태 파라미터 값의 첫번째 노름을 추가함으로써, 얼굴 파라미터의 희소성에 대한 제약을 증가시켰다.
몇몇의 실시예에 있어서, 이하의 방법을 통해 음소 시퀀스 샘플을 얻을 수 있다.
먼저 캐릭터가 발한 음성의 비디오 세그먼트를 취득한다. 예를 들면, 실재의 인물이 이야기하고 있는 비디오 세그먼트를 취득할 수 있다.
상기 비디오 세그먼트에 대해, 상기 캐릭터가 포함된 복수의 제1 이미지 프레임 및 상기 제1 이미지 프레임에 대응하는 복수의 오디오 프레임을 취득한다. 즉, 상기 비디오 세그먼트를 이미지 프레임과 오디오 프레임으로 분할한다. 여기서, 각각의 이미지 프레임은 각각의 오디오 프레임에 대응하며, 즉 하나의 이미지 프레임에 대해, 당해 캐릭터가 이미지 프레임의 표정을 지을 때에 발하는 음성에 대응하는 오디오 프레임을 확정할 수 있다.
이어서, 상기 제1 이미지 프레임인 상기 캐릭터가 포함된 이미지 프레임을 상기 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하고, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값을 취득한다. 상기 제1 이미지 프레임이 실재의 인물이 포함된 이미지 프레임인 예를 들면, 당해 실제로 존재하는 인물의 이미지 프레임을 인터랙티브 대상이 나타내는 이미지를 포함하는 제2 이미지 프레임으로 변환할 수 있다. 또한, 상기 실제로 존재하는 인물의 자태 파라미터 값이 상기 인터랙티브 대상의 자태 파라미터 값에 대응하기 때문에, 각각의 제2 이미지 프레임 내의 인터랙티브 대상의 자태 파라미터 값을 취득할 수 있다.
그 다음, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값에 기반하여 상기 제1 이미지 프레임에 대응하는 오디오 프레임을 라벨링하여, 자태 파라미터 값을 라벨링한 오디오 프레임에 기반하여 음소 시퀀스 샘플을 얻는다.
본 발명의 실시예에 있어서, 캐릭터의 비디오 세그먼트를, 대응하는 이미지 프레임과 오디오 프레임으로 분할하고, 실재의 인물이 포함된 제1 이미지 프레임을 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하고, 음소 시퀀스에 대응하는 자태 파라미터 값을 취득함으로써, 음소와 자태 파라미터 값의 대응성이 더 좋아지도록 하여, 더 높은 품질의 음소 시퀀스 샘플을 얻을 수 있다.
도 5는 본 발명의 적어도 하나의 실시예에 관한 인터랙티브 대상의 구동 장치 구성을 나타내는 모식도이며, 상기 인터랙티브 대상은 표시 디바이스에 전시되어 있다. 도 5에 나타낸바와 같이, 당해 장치는 상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하기 위한 음소 시퀀스 취득 유닛(501); 상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하기 위한 파라미터 취득 유닛(502); 및 상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하기 위한 구동 유닛(503)을 구비할 수 있다.
몇몇의 실시예에 있어서, 상기 장치는 상기 음소 시퀀스에 기반하여 상기 표시 디바이스의 출력 음성 및/또는 전시 텍스트를 제어하기 위한 출력 유닛을 더 구비한다.
몇몇의 실시예에 있어서, 상기 파라미터 취득 유닛은 구체적으로, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻고, 상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득한다.
몇몇의 실시예에 있어서, 상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻을 때에, 상기 파라미터 취득 유닛은 구체적으로, 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 복수 종류의 음소에 각각 대응하는 코드 시퀀스를 생성하고, 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 음소 시퀀스 중 복수 종류의 음소에 각각 대응하는 시간 길이에 기반하여 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보를 얻고, 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보에 기반하여 상기 음소 시퀀스의 특징 정보를 얻는다.
몇몇의 실시예에 있어서, 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소에 대해, 복수의 음소에 각각 대응하는 코드 시퀀스를 생성할 때에, 상기 파라미터 취득 유닛은 구체적으로, 각 시점에 제1 음소가 대응되어 있는지 여부를 검출하고, 상기 제1 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하며, 상기 제1 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정함으로써, 상기 제1 음소에 대응하는 코드 시퀀스를 얻되, 여기서 상기 제1 음소는 상기 복수의 음소 중의 임의의 하나이다.
몇몇의 실시예에 있어서, 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 음소 시퀀스 중 복수 종류의 음소에 각각 대응하는 시간 길이에 기반하여 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보를 얻을 때에, 상기 파라미터 취득 유닛은 구체적으로, 제1 음소에 대응하는 코드 시퀀스에 대해, 가우스 필터를 이용하여 상기 제1 음소의 시간 상의 연속 값에 대해 가우스 컨볼루션 조작을 실행하여, 상기 제1 음소에 대응하는 코드 시퀀스의 특징 정보를 얻되, 여기서 상기 제1 음소는 상기 복수의 음소 중의 임의의 하나이다.
몇몇의 실시예에 있어서, 자태 파라미터는 얼굴 자태 파라미터를 포함하고, 상기 얼굴 자태 파라미터는 얼굴 근육 제어 계수를 포함하며, 당해 얼굴 근육 제어 계수는 적어도 하나의 얼굴 근육의 운동 상태를 제어하는데 사용되고, 상기 구동 유닛은 구체적으로, 상기 음소 시퀀스에 매칭하는 얼굴 근육 제어 계수에 기반하여 상기 인터랙티브 대상이 상기 음소 시퀀스 중의 각 음소에 매칭하는 얼굴 동작을 수행하도록 상기 인터랙티브 대상을 구동한다.
몇몇의 실시예에 있어서, 상기 장치는 상기 얼굴 자태 파라미터에 관련된 몸 자태의 구동 데이터를 취득하고, 상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터에 기반하여 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동하기 위한 동작 구동 유닛을 더 구비한다.
몇몇의 실시예에 있어서, 상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득할 때에, 상기 파라미터 취득 유닛은 구체적으로, 소정의 시간 간격으로 상기 음소 시퀀스의 특징 정보를 샘플링하여, 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻고, 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 인터랙티브 대상의 자태 파라미터 값을 얻는다.
몇몇의 실시예에 있어서, 상기 뉴럴 네트워크는 장단기 기억 네트워크와 완전 접속 네트워크를 포함하고, 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 인터랙티브 대상의 자태 파라미터 값을 얻을 때에, 상기 파라미터 취득 유닛은 구체적으로, 상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 상기 장단기 기억 네트워크에 입력하고, 상기 제1 샘플링 시간 전의 샘플링 특징 정보에 기반하여 관련 특징 정보를 출력하며, 상기 관련 특징 정보를 상기 완전 접속 네트워크에 입력하고, 상기 완전 접속 네트워크의 분류 결과에 기반하여 상기 관련 특징 정보에 대응하는 자태 파라미터 값을 확정하되, 여기서, 상기 분류 결과 중의 각각의 종류는 일 그룹의 자태 파라미터 값에 대응된다.
몇몇의 실시예에 있어서, 상기 뉴럴 네트워크는 음소 시퀀스 샘플을 이용하여 훈련하여 얻은 것이다. 상기 장치는 캐릭터가 발한 음성의 비디오 세그먼트를 취득하고, 상기 비디오 세그먼트에 기반하여 상기 캐릭터가 포함된 복수의 제1 이미지 프레임 및 상기 제1 이미지 프레임에 대응하는 복수의 오디오 프레임을 취득하고, 상기 제1 이미지 프레임을 상기 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하며, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값을 취득하고, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값에 기반하여 상기 제1 이미지 프레임에 대응하는 오디오 프레임을 라벨링하며, 자태 파라미터 값이 라벨링되어 있는 오디오 프레임에 기반하여 음소 시퀀스 샘플을 얻기 위한 샘플 취득 유닛을 더 구비한다.
본 명세서의 적어도 하나의 실시예는 전자 디바이스를 더 제공하며, 도 6에 나타낸바와 같이, 상기 디바이스는 메모리와 프로세서를 구비하며, 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고, 프로세서는 상기 컴퓨터 명령이 실행될 때에, 본 발명이 임의의 실시예에 기재된 인터랙티브 대상의 구동 방법을 실현한다.
본 명세서의 적어도 하나의 실시예는 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 더 제공하며, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명이 임의의 실시예에 기재된 인터랙티브 대상의 구동 방법을 실현한다.
당업자는 본 발명의 하나 또는 복수의 실시예는 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예, 또는 소프트웨어와 하드웨어를 조합시키는 실시예의 형식을 사용할 수 있다. 또한, 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기억 매체(disk memory, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.
본 발명에 있어서의 각 실시예는 모두 점진적인 방식을 통해 서술되었고, 각 실시예 간의 동일 또는 유사한 부분은 서로 참조할 수 있으며, 각 실시예에서는 기타 실시예와의 차이 점에 초점을 맞춰 설명했다. 특히, 데이터 처리 디바이스의 실시예의 경우, 방법의 실시예와 기본상 유사이기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조할 수 있다.
상기에서 본 발명의 특정 실시예를 서술했다. 기타 실시예는 첨부된 "특허청구의 범위"의 범위 내에 있다. 몇몇의 경우, 특허청구의 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 또한 도면에 나타낸 과정은, 기대하는 결과를 얻기 위하여 반드시 도면에 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하거나 또는 유익할 수 있다.
본 발명의 주제 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 동등물을 포함하는 컴퓨터 하드웨어, 또는 이들의 하나 또는 복수의 조합을 통해 실현될 수 있다. 본 발명의 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있으며, 즉 유형의 비일시적 프로그램 캐리어 상에 부호화되어 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수작업으로 생성하는 전파 신호 상에 부호화될 수 있으며, 예를 들면 기계가 생성하는 전기 신호, 광 신호, 또는 전자 신호 상에 부호화될 수 있다. 정보를 부호화하여 적절한 수신기 장치에 전송하며, 데이터 처리 장치에 의해 실행되도록 하기 위하여, 당해 신호가 생성된다. 컴퓨터 기억 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들의 하나 또는 복수의 조합일 수 있다.
본 발명 중의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있고, 또한 장치도 전용 논리 회로를 통해 실현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서, 또는 임의?? 기타 종류의 중앙 처리 유닛을 포함한다. 일반적으로 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중앙 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 포함한다. 일반적으로 컴퓨터는 자기 디스크, 자기 광학 디스크, 또는 광학 디스크 등과 같은, 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 포함하거나, 또는 조작 가능하게 당해 대용량 기억 디바이스와 결합되어 데이터를 수신하거나, 데이터를 전송하거나, 또는 양자를 모두 포함한다. 하지만, 컴퓨터는 반드시 이러한 디바이스를 포함하는 것은 아니다. 한편, 컴퓨터는 다른 일 디바이스에 내장될 수 있으며, 예를 들면 휴대 전화, 개인용 디지털 처리 장치(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 범용 직렬 버스(USB), 플래시 드라이브 등의 휴대용 기억 디바이스에 내장될 수 있으며, 이러한 디바이스는 몇몇의 예에 지나지 않는다.
컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형식의 비휘발성 메모리, 매개 및 메모리 디바이스를 포함하며, 예를 들면 반도체 메모리 디바이스 (예를 들면 EPROM, EEPROM 및 플래시 디바이스), 자기 디스크 (예를 들면 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.
본 발명은 다양한 구체적인 실시 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 이는 주로 본 발명의 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수 실시예 중의 특정 특징은 단일 실시예에 결합되어 실시될 수도 있다. 반면에, 단일 실시예 중의 각 특징은 복수의 실시예에 나위어 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수도 있다. 한편, 특징이 상기와 같이 특정 조합으로 역할을 발휘하고, 또한 처음부터 이렇게 보호된다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.
마찬가지로, 도면에서는 특정 순서에 따라 조작을 나타냈지만, 이는 이러한 조작을 나타낸 특정 순서에 따라 실행하거나 또는 순차적으로 실행하거나, 또는 예시된 모든 조작을 실행하여야만 기대하는 결과가 실현될 수 있음을 요구하는 것으로 이해해서는 안된다. 한편, 상기의 실시예 중의 각종의 시스템 모듈과 컴포넌트의 분리는 모든 실시예에서 반드시 모두 이렇게 분리되어야 한다고 이해해서는 안되며, 또한 서술한 프로그램 컴포넌트와 시스템은 일반적으로 같이 단일 소프트웨어 제품에 통합되거나, 또는 복수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.
따라서, 주제의 특정 실시예가 서술되었다. 기타 실시예는 첨부된 "특허청구의 범위"의 범위 내에 있다. 경우에 따라 특허청구의 범위에 기재되어 있는 동작은 기타 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 한편, 도면에 그려진 처리는 기대하는 결과를 실현하는데, 반드시 나타낸 특정 순서를 필요로 하지 않는다. 일부 실현에 있어서, 멀티 태스크 및 병렬 처리가 더 유익할 가능성이 있다.
상기는 본 발명의 하나 또는 복수의 실시예의 바람직한 실시예에 불과할 뿐, 본 발명의 하나 또는 복수의 실시예를 한정하려는 것이 아니다. 본 발명의 하나 또는 복수의 실시예의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 하나 또는 복수의 실시예의 범위에 포함되어야 한다.

Claims (20)

  1. 표시 디바이스에 전시되어 있는 인터랙티브 대상의 구동 방법에 있어서,
    상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하는 것;
    상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것; 및
    상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  2. 제1항에 있어서,
    상기 음소 시퀀스에 기반하여 상기 표시 디바이스의 출력 음성 및/또는 전시 텍스트를 제어하는 것을 더 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것은,
    상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻는 것; 및
    상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  4. 제3항에 있어서,
    상기 음소 시퀀스에 대해 특징 인코딩을 실행하여 상기 음소 시퀀스의 특징 정보를 얻는 것은,
    상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소에 대응하는 코드 시퀀스를 생성하는 것;
    상기 음소에 대응하는 코드 시퀀스의 코드 값 및 상기 음소에 대응하는 시간 길이에 기반하여 상기 음소에 대응하는 코드 시퀀스의 특징 정보를 얻는 것; 및
    상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보에 기반하여 상기 음소 시퀀스의 특징 정보를 얻는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  5. 제4항에 있어서,
    상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소에 대응하는 코드 시퀀스를 생성하는 것은,
    각 시점에 상기 음소가 대응되어 있는지 여부를 검출하는 것; 및
    상기 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하고, 상기 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정함으로써, 상기 음소에 대응하는 상기 코드 시퀀스를 얻는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  6. 제4항 또는 제5항에 있어서,
    상기 복수의 음소에 각각 대응하는 코드 시퀀스의 코드 값 및 상기 복수 종류의 음소에 각각 대응하는 시간 길이에 기반하여 상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보를 얻는 것은,
    상기 복수 종류의 음소 중의 각 음소에 대해, 상기 음소에 대응하는 코드 시퀀스에 대해 가우스 필터를 이용하여 상기 음소의 시간 상의 연속 값에 대해 가우스 컨볼루션 조작을 실행하여, 상기 음소에 대응하는 코드 시퀀스의 특징 정보를 얻는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    자태 파라미터는 얼굴 자태 파라미터를 포함하고, 상기 얼굴 자태 파라미터는 얼굴 근육 제어 계수를 포함하며, 상기 얼굴 근육 제어 계수는 적어도 하나의 얼굴 근육의 운동 상태를 제어하는데 사용되고,
    상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하는 것은,
    상기 음소 시퀀스에 매칭하는 얼굴 근육 제어 계수 값에 기반하여 상기 인터랙티브 대상이 상기 음소 시퀀스 중의 각 음소에 매칭하는 얼굴 동작을 수행하도록 상기 인터랙티브 대상을 구동하는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  8. 제7항에 있어서,
    상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터를 취득하는 것; 및
    상기 얼굴 자태 파라미터 값에 관련된 상기 몸 자태의 상기 구동 데이터에 기반하여 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동하는 것을 더 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  9. 제3항에 있어서,
    상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하는 것은,
    소정의 시간 간격으로 상기 음소 시퀀스의 특징 정보를 샘플링하여, 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻는 것; 및
    상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 상기 인터랙티브 대상의 상기 자태 파라미터 값을 얻는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  10. 제9항에 있어서,
    상기 사전에 훈련된 뉴럴 네트워크는 장단기 기억 네트워크와 완전 접속 네트워크를 포함하고,
    상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 상기 인터랙티브 대상의 상기 자태 파라미터 값을 얻는 것은,
    상기 제1 샘플링 시간에 대응하는 상기 샘플링 특징 정보를 상기 장단기 기억 네트워크에 입력하고, 상기 제1 샘플링 시간 전의 샘플링 특징 정보에 기반하여 관련 특징 정보를 출력하는 것; 및
    상기 관련 특징 정보를 상기 완전 접속 네트워크에 입력하며, 상기 완전 접속 네트워크의 분류 결과에 기반하여 상기 관련 특징 정보에 대응하는 자태 파라미터 값을 확정하는 것을 포함하되,
    상기 분류 결과 중에서, 각각의 종류는 일 그룹의 상기 자태 파라미터 값에 대응하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 뉴럴 네트워크는 음소 시퀀스 샘플을 이용하여 훈련하여 얻은 것이며,
    상기 인터랙티브 대상의 구동 방법은,
    캐릭터가 발한 음성의 비디오 세그먼트를 취득하는 것;
    상기 비디오 세그먼트에 기반하여 상기 캐릭터가 포함된 복수의 제1 이미지 프레임 및 복수의 상기 제1 이미지 프레임에 각각 대응하는 복수의 오디오 프레임을 취득하는 것;
    상기 제1 이미지 프레임을 상기 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하고, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값을 취득하는 것;
    상기 제2 이미지 프레임에 대응하는 상기 자태 파라미터 값에 기반하여 상기 제1 이미지 프레임에 대응하는 상기 오디오 프레임을 라벨링하는 것; 및
    상기 자태 파라미터 값이 라벨링되어 있는 상기 오디오 프레임에 기반하여 상기 음소 시퀀스 샘플을 얻는 것을 더 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  12. 제11항에 있어서,
    상기 음소 시퀀스에 대해 샘플 특징 인코딩을 실행하여 제2 샘플링 시간에 대응하는 특징 정보를 얻고, 상기 특징 정보 라벨링에 대응하는 자태 파라미터 값에 대해 특징 정보 샘플을 얻는 것; 및
    상기 특징 정보 샘플에 기반하여 초기 뉴럴 네트워크를 훈련하고, 네트워크 손실의 변화가 결속 조건을 충족시킨 후에 상기 뉴럴 네트워크를 훈련하여 얻는 것을 더 포함하되,
    상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값 사이의 차이를 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  13. 제12항에 있어서,
    상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값의 차의 두 번째 노름(norm)을 포함하고,
    상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값의 첫번째 노름을 더 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 방법.
  14. 표시 디바이스에 전시되어 있는 인터랙티브 대상의 구동 장치에 있어서,
    상기 인터랙티브 대상의 음성 구동 데이터에 대응하는 음소 시퀀스를 취득하기 위한 음소 시퀀스 취득 유닛;
    상기 음소 시퀀스에 매칭하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득하기 위한 파라미터 취득 유닛; 및
    상기 자태 파라미터 값에 기반하여 상기 표시 디바이스에 전시되어 있는 상기 인터랙티브 대상의 자태를 제어하기 위한 구동 유닛을 구비하는
    것을 특징으로 하는 인터랙티브 대상의 구동 장치.
  15. 제14항에 있어서,
    상기 파라미터 취득 유닛은,
    상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소에 대응하는 코드 시퀀스를 생성하고,
    상기 음소에 대응하는 코드 시퀀스의 코드 값 및 상기 음소에 대응하는 시간 길이에 기반하여 상기 음소에 대응하는 코드 시퀀스의 특징 정보를 얻으며,
    상기 복수 종류의 음소에 각각 대응하는 코드 시퀀스의 특징 정보에 기반하여 상기 음소 시퀀스의 특징 정보를 얻고,
    여기서, 상기 음소 시퀀스에 포함되어 있는 복수 종류의 음소 중의 각 음소에 대해 상기 음소에 대응하는 코드 시퀀스를 생성하는 것은,
    각 시점에 상기 음소가 대응되어 있는지 여부를 검출하는 것; 및
    상기 음소가 대응되어 있는 시점의 코드 값을 제1 수치로 설정하고, 상기 음소가 대응되어 있지 않는 시점의 코드 값을 제2 수치로 설정함으로써, 상기 음소에 대응하는 상기 코드 시퀀스를 얻는 것을 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 장치.
  16. 제14항 또는 제15항에 있어서,
    자태 파라미터는 얼굴 자태 파라미터를 포함하고, 상기 얼굴 자태 파라미터는 얼굴 근육 제어 계수를 포함하며, 상기 얼굴 근육 제어 계수는 적어도 하나의 얼굴 근육의 운동 상태를 제어하는데 사용되고,
    상기 구동 유닛은,
    상기 음소 시퀀스에 매칭하는 얼굴 근육 제어 계수 값에 기반하여 상기 인터랙티브 대상이 상기 음소 시퀀스 중의 각 음소에 매칭하는 얼굴 동작을 수행하도록 상기 인터랙티브 대상을 구동하고,
    상기 인터랙티브 대상의 구동 장치는 상기 얼굴 자태 파라미터 값에 관련된 몸 자태의 구동 데이터를 취득하고, 상기 얼굴 자태 파라미터 값에 관련된 상기 몸 자태의 상기 구동 데이터에 기반하여 상기 인터랙티브 대상이 신체 동작을 수행하도록 상기 인터랙티브 대상을 구동하기 위한 동작 구동 유닛을 더 구비하는
    것을 특징으로 하는 인터랙티브 대상의 구동 장치.
  17. 제15항에 있어서,
    상기 음소 시퀀스의 특징 정보에 대응하는 상기 인터랙티브 대상의 자태 파라미터 값을 취득할 때에,
    상기 파라미터 취득 유닛은,
    소정의 시간 간격으로 상기 음소 시퀀스의 특징 정보를 샘플링하여, 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 얻고,
    상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 상기 인터랙티브 대상의 상기 자태 파라미터 값을 얻되,
    여기서, 상기 뉴럴 네트워크는 장단기 기억 네트워크와 완전 접속 네트워크를 포함하고,
    상기 제1 샘플링 시간에 대응하는 샘플링 특징 정보를 사전에 훈련된 뉴럴 네트워크에 입력하여, 상기 샘플링 특징 정보에 대응하는 상기 인터랙티브 대상의 상기 자태 파라미터 값을 얻을 때에,
    상기 파라미터 취득 유닛은,
    상기 제1 샘플링 시간에 대응하는 상기 샘플링 특징 정보를 상기 장단기 기억 네트워크에 입력하고, 상기 제1 샘플링 시간 전의 샘플링 특징 정보에 기반하여 관련 특징 정보를 출력하며,
    상기 관련 특징 정보를 상기 완전 접속 네트워크에 입력하며, 상기 완전 접속 네트워크의 분류 결과에 기반하여 상기 관련 특징 정보에 대응하는 자태 파라미터 값을 확정하되,
    여기서, 상기 분류 결과 중에서, 각각의 종류는 일 그룹의 상기 자태 파라미터 값에 대응하는
    것을 특징으로 하는 인터랙티브 대상의 구동 장치.
  18. 제17항에 있어서,
    상기 뉴럴 네트워크는 음소 시퀀스 샘플을 이용하여 훈련하여 얻은 것이며,
    상기 인터랙티브 대상의 구동 장치는 샘플 취득 유닛을 더 구비하며,
    상기 샘플 취득 유닛은,
    캐릭터가 발한 음성의 비디오 세그먼트를 취득하고, 상기 비디오 세그먼트에 기반하여 상기 캐릭터가 포함된 복수의 제1 이미지 프레임 및 복수의 상기 제1 이미지 프레임에 대응하는 복수의 오디오 프레임을 취득하며,
    상기 제1 이미지 프레임을 상기 인터랙티브 대상이 포함된 제2 이미지 프레임으로 변환하고, 상기 제2 이미지 프레임에 대응하는 자태 파라미터 값을 취득하며,
    상기 제2 이미지 프레임에 대응하는 상기 자태 파라미터 값에 기반하여 상기 제1 이미지 프레임에 대응하는 상기 오디오 프레임을 라벨링하고,
    상기 자태 파라미터 값이 라벨링되어 있는 상기 오디오 프레임에 기반하여 상기 음소 시퀀스 샘플을 얻으며,
    상기 인터랙티브 대상의 구동 장치는 훈련 유닛을 더 구비하며,
    상기 훈련 유닛은,
    상기 음소 시퀀스에 대해 샘플 특징 인코딩을 실행하고, 상기 제2 샘플링 시간에 대응하는 특징 정보를 얻으며, 상기 특징 정보 라벨링에 대응하는 자태 파라미터 값에 대해 특징 정보 샘플을 얻고,
    상기 특징 정보 샘플에 기반하여 초기 뉴럴 네트워크를 훈련하고, 네트워크 손실의 변화가 결속 조건을 충족시킨 후에 상기 뉴럴 네트워크를 훈련하여 얻되,
    여기서, 상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값 사이의 차이를 포함하고,
    상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값과 라벨링한 상기 자태 파라미터 값의 차의 두 번째 노름을 포함하며,
    상기 네트워크 손실은 상기 초기 뉴럴 네트워크가 예측하여 얻은 상기 자태 파라미터 값의 첫번째 노름을 더 포함하는
    것을 특징으로 하는 인터랙티브 대상의 구동 장치.
  19. 전자 디바이스에 있어서,
    메모리와 프로세서를 구비하며,
    상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고,
    상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 제1항 내지 제13항 중 어느 한 항에 기재된 방법을 실현하는
    것을 특징으로 하는 전자 디바이스.
  20. 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에, 제1항 내지 제13항 중 어느 한 항에 기재된 방법이 실현되는
    것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
KR1020217027717A 2020-03-31 2020-11-18 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체 KR20210124312A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010245761.9A CN111459450A (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质
CN202010245761.9 2020-03-31
PCT/CN2020/129770 WO2021196643A1 (zh) 2020-03-31 2020-11-18 交互对象的驱动方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
KR20210124312A true KR20210124312A (ko) 2021-10-14

Family

ID=71682375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217027717A KR20210124312A (ko) 2020-03-31 2020-11-18 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체

Country Status (6)

Country Link
JP (1) JP2022531057A (ko)
KR (1) KR20210124312A (ko)
CN (1) CN111459450A (ko)
SG (1) SG11202109464YA (ko)
TW (1) TWI766499B (ko)
WO (1) WO2021196643A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113314104B (zh) * 2021-05-31 2023-06-20 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN114283227B (zh) * 2021-11-26 2023-04-07 北京百度网讯科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN114330631A (zh) * 2021-12-24 2022-04-12 上海商汤智能科技有限公司 数字人生成方法、装置、设备及存储介质
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
TWI799223B (zh) * 2022-04-01 2023-04-11 國立臺中科技大學 肌力評估教學虛擬實境系統
CN114972589A (zh) * 2022-05-31 2022-08-30 北京百度网讯科技有限公司 虚拟数字形象的驱动方法及其装置
CN115662388A (zh) * 2022-10-27 2023-01-31 维沃移动通信有限公司 虚拟形象面部驱动方法、装置、电子设备及介质
CN116665695B (zh) * 2023-07-28 2023-10-20 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002077755A (ja) * 2000-08-29 2002-03-15 Sharp Corp エージェントインタフェース装置
JP2003058908A (ja) * 2001-08-10 2003-02-28 Minolta Co Ltd 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
JP2015038725A (ja) * 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
JP5913394B2 (ja) * 2014-02-06 2016-04-27 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US10366689B2 (en) * 2014-10-29 2019-07-30 Kyocera Corporation Communication robot
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及系统
CN108942919B (zh) * 2018-05-28 2021-03-30 北京光年无限科技有限公司 一种基于虚拟人的交互方法及系统
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110176284A (zh) * 2019-05-21 2019-08-27 杭州师范大学 一种基于虚拟现实的言语失用症康复训练方法
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110609620B (zh) * 2019-09-05 2020-11-17 深圳追一科技有限公司 基于虚拟形象的人机交互方法、装置及电子设备
CN110647636B (zh) * 2019-09-05 2021-03-19 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN110866609B (zh) * 2019-11-08 2024-01-30 腾讯科技(深圳)有限公司 解释信息获取方法、装置、服务器和存储介质
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
JP2022531057A (ja) 2022-07-06
TWI766499B (zh) 2022-06-01
CN111459450A (zh) 2020-07-28
SG11202109464YA (en) 2021-11-29
WO2021196643A1 (zh) 2021-10-07
TW202138993A (zh) 2021-10-16

Similar Documents

Publication Publication Date Title
KR20210124312A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN111459454B (zh) 交互对象的驱动方法、装置、设备以及存储介质
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
WO2023284435A1 (zh) 生成动画的方法及装置
CN114144790A (zh) 具有三维骨架正则化和表示性身体姿势的个性化语音到视频
WO2021232876A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
CN114173188B (zh) 视频生成方法、电子设备、存储介质和数字人服务器
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
WO2022252890A1 (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
KR20210124306A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
KR102514580B1 (ko) 영상 전환 방법, 장치 및 컴퓨터 프로그램
CN116958328A (zh) 口型合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal