KR102503413B1 - 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 - Google Patents

애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR102503413B1
KR102503413B1 KR1020210031673A KR20210031673A KR102503413B1 KR 102503413 B1 KR102503413 B1 KR 102503413B1 KR 1020210031673 A KR1020210031673 A KR 1020210031673A KR 20210031673 A KR20210031673 A KR 20210031673A KR 102503413 B1 KR102503413 B1 KR 102503413B1
Authority
KR
South Korea
Prior art keywords
interaction
animation
image
user
person
Prior art date
Application number
KR1020210031673A
Other languages
English (en)
Other versions
KR20220008735A (ko
Inventor
루이쥐 첸
하오티엔 펑
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220008735A publication Critical patent/KR20220008735A/ko
Application granted granted Critical
Publication of KR102503413B1 publication Critical patent/KR102503413B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체를 공개하되, 이미지 처리, 3차원 모델링, 증강 현실 기술 분야에 관한 것이다. 상기 방법의 구체적인 일 실시형태는, 단말 기기로부터 송신된 인물 이미지를 수신하는 단계; 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 단계 - 3차원 가상 이미지는 인물 이미지 중의 인물과 유사함 -; 애니메이션 인터랙션 정보를 생성하는 단계 - 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 및 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신하는 단계를 포함한다. 상기 실시형태는 인물 이미지 중의 인물을 이와 유사한 3차원 가상 이미지로 대체하고, 애니메이션 인터랙션 정보를 이용하여 3차원 가상 이미지가 사용자와 동반하도록 구동함으로써, 가상 동반의 표현 형태를 더욱 다양화하고, 가상 동반의 표현 효과 품질 및 전체적 인터랙션 품질을 향상시킨다.

Description

애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체{ANIMATION INTERACTION METHOD, DEVICE, EQUIPMENT AND STORAGE MEDIUM}
본 발명의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로 이미지 처리, 3차원 모델링, 증강 현실 기술 분야에 관한 것이고, 특히 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체에 관한 것이다.
인공 지능(Artificial Intelligence: AI)은 사람의 지능을 시뮬레이션, 확대 및 확장시키기 위한 이론, 방법, 기술 및 응용 시스템을 연구, 개발하는 새로운 기술 과학이다. 인공 지능은 컴퓨터 과학의 하나의 분기로서, 이는 지능의 실질을 이해하고, 인간 지능과 유사한 방식으로 반응할 수 있는 새로운 지능 기계를 생산하도록 의도하며, 본 분야의 연구는 로봇, 언어 인식, 이미지 인식, 자연 언어 처리 및 전문가 시스템 등을 포함한다. 인공 지능은 탄생 이래, 이론 및 기술이 점점 성숙되고, 응용 분야도 끊임없이 확대되고 있다.
가상 동반은 인공 지능의 중요한 응용 기술로, 점점 많은 사물 간 인터넷 장면에서 깊이 응용되고 있다. 하지만, 기존의 가상 동반은 대다수 음성 형태가 위주이고, 표현 형태가 단조롭다.
본 발명의 배경기술은 미국 특허출원공개공보 US2019/0197755호(2019.06.27.)에 개시되어 있다.
본 발명의 실시예는 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체를 제공한다.
제1 양태에 따르면, 본 발명의 실시예는, 단말 기기로부터 송신된 인물 이미지를 수신하는 단계; 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 단계 - 3차원 가상 이미지는 인물 이미지 중의 인물과 유사함 -; 애니메이션 인터랙션 정보를 생성하는 단계 - 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 및 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신하는 단계를 포함하는 애니메이션 인터랙션 방법을 제공한다.
제2 양태에 따르면, 본 발명의 실시예는, 서버에 인물 이미지를 송신하고, 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하는 단계 - 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고, 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성하는 단계; 및 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하는 단계를 포함하는 애니메이션 인터랙션 방법을 제공한다.
제3 양태에 따르면, 본 발명의 실시예는, 단말 기기로부터 송신된 인물 이미지를 수신하는 수신 모듈; 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 제1 생성 모듈 - 3차원 가상 이미지는 인물 이미지 중의 인물과 유사함 -; 애니메이션 인터랙션 정보를 생성하는 제2 생성 모듈 - 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 및 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신하는 송신 모듈을 포함하는 애니메이션 인터랙션 장치를 제공한다.
제4 양태에 따르면, 본 발명의 실시예는, 서버에 인물 이미지를 송신하고, 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하는 송수신 모듈 - 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고, 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성하는 렌더링 및 생성 모듈; 및 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하는 표시 모듈을 포함하는 애니메이션 인터랙션 장치를 제공한다.
제5 양태에 따르면, 본 발명의 실시예는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고, 메모리에 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 명령이 적어도 하나의 프로세서에 의해 실행되어 적어도 하나의 프로세서가 제1 양태 중 어느 하나의 실시형태에 따른 방법 또는 제2 양태 중 어느 하나의 실시형태에 따른 방법을 수행할 수 있도록 하는, 전자 기기를 제공한다.
제6 양태에 따르면, 본 발명의 실시예는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 제공하되, 컴퓨터 명령은 컴퓨터가 제1 양태 중 어느 하나의 실시형태에 따른 방법 또는 제2 양태 중 어느 하나의 실시형태에 따른 방법을 수행하도록 한다.
본 발명의 실시예에 의해 제공되는 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체는, 먼저, 단말 기기로부터 송신된 인물 이미지를 수신하고; 다음, 인물 이미지에 기반하여, 인물 이미지 중의 인물과 유사한 3차원 가상 이미지를 생성하며, 애니메이션 인터랙션 정보를 생성하고; 마지막으로, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다. 인물 이미지 중의 인물을 이와 유사한 3차원 가상 이미지로 대체하고, 애니메이션 인터랙션 정보를 이용하여 3차원 가상 이미지가 사용자와 동반하도록 구동함으로써, 가상 동반의 표현 형태를 더욱 다양화하고, 가상 동반의 표현 효과 품질 및 전체적 인터랙션 품질을 향상시킨다. 나아가 사용자의 참여도 및 동질감을 크게 향상시킴으로써, 애니메이션 인터랙션 방법을 응용하는 제품의 경쟁력 및 영향력을 증가시킨다.
이 부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요 특징을 나타내는 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 발명의 다른 특징은 아래의 명세서를 통해 용이하게 이해될 것이다.
아래 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다. 도면은 본 해결수단을 더 잘 이해하도록 제공되는 것으로, 본 발명을 한정하지 않는다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 애니메이션 인터랙션 방법의 실시예의 흐름도이다.
도 3은 본 발명에 따른 애니메이션 인터랙션 방법의 다른 실시예의 흐름도이다.
도 4는 본 발명에 따른 애니메이션 인터랙션 방법의 또 다른 실시예의 흐름도이다.
도 5는 본 발명의 실시예를 구현할 수 있는 애니메이션 인터랙션 방법의 장면도이다.
도 6은 본 발명에 따른 애니메이션 인터랙션 장치의 실시예의 구성 모식도이다.
도 7은 본 발명에 따른 애니메이션 인터랙션 장치의 다른 실시예의 구성 모식도이다.
도 8은 본 발명의 실시예에 따른 애니메이션 인터랙션 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명에 따른 비디오 애니메이션 인터랙션 방법 또는 애니메이션 인터랙션 장치의 실시예를 구현할 수 있는 예시적 시스템 아키텍처(100)를 나타낸다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 단말 기기(101)와 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101)를 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101)에는 다양한 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들어 3D 페이스 핀칭 소프트웨어, 지능 포토 프레임 소프트웨어 등이다. 단말 기기(101)는 서버(103)로부터 수신된 3차원 가상 이미지 및 애니메이션 인터랙션 정보 등 데이터에 대해 렌더링 등 처리를 수행하고, 처리 결과(예를 들어, 인터랙션 애니메이션을 융합 표시하고, 인터랙션 음성을 동시 재생함)를 나타낼 수 있다.
단말 기기(101)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101)가 하드웨어인 경우 다양한 전자 기기일 수 있으며, 전자 포토 프레임, 스마트폰, 및 태블릿 PC 등을 포함하지만 이에 한정되지 않는다. 단말 기기(101)가 소프트웨어인 경우 상기 전자 기기에 설치될 수 있다. 이는 다수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(103)는 다양한 서비스를 제공하는 서버일 수 있는데, 예를 들어, 3D 페이스 핀칭 소프트웨어, 지능 포토 프레임 소프트웨어의 백그라운드 서버일 수 있다. 백그라운드 서버는 단말 기기(101)로부터 수신된 인물 이미지 등 데이터에 대해 분석 등 처리를 수행하고, 처리 결과(예를 들어, 3차원 가상 이미지 및 애니메이션 인터랙션 정보)를 단말 기기(101)에 피드백할 수 있다.
설명해야 할 것은, 서버(103)는 하드웨어 또는 소프트웨어일 수 있다. 서버(103)가 하드웨어인 경우 다수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
설명해야 할 것은, 본 발명의 실시예에 의해 제공되는 애니메이션 인터랙션 방법은 서버(103)에 의해 수행될 수 있고, 대응되게, 애니메이션 인터랙션 장치는 서버(103)에 설치될 수 있으며; 본 발명의 실시예에 의해 제공되는 애니메이션 인터랙션 방법은 단말 기기(101)에 의해 수행될 수도 있고, 대응되게, 애니메이션 인터랙션 장치는 단말 기기(101)에 설치될 수도 있다.
도 1에서의 단말 기기, 네트워크 및 서버의 수량은 예시적인 것일 뿐이며, 실제 필요에 따라 임의의 수량의 단말 기기, 네트워크 및 서버를 구비할 수 있음을 이해해야 한다.
계속하여 도 2를 참조하면, 본 발명에 따른 애니메이션 인터랙션 방법의 일 실시예의 흐름(200)을 나타낸다. 상기 애니메이션 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 단말 기기로부터 송신된 인물 이미지를 수신한다.
본 실시예에서, 애니메이션 인터랙션 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는, 단말 기기(예를 들어, 도 1에 도시된 단말 기기(101))로부터 송신된 인물 이미지를 수신할 수 있다.
실천에서, 단말 기기는 전자 포토 프레임, 스마트폰 및 태블릿 PC 등을 포함할 수 있지만 이에 한정되지 않는다. 단말 기기에 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어가 설치될 수 있다. 사용자는 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어를 통해 인물 이미지를 서버에 업로드할 수 있다. 여기서, 인물 이미지는 일반적으로 실세계(real world) 중의 인물의 2차원 이미지이다. 일부 실시예에서, 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 단말 기기의 카메라 권한을 미리 획득할 수 있고, 단말 기기의 카메라를 통해 인물 이미지를 촬영할 수 있다. 일부 실시예에서, 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 단말 기기의 앨범 읽기 권한을 미리 획득하고, 단말 기기의 앨범에 저장된 인물 이미지를 읽을 수 있다.
단계(202)에서, 인물 이미지에 기반하여 3차원 가상 이미지를 생성한다.
본 실시예에서, 상기 수행 주체는 인물 이미지에 기반하여 3차원 가상 이미지를 생성할 수 있다. 여기서, 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고, 인물 이미지 중의 인물을 스타일화하고, 개인 특징을 부각시킨 3차원 애니메이션 인물일 수 있다.
일부 실시예에서, 상기 수행 주체는 대량의 3차원 가상 이미지를 미리 저장할 수 있고, 상기 수행 주체는 인물 이미지 중의 인물의 특징을 추출하고, 미리 저장된 각각의 3차원 가상 이미지와 매칭시키며, 특징이 고도로 매칭되는 3차원 가상 이미지를 인물 이미지 중의 인물의 3차원 가상 이미지로 사용할 수 있다.
일부 실시예에서, 상기 수행 주체는 PTA(photo to avatar, 가상 이미지 자동 생성) 기술을 이용하여 인물 이미지 중의 인물에 대해 3D 페이스 핀칭을 수행하여 대응되는 3차원 가상 이미지를 생성할 수 있다. 구체적으로, 상기 수행 주체는, 먼저, 인물 이미지 중의 인물의 안면 기관을 분류하여 안면 기관이 다양한 사전설정 가상 안면 기관 타입에 속하는 가중치를 획득하고; 다음, 가중치에 기반하여 다양한 사전설정 가상 안면 기관 타입에 대응되는 가상 안면 기관을 가중하여 인물 이미지 중의 인물의 가상 안면 기관을 생성하며; 마지막으로, 인물 이미지 중의 인물의 가상 안면 기관에 기반하여 3차원 가상 이미지를 생성할 수 있다. 미리 저장된 다양한 타입의 가상 안면 기관을 융합하면, 임의의 타입의 가상 안면 기관을 융합해낼 수 있다. 또한, 유사도 가중치에 기반하여, 미리 저장된 다양한 타입의 가상 안면 기관을 융합하면, 인물 이미지 중의 인물의 안면 기관과 고도로 유사한 가상 안면 기관을 융합해낼 수 있다. 여기서, 사전설정 가상 안면 기관은 눈, 코, 입, 눈썹, 귀 등을 포함할 수 있지만 이에 한정되지 않는다. 예를 들어, 눈에 대해, 다양한 가상 눈형(요염한 눈, 상서로운 봉황 눈, 자는 봉황 눈, 버들잎 눈 및 둥근 눈 등을 포함하지만 이에 한정되지 않음)을 미리 저장하고, 인물 이미지 중의 인물의 눈과 이러한 가상 눈형의 유사도 가중치를 산출하며, 유사도 가중치에 기반하여 이러한 가장 눈형을 융합하여 인물 이미지 중의 인물의 가상 눈을 획득할 수 있다.
단계(203)에서, 애니메이션 인터랙션 정보를 생성한다.
본 실시예에서, 상기 수행 주체는 애니메이션 인터랙션 정보를 생성할 수 있다. 일반적으로, 상기 수행 주체는 다양한 이모티콘 프레임을 포함하는 한 세트의 통용하는 이모티콘 베이스를 미리 저장할 수 있다. 상기 수행 주체는 적어도 일부분의 이모티콘 프레임을 조합하여 인터랙션 이모티콘 시퀀스 프레임을 생성할 수 있다. 이때, 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함할 수 있다. 선택 가능하게, 상기 수행 주체는 이모티콘 시퀀스 프레임에 대해 매칭되는 인터랙션 음성을 설계할 수도 있다. 이때, 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함할 수 있다.
단계(204)에서, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다.
본 실시예에서, 상기 수행 주체는 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신할 수 있다. 이로써, 단말 기기는 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 인터랙션 애니메이션을 생성하고, 인물 이미지에 융합시켜 표시하며, 가상 세계 중의 3차원 가상 이미지를 현실 세계 중의 인물 이미지에 중첩시켜 인터랙션할 수 있음으로써, 인물 이미지의 증강 현실을 구현한다. 선택 가능하게, 애니메이션 인터랙션 정보가 인터랙션 음성을 더 포함할 경우, 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하는 동시에, 상기 수행 주체는 또한 인터랙션 음성을 동시 재생할 수 있음으로써, 다중 표현 형태의 가상 동반을 구현한다. 여기서, 인터랙션 애니메이션 중의 3차원 가상 이미지는 인터랙션 이모티콘 시퀀스 프레임 중의 이모티콘을 순차적으로 표현한다.
본 발명의 실시예에 의해 제공되는 애니메이션 인터랙션 방법은, 먼저, 단말 기기로부터 송신된 인물 이미지를 수신하고; 다음, 인물 이미지에 기반하여, 인물 이미지 중의 인물과 유사한 3차원 가상 이미지를 생성하며, 애니메이션 인터랙션 정보를 생성하고; 마지막으로, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다. 인물 이미지 중의 인물을 이와 유사한 3차원 가상 이미지로 대체하고, 애니메이션 인터랙션 정보를 이용하여 3차원 가상 이미지가 사용자와 동반하도록 구동함으로써, 가상 동반의 표현 형태를 더욱 다양화하고, 가상 동반의 표현 효과 품질 및 전체적 인터랙션 품질을 향상시킨다. 나아가 사용자의 참여도 및 동질감을 크게 향상시킴으로써, 애니메이션 인터랙션 방법을 응용하는 제품의 경쟁력 및 영향력을 증가시킨다.
또한 도 3을 참조하면, 본 발명에 따른 애니메이션 인터랙션 방법의 다른 실시예의 흐름(300)을 나타낸다. 상기 애니메이션 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계(301)에서, 단말 기기로부터 송신된 인물 이미지를 수신한다.
단계(302)에서, 인물 이미지에 기반하여 3차원 가상 이미지를 생성한다.
본 실시예에서, 단계(301) ~ 단계(302)의 구체적인 동작은 도 2에 도시된 실시예의 단계(201) ~ 단계(202)에서 이미 상세하게 설명하였으므로, 여기서 더 이상 설명하지 않는다.
단계(303)에서, 인물 이미지 중의 인물 수량 및 환경 정보를 인식한다.
본 실시예에서, 애니메이션 인터랙션 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는 디폴트 애니메이션 인터랙션 정보를 생성할 수 있다.
일부 실시예에서, 사용자가 음성을 입력했는지 여부를 막론하고, 상기 수행 주체는 모두 디폴트 애니메이션 인터랙션 정보를 생성 및 저장하여 사용을 위해 준비할 수 있다.
일부 실시예에서, 사용자가 음성을 입력하지 않은 경우에만, 상기 수행 주체는 디폴트 애니메이션 인터랙션 정보를 생성할 수 있다.
일반적으로, 디폴트 애니메이션 인터랙션 정보와 인물 이미지가 위치한 장면은 서로 매칭된다. 구체적으로, 상기 수행 주체는 인물 이미지 중의 인물 수량 및 환경 정보를 인식하여, 인물 이미지가 위치한 장면 정보를 획득할 수 있다. 예를 들어, 상기 수행 주체는 타깃 검출 모델을 이용하여 인물 이미지 중의 인체 박스를 검출하고, 검출된 인체 박스의 수량에 기반하여 인물 이미지 중의 인물 수량을 확정할 수 있다. 상기 수행 주체는 타깃 인식 모델을 이용하여 인물 이미지의 배경 중의 물체를 인식하고, 인식된 물체에 기반하여 인물 이미지 중의 환경 정보를 확정할 수 있다. 여기서, 타깃 검출 모델 및 타깃 인식 모델은 딥러닝 학습 방식을 통해 미리 트레이닝되어 획득된 신경망 모델일 수 있다.
단계(304)에서, 인물 이미지 중의 인물 수량 및 환경 정보에 기반하여, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성한다.
본 실시예에서, 상기 수행 주체는 인물 이미지 중의 인물 수량 및 환경 정보에 기반하여, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다. 여기서, 인물 이미지 중의 인물 수량에 기반하여 인터랙션 참여 인원수를 확정할 수 있고, 인물 이미지 중의 환경 정보에 기반하여 이와 매칭되는 인터랙션 콘텐츠를 생성할 수 있다. 여기서, 인터랙션 참여 인원수는 인물 이미지 중의 인물 수량보다 크지 않은 바, 일반적으로, 인물 이미지 중의 인물 수량과 같다. 예를 들어, 인물 이미지에 세 사람이 존재하고 또한 백화점에 위치하면, 애니메이션 인터랙션 정보는 세 사람이 백화점에서 쇼핑을 토론하는 인터랙션 정보일 수 있다.
단계(305)에서, 단말 기기로부터 송신된 사용자 음성을 수신한다.
본 실시예에서, 사용자가 음성을 입력한 경우, 상기 수행 주체는 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다. 구체적으로, 단말 기기(예를 들어, 도 1에 도시된 단말 기기(101))로부터 송신된 사용자 음성을 수신하고, 사용자 음성과 매칭되는 애니메이션 인터랙션 정보를 생성한다.
실천에서, 단말 기기는 전자 포토 프레임, 스마트폰 및 태블릿 PC 등을 포함할 수 있지만 이에 한정되지 않는다. 단말 기기에 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어가 설치될 수 있다. 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 단말 기기의 녹음 권한을 미리 획득하고, 단말 기기의 마이크를 통해 사용자에 의해 입력된 사용자 음성을 수집할 수 있다.
단계(306)에서, 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식한다.
본 실시예에서, 상기 수행 주체는 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식할 수 있다. 여기서, 사용자 음성의 콘텐츠는 사용자 음성에 대해 음성-문자 변환을 수행하여 획득될 수 있다. 사용자의 기분은 사용자 음성 및/또는 사용자 음성의 콘텐츠로부터 기분 특징 정보를 추출하여 획득될 수 있다.
사용자 음성의 콘텐츠만 인식하는 해결수단에 있어서, 상기 수행 주체는 사용자 음성에 대해 음성-문자 변환을 수행하여 사용자 음성의 콘텐츠를 획득할 수 있다.
사용자 기분만 인식하는 해결수단에 있어서, 상기 수행 주체는 직접 사용자 음성으로부터 사용자의 발음 특징을 추출하여 대응되는 기분 특징 정보를 분석할 수 있다. 여기서, 발음 특징은 운율, 리듬, 말하는 속도, 억양, 수식, 소리 강도 등을 포함할 수 있지만 이에 한정되지 않는다. 예를 들어, 사용자 음성의 억양이 비교적 유쾌하면, 사용자 기분이 비교적 즐거운 것으로 확정한다.
사용자 음성의 콘텐츠 및 사용자 기분을 동시에 인식하는 해결수단에 있어서, 상기 수행 주체는 사용자 음성에 대해 음성-문자 변환을 수행하여 사용자 음성의 콘텐츠를 획득할 수 있다. 또한, 상기 수행 주체는 사용자 음성으로부터 사용자의 발음 특징을 추출하여 대응되는 기분 특징 정보를 분석할 수 있을 뿐만 아니라, 사용자의 음성 콘텐츠로부터 기분 정보가 구비된 스테이트먼트를 추출하여 대응되는 기분 특징 정보를 분석할 수도 있다.
단계(307)에서, 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성한다.
본 실시예에서, 상기 수행 주체는 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다. 여기서, 사용자 기분에 기반하여 이와 매칭되는 이모티콘을 확정할 수 있다. 사용자 음성의 콘텐츠에 기반하여 이와 매칭되는 인터랙션 콘텐츠를 생성할 수 있다. 여기서, 사용자 기분과 매칭되는 이모티콘 및/또는 사용자 기분과 매칭되는 인터랙션 콘텐츠에 기반하여, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다.
사용자 기분과 매칭되는 이모티콘에만 기반하여 애니메이션 인터랙션 정보를 생성하는 해결수단에 있어서, 애니메이션 인터랙션 정보는, 인물이 사용자 기분과 매칭되는 일련의 이모티콘을 표시하는 얼굴 동작을 묘사하는 정보일 수 있다.
사용자 기분과 매칭되는 인터랙션 콘텐츠에만 기반하여 애니메이션 인터랙션 정보를 생성하는 해결수단에 있어서, 애니메이션 인터랙션 정보는, 인물이 사용자 기분과 매칭되는 일련의 인터랙션 콘텐츠를 말하는 입 모양 동작을 묘사하는 정보일 수 있다.
사용자 기분과 매칭되는 이모티콘 및 사용자 기분과 매칭되는 인터랙션 콘텐츠에 동시에 기반하여 인터랙션 콘텐츠애니메이션 인터랙션 정보를 생성하는 해결수단에 있어서, 애니메이션 인터랙션 정보는, 인물이 사용자 기분과 매칭되는 일련의 이모티콘을 표시하는 얼굴 동작을 묘사하는 정보를 포함할 수 있을 뿐만 아니라, 인물이 사용자 기분과 매칭되는 일련의 인터랙션 콘텐츠를 말하는 입 모양 동작을 묘사하는 정보를 포함할 수도 있다.
단계(308)에서, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다.
본 실시예에서, 단계(308)의 구체적인 동작은 도 2에 도시된 실시예의 단계(204)에서 이미 상세하게 설명하였으므로, 여기서 더 이상 설명하지 않는다.
도 3으로부터 알 수 있는 바, 도 2의 대응되는 실시예와 비교하면, 본 실시예 중의 애니메이션 인터랙션 방법의 흐름(300)은 애니메이션 인터랙션 정보를 생성하는 단계를 돋보이게 하였다. 따라서, 본 실시예에서 설명된 해결수단에서, 사용자가 음성을 입력하지 않은 경우, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성하여 단말 기기에 송신하고, 인물 이미지 중의 상이한 인물 사이의 인터랙션을 구동시키며, 인터랙션 콘텐츠와 인물 이미지가 위치한 장면을 매칭시키고; 사용자가 음성을 입력한 경우, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성하여 단말 기기에 송신하고, 인물 이미지 중의 인물과 사용자의 인터랙션을 구동시키며, 인터랙션 콘텐츠와 사용자 음성을 매칭시킨다. 상이한 경우에 대해, 상이한 애니메이션 인터랙션 정보를 생성하여, 인터랙션이 목적성을 더욱 가지도록 한다.
또한 도 4를 참조하면, 본 발명에 따른 애니메이션 인터랙션 방법의 또 다른 실시예의 흐름(400)을 나타낸다. 상기 애니메이션 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계(401)에서, 서버에 인물 이미지를 송신하고, 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신한다.
본 실시예에서, 애니메이션 인터랙션 방법의 수행 주체(예를 들어, 도 1에 도시된 단말 기기(101))는 서버(예를 들어, 도 1에 도시된 서버(103))에 인물 이미지를 송신하고, 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신할 수 있다.
실천에서, 단말 기기는 전자 포토 프레임, 스마트폰 및 태블릿 PC 등을 포함할 수 있지만 이에 한정되지 않는다. 단말 기기에 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어가 설치될 수 있다. 사용자는 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어를 통해 인물 이미지를 서버에 업로드할 수 있다. 여기서, 인물 이미지는 일반적으로 실세계 중의 인물의 2차원 이미지이다. 일부 실시예에서, 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 단말 기기의 카메라 권한을 미리 획득할 수 있고, 단말 기기의 카메라를 통해 인물 이미지를 촬영할 수 있다. 일부 실시예에서, 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 단말 기기의 앨범 읽기 권한을 미리 획득하고, 단말 기기의 앨범에 저장된 인물 이미지를 읽을 수 있다.
서버는 인물 이미지에 기반하여 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 생성할 수 있다. 여기서, 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고, 인물 이미지 중의 인물을 스타일화하고, 개인 특징을 부각시킨 3차원 애니메이션 인물일 수 있다. 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함할 수 있다. 선택 가능하게, 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함할 수 있다.
일부 실시예에서, 애니메이션 인터랙션 정보는 인물 이미지가 위치한 장면과 매칭될 수 있다. 구체적으로, 서버는, 먼저, 인물 이미지 중의 인물 수량 및 환경 정보를 인식하고; 다음, 인물 이미지 중의 인물 수량 및 환경 정보에 기반하여, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다. 사용자가 음성을 입력하지 않은 경우, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성하여 단말 기기에 송신하고, 인물 이미지 중의 상이한 인물 사이의 인터랙션을 구동시키며, 인터랙션 콘텐츠와 인물 이미지가 위치한 장면을 매칭시킨다.
일부 실시예에서, 애니메이션 인터랙션 정보는 사용자 음성과 매칭될 수 있다. 구체적으로, 3D 페이스 핀칭 소프트웨어 또는 지능 포토 프레임 소프트웨어는 또한 단말 기기의 녹음 권한을 미리 획득하고, 단말 기기의 마이크를 통해 사용자에 의해 입력된 사용자 음성을 수집하며, 서버에 사용자 음성을 송신할 수 있다. 서버는, 먼저, 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식하고; 다음, 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성할 수 있다. 사용자가 음성을 입력한 경우, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성하여 단말 기기에 송신하고, 인물 이미지 중의 인물과 사용자의 인터랙션을 구동시키며, 인터랙션 콘텐츠와 사용자 음성을 매칭시킨다. 상이한 경우에 대해, 상이한 애니메이션 인터랙션 정보를 생성하여, 인터랙션이 목적성을 더욱 가지도록 한다.
단계(402)에서, 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성한다.
본 실시예에서, 상기 수행 주체는 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성할 수 있다. 여기서, 인터랙션 애니메이션 중의 3차원 가상 이미지는 인터랙션 이모티콘 시퀀스 프레임 중의 이모티콘을 순차적으로 표현한다.
단계(403)에서, 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시한다.
본 실시예에서, 상기 수행 주체는 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하고, 가상 세계 중의 3차원 가상 이미지를 현실 세계 중의 인물 이미지에 중첩시켜 인터랙션할 수 있음으로써, 인물 이미지의 증강 현실을 구현한다. 선택 가능하게, 애니메이션 인터랙션 정보가 인터랙션 음성을 더 포함할 경우, 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하는 동시에, 상기 수행 주체는 인터랙션 음성을 동시 재생할 수 있음으로써, 다중 표현 형태의 가상 동반을 구현한다.
본 발명의 실시예에 의해 제공되는 애니메이션 인터랙션 방법은, 먼저, 서버에 인물 이미지를 송신하고, 서버에 의해 리턴된, 인물 이미지 중의 인물과 유사한 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하며; 다음, 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성하고; 마지막으로, 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시하며, 인터랙션 음성을 동시 재생한다. 인물 이미지 중의 인물을 이와 유사한 3차원 가상 이미지로 대체하고, 애니메이션 인터랙션 정보를 이용하여 3차원 가상 이미지가 사용자와 동반하도록 구동함으로써, 가상 동반의 표현 형태를 더욱 다양화하고, 가상 동반의 표현 효과 품질 및 전체적 인터랙션 품질을 향상시킨다. 나아가 사용자의 참여도 및 동질감을 크게 향상시킴으로써, 애니메이션 인터랙션 방법을 응용하는 제품의 경쟁력 및 영향력을 증가시킨다.
이해의 편의를 위해, 도 5는 본 발명의 실시예를 구현할 수 있는 애니메이션 인터랙션 방법의 장면도를 나타낸다. 도 5에 도시된 바와 같이, 전자 포토 프레임(501)은 마이크(5011), 디스플레이(5012), 스피커(5013), 이미지 메모리(5014), 3차원 가상 이미지 메모리(5015), 애니메이션 인터랙션 정보 메모리(5016), 3차원 가상 이미지 구동기(5017) 및 이미지 합성기(5018)를 포함한다. 사용자는 인물 이미지를 이미지 메모리(5014)에 저장한 후, 인물 이미지를 서버(502)에 업로드하는 동작을 트리거할 수 있다. 인물 이미지가 처음으로 서버(502)에 업로드된 후, 서버(502)는 인물 이미지 중의 모든 인물에 따라, PTA 기술을 이용하여 이와 대응되는 3차원 가상 이미지를 생성하고, 3차원 가상 이미지 메모리(5015)에 다운로드할 수 있다. 다음, 서버(502)는 인물 이미지 중 인물 수량 및 환경 정보에 따라, 인물 이미지가 위치한 장면과 매칭되는 애니메이션 인터랙션 정보(이모티콘 시퀀스 프레임 및 인터랙션 음성을 포함함)를 생성하고, 애니메이션 인터랙션 정보 메모리(5016)에 다운로드하여, 디폴트 애니메이션 인터랙션 정보로 사용할 수 있다. 실행 과정에서, 마이크(5011)가 사용자에 의해 입력된 사용자 음성을 수집하지 못하면, 직접 디폴트 애니메이션 인터랙션 정보에 따라 후속의 구동 및 합성 동작을 완성할 수 있다. 실행 과정에서, 마이크(5011)가 사용자에 의해 입력된 사용자 음성을 수집하였으면, 마이크(5011)는 수집된 사용자 음성을 서버(502)에 업로드할 수 있다. 서버(502)는 사용자 음성의 콘텐츠 및 사용자 기분에 따라, 사용자와 인터랙션하는 임시적인 애니메이션 인터랙션 정보를 생성하고, 애니메이션 인터랙션 정보 메모리(5016)에 다운로드할 수 있다. 이때, 임시적인 애니메이션 인터랙션 정보에 따라 후속의 구동 및 합성 동작을 완성할 수 있다. 구체적으로, 3차원 가상 이미지 구동기(5017)에서 애니메이션 인터랙션 정보에 따라 3차원 가상 이미지를 구동하여, 인터랙션 애니메이션을 생성한다. 이미지 합성기(5018)에서 인터랙션 애니메이션을 인물 이미지에 융합시키고, 디스플레이(5012)를 이용하여 표시한다. 동시에, 스피커(5013)를 이용하여 인터랙션 음성을 동시 재생한다.
또한 도 6을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 발명은 애니메이션 인터랙션 장치의 일 실시예를 제공하되, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되고, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 6에 도시된 바와 같이, 본 실시예의 애니메이션 인터랙션 장치(600)는 수신 모듈(601), 제1 생성 모듈(602), 제2 생성 모듈(603) 및 송신 모듈(604)을 포함할 수 있다. 여기서, 수신 모듈(601)은, 단말 기기로부터 송신된 인물 이미지를 수신하고; 제1 생성 모듈(602)은, 인물 이미지에 기반하여 3차원 가상 이미지를 생성하며, 여기서, 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고; 제2 생성 모듈(603)은, 애니메이션 인터랙션 정보를 생성하며, 여기서, 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함하고; 송신 모듈(604)은, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다.
본 실시예에서, 애니메이션 인터랙션 장치(600)에서, 수신 모듈(601), 제1 생성 모듈(602), 제2 생성 모듈(603) 및 송신 모듈(604)의 구체적인 처리 및 이에 따른 기술적 효과는 각각 도 2의 대응되는 실시예에서의 단계(201) ~ 단계(204)의 관련 설명을 참조할 수 있으므로, 여기서 더 이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 제1 생성 모듈(602)은 또한, 인물 이미지 중의 인물의 안면 기관을 분류하여 안면 기관이 다양한 사전설정 가상 안면 기관 타입에 속하는 가중치를 획득하고; 가중치에 기반하여 다양한 사전설정 가상 안면 기관 타입에 대응되는 가상 안면 기관을 가중하여 인물 이미지 중의 인물의 가상 안면 기관을 생성하며; 인물 이미지 중의 인물의 가상 안면 기관에 기반하여 3차원 가상 이미지를 생성한다.
본 실시예의 일부 선택 가능한 실시형태에서, 제2 생성 모듈(603)은 또한, 인물 이미지 중의 인물 수량 및 환경 정보를 인식하고; 인물 이미지 중의 인물 수량 및 환경 정보에 기반하여, 인물 이미지 중의 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성한다.
본 실시예의 일부 선택 가능한 실시형태에서, 제2 생성 모듈(603)은 또한, 단말 기기로부터 송신된 사용자 음성을 수신하고; 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식하며; 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성한다.
또한 도 7을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 발명은 애니메이션 인터랙션 장치의 일 실시예를 제공하되, 상기 장치 실시예는 도 4에 도시된 방법 실시예와 대응되고, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 7에 도시된 바와 같이, 본 실시예의 애니메이션 인터랙션 장치(700)는 송수신 모듈(701), 렌더링 및 생성 모듈(702) 및 표시모듈(703)을 포함할 수 있다. 여기서, 송수신 모듈(701)은, 서버에 인물 이미지를 송신하고, 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하며, 여기서, 3차원 가상 이미지는 인물 이미지 중의 인물과 유사하고, 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함하며; 렌더링 및 생성 모듈(702)은, 인터랙션 이모티콘 시퀀스 프레임에 기반하여 3차원 가상 이미지를 렌더링하여, 3차원 가상 이미지의 인터랙션 애니메이션을 생성하고; 표시 모듈(703)은, 인터랙션 애니메이션을 인물 이미지에 융합시켜 표시한다.
본 실시예에서, 애니메이션 인터랙션 장치(700)에서, 송수신 모듈(701), 렌더링 및 생성 모듈(702) 및 표시 모듈(703)의 구체적인 처리 및 이에 따른 기술적 효과는 각각 도 4의 대응되는 실시예에서의 단계(401) ~ 단계(403)의 관련 설명을 참조할 수 있으므로, 여기서 더 이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함하고; 애니메이션 인터랙션 장치(700)는, 상기 인터랙션 음성을 동시 재생하는 재생 모듈(미도시)을 더 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 애니메이션 인터랙션 장치(700)는, 사용자에 의해 입력된 사용자 음성을 수집하고, 서버에 사용자 음성을 송신하는 수집 및 송신 모듈(미도시)을 더 포함하고; 송수신 모듈(701)은 또한, 서버에 의해 리턴된, 사용자 음성에 기반하여 생성된 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 수신한다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능한 저장 매체를 더 제공한다.
도 8에 도시된 바와 같이, 본 발명의 실시예에 따른 애니메이션 인터랙션 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 8에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(801), 메모리(802), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 8에서 하나의 프로세서(801)를 예로 든다.
메모리(802)는 본 발명에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리에 적어도 하나의 프로세서가 본 발명에 의해 제공되는 애니메이션 인터랙션 방법을 수행하도록 하는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 발명의 비일시적 컴퓨터 판독 가능한 저장 매체는 본 발명에 의해 제공되는 애니메이션 인터랙션 방법을 수행하도록 하는 컴퓨터 명령을 저장한다.
메모리(802)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 발명의 실시예의 애니메이션 인터랙션 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 6에 도시된 수신 모듈(601), 제1 생성 모듈(602), 제2 생성 모듈(603) 및 송신 모듈(604), 또는 도 7에 도시된 송수신 모듈(701), 렌더링 및 생성 모듈(702) 및 표시 모듈(703))과 같은 모듈을 저장할 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 애니메이션 인터랙션 방법을 구현한다.
메모리(802)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 애니메이션 인터랙션 방법의 전자 기기의 사용에 따라 구축한 다양한 데이터 등을 저장할 수 있다. 이 밖에, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(802)는 프로세서(801)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 애니메이션 인터랙션 방법의 전자 기기 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
애니메이션 인터랙션 방법의 전자 기기는 입력 장치(803) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력 장치(803) 및 출력 장치(804)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 8에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(803)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 애니메이션 인터랙션 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(804)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체” 및 "컴퓨터 판독 가능한 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 발명의 실시예에 따른 기술적 해결수단은, 먼저, 단말 기기로부터 송신된 인물 이미지를 수신하고; 다음, 인물 이미지에 기반하여, 인물 이미지 중의 인물과 유사한 3차원 가상 이미지를 생성하고, 애니메이션 인터랙션 정보를 생성하며; 마지막으로, 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 단말 기기에 송신한다. 인물 이미지 중의 인물을 이와 유사한 3차원 가상 이미지로 대체하고, 애니메이션 인터랙션 정보를 이용하여 3차원 가상 이미지가 사용자와 동반하도록 구동함으로써, 가상 동반의 표현 형태를 더욱 다양화하고, 가상 동반의 표현 효과 품질 및 전체적 인터랙션 품질을 향상시킨다. 나아가 사용자의 참여도 및 동질감을 크게 향상시킴으로써, 애니메이션 인터랙션 방법을 응용하는 제품의 경쟁력 및 영향력을 증가시킨다.
위에서 설명한 다양한 형태의 프로세스를 사용하여, 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 속해야 한다.

Claims (19)

  1. 애니메이션 인터랙션 방법으로서,
    서버가 단말 기기로부터 송신된 인물 이미지를 수신하는 단계;
    상기 서버가 상기 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 단계로서, 상기 3차원 가상 이미지는 상기 인물 이미지에 포함된 인물에 대응되는 것인, 상기 3차원 가상 이미지를 생성하는 단계;
    상기 서버가 애니메이션 인터랙션 정보를 생성하는 단계로서, 상기 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함하는, 상기 애니메이션 인터랙션 정보를 생성하는 단계; 및
    상기 서버가 상기 3차원 가상 이미지 및 상기 애니메이션 인터랙션 정보를 상기 단말 기기에 송신하는 단계를 포함하고,
    상기 애니메이션 인터랙션 정보를 생성하는 단계는,
    상기 서버가 상기 인물 이미지에 포함된 인물 수량 및 환경 정보를 인식하는 단계; 및
    상기 서버가 상기 인물 이미지에 포함된 인물 수량 및 환경 정보에 기반하여, 상기 인물 이미지에 포함된 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성하는 단계를 포함하는, 애니메이션 인터랙션 방법.
  2. 제1항에 있어서,
    상기 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함하는, 애니메이션 인터랙션 방법.
  3. 제1항에 있어서,
    상기 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 단계는,
    상기 서버가 상기 인물 이미지에 포함된 인물의 안면 기관을 분류하여, 상기 안면 기관이 다양한 사전설정 가상 안면 기관 타입에 속하는 가중치를 획득하는 단계;
    상기 서버가 상기 가중치에 기반하여 상기 다양한 사전설정 가상 안면 기관 타입에 대응되는 가상 안면 기관을 가중하여, 상기 인물 이미지에 포함된 인물의 가상 안면 기관을 생성하는 단계; 및
    상기 서버가 상기 인물 이미지에 포함된 인물의 가상 안면 기관에 기반하여 상기 3차원 가상 이미지를 생성하는 단계를 포함하는, 애니메이션 인터랙션 방법.
  4. 삭제
  5. 제1항 또는 제2항에 있어서,
    상기 애니메이션 인터랙션 정보를 생성하는 단계는,
    상기 서버가 상기 단말 기기로부터 송신된 사용자 음성을 수신하는 단계;
    상기 서버가 상기 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식하는 단계; 및
    상기 서버가 상기 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 상기 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성하는 단계를 포함하는, 애니메이션 인터랙션 방법.
  6. 애니메이션 인터랙션 방법으로서,
    단말 기기가 서버에 인물 이미지를 송신하고, 상기 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하는 단계로서, 상기 3차원 가상 이미지는 상기 인물 이미지에 포함된 인물에 대응되고, 상기 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함하는, 상기 수신하는 단계;
    상기 단말 기기가 상기 인터랙션 이모티콘 시퀀스 프레임에 기반하여 상기 3차원 가상 이미지를 렌더링하여, 상기 3차원 가상 이미지의 인터랙션 애니메이션을 생성하는 단계; 및
    상기 단말 기기가 상기 인터랙션 애니메이션을 상기 인물 이미지에 융합시켜 표시하는 단계를 포함하고,
    상기 애니메이션 인터랙션 정보는, 상기 인물 이미지에 포함된 인물 수량 및 환경 정보에 기반하여 생성된, 상기 인물 이미지에 포함된 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 더 포함하는 것인, 애니메이션 인터랙션 방법.
  7. 제6항에 있어서,
    상기 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함하고,
    상기 단말 기기가 상기 인터랙션 애니메이션을 상기 인물 이미지에 융합시켜 표시하는 단계를 수행함과 동시에,
    상기 인터랙션 음성을 동시 재생하는 단계를 더 포함하는, 애니메이션 인터랙션 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 방법은,
    상기 단말 기기가 사용자에 의해 입력된 사용자 음성을 수집하고, 상기 서버에 상기 사용자 음성을 송신하는 단계를 더 포함하고,
    상기 서버에 의해 리턴된 애니메이션 인터랙션 정보를 수신하는 단계는,
    상기 단말 기기가 상기 서버에 의해 리턴된, 상기 사용자 음성에 기반하여 생성된 상기 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 수신하는 단계를 포함하는, 애니메이션 인터랙션 방법.
  9. 애니메이션 인터랙션 장치로서,
    단말 기기로부터 송신된 인물 이미지를 수신하는 수신 모듈;
    상기 인물 이미지에 기반하여 3차원 가상 이미지를 생성하는 제1 생성 모듈 - 상기 3차원 가상 이미지는 상기 인물 이미지에 포함된 인물에 대응되는 것인 -;
    애니메이션 인터랙션 정보를 생성하는 제2 생성 모듈 - 상기 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -; 및
    상기 3차원 가상 이미지 및 상기 애니메이션 인터랙션 정보를 상기 단말 기기에 송신하는 송신 모듈을 포함하고,
    상기 제2 생성 모듈은 또한,
    상기 인물 이미지에 포함된 인물 수량 및 환경 정보를 인식하고;
    상기 인물 이미지에 포함된 인물 수량 및 환경 정보에 기반하여, 상기 인물 이미지에 포함된 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 생성하도록 구성되는, 애니메이션 인터랙션 장치.
  10. 제9항에 있어서,
    상기 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함하는, 애니메이션 인터랙션 장치.
  11. 제9항에 있어서,
    상기 제1 생성 모듈은 또한,
    상기 인물 이미지에 포함된 인물의 안면 기관을 분류하여, 상기 안면 기관이 다양한 사전설정 가상 안면 기관 타입에 속하는 가중치를 획득하고;
    상기 가중치에 기반하여 상기 다양한 사전설정 가상 안면 기관 타입에 대응되는 가상 안면 기관을 가중하여, 상기 인물 이미지에 포함된 인물의 가상 안면 기관을 생성하며;
    상기 인물 이미지에 포함된 인물의 가상 안면 기관에 기반하여 상기 3차원 가상 이미지를 생성하도록 구성되는, 애니메이션 인터랙션 장치.
  12. 삭제
  13. 제9항 또는 제10항에 있어서,
    상기 제2 생성 모듈은 또한,
    상기 단말 기기로부터 송신된 사용자 음성을 수신하고;
    상기 사용자 음성의 콘텐츠 및/또는 사용자 기분을 인식하며;
    상기 사용자 음성의 콘텐츠 및/또는 사용자 기분에 기반하여, 상기 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 생성하도록 구성되는, 애니메이션 인터랙션 장치.
  14. 애니메이션 인터랙션 장치로서,
    서버에 인물 이미지를 송신하고, 상기 서버에 의해 리턴된 3차원 가상 이미지 및 애니메이션 인터랙션 정보를 수신하는 송수신 모듈 - 상기 3차원 가상 이미지는 상기 인물 이미지에 포함된 인물에 대응되고, 상기 애니메이션 인터랙션 정보는 인터랙션 이모티콘 시퀀스 프레임을 포함함 -;
    상기 인터랙션 이모티콘 시퀀스 프레임에 기반하여 상기 3차원 가상 이미지를 렌더링하여, 상기 3차원 가상 이미지의 인터랙션 애니메이션을 생성하는 렌더링 및 생성 모듈; 및
    상기 인터랙션 애니메이션을 상기 인물 이미지에 융합시켜 표시하는 표시 모듈을 포함하고,
    상기 애니메이션 인터랙션 정보는, 상기 인물 이미지에 포함된 인물 수량 및 환경 정보에 기반하여 생성된, 상기 인물 이미지에 포함된 인물 사이에서 인터랙션하는 애니메이션 인터랙션 정보를 더 포함하는 것인, 애니메이션 인터랙션 장치.
  15. 제14항에 있어서,
    상기 애니메이션 인터랙션 정보는 인터랙션 음성을 더 포함하고,
    상기 장치는,
    상기 인터랙션 음성을 동시 재생하는 재생 모듈을 더 포함하는, 애니메이션 인터랙션 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 장치는,
    사용자에 의해 입력된 사용자 음성을 수집하고, 상기 서버에 상기 사용자 음성을 송신하는 수집 및 송신 모듈을 더 포함하고,
    상기 송수신 모듈은 또한,
    상기 서버에 의해 리턴된, 상기 사용자 음성에 기반하여 생성된 상기 사용자와 인터랙션하는 애니메이션 인터랙션 정보를 수신하도록 구성되는, 애니메이션 인터랙션 장치.
  17. 전자 기기로서,
    하나 또는 다수의 프로세서; 및
    하나 또는 다수의 프로그램이 저장된 저장 장치를 포함하되,
    상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 또는 제6항에 따른 방법을 구현하도록 하는, 전자 기기.
  18. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 경우 제1항 또는 제6항에 따른 방법을 구현하는, 컴퓨터 판독 가능한 매체.
  19. 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 또는 제6항에 따른 방법을 구현하도록 하는, 컴퓨터 프로그램.
KR1020210031673A 2020-07-14 2021-03-10 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 KR102503413B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010676929.1 2020-07-14
CN202010676929.1A CN111833418B (zh) 2020-07-14 2020-07-14 动画交互方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
KR20220008735A KR20220008735A (ko) 2022-01-21
KR102503413B1 true KR102503413B1 (ko) 2023-02-23

Family

ID=72923241

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210031673A KR102503413B1 (ko) 2020-07-14 2021-03-10 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210201550A1 (ko)
EP (1) EP3882860A3 (ko)
JP (1) JP2021192222A (ko)
KR (1) KR102503413B1 (ko)
CN (1) CN111833418B (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435313A (zh) * 2020-11-10 2021-03-02 北京百度网讯科技有限公司 播放帧动画的方法、装置、电子设备及可读存储介质
CN112328088B (zh) * 2020-11-23 2023-08-04 北京百度网讯科技有限公司 图像的呈现方法和装置
CN112508161A (zh) * 2020-11-26 2021-03-16 珠海格力电器股份有限公司 陪伴数字替身的控制方法、系统和存储介质
CN112527105B (zh) * 2020-11-27 2023-07-21 北京百度网讯科技有限公司 人机互动方法、装置、电子设备及存储介质
CN112527115B (zh) * 2020-12-15 2023-08-04 北京百度网讯科技有限公司 用户形象生成方法、相关装置及计算机程序产品
CN113014471B (zh) * 2021-01-18 2022-08-19 腾讯科技(深圳)有限公司 会话处理方法,装置、终端和存储介质
CN112799575A (zh) * 2021-01-20 2021-05-14 深圳市金大智能创新科技有限公司 一种基于智能音箱的语音交互方法、智能音箱及智能终端
CN113050794A (zh) * 2021-03-24 2021-06-29 北京百度网讯科技有限公司 用于虚拟形象的滑块处理方法及装置
CN113240781A (zh) * 2021-05-20 2021-08-10 东营友帮建安有限公司 基于语音驱动及图像识别的影视动画制作方法、系统
CN113593013A (zh) * 2021-07-21 2021-11-02 吴浩诚 基于vr逝者仿真的交互方法、系统、终端及vr设备
CN113744374B (zh) * 2021-09-03 2023-09-22 浙江大学 一种基于表情驱动的3d虚拟形象生成方法
CN114201043A (zh) * 2021-12-09 2022-03-18 北京百度网讯科技有限公司 内容交互的方法、装置、设备和介质
CN114445528B (zh) * 2021-12-15 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备及存储介质
CN114422740A (zh) * 2021-12-25 2022-04-29 在秀网络科技(深圳)有限公司 一种用于即时通讯及视频的虚似场景互动方法与系统
CN114972589A (zh) * 2022-05-31 2022-08-30 北京百度网讯科技有限公司 虚拟数字形象的驱动方法及其装置
CN115116468A (zh) * 2022-06-16 2022-09-27 虹软科技股份有限公司 一种视频生成方法、装置、存储介质及电子设备
CN115601485B (zh) * 2022-12-15 2023-04-07 阿里巴巴(中国)有限公司 任务处理模型的数据处理方法及虚拟人物动画生成方法
CN116708905A (zh) * 2023-08-07 2023-09-05 海马云(天津)信息技术有限公司 在电视盒子上实现数字人交互的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197755A1 (en) * 2016-02-10 2019-06-27 Nitin Vats Producing realistic talking Face with Expression using Images text and voice
JP6683864B1 (ja) * 2019-06-28 2020-04-22 株式会社ドワンゴ コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4917920B2 (ja) * 2007-03-05 2012-04-18 日本放送協会 コンテンツ生成装置及びコンテンツ生成プログラム
JP5423379B2 (ja) * 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
JP6887102B2 (ja) * 2016-02-29 2021-06-16 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
US10249089B2 (en) * 2016-08-01 2019-04-02 Dell Products, Lp System and method for representing remote participants to a meeting
CN108573527B (zh) * 2018-04-18 2020-02-18 腾讯科技(深圳)有限公司 一种表情图片生成方法及其设备、存储介质
CN111383642B (zh) * 2018-12-27 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
CN110189754A (zh) * 2019-05-29 2019-08-30 腾讯科技(深圳)有限公司 语音交互方法、装置、电子设备及存储介质
CN110262665A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110362666A (zh) * 2019-07-09 2019-10-22 邬欣霖 应用虚拟人物的交互处理方法、装置、存储介质和设备
CN110674398A (zh) * 2019-09-05 2020-01-10 深圳追一科技有限公司 虚拟人物形象交互方法、装置、终端设备及存储介质
CN111028330B (zh) * 2019-11-15 2023-04-07 腾讯科技(深圳)有限公司 三维表情基的生成方法、装置、设备及存储介质
CN111145322B (zh) * 2019-12-26 2024-01-19 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197755A1 (en) * 2016-02-10 2019-06-27 Nitin Vats Producing realistic talking Face with Expression using Images text and voice
JP6683864B1 (ja) * 2019-06-28 2020-04-22 株式会社ドワンゴ コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム

Also Published As

Publication number Publication date
CN111833418A (zh) 2020-10-27
EP3882860A3 (en) 2021-10-20
US20210201550A1 (en) 2021-07-01
JP2021192222A (ja) 2021-12-16
CN111833418B (zh) 2024-03-29
EP3882860A2 (en) 2021-09-22
KR20220008735A (ko) 2022-01-21

Similar Documents

Publication Publication Date Title
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
JP7212741B2 (ja) 3次元アバタ生成方法、装置、電子機器及び記憶媒体
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US20220150285A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
EP3889912B1 (en) Method and apparatus for generating video
KR101306221B1 (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
CN112667068A (zh) 虚拟人物的驱动方法、装置、设备及存储介质
WO2022106654A2 (en) Methods and systems for video translation
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN113362263B (zh) 变换虚拟偶像的形象的方法、设备、介质及程序产品
WO2023284435A1 (zh) 生成动画的方法及装置
CN112673400A (zh) 化身动画
CN112669422A (zh) 仿真3d数字人生成方法、装置、电子设备及存储介质
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN112634413B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN113327311B (zh) 基于虚拟角色的显示方法、装置、设备、存储介质
CN113673277B (zh) 线上绘本内容的获取方法、装置以及智能屏设备
Mukashev et al. Facial expression generation of 3D avatar based on semantic analysis
WO2024066549A1 (zh) 一种数据处理方法及相关设备
CN118250523A (zh) 数字人视频生成方法、装置、存储介质及电子设备
US20240193838A1 (en) Computer-implemented method for controlling a virtual avatar
Huang et al. An agent based multicultural user interface in a customer service application

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant