KR20240056153A - Method And Apparatus for Single-Shot Video Reenactment - Google Patents

Method And Apparatus for Single-Shot Video Reenactment Download PDF

Info

Publication number
KR20240056153A
KR20240056153A KR1020220136398A KR20220136398A KR20240056153A KR 20240056153 A KR20240056153 A KR 20240056153A KR 1020220136398 A KR1020220136398 A KR 1020220136398A KR 20220136398 A KR20220136398 A KR 20220136398A KR 20240056153 A KR20240056153 A KR 20240056153A
Authority
KR
South Korea
Prior art keywords
video
image
pose
input
frame
Prior art date
Application number
KR1020220136398A
Other languages
Korean (ko)
Inventor
정원진
김성원
박준영
이유진
전재현
주민정
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020220136398A priority Critical patent/KR20240056153A/en
Publication of KR20240056153A publication Critical patent/KR20240056153A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Processing Or Creating Images (AREA)

Abstract

한 장의 이미지로부터 원하는 모션이 전이된 비디오를 생성하는 방법 및 장치를 개시한다.
본 개시의 일 측면에 의하면, 제1 객체를 포함하는 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 휴먼파싱부; 제2 객체를 포함하는 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 포즈전이부; 상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 렌더링부; 상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 생성하는 얼굴애니메이터; 상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 얼굴정제부; 및 상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 배경처리부를 포함하는 비디오 생성장치 및 그의 동작 방법을 제공한다.
Disclosed is a method and device for generating a video in which desired motion is transferred from a single image.
According to one aspect of the present disclosure, a human parsing unit extracts a semantic map in which the first object is divided by body part from an input image including the first object; For each frame of the input video including the second object, a transition map is generated by estimating the pose of the second object and transforming the semantic map to have the estimated pose, and generating a first transition map composed of a sequence of transition maps. A pose transition unit that acquires a video; a rendering unit that applies a texture of the input image to all frames of the first video; a face animator that generates a second video in which a facial area of the first object is animated based on the input image and the input video; a face refinement unit that extracts a face image for each frame of the second video and merges the face image with a corresponding frame of the first video to refine the first video; and a background processing unit that generates a target video by overlaying each frame of the first video on a background image.

Description

한 장의 이미지로 비디오를 생성하는 방법 및 장치{Method And Apparatus for Single-Shot Video Reenactment}Method and Apparatus for Creating Video with One Image {Method And Apparatus for Single-Shot Video Reenactment}

본 개시는 한 장의 이미지로 비디오를 생성하는 방법 및 장치에 관한 것이다. 보다 상세하게는, 한 장의 사람 이미지로 원하는 모션이 전이된 비디오를 생성하는 방법 및 장치에 관한 것이다.This disclosure relates to a method and device for generating a video from a single image. More specifically, it relates to a method and device for generating a video in which a desired motion is transferred from a single human image.

이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.The content described below simply provides background information related to this embodiment and does not constitute prior art.

인공지능(AI, Artificial Intelligence) 서비스는 편의, 안전, 보안, 자동화 등에 주로 이용되고 있다. 최근에 텍스트를 입력하면 해당 이미지를 생성하거나 이미지를 입력하면 다른 이미지를 생성하는 등의 기술이 등장하면서 사용자의 즐거움과 예술 분야에 대한 AI 서비스가 발전되고 있다. 이와 같은 이미지 생성 분야를 넘어서 최근에 더욱 도전적인(challenging) 분야인 비디오 생성이 연구되고 있다. 특히 한 장의 사람 이미지를 AI 모델을 통해 춤추는 댄스 비디오로 생성해주는 기술이 등장했다. Artificial Intelligence (AI) services are mainly used for convenience, safety, security, and automation. Recently, with the advent of technologies such as creating an image when text is entered or creating another image when an image is entered, AI services for user enjoyment and the arts are developing. Beyond the field of image generation, video generation, a more challenging field, has recently been studied. In particular, a technology has emerged that creates a dance video from an image of a person using an AI model.

한 장의 입력 이미지(source image)로부터 원하는 비디오(driving video)와 같은 모션이 전이된 목표 비디오(target video)를 생성하는 기술은 크게 2가지로 분류될 수 있다. 입력 이미지로부터 옵티컬 플로우(optical flow) 기반으로 변형을 가해 원하는 비디오와 같은 모션을 전이해주는 변형(deformation) 기반의 기술과(비특허문헌 1), 입력 이미지와 원하는 비디오에서 특징들(features)을 추출하여 적대적 생성 신경망(GAN, Generative Adversarial Network), VAE(Variational Auto Encoder) 등과 같은 생성적 모델(generative model)을 활용하는 생성 기반의 기술이(비특허문헌 2) 있다.Techniques for generating a target video in which motion such as a desired video (driving video) is transferred from a single input image (source image) can be broadly classified into two types. Deformation-based technology that transfers the same motion as the desired video by transforming the input image based on optical flow (Non-Patent Document 1), and extracting features from the input image and the desired video Therefore, there is a generative-based technology (Non-patent Document 2) that utilizes generative models such as Generative Adversarial Network (GAN) and Variational Auto Encoder (VAE).

변형 기반 기술은 입력 이미지의 텍스처(예를 들어, 옷, 피부 등)가 잘 보존되며, 부드러운(smooth) 모션 전이가 되는 특징을 가진다. 하지만 배경과 사람의 경계에서 아티팩트(artifact)가 발생되며, 큰 모션에 대한 전이가 되지 않는다는 문제점이 있다.Transformation-based technology preserves the texture of the input image (e.g., clothing, skin, etc.) and has the characteristics of smooth motion transition. However, there is a problem that artifacts occur at the boundary between the background and the person and that large motions are not transferred.

생성 기반 기술은 사람의 신체(body)를 추정하는 포즈 추정(pose estimation), 휴먼 파서(human parser) 등을 이용하기 때문에 역동적인 모션에 대해서도 전이를 할 수 있다는 장점을 가진다. 하지만, 변형 기반 기술에 비해 텍스처의 품질이 떨어지는 단점이 있다.Generation-based technology has the advantage of being able to transfer even dynamic motion because it uses pose estimation and human parser to estimate the human body. However, it has the disadvantage of lower texture quality compared to transformation-based technology.

따라서, 입력 이미지의 텍스처를 잘 보존하면서 동시에 난이도 있는 모션을 전이할 수 있는 비디오 생성 방안이 요구된다.Therefore, a video generation method that can transfer difficult motions while preserving the texture of the input image is required.

First Order Motion Model for Image Animation, NeurIPS 2019 First Order Motion Model for Image Animation, NeurIPS 2019 Single-shot transfer: Single-Shot Freestyle Dance Reenactment, CVPR2021 Single-shot transfer: Single-Shot Freestyle Dance Reenactment, CVPR2021

본 개시의 실시예에 따르면, 입력 이미지로부터 난이도 있는 모션이 전이된 비디오를 생성할 수 있다.According to an embodiment of the present disclosure, a video in which difficult motion is transferred from an input image can be generated.

본 개시의 실시예에 따르면, 입력 이미지의 텍스처를 보존하면서 모션이 전이된 비디오를 생성할 수 있다.According to an embodiment of the present disclosure, a video with motion transfer can be generated while preserving the texture of the input image.

본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned can be clearly understood by those skilled in the art from the description below.

본 개시의 일 실시예에 의하면, 한 장의 이미지로부터 원하는 모션이 전이된 비디오를 생성하는 방법으로서, 제1 객체를 포함하는 입력이미지 및 제2 객체를 포함하는 입력비디오를 수신하는 과정; 상기 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 과정; 상기 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 과정; 상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 과정; 상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 획득하는 과정; 상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 과정; 및 상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 과정을 포함하는 비디오 생성방법을 제공한다.According to an embodiment of the present disclosure, there is provided a method of generating a video in which a desired motion is transferred from a single image, comprising: receiving an input image including a first object and an input video including a second object; extracting a semantic map in which the first object is divided by body part from the input image; For each frame of the input video, a process of estimating the pose of the second object and generating a transition map by transforming the semantic map to have the estimated pose, thereby obtaining a first video composed of a sequence of transition maps. ; A process of applying a texture of the input image to all frames of the first video; Obtaining a second video in which a facial area of the first object is animated based on the input image and the input video; extracting a face image for each frame of the second video and merging the face image with a corresponding frame of the first video to refine the first video; and generating a target video by overlaying each frame of the first video on a background image.

본 개시의 다른 실시예에 의하면, 한 장의 이미지로부터 원하는 모션이 전이된 비디오를 생성하는 장치로서, 제1 객체를 포함하는 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 휴먼파싱부; 제2 객체를 포함하는 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 포즈전이부; 상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 렌더링부; 상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 생성하는 얼굴애니메이터; 상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 얼굴정제부; 및 상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 배경처리부를 포함하는 비디오 생성장치를 제공한다.According to another embodiment of the present disclosure, there is a device for generating a video in which a desired motion is transferred from a single image, and the human device extracts a semantic map in which the first object is divided by body part from an input image including a first object. parsing unit; For each frame of the input video including the second object, a transition map is generated by estimating the pose of the second object and transforming the semantic map to have the estimated pose, and generating a first transition map composed of a sequence of transition maps. A pose transition unit that acquires a video; a rendering unit that applies a texture of the input image to all frames of the first video; a face animator that generates a second video in which a facial area of the first object is animated based on the input image and the input video; a face refinement unit that extracts a face image for each frame of the second video and merges the face image with a corresponding frame of the first video to refine the first video; and a background processing unit that generates a target video by overlaying each frame of the first video on a background image.

본 개시의 실시예에 따르면, 입력이미지의 텍스처를 보존하는 동시에 모션을 전이시킴으로써, 생성되는 비디오의 품질을 향상시키는 효과가 있다.According to an embodiment of the present disclosure, the quality of the generated video is improved by preserving the texture of the input image and simultaneously transferring the motion.

본 개시의 실시예에 따르면, 고품질의 비디오 생성 방법 및 장치를 통해 응용 서비스의 수요 증대가 기대된다.According to embodiments of the present disclosure, it is expected that demand for application services will increase through high-quality video generation methods and devices.

도 1은 본 개시의 일 실시예에 따른 한 장의 이미지로 원하는 모션이 전이된 비디오를 생성하는 장치의 구성도이다.
도 2는 본 개시의 일 실시예에 따른 입력이미지의 외관을 유지하면서 원하는 비디오의 한 프레임의 포즈를 전이시키는 과정을 설명하는 예시도이다.
도 3은 본 개시의 다른 실시예에 따른 포즈가 전이된 시맨틱맵에 입력이미지의 텍스처를 적용하는 과정을 설명하는 예시도이다.
도 4는 본 개시의 일 실시예에 따른 얼굴 애니메이션 비디오 즉, 제2 비디오의 생성과정 및 제2 비디오를 이용한 제1 비디오의 얼굴영역 정제과정을 설명하는 예시도이다.
도 5는 본 개시의 일 실시예에 따른 한 장의 이미지로 원하는 모션이 전이된 비디오를 생성하는 방법의 순서도이다.
1 is a configuration diagram of an apparatus for generating a video in which a desired motion is transferred from a single image according to an embodiment of the present disclosure.
Figure 2 is an example diagram illustrating a process for transferring the pose of one frame of a desired video while maintaining the appearance of the input image according to an embodiment of the present disclosure.
Figure 3 is an example diagram illustrating a process of applying the texture of an input image to a semantic map to which a pose has been transferred according to another embodiment of the present disclosure.
FIG. 4 is an example diagram illustrating the process of generating a facial animation video, that is, the second video, and the process of refining the facial area of the first video using the second video, according to an embodiment of the present disclosure.
Figure 5 is a flowchart of a method for generating a video in which a desired motion is transferred from a single image according to an embodiment of the present disclosure.

이하, 본 개시의 일부 실시예들을 예시적인 도면을 이용해 상세하게 설명한다. 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면 상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present disclosure will be described in detail using exemplary drawings. When adding reference signs to components in each drawing, it should be noted that the same components are given the same reference numerals as much as possible even if they are shown in different drawings. Additionally, in describing the present disclosure, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present disclosure, the detailed description will be omitted.

본 개시에 따른 실시예의 구성요소를 설명하는 데 있어서, 제1, 제2, i), ii), a), b) 등의 부호를 사용할 수 있다. 이러한 부호는 그 구성요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 부호에 의해 해당 구성요소의 본질 또는 차례나 순서 등이 한정되지 않는다. 명세서에서 어떤 부분이 어떤 구성요소를 '포함' 또는 '구비'한다고 할 때, 이는 명시적으로 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한 명세서에 기재된 '부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In describing the components of the embodiment according to the present disclosure, symbols such as first, second, i), ii), a), and b) may be used. These codes are only used to distinguish the component from other components, and the nature, order, or order of the component is not limited by the code. In the specification, when a part is said to 'include' or 'have' a certain component, this means that it does not exclude other components, but may further include other components, unless explicitly stated to the contrary. . Additionally, terms such as 'unit' and 'module' used in the specification refer to a unit that processes at least one function or operation, and may be implemented as hardware, software, or a combination of hardware and software.

첨부된 도면과 함께 이하에 개시될 발명의 설명은 본 발명의 예시적인 실시 형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시 형태를 나타내고자 하는 것이 아니다.The description of the invention to be disclosed below along with the accompanying drawings is intended to illustrate exemplary embodiments of the invention and is not intended to represent the only embodiments in which the invention may be practiced.

이하, 일부 실시예들을 설명함에 있어, 본 개시에 일 실시예에 따른 장치 또는 방법이 한 장의 사람 이미지로부터 모션이 전이된 비디오를 생성하는 경우를 예로 들어 설명하나, 본 개시가 이에 한정되는 것은 아니다. 본 개시에 따른 장치 또는 방법은, 사람뿐만 아니라 동물을 객체로 하거나 댄스 등 다양한 모션을 포함하는 비디오를 생성하는 응용들에 적용될 수 있다. Hereinafter, in describing some embodiments, a case where an apparatus or method according to an embodiment of the present disclosure generates a video with motion transfer from a single human image will be described as an example, but the present disclosure is not limited thereto. . The device or method according to the present disclosure can be applied to applications that generate videos containing various motions such as dance or animals as objects as well as people.

도 1은 본 개시의 일 실시예에 따른 한 장의 이미지로 원하는 모션이 전이된 비디오를 생성하는 장치(이하, '비디오 생성장치')의 구성도이다.Figure 1 is a configuration diagram of a device that generates a video in which a desired motion is transferred to a single image (hereinafter referred to as a 'video generating device') according to an embodiment of the present disclosure.

도 1을 참조하면, 비디오 생성장치(video reenactment apparatus, 10)는 수신부(receiving unit, 110), 휴먼파싱부(human parser, 120), 포즈전이부(pose transfer unit, 130), 렌더링부(rendering unit, 140), 얼굴애니메이터(face animator, 150), 얼굴정제부(face refinementer, 160) 및 배경처리부(background processing unit, 170)의 전부 또는 일부를 포함한다.Referring to FIG. 1, a video generation apparatus (video reenactment apparatus, 10) includes a receiving unit (110), a human parser (120), a pose transfer unit (130), and a rendering unit (rendering unit). It includes all or part of a unit (140), a face animator (150), a face refinementer (160), and a background processing unit (170).

도 1에 도시된 비디오 생성장치(10)는 본 개시의 일 실시예에 따른 것으로서, 다른 실시예에서 일부 구성이 추가, 변경 또는 삭제될 수 있다. 예컨대, 다른 실시예에서 사용자에게 최종적으로 생성된 비디오를 전송하거나 재생하는 출력부(미도시)를 더 포함할 수 있다. 또 다른 실시예에서 사전 학습된 신경망모델들 등을 저장하는 저장부(미도시)를 더 포함할 수 있다.The video generating device 10 shown in FIG. 1 is according to an embodiment of the present disclosure, and some components may be added, changed, or deleted in other embodiments. For example, in another embodiment, it may further include an output unit (not shown) that transmits or plays the finally generated video to the user. In another embodiment, a storage unit (not shown) that stores pre-trained neural network models, etc. may be further included.

도 1은 설명의 편의를 위해 비디오 생성장치(10)를 장치로서 도시한 것으로, 다른 실시예에서 비디오 생성장치(10) 및 이의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고, 하나 이상의 프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.Figure 1 shows the video generation device 10 as a device for convenience of explanation. In another embodiment, the video generation device 10 and each component thereof are implemented as hardware or software, or as a combination of hardware and software. It can be implemented. Additionally, the function of each component may be implemented as software, and one or more processors may be implemented to execute the function of the software corresponding to each component.

수신부(110)는 사용자로부터 제1 객체를 포함하는 입력이미지 및 제2 객체를 포함하는 입력비디오를 수신한다. 여기서, 제1 객체 및 제2 객체는 서로 다른 사람들을 의미하나 이에 한정되는 것은 아니다. 여기서, 입력비디오는 입력이미지에 전이될 모션을 포함하는 비디오를 말한다.The receiving unit 110 receives an input image including a first object and an input video including a second object from the user. Here, the first object and the second object refer to different people, but are not limited thereto. Here, the input video refers to a video that includes motion to be transferred to the input image.

휴먼파싱부(120)는 입력이미지로부터 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출한다. 여기서, 신체부위는 머리, 몸통, 팔, 다리 등을 말하며 제1 객체가 착용하고 있는 의복, 모자, 신발 등을 더 포함할 수 있다. The human parsing unit 120 extracts a semantic map in which the first object is divided by body part from the input image. Here, the body parts refer to the head, torso, arms, legs, etc. and may further include clothes, hats, shoes, etc. worn by the first object.

휴먼파싱부(120)는 휴먼파싱모델을 이용하여 시맨틱맵을 추출할 수 있다. 휴먼파싱모델은 사람을 포함하는 이미지를 입력으로 하여 사람의 각 신체부위 및 착용물건 중 적어도 하나를 포함하는 영역들로 분할된 시맨틱맵을 추출하도록 사전 훈련된 모델이다. 여기서, 휴먼파싱(human parsing)이란 이미지의 신체에 해당하는 각 픽셀에 대하여 의미론적 범주(semantic category)를 할당하는 작업으로서, 시맨틱 분할(semantic segmentation) 및 인스턴스 분할(instance segmentation)보다 더 상세한 영역들로 분할한다. 여기서, 시맨틱맵(semantic map)은 휴먼파싱의 결과로서 픽셀 수준에서 신체부위별로 레이블링된 정보를 의미한다. 휴먼파싱모델은 CE2P, A-CE2P(Augmented CE2P) 등 일 수 있으나 정확도가 향상된 SCHP(Self-Correction for Human Parsing)인 것이 바람직하다.The human parsing unit 120 can extract a semantic map using a human parsing model. The human parsing model is a pre-trained model that takes an image containing a person as input and extracts a semantic map divided into regions containing at least one of each body part and worn object of the person. Here, human parsing is the task of assigning a semantic category to each pixel corresponding to the body of the image, and involves more detailed areas than semantic segmentation and instance segmentation. Divide into Here, the semantic map refers to information labeled by body part at the pixel level as a result of human parsing. The human parsing model can be CE2P, A-CE2P (Augmented CE2P), etc., but it is preferable to use SCHP (Self-Correction for Human Parsing) with improved accuracy.

포즈전이부(130)는 시맨틱맵을 입력비디오의 모션을 가지도록 전이시킨다. 구체적으로, 입력비디오의 각각의 프레임에 대하여 제2 객체의 포즈를 추정하고 추정된 포즈를 갖도록 변환된 시맨틱맵(이하 '전이맵')을 생성함으로써, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득한다.The pose transfer unit 130 transfers the semantic map to have the motion of the input video. Specifically, by estimating the pose of the second object for each frame of the input video and generating a semantic map (hereinafter referred to as 'transition map') converted to have the estimated pose, a first video composed of a sequence of transition maps is obtained. do.

포즈전이부(130)는 포즈추정모델을 이용하여 각 프레임의 제2 객체의 포즈를 추정할 수 있다. 포즈추정모델은 사람을 포함하는 이미지를 입력으로 하여 사람의 포즈를 추정하도록 사전 훈련된 모델이다. 여기서, 포즈추정은 이미지나 비디오에서 사람의 특징점들(예를 들어, 관절 등)을 검출하고 특징점들 간의 연관관계를 분석하는 작업을 말한다. 여기서, 포즈는 2차원 포즈 및/또는 3차원 포즈를 말한다. 포즈추정모델은 2차원 포즈를 추정하는 OpenPose, 3차원 포즈를 추정하는 DensePose 등을 포함할 수 있다. 포즈전이의 정확도를 향상시키기 위해 2차원 포즈 및 3차원 포즈를 모두 추정하는 것이 바람직하다.The pose transition unit 130 may estimate the pose of the second object in each frame using a pose estimation model. A pose estimation model is a model that is pre-trained to estimate the pose of a person using an image containing a person as input. Here, pose estimation refers to the task of detecting human feature points (for example, joints, etc.) in an image or video and analyzing the correlation between feature points. Here, pose refers to a two-dimensional pose and/or a three-dimensional pose. Pose estimation models may include OpenPose, which estimates a two-dimensional pose, and DensePose, which estimates a three-dimensional pose. To improve the accuracy of pose transfer, it is desirable to estimate both 2D and 3D poses.

포즈전이부(130)는 포즈전이모델을 이용하여 각 프레임의 추정된 포즈를 시맨틱맵에 전이시킨 전이맵을 생성할 수 있다. 포즈전이모델은 시맨틱맵 및 포즈를 입력으로 하여 시맨틱맵의 포즈가 변환된 전이맵을 생성하도록 사전 훈련된 모델이다. 포즈전이모델은 조건부 적대적 생성 신경망(cGAN, conditional Generative Adversarial Network) 모델로서 바람직하게는 pix2pixHD일 수 있다.The pose transition unit 130 may generate a transition map by transferring the estimated pose of each frame to a semantic map using a pose transition model. The pose transition model is a pre-trained model that takes the semantic map and pose as input and generates a transition map in which the pose of the semantic map is converted. The pose transition model is a conditional generative adversarial network (cGAN) model, preferably pix2pixHD.

포즈전이부(130)는 입력비디오의 각 프레임에 대하여 포즈 추정 및 시맨틱맵 전이를 수행하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득한다.The pose transition unit 130 performs pose estimation and semantic map transition for each frame of the input video to obtain a first video composed of a sequence of transition maps.

렌더링부(140)는 제1 비디오의 모든 프레임들에 입력이미지의 텍스처를 입힌다. 포즈전이부(130)에서 획득된 제1 비디오의 각 프레임들은 텍스처정보를 포함하지 않는 시맨틱맵을 포즈만 전이시킨 것이기 때문이다.The rendering unit 140 applies the texture of the input image to all frames of the first video. This is because each frame of the first video acquired by the pose transfer unit 130 is a semantic map that does not include texture information, but is only a pose transfer.

구체적으로, 제1 비디오의 각각의 프레임들에 대하여, 시맨틱이미지 합성모델을 이용하여, 입력이미지의 텍스처가 입혀진 결과이미지를 생성하여 해당 프레임을 결과이미지로 갱신한다. 시맨틱이미지 합성모델은 사람을 포함하는 이미지, 상기 이미지의 시맨틱맵 및 상기 이미지의 전이맵을 입력으로 하여 상기 이미지의 신체부위별 텍스처가 상기 이미지의 전이맵의 해당하는 신체부위에 렌더링된 결과이미지를 생성하도록 사전 훈련된 모델일 수 있다. 시맨틱이미지 합성모델은 cGAN을 통해 학습된 생성모델이다. 예를 들어, 시맨틱맵에 영역별로 입력이미지의 텍스처 또는 스타일을 적용할 수 있는 SEAN(Image Synthesis with Semantic Region-Adaptive Normalization) 모델일 수 있다. 도 3에서 자세히 후술한다.Specifically, for each frame of the first video, a result image with the texture of the input image is generated using a semantic image synthesis model, and the corresponding frame is updated as the result image. The semantic image synthesis model takes as input an image including a person, a semantic map of the image, and a transition map of the image, and produces a result image in which the texture for each body part of the image is rendered to the body part corresponding to the transition map of the image. It can be a pre-trained model to generate The semantic image synthesis model is a generative model learned through cGAN. For example, it may be a SEAN (Image Synthesis with Semantic Region-Adaptive Normalization) model that can apply the texture or style of the input image for each region to the semantic map. This will be described in detail later in Figure 3.

얼굴애니메이터(150)는 입력이미지 및 입력비디오에 기초하여 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 획득한다. 이는 신체(body) 대비 프레임 간 동작의 변화가 크지 않은 얼굴(face)의 모션에 대해 변형 기반의 얼굴 애니매이션인 제2 비디오를 얻어, 후술한 얼굴정제부(160)에서 제1 비디오를 정제하는데 이용하기 위함이다. The face animator 150 obtains a second video in which the facial area of the first object is animated based on the input image and input video. This obtains a second video, which is a transformation-based facial animation, for the motion of the face, which does not change significantly between frames compared to the body, and uses it to refine the first video in the face refinement unit 160, which will be described later. This is to do it.

구체적으로, 얼굴애니메이터모델을 이용하여 입력이미지 및 입력비디오에 대응하여 제1 객체의 얼굴의 외관 및 제2 객체의 얼굴의 모션을 갖도록 생성된 제2 비디오를 획득한다. 얼굴애니메이터모델은 제1 사람의 얼굴을 포함하는 이미지 및 제2 사람의 얼굴의 모션을 포함하는 비디오에 입력으로 하여 제1 사람의 얼굴의 외관과 제2 사람의 얼굴의 모션을 가지는 비디오를 생성하도록 사전 훈련된 모델이다. 얼굴애니메이터모델은 변형 기반의 생성모델로 옵티컬 플로우 기반으로 모션을 생성한다. 변형 기반의 생성 방법은 프레임 간 동작의 변화가 작은 모션에 대해 텍스처를 보존하면서 모션이 전이된 비디오를 생성하기 용이한 장점이 있다. 얼굴애니메이터모델은 TPSMM(Thin-Plate Spline Motion Model), LIA(Learning to Animate Images via Latent Space Navigation) 등일 수 있으나 이에 한정되지 않는다.Specifically, a second video generated to have the appearance of the face of the first object and the motion of the face of the second object is acquired in response to the input image and the input video using the face animator model. The face animator model inputs an image containing the face of a first person and a video containing the motion of the face of a second person to generate a video having the appearance of the face of the first person and the motion of the face of the second person. It is a pre-trained model. The face animator model is a transformation-based creation model that generates motion based on optical flow. Transformation-based generation methods have the advantage of being easy to generate video with motion transfer while preserving texture for motions with small changes in motion between frames. The face animator model may be TPSMM (Thin-Plate Spline Motion Model), LIA (Learning to Animate Images via Latent Space Navigation), etc., but is not limited to these.

얼굴애니메이터(150)는 입력이미지 및 입력비디오에 대해 전처리를 더 수행할 수 있다. 구체적으로, 입력이미지의 얼굴영역을 잘라낸 이미지 및 입력비디오의 프레임 각각의 얼굴영역을 잘라낸 이미지들을 얼굴애니메이터모델에 입력하여 제2 비디오를 생성할 수 있다.The face animator 150 may further perform preprocessing on the input image and input video. Specifically, the image from which the face area of the input image has been cropped and the images from which the face area of each frame of the input video have been cropped are input to the face animator model to generate a second video.

얼굴정제부(160)는 제2 비디오를 이용하여 제1 비디오의 얼굴영역을 정제(refinement)한다. 이는 변형 기반 방법으로 생성된 제2 비디오를 이용하여, 생성 기반 방법으로 모션이 전이된 제1 비디오의 얼굴영역의 텍스처 품질을 향상 또는 보완하기 위함이다. 구체적으로, 제2 비디오의 각각의 프레임에 대하여, 얼굴마스크(face mask)를 이용하여 얼굴영역을 잘라낸 얼굴이미지를 획득하여 제1 비디오의 대응되는 프레임에 얼굴이미지를 병합할 수 있다.The face refinement unit 160 refines the face area of the first video using the second video. This is to improve or supplement the texture quality of the face area of the first video to which motion has been transferred using the generation-based method using the second video generated by the transformation-based method. Specifically, for each frame of the second video, a face image with the face area cut out using a face mask can be obtained and the face image can be merged into the corresponding frame of the first video.

배경처리부(170)는 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성한다. 배경이미지는 인페인팅(inpainting)을 이용하여 입력이미지의 제1 객체에 해당하는 영역을 입력이미지의 배경으로 채워 생성될 것일 수 있다. 또는 다양한 배경효과를 위해 배경이미지는 사용자로부터 입력된 별도의 이미지일 수 있다.The background processing unit 170 generates a target video by overlaying each frame of the first video on the background image. The background image may be created by filling the area corresponding to the first object of the input image with the background of the input image using inpainting. Alternatively, for various background effects, the background image may be a separate image input by the user.

도 2는 본 개시의 일 실시예에 따른 입력이미지의 외관을 유지하면서 원하는 비디오의 한 프레임의 포즈를 전이시키는 과정을 설명하는 예시도이다.Figure 2 is an example diagram illustrating a process for transferring the pose of one frame of a desired video while maintaining the appearance of the input image according to an embodiment of the present disclosure.

도 2를 참조하면, 휴먼파싱모델을 이용하여 입력이미지로부터 시맨틱맵이 추출된다. 입력비디오(driving video)의 한 프레임을 입력으로 하여, 포즈추정모델1을 이용하여 3차원 포즈가 추정되고, 포즈추정모델2를 이용하여 2차원 포즈가 추정된다.Referring to Figure 2, a semantic map is extracted from the input image using a human parsing model. Using one frame of the driving video as input, a 3D pose is estimated using pose estimation model 1, and a 2D pose is estimated using pose estimation model 2.

포즈전이모델을 이용하여 추출된 시맨틱맵, 추정된 2차원 포즈 및 3차원 포즈를 입력으로 입력비디오의 한 프레임의 포즈가 입력이미지의 시맨틱맵에 전이된 결과이미지인 전이맵을 생성한다. 본 개시의 일 실시예에 따라 포즈전이모델의 정확도를 높이기 위하여 2차원 포즈 및 3차원 포즈를 모두 입력으로 하였으나, 이에 한정되는 것은 아니다. 즉, 다른 실시예에서 2차원 포즈 또는 3차원 포즈를 시맨틱맵과 함께 포즈전이모델의 입력으로 할 수 있다. By using the extracted semantic map, estimated 2D pose, and 3D pose as input, a transition map, which is a result image in which the pose of one frame of the input video is transferred to the semantic map of the input image, is created. According to an embodiment of the present disclosure, both 2D poses and 3D poses are used as input to increase the accuracy of the pose transfer model, but the method is not limited thereto. That is, in another embodiment, a 2D pose or a 3D pose can be used as input to the pose transition model along with the semantic map.

도 3은 본 개시의 다른 실시예에 따른 포즈가 전이된 시맨틱맵(이하 '전이맵')에 입력이미지의 텍스처를 적용하는 과정을 설명하는 예시도이다.Figure 3 is an example diagram illustrating the process of applying the texture of an input image to a semantic map (hereinafter referred to as 'transition map') into which a pose has been transferred according to another embodiment of the present disclosure.

도 3을 참조하면, 시맨틱이미지 합성모델을 이용하여 입력이미지, 입력이미지의 시맨틱맵 및 전이맵을 입력으로 입력이미지의 텍스처가 적용된 전이맵이 생성되는 것을 도시한다. 시맨틱이미지 합성모델은 신체부위별로 입력이미지의 텍스처 또는 스타일을 적용하기 위해, 크게 텍스처인코더와 생성기로 구성될 수 있다.Referring to Figure 3, it shows that a transition map to which the texture of the input image is applied is generated using an input image, a semantic map of the input image, and a transition map as input using a semantic image synthesis model. The semantic image synthesis model can largely be composed of a texture encoder and a generator to apply the texture or style of the input image to each body part.

텍스처인코더는 입력이미지 및 시맨틱맵을 입력으로 하여 입력이미지의 제1 객체의 신체부위별 텍스처정보를 나타내는 텍스처임베딩을 생성할 수 있다. 이는 포즈가 전이되는 경우 각 신체부위의 위치, 크기, 모양 등이 달라질 수 있으므로, 신체부위별 대응되는 텍스처를 각각 적용하는 것이 신체전체 단위로 텍스처를 적용하는 것보다 렌더링 품질이 높아지기 때문이다.The texture encoder can generate texture embedding representing texture information for each body part of the first object of the input image by using the input image and semantic map as input. This is because the position, size, and shape of each body part may change when the pose is transferred, so applying the corresponding texture to each body part results in higher rendering quality than applying the texture to the entire body.

생성기는 전이맵 및 텍스처임베딩을 입력으로 하여 신체부위별로 대응되는 텍스처를 적용하여 입력이미지의 텍스처가 입혀진 전이맵을 생성할 수 있다.The generator can generate a transition map with the texture of the input image applied to it by taking the transition map and texture embedding as input and applying the corresponding texture to each body part.

도 4는 본 개시의 일 실시예에 따른 얼굴 애니메이션 비디오 즉, 제2 비디오의 생성과정 및 제2 비디오를 이용한 제1 비디오의 얼굴영역 정제과정을 설명하는 예시도이다.FIG. 4 is an example diagram illustrating the process of generating a facial animation video, that is, the second video, and the process of refining the facial area of the first video using the second video, according to an embodiment of the present disclosure.

도 4를 참조하면, 비디오 생성장치(10)는 입력이미지 및 입력비디오를 입력으로 하여, 생성 기반 방법으로 모션이 전이된 제1 비디오를 획득한다. 동시에 병렬적으로, 입력이미지로부터 잘라낸 얼굴영역 이미지 및 입력비디오 프레임 각각으로부터 잘라낸 얼굴영역 이미지들을 입력으로 하여, 변형 기반 방법으로 얼굴영역의 모션이 전이된 제2 비디오를 획득한다.Referring to FIG. 4, the video generating device 10 receives an input image and an input video as input and obtains a first video to which motion has been transferred using a generation-based method. At the same time and in parallel, the face area image cut out from the input image and the face area images cut out from each of the input video frames are input, and a second video in which the motion of the face area is transferred is obtained using a transformation-based method.

이후, 제2 비디오의 각각의 프레임에 대하여, 얼굴마스크(face mask)를 이용하여 얼굴을 잘라낸 얼굴이미지와 제1 비디오의 대응되는 프레임 이미지를 병합하여, 얼굴의 텍스처가 개선된 제1 비디오를 얻는다.Then, for each frame of the second video, the face image with the face cut out using a face mask and the corresponding frame image of the first video are merged to obtain the first video with improved facial texture. .

도 5는 본 개시의 일 실시예에 따른 한 장의 이미지로 원하는 모션이 전이된 비디오를 생성하는 방법의 순서도이다.Figure 5 is a flowchart of a method for generating a video in which a desired motion is transferred from a single image according to an embodiment of the present disclosure.

도 5를 참조하면, 수신부(110)는 제1 객체를 포함하는 입력이미지 및 제2 객체를 포함하는 입력비디오를 수신한다(S500).Referring to FIG. 5, the receiver 110 receives an input image including a first object and an input video including a second object (S500).

휴먼파싱부(120)는 입력이미지로부터 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출한다(S510). 포즈전이부(130)는 시맨틱맵 및 입력비디오에 기초하여, 입력비디오의 각각의 프레임에 대해, 상기 제2 객체의 포즈를 추정하고 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득한다(S520). 렌더링부(140)는 입력이미지의 텍스처에 기초하여, 제1 비디오의 모든 프레임들에 대하여 입력이미지의 텍스처를 입힌다(S530).The human parsing unit 120 extracts a semantic map in which the first object is divided by body part from the input image (S510). The pose transition unit 130 estimates the pose of the second object for each frame of the input video based on the semantic map and the input video and generates a transition map by converting the semantic map to have the estimated pose. , obtain the first video composed of a sequence of transition maps (S520). The rendering unit 140 applies the texture of the input image to all frames of the first video based on the texture of the input image (S530).

얼굴애니메이터(150)는 입력이미지 및 입력비디오에 기초하여 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 생성한다(S540). 이 과정은 S510 내지 S530 과정들과 병렬적으로 수행될 수 있다.The face animator 150 generates a second video in which the face area of the first object is animated based on the input image and input video (S540). This process can be performed in parallel with processes S510 to S530.

얼굴정제부(160)는 제2 비디오를 이용하여 제1 비디오의 얼굴영역을 정제한다(S550). 구체적으로, 제2 비디오의 각각의 프레임에 대하여, 얼굴마스크를 이용하여 얼굴영역을 잘라낸 얼굴이미지를 획득하여 제1 비디오의 대응되는 프레임에 얼굴이미지를 병합할 수 있다.The face refinement unit 160 refines the face area of the first video using the second video (S550). Specifically, for each frame of the second video, a face image with the face area cut out using a face mask can be obtained and the face image can be merged into the corresponding frame of the first video.

배경처리부(170)는 제1 비디오에 배경을 적용한다(S560). 구체적으로, 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성할 수 있다.The background processing unit 170 applies a background to the first video (S560). Specifically, the target video can be created by overlaying each frame of the first video on the background image.

본 발명에 따른 장치 또는 방법의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.Each component of the device or method according to the present invention may be implemented as hardware or software, or may be implemented as a combination of hardware and software. Additionally, the function of each component may be implemented as software and a microprocessor may be implemented to execute the function of the software corresponding to each component.

본 명세서에 설명되는 시스템 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행 가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.Various implementations of the systems and techniques described herein may include digital electronic circuits, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or combinations thereof. It can be realized with These various implementations may include being implemented as one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from and transmit data and instructions to a storage system, at least one input device, and at least one output device. or may be a general-purpose processor). Computer programs (also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable medium."

컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. These computer-readable recording media are non-volatile or non-transitory such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. It may be a medium, and may further include a transitory medium such as a data transmission medium. Additionally, the computer-readable recording medium may be distributed in a computer system connected to a network, and the computer-readable code may be stored and executed in a distributed manner.

본 명세서의 순서도에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 본 명세서의 순서도에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 본 명세서의 순서도는 시계열적인 순서로 한정되는 것은 아니다.In the flowchart of this specification, each process is described as being sequentially executed, but this is merely an illustrative explanation of the technical idea of an embodiment of the present disclosure. In other words, a person of ordinary skill in the technical field to which an embodiment of the present disclosure pertains may change the order described in the flowchart of the present specification and execute one of the processes without departing from the essential characteristics of the present specification. Since the above processes can be applied in various modifications and variations by executing them in parallel, the flowchart of this specification is not limited to a time series order.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an illustrative explanation of the technical idea of the present embodiment, and those skilled in the art will be able to make various modifications and variations without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are not intended to limit the technical idea of the present embodiment, but rather to explain it, and the scope of the technical idea of the present embodiment is not limited by these examples. The scope of protection of this embodiment should be interpreted in accordance with the claims below, and all technical ideas within the equivalent scope should be interpreted as being included in the scope of rights of this embodiment.

110: 수신부 120: 휴먼파싱부
130: 포즈전이부 140: 렌더링부
150: 얼굴애니메이터 160: 얼굴정제부
170: 배경처리부
110: Receiving unit 120: Human parsing unit
130: Pose transfer unit 140: Rendering unit
150: Face animator 160: Face refinement department
170: Background processing unit

Claims (10)

한 장의 이미지로부터 원하는 모션이 전이된 비디오를 생성하는 방법으로서,
제1 객체를 포함하는 입력이미지 및 제2 객체를 포함하는 입력비디오를 수신하는 과정;
상기 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 과정;
상기 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 과정;
상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 과정;
상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 획득하는 과정;
상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 과정; 및
상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 과정
을 포함하는 비디오 생성방법.
A method of generating a video with a desired motion transferred from a single image,
A process of receiving an input image including a first object and an input video including a second object;
A process of extracting a semantic map in which the first object is divided by body part from the input image;
For each frame of the input video, a process of estimating the pose of the second object and generating a transition map by transforming the semantic map to have the estimated pose, thereby obtaining a first video composed of a sequence of transition maps. ;
A process of applying a texture of the input image to all frames of the first video;
Obtaining a second video in which a facial area of the first object is animated based on the input image and the input video;
extracting a face image for each frame of the second video and merging the face image with a corresponding frame of the first video to refine the first video; and
A process of generating a target video by overlaying each frame of the first video on a background image
Video creation method including.
제 1항에 있어서,
상기 시맨틱맵을 추출하는 과정은,
사람을 포함하는 이미지에 대응하여 상기 사람의 각 신체부위 및 착용물건 중 적어도 하나를 포함하는 영역들로 분할된 시맨틱맵을 추출하도록 사전 훈련된 휴먼파싱모델을 이용하여, 상기 입력이미지에 대응하는 시맨틱맵을 추출하는, 비디오 생성방법.
According to clause 1,
The process of extracting the semantic map is,
Using a human parsing model pre-trained to extract a semantic map divided into regions containing at least one of each body part and worn object of the person in response to an image containing a person, a semantic map corresponding to the input image is obtained. Video generation method that extracts maps.
제 1항에 있어서,
상기 제1 비디오를 획득하는 과정은,
상기 입력비디오의 각각의 프레임에 대하여,
사람을 포함하는 이미지에 대응하여 상기 사람의 포즈를 추정하도록 사전 훈련된 포즈추정모델을 이용하여, 상기 프레임에 대응하는 상기 제2 객체의 포즈를 추정하는 과정; 및
제1 이미지 및 포즈에 대응하여 상기 제1 이미지를 상기 포즈를 갖도록 변환시킨 제2 이미지를 생성하도록 사전 훈련된 포즈전이모델을 이용하여, 상기 시맨틱맵 및 상기 추정된 포즈에 대응하는 전이맵을 생성하는 과정
을 수행하여 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하고,
상기 포즈추정모델을 이용하여 추정되는 포즈는,
2차원 포즈 및 3차원 포즈 중 적어도 하나를 포함하는, 비디오 생성방법.
According to clause 1,
The process of acquiring the first video is,
For each frame of the input video,
estimating the pose of the second object corresponding to the frame using a pose estimation model pre-trained to estimate the pose of the person in response to an image including a person; and
In response to the first image and pose, a transition map corresponding to the semantic map and the estimated pose is generated using a pre-trained pose transition model to generate a second image obtained by transforming the first image to have the pose. process
Obtain a first video consisting of a sequence of transition maps by performing,
The pose estimated using the pose estimation model is,
A method of generating a video, including at least one of a two-dimensional pose and a three-dimensional pose.
제 1항에 있어서,
상기 텍스처를 입히는 과정은,
상기 제1 비디오의 각각의 프레임들에 대하여,
사람을 포함하는 이미지, 상기 이미지의 시맨틱맵 및 상기 이미지의 전이맵에 대응하여 상기 이미지의 신체부위별 텍스처가 상기 이미지의 전이맵의 해당하는 신체부위에 렌더링된 결과이미지를 생성하도록 사전 훈련된 시맨틱이미지 합성모델을 이용하여, 상기 입력이미지, 상기 시맨틱맵 및 상기 프레임에 대응하는 결과이미지를 생성하여, 상기 프레임을 상기 생성된 결과이미지로 갱신하는, 비디오 생성방법.
According to clause 1,
The process of applying the texture is,
For each frame of the first video,
Semantics pre-trained to generate a result image in which textures for each body part of the image are rendered to the corresponding body part of the transition map of the image in response to an image including a person, a semantic map of the image, and a transition map of the image. A video generation method that generates a result image corresponding to the input image, the semantic map, and the frame using an image synthesis model, and updates the frame with the generated result image.
제 1항에 있어서,
상기 제2 비디오를 획득하는 과정은,
제1 사람의 얼굴을 포함하는 이미지 및 제2 사람의 얼굴의 모션을 포함하는 비디오에 대응하여 상기 제1 사람의 얼굴의 외관과 상기 제2 사람의 얼굴의 모션을 가지는 비디오를 생성하도록 사전 훈련된 얼굴애니메이터모델을 이용하여, 상기 입력이미지 및 상기 입력비디오에 대응하는 제2 비디오를 생성하는, 비디오 생성방법.
According to clause 1,
The process of acquiring the second video is,
pre-trained to generate a video having the appearance of the first person's face and the motion of the second person's face in response to an image containing the face of a first person and a video containing the motion of the face of a second person; A video generation method that generates a second video corresponding to the input image and the input video using a face animator model.
제 1항에 있어서,
상기 제1 비디오를 정제하는 과정은,
상기 제2 비디오의 각각의 프레임에 대하여, 얼굴마스크를 이용하여 얼굴영역을 잘라낸 얼굴이미지를 획득하여 상기 제1 비디오의 대응되는 프레임의 얼굴영역에 상기 얼굴이미지를 병합하는, 비디오 생성방법.
According to clause 1,
The process of refining the first video is,
For each frame of the second video, a face image is obtained with the face area cut out using a face mask, and the face image is merged into the face area of the corresponding frame of the first video.
제 1항에 있어서,
상기 배경이미지는,
인페인팅(inpainting)을 이용하여 상기 입력이미지의 제1 객체에 해당하는 영역을 상기 입력이미지의 배경으로 채워 생성된 것인, 비디오 생성방법.
According to clause 1,
The background image is,
A video generation method that is created by filling the area corresponding to the first object of the input image with the background of the input image using inpainting.
제 1항에 있어서,
상기 배경이미지는,
사용자에 선택에 의해 입력된 상기 입력이미지와 다른 별도의 이미지인, 비디오 생성방법.
According to clause 1,
The background image is,
A method of generating a video, which is a separate image different from the input image selected by the user.
한 장의 이미지로부터 원하는 모션이 전이된 비디오를 생성하는 장치로서,
제1 객체를 포함하는 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 휴먼파싱부;
제2 객체를 포함하는 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 포즈전이부;
상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 렌더링부;
상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 생성하는 얼굴애니메이터;
상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 얼굴정제부; 및
상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 배경처리부
를 포함하는 비디오 생성장치.
A device that generates a video with a desired motion transferred from a single image,
a human parsing unit that extracts a semantic map in which the first object is divided by body part from an input image including the first object;
For each frame of the input video including the second object, a transition map is generated by estimating the pose of the second object and transforming the semantic map to have the estimated pose, and generating a first transition map composed of a sequence of transition maps. A pose transition unit that acquires a video;
a rendering unit that applies a texture of the input image to all frames of the first video;
a face animator that generates a second video in which a facial area of the first object is animated based on the input image and the input video;
a face refinement unit that extracts a face image for each frame of the second video and merges the face image with a corresponding frame of the first video to refine the first video; and
A background processing unit that generates a target video by overlaying each frame of the first video on a background image.
A video generating device including a.
명령어가 저장된, 컴퓨터로 읽을 수 있는 기록매체로서, 상기 명령어는 상기 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금,
제1 객체를 포함하는 입력이미지 및 제2 객체를 포함하는 입력비디오를 수신하는 과정;
상기 입력이미지로부터 상기 제1 객체가 신체부위별로 분할된 시맨틱맵을 추출하는 과정;
상기 입력비디오의 각각의 프레임에 대하여, 상기 제2 객체의 포즈를 추정하고 상기 시맨틱맵을 상기 추정된 포즈를 갖도록 변환시킨 전이맵을 생성하여, 전이맵들의 시퀀스로 구성된 제1 비디오를 획득하는 과정;
상기 제1 비디오의 모든 프레임들에 대하여 상기 입력이미지의 텍스처를 입히는 과정;
상기 입력이미지 및 상기 입력비디오에 기초하여 상기 제1 객체의 얼굴영역이 애니매이션된 제2 비디오를 획득하는 과정;
상기 제2 비디오의 각각의 프레임에 대하여, 얼굴이미지를 추출하고 상기 제1 비디오의 대응되는 프레임에 상기 얼굴이미지를 병합하여, 상기 제1 비디오를 정제하는 과정; 및
상기 제1 비디오의 각각의 프레임을 배경이미지에 오버레이시켜 타겟비디오를 생성하는 과정
을 실행하도록 하는 것을 특징으로 하는 컴퓨터로 읽을 수 있는 기록매체.
A computer-readable recording medium storing instructions, wherein the instructions, when executed by the computer, cause the computer to:
A process of receiving an input image including a first object and an input video including a second object;
extracting a semantic map in which the first object is divided by body part from the input image;
For each frame of the input video, a process of estimating the pose of the second object and generating a transition map by transforming the semantic map to have the estimated pose, thereby obtaining a first video composed of a sequence of transition maps. ;
A process of applying a texture of the input image to all frames of the first video;
Obtaining a second video in which a facial area of the first object is animated based on the input image and the input video;
extracting a face image for each frame of the second video and merging the face image with a corresponding frame of the first video to refine the first video; and
A process of generating a target video by overlaying each frame of the first video on a background image
A computer-readable recording medium characterized by executing .
KR1020220136398A 2022-10-21 2022-10-21 Method And Apparatus for Single-Shot Video Reenactment KR20240056153A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220136398A KR20240056153A (en) 2022-10-21 2022-10-21 Method And Apparatus for Single-Shot Video Reenactment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220136398A KR20240056153A (en) 2022-10-21 2022-10-21 Method And Apparatus for Single-Shot Video Reenactment

Publications (1)

Publication Number Publication Date
KR20240056153A true KR20240056153A (en) 2024-04-30

Family

ID=90884670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220136398A KR20240056153A (en) 2022-10-21 2022-10-21 Method And Apparatus for Single-Shot Video Reenactment

Country Status (1)

Country Link
KR (1) KR20240056153A (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
First Order Motion Model for Image Animation, NeurIPS 2019
Single-shot transfer: Single-Shot Freestyle Dance Reenactment, CVPR2021

Similar Documents

Publication Publication Date Title
Niklaus et al. 3d ken burns effect from a single image
US11755956B2 (en) Method, storage medium and apparatus for converting 2D picture set to 3D model
KR102658960B1 (en) System and method for face reenactment
US10417818B2 (en) Method for providing a three dimensional body model
Bronstein et al. Calculus of nonrigid surfaces for geometry and texture manipulation
US9865072B2 (en) Real-time high-quality facial performance capture
Zhi et al. Texmesh: Reconstructing detailed human texture and geometry from rgb-d video
Wang et al. Normalgan: Learning detailed 3d human from a single rgb-d image
Shen et al. Virtual mirror rendering with stationary rgb-d cameras and stored 3-d background
US20210134049A1 (en) Image processing apparatus and method
CN106896925A (en) The device that a kind of virtual reality is merged with real scene
Garrido et al. Corrective 3D reconstruction of lips from monocular video.
CN106997618A (en) A kind of method that virtual reality is merged with real scene
Galteri et al. Deep 3d morphable model refinement via progressive growing of conditional generative adversarial networks
CN115496863B (en) Short video generation method and system for scene interaction of movie and television intelligent creation
CN110660076A (en) Face exchange method
WO2021228183A1 (en) Facial re-enactment
CN114821675B (en) Object processing method and system and processor
Li et al. Lightweight wrinkle synthesis for 3d facial modeling and animation
US20160086365A1 (en) Systems and methods for the conversion of images into personalized animations
CN107016730A (en) The device that a kind of virtual reality is merged with real scene
Li et al. Spa: Sparse photorealistic animation using a single rgb-d camera
CN106981100A (en) The device that a kind of virtual reality is merged with real scene
Purps et al. Reconstructing facial expressions of hmd users for avatars in vr
Liu et al. Real‐time facial expression transfer with single video camera