KR102591082B1 - 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치 - Google Patents

딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치 Download PDF

Info

Publication number
KR102591082B1
KR102591082B1 KR1020220019764A KR20220019764A KR102591082B1 KR 102591082 B1 KR102591082 B1 KR 102591082B1 KR 1020220019764 A KR1020220019764 A KR 1020220019764A KR 20220019764 A KR20220019764 A KR 20220019764A KR 102591082 B1 KR102591082 B1 KR 102591082B1
Authority
KR
South Korea
Prior art keywords
feature map
deep learning
human
video
generates
Prior art date
Application number
KR1020220019764A
Other languages
English (en)
Other versions
KR20230122919A (ko
Inventor
김동근
강현중
이정휘
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020220019764A priority Critical patent/KR102591082B1/ko
Priority to US17/708,520 priority patent/US20230260185A1/en
Publication of KR20230122919A publication Critical patent/KR20230122919A/ko
Application granted granted Critical
Publication of KR102591082B1 publication Critical patent/KR102591082B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

본 개시는 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치에 관한 것이다. 개시된 방법:은 하나 또는 그 이상의 실제 인물의 동영상을 획득하는 단계; 상기 동영상을 프레임 단위로 처리하여, 프레임 이미지로부터 서로 다른 크기로 다운 샘플링된 다층 특성맵(multi-layer feature map)을 가지는 제1특성맵 객체(object class)를 생성하는 단계; 상기 제1특성맵 객체의 다층 특성맵을 업샘플링(upsampling)하여 다층의 업샘플링된 다층 특성맵을 얻고, 업샘플링된 다층 특성맵에 대해 상기 제1특성맵으로 컨벌류션을 연산을 수행하여 제2특성맵 객체를 얻는 단계; 상기 제2특성맵 객체로부터 상기 하나 또는 그 이상의 실제 인물에 대응하는 인물 객체(human object)를 검출하고, 분리하는 단계; 그리고 상기 인물 객체의 키포인트의 움직임을 검출하고, 상기 실제 인물의 움직임을 데이터화하여 움직임 정보를 생성하는 단계; 상기 인물 객체를 별도의 배경 영상에 합성하여 합성 영상 컨텐츠를 생성하는 단계; 그리고 합성 영상 컨텐츠를 시현하는 단계;를 포함할 수 있다.

Description

딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치 {Method and apparatus for creating deep learning-based synthetic video contents}
딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치에 관한 것으로, 상세하게는 실시간 동영상에서 실제 인물 및 이의 포즈 정보를 동시 추출하여 별도의 영상에 합성하여 이를 상기 포즈 정보와 함께 시현 및 이용하는 방법 및 이를 적용하는 장치에 관련한다.
가상 공간에서의 디지털 휴먼은 인위적으로 모델링된 영상 캐릭터이며, 이것은 실제 공간의 실존 인물을 외모 또는 자세를 모방할 수 있고, 이러한 디지털 휴먼을 통해 가상 공간에 실존 인물 자신을 표현하려는 수요가 증가하고 있다.
이러한 디지털 휴먼은 스포츠 분야, 온라인 교육 분야, 애니메이션 분야 등에 응용될 수 있다.
디지털 휴먼으로 실존 인물 자신을 표현하기 위해 고려되는 외형적 요소에는 디지털 휴먼의 사실적인 모델링 및 모방되는 제스처, 자세 및 표정 등이 있다. 디지털 휴먼의 제스처는 인간의 자연스러운 의사 표현에 수반되는 매우 중요한 의사 전달 요소이다. 이러한 디지털 휴먼은 타인에 대한 언어적, 비언어적 의사전달을 목표로 대상으로 하고 있다.
이러한 디지털 휴먼 등의 가상 공간에서의 캐릭터에 의한 의사 또는 정보전달의 대상을 다양화는 연구는 보다 질 높은 영상 서비스의 제공이 가능할 것이다.
KR 10-2022-000028 A0 KR 10-2021-0149597 A0
Hao-Shu Fan et al.,-Regional Multi-Person Pose Estimation Tsung-Yi Lin et al., Feature Pyramid Networks for Object Detection. FAIR Zeming Li, et al., DetNet: A backbone network of Object Detection Isinsu Katircioglu, et al., Human Detection and Segmentation via Multi-view Consensus
본 개시는 동영상으로부터 가상의 공간에 표현되는 실제 인물의 캐릭터를 원본 상태로 추출함과 아울러 캐릭터의 포즈 또는 자세를 검출하여 이를 별도의 영상과 합성할 수 있는 방법 및 장치를 제안한다.
본 개시는 가상의 공간에 실제 인물을 실제 영상으로 시현하고, 실제 인물의 자세 또는 제스처 정보를 검출하여 실제 인물의 움직임을 데이터화하여 이용할 수 있는 방법 및 장치를 제안한다.
본 개시에 따른 딥 러닝 기반 합성 영상 콘텐츠 생성 방법:은
카메라를 이용해 하나 또는 그 이상의 실제 인물의 동영상을 획득하는 단계;
객체 생성부를 통해 상기 동영상을 프레임 단위로 처리하여, 프레임 이미지로부터 서로 다른 크기로 다운 샘플링된 다층 특성맵(multi-layer feature map)을 가지는 제1특성맵 객체(object class)를 생성하는 단계;
특성맵 변환부를 통해, 상기 제1특성맵 객체의 다층 특성맵을 업샘플링(upsampling)하여 다층의 업샘플링된 다층 특성맵을 얻고, 업샘플링된 다층 특성맵에 대해 상기 제1특성맵으로 컨벌류션 연산을 수행하여 제2특성맵 객체를 얻는 단계;
객체 검출부를 통해 상기 제2특성맵 객체로부터 상기 하나 또는 그 이상의 실제 인물에 대응하는 인물 객체(human object)를 검출하고, 분리하는 단계; 그리고
객체 생성부에 의해 상기 인물 객체의 키포인트의 움직임을 검출하고, 상기 실제 인물의 움직임을 데이터화하여 움직임 정보를 생성하는 단계;
영상 합성부에 의해 상기 인물 객체를 별도의 배경 영상에 합성하여 합성 영상 컨텐츠를 생성하는 단계; 그리고
디스플레이를 통해 상기 합성 영상 컨텐츠를 시현하고, 상기 움직임 정보는선택적으로 표시하는 단계;를 포함할 수 있다.
본 개시의 한 실시 예에 따르면, 상기 제1특성맵 객체는 상기 다층 특성맵이피라미드형으로 축소하는 크기를 가질 수 있다.
본 개시의 다른 실시 예에 따르면, 상기 제1특성맵 객체는 합성곱신경망(CNN) 기반의 모델에 생성될 수 있다.
본 개시의 다른 실시 예에 따르면, 상기 객체 변환부는 제1특성맵 객체를 업샘플링과 함께 1:1 트랜스포트 컨벌류션(Transport Convolution)을 수행할 수 있다.
본 개시의 다른 실시 예에 따르면, 상기 객체 검출부는 상기 제2특성맵 객체로부터 인물 객체를 에워싸는 바운딩 박스(bounding box) 및 마스크 계수(mask efficient)를 생성하고, 상기 바운딩 박스 안쪽의 인물 객체(human class)를 검출할 수 있다.
본 개시의 다른 실시 예에 따르면, 상기 객체 검출부는 상기 제2특성맵 개체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성한다.
본 개시의 다른 실시 예에 따르면, 상기 키포인트 검출부는 위의 과정에서 분리된 인물객체에 대해 머신러닝 기반 모델을 이용하여 키포인트 검출을 수행하여 상기 인물 객체의 키포인트의 좌표 및 움직임을 추출하여 그 정보를 제공할 수 있다.
상기 방법에 의해 동영상으로부터 휴먼 객체를 분리하고 이것의 자세를 추정하는 장치:는
하나 또는 그 이상의 실제 인물로부터 동영상을 획득하는 카메라;
상기 동영상으로부터의 동영상을 프레임 단위로 처리하여, 프레임 이미지로부터 서로 다른 크기로 다운 샘플링된 다층 특성맵(multi-layer feature map)을 가지는 제1특성맵 객체(Object)를 생성하는 객체 생성부;
상기 제1특성맵 객체의 다층 특성맵을 업샘플링(upsampling)하여 다층의 업샘플링된 다층 특성맵을 얻고, 업샘플링된 다층 특성맵에 대해 상기 제1특성맵으로 컨벌류션을 연산을 수행하여 제2특성맵 객체를 생성하는 특성맵 변환부;
상기 제2특성맵 객체로부터 상기 하나 또는 그 이상의 실제 인물에 대응하는 인물 객체(human object)를 검출하고, 분리하는 객체 검출부;
상기 인물 객체의 키포인트의 움직임을 검출하고, 상기 실제 인물의 움직임을 데이터화하는 키포인트 검추출부;
상기 인물 객체를 별도의 배경 영상에 합성하여 영상 합성부; 그리고
상기 합성 영상을 표시하는 디스플레이;를 포함할 수 있다.
본 개시에 따른 장치의 한 실시 예에 따르면, 상기 제1특성맵 객체는 상기 다층 특성맵이 피라미드형으로 축소하는 크기를 가질 수 있다.
본 개시에 따른 장치의 다른 실시 예에 따르면, 상기 제1특성맵 객체는 합성곱신경망(CNN) 기반의 모델에 생성될 수 있다.
본 개시에 따른 장치의 한 실시 예에 따르면, 상기 객체 변환부는 제1특성맵 객체를 업샘플링과 함께 1:1 트랜스포트 컨벌류션(Transport Convolution)을 수행할 수 있다.
본 개시에 따른 장치의 한 실시 예에 따르면, 상기 객체 검출부는 상기 제2특성맵 객체로부터 인물 객체를 에워싸는 바운딩 박스(bounding box) 및 마스크 계수(mask efficient)를 생성하고, 상기 바운딩 박스 안쪽의 인물 객체(human class)를 검출할 수 있다.
본 개시에 따른 장치의 한 실시 예에 따르면, 상기 객체 검출부는 상기 제2특성맵 개체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성한다.
본 개시에 따른 장치의 한 실시 예에 따르면, 상기 키포인트 검출부는 위의 과정에서 분리된 인물 객체로부터 머신러닝 기반 모델을 이용한 키포인트 검출을 수행하여 상기 인물 객체의 키포인트의 좌표 및 움직임을 추출하고 키포인트의 움직임에 관한 정보를 상기 디스플레이를 통해 상기 실제 인물에게 제시할 수 있다.
도1은 본 개시에 따른 동영상으로부터 휴먼 객체 분리 및 포즈 추정 이후 실제-가상 합성 영상 콘텐츠를 생성하는 과정의 흐름도이다.
도2는 본 개시에 따른 방법의 과정에 따른 단계별 영상 처리를 통해 원본 이미지에서 추출 및 분리 인물 객체의 결과물을 보인다.
도3은 본 개시에 따른 방법의 일 실시예에 따라, 인물 객체를 분리하는 과정에서의 영상 처리 결과를 보인다.
도4는 본 개시에 따른 특성맵 생성과정을 보이는 흐름도이다.
도5는 본 개시에 따라, 원본 이미지와 이로부터 휴먼 객체를 추출한 상태를 비교해 보인다.
도6은 본 개시에 따라, 원본 이미지로부터 휴먼객체를 추출하는 병령 프로세싱 과정을 보이는 흐름도이다.
도7은 본 개시에 따른 병렬 프로세싱에서 프로토타입 제너레이션 브랜치에 의한 프로토타입 필터를 보인다.
도8은 본 개시에 따른 병렬 프로세싱 결과물들은 선형 결합한 결과물을 보인다.
도9는 본 개시에 따른 딥 러닝 기반 합성 영상 콘텐츠 생성 방법에 의해 원본 이미지와 이로부터 휴먼 객체를 분리한 이미지를 비교해 보인다.
도10은 본 개시에 따른 딥 러닝 기반 합성 영상 콘텐츠 생성 방법에서 휴먼 객체의 키포인트 추론 결과물을 보인다.
도11은 본 개시에 따른 영상 합성 방법을 보여주는 흐름도이다.
이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되는 것으로 해석되어서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "갖는다" 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 본 개시의 알고리즘에서 특정한 논리적 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 순서가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 컴퓨터 기반 하드웨어 또는 컴퓨터에서 실행되는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
하드웨어는 본체, 키보드, 모니터 등을 포함하는 일반적인 컴퓨터 시스템을 기반으로 하며 여기에선 영상 입력을 위한 입력 장치로서 비디오 카메라가 포함된다.
이하, 첨부된 도면을 참조하면서 본 개시에 따라 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치의 한 실시 예를 설명한다.
도1는 본 개시에 따른 방법의 기본적인 영상 처리 과정으로서 딥 러닝 기반 합성 영상 콘텐츠 생성 방법의 개요를 나타내 보인다.
S1 단계: 카메라를 이용해 하나 또는 그 이상의 실제 인물의 동영상(video)을 획득한다.
S2 단계: 영상 데이터의 전처리 과정(preprocessing procedure)으로서, 상기 동영상을 프레임 단위의 처리하여 객체를 형성한다. 이 단계에서는 프레임 단위의 이미지(이하 프레임 이미지, frame image)로부터 다층 특성맵(multi-layer feature map)을 가지는 중간 과정의 제1특성맵 객체(object class)을 생성하고, 특성맵 변환을 통해 최종의 특성맵인 제2특성맵을 얻는다.
S3 단계: 상기 제2특성맵에 대한 인물 객체 검출(human object detection)을 통하여 상기 프레임 이미지에 존재하는 상기 하나 또는 그 이상의 실제 인물에 상응하는 인물 객체(human object)를 검출하고, 해당 프레임 이미지로부터 분리한다.
S4 단계: 인물 객체에 대한 키포인트 검출 과정을 통해 상기 인물 객체의 키포인트 검출한다.
S5 단계: 상기 과정에서 검출된 인물 객체의 키포인트의 움직임을 통해 통해 상기 인물 객체의 동작에 관계된 정보를 추출한다.
S6 단계; 상기 단계에서 추출된 인물 객체를 별도로 준비된 배경 이미지 또는 동영상에 하나로 합성하여 영상 컨텐츠를 생성한다.
S7 단계: 상기 실제 인물의 영상, 즉 인물 객체에 배경이 합성된 영상 컨텐츠를 디스플레이를 통해 상기 실제 인물에게 제시하고, 이와 동시에 선택적으로 상기 인물 객체의 동작에 관계된 정보도 같이 표시한다.
도2는 본 발명에 따라 원본 이미지 및 여기에서 추출된 인물 객체가 합성된합성 이미지를 보인다. 도2는 가상 휘트니센터를 고려한 것으로, 여기에 도시된 바와 같이 배경이 제거된 인물 영상, 즉 인물 객체는 별도로 준비된 배경 영상에 합성된다. 여기에 사용될 수 있는 배경영상으로는 다양한 환경의 정지 이미지 또는 움직이는 동영상이 사용될 수 있다.
도3은 인물 객체를 분리하는 과정에서의 영상 처리 결과를 보인다.
P1은 동영상에서 분리되는 프레임 이미지의 원본(raw) 이미지를 보인다. P2는 전술한 바와 같이 특성맵을 이용해 상기 원본 이미지로부터 분리된 인물 객체를 보인다. P3는 원본 이미지로부터 인물 객체를 분리한 상태, 즉 배경이 제거된 상태를 보인다. 그리고, P4는 상기 인물 객체에 대한 키포인트(녹색) 검출 결과를 보인다.
위 과정의 특징은 원본 이미지로부터 직접 키포인트를 검출하지 않고, 원본 이미지로부터 검출 및 분리된 인물 객체에 대해 키포인트가 검출된다.
도4는 위의 과정에서 특성맵의 생성 단계(S2)의 내부 처리 과정을 보인다. 본 개시에 따르면, 특성맵의 생성은 2차에 걸쳐 수행되는데,
첫 단계(S21)는 다층의 특성맵을 가지는 제1특성맵 객체를 생성하는 단계이며, 그 다음은 제1특성맵을 변환하여 제2특성맵을 형성한다. 이 과정은 컴퓨터에서 수행되는 특성맵 생성을 위한 소프트웨어 형태의 모듈인 특성맵 생성부를 통해 수행된다.
상기 특성맵 생성부는 도5에 도시된 바와 같이 원본 이미지(영상 프레임) 내 사람이라는 인물 객체(Human Object Class)를 탐지(Detection)하고, 이를 분할하는 객체 분할(instance Segmentation) 진행한다. 특성맵 생성부의 대표적인 특징으로 OSIS(One-Stage Instance Segmentation module)로서 객체 탐지와 분할을 동시에 진행함으로 처리 속도가 매우 빠르며, 도6에 도시된 바와 같은 처리과정을 갖는다.
상기 제1특성맵 객체는 상기 다층 특성맵이 피라미드형으로 축소하는 크기를 가질 수 있으며, 합성곱 신경망(CNN) 기반의 모델에 의해 생성될 수 있다.
이러한 제1특성맵은 백본 네트워크(backbone network)로 구현될 수 있으며, 예를 들어 Resnt50 모델을 적용할 수 있다. 백본 네트워크는 건벌루션 연산에 의해 서로 다른 크기의 다운 샘플링된 다수, 예를 들어 5개의 특성맵을 가질 수 있다.
제2특성맵은 예를 들어 FPN((Feature Pyramid Network)의 구조를 가질 수 있다. 상기 객체 변환부는 제1특성맵 객체를 업샘플링과 함께 이에 대해 1:1 트랜스포트 컨벌류션(Transport Convolution)을 수행할 수 있다. 구체적으로, 제1특성맵, 예를 들어 Backbone Networks의 각 계층의 특성맵을 활용하여, 계층 별로 비례한 크기의 특성맵을 생성하여 최상위 layer에서부터 내려오면서 특성맵을 합쳐주는 방식의 구조를 가진다. 이러한 제2특성맵은 상위 계층에서 예측한 객체 정보와 하위 계층의 작은 객체 정보도 모두 활용할 수 있게 되어 스케일(Scale) 변화에 강인하다.
후속되는 병렬 처리 과정을 통해서 제2특성맵에 대한 프로세싱이 수행된다.
제1병렬 처리 과정은 예측 헤드(Prediction Head) 와 NMS 의 과정을 수행하며, 제2처리 과정은 프로토타입 제네레이션 (prototype generation branch) 과정이다.
Prediction Head는 Box branch, Class branch, Coefficient branch 등의 3개 브랜치로 나뉜다.
Class branch: 특성맵의 각 픽셀 마다 3개의 앵커박스를 생성하고 각 앵커박스 마다 객체 클래스에 대한 신뢰도(confidence)가 계산된다.
Box branch: 3개의 anchor box에 대한 좌표 (x, y, w, h)를 예측한다.
Coefficient branch: 각 앵커 박스가 인스턴스(instance) 1개만 지역화 또는 구획(localize)하도록 조정하여 k개의 특성맵에 대한 마스크 계수의 예측한다.
NMS(Non Maximum Suppression)은 예측된 바운딩 박스들 중 가장 정확한 예측 박스를 제외한 나머지를 제거한다. 이것은 여러 바운딩 박스에 의해 차지되는 전체 바운딩 박스 영역에서 바운딩 박스들 간의 교차 영역을 선택함으로써 하나의 정확한 바운딩 박스를 결정 한다.
제2병렬처리 과정인 프로토타입 제네레이션에서는 FPN의 최하위 레이어 P3로부터 특성을 여러 단계 추출하여 소정 갯수, 예를 들어 k 개의 마스크 생성한다. 도7은 4 종류의 프로토타입 마스크를 예시한다.
위와 같이 2개의 병렬 처리 과정이 수행된 후에는 어셈블리()에서는 예측 헤드의 마스크 계수를 프로토타입 마스크와 선형 결합하여, 인스턴스 별로 세그먼트를 추출한다. 도8은 프로토타입 마스크에 마스크 계수를 결합하여 인스턴스별 마스크의 검출 결과를 보인다.
위와 같이 인스턴스별 마스크를 검출한 후 크롭을 통해 이미지를 잘라내고 이를 스레스홀드를 적용하여 최종 마스크를 결정한다. 스레스홀드를 적용함에 있어서, 각 인스턴스별 신뢰도 값을 확인하여 스레스홀드 값을 기준으로 최종 마스크를 결정하고, 이를 이용해 도9에 예시된 바와 같이, 상기 최종 마스크를 이용해 영상 이미지로부터 휴먼 객체를 추출한다.
도10은 상기 휴먼객체로부터 신체 키포인트를 추출하는 방법을 보여준다.
휴먼객체의 키포인트를 영상 이미지 중의 모든 개인에 대해 개별적으로 추출된다. 키포인트는 영상에서 2차원의 좌표로서 이의 추적에는, 사전 학습된 딥러닝 모델을 이용해 얻을 수 있다. 사전에 학습된 딥러닝 모델에는 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation 및 openpose 등이 적용될 수 있다.
본 실시 예에서는 탐색된 휴먼 객체들에 대해 SPPE(Single Person Pose Estimation)을 수행하며, 특히 탑다운 방식에 의해 전체 휴먼 객체에 대한 키포인트 추정 또는 자세 추정으로 수행하며, 그 결과물은 도2에 도시된 바와 같다.
탑다운 방식은 각각 휴먼 객체 각각의 바운딩 박스 좌표를 기준으로 포즈 추정을pose 수행하는 2단계의 키포인트 추출 방법이다. 바텀업(Bottom up) 방식은 휴먼 객체의 위치와 키포인트의 위치를 동시에 추정하기 때문에 탑다운 방식에 비해 빠르지만 정확도 면에서는 불리하며, 또한 바운딩 박스의 정확도에 따라 성능이 좌우된다. 이러한 포즈 검출에는 Fang 등이 제시한 RMPE(Regional Multi-person Pose Estimation)가 적용될 수 있다.
종래의 관절 포인트 예측 모델은 객체를 탐지 후 관절 포인트를 얻는다. 반면에, 본 발명에 따른 방법은 휴먼 객체 탐지 단계에서 객체 분할을 병행 처리함으로써 휴먼 객체 탐지와 분할, 마지막으로 관절 포인트까지 모두 예측이 가능하다.
이러한 본 발명은 프로세스 기반의 Multi-thread 방식으로 하여 빠른 속도의 처리 가능한데, 데이터 전처리 -> 객체 탐지 및 분할 -> 관절 포인트 예측 -> 영상 출력 순으로 진행이 가능하다. 영상 출력 단계에 다중 프로세서에서 많이 사용되는 동기화 방식 호출 함수인 apply_async를 적용하여 순차적으로 프로세스가 진행될 수 있도록 할 수 도 있으며, 프로세스를 병렬로 처리할 때 순차적으로 실행 가능하게 한다.
본 발명은 기존 관절 포인트 예측 모델에 객체 분할을 추가함으로써, 응용 가능해진 분야로 배경과 객체의 분할이 가능하다. 이를 통해 객체와 배경을 분할과 동시에 배경을 다른 이미지로 변경 가능하며 따라서 다양한 응용 분야에서의 가상 배경의 적용이 가능하다.
도11은 상기와 같은 과정을 통해서 추출된 인물 객체와 인물 객체의 움직임 정보를 가상의 화면에 합성하는 과정을 설명하며, 도2는 그 결과를 예시한다.
본 발명은 예를 들어 실제 공간에서 운동 영상을 가상 공간에 합성하며, 이를 디스플레이에 표시하고, 이 디스플레이에 실제 공간에서 진행되는 운동 상태를 키포인트의 움직임을 통해서 검출하여 디스플레이에 표시할 수 있다. 키포인트의 검출을 통해서 얻을 수 있는 정보는 인체 관절의 움직임이 요구되는 모두 운동, 예를 들어 푸쉬업, 턱걸이, 보행 또는 주행 걸음 등의 속도, 횟수 등의 카운트가 가능하다. 이러한 본 발명은 가상 공간에 실제 사용자의 움직임 영상을 움직임 정보와 함께 표시함으로써 다양한 분야에 응용이 가능하다. 영상 운동 시스템에 적용하게 되면, 실제 사용자의 운동을 보다 흥미롭게 진행하여 운동 효과를 증진시킬 수 있다.
이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims (17)

  1. 실제 공간에서 카메라를 이용해 하나 또는 그 이상의 실제 인물의 동영상을 실시간 획득하는 단계;
    객체 생성부를 통해 상기 동영상을 프레임 단위로 처리하여, 프레임 이미지로부터 서로 다른 크기로 다운 샘플링된 다층 특성맵(multi-layer feature map)을 가지는 제1특성맵 객체(object class)를 생성하는 단계;
    특성맵 변환부를 통해, 상기 제1특성맵 객체의 다층 특성맵을 업샘플링(upsampling)하여 다층의 업샘플링된 다층 특성맵을 얻고, 업샘플링된 다층 특성맵에 대해 상기 제1특성맵으로 컨벌류션 연산을 수행하여 제2특성맵 객체를 얻는 단계;
    객체 검출부를 통해 상기 제2특성맵 객체로부터 상기 하나 또는 그 이상의 실제 인물에 대응하는 인물 객체(human object)를 검출하고, 분리하는 단계;
    키포인트 검출부에 의해 머신러닝 기반 모델을 이용해 상기 인물 객체의 키포인트의 좌표와 움직임을 검출하고, 상기 실제 인물의 움직임을 데이터화하여 움직임 정보를 생성하는 단계;
    영상 합성부에 의해 상기 인물 객체를 별도의 배경 영상에 합성하여 합성 영상 컨텐츠를 생성하는 단계; 그리고
    상기 실제 공간에 마련된 디스플레이를 통해 상기 배경 영상에 상기 인물 객체가 합성된 합성 영상 컨텐츠를 실시간 시현하고, 상기 움직임 정보는 선택적으로 표시하는 단계;를 포함하는 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  2. 제1항에 있어서,
    상기 제1특성맵 객체는 상기 다층 특성맵이 피라미드형으로 축소하는 크기를 가지는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1특성맵 객체는 합성곱신경망(CNN) 기반의 모델에 의해 생성되는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  4. 제3항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 인물 객체를 에워싸는 바운딩 박스(bounding box) 및 마스크 계수(mask efficient)를 생성하고, 상기 바운딩 박스 안쪽의 인물 객체(human class)를 검출하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 인물 객체를 에워싸는 바운딩 박스(bounding box) 및 마스크 계수(mask efficient)를 생성하고, 상기 바운딩 박스 안쪽의 인물 객체(human class)를 검출하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  7. 제3항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법..
  8. 제4항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 방법.
  9. 삭제
  10. 삭제
  11. 제 1 항에 기재된 방법을 수행하는 딥 러닝 기반 합성 영상 콘텐츠 생성 장치에 있어서,
    실제 공간에서 하나 또는 그 이상의 실제 인물로부터 동영상을 실시간 획득하는 카메라;
    상기 동영상으로부터의 동영상을 프레임 단위로 처리하여, 프레임 이미지로부터 서로 다른 크기로 다운 샘플링된 다층 특성맵(multi-layer feature map)을 가지는 제1특성맵 객체(Object)를 생성하는 객체 생성부;
    상기 제1특성맵 객체의 다층 특성맵을 업샘플링(upsampling)하여 다층의 업샘플링된 다층 특성맵을 얻고, 업샘플링된 다층 특성맵에 대해 상기 제1특성맵으로 컨벌류션을 연산을 수행하여 제2특성맵 객체를 생성하는 특성맵 변환부;
    상기 제2특성맵 객체로부터 상기 하나 또는 그 이상의 실제 인물에 대응하는 인물 객체(human object)를 검출하고, 분리하는 객체 검출부;
    머신러닝 기반 모델을 이용하여 상기 인물 객체의 키포인트의 좌표 및 움직임을 검출하고, 상기 실제 인물의 움직임을 데이터화하는 키포인트 검출부;
    상기 인물 객체를 별도의 배경 영상에 합성하여 합성 영상 컨텐츠를 형성하는 영상 합성부; 그리고
    상기 배경 영상에 상기 인물 객체가 합성된 상기 합성 영상을 실시간 표시하는 디스플레이;를 포함하는 딥 러닝 기반 합성 영상 콘텐츠 생성 장치.
  12. 제11항에 있어서,
    상기 객체 생성부는 상기 다층 특성맵이 피라미드형으로 축소하는 크기를 가지는 상기 제1특성맵 객체를 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 장치.
  13. 제12항에 있어서,
    상기 객체 생성부는 상기 제1특성맵 객체를 합성곱신경망(CNN) 기반의 모델로 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 장치.
  14. 제11항에 있어서,
    상기 객체 생성부는 상기 제1특성맵 객체를 합성곱신경망(CNN) 기반의 모델로 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 장치..
  15. 제11항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 인물 객체를 에워싸는 바운딩 박스(bounding box) 및 마스크 계수(mask efficient)를 생성하고, 상기 바운딩 박스 안쪽의 인물 객체(human class)를 검출하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 장치.
  16. 제11항에 있어서,
    상기 객체 검출부는 상기 제2특성맵 객체로부터 다수의 특성 추출을 수행하고 소정 크기의 마스크를 생성하는, 딥 러닝 기반 합성 영상 콘텐츠 생성 장치.
  17. 삭제
KR1020220019764A 2022-02-15 2022-02-15 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치 KR102591082B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220019764A KR102591082B1 (ko) 2022-02-15 2022-02-15 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치
US17/708,520 US20230260185A1 (en) 2022-02-15 2022-03-30 Method and apparatus for creating deep learning-based synthetic video content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220019764A KR102591082B1 (ko) 2022-02-15 2022-02-15 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230122919A KR20230122919A (ko) 2023-08-22
KR102591082B1 true KR102591082B1 (ko) 2023-10-19

Family

ID=87558848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019764A KR102591082B1 (ko) 2022-02-15 2022-02-15 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치

Country Status (2)

Country Link
US (1) US20230260185A1 (ko)
KR (1) KR102591082B1 (ko)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013103010A (ja) * 2011-11-15 2013-05-30 Sony Corp 画像処理装置、画像処理方法及びプログラム
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
US11074759B2 (en) * 2019-07-09 2021-07-27 Josh Lehman Apparatus, system, and method of providing a three dimensional virtual local presence
KR102334350B1 (ko) * 2019-10-25 2021-12-03 주식회사 아이오로라 객체와 배경 이미지를 합성하여 실감형 포토 영상을 제공하는 영상 처리 시스템 및 방법
US11494932B2 (en) 2020-06-02 2022-11-08 Naver Corporation Distillation of part experts for whole-body pose estimation
KR20220000028A (ko) 2020-06-24 2022-01-03 현대자동차주식회사 차량의 발전기 제어 방법
US11568617B2 (en) * 2021-05-12 2023-01-31 NEX Team Inc. Full body virtual reality utilizing computer vision from a single camera and associated systems and methods

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kyung-Su Kang ET AL: "Application of one-stage instance segmentation with weather conditions in surveillance cameras at construction sites", Automation in Construction Volume 133, January 2022(2022.01.31.) 1부.*
Tsung-Yi Lin ET AL: "Feature Pyramid Networks for Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017, pp. 2117-2125(2017.07.21.) 1부.*
하태용 외 1명, "인공지능 기반의 자세 추정에 따른 모바일 헬스케어 동작 연구", 대한전자공학회, 전자공학회논문지 57(1) Jan. 2020(2020.01.31.) 1부.*

Also Published As

Publication number Publication date
KR20230122919A (ko) 2023-08-22
US20230260185A1 (en) 2023-08-17

Similar Documents

Publication Publication Date Title
US11727596B1 (en) Controllable video characters with natural motions extracted from real-world videos
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
Ersotelos et al. Building highly realistic facial modeling and animation: a survey
CN103530619B (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
CN112967212A (zh) 一种虚拟人物的合成方法、装置、设备及存储介质
WO2001033508A1 (en) Automatic generation of animation of synthetic characters
US11853892B2 (en) Learning to segment via cut-and-paste
CN108363973A (zh) 一种无约束的3d表情迁移方法
JP2011159329A (ja) 自動3dモデリングシステム及び方法
KR20120038616A (ko) 마커리스 실감형 증강현실 제공 방법 및 시스템
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN115497149A (zh) 一种汽车座舱的音乐交互方法
Kuang et al. Flow-based video segmentation for human head and shoulders
Kwolek et al. Recognition of JSL fingerspelling using deep convolutional neural networks
CN113283372A (zh) 用于处理人物图像的方法和设备
Mattos et al. Multi-view mouth renderization for assisting lip-reading
KR102591082B1 (ko) 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치
CN116703797A (zh) 图像融合方法、图像融合系统、计算机设备及存储介质
CN113436302B (zh) 一种人脸动画合成方法及系统
CN113076918B (zh) 基于视频的人脸表情克隆方法
CN115019386A (zh) 基于深度学习的运动辅助训练方法
CN110796150B (zh) 一种基于情感显著性区域检测的图片情感识别方法
US20230252814A1 (en) Method and apparatus for extracting human objects from video and estimating pose thereof
CN109657589B (zh) 一种基于人体交互动作的体验者动作生成方法
CN113158782A (zh) 基于单帧图像的多人并发交互行为理解方法

Legal Events

Date Code Title Description
AMND Amendment
X701 Decision to grant (after re-examination)