KR102627033B1

KR102627033B1 - 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템 및 방법

Info

Publication number: KR102627033B1
Application number: KR1020230059374A
Authority: KR
Inventors: 박호열; 임효상; 채승호; 양윤식
Original assignee: 주식회사 알마로꼬
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-01-19
Also published as: KR102658219B1

Abstract

실시 예들은 사용자를 촬영한 사용자 이미지를 수신하고, 레퍼런스 객체의 움직임을 나타낸 레퍼런스 비디오를 컨텐츠 DB에서 검색하고, 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 각각 검출하며, 상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하고, 상기 사용자의 관심 영역에서 상기 사용자의 외관 특징을 산출하며, 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여, 상기 출력 장치를 통해 상기 사용자에게 제공될 합성 비디오를 생성하고, 상기 합성 비디오는 상기 사용자가 상기 레퍼런스 객체의 움직임을 취하는 것이 나타난 것인 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템 및 방법에 관련된다.

Description

인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템 및 방법 {System and method for generating participatory content using artificial intelligence technology}

실시 예들은 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 시스템 및 방법에 관련된다.

관객이 미술 작품 등을 감상 가능한 종래의 문화 공간(예컨대, 전시 공간, 연주 공간)은 사전 정의된 작품 컨텐츠를 시각적으로 단순 제공하는 형태로 운영되며, 관객은 작품 컨텐츠의 내용에 직접 영향을 주지 않는다.

또한, 기존의 문화 공간은 자신의 공간에 의존해서 작품 컨텐츠를 제공하기 때문에, 특정 문화 공간에 설치된 시스템을 다른 공간에 설치 및 확장하는 것이 어려운 문제가 있었다. 더욱이, 동일한 공간에서 콘텐츠 변경시에도 공간의 제약으로 인해 어려움이 많고, 많은 비용이 소모되었다.

최근 이미지 처리의 기술 개발로 인해, 문화 공간에서 제공하는 작품 컨텐츠의 범위가 종래의 수동적인 컨텐츠에서 관객과 상호작용하는 참여형 컨텐츠로 확장되고 있다. 특히, 최근 인공지능 기술이 발달함에 따라서 문화·콘텐츠 분야의 다양한 콘텐츠에 적용되고 있다.

그러나, 현재 제공되는 참여형 컨텐츠에 적용되는 인공지능 기술은 한정적이다.

특허공개공보 제10-2020-0094207호 (2020.08.06. 공개)

상술한 문제를 해결하기 위해, 본 출원은 인공지능 기술을 통해 레퍼런스 컨텐츠, 사용자 이미지를 고차원적으로 분석하여 사용자가 레퍼런스 컨텐츠에 정교하게 이식된, 진정한 참여형 컨텐츠를 생성하는 시스템 및 방법을 제공하고자 한다.

본 출원의 일 측면에 따른 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 방법은 컴퓨팅 장치에 의해 수행된다. 상기 컴퓨팅 장치는 카메라 및 출력 장치와 연결되고, 레퍼런스 비디오를 저장하는 컨텐츠 DB를 포함한다.

상기 방법은: 사용자를 촬영한 사용자 이미지를 수신하고, 레퍼런스 객체의 움직임을 나타낸 레퍼런스 비디오를 컨텐츠 DB에서 검색하는 단계; 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 각각 검출하는 단계 - 상기 관심 영역은 얼굴 영역임; 상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하는 단계; 상기 사용자의 관심 영역에서 상기 사용자의 외관 특징을 산출하는 단계; 및 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여, 상기 출력 장치를 통해 상기 사용자에게 제공될 합성 비디오를 생성하는 단계를 포함할 수 있다. 상기 합성 비디오는 상기 사용자가 상기 레퍼런스 객체의 움직임을 취하는 것이 나타날 수 있다.

일 실시 예에서, 상기 사용자의 외관 특징을 산출하는 단계는, 상기 사용자의 관심 영역을 입력 이미지로 특징 추출 네트워크에 입력하여 상기 사용자의 외관 특징을 산출한다. 상기 특징 추출 네트워크는 관심 영역의 입력 이미지에서 2차원 특징을 추출하고 추출된 2차원 특징을 변환하여 3차원 외관 특징을 산출하기 위해, 2차원 특징을 추출하는, 복수의 다운샘플링 블록과 입력된 2차원 특징을 3차원 특징으로 변환하는 컨볼루션 레이어를 포함한다.

일 실시 예에서, 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여 합성 비디오를 생성하는 단계는, 상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 상기 사용자의 자세 특징을 산출하는 단계; 상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 사용자의 표정 특징을 산출하는 단계; 상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 특징점을 추출하는 단계; 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 상기 레퍼런스 객체의 자세 특징을 산출하는 단계; 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 표정 특징을 산출하는 단계; 상기 레퍼런스의 자세 특징, 상기 레퍼런스의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 특징점을 산출하는 단계; 및 상기 사용자의 외관 특징, 상기 사용자의 복수의 특징점, 및 상기 레퍼런스 객체의 복수의 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 합성 이미지를 생성하는 단계는, 사용자의 복수의 특징점, 레퍼런스 객체의 복수의 특징점에 기초해 복수의 와핑 플로우를 산출하는 단계; 및 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 와핑 플로우는 레퍼런스 비디오 내 개별 프레임에서 3차원 특징 볼륨의 3차원 좌표를 사용자 이미지에서 3차원 특징 볼륨의 3차원 좌표로 매핑하여 산출하는 것일 수 있다.

일 실시 예에서, 상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계는, 상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑하는 단계; 복수의 와핑 플로우로 각각 와핑된 외관 특징들을 결합하여(combined) 모션 필드 추정 네트워크에 공급하여 플로우 합성 마스크를 생성하는 단계; 생성된 플로우 합성 마스크를 와핑 플로우와 선형으로 결합하여 합성 와핑 플로우 필드를 산출하는 단계; 사용자의 외관 특징을 상기 합성 와핑 플로우 필드로 와핑하는 단계; 및 상기 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징에 기초하여 상기 사용자가 상기 레퍼런스 비디오 내 프레임에서 레퍼런스 객체의 모션을 취한 것이 나타난 합성 이미지를 생성하는 단계;를 포함할 수 있다.

일 실시 예에서, 상기 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징에 기초하여 상기 합성 이미지를 생성하는 단계는, 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징을 이미지 생성자에 공급하여 상기 합성 이미지를 생성하는 것일 수 있다. 상기 이미지 생성자는 상기 합성 와핑 플로우 필드로 와핑된 상기 사용자의 외관 특징이 입력되면 이를 처리해 2차원으로 투영한 이미지를 생성하도록 구성된 뉴럴 네트워크일 수 있다.

일 실시 예에서, 상기 관심 영역은 상기 사용자의 신체 영역을 더 포함할 수 있다. 상기 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 각각 검출하는 단계는, 상기 사용자 이미지에서 사용자를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 사용자의 신체 영역으로 검출하고, 상기 레퍼런스 비디오 내 프레임별로 레퍼런스 객체를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 레퍼런스 객체의 신체 영역을 검출하는 것일 수 있다.

일 실시 예에서, 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여 합성 비디오를 생성하는 단계는, 상기 사용자 이미지의 신체 영역에서 추출된 사용자의 신체 관련 불변 키포인트에 기초하여 상기 사용자의 신체 관련 자세 특징을 산출하는 단계; 상기 사용자 이미지의 신체 영역에서 추출된 사용자의 신체 관련 불변 키포인트에 기초하여 사용자의 신체 관련 표정 특징을 산출하는 단계; 상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 신체 관련 특징점을 추출하는 단계; 상기 레퍼런스 비디오의 프레임 내 신체 영역에서 추출된 레퍼런스 객체의 신체 관련 불변 키포인트에 기초하여 상기 레퍼런스 객체의 신체 관련 자세 특징을 산출하는 단계; 상기 레퍼런스 비디오의 프레임 내 신체 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 신체 관련 표정 특징을 산출하는 단계; 상기 레퍼런스의 신체 관련 자세 특징, 상기 레퍼런스의 신체 관련 표정 특징 및 상기 사용자의 신체 관련 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 신체 관련 특징점을 산출하는 단계; 및 상기 사용자의 신체 관련 외관 특징, 상기 사용자의 복수의 신체 관련 특징점, 및 상기 레퍼런스 객체의 복수의 신체 관련 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계를 포함할 수 있다.

본 출원의 다른 일 측면에 따른 컴퓨터 판독가능한 기록매체는 상술한 실시 예들에 따른 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 방법을 수행하게 하는, 프로그램을 기록할 수 있다.

본 출원의 또 다른 일 측면에 따른 카메라 및 출력 장치와 연결되는 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 장치는, 레퍼런스 객체가 움직이는 것을 나타낸 레퍼런스 비디오를 저장하는 컨텐츠 DB; 상기 카메라로부터 수신한, 사용자를 촬영한 사용자 이미지, 및 상기 컨텐츠 DB에서 검색한 상기 레퍼런스 비디오에서 관심 영역을 각각 검출하고, 상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하도록 구성된 영역 검출부; 사용자 이미지, 레퍼런스 비디오에서 검출된 관심 영역에서 사용자, 레퍼런스 객체의 특징을 추출하는 특징 분석부 - 상기 특징은 상기 객체의 외관 특징을 포함함; 및 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여, 상기 출력 장치를 통해 상기 사용자에게 제공될 합성 비디오를 생성하는 이미지 생성부를 포함할 수 있다. 상기 합성 비디오는 상기 사용자가 상기 레퍼런스 객체의 움직임을 취하는 것이 나타난 것이다.

일 실시 예에서, 상기 특징 분석부는 상기 사용자의 관심 영역에서 상기 사용자의 외관 특징을 산출하도록 구성된 외관 분석부; 상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 상기 사용자의 자세 특징을 산출하고, 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 상기 레퍼런스 객체의 자세 특징을 산출하도록 구성된 포즈 분석부; 상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 사용자의 표정 특징을 산출하고, 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 표정 특징을 산출하도록 구성된 표정 분석부;를 포함할 수 있다. 상기 특징 분석부는, 상기 레퍼런스의 자세 특징, 상기 레퍼런스의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 특징점을 산출하고, 상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 특징점을 추출하도록 구성될 수 있다. 상기 이미지 생성부는, 상기 사용자의 외관 특징, 상기 사용자의 복수의 특징점, 및 상기 레퍼런스 객체의 복수의 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하도록 구성될 수 있다.

본 출원의 실시 예들에 따른 시스템은 외관 측면, 포즈 측면, 및 표정 측면에서 사용자 이미지 내 사용자가 레퍼런스 컨텐츠 내 객체의 움직임대로 움직이는 참여형 컨텐츠를 정교하게 생성할 수 있다.

특히, 상기 시스템은 사용자의 얼굴 영역에서 랜드마크 이외의 추가 특징점, 감정이 나타난 표정 등을 사용하여 마스크, 기타 악세서리로 얼굴이 일부분 가려진 사용자에 대해서도 참여형 컨텐츠를 생성할 수 있다.

이 과정에서 상기 시스템은 대상 공간에 제공 가능한 레퍼런스 비디오를 변경 또는 확장하는 것만으로 다수의 방문자에게 대규모의 참여형 컨텐츠를 손쉽게 제공할 수 있어, 공간에 의존하던 기존과 달리 컨텐츠 범위를 손쉽게 확장할 수 있다. 또한, 문화 공간을 넘어, 브랜드 공간과 같은 상업 공간에도 쉽게 적용할 수 있다.

도 1은, 본 출원의 일 측면에 따른, 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템의 블록도이다.
도 2는, 본 출원의 다른 일 측면에 따른, 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 방법의 흐름도이다.
도 3은, 본 출원의 다양한 실시 예들에 따른, 참여형 컨텐츠를 생성하는 과정의 세부 흐름도이다.
도 4는, 본 출원의 다양한 실시 예들에 따른, 합성 비디오의 개략도이다.

이하에서, 도면을 참조하여 본 출원의 실시 예들에 대하여 상세히 살펴본다.

그러나, 이는 본 개시(disclosure)를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 명세서에서, "가진다," "가질 수 있다,""포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 단계, 부품, 요소 및/또는 성분 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재나 부가를 제외시키는 것이 아니다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

다양한 실시 예에서 사용된 "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들면, 제1 구성요소와 제2 구성요소는, 순서 또는 중요도와 무관하게, 서로 다른 구성요소를 나타낼 수 있다.

본 명세서에서 사용되는 단수 표현의 구성의 실시 예들은 상기 단수 표현과 관련된 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 표현의 구성 들의 실시 예들도 포함한다.

본 명세서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to),"또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

용어 정의

본 명세서에서, 컨텐츠는 일반적으로 웹 사이트, 파일 또는 문서와 같은 디지털 매체에 포함된 정보 또는 데이터를 의미한다. 예를 들어 웹 사이트의 컨텐츠에는 텍스트, 이미지, 비디오 및 기타 미디어가 포함될 수 있다. 파일의 내용에는 파일 내에 저장된 텍스트, 그래픽 또는 기타 데이터가 포함될 수 있다. 상기 컨텐츠가 비디오 컨텐츠일 경우, 상기 비디오 컨텐츠는 단일 종류의 미디어 (monomedia), 복수 종류의 미디어(multimedia) 및/또는 그 부분 집합(subset)인 동영상 컴포넌트의 집합 정보를 의미하며, 상기 동영상 정보는 영상 및/또는 오디오 트랙 정보, 코덱 계층 정보(예를 들어, 기본 계층(base layer), 향상 계층(enhancement layer)), 또는 자막 정보를 포함할 수 있다. 컨텐츠 데이터는 이러한 컨텐츠를 구현하기 위한 데이터를 지칭한다.

본 명세서에서, 참여형 컨텐츠는 사용자의 형상이 반영된 컨텐츠를 나타낸다. 상기 사용자는 자신의 형상이 나타난 입력 이미지를 제공하여 시스템이 참여형 컨텐츠를 생성하는데 참여할 수 있다.

시스템 아키텍처

도 1은, 본 출원의 일 측면에 따른, 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템의 블록도이다.

도 1을 참조하면, 상기 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 시스템(이하, 컨텐츠 생성 시스템, 1)은, 참여형 컨텐츠를 생성하는 장치(이하, 컨텐츠 생성 장치, 10)에 사용자 입력 이미지를 제공하는 카메라(20), 상기 컨텐츠 생성 장치(10)에서 생성한 상기 사용자에 대한 참여형 컨텐츠를 출력하는 출력 장치(30)를 포함할 수 있다.

실시 예들에 따른 컨텐츠 생성 시스템(1)은 전적으로 하드웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 시스템 또는 장치는 데이터 처리 능력이 구비된 하드웨어 및 이를 구동시키기 위한 운용 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부(unit)", "시스템" 및 "장치" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 하드웨어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.

카메라(20), 출력 장치(30)는 컨텐츠 생성 장치(10)와 데이터를 송/수신하도록 유/무선 전기 통신을 통해 연결될 수 있다. 상기 시스템(1)은 하나 이상의 카메라(20)를 포함할 수 있다.

카메라(20)는 사용자 이미지를 획득하는 구성요소이다. 상기 사용자 이미지는 순간을 촬영한 캡처 이미지 또는 연속적으로 촬영한 비디오 이미지일 수 있다.

상기 카메라(20)는 CCTV 형태, 출력 장치(30)에 내장 설치된 캠 형태, 또는 객체를 촬영할 수 있는 기타 형태일 수 있다.

상기 시스템(1)은 상기 카메라(20)를 통해 자신의 참여형 컨텐츠를 생성하고자 하는 사용자를 촬영한 이미지를 획득하고, 획득된 촬영 이미지를 사용자 입력 이미지로 컨텐츠 생성 장치(10)에게 전송할 수 있다.

출력 장치(30)는, 이미지 데이터, 또는 멀티미디어 데이터를 출력하여 정보를 시각적으로 사용자에게 제공하는 구성요소이다. 상기 출력 장치(30)는 상기 컨텐츠 생성 장치(10)에서 생성한 참여형 컨텐츠를 수신하여 출력할 수 있다.

상기 출력 장치(30)는 참여형 컨텐츠 내 합성 이미지를 디스플레이할 수 있다. 상기 출력 장치(30)는, 예를 들어 LCD, OLED, 플레서블 스크린, 기타 디스플레이 장치로 구현될 수 있다.

일부 실시 예들에서, 상기 출력 장치(30)는 참여형 컨텐츠를 생성하는데 이용되는 레퍼런스 비디오와 연관될 수 있다. 출력 장치(30)별로 레퍼런스 비디오가 지정되어, 특정 레퍼런스 비디오를 이용하여 생성된 참여형 컨텐츠를 출력하도록 미리 설정될 수 있다.

그러면, 서로 다른 사용자 이미지가 시스템(1)에 입력되면, 동일한 출력 장치(30)라도 서로 다른 정체성을 갖는 사용자가 컨텐츠 객체로 등장하는 참여형 컨텐츠가 출력될 수 있다.

또한, 카메라(20)는 특정 출력 장치(30)와 연관될 수 있다. 카메라(20)가 촬영한 사용자 이미지는 미리 연관된 특정 출력 장치(30)의 참여형 컨텐츠를 생성하는데 이용될 수 있다. 이 경우, 사용자는 별다른 입력 없이 카메라(20)의 촬영 범위에 위치하는 것만으로도 곧바로 컨텐츠 생성에 참여할 수 있다.

본 출원의 다양한 실시 예들에서, 상기 시스템(1)은 카메라(20) 및 출력 장치(30)의 조합 및/또는 카메라(20') 및 출력 장치(30')를 갖는 사용자 단말을 포함할 수 있다.

상기 사용자 단말은 카메라(20') 및 출력 장치(30')를 포함한다. 상기 카메라(20), 출력 장치(30)는 참여형 컨텐츠를 생성하는 공간을 제공하는 컨텐츠 공간의 운영자에 의해 관리되고, 상기 사용자 단말 내 카메라(20'), 출력 장치(30')는 상기 컨텐츠 공간에 방문하여 컨텐츠 생성에 참여하는 사용자에 의해 관리된다.

상기 사용자 단말은, 예를 들어, 데스크톱 컴퓨터, 랩탑 컴퓨터, 넷북, 태블릿 컴퓨터, e-북 리더, GPS 장치, 카메라, 개인용 정보 단말기(PDA), 휴대용 전자 장치, 셀룰러 전화, 스마트폰, 기타 컴퓨팅 장치, 기타 모바일 장치, 기타 웨어러블 장치, 프로세서, 메모리 및 송수신부를 포함한 다른 적절한 전자 장치 또는 이들의 임의의 적절한 조합과 같은 컴퓨터 시스템일 수도 있다.

이 경우, 상기 컨텐츠 생성 장치(10)는 카메라(20 및/또는 20')를 통해 사용자 이미지를 획득하여 상기 사용자의 참여형 컨텐츠를 생성하고, 생성한 참여형 컨텐츠를 출력 장치(30 및/또는 30')를 통해 제공할 수 있다.

일부 실시 예들에서, 상기 컨텐츠 생성 장치(10)는 참여형 컨텐츠를 생성하는데 요구되는 레퍼런스 비디오에 대한 사용자 선택을 요구하는 인터페이스 화면을 제공할 수 있다. 상기 인터페이스 화면은 웹 페이지 형태로 구현될 수 있다. 상기 사용자 단말은 상기 컨텐츠 생성 장치(10)가 제공하는 웹 페이지에 접속하여 사용자 이미지를 입력하고, 원하는 레퍼런스 비디오를 선택할 수 있다.

컨텐츠 생성 장치(10)는 카메라(20, 20')로부터 수신한 사용자 이미지에 기초하여 참여형 컨텐츠를 생성하고, 출력 장치(30, 30')가 상기 참여형 컨텐츠를 생성하게 할 수 있다. 이하, 설명의 명료성을 위해, 카메라(20) 및 출력 장치(30)를 사용하는 실시 예들로 컨텐츠 생성 장치(10)의 동작을 아래에서 보다 상세히 서술한다.

상기 컨텐츠 생성 장치(10)는 하드웨어, 소프트웨어 또는 임베디드 로직 컴포넌트나 이들의 2 이상의 컴포넌트의 조합을 포함하고 카메라(20), 출력 장치(30)에 의해 구현되거나 지원되는 적절한 기능을 수행할 수 있는 컴퓨팅 시스템일 수도 있다. 상기 컨텐츠 생성 장치(10)는 예를 들어, 데스크톱 컴퓨터, 랩탑 컴퓨터, 넷북, 태블릿 컴퓨터, e-북 리더, GPS 장치, 카메라, 개인용 정보 단말기(PDA), 휴대용 전자 장치, 셀룰러 전화, 스마트폰, 기타 컴퓨팅 장치, 기타 모바일 장치, 기타 웨어러블 장치, 프로세서, 메모리 및 송수신부를 포함한 다른 적절한 전자 장치 또는 이들의 임의의 적절한 조합과 같은 컴퓨터 시스템일 수도 있다.

본 출원의 다양한 실시 예들에서, 상기 컨텐츠 생성 장치(10)는 서버 형태로 구현될 수 있다.

서버(10)는 일체형 서버(unitary server)일 수 있거나, 다수의 컴퓨터 또는 다수의 데이터센터에 걸쳐 있는 분산형 서버로 구현될 수도 있다. 본 출원의 다양한 실시 예들에서, 상기 컨텐츠 생성 장치(10)는 네트워크 서버로 구현되는 다수의 컴퓨터 시스템 또는 컴퓨터 소프트웨어이다. 여기서, 네트워크 서버란, 사설 인트라넷 또는 인터넷과 같은 컴퓨터 네트워크를 통해 다른 네트워크 서버와 통신할 수 있는 하위 장치와 연결되어 작업 수행 요청을 접수하고 그에 대한 작업을 수행하여 수행 결과를 제공하는 컴퓨터 시스템 및 컴퓨터 소프트웨어(네트워크 서버 프로그램)를 의미한다. 그러나 이러한 네트워크 서버 프로그램 이외에도, 네트워크 서버 상에서 동작하는 일련의 응용 프로그램과 경우에 따라서는 내부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다. 상기 컨텐츠 생성 장치(10)는 네트워크 서버, 웹 서버, 파일 서버, 슈퍼컴퓨터, 데스크탑 컴퓨터 등과 같은 컴퓨팅 장치들의 임의의 유형 또는 유형들의 조합으로 구현될 수도 있다. 이를 위해, 컨텐츠 생성 장치(10)는 데이터를 처리할 수 있는 적어도 하나의 프로세서, 데이터를 저장하는 메모리, 데이터를 송/수신하는 통신부를 포함한다.

상기 컨텐츠 생성 장치(10)는 컨텐츠 DB(100), 영역 검출부(200), 및 컨텐츠 생성부(300)를 포함한다.

컨텐츠 DB(100)는 컨텐츠 생성 장치(10)에게 레퍼런스 비디오를 제공한다. 또한, 상기 컨텐츠 DB(100)는 레퍼런스 비디오 관련 정보를 제공할 수 있다.

이러한 DB(100)는 컨텐츠 생성 장치(10) 내부에 집적되거나 외부에 DB 서버로 구현되어 컨텐츠 생성 장치(10)와 연결된다. 일부 실시 예들에서, DB에 저장된 정보는 특정한 데이터 구조에 따라 구조화될 수 있다. DB(100)는 관계형, 컬럼형, 상관형 또는 다른 적절한 데이터베이스일 수 있다. 비록 본 명세서는 특정 타입의 데이터베이스를 기술하거나 도시하지만, 본 명세서는 임의의 적절한 타입의 데이터베이스를 고려한다. 일부 실시 예들에서, 시스템(1)은 컨텐츠 생성 장치(10) 또는 인터페이스 장치를 통해 DB(100)에 저장된 정보를 관리, 검색, 변경, 추가 또는 삭제할 수 있게 하는 인터페이스를 제공할 수 있다.

상기 컨텐츠 DB(100)에 저장되는 레퍼런스 비디오는 레퍼런스 객체의 움직임을 연속적으로 촬영한 것으로서, 시간에 따른 장면(scene)에서 레퍼런스 객체의 움직임을 나타내는 프레임들의 집합을 가진다.

상기 레퍼런스 객체의 움직임은 레퍼런스 객체의 표정 변화, 신체의 움직임(예컨대, 몸짓 또는 특정 ), 머리 움직임 중 하나 이상을 나타낸다. 표정 변화는 객체의 피부 움직임으로 표현될 수 있다. 머리 움직임은 머리의 회전(rotation), 상하좌우 방향의 평행이동(translation), 또는 이들의 조합으로 구현될 수 있다.

예를 들어, 상기 레퍼런스 객체의 움직임은 고개를 좌에서 우로 그리고 다시 우에서 좌로 움직이는 동안 순간 감탄하는 표정을 짓는 것일 수 있다. 고개가 움직이는 동안 레퍼런스 객체의 눈꺼풀, 입 모양이 잠깐식 변할 수 있다.

상기 컨텐츠 생성 장치(10)는 컨텐츠 DB(100)에 저장된 레퍼런스 비디오를 이용하여 사용자의 참여형 컨텐츠를 생성할 수 있다. 상기 레퍼런스 비디오는 참여형 컨텐츠에 나타난 사용자가 취하는 움직임의 기준을 제공한다.

영역 검출부(200)는 입력 이미지에서 미리 설정된 관심 영역을 검출하도록 구성된다. 영역 검출부(200)는 상기 입력 이미지에서 관심 대상의 존재 및 위치를 식별할 수 있다.

상기 관심 영역은 관심 부분이 나타난 영역이다. 상기 관심 영역은 객체의 얼굴(예컨대, 사용자 얼굴, 사용자 전신)이 나타난 영역일 수 있다. 상기 관심 영역은 입력 이미지에서 얼굴 부분을 포함한 서브 영역으로 검출된다.

상기 영역 검출부(200)는 다양한 이미지 처리 기술을 이용하여 입력 이미지에서 관심 영역을 검출할 수 있다. 상기 영역 검출부(200)는 SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient), Haar, NN(Neural Network) 기반 관심 영역 검출 알고리즘을 통해 검출될 수 있다. 그러나, 전술한 관심 영역 검출 알고리즘은 단지 예시적인 것으로서, 이에 제한되지 않는다.

또한, 일부 실시 예들에서, 상기 영역 검출부(200)는, 관심 영역 검출을 위한 이미지 전처리 동작을 수행하도록 더 구성될 수 있다. 상기 영역 검출부(200)는 입력 이미지에서 관심 영역을 검출하기 이전에, 밝기, 대비(contrast), 색 균형 등을 조정하는 것과 같은 이미지 품질을 개선 가능한 다양한 전처리를 수행할 수 있다.

상기 컨텐츠 생성 장치(10)가 사용자 이미지를 수신하면, 상기 영역 검출부(200)는 상기 사용자 이미지에서 사용자가 나타난 관심 영역(예컨대, 얼굴 영역)을 검출할 수 있다. 상기 사용자 이미지가 비디오 형태일 경우, 상기 영역 검출부(200)는 사용자 이미지의 개별 프레임에서 관심 영역을 각각 검출할 수 있다.

상기 컨텐츠 생성 장치(10)는 레퍼런스 비디오의 개별 프레임에서 레퍼런스 객체가 나타난 관심 영역(예컨대, 얼굴 영역)을 검출할 수 있다.

일부 실시 예둘에서, 출력 장치(30)에 특정 레퍼런스 비디오가 미리 연관된 경우, 레퍼런스 이미지에서 관심 영역을 검출하는 동작은 상기 컨텐츠 생성 장치(10)가 사용자 이미지를 수신해 사용자 이미지에서 관심 영역이 검출되면, 수행될 수 있다. 상기 영역 검출부(200)는 컨텐츠 DB(100)에서 적어도 하나의 레퍼런스 비디오를 검색하고 상기 레퍼런스 비디오에서 레퍼런스 객체가 나타난 관심 영역을 검출할 수 있다. 전술한 것처럼, 검색되는 레퍼런스 비디오는 사용자 이미지를 제공하는 카메라(20)에 미리 연관된 것일 수 있다.

다른 일부 실시 예들에서, 상기 시스템(1)은 사용자의 선택 명령에 따라 참여형 컨텐츠를 생성하는데 이용할 레퍼런스 비디오를 선택할 수 있다. 그러면, 레퍼런스 이미지에서 관심 영역을 검출하는 동작은 사용자의 선택 명령에 응답하여 수행될 수 있다.

또한, 본 출원의 다양한 실시 예들에서, 상기 영역 검출부(200)는 검출된 관심 영역에서 객체의 불변 키포인트(invariant keypoinets)를 추출하도록 더 구성될 수 있다. 불변 키포인트는 이미지의 크기 조정, 회전 또는 조명 변경과 같은 다양한 방식으로 이미지가 변형되더라도 동일하게 유지되는 이미지 또는 비디오 프레임의 고유한 지점이다. 상기 불변 키포인트는 기저 키포인트(canonical keypoints)로 지칭될 수 있다. 이러한 특성으로 인해, 상기 불변 키포인트는 객체를 인식하거나 객체의 신원을 식별하는데 이용될 수 있다.

불변 키포인트는 독특하고 반복 가능한 모든 포인트 또는 특징이 될 수 있으며 반드시 얼굴 영역에만 국한되지 않는다.

상기 불변 키포인트는 얼굴 랜드마크와 관련이 있지만, 일치하지 않을 수 있다. 경우에 따라서 상기 불변 키포인트는 얼굴 랜드마크의 전부를 포함하거나, 또는 일부만을 포함할 수 있다. 얼굴 랜드마크는 눈, 코, 입과 같은 얼굴 특징에 해당하는 얼굴의 특정 지점이다. 얼굴 인식과 같은 일부 응용 프로그램에서 얼굴 랜드마크를 불변 키포인트로 사용할 수 있지만 다양한 변형 이미지에서 얼굴 랜드마크가 항상 불변 키포인트인 것은 아니다. 예를 들어, 사람의 눈썹의 위치나 입술의 모양은 표정이나 자세에 따라 달라지므로 불변하지 않을 수 있다. 특히, 영역 검출부(200)는 불변 키포인트를 검출함으로써, 모든 이미지나 비디오 시퀀스에 적용할 수 있고 키포인트 검출 결과를 얼굴 인식이나 분석에만 국한해서 이용하지 않을 수 있다.

본 출원의 다양한 실시 예들에서, 상기 영역 검출부(200)는 미리 설정된 개수의 불변 키포인트를 입력 이미지에서 추출하도록 구성된 키포인트 검출 네트워크를 포함할 수 있다. 상기 불변 키포인트의 개수는 자율적으로 학습되거나, 또는 설계자가 지정할 수 있다.

상기 키포인트 검출 네트워크는 입력 이미지에서 특징을 추출해 불변 키포인트를 추출하는 딥러닝 모델일 수 있다. 상기 키포인트 검출 네트워크는, 예를 들어, Meidapipe, YOLO, OpenPose, FaceNet, RetinaNet, 또는 특징점을 추출해서 사물을 인식할 수 있는 기타 딥러닝 모델의 적어도 일부, 특히 키포인트 추출 부분을 통해 구현될 수 있다.

상기 MediaPipe, 또는 YOLO에 기반한 키포인트 검출 네트워크는 얼굴, 신체 영역에서 불변 키포인트를 추출할 수 있다. OpenPose, FaceNet, 또는 RetinaNet에 기반한 키포인트 검출 네트워크는 얼굴 영역에서 불변 키포인트를 추출할 수 있다.

일 예에서, MediaPipe는 구글에서 제공한 AI 프레임워크로서, 비디오형식 데이터를 이용한 다양한 비전 AI 기능을 파이프라인 형태로 손쉽게 사용할 수 있도록 제공한다. 상기 MediaPipe는 기계 학습 파이프라인을 구축하기 위한 사전 구축된 빌딩 블록 및 도구 세트를 제공한다. 여기에는 얼굴 감지, 자세 추정, 손 추적 및 물체 감지와 같은 작업을 위한 사전 구축된 모듈이 포함된다. 상기 키포인트 검출 네트워크는 사전 구축된 모듈에 포함된, 얼굴 인식 및 감정 감지와 같은 작업에 사용할 수 있는 얼굴 이미지 및 비디오에서 불변 키포인트 또는 랜드마크를 추출하는 기능을 실행하는 부분으로 구현될 수 있다.

일 예에서, YOLO(You Only Look Once)는 CNN을 사용하여 입력 이미지의 각 개체에 대한 경계 상자 및 클래스 확률을 예측하는 딥러닝 모델이다. 상기 키포인트 검출 네트워크YOLO에서 이미지와 비디오에서 객체를 감지하고 지역화하여 관심 객체에 특정한 불변 키포인트 또는 특징을 추출하는 부분으로 구현될 수 있다.

일 예에서, OpenPose는 입력 이미지 및 비디오에서 인체 키포인트를 감지하고 추적할 수 있는 실시간 다중 사람 자세 추정 시스템이다. 딥러닝 네트워크 구조를 사용하여 어깨, 팔꿈치, 손목, 엉덩이, 무릎 및 발목과 같은 주요 신체 관절의 2D 위치를 예측한다. 상기 키포인트 검출 네트워크는 OpenPose에서 비디오 시퀀스의 프레임 전체에서 이러한 키포인트를 추적하여 신체 자세와 움직임의 변화를 캡처하는 불변 특징을 추출하는 부분으로 구현될 수 있다.

일 예에서, FaceNet은, 구글에서 개발한, 얼굴 인식 및 검증에 사용할 수 있는 딥러닝 모델이다. 삼중항 손실 함수를 사용하여 같은 사람의 얼굴은 서로 가깝고 다른 사람의 얼굴은 멀리 떨어져 있는 컴팩트 임베딩 공간을 학습한다. 상기 키포인트 검출 네트워크는 FaceNet에서 얼굴 이미지와 비디오에서 고차원 특징 벡터를 추출하여 개인의 얼굴에 특정한 불변 키포인트 또는 특징을 추출하는 부분으로 구현될 수 있다.

일 예에서, RetinaNet은 FPN(feature pyramid network)을 사용하여 다양한 스케일에서 특징을 추출하고 초점 손실 기능을 사용하여 훈련 중에 감지하기 어려운 물체의 우선 순위를 정하여, 물체를 감지하는 딥러닝 모델이다. 상기 키포인트 검출 네트워크는 RetinaNet에서 입력 이미지와 비디오에서 물체를 감지하고 지역화함으로써 관심 물체에 특정한 불변 키포인트 또는 특징을 추출하는 부분으로 구현될 수 있다.

상기 키포인트 검출 네트워크가 추출된 불변 키포인트는 얼굴 표정을 모델링할 수 있는 키포인트, 및/또는 객체의 기하학적 시그니쳐를 생성할 수 있는 키포인트를 포함할 수 있다.

대안적인 실시 예들에서, 상기 영역 검출부(200)는, 예를 들어 SIFT(Scale-Invariant Feature Transform), SURF(Speeded Up Robust Feature), ORB(Oriented FAST and Rotated BRIEF) 등 키포인트를 감지하고 설명하는 다양한 알고리즘을 이용하여 입력 이미지에서 불변 키포인트를 식별할 수 있다.

상기 영역 검출부(200)는 상기 사용자 이미지에서 검출된 관심 영역에서 사용자의 불변 키포인트를 추출할 수 있다. 구체적으로, 상기 영역 검출부(200)는 상기 사용자 이미지에서 검출된 사용자의 얼굴 영역에서 상기 사용자의 얼굴 관련 불변 키포인트를 추출할 수 있다. 상기 사용자 이미지가 비디오 형태일 경우, 상기 영역 검출부(200)는 사용자 이미지의 개별 프레임 내 관심 영역 각각에서 사용자의 불변 키포인트를 추출할 수 있다.

또한, 상기 영역 검출부(200)는 레퍼런스 비디오에서 검출된 관심영역에서 레퍼런스 객체의 불변 키포인트를 추출할 수 있다. 구체적으로, 상기 영역 검출부(200)는 상기 레퍼런스 비디오의 개별 프레임에서 검출된 레퍼런스 객체의 얼굴 영역에서 상기 레퍼런스 객체의 얼굴 관련 불변 키포인트를 추출할 수 있다.

또한, 본 출원의 다양한 실시 예들에서, 상기 영역 검출부(200)는 불변 키포인트에 기반해 키프레임을 추출하도록 더 구성될 수 있다. 상기 영역 검출부(200)는 관심 영역이 검출되는 입력 이미지가 비디오(예컨대, 레퍼런스 비디오)일 경우, 비디오에서 가장 중요한 정보를 보존하면서 비디오 데이터의 크기를 효과적으로 줄이기 위해 키프레임을 추출할 수 있다.

상기 키프레임은 비디오에서 가장 중요한 정보 또는 변경 사항을 갖는 프레임이다. 상기 영역 검출부(200)는 관심 영역을 제공하는 각각의 프레임에서 키프레임에 해당하는 프레임을 식별할 수 있다.

일 예에서, 모든 프레임이 관심 영역을 포함한 레퍼런스 비디오가 획득될 수 있다. 그러면, 상기 영역 검출부(200)는 레퍼런스 비디오의 개별 프레임 내 관심 영역에서 불변 키포인트를 식별하고, 개별 프레임 내 관심 영역별로 식별된 불변 키포인트를 프레임 전체에서 일치시시키며, 일치한 키포인트의 수와 분포에 기초하여 모든 프레임 중에서 정보가 다른 프레임들 대비 상대적으로 크게 변경된 적어도 하나의 프레임을 키프레임으로 선택할 수 있다. 정보가 크게 변경되었는지는 해당 프레임의 이전, 이후 프레임에 포함된 불변 키포인트의 수와 분포 간의 차이에 기초하여 결정된다.

상기 영역 검출부(200)는, 예를 들어, FLANN(Fast Library for Approximate Nearest Neighbor), RANSAC(RANdom SAmple consensus) 또는 LMedS(Least Median of Squares)와 같은 데이터 분포(예컨대, 특징점 분포)에서 타겟을 선별하는 알고리즘, 또는 입력 비디오에서 키프레임을 추출하도록 학습된 딥러닝 모델을 사용하여 모든 프레임에서 키포인트를 서로 일치시키고, 일치된 불변 키포인트에 기초해 중요한 변경 사항이 포함된 프레임을 비디오 시퀀스에서 추출한다.

상기 영역 검출부(200)는 레퍼런스 비디오의 개별 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 비디오 시퀀스에서 키프레임을 추출할 수 있다.

상기 영역 검출부(200)는 상기 사용자 이미지가 비디오 형태일 경우, 사용자 이미지의 개별 프레임 내 관심 영역 각각에서 추출된 사용자의 불변 키포인트에 기초하여 사용자 이미지에서 키프레임을 추출할 수 있다.

상기 영역 검출부(200)는 관심 영역의 검출 결과 및 상기 관심 영역별 불변 키포인트의 추출 결과를 상기 컨텐츠 생성부(300)로 제공할 수 있다. 만약 키프레임이 추출된 경우, 상기 영역 검출부(200)는 키프레임 추출 결과를 해당 키프레임이 제공한 관심 영역의 검출 결과와 함께 컨텐츠 생성부(300)로 제공할 수 있다. 일부 실시 예들에서, 상기 영역 검출부(200)는 키프레임으로 추출된 프레임에 포함된 관심 영역의 검출 결과 및 해당 관심 영역 내 불변 키포인트의 추출 결과를 상기 컨텐츠 생성부(300)로 제공할 수 있다.

상기 영역 검출부(200)에서 수행되는, 사용자 이미지에서 사용자가 나타난 관심 영역을 검출하는 동작 및 레퍼런스 비디오에서 레퍼런스 객체가 나타난 관심 영역을 검출하는 동작에 대해서는 아래의 도 2를 참조해 보다 상세히 서술한다.

컨텐츠 생성부(300)는 사용자 이미지 및 레퍼런스 비디오에 기초하여 참여형 컨텐츠를 생성할 수 있다. 상기 참여형 컨텐츠는 사용자가 레퍼런스 객체의 움직임을 취하는 것이 나타난 합성 이미지들을 프레임 이미지들로 가진다.

다시 도 1을 참조하면, 상기 컨텐츠 생성부(300)는 사용자 이미지, 레퍼런스 비디오에서 검출된 관심 영역에서 사용자, 레퍼런스 객체의 특징을 추출하는 특징 분석부(310), 사용자 및 레퍼런스 객체의 특징에 기초하여 사용자가 레퍼런스 객체의 움직임대로 움직이는 것을 나타낸 합성 이미지를 생성하는 이미지 생성부(330)를 포함한다.

상기 특징 추출부(310)는 입력 이미지에 나타난 외관(appearance) 특징을 추출하는 외관 분석부(311), 입력 이미지에 나타난 객체의 자세 특징을 산출하는 포즈 분석부(315), 및 입력 이미지에 나타난 객체의 표정 특징을 추출하는 표정 분석부(317)를 포함할 수 있다. 상기 특징 추출부(310)에서 추출된 특징은 외관 특징, 자세 특징, 및 표정 특징 중 하나 이상을 포함한다.

상기 외관 특징은 객체를 시각적인 측면에서 분석할 수 있는 특징이다. 본 출원의 다양한 실시 예들에서, 상기 외관 특징은 공간 차원 상에 3차원으로 표현될 수 있다. 일부 실시 예들에서, 상기 외관 특징은 {너비, 높이, 깊이}로 표현될 수 있다. 입력 이미지에서 추출되는 객체의 3차원 외관 특징은 객체의 3차원 특징 볼륨을 형성할 수 있다. 3차원 특징 볼륨은 참여형 컨텐츠에서 객체가 회전 및 평행이동(translating)을 가능하게 한다.

본 출원의 다양한 실시 예들에서, 상기 외관 분석부(311)는 특징 추출 네트워크를 포함할 수 있다. 상기 특징 추출 네트워크는 입력 이미지에서 상기 객체가 나타난 부분에서 상기 3차원 벡터를 상기 객체의 외관 특징으로 추출하도록 구성된 뉴럴 네트워크이다. 일부 실시 예들서, 상기 뉴럴 네트워크는 2차원 특징을 추출하는, 복수의 다운샘플링 블록과 입력된 2차원 특징을 3차원 특징으로 변환하는 컨볼루션 레이어를 포함할 수 있다. 상기 2차원 특징은 일반적인 비전 AI 모델에서 컨볼루션 필터를 통해 추출되는 특징일 수 있다. 또한, 상기 뉴럴 네트워크는 복수의 3차원 잔여 블록을 포함할 수 있다. 상기 복수의 3차원 잔여 블록은 3차원 특징에 기초하여 최종적인 3차원 외관 특징(f_user)을 산출한다.

상기 외관 분석부(311)는 영역 검출부(200)에서 제공한 사용자 이미지의 관심 영역에서 사용자의 외관 특징을 추출할 수 있다. 구체적으로, 상기 외관 분석부(311)는 사용자의 얼굴 영역에서 사용자의 얼굴 관련 외관 특징을 추출할 수 있다.

상기 외관 분석부(311)는 사용자 이미지가 비디오 형태일 경우, 개별 프레임 내 사용자의 얼굴 영역에서 사용자의 얼굴 관련 외관 특징을 추출할 수 있다. 일부 실시 예들에서, 상기 외관 분석부(311)는 영역 검출부(200)가 사용자 이미지에서 키프레임을 추출해 제공할 경우, 키프레임 내 사용자의 얼굴 영역에서 사용자의 얼굴 관련 외관 특징을 추출할 수 있다.

포즈 분석부(315)는 영역 검출부(200)로부터 획득한 객체의 불변 키포인트에 기초하여 객체의 자세 특징을 산출한다. 상기 자세 특징은 회전 행렬(r) 및 평행이동 벡터(t)를 포함한다 (r∈R^3*3, t∈R³). 상기 회전 행렬은 Yaw축, Pitch축, Roll축 성분으로 표현될 수 있다.

본 출원의 다양한 실시 예들에서, 상기 포즈 분석부(315)는 자세 추정 네트워크를 포함할 수 있다. 상기 자세 추정 네트워크는 입력 이미지의 불변 키포인트가 입력되면, 입력 이미지에 있는 객체의 관심 부분(예컨대, 얼굴)의 자세를 추정하도록 구성된 뉴럴 네트워크이다. 여기서, 불변 키포인트가 입력되는 것은 불변 키포인트의 좌표와 같은 키포인트 관련 정보가 입력되는 것을 의미한다.

상기 자세 추정 네트워크는 복수의 ResNet 병목 블록과 공간 차원을 제거하기 위한 전역 풀링 레이어를 포함할 수 있다. 또한, 상기 자세 추정 네트워크는 서로 다른 선형 레이어를 포함할 수 있다. 각각의 선형 레이어는 회전 행렬, 평행이동 벡터를 각각 추정한다. 예를 들어, 상기 자세 추정 네트워크는 4개의 선형 레이어를 포함하며, 각 선형 레이어 별로 Yaw 축 성분, Pitch 축 성분, Roll축 성분 및 평행이동 벡터를 각각 출력할 수 있다.

상기 포즈 분석부(315)는 영역 검출부(200)에서 제공한 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트를 상기 자세 추정 네트워크에 입력하여 사용자의 자세 특징을 산출할 수 있다. 구체적으로, 상기 포즈 분석부(315)는 사용자의 얼굴 영역에서 추출된 사용자의 얼굴 관련 불변 키포인트를 상기 자세 추정 네트워크에 입력하여 사용자의 얼굴 관련 자세 특징을 산출할 수 있다.

상기 포즈 분석부(315)는 사용자 이미지가 비디오 형태일 경우, 개별 프레임 내 사용자의 얼굴 영역에서 사용자의 얼굴 관련 자세 특징을 산출할 수 있다. 일부 실시 예들에서, 상기 포즈 분석부(315)는 영역 검출부(200)가 사용자 이미지에서 키프레임을 추출해 제공할 경우, 키프레임 내 사용자의 얼굴 영역에서 추출된 사용자의 얼굴 관련 불변 키포인트를 상기 자세 추정 네트워크에 입력하여 사용자의 얼굴 관련 자세 특징을 산출할 수 있다.

상기 포즈 분석부(315)는 레퍼런스 비디오의 개별 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트를 자세 추정 네트워크에 입력하여 상기 레퍼런스 객체의 자세 특징을 산출할 수 있다. 구체적으로, 상기 포즈 분석부(315)는 레퍼런스 비디오의 개별 프레임 내 얼굴 영역에서 추출된 레퍼런스 객체의 얼굴 관련 불변 키포인트를 상기 자세 추정 네트워크에 입력하여 상기 레퍼런스 객체의 얼굴 관련 자세 특징을 산출할 수 있다.

표정 분석부(317)는 영역 검출부(200)로부터 획득한 객체의 불변 키포인트에 기초하여 객체의 표정 특징을 산출한다. 객체의 표정 특징은 관심 영역의 관심 부분에서 발생한 표정의 변형을 추정한 결과로서, 표정의 변형으로 지칭될 수 있다. 상기 표정 특징은 표정(neutral expression)을 기준으로 불변 키포인트들의 변형(deformation)으로 표현될 수 있다.

본 출원의 다양한 실시 예들에서, 상기 표정 분석부(317)는 표정 추정 네트워크를 포함할 수 있다. 상기 표정 추정 네트워크는 입력 이미지의 불변 키포인트가 입력되면, 상기 입력 이미지에 있는 객체의 표정의 변형를 추정하도록 구성된 뉴럴 네트워크이다. 상기 표정 추정 네트워크는 복수의 ResNet 병목 블록과 공간 차원을 제거하기 위한 전역 풀링 레이어를 포함할 수 있다.

일부 실시 예들에서, 상기 자세 추정 네트워크 및 표정 추정 네트워크는 단일 뉴럴 네트워크로 통합되어 구현될 수 있다. 이 경우, 상기 단일 뉴럴 네트워크는 복수의 ResNet 병목 블록과 공간 차원을 제거하기 위한 전역 풀링 레이어, 및 복수의 선형 레이어를 포함한다. 각 선형 레이어 별로 Yaw 축 성분, Pitch 축 성분, Roll축 성분, 평행이동 벡터, 및 불변 키포인트들의 변형을 각각 출력할 수 있다.

상기 표정 분석부(317)는 영역 검출부(200)에서 제공한 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트를 상기 표정 추정 네트워크에 입력하여 사용자의 표정 특징을 산출할 수 있다. 구체적으로, 상기 표정 분석부(317)는 사용자의 얼굴 영역에서 추출된 사용자의 얼굴 관련 불변 키포인트를 상기 표정 추정 네트워크에 입력하여 사용자의 얼굴 관련 표정 특징을 산출할 수 있다.

상기 표정 분석부(317)는 사용자 이미지가 비디오 형태일 경우, 개별 프레임 내 사용자의 얼굴 영역에서 사용자의 얼굴 관련 표정 특징을 산출할 수 있다. 일부 실시 예들에서, 상기 표정 분석부(317)는 영역 검출부(200)가 사용자 이미지에서 키프레임을 추출해 제공할 경우, 키프레임 내 사용자의 얼굴 영역에서 추출된 사용자의 얼굴 관련 불변 키포인트를 상기 표정 추정 네트워크에 입력하여 사용자의 얼굴 관련 표정 특징을 산출할 수 있다.

상기 표정 분석부(317)는 레퍼런스 비디오의 개별 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트를 표정 추정 네트워크에 입력하여 상기 레퍼런스 객체의 표정 특징을 산출할 수 있다. 구체적으로, 상기 표정 분석부(317)는 레퍼런스 비디오의 개별 프레임 내 얼굴 영역에서 추출된 레퍼런스 객체의 얼굴 관련 불변 키포인트를 상기 표정 추정 네트워크에 입력하여 상기 레퍼런스 객체의 얼굴 관련 표정 특징을 산출할 수 있다.

이와 같이 상기 특징 분석부(310)는 포즈 분석부(315) 및 표정 분석부(317)를 통해 입력 이미지에서 모션 관련 기하학 정보를 산출한다.

상기 특징 분석부(310)는 영역 검출부(200)에서 추출된 불변 키포인트, 포즈 분석부(315)에 의해 산출된 자세 특징(예컨대, 회전 행렬(r) 및 평행이동 벡터(t)), 및 표정 분석부(317)에 의해 산출된 표정 특징(예컨대, 불변 키포인트의 변형)에 기초하여 상기 입력 이미지에 있는 객체의 특징점을 산출할 수 있다.

상기 입력 이미지에 있는 객체의 특징점(f _f )은 다음의 수학식으로 표현될 수 있다.

여기서, r은 회전 행렬, t는 평행이동 벡터, lk은 전체 k개의 불변 키포인트 중에서 해당 불변 키포인트(l), δk는 해당 불변 키포인트(lk)의 변형을 나타낸다(k는 자연수).

상기 객체의 특징점(f _f )은 k개의 특징점 관련 정보를 포함한다

입력 이미지가 비디오일 경우, 개별 프레임은 동일한 방식으로 처리될 수 있다. 만약 입력 이미지가 키프레임 세트일 경우, 개별 키프레임이 동일한 방식으로 처리된다.

상기 컨텐츠 생성 장치(10)가 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 검출하면, 상기 특징 분석부(310)는 상기 수학식 1에 따르면 아래와 같이 표현 가능한, 사용자의 특징점(f _f (user)) 및 레퍼런스 객체의 특징점(f _f (reference))을 산출할 수 있다.

상기 특징 분석부(310)는 레퍼런스 객체의 특징점을 산출하기 위해, 사용자의 불변 키포인트(l_{k, user})를 재-사용한다. 최종적으로 만들어진 참여형 컨텐츠의 형상이 사용자 이미지의 사용자 형상과 동일한 정체성을 가져야 하기 때문이다.

본 출원의 다양한 실시 예들에서, 상기 관심 영역이 얼굴 영역일 경우, 상기 특징 분석부(310)는, 상기 영역 검출부(200)에서 추출된, 사용자 얼굴의 불변 키포인트, 포즈 분석부(315)에 의해 산출된, 상기 사용자 얼굴, 레퍼런스 객체의 얼굴의 자세 특징, 및 표정 분석부(317)에 의해 산출된, 상기 사용자 얼굴, 레퍼런스 객체의 얼굴의 표정 특징에 기초하여 상기 입력 이미지에 있는 사용자 얼굴, 레퍼런스 객체의 얼굴의 특징점을 산출할 수 있다.

상기 특징 분석부(310)는 사용자의 외관 특징, 사용자의 특징점 산출 결과, 레퍼런스 객체의 특징점 산출 결과를 이미지 생성부(330)로 제공한다. 수학식 1에 기재된 것처럼 특징점 산출 결과가 제공되면, 불변 키포인트 정보, 자세 특징 정보, 표정 특징 정보가 함께 제공된다.

상기 수학식 3에 도시된 것처럼 특징점은 얼굴 랜드마크 이외에 추가 키포인트(즉, 랜드마크에 해당하지 않는 불변 키포인트), 감정이 나타난 표정 등의 추가 정보를 포함한다. 따라서, 상기 특징점을 이용하는 아래의 이미지 생성부(330)는 사용하여 마스크, 기타 악세서리로 얼굴이 일부분 가려진 사용자에 대해서도 참여형 컨텐츠를 생성할 수 있다.

상기 이미지 생성부(330)는 사용자의 외관 특징, 사용자의 특징점 및 레퍼런스 객체의 특징점에 기초하여 합성 비디오를 생성할 수 있다. 상기 합성 비디오는 사용자가 레퍼런스 객체의 움직임을 취하는 것이 나타낸다.

합성 비디오의 프레임은 레퍼런스 비디오에 의존한다. 합성 비디오의 개별 프레임에서 사용자가 취하는 동작 상태는 레퍼런스 비디오의 개별 프레임에서 레퍼런스 객채가 취하는 동작 상태에 대응한다. 일부 실시 예들에서, 영역 검출부(200)에서 키프레임이 추출된 경우, 합성 비디오의 개별 프레임에서 사용자가 취하는 동작 상태는 레퍼런스 비디오의 개별 키프레임에서 레퍼런스 객채가 취하는 동작 상태에 대응한다.

상기 이미지 생성부(330)는 상기 특징 분석부(310)에서 제공한 사용자의 특징점 및 레퍼런스 객체의 특징점에 기초하여 와핑 플로우(w_k)를 산출한다. 와핑 플로우(w_k)는 사용자의 특징점이 레퍼런스 객체의 특징점에 매칭되도록 변형되기 위한 와핑 가이드를 제공한다.

상기 이미지 생성부(330)는 레퍼런스 비디오에서 3차원 특징 볼륨의 3차원 좌표를 사용자 이미지에서 3차원 특징 볼륨의 3차원 좌표로 매핑하여 상기 와핑 플로우(w_k)를 산출할 수 있다. k개의 사용자, 레퍼선스 객체의 특징점 쌍으로부터 k개의 와핑 플로우가 산출된다. 상기 와핑 플로우(w_k)는 3차원 공간 상에 벡터 형태로 구현될 수 있다.

상기 와핑 플로우(w_k)는 다음의 수학식으로 표현될 수 있다.

여기서 f_f[coordinate]는 특징 볼륨의 3차원 좌표를 나타낸다.

또한, 상기 이미지 생성부(330)는 산출된 와핑 플로우(w_k)로 상기 사용자 이미지에서 추출된 사용자의 외관 특징을 와핑하고, 와핑된 외관 특징에 기초하여 합성 와핑 플로우 필드를 산출하고, 산출된 합성 와핑 플로우 필드로 상기 사용자의 외관 특징을 와핑하도록 구성될 수있다.

예를 들어, 이미지 생성부(330)는 제1 특징점의 쌍으로부터 산출된 와핑 플로우(w₁)로 외관 특징(f_user)을 와핑한 w₁(f_user), .., 제k 특징점의 쌍으로붙 산출된 와핑 플로우(w_k)로 외관 특징(f_user)을 와핑한 w_k(f_user)를 산출할 수 있다.

본 출원의 다양한 실시 예들에서, 상기 이미지 생성부(330)는, 와핑된 외관 특징에 기초하여 합성 와핑 플로우 필드를 산출하기 위해, 와핑 플로우로 와핑된 외관 특징들을 결합하여 모션 필드 추정 네트워크에 공급하여 플로우 합성 마스크(m)를 생성하고, 생성된 플로우 합성 마스크(m)를 와핑 플로우(w_k)와 선형으로 결합하여 합성 와핑 플로우 필드(w)를 산출하도록 구성될 수 있다.

상기 외관 특징들은 모션 필드 추정 네트워크의 입력 데이터 형태에 대응하도록 결합된다. 일부 실시 예들에서, 복수의 와핑 플로우는 맵 형태로 결합될 수 있다.

상기 모션 필드 추정 네트워크는 특징을 추출하여 모션 필드를 추정하도록 구성된 뉴럴 네트워크 구조를 가진다. 상기 뉴럴 네트워크 구조는 3차원 분할(segmentation)이 가능한 다양한 비전 뉴럴 네트워크 구조일 수 있다.

일 예에서, 상기 모션 필드 추정 네트워크는 U-Net 구조를 가질 수 있다. 상기 모션 필드 추정 네트워크는 결합된, 와핑된 외관 특징이 입력되면, 이들로부터 특징을 추출하고 소프트맥스 함수를 이용해 플로우 합성 마스크(m)를 산출한다. 특징점의 쌍이 k개이므로, 상기 플로우 합성 마스크(m)는 k개의 3차원 마스크 {m1, m2, .., mk}로 이루어진다.

상기 이미지 생성부(330)는 k개의 3차원 마스크인 플로우 합성 마스크(m)를 와핑 플로우(w_k)와 선형으로 결합하여 합성 와핑 플로우 필드(w)를 산출한다. 상기 합성 와핑 플로우 필드(w)는 합성 이미지에서 사용자의 정체성을 유지하면서 사용자의 외관이 레퍼런스 객체의 움직임대로 변형하는 와핑 가이드를 제공한다.

상기 이미지 생성부(330)의 선형 결합은 기호 시그마로 간략화되어 표현될 수 있다. 상기 이미지 생성부(330)는 특징점의 순번에 따라 순차적으로 와핑 플로우(w₁, .., w_k)를 선형 결합한 결과와 상기 플로우 합성 마스크(m)를 추가로 선형 결합할 수 있다.

상기 이미지 생성부(330)는 합성 와핑 플로우 필드(w)로 상기 사용자의 외관 특징(f_user)을 와핑하고, 합성 와핑 플로우 필드(w)로 와핑된 상기 사용자의 외관 특징(w(f_user))을 미리 설정된 이미지 생성자에 공급하여 출력 이미지를 생성한다.

상기 이미지 생성부(330)는 이미지 생성자를 포함할 수 있다. 상기 이미지 생성자는 이미지 생성 네트워크로서, 와핑된 3차원 외관 특징(w(fs))이 입력되면 이를 처리해 2차원으로 투영한 이미지를 생성하도록 구성된 뉴럴 네트워크이다.

본 출원의 다양한 실시 예들에서, 상기 이미지 생성자는 하나 이상의 잔여 블록(residual block) 및 업 샘플링 레이어를 포함할 수 있다. 일부 실시 예들에서, 상기 이미지 생성자는 GAN(Generative Adversarial Nets) 구조에 기반한 이미지 생성 모델일 수 있다.

대안적인 실시 예들에서, 상기 이미지 생성자는 디퓨전 모델일 수 있다.

상기 합성 와핑 플로우 필드(w)로 와핑된 상기 사용자의 외관 특징(w(f_user))가 입력되면, 상기 이미지 생성자는 사용자가 레퍼런스 객체의 움직임을 취하는 것을 나타낸 일련의 합성 이미지를 출력한다. 결국, 이미지 생성부(330)는 이미지 생성자에서 출력된 합성 이미지를 프레임으로 갖는 합성 비디오를 생성할 수 있다.

이와 같이 상기 이미지 생성부(330)는 사용자 이미지에 레퍼런스 객체의 움직임을 합성하여, 사용자가 레퍼런스 객체의 움직임대로 움직이는 합성 이미지를 갖는 참여형 컨텐츠를 생성할 수 있다.

상기 특징 분석부(310), 이미지 생성부(330)에 포함된 뉴럴 네트워크는 각각의 목적을 달성할 수 있도록 미리 학습된 값을 설정 값으로 가진다. 상기 시스템(1)은 본 출원 당시에 공지된 다양한 학습 방식으로 각각의 뉴럴 네트워크를 학습할 수 있다.

본 출원의 다양한 실시 예들에서, 상기 이미지 생성부(330)는 합성 이미지와 상기 컨텐츠 DB(100)에 저장된 컨텐츠의 배경 이미지를 합성하여 참여형 컨텐츠를 생성할 수 있다. 상기 이미지 생성부(330)는 합성될 배경 이미지를 제공하는 다른 컨텐츠, 및 대상 배경 이미지를 선택하는 사용자 명령을 유도하는 인터페이스 화면을 제공하고, 상기 인터페이스 화면을 통해 사용자 선택 명령이 입력되면 선택된 다른 컨텐츠의 배경 이미지를 배경 이미지로 갖는 참여형 컨텐츠를 생성할 수 있다. 그러면, 상기 시스템(1)은 상기 소스 컨텐츠의 배경과 다른 배경을 갖는 참여형 컨텐츠를 제공할 수 있다.

또한, 본 출원의 다양한 실시 예들에서, 상기 이미지 생성부(330)는 합성 이미지가 애니메이션 효과로 표현되도록, 애니메이션 처리하여 상기 참여형 컨텐츠를 생성할 수 있다. 상기 애니메이션 효과는 애니메이션 대상이 아래에서 위로 이동하는 효과, 일 측면에서 다른 측면으로 이동하는 효과일 수 있다. 상기 애니메이션 대상은 합성 이미지에서 사용자 부분일 수 있다.

또한, 상기 이미지 생성부(330)는 배경 이미지의 합성 및 애니메이션 효과가 모두 적용된 참여형 컨텐츠를 생성할 수 있다.

이러한 이미지 생성부(330)의 동작에 대해서는 아래에서 보다 상세히 서술한다.

상기 컨텐츠 생성 시스템(1)이 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 상기 적응형 컨텐츠 생성 시스템(1)은 데이터 엔트리를 위한 입력 장치, 및 인쇄 또는 다른 데이터 표시를 위한 출력 장치를 포함하는, 본 명세서에 서술된 동작에 필요한 다른 하드웨어 요소를 포함할 수도 있다.

본 출원의 다른 일 측면에 따른 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 방법은 도 1의 컨텐츠 생성 시스템(1)에 의해 수행될 수 있다.

도 2는, 본 출원의 다른 일 측면에 따른, 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 방법의 흐름도이다.

도 2를 참조하면, 상기 인공지능 기술을 이용한 참여형 컨텐츠를 생성하는 방법(이하, 컨텐츠 생성 방법)은 사용자를 촬영한 사용자 이미지를 수신하고, 레퍼런스 비디오를 컨텐츠 DB(100)에서 검색하는 단계(S100)를 포함한다.

상기 단계(S100)에서 사용자 이미지는 캡처 이미지 또는 비디오 이미지일 수 있다. 상기 사용자 이미지는 사용자의 얼굴을 포함한다. 또한, 일부 실시 예들에서, 상기 사용자 이미지는 사용자의 얼굴 이외의 신체 부분을 더 포함할 수 있다.

상기 단계(S100)에서 하나 이상의 레퍼런스 비디오가 검색될 수 있다. 그러면, 레퍼런스 비디오의 개수에 대응한 합성 비디오가 생성된다.

일 실시 예에서, 상기 단계(S100)에서 사용자 이미지를 촬영한 카메라(200) 또는 참여형 컨텐츠를 출력할 출력 장치(30)에 미리 연관된 레퍼런스 비디오가, 사용자 이미지의 수신에 응답하여, 검색될 수 있다.

다른 일 실시 예에서, 상기 단계(S100)에서 레퍼런스 비디오는 사용자의 선택 명령에 따라 검색될 수 있다.

상기 사용자의 선택 명령은 사용자 단말 또는 출력 장치(30)와 연결된 입력 장치(예컨대, 터치 패널, 키보드, 마우스 등)를 통해 시스템(1)에 입력될 수 있다.

또한, 상기 컨텐츠 생성 방법은 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 검출하는 단계(S210); 및 상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하는 단계(S230)를 포함한다.

상기 관심 영역은 얼굴 영역일 수 있다. 상기 단계(S210)는, 사용자 이미지에서 사용자 얼굴이 나타난 사용자의 얼굴 영역이 검출하는 단계; 및 레퍼런스 비디오에서 레퍼런스 객체의 얼굴이 나타난 레퍼런스 객체의 얼굴 영역을 검출하는 단계를 포함할 수 있다.

상기 단계(S210)에서 사용자 이미지가 비디오 형태일 경우, 사용자 이미지의 개별 프레임별로 사용자의 얼굴 영역을 검출할 수 있다. 레퍼런스 비디오에서 개별 프레임별로 레퍼런스 객체의 얼굴 영역을 검출할 수 있다.

상기 단계(S230)는, 사용자의 얼굴 영역에서 사용자의 얼굴 관련 불변 키포인트를 추출하는 단계; 및 레퍼런스 객체의 얼굴 영역에서 레퍼런스 객체의 얼굴 관련 불변 키포인트를 추출하는 단계를 포함한다. 얼굴 관련 불변 키포인트는 얼굴 영역에서 추출된 불변 키포인트이다.

상기 단계(S230)에서 사용자 이미지가 비디오 형태일 경우, 사용자 이미지의 개별 프레임별로 사용자의 얼굴 관련 불변 키포인트를 추출할 수 있다. 레퍼런스 비디오에서 개별 프레임별로 레퍼런스 객체의 얼굴 영역을 검출할 수 있다.

일부 실시 예들에서, 상기 단계(S230)는, 레퍼런스 객체의 얼굴 관련 불변 키포인트에 기초하여 레퍼런스 비디오에서 키프레임을 추출하는 단계를 더 포함할 수 있다. 또한, 일부 실시 예들에서, 상기 단계(S230)는, 사용자 이미지가 비디오 형태일 경우, 사용자의 얼굴 관련 불변 키포인트에 기초하여 사용자 이미지에서 키프레임을 추출하는 단계를 더 포함할 수 있다.

상기 단계(S210)에서 얼굴 영역을 검출하는 과정, 상기 단계(S230)에서 불변 키포인트, 키프레임을 추출하는 과정은 도 1의 영역 검출부(200)를 참조해 전술하였는 바, 자세한 설명은 생략한다.

또한, 상기 컨텐츠 생성 방법은, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여 합성 비디오를 생성하는 단계(S300)를 포함한다.

도 3은, 본 출원의 다양한 실시 예들에 따른, 참여형 컨텐츠를 생성하는 과정의 세부 흐름도이다.

도 3을 참조하면, 상기 단계(S300)는, 단계(S210)에서 검출된 사용자의 관심 영역에서 사용자의 외관 특징을 산출하는 단계(S311); 상기 단계(S230)에서 추출된 사용자의 불변 키포인트에 기초하여 상기 사용자의 자세 특징을 산출하는 단계(S315); 상기 단계(S230)에서 추출된 사용자의 불변 키포인트에 기초하여 사용자의 표정 특징을 산출하는 단계(S317); 및 상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 특징점을 추출하는 단계(S319)를 포함한다. 상기 단계(S230)에서 키프레임이 추출될 경우, 자세 특징, 표정 특징 등은 키프레임 내 관심 영역으로부터 산출된다.

구체적으로, 관심 영역이 얼굴 영역이면, 상기 단계(S300)는, 상기 단계(S210)에서 검출된 사용자의 얼굴 영역에서 사용자의 얼굴 관련 외관 특징을 산출하는 단계(S311); 상기 단계(S230)에서 추출된 사용자의 얼굴 관련 불변 키포인트에 기초하여 상기 사용자의 얼굴 관련 자세 특징을 산출하는 단계(S315); 상기 단계(S230)에서 추출된 사용자의 얼굴 관련 불변 키포인트에 기초하여 사용자의 얼굴 관련 표정 특징을 산출하는 단계(S317); 및 상기 사용자의 얼굴 관련 자세 특징, 상기 사용자의 얼굴 관련 표정 특징 및 상기 사용자의 얼굴 관련 불변 키포인트에 기초하여 상기 사용자의 얼굴 영역에서 사용자의 복수의 얼굴 관련 특징점을 추출하는 단계(S319)를 포함한다. 얼굴 관련 자세 특징, 외관 특징, 표정 특징, 그리고 얼굴 관련 특징점은 얼굴 영역에서 산출되거나 추출된 특징, 특징점이다.

상기 단계(S311)에서 상기 사용자 이미지 내 얼굴 영역이 특징 추출 네트워크에 입력 이미지로 입력된다. 상기 특징 추출 네트워크는 관심 영역의 입력 이미지에서 2차원 특징을 추출하고 이를 변환하여 3차원 외관 특징을 산출한다. 일부 실시 예들에서, 상기 외관 특징은 {너비, 높이, 깊이}로 표현될 수 있다. 외관 특징의 너비, 높이, 깊이에 기초해 사용자 얼굴의 3차원 특징 볼륨이 형성된다.

상기 단계(S315)는, 사용자의 얼굴 관련 불변 키포인트를 자세 추정 네트워크에 입력 정보로 입력하여 사용자의 얼굴 관련 자세 특징을 산출할 수 있다. 상기 사용자의 얼굴 관련 자세 특징은 사용자 얼굴의 회전 행렬 및 사용자 얼굴의 평행이동 벡터를 포함한다.

상기 단계(S317)는, 사용자의 얼굴 관련 불변 키포인트를 미리 설정된 표정 추정 네트워크에 입력 정보로 입력하여 사용자의 얼굴 관련 표정 특징을 산출할 수 있다. 상기 사용자의 얼굴 관련 표정 특징은 얼굴 표정의 변형을 추정한 결과를 나타낸다. 상기 사용자의 얼굴 관련 표정 특징은 중립 표정(neutral expression)을 기준으로 사용자의 얼굴 관련 불변 키포인트들의 변화로 표현될 수 있다.

상기 단계(S319)는, 사용자의 얼굴 관련 자세 특징, 사용자 얼굴의 표정 특징, 사용자의 얼굴 관련 불변 키포인트에 기초하여 사용자의 얼굴 관련 특징점을 산출할 수 있다. 사용자의 얼굴 관련 특징점은 수학식 1에 따라 산출되어, 최종적으로 수학식 2와 같이 표현될 수 있다.

또한, 상기 단계(S300)는, 상기 단계(S230)에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 상기 레퍼런스 객체의 자세 특징을 산출하는 단계(S325); 상기 단계(S230)에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 표정 특징을 산출하는 단계(S327); 및 상기 레퍼런스의 자세 특징, 상기 레퍼런스의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 특징점을 산출하는 단계(S329)를 포함한다.

구체적으로, 관심 영역이 얼굴 영역이면, 상기 단계(S300)는, 상기 단계(S230)에서 추출된 레퍼런스 객체의 얼굴 관련 불변 키포인트에 기초하여 상기 레퍼런스 객체의 얼굴 관련 자세 특징을 산출하는 단계(S325); 상기 단계(S230)에서 추출된 레퍼런스 객체의 얼굴 관련 불변 키포인트에 기초하여 레퍼런스 객체의 얼굴 관련 표정 특징을 산출하는 단계(S327); 및 상기 레퍼런스의 얼굴 관련 자세 특징, 상기 레퍼런스의 얼굴 관련 표정 특징 및 상기 사용자의 얼굴 관련 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 얼굴 관련 특징점을 산출하는 단계(S329)를 포함할 수 있다.

레퍼런스 비디오의 개별 프레임별로 상기 단계(S325 내지 S329)가 수행된다. 일부 실시 예들에서, 상기 레퍼런스 비디오에서 키프레임이 추출된 경우, 상기 단계(S325 내지 S329)는 추출된 키프레임에 대해 수행될 수 있다.

상기 단계(S325)는, 레퍼런스 객체의 얼굴 관련 불변 키포인트를 상기 자세 추정 네트워크에 입력 정보로 입력하여 레퍼런스 객체의 얼굴 관련 자세 특징을 산출할 수 있다. 상기 레퍼런스 객체의 얼굴 관련 자세 특징은 레퍼런스 객체 얼굴의 회전 행렬 및 레퍼런스 객체 얼굴의 평행이동 벡터를 포함한다.

상기 단계(S327)는, 레퍼런스 객체 얼굴의 불변 키포인트를 미리 설정된 표정 추정 네트워크에 입력 정보로 입력하여 레퍼런스 객체의 얼굴 관련 표정 특징을 산출할 수 있다. 상기 레퍼런스 객체의 얼굴 관련 표정 특징은 얼굴 표정의 변형을 추정한 결과를 나타낸 것으로서, 얼굴 표정의 변형으로 지칭될 수 있다. 상기 레퍼런스 객체의 얼굴 관련 표정 특징은 무표정(neutral expression)을 기준으로 상기 레퍼런스 객체의 얼굴 관련 불변 키포인트들의 변화로 표현될 수 있다.

상기 단계(S329)는, 레퍼런스 객체의 얼굴 관련 자세 특징, 레퍼런스 객체의 얼굴 관련 표정 특징, 레퍼런스 객체의 얼굴 관련 불변 키포인트에 기초하여 레퍼런스 객체의 얼굴 관련 특징점을 산출할 수 있다. 레퍼런스 객체 얼굴의 특징점은 수학식 1에 따라 산출되어, 최종적으로 수학식 2와 같이 표현될 수 있다.

상기 단계(S325 내지 S329)의 특징, 특징점은 레퍼런스 비디오의 프레임(또는 키프레임)별로 획득된다.

이러한 상기 단계(S311 내지 S329)에서 외관 특징, 자세 특징, 표정 특징을 산출하는 과정, 특징점을 추출하는 과정은 도 1의 특징 분석부(310)를 참조하여 전술하였는 바, 자세한 설명은 생략한다.

또한, 상기 단계(S300)는, 상기 사용자의 외관 특징, 상기 사용자의 복수의 특징점, 및 상기 레퍼런스 객체의 복수의 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계(S330)를 포함한다. 합성 비디오의 프레임은 레퍼런스 비디오에서 제공된 프레임(또는 키프레임)에 대응한다.

상기 합성 이미지를 생성하는 단계(S330)는, 사용자의 복수의 특징점, 레퍼런스 객체의 복수의 특징점에 기초해 복수의 와핑 플로우를 산출하는 단계(S331);를 포함한다. 구체적으로, 상기 관심 영역이 얼굴 영역이면, 상기 단계(S331)는, 사용자의 복수의 얼굴 관련 특징점 및 레퍼런스 객체의 복수의 얼굴 관련 특징점에 기초하여 복수의 얼굴 관련 와핑 플로우를 산출하는 것일 수 있다. 얼굴 관련 와핑 플로우는 얼굴 영역에서 산출된 와핑 플로우이다.

상기 단계(S331)에서 와핑 플로우는 레퍼런스 비디오 내 개별 프레임에서 3차원 특징 볼륨의 3차원 좌표를 사용자 이미지에서 3차원 특징 볼륨의 3차원 좌표로 매핑하여 산출할 수 있다. 상기 단계(S331)에서 서로 매칭하는 사용자의 특징점과 레퍼런스 객체의 특징점의 쌍이 복수이면, 각각의 쌍에 기초한 복수의 와핑 플로우가 산출된다.

본 출원의 다양한 실시 예들에서, 상기 와핑 플로우는 상기 수학식 3을 통해 산출될 수 있다.

또한, 상기 단계(S330)는, 상기 단계(S331)에서 산출된 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계를 포함한다.

전술한 바와 같이 특징, 특징점이 레퍼런스 비디오의 프레임(또는 키프레임)별로 획득되므로, 프레임 하나당 복수의 와핑 플로우가 산출된다. 결국, 합성 이미지는 레퍼런스 비디오의 프레임(또는 키프레임) 개수만큼 생성된다.

본 출원의 다양한 실시 예들에서, 상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계는, 상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑하는 단계(S332); 복수의 와핑 플로우로 각각 와핑된 외관 특징들을 결합하여(combined) 모션 필드 추정 네트워크에 공급하여 플로우 합성 마스크(m)를 생성하는 단계(S333); 생성된 플로우 합성 마스크(m)를 와핑 플로우(wk)와 선형으로 결합하여 합성 와핑 플로우 필드(w)를 산출하는 단계(S334); 사용자의 외관 특징을 상기 단계(S334)에서 생성한 합성 와핑 플로우 필드로 와핑하는 단계(S335); 및 상기 단계(S335)에서 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징에 기초하여 상기 사용자가 상기 레퍼런스 비디오 내 프레임에서 레퍼런스 객체의 모션을 취한 것이 나타난 합성 이미지를 생성하는 단계(S336)를 포함한다.

관심 영역이 얼굴일 경우, 상기 단계(S332)에서는 얼굴 관련 와핑 플로우(w_k)로 사용자의 얼굴 관련 외관 특징을 와핑하는 것일 수 있다. 그러면, 단계(S332) 이후에 얼굴에 대한 합성 와핑 플로우 필드(m)가 산출된다(S333).

상기 단계(S333)에서 복수의 와핑 플로우는 모션 필드 추정 네트워크의 입력 데이터의 형태에 대응하도록 결합된다. 일부 실시 예들에서, 상기 복수의 와핑 플로우는 맵 형태로 결합될 수 있다.

관심 영역이 얼굴일 경우, 상기 단계(S335)에서 사용자의 얼굴 관련 외관 특징이 상기 단계(S334)에서 생성한, 얼굴에 대한 합성 와핑 플로우 필드(m)로 와핑된다.

본 출원의 다양한 실시 예들에서, 상기 단계(S336)는, 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징을 이미지 생성자에 공급하여 상기 합성 이미지를 생성하는 것일 수 있다. 여기서, 이미지 생성자는 상기 합성 와핑 플로우 필드로 와핑된 상기 사용자의 3차원 외관 특징(w(fs))이 입력되면 이를 처리해 2차원으로 투영한 이미지를 생성하도록 구성된 뉴럴 네트워크이다. 상기 단계(S336)에서 이미지 생성자는 하나 이상의 잔여 블록(residual block) 및 업 샘플링 레이어를 포함할 수 있다.

상기 단계(S336)에서 얼굴에 대한 합성 와핑 플로우 필드(m)으로 와핑된 상기 사용자의 얼굴 관련 외관 특징이 상기 이미지 생성자로 입력된다. 이와 같이 관심 영역이 얼굴 영역이면, 사용자가 레퍼런스 객체의 움직임, 특히 레퍼런스 객체의 얼굴 부분의 움직임을 그대로 취하는 것이 나타난 합성 이미지들을 프레임 이미지로 갖는 합성 비디오가 생성된다. 얼굴 부분의 움직임은 머리의 움직임, 얼굴 피부의 움직임 등을 포함한다.

상기 단계(S330)를 통해 상기 합성 이미지를 프레임으로 갖는 합성 비디오가 상기 사용자에 대한 참여형 컨텐츠로서 생성된다.

상기 합성 비디오는 출력 장치(30)를 통해 사용자에게 제공된다.

도 4는, 본 출원의 다양한 실시 예들에 따른, 합성 비디오의 개략도이다.

도 4에 도시된 위/아래의 합성 비디오는 왼쪽에서 오른쪽 방향의 시퀀스 프레임으로 각각 이루어진다.

도 4를 참조하면, 사용자의 단일 이미지가 시스템(1)에 입력되어 레퍼런스 객체가 서로 다른 움직임을 취하는 것이 촬영된 레퍼런스 비디오가 검색되면(S100), 단계(S200 내지 S300)를 통해 상기 사용자는, 도 4의 상단 및 하단에 도시된 것처럼, 서로 다른 움직임을 취하는 각각의 합성 비디오가 생성된다.

추가적으로, 상기 시스템(1)에서 관심 영역은 객체의 신체 영역을 더 포함할 수 있다. 상기 신체 영역은 객체의 얼굴 아래의 신체 부분을 나타낸 영역이다. 상기 신체 영역은 객체 영역 전체에서 얼굴 영역을 제외한 나머지 영역일 수 있다. 구체적으로, 상기 사용자 이미지에서 사용자를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 사용자의 신체 영역으로 검출하고, 상기 레퍼런스 비디오 내 프레임별로 레퍼런스 객체를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 레퍼런스 객체의 신체 영역을 검출할 수 있다.

하나의 입력 이미지가 얼굴 부분 및 신체 부분을 모두 포함할 경우 상기 영역 검출부(200)는 얼굴 영역을 제1 관심 영역으로 검출하고 신체 영역을 제2 관심 영역으로 검출할 수 있다.

일부 실시 예들에서, 도2의 상기 단계(S210)는, 사용자 이미지에서 사용자의 신체 부분이 나타난 사용자의 신체 영역을 검출하는 단계; 및 레퍼런스 비디오에서 레퍼런스 객체의 신체 부분이 나타난 레퍼런스 객체의 신체 영역을 검출하는 단계를 더 포함할 수 있다. 일부 실시 예에서, 상기 사용자의 신체 영역, 레퍼런스 객체의 신체 영역은 각각의 이미지에서 사용자, 레퍼런스 객체를 분할한 결과에서 얼굴 영역을 제외한 나머지 부분으로 지정될 수 있다.

상기 관심 영역이 신체 영역을 더 포함할 경우, 상기 단계(S230)는, 사용자의 신체 영역에서 사용자 신체의 불변 키포인트를 추출하는 단계; 및 레퍼런스 객체의 신체 영역에서 레퍼런스 객체 신체의 불변 키포인트를 추출하는 단계를 더 포함할 수 있다. 상기 영역 검출부(230)는 사용자, 레퍼런스 객체의 신체 영역에서 각각의 불변 키포인트를 추출할 수 있다.

상기 특징 분석부(310)는, 상기 영역 검출부(200)에서 추출된, 사용자 신체, 레퍼런스 객체의 신체의 불변 키포인트, 포즈 분석부(315)에 의해 산출된, 상기 사용자 신체, 레퍼런스 객체의 신체의 자세 특징에 기초하여 상기 입력 이미지에 있는 사용자 신체, 레퍼런스 객체의 신체의 특징점을 추가로 산출할 수 있다.

구체적으로, 상기 단계(S315)는, 사용자의 신체 관련 불변 키포인트를 상기 자세 추정 네트워크에 입력하여 사용자의 신체 관련 자세 특징을 산출하는 단계를 더 포함할 수 있다. 신체 관련 불변 키포인트는 신체 영역에서 추출된 키포인트이다. 상기 사용자의 신체 관련 자세 특징은 사용자 신체의 회전 행렬 및 사용자 신체의 평행이동 벡터를 포함한다.

상기 단계(S317)는, 사용자의 신체 관련 불변 키포인트를 표정 추정 네트워크에 입력 정보로 입력하여 사용자 얼굴의 신체 관련 표정 특징을 산출할 수 있다. 상기 사용자의 신체 관련 표정 특징은 신체 표정의 변형을 추정한 결과를 나타낸다. 상기 신체 표정은 신체의 근육의 움직임에 따라 변형된다. 상기 신체 표정 또한 얼굴 표정과 유사하게 이미지 내 객체의 감정을 나타낼 수 있다. 예를 들어, 근육이 강하게 수축된 신체 표정은 격한 감정(예컨대, 분노 등)을 나타낼 수 있다. 상기 사용자의 신체 관련 표정 특징은 무표정(neutral expression)을 기준으로 사용자의 신체 관련 불변 키포인트들의 변화로 표현될 수 있다. 신체의 무표정은 근육에 힘이 없이 자연스러운 상태의 신체의 피부 모습일 수 있다.

상기 단계(S317)에서 신체 관련 표정 특징은 신체 영역에서 피부가 노출된 부분에서만 산출될 수 있다. 의상, 액세서리로 커버된 부분에서는 신체 관련 표정 특징이 산출되지 않을 수 있다.

상기 단계(S319)는, 사용자의 신체 관련 자세 특징, 사용자의 신체 관련 표정 특징, 및 사용자의 신체 관련 불변 키포인트에 기초하여 사용자 신체의 얼굴 특징점을 산출하는 단계를 더 포함할 수 있다.

상기 단계(S325)는, 상기 단계(S230)에서 추출된 레퍼런스 객체의 신체 관련 불변 키포인트에 기초하여 상기 레퍼런스 객체의 신체 관련 자세 특징을 산출하는 단계를 더 포함할 수 있다.

또한, 상기 단계(S327)는, 상기 단계(S230)에서 추출된 레퍼런스 객체의 신체 관련 불변 키포인트에 기초하여 레퍼런스 객체의 신체 관련 표정 특징을 산출하는 단계를 더 포함할 수 있다.

또한, 상기 단계(S329)는, 상기 레퍼런스의 신체 관련 자세 특징, 상기 레퍼런스의 신체 관련 표정 특징 및 상기 사용자의 신체 관련 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 신체 관련 특징점을 추출하는 단계를 더 포함할 수 있다.

또한, 상기 단계(S330)는, 상기 사용자의 신체 관련 외관 특징, 상기 사용자의 복수의 신체 관련 특징점, 및 상기 레퍼런스 객체의 복수의 신체 관련 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계(S330)를 더 포함한다. 합성 비디오의 프레임은 레퍼런스 비디오에서 제공된 프레임(또는 키프레임)에 대응한다.

상기 단계(S331)는, 사용자의 복수의 신체 관련 특징점 및 레퍼런스 객체의 복수의 신체 관련 특징점에 기초하여 복수의 신체 관련 와핑 플로우를 산출하는 것일 수 있다. 신체 관련 와핑 플로우는 얼굴 영역에서 산출된 와핑 플로우이다.

관심 영역이 신체 영역일 경우, 상기 단계(S332)에서는 신체 관련 와핑 플로우(w_k)로 사용자의 신체 관련 외관 특징을 와핑하는 것일 수 있다. 그러면, 단계(S332) 이후에 얼굴에 대한 합성 와핑 플로우 필드(m)가 산출된다(S333).

관심 영역이 신체 영역일 경우, 상기 단계(S335)에서 사용자의 신체 관련 외관 특징이 상기 단계(S334)에서 생성한, 얼굴에 대한 합성 와핑 플로우 필드(m)로 와핑된다.

상기 단계(S336)에서 얼굴에 대한 합성 와핑 플로우 필드(m)으로 와핑된 상기 사용자의 신체 관련 외관 특징이 상기 이미지 생성자로 입력된다.

이와 같이 관심 영역이 신체 영역을 더 포함하면, 사용자가 레퍼런스 객체의 움직임, 특히 레퍼런스 객체의 얼굴 부분의 움직임을 그대로 취하는 것은 물론이고 레퍼런스 객체의 신체 부분의 움직임 또한 그대로 취하는 것이 합성 이미지들을 프레임 이미지로 갖는 합성 비디오가 생성된다. 상기 합성 비디오에서 사용자는 얼굴 부분의 움직임은 물론이고, 레퍼런스 객체가 취하는 제스쳐, 몸짓(예컨대, 몸을 좌우로 흔드는 것) 또한 그대로 구현할 수 있다.

하드웨어를 이용하여 본 발명의 실시 예를 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASICs(application specific integrated circuits) 또는 DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays) 등이 본 발명의 프로세서에 구비될 수 있다.

한편, 상술한 방법은, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능한 저장 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 코드를 포함하는 저장 디바이스를 설명하기 위해 사용될 수 있는 프로그램 저장 디바이스들은, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능한 저장 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함한다.

이상에서 설명된 실시 예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시 예를 구성하는 것도 가능하다. 발명의 실시 예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시 예의 일부 구성이나 특징은 다른 실시 예에 포함될 수 있고, 또는 다른 실시 예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시 예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.

본 발명이 본 발명의 기술적 사상 및 본질적인 특징을 벗어나지 않고 다른 형태로 구체화될 수 있음은 본 발명이 속한 분야 통상의 기술자에게 명백할 것이다. 따라서, 상기 실시 예는 제한적인 것이 아니라 예시적인 모든 관점에서 고려되어야 한다. 본 발명의 권리범위는 첨부된 청구항의 합리적 해석 및 본 발명의 균등한 범위 내 가능한 모든 변화에 의하여 결정되어야 한다.

Claims

컴퓨팅 장치에 의해 수행되는, 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 방법에 있어서, 상기 컴퓨팅 장치는 카메라 및 출력 장치와 연결되고, 레퍼런스 비디오를 저장하는 컨텐츠 DB를 포함하고, 상기 방법은:
사용자를 촬영한 사용자 이미지를 수신하고, 레퍼런스 객체의 움직임을 나타낸 레퍼런스 비디오를 컨텐츠 DB에서 검색하는 단계;
사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 각각 검출하는 단계 - 상기 관심 영역은 얼굴 영역임;
상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하는 단계;
상기 사용자의 관심 영역에서 상기 사용자의 외관 특징을 산출하는 단계; 및
상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여, 상기 출력 장치를 통해 상기 사용자에게 제공될 합성 비디오를 생성하는 단계를 포함하고,
상기 합성 비디오는 상기 사용자가 상기 레퍼런스 객체의 움직임을 취하는 것이 나타난 것이고,
상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여 합성 비디오를 생성하는 단계는,
상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 상기 사용자의 자세 특징을 산출하는 단계;
상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 사용자의 표정 특징을 산출하는 단계;
상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 특징점을 추출하는 단계;
상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 상기 레퍼런스 객체의 자세 특징을 산출하는 단계;
상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 표정 특징을 산출하는 단계;
상기 레퍼런스의 자세 특징, 상기 레퍼런스의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 특징점을 산출하는 단계; 및
상기 사용자의 외관 특징, 상기 사용자의 복수의 특징점, 및 상기 레퍼런스 객체의 복수의 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계를 포함하는 것을 특징으로 하는,
방법.
제1항에 있어서, 상기 사용자의 외관 특징을 산출하는 단계는,
상기 사용자의 관심 영역을 입력 이미지로 특징 추출 네트워크에 입력하여 상기 사용자의 외관 특징을 산출하는 것이고,
상기 특징 추출 네트워크는 2차원 특징을 추출하는 복수의 다운샘플링 블록을 포함하고, 관심 영역의 입력 이미지에서 2차원 특징을 추출하고 추출된 2차원 특징을 변환하여 3차원으로 표현된 상기 외관 특징을 산출하는 것을 특징으로 하는,
방법.
삭제
제1항에 있어서, 상기 합성 이미지를 생성하는 단계는,
사용자의 복수의 특징점, 레퍼런스 객체의 복수의 특징점에 기초해 복수의 와핑 플로우를 산출하는 단계; 및
복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계를 포함하는 것을 특징으로 하는,
방법.
제4항에 있어서,
상기 와핑 플로우는 레퍼런스 비디오 내 개별 프레임에서 3차원 특징 볼륨의 3차원 좌표를 사용자 이미지에서 3차원 특징 볼륨의 3차원 좌표로 매핑하여 산출하는 것을 특징으로 하는,
방법.
제4항에 있어서, 상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑한 결과에 기초하여 합성 이미지를 생성하는 단계는,
상기 복수의 와핑 플로우로 사용자의 외관 특징을 각각 와핑하는 단계;
복수의 와핑 플로우로 각각 와핑된 외관 특징들을 결합하여(combined) 모션 필드 추정 네트워크에 공급하여 플로우 합성 마스크를 생성하는 단계;
생성된 플로우 합성 마스크를 와핑 플로우와 선형으로 결합하여 합성 와핑 플로우 필드를 산출하는 단계;
사용자의 외관 특징을 상기 합성 와핑 플로우 필드로 와핑하는 단계; 및
상기 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징에 기초하여 상기 사용자가 상기 레퍼런스 비디오 내 프레임에서 레퍼런스 객체의 모션을 취한 것이 나타난 합성 이미지를 생성하는 단계;를 포함하는 것을 특징으로 하는,
방법.
제6항에 있어서, 상기 합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징에 기초하여 상기 합성 이미지를 생성하는 단계는,
합성 와핑 플로우 필드로 와핑된 사용자의 외관 특징을 이미지 생성자에 공급하여 상기 합성 이미지를 생성하는 것이고,
상기 이미지 생성자는 상기 합성 와핑 플로우 필드로 와핑된 상기 사용자의 외관 특징이 입력되면 이를 처리해 2차원으로 투영한 이미지를 생성하도록 구성된 뉴럴 네트워크인 것을 특징으로 하는,
방법.
제1항에 있어서,
상기 관심 영역은 상기 사용자의 신체 영역을 더 포함하고,
상기 사용자 이미지 및 레퍼런스 비디오에서 관심 영역을 각각 검출하는 단계는,
상기 사용자 이미지에서 사용자를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 사용자의 신체 영역으로 검출하고,
상기 레퍼런스 비디오 내 프레임별로 레퍼런스 객체를 분할한 결과에서 상기 얼굴 영역을 제외한 나머지 영역을 상기 레퍼런스 객체의 신체 영역을 검출하는 것을 특징으로 하는,
방법.
제8항에 있어서, 상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여 합성 비디오를 생성하는 단계는,
상기 사용자 이미지의 신체 영역에서 추출된 사용자의 신체 관련 불변 키포인트에 기초하여 상기 사용자의 신체 관련 자세 특징을 산출하는 단계;
상기 사용자 이미지의 신체 영역에서 추출된 사용자의 신체 관련 불변 키포인트에 기초하여 사용자의 신체 관련 표정 특징을 산출하는 단계;
상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 신체 관련 특징점을 추출하는 단계;
상기 레퍼런스 비디오의 프레임 내 신체 영역에서 추출된 레퍼런스 객체의 신체 관련 불변 키포인트에 기초하여 상기 레퍼런스 객체의 신체 관련 자세 특징을 산출하는 단계;
상기 레퍼런스 비디오의 프레임 내 신체 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 신체 관련 표정 특징을 산출하는 단계;
상기 레퍼런스의 신체 관련 자세 특징, 상기 레퍼런스의 신체 관련 표정 특징 및 상기 사용자의 신체 관련 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 신체 관련 특징점을 산출하는 단계; 및
상기 사용자의 신체 관련 외관 특징, 상기 사용자의 복수의 신체 관련 특징점, 및 상기 레퍼런스 객체의 복수의 신체 관련 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하는 단계를 포함하는 것을 특징으로 하는,
방법.
청구항 제1항, 제2항, 제4항 내지 제9항 중 어느 하나의 청구항에 따른 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 방법을 수행하게 하는, 프로그램을 기록한 컴퓨터 판독가능한 기록매체.
카메라 및 출력 장치와 연결되는 인공지능 기반 얼굴 생성 기술을 이용한 참여형 컨텐츠를 생성하는 장치에 있어서,
레퍼런스 객체가 움직이는 것을 나타낸 레퍼런스 비디오를 저장하는 컨텐츠 DB;
상기 카메라로부터 수신한, 사용자를 촬영한 사용자 이미지, 및 상기 컨텐츠 DB에서 검색한 상기 레퍼런스 비디오에서 관심 영역을 각각 검출하고, 상기 사용자 이미지 내 관심 영역에서 사용자의 불변 키포인트를 추출하고, 상기 레퍼런스 비디오 내 관심 영역에서 레퍼런스 객체의 불변 키포인트를 추출하도록 구성된 영역 검출부;
사용자 이미지, 레퍼런스 비디오에서 검출된 관심 영역에서 사용자, 레퍼런스 객체의 특징을 추출하는 특징 분석부 - 상기 특징은 상기 객체의 외관 특징을 포함함; 및
상기 사용자의 외관 특징, 상기 사용자의 불변 키포인트 및 상기 레퍼런스 객체의 불변 키포인트에 기초하여, 상기 출력 장치를 통해 상기 사용자에게 제공될 합성 비디오를 생성하는 이미지 생성부를 포함하고,
상기 합성 비디오는 상기 사용자가 상기 레퍼런스 객체의 움직임을 취하는 것이 나타난 것이며,
상기 특징 분석부는
상기 사용자의 관심 영역에서 상기 사용자의 외관 특징을 산출하도록 구성된 외관 분석부;
상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 상기 사용자의 자세 특징을 산출하고, 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 상기 레퍼런스 객체의 자세 특징을 산출하도록 구성된 포즈 분석부;
상기 사용자 이미지의 관심 영역에서 추출된 사용자의 불변 키포인트에 기초하여 사용자의 표정 특징을 산출하고, 상기 레퍼런스 비디오의 프레임 내 관심 영역에서 추출된 레퍼런스 객체의 불변 키포인트에 기초하여 레퍼런스 객체의 표정 특징을 산출하도록 구성된 표정 분석부;를 포함하고,
상기 특징 분석부는,
상기 레퍼런스의 자세 특징, 상기 레퍼런스의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 레퍼런스 객체의 복수의 특징점을 산출하고, 상기 사용자의 자세 특징, 상기 사용자의 표정 특징 및 상기 사용자의 불변 키포인트에 기초하여 상기 관심 영역에서 사용자의 복수의 특징점을 추출하도록 구성되고,
상기 이미지 생성부는,
상기 사용자의 외관 특징, 상기 사용자의 복수의 특징점, 및 상기 레퍼런스 객체의 복수의 특징점에 기초하여 합성 이미지를 생성하여, 상기 합성 이미지를 프레임으로 갖는 합성 비디오를 생성하도록 구성된 것을 특징으로 하는,
장치.
삭제