KR20230086986A

KR20230086986A - 소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법

Info

Publication number: KR20230086986A
Application number: KR1020210175523A
Authority: KR
Inventors: 이진호; 김형섭
Original assignee: 펄스나인 주식회사
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-06-16

Abstract

본 발명의 실시 예에 따른 서비스 제공 방법은, 얼굴 이미지를 포함하는 소스 영상 데이터 및 상기 얼굴 이미지와 대응되는 타깃 영상 데이터로부터 획득되는 얼굴 이미지 데이터에 기반하여, 상기 타깃 영상 데이터로부터 획득되는 제1 얼굴 이미지 데이터와, 상기 소스 영상 데이터로부터 획득되는 제2 얼굴 이미지 데이터를 포함하는 얼굴 이미지 데이터셋을 생성하는 데이터셋 전처리 단계; 상기 데이터셋 전처리 단계에서 결합된 데이터 셋의 얼굴 이미지 구성을 사용자 단말로 제공되는 사용자 인터페이스 입력에 따라, 상기 얼굴 이미지 데이터 셋에 포함되는 얼굴 이미지 데이터의 구성을 선택적으로 조절하고, 상기 얼굴 이미지 분류 간 데이터 비중의 조절을 위해, 제1 얼굴 이미지의 변형 얼굴 이미지들을 추가 생성하되, 상기 얼굴 이미지 데이터셋에 포함되는 상기 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별을 통한 측정 값에 따라 사전 설정된 측정 값 이상으로 판별되는 상기 얼굴 이미지 데이터를 삭제처리하는 선택 데이터 셋 구성 단계; 및 상기 조절된 얼굴 이미지 데이터 셋과 상기 타깃 영상 데이터를 입력 데이터로 이용하여 페이스 스왑 영상 생성 알고리즘을 적용한 얼굴 변환 영상 데이터를 생성하는 학습 모델링 단계;를 포함한다.

Description

소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법{METHOD FOR DATA SETTING CONFIGURATION THAT SELECTIVELY ADJUSTS THE COMPOSITION OF FACE IMAGE DATA FROM A SOURCE IMAGE AND A TARGET IMAGE}

본 발명은 인공지능 학습 기반으로 변환하고자 하는 얼굴 이미지 데이터를 소스 영상으로부터 추출하여 타깃 영상의 등장인물 얼굴인 타깃 콘텐츠에 적용하고 변환하는 서비스에 관한 것으로, 보다 상세하게는 소스 영상으로부터 추출한 소스 얼굴 이미지 데이터와 타깃 영상으로부터 추출한 타깃 얼굴 이미지 데이터의 사용자 선택에 따른 전처리를 통한 데이터 세트를 입력 데이터로 이용하여 페이스 스왑 영상을 획득하는 소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법에 관한 것이다.

일반적으로, 딥러닝(Deep Learning)을 이용하여 원본 이미지나 동양상 위에 다른 영상을 중첩하거나 결합하여 원본과는 다른 콘텐츠를 생성하는 기술인 딥페이크(Deepfake)는 영상 산업에 적극 활용되고 있다. 딥페이크라는 용어는 유명 배우의 얼굴로 조작된 가짜 동영상을 통한 이슈화를 야기한 온라인 커뮤니티 회원 정보와 관련되어 유래되었다. 이후, 온라인 커뮤니티와 SNS를 중심으로 급속히 확산된 딥페이크 콘텐츠는 딥러닝 기술의 발전에 맞추어 더욱 빠르고 정교하게 생성되고 있다.

이같은 딥페이크 콘텐츠는 오픈 소스 형태의 페이스 스왑 영상 생성 알고리즘이 배포되면서, 보다 정교하게 변환하고자 하는 얼굴 이미지 데이터를 이용하여 다른 인물이 등장하는 영상의 얼굴에 합성하여 타깃 콘텐츠를 변환하여 영상 데이터를 생성할 수 있다.

하지만 상기 페이스 스왑 영상 생성 알고리즘의 입력 데이터로 사용되는 소스 얼굴 이미지 데이터와 타깃 얼굴 이미지 데이터의 얼굴 형태, 표정, 촬영 각도 등의 현저한 상이함으로 인해 학습을 통한 최종 출력 영상 데이터에서 합성된 얼굴의 부자연스러움과 디테일의 모순, 액세서리 미반영이 발생될 수 있는 한계가 있다.

또한, 일반적인 개인 사용자들은 딥러닝 과정에 관여하기 어렵기 때문에, 실제 최종 출력 영상 데이터에 자신이 원하는 얼굴 이미지들이 합성되도록 인공지능 프로세스를 제어할 수 없는 문제점도 존재한다.

본 발명은 상기한 종래의 문제점을 해결하고자 안출된 것으로, 페이스 스왑 영상 생성 알고리즘을 이용함에 있어서, 변환하고자 하는 소스 영상의 얼굴 이미지 데이터와 얼굴 변경이 될 타깃 콘텐츠(대상인물)가 포함되는 타깃 영상 얼굴 이미지 데이터를 결합하여 데이터셋을 생성하고, 이를 입력 데이터로 이용함으로써 정교한 얼굴 변환을 통해 결과물의 자연스러움을 보장하고 얼굴 변환 처리의 효율성을 극대화하는 소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은 상기 입력 데이터를 구성함에 있어서, 개인화에 따른 사용자 선택 이미지들을 사용자가 원하는 비중에 따라 설정하여, 사용자가 원하는 얼굴 이미지가 유사하게 합성되도록 제어 가능한 소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법을 제공하는데 그 목적이 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 얼굴 이미지를 포함하는 소스 영상 데이터 및 상기 얼굴 이미지와 대응되는 타깃 영상 데이터로부터 획득되는 얼굴 이미지 데이터에 기반하여, 상기 타깃 영상 데이터로부터 획득되는 제1 얼굴 이미지 데이터와, 상기 소스 영상 데이터로부터 획득되는 제2 얼굴 이미지 데이터를 포함하는 얼굴 이미지 데이터셋을 생성하는 데이터셋 전처리 단계; 상기 데이터셋 전처리 단계에서 결합된 데이터 셋의 얼굴 이미지 구성을 사용자 단말로 제공되는 사용자 인터페이스 입력에 따라, 상기 얼굴 이미지 데이터 셋에 포함되는 얼굴 이미지 데이터의 구성을 선택적으로 조절하고, 상기 얼굴 이미지 분류 간 데이터 비중의 조절을 위해, 제1 얼굴 이미지의 변형 얼굴 이미지들을 추가 생성하되, 상기 얼굴 이미지 데이터셋에 포함되는 상기 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별을 통한 측정 값에 따라 사전 설정된 측정 값 이상으로 판별되는 상기 얼굴 이미지 데이터를 삭제처리하는 선택 데이터 셋 구성 단계; 및 상기 조절된 얼굴 이미지 데이터 셋과 상기 타깃 영상 데이터를 입력 데이터로 이용하여 페이스 스왑 영상 생성 알고리즘을 적용한 얼굴 변환 영상 데이터를 생성하는 학습 모델링 단계;를 포함한다.

한편, 상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은 상기 방법을 실행시키기 위한 프로그램 또는 상기 프로그램이 기록되어 컴퓨터가 읽을 수 있는 기록 매체로 구현될 수 있다.

본 발명의 실시 예에 따르면, 페이스 스왑 영상 생성 알고리즘을 이용함에 있어서, 변환하고자 하는 소스 영상의 얼굴 이미지 데이터와 얼굴 변경이 될 타깃 콘텐츠(대상인물)가 포함되는 타깃 영상 얼굴 이미지 데이터를 결합하여 데이터셋을 생성함으로써, 변환 처리되는 얼굴을 포함하는 영상의 자연스러움과 사실감을 극대화하고 변환 영상 처리를 위한 시스템 리소스를 효율적으로 사용할 수 있다. 또한 보다 자연스럽고 정교한 얼굴 변환을 가능하게 함으로써 특수효과 등의 부가가치를 창출하여 영상 제작 산업 전반에 발전 가능성을 높일 수 있다.

또한, 본 발명의 실시 예에 따르면, 상기 입력 데이터의 데이터셋을 구성함에 있어서, 개인화에 따른 사용자 선택 이미지들을 사용자가 원하는 비중에 따라 설정하여, 사용자가 원하는 얼굴 이미지가 유사하게 합성되도록 제어 가능한 인공지능 학습 기반의 타깃 콘텐츠 변환 서비스 제공 장치 및 그 동작 방법을 제공하여, 사용자 편의성 및 어플리케이션의 활용성을 높일 수 있다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 타깃 콘텐츠 변환 서비스 제공 장치를 설명하기 위한 블록도이다.
도 3은 본 발명의 실시 예에 따른 타깃 콘텐츠 변환 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 다른 실시 예에 따른 타깃 콘텐츠 변환 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 5 내지 도 6은 본 발명의 실시 예에 따른 사용자 인터페이스의 예시도이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치와 방법을 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시 예들 뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니 되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 실시함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시 예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 시스템은 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)을 포함할 수 있다.

보다 구체적으로, 서비스 제공 장치(100)와 사용자 단말(200), 영상 데이터 공급 단말(300)은 공중망(Public network)과의 연결을 통해 유선 및 무선 중 하나 이상으로 연결되어 데이터를 송수신할 수 있다. 상기 공중망은 국가 혹은 통신 기간 사업자가 구축 및 관리하는 통신망으로, 일반적으로 전화망, 데이터망, CATV망 및 이동 통신망 등을 포함하여 불특정 다수의 일반인이 타 통신망이나 인터넷에 접속 가능하도록 연결 서비스를 제공한다. 본 발명에서는 상기 공중망을 네트워크로 대체하여 표기한다.

또한, 서비스 제공 장치(100)는 사용자 단말(200), 영상 데이터 공급 단말(300)과 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.

서비스 제공 장치(100)는 영상 데이터 또는 이미지 데이터에 포함되는 특정 사람의 얼굴을 타 영상 데이터에 포함되는 다른 사람의 얼굴에 매칭하여 변환할 수 있다. 상기 서비스 제공 장치(100)는 변환하고자 하는 사람의 얼굴을 포함하는 영상 데이터인 소스 영상 데이터를 이용하여 프레임별 얼굴 영역의 이미지 데이터를 확보할 수 있다. 상기 서비스 제공 장치(100)는 얼굴을 바꾸고자 하는 영상 데이터인 타깃 영상 데이터(목적 영상 데이터)를 이용하여 프레임별 얼굴 영역의 이미지 데이터를 확보할 수 있다. 서비스 제공 장치(100)는 소스 영상의 얼굴 이미지를 타깃 영상(목적 영상)의 다른 사람 얼굴 이미지에 적용하여 바꾸기 위한 딥페이크(Deepfake) 시스템을 제공할 수 있다.

여기서, 상기 소스 영상 데이터를 구성함에 있어서, 서비스 제공 장치(100)는, 사용자 단말(200)로 사용자 인터페이스를 제공할 수 있으며, 사용자 선택 입력에 따른 소스 영상 데이터가 선택적으로 구성될 수 있다. 예를 들어, 선택적으로 구성된 소스 영상 데이터에는 하나 이상의 얼굴 이미지 데이터가 포함될 수 있으며, 상기 하나 이상의 얼굴 이미지 데이터 간 비중이 각각 설정되어, 사용자가 원하는 조합의 얼굴이 생성되는 데 이용될 수 있다.

이에 따라, 사용자 단말(200)은 소스 영상 데이터로서 선택된 얼굴 이미지들의 데이터셋을 입력 데이터로 설정하며, 상기 설정된 입력 데이터 정보는 서비스 제공 장치(100)로 전달되어, 특정 사람의 얼굴로 변환된 타깃 영상(목적 영상) 데이터를 생성하는 데 이용될 수 있다. 그리고, 사용자 단말(200)은 상기 서비스 제공 장치(100)로부터 얼굴이 변환된 타깃 영상 데이터를 수신하여, 이를 출력할 수 있다.

영상 데이터 공급 단말(300)은 변환하고자 하는 얼굴을 포함하는 소스 영상 데이터를 상기 서비스 제공 장치(100)에 제공할 수 있다. 또한 사용자 단말(200)은 변환 대상이 되는 얼굴을 포함하는 타깃 영상 데이터(목적 영상 데이터)를 상기 서비스 제공 장치(100)에 제공할 수 있다.

서비스 제공 장치(100)는 특정 얼굴로 변환 된 영상 데이터를 생성하고 이를 제공하기 위하여 사용자 단말(200), 영상 데이터 공급 단말(300)과 유선/무선 네트워크를 통해 연결될 수 있다. 상기 네트워크에 연결된 장치 또는 단말은 사전 설정된 네트워크 채널을 통해 상호간 통신을 수행할 수 있다.

여기서 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(Mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.

그리고 본 명세서에서 설명되는 사용자 단말(200) 또는 영상 데이터 공급 단말(300)은 PC(personal computer), 노트북 컴퓨터(laptop computer), 휴대폰(Mobile phone), 태블릿 PC(Tablet PC), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등이 포함될 수 있다.

또한 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)은 상기 장치 구분에 한정되지 않고 데이터 처리 및 저장, 관리 기능을 고도화하여 확장할 수 있는 서버 시스템 관련 장치를 포함할 수 있다.

도 2는 본 발명의 실시 예에 따른 타깃 콘텐츠 변환 서비스 제공 장치를 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는 제어부(110), 제1 영상 데이터 관리부(120), 제2 영상 데이터 관리부(130), 프레임 추출부(140), 얼굴 이미지 식별부(150), 데이터셋 전처리부(160), 학습 모델링부(170), 통신부(180)를 포함할 수 있다. 상기 데이터셋 전처리부(160)는 제1 얼굴 유사도 선별부(161), 데이터셋 유사도 선별부(162)를 포함할 수 있다. 또한, 상기 데이터셋 전처리부(160)는, 선택 데이터 셋 구성부(190)와 연결될 수 있다.

제어부(110)는 각 모듈의 전반적인 동작을 제어하여, 본 발명의 실시 예에 따른 서비스 제공 방법에 따른 동작 처리를 제공하며, 이를 위한 하나 이상의 마이크로 프로세서를 포함할 수 있다.

제1 영상 데이터 관리부(120)는 변환하고자 하는 변환 얼굴 이미지를 포함하는 소스 영상 데이터를 관리할 수 있다. 상기 소스 영상 데이터는 컴퓨터가 인식할 수 있는 포맷을 갖는 디지털 영상 데이터를 포함할 수 있다. 상기 디지털 영상 데이터는 정지된 이미지들인 복수개의 프레임들의 연속적인 재생으로 움직이는 동영상으로 출력될 수 있다. 또한 상기 디지털 영상은 영상정보와 함께 음성정보를 포함하여 출력될 수 있다. 상기 디지털 영상 데이터는 *.avi, *.mp4, *.wmv, *.flv, *.mxf, *.mov 등의 파일 확장자를 가지는 파일 포맷을 포함할 수 있다. 이 때, 상기 소스 영상 데이터는 등장인물의 얼굴을 포함하는 이미지 데이터를 포함할 수 있다.

상기 제1 영상 데이터 관리부(120)는 영상 데이터 공급 단말(300)로부터 상기 변환할 대상이 되는 얼굴 이미지를 포함하는 영상 데이터를 선택하여 수신하고, 수신한 영상 데이터를 소스 영상 데이터로 관리할 수 있다. 또는 상기 제1 영상 데이터 관리부(120)는 영상 데이터 제공 플랫폼(미도시), 예를 들어, 동영상 공유 서비스 플랫폼인 유튜브, 방송사 또는 콘텐츠 제작사에서 제공하는 온라인 스트리밍 서비스, VOD(video on demand) 서비스, 소셜 미디어 서비스(SNS)에서 획득할 수 있는 동영상 콘텐츠 등을 통해 사용하고자 하는 소스 영상 데이터를 선택적으로 획득할 수 있다. 그리고 상기 제1 영상 데이터 관리부(120)는 직접 동영상 콘텐츠를 제작하거나 생성하여 소스 영상 데이터로 관리할 수 있다.

제2 영상 데이터 관리부(130)는 상기 변환 얼굴 이미지와 대응되는 타깃 콘텐츠를 포함하는 타깃 영상 데이터를 관리할 수 있다. 상기 타깃 영상 데이터는 컴퓨터가 인식할 수 있는 포맷을 갖는 디지털 영상 데이터를 포함할 수 있다.

상기 타깃 콘텐츠는 변환하고자 하는 변환 얼굴 이미지로 대체될 수 있는 대상 얼굴을 포함하는 인물을 포함할 수 있다. 상기 타깃 콘텐츠는 등장인물의 얼굴 이미지가 변환 얼굴 이미지로 대체되고, 그 외의 배경 영상 정보와 오디오 정보는 유지되거나 변경될 수 있다.

상기 제2 영상 데이터 관리부(130)는 영상 데이터 공급 단말(300)로부터 상기 변환될 대상이 되는 얼굴 이미지를 포함하는 영상 데이터를 선택하여 수신하고, 수신한 영상 데이터를 타깃 영상 데이터로 관리할 수 있다.

상기 제2 영상 데이터 관리부(130)는 상기 제1 영상 데이터 관리부(120)의 소스 영상 데이터에서 획득된 얼굴 이미지를 입히고자 하는 대상 인물이 등장하는 타깃 영상 데이터를 획득할 수 있다.

상기 제2 영상 데이터 관리부(130)는 동영상 공유 서비스 플랫폼인 유튜브, 방송사 또는 콘텐츠 제작사에서 제공하는 온라인 스트리밍 서비스, VOD(video on demand) 서비스, 소셜 미디어 서비스(SNS)에서 획득할 수 있는 동영상 콘텐츠 등을 통해 이용하고자 하는 타깃 영상 데이터를 선택적으로 획득할 수 있다. 그리고 상기 제2 영상 데이터 관리부(130)는 동영상 콘텐츠를 제작하거나 생성하여 타깃 영상 데이터로 관리할 수 있다.

프레임 추출부(140)는 상기 소스 영상 데이터 또는 상기 타깃 영상 데이터로부터 복수개의 프레임을 추출하여 저장할 수 있다. 상기 프레임은 완성된 동영상을 구성하는 정지된 각각의 이미지로, 움직이는 영상을 출력하기 위해 fps(frame per second)의 단위로 구성될 수 있다. 예를 들어, 1초당 24프레임, 30프레임, 60프레임을 출력하는 동영상 데이터는 24fps, 30fps, 60fps로 표시될 수 있다.

상기 프레임 추출부(140)는 상기 소스 영상 데이터 또는 상기 타깃 영상 데이터에 포함된 복수개의 프레임을 추출하기 위해서는 공지된 프레임 추출 기술 또는 관련 분야로 개발되는 기술을 활용할 수 있다.

얼굴 이미지 식별부(150)는 각각의 상기 프레임에서 식별되는 얼굴 이미지 영역을 크롭핑하여 얼굴 이미지 데이터를 획득할 수 있다.

상기 얼굴 이미지 식별부(150)는 이미지 인식 기술, 이미지 분석 기술, 이미지 유사도 판단 기술, 이미지 매칭 기술 등으로 공지된 기술 또는 관련 분야로 개발되는 기술을 활용할 수 있다. 상기 얼굴 이미지 식별부(150)는 안면 및 이미지 인식 기술을 이용하는 응용 프로그램 또는 알고리즘을 활용하여 얼굴을 인식할 수 있다. 예를 들어, 얼굴 이미지를 식별하고 분석하는 기술은 Microsoft Computer Vision, Kairos Face Recognition, Animetrics Face Recognition, Lambda Labs Face Recognition, Luxand.cloud Face Recognition, EyeRecognize Face Detection, Face++ Face Detection, Macgyver Face Recognition, BetaFace Face Recognition, Amazon (AWS) Rekognition, Trueface.ai Facial Recognition, IBM Watson's Visual Recognition, ColorTag, Everypixel Image Recognition, Eyeris EmoVu, Inferdo Face Detection 등을 활용할 수 있다.

데이터셋 전처리부(160)는 상기 얼굴 이미지 데이터에 기반하여, 상기 타깃 영상 데이터로부터 획득되는 제1 얼굴 이미지 데이터를 상기 소스 영상 데이터로부터 획득되는 제2 얼굴 이미지 데이터에 결합하여 얼굴 이미지 데이터셋을 생성할 수 있다. 상기 데이터셋 전처리부(160)는 타깃 영상 데이터에서 제1 얼굴 이미지 데이터가 아닌 제2 얼굴 이미지 데이터가 반영되어 자연스럽게 출력될 수 있도록 하는 페이스 스왑 영상 생성 알고리즘의 입력값으로 데이터셋을 제공할 수 있다.

상기 데이터셋 전처리부(160)는 상기 제2 얼굴 이미지 데이터를 특정 저장 경로에 저장하고, 상기 저장경로에 상기 제1 얼굴 이미지 데이터를 이동 및 저장하여 결합할 수 있다.

이를 통해, 상기 데이터셋 전처리부(160)는 상기 타깃 영상에서 추출된 제2 얼굴 이미지 데이터와 소스 영상에서 추출된 제1 얼굴 이미지 데이터를 동일한 경로의 저장소에 저장하여 페이스 스왑 영상 생성 알고리즘의 입력값인 데이터셋으로 활용할 수 있다.

이 때, 상기 데이터셋 전처리부(160)는 페이스 스왑 처리를 위한 시스템의 하드웨어 사양, 유효 작업 시간, 이미지 변환 정밀도 등의 효율성을 고려하여 저장소에 저장하는 상기 제1 얼굴 이미지 데이터의 비중을 결정할 수 있다. 상기 제1 얼굴 이미지 데이터의 비중은 저장되는 이미지 데이터 파일 수로 산정될 수 있다.

또한 상기 데이터셋 전처리부(160)는 페이스 스왑 처리를 위한 시스템의 하드웨어 사양, 유효 작업 시간, 이미지 변환 정밀도 등의 효율성을 고려하여, 상기 제2 얼굴 이미지 데이터가 저장된 저장소에 상기 제1 얼굴 이미지 데이터를 이동하여 저장한 후, 제1 얼굴 이미지 데이터를 선별하여 데이터의 비중을 결정할 수 있다.

첫번째 경우로는, 상기 데이터셋 전처리부(160)는 획득되는 상기 제1 얼굴 이미지 데이터의 수량을 그 비중에 따라 상기 제2 얼굴 이미지 데이터 저장소에 이동하기 전 조절할 수 있다.

이를 위해서, 데이터셋 전처리부(160)는 제1 얼굴 유사도 선별부(161)를 포함할 수 있다.

상기 제1 얼굴 유사도 선별부(161)는 상기 제1 얼굴 이미지 데이터에 대하여, 상기 제1 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별 측정값에 따라 사전 설정된 측정값 이상으로 판별되는 상기 제1 얼굴 이미지 데이터를 삭제 처리할 수 있다.

이를 통해, 상기 데이터셋 전처리부(160)는 상기 대표 이미지와 함께 제2 얼굴 이미지와 함께 저장되는 제1 얼굴 이미지 데이터의 양을 조절하여 얼굴 이미지 데이터셋을 획득할 수 있다.

상기 이미지 유사도 판별을 위해서는 SSIM(Structural Similarity Index Measure), MSE(Mean Squared Error), Mahalanobis distance의 유사도 측정 방식 등을 활용하여 유사도를 측정하여 비교할 수 있다. 상기 대표 이미지는 사용자의 지정 또는 임의 지정 방식 등을 활용하여 적용될 수 있다.

두번째 경우로는, 상기 데이터셋 전처리부(160)는 획득되는 상기 제1 얼굴 이미지 데이터의 수량을 상기 제2 얼굴 이미지 데이터 저장소에 이동한 후 조절할 수 있다.

이를 위해서, 데이터셋 전처리부(160)는 데이터셋 유사도 선별부(162)를 포함할 수 있다.

상기 데이터셋 유사도 선별부(162)는 상기 얼굴 이미지 데이터셋에 포함되는 상기 얼굴 이미지 데이터에 대하여, 상기 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별을 통한 측정값에 따라 사전 설정된 측정값 이상으로 판별되는 상기 얼굴 이미지 데이터를 삭제 처리할 수 있다. 이 때, 상기 얼굴 이미지 데이터는 제1 얼굴 이미지 데이터를 대상으로 할 수 있다. 상기 이미지 유사도 판별을 위해서는 SSIM(Structural Similarity Index Measure), MSE(Mean Squared Error), Mahalanobis distance의 유사도 측정 방식 등을 활용하여 유사도를 측정하여 비교할 수 있다. 상기 대표 이미지는 사용자의 지정 또는 임의 지정 방식 등을 활용하여 적용될 수 있다.

한편, 선택 데이터 셋 구성부(190)는, 상기 데이터셋 전처리부(160)에서 결합된 데이터 셋의 얼굴 이미지 구성을, 사용자 단말(200)로 제공된 사용자 인터페이스의 선택 및 설정 입력에 따라 조절 처리한다.

보다 구체적으로, 선택 데이터 셋 구성부(190)는, 상기 제1 얼굴 이미지 데이터와, 제2 얼굴 이미지 데이터가 페이스 스왑 알고리즘 처리를 위한 데이터셋의 특정 저장 경로에 저장됨에 있어서, 상기 저장 경로에 대응하는 상기 제1 얼굴 이미지 데이터 및 상기 제2 얼굴 이미지 데이터 간 비중을 설정할 수 있다.

또한, 상기 선택 데이터 셋 구성부(190)는, 사용자 단말(200)의 입력에 따라 또 다른 사용자 추가 얼굴 이미지 데이터를 상기 저장 경로에 추가하는 기능을 제공할 수 있다.

이를 위해, 선택 데이터 셋 구성부(190)는, 사용자 단말(200)로 사용자 인터페이스를 제공하고, 사용자 입력에 따른 얼굴 이미지 선택 정보 및 얼굴 이미지 간 비중 설정 정보를 획득할 수 있으며, 획득된 얼굴 이미지 선택 정보 및 얼굴 이미지 간 비중 설정 정보를 이용하여, 페이스 스왑 알고리즘 처리를 위한 소스 얼굴 이미지 데이터 셋의 얼굴 이미지 데이터 구성을 조절할 수 있다.

또한, 선택 데이터 셋 구성부(190)는, 상기 사용자 추가 얼굴 이미지 데이터의 추가를 위하여, 사용자 단말(200) 입력에 따른 네트워크를 통한 키워드 색인 또는 사용자 단말(200)로부터 업로드된 얼굴 이미지와의 유사 이미지 색인 등을 처리할 수 있다. 그리고, 선택 데이터 셋 구성부(190)는, 색인된 이미지 중에서 사용자 단말(200)의 사용자 선택 입력에 따라 상기 사용자 추가 얼굴 이미지 데이터를 추가할 수 있다.

예를 들어, 사용자는 소스 이미지의 데이터 셋을 구성함에 있어서, 다른 유명인이나 자신의 다른 이미지들을 추가하여 보다 자연스러운 합성 이미지를 구성하거나, 특정 유명인과 닮은 형태로 변환시키고자 할 수 있으며, 이를 위해, 사용자는 특정 키워드를 색인하거나, 자신이 원하는 얼굴 이미지를 업로드할 수 있는 것이다.

이에 따라, 선택 데이터 셋 구성부(190)는, 데이터셋 전처리부(160)에서의 얼굴 이미지 데이터 셋이 구성됨에 있어서, 전술한 제1 얼굴 이미지 데이터 및 제2 얼굴 이미지 데이터 뿐만 아니라, 또 다른 사용자 추가 얼굴 이미지 데이터들을 추가할 수 있으며, 각각의 이미지들 간 비중이 조절될 수 있다.

여기서, 선택 데이터 셋 구성부(190)는 비중 조절을 위해, 전술한 바와 같이 상기 저장 경로에 저장된 각 얼굴 이미지 데이터간 양을 조절할 수 있다. 예를 들어, 상기 저장 경로에 제1 얼굴 이미지 데이터가 가장 많이 저장되어 있는 경우, 변환된 타깃 영상에는 상기 제1 얼굴 이미지가 가장 많이 반영될 수 있는 것으로 예상될 수 있다. 다만, 이는 인공지능 알고리즘에 의한 것이며, 얼굴의 유사도는 주관적인 측면도 존재하므로, 구체적인 반영 비율은 실제 설정된 데이터 간 비중과는 상이할 수 있다.

그리고, 학습 모델링부(170)는 상기 얼굴 이미지 데이터셋과 변환 얼굴 이미지 데이터셋을 입력 데이터로 이용하여 페이스 스왑 영상 생성 알고리즘을 적용한 얼굴 변환 영상 데이터를 생성할 수 있다.

상기 변환 얼굴 이미지 데이터셋은 대상 얼굴에 대한 촬영 각도, 표정, 화질, 밝기 등을 포함하는 특징에서 서로 상이한 제3 얼굴 이미지 데이터를 하나 이상 포함할 수 있다. 상기 제3 얼굴 이미지 데이터는 StyleGAN2를 이용하여 생성될 수 있다.

상기 페이스 스왑 영상 생성 알고리즘은 DeepFaceLab 알고리즘을 적용하여 얼굴이 변환된 출력 영상 데이터를 생성할 수 있다. 상기 DeepFaceLab 알고리즘은 오픈 소스 딥페이크 영상 생성 기법으로, 소스 영상의 눈, 코, 입 등 얼굴의 특징을 타깃 영상(배경 영상)의 대상 인물 얼굴에 대체하는 페이스 스와핑(Face swapping)을 처리할 수 있다.

참고적으로, 상기 DeepFaceLab 알고리즘은 추출(Extraction), 학습(Training), 전환(Conversion)의 세 가지 단계로 구분하여 요약될 수 있다.

상기 추출 단계는, 입력 데이터를 통해 정확한 얼굴의 형태와 랜드마크를 확인하고 정렬된 얼굴 정보를 획득한다. 이 때, 상기 입력 데이터는 상기 학습 모델링부(170)의 얼굴 이미지 데이터셋과 변환 얼굴 이미지 데이터셋를 포함할 수 있다.

구체적으로, 상기 추출 단계는 얼굴로 식별되는 부분을 포괄하여 탐지하고, 얼굴 특징에 따라 랜드마크를 확인하여 정렬할 수 있다. 상기 랜드마크를 추출하는 알고리즘은 히트맵기반의 얼굴 랜드마크 알고리즘인 2DFAN 및 PRNET을 제공할 수 있다. 그리고 분할작업으로 정렬된 얼굴 이미지를 정밀하게 세분화한 구도와 표정을 학습하여 머리카락, 손가락 또는 안경이 있는 얼굴 등을 정확하게 분할한다.

상기 학습 단계는, 상기 추출 단계 이후 사실적인 얼굴 교환 결과를 달성할 수 있도록 상기 입력 데이터의 가중치를 공유하는 인코더와 Inter 레이어를 학습시킨 후, 변환하고자 하는 얼굴과 변환하고자 하는 얼굴로 대체될 대상이 되는 얼굴의 출력에 대한 학습을 통해 판별기로 진위 여부를 분류할 수 있다.

마지막으로, DeepFaceLab 알고리즘은 전환 단계를 통해 변환하고자 하는 얼굴을, 얼굴이 대체될 대상의 얼굴에 적용하여 변환할 수 있다.

도 3은 본 발명의 실시 예에 따른 타킷 콘텐츠 변환 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 타킷 콘텐츠 변환 서비스 제공 장치의 동작 방법에 있어서, 제1 영상 데이터 관리단계(S101)는 변환하고자 하는 변환 얼굴 이미지를 포함하는 소스 영상 데이터를 관리할 수 있다.

제2 영상 데이터 관리단계(S103)는 상기 변환 얼굴 이미지와 대응되는 타깃 콘텐츠를 포함하는 타깃 영상 데이터를 관리할 수 있다.

프레임 추출단계(S105)는 상기 소스 영상 데이터 및 상기 타깃 영상 데이터로부터 복수개의 프레임을 추출하여 저장할 수 있다.

얼굴 이미지 식별단계(S107)는 각각의 상기 프레임에서 식별되는 얼굴 이미지 영역을 크롭핑하여 얼굴 이미지 데이터를 획득할 수 있다.

데이터셋 전처리단계(S109)는 상기 얼굴 이미지 데이터에 기반하여, 상기 타깃 영상 데이터로부터 획득되는 제1 얼굴 이미지 데이터를 상기 소스 영상 데이터로부터 획득되는 제2 얼굴 이미지 데이터에 결합하여 얼굴 이미지 데이터셋을 생성할 수 있다.

상기 데이터셋 전처리단계(S109)는 제1 얼굴 유사도 선별단계(미도시)를 포함할 수 있다. 상기 제1 얼굴 유사도 선별단계는 상기 제1 얼굴 이미지 데이터에 대하여, 상기 제1 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별 측정값에 따라 사전 설정된 측정값 이상으로 판별되는 상기 제1 얼굴 이미지 데이터를 삭제 처리할 수 있다. 상기 이미지 유사도 판별을 위해서는 SSIM(Structural Similarity Index Measure), MSE(Mean Squared Error), Mahalanobis distance의 유사도 측정 방식 등을 활용하여 유사도를 측정하여 비교할 수 있다. 상기 대표 이미지는 사용자의 지정 또는 임의 지정 방식 등을 활용하여 적용될 수 있다.

상기 데이터셋 전처리단계(S109)는 데이터셋 유사도 선별단계(미도시)를 더 포함할 수 있다. 상기 데이터셋 유사도 선별단계는 상기 얼굴 이미지 데이터셋에 포함되는 상기 얼굴 이미지 데이터에 대하여, 상기 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별을 통한 측정값에 따라 사전 설정된 측정값 이상으로 판별되는 상기 얼굴 이미지 데이터를 삭제 처리할 수 있다. 상기 이미지 유사도 판별을 위해서는 SSIM(Structural Similarity Index Measure), MSE(Mean Squared Error), Mahalanobis distance의 유사도 측정 방식 등을 활용하여 유사도를 측정하여 비교할 수 있다. 상기 대표 이미지는 사용자의 지정 또는 임의 지정 방식 등을 활용하여 적용될 수 있다.

학습 모델링단계(S1111)는 상기 얼굴 이미지 데이터셋과 변환 얼굴 이미지 데이터셋을 입력 데이터로 이용하여 페이스 스왑 영상 생성 알고리즘을 적용한 얼굴 변환 영상 데이터를 생성할 수 있다.

상기 페이스 스왑 영상 생성 알고리즘은 DFL(DeepFaceLab) 알고리즘을 적용하여 얼굴이 변환된 출력 영상 데이터를 생성할 수 있다.

도 4는 본 발명의 다른 실시 예에 따른 타깃 콘텐츠 변환 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 먼저 서비스 제공 장치(100)는, 선택 데이터 셋 구성부(190)를 통해, 사용자 선택 이미지 데이터 셋 구성을 위한 사용자 인터페이스 정보를 생성하여, 사용자 단말(200)로 제공한다(S201).

그리고, 서비스 제공 장치(100)는, 사용자 단말(200)로부터의 키워드 입력에 따른 키워드 색인 또는 이미지 입력에 대응하는 유사도 색인을 수행하여, 하나 이상의 사용자 추가 얼굴 이미지 데이터를 획득한다(S203).

이를 위해, 서비스 제공 장치(100)의 선택 데이터 셋 구성부(190)는, 상기 사용자 단말(200)로부터 입력된 키워드에 대응하는 하나 이상의 키워드 색인 이미지를 생성하여, 상기 사용자 단말(200)로 제공하고, 상기 사용자 단말(200)로부터의 선택 입력에 따른 키워드 색인 이미지를 결정할 수 있다.

또한, 서비스 제공 장치(100)의 선택 데이터 셋 구성부(190)는, 상기 사용자 단말(200)로부터 입력된 이미지 정보에 대응하는 유사도 색인에 따라 하나 이상의 유사 얼굴 이미지를 생성하여 사용자 단말(200)로 제공하고, 상기 사용자 단말(200)로부터의 선택 입력에 따른 유사도 색인 이미지를 결정할 수 있다.

그리고, 서비스 제공 장치(100)의 선택 데이터 셋 구성부(190)는, 상기 키워드 색인 이미지 또는 유사도 색인 이미지 중 선택된 이미지를 사용자 추가 얼굴 이미지로서 획득할 수 있다.

이후, 서비스 제공 장치(100)는, 사용자 선택 입력에 따라, 소스 이미지의 제1 얼굴 이미지, 타깃 영상의 제2 얼굴 이미지 및 상기 사용자 추가 얼굴 이미지 중 적어도 하나를 포함하는 얼굴 이미지를 선택한다(S205).

그리고, 서비스 제공 장치(100)는, 상기 사용자 인터페이스 에 대응하는 사용자 단말(200)의 사용자 비중 설정 입력에 따라, 선택된 얼굴 이미지 데이터 간 비중을 설정한다(S207).

이후, 서비스 제공 장치(100)는, 설정된 가중치에 기초한 각 얼굴 이미지 간 데이터 양을 조절하여, 상기 페이스 스왑 영상 생성 알고리즘을 위해, 개인화된 사용자 이미지 데이터 셋을 구성한다(S209).

도 5 내지 도 6은 본 발명의 실시 예에 따른 사용자 인터페이스의 예시도이다.

도 5를 참조하면, 본 발명의 실시 예에 따라 사용자 단말(200)로 제공되는 사용자 인터페이스는, 사용자 단말(200)의 디스플레이부를 통해 출력될 수 있으며, 사용자 단말(200)의 터치 또는 버튼 입력 등에 따라 입력된 사용자 입력 정보와, 사용자가 선택 업로드한 이미지 정보는 서비스 제공 장치(100)로 전송될 수 있다.

도 5에 도시된 바와 같이, 기본적으로는 소스 이미지의 제1 얼굴 이미지 데이터와, 타깃 영상의 제2 얼굴 이미지 데이터 및 사용자 입력에 따라 추가된 얼굴 이미지 데이터들이 각 얼굴 이미지 분류에 따라 인터페이스상에 출력될 수 있다.

그리고, 사용자는 키워드 검색 입력 또는 이미지 업로드를 통한 유사 사진 선택 등을 수행하여, 추가 얼굴 이미지 데이터를 더 입력할 수 있다.

예를 들어, 사용자 입력에 따라 서비스 제공 장치(100)로 이미지가 업로드된 경우, 선택 데이터 셋 구성부(190)는, 사전 구축된 인물 이미지 데이터베이스에서 상기 업로드된 이미지와의 유사도에 따라, 가장 유사한 N개의 얼굴 이미지를 추출하여 사용자 단말(200)로 제공하고, 사용자 단말(200)에서의 선택 입력에 따라 추가된 얼굴 이미지를 사용자 인터페이스상에 제공할 수 있다.

그리고, 사용자 단말(200)은 페이스 스왑에 사용할 얼굴 이미지를 선택할 수 있는 바, 선택된 이미지에 대응하는 얼굴 이미지 데이터들이 페이스 스왑에 이용될 이미지들로 미리 구성될 수 있다.

그리고, 도 6은, 본 발명의 실시 예에 따라 선택된 사용자 선택 이미지들 간 비율을 설정하는 비율 설정 인터페이스를 도시한 것으로, 사용자는 사용자 단말(200)을 통해, 상기 비율 설정 인터페이스상의 얼굴 이미지 간 슬라이더를 이동시키거나, 비율 값을 직접 입력하여, 얼굴 이미지 간 비율을 설정할 수 있다.

이에 따라, 선택 데이터 셋 구성부(190)에서는 상기 얼굴 이미지 간 비율 설정 입력에 대응하는 각 얼굴 이미지의 데이터 양 비중을 조절할 수 있다. 예를 들어, 도 6에 도시된 바와 같이 설정된 경우, 얼굴 이미지 1은 1000장의 이미지 데이터, 얼굴 이미지 3은 3000장의 이미지 데이터로 조절될 수 있다.

여기서 얼굴 이미지의 양을 조절하기 위해, 선택 데이터 셋 구성부(190)는, 각 얼굴 이미지 데이터로부터, 동일 얼굴 이미지 분류의 변형 얼굴 이미지들을 추가 생성할 수 있다. 예를 들어, 얼굴 이미지 1의 소스 데이터가 200장인 경우, 나머지 800장의 이미지들은 얼굴 이미지 1의 변형 얼굴 이미지로 생성될 수 있다.

이러한 변형 얼굴 이미지들은 예를 들어, 잘 알려진 StyleGAN2 방식 등을 활용한 방향성 정보(latent direction)를 이용하여 촬영 각도, 표정, 화질, 밝기, 감정(슬픔, 기쁨, 화남) 등이 변형된 형태로 추가 생성될 수 있다. 또한, 예를 들어, 상기 변형 얼굴 이미지들은 알려진 FOM 방식 또는 PC-AVS 방식을 이용하여 합성 생성된 합성 동영상에서, 프레임별 얼굴 이미지들을 다시 추출하는 방식으로 생성될 수도 있다.

이와 같은 구성에 따라, 선택 데이터 셋 구성부(190)는 얼굴 이미지 분류 간 변형 생성 가중치를 조절하여, 사용자가 설정한 비율에 따른 각 얼굴 이미지 데이터의 양과 그 비중을 조절할 수 있으며, 이에 따라 사용자가 원하는 개인화된 사용자 선택 데이터 셋이 페이스 스왑 알고리즘의 입력 데이터로서 구성될 수 있다.

상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

얼굴 이미지를 포함하는 소스 영상 데이터 및 상기 얼굴 이미지와 대응되는 타깃 영상 데이터로부터 획득되는 얼굴 이미지 데이터에 기반하여, 상기 타깃 영상 데이터로부터 획득되는 제1 얼굴 이미지 데이터와, 상기 소스 영상 데이터로부터 획득되는 제2 얼굴 이미지 데이터를 포함하는 얼굴 이미지 데이터셋을 생성하는 데이터셋 전처리 단계;
상기 데이터셋 전처리 단계에서 결합된 데이터 셋의 얼굴 이미지 구성을 사용자 단말로 제공되는 사용자 인터페이스 입력에 따라, 상기 얼굴 이미지 데이터 셋에 포함되는 얼굴 이미지 데이터의 구성을 선택적으로 조절하고, 상기 얼굴 이미지 분류 간 데이터 비중의 조절을 위해, 제1 얼굴 이미지의 변형 얼굴 이미지들을 추가 생성하되, 상기 얼굴 이미지 데이터셋에 포함되는 상기 얼굴 이미지 데이터 중에서 선정된 대표 이미지와의 유사도 판별을 통한 측정 값에 따라 사전 설정된 측정 값 이상으로 판별되는 상기 얼굴 이미지 데이터를 삭제처리하는 선택 데이터 셋 구성 단계; 및
상기 조절된 얼굴 이미지 데이터 셋과 상기 타깃 영상 데이터를 입력 데이터로 이용하여 페이스 스왑 영상 생성 알고리즘을 적용한 얼굴 변환 영상 데이터를 생성하는 학습 모델링 단계;를 포함하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 선택 데이터 셋 구성 단계는,
상기 사용자 인터페이스 입력에 따라 선택된 하나 이상의 얼굴 이미지 분류에 따른 얼굴 이미지 데이터를 생성하여, 상기 얼굴 이미지 데이터셋에 대응하는 저장 경로에 저장하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 선택 데이터 셋 구성 단계는,
상기 사용자 인터페이스 입력에 따라 입력된 키워드에 대응하여 색인된 이미지를, 사용자 추가 얼굴 이미지로서 상기 얼굴 이미지 데이터셋에 추가하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 선택 데이터 셋 구성 단계는,
상기 사용자 인터페이스 입력에 따라 입력된 이미지에 대응하여 색인된 유사 이미지를, 사용자 추가 얼굴 이미지로서 상기 얼굴 이미지 데이터셋에 추가하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 선택 데이터 셋 구성 단계는,
상기 사용자 인터페이스 입력에 따라 입력된 비율 조절 정보에 대응하여, 상기 얼굴 이미지 데이터셋의 얼굴 이미지 분류 간 데이터 비중을 조절하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 변형 얼굴 이미지는, 생성적 적대 신경망 학습 알고리즘 기반의 방향성 정보를 이용하여, 상기 제1 얼굴 이미지의 촬영 각도, 표정, 화질, 밝기, 감정 중 적어도 하나가 변경 적용된 얼굴 이미지를 포함하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.
제1항에 있어서,
상기 변형 얼굴 이미지는, 상기 제1 얼굴 이미지를 이용한 학습 기반 영상 합성 알고리즘을 적용하여 생성된 합성 동영상에서 프레임별 얼굴 이미지를 추출하여 획득된 얼굴 이미지를 포함하는
소스 영상 및 타깃 영상으로부터 얼굴 이미지 데이터의 구성을 선택적으로 조절하는 데이터 셋 구성 방법.