KR102247481B1

KR102247481B1 - 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법

Info

Publication number: KR102247481B1
Application number: KR1020190097997A
Authority: KR
Inventors: 김익재; 최성은; 홍유진
Original assignee: 한국과학기술연구원
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2021-05-03
Also published as: KR20210019182A

Abstract

본 발명의 실시예들은, 특정 나이에서의 대상의 얼굴을 포함한 원본영상, 상기 대상의 특정 나이 정보, 및 변환될 목표 나이 정보, 직업이 표현된 배경영상을 선택하기 위한 입력을 수신하는 단계; 상기 특정 나이에서의 대상의 얼굴을 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계; 미리 저장된 배경영상에서 직업영상을 생성하는데 사용될 배경영상을 선택하는 단계; 및 검색된 배경영상의 얼굴 영역에 상기 나이변환 얼굴을 합성하여 상기 대상의 직업영상을 생성하는 단계를 포함한 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법 및 이를 수행하는 장치와 관련된다.

Description

나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법{DEVICE AND METHOD FOR GENERATING JOB IMAGE HAVING FACE TO WHICH AGE TRANSFORMATION IS APPLIED}

본 발명의 실시예들은 영상 처리 기술에 관한 것으로서, 보다 상세하게는, 특정 나이에서의 대상의 얼굴 영상에서 상기 대상이 목표 나이가 될 경우 가질 것으로 예상되는 얼굴을 갖는 나이변환 영상을 생성하고, 목표 나이에서의 대상의 얼굴을 이용하여 상기 대상이 목표 나이에서 직업을 가질 경우를 나타내는 직업영상을 생성하는 장치 및 방법에 관한 것이다.

직업은 개인의 생애에서 경제적인 의미는 물론 직업생활을 통한 자아실현이라는 의미에 이르기까지 다양하고도 중요한 의미를 가진 사회활동이다.

최근에는 직업 전분야에 있어 고도화, 세분화가 진행되어, 직업 선택을 위한 준비 기간이 빠를수록 유리한 측면이 있다. 직업선택은 기술/사회 트렌드에 대한 풍부한 지식과 정보에 기초하여 신중하게 수행되어야 한다. 일반적으로 유아, 청소년기의 자녀들은 이러한 기술/사회 트렌드를 분석하는 능력이 상대적으로 낮기 때문에 부모의 조언이 직업선택에 큰 영향을 미친다.

그러나, 직업선택의 주체는 자녀 자신이며, 따라서 자녀가 능동적으로 선택할 직업을 결정하는 것이 성장 과정에서 경험하는 해당 직업을 갖기 위한 노력을 가능하게 할 확률이 높다.

결국, 어린 자녀에게 능동적인 직업선택이 가능하도록 다양하고 구체적인 직업정보를 가능하게 하는 것이 부모에 있어 최선의 직업 교육이 될 것이다.

자녀 자신이 해당 직업을 가졌을 때의 미래 모습을 상상해 보는 것이 직업선택에 대한 가장 확실한 동기부여가 된다. 그러나, 통상적으로, 부모가 제공하는 직업정보는 해당 직업 자체에 대한 정보 또는 해당 직업을 가진 타인에 대한 정보만을 제공하여, 자녀가 부모의 직업정보를 받아들이고 공감하는데 한계가 있다.

특허공개공보 제10-1998-0065049호 특허공개공보 제10-2002-0007744호

Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks" Mehdi Mirza; Simon Osindero, (2014) "Conditional Generative Adversarial Nets"

본 발명의 일 측면에 따르면, 원본영상에 포함된 대상의 얼굴을 목표 나이로 변환 처리하여 나이변환 영상을 생성하고, 상기 나이변환 영상에 포함된 목표 나이에서의 얼굴을 직업을 표현한 배경영상에 합성하여 대상이 목표 나이가 되어 해당 직업을 가졌을 경우를 나타내는, 나이변환된 얼굴을 갖는 직업영상을 생성하는 장치를 제공한다.

이 외에도, 프로세서를 포함한 컴퓨팅 장치에 의해 수행되는 나이변환된 얼굴을 갖는 직업영상을 생성하는 방법 및 이를 기록한 컴퓨터 판독매체를 제공할 수 있다.

본 발명의 일 측면에 따른, 프로세서를 포함한 컴퓨팅 장치에 수행되는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법은: 특정 나이에서의 대상의 얼굴을 포함한 원본영상을 수신하는 단계; 상기 대상의 특정 나이 정보, 및 변환될 목표 나이 정보를 수신하는 단계; 상기 특정 나이에서의 대상의 얼굴을 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계; 직업이 표현된, 미리 저장된 배경영상에서 직업영상을 생성하는데 사용하기 위한 배경영상을 선택하는 단계; 및 상기 선택된 배경영상의 얼굴 영역에 상기 나이변환 얼굴을 합성하여 상기 대상의 직업영상을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계는:상기 원본영상의 대상의 얼굴로부터 랜드마크를 추출하는 단계; 상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 텍스쳐를 생성하는 단계; 상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 모양을 생성하는 단계; 및 상기 목표 나이에서의 대상의 얼굴 텍스쳐 및 얼굴 모양에 기초하여 상기 대상의 나이변환 얼굴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 목표 나이에서의 얼굴 텍스쳐(texture)를 생성하는 단계는, 상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 무모양 얼굴 텍스쳐를 생성하는 단계; 및 상기 무모양 얼굴 텍스쳐를 미리 학습된 텍스쳐 변환 모델에 적용하여 상기 목표 나이에서의 대상의 무모양 얼굴 텍스쳐를 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 텍스쳐 변환 모델은, 상기 목표 나이에서의 얼굴 텍스쳐에 해당하는 데이터를 출력하도록 복수의 훈련 샘플을 이용하여 미리 학습된 모델로서, 각 훈련 샘플은 상기 목표 나이에서의 훈련 대상의 얼굴 텍스쳐, 및 훈련 대상의 성별을 포함한 라벨링 데이터를 포함할 수 있다.

일 실시예에서, 상기 훈련 대상의 얼굴 텍스쳐는 상기 훈련 대상의 얼굴로부터 획득된 무모양 얼굴 텍스쳐일 수 있다.

일 실시예에서, 상기 텍스쳐 변환 모델은, 제1 도메인의 입력 데이터에 노이즈를 적용하여 제2 도메인의 변환 데이터를 출력하는 제1 생성기; 및 상기 제1 도메인의 입력 데이터에 노이즈를 적용하여 제3 도메인의 변환 데이터를 출력하는 제2 생성기를 포함하되, 각 생성기는 변환 데이터를 제1 도메인으로 데이터로 재-변환 시 상기 제1 도메인의 입력 데이터로 변환되도록 구성된 것일 수 있다.

일 실시예에서, 상기 텍스쳐 변환 모델은, 제1 도메인의 입력 데이터에 노이즈 및 조건 정보를 적용하여 제2 도메인 및 제3 도메인을 포함한 복수의 다른 도메인의 변환 데이터를 출력하는 생성기를 포함할 수 있다.

일 실시예에서, 상기 목표 나이에서의 대상의 얼굴 모양을 생성하는 단계는: 상기 원본영상의 얼굴의 랜드마크에 기초하여 상기 원본영상의 대상의 얼굴 모양 특징을 추출하는 단계; 상기 원본영상의 대상의 얼굴 모양 특징을 미리 학습된 모양 변환 모델에 적용하여 상기 목표 나이에서의 대상의 얼굴 모양 특징을 생성하는 단계; 및 상기 목표 나이에서의 대상의 얼굴 모양 특징에 기초하여 상기 목표 나이에서의 대상의 얼굴 모양을 복원하는 단계를 포함할 수 있다.

일 실시예에서, 상기 모양 변환 모델은, 나이와 해당 나이에서의 얼굴 모양 특징 간의 관계를 모델링하여 생성된 것으로서, 상기 목표 나이에서의 나이 함수 값과 상기 원본나이에서의 나이 함수 값 간의 차이 및 상기 원본영상의 대상의 얼굴 모양 특징에 기초하여 상기 목표 나이에서의 대상의 얼굴 모양 특징을 산출하도록 모델링된 것일 수 있다.

일 실시예에서, 상기 모양 변환 모델은, 상기 목표 나이에서의 얼굴 모양 특징을 출력하도록 복수의 훈련 샘플 및 상기 목표 나이를 나타내는 라벨링 데이터를 이용하여 미리 학습된 모델로서, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함할 수 있다.

일 실시예에서, 상기 모양 변환 모델이 복수의 나이 중 어느 하나의 나이에서의 얼굴 모양 특징을 출력하도록 구성된 경우, 상기 모양 변환 모델은 복수의 훈련 샘플 세트를 이용하여 미리 학습된 모델로서, 각 세트는 상기 복수의 나이 중 특정 나이에서의 복수의 훈련 샘플 및 상기 특정 나이를 나타내는 라벨링 데이터를 포함하며, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함할 수 있다.

일 실시예에서, 상기 모양 변환 모델은, 상기 얼굴 모양 특징의 차원이 N차원인 경우(여기서, N은 1이상의 정수), 각 얼굴 모양 특징에 대한 나이 함수에 기초하여 모델링된 것일 수 있다.

일 실시예에서, 상기 대상의 나이변환 얼굴을 생성하는 단계는, 상기 목표 나이에서의 대상의 얼굴 모양에 상기 목표 나이에서의 얼굴 텍스쳐를 와핑(warping)하여, 상기 목표 나이에서의 얼굴을 나이변환 얼굴로서 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 배경영상은, 상기 직업의 특성을 표현하도록 구성되며, 상기 대상과 상이한, 해당 직업을 갖는 사람의 얼굴의 적어도 일부를 포함할 수 있다.

일 실시예에서, 상기 직업영상을 위한 배경영상은, 사용자의 입력을 수신하고, 상기 사용자의 입력에 대응하는 배경영상일 수 있다.

일 실시예에서, 상기 직업영상을 위한 배경영상은, 상기 원본영상의 영상 특성 및 나이변환 영상의 얼굴 특성 중 하나 이상에 기초하여 선택된 것일 수 있다.

일 실시예에서, 상기 원본영상의 영상 특성은, 조명, 해상도, 및 선명도 중 하나 이상을 포함하는 것일 수 있다.

일 실시예에서, 상기 나이변환 영상의 얼굴 특성은, 얼굴 형태, 헤어 특성, 귀 모양, 이마 모양, 및 얼굴 포즈 중 하나 이상을 포함할 수 있다.

일 실시예에서, 상기 직업영상을 위한 배경영상은, 대상의 성별에 기초하여 선택된 것일 수 있다.

일 실시예에서, 상기 대상의 직업영상을 생성하는 단계는, 상기 배경영상의 얼굴 및 나이변환 얼굴의 랜드마크를 각각 추출하는 단계; 추출된 각각의 랜드마크에 기초하여 나이변환 얼굴의 랜드마크를 상기 배경영상의 얼굴 영역에 매핑하는 단계; 상기 나이변환 영상의 얼굴 텍스쳐를 상기 배경영상에 매핑된 랜드마크의 위치를 기반으로 와핑하는 단계; 상기 배경영상의 얼굴 텍스쳐를 상기 배경영상에 매핑된 랜드마크의 위치를 기반으로 와핑하는 단계; 상기 배경영상의 얼굴의 이동한 랜드마크에 기초하여 내부 영역을 필터링하는 합성영역 마스크를 생성하는 단계; 및 상기 합성영역 마스크를 사용하여 와핑된 나이변환 영상의 대상의 얼굴 영역을 필터링하고, 상기 필터링된 대상의 얼굴 영역을 상기 배경영상의 얼굴 영역에 이식하는 단계를 포함할 수 있다.

일 실시예에서, 상기 매핑하는 단계는, 각각의 랜드마크가 의미하는 해부학적 얼굴 특징에 기초하여 수행될 수 있다.

일 실시예에서, 상기 직업영상을 생성하는 단계는, 상기 선택된 배경영상이 복수의 프레임으로 이루어진 동영상인 경우, 상기 나이변환 얼굴을 상기 복수의 프레임 중 적어도 하나와 합성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 방법은: 나이변환 얼굴을 갖도록 합성된 프레임으로 이루어진 직업 동영상을 생성하는 단계를 더 포함할 수 있다.

본 발명의 다른 일 측면에 따른 컴퓨터 판독가능 기록매체는 컴퓨팅 장치에 의해 판독가능하고, 상기 컴퓨팅 장치에 의해 동작 가능한 프로그램 명령어를 저장할 수 있다. 상기 프로그램 명령어가 상기 컴퓨팅 장치의 프로세서에 의해 실행되는 경우 상기 프로세서가 상술한 실시예들에 따른 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법을 수행하게 할 수 있다.

본 발명의 일 측면에 따른 직업 영상을 생성하는 장치는 미리 학습된 텍스쳐 변환 모델을 이용하여 아이의 얼굴 영상에서 성인 나이에서의 텍스쳐를 생성하고, 미리 학습된 나이 함수를 이용하여 아이의 얼굴 영상에서 성인 나이에서의 모양을 생성한 뒤, 상기 생성된 텍스쳐 및 모양에 기초하여 성인 나이에서의 얼굴을 갖는 나이변환 영상을 생성할 수 있다.

또한, 나이변환 영상을 직업 영상과 합성함에 있어서, 나이변환 영상의 얼굴 영역을 직업 영상의 얼굴 영역에 자연스럽게 합성하여 보다 사실적이고 사용자 맞춤형 영상을 제공할 수 있다.

그 결과, 아이가 희망 진로를 가졌을 경우를 상상하는 것을 지원하고, 또한 진로 결정을 지원하는 구체적이고 사실적인 영상을 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 위한 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 직업영상 생성 장치의 동작을 개념적으로 도시한 도면이다.
도 2는, 본 발명의 일 실시예에 따른, 직업영상 생성 장치의 개념적인 구성도이다.
도 3은, 본 발명의 일 실시예에 따른, 나이변환 동작을 설명하기 위한 도면이다.
도 4는, 본 발명의 일 실시예에 따른, 나이함수를 결정하는 과정을 설명하기 위한 도면이다.
도 5는, 도 4에 따라 결정된 제2 나이함수를 도시한 도면이다.
도 6은, 본 발명의 일 실시예에 따른, 직업영상 생성 방법의 흐름도이다.
도 7은, 본 발명의 일 실시예에 따른, 나이변환 동작에 따른 결과를 예시적으로 도시한 도면이다.
도 8은, 본 발명의 일 실시예에 따른, 영상 합성 과정의 흐름도이다.
도 9는, 본 발명의 일 실시예에 따른, 나이변환 영상 및 배경 영상의 랜드마크 추출결과를 도시한 도면이다.
도 10은, 본 발명의 일 실시예에 따른, 배경영상에 매핑된, 나이변환 영상의 랜드마크를 도시한 도면이다.
도11은, 본 발명의 일 실시예에 따른, 나이변환 영상의 얼굴의 랜드마크의 위치 이동 결과를 도시한 도면이다.
도12는, 본 발명의 일 실시예에 따른, 배경영상의 얼굴의 랜드마크의 위치 이동 결과를 도시한 도면이다.
도 13은, 본 발명의 일 실시예에 따른, 합성 영역 마스크를 도시한 도면이다.
도 14는, 본 발명의 일 실시예에 따른, 목표 직업이 경찰인 경우 합성 영상을 도시한 도면이다.
도 15는, 본 발명의 일 실시예에 따른, 목표 직업이 의사인 경우 합성 영상을 도시한 도면이다.

여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품을 구체화하려는 것이며, 다른 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품의 존재나 부가를 제외시키는 것은 아니다.

다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.

도 1은, 본 발명의 일 실시예에 따른, 직업영상 생성 장치의 동작을 개념적으로 도시한 도면이다.

본 발명의 일 실시예에 따른, 직업영상 생성 장치는 원본영상(original image)에 포함된 대상의 얼굴을 나이변환 처리하도록 구성된다. 상기 나이변환 처리는 대상의 나이(예컨대, 영상 촬영 당시 대상의 나이)에서의 대상의 얼굴을, 사용자가 변환을 원하는 나이가 될 경우 상기 대상이 가질 것으로 예상되는 얼굴로 변환 처리하는 것을 나타낸다. 상기 직업영상 생성 장치는 나이변환 처리를 수행하여 목표 나이에서의 대상의 얼굴을 갖는 나이변환 영상을 생성한다. 그러면, 상기 직업영상 생성 장치는 상기 나이변환 영상에 포함된, 목표 나이에서의 대상의 얼굴을 직업이 표현된 배경영상에 합성하여 대상이 상기 목표 나이에서 해당 직업을 가질 경우를 표현한 직업영상을 생성한다.

여기서, 상기 원본영상에 포함된 대상의 나이는 대상의 촬영 당시 나이이다. 일 실시예에서, 상기 직업영상 생성 장치는 특정 값을 원본영상에 포함된 대상의 나이 값으로 수신할 수 있다. 그러나, 본 발명의 직업영상 생성에 있어서 나이 변환의 기준 나이가 되는 원본영상에 포함된 대상의 나이는 촬영 당시 대상의 실제 나이에 제한되지 않는다.

다른 일 실시예에서, 상기 직업영상 생성 장치는 원본영상만을 수신한 뒤, 상기 원본영상의 대상의 얼굴을 분석하여 대상의 나이 값을 산출하고, 산출된 대상의 나이 값을 기준으로 직업영상을 생성할 수도 있다. 상기 대상의 나이 값의 산출은 나이변환을 위한 분석의 적어도 일부에 기초하여 수행될 수 있다.

여기서, 대상은 얼굴이 나이변환 처리될 대상으로서, 일 실시예에서, 대상은 도 1에 도시된 바와 같이 아이를 지칭한다.

본 명세서에서 아이는 성년이 되지 못한 나이를 갖는 사람을 지칭한다. 아이는 영유아, 및 청소년을 포함한다.

본 명세서에서, 목표 나이는 상기 대상의 촬영 당시 나이와 상이한 나이로서, 일 실시예에서, 목표 나이는 도 1에 도시된 바와 같이 아이가 성장하여 성인이 되었을 때 해당하는 나이일 수 있다.

본 명세서에서 성인은 일반적으로 성년이 된 사람을 지칭한다. 성인에 대응하는 나이는 성년 이후의 특정 나이로 제한되지 않으며, 하나 이상의 나이를 포함한 범위로서 지칭될 수 있다. 또한, 특정 실시예들에서, 성인에 대응하는 나이는 직업별로 상이할 수 있다.

도 2는, 본 발명의 일 실시예에 따른, 직업영상 생성 장치의 개념적인 구성도이다.

도 2를 참조하면, 상기 직업영상 생성 장치(1)는 입력장치(10), 나이변환부(30), 및 영상 합성부(50)를 포함한다. 일부 실시예에서, 직업영상 생성 장치(1)는 송수신장치(20), 또는 출력기기(미도시)를 더 포함할 수 있다.

입력장치(10) 및 송수신장치(20)는 데이터를 획득 또는 수신하는 구성요소로서, 직업영상을 생성하는 동작과 관련된 데이터, 정보, 명령 등을 수신한다.

입력장치(10)는 사용자의 입력을 수신하도록 구성되며, 예를 들어 마우스, 키보드, 마이크, 터치 센서, 제스쳐 센서 등을 포함하나, 이에 제한되지 않는다.

일부 실시예에서, 입력장치(10)는 대상의 얼굴을 촬영하여 나이변환 처리될 원본영상(original image)을 생성하는 촬영기기를 더 포함할 수 있다.

송수신장치(20)는 유/무선 전기적 연결을 통해 데이터를 수신하도록 구성된다.

상기 장치(1)는 (예컨대, 입력장치(10) 또는 송수신장치(20)를 통해) 특정 나이에서의 대상의 얼굴을 갖는 원본영상을 (즉, 원본영상 데이터를) 수신한다. 예를 들어, 상기 장치(1)는 상기 원본영상을 직업영상 생성 장치(1)에 포함된 촬영기기로부터 획득하거나, 송수신장치(20)에 의해 상기 직업영상 생성 장치(1)의 외부에 위치한 장치(예컨대, 외부 촬영기기, 또는 외부 컴퓨터 등)로부터 전기적 통신을 통해 수신하여 획득하도록 구성될 수 있다.

상기 원본영상의 얼굴에 해당하는 대상의 나이는 변환 처리 이전의 나이로서 원본 나이(original age)로 지칭된다. 또한, 상기 원본영상의 얼굴은 대상의 원본 얼굴로 지칭된다.

일 실시예에서, 상기 원본 나이는 해당 영상을 촬영할 당시 대상의 나이일 수 있다. 이 경우, 원본영상은 상기 촬영 당시 대상의 나이에서의 얼굴을 원본 얼굴로 포함한다. 그러나, 이에 제한되지 않는다. 다른 일 예에서, 상기 원본영상은 이전에 나이변환 처리가 적용된 다른 나이변환 영상을 포함할 수도 있다. 이 경우, 원본나이는 이전에 이미 나이변환된 나이를 나타내며, 원본얼굴은 이전의 나이변환 처리에 의해 생성된 영상의 얼굴을 나타낸다.

또한, 상기 장치(1)는 (예컨대, 입력장치(10) 또는 송수신장치(20)를 통해) 상기 원본 나이 정보 및 목표 나이 정보를 수신하도록 더 구성된다. 예를 들어, 상기 장치(1)는 상기 원본영상에 연관된 나이 정보 및 변환될 목표 나이 정보를 상기 직업영상 생성 장치(1)에 포함된 입력기기(10)를 통해 획득하거나, 또는 외부 기기(예컨대, 외부 컴퓨터 등)로부터 송수신장치(20)에 의해 전기적 통신을 통해 수신하여 획득하도록 구성될 수 있다.

목표 나이는 사용자가 원하는 나이변환 얼굴을 생성하게 하는 나이를 나타낸다. 상기 목표 나이는 직업영상을 위해 (예컨대, 아이와 같은) 대상 또는 (예컨대, 부모와 같은) 사용자가 원하는 나이이거나, 또는 상기 장치(1)에 미리 설정된 나이일 수 있다.

일 실시예에서, 상기 목표 나이는 원본 나이와 상이할 수 있다.

상기 원본 나이 또는 목표 나이는 다양하게 표현될 수 있다. 일 예에서, 두 나이 모두 출생을 기준으로 하는 나이(예컨대, 7세 또는 25세)로 표현될 수 있다. 다른 일 예에서, 두 나이 중 하나를 기준 나이로 (예컨대, 7세 및 상기 7세에서 18세 더 늙음) 표현될 수 있다.

이와 같이 목표 나이는 1년 단위로 구체적으로 표현된 값일 수 있으나, 본 발명의 목표 나이는 이에 제한되지 않는다. 다른 실시예에서, 상기 목표 나이는 서로 다른 복수의 나이로 이루어진 군집(예컨대, 20대, 30대, 40대 등과 같은 연령대)에 대응하는 나이로 설정될 수 있다. 상기 군집에 대응하는 나이는 군집 내 최대 값, 최소 값, 중간 값, 및 최빈 값, 사용자에 의해 정의된 대표 값 등일 수 있다.

일부 실시예에서, 상기 장치(1)는 (예컨대, 입력장치(10) 또는 송수신장치(20)를 통해) 대상의 세부 사항을 추가로 수신할 수 있다. 상기 세부 사항은 대상의 성명, 성별 등을 포함한다.

상기 직업영상 생성 장치(1)는 상기 원본영상, 원본 나이 정보, 및 목표 나이 정보를 수신하면, 상기 원본영상을 나이변환 처리하여 상기 원본영상에 포함된 대상의 얼굴을 상기 대상이 목표 나이가 될 경우 가질 것으로 예상되는 얼굴을 갖는 나이변환 영상을 생성할 수 있다.

또한, 상기 장치(1)는 (예컨대, 입력장치(10) 또는 송수신장치(20)에 의해) 직업이 표현된 배경영상을 선택하도록 구성된다. 상기 배경영상의 선택은 해당 영상을 선택하게 하는 명령을 수신하거나, 또는 원본영상에 기초하여 자동으로 수행될 수 있다. 이에 대해서는 아래에서 보다 상세하게 서술한다. 나이변환부(30)는 입력영상에 연관된 나이(예컨대, 원본 나이) 및 목표 나이에 기초하여 입력영상을 나이변환 처리하는 동작을 수행하도록 구성된다.

일 실시예에서, 나이변환부(30)는 얼굴 텍스쳐(texture) 및 모양(shape)에 기초하여 나이변환 동작을 수행한다.

도 3은, 본 발명의 일 실시예에 따른, 나이변환부의 동작을 설명하기 위한 도면이다.

도 3을 참조하면, 나이변환부(30)는: 원본얼굴에서 복수의 랜드마크를 추출하는 단계(S310), 미리 학습된 텍스쳐 변환 모델을 이용하여 원본 나이에서의 텍스쳐로부터 목표 나이에서의 텍스쳐를 생성하는 단계(S320); 미리 학습된 나이 함수를 이용하여 목표 나이에서의 형상을 생성하는 단계(S330); 및 상기 목표 나이에서의 텍스쳐 및 형상에 기초하여 상기 목표 나이에서의 얼굴을 생성하는 단계(S340)를 수행하도록 구성된다.

나이변환부(30)는 나이변환 얼굴 영상을 생성하기 위해 원본영상에 포함된 원본얼굴로부터 랜드마크를 추출한다(S310).

단계(S310)에서, 얼굴의 랜드마크의 추출은 원본영상 내 원본얼굴에 해당하는 얼굴 영역을 결정한 이후에 수행될 수 있다. 이 경우, Haar, NN(Neural Network), SVM(Support Vector Machine), Gabor, SIFT 등과 같은, 영상으로부터 특정 영역을 검출하는 다양한 영역 검출 기법을 이용할 수 있으나, 이에 제한되진 않는다.

상기 랜드마크는 눈, 코, 입, 귀 등과 같은 얼굴 해부학적 특징에 연관된 정보이다. 상기 랜드마크는 얼굴 내에서 일정한 상대 위치를 가지며, 얼굴 포즈에 따른 기하학적 관계의 변함이 적다. 여기서, 포즈는 얼굴의 표정, 또는 얼굴의 회전 방향, 기울임 각도 등을 나타낸다.

일 실시예에서, 상기 랜드마크는 눈의 중심, 코의 중심, 양 입 끝점, 얼굴 윤곽 중 간격이 가장 넓은 위치의 점, 턱 윤곽의 중심 등과 같이, 얼굴을 구별하기 위한 특성을 나타내는 점으로 추출될 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 68개의 랜드마크 점을 포함한 랜드마크 세트가 추출될 수 있다.

단계(S310)에서, 상기 랜드마크는 얼굴 영역에서 얼굴의 랜드마크를 검출할 수 있는 다양한 랜드마크 추출 알고리즘에 의해 추출될 수 있다. 상기 랜드마크 추출 알고리즘은, 예를 들어, ACM(Active Contour Model), ASM(Active Shape Model), AAM(Active Appearance model), SDM(Supervised Descent Method) 또는 뉴럴 네트워크 등을 포함하나, 이에 제한되지 않는다. 나이변환부(30)는 얼굴 영역에서 얼굴의 랜드마크들을 검출할 수 있으나, 이에 제한되진 않는다.

직업영상 생성 장치(1)는 나이변환부(30)를 통해 원본얼굴의 랜드마크의 위치 정보 및 식별 정보를 더 획득할 수 있다. 여기서 식별 정보는 각 랜드마크가 정의하는 해부학적 얼굴 특징의 정의를 포함한다. 예를 들어, 제1 랜드마크의 식별정보는 눈의 중심을 의미하는 정보를 포함하고, 제2 랜드마크의 식별정보는 입의 왼쪽 끝 점을 의미하는 정보를 포함할 수 있다.

추출된 랜드마크로부터 2차 정보가 더 획득될 수 있다. 예를 들어, 나이변환부(30)는 델로니 삼각형(Delaunay triangles)을 이용하여 랜드마크 사이의 거리 정보를 더 획득할 수 있다.

나이변환부(30)는 상기 랜드마크가 추출된 원본얼굴(즉, 단계(S310)의 얼굴)로부터 상기 목표 나이에서의 얼굴 텍스쳐(texture)를 생성한다(S320).

상기 목표 나이에서의 텍스쳐는 상기 대상이 목표 나이가 되었을 경우 예상되는 얼굴 텍스쳐이다. 얼굴 텍스쳐는 관심 영역의 질감을 나타내는 정보로서, 텍스쳐는 얼굴 구성요소 별로 고유하기 때문에, 나이 변환에 활용하기 적합한 요소이다. 일 실시예에서, 텍스쳐는 패턴 데이터로 표현될 수 있다.

나이변환부(30)는 상기 랜드마크가 추출된 원본얼굴의 텍스쳐(즉, 원본 나이에서의 텍스쳐)를 추출하고(S321), 상기 원본나이에서의 텍스쳐를 미리 학습된 텍스쳐 변환 모델에 적용하여 목표 나이에서의 얼굴 텍스쳐를 생성한다(S323).

일 실시예에서, 원본나이에서의 텍스쳐는 무모양 얼굴 텍스쳐일 수 있다. 나이변환부(30)는 원본영상의 얼굴 모양을 추출하고, 상기 원본영상의 얼굴의 평균 모양을 산출하며, 상기 평균 모양을 갖는 얼굴의 텍스쳐를 무모양 얼굴 텍스쳐로 생성한다(S321). 모양에 대한 나이변환 처리는 아래의 단계(S330)에서 수행되기 때문이다.

일 실시예에서, 상기 텍스쳐 변환 모델은 각각의 특정 나이에서의 얼굴 텍스쳐를 출력하도록 모델링된, 복수의 서브 모델을 포함한다. 예를 들어, 상기 장치(1)가 나이변환 요청에 응답하여 미리 설정된 하나의 목표 나이로 (예컨대, 40세로) 나이변환 처리하도록 구성된 경우, 상기 텍스쳐 변환 모델은 40세에서의 얼굴 텍스쳐를 출력하도록 구성될 수 있다. 한편, 상기 장치(1)가 나이변환 요청에 응답하여, 상기 요청에 포함된 목표 나이(예컨대, 25세, 또는 60세 등)로 나이변환 처리하도록 구성된 경우, 상기 텍스쳐 변환 모델은 해당 목표 나이에서의 얼굴 텍스쳐를 출력하도록 구성된 서브 모델을 포함한다. 이 경우, 상기 장치(1)는 나이변환 요청을 수신하기 이전에, 변환 가능한 나이 범위에 대한 정보를 사용자에게 제공하도록 더 구성된다.

상기 텍스쳐 변환 모델(또는 서브 모델)은 영상을 생성하면서 하나의 클래스에 대하여 학습 가능한 기계 학습 모델이다. 상기 텍스쳐 변환 모델은, 예를 들어 도 2에 도시된 바와 같이 GAN(Generative Adversarial Network) 기반 모델일 수 있으나, 이에 제한되진 않는다.

이하 설명의 명료성을 위해, GAN 구조를 갖는, 특정 나이로 텍스쳐를 변환하도록 구성된 서브 모델을 이용하여 텍스쳐 변환 과정을 설명한다.

상기 GAN 구조를 갖는 서브 모델은 생성기(generator) 및 판별기(discriminator)를 포함한다. 상기 생성기는 입력 데이터에 노이즈를 적용하여 새로운 데이터를 출력하도록 구성된다. 상기 생성기는 실제 데이터와 유사한 데이터를 생성함으로써 판별기를 속여 그 유사한 데이터를 실제 데이터로 판별하게 하는 것을 목표로 가진다. 판별기는 상기 실제 데이터와 생성기의 출력 데이터를 식별하는 것을 목표로 가진다.

학습이 진행되면, 생성기와 판별기는 각각의 목표를 달성하기 위해 모델 내 파라미터를 갱신한다. 상기 판별기는 실수할 확률을 낮추기 위해 학습하고, 생성기는 임의의 노이즈로부터 출력한 데이터에 대해서 판별기가 실수할 확률을 높이기 위해 학습한다. 즉, 생성기와 판별기는 전술한 minimax problem을 풀기 위해 학습된다.

이러한 학습 과정에서 판별기는 입력 값의 정답(즉, 훈련 데이터)로부터 피드백을 받고, 생성기는 판별기로부터 피드백을 받는다. 이러한 GAN 구조의 모델을 학습하는 과정은 비특허문헌 1(Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks")에 개시되어 있는 바, 자세한 설명은 생략한다.

상기 텍스쳐 변환 모델은 복수의 텍스쳐 훈련 샘플을 이용하여 기계 학습된다. 각 텍스쳐 훈련 샘플은 특정 나이에서의 훈련 대상의 얼굴 텍스쳐를 각각 포함한다. 또한, 각 텍스쳐 훈련 샘플은 상기 훈련 대상의 나이를 나타내는 제1 라벨링 데이터 및 훈련 대상의 성별을 나타내는 제2 라벨링 데이터를 더 포함할 수 있다.

일부 실시예에서, 상기 텍스쳐 훈련 샘플은 상기 특정 나이를 갖는 훈련 대상의 얼굴로부터 획득된 무모양 얼굴 텍스쳐를 적어도 일부 포함한다.

일 실시예에서, 상기 텍스쳐 변환 모델이 복수의 서브 모델을 포함할 경우, 상기 텍스쳐 변환 모델은 복수의 텍스쳐 훈련 샘플 세트를 이용하여 기계 학습된다. 각각의 서브 모델별 텍스쳐 훈련 샘플 세트는 서브 모델에 해당하는 특정 나이에서의 훈련 대상의 얼굴 텍스쳐를 포함한다. 일부 실시예에서, 각 텍스쳐 훈련 샘플 세트는 해당 나이를 갖는 훈련 대상의 얼굴로부터 획득한 무모양 얼굴 텍스쳐를 적어도 일부 포함한다.

또한, 상기 일부 실시예에서, 각 텍스쳐 훈련 샘플은 특정 서브 모델에 해당하는 특정 나이를 나타내는 제1 라벨링 데이터 및 훈련 대상의 성별을 나타내는 제2 라벨링 데이터를 더 포함할 수 있다.

이와 같이 각 서브 모델별로 사용되는 각각의 텍스쳐 훈련 샘플 세트는 동일한 특정 나이를 갖는 훈련 대상의 정보를 포함하므로, 각 서브 모델은 동일한 특정 나이를 갖는 훈련 샘플을 통해 학습된다. 따라서, 각 서브 모델은 해당 특정 나이에 연관되며, 결국 상기 장치(1)는 목표 나이에 연관된 서브 모델을 검색할 수 있다.

한편, 각 서브 모델은 소정 범위를 갖는 연령대의 나이에 연관되도록 학습될 수 있다. 이 경우, 각 서브 모델에 사용되는 각각의 훈련 샘플 세트는 해당 연령대에 속하는 훈련 대상의 정보를 사용하여 학습된다.

상기 GAN 구조를 갖는 서브 모델이 특정 나이에서의 복수의 텍스쳐 훈련 샘플을 포함한 텍스쳐 훈련 샘플 세트로 학습되는 경우, 복수의 텍스쳐 훈련 샘플 중 적어도 일부가 실제 데이터로 사용될 수 있다.

충분히 학습되어 학습 완료된 생성기는 입력 데이터와 최대한 가까운 데이터를 출력하도록 구성되므로, 상기 미리 학습된 서브 모델은 목표 나이에서의 텍스쳐를 출력할 수 있다. 여기서, 가까운 출력 데이터는 목표 나이를 실제로 갖는 사람의 얼굴 텍스쳐와 (예컨대, 특징 벡터 등의) 벡터 간격이 최소가 되는 데이터이다. 상기 생성기는 입력 데이터를 특정 나이에서의 데이터의 분포를 갖도록 변환시키고, 변환된 데이터를 출력한다.

따라서, 목표 나이가 특정 나이인 경우, 생성기에서 출력되는 특정 나이에서의 변환 텍스쳐를 목표 나이에서의 텍스쳐로 사용할 수 있다.

일부 실시예에서, 무모양(shape free) 얼굴 텍스쳐를 텍스쳐 훈련 샘플로 사용한 경우, 상기 생성기는 목표 나이에서의 무모양 얼굴 텍스쳐에 가까운, 변환된 무모양 얼굴 텍스쳐를 출력한다.

다른 일 실시예에서, 상기 텍스쳐 변환 모델(또는 서브 모델)은 cycleGAN 기반 모델일 수 있다.

cycleGAN은 쌍을 이루지 않는 데이터로 학습되는 모델이다. CycleGAN은 두 생성기를 포함하며, 각각의 생성기는 서로 다른 도메인으로 변환한 데이터를 출력한다. 이를 위해, 각 생성기의 노이즈는 서로 상이할 수 있다. cycleGAN의 판별기는 각 생성기가 출력한 상이한 도메인의 데이터를 각각 식별하는 것을 목적으로 한다.

cycleGAN 구조를 갖는 서브 모델은 두 개의 생성기를 가지므로, 순환 일관성(cycle consistency)에 더 기초하여 학습된다. 상기 순환 일관성은 제1 도메인에서 제2 도메인으로 변환된 데이터를 다시 제1 도메인으로 변환하면, 이전에 제1 도메인에서 생성된 영상으로 변환되어야 한다는 것이다.

이와 같이, cycleGAN 기반 텍스쳐 변환 모델을 이용할 경우, 쌍을 이루는 데이터 세트를 준비할 필요가 없게 되어, 얼굴의 나이 변환 모델을 보다 쉽게 모델링할 수 있다.

상기 cycleGAN 기반 텍스쳐 변환 모델(또는 서브 모델)의 학습 과정 및 학습에 사용되는 훈련 샘플은 상기 GAN 기반 텍스쳐 변환 모델(또는 서브 모델)과 유사하므로 자세한 설명은 생략한다.

단계(S321) 이후, 나이변환부(30)는 상기 목표 나이에 대하여 미리 학습된 텍스쳐 변환 모델에 상기 무모양 얼굴 텍스쳐를 입력 데이터로 적용하여 변환된 목표 나이에서의 무모양 얼굴 텍스쳐를 생성한다(S323).

일 실시예에서, 나이변환부(30)는 특정 목표 나이를 수신한 뒤, 미리 학습된 텍스쳐 변환 모델에 포함된, 다수의 특정 나이에 대하여 각각 학습된 서브 모델 중에서 상기 목표 나이에 대하여 미리 학습된 서브 모델을 검색한다.

그러면, 나이변환부(30)는 검색된 서브 모델에 랜드마크가 추출된 원본영상의 무표정 얼굴 텍스쳐를 입력 데이터로 적용하여, 목표 나이에서의 무모양 얼굴 텍스쳐를 생성한다(S323).

한편, 위에서는 복수의 서브 모델을 포함한 텍스쳐 변환 모델을 사용하는 실시예로 목표 나이에서의 얼굴 텍스쳐를 생성하는 과정을 설명하였으나, 본 발명의 목표 나이에서의 얼굴 텍스쳐를 생성하는 과정은 이에 제한되지 않는다.

이와 같이 본 발명의 일부 실시예에서 텍스쳐 변환 모델은 두 도메인으로 변환이 가능한 GAN 기반 또는 cycleGAN 기반 서브 모델을 복수 개 포함하도록 구성될 수 있다.

한편, 다른 일 실시예에서 텍스쳐 변환 모델은 단일 모델 구조로서, 복수의 나이에서의 얼굴 텍스쳐를 출력하도록 구성될 수 있다. 일부 실시예에서, 상기 복수의 나이는 복수의 군집에 대응하는 나이일 수 있다. 상기 복수의 군집은 연령대(예컨대, 20대, 30대, 40대 등)일 수 있다. 단일 모델 구조의 텍스쳐 변환 모델은 입력 데이터를 복수의 연령대 나이에서의 얼굴 텍스쳐로 변환할 수 있다. 이 경우, 단일 모델 구조의 텍스쳐 변환 모델은, 20대에 대응하는 나이(예컨대, 25세)에서의 얼굴 텍스쳐, 30대에 대응하는 나이(예컨대, 35세)에서의 얼굴 텍스쳐, 40대에 대응하는 나이(예컨대, 45세)에서의 얼굴 텍스쳐 등을 생성할 수 있다.

상기 단일 모델 구조의 텍스쳐 변환 모델은 복수의 나이 각각에 대응하는 복수의 훈련 샘플 세트를 통해 학습된다. 각 훈련 샘플 세트는 특정 나이를 갖는 훈련 대상의 얼굴 영상, 및 상기 훈련 대상의 나이를 나타내는 제1 라벨링 데이터 및 훈련 대상의 성별을 나타내는 제2 라벨링 데이터를 포함할 수 있다. 상기 복수의 나이가 복수의 군집에 대응하는 나이일 경우, 각 훈련 샘플 세트는 해당 군집에 속하는 훈련 대상의 얼굴 영상을 포함한다.

일 실시예에서, 상기 단일 모델 구조의 텍스쳐 변환 모델은 입력 데이터를 복수의 도메인으로 변환하는 기계 학습 모델로 구성되고, 이를 위한 알고리즘을 통해 학습된다. 예를 들어, 상기 단일 모델 구조의 텍스쳐 변환 모델은 conditional GAN(cGAN) 기반 모델일 수 있다. 상기 cGAN 기반 모델은 GAN 기반 모델과 유사하나, 생성기와 판별기에 특정 조건(condition)을 나타내는 정보(y)를 가해지는 점이 특징이다. GAN 구조에서 생성기는 노이즈를 적용하여 변환한다. cGAN 구조에서 생성기는 노이즈 및 정보(y)를 적용하여 변환한다. 여기서 상기 정보(y)는 복수의 나이 각각을 나타내는 클래스 라벨(class label)일 수 있다. 예를 들어, 연령대를 각각 나타내는 클래스 라벨일 수 있다.

상기 cGAN 기반 모델을 학습하는 과정은 비특허문헌 2(Mehdi Mirza, Simon Osindero, (2014) “Conditional Generative Adversarial Nets”에 의해 개시되어 있으므로, 본 명세서에서 자세한 설명은 생략한다.

일 실시예에서, 나이변환부(30)는 단계(S321)에서 랜드마크가 추출된 원본영상의 무표정 얼굴 텍스쳐를 입력 데이터로 단일 모델 구조의 텍스쳐 변환 모델에 적용한다. 상기 단일 모델 구조의 텍스쳐 변환 모델은 복수의 나이에서의 얼굴 텍스쳐를 생성한다. 나이변환부(30)는 복수의 나이에서의 얼굴 텍스쳐 중 목표 나이에서의 얼굴 텍스쳐를 선택한다(S323). 이를 위해, 상기 장치(1)는 목표 나이를 미리 수신한다. 나이변환부(30)는 상기 목표 나이에 매칭하는 나이에서의 얼굴 텍스쳐를 나이변환 영상을 생성하는데 사용한다.

또한, 나이변환부(30)는 상기 랜드마크가 추출된 원본얼굴로부터 상기 목표 나이에서의 얼굴 모양(shape)을 생성한다(S330).

이를 위해, 나이변환부(30)는 상기 원본영상의 얼굴(즉, 원본얼굴)의 랜드마크에 기초하여 상기 원본영상의 얼굴 모양 특징을 추출한다(S331).

상기 얼굴 모양 특징은 얼굴 모양과 관련된 특징으로서, 영상으로부터 모양과 관련된 특징을 추출하기 위한 다양한 특징 추출 알고리즘을 이용하여 추출된다. 상기 특징 추출 알고리즘은, 예를 들어, PCA를 포함하나, 이에 제한되진 않는다.

추출된 얼굴 모양 특징은 다양한 유형의 값으로 표현될 수 있다. 일 실시예에서, 상기 얼굴 모양 특징은 특징 벡터로 추출될 수 있다. N개의 얼굴 모양 특징이 추출되는 경우, 상기 특징 벡터는 N차원으로 구성된다.

나이변환부(30)는 상기 원본영상의 얼굴 모양 특징 및 미리 학습된 모양 변환 모델을 이용하여, 요청나이에서의 얼굴 모양 특징을 생성한다. 상기 모양 변환 모델은 원본나이에서의 얼굴 모양 특징을 적용하면 요청나이에서의 얼굴 모양 특징을 출력하도록 미리 학습된다.

모양 변환 모델은 나이와 해당 나이에서의 얼굴 모양 특징 간의 관계를 모델링하여 생성되었다.

일 실시예에서, 상기 모양 변환 모델은 상기 목표 나이에서의 나이 함수 값과 상기 원본나이에서의 나이 함수 값 간의 차이 및 상기 원본영상의 얼굴 모양 특징(예컨대, 단계(S331)의 얼굴 모양 특징)에 기초하여 상기 목표 나이에서의 대상의 얼굴 모양 특징을 산출하도록 모델링된다.

예를 들어, 상기 모양 변환 모델은, N개의 차원의 얼굴 모양 특징이 추출되는 경우, 아래의 수학식으로 표현될 수 있다.

여기서, i는 N이하의 자연수로서, a_i ^new는 목표 나이에서의 제i 얼굴 모양 특징(예컨대, 특징 벡터 값)을 나타내고, a_i ^org는 상기 원본 나이에서의 제i 얼굴 모양 특징(예컨대, 특징 벡터 값)을 나타내며, age_new는 목표 나이, age_org는 원본 나이, f_i ^ap 는 제i 얼굴 모양 특징(i-th facial shape feature)에 대한 나이 함수를 나타낸다.

도 4는, 본 발명의 일 실시예에 따른, 얼굴 모양 특징에 대한 나이함수를 결정하는 과정을 설명하기 위한 도면이다.

도 4를 참조하면, N차원의 얼굴 모양 특징이 추출된 경우, 각각의 얼굴 모양 특징에 대한 나이 함수는 해당 얼굴 모양 특징을 갖는 훈련 대상(training subject)의 나이와의 관계를 모델링하여 결정된다.

즉, 복수의 얼굴 모양 특징에 대한 나이 함수는 복수의 모양 훈련 샘플 세트를 이용하여 각각 학습된다. 각각의 모양 훈련 샘플 세트는 훈련 대상의 얼굴 모양 특징, 및 상기 훈련 대상의 나이를 라벨링 데이터로 포함한 해당 나이에서의 복수의 모양 훈련 샘플을 포함한다.

여기서, 복수의 모양 훈련 샘플 세트에 연관된 나이는 도 4에 도시된 바와 같이 1세 내지 80세 사이의 나이를 갖는 사람과 같이, 다양한 나이를 포함한다.

상기 훈련 대상의 얼굴 모양 특징은 해당 나이에서의 훈련 대상의 얼굴 영상으로부터 획득한 얼굴 모양 특징이다. 일 실시예에서, 상기 얼굴 모양 특징은 모양과 관련된 특징 벡터로서, N차원(여기서, N은 1 이상의 정수)의 특징 벡터를 포함할 수 있다.

도 4에 도시된 제1 모양 훈련 샘플은 제1 훈련 대상의 나이 정보(도 4의 3세), 및 제1 훈련 대상의 얼굴 모양 특징({a₁, a₂, a₃, …a_M})을 포함한다. 제2 모양 훈련 샘플은 제2 훈련 대상의 나이 정보(도 4의 3세) 및 제2 훈련 대상의 얼굴 모양 특징({a₁, a₂, a₃, …a_M})을 포함한다.

각 얼굴 모양 특징에 대한 나이 함수는 각각의 모양 특징에 있어서 훈련 대상의 나이 정보의 분포에 기초하여 결정된다. 따라서, 모양 변환 모델에 포함된 나이 함수는 모양 특징의 차원에 의존한다.

각 모양 특징 벡터에 대한 나이 함수는 규칙성에 대한 정보가 없는 분포된 정보에서 규칙성을 결정하는 다양한 적합 알고리즘(fitting algorithm)을 이용하여 결정된다.

예를 들어, i번째 모양 특징에 대한 나이 함수(즉, 제i 나이 함수)는 3D 다항 적합(polynomial fitting) 알고리즘에 의해 근사화되나, 이에 제한되진 않는다. 근사화에 의해 결정된 각각의 나이 함수는 도 4에 도시된 바와 같이, 특징 구성요소-나이 그래프 도면(plot)에서 연속선으로 표현된다.

그 결과, 제1 모양 특징(a₁)에 대한 복수의 훈련 대상의 나이 분포로부터 도 4에 도시된, 제1 모양 특징(a₁)에 대한 나이 함수가 결정된다. 또한, 제3 모양 특징(a₃)에 대한 복수의 훈련 대상의 나이 분포로부터 도 4에 도시된, 제3 모양 특징(a₃)에 대한 나이 함수가 결정된다.

이와 같이, 전체 m개의 나이 함수가 목표 나이에서의 m개의 특징 구성요소를 위해 훈련된다.

도 5는, 도 4의 과정에 의해 훈련된 제2 모양 특징에 대한 나이 함수를 도시한 도면이다.

도 4의 나이 함수 생성 과정에 의해, 제2 모양 특징(a₂)에 대한 나이 함수가 결정될 수 있다.

도 5 및 수학식 1을 참조하면, 상기 원본영상에 연관된 나이가 10세이고, 요청나이가 80세인 경우, 80세에서의 제2 모양 특징에 대한 나이 함수 값은 f₂ ^ap(80)이고, 10세에서의 제2 모양 특징에 대한 나이 함수 값은 f₂ ^ap(10)이다.

그러면, 미리 학습된 모양 변환 모델은 도 5의 제2 모양 특징에 대한 나이 함수(f₂ ^ap)와 상기 원본영상의 얼굴로부터 추출한 제2 모양 특징(a₂ ¹⁰)에 기초하여 상기 80세에서의 제2 모양 특징에 대한 출력 값(a₂ ⁸⁰)을 산출할 수 있다.

이와 같이, 나이변환부(30)는 미리 학습된 모양 변환 모델을 이용하여 상기 목표 나이에서의 얼굴 모양 특징(예컨대, 제1 내지 제N 얼굴 모양 특징 세트)를 산출할 수 있다(S333).

나이변환부(30)는 모양 변환 모델에 의해 출력된 목표 나이에서의 얼굴 모양 특징을 복원하여 상기 목표 나이에서의 얼굴 모양을 생성할 수 있다.

예를 들어, 목표 나이에서의 얼굴 모양 특징 벡터 세트가 출력된 경우, 각각의 얼굴 모양 특징 벡터 값을 복원함으로써 상기 목표 나이에서의 얼굴 모양을 생성한다(S335).

나이변환부(30)는 상기 목표 나이에서의 얼굴 모양을 생성하기 위해, 다양한 복원 알고리즘을 이용할 수 있다. 상기 복원 알고리즘은, 예를 들어 PCA(Principal Component Analysis) 기반 복원 알고리즘을 포함할 수 있으나, 이에 제한되진 않는다.

나이변환부(30)는 목표 나이에서의 얼굴 모양에 목표 나이에서의 얼굴 텍스쳐를 와핑(warping)하여, 상기 목표 나이에서의 얼굴을 나이변환 얼굴로서 생성한다(S340).

전술한 실시예들에서 상기 모양 변환 모델 및 텍스쳐 변환 모델은 대상의 나이 보다 목표 나이가 더 많은 방향의 나이 변환에 대해서만 서술되었으나, 이에 제한되지 않는다.

모양 변환 모델의 나이 함수는 연속적이고 양방향의 나이 변환이 가능하도록 구성되기 때문에, 대상의 나이가 목표 나이 보다 어린 방향으로 나이변환된 얼굴 모양을 획득할 수 있다. 또한, 대상의 나이 및 목표 나이에 대한 서브 모델이 미리 학습된 경우, 어린 방향으로 나이변환된 얼굴 텍스쳐도 획득할 수 있다.

영상 합성부(50)는 상기 배경영상의 얼굴영역에 상기 목표 나이에서의 대상의 얼굴을 합성하여, 상기 대상이 목표 나이에 해당 직업을 가질 경우를 나타내는 직업영상을 생성한다. 즉, 영상 합성부(50)는 나이변환 영상에 포함된, 목표 나이에서의 대상의 얼굴영상 및 직업이 표현된 배경영상에 기초하여 상기 대상의 직업영상을 생성할 수 있다.

일 실시예에서, 배경영상은 사용자의 입력에 의해 선택될 수 있다. 이 경우, 영상 합성부(50)는 미리 저장된 배경영상 중 사용자의 입력에 대응하는 배경영상을 직업영상을 위한 배경영상으로 선택하고, 이를 사용한다.

다른 일 실시예에서, 배경영상은 원본영상 및/또는 나이변환 영상에 기초하여 자동으로 선택될 수 있다. 예를 들어, 배경영상은 원본영상의 영상 특성 및 나이변환 영상에서 얼굴 특성 중 하나 이상에 기초하여 선택될 수 있다.

상기 원본영상의 영상 특성은 조명, 해상도, 선명도 등을 포함한다. 영상 합성부(50)는 원본영상의 영상 특성을 산출하고, 유사한 특성을 갖는 배경영상을 직업영상을 위한 배경영상으로 선택한다. 영상 합성부(50)는, 예를 들어 영상의 밝기 분석 기법, 영상 품질 평가(image quality assessment) 기법 등을 통해 원본영상의 특성을 산출할 수 있다.

상기 나이변환 영상의 얼굴 특성은, 얼굴 형태(예컨대, 둥근형, 타원형 등), 헤어 특성(직모, 곱슬, 가르마 방향), 귀 모양, 이마 모양, 얼굴 포즈 등을 포함하나, 이에 제한되진 않는다. 영상 합성부(50)는 상기 나이변환 영상의 얼굴 특성을 산출하고, 유사한 특성을 갖는 배경영상을 직업영상을 위한 배경영상으로 선택한다. 영상 합성부(50)는, 예를 들어, 나이 변환 시 사용된 얼굴의 특징점 정보를 기반으로 얼굴 형태 및 얼굴 포즈를 산출할 수 있다. 또한, 영상 합성부(50)는, 예를 들어 영상 분할(image segmentation) 기법을 통해 귀 모양, 이마 모양, 헤어 특성 등을 산출할 수 있다.

일 실시예에서, 배경영상은 성별에 기초하여 더 선택될 수 있다. 배경영상의 헤어스타일, 의상 등은 성별에 따라 상이할 수 있어, 대상의 성별과 동일한 성별이 나타난 배경영상을 선택하는 것이 자연스러운 합성 영상을 생성하는데 요구된다.

일부 실시예에서, 배경영상을 선택하기 위한 사용자 입력은 성별을 선택하는 입력을 포함할 수 있다. 예를 들어, 상기 장치(1)는 배경영상의 성별을 선택하게 하는 인터페이스를 우선 제공한 이후에, 선택된 성별을 갖는 직업영상을 선택하게 하는 인터페이스를 제공할 수 있다.

다른 일부 실시예에서, 상기 장치(1)가 대상의 성별을 수신한 경우, 상기 대상의 성별에 대응하는 성별을 갖는 배경영상을 선택하게 하는 인터페이스를 제공하도록 구성될 수 있다. 즉, 배경영상의 성별을 선택하는 입력이 별도로 요구되지 않는다.

선택된 배경영상의 얼굴과 목표 나이에서의 얼굴은 크기, 골격과 같은 신체 구조 특성의 차이, 또는 얼굴 각도, 방향 등 포즈의 차이를 가질 수 있다. 이 경우, 배경영상의 얼굴에 목표 나이에서의 얼굴을 그대로 합성할 경우 사용자가 보기에 부자연스러운 직업영상이 생성된다. 영상 합성부(50)는 배경영상의 얼굴과 목표 나이에서의 얼굴을 매칭시킴으로써 자연스러운 직업영상을 생성하도록 구성된다.

일 실시예에서, 영상 합성부(50)는 배경영상의 얼굴 및/또는 목표 나이에서의 얼굴에서 랜드마크를 추출할 수 있다. 직업영상 생성 장치(1)는 영상 합성부(50)를 통해 배경영상의 얼굴의 랜드마크의 위치 정보 및 식별 정보, 목표 나이에서의 얼굴의 랜드마크의 위치 정보 및 식별 정보를 더 획득할 수 있다. 여기서 식별 정보는 각 랜드마크가 의미하는 해부학적 얼굴 특징을 포함한다.

영상 합성부(50)의 랜드마크 추출 동작은 나이변환부(30)의 랜드마크 추출 동작과 유사하게 수행되므로, 자세한 설명은 생략한다.

또한, 영상 합성부(50)는 영상 합성을 위해, 랜드마크 간의 매핑, 얼굴 모양의 와핑, 합성 영역의 이식 등 다양한 동작을 수행하도록 구성된다

영상 합성부(50)는 나이변환 영상의 얼굴의 랜드마크를 배경영상의 얼굴 영역에 매핑하도록 구성된다.

일 실시예에서, 영상 합성부(50)는 나이변환 영상의 얼굴의 랜드마크(shp_sim)가 의미하는 해부학적 얼굴 특징에 기초하여 배경영상의 얼굴 영역에 매핑을 수행할 수 있다. 영상 합성부(50)는 동일한 해부학적 얼굴 특징을 의미하는 배경영상의 랜드마크와 목표 나이에서의 얼굴의 랜드마크를 각각 매핑한다. 예를 들어, 나이변환 영상의 얼굴(즉, 목표 나이에서의 대상의 얼굴)에서 추출된 입술의 왼쪽 끝에 해당하는 랜드마크는 배경영상의 얼굴에서 추출된 입술의 왼쪽 끝에 해당하는 랜드마크에 매핑된다.

일 실시예에서, 영상 합성부(50)는 각 랜드마크 간의 위치를 적어도 일부 최소화함으로써, 상기 나이변환 영상의 얼굴의 랜드마크를 배경영상의 얼굴 영역에 매핑할 수 있다. 매핑 이후 배경영상의 얼굴 영역은 기존의 랜드마크(shp_bg) 세트 및 매핑된 랜드마크(shp_sim_t) 세트를 포함한다.

이러한 매핑 동작으로 인해, 배경영상의 얼굴 구성요소의 위치와 나이변환 영상의 얼굴 구성요소의 위치가 매칭되어, 포즈 등의 차이로 인해 발생하는 얼굴 영역 간의 합성의 부자연스러움이 최소화된다.

또한, 영상 합성부(50)는 나이변환 영상의 얼굴을 배경영상의 얼굴에 매칭시키도록 구성된다.

일 실시예에서, 영상 합성부(50)는 나이변환 영상의 얼굴 텍스쳐를 매핑된 랜드마크(즉, 매핑된 랜드마크(shp_sim_t)의 위치)를 기반으로 와핑하도록 구성된다. 예를 들어, 영상 합성부(50)는 나이변환 영상의 얼굴 텍스쳐를 매핑된 랜드마크에 기반하는 얼굴 모양으로 와핑할 수 있다.

도 3을 참조하여 전술한 바와 같이, 얼굴 텍스쳐 특징이 랜드마크에 기초하여 추출되므로, 얼굴 텍스쳐는 랜드마크에 연관되어 표현되어 있다.

영상 합성부(50)는 나이변환 영상의 얼굴의 랜드마크(shp_sim)를 기반으로 구성된 나이변환 영상의 얼굴 텍스쳐를매핑된 랜드마크(shp_sim_t)로 와핑한다. 이러한 와핑은 배경영상 내 매핑된 랜드마크의 상대적 위치 및 나이변환 영상 내 대상의 얼굴의 랜드마크의 상대적 위치에 기초하여 수행된다.

상기 와핑에 의해, 매핑된 랜드마크(ship_sim_t)에 기초하여 배경영상의 얼굴 텍스쳐 및/또는 얼굴 모양과 나이변환 영상의 얼굴 텍스쳐 및/또는 얼굴 모양이 매칭된다.

영상 합성부(50)는 영상을 벤딩(bending), 와핑할 수 있는 다양한 영상 편집 기법을 통해 배경영상의 얼굴 모양과 나이변환 영상의 얼굴 모양을 매칭시킬 수 있다. 상기 영상 편집 기법은 passion image editing 등을 포함하나, 이에 제한되지 않는다.

이러한 얼굴 모양의 매칭으로 인해, 대상의 얼굴이 갖는 고유한 텍스쳐 특성 및/또는 모양 특성이 배경영상의 사람의 얼굴이 갖는 고유한 텍스쳐 특성 및/또는 모양 특성에 매칭되어, 배경영상의 얼굴 이외 영역(즉, 배경영역)과 나이변환 영상의 얼굴 영역 간의 합성의 부자연스러움이 최소화된다.

또한, 영상 합성부(50)는 배경영상의 얼굴 텍스쳐를 배경영상에 매핑된 나이변환 영상의 얼굴의 랜드마크(즉, 매핑된 랜드마크(shp_sim_t))의 위치로 와핑하도록 더 구성된다. 예를 들어, 영상 합성부(50)는 배경영상의 얼굴 텍스쳐를 매핑된 랜드마크를 기반하는 얼굴 모양으로 와핑한다.

영상 합성부(50)는 와핑된 배경영상의 얼굴의 랜드마크(shp_bg_t) 세트에 기초하여 합성 영역 마스크를 생성한다.

합성 영역 마스크는 마스크 내부 영역의 데이터를 필터링하도록 구성된다. 영상 합성부(50)는 상기 합성영역 마스크를 얼굴 모양이 매칭되게 와핑된 나이변환 영상에 적용하여 이미 모양이 매칭된 목표 나이에서의 대상의 얼굴 영역을 필터링하고, 상기 필터링된 대상의 얼굴 영역을 상기 배경영상의 얼굴 영역에 이식할 수 있다. 상기 이식은 배경영상 내 마스크 영역에 해당하는 영상 위에 겹쳐지거나, 또는 배경영상 내 마스크 영역에 해당하는 영상을 대체하는 것과 같은, 배경영상이 필터링된 영상을 포함하도록 편집되는 모든 동작을 지칭한다.

상기 랜드마크(shp_bg_t) 세트와 상기 랜드마크(shp_sim_t) 세트는 동일하므로, 상기 합성 영역 마스크는 배경영상 및 나이변환 영상 내에서 동일한 영역을 합성영역으로 필터링할 수 있다.

대안적인 실시예에서, 상기 랜드마크(shp_bg_t) 세트와 상기 랜드마크(shp_sim_t) 세트는 동일하므로, 합성 영역 마스크는 랜드마크(ship_sim_t) 세트에 기초하여 생성될 수 있다.

상기 이식 결과, 영상 합성부(50)는 직업영상을 생성한다.

이와 같이, 영상 합성부(50)는 와핑된 나이변환 영상 및 합성영역 마스크를 이용하여 배경영상에 나이변환된 얼굴 영역을 합성하여 직업영상을 생성할 수 있다.

일 실시예에서, 단계(S520 또는 S540)을 위해, 상기 장치(1) 또는 상기 방법을 수행하기 위한 컴퓨팅 장치는 직업 선택 화면 및 입력을 수신받기 위한 인터페이스를 제공하도록 구성될 수 있다. 예를 들어, 상기 장치(1)는 과학자, 경찰, 소방관, 의사, 가수 등 다양한 직업 명칭을 포함한 선택 메뉴를 사용자에게 제공할 수 있다.

상기 장치(1)는 상기 선택 메뉴에 대한 직업 선택 명령을 입력 장치를 통해 수신하고, 이에 응답하여 선택된 직업에 연관된 배경 영상을 검색한다(retrieve)(S530).

추가적으로, 상기 목표 나이는 배경영상별로 미리 설정될 수 있다. 예를 들어, 의사의 경우 변환될 나이가 40세, 경찰의 경우 25세와 같이, 직업별로 미리 설정될 수 있다. 직업군, 업무, 직종, 근속년수, 연봉, 복지 등 직업 관련 특성에 따라 해당 직업을 종사하는 사람의 나이는 상이하기 때문이다.

이 경우, 상기 배경영상을 선택하기 위한 입력이 수신되면, 상기 배경영상에 대하여 미리 설정된 변환 나이가 목표 나이로 결정된다. 이 경우, 목표 나이 정보에 대한 입력은 불필요하므로, 단계(S520)에서의 목표 나이의 수행은 생략될 수 있다.

상기 목표 나이는 각 직업의 평균 연령으로 설정될 수 있다. 상기 장치(1)는 직업 관련 특성을 내부 저장 장치에 저장하고 있거나, 외부로부터 상기 목표 나이를 수신함으로써, 목표 나이로의 얼굴 변환을 수행할 수 있다.

추가적으로, 상기 목표 나이는 직업별로 복수일 수 있다. 직업선택에 큰 영향을 미치는 요소로서 해당 직업을 장기적으로 종사할 수 있는지 여부이다. 이를 위해, 각 직업에 대하여, 예를 들어 제1 목표 나이, 제2 목표 나이, 제3 목표 나이가 설정될 수 있다. 여기서 제1 목표 나이는 해당 직업 종사자에서 직급, 경력이 낮은 사람들의 나이(예컨대, 신입사원 평균 나이, 또는 경력 3년 이하의 평균 나이)를 나타내고, 제3 목표 나이는 직급, 경력이 매우 높은 사람들의 나이(예컨대, 임원급의 평균 나이, 경력 20년 이상의 평균 나이)를 나타내고, 제2 목표 나이는 제1 목표 나이와 제3 목표 나이 사이에 속하는 종사자들에 대응하는 나이를 나타낸다.

또한, 상기 장치(1)는 목표 나이가 직업별로 복수인 경우, 각각의 목표 나이에 연관된 배경 영상을 직업 영상을 생성하기 위해 사용할 수 있다. 동일 직업 내에서도 경력에 따라 하는 일, 복장, 환경 등이 변화하기 때문이다. 예를 들어, 경찰이 직업으로 선택된 경우, 상기 제1 목표 나이에 연관된 배경은 상기 제1 목표 나이 대의 직급을 나타내는 복장, 상기 직급을 가질 때 임무를 주로 수행하는 장소 등을 표현하도록 구성된다. 이러한 주로 수행하는 장소, 직급 등을 포함한, 각 직업에 대한 직업 특성 데이터는 다양한 직업 정보에 기초하여 통계적으로 분석된 결과를 이용한다.

상기 장치(1)는 단계(S2)의 얼굴 변환을 수행하기 이전에 그리고 단계(S3)의 직업 선택 명령을 수신한 이후에, 해당 직업에 대하여 단일의 목표 나이 또는 복수의 목표 나이를 결정할 수 있다.

상기 직업영상 생성 장치(1)가 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 본 출원의 기술분야에 속하는 통상의 기술자에게 명백할 것이다. 예를 들어, 데이터 엔트리를 위한 입력장치, 및 디스플레이, 인쇄 또는 다른 데이터 표시를 위한 출력장치, 데이터 또는 정보를 저장하는 기억장치를 포함하는, 본 명세서에 서술된 동작에 필요한 다른 하드웨어 요소를 포함할 수도 있다. 또한, 상기 장치(1) 또는 상기 장치(1)를 포함한 시스템은 다른 구성요소 사이를 연결하는 네트워크, 네트워크 인터페이스 및 프로토콜 등을 더 포함할 수 있다.

나이변환된 얼굴을 갖는 직업영상 생성 방법은 프로세서를 포함한 컴퓨팅 장치(예컨대, 상기 직업영상 생성 장치(1))에 의해 수행될 수 있다.

이하, 설명의 명료성을 위해서, 7세의 아이를 대상으로 가정하고, 목표 나이는 25세로 가정하여 직업영상 생성 방법을 보다 상세하게 서술한다. 그러나, 본 발명이 7세의 아이를 25세로 나이변환하는 것으로 제한되어 이해되지 않는 것이 통상의 기술자에게 명백할 것이다.

도 6은, 본 발명의 일 실시예에 따른, 직업영상 생성 방법의 흐름도이다.

도 6을 참조하면, 나이변환된 얼굴을 갖는 직업영상을 생성하는 방법은: 특정 나이에서의 대상의 얼굴을 포함한 원본영상을 수신하는 단계(S10); 상기 대상의 특정 나이 정보, 및 변환될 목표 나이 정보를 수신하는 단계(S20); 상기 특정 나이에서의 대상의 얼굴을 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계(S30); 직업이 표현된 배경영상을 선택하는 단계(S40); 상기 배경영상의 얼굴 영역에 상기 나이변환 얼굴을 합성하여 상기 대상의 직업영상을 생성하는 단계(S50)를 포함한다.

단계(S10 및 S20)에서, 직업영상을 생성하기 위한 나이변환 영상을 생성하는데 사용되는 데이터 및 정보가 획득된다. 예를 들어, 상기 7세 아이의 얼굴을 포함한 원본영상 데이터, 상기 대상의 나이에 해당하는 7세에 대한 정보, 및 상기 목표 나이에 해당하는 25세에 대한 정보가 수신된다.

단계(S30)에서, 상기 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴로 변환하여 대상의 나이변환 얼굴을 생성한다. 예를 들어, 상기 7세에서의 아이의 얼굴을 25세에서의 성인의 얼굴로 변환하여 상기 아이가 25세가 되었을 경우 가질 것으로 예상되는 나이변환 얼굴을 생성한다.

일 실시예에서, 상기 나이변환 얼굴(즉, 목표 나이에서의 대상의 얼굴)로 변환하는 단계는: 상기 원본영상의 대상의 얼굴로부터 랜드마크를 추출하는 단계; 상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 텍스쳐를 생성하는 단계; 상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 모양을 생성하는 단계; 및 상기 목표 나이에서의 대상의 얼굴 텍스쳐 및 얼굴 모양에 기초하여 상기 대상의 나이변환 얼굴을 생성하는 단계를 포함한다.

일 실시예에서, 상기 원본영상의 대상의 얼굴로부터 랜드마크를 추출하는 단계는 미리 설정된 랜드마크 추출 알고리즘을 통해 수행될 수 있다. 일부 실시예에서, 상기 랜드마크를 추출하기 이전에, 상기 원본영상에서 대상의 얼굴영역을 검출하는 단계가 먼저 수행될 수 있다.

일 실시예에서, 상기 목표 나이에서의 대상의 얼굴 텍스쳐를 생성하는 단계는: 상기 랜드마크가 추출된 원본영상의 대상의 얼굴(예컨대, 얼굴 영상)로부터 무모양 얼굴 텍스쳐를 생성하는 단계; 및 상기 무모양 얼굴 텍스쳐를 미리 학습된 텍스쳐 변환 모델에 적용하여 상기 목표 나이에서의 대상의 무모양 얼굴 텍스쳐를 생성하는 단계를 포함한다.

일 실시예에서, 상기 무모양 얼굴 텍스쳐는 상기 원본영상의 대상의 얼굴 모양을 평균 모양으로 변환한 데이터일 수 있다.

일 실시예에서, 텍스쳐 변환 모델은 목표 나이에서의 얼굴 텍스쳐를 출력하도록 미리 학습된다. 예를 들어, 텍스쳐 변환 모델은 25세에서의 얼굴 텍스쳐를 출력하도록 미리 학습된다.

일 실시예에서, 상기 텍스쳐 변환 모델은 GAN 기반 모델일 수 있다. 여기서, 상기 텍스쳐 변환 모델은 입력 데이터에 노이즈를 적용하여 상기 목표 나이에서의 얼굴 텍스쳐에 대응하는 변환 텍스쳐를 출력하도록 미리 학습된 생성기를 포함한다.

상기 생성기는 변환 텍스쳐 및 상기 변환 텍스쳐와 유사한 참조 데이터(즉, 실제 데이터)를 식별하는 판별기를 이용하여 미리 학습되었다.

상기 생성기는 실제 목표 나이에서의 얼굴 텍스쳐와 매우 유사하도록 변환된 텍스쳐를 출력하므로, 상기 생성기에서 출력된 변환 텍스쳐를 상기 목표 나이에서의 대상의 얼굴 텍스쳐로 사용할 수 있다. 즉, 상기 생성기는 목표 나이에서의 얼굴 텍스쳐에 해당하는 데이터를 출력하도록 구성된다.

상기 텍스쳐 변환 모델(예컨대, 생성기)은 복수의 훈련 샘플을 이용하여 생성되며, 각 훈련 샘플은 25세에서의 훈련 대상의 얼굴 텍스쳐를 포함한다.

일부 실시예에서, 텍스쳐 변환 모델은 상기 목표 나이에서의 얼굴 텍스쳐를 출력하도록 미리 학습된 상기 목표 나이에 대한 서브 모델을 포함할 수 있다. 예를 들어, 텍스쳐 변환 모델은 25세에서의 얼굴 텍스쳐를 출력하도록 미리 학습된 제1 서브 모델을 포함한다. 이 경우, 상기 서브 모델은 복수의 훈련 샘플로 이루어진 훈련 샘플 세트를 이용하여 생성되며, 각 세트는 해당 나이에서의 훈련 대상의 얼굴 텍스쳐, 해당 나이를 나타내는 제1 라벨링 데이터 및 훈련 대상의 성별을 나타내는 제2 라벨링 데이터를 포함한다. 텍스쳐 변환 모델은 서브 모델의 수에 의존하는 복수의 훈련 샘플 세트를 이용하여 미리 학습되었다.

다른 일 실시예에서, 상기 텍스쳐 변환 모델은 cycleGAN 기반 모델일 수 있다. 여기서, 상기 텍스쳐 변환 모델은 상기 목표 나이에서의 대상의 얼굴 텍스쳐를 생성하는 복수의 생성기(예컨대, 두 개)를 포함한다. 상기 복수의 생성기는 서로 다른 도메인으로 변환한 데이터를 출력하도록 구성된다. 상기 복수의 생성기는 각 생성기가 출력한 상이한 도메인의 데이터를 식별하도록 구성된 판별기를 이용하여 미리 학습되었다.

예를 들어, 두 개의 생성기는: 제1 도메인의 입력 데이터에 노이즈를 적용하여 제2 도메인의 변환 데이터를 출력하는 제1 생성기; 및 상기 제1 도메인의 입력 데이터에 노이즈를 적용하여 제3 도메인의 변환 데이터를 출력하는 제2 생성기로서, 순환 일관성을 충족하기 위해 각 생성기는 변환 데이터를 제1 도메인으로 데이터로 재-변환 시 상기 제1 도메인의 입력 데이터로 변환되도록 구성된다.

또 다른 일 실시예에서, 상기 미리 학습된 텍스쳐 변환 모델은 단일 입력 데이터로부터 복수의 나이에서의 얼굴 텍스쳐를 생성하는 단일 모델 구조의 텍스쳐 변환 모델일 수 있다. 이 경우, 목표 나이에서의 얼굴 텍스쳐는 복수의 나이에서의 얼굴 텍스쳐로부터 선택된다.

일부 실시예에서, 복수의 나이는 복수의 군집에 대응하는 나이일 수 있다. 예를 들어, 복수의 군집은 연령대(20대, 30대, 40대 등)일 수 있다.

상기 단일 모델 구조의 텍스쳐 변환 모델은 입력 데이터에 노이즈 및 조건 정보(y)를 적용하여 복수의 나이에서의 얼굴 텍스쳐를 생성한다. 여기서, 조건 정보(y)는 복수의 나이 각각을 나타내는 클래스 라벨(예컨대, 연령대별 나이를 나타내는 클래스 라벨)을 포함한다.

상기 단일 모델 구조의 텍스쳐 변환 모델은, 예를 들어 conditional GAN 기반 모델일 수 있으나, 이에 제한되진 않는다.

상기 모양 변환 모델은: 나이와 해당 나이에서의 훈련 대상의 얼굴 모양 특징 간의 관계를 모델링하여 생성된 것으로서, 상기 목표 나이에서의 나이 함수 값과 상기 원본나이에서의 나이 함수 값 간의 차이 및 상기 원본영상의 얼굴 모양 특징(예컨대, 단계(S331)의 얼굴 모양 특징)에 기초하여 모델링된다. 상기 모양 변환 모델은, 예를 들어, 상기 수학식 1로 표현될 수 있다.

상기 모양 변환 모델은, 상기 얼굴 모양 특징의 차원이 N차원인 경우(여기서, N은 1이상의 정수), 각 얼굴 모양 특징에 대한 나이 함수에 기초하여 모델링될 수 있다.

상기 모양 변환 모델은, 상기 목표 나이에서의 얼굴 모양 특징을 출력하도록 복수의 훈련 샘플 및 상기 목표 나이를 나타내는 라벨링 데이터를 이용하여 미리 학습된 모델로서, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함할 수 있다. 예를 들어, 상기 모앙 변환 모델은, 25세의 복수의 훈련 대상의 얼굴 모양을 이용하여, 25세에서의 얼굴 모양 특징을 출력하도록 미리 학습된다.

일부 실시예에서, 상기 모양 변환 모델이 복수의 나이 중 어느 하나의 나이에서의 얼굴 모양 특징을 출력하도록 구성된 경우, 상기 모양 변환 모델은 상기 복수의 나이 각각의 얼굴 모양 특징을 출력하도록 복수의 훈련 샘플 세트를 이용하여 미리 학습된 모델로서, 각 세트는 상기 복수의 나이 중 특정 나이에서의 복수의 훈련 샘플 및 상기 특정 나이를 나타내는 라벨링 데이터를 포함하며, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함할 수 있다.

일 실시예에서, 상기 대상의 나이변환 얼굴을 생성하는 단계는: 상기 목표 나이에서의 대상의 얼굴 모양에 상기 목표 나이에서의 얼굴 텍스쳐를 와핑(warping)하여, 상기 목표 나이에서의 얼굴을 나이변환 얼굴로서 생성하는 단계를 포함할 수 있다.

도 7은, 본 발명의 일 실시예에 따른, 나이변환 동작에 따른 결과를 예시적으로 도시한 도면이다.

도 7을 참조하면, 7세에서의 아이로서 대상의 얼굴을 포함한 원본영상이 25세에서의 성인으로서 대상의 얼굴로 변환된 나이변환 영상을 생성할 수 있다.

다시 도 6을 참조하면, 직업이 표현된 배경영상이 선택된다(S40). 배경영상은 상기 직업의 특성을 표현하도록 구성되며, 상기 대상과 상이한, 해당 직업을 갖는 사람의 얼굴의 적어도 일부를 포함할 수 있다. 예를 들어, 배경영상은 다른 사람이 해당 직업의 유니폼(예컨대, 경찰 유니폼, 또는 의사 가운)을 입은 사진일 수 있다.

일 실시예에서, 배경영상은 사용자가 원하는 배경영상을 선택하기 위한 입력을 수신하여 선택된다. 배경영상의 선택을 위한 입력이 수신되면, 입력에 매칭하는 배경영상을 미리 저장된 배경영상에서 검색한다. 그러면, 매칭된 배경영상이 직업영상을 생성하기 위해 사용된다(S40).

상기 배경영상의 선택을 위한 입력은 단계(S20)의 원본영상과 함께 수신되거나, 또는 나이변환 영상을 생성한 이후에 표시되는, 배경영상의 선택을 위한 인터페이스를 통해 수신될 수 있다.

단계(S30 및 S40) 이후, 선택된 배경영상의 얼굴 영역에 상기 나이변환 얼굴을 합성하여 상기 대상의 직업영상을 생성한다(S50).

도 8은, 본 발명의 일 실시예에 따른, 영상 합성 과정의 흐름도이다.

도 8을 참조하면, 영상 합성 과정은: 단계(S30)의 대상의 나이변환 얼굴의 랜드마크를 추출하고, 단계(S40)의 배경영상의 얼굴의 랜드마크를 추출한다(S510). 단계(S510)의 랜드마크 추출은 단계(S310)의 랜드마크 추출과 동일 또는 유사한 과정을 통해 수행된다.

도 9는, 본 발명의 일 실시예에 따른, 나이변환 영상 및 배경 영상의 랜드마크 추출결과를 도시한 도면이다.

도 9를 참조하면, 사용자가 직업영상을 생성하기 위해 선택된 직업은 경찰로서, 배경영상은 직업으로서 경찰을 표현하는 영상이다. 단계(S510)에서, 대상의 나이변환 얼굴 및 배경영상의 얼굴에서 복수의 랜드마크를 포함한 랜드마크 세트가 각각 추출된다.

일부 실시예에서, 배경영상의 얼굴의 랜드마크는 배경영상과 함께 미리 저장되어 있을 수 있다. 이 경우, 배경영상을 검색 시 검색된 배경영상에 연관된, 미리 저장된 랜드마크를 단계(S50)에서 사용할 수 있다.

추출된 각각의 랜드마크에 기초하여 나이변환 얼굴의 랜드마크를 상기 배경영상의 얼굴 영역에 매핑한다(S520).

도 10은, 본 발명의 일 실시예에 따른, 배경영상에 매핑된, 나이변환 영상의 랜드마크를 도시한 도면이다.

도 10을 참조하면, 도 9에 도시된, 나이변환 영상의 랜드마크가 배경영상에 매핑된다.

일 실시예에서, 단계(S520)의 매핑은 각각의 랜드마크가 의미하는 해부학적 얼굴 특징에 기초하여 수행된다.

매핑 이후, 나이변환 영상의 얼굴의 랜드마크의 위치를 상기 배경영상에 매핑된 랜드마크의 위치로 이동시킨다(S530). 그 결과, 상기 나이변환 영상의 얼굴 모양을 배경영상의 얼굴 모양과 매칭되도록 와핑할 수 있다.

도11은, 본 발명의 일 실시예에 따른, 배경영상의 얼굴의 랜드마크의 위치 이동 결과를 도시한 도면이다.

도 11을 참조하면, 도 9에 도시된, 나이변환 영상의 랜드마크가 도 10의 매핑 지점으로 이동한다. 단계(S530)에서 나이변환 영상의 이동한 랜드마크 위치에 기초하여 나이변환 영상의 얼굴 모양을 와핑할 수 있다.

또한, 매핑 이후, 상기 배경영상의 얼굴의 랜드마크의 위치를 상기 배경영상에 매핑된 랜드마크의 위치로 이동시킨다(S540).

도12는, 본 발명의 일 실시예에 따른, 나이변환 영상의 얼굴의 랜드마크의 위치 이동 결과를 도시한 도면이다.

도 12를 참조하면, 도 9에 도시된, 배경영상의 랜드마크가 도 10의 매핑 지점으로 이동한다(S540). 단계(S540)에서 배경영상의 이동한 랜드마크 위치에 기초하여 배경영상의 얼굴 모양을 와핑할 수 있다.

단계(S530 및 S540)의 수행으로 인해, 나이변환 영상의 얼굴 모양이 배경영상의 얼굴 모양과 매칭된다.

단계(S530 또는 S540)의 위치 이동은, 단계(S520)의 매핑 결과(즉, 매핑 지점)에 기초하여 수행된다.

그러면, 상기 배경영상의 얼굴의 랜드마크에 기초하여 내부 영역을 필터링하는 합성영역 마스크를 생성할 수 있다(S550).

일 실시예에서, 상기 합성영역 마스크는 상기 배경영상의 이동한 랜드마크에서 가장 바깥에 위치하는 랜드마크를 이용하여 생성된다.

도 13은, 본 발명의 일 실시예에 따른, 합성 영역 마스크를 도시한 도면이다.

도 11의 배경영상의 얼굴의 이동한 랜드마크를 이용하면, 도 13에 도시된 합성영역 마스크를 획득할 수 있다.

단계(S550) 이후, 상기 합성영역 마스크를 사용하여 와핑된 나이변환 영상의 대상의 얼굴 영역을 필터링한다(S560). 이어서, 상기 필터링된 대상의 얼굴 영역을 상기 배경영상의 얼굴 영역에 이식하여, 직업영상을 생성한다(S560).

단계(S530 및 S540)의 랜드마크 위치 이동에 따른 와핑으로 인해, 나이변환 영상의 대상의 얼굴 모양은 배경영상과 얼굴 모양이 매칭된다. 상기 합성영역 마스크를 통해 배경영상과 얼굴 모양이 매칭된 상기 목표 나이에서의 대상의 얼굴 영역이 필터링된다.

도 14는, 본 발명의 일 실시예에 따른, 목표 직업이 경찰인 경우 합성 영상을 도시한 도면이다.

도 14를 참조하면, 도 7의 나이변환 영상의 얼굴 모양이 와핑된 것을 확인할 수 있다. 단계(S560)에서 와핑된 나이변환 영상의 대상의 얼굴 영역이 경찰을 표현하는 배경영상에 이식된다.

그 결과, 7세의 대상이 25세에 경찰이 되었을 경우를 나타내는 직업영상을 생성할 수 있다(S560).

도 15는, 본 발명의 일 실시예에 따른, 목표 직업이 의사인 경우 합성 영상을 도시한 도면이다.

도 15를 참조하면, 도 7의 나이변환 영상의 얼굴 모양이, 도 14와는 다소 상이하게 와핑된 것을 확인할 수 있다. 의사를 나타내는 배경영상를 사용한 매핑 결과(S520)와, 경찰을 나타내는 배경영상를 사용한 매핑 결과(S520)가 상이하기 때문이다.

단계(S560)에서 와핑된 나이변환 영상의 대상의 얼굴 영역이 의사를 표현하는 배경영상에 이식된다. 그 결과, 7세의 대상이 25세에 경찰이 되었을 경우를 나타내는 직업영상을 생성할 수 있다(S560).

전술한 직업영상 생성 과정은 정지 영상을 사용하는 것에 제한되지 않는다. 일 실시예에서, 배경영상을 위한 직업영상은 복수의 프레임으로 이루어진 동영상일 수 있다. 이 경우, 복수의 프레임 중 적어도 하나는 직업을 표현한 영상(예컨대, 정지 배경영상)을 포함한다.

이 경우, 정지 나이변환 영상 및 배경 동영상의 적어도 하나의 프레임을 정지 배경영상으로 사용하여 프레임에 대한 직업영상을 생성한다.

상기 나이변환 영상과 배경영상의 합성 결과는 복수의 프레임으로 이루어진 동영상(이하, “직업 동영상”)으로 생성될 수 있다. 일 실시예에서, 상기 직업 동영상은 정지 나이변환 영상 및 배경영상이 나타난 동영상(이하, “배경 동영상”)에 기초하여 생성된다.

예를 들어, 정지 나이변환 영상 및 배경 동영상의 적어도 하나의 프레임을 정지 배경영상으로 사용하여 프레임에 대한 직업영상을 생성하고, 상기 직업영상을 갖는 프레임으로 이루어진 직업 동영상을 생성한다.

각 프레임별 직업영상을 생성하는 과정은 정지 나이변환 영상 및 정지 배경영상에 기초하여 직업영상을 생성하는 과정과 유사하므로, 자세한 설명은 생략한다.

이상에서 설명한 실시예들에 따른 직업영상 생성 장치(1) 및 방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.

상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.

상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록신원확인 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.

이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

본 발명의 실시예들에 의해 생성된 직업 영상은 어린이 직업 체험 전문 시설(예컨대, 키자니아^TM , 잡월드^TM )에서 직업 체험 후 영상 서비스를 제공하는 방식으로 활용될 수 있다. 또한, 다양한 직업을 소개하는 교육용 동영상 등의 컨텐츠에 나이 변환된 아이의 성인 얼굴을 합성하여 제공하는 방식으로 활용될 수 있다. 또한, 어린이집, 유치원 등 유아 교육 시설에서 조사된 아이의 장래희망을 기반으로 생일, 졸업, 어린이날 등에 기념품으로 제공하는 방식으로 활용될 수 있다.

특히, 4차 산업 분야의 하나인 기계 학습에 기초한 모델을 사용하여 목표 나이에서의 나이 변환 영상을 생성함으로써, 유아의 미래 모습이 나타난 자연스러운 직업 영상을 제공할 수 있다.

따라서, 저출산 시대에서 아이의 직업에 대한 관심이 높아지고 있는 추세이므로, 산업상 이용가능성이 매우 높을 것으로 예상된다.

Claims

프로세서를 포함한 컴퓨팅 장치에 수행되는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법에 있어서,
특정 나이에서의 대상의 얼굴을 포함한 원본영상을 수신하는 단계;
상기 대상의 특정 나이 정보, 및 변환될 목표 나이 정보를 수신하는 단계;
상기 특정 나이에서의 대상의 얼굴을 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계;
직업이 표현된, 미리 저장된 배경영상에서 직업영상을 생성하는데 사용하기 위한 배경영상을 선택하는 단계; 및
상기 선택된 배경영상의 얼굴 영역에 상기 나이변환 얼굴을 합성하여 상기 대상의 직업영상을 생성하는 단계를 포함하되,
상기 대상의 직업영상을 생성하는 단계는,
상기 배경영상의 얼굴 및 나이변환 얼굴의 랜드마크를 각각 추출하는 단계;
추출된 각각의 랜드마크에 기초하여 나이변환 얼굴의 랜드마크를 상기 배경영상의 얼굴 영역에 매핑하는 단계;
나이변환 영상의 얼굴 텍스쳐를 와핑하기 위해, 상기 나이변환 얼굴을 갖는 나이변환 영상 상의 위치를 갖는 상기 나이변환 얼굴의 랜드마크를 상기 배경영상에 매핑된 나이변환 얼굴의 랜드마크의 상기 직업영상 상의 위치로 이동시키는 단계;
상기 배경영상의 얼굴 텍스쳐를 와핑하기 위해, 상기 배경영상 상의 위치를 갖는 상기 배경영상의 얼굴의 랜드마크를 상기 배경영상에 매핑된 나이변환 얼굴의 랜드마크의 상기 직업영상 상의 위치로 이동시키는 단계;
상기 배경영상의 얼굴의 이동한 랜드마크에 기초하여 내부 영역을 필터링하는 합성영역 마스크를 생성하는 단계; 및
상기 합성영역 마스크를 사용하여 와핑된 나이변환 영상의 대상의 얼굴 영역을 필터링하고, 상기 필터링된 대상의 얼굴 영역을 상기 배경영상의 얼굴 영역에 이식하는 단계를 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 목표 나이에서의 대상의 얼굴로 변환하는 단계는:
상기 원본영상의 대상의 얼굴로부터 랜드마크를 추출하는 단계;
상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 텍스쳐를 생성하는 단계;
상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 상기 목표 나이에서의 대상의 얼굴 모양을 생성하는 단계; 및
상기 목표 나이에서의 대상의 얼굴 텍스쳐 및 얼굴 모양에 기초하여 상기 대상의 나이변환 얼굴을 생성하는 단계를 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제2항에 있어서, 상기 목표 나이에서의 얼굴 텍스쳐(texture)를 생성하는 단계는,
상기 랜드마크가 추출된 원본영상의 대상의 얼굴로부터 무모양 얼굴 텍스쳐를 생성하는 단계; 및
상기 무모양 얼굴 텍스쳐를 미리 학습된 텍스쳐 변환 모델에 적용하여 상기 목표 나이에서의 대상의 무모양 얼굴 텍스쳐를 생성하는 단계를 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제3항에 있어서, 상기 텍스쳐 변환 모델은,
상기 목표 나이에서의 얼굴 텍스쳐에 해당하는 데이터를 출력하도록 복수의 훈련 샘플을 이용하여 미리 학습된 모델로서, 각 훈련 샘플은 상기 목표 나이에서의 훈련 대상의 얼굴 텍스쳐, 및 훈련 대상의 성별을 포함한 라벨링 데이터를 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제4항에 있어서,
상기 훈련 대상의 얼굴 텍스쳐는 상기 훈련 대상의 얼굴로부터 획득된 무모양 얼굴 텍스쳐인 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제4항에 있어서, 상기 텍스쳐 변환 모델은,
제1 도메인의 입력 데이터에 노이즈를 적용하여 제2 도메인의 변환 데이터를 출력하는 제1 생성기; 및
상기 제1 도메인의 입력 데이터에 노이즈를 적용하여 제3 도메인의 변환 데이터를 출력하는 제2 생성기를 포함하되,
각 생성기는 변환 데이터를 제1 도메인으로 데이터로 재-변환 시 상기 제1 도메인의 입력 데이터로 변환되도록 구성된 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제4항에 있어서, 상기 텍스쳐 변환 모델은,
제1 도메인의 입력 데이터에 노이즈 및 조건 정보를 적용하여 제2 도메인 및 제3 도메인을 포함한 복수의 다른 도메인의 변환 데이터를 출력하는 생성기를 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제2항에 있어서, 상기 목표 나이에서의 대상의 얼굴 모양을 생성하는 단계는:
상기 원본영상의 얼굴의 랜드마크에 기초하여 상기 원본영상의 대상의 얼굴 모양 특징을 추출하는 단계;
상기 원본영상의 대상의 얼굴 모양 특징을 미리 학습된 모양 변환 모델에 적용하여 상기 목표 나이에서의 대상의 얼굴 모양 특징을 생성하는 단계; 및
상기 목표 나이에서의 대상의 얼굴 모양 특징에 기초하여 상기 목표 나이에서의 대상의 얼굴 모양을 복원하는 단계를 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제8항에 있어서, 상기 모양 변환 모델은,
나이와 해당 나이에서의 얼굴 모양 특징 간의 관계를 모델링하여 생성된 것으로서,
상기 목표 나이에서의 나이 함수 값과 상기 원본나이에서의 나이 함수 값 간의 차이 및 상기 원본영상의 대상의 얼굴 모양 특징에 기초하여 상기 목표 나이에서의 대상의 얼굴 모양 특징을 산출하도록 모델링된 것을 특징으로 하는. 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제8항에 있어서, 상기 모양 변환 모델은,
상기 목표 나이에서의 얼굴 모양 특징을 출력하도록 복수의 훈련 샘플 및 상기 목표 나이를 나타내는 라벨링 데이터를 이용하여 미리 학습된 모델로서, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제8항에 있어서,
상기 모양 변환 모델이 복수의 나이 중 어느 하나의 나이에서의 얼굴 모양 특징을 출력하도록 구성된 경우,
상기 모양 변환 모델은 복수의 훈련 샘플 세트를 이용하여 미리 학습된 모델로서, 각 세트는 상기 복수의 나이 중 특정 나이에서의 복수의 훈련 샘플 및 상기 특정 나이를 나타내는 라벨링 데이터를 포함하며, 각 세트 내 훈련 샘플은 해당 나이에서의 훈련 대상의 얼굴 모양 특징을 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제9항에 있어서, 상기 모양 변환 모델은,
상기 얼굴 모양 특징의 차원이 N차원인 경우(여기서, N은 1이상의 정수), 각 얼굴 모양 특징에 대한 나이 함수에 기초하여 모델링된 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제2항에 있어서, 상기 대상의 나이변환 얼굴을 생성하는 단계는,
상기 목표 나이에서의 대상의 얼굴 모양에 상기 목표 나이에서의 얼굴 텍스쳐를 와핑(warping)하여, 상기 목표 나이에서의 얼굴을 나이변환 얼굴로서 생성하는 단계를 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 배경영상은,
상기 직업의 특성을 표현하도록 구성되며, 상기 대상과 상이한, 해당 직업을 갖는 사람의 얼굴의 적어도 일부를 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 직업영상을 위한 배경영상은,
사용자의 입력을 수신하고, 상기 사용자의 입력에 대응하는 배경영상인 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 직업영상을 위한 배경영상은,
상기 원본영상의 영상 특성 및 나이변환 영상의 얼굴 특성 중 하나 이상에 기초하여 선택된 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제16항에 있어서, 상기 원본영상의 영상 특성은,
조명, 해상도, 및 선명도 중 하나 이상을 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제16항에 있어서, 상기 나이변환 영상의 얼굴 특성은,
얼굴 형태, 헤어 특성, 귀 모양, 이마 모양, 및 얼굴 포즈 중 하나 이상을 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 직업영상을 위한 배경영상은,
대상의 성별에 기초하여 선택된 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
삭제
제1항에 있어서, 상기 매핑하는 단계는,
각각의 랜드마크가 의미하는 해부학적 얼굴 특징에 기초하여 수행되는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제1항에 있어서, 상기 직업영상을 생성하는 단계는,
상기 선택된 배경영상이 복수의 프레임으로 이루어진 동영상인 경우, 상기 나이변환 얼굴을 상기 복수의 프레임 중 적어도 하나와 합성하는 단계를 포함하는 것을 특징으로 하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
제22항에 있어서,
나이변환 얼굴을 갖도록 합성된 프레임으로 이루어진 직업 동영상을 생성하는 단계를 더 포함하는 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법.
컴퓨팅 장치에 의해 판독가능하고, 상기 컴퓨팅 장치에 의해 동작 가능한 프로그램 명령어를 저장하는 컴퓨터 판독가능 기록매체로서, 상기 프로그램 명령어가 상기 컴퓨팅 장치의 프로세서에 의해 실행되는 경우 상기 프로세서가 제1항 내지 제19항 및 제21항 내지 제23항 중 어느 하나의 항에 따른 나이변환 얼굴을 갖는 직업 영상을 생성하는 방법을 수행하게 하는 컴퓨터 판독가능 기록매체.