KR20220026252A

KR20220026252A - 이동 단말기, 서버 및 뷰티 스타일의 합성 방법

Info

Publication number: KR20220026252A
Application number: KR1020200107053A
Authority: KR
Inventors: 이재동; 강경모
Original assignee: 주식회사 케이티
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-03-04

Abstract

이동 단말기가 개시된다. 본 발명에 따른 이동 단말기는, 얼굴이 촬영된 이미지를 획득하는 영상 획득부, 디스플레이부, 및, 상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자를 포함하는 인공지능 모델에 제공하여, 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하고, 상기 합성 이미지를 디스플레이 하도록 상기 디스플레이부를 제어하는 제어부를 포함하고, 상기 생성자는, 상기 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하여 복원 소스 데이터를 출력하는 경우 상기 생성자에서의 로스에 기반하여 트레이닝 된다.

Description

이동 단말기, 서버 및 뷰티 스타일의 합성 방법 {MOBILE TERMINAL, SERVER AND METHOD FOR COMPOSING BEAUTY STYLE}

본 발명은, 인공지능 모델에 기반하여, 얼굴이 촬영된 이미지에 다른 이미지의 뷰티 스타일을 적용하여 디스플레이 하는 이동 단말기, 서버 및 뷰티 스타일의 합성 방법에 관한 것이다.

최근 모바일 영상서비스와 같이 모바일 기기의 카메라 영상을 통해 자기 자신을 표현하는 미디어 콘텐츠들이 인기를 끌고 있으며, 서비스가 광범위하게 확산되고 있다.

이로 인해 카메라 영상에서 자신들이 원하는 아름다운 모습을 보여주기 원하는 니즈가 증가하고 있으며, 전문적인 뷰티 지식이나 아티스트가 없이도 쉽고 편한 방식으로 얼굴 뷰티 효과를 생성시키는 기술이 부각되고 있다.

이러한 니즈에 맞춰, 최근 뷰티 효과를 지원하는 카메라 앱이 폭발적인 인기를 끌고 있으며, 이러한 서비스들은 영상처리 기술을 통해 다양한 색감의 필터를 지원할 뿐만 아니라 필터와 메이크업을 함께 적용할 수 있는 스타일 고급기능까지 제공해 주고 있다.

하지만 현재 뷰티 효과를 지원하는 서비스들은, 전문적인 영상처리 기술을 이용하여 서비스 제공자가 미리 생성해 놓은 뷰티 스타일(필터 효과)만을 제공한다는 한계가 있다.

또한 기존의 서비스는, 립스틱, 아이라인, 마스카라 등의 메이크업을 사용자가 직접 선택하여 가상으로 그려보는 형태로만 제한되어있어서, 결국 사용자가 원하는 뷰티 스타일을 적용하기 위해서는 여전히 전문적인 뷰티지식이 필요할 뿐만 아니라, 사용자가 많은 시간과 비용을 지불해야 하는 문제가 있었다.

또한 기존 서비스로는, 선호하는 화장을 한 다른 사람의 뷰티 스타일(예를 들어 연예인 A의 화장 스타일)을 쉽고 편하게 따라하거나, 자신의 얼굴에 자동으로 반영할 수 있는 방법이 없다는 문제가 있었다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 인공지능 모델에 기반하여 얼굴이 촬영된 이미지에 다른 이미지의 뷰티 스타일을 적용하여 디스플레이 하는 이동 단말기, 서버 및 뷰티 스타일의 합성 방법을 제공하기 위함이다.

본 발명에 따른 뷰티 스타일의 합성 방법은, 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하도록, 상기 생성자에 상기 훈련용 소스 데이터 및 훈련용 레퍼런스 데이터를 제공하는 단계, 판별자가 상기 생성자에 의해 출력된 복원 소스 데이터 및 상기 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하도록, 상기 복원 소스 데이터 및 상기 훈련용 소스 데이터를 상기 판별자에 제공하는 단계, 및, 상기 생성자에서의 로스 및 상기 판별자에서의 로스를 이용하여 상기 생성자 및 상기 판별자를 트레이닝 하는 단계를 포함한다.

이 경우 상기 생성자에 상기 훈련용 소스 데이터 및 상기 훈련용 레퍼런스 데이터를 제공하는 단계는, 상기 생성자에 상기 훈련용 소스 데이터 및 상기 훈련용 레퍼런스 데이터를 제공하여, 상기 훈련용 소스 데이터에 상기 훈련용 레퍼런스 데이터의 뷰티 스타일이 합성된 제1 합성 데이터 및 상기 훈련용 레퍼런스 데이터에 상기 훈련용 소스 데이터의 뷰티 스타일이 합성된 제2 합성 데이터를 획득하는 단계, 및, 상기 생성자에 상기 제1 합성 데이터 및 상기 제2 합성 데이터를 제공하여, 상기 제1 합성 데이터에 상기 제2 합성 데이터의 뷰티 스타일이 합성된 상기 복원 소스 데이터를 획득하는 단계를 포함할 수 있다.

이 경우 상기 생성자 및 상기 판별자를 트레이닝 하는 단계는, 상기 생성자에서의 로스 및 상기 판별자에서의 로스의 합이 최소화 되도록 상기 생성자 및 상기 판별자를 트레이닝 할 수 있다.

이 경우 상기 생성자에서의 로스는, 상기 복원 소스 데이터 및 상기 훈련용 소스 데이터의 차이이고, 상기 판별자에서의 로스는, 상기 복원 소스 데이터가 가짜일 확률 및 상기 훈련용 소스 데이터가 진짜일 확률의 합일 수 있다.

한편 뷰티 스타일의 합성 방법은, 얼굴이 촬영된 이미지를 획득하는 단계, 상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 상기 생성자에 제공하여 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하는 단계, 및, 상기 합성 이미지를 디스플레이 하는 단계를 더 포함할 수 있다.

한변 본 발명에 따른 이동 단말기는, 얼굴이 촬영된 이미지를 획득하는 영상 획득부, 디스플레이부, 및, 상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자를 포함하는 인공지능 모델에 제공하여, 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하고, 상기 합성 이미지를 디스플레이 하도록 상기 디스플레이부를 제어하는 제어부를 포함하고, 상기 생성자는, 상기 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하여 복원 소스 데이터를 출력하는 경우 상기 생성자에서의 로스에 기반하여 트레이닝 된다.

이 경우 상기 생성자는, 상기 생성자가 상기 훈련용 소스 데이터에 훈련용 레퍼런스 데이터의 뷰티 스타일이 합성된 제1 합성 데이터 및 상기 훈련용 레퍼런스 데이터에 상기 훈련용 소스 데이터의 뷰티 스타일이 합성된 제2 합성 데이터를 출력하고 상기 제1 합성 데이터에 상기 제2 합성 데이터의 뷰티 스타일이 합성된 상기 복원 소스 데이터를 출력하는 경우, 상기 생성자에서의 로스에 기반하여 트레이닝될 수 있다.

한편 상기 생성자는, 상기 복원 소스 데이터 및 상기 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하는 판별자에서의 로스와 상기 생성자에서의 로스에 기반하여 트레이닝 될 수 있다.

한편 상기 제어부는, 상기 얼굴이 촬영된 이미지로부터 뷰티 대상 신체 부위를 추출하여, 상기 뷰티 대상 신체 부위에 대응하는 상기 소스 데이터를 획득할 수 있다.

이 경우 상기 인공지능 모델은, 상기 소스 데이터 및 상기 레퍼런스 데이터를 이용하여, 상기 소스 데이터에 상기 레퍼런스 데이터의 뷰티 스타일이 합성된 부분 이미지를 출력하고, 상기 제어부는, 상기 부분 이미지를 상기 뷰티 대상 신체 부위의 영역에 합성하여 상기 합성 이미지를 획득할 수 있다.

한편 상기 인공지능 모델은, 복수의 뷰티 대상 신체 부위에 각각 대응하는 복수의 인공지능 모델을 포함할 수 있다.

이 경우 상기 제어부는, 상기 얼굴이 촬영된 이미지로부터, 상기 복수의 뷰티 대상 신체 부위 중 제1 신체 부위에 대응하는 소스 데이터를 획득하고, 상기 복수의 인공지능 모델 중 상기 제1 신체 부위에 대응하는 특정 인공지능 모델에 상기 제1 신체 부위에 대응하는 소스 데이터를 제공하고, 상기 제1 신체 부위에 대응하는 특정 인공지능 모델은, 상기 제1 신체 부위에 대응하는 소스 데이터를 이용하여 상기 제1 신체 부위에 대응하는 부분 이미지를 출력할 수 있다.

한편 상기 레퍼런스 이미지는, 사용자에 의해 선택된 이미지일 수 있다.

한편 상기 제어부는, 복수의 프레임 이미지를 포함하는 동영상이 수신되면, 상기 합성 이미지를 상기 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

이 경우 상기 제어부는, 상기 합성 이미지를 3D 얼굴 모델로 매핑하여 상기 합성 이미지에 대응하는 상기 3D 얼굴 모델을 생성하고, 상기 생성된 3D 얼굴 모델을 상기 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

한편 상기 제어부는, 상기 복수의 프레임 이미지 중 제n 프레임 이미지와 상기 합성 이미지의 색상 차에 기초하여 제n 프레임에 대한 블렌딩 처리를 수행하고, 상기 복수의 프레임 이미지 중 제n+1 프레임 이미지와 상기 합성 이미지의 색상 차에 기초하여 제n+1 프레임에 대한 블렌딩 처리를 수행할 수 있다.

한편 본 발명에 따른 서버는, 이동 단말기로부터 얼굴이 촬영된 이미지를 수신하는 통신부, 상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자를 포함하는 인공지능 모델에 제공하여 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하고, 상기 합성 이미지를 상기 통신부를 통하여 상기 이동 단말기로 전송하는 제어부를 포함하고, 상기 생성자는, 상기 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하여 복원 소스 데이터를 출력하는 경우 상기 생성자에서의 로스에 기반하여 트레이닝 된다.

본 발명에 따르면, 하나의 레퍼런스 이미지만 있는 경우 레퍼런스 이미지의 뷰티 스타일을 사용자의 이미지에 자동으로 합성할 수 있다. 따라서 전문적인 메이크업 지식이나 영상 처리에 대한 기술 지식이 없어도 다양한 뷰티 스타일을 사용자의 이미지에 적용해볼 수 있는 장점이 있다.

본 발명에서는 생성적 적대 신경망을 이용함으로써, 기존의 영상 처리를 통하여 뷰티 필터를 개발하는 방식보다 인적/물적/시간적 비용을 크게 절감할 수 있는 장점이 있다.

본 발명에 따르면, 합성 이미지에 대응하는 3D 얼굴 모델을 생성하고 동일한 3D 얼굴 모델을 얼굴의 위치 및 각도에 기반하여 동영상에 매핑하기 때문에, 합성 이미지를 실 시간으로 생성할 수 없는 단말기에서도 레퍼런스 이미지의 뷰티 스타일이 적용된 동영상을 실 시간으로 디스플레이 할 수 있는 장점이 있다.

본 발명에 따르면, 하나의 합성 이미지로 동영상 내 이미지 프레임들에 대하여 실시간으로 뷰티 스타일의 적용이 가능하기 때문에, OTT 동영상 등의 미디어, 영상/화상 통화, 방송, 기타 이동 단말기에 의해 제공되는 다양한 서비스에 AR 서비스를 제공할 수 있다는 장점이 있다.

도 1은 본 발명에 따른, 이동 단말기를 설명하기 위한 도면이다.
도 2는 뷰티 스타일의 합성 방법을 설명하기 위한 순서도이다.
도 3은 인공지능 모델의 트레이닝 방법을 설명하기 위한 도면이다.
도 4는 데이터 추출 모듈 및 합성 이미지 생성 모듈을 설명하기 위한 도면이다.
도 5는 소스 데이터 및 레퍼런스 데이터의 획득 방법을 설명하기 위한 도면이다.
도 6은 합성 이미지의 생성 방법을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 합성 이미지의 디스플레이 방법을 설명하기 위한 순서도이다.
도 8은 합성 이미지를 이용하여 3D 얼굴 모델을 생성하고, 3D 얼굴 모델을 동영상에 정합하는 방법을 설명하기 위한 도면이다
도 9는 레퍼런스 이미지를 선택하는 방법을 설명하기 위한 도면이다.
도 10은 신체 부위 별 뷰티 스타일의 변환 방법을 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.

도 1은 본 발명에 따른, 이동 단말기를 설명하기 위한 도면이다.

도 1에서 설명하는 이동 단말기의 구성요소들은 본 발명에 따른 동작을 구현하는데 필수적인 것은 아니어서, 구성 요소들 중 일부는 생략될 수 있다.

이동 단말기(100)는, 제어부(110), 영상 획득부(120), 출력부(130), 메모리(140), 입력부(150) 및 통신부(160)를 포함할 수 있다.

이동 단말기(100)는, 데이터 마이닝, 데이터 분석, 지능형 의사 결정 및 기계 학습 알고리즘을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 여기서, 기계 학습 알고리즘은 딥 러닝 알고리즘을 포함할 수 있다.

영상 획득부(120)는 영상 신호 입력을 위한 카메라를 포함할 수 있다. 카메라(121)는 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부에 표시되거나 메모리(140)에 저장될 수 있다. 또한 영상 획득부(120)는 이하에서 설명하는 통신부(160)를 포함할 수 있다.

출력부(130)는 시각과 관련된 출력을 발생시키는 디스플레이부를 포함할 수 있다. 디스플레이부는 이동 단말기(100)에서 처리되는 정보, 예를 들어 이동 단말기(100)에서 구동되는 응용 프로그램의 실행화면 정보나 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다. 또한 출력부(130)는 청각과 관련된 출력을 발생시키는 스피커를 포함할 수 있다.

메모리(140)는 트레이닝이 완료됨으로써 생성된 인공지능 모델을 저장할 수 있다. 구체적으로 인공지능 모델은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 이 경우 인공지능 모델을 구성하는 하나 이상의 명령어는 메모리(140)에 저장될 수 있다.

또한 메모리(140)는 이동 단말기(100)의 동작을 위한 프로그램을 저장할 수 있다.

한편 입력부(150)는 터치 센서, 키패드, 마이크 등을 포함하고, 사용자 입력을 수신할 수 있다.

한편 디스플레이부는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 이동 단말기(100)와 사용자 사이의 입력 인터페이스를 제공하는 입력부(150)로써 기능함과 동시에, 이동 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.

통신부(160)는 유무선 통신 기술을 이용하여 외부 장치들과 데이터를 송수신 할 수 있다.

이때, 통신부(160)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.

한편 제어부(110)는 이동 단말기(100)의 전반적인 동작을 제어할 수 있다. 여기서 제어부는, 컨트롤러, 프로세서, 마이크로 프로세서 등의 용어와 혼용되어 사용될 수 있다.

도 2는 뷰티 스타일의 합성 방법을 설명하기 위한 순서도이다.

본 발명에 따른 뷰티 스타일의 합성 방법은, 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하도록, 생성자에 훈련용 소스 데이터 및 훈련용 레퍼런스 데이터를 제공하는 단계(S210), 판별자가 생성자에 의해 출력된 복원 소스 데이터 및 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하도록, 복원 소스 데이터 및 훈련용 소스 데이터를 판별자에 제공하는 단계(S220), 생성자에서의 로스 및 판별자에서의 로스를 이용하여 생성자 및 판별자를 트레이닝 하는 단계(S230), 얼굴이 촬영된 이미지를 획득하는 단계(S240), 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자에 제공하여, 레퍼런스 데이터의 뷰티 스타일이 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하는 단계(S250) 및 합성 이미지를 디스플레이 하는 단계(S260)를 포함할 수 있다.

S210, 220, 230과 관련하여, 뷰티 스타일의 합성을 위하여 인공지능 모델이 사용될 수 있다. 따라서 도 3을 참고하여 인공지능 모델의 트레이닝 방법에 대하여 먼저 설명하도록 한다.

도 3은 인공지능 모델의 트레이닝 방법을 설명하기 위한 도면이다.

인공 지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.

한편, 인공지능을 이용하여 주변의 상황을 인지 및 학습하고 사용자가 원하는 정보를 원하는 형태로 제공하거나 사용자가 원하는 동작이나 기능을 수행하는 기술이 활발하게 연구되고 있다.

한편 뉴럴 네트워크는 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 뉴럴 네트워크의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 뉴럴 네트워크의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

그리고 뉴럴 네트워크는 훈련 데이터와 정답 값의 연관 관계에 대한 함수를 유추하고, 유추된 함수에 대한 평가를 통해 뉴럴 네트워크의 파라미터가 결정(최적화)될 수 있다.

한편 이동 단말기(100) 또는 서버에 탑재되는 인공지능 모델은, 생성적 적대 신경망(Generative Adversarial Network, GAN)의 생성자(Generator)일 수 있다.

생성적 적대 신경망(Generative Adversarial Network, GAN)이란, 생성자(generator)와 판별자(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신러닝 방법이다.

이 경우 생성자(generator)는 새로운 데이터를 창조하는 모형으로 원본데이터를 기반으로 새로운 이미지를 생성하는 역할을 수행하며, 판별자(discriminator)는 데이터의 패턴을 인식하는 모형으로, 원본데이터를 기반으로 이미지 진위여부 체크하는 역할을 수행한다.

또한 판별자(discriminator)는 원본이미지와 생성된(또는 위조된) 이미지를 잘 구분하도록 진화하고, 생성자(generator)는 판별기를 최대한 잘 속이도록 진화하며 서로 성능을 발전시킨다.

이하에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)의 트레이닝을 통하여 인공지능 모델을 생성하는 방법을 설명한다.

한편 생성적 적대 신경망(Generative Adversarial Network, GAN)의 트레이닝은 학습 장치(미도시)에 의하여 수행될 수 있다. 그리고 학습 장치(미도시)는 도 1에서 설명한 이동 단말기(100)의 구성 요소를 포함하고, 도 1에서 설명하는 이동 단말기(100)의 기능을 수행할 수 있다.

또한 생성적 적대 신경망(Generative Adversarial Network, GAN)의 트레이닝은, 인공지능 모델이 탑재되는 이동 단말기나 서버에서 직접 수행될 수도 있다.

먼저 훈련용 소스 이미지(310)는 훈련용 소스 데이터(S)로 전처리 될 수 있다. 또한 훈련용 레퍼런스 이미지(320)는 훈련용 레퍼런스 데이터(R)로 전처리 될 수 있다.

이와 같은 훈련용 이미지의 전처리 과정은 이동 단말기에서 촬영된 이미지에 대한 전처리 과정과 동일한 바, 이후에 자세히 설명하도록 한다.

생성적 적대 신경망(Generative Adversarial Network, GAN)은 생성자 (generator)(300) 및 판별자(discriminator)(400)를 포함할 수 있다.

학습 장치(미도시)의 제어부는, 생성자에 훈련용 소스 데이터(S) 및 훈련용 레퍼런스 데이터(R)를 제공할 수 있다. 이 경우 생성자(300)는 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원할 수 있다.

먼저, 생성자(300)가 훈련용 소스 데이터를 뷰티 스타일 변환하는 과정에 대하여 설명한다.

구체적으로 생성자(300)는, 제1 입력(훈련용 소스 데이터(S))의 뷰티 스타일을 제2 입력(훈련용 레퍼런스 데이터(R))에 적용하고, 제2 입력(훈련용 레퍼런스 데이터(R))의 뷰티 스타일을 제1 입력(훈련용 소스 데이터(S))에 적용하도록 사전에 훈련된 뉴럴 네트워크일 수 있다.

여기서 뷰티 스타일은 메이크업 스타일을 포함할 수 있다. 예를 들어 훈련용 소스 데이터(S) 가 A 화장법으로 화장을 한 사용자 D의 얼굴이고, 훈련용 레퍼런스 데이터(R)가 B 화장법으로 화장을 한 사용자 E의 얼굴인 경우, 생성자(300)는 소스 데이터(S)로부터 뷰티 스타일(A 화장법)을 추출하고 훈련용 레퍼런스 데이터(R)로부터 뷰티 스타일(B 화장법)의 특징을 추출할 수 있다.

그리고 생성자(300)는 훈련용 소스 데이터(S)의 얼굴에 훈련용 레퍼런스 데이터(R)의 뷰티 스타일(B 화장법)을 합성한 제1 합성 데이터(G1)를 출력할 수 있다.

이 경우 생성자(300)는 훈련용 소스 데이터(S)의 얼굴의 특징을 추출하고, 훈련용 소스 데이터(S)의 얼굴의 특징에 대응하도록 훈련용 레퍼런스 데이터(R)의 뷰티 스타일(B 화장법)을 합성할 수 있다.

구체적으로 생성자(300)는 얼굴이나 얼굴 내 신체 부위(눈, 눈썹, 코, 입 등)의 특징(모양, 형태, 윤곽, 색상, 질감(texture) 등)에 대응하도록 훈련용 레퍼런스 데이터(R)의 뷰티 스타일(B 화장법)을 합성할 수 있다.

예를 들어 A 화장법을 한 사용자 D의 눈은 찢어진 형태이고, B 화장법을 한 사용자 E의 눈은 동그란 형태이다. 이 경우 생성자(300)는 사용자 E의 동그란 눈에 그려진 아이라인을, 사용자 D의 찢어진 눈에 맞춰서 합성할 수 있다.

한편 같은 원리로, 생성자(300)는 훈련용 레퍼런스 데이터(R)의 얼굴에 훈련용 소스 데이터(S)의 뷰티 스타일(A 화장법)을 합성한 제2 합성 데이터(G2)를 출력할 수 있다.

이와 같은 방식으로, 학습 장치(미도시)의 제어부는 생성자(300)에 훈련용 소스 데이터(S) 및 훈련용 레퍼런스 데이터(R)를 제공하여, 훈련용 소스 데이터(S)에 훈련용 레퍼런스 데이터(R)의 뷰티 스타일이 합성된 제1 합성 데이터(G1) 및 훈련용 레퍼런스 데이터(R)에 훈련용 소스 데이터(S)의 뷰티 스타일이 합성된 제2 합성 데이터(G2)를 획득할 수 있다.

이 경우 제1 합성 데이터(G1)는 B 화장법으로 화장을 한 사용자 D의 얼굴일 수 있으며, 제2 합성 데이터(G2)는 A 화장법으로 화장을 한 사용자 E의 얼굴일 수 있다.

다음은 생성자(300)가 합성 데이터를 이용하여 훈련용 소스 데이터의 뷰티 스타일을 복원하는 과정에 대하여 설명한다.

학습 장치(미도시)의 제어부는, 생성자(300)에 제1 합성 데이터(G1) 및 제2 합성 데이터(G2)를 제공할 수 있다. 여기서 생성자(300)는, 제1 합성 데이터(G1) 및 제2 합성 데이터(G2)를 출력한 생성자와 동일한 생성자일 수 있다.

이 경우 생성자(300)는 제1 합성 데이터(G1)의 얼굴에 제2 합성 데이터(G2)의 화장법(A 화장법)을 합성한 제1 복원 소스 데이터(O1)을 출력할 수 있다. 또한 생성자(300)는 제2 합성 데이터(G2)의 얼굴에 제1 합성 데이터(G1)의 화장법(B 화장법)을 합성한 제2 복원 소스 데이터(O2)를 출력할 수 있다.

이와 같은 방식으로, 학습 장치(미도시)의 제어부는 생성자(300)에 제1 합성 데이터(G1) 및 제2 합성 데이터(G2)를 제공하여, 제1 합성 데이터(G1)에 제2 합성 데이터(G2)의 뷰티 스타일이 합성된 제1 복원 소스 데이터(O1)을 획득하고, 제2 합성 데이터(G2)에 제1 합성 데이터(G1)의 뷰티 스타일이 합성된 제2 복원 소스 데이터(O2)를 획득할 수 있다.

정리하면, A 화장법으로 화장을 한 사용자 D의 얼굴은(훈련용 소스 데이터(S)), 생성자(300)를 한번 통과하면서 B 화장법으로 화장을 한 사용자 D의 얼굴(제1 합성 데이터(G1))로 변화하고, 생성자(300)를 다시 한번 통과하면서 A 화장법으로 화장을 한 사용자 D의 얼굴(복원 소스 데이터(O1))로 변화한다.

또한 B 화장법으로 화장을 한 사용자 E의 얼굴(훈련용 레퍼런스 데이터(R))은, 생성자(300)를 한번 통과하면서 A 화장법으로 화장을 한 사용자 E의 얼굴(제2 합성 데이터(G2))로 변화하고, 생성자(300)를 다시 한번 통과하면서 B화장법으로 화장을 한 사용자 E의 얼굴로 변화한다(복원 레퍼런스 데이터(O2)).

그리고 복원 소스 데이터(O1)와 훈련용 소스 데이터(S) 사이의 차이가 적을수록, 그리고 복원 레퍼런스 데이터(O2)와 훈련용 레퍼런스 데이터(R) 사이의 차이가 적을수록 생성자(300)의 성능이 좋은 것이다.

따라서 생성자에서의 로스(generator loss)는 복원 소스 데이터(O1)와 훈련용 소스 데이터(S) 사이의 차이로 정의될 수 있다.

이 경우 빠른 성능 향상을 위하여, 복원 레퍼런스 데이터(O2)와 훈련용 레퍼런스 데이터(R) 사이의 차이까지 생성자에서의 로스(generator loss)에 추가될 수 있다. 이 경우 생성자에서의 로스(generator loss)는 ‘복원 소스 데이터(O1)와 훈련용 소스 데이터(S) 사이의 차이’와 ‘복원 레퍼런스 데이터(O2)와 훈련용 레퍼런스 데이터(R) 사이의 차이’의 합으로 정의될 수 있다.

한편 학습 장치의 제어부는 생성자에서의 로스(generator loss)가 최소화가 되도록 생성자를 트레이닝 할 수 있다.

구체적으로 학습 장치의 제어부는 다양한 소스 데이터 및 다양한 레퍼런스 데이터를 생성자에 제공하여 생성자(300)를 반복적으로 트레이닝 함으로써, 생성자(300)의 파라미터를 결정(최적화) 할 수 있다.

한편 생성자(300)는 판별자(400)와 연결되어, 생성적 적대 신경망(Generative Adversarial Network, GAN) 알고리즘에 기반하여 트레이닝 될 수 있다.

구체적으로 학습 장치(미도시)의 제어부는, 생성자(300)에 의해 출력된 복원 소스 데이터(O1)와 훈련용 소스 데이터(S)를 판별자(400)에 제공할 수 있다.

이 경우 판별자(400)는 복원 소스 데이터(O1)와 훈련용 소스 데이터(S)의 진짜(real) 또는 가짜(fake)를 판별할 수 있다.

구체적으로 판별자(400)는 입력된 훈련용 소스 데이터(S)에 기반하여, 훈련용 소스 데이터(S)가 진짜(real)일 확률을 산출할 수 있다. 또한 판별자(400)는 입력된 복원 소스 데이터(O1)에 기반하여, 복원 소스 데이터(O1)가 가짜(fake)일 확률을 산출할 수 있다.

한편 판별자에서의 로스(discriminator loss)는 훈련용 소스 데이터(S)가 진짜일 확률과 복원 소스 데이터(O1)가 가짜(fake)일 확률의 합으로 정의될 수 있다.

이 경우 빠른 성능 향상을 위하여, 훈련용 레퍼런스 데이터(R)가 진짜일 확률과 복원 레퍼런스 데이터(O2)가 가짜(fake)일 확률의 합까지 판별자에서의 로스(discriminator loss)에 추가될 수 있다. 이 경우 판별자에서의 로스(discriminator loss)는 ‘훈련용 소스 데이터(S)가 진짜일 확률과 복원 소스 데이터(O1)가 가짜(fake)일 확률의 합’과, ‘훈련용 레퍼런스 데이터(R)가 진짜일 확률과 복원 레퍼런스 데이터(O2)가 가짜(fake)일 확률의 합’의 총합으로 정의될 수 있다.

한편 훈련용 소스 데이터(S)가 진짜일 확률과 복원 소스 데이터(O1)가 가짜(fake)일 확률의 합이 클수록 판별자(400)에서의 로스(discriminator loss)는 작아질 수 있다.

그리고 학습 장치(미도시)의 제어부는 판별자(400)에서의 로스(discriminator loss)가 최소화되도록 판별자(400)를 트레이닝 할 수 있다.

구체적으로 학습 장치의 제어부는 다양한 소스 데이터 및 다양한 레퍼런스 데이터를 이용하여 판별자(400)를 반복적으로 트레이닝 함으로써, 판별자(400)의 파라미터를 결정(최적화) 할 수 있다.

한편 생성적 적대 신경망(Generative Adversarial Network, GAN) 알고리즘에 기반하여, 학습 장치(미도시)의 제어부는 생성자에서의 로스(generator loss) 및 판별자에서의 로스(discriminator loss)를 이용하여 생성자 및 판별자를 트레이닝 할 수 있다.

구체적으로 학습 장치(미도시)의 제어부는 생성자에서의 로스 및 판별자에서의 로스의 합이 최소화 되도록 생성자 및 판별자를 트레이닝 할 수 있다.

즉 생성자(300)의 로스는 생성자(300)가 복원 소스 데이터(O1)를 완벽하게 복원할수록(복원 소스 데이터 및 훈련용 소스 데이터의 차이가 작아질 수록) 감소하고, 판별자(400)의 로스는 판별자(400)가 데이터의 진위 여부를 잘 맞출수록(복원 소스 데이터가 가짜일 확률 및 훈련용 소스 데이터가 진짜일 확률의 합이 클수록) 감소한다.

그리고 다양한 소스 데이터 및 다양한 레퍼런스 데이터를 이용하여 생성자(300) 및 판별자(400)를 포함하는 생성적 적대 신경망(Generative Adversarial Network, GAN)를 트레이닝 함으로써, 생성자(300) 및 판별자(400)는 상호 보완적으로 진화하면서 내부 파라미터가 조절될 수 있다.

그리고 트레이닝이 완료되면(예를 들어 생성자에서의 로스 및 판별자에서의 로스의 합이 임계값보다 낮아지면), 학습 장치(미도시)의 제어부는 이동 단말기 또는 서버에 탑재되는 인공지능 모델을 생성할 수 있다. 여기서 인공지능 모델은 생성자(300) 및 판별자(400)를 포함하는 생성적 적대 신경망(Generative Adversarial Network, GAN)에서, 판별자(400)를 제외하고 생성자(300)를 분리해낸 것일 수 있다.

한편 생성된 인공지능 모델은 이동 단말기(100)에 탑재될 수 있다. 구체적으로 인공지능 모델은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있으며, 이 경우 인공지능 모델을 구성하는 하나 이상의 명령어는 메모리(140)에 저장될 수 있다.

이하에서는, 인공지능 모델이 이동 단말기(100)에 탑재된 이후의 동작을 설명한다.

도 4는 데이터 추출 모듈 및 합성 이미지 생성 모듈을 설명하기 위한 도면이다.

영상 획득부(120)는 사용자의 얼굴이 촬영된 이미지를 획득할 수 있다.

구체적으로 영상 획득부(120)는 카메라를 포함하고, 카메라를 이용하여 사용자의 얼굴을 촬영함으로써 사용자의 얼굴이 촬영된 이미지를 획득할 수 있다. 또한 영상 획득부(120)는 통신부를 포함하고, 서버나 다른 장치로부터 사용자의 얼굴이 촬영된 이미지를 수신할 수 있다.

한편 제어부(110)는 얼굴이 촬영된 이미지(410) 및 레퍼런스 이미지(420)를 전 처리 하여, 얼굴이 촬영된 이미지(410)에 대응하는 소스 데이터 및 레퍼런스 이미지(420)에 대응하는 레퍼런스 데이터를 획득할 수 있다.

이와 관련해서는 도 5를 함께 참고하여 설명한다.

도 5는 소스 데이터 및 레퍼런스 데이터의 획득 방법을 설명하기 위한 도면이다.

제어부(110)는 데이터 추출 모듈(111)을 포함할 수 있다. 그리고 데이터 추출 모듈(111)은 얼굴이 촬영된 이미지로부터 뷰티 대상 신체 부위를 추출할 수 있다.

구체적으로, 데이터 추출 모듈(111)는 얼굴이 촬영된 이미지(410) 내 얼굴을 탐색하고, 얼굴 내 뷰티 대상 신체 부위를 추정할 수 있다. 여기서 뷰티 대상 신체 부위는, 눈썹, 눈, 입, 피부, 턱, 볼, 이마 등 메이크업의 대상이 되는 신체 부위를 의미할 수 있다.

한편 얼굴이 촬영된 이미지(410) 내 얼굴을 탐색하고 얼굴 내 뷰티 대상 신체 부위를 추정하는 과정은, 영상처리(PCA, Machine Learning), 딥러닝(DNN, CNN) 등 다양한 알고리즘을 이용하여 구현될 수 있다.

한편 데이터 추출 모듈(111)은 추정된 뷰티 대상 신체부위의 좌표를 획득하고, 획득된 좌표에 기반하여 이미지에서 뷰티 대상 신체부위를 포함하는 영역(411)을 분리할 수 있다.

그리고 데이터 추출 모듈(111)은 뷰티 대상 신체 부위에 대응하는 소스 데이터(510)를 획득할 수 있다.

여기서 뷰티 대상 신체 부위에 대응하는 소스 데이터(510)는 하나 이상의 신체 부위의 특징 및 하나 이상의 신체 부위에 대응하는 뷰티 스타일의 특징 중 적어도 하나를 포함할 수 있다.

구체적으로 뷰티 대상 신체 부위에 대응하는 소스 데이터(510)는 신체 부위의 특징(신체 부위의 모양, 형태, 윤곽, 색상, 질감(texture) 등) 및 뷰티 스타일의 특징(메이크업의 모양, 형태, 윤곽, 색상, 질감(texture) 등)을 포함할 수 있다.

한편 레퍼런스 이미지(420) 역시 동일한 방식으로 처리될 수 있다.

구체적으로 데이터 추출 모듈(111)는 레퍼런스 이미지(420) 내 얼굴을 탐색하고, 얼굴 내 뷰티 대상 신체 부위를 추정할 수 있다.

그리고 데이터 추출 모듈(111)은 추정된 뷰티 대상 신체부위의 좌표를 획득하고, 획득된 좌표에 기반하여 이미지에서 뷰티 대상 신체부위를 포함하는 영역(421)을 분리할 수 있다.

그리고 데이터 추출 모듈(111)은 뷰티 대상 신체 부위에 대응하는 레퍼런스 데이터(520)를 획득할 수 있다. 여기서 뷰티 대상 신체 부위에 대응하는 레퍼런스 데이터(520)는 하나 이상의 신체 부위의 특징 및 하나 이상의 신체 부위에 대응하는 뷰티 스타일의 특징 중 적어도 하나를 포함할 수 있다.

한편 데이터 추출 모듈(111)에서 신체 부위의 특징 및 신체 부위에 대응하는 뷰티 스타일의 특징을 추출한다고 설명하였으나 이에 한정되지 않으며, 뷰티 대상 신체부위를 포함하는 영역의 이미지 자체가 인공지능 모델에 입력될 수도 있다. 이 경우 인공지능 모델의 생성자(300)는 신체 부위의 특징 및 신체 부위에 대응하는 뷰티 스타일의 특징을 추출하고, 소스 데이터에 레퍼런스 데이터의 뷰티 스타일을 합성할 수 있다.

또한 뷰티 대상 신체부위를 포함하는 영역의 이미지와 뷰티 스타일의 특징이 함께 인공지능 모델에 입력될 수도 있다. 이 경우 소스 데이터는 뷰티 스타일의 특징 및 분리된 이미지(뷰티 대상 신체부위를 포함하는 영역의 이미지)를 포함할 수 있으며, 레퍼런스 데이터 역시 뷰티 스타일의 특징 및 분리된 이미지(뷰티 대상 신체부위를 포함하는 영역의 이미지)를 포함할 수 있다. 이 경우 인공지능 모델의 생성자(300)는 소스 데이터의 분리된 이미지에 레퍼런스 데이터의 뷰티 스타일을 합성할 수 있다.

또한 데이터 추출 모듈(111)에서 뷰티 대상 신체 부위를 추출한 후 뷰티 대상 신체 부위에 대응하는 소스 데이터를 획득한다고 설명하였으나 이에 한정되지 않는다, 구체적으로 데이터 추출 모듈(111)은 얼굴이 촬영된 이미지(410) 내 얼굴을 탐색하고, 탐색된 얼굴에 대응하는 소스 데이터를 획득할 수 있다. 즉 데이터 추출 모듈(111)은 눈썹, 눈, 입, 코 등의 다양한 신체 부위를 분리하여 처리하는 것이 아니라, 얼굴 전체를 일 단위의 입력 데이터로써 처리하여 인공지능 모델에 제공할 수 있다.

한편 제어부(110)는 소스 데이터 및 레퍼런스 데이터를 이용하여 합성 이미지를 획득할 수 있다. 이와 관련해서는 도 6을 참고하여 설명한다.

도 6은 합성 이미지의 생성 방법을 설명하기 위한 도면이다. 도 4를 함께 참고하여 설명한다.

제어부(110)는 합성 이미지 생성 모듈(112)를 포함할 수 있다. 여기서 합성 이미지 생성 모듈(112)은, 소스 데이터 및 레퍼런스 데이터에 기반하여 합성 이미지를 생성하는 모듈일 수 있다.

제어부(110)는 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 인공지능 모델에 제공할 수 있다.

여기서 인공지능 모델은 도 3에서 설명한 방식으로 트레이닝 된 생성자(300)를 포함할 수 있다.

즉 생성자(300)는, 생성자(300)가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원 소스 데이터를 출력하는 경우 생성자(300)에서의 로스(loss)에 기반하여 트레이닝 된 뉴럴 네트워크일 수 있다,

구체적으로 생성자(300)는, 생성자(300)가 훈련용 소스 데이터에 훈련용 레퍼런스 데이터의 뷰티 스타일이 합성된 제1 합성 데이터 및 훈련용 레퍼런스 데이터에 훈련용 소스 데이터의 뷰티 스타일이 합성된 제2 합성 데이터를 출력하고 제1 합성 데이터에 제2 합성 데이터의 뷰티 스타일이 합성된 복원 소스 데이터를 출력하는 경우, 생성자에서의 로스에 기반하여 트레이닝되는 뉴럴 네트워크일 수 있다.

또한 생성자(300)는, 복원 소스 데이터 및 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하는 판별자(400)에서의 로스와 생성자(300)에서의 로스에 기반하여 트레이닝 되는 뉴럴 네트워크일 수 있다.

한편 소스 데이터(510) 및 레퍼런스 데이터(520)가 입력되면, 생성자(300)는 소스 데이터(510) 및 레퍼런스 데이터(520)를 이용하여 소스 데이터(510)에 레퍼런스 데이터(520)의 뷰티 스타일이 합성된 제1 부분 이미지(610)를 출력할 수 있다.

구체적으로 생성자(300)는, 트레이닝에 의해 설정된 생성자(300)의 파라미터에 기반하여, 소스 데이터(510)의 신체 부위에 레퍼런스 데이터(520)의 뷰티 스타일을 합성할 수 있다.

예를 들어 생성자(300)는 소스 데이터(510)에 포함되는 A 사용자의 눈에, 레퍼런스 데이터(520)에 포함되는 B 사용자의 눈의 메이크업 스타일을 합성하여 제1 부분 이미지(610)를 출력할 수 있다.

한편 합성 이미지 생성 모듈(112)은 제1 부분 이미지(610)를 뷰티 대상 신체 부위의 영역(411)에 합성하여 합성 이미지(430)를 획득할 수 있다.

구체적으로 합성 이미지 생성 모듈(112)은 제1 부분 이미지(610)를 얼굴이 촬영된 이미지(410)와 합성할 수 있다. 이 경우 합성 이미지 생성 모듈(112)은 뷰티 대상 신체 부위의 좌표에 기초하여, 제1 부분 이미지(610)를 뷰티 대상 신체 부위의 영역(411)에 합성하여 합성 이미지(430)를 획득할 수 있다.

이에 따라 합성 이미지는, 레퍼런스 이미지(420)의 뷰티 스타일이 얼굴이 촬영된 이미지(410)에 합성된 이미지일 수 있다. 그리고 제어부(110)는 합성 이미지를 디스플레이 하도록 디스플레이부를 제어할 수 있다.

이와 같이 본 발명에 따르면, 하나의 레퍼런스 이미지만 있는 경우 레퍼런스 이미지의 뷰티 스타일을 사용자의 이미지에 자동으로 합성할 수 있다. 따라서 전문적인 메이크업 지식이나 영상 처리에 대한 기술 지식이 없어도 다양한 뷰티 스타일을 사용자의 이미지에 적용해볼 수 있는 장점이 있다.

또한 본 발명에서는 생성적 적대 신경망을 이용함으로써, 기존의 영상 처리를 통하여 뷰티 필터를 개발하는 방식보다 인적/물적/시간적 비용을 크게 절감할 수 있는 장점이 있다.

한편 제어부(110)는 제1 부분 이미지(610)와 얼굴이 촬영된 이미지(410)를 블렌딩 처리 하여 합성 이미지(430)를 획득할 수 있다.

블렌딩 처리는 아래와 같은 수학식으로 표현될 수 있다.

[수학식 1]

합성 이미지의 색상(R,G,B) = 얼굴이 촬영된 이미지의 색상(R,G,B)*(1-k) + 제1 부분 이미지의 색상(R,G,B)*k

즉 제어부(110)는 k값을 조절함으로써 뷰티 스타일의 적용 정도를 조절할 수 있다. 예를 들어 제어부(110)는, 화장이 연하게 적용되기를 원할수록 k값을 0에 가깝게 설정할 수 있으며, 화장이 진하게 적용되기를 원할수록 k값을 1에 가깝게 설정할 수 있다.

그리고 제어부(110)는 뷰티 스타일의 적용 정도를 설정하기 위한 사용자 입력을 수신하고, 사용자 입력에 기반하여 뷰티 스타일의 적용 정도를 조절할 수 있다.

한편 뷰티 스타일의 적용 정도는, 신체부위 별로 독립적으로 설정될 수 있다.

구체적으로 제어부(110)는 제1 신체 부위(예를 들어 코)의 뷰티 스타일의 적용 정도를 설정하기 위한 사용자 입력을 수신할 수 있다. 이 경우 제어부(110)는 제1 신체 부위(예를 들어 코)에 대응하는 제1 부분 이미지와 얼굴이 촬영된 이미지 내 해당 영역(코)을 제1 신체 부위(예를 들어 코)의 뷰티 스타일의 적용 정도에 따라 블렌딩 처리 할 수 있다.

또한 같은 방식으로 제2 신체 부위(예를 들어 눈)의 뷰티 스타일의 적용 정도도 조절될 수 있다. 그리고 제1 신체 부위의 뷰티 스타일의 적용 정도는 제2 신체 부위의 뷰티 스타일의 적용 정도와 상이할 수 있다.

도 7은 본 발명에 따른 합성 이미지의 디스플레이 방법을 설명하기 위한 순서도이다.

합성 이미지의 디스플레이 방법은, 얼굴이 촬영된 이미지를 획득하는 단계(S710), 소스 데이터 및 레퍼런스 데이터를 인공지능 모델에 제공하여 합성 이미지를 획득하는 단계(S720), 실시간 합성 이미지 생성 여부를 결정하는 단계(S730), 실 시간 합성 이미지 생성이 가능한 경우 동영상에 대응하는 합성 이미지를 실 시간으로 생성하여 디스플레이 하는 단계(S740) 및 실시간 합성 이미지 생성이 불가능한 경우 합성 이미지를 이용하여 3D 얼굴 모델을 생성하고, 3D 얼굴 모델을 동영상에 정합하는 단계(S750)를 포함할 수 있다.

S710, S720은 앞서 설명하였는 바, 이하에서는 S730, S740 및 S750을 설명한다,

제어부(110)는 실시간 합성 이미지 생성 여부를 결정할 수 있다(S730). 구체적으로 제어부(110)는 이동 단말기 하드웨어의 사양, 소스 이미지 및 레퍼런스 이미지를 이용하여 합성 이미지가 생성되는 속도, 동영상의 사이즈, 동영상의 프레임 레이트 중 적어도 하나에 기초하여, 실시간 합성 이미지 생성 여부를 결정할 수 있다.

그리고 이동 단말기(100)가 동영상의 복수의 프레임이 수신되는 속도에 대응하도록 실 시간으로 합성 이미지를 생성할 수 있는 경우, 제어부(110)는 동영상에 대응하는 합성 이미지를 실 시간으로 생성하여 디스플레이 할 수 있다(S740).

예를 들어 동영상의 제1 프레임 이미지가 획득되는 경우, 제어부(110)는 제1 프레임 이미지 및 레퍼런스 이미지를 이용하여 레퍼런스 이미지의 뷰티 스타일이 제1 프레임 이미지에 합성된 제1 합성 이미지를 디스플레이 할 수 있다. 그리고 동영상의 제2 프레임 이미지가 획득되는 경우, 제어부(110)는 제2 프레임 이미지 및 레퍼런스 이미지를 이용하여 레퍼런스 이미지의 뷰티 스타일이 제2 프레임 이미지에 합성된 제2 합성 이미지를 디스플레이 할 수 있다.

다만 합성 이미지를 생성하는 과정은 매우 많은 연산량을 필요로 하기 때문에, 일반적인 하드웨어 사양으로 실시간 합성 이미지를 생성하는 것에는 한계가 있을 수 있다.

이러한 문제점을 보완하기 위하여, 이동 단말기(100)가 동영상의 복수의 프레임이 수신되는 속도에 대응하도록 실 시간으로 합성 이미지를 생성할 수 없는 경우, 제어부(110)는 합성 이미지를 이용하여 3D 얼굴 모델을 생성하고, 3D 얼굴 모델을 동영상에 정합할 수 있다(S750).

이와 관련해서는 도 8을 참고하여 설명한다.

도 8은 합성 이미지를 이용하여 3D 얼굴 모델을 생성하고, 3D 얼굴 모델을 동영상에 정합하는 방법을 설명하기 위한 도면이다.

복수의 프레임 이미지를 포함하는 동영상(820)이 영상 획득부(120)를 통하여 수신되면, 제어부(110)는 합성 이미지(430)를 복수의 프레임 이미지의 동영상(820)에 정합하여 정합 동영상(830)을 디스플레이 할 수 있다.

구체적으로 제어부(110)는 3D 얼굴 모델 생성 모듈(113)를 포함할 수 있다. 그리고 3D 얼굴 모델 생성 모듈(113)은 합성 이미지(430)를 3D 얼굴 모델(810)로 매핑하여 합성 이미지에 대응하는 3D 얼굴 모델을 생성할 수 있다.

더욱 구체적으로, 3D 얼굴 모델(810)은 다수의 사용자들의 얼굴을 평균화한 얼굴 모델이거나, 얼굴이 촬영된 이미지에 기반하여 촬영된 사용자의 얼굴을 형상화한 얼굴 모델일 수 있다. 그리고 제어부(110)는 합성 이미지(430) 내 하나 이상의 포인트를 3D 얼굴 모델(810) 내 상응하는 하나 이상의 포인트에 매핑하는 방식으로, 합성 이미지가 반영된 3D 얼굴 모델을 생성할 수 있다.

그리고 나서 제어부(110)는 생성된 3D 얼굴 모델을 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

구체적으로 제어부(110)는 AR 모듈(114)을 포함할 수 있다. 그리고 AR 모듈(114)은 실시간으로 획득되는 복수의 프레임 이미지들에 대하여 얼굴을 탐색하고 얼굴 내 특징점 정보를 획득할 수 있다.

그리고 AR 모듈(114)은 복수의 프레임 이미지 내 얼굴의 특징점 정보 및 3D 얼굴 모델 내 메쉬 포인트 정보의 관계를 산출할 수 있다. 여기서 복수의 프레임 이미지 내 얼굴의 특징점 정보 및 3D 얼굴 모델 내 메쉬 포인트 정보의 관계를 산출하기 위한 알고리즘으로 포인트 간 거리 최소화(Iterative closest point, ICP) 알고리즘이 사용될 수 있으나 이에 한정되지 않으며, 포인트간 변환 관계를 산출하는 다양한 알고리즘이 사용될 수 있다.

그리고 AR 모듈(114)은 복수의 프레임 이미지 내 얼굴의 특징점 정보 및 3D 얼굴 모델 내 메쉬 포인트 정보의 관계에 기초하여, 3D 얼굴 모델을 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

또한 AR 모듈(114)은 실 시간으로 획득되는 복수의 프레임 이미지에 동일한 3D 얼굴 모델을 정합하여 디스플레이 할 수 있다.

예를 들어 동영상이 촬영되고 있다. 그리고 제n프레임 이미지가 촬영되면, 제어부는 합성 이미지에 대응하는 3D 얼굴 모델을 n프레임 이미지에 정합하여 디스플레이 할 수 있다. 다음으로 제n+1프레임 이미지가 촬영되면, 제어부는 합성 이미지에 대응하는 3D 얼굴 모델을 n+1 프레임 이미지에 정합하여 디스플레이 할 수 있다.

이에 따라 동영상에서 얼굴이 움직이거나 얼굴의 각도가 변경되는 경우에도, 이동 단말기(100)는 레퍼런스 이미지의 뷰티 스타일이 적용된 동영상을 실 시간으로 디스플레이 할 수 있다. 예를 들어 n 프레임 이미지에서는 동영상 내 사용자가 좌측을 보고 있고 n+10 프레임 이미지에서는 동영상 내 사용자가 정면을 보고 있는 경우, 이동 단말기(100)는 사용자의 움직임에 대응하여 레퍼런스 이미지의 뷰티 스타일이 적용된 동영상을 실 시간으로 디스플레이 할 수 있다.

그리고 합성 이미지에 대응하는 3D 얼굴 모델을 생성하고 동일한 3D 얼굴 모델을 얼굴의 위치 및 각도에 기반하여 동영상에 매핑하기 때문에, 합성 이미지를 실 시간으로 생성할 수 없는 단말기에서도 레퍼런스 이미지의 뷰티 스타일이 적용된 동영상을 실 시간으로 디스플레이 할 수 있는 장점이 있다.

또한 하나의 합성 이미지로 동영상 내 이미지 프레임들에 대하여 실시간으로 뷰티 스타일의 적용이 가능하기 때문에, OTT 동영상 등의 미디어, 영상/화상 통화, 방송, 기타 이동 단말기에 의해 제공되는 다양한 서비스에 AR 서비스를 제공할 수 있다는 장점이 있다.

한편 제어부(110)는 합성 이미지에 대응하는 3D 얼굴 모델의 일부를 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다. 예를 들어 뷰티 대상 신체 부위가 사용자의 눈, 코인 경우, 제어부(110)는 눈, 코 및 주변 영역을 포함하는 3D 얼굴 모델의 일부를 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

한편 3D 얼굴 모델을 복수의 프레임 이미지에 정합하여 디스플레이 하는 경우, 3D 얼굴 모델이 정합된 영역과 3D 얼굴 모델이 정합되지 않은 영역 사이에는 이질감(서로 다른 피부 톤, 이질적인 경계)이 발생할 수 있다.

그리고 이질감을 최소화 하기 위하여, 제어부(110)는 3D 얼굴 모델과 복수의 프레임 이미지를 블렌딩 처리하여 정합할 수 있다.

블렌딩 처리는 아래와 같은 수학식으로 표현될 수 있다.

[수학식 2]

Blend Output Pixel(R,G,B) = Source Image Pixel ⓧ (K) + Reference Image Pixel ⓧ (1 - K)

(Blend Output Pixel(R,G,B): 정합 이미지의 색상(R,G,B), Source Image Pixel: 3D 얼굴 모델의 색상(R,G,B), Reference Image Pixel: 실시간 프레임 이미지의 색상(R,G,B))

또한 제어부(110)는 3D 얼굴 모델의 평균 색상 및 실시간 프레임 이미지의 평균 색상의 차이(Average Color Difference)에 기반하여 k값을 산출할 수 있다. 이것은 아래와 같은 수학식으로 표현될 수 있다.

[수학식 3]

K = Average Color Difference [Source Image Pixel(R,G,B), Reference Image Pixel(R,G,B)]

그리고 이와 같은 블랜딩 처리는 프레임 별로 수행될 수 있다.

구체적으로 제n프레임 이미지가 촬영되면, 제어부(110)는 3D 얼굴 모델과 제n프레임 이미지의 색상 차에 기초하여 제n 프레임에 대한 블렌딩 처리를 수행할 수 있다. 더욱 구체적으로 제어부(110)는 3D 얼굴 모델의 평균 색상 및 제n 프레임 이미지의 평균 색상의 차이에 기반하여 k값을 산출하고, 산출된 k값에 기반하여 3D 얼굴 모델과 제n 프레임 이미지를 블렌딩 처리할 수 있다.

또한 제n+1프레임 이미지가 촬영되면, 제어부(110)는 3D 얼굴 모델과 제n+1프레임 이미지의 색상 차에 기초하여 제n+1 프레임에 대한 블렌딩 처리를 수행할 수 있다. 더욱 구체적으로 제어부(110)는 3D 얼굴 모델의 평균 색상 및 제n+1 프레임 이미지의 평균 색상의 차이에 기반하여 k값을 산출하고, 산출된 k값에 기반하여 3D 얼굴 모델과 제n+1 프레임 이미지를 블렌딩 처리할 수 있다.

즉 조명 변화 등에 따라 실시간 프레임 이미지의 색상이 변경되더라도, 제어부(110)는 프레임 별 k 값을 산출하고 산출된 k 값에 따라 해당하는 프레임을 블렌딩 처리함으로써, 조명 변화에도 강건하고 자연스러운 정합 이미지를 디스플레이 할 수 있다.

한편 도 9를 참고하여 레퍼런스 이미지를 선택하는 방법에 대하여 설명한다.

도 9는 레퍼런스 이미지를 선택하는 방법을 설명하기 위한 도면이다.

레퍼런스 이미지는 사용자에 의해 선택된 이미지일 수 있다.

구체적으로 제어부(110)는 다양한 뷰티 스타일을 가지는 복수의 이미지를 디스플레이 할 수 있다. 그리고 제어부(110)는 복수의 이미지 중 특정 이미지(920)를 선택하는 입력을 입력부(150)를 통하여 수신할 수 있다.

이 경우 제어부(110)는 얼굴이 촬영된 이미지(910) 및 특정 이미지(920) (레퍼런스 이미지)를 이용하여, 레퍼런스 이미지의 뷰티 스타일이 얼굴이 촬영된 이미지(910)에 합성된 합성 이미지를 획득할 수 있다.

한편 도 9에서는, 애플리케이션에서 다양한 뷰티 스타일을 가지는 복수의 이미지를 제공하고 사용자가 복수의 이미지 중 하나를 선택하는 방식을 도시하였으나 이에 한정되지 않는다.

예를 들어 외부 장치에서 촬영되어 수신된 이미지, 서버나 인터넷으로부터 수신된 이미지, 영화 등 컨텐츠에 포함되는 이미지 등 다양한 이미지가 레퍼런스 이미지로 선택될 수 있다. 즉 시스템(또는 애플리케이션) 사업자가 제공하는 이미지뿐만 아니라, 사용자가 개인적으로 수집할 수 있는 이미지 들이 레퍼런스 이미지로 사용될 수 있다.

한편 본 발명에 따른 뷰티 스타일의 합성 방법은, 연예인 메이크업 스타일 합성 서비스, 뷰티 스타일 가이드 서비스 등에서 제공될 수 있으며, 영상 통화, 화상 통화, 동영상 송출 등 얼굴 이미지를 실시간으로 전송 및 수신하는 서비스에서도 적용될 수 있다. 이 경우 제어부(110)는 합성 이미지 또는 정합 동영상을 외부 장치로 전송할 수 있다.

한편 본 발명에 따른 뷰티 스타일의 합성 방법은, 이동 단말기와 서버에 의해 수행될 수도 있다.

여기서 서버는 앞서 설명한 설명한 이동 단말기(100)의 구성 요소를 포함하고, 앞서 설명한 이동 단말기(100)의 기능을 수행할 수 있다.

이 경우 이동 단말기(100)의 제어부(110)는 얼굴이 촬영된 이미지를 획득하고, 얼굴이 촬영된 이미지를 서버에 전송할 수 있다. 또한 이동 단말기(100)의 제어부(110)는 레퍼런스 이미지 또는 레퍼런스 이미지의 식별 정보를 서버에 전송할 수 있다.

이 경우 서버의 제어부는, 통신부를 통하여, 얼굴이 촬영된 이미지를 수신할 수 있다.

또한 서버의 제어부는, 통신부를 통하여, 레퍼런스 이미지 또는 레퍼런스 이미지의 식별 정보를 수신할 수 있다. 레퍼런스 이미지의 식별 정보가 수신된 경우, 서버의 제어부는 레퍼런스 이미지의 식별 정보에 기초하여 서버의 메모리에 저장된 레퍼런스 이미지를 획득할 수 있다.

그리고 서버의 제어부는 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 서버에 탑재된 인공지능 모델에 제공하여 레퍼런스 이미지의 뷰티 스타일이 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득할 수 있다.

그리고 서버의 제어부는, 서버의 통신부를 통하여, 합성 이미지를 이동 단말기로 전송할 수 있다.

이 경우 이동 단말기(100)의 제어부(110)는 합성 이미지를 수신하여 디스플레이 할 수 있다. 또한 복수의 프레임 이미지를 포함하는 동영상이 수신되면, 이동 단말기(100)의 제어부(110)는 합성 이미지를 복수의 프레임 이미지에 정합하여 디스플레이 할 수 있다.

즉 인공지능 모델을 서버에 탑재하고 얼굴이 촬영된 이미지 및 합성 이미지를 서버와 이동 단말기가 송수신하는 방식을 취하기 때문에, 이동 단말기의 사양이 낮은 경우에도 서비스가 가능하다는 장점이 있다. 또한 합성 이미지를 복수의 프레임 이미지에 정합하는 과정은 상대적으로 적은 데이터 처리량을 가지며 실 시간 처리가 중요하기 때문에, 합성 이미지를 복수의 프레임 이미지에 정합하는 과정은 이동 단말기에서 수행함으로써 합성 이미지가 정합된 동영상을 실 시간으로 디스플레이 할 수 있는 장점이 있다.

다음은 도 10을 참고하여 뷰티 스타일의 변환 대상 신체 부위가 선택된 경우의 동작을 설명한다.

도 10은 신체 부위 별 뷰티 스타일의 변환 방법을 설명하기 위한 도면이다.

얼굴에 포함된 신체부위들 중 일부만이 뷰티 스타일 변환의 대상이 될 수 있다. 예를 들어 사용자는 눈과 코만을 뷰티 스타일 변환의 대상으로 선택할 수 있다.

한편 도 3에서 설명한 생성적 적대 신경망(Generative Adversarial Network, GAN)은 신체 부위별로 트레이닝 될 수 있다.

예를 들어 눈에 대응하는 제1 생성적 적대 신경망은, 눈을 포함하는 영역의 훈련용 소스 데이터 및 눈을 포함하는 영역의 훈련용 레퍼런스 데이터를 이용하여 트레이닝 될 수 있다.

다른 예를 들어 입에 대응하는 제2 생성적 적대 신경망은, 입을 포함하는 영역의 훈련용 소스 데이터 및 입을 포함하는 영역의 훈련용 레퍼런스 데이터를 이용하여 트레이닝 될 수 있다.

그리고 복수의 신체 부위에 각각 대응하는 복수의 생성적 적대 신경망으로부터 생성자들이 분리되어 이동 단말기(100)에 탑재될 수 있다.

구체적으로 이동 단말기(100)에 탑재된 인공지능 모델(300)은, 복수의 뷰티 대상 신체 부위에 각각 대응하는 복수의 인공지능 모델을 포함할 수 있다.

예를 들어 이동 단말기(100)에 탑재된 인공지능 모델(300)은 눈에 대응하는 제1 생성자(310) 및 입에 대응하는 제2 생성자(320), 코에 대응하는 제3 생성자(330)를 포함할 수 있다.

한편 제어부(110)는 복수의 뷰티 대상 신체 부위 중 사용자에 의해 선택된 신체 부위에 대하여 뷰티 스타일 변환을 수행할 수 있다.

제1 신체 부위(눈) 및 제2 신체 부위(코)가 선택된 것으로 가정하여 설명한다.

제1 신체 부위(눈) 및 제2 신체 부위(코)가 선택된 경우, 제어부(110)는 얼굴이 촬영된 이미지로부터 복수의 뷰티 대상 신체 부위 중 제1 신체 부위에 대응하는 소스 데이터(1011)와 제2 신체 부위에 대응하는 소스 데이터(1012)를 획득할 수 있다.

여기서 제1 신체 부위에 대응하는 소스 데이터(1011)는 얼굴이 촬영된 이미지로부터 제1 신체 부위가 존재하는 영역을 추출한 데이터이며, 제2 신체 부위에 대응하는 소스 데이터(1012)는 얼굴이 촬영된 이미지로부터 제2 신체 부위가 존재하는 영역을 추출한 데이터일 수 있다.

또한 제어부(110)는 레퍼런스 이미지로부터 복수의 뷰티 대상 신체 부위 중 제1 신체 부위에 대응하는 레퍼런스 데이터(1021)와 제2 신체 부위에 대응하는 레퍼런스 데이터(1022)를 획득할 수 있다.

이 경우 제어부(110)는 복수의 인공지능 모델 중 제1 신체 부위에 대응하는 인공지능 모델(310)에 제1 신체 부위에 대응하는 소스 데이터(1011) 및 제1 신체 부위에 대응하는 레퍼런스 데이터(1021)를 제공할 수 있다.

이 경우 제1 신체 부위에 대응하는 인공지능 모델(310)은 제1 신체 부위에 대응하는 소스 데이터(1011) 및 제1 신체 부위에 대응하는 레퍼런스 데이터(1021)를 이용하여 제1 신체 부위에 대응하는 제1 부분 이미지(1051)를 출력할 수 있다. 여기서 제1 부분 이미지(1051)은 제1 신체 부위에 대응하는 소스 데이터(1011)에 제1 신체 부위에 대응하는 레퍼런스 데이터(1021)의 뷰티 스타일이 합성된 이미지일 수 있다.

또한 제어부(110)는 복수의 인공지능 모델 중 제2 신체 부위에 대응하는 인공지능 모델(320)에 제2 신체 부위에 대응하는 소스 데이터(1012) 및 제2 신체 부위에 대응하는 레퍼런스 데이터(1022)를 제공할 수 있다.

이 경우 제2 신체 부위에 대응하는 인공지능 모델(320)은 제2 신체 부위에 대응하는 소스 데이터(1012) 및 제2 신체 부위에 대응하는 레퍼런스 데이터(1022)를 이용하여 제2 신체 부위에 대응하는 제2 부분 이미지(1052)를 출력할 수 있다. 여기서 제2 부분 이미지(1052)은 제2 신체 부위에 대응하는 소스 데이터(1012)에 제2 신체 부위에 대응하는 레퍼런스 데이터(1022)의 뷰티 스타일이 합성된 이미지일 수 있다.

그리고 나서 제어부(110)는 제1 부분 이미지(1051) 및 제2 부분 이미지(1052)를 해당하는 영역에 합성하여 합성 이미지를 획득할 수 있다.

일부 신체부위에만 새로운 화장법을 적용하는 니즈가 존재하며, 이동 단말기의 한정된 자원 하에서 연산량을 줄이는 것은 매우 중요하다. 따라서 본 발명에 따르면, 사용자가 원하는 신체 부위에 대해서만 해당하는 생성자를 이용하여 뷰티 스타일을 변환함으로써, 연산량을 줄일 수 있는 장점이 있다.

또한 사용자는 여러 신체 부위에 대하여 다른 화장법을 적용할 수 있는 장점이 있다. 예를 들어 사용자가 눈에 대응하는 레퍼런스 이미지로 A 화장법으로 화장을 한 이미지를 선택하였고, 코에 대응하는 레퍼런스 이미지로 B 화장법으로 화장을 한 이미지를 선택한 경우, 눈과 코에 다른 화장법을 적용하여 뷰티 스타일을 변환할 수 있는 장점이 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 제어부를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100: 이동 단말기 110: 제어부
120: 영상 획득부 130: 출력부
140: 메모리 150: 입력부
160: 통신부

Claims

생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하도록, 상기 생성자에 상기 훈련용 소스 데이터 및 훈련용 레퍼런스 데이터를 제공하는 단계;
판별자가 상기 생성자에 의해 출력된 복원 소스 데이터 및 상기 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하도록, 상기 복원 소스 데이터 및 상기 훈련용 소스 데이터를 상기 판별자에 제공하는 단계; 및
상기 생성자에서의 로스 및 상기 판별자에서의 로스를 이용하여 상기 생성자 및 상기 판별자를 트레이닝 하는 단계를 포함하는
뷰티 스타일의 합성 방법.
제 1항에 있어서,
상기 생성자에 상기 훈련용 소스 데이터 및 상기 훈련용 레퍼런스 데이터를 제공하는 단계는,
상기 생성자에 상기 훈련용 소스 데이터 및 상기 훈련용 레퍼런스 데이터를 제공하여, 상기 훈련용 소스 데이터에 상기 훈련용 레퍼런스 데이터의 뷰티 스타일이 합성된 제1 합성 데이터 및 상기 훈련용 레퍼런스 데이터에 상기 훈련용 소스 데이터의 뷰티 스타일이 합성된 제2 합성 데이터를 획득하는 단계; 및
상기 생성자에 상기 제1 합성 데이터 및 상기 제2 합성 데이터를 제공하여, 상기 제1 합성 데이터에 상기 제2 합성 데이터의 뷰티 스타일이 합성된 상기 복원 소스 데이터를 획득하는 단계;를 포함하는
뷰티 스타일의 합성 방법.
제 2항에 있어서,
상기 생성자 및 상기 판별자를 트레이닝 하는 단계는,
상기 생성자에서의 로스 및 상기 판별자에서의 로스의 합이 최소화 되도록 상기 생성자 및 상기 판별자를 트레이닝 하는
뷰티 스타일의 합성 방법.
제 3항에 있어서,
상기 생성자에서의 로스는,
상기 복원 소스 데이터 및 상기 훈련용 소스 데이터의 차이이고,
상기 판별자에서의 로스는,
상기 복원 소스 데이터가 가짜일 확률 및 상기 훈련용 소스 데이터가 진짜일 확률의 합인
뷰티 스타일의 합성 방법.
제 1항에 있어서,
얼굴이 촬영된 이미지를 획득하는 단계;
상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 상기 생성자에 제공하여 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하는 단계; 및
상기 합성 이미지를 디스플레이 하는 단계;를 더 포함하는
뷰티 스타일의 합성 방법.
얼굴이 촬영된 이미지를 획득하는 영상 획득부;
디스플레이부; 및
상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자를 포함하는 인공지능 모델에 제공하여, 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하고, 상기 합성 이미지를 디스플레이 하도록 상기 디스플레이부를 제어하는 제어부;를 포함하고,
상기 생성자는,
상기 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하여 복원 소스 데이터를 출력하는 경우 상기 생성자에서의 로스에 기반하여 트레이닝 되는
이동 단말기.
제 6항에 있어서,
상기 생성자는,
상기 생성자가 상기 훈련용 소스 데이터에 훈련용 레퍼런스 데이터의 뷰티 스타일이 합성된 제1 합성 데이터 및 상기 훈련용 레퍼런스 데이터에 상기 훈련용 소스 데이터의 뷰티 스타일이 합성된 제2 합성 데이터를 출력하고 상기 제1 합성 데이터에 상기 제2 합성 데이터의 뷰티 스타일이 합성된 상기 복원 소스 데이터를 출력하는 경우, 상기 생성자에서의 로스에 기반하여 트레이닝되는
이동 단말기.
제 6항에 있어서,
상기 생성자는,
상기 복원 소스 데이터 및 상기 훈련용 소스 데이터의 진짜(real) 또는 가짜(fake)를 판별하는 판별자에서의 로스와 상기 생성자에서의 로스에 기반하여 트레이닝 되는
이동 단말기.
제 8항에 있어서,
상기 생성자에서의 로스는,
상기 복원 소스 데이터 및 상기 훈련용 소스 데이터의 차이이고,
상기 판별자에서의 로스는,
상기 복원 소스 데이터가 가짜일 확률 및 상기 훈련용 소스 데이터가 진짜일 확률의 합인
이동 단말기.
제 6항에 있어서,
상기 제어부는,
상기 얼굴이 촬영된 이미지로부터 뷰티 대상 신체 부위를 추출하여, 상기 뷰티 대상 신체 부위에 대응하는 상기 소스 데이터를 획득하는
이동 단말기.
제 10항에 있어서,
상기 인공지능 모델은,
상기 소스 데이터 및 상기 레퍼런스 데이터를 이용하여, 상기 소스 데이터에 상기 레퍼런스 데이터의 뷰티 스타일이 합성된 부분 이미지를 출력하고,
상기 제어부는,
상기 부분 이미지를 상기 뷰티 대상 신체 부위의 영역에 합성하여 상기 합성 이미지를 획득하는
이동 단말기.
제 6항에 있어서,
상기 인공지능 모델은,
복수의 뷰티 대상 신체 부위에 각각 대응하는 복수의 인공지능 모델을 포함하는
이동 단말기.
제 12항에 있어서,
상기 제어부는,
상기 얼굴이 촬영된 이미지로부터, 상기 복수의 뷰티 대상 신체 부위 중 제1 신체 부위에 대응하는 소스 데이터를 획득하고,
상기 복수의 인공지능 모델 중 상기 제1 신체 부위에 대응하는 특정 인공지능 모델에 상기 제1 신체 부위에 대응하는 소스 데이터를 제공하고,
상기 제1 신체 부위에 대응하는 특정 인공지능 모델은,
상기 제1 신체 부위에 대응하는 소스 데이터를 이용하여 상기 제1 신체 부위에 대응하는 부분 이미지를 출력하는
이동 단말기.
제 6항에 있어서,
상기 레퍼런스 이미지는,
사용자에 의해 선택된 이미지인
이동 단말기.
제 6항에 있어서,
상기 제어부는,
복수의 프레임 이미지를 포함하는 동영상이 수신되면, 상기 합성 이미지를 상기 복수의 프레임 이미지에 정합하여 디스플레이 하는
이동 단말기.
제 15항에 있어서,
상기 제어부는,
상기 합성 이미지를 3D 얼굴 모델로 매핑하여 상기 합성 이미지에 대응하는 상기 3D 얼굴 모델을 생성하고,
상기 생성된 3D 얼굴 모델을 상기 복수의 프레임 이미지에 정합하여 디스플레이 하는
이동 단말기.
제 15항에 있어서,
상기 제어부는,
상기 복수의 프레임 이미지 중 제n 프레임 이미지와 상기 합성 이미지의 색상 차에 기초하여 제n 프레임에 대한 블렌딩 처리를 수행하고, 상기 복수의 프레임 이미지 중 제n+1 프레임 이미지와 상기 합성 이미지의 색상 차에 기초하여 제n+1 프레임에 대한 블렌딩 처리를 수행하는
이동 단말기.
이동 단말기로부터 얼굴이 촬영된 이미지를 수신하는 통신부;
상기 얼굴이 촬영된 이미지에 대응하는 소스 데이터 및 레퍼런스 이미지에 대응하는 레퍼런스 데이터를 생성자를 포함하는 인공지능 모델에 제공하여 상기 레퍼런스 이미지의 뷰티 스타일이 상기 얼굴이 촬영된 이미지에 합성된 합성 이미지를 획득하고, 상기 합성 이미지를 상기 통신부를 통하여 상기 이동 단말기로 전송하는 제어부;를 포함하고,
상기 생성자는,
상기 생성자가 훈련용 소스 데이터를 뷰티 스타일 변환 후 복원하여 복원 소스 데이터를 출력하는 경우 상기 생성자에서의 로스에 기반하여 트레이닝 되는 서버.