KR20230108869A

KR20230108869A - 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법

Info

Publication number: KR20230108869A
Application number: KR1020220004513A
Authority: KR
Inventors: 류원종; 임정혁; 정정영
Original assignee: 주식회사 이너버즈
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2023-07-19

Abstract

본 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 것으로, (a) 프로세서가 사람 얼굴이 포함된 실제사진을 수집하여 데이터베이스에 저장하는 단계;, (b) 상기 데이터베이스에 저장된 실제사진을 이용하여 상기 프로세서가 이미지 판별 모듈을 학습하는 단계;, (c) 이미지 생성 모듈이 생성한 제1 가상 이미지를 상기 이미지 판별 모듈에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈이 출력한 제1 판단값에 대한 오차를 이용하여 상기 이미지 생성 모듈을 학습하는 단계;, (d) 상기 (c)단계에서 학습된 상기 이미지 생성 모듈이 생성한 제2 가상 이미지를 상기 이미지 판별 모듈에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈이 출력한 제2 판단값에 대한 오차를 이용하여 상기 이미지 판별 모듈을 학습하는 단계;를 포함한다.

Description

딥 러닝을 이용한 가상 인물 생성 모델의 학습방법 {A learning method of a virtual person creation model using deep learning}

본 발명은 딥 러닝을 이용하여 가상 인물의 생성 모델을 학습하는 방법과 이를 컴퓨터로 읽을 수 있는 저장 매체에 대한 것이며, 상세하게는 이미지 생성 모듈과 이미지 판별 모듈의 학습 과정을 서로 얽히게 함으로써, 자체적인 학습이 가능하도록 이미지 생성 모듈을 학습하는 발명에 대한 것이다.

특허문헌 001은 맞춤형 가상 캐릭터를 생성하기 위한 시스템 및 방법이 개시된다. 시스템은 실제 인물을 묘사하는 비디오 데이터 또는 다른 미디어를 획득한 다음, 상기 획득한 미디어를 상기 비디오 또는 다른 미디어에서 묘사되는 특정 사람에 관한 시각적 외관 및 행동을 학습하도록 구성된 하나 이상의 머신러닝 모델에 제공할 수 있다. 시스템은 그 후 상기 실제 인물에 대응하는 커스텀 시각적 외관 모델 및 커스텀 행동 모델을 생성할 수 있고, 이는 나중에 비디오 게임의 가상 환경 내에서, 외관과 게임 내 행동 면에서 실제 인물과 닮은 가상 캐릭터를 렌더링하는 데 사용될 수 있는 기술을 제시한다.

특허문헌 002는 이미지 생성 모델을 트레이닝 시키는 장치 및 이미지 생성 장치가 제공된다. 이미지 생성 모델을 트레이닝시키는 장치는, 이미지 생성 모델로부터 생성된 출력 이미지들 간의 깊이 특징의 유사성에 기초하여 이미지 생성 모델을 트레이닝시킬 수 있는 기술을 제시한다.

특허문헌 003은 적대적 생성 신경망 알고리즘을 기반으로 한 의인화 캐릭터 생성 방법에 관한 것으로서, 본 발명의 일 실시예에 따른 방법은, (a) 프로세서가 사람, 동물 및 캐릭터 이미지 데이터를 각각 수집하여 데이터베이스에 저장하는 단계, (b) 프로세서가 데이터베이스에 저장된 이미지 데이터들 각각에 대해 소정의 특징 영역에 주의값(attention value)을 부여함으로써 데이터들을 가공하는 단계, (c) 프로세서가 가공된 데이터들을 적대적 생성 신경망 알고리즘을 이용하여 학습하는 단계 및 (d) 사용자 단말로부터 사용자 이미지 데이터가 입력되면, 프로세서가 입력된 사용자 이미지 데이터에 대해 소정의 특징 영역에 주의값을 부여하고, 적대적 생성 신경망 알고리즘을 이용한 데이터 변환을 통해 의인화 캐릭터를 생성하는 단계를 포함하는 기술을 제시한다.

특허문헌 004는 텍스트 및 오디오 기반 실시간 얼굴 재연을 위한 시스템 및 방법이 제공된다. 예시적인 방법은 입력 텍스트 및 타겟 이미지를 수신하는 단계를 포함하며, 타겟 이미지는 타겟 페이스를 포함하고, 입력 텍스트에 기초하여, 입력 텍스트를 나타내는 음향 특성 세트들의 시퀀스를 생성하는 단계, 음향 특성 세트들의 시퀀스에 기초하여, 입력 텍스트를 발음하기 위한 타겟 페이스의 수정을 나타내는 시나리오 데이터 세트들의 시퀀스를 결정하는 단계; 시나리오 데이터 세트의 시퀀스에 기초하여, 프레임 시퀀스를 생성하는 단계- 각각의 프레임은 시나리오 데이터 세트 중 적어도 하나에 기초하여 수정된 타겟 페이스를 포함함-; 프레임 시퀀스에 기초하여 출력 비디오를 생성하는 단계; 및 음향 특성 세트들의 시퀀스에 기초하여 오디오 데이터를 합성하고 오디오 데이터를 출력 비디오에 추가하는 단계를 포함하는 기술을 제시한다.

KR 10-2296906 (등록일자:2021년 08월 26일) KR 10-2020-0048032 (공개일자:2020년 05월 08일) KR 10-2084782 (등록일자:2020년 02월 27일) KR 10-2021-0119441 (공개일자:2021년 10월 05일)

본 발명은 딥 러닝을 이용한 가상 인물 생성 방법과 시스템 및 이를 컴퓨터로 읽을 수 있는 저장매체에 대한 것으로, 랜덤한 씨드(seed)를 입력하면 다양한 가상 인물을 보다 현실적으로 생성하는 방법을 제공하고자 한다.

또한, 본 발명은 가상 이미지 생성 모듈의 학습 데이터를 정제 및 가공하여 생성 모듈이 생성하는 가상 인물이 보다 현실적으로 표현될 수 있도록 학습시키고자 한다.

또한, 본 발명은 가상 이미지 판별 모듈과 경쟁적으로 가상 이미지 생성 모듈을 학습시킴으로써, 디지털상에서 자체적 학습을 수행시키고자 한다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, (a) 프로세서가 사람 얼굴이 포함된 실제사진을 수집하여 데이터베이스(100)에 저장하는 단계(S100);, (b) 상기 데이터베이스(100)에 저장된 실제사진을 이용하여 상기 프로세서가 이미지 판별 모듈(200)을 학습하는 단계(S200);, (c) 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제1 판단값에 대한 오차를 이용하여 상기 이미지 생성 모듈(300)을 학습하는 단계(S300); 및 (d) 상기 (c)단계(S300)에서 학습된 상기 이미지 생성 모듈(300)이 생성한 제2 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제2 판단값에 대한 오차를 이용하여 상기 이미지 판별 모듈(200)을 학습하는 단계(S400);를 포함하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)에 저장하기 전에 수행되는 가공단계(S110);를 포함하고, 상기 가공단계(S110)는 상기 사람의 얼굴이 포함된 실제사진에서 얼굴의 위치를 찾는 탐색단계(S111);, 상기 얼굴에서 양쪽 눈, 코, 입을 설정된 위치에 배치되도록 상기 얼굴을 배치하고 정해진 크기로 상기 실제사진을 잘라내는 정렬단계(S112);, 얼굴 사진의 해상도를 증가시키는 초해상화 단계(S113); 및 배경과 얼굴을 구분한 후, 배경을 특정한 단색으로 통일시키는 배경삭제단계(S114); 를 포함하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)를 저장하기 전에 수행되는 필터링 단계(S120);를 포함하고, 상기 필터링 단계(S120)는 상기 실제사진에 손이 포함되어 있는 경우, 마이크/글귀 등이 상기 얼굴과 겹쳐져 있는 경우, 흑백 사진인 경우, 상기 얼굴이 이상 회전되어 있는 경우, 서양인이 포함되어 있는 경우 및 반사된 영역에 피부가 보이는 경우 중 적어도 어느 하나에 해당하는 상기 실제사진을 필터링하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 (b)단계(S200)는 상기 이미지 판별 모듈(200)이 출력한 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 (c)단계(S300)는 상기 제1 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 생성 모듈(300)을 학습하는 것을 특징으로 하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 (d)단계(S400)는 상기 제2 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, (e) 상기 (b)단계(S200) 내지 상기 (d)단계(S400)를 반복적으로 수행하여 학습하는 반복학습단계(S500);를 포함하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 반복학습단계(S500)는 상기 (b)단계(S200)가 1회 수행될 때, 상기 (c)단계(S300) 및 (d)단계(S400)는 복수회 반복 수행되어 학습되는 것을 특징으로 하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 판단값에 대한 오차에 의한 학습 가중치를 상기 제1 및 제2 판단값에 대한 오차에 의한 학습 가중치보다 작게 설정되는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 발명이며, 앞에서 제시한 발명에 있어서, 상기 이미지 생성 모듈(300)이 가상의 이미지를 생성하는 방법은 씨드(seed)의 입력에 따라 도출된 랜덤벡터를 블록벡터(10)로 변환하는 입력변환단계(S10);, 상기 블록벡터(10)를 필터벡터(20)와 합성곱하여 평면 레이어(30)로 변환하는 피처생성단계(S20);, 상기 피처생성단계(S20)를 반복 수행하여 복수의 평면 레이어(30)로 변환하는 복수피처생성단계(S30);, 상기 복수의 평면 레이어(30)를 적층하여 가상의 이미지를 생성하는 가상 이미지 생성단계(S40);를 포함하는 구성으로 이루어진다.

본 발명의 일 실시예에 따른 발명은 앞에서 제시한 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법을 컴퓨터로 읽을 수 있는 저장매체로 이루어진다.

본 발명은 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 것이며, 이미지 판별 모델의 학습 데이터로 이용되는 실제사진을 가공 및 필터링하여 한국형 가상 인물 이미지를 생성할 수 있는 효과가 있다.

또한, 이미지 판별 모듈과 이미지 생성 모듈을 경쟁적으로 학습시켜 자체적인 학습을 유도하고, 결과적으로 실제 사진과 구분하기 어려운 가상 이미지를 생성하는 이미지 생성 모듈을 학습할 수 있다.

도 1은 본 발명의 일 실시예에 따른 가상 인물 생성 모델 학습방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 학습 데이터를 가공 및 필터링하는 순서도이다.
도 3은 본 발명의 일 실시예에 따른 이미지 생성 모듈과 이미지 판별 모듈의 학습과정을 나타낸 블록 순서도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 생성 모듈과 이미지 판별 모듈의 다양한 학습 순서도이다.
도 5는 볼 발명의 일 실시예에 따른 이미지 생성 모듈과 이미지 판별 모듈의 오차에 대한 학습 가중치를 달리하는 블록 순서도이다.
도 6은 본 발명의 일 실시예에 따른 이미지 생성 모듈이 가상 이미지를 생성하는 순서도이다.
도 7은 본 발명의 일 실시예에 따른 이미지 생성 모듈이 가상 이미지를 생성하는 과정을 나타낸 개요도이다.
도 8은 본 발명의 일 실시예에 따른 가상 인물 생성 모델을 학습하는데 이용될 수 있는 컴퓨터 장치의 구성 블록도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

아래에 제시되는 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발 명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 실시 예에서 "통신", "통신망" 및 "네트워크"는 동일한 의미로 사용될 수 있다. 상기 세 용어 들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거 리 및 광역 데이터 송수신망을 포함할 수 있다.

이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

(실시예 1-1) 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 있어서, (a) 프로세서가 사람 얼굴이 포함된 실제사진을 수집하여 데이터베이스(100)에 저장하는 단계(S100);, (b) 상기 데이터베이스(100)에 저장된 실제사진을 이용하여 상기 프로세서가 이미지 판별 모듈(200)을 학습하는 단계(S200);, (c) 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제1 판단값에 대한 오차를 이용하여 상기 이미지 생성 모듈(300)을 학습하는 단계(S300);, (d) 상기 (c)단계(S300)에서 학습된 상기 이미지 생성 모듈(300)이 생성한 제2 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제2 판단값에 대한 오차를 이용하여 상기 이미지 판별 모듈(200)을 학습하는 단계(S400);를 포함한다.

본 발명은 딥러닝을 이용한 가상 인물 생성 모델의 학습방법에 대한 것일 수 있다. 본 발명은 프로세서가 사람 얼굴이 포함된 실제사진을 온라인상으로 수집하여 자체적인 데이터베이스(100)에 저장하는 단계를 포함할 수 있다. 이후, 데이터베이스(100)에 저장된 사진을 이용하여 이미지 판별 모듈(200)을 학습할 수 있다. 이미지 판별 모듈(200)이 학습하는 과정은 실제사진을 이미지 판별 모듈에 입력해 판단값을 얻은 후, 그 값을 라벨(기준값)과 비교하여 그 오차를 역전파하여 이미지 판별 모듈(200)이 실제사진을 실제사진으로 더 효과적으로 판별할 수 있도록 가중치와 바이어스를 보정하는 과정의 연속으로 볼 수 있다.

또한, 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 이미지 판별 모듈(200)에 입력하면, 프로세서는 이미지 판별 모듈(200)이 출력한 제1 판단값에 대한 오차를 계산출력, 오차는 마찬가지로 라벨(기준값)과의 차이를 의미할 수 있다. 이러한 오차를 줄이는 방향으로 이미지 생성 모듈(300)을 학습하는 단계를 포함할 수 있다.

또한, 전단계에서 학습된 이미지 생성 모듈(300)을 이용하여 생성된 제2 가상 이미지를 이미지 판별 모듈(200)에 입력하면, 프로세서는 이미지 판별 모듈(200)이 출력한 제2 판단값에 대하여 오차를 계산하고, 이를 줄이는 방향으로 이미지 판별 모듈(200)을 학습하는 단계를 포함할 수 있다.

위의 단계들을 통해 이미지 생성 모듈(300)과 이미지 판별 모듈(200)을 경쟁적으로 학습함으로써, 보다 실제같은 가상 이미지를 생성할 수 있는 이미지 생성 모듈(300)을 구축할 수 있다. 이하 각 과정에 대한 학습방법의 구체적인 사항은 후술하기로 한다.

(실시예 1-2) 실시예 1-1에 있어서, 상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)에 저장하기 전에 수행되는 가공단계(S110);를 포함하고, 상기 가공단계(S110)는 상기 사람의 얼굴이 포함된 실제사진에서 얼굴의 위치를 찾는 탐색단계(S111);, 상기 얼굴에서 양쪽 눈, 코, 입을 설정된 위치에 배치되도록 상기 얼굴을 배치하고 정해진 크기로 상기 실제사진을 잘라내는 정렬단계(S112);, 얼굴 사진의 해상도를 증가시키는 초해상화 단계(S113);, 배경과 얼굴을 구분한 후, 배경을 특정한 단색으로 통일시키는 배경삭제단계(S114); 를 포함한다.

본 발명의 (a)단계(S100)는 온라인상에서 실제 사진을 수집하여 데이터베이스(100)에 저장하는 단계를 포함할 수 있다. 또한, (a)단계(S100)는 가공단계(S110)를 더 포함할 수 있는데, 가공단계(S110)는 탐색단계(S111), 정렬단계(S112), 초해상화 단계(S113), 배경삭제단계(S114)를 포함할 수 있다. 가공단계(S110)는 추후 가공된 이미지를 이용하여 이미지 판별 모듈(200)을 학습하므로, 학습의 용이성과 효율성을 확보하기 위함일 수 있다.

탐색단계(S111)는 온라인상에서 사람의 얼굴이 포함된 실제사진에서 얼굴의 위치를 찾는 단계일 수 있고, 이는 MTCNN(Multi-task cascaded CNN) 이나 YOLO(You Only Look Once)와 같은 딥 러닝 알고리즘 기술을 이용할 수 있다.

MTCNN은 face detection, bounding box regression, face alignment 와 같은 세 가지 테스크를 동시에 학습시키는 joint learning 방식을 제안하였으며, 이를 통해서 더 빠른 속도와 정확도를 달성할 수 있는 기술일 수 있다. YOLO는 이미지를 한번 보는 것만으로 목적물체의 종류와 위치 추측하는 딥 러닝 기반의 알고리즘을 의미할 수 있다. 다만, 위의 알고리즘에 대한 구체적인 설명은 당업자에게 충분히 알려져 있으므로 생략하기로 한다.

정렬단계(S112)는 찾은 얼굴에서 눈,코,입을 설정된 위치에 배치되도록 얼굴을 정면으로 배치하고 설정되어진 정해진 크기로 실제사진을 잘라내는 단계일 수 있다.

초해상화 단계(S113)는 얼굴 사진의 해상도를 증가시키는 단계일 수 있다. 초해상화 단계는 해상도를 높여주는 딥 러닝 모델인 ESRGAN(Enhanced Super Resolution Generative Adversarial Network) 또는 GFP-GAN(Generative Facial Prior Generative Adversarial Network) 알고리즘 기술을 이용할 수 있다. 이에 대한 구체적인 설명은 당업자에게 충분히 알려져 있으므로 생략하기로 한다.

또한, 배경삭제단계(S114)는 추후 학습과정에 있어 노이즈를 제거하기 위하여 얼굴과 배경을 구분한 후, 배경을 특정한 단색으로 통일시키는 단계일 수 있다. 배경삭제단계(S114)는 HRNET(High Resolution Network), Face Parsing과 같은 딥 러닝 알고리즘을 이용할 수 있다.

(실시예 1-3) 실시예 1-1에 있어서, 상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)를 저장하기 전에 수행되는 필터링 단계(S120);를 포함하고, 상기 필터링 단계(S120)는 상기 실제사진에 손이 포함되어 있는 경우, 마이크/글귀 등이 상기 얼굴과 겹쳐져 있는 경우, 흑백 사진인 경우, 상기 얼굴이 이상 회전되어 있는 경우, 서양인이 포함되어 있는 경우 및 반사된 영역에 피부가 보이는 경우 중 적어도 어느 하나에 해당하는 상기 실제사진을 필터링한다.

본 발명의 (a)단계(S100)는 실제 사람의 얼굴사진을 수집하여 데이터베이스(100)에 저장하는 단계일 수 있는데, 저장하기 전, 필터링을 하여 (b)단계(S200)에서 이미지 판별 모듈(200)을 학습시키는 학습 데이터를 선별할 수 있다. 필터링하여 선별하는 단계를 통해 이미지 판별 모듈(200)의 학습 수준을 향상시킬 수 있다.

또한, 기존의 Nvidia에서 출시한 이미지 생성 모듈(300)의 학습은 기본적으로 서양인을 학습 데이터로 활용하였었는데, 본 발명의 여러 특징 중 하나는 서양인이 포함되어 있는 이미지를 학습 데이터에서 제거한다는 것이다. 뿐만 아니라, 상술한 바와 같이 마이크/글귀, 반사효과에 의한 피부영역, 얼굴의 회전 이미지가 포함되어 있는 사진을 학습 데이터에서 필터링 하여 보다 효과적인 한국형 이미지 생성 모듈(300)을 제공할 수 있다.

(실시예 2-1) 실시예 1-1에 있어서, 상기 (b)단계(S200)는 상기 이미지 판별 모듈(200)이 출력한 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 한다.

(실시예 2-2) 실시예 2-1에 있어서, 상기 (b)단계(S200)는 오차역전파(back propagation)방법을 이용하여 학습한다.

(실시예 2-3) 실시예 2-1에 있어서, 상기 판단값은 0 내지 1의 숫자로 출력되고, 상기 실제사진을 실제라고 판단할수록 1에 가까운 값이 출력된다.

(실시예 2-4) 실시예 2-3에 있어서, 상기 판단값에 대한 오차는 상기 판단값과 1과의 차이로 결정된다.

(실시예 2-5) 실시예 2-3에 있어서, 상기 판단값에 대한 오차는 상기 판단값과 1과의 차이의 제곱으로 결정된다.

본 발명의 (b)단계(S200)는 실제 인물의 실제사진을 이미지 판별 모듈(200)이 실제(True)라고 판단하도록 이미지 판별 모듈(200)을 학습하는 단계를 의미할 수 있다. 이를 보다 구체적으로 설명하면, 이미지 판별 모듈(200)의 출력값은 0 내지 1의 실수로 구성될 수 있다. 이미지 판별 모듈(200)이 실제인물의 이미지를 실제(True)와 가깝게 판단할수록 1과 가까운 실수가 출력될 수 있다. 판단값에 대한 오차는 출력한 판단값과 1과의 차이를 의미할 수 있고, 또는 판단값과 1과의 차이의 제곱으로 결정되어질 수 있다. 각 경우에 따라 학습의 가중치가 상이할 수도 있다.

또한, 오차를 결정한 후, 피드백 과정을 통해 이미지 판별 모듈(200)이 실제인물의 이미지를 1과 더 가깝게 판별할 수 있도록 이미지 판별 모듈(200)을 학습할 수 있다. 이와 같은 오차역전파(back propagation) 방법으로 이미지 판별 모듈(200)을 실제인물의 이미지를 실제로 판단할 수 있도록 학습할 수 있다.

(실시예 3-1) 실시예 2-1에 있어서, 상기 (c)단계(S300)는 상기 제1 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 생성 모듈(300)을 학습하는 것을 특징으로 한다.

(실시예 3-2) 실시예 3-1에 있어서, 상기 (c)단계(S300)는 오차역전파(back propagation)방법을 이용하여 학습한다.

(실시예 3-3) 실시예 3-1에 있어서 상기 제1 판단값은 0 내지 1의 숫자로 출력되고, 상기 제1 가상 이미지를 실제라고 판단할수록 1에 가까운 값이 출력된다.

(실시예 3-4) 실시예 3-3에 있어서, 상기 제1 판단값에 대한 오차는 상기 제1 판단값과 1과의 차이로 결정된다.

(실시예 3-5) 실시예 3-3에 있어서, 상기 제1 판단값에 대한 오차는 상기 제1 판단값과 1과의 차이의 제곱으로 결정된다.

본 발명의 (c)단계(S300)는 이미지 생성 모듈(300)을 학습하는 단계일 수 있다. 학습의 과정은 전술한 (b)단계(S200)의 학습 과정과 유사하나, 몇몇 차이점이 존재할 수 있다. 우선, (b)단계(S200)는 이미지 판별 모듈(200)을 학습하는 단계이고, 구체적으로는 실제인물의 이미지를 이미지 판별 모듈(200)이 실제(True)라고 판단할 수 있도록 이미지 판별 모듈(200)을 학습하는 단계이다. 반면, (c)단계(S300)는 가상의 이미지를 생성하는 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 이미지 판별 모듈(200)이 실제(True)라고 판단할 수 있도록 이미지 생성 모듈(300)을 학습하는 단계일 수 있다. 구체적으로 이미지 판별 모듈(200)이 가상 이미지를 실제 얼굴이 포함된 이미지로 판단할 수 있도록 실제 같은 가상 이미지를 이미지 생성 모듈(300)이 생성할 수 있도록 이미지 생성 모듈(300)을 학습하는 단계일 수 있다.

따라서, 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 이미지 판별 모듈(200)에 입력하였을 경우, 이미지 판별 모듈(200)이 1에 가까운 결과값을 출력할 수 있도록 이미지 생성 모듈(300)을 학습시킬 수 있다.

(실시예 4-1) 실시예 3-1에 있어서, 상기 (d)단계(S400)는 상기 제2 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 한다.

(실시예 4-2) 실시예 4-1에 있어서, 상기 (d)단계(S400)는 오차역전파(back propagation)방법을 이용하여 학습한다.

(실시예 4-3) 실시예 4-1에 있어서, 상기 제2 판단값은 0 내지 1의 숫자로 출력되고, 상기 제2 가상 이미지를 가상이라고 판단할수록 0에 가까운 값이 출력된다.

(실시예 4-4) 실시예 4-1에 있어서, 상기 제2 판단값에 대한 오차는 상기 제2 판단값과 0과의 차이로 결정된다.

(실시예 4-5) 실시예 4-3에 있어서, 상기 제2 판단값에 대한 오차는 상기 제2 판단값과 0과의 차이의 제곱으로 결정된다.

본 발명의 (d)단계(S400)는 이미지 판별 모듈(200)을 학습하는 단계일 수 있다. 전술한 (b), (c)단계(S300)에서의 학습 과정은 유사하나, 마찬가지로 몇몇 차이점이 존재할 수 있다. (d)단계(S400)는 이미지 판별 모듈(200)을 학습하는 단계이고, 구체적으로 가상인물의 이미지를 이미지 판별 모듈(200)이 가짜(False)라고 판단할 수 있도록 이미지 판별 모듈(200)을 학습하는 단계이다. 이미지 판별 모듈(200)의 궁극적인 목표는 가상 이미지를 가짜로 판단하고, 실제 이미지를 실제로 판단하는 것일 수 있다. 이와 경쟁적으로 이미지 생성 모듈(300)은 전술한 바와 같이 가상 이미지를 이미지 판별 모듈(200)이 실제로 판단할 수 있도록 이미지를 생성할 수 있게 학습될 수 있다. 이러한 과정의 반복을 통하여 후술할 바와 같이 이미지 생성 모듈(300)과 이미지 판별 모듈(200)이 효과적으로 학습되어질 수 있다.

(실시예 5-1) 실시예 4-1에 있어서, (e) 상기 (b)단계(S200) 내지 상기 (d)단계(S400)를 반복적으로 수행하여 학습하는 반복학습단계(S500);를 포함한다.

(실시예 5-2) 실시예 5-1에 있어서, 상기 반복학습단계(S500)는 상기 (b)단계(S200)가 1회 수행될 때, 상기 (c)단계(S300) 및 (d)단계(S400)는 복수회 반복 수행되어 학습된다.

(실시예 5-3) 실시예 5-1에 있어서, 상기 판단값에 대한 오차에 의한 학습 가중치를 상기 제1 및 제2 판단값에 대한 오차에 의한 학습 가중치보다 작게 설정한다.

(실시예 5-4) 실시예 5-3에 있어서, 상기 판단값에 대한 오차에 의한 학습 가중치를 1이라고 할 때, 상기 제1 및 제2 판단값에 대한 오차에 의한 학습 가중치를 10으로 설정한다.

본 발명은 (e)단계(S500)를 더 포함할 수 있다. (e)단계(S500)는 (b)단계(S200) 내지 (d)단계(S400)를 반복적으로 수행하여 이미지 판별 모듈(200)과 이미지 생성 모듈(300)을 반복학습하는 단계일 수 있다. (e)단계(S500)인 반복학습단계는 이미지 판별 모듈(200)과 이미지 생성 모듈(300)을 서로 경쟁적으로 학습하게 하여 학습의 정도를 극대화시키는 단계일 수 있다. 이미지 생성 모듈(300)이 만들어낸 가상 이미지를 이미지 판별 모듈(200)이 실제 이미지로 판단할 수 있도록 이미지 생성 모듈(300)을 학습시키고, 이미지 판별 모듈(200)은 실제 이미지는 실제 이미지로, 이미지 생성 모듈(300)이 생성한 이미지는 가상 이미지로 판단할 수 있도록 학습되어질 수 있다. 이러한 두 모듈이 서로 반복적으로 학습되는 과정에서 이미지 생성 모듈(300)은 궁극적으로 가상 이미지를 실제 이미지처럼 생성할 수 있게 될 수 있다.

또한, 반복학습단계는 (b)단계(S200)가 한 번 수행될 때, (c) 및 (d)단계(S400)는 복수번 반복 수행되면서 학습되어질 수 있다. 이는 딥 러닝의 학습 효율 증대를 위한 방법일 수 있다. (a)단계(S100)에서 실제 이미지를 이미지 판별 모듈(200)이 실제라고 판단하도록 학습하는 것은 (b)단계(S200)나 (c)단계(S300)에서 가상 이미지를 통해 이미지 판별 모듈(200)과 이미지 생성 모듈(300)을 학습하는 것보다 난이도가 낮을 수 있으므로, 보다 균형 있는 학습을 위한 방법일 수 있다.

또한, 본 발명은 오차를 줄이는 방향으로 이미지 판별 모듈(200)과 이미지 생성 모듈(300)을 학습할 수 있는데, 오차에 대한 학습 가중치를 각 단계마다 다르게 설정할 수 있다. 예를들면, (b)단계(S200)에서 출력된 판단값에 대한 오차에 의한 학습 가중치를 (c)단계(S300) 및 (d)단계(S400)에서 출력된 제1 및 제2 판단값에 대한 오차에 의한 학습 가중치보다 작게 설정할 수 있다. 또한, 그 가중치의 비율을 1:10으로 설정할 수 있다. 본 발명은 가중치의 비중을 1:10으로 한정하는 것은 아니며, 필요에 따라 사용자가 설정할 수 있음은 물론이다.

(실시예 6-1) 실시예 1-1에 있어서, 상기 이미지 생성 모듈(300)이 가상의 이미지를 생성하는 방법은 씨드(seed)의 입력에 따라 도출된 랜덤벡터를 블록벡터(10)로 변환하는 입력변환단계(S10);, 상기 블록벡터(10)를 필터벡터(20)와 합성곱하여 평면 레이어(30)로 변환하는 피처생성단계(S20);, 상기 피처생성단계(S20)를 반복 수행하여 복수의 평면 레이어(30)로 변환하는 복수피처생성단계(S30);, 상기 복수의 평면 레이어(30)를 적층하여 가상의 이미지를 생성하는 가상 이미지 생성단계(S40);를 포함한다.

(실시예 6-2) 실시예 6-1에 있어서, 상기 복수피처생성단계(S30)는 상기 피처생성단계(S20)를 반복 수행함에 있어 상기 필터벡터(20)는 서로 다른 벡터로 적용된다.

이미지 생성 모듈(300)이 가상의 이미지를 생성하는 방법은 (c)단계(S300)와 (d)단계(S400)에서 수행되어질 수 있다. 제1 가상 이미지와 제2 가상 이미지를 이미지 생성 모듈(300)이 생성할 수 있다. 이미지 생성 모듈(300)이 가상의 이미지를 생성하는 방법은 입력변환단계(S10), 피처생성단계(S20), 복수피처생성단계(S30), 가상 이미지 생성단계(S40)를 포함할 수 있다.

입력변환단계(S10)는 사용자가 씨드(seed)를 입력하고, 이에 따라 도출된 랜덤벡터를 블록벡터(10)로 변환하는 단계일 수 있다. 씨드는 랜덤벡터를 생성하기 전에 설정되는 세팅값이며, 사용자의 입력에 따른 결과를 예상가능한 범위에서 도출하기 위한 요소일 수 있다. 블록벡터(10)는 필터백터(20)와 합성곱 (convolutional module)을 통하여 평면 레이어(30)인 피처가 생성될 수 있다. 또한, 피처생성단계(S10)를 반복수행하여 복수의 평면 레이어(30)를 생성하는 복수피처생성단계(S20)를 포함할 수 있다. 복수의 피처가 생성된 후, 다수의 평면 레이어(30)를 적층하여 가상 이미지를 최종적으로 생성할 수 있다.

또한, 복수피처생성단계(S30)는 블록벡터(10)와 필터벡터(20)를 합성곱하여 다수의 피처를 생성하는 단계일 수 있는데, 필터벡터(20)는 피처생성단계(S20)가 반복될 때마다 서로 다른 값을 갖는 필터벡터(20)가 적용될 수 있다.

또한, 도 7의 과정을 1회 수행하여 만들어진 가상 이미지는 해상도가 낮을 수 있다. 고해상도의 이미지를 생성하기 위해서는 도 7의 과정을 반복하여 고해상도, 예컨대 )의 해상도를 갖는 이미지를 생성할 수 있음은 물론이다.

(실시예 7-1) 실시예 1-1 내지 실시예 6-1의 방법을 컴퓨터로 읽을 수 있는 저장 매체.

도 8은 본 발명에 따른 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법과 이를 컴퓨터로 읽을 수 있는 저장매체에 채용될 수 있는 범용 컴퓨터 장치의 내부 블록도이다. 컴퓨터 장치(900)는 램(RAM: Random Access Memory)(920)과 롬(ROM: Read Only Memory)(930)을 포함하는 주기억장치와 연결되는 하나 이상의 프로세서(910)를 포함한다. 프로세서(910)는 중앙처리장치(CPU)로 불리기도 한다. 본 기술분야에서 널리 알려져 있는 바와 같이, 롬(930)은 데이터(data)와 명령(instruction)을 단방향성으로 CPU에 전송하는 역할을 하며, 램(920)은 통상적으로 데이터와 명령을 양방향성으로 전송하는데 사용된다. 램(920) 및 롬(930)은 컴퓨터 판독 가능 매체의 어떠한 적절한 형태를 포함할 수 있다. 대용량 기억장치(Mass Storage)(940)는 양방향성으로 프로세서(910)와 연결되어 추가적인 데이터 저장 능력을 제공하며, 상기된 컴퓨터 판독 가능 기록 매체 중 어떠한 것일 수 있다. 대용량 기억장치(940)는 프로그램, 데이터 등을 저장하는데 사용되며, 통상적으로 주기억장치보다 속도가 느린 하드 디스크와 같은 보조기억장치이다. CD 롬(960)과 같은 특정 대용량 기억장치가 사용될 수도 있다. 프로세서(910)는 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크 로폰, 터치스크린형 디스플레이, 카드 판독기, 자기 또는 종이 테이프 판독기, 음성 또는 필기 인식기, 조이스틱, 또는 기타 공지된 컴퓨터 입출력장치와 같은 하나 이상의 입출력 인터페이스(950)와 연결된다. 마지막으로, 프로세서(910)는 네트워크 인터페이스(970)를 통하여 유선 또는 무선 통신 네트워크에 연결될 수 있다. 이러한 네트워크 연결을 통하여 상기된 방법의 절차를 수행할 수 있다. 상기된 장치 및 도구는 컴퓨터 하드웨어 및 소프트웨어 기술 분야의 당업자에게 잘 알려져 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다

S100 : (a) 단계 S110 : 가공단계
S111 : 탐색단계 S112 : 정렬단계
S113 : 초해상화 단계 S114 : 배경삭제단계
S120 : 필터링 단계 S200 : (b) 단계
S300 : (c) 단계 S400 : (d) 단계
S500 : (e) 단계 100 : 데이터베이스
200 : 이미지 판별 모듈 300 : 이미지 생성 모듈

Claims

딥 러닝을 이용한 가상 인물 생성 모델의 학습방법에 있어서,
(a) 프로세서가 사람 얼굴이 포함된 실제사진을 수집하여 데이터베이스(100)에 저장하는 단계(S100);
(b) 상기 데이터베이스(100)에 저장된 실제사진을 이용하여 상기 프로세서가 이미지 판별 모듈(200)을 학습하는 단계(S200);
(c) 이미지 생성 모듈(300)이 생성한 제1 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제1 판단값에 대한 오차를 이용하여 상기 이미지 생성 모듈(300)을 학습하는 단계(S300); 및
(d) 상기 (c)단계(S300)에서 학습된 상기 이미지 생성 모듈(300)이 생성한 제2 가상 이미지를 상기 이미지 판별 모듈(200)에 입력하면, 상기 프로세서가 상기 이미지 판별 모듈(200)이 출력한 제2 판단값에 대한 오차를 이용하여 상기 이미지 판별 모듈(200)을 학습하는 단계(S400);를 포함하는 가상 인물 생성 모델의 학습방법.
청구항 1에 있어서,
상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)에 저장하기 전에 수행되는 가공단계(S110);를 포함하고,
상기 가공단계(S110)는 상기 사람의 얼굴이 포함된 실제사진에서 얼굴의 위치를 찾는 탐색단계(S111);
상기 얼굴에서 양쪽 눈, 코, 입을 설정된 위치에 배치되도록 상기 얼굴을 배치하고 정해진 크기로 상기 실제사진을 잘라내는 정렬단계(S112);
얼굴 사진의 해상도를 증가시키는 초해상화 단계(S113); 및
배경과 얼굴을 구분한 후, 배경을 특정한 단색으로 통일시키는 배경삭제단계(S114); 를 포함하는 가상 인물 생성 모델의 학습방법.
청구항 1에 있어서,
상기 (a)단계(S100)는 상기 프로세서가 상기 데이터베이스(100)를 저장하기 전에 수행되는 필터링 단계(S120);를 포함하고,
상기 필터링 단계(S120)는 상기 실제사진에 손이 포함되어 있는 경우, 마이크/글귀 등이 상기 얼굴과 겹쳐져 있는 경우, 흑백 사진인 경우, 상기 얼굴이 이상 회전되어 있는 경우, 서양인이 포함되어 있는 경우 및 반사된 영역에 피부가 보이는 경우 중 적어도 어느 하나에 해당하는 상기 실제사진을 필터링하는 가상 인물 생성 모델의 학습방법.
청구항 1에 있어서,
상기 (b)단계(S200)는 상기 이미지 판별 모듈(200)이 출력한 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 하는 가상 인물 생성 모델의 학습방법.
청구항 4에 있어서,
상기 (c)단계(S300)는 상기 제1 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 생성 모듈(300)을 학습하는 것을 특징으로 하는 가상 인물 생성 모델의 학습방법.
청구항 5에 있어서,
상기 (d)단계(S400)는 상기 제2 판단값에 대한 오차를 줄이는 방향으로 상기 이미지 판별 모듈(200)을 학습하는 것을 특징으로 하는 가상 인물 생성 모델의 학습방법.
청구항 6에 있어서,
(e) 상기 (b)단계(S200) 내지 상기 (d)단계(S400)를 반복적으로 수행하여 학습하는 반복학습단계(S500);를 포함하는 가상 인물 생성 모델의 학습방법.
청구항 7에 있어서,
상기 반복학습단계(S500)는 상기 (b)단계(S200)가 1회 수행될 때, 상기 (c)단계(S300) 및 (d)단계(S400)는 복수회 반복 수행되어 학습되는 것을 특징으로 하는 가상 인물 생성 모델의 학습방법.
청구항 7에 있어서,
상기 판단값에 대한 오차에 의한 학습 가중치를 상기 제1 및 제2 판단값에 대한 오차에 의한 학습 가중치보다 작게 설정되는 가상 인물 생성 모델의 학습방법.
청구항 1에 있어서,
상기 이미지 생성 모듈(300)이 가상의 이미지를 생성하는 방법은
씨드(seed)의 입력에 따라 도출된 랜덤벡터를 블록벡터(10)로 변환하는 입력변환단계(S10);
상기 블록벡터(10)를 필터벡터(20)와 합성곱하여 평면 레이어(30)로 변환하는 피처생성단계(S20);
상기 피처생성단계(S20)를 반복 수행하여 복수의 평면 레이어(30)로 변환하는 복수피처생성단계(S30);
상기 복수의 평면 레이어(30)를 적층하여 가상의 이미지를 생성하는 가상 이미지 생성단계(S40);를 포함하는 가상 인물 생성 모델의 학습방법.
청구항 1 내지 청구항 10의 방법 중 어느 하나의 방법을 컴퓨터로 읽을 수 있는 저장 매체.