KR102417425B1

KR102417425B1 - 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법 및 장치

Info

Publication number: KR102417425B1
Application number: KR1020210073798A
Authority: KR
Inventors: 강지수; 최태민
Original assignee: 주식회사 클레온
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-07-06
Also published as: US20240249448A1; WO2022260385A1

Abstract

본 발명은 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴의 합성 방법 및 장치에 관한 것으로서, 원본 이미지 및 변환된 얼굴 이미지를 입력받고, 원본 이미지에서 중심부를 제거하고, 변환된 얼굴 이미지에 중심부가 남도록 가장자리를 제거한 후, 각각의 이미지에서 특징 벡터를 추출하여 이미지 합성을 수행하는 것을 특징으로 한다.

Description

얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법 및 장치{A method and apparatus for synthesizing a background and a face by considering a shape of the face and using deep learning network}

본 발명은 인공지능 기술을 이용하여 배경 및 얼굴을 합성하는 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 발명은 딥러닝 네트워크를 이용하여 제1이미지의 배경과 제2이미지의 얼굴을 합성하는 방법 및 장치에 관한 것이다.

인공지능을 이용한 얼굴 변환 기술은 변환된 얼굴을 높은 해상도로 생성해 낼 수 있는 수준으로 발전하여왔다. 얼굴 변환 기술은 다양한 방식으로 사용자에게 제공될 수 있다. 예를 들어, 사용자는 변환된 얼굴을 사용자 자신이 원하는 배경과 합성시킬 수 있으며 이에 따라 사용자 자신이 원하는 배경에서 사용자 자신 또는 타인의 얼굴이 나타나도록 할 수 있다. 사용자는 동영상 속의 유명 인물의 얼굴을 사용자 자신 또는 타인의 얼굴로 변경할 수도 있다. 하지만, 얼굴 변환 기술은 예컨대, 인물 A의 얼굴 표정 및 얼굴 각도를 따라하는 인물 B의 얼굴로 변환하는 것에 초점이 맞추어져 있기 때문에 합성 이미지 또는 동영상에서 변환된 인물 B의 얼굴과 배경이 일그러져 나타나는 문제점이 있다.

대한민국 등록특허공보 제10-1871662호

본 발명은, 변환된 얼굴을 포함하는 이미지에서 변환된 얼굴만을 추출하지 않더라도 다른 이미지의 배경과 자연스럽게 합성 가능한 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은, 원본 이미지 및 변환된 얼굴 이미지를 입력받는 단계, 원본 이미지에서 원본 이미지 내 원본 얼굴을 포함하는 제1중심부를 제거하여 배경을 남기는 단계, 변환된 얼굴 이미지에서 배경을 제거하여 변환된 얼굴을 포함하는 제2중심부를 남기는 단계 및 원본 이미지 및 변환된 얼굴 이미지에서 특징 벡터를 추출하여 이미지 합성을 수행하는 단계를 포함한다.

바람직하게, 변환된 얼굴 이미지의 배경을 제거하기 전에 변환된 얼굴 이미지에 색채 보정을 수행하는 단계를 더 포함할 수 있다.

바람직하게, 색채 보정을 수행하는 단계에서 변환된 얼굴 이미지의 밝기, 대비, 채도 및 조도 중 적어도 하나를 무작위로 변환시키는 노이즈를 첨가하는 단계를 포함할 수 있다.

바람직하게, 이미지 합성을 수행하는 단계는 컨볼루션 필터와의 컨볼루션을 통해 확장된 특징 벡터를 추출하는 단계, 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출하는 단계, 확장된 특징 벡터 및 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출하는 단계를 포함할 수 있다.

바람직하게, 이미지 합성을 수행하는 단계는 추출된 최종 특징 벡터에 대한 연결 건너뛰기를 수행하는 단계를 더 포함할 수 있다.

바람직하게, 원본 이미지의 제1중심부는 원본 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지이며, 변환된 얼굴 이미지의 배경은 변환된 얼굴 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 외부 이미지일 수 있으며, 미리 설정된 지점은 1/8 지점일 수 있다.

본 발명은, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치로서 원본 이미지 및 변환된 얼굴 이미지를 입력받는 수신부, 원본 이미지에서 원본 이미지 내 원본 얼굴을 포함하는 제1중심부를 제거하여 배경을 남기고, 변환된 얼굴 이미지에서 배경을 제거하여 변환된 얼굴을 포함하는 제2중심부를 남기는 데이터 전처리부, 데이터 전처리부로부터 입력된 원본 이미지 및 변환된 얼굴 이미지에서 특징 벡터를 추출하여 이미지 합성을 수행하는 이미지 복원부를 포함한다.

바람직하게, 데이터 전처리부는 변환된 얼굴 이미지의 배경을 제거하기 전에 변환된 얼굴 이미지에 색채 보정을 수행할 수 있다.

바람직하게, 데이터 전처리부는 변환된 얼굴 이미지의 밝기, 대비, 채도 및 조도 중 적어도 하나를 무작위로 변환시키는 노이즈를 첨가할 수 있다.

바람직하게, 이미지 복원부는, 컨볼루션 필터와의 컨볼루션을 통해 확장된 특징 벡터를 추출하고 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출하며 확장된 특징 벡터 및 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출할 수 있다.

바람직하게, 이미지 복원부는 깊은 신경망 네트워크에서 추출된 최종 특징 벡터에 대한 연결 건너뛰기를 수행할 수 있다.

바람직하게, 이미지 복원부는 이미지 복원 시 적대적 신경망 네트워크(GAN)를 사용할 수 있다.

본 발명에 따르면, 원본 이미지의 배경 및 얼굴 변환 기술을 통해 생성된 얼굴 즉, 변환된 얼굴을 합성할 때 변환된 얼굴의 형태(얼굴형)의 정보를 잃지 않으면서 이미지를 합성할 수 있으며, 원본 이미지의 배경과 변환된 얼굴을 자연스럽게 합성할 수 있다.

본 발명에 따르면, 얼굴형 추출 네트워크와 같은 부수적인 네트워크를 사용할 필요가 없기 때문에 빠르고 정확하게 이미지 복원을 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 장치를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 방법을 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 전처리 및 데이터 결합 방법을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 변환된 얼굴 이미지의 색채 정보 변환 방법을 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 이미지 복원부의 이미지 복원 방법을 도시한 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 이미지 복원부의 이미지 복원 방법을 도시한 순서도이다.
도 7은 본 발명의 일 실시예에 따른 이미지 후처리부의 처리 방법을 도시한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 방법을 간략히 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 신경망에서의 연결 건너뛰기를 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 얼굴에서 68개의 특징점을 도시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 게이트 컨볼루션 신경망을 도시한 도면이다.
도 12는 본 발명의 일 실시예에 따른 채널별 게이트 컨볼루션 신경망을 도시한 도면이다.

이하, 본 발명에 대하여 상세히 설명한다. 다만, 본 발명이 예시적 실시예들에 의해 제한되거나 한정되는 것은 아니다. 본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

본 발명은 변환된 얼굴을 포함하는 이미지에서 변환된 얼굴만을 추출하지 않더라도 변환된 얼굴을 다른 이미지(영상)의 배경과 자연스럽게 합성할 수 있는 방법 및 장치에 관한 발명이다. 본 발명에 따르면, 변환된 얼굴의 얼굴형을 고려 즉, 보존할 수 있다.

도 1은 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 장치를 도시한 도면이다. 도 1을 참조하면, 배경 및 얼굴 합성 장치(1)는 수신부(10), 데이터 전처리부(20), 데이터 결합부(30), 이미지 복원부(40) 및 이미지 후처리부(50)를 포함할 수 있다. 이미지 복원부(40)는 특징 벡터 추출부(41), 연결 건너뛰기(skip-connection) 저장부(42), 연결 건너뛰기 결합부(43) 및 이미지 생성부(44)를 포함할 수 있다.

수신부(10)는 원본 이미지 및 사용자 자신 또는 타인의 얼굴을 포함하는 변환된 얼굴 이미지를 사용자 단말기로부터 입력받을 수 있다. 여기서, 원본 이미지는 이미지 합성 시 배경을 제공하는 이미지로 정의될 수 있으며, 변환된 얼굴 이미지는 이미지 합성 시 얼굴 보다 구체적으로, 변환된 얼굴을 제공하는 이미지로 정의될 수 있다. 즉, 합성 이미지에서 배경은 원본 이미지로부터 제공된 것이며, 얼굴은 변환된 얼굴 이미지에서 제공된 것이다. 변환된 얼굴 이미지는 변환된 얼굴 이미지에 포함된 사용자 자신 또는 타인의 얼굴이 다른 이미지에 포함된 얼굴의 표정 및 각도를 따라하도록 변환된 이미지를 말한다.

데이터 전처리부(20)는 수신부(10)로부터 전달된 이미지 데이터들에 대한 데이터 증폭 및 이미지 크기 정렬을 수행할 수 있고, 원본 이미지에서 중심부를 제거할 수 있으며 변환된 얼굴 이미지에서 가장자리를 제거할 수 있다. 데이터 전처리부(20)는 변환된 얼굴 이미지에 대하여 색채 보정을 수행할 수도 있다. 데이터 결합부(30)는 중심부가 제거된 원본 이미지와 가장자리가 제거된 변환된 얼굴 이미지의 결합을 수행할 수 있다.

이미지 복원부(40)의 특징 벡터 추출부(41)에서 채널 게이트 컨볼루션(channel-wise gated convolution)을 통하여 각 이미지에서 특징 벡터를 추출할 수 있고, 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출할 수 있으며, 이들의 곱을 통해 최종 특징 벡터를 추출하여 추출된 최종 특징 벡터를 연결 건너뛰기 저장부(42)에 저장할 수 있다. 연결 건너뛰기 결합부(43)에서는 추출된 최종 특징 벡터들을 결합하여 이미지 생성부(44)로 전달할 수 있다. 이미지 생성부(44)는 결합된 최종 특징 벡터들을 토대로 합성된 이미지를 생성할 수 있다. 이미지 후처리부(50)에서는 생성된 이미지에 대한 최종 출력 이미지를 생성할 수 있다.

도 2는 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 방법을 도시한 순서도이다. 도 2를 참조하면, 배경 및 얼굴 합성 장치(1)의 수신부(10)는 100단계에서 원본 이미지 및 변환된 얼굴 이미지를 입력받을 수 있다. 수신부는 입력받은 원본 이미지 및 변환된 얼굴 이미지를 데이터 전처리부(20)로 전달할 수 있으며, 200단계에서 데이터 전처리부(20)는 입력된 원본 이미지 및 변환된 얼굴 이미지 각각에 대한 데이터 증폭 및 이미지 크기 정렬을 수행할 수 있다.

원본 이미지 및 변환된 얼굴 이미지에서 이미지 크기, 얼굴의 크기 및 얼굴의 위치가 동일한 것이 바람직하다. 이를 위해, 원본 이미지 및 변환된 얼굴 이미지에서 각각 68개의 특징점(landmark)을 추출하고 추출된 특징점을 사용하여 얼굴의 크기 및 위치를 정렬할 수 있다.

도 10은 본 발명의 일 실시예에 따른 얼굴에서 68개의 특징점을 도시한 도면이다. 도 10을 참조하면, 얼굴에서 추출할 수 있는 68개의 특징점이 나타나 있으며, 특징점 별로 번호를 할당할 수도 있다. 얼굴형은 0~16번, 왼쪽 눈썹은 17~21번, 오른쪽 눈썹은 22~26번, 코는 27~35번, 왼쪽 눈은 36~41번, 오른족 눈은 42~47번, 입술은 48~67번의 특징점을 도출할 수 있다. 68개의 특징점들로 정해진 얼굴 위치를 사전에 고정하고, 원본 이미지 내 얼굴의 특징점들과 변환된 얼굴 이미지 내 얼굴의 특징점들이 고정된 68개의 특징점들과 가장 가깝도록 정렬한 후, 얼굴 이미지의 크기를 소정의 크기로 설정할 수 있다. 예컨대 256x256 픽셀로 변환하여 모든 얼굴 이미지의 크기를 하나의 크기로 고정할 수 있다.

도 8은 본 발명의 일 실시예에 따른 배경 및 얼굴 합성 방법을 간략히 도시한 도면이다. 도 8을 참조하면, 원본 이미지(810)에 삽입하고자 하는 변환된 얼굴(840)을 원본 이미지(810)의 원본 얼굴의 얼굴형에 맞게 잘라내지 않고 이미지 복원을 수행할 수 있다.

원본 이미지(810)에서 원본 얼굴이 위치하는 중심부 즉, 원본 얼굴을 포함하는 중심부를 제거할 수 있다. 본 발명의 일 실시예에 따르면, 중심부는 원본 이미지(810)의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 안쪽에 위치한 이미지 즉, 내부 이미지(원본 얼굴 포함함)를 의미할 수 있다. 본 발명의 구체적인 실시예에 따르면, 미리 설정된 지점은 예를 들어, 1/8 지점일 수 있다. 중심부는 정사각형의 형태로 제거될 수 있으며, 직사각형 또는 원의 형태 등으로 제거될 수도 있다. 원본 이미지(810)에서 중심부를 제외한 나머지 이미지는 배경(820)에 해당하며 중심부의 위치를 고려하였을 때 원본 이미지(810)의 가장자리에 해당한다. 본 발명의 일 실시예에 따르면, 배경(820)은 원본 이미지(810)의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 바깥쪽에 위치한 이미지 즉, 외부 이미지(원본 얼굴 포함하지 않음)를 의미할 수 있다. 원본 이미지(810)에서 중심부를 제거함으로써 배경을 남길 수 있다.

변환된 얼굴 이미지(830)에서 변환된 얼굴이 위치한 중심부(840) 즉, 변환된 얼굴을 포함하는 중심부(840)를 제외한 나머지 이미지를 제거할 수 있다. 변환된 얼굴 이미지(830)에서 중심부(840)를 제외한 나머지 이미지는 배경에 해당하며, 중심부(840)의 위치를 고려하였을 때 변환된 얼굴 이미지(840)의 가장자리에 해당한다. 변환된 얼굴 이미지(830)에서 배경을 제거함으로써 변환된 얼굴 이미지(840)를 남길 수 있다. 본 발명의 일 실시예에 따르면, 중심부는 변환된 얼굴 이미지(830)의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 안쪽에 위치한 이미지 즉, 내부 이미지(변환된 얼굴 포함함)를 의미할 수 있으며, 배경은 변환된 얼굴 이미지(830)의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 바깥쪽에 위치한 이미지 즉, 외부 이미지(변환된 얼굴 포함하지 않음)를 의미할 수 있다.

원본 이미지(810)에서 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 외부 이미지인 배경(820) 및 변환된 얼굴 이미지(830)에서 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지인 중심부(840)를 채널 방향으로 겹친 뒤 이미지 복원(850)을 통해 원본 이미지(810)의 배경(820) 및 변환된 얼굴(840)을 결합시켜 합성 이미지를 생성할 수 있다.

전술한 바와 같이, 각 이미지에서 상, 하, 좌, 우 경계로부터 미리 설정된 지점을 자를 수 있다. 원본 이미지에서 미리 설정된 지점은 원본 얼굴이 내부 이미지에 포함될 수 있으며, 배경이 외부 이미지에 포함될 수 있는 지점인 것이 바람직하다. 내부 이미지에 원본 얼굴이 전체적으로 포함될 수 있으며, 외부 이미지에 배경이 최대한 많이 포함될 수 있는 지점인 것이 더욱 바람직하다. 변환된 얼굴 이미지에서 미리 설정된 지점은, 변환된 얼굴이 내부 이미지에 포함될 수 있으며, 배경이 외부 이미지에 포함될 수 있는 지점인 것이 바람직하다. 내부 이미지에 변환된 얼굴이 전체적으로 포함될 수 있으며, 외부 이미지에 배경이 최대한 포함하지 않는 지점인 것이 더욱 바람직하다.

본 발명의 일 실시예에 따르면, 미리 설정된 지점은 이미지의 상, 하, 좌, 우 경계로부터 1/n 지점일 수 있으며 n은 1 초과의 실수 또는 2, 3, 4, 5, 6, 7, 8 또는 9 이상의 실수일 수 있으며 n이 자연수에 한정되는 것은 아니며, 각 이미지 상의 얼굴 크기를 고려하여 설정될 수 있다. 본 발명의 구체적인 실시예에 따르면 미리 설정된 지점은 예를 들어, 1/8 지점일 수 있다. 중심부는 정사각형의 형태일 수 있으며, 직사각형 또는 원의 형태 등일 수도 있다.

본 발명의 구체적인 실시예에 따른 1/8 지점은, 원본 이미지에서 원본 얼굴이 전체적으로 내부 이미지(중심부)에 포함되면서 최대한의 배경이 외부 이미지(가장자리)에 포함될 수 있는 지점 중 하나에 해당하며, 변환된 얼굴 이미지에서 변환된 얼굴 내지 얼굴형이 내부 이미지(중심부)에 포함되면서 최소한의 배경이 외부 이미지(가장자리)에 포함될 수 있는 지점 중 하나에 해당한다. 원본 이미지에서 미리 설정된 지점과 변환된 얼굴 이미지에서 미리 설정된 지점은 전술한 1/8 지점과 같이 수치적으로 동일할 수 있다.

본 발명은 종래 기술들과 다르게 원본 이미지에 합성하고자 하는 변환된 얼굴을 이미지 복원부(40)의 얼굴 변환 네트워크의 조건으로 배경과 함께 입력함으로써 변환된 얼굴을 참고하여 이미지 복원을 할 수 있다.

도 2를 다시 참조하면, 300단계에서 데이터 결합부(30)는 전처리된 원본 이미지 및 변환된 얼굴 이미지에 대한 결합을 수행한 후, 결합된 이미지를 이미지 복원부(40)에 입력할 수 있으며, 원본 이미지의 배경과 변환된 얼굴 이미지의 중심부를 겹쳐 6채널의 데이터로 변환한 뒤 이미지 복원부(40)로 전달할 수 있다. 이미지 복원부(40)에서는 채널 게이트 컨볼루션을 통해 특징 벡터를 추출할 수 있다. 400단계에서 추출된 특징 벡터와 연결 건너뛰기를 통해 이미지를 생성하여 이미지 후처리부(50)로 전달할 수 있으며, 500단계에서 이미지 후처리부(50)는 생성된 이미지와 원본 이미지를 사용하여 3채널의 복원된 최종 이미지를 출력할 수 있다.

여기서, 연결 건너뛰기에 대해서는 도 9를 참조하여 설명하도록 한다. 도 9는 본 발명의 일 실시예에 따른 신경망에서의 연결 건너뛰기를 나타낸 도면이다. 도 9를 참조하면, 연결 건너뛰기를 사용하여 깊은 신경망 네트워크(Deep Neural Network)가 입력 정보를 잊지 않고 출력까지 전달을 더 잘할 수 있도록 네트워크 구조를 구현할 수 있다. 즉, 연결 건너뛰기를 통하여 작아지기 전의 이미지로부터 공간 정보를 학습하여 깊은 특성맵에서 보다 정확한 이미지를 다시 복원할 수 있다.

한편, 생성된 6채널의 데이터를 이용하여 3채널의 이미지로 복원하는 경우, 이미지 복원부(40)는 배경 이미지와 변환된 얼굴 이미지의 픽셀 중 어떤 픽셀을 참고할지 선택해야 한다. 이를 위해 픽셀별로 채널을 선택할 수 있도록 하는 게이트 컨볼루션 또는 채널 게이트 컨볼루션을 사용할 수 있다.

도 11은 본 발명의 일 실시예에 따른 게이트 컨볼루션 신경망을 도시한 도면이다. 도 11을 참조하면, 게이트 컨볼루션은 픽셀별로 게이트(1100)를 두고 연산을 진행하기 때문에 연산양이 많을 수밖에 없다.

도 12는 본 발명의 일 실시예에 따른 채널별 게이트 컨볼루션 신경망을 도시한 도면이다. 도 12를 참조하면, 채널별 게이트 컨볼루션은 채널별 게이트(1200)를 두고 연산을 진행하기 때문에 연산을 줄이면서 이미지 복원 성능을 개선시킬 수 있는 이점이 있다. 예를 들면, 이미지 복원부(40)에서 이미지 복원 네트워크의 입력을 CxHxW(C는 채널 수, H는 높이, W는 넓이)라 하면, 게이트 컨볼루션은 CxHxW개의 게이트를 필요로 하게 된다. 이에 반해 채널별 게이트 컨볼루션은 C개의 게이트를 필요로 하여 연산을 줄일 수 있다.

이미지 복원부(40)에서는 더욱 자연스러운 복원된 이미지를 생성하기 위해 적대적 신경망 네트워크(GAN: Generative Adversarial Network)를 사용할 수 있다. 적대적 신경망 네트워크는 복원된 이미지와 실제 얼굴 이미지를 구별하도록 학습된 구별자를 이미지 복원 네트워크가 속이도록 설계된 네트워크로 적대적 신경망 네트워크를 사용하면 이미지 복원 성능을 높일 수 있다. 일반적인 구별자는 복원된 이미지 전체와 실제 이미지 전체를 비교하여 구별하지만, 본 발명에서는 복원된 이미지의 작은 부분들과 실제 이미지의 작은 부분들을 비교하여 구별하기 때문에 이미지 복원 네트워크가 작은 부분들까지 완벽하게 생성하도록 강제할 수 있다.

도 2 및 도 8을 참조한 바와 같이, 입력된 이미지에서 얼굴 영역을 정확하게 추출할 필요가 없으므로 일반적으로 얼굴 합성 시 사용하였던 얼굴 추출 네트워크를 사용하지 않더라도 얼굴 합성을 할 수 있다. 뿐만 아니라, 원본 이미지 속 인물의 얼굴형에 맞게 잘라내지 않고 일정한 형태로 중심부에 변환된 얼굴을 포함시켜 변환된 얼굴을 추출하기 때문에 변환 기술을 통해 생성된 얼굴형을 유지하면서 얼굴 합성을 수행할 수 있다.

도 3은 본 발명의 일 실시예에 따른 데이터 전처리 및 데이터 결합 방법을 도시한 순서도이다. 도 3을 참조하면, 210단계에서 데이터 전처리부(20)는 원본 이미지에서 미리 설정된 비율로 중심부를 삭제하고, 220단계에서 변환된 얼굴 이미지의 색채 정보를 무작위로 변경할 수 있다. 이에 따라, 복원된 이미지 즉, 원본 이미지의 배경과 변환된 얼굴 이미지의 중심부(변환된 얼굴을 포함)를 포함하는 이미지에서 원본 이미지의 배경의 색채 정보와 변환된 얼굴 이미지의 중심부(변환된 얼굴을 포함)의 색채 정보를 자연스럽게 연결시킬 수 있다. 이를 위해, 이미지 복원부(40)의 얼굴 변환 네트워크를 통해, 원본 이미지에 합성하고자 하는 변환된 얼굴 이미지의 색채 정보를 무작위로 변경하는 노이즈를 첨가하게 된다. 보다 구체적으로, 변환된 얼굴 이미지의 밝기, 대비, 채도 및 조도 중 적어도 하나를 무작위로 변환시키는 노이즈를 첨가할 수 있다. 어떠한 정보를 무작위로 변환시킬지 여부는 변환된 얼굴 이미지의 색채 정보에 따라 달리 결정될 수 있다. 변환된 얼굴 이미지의 색채 정보를 무작위로 변경하는 일 예로서 도 4를 참조한다.

도 4는 본 발명의 일 실시예에 따른 변환된 얼굴 이미지의 색채 정보 변환 방법을 도시한 흐름도이다. 도 4를 참조하면, 데이터 전처리부(20)는 밝기, 대비, 채도, 조도 변화를 변환된 얼굴 이미지에 무작위로 가할 수 있다. 221단계에서는 변환된 얼굴 이미지의 밝기를 무작위로 변환할 수 있고, 222단계에서는 변환된 얼굴 이미지의 대비를 무작위로 변환할 수 있다. 223단계에서는 변환된 얼굴 이미지의 채도를 무작위로 변환할 수 있으며, 224단계에서는 변환된 얼굴 이미지의 조도를 무작위로 변환할 수 있다.

도 3을 다시 참조하면, 230단계에서 색채 정보가 변경된, 변환된 얼굴 이미지의 배경을 삭제한 후, 전처리된 원본 이미지 및 변환된 얼굴 이미지를 데이터 결합부(30)로 전달할 수 있다. 한편, 본 발명의 일 실시예에 따르면, 변환된 얼굴 이미지의 색채 정보를 무작위로 변경하는 220단계 및 색채 정보가 변경된, 변환된 얼굴 이미지의 배경을 삭제하는 230단계는 그 순서가 변경될 수 있다. 즉, 변환된 얼굴 이미지의 배경을 삭제한 후, 변환된 얼굴 이미지의 색채 정보를 무작위로 변경할 수 있다. 변환된 얼굴 이미지에서 배경은 결국 삭제되기 때문이다. 이후, 240단계에서 데이터 결합부(30)는 중심부가 삭제된 원본 이미지 및 중심부가 남겨진 변환된 얼굴 이미지를 결합시킬 수 있다.

도 5는 본 발명의 일 실시예에 따른 이미지 복원부의 이미지 복원 방법을 도시한 흐름도이다. 도 5의 실시예는 이미지의 크기를 컨볼루션 필터를 사용해 점차 줄여나가며 특징 벡터를 추출하고, 이를 연결 건너뛰기에 저장하는 인코더 부분을 도시한다. 도 5를 참조하면, 이미지 복원부(40)의 특징 벡터 추출부(41)는 데이터 결합부(30)로부터 전달받은 결합 이미지에서 특징 벡터를 추출하기 위해 복수의 신경망 층으로부터 특징 벡터를 추출할 수 있다.

보다 구체적으로, 310단계에서 남은 신경망이 존재하는지 여부를 판단하여 남은 신경망이 존재하는 것으로 판단한 경우, 320단계로 진행하여 컨볼루션 필터와의 컨볼루션을 통해 특징 벡터를 추출할 수 있다. 330단계에서 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출할 수 있으며, 340단계에서 확장된 특징 벡터 및 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출할 수 있다. 추출된 최종 특징 벡터는 350단계에서 연결 건너뛰기 저장부(42)에 저장될 수 있으며, 360단계에서 다음 신경망 층으로 특징 벡터를 전달될 수 있다. 310단계에서 남은 신경망이 존재하는지 여부를 판단하여 남은 신경망이 존재하지 않는다고 판단한 경우, 이미지 복원 프로세스를 종료할 수 있다.

도 6은 본 발명의 다른 실시예에 따른 이미지 복원부의 이미지 복원 방법을 도시한 흐름도이다. 도 6의 실시예는 전치 컨볼루션 필터를 사용해 크기가 줄어든 이미지를 각 원본 이미지의 크기까지 늘리며, 연결 건너뛰기에 저장된 특징 벡터들을 활용해 이미지 생성을 하는 디코더 부분의 일 예시이다. 도 6을 참조하면, 이미지 복원부(40)의 특징 벡터 추출부(41)는 410단계에서 남은 신경망이 존재하는지 여부를 판단하여 남은 신경망이 존재하는 것으로 판단한 경우, 420단계로 진행하여 연결 건너뛰기 결합부(43)에서 입력과 연결 건너뛰기 저장부(42)에 저장된 특징 벡터를 결합시킬 수 있다. 430단계에서 전치 컨볼루션 필터와 컨볼루션을 통해 확장된 특징 벡터를 추출할 수 있으며, 440단계에서 전치 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출할 수 있다. 450단계에서 확장된 특징 벡터 및 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출할 수 있다. 추출된 최종 특징 벡터는 460단계에서 다음 신경망 층으로 전달될 수 있다. 410단계에서 남은 신경망이 존재하는지 여부를 판단하여 존재하지 않는 것으로 판단한 경우, 이미지 복원 프로세스를 종료하게 된다.

도 7은 본 발명의 일 실시예에 따른 이미지 후처리부의 처리 방법을 도시한 흐름도이다. 도 7을 참조하면, 이미지 후처리부(50)는 510단계에서 이미지 복원부(40)의 이미지 생성부(44)로부터 전달된 이미지의 가장자리를 제거하고, 520단계에서 원본 이미지의 가장자리를 제외한 중심부를 제거할 수 있다. 이후, 520단계에서 이미지 합성을 수행하고, 540단계에서 색채 보정을 수행하여 최종적으로 합성된 얼굴 이미지를 출력하게 된다. 즉, 이미지 생성부(44)에서 생성된 이미지는 배경도 생성되어 있는 상태이지만, 배경은 생성된 이미지보다 원본 이미지의 배경을 사용하는 것이 더 정확하다. 따라서 이미지 생성부(44)에서 생성된 이미지 대신 원본 이미지의 배경을 사용하기 위해 다시 한번 후처리를 진행할 수 있다.

이와 같이 본 발명의 일 실시예에 따른 얼굴형을 고려한 배경과 얼굴 합성 방법 및 장치는, 원본 이미지의 배경과 얼굴 변환 기술을 통해 생성된 얼굴을 합성할 때 생성된 얼굴형의 정보를 잃지 않고 이미지 합성을 가능하게 할 수 있다. 그리고 얼굴형 추출 네트워크와 같은 부수적인 네트워크를 사용할 필요가 없기 때문에 빠르고 정확한 이미지 복원을 가능하게 할 수 있다.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장 장치 등이 있다.

또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

이와 같이 본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

1: 배경 및 얼굴 합성 장치
10: 수신부
20: 데이터 전처리부
30: 데이터 결합부
40: 이미지 복원부
41: 특징 벡터 추출부
42: 연결 건너뛰기 저장부
43: 연결 건너뛰기 결합부
44: 이미지 생성부
50:　이미지 후처리부

Claims

(a) 수신부를 통해, 원본 이미지 및 변환된 얼굴 이미지를 입력 받는 단계;
(b) 데이터 전처리부를 통해, 상기 원본 이미지에서 상기 원본 이미지 내 원본 얼굴을 포함하는 제1중심부-상기 원본 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지-를 제거하여 배경을 남기는 단계;
(c) 상기 데이터 전처리부를 통해, 상기 변환된 얼굴 이미지의 색채를 보정하여 상기 원본 이미지의 배경의 색채 정보와 상기 변환된 얼굴 이미지의 변환된 얼굴을 포함하는 제2중심부-상기 변환된 얼굴 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지-의 색채 정보를 연결시키는 단계;
(d) 상기 데이터 전처리부를 통해, 상기 변환된 얼굴 이미지에서 배경을 제거하여 상기 제2중심부를 남김으로써 상기 변환된 얼굴 이미지에서 상기 변환된 얼굴만을 추출하지 않는 단계;
(e) 데이터 결합부를 통해, 상기 원본 이미지의 배경 및 상기 변환된 얼굴 이미지의 제2중심부를 겹쳐 6채널의 데이터로 변환하는 단계;
(f) 이미지 복원부를 통해, 상기 6채널의 데이터에서 특징 벡터를 추출하여 3채널의 합성 이미지를 생성하는 단계; 및
(g) 이미지 후처리부를 통해, 상기 원본 이미지로부터 유래한 상기 합성 이미지의 배경을 제거한 후, 상기 변환된 얼굴을 포함하는 상기 합성 이미지의 중심부를 상기 원본 이미지의 배경과 재합성하는 단계를 포함하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법.
제1항에 있어서,
상기 (c) 단계는,
상기 변환된 얼굴 이미지의 밝기, 대비, 채도 및 조도 중 적어도 하나를 무작위로 변환시키는 노이즈를 첨가하는 단계를 포함하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법.
제1항에 있어서,
상기 (f) 단계는,
(f1) 컨볼루션 필터와의 컨볼루션을 통해 확장된 특징 벡터를 추출하는 단계;
(f2) 게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출하는 단계; 및
(f3) 상기 확장된 특징 벡터 및 상기 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출하는 단계를 포함하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법.
제3항에 있어서,
상기 (f) 단계는 추출된 상기 최종 특징 벡터에 대한 연결 건너뛰기를 수행하는 단계를 더 포함하며,
상기 이미지 복원부는 이미지 복원 시 적대적 신경망 네트워크(GAN)를 사용하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법.
제1항에 있어서,
상기 원본 이미지의 상기 제1중심부는 상기 원본 이미지의 상, 하, 좌, 우 경계로부터 1/8 지점의 내부 이미지이며,
상기 변환된 얼굴 이미지의 상기 배경은 상기 변환된 얼굴 이미지의 상, 하, 좌, 우 경계로부터 1/8 지점의 외부 이미지인, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법.
원본 이미지 및 변환된 얼굴 이미지를 입력 받는 수신부;
상기 원본 이미지에서 상기 원본 이미지 내 원본 얼굴을 포함하는 제1중심부-상기 원본 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지-를 제거하여 배경을 남기고, 상기 변환된 얼굴 이미지의 색채를 보정하여 상기 원본 이미지의 배경의 색채 정보와 상기 변환된 얼굴 이미지의 변환된 얼굴을 포함하는 제2중심부-상기 변환된 얼굴 이미지의 상, 하, 좌, 우 경계로부터 미리 설정된 지점의 내부 이미지-의 색채 정보를 연결시키며, 상기 변환된 얼굴 이미지에서 배경을 제거하여 상기 제2중심부를 남김으로써 상기 변환된 얼굴 이미지에서 상기 변환된 얼굴만을 추출하지 않는 데이터 전처리부;
상기 원본 이미지의 배경 및 상기 변환된 얼굴 이미지의 제2중심부를 겹쳐 6채널의 데이터로 변환하는 데이터 결합부;
상기 6채널의 데이터에서 특징 벡터를 추출하여 3채널의 합성 이미지를 생성하는 이미지 복원부; 및
상기 원본 이미지로부터 유래한 상기 합성 이미지의 배경을 제거한 후, 상기 변환된 얼굴을 포함하는 상기 합성 이미지의 중심부를 상기 원본 이미지의 배경과 재합성하는 이미지 후처리부를 포함하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치.
제6항에 있어서,
상기 데이터 전처리부는 상기 변환된 얼굴 이미지의 색채 보정을 위해 상기 변환된 얼굴 이미지의 밝기, 대비, 채도 및 조도 중 적어도 하나를 무작위로 변환시키는 노이즈를 첨가하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치.
제6항에 있어서,
상기 이미지 복원부는,
컨볼루션 필터와의 컨볼루션을 통해 확장된 특징 벡터를 추출하고,
게이트 필터와의 컨볼루션을 통해 게이트 활성도를 추출하며,
상기 확장된 특징 벡터 및 상기 게이트 활성도의 곱을 통해 최종 특징 벡터를 추출하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치.
제8항에 있어서,
상기 이미지 복원부는 깊은 신경망 네트워크에서 추출된 상기 최종 특징 벡터에 대한 연결 건너뛰기를 수행하며,
상기 이미지 복원부는 이미지 복원 시 적대적 신경망 네트워크(GAN)를 사용하는, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치.
제6항에 있어서,
상기 원본 이미지의 상기 제1중심부는 상기 원본 이미지의 상, 하, 좌, 우 경계로부터 1/8 지점의 내부 이미지이며,
상기 변환된 얼굴 이미지의 상기 배경은 상기 변환된 얼굴 이미지의 상, 하, 좌, 우 경계로부터 1/8 지점의 외부 이미지인, 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 장치.
삭제
삭제
삭제
삭제
삭제