KR102554442B1

KR102554442B1 - 얼굴 합성 방법 및 시스템

Info

Publication number: KR102554442B1
Application number: KR1020210160569A
Authority: KR
Inventors: 정훈진; 정유현
Original assignee: ㈜플립션코리아
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-07-11
Also published as: WO2023090596A1; KR20230073808A

Abstract

얼굴 합성 방법 및 시스템이 제공된다. 얼굴 합성 방법은, 사용자로부터 사용자 얼굴 이미지를 수신하는 단계; 상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계; 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택하는 단계; 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 단계; 사용자 얼굴이 포함된 원본 영상을 제공받는 단계; 상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 목표 얼굴을 합성하는 단계; 및 합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 단계를 포함할 수 있다.

Description

얼굴 합성 방법 및 시스템{FACE SYNTHESIS METHOD AND SYSTEM}

본 발명은 얼굴 합성 방법 및 시스템에 관한 것이다.

얼굴 정보 처리 기술은 영상에서 얼굴을 검출하는 기술, 검출된 얼굴로부터 특징을 추출하는 기술, 얼굴 인식으로 인증을 수행하는 기술 등에서 나아가 사람의 얼굴을 다른 얼굴로 바꾸거나, 얼굴을 합성하는 기술까지 다양한 분야로 발전하고 있다. 특히, 얼굴 정보 처리 기술은, 인공지능 기술의 광범위한 보급과 다량의 데이터를 처리하고 전송할 수 있는 하드웨어의 발전에 힘입어 실제 활용이 가속화되고 있다.

특히, 얼굴 합성 기술은 얼굴에 다양한 콘텐츠를 합성하기도 하고, 신체를 남겨두고 얼굴의 일부 또는 전체를 다른 얼굴로 치환하거나, 기존의 얼굴 일부 또는 전체를 다른 얼굴과 합성하는 등 그 종류가 다양하게 상용화 되고 있으며, 이와 같은 얼굴 합성 기술을 사용하는 서비스들은 주로 실시간 응답이나 빠른 응답 시간을 요구 받는다. 이에 따라, 효율적인 방식으로 얼굴 합성 기술을 구현하기 위한 연구들이 활발하게 진행되고 있다.

본 발명이 해결하고자 하는 과제는, 효율적인 방식으로 사용자가 원하는 목표 얼굴을 사용자가 등장하는 영상에 합성할 수 있는 얼굴 합성 방법 및 시스템을 제공하는 것이다.

본 발명의 일 실시 예에 따른 얼굴 합성 방법은, 사용자로부터 사용자 얼굴 이미지를 수신하는 단계; 상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계; 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택하는 단계; 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 단계; 사용자 얼굴이 포함된 원본 영상을 제공받는 단계; 상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 목표 얼굴을 합성하는 단계; 및 합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 단계를 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 목표 얼굴을 합성하는 단계는, 일 프레임에서 상기 사용자 얼굴을 인식하는 단계; 상기 목표 얼굴 이미지와 상기 일 프레임에서 인식한 상기 사용자 얼굴을 상기 인공지능 얼굴 합성 모델에 입력하는 단계; 상기 인공지능 얼굴 합성 모델로부터 합성 얼굴 이미지를 획득하는 단계; 및 상기 합성 얼굴 이미지를 상기 일 프레임에 삽입하는 단계를 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 인공지능 얼굴 합성 모델에 입력하는 단계는, 상기 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 상기 인공지능 얼굴 합성 모델에 입력하는 단계를 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 방법은, 복수의 후보 얼굴 이미지를 사용자 단말에 제공하는 단계; 상기 복수의 후보 얼굴 이미지 중 상기 사용자 단말에 의해 선택된 후보 얼굴 이미지를 상기 목표 얼굴 이미지로 결정하는 단계를 더 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 방법은, 얼굴 이미지에 대한 편집 인터페이스를 상기 사용자 단말에 제공하는 단계를 더 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 방법은, 상기 원본 영상 중 상기 사용자 얼굴이 표시되는 표시 구간과, 상기 사용자 얼굴이 표시되지 않는 미표시 구간을 분석하여 구분하는 단계를 더 포함하고, 상기 합성하는 단계는, 상기 표시 구간에 포함되는 프레임에 대해서만 상기 목표 얼굴을 합성하는 단계를 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 결과 영상을 생성하는 단계는, 상기 미표시 구간과, 상기 목표 얼굴의 합성이 완료된 상기 표시 구간을 연결하여 상기 결과 영상을 생성하는 단계를 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 방법은, 상기 결과 영상을 인코딩하여 사용자 단말에 전송하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 얼굴 합성 시스템은, 사용자로부터 사용자 얼굴 이미지를 수신하는 사용자 얼굴 이미지 수신 모듈; 상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 사용자 얼굴 정보 추출 모듈; 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택하는 합성 정보 선택 모듈; 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 학습 모듈; 사용자 얼굴이 포함된 원본 영상을 제공받는 원본 영상 수신 모듈; 상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 목표 얼굴을 합성하는 얼굴 합성 모듈; 및 합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 결과 영상 생성 모듈을 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 얼굴 합성 모듈은, 일 프레임에서 상기 사용자 얼굴을 인식하고, 상기 목표 얼굴 이미지와 상기 일 프레임에서 인식한 상기 사용자 얼굴을 상기 인공지능 얼굴 합성 모델에 입력하고, 상기 인공지능 얼굴 합성 모델로부터 합성 얼굴 이미지를 획득하는 프레임별 합성 모듈; 및 상기 합성 얼굴 이미지를 상기 일 프레임에 삽입하는 프레임별 수정 모듈을 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 얼굴 합성 모듈은, 상기 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 상기 인공지능 얼굴 합성 모델에 추가로 입력할 수 있다.

본 발명의 일부 실시 예에서, 상기 방법은, 복수의 후보 얼굴 이미지를 사용자 단말에 제공하여, 상기 복수의 후보 얼굴 이미지 중 상기 사용자 단말에 의해 선택된 후보 얼굴 이미지를 상기 목표 얼굴 이미지로 결정하는 목표 얼굴 결정 모듈을 더 포함할 수 있다.

본 발명의 일부 실시 예에서, 상기 목표 얼굴 결정 모듈은 얼굴 이미지에 대한 편집 인터페이스를 상기 사용자 단말에 제공할 수 있다.

본 발명의 일부 실시 예에서, 상기 얼굴 합성 모듈은, 상기 원본 영상 중 상기 사용자 얼굴이 표시되는 표시 구간과, 상기 사용자 얼굴이 표시되지 않는 미표시 구간을 분석하여 구분하는 구간 분석 모듈을 더 포함하고, 상기 얼굴 합성 모듈은, 상기 표시 구간에 포함되는 프레임에 대해서만 상기 목표 얼굴을 합성할 수 있다.

본 발명의 일부 실시 예에서, 상기 결과 영상 생성 모듈은, 상기 미표시 구간과, 상기 목표 얼굴의 합성이 완료된 상기 표시 구간을 연결하여 상기 결과 영상을 생성할 수 있다.

본 발명의 일부 실시 예에서, 상기 결과 영상을 인코딩하여 사용자 단말에 전송하는 결과 영상 전송 모듈을 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 컴퓨터로 판독 가능한 매체는, 컴퓨터에, 사용자로부터 사용자 얼굴 이미지를 수신하는 단계; 상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계; 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택하는 단계; 선택한 상기 적어도 일부의 상기 사용자 얼굴 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 단계; 사용자 얼굴이 포함된 원본 영상을 제공받는 단계; 상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 목표 얼굴을 합성하는 단계; 및 합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 단계를 실행시키기 위한 프로그램을 기록할 수 있다.

본 발명의 실시 예들에 따르면, 사용자가 선택한 1 장의 목표 이미지와 하나의 인공지능 얼굴 합성 모델만을 사용하여 다양한 임의의 각도나 표정을 갖는 다른 얼굴 형태에 대해서도 얼굴 합성을 수행할 수 있다는 장점이 있다. 이에 따라, 컴퓨터 자원 사용량을 줄이고 처리 시간이 단축되어 사용자 만족도를 높일 수 있을 뿐 아니라, 학습이 완료된 인공지능 얼굴 합성 모델을 재사용할 수 있어서 효율이 좋고 경제성이 높다.

도 1은 본 발명의 일 실시 예에 따른 얼굴 합성 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 얼굴 합성 방법을 설명하기 위한 도면이다.
도 4 및 도 5는 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면들이다.
도 6은 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 얼굴 합성 방법 및 시스템을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.

이하, 첨부한 도면들을 참고하여 본 발명의 실시예들을 상세하게 설명하기로 한다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 사용하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 얼굴 합성 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 얼굴 합성 시스템(1)은 얼굴 합성 서버(10) 및 사용자 단말(20)을 포함할 수 있다.

얼굴 합성 서버(10)는 사용자가 원하는 목표 얼굴을 사용자가 등장하는 영상에 합성할 수 있다. 구체적으로, 얼굴 합성 서버(10)는 사용자 단말(20)로부터 사용자 얼굴 이미지(30) 및 원본 영상(32)을 수신할 수 있다. 여기서 사용자 얼굴 이미지(30)는, 얼굴 합성 전에 원본 영상(32)에 기록된 얼굴 이미지(예를 들어, 사용자 본인의 얼굴 이미지)일 수 있다. 한편, 원본 영상(32)은 사용자 얼굴 이미지(30)에 대응하는 사용자 얼굴이 등장하는 영상일 수 있으며, 주로 동영상의 형태이나, 본 발명의 범위가 동영상에 대한 것으로 한정되는 것은 아니다.

얼굴 합성 서버(10)는 사용자 얼굴 이미지(30) 및 원본 영상(32)을 이용하여 얼굴 합성을 수행한 후, 결과 영상(34)을 출력하여 사용자 단말(20)에 전송할 수 있다. 결과 영상(34)은, 원본 영상(32)에서 사용자 얼굴 이미지(30)에 대응하는 사용자 얼굴이, 사용자가 원하는 목표 얼굴과 합성된 영상을 말한다.

도 1에서는, 사용자 단말(10)이 사용자 얼굴 이미지(30) 및 원본 영상(32)을 얼굴 합성 서버(10)에 제공하고, 얼굴 합성 서버(10)가 결과 영상(34)을 사용자 단말(20)에 제공하는 구조로 얼굴 합성 시스템(1)을 표현하였지만, 본 발명의 범위는 이와 같은 서버-클라이언트 아키텍처로 한정되는 것은 아니다. 도 1에 도시된 것과 달리, 본 명세서에 설명하는 얼굴 합성 서버(10)에서 구현되는 일부 또는 모든 기능은, 사용자 단말(10) 내에서 구현될 수도 있다. 예를 들어, 사용자 얼굴 이미지(30) 및 원본 영상(32)을 이용하여 얼굴 합성을 수행한 후, 결과 영상(34)을 생성하는 과정이, 별도의 서버에서의 작업 수행 없이, 사용자 단말(10) 내에서 모두 수행될 수도 있다. 그럼에도 불구하고, 설명의 편의를 위해, 이하에서는 얼굴 합성 서버(10)와 사용자 단말(20)이 네트워크(40)를 통해 데이터를 주고 받는 도 1에 도시된 아키텍처를 전제로 설명하도록 한다.

도 2는 본 발명의 일 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 얼굴 합성 시스템은 사용자 얼굴 이미지 수신 모듈(102), 사용자 얼굴 정보 추출 모듈(104), 합성 정보 선택 모듈(106), 학습 모듈(108), 인공지능 얼굴 합성 모델(110), 원본 영상 수신 모듈(112), 얼굴 합성 모듈(114), 결과 영상 생성 모듈(116) 및 결과 영상 전송 모듈(118)을 포함할 수 있다. 앞서 설명한 바와 같이, 이들 모듈들 중 적어도 일부는 사용자 단말(20)과 통신하는 얼굴 합성 서버(10)에 구현될 수도 있고, 이들 모듈들 전부가 사용자 단말(20) 내에 구현될 수도 있고, 필요에 따라 이들 모듈 중 일부는 얼굴 합성 서버(10)에 구현되고 다른 일부는 사용자 단말(20)에 구현될 수도 있다.

사용자 얼굴 이미지 수신 모듈(102)은 사용자로부터 사용자 얼굴 이미지(30)를 수신할 수 있다. 사용자 얼굴 이미지(30)는 사용자 단말(20)에 탑재된 카메라를 이용하여 촬영된 이미지일 수도 있고, 다른 외부 장치로부터 제공받은 이미지일 수도 있다. 사용자 얼굴 이미지(30)는, 후술할 목표 얼굴 이미지와의 합성 대상이 되는 이미지로서, 사용자의 눈썹, 눈, 코, 입 등이 모두 보이도록 얼굴을 정면으로 촬영한 이미지일 수 있다.

사용자 얼굴 정보 추출 모듈(104)은 사용자 얼굴 이미지 수신 모듈(102)로부터 수신되는 사용자 얼굴 이미지(30)로부터 사용자 얼굴 정보를 추출할 수 있으며, 사용자 얼굴 정보는 윤곽 정보, 고유 정보 및 미세 정보를 포함할 수 있다.

윤곽 정보는 얼굴의 윤곽, 즉 얼굴에서 눈썹, 눈, 코, 입 등의 특징적인 요소를 제외한 얼굴 형태일 수 있다. 이와 같은 윤곽 정보는, 얼굴 합성이 수행되지 않는 영역을 지정하기 위해 사용될 수 있으며, 본 발명의 실시 예들에 따른 얼굴 합성 방법은, 사용자 얼굴 정보 추출 모듈(104)에 의해 추출된 윤곽 정보에 기초하여 얼굴의 윤곽을 제외하고 그 내부 영역에 대해서만 합성을 수행하게 된다. 이로 인해, 본래 얼굴의 외형이 유지되도록 합성이 수행됨에 따라, 사용자의 만족감이 증대될 수 있을 뿐 아니라, 인공지능 기술을 이용해 특정 인물의 얼굴을 다른 영상에 합성하는 딥 페이크(deepfake)와 같은 범죄 및 윤리적 문제의 발생을 예방할 수 있다.

고유 정보는 얼굴을 구분할 수 있는 특징적인 정보들로, 이목구비와 그 배치일 수 있다. 구체적으로, 고유 정보는 얼굴의 귀, 눈, 입, 코 등을 비롯한 얼굴 내에서 다른 얼굴과의 비교가 비교적 용이한 특징적인 요소들에 대한 정보를 포함한다. 고유 정보는 위와 같은 특징적인 요소들 자체에 대한 모양 또는 형상뿐 아니라, 해당 요소들이 얼굴에서 어느 지점에 배치되어 있는지 나타내는 정보까지 포함할 수 있다. 예를 들어, 얼굴 윤곽을 둘러싸는 가상의 사각형 박스를 상정하고, 해당 사각형 박스의 중심으로부터 귀, 눈, 입, 코 등이 배치된 위치를 수치로 나타낸 정보일 수 있다.

미세 정보는 얼굴 합성의 자연스러움을 위하여 보존되는 정보들로, 표정, 명암, 주름 등일 수 있다. 구체적으로, 미세 정보는 얼굴로부터 표정, 명암, 주름 등에 대한 정보를 컴퓨터가 인식할 수 있는 값으로 나타낸 것일 수 있다. 예를 들어, 기쁜 표정, 화난 표정, 슬픈 표정 등을 각각 다른 값으로 표현한 것이거나, 단계별로 명암의 정도를 값으로 나타낸 것이거나, 또는 주름 정도를 단계별로 나타내거나, 주름의 유형을 값으로 나타내거나, 또는 얼굴 중에서 주름이 분포한 위치를 값으로 나타낸 것일 수 있다.

이와 같은 고유 정보와 미세 정보는, 전술한 윤곽 정보와 다르게 얼굴 합성에 직접 사용되는 정보들이다.

합성 정보 선택 모듈(106)은, 사용자 얼굴 이미지(30)를 목표 얼굴 이미지(36)와 비교하여, 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택할 수 있다. 여기서 목표 얼굴 이미지(36)는 사용자가 자신의 얼굴과 합성하고자 선택한 얼굴 이미지로서, 예를 들어 목표 얼굴 데이터베이스(60)에 저장되어 있을 수 있다. 즉, 합성 정보 선택 모듈(106)은 목표 얼굴 데이터베이스(60)에 저장된 목표 얼굴 이미지들 중 사용자가 선택한 목표 얼굴 이미지(36)와 사용자 얼굴 이미지(30)를 비교할 수 있다.

구체적으로, 상기 비교는 CNN(Convolutional Neural Networks)기반의 인코더 모델을 이용하여 이미지에서 특징을 추출하고, 모델의 깊은 층에서 사용자 얼굴 정보에 목표 얼굴의 정보를 투사한 뒤, 합성된 정보를 디코더를 통하여 새롭게 이미지를 만들어내고, 결과 이미지에서 정보를 추출하고 다시 이를 각각 사용자 얼굴의 윤곽, 미세 정보와 목표 얼굴의 고유 정보와 비교함으로 이루어질 수 있다.

이와 같이, 얼굴 합성에 사용할 정보로 선택된 결과에 대해 가중치를 설정할 수 있으며, 설정한 가중치를 조절함에 따라 자연스러운 합성 품질을 구현할 수 있다.

학습 모듈(108)은, 합성 정보 선택 모듈(106)이 선택한 적어도 일부의 사용자 얼굴 정보를 이용하여 사용자 얼굴 이미지(30)와 목표 얼굴 이미지(36)를 합성하는 인공지능 얼굴 합성 모델(110)을 학습시킬 수 있다.

인공지능 얼굴 합성 모델(110)은 주어진 영상에서 사용자 얼굴 이미지(30)에 대응되는 사용자 얼굴을 인식할 수 있고, 인식한 사용자 얼굴에 목표 얼굴 이미지(36)에 대응하는 목표 얼굴을 합성한 결과를 출력할 수 있다. 인공지능 얼굴 합성 모델(110)은 CNN(Convolutional Neural Networks) 기반의 모델일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

원본 영상 수신 모듈(112)은 사용자 얼굴이 포함된 원본 영상(32)을 제공받을 수 있다. 여기서 원본 영상(32)은 동영상일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니며, 하나의 정지영상일 수도 있고, 동적 GIF와 같이 수 개의 프레임만으로 짧은 동영상을 표현하는 영상일 수도 있다.

얼굴 합성 모듈(114)은, 인공지능 얼굴 합성 모델(110)을 이용하여, 원본 영상의 프레임 별로 사용자 얼굴에 목표 얼굴을 합성할 수 있다.

구체적으로, 얼굴 합성 모듈(114)은, 원본 영상 수신 모듈(112)로부터 제공받은 사용자 얼굴이 포함된 원본 영상(32)에서 사용자 얼굴에 해당하는 영역을 인식하는 과정을 반복하여 수행할 수 있다. 사용자 얼굴에 해당하는 영역이 인식된 경우, 합성 정보 선택 모듈(106)이 선택한 적어도 일부의 사용자 얼굴 정보에 기초하여 인공지능 얼굴 합성 모델(110)을 이용하여 사용자 얼굴에 목표 얼굴을 합성할 수 있으며, 이를 위해, 합성 정보 선택 모듈(106)은 인공지능 얼굴 합성 모델(110)에 원본 영상(32)에서 인식한 사용자 얼굴과, 목표 얼굴 이미지(36)를 입력할 수 있다.

또는, 합성 정보 선택 모듈(106)은 인공지능 얼굴 합성 모델(110)에 원본 영상(32)에서 인식한 사용자 얼굴과, 목표 얼굴 이미지(36)뿐 아니라, 합성 정보 선택 모듈(106)에 의해 선택된, 적어도 일부의 사용자 얼굴 정보를 추가로 입력할 수 있다.

결과 영상 생성 모듈(116)은 합성이 완료된 프레임으로부터 결과 영상을 생성할 수 있다.

결과 영상 전송 모듈(118)은 결과 영상 생성 모듈(116)에서 생성된 결과 영상을 인코딩하여 사용자 단말(20)에 전송할 수 있다.

기존에는 얼굴 합성을 수행하기 위해 많은 데이터가 필요하고 처리 시간이 길었으며, 얼굴 합성에 사용되는 인공지능 모델은 특정 각도나 표정에 대해서만 합성이 가능하여 여러 가지의 각도나 표정을 갖는 얼굴을 합성하기 위해서는 여러 개의 인공지능 모델이 필요하였다. 이로 인해, 컴퓨팅 자원 소모도 컸을 뿐 아니라 처리 시간이 길어 사용자의 불만족을 야기하였으며, 또한 다양한 얼굴 형태에 대해 매번 새로운 인공지능 모델이 적용되어야 함으로 인해 메모리 효율이 낮고 비용이 컸다.

그런데, 본 실시 예에 따르면, 사용자가 선택한 1 장의 목표 이미지와 하나의 인공지능 얼굴 합성 모델(110)만을 사용하여 다양한 임의의 각도나 표정을 갖는 다른 얼굴 형태에 대해서도 얼굴 합성을 수행할 수 있다는 장점이 있다. 이에 따라, 컴퓨터 자원 사용량을 줄이고 처리 시간이 단축되어 사용자 만족도를 높일 수 있을 뿐 아니라, 학습이 완료된 인공지능 얼굴 합성 모델(110)을 재사용할 수 있어서 효율이 좋고 경제성이 높다.

도 3은 본 발명의 일 실시 예에 따른 얼굴 합성 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 얼굴 합성 방법은, 사용자로부터 사용자 얼굴 이미지(30)를 수신하는 단계(S301); 사용자 얼굴 이미지(30)로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계(S303); 목표 얼굴 이미지(36)와 비교하여, 사용자 얼굴 정보 중 적어도 일부를 얼굴 합성에 사용할 정보로 선택하는 단계(S305); 선택한 적어도 일부의 사용자 얼굴 정보를 이용하여 사용자 얼굴 이미지(30)와 목표 얼굴 이미지(36)를 합성하는 단계(S307); 사용자 얼굴이 포함된 원본 영상을 제공받는 단계(S309); 인공지능 얼굴 합성 모델(110)을 이용하여, 원본 영상의 프레임 별로 사용자 얼굴에 목표 얼굴을 합성하는 단계(S311); 및 합성이 완료된 프레임으로부터 결과 영상을 생성하는 단계(S313)를 포함할 수 있다.

이와 관련한 상세한 내용은 도 1 및 도 2와 관련하여 설명한 내용을 적용할 수 있으므로, 여기에서는 중복되는 설명을 생략하도록 한다. 한편, 본 발명의 일 실시 예에 따른 얼굴 합성 방법은, 본 명세서에서 설명되는 얼굴 합성 시스템의 동작을 수행하는 단계들을 포함할 수 있다.

도 4 및 도 5는 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면들이다.

도 4를 참조하면, 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템은 목표 얼굴 결정 모듈(107)을 더 포함할 수 있다. 목표 얼굴 결정 모듈(107)은, 복수의 후보 얼굴 이미지를 사용자 단말에 제공할 수 있다. 여기서 복수의 후보 얼굴 이미지는, 사용자로 하여금 목표 얼굴 이미지로 선택하도록 사용자에게 제안 또는 추천하기 위한 이미지이다. 예를 들어, 목표 얼굴 결정 모듈(107)은, 유명인 A, B, C의 사진을 후보 얼굴 이미지로서 사용자에게 제공한 후 사용자의 선택을 대기할 수 있으며, 복수의 후보 얼굴 이미지 중 사용자 단말(20)을 통해 사용자가 유명인 B를 선택한 경우, 선택된 유명인 B의 후보 얼굴 이미지를 목표 얼굴 이미지(36)로 결정할 수 있다.

본 발명의 일부 실시 예에서, 목표 얼굴 결정 모듈(107)은 사용자 단말(20)에게 얼굴 이미지에 대한 편집 인터페이스를 사용자 단말(20)에 제공할 수 있다. 사용자는 사용자 단말(20)을 통해 제공되는 편집 인터페이스를 통해, 자신이 선택한 후보 얼굴 이미지를 세부 편집할 수 있다. 예를 들어, 사용자는 자신이 선택한 후보 얼굴 이미지의 눈, 코, 연령 등을 편집할 수 있다. 이에 따라, 사용자가 자신의 얼굴이 변하기를 원하는 방향에 맞추어 얼굴 합성이 수행될 수 있다.

또한, 사용자는 사용자 단말(20)을 통해 제공되는 편집 인터페이스를 통해, 인공지능 얼굴 합성 모델(110)을 통해 사용자 얼굴에 목표 얼굴이 합성된 결과를 샘플로서 제공받고, 해당 샘플에 해당하는 얼굴 이미지를 세부 편집할 수도 있다. 예를 들어, 사용자는 합성 샘플 결과에 해당하는 얼굴 이미지의 눈, 코, 연령 등을 편집할 수 있으며, 이와 같이 편집 인터페이스를 통해 수신한 사용자의 수정 사항은 인공지능 얼굴 합성 모델(110)의 결과물에 반영되도록 하여, 얼굴 합성 모듈(114)이 영상에 얼굴 합성을 하는 작업을 수행하는 경우에도, 사용자가 자신의 얼굴이 변하기를 원하는 방향에 맞추어 얼굴 합성이 수행되도록 할 수 있다.

또한, 도 4 및 도 5를 참조하면, 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 얼굴 합성 모듈(114)은 프레임별 합성 모듈(114a) 및 프레임별 수정 모듈(114b)을 포함할 수 있다.

프레임별 합성 모듈(114a)은, 일 프레임에서 사용자 얼굴을 인식하고, 목표 얼굴 이미지(36)와 일 프레임에서 인식한 사용자 얼굴을 인공지능 얼굴 합성 모델(110)에 입력하고, 인공지능 얼굴 합성 모델(110)로부터 합성 얼굴 이미지를 획득할 수 있고, 프레임별 수정 모듈(114b)은 합성 얼굴 이미지를 일 프레임에 삽입할 수 있다.

도 5에 도시된 바와 같이, 원본 영상 모듈(112)이 수신한 원본 영상(32)이 동영상 또는 짧은 동영상인 경우, 원본 영상(32)은 복수의 프레임(F1, F2, F3)으로 구성될 수 있다. 프레임별 합성 모듈(114a)은 복수의 프레임(F1, F2, F3) 각각에서 사용자 얼굴을 인식할 수 있으며, 예를 들면, 일 프레임(F1)에서 영역(A)로 사용자 얼굴을 인식할 수 있다. 그러면 프레임별 합성 모듈(114a)은 영역(A)로 인식한 사용자 얼굴을 인공지능 얼굴 합성 모델(110)에 입력할 수 있다.

여기서 영역(A)의 경계는 구체적인 구현 방식에 따라 달라질 수 있다. 예를 들어, 프레임별 합성 모듈(114a)은 도 5에 도시된 것과 같이 얼굴의 윤곽을 포함하지 않는 영역만을 사용자 얼굴로 인식할 수도 있고, 이와 다르게, 얼굴의 윤곽을 포함하는 영역까지 사용자 얼굴로 인식할 수도 있다. 어느 경우든, 앞서 도 2와 관련하여 윤곽 정보에 대해 설명한 바와 같이, 얼굴 합성에 있어서 얼굴의 윤곽에는 얼굴 합성이 수행되지 않을 수 있다.

한편, 전술한 바와 같이, 인공지능 얼굴 합성 모델(110)은 사용자 얼굴 이미지(30)와 목표 얼굴 이미지(36)를 입력으로 하여 학습된 인공지능 모델로서, 사용자 얼굴 이미지(30)와 목표 얼굴 이미지(36)의 합성 결과를 출력할 수 있다. 이에 따라, 프레임별 합성 모듈(114a)은 일 프레임(F1)의 영역(A)에서 인식한 사용자 얼굴을 인공지능 얼굴 합성 모델(110)에 입력하여, 해당 영역(A)에 표현될 목표 얼굴 이미지(36)의 합성 결과를 획득할 수 있다. 프레임별 수정 모듈(114b)은, 프레임별 합성 모듈(114a)에 의해 획득한 합성 얼굴 이미지를 해당 프레임(F1)에 삽입하게 되며, 이와 같은 프레임별 합성 모듈(114a) 및 프레임별 수정 모듈(114b)의 동작은 원본 영상(32)의 복수의 프레임(F1, F2, F3)에 대해 반복 수행될 수 있다.

이와 같이 복수의 프레임(F1, F2, F3)에 대해 얼굴 합성이 완료된 결과는 결과 영상 생성 모듈(116)에 전달되며, 결과 영상 생성 모듈(116)은 합성이 완료된 프레임들을 처리하여 사용자 단말(20)에서 재생 가능한 형태로 결과 영상(34)을 생성할 수 있다.

도 6은 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 동작을 설명하기 위한 도면이다.

도 6을 참조하면, 본 발명의 다른 실시 예에 따른 얼굴 합성 시스템의 얼굴 합성 모듈(114)은 구간 분석 모듈(114c)을 포함할 수 있다.

구간 분석 모듈(114c)은, 원본 영상(32) 중 사용자 얼굴이 표시되는 표시 구간과, 사용자 얼굴이 표시되지 않는 미표시 구간을 분석하여 구분할 수 있다. 일반적으로 영상에서 사용자 얼굴이 항상 등장하는 것은 아니므로, 영상의 모든 프레임에서 얼굴 영역 검출 시도를 하는 것보다는, 프레임별 작업을 시작하기 전에 사용자 얼굴이 표시되는 표시 구간을 선별하는 것이 효율적이다. 구간 분석 모듈(114c)이 원본 영상(32) 중 사용자 얼굴이 표시되는 표시 구간을 구분한 후에, 얼굴 합성 모듈(114)은 표시 구간에 포함되는 프레임에 대해서만 목표 얼굴을 합성할 수 있다.

예를 들어, 구간 분석 모듈(114c)이 표시 구간과 미표시 구간을 분석하는 경우에는, 원본 영상(32)의 썸네일에서 사람 얼굴이 표시되어 있는지 여부만을 검사하고, 이와 같은 방식으로 표시 구간이 결정되면, 표시 구간에 대해서는 사용자 얼굴이 존재하는지 여부를 정밀하게 검출하는 방식이 사용될 수 있다.

이에 따라, 얼굴 합성 모듈(114)은, 구간 분석 모듈(114c)에 의해 표시 구간으로 설정된 영상에 대해서는 얼굴 합성을 수행한 후 그 결과를 결과 영상 생성 모듈(116)에 전달하고, 미표시 구간으로 설정된 영상은 별다른 처리 없이 결과 영상 생성 모듈(116)로 전달되도록 할 수 있다. 그러면, 결과 영상 생성 모듈(116)은 미표시 구간과, 목표 얼굴의 합성이 완료된 표시 구간을 연결하여 결과 영상(34)을 생성할 수 있다.

도 7은 본 발명의 실시 예들에 따른 얼굴 합성 방법 및 시스템을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.

도 7을 참조하면, 본 발명의 실시 예들에 따른 얼굴 합성 방법 및 시스템은 컴퓨팅 장치(50)를 이용하여 구현될 수 있다.

컴퓨팅 장치(50)는 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(540), 사용자 인터페이스 출력 장치(550) 및 저장 장치(560) 중 적어도 하나를 포함할 수 있다. 컴퓨팅 장치(50)는 또한 네트워크(40), 예컨대 무선 네트워크에 전기적으로 접속되는 네트워크 인터페이스(570)를 포함할 수 있다. 네트워크 인터페이스(570)는 네트워크(40)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.

프로세서(510)는 AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic　Processing　Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(530) 또는 저장 장치(560)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(510)는 도 1 내지 도 6에서 설명한 기능 및 방법들을 구현하도록 구성될 수 있다.

메모리(530) 및 저장 장치(560)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 발명의 일 실시 예에서 메모리(530)는 프로세서(510)의 내부 또는 외부에 위치할 수 있고, 메모리(530)는 이미 알려진 다양한 수단을 통해 프로세서(510)와 연결될 수 있다.

또한, 본 발명의 실시 예들에 따른 얼굴 합성 방법 및 시스템은 컴퓨팅 장치(50)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.

또한, 본 발명의 실시 예들에 따른 얼굴 합성 방법 및 시스템은 컴퓨팅 장치(50)와 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.

이제까지 설명한 본 발명의 실시 예들에 따르면, 사용자가 선택한 1 장의 목표 이미지와 하나의 인공지능 얼굴 합성 모델만을 사용하여 다양한 임의의 각도나 표정을 갖는 다른 얼굴 형태에 대해서도 얼굴 합성을 수행할 수 있다는 장점이 있다. 이에 따라, 컴퓨터 자원 사용량을 줄이고 처리 시간이 단축되어 사용자 만족도를 높일 수 있을 뿐 아니라, 학습이 완료된 인공지능 얼굴 합성 모델을 재사용할 수 있어서 효율이 좋고 경제성이 높다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형태 또한 본 발명의 권리범위에 속한다.

Claims

사용자로부터 사용자 얼굴 이미지를 수신하는 단계;
상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계;
단일의 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 상기 윤곽 정보를 이용하여 얼굴 합성이 수행되지 않는 영역을 지정하는 단계;
원하는 합성 품질을 위해 상기 고유 정보 및 상기 미세 정보에 대해 가중치를 설정하는 단계;
상기 가중치가 설정된 상기 고유 정보 및 상기 미세 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 단일의 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 단계;
사용자 얼굴이 포함된 원본 영상을 제공받는 단계;
상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 상기 단일의 목표 얼굴 이미지를 합성하여 상기 프레임 별로 다른 각도 또는 표정을 갖는 얼굴을 합성하되, 상기 사용자 얼굴 이미지 중 얼굴의 윤곽에는 얼굴 합성이 수행되지 않는 단계; 및
합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 단계를 포함하는
얼굴 합성 방법.
제1항에 있어서,
상기 사용자 얼굴에 상기 단일의 목표 얼굴 이미지를 합성하는 단계는,
일 프레임에서 상기 사용자 얼굴을 인식하는 단계;
상기 목표 얼굴 이미지와 상기 일 프레임에서 인식한 상기 사용자 얼굴을 상기 인공지능 얼굴 합성 모델에 입력하는 단계;
상기 인공지능 얼굴 합성 모델로부터 합성 얼굴 이미지를 획득하는 단계; 및
상기 합성 얼굴 이미지를 상기 일 프레임에 삽입하는 단계를 포함하는, 얼굴 합성 방법.
제2항에 있어서,
상기 인공지능 얼굴 합성 모델에 입력하는 단계는, 상기 고유 정보 및 상기 미세 정보를 상기 인공지능 얼굴 합성 모델에 입력하는 단계를 포함하는, 얼굴 합성 방법.
제1항에 있어서,
복수의 후보 얼굴 이미지를 사용자 단말에 제공하는 단계;
상기 복수의 후보 얼굴 이미지 중 상기 사용자 단말에 의해 선택된 후보 얼굴 이미지를 상기 목표 얼굴 이미지로 결정하는 단계를 더 포함하는 얼굴 합성 방법.
제4항에 있어서,
얼굴 이미지에 대한 편집 인터페이스를 상기 사용자 단말에 제공하는 단계를 더 포함하는 얼굴 합성 방법.
제1항에 있어서,
상기 원본 영상 중 상기 사용자 얼굴이 표시되는 표시 구간과, 상기 사용자 얼굴이 표시되지 않는 미표시 구간을 분석하여 구분하는 단계를 더 포함하고,
상기 사용자 얼굴에 상기 단일의 목표 얼굴 이미지를 합성하는 단계는, 상기 표시 구간에 포함되는 프레임에 대해서만 상기 목표 얼굴 이미지를 합성하는 단계를 포함하는, 얼굴 합성 방법.
제6항에 있어서,
상기 결과 영상을 생성하는 단계는, 상기 미표시 구간과, 상기 목표 얼굴 이미지의 합성이 완료된 상기 표시 구간을 연결하여 상기 결과 영상을 생성하는 단계를 포함하는, 얼굴 합성 방법.
제1항에 있어서,
상기 결과 영상을 인코딩하여 사용자 단말에 전송하는 단계를 더 포함하는 얼굴 합성 방법.
사용자로부터 사용자 얼굴 이미지를 수신하는 사용자 얼굴 이미지 수신 모듈;
상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 사용자 얼굴 정보 추출 모듈;
단일의 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 상기 윤곽 정보를 이용하여 얼굴 합성이 수행되지 않는 영역을 지정하고, 원하는 합성 품질을 위해 상기 고유 정보 및 상기 미세 정보에 대해 가중치를 설정하는 합성 정보 선택 모듈;
상기 가중치가 설정된 상기 고유 정보 및 상기 미세 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 단일의 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 학습 모듈;
사용자 얼굴이 포함된 원본 영상을 제공받는 원본 영상 수신 모듈;
상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 상기 단일의 목표 얼굴 이미지를 합성하여 상기 프레임 별로 다른 각도 또는 표정을 갖는 얼굴을 합성하되, 상기 사용자 얼굴 이미지 중 얼굴의 윤곽에는 얼굴 합성이 수행되지 않는 얼굴 합성 모듈; 및
합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 결과 영상 생성 모듈을 포함하는
얼굴 합성 시스템.
제9항에 있어서,
상기 얼굴 합성 모듈은,
일 프레임에서 상기 사용자 얼굴을 인식하고, 상기 목표 얼굴 이미지와 상기 일 프레임에서 인식한 상기 사용자 얼굴을 상기 인공지능 얼굴 합성 모델에 입력하고, 상기 인공지능 얼굴 합성 모델로부터 합성 얼굴 이미지를 획득하는 프레임별 합성 모듈; 및
상기 합성 얼굴 이미지를 상기 일 프레임에 삽입하는 프레임별 수정 모듈을 포함하는, 얼굴 합성 시스템.
제10항에 있어서,
상기 얼굴 합성 모듈은, 상기 고유 정보 및 상기 미세 정보를 상기 인공지능 얼굴 합성 모델에 입력하는, 얼굴 합성 시스템.
제9항에 있어서,
복수의 후보 얼굴 이미지를 사용자 단말에 제공하여, 상기 복수의 후보 얼굴 이미지 중 상기 사용자 단말에 의해 선택된 후보 얼굴 이미지를 상기 목표 얼굴 이미지로 결정하는 목표 얼굴 결정 모듈을 더 포함하는 얼굴 합성 시스템.
제12항에 있어서,
상기 목표 얼굴 결정 모듈은 얼굴 이미지에 대한 편집 인터페이스를 상기 사용자 단말에 제공하는, 얼굴 합성 시스템.
제9항에 있어서,
상기 얼굴 합성 모듈은, 상기 원본 영상 중 상기 사용자 얼굴이 표시되는 표시 구간과, 상기 사용자 얼굴이 표시되지 않는 미표시 구간을 분석하여 구분하는 구간 분석 모듈을 더 포함하고,
상기 얼굴 합성 모듈은, 상기 표시 구간에 포함되는 프레임에 대해서만 상기 목표 얼굴 이미지를 합성하는, 얼굴 합성 시스템.
제14항에 있어서,
상기 결과 영상 생성 모듈은, 상기 미표시 구간과, 상기 목표 얼굴의 합성이 완료된 상기 표시 구간을 연결하여 상기 결과 영상을 생성하는, 얼굴 합성 시스템.
제9항에 있어서,
상기 결과 영상을 인코딩하여 사용자 단말에 전송하는 결과 영상 전송 모듈을 더 포함하는 얼굴 합성 시스템.
컴퓨터에,
사용자로부터 사용자 얼굴 이미지를 수신하는 단계;
상기 사용자 얼굴 이미지로부터 윤곽 정보, 고유 정보 및 미세 정보를 포함하는 사용자 얼굴 정보를 추출하는 단계;
단일의 목표 얼굴 이미지와 비교하여, 상기 사용자 얼굴 정보 중 상기 윤곽 정보를 이용하여 얼굴 합성이 수행되지 않는 영역을 지정하는 단계;
원하는 합성 품질을 위해 상기 고유 정보 및 상기 미세 정보에 대해 가중치를 설정하는 단계;
상기 가중치가 설정된 상기 고유 정보 및 상기 미세 정보를 이용하여 상기 사용자 얼굴 이미지와 상기 단일의 목표 얼굴 이미지를 합성하는 인공지능 얼굴 합성 모델을 학습시키는 단계;
사용자 얼굴이 포함된 원본 영상을 제공받는 단계;
상기 인공지능 얼굴 합성 모델을 이용하여, 상기 원본 영상의 프레임 별로 상기 사용자 얼굴에 상기 단일의 목표 얼굴 이미지를 합성하여 상기 프레임 별로 다른 각도 또는 표정을 갖는 얼굴을 합성하되, 상기 사용자 얼굴 이미지 중 얼굴의 윤곽에는 얼굴 합성이 수행되지 않는 단계; 및
합성이 완료된 상기 프레임으로부터 결과 영상을 생성하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 매체.