KR20230086999A

KR20230086999A - 가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체

Info

Publication number: KR20230086999A
Application number: KR1020210175536A
Authority: KR
Inventors: 이진호
Original assignee: 펄스나인 주식회사
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-06-16

Abstract

본 발명의 실시 예에 따른 기록매체는, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하여 상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스 및 상기 제1 색상으로 변경된 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하여, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 수행하는 노이즈 부가 형성을 처리하는 기능; 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 기능; 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 기능; 및 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 기능을 포함한다.

Description

가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체{A RECORDING MEDIUM RECORDING A VIRTUAL CHARACTER CONTENT CREATION PROGRAM}

본 발명은 가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체에 관한 것이다.

일반적으로 카메라 등으로부터 획득한 얼굴 영상에서 가상 얼굴을 생성하는 예로서, 단순한 컴퓨터 그래픽 기술에 의존한 이미지 모자이크(mosaic) 기법이나 이미지 와핑(warping) 기법 등을 이용해서 얼굴 영상을 성형하는 방법이 있다.

상기 이미지 모자이크 기법은 전체 이미지에 두 개 또는 그 이상의 이미지를 결합하여 변형된 이미지를 얻는 기법이고, 상기 이미지 와핑 기법은 왜곡필터(distortion filter) 등에 수학식을 적용하여 이미지를 왜곡시킴으로써 이미지의 픽셀(pixel)들이 새로운 위치 값을 갖도록 변형시키는 기법이다.

예컨대, 대한민국 공개특허 제2003-0064711호(공개일; 2003.08.02)에 따른 얼굴인식을 이용한 얼굴 성형방법은, 사용자가 유무선 통신단말기를 통해 얼굴 성형 서버에 접속하여 얼굴 실사 사진을 전송하게 되면, 상기 유무선 통신단말기에 탑재(embedded)된 얼굴 인식 장치를 통해 상기 사용자의 얼굴을 인증하여 사용자 얼굴 성형 DB에 임시로 저장하고, 키보드 또는 마우스 버튼을 사용하여 상기 얼굴 영상에 대해 성형할 얼굴 부위를 선택하게 되면, 이미지 워핑 기법을 이용하여 각 얼굴 부위를 성형하여 저장하거나 출력 또는 전송할 수 있도록 한 것이다.

하지만, 이미지 모자이크 기법이나 이미지 워핑 기법 등을 통해 얻어진 가상 성형 얼굴은 성형된 얼굴 부위가 전체 얼굴 영상의 크기와 명암에 있어서 조화롭지 못하기 때문에 별도의 수작업이 필요하고, 시간이 오래 소요되는 문제점이 있다.

이를 해결하기 위해, 최근에는 GAN(생성적 적대 신경망)과 같은 인공지능 학습 알고리즘을 이용하여, 현실과 유사한 형태의 가상 얼굴 이미지를 자동적으로 대량으로 생성하는 알고리즘 등이 제안되고 있다.

그러나, 인공지능 학습 알고리즘의 경우, 딥러닝을 기반으로 수행되는 얼굴 이미지 데이터에 대한 대량의 학습과정이 요구되며, 그 인공지능 프로세스에 대한 개별 제어가 불가능하고 무작위성이 높으므로, 콘텐츠 제작자나 사용자가 정말로 원하는 형태나 인물의 특성을 정확하게 반영한 가상 인물의 얼굴 이미지를 획득하기에는 어려움이 있는 문제점이 있다.

이에 따라, 현재는 인공지능을 기반으로 랜덤하게 생성된 가상의 얼굴 이미지를 다시 수작업을 통해 성형하는 등의 혼합 방식 등이 사용되고 있는 실정이다.

본 발명은 상기한 바와 같은 문제점들을 해결하고자 안출된 것으로, 이미지 복원에 이용되는 이미지 복원 알고리즘을 역으로 활용하여, 사용자가 원하는 형태의 베이스 얼굴 이미지와 유사한 가상 인물 이미지들을 다양한 방식의 노이즈 부가를 이용해 효율적으로 생성할 수 있으며, 이에 기초한 가상 인물 기반의 영상 콘텐츠를 쉽고 빠르게 제작할 수 있는 가상 인물 콘텐츠를 생성 컴퓨터 프로그램을 기록한 기록매체를 제공하는 데 그 목적이 있다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 기록매체는, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하여 상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스 및 상기 제1 색상으로 변경된 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하여, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 수행하는 노이즈 부가 형성을 처리하는 기능; 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 기능; 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 기능; 및 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 기능을 포함한다.

본 발명의 실시 예에 따르면, 사용자 입력에 대응하는 베이스 얼굴 이미지가 입력되면, 상기 베이스 얼굴 이미지에 사전 설정된 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행함에 따라, 가상 인물용 얼굴 이미지를 추출할 수 있다.

이에 따라, 본 발명은 이미지 복원에 이용되는 이미지 복원 알고리즘을 역으로 활용하여, 사용자가 원하는 형태의 베이스 얼굴 이미지와 유사한 가상 인물 이미지들을 다양한 방식의 노이즈 부가를 이용해 효율적으로 생성할 수 있으며, 이에 기초한 가상 인물 기반의 영상 콘텐츠를 쉽고 빠르게 제작할 수 있는 가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체를 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 설명하기 위한 블록도이다.
도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4 내지 도 5는 본 발명의 실시 예에 따른 노이즈 부가 형성 방식들을 설명하기 위한 예시도이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치와 방법을 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시 예들 뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니 되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 실시함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시 예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 시스템은 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)을 포함할 수 있다.

보다 구체적으로, 서비스 제공 장치(100)와 사용자 단말(200), 영상 데이터 공급 단말(300)은 공중망(Public network)과의 연결을 통해 유선 및 무선 중 하나 이상으로 연결되어 데이터를 송수신할 수 있다. 상기 공중망은 국가 혹은 통신 기간 사업자가 구축 및 관리하는 통신망으로, 일반적으로 전화망, 데이터망, CATV망 및 이동 통신망 등을 포함하여 불특정 다수의 일반인이 타 통신망이나 인터넷에 접속 가능하도록 연결 서비스를 제공한다. 본 발명에서는 상기 공중망을 네트워크로 대체하여 표기한다.

또한, 서비스 제공 장치(100)는 사용자 단말(200), 영상 데이터 공급 단말(300)과 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.

그리고, 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신되는 사용자 입력에 따른 베이스 얼굴 이미지를 획득하면, 상기 베이스 얼굴 이미지에 대응하는 가상 인물용 얼굴 이미지를 생성하고, 생성된 가상 인물용 얼굴 이미지를 사용자 단말(200)로 제공할 수 있다.

또한, 서비스 제공 장치(100)는, 가상 인물용 얼굴 이미지를 이용하여, 영상 데이터 공급 단말(300)로부터 수신되는 영상 콘텐츠와 합성된 가상 인물 영상 콘텐츠를 사용자 단말(200)로 제공할 수도 있다.

특히, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하고, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하며, 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하여, 상기 가상 인물용 얼굴 이미지 또는 이를 포함하는 가상 인물 콘텐츠를 사용자 단말(200)로 제공할 수 있다.

그리고, 사용자 단말(200)은 사용자 입력에 따른 베이스 얼굴 이미지를 입력받거나, 베이스 얼굴 이미지 획득을 위한 키워드 정보 또는 유사 이미지 정보를 입력받아 서비스 제공 장치(100)로 전송할 수 있으며, 상기 가상 인물용 얼굴 이미지 또는 이를 포함하는 가상 인물 콘텐츠를 상기 서비스 제공 장치(100)로부터 수신하여 출력할 수 있다.

한편, 영상 데이터 공급 단말(300)은 가상 인물 콘텐츠 생성을 위한 소스 영상 데이터를 상기 서비스 제공 장치(100)에 제공할 수 있다.

그리고, 서비스 제공 장치(100)는 서비스 제공을 위하여 사용자 단말(200), 영상 데이터 공급 단말(300)과 유선/무선 네트워크를 통해 연결될 수 있다. 상기 네트워크에 연결된 장치 또는 단말은 사전 설정된 네트워크 채널을 통해 상호간 통신을 수행할 수 있다.

여기서 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(Mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.

그리고 본 명세서에서 설명되는 사용자 단말(200) 또는 영상 데이터 공급 단말(300)은 PC(personal computer), 노트북 컴퓨터(laptop computer), 휴대폰(Mobile phone), 태블릿 PC(Tablet PC), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등이 포함될 수 있다.

또한 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)은 상기 장치 구분에 한정되지 않고 데이터 처리 및 저장, 관리 기능을 고도화하여 확장할 수 있는 서버 시스템 관련 장치를 포함할 수 있다.

도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 통신부(120), 베이스 얼굴 이미지 처리부(125), 노이즈 부가 형성부(130), 학습 기반 이미지 복원 알고리즘 처리부(140), 얼굴 이미지 생성부(150), 서비스 제공부(160) 및 저장부(170)를 포함한다.

베이스 얼굴 이미지 처리부(125)는, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득한다.

베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 베이스 얼굴 이미지를 직접 획득할 수 있다. 또한, 베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 키워드 정보에 따른 베이스 얼굴 이미지를 색인하여 획득할 수 있다. 그리고, 베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 유사 이미지 정보에 기초한 베이스 얼굴 이미지를 이미지 간 얼굴 유사도 분석에 따라 색인하여 획득할 수도 있다.

그리고, 베이스 얼굴 이미지 처리부(125)는, 이미지 인식 기술, 이미지 분석 기술, 이미지 유사도 판단 기술, 이미지 매칭 기술 등으로 공지된 기술 또는 관련 분야로 개발되는 기술을 활용하여, 상기 베이스 얼굴 이미지 정보를 획득할 수 있다. 베이스 얼굴 이미지 처리부(125)는, 안면 및 이미지 인식 기술을 이용하는 응용 프로그램 또는 알고리즘을 활용하여 얼굴 이미지 부분을 분리 인식할 수 있다.

예를 들어, 베이스 얼굴 이미지 처리부(125)에서 얼굴 이미지를 식별하고 분석하는 기술은 Microsoft Computer Vision, Kairos Face Recognition, Animetrics Face Recognition, Lambda Labs Face Recognition, Luxand.cloud Face Recognition, EyeRecognize Face Detection, Face++ Face Detection, Macgyver Face Recognition, BetaFace Face Recognition, Amazon (AWS) Rekognition, Trueface.ai Facial Recognition, IBM Watson's Visual Recognition, ColorTag, Everypixel Image Recognition, Eyeris EmoVu, Inferdo Face Detection 등을 이용할 수 있다.

한편, 노이즈 부가 형성부(130)는, 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리한다.

여기서, 상기 노이즈 부가 형성부(130)는, 학습 기반 이미지 복원 알고리즘 처리부(140)에서 인공신경망 기반으로 예측 복원될 수 있는 정도의 사전 설정된 노이즈를 상기 베이스 얼굴 이미지에 부가할 수 있다. 이에 따라, 베이스 얼굴 이미지에는 사전 설정된 다양한 노이즈 부가 프로세스에 따라, 노이즈 정보가 부가 형성될 수 있다.

여기서, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스를 포함할 수 있다.

예를 들어, 랜덤 색상 변환 프로세스는 이미지의 픽셀 사이즈를 기준으로 하여 특정 픽셀의 색상을 변환하는 프로세스를 포함할 수 있다. 만약 베이스 이미지의 픽처 사이즈가 가로 1080 픽셀 x 세로 720 픽셀인 경우, 노이즈 부가 형성부(130)는 가로 0 ~ 1079 에서 N 개의 정수를 랜덤하게 선택하고, 세로 0 ~ 719에서 M 개의 정수를 랜덤하게 선택한 후, 두 정수를 X 좌표 및 Y 좌표 쌍으로 하는 (X, Y) 좌표의 픽셀들 각각의 색상을 사전 설정된 검정색 색상(RGB 기준 255 값) 등으로 변환하거나, 흰색 색상으로 변환하거나, 녹색 색상으로 변환하거나, 투명 색상을 부여하는 등의 랜덤 색상 변환 프로세스를 수행할 수 있다.

예를 들어, N = 2 인 경우 노이즈 부가 형성부(130)는 123, 777 좌표를 선택하고, M = 3 인 경우 4, 36, 612 가 선택되었다면, 노이즈 부가 형성부(130)는, (123,4), (123,36), (123,612), (777, 4), (777,36), (777,612) 좌표의 각 픽셀들을 기존 이미지에서 제거하거나, 검정색으로 변환할 수 있다.

또한, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지에 대응하는 사용자 입력에 따라 결정된 부분 영역에, 사전 설정된 패턴 이미지를 부가 형성하는 패턴 이미지 부가 프로세스를 포함할 수 있다.

예를 들어, 노이즈 부가 형성부(130)는, 사용자 단말(200)로부터 입력된 사용자 패턴에 따른 부분 영역을 생성하고, 상기 생성된 부분 영역을 특정 색상 또는 이미지 패턴으로 마스킹하는 패턴 이미지 부가 프로세스를 수행할 수 있다. 사용자는 예를 들어, 마우스나 터치 펜 등으로 원하는 영역을 직사각형 영역, 원 영역 등으로 지정할 수 있으며, 노이즈 부가 형성부(130)는 상기 지정된 영역에 백색이나 투명색 또는 검정색 등의 색상 패턴이나 음영, 모자이크 등의 이미지 패턴을 부가할 수 있다.

또한, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하고, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 포함할 수 있다.

여기서, 상기 얼굴 세그먼트 영역 추출 프로세스는 얼굴의 다양한 부위를 점으로 추출하는 작업과, 상기 점들간의 관계 분석에 따라, 눈 영역, 코 영역, 입 영역, 눈썹 영역, 얼굴 윤곽 영역 등의 세그먼트 영역들을 분석하는 프로세스를 포함할 수 있다. 노이즈 부가 형성부(130)는, 이에 따라 분석된 각 얼굴 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 백색이나 투명색 또는 검정색 등의 색상 패턴이나 음영, 모자이크 등의 이미지 패턴을 부가할 수 있다.

한편, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지 전체 또는 일부에 대응하여, 사전 설정된 필터를 적용하는 필터 부가 프로세스를 포함할 수 있다.

여기서, 상기 사전 설정된 필터는, 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함할 수 있으며, 상기 베이스 얼굴 이미지는 설정에 따라 전체가 필터링되거나, 사용자 단말(200)에 의해 선택된 일부분만 필터링 처리될 수 있다.

한편, 학습 기반 이미지 복원 알고리즘 처리부(140)에서는 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행한다.

상기 학습 기반 이미지 복원 알고리즘 처리부(140)는, 별도의 추가 정보 없이 저품질의 얼굴 이미지를 고품질의 얼굴 이미지로 복원하는 알고리즘 모델이 사전 학습된 이미지 복원용 인공 신경망에, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 적용하여, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 고품질의 이미지로 복원 처리할 수 있다.

여기서, 상기 이미지 복원용 인공 신경망은, 이미지의 해상도, 노이즈, 블러, 압축 아티팩트, 색상 중 적어도 하나의 품질을 향상시키도록, 저품질 이미지에 대응하는 고품질 복원 이미지가 사전 딥러닝된 하나 이상의 생성적 적대 신경망을 포함할 수 있다.

보다 구체적으로, 예를 들어 상기 학습 기반 이미지 복원 알고리즘 처리부(140)는, 알려진 BRF(blind face restoration) 알고리즘 등을 이용하여, 별도의 추가 정보 없이 예측 기반으로 노이즈 부가 형성된 베이스 얼굴 이미지의 노이즈를 제거하면서 품질을 향상시키는 이미지 복원 처리를 수행할 수 있다. 이러한 BFR 알고리즘에 대하여는 논문 GAN Prior Embedded Network for Blind Face Restoration in the Wild(2021.05.13, Tao Yang 외)를 통해서 보다 구체적으로 확인할 수 있으며, 이외에도 다양한 방식의 생성적 적대 신경망 기반 이미지 복원 알고리즘이 활용될 수 있다.

이러한 노이즈 제거 과정에서, 전술한 색상 변환 영역이나 이미지 패턴 부가 영역 등은 이미지 복원용 인공 신경망의 예측을 기반으로 복원될 수 있으며, 원본 이미지에 대한 정보가 없으므로, 복원된 이미지는 원본 베이스 이미지와는 상이하게 예측될 수 있다. 이러한 예측이 이루어짐에 따라, 원본 베이스 이미지와는 유사하나 실제로는 존재하지 않는 가상 얼굴 이미지가 각각의 노이즈 패턴에 따라 다양하게 생성될 수 있게 된다.

또한, 이러한 노이즈 부가 형성부(130)의 노이즈 추가 프로세스는 사용자가 원하는 방식에 따라 하나 또는 복수 개가 선택적으로 수행될 수 있는 바, 원본 베이스 이미지와 어느 정도 어느 부분이 유사할지 등을 사용자가 미리 의도하여 가상 인물 이미지를 생성시킬 수 있는 효과가 있다.

이에 따라, 얼굴 이미지 생성부(150)는, 상기 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출할 수 있다. 얼굴 이미지 생성부(150)는, 전술한 바와 같은 얼굴 이미지 인식 알고리즘을 이용하여, 복원 처리된 이미지로부터 얼굴 이미지를 추출하여 가상 인물용 얼굴 이미지로서 생성할 수 있다.

그리고, 서비스 제공부(160)는, 영상 데이터 공급 단말(300)로부터의 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말(200)로 제공할 수 있다. 상기 가상 인물 콘텐츠는, 상기 가상 인물용 얼굴 이미지를 직접 포함할 수 있다.

또한. 가상 인물 콘텐츠는, 영상 데이터 공급 단말(300)로부터 수신된 영상 콘텐츠와, 상기 가상 인물영 얼굴 이미지가 페이스 스왑 알고리즘에 의해 합성된 합성 영상 콘텐츠를 포함할 수도 있다. 여기서, 상기 페이스 스왑 영상 생성 알고리즘은 DeepFaceLab 알고리즘을 적용하여 얼굴이 변환된 출력 영상 데이터를 생성할 수 있다. 상기 DeepFaceLab 알고리즘은 오픈 소스 딥페이크 영상 생성 기법으로, 소스 영상의 눈, 코, 입 등 얼굴의 특징을 타깃 영상(배경 영상)의 대상 인물 얼굴에 대체하는 페이스 스와핑(Face swapping)을 처리할 수 있다. 참고적으로, 상기 DeepFaceLab 알고리즘은 추출(Extraction), 학습(Training), 전환(Conversion)의 세 가지 단계로 구분하여 요약될 수 있으며, 결과적으로는 변환하고자 하는 얼굴을, 얼굴이 대체될 대상의 얼굴에 적용하여 변환할 수 있다.

한편, 저장부(170)는, 서비스 제공 장치(100)의 동작에 필요한 정보 및 데이터베이스를 저장 및 관리하는 하나 이상의 기록 매체를 구비할 수 있다.

도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 베이스 얼굴 이미지를 획득한다(S101).

그리고, 서비스 제공 장치(100)는, 상기 베이스 얼굴 이미지에, 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성 처리를 수행한다(S103).

이후, 서비스 제공 장치(100)는, 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 기반 이미지 복원 알고리즘 처리를 수행한다.

그리고, 서비스 제공 장치(100)는, 이미지 복원 알고리즘 처리된 이미지로부터, 가상 인물용 얼굴 이미지를 추출한다.

이후, 서비스 제공 장치(100)는, 추출된 가상 인물용 얼굴 이미지를 이용하여, 가상 인물 영상 콘텐츠를 생성 및 제공한다.

여기서, 상기 가상 인물 영상 콘텐츠는, 상기 가상 인물용 얼굴 이미지를 이용한 얼굴 합성 변환 영상 콘텐츠일 수 있다. 서비스 제공부(160)는 복원 프로세스에 의해 선명해진 컬러 얼굴 이미지를 활용하여 움직이는 영상으로 만드는 처리를 수행할 수 있다.

예를 들어, 서비스 제공부(160)는 알려진 First Order Model(FOM) 방식을 이용하여 가상 인물용 얼굴 이미지를 영상 데이터 공급 단말(300)로부터 수집된 영상의 얼굴 이미지로 변환 할 수 있다.

또한, 알려진 PC-AVS 방식을 이용하면 가상 얼굴 이미지에 대응하는 영상 데이터 공급 단말(300)의 포즈 영상, 말하는 영상과의 합성에 의해, 상기 가상 얼굴 이미지가 포즈 영상에서 말하는 영상의 입모양을 적용한 가상 인물 영상 콘텐츠가 생성될 수도 있다.

다만, 전술한 FOM, PC-AVS 방식들은 입력 이미지의 크기가 제한적이므로, 서비스 제공부(160)는 FOM 또는 PC-AVS 방식의 제한된 크기에 맞게 상기 가상 얼굴 이미지를 리사이징 처리할 수 있다.

도 4 내지 도 5는 본 발명의 실시 예에 따른 노이즈 부가 형성 방식들을 설명하기 위한 예시도이다.

도 4 및 도 5를 참조하면, 본 발명의 실시 예에 따른 노이즈 부가 형성부(130)는, 학습 기반 이미지 복원 알고리즘 처리부(140)에서의 복원 프로세스를 고려하여, 가상 인물 이미지가 생성될 수 있도록 베이스 이미지를 역으로 저품질의 이미지로 변환 처리하거나, 부분 영역에 다른 이미지 패턴을 부가하는 등의 노이즈 부가를 수행할 수 있다.

예를 들어, 도 4에 도시된 바와 같이, 좌측의 원본 베이스 얼굴 이미지는, 노이즈 부가 형성부(130)에 의해 우측의 노이즈가 부가된 이미지로 변환될 수 있다. 즉, 노이즈 부가 형성부(130)는 원본 베이스 이미지에 의도적인 손상을 부가하여, 학습 기반 이미지 복원 알고리즘 처리부(140)에서 노이즈 부분을 뚜렷하게 만드는 작업을 수행하게 하는 것이다.

또한, 사용자는 원하는 위치나 영역별 노이즈를 다르게 부가할 수 있는 바, 예를 들어 눈이나 코만을 수정하기 위해 눈이나 코 영역에 노이즈를 추가하는 입력을 노이즈 부가 형성부(130)에 요청할 수 있다.

도 4에 도시된 바와 같이, 대표적인 노이즈는 블러나 화질 열화를 부가하는 가우시안 노이즈(Gaussian noise), 솔트 앤 페퍼 노이즈(salt and pepper noise) 등이 예시될 수 있으며, 이미지 영역을 제거하는 방식(투명, 백색 또는 검정색 변환)의 노이즈 부가도 가능할 수 있다.

또한, 도 5에서는 전술한 얼굴 세그먼트 기반의 이미지 영역 선택 과정을 도시한 것으로, 얼굴 세그먼트로 분류된 이미지 영역 중 적어도 하나가 선택되어 변환되거나 제거될 수 있다.

이외에도 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함하는 노이즈 부가 필터링이 수행될 수 있다. 또한, 상기 필터 적용을 위한 마스크 영역이 상기 베이스 얼굴 이미지의 전체 또는 일부에 설정될 수 있다. 마스크의 크기가 커질수록 필터링된 이미지들의 열화 범위가 넓어질 수 있고, 컨볼루션 연산량이 높아질 수 있다.

이렇게 제거되거나 필터링에 의해 열화된 노이즈 부가 베이스 얼굴 이미지가 입력되면, 학습 기반 이미지 복원 알고리즘 처리부(140)에서는, 저장부(170)에서 사전 구축된 데이터베이스에 저장된 영상 이미지 중 얼굴 이미지가 가장 유사한 영상 이미지를 선택하고, 선택된 영상 이미지에 기초한 예측 기반의 이미지 복원을 처리할 수 있다. 여기서, 학습 기반 이미지 복원 알고리즘 처리부(140)는, 데이터베이스상의 유사 영상 이미지 선택을 위해, SSIM, MSE, Mahalanobis 거리 등을 사용한 유사도 연산을 더 수행할 수 있다.

상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체에 있어서,
사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하여 상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스 및 상기 제1 색상으로 변경된 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하여, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 수행하는 노이즈 부가 형성을 처리하는 기능;
상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 기능;
상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 기능; 및
상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 기능을 포함하는
기록매체.
제1항에 있어서,
상기 사전 설정된 필터는, 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함하는
기록매체.
제1항에 있어서,
상기 이미지 복원 알고리즘 처리를 수행하는 기능은,
별도의 추가 정보 없이 저품질의 얼굴 이미지를 고품질의 얼굴 이미지로 복원하는 알고리즘 모델이 사전 학습된 이미지 복원용 인공 신경망에, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 적용하는
기록매체.
제3항에 있어서,
상기 이미지 복원용 인공 신경망은, 이미지의 해상도, 노이즈, 블러, 압축 아티팩트, 색상 중 적어도 하나의 품질을 향상시키도록, 저품질 이미지에 대응하는 고품질 복원 이미지가 사전 딥러닝된 하나 이상의 생성적 적대 신경망을 포함하는
기록매체.