KR20230086991A - A method and a device for generating face image of virtual person using image restoration algorithm - Google Patents

A method and a device for generating face image of virtual person using image restoration algorithm Download PDF

Info

Publication number
KR20230086991A
KR20230086991A KR1020210175528A KR20210175528A KR20230086991A KR 20230086991 A KR20230086991 A KR 20230086991A KR 1020210175528 A KR1020210175528 A KR 1020210175528A KR 20210175528 A KR20210175528 A KR 20210175528A KR 20230086991 A KR20230086991 A KR 20230086991A
Authority
KR
South Korea
Prior art keywords
image
face image
noise
base face
preset
Prior art date
Application number
KR1020210175528A
Other languages
Korean (ko)
Inventor
이진호
Original Assignee
펄스나인 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 펄스나인 주식회사 filed Critical 펄스나인 주식회사
Priority to KR1020210175528A priority Critical patent/KR20230086991A/en
Publication of KR20230086991A publication Critical patent/KR20230086991A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Architecture (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

A method of operating a service providing device according to an embodiment of the present invention includes the steps of: obtaining a base face image corresponding to a user input; processing noise addition formation according to one or more preset noise addition processes to the base face image; performing image restoration processing based on a learning algorithm using the base face image to which noise is added; extracting a face image for a virtual person from the restored image; and providing virtual character content including the face image for the virtual character to a user terminal.

Description

이미지 복원 알고리즘을 이용한 얼굴 이미지 생성 방법 및 그 장치{A method and a device for generating face image of virtual person using image restoration algorithm}A method and a device for generating face image of virtual person using image restoration algorithm

본 발명은 이미지 생성 방법 및 그 장치에 관한 것이다. 보다 구체적으로, 본 발명은 이미지 복원 알고리즘을 이용한 얼굴 이미지 생성 방법 및 그 장치에 관한 것이다.The present invention relates to an image generating method and an apparatus therefor. More specifically, the present invention relates to a method and apparatus for generating a face image using an image restoration algorithm.

일반적으로 카메라 등으로부터 획득한 얼굴 영상에서 가상 얼굴을 생성하는 예로서, 단순한 컴퓨터 그래픽 기술에 의존한 이미지 모자이크(mosaic) 기법이나 이미지 와핑(warping) 기법 등을 이용해서 얼굴 영상을 성형하는 방법이 있다.In general, as an example of generating a virtual face from a face image obtained from a camera, etc., there is a method of shaping a face image using an image mosaic technique or an image warping technique based on simple computer graphics technology. .

상기 이미지 모자이크 기법은 전체 이미지에 두 개 또는 그 이상의 이미지를 결합하여 변형된 이미지를 얻는 기법이고, 상기 이미지 와핑 기법은 왜곡필터(distortion filter) 등에 수학식을 적용하여 이미지를 왜곡시킴으로써 이미지의 픽셀(pixel)들이 새로운 위치 값을 갖도록 변형시키는 기법이다.The image mosaic technique is a technique of obtaining a deformed image by combining two or more images with an entire image, and the image warping technique distorts the image by applying a mathematical equation to a distortion filter, etc. It is a technique that transforms pixels to have new position values.

예컨대, 대한민국 공개특허 제2003-0064711호(공개일; 2003.08.02)에 따른 얼굴인식을 이용한 얼굴 성형방법은, 사용자가 유무선 통신단말기를 통해 얼굴 성형 서버에 접속하여 얼굴 실사 사진을 전송하게 되면, 상기 유무선 통신단말기에 탑재(embedded)된 얼굴 인식 장치를 통해 상기 사용자의 얼굴을 인증하여 사용자 얼굴 성형 DB에 임시로 저장하고, 키보드 또는 마우스 버튼을 사용하여 상기 얼굴 영상에 대해 성형할 얼굴 부위를 선택하게 되면, 이미지 워핑 기법을 이용하여 각 얼굴 부위를 성형하여 저장하거나 출력 또는 전송할 수 있도록 한 것이다.For example, in the face shaping method using face recognition according to Korean Patent Publication No. 2003-0064711 (published date: 2003.08.02), when a user connects to a face shaping server through a wired/wireless communication terminal and transmits a real-life face photo, The user's face is authenticated through a face recognition device embedded in the wired/wireless communication terminal, temporarily stored in a user face shaping DB, and a facial part to be shaped is selected from the face image using a keyboard or mouse button. When this is done, each face part is molded using an image warping technique so that it can be stored, output, or transmitted.

하지만, 이미지 모자이크 기법이나 이미지 워핑 기법 등을 통해 얻어진 가상 성형 얼굴은 성형된 얼굴 부위가 전체 얼굴 영상의 크기와 명암에 있어서 조화롭지 못하기 때문에 별도의 수작업이 필요하고, 시간이 오래 소요되는 문제점이 있다.However, the virtual molded face obtained through the image mosaic technique or the image warping technique requires separate manual work and takes a long time because the molded face part is not harmonious in the size and contrast of the entire face image. .

이를 해결하기 위해, 최근에는 GAN(생성적 적대 신경망)과 같은 인공지능 학습 알고리즘을 이용하여, 현실과 유사한 형태의 가상 얼굴 이미지를 자동적으로 대량으로 생성하는 알고리즘 등이 제안되고 있다.In order to solve this problem, recently, an algorithm for automatically generating a large amount of virtual face images similar to reality using an artificial intelligence learning algorithm such as a generative adversarial network (GAN) has been proposed.

그러나, 인공지능 학습 알고리즘의 경우, 딥러닝을 기반으로 수행되는 얼굴 이미지 데이터에 대한 대량의 학습과정이 요구되며, 그 인공지능 프로세스에 대한 개별 제어가 불가능하고 무작위성이 높으므로, 콘텐츠 제작자나 사용자가 정말로 원하는 형태나 인물의 특성을 정확하게 반영한 가상 인물의 얼굴 이미지를 획득하기에는 어려움이 있는 문제점이 있다.However, in the case of artificial intelligence learning algorithms, a large amount of learning process on face image data based on deep learning is required, and individual control of the artificial intelligence process is impossible and random is high, so content creators or users There is a problem in that it is difficult to obtain a face image of a virtual person that accurately reflects a desired shape or character.

이에 따라, 현재는 인공지능을 기반으로 랜덤하게 생성된 가상의 얼굴 이미지를 다시 수작업을 통해 성형하는 등의 혼합 방식 등이 사용되고 있는 실정이다.Accordingly, a mixed method such as manually shaping a virtual face image randomly generated based on artificial intelligence is currently being used.

본 발명은 상기한 바와 같은 문제점들을 해결하고자 안출된 것으로, 이미지 복원에 이용되는 이미지 복원 알고리즘을 역으로 활용하여, 사용자가 원하는 형태의 베이스 얼굴 이미지와 유사한 가상 인물 이미지들을 다양한 방식의 노이즈 부가를 이용해 효율적으로 생성할 수 있으며, 이에 기초한 가상 인물 기반의 영상 콘텐츠를 쉽고 빠르게 제작할 수 있는 이미지 복원 알고리즘을 이용한 얼굴 이미지 생성 방법 및 그 장치를 제공하는 데 그 목적이 있다.The present invention has been made to solve the above problems, and reversely utilizes an image restoration algorithm used for image restoration, and uses various methods of adding noise to virtual character images similar to a base face image of a form desired by a user. An object of the present invention is to provide a method and apparatus for generating a face image using an image restoration algorithm that can be efficiently generated and easily and quickly produce video content based on a virtual person based thereon.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 서비스 제공 장치의 동작 방법에 있어서, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하는 단계; 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하는 단계; 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 단계; 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 단계; 및 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 단계를 포함한다.A method according to an embodiment of the present invention for solving the above problems is a method of operating a service providing apparatus, comprising: acquiring a base face image corresponding to a user input; processing noise addition formation according to one or more preset noise addition processes to the base face image; performing an image restoration process based on a learning algorithm using the base face image in which the noise is added; extracting a face image for a virtual person from the restored image; and providing virtual character contents including the face image for the virtual person to a user terminal.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 서비스 제공 장치에 있어서, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하는 베이스 얼굴 이미지 처리부; 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하는 노이즈 부가 형성부; 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 이미지 복원 알고리즘 처리부; 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 얼굴 이미지 생성부; 및 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 서비스 제공부를 포함한다.An apparatus according to an embodiment of the present invention for solving the above problem is a service providing apparatus, comprising: a base face image processing unit obtaining a base face image corresponding to a user input; a noise addition forming unit processing noise addition formation according to one or more preset noise addition processes to the base face image; an image restoration algorithm processing unit that performs an image restoration process based on a learning algorithm using the base face image in which the noise is added; a face image generating unit extracting a face image for a virtual person from the restored image; and a service providing unit providing virtual character contents including the face image for the virtual person to a user terminal.

한편, 상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은 상기 방법을 실행시키기 위한 프로그램 또는 상기 프로그램이 기록되어 컴퓨터가 읽을 수 있는 기록 매체로 구현될 수 있다.On the other hand, the method according to the embodiment of the present invention for solving the above problems can be implemented as a program for executing the method or a computer-readable recording medium in which the program is recorded.

본 발명의 실시 예에 따르면, 사용자 입력에 대응하는 베이스 얼굴 이미지가 입력되면, 상기 베이스 얼굴 이미지에 사전 설정된 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행함에 따라, 가상 인물용 얼굴 이미지를 추출할 수 있다.According to an embodiment of the present invention, when a base face image corresponding to a user input is input, an image restoration process based on a learning algorithm is performed using a base face image in which a preset noise is added to the base face image. A face image for a virtual person can be extracted.

이에 따라, 본 발명은 이미지 복원에 이용되는 이미지 복원 알고리즘을 역으로 활용하여, 사용자가 원하는 형태의 베이스 얼굴 이미지와 유사한 가상 인물 이미지들을 다양한 방식의 노이즈 부가를 이용해 효율적으로 생성할 수 있으며, 이에 기초한 가상 인물 기반의 영상 콘텐츠를 쉽고 빠르게 제작할 수 있는 이미지 복원 알고리즘을 이용한 얼굴 이미지 생성 방법 및 그 장치를 제공할 수 있다.Accordingly, the present invention reversely utilizes the image restoration algorithm used for image restoration to efficiently generate virtual character images similar to the base face image in a form desired by the user by adding noise in various ways, based on this It is possible to provide a face image generation method and apparatus using an image restoration algorithm capable of easily and quickly producing video content based on a virtual person.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 설명하기 위한 블록도이다.
도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4 내지 도 5는 본 발명의 실시 예에 따른 노이즈 부가 형성 방식들을 설명하기 위한 예시도이다.
1 is a conceptual diagram schematically illustrating an entire system according to an embodiment of the present invention.
2 is a block diagram for explaining a service providing device according to an embodiment of the present invention in more detail.
3 is a flowchart illustrating an operating method of a service providing apparatus according to an embodiment of the present invention.
4 and 5 are exemplary diagrams for explaining methods for forming noise additions according to an embodiment of the present invention.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치와 방법을 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.The following merely illustrates the principles of the present invention. Therefore, those skilled in the art can invent various devices and methods that embody the principles of the present invention and fall within the concept and scope of the present invention, even though not explicitly described or illustrated herein. In addition, all conditional terms and embodiments listed in this specification are, in principle, expressly intended only for the purpose of understanding the concept of the present invention, and should be understood not to be limited to such specifically listed embodiments and conditions. do.

또한, 본 발명의 원리, 관점 및 실시 예들 뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.In addition, it should be understood that all detailed descriptions reciting specific embodiments, as well as principles, aspects and embodiments of the present invention, are intended to encompass structural and functional equivalents of these matters. In addition, it should be understood that such equivalents include not only currently known equivalents but also equivalents developed in the future, that is, all devices invented to perform the same function regardless of structure.

따라서, 예를 들어, 본 명세서의 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.Thus, for example, the block diagrams herein should be understood to represent conceptual views of illustrative circuits embodying the principles of the present invention. Similarly, all flowcharts, state transition diagrams, pseudo code, etc., are meant to be tangibly represented on computer readable media and represent various processes performed by a computer or processor, whether or not the computer or processor is explicitly depicted. It should be.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니 되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.In addition, the explicit use of terms presented as processor, control, or similar concepts should not be construed as exclusively citing hardware capable of executing software, and without limitation, digital signal processor (DSP) hardware, ROM for storing software (ROM), random access memory (RAM) and non-volatile memory. Other hardware for the governor's use may also be included.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 실시함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.The above objects, features and advantages will become more apparent through the following detailed description in conjunction with the accompanying drawings, and accordingly, those skilled in the art to which the present invention belongs can easily implement the technical idea of the present invention. There will be. In addition, in carrying out the present invention, if it is determined that the detailed description of the known technology related to the present invention may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in this application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this application, the terms "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시 예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, with reference to the accompanying drawings, preferred embodiments of the present invention will be described in more detail. In order to facilitate overall understanding in the description of the present invention, the same reference numerals are used for the same components in the drawings, and redundant descriptions of the same components are omitted.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.1 is a conceptual diagram schematically illustrating an entire system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 시스템은 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)을 포함할 수 있다.Referring to FIG. 1 , a system according to an embodiment of the present invention may include a service providing device 100 , a user terminal 200 , and an image data supply terminal 300 .

보다 구체적으로, 서비스 제공 장치(100)와 사용자 단말(200), 영상 데이터 공급 단말(300)은 공중망(Public network)과의 연결을 통해 유선 및 무선 중 하나 이상으로 연결되어 데이터를 송수신할 수 있다. 상기 공중망은 국가 혹은 통신 기간 사업자가 구축 및 관리하는 통신망으로, 일반적으로 전화망, 데이터망, CATV망 및 이동 통신망 등을 포함하여 불특정 다수의 일반인이 타 통신망이나 인터넷에 접속 가능하도록 연결 서비스를 제공한다. 본 발명에서는 상기 공중망을 네트워크로 대체하여 표기한다.More specifically, the service providing device 100, the user terminal 200, and the video data supply terminal 300 may be connected to one or more of wired and wireless through a connection to a public network to transmit and receive data. . The public network is a communication network established and managed by the state or telecommunications infrastructure operators, and provides connection services so that an unspecified number of ordinary people can access other communication networks or the Internet, including generally telephone networks, data networks, CATV networks, and mobile communication networks. . In the present invention, the public network is replaced with a network.

또한, 서비스 제공 장치(100)는 사용자 단말(200), 영상 데이터 공급 단말(300)과 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.In addition, the service providing device 100 may include each communication module for communicating with the user terminal 200 and the image data supply terminal 300 using a protocol corresponding to each communication network.

그리고, 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신되는 사용자 입력에 따른 베이스 얼굴 이미지를 획득하면, 상기 베이스 얼굴 이미지에 대응하는 가상 인물용 얼굴 이미지를 생성하고, 생성된 가상 인물용 얼굴 이미지를 사용자 단말(200)로 제공할 수 있다.Further, when obtaining a base face image according to a user input received from the user terminal 200, the service providing apparatus 100 generates a face image for a virtual person corresponding to the base face image, and creates a face for the virtual person. Images may be provided to the user terminal 200 .

또한, 서비스 제공 장치(100)는, 가상 인물용 얼굴 이미지를 이용하여, 영상 데이터 공급 단말(300)로부터 수신되는 영상 콘텐츠와 합성된 가상 인물 영상 콘텐츠를 사용자 단말(200)로 제공할 수도 있다.In addition, the service providing apparatus 100 may provide the user terminal 200 with the video content synthesized with the video content received from the video data supply terminal 300 by using the face image for the virtual person.

특히, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하고, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하며, 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하여, 상기 가상 인물용 얼굴 이미지 또는 이를 포함하는 가상 인물 콘텐츠를 사용자 단말(200)로 제공할 수 있다.In particular, the service providing apparatus 100 according to an embodiment of the present invention processes noise addition formation according to one or more preset noise addition processes to the base face image, and uses the base face image to which the noise addition is formed to perform learning. An algorithm-based image restoration process may be performed, and a face image for a virtual person may be extracted from the restored image, and the face image for a virtual person or virtual character content including the face image may be provided to the user terminal 200 .

그리고, 사용자 단말(200)은 사용자 입력에 따른 베이스 얼굴 이미지를 입력받거나, 베이스 얼굴 이미지 획득을 위한 키워드 정보 또는 유사 이미지 정보를 입력받아 서비스 제공 장치(100)로 전송할 수 있으며, 상기 가상 인물용 얼굴 이미지 또는 이를 포함하는 가상 인물 콘텐츠를 상기 서비스 제공 장치(100)로부터 수신하여 출력할 수 있다.In addition, the user terminal 200 may receive a base face image according to a user input or receive keyword information or similar image information for obtaining a base face image and transmit the same to the service providing device 100, and the face for the virtual person. An image or virtual character content including the image may be received from the service providing device 100 and output.

한편, 영상 데이터 공급 단말(300)은 가상 인물 콘텐츠 생성을 위한 소스 영상 데이터를 상기 서비스 제공 장치(100)에 제공할 수 있다.Meanwhile, the image data supply terminal 300 may provide source image data for generating virtual character content to the service providing device 100 .

그리고, 서비스 제공 장치(100)는 서비스 제공을 위하여 사용자 단말(200), 영상 데이터 공급 단말(300)과 유선/무선 네트워크를 통해 연결될 수 있다. 상기 네트워크에 연결된 장치 또는 단말은 사전 설정된 네트워크 채널을 통해 상호간 통신을 수행할 수 있다.In addition, the service providing device 100 may be connected to the user terminal 200 and the video data supply terminal 300 through a wired/wireless network to provide the service. Devices or terminals connected to the network may communicate with each other through a preset network channel.

여기서 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(Mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.Here, the network includes a local area network (LAN), a wide area network (WAN), a value added network (VAN), a personal area network (PAN), and a mobile communication network (Mobile). It can be implemented in all types of wired/wireless networks such as radio communication networks) or satellite communication networks.

그리고 본 명세서에서 설명되는 사용자 단말(200) 또는 영상 데이터 공급 단말(300)은 PC(personal computer), 노트북 컴퓨터(laptop computer), 휴대폰(Mobile phone), 태블릿 PC(Tablet PC), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등이 포함될 수 있다.And the user terminal 200 or the image data supply terminal 300 described in this specification is a PC (personal computer), a laptop computer (laptop computer), a mobile phone (Mobile phone), a tablet PC (Tablet PC), a PDA (Personal Digital Assistants), PMP (Portable Multimedia Player), and the like may be included.

또한 서비스 제공 장치(100), 사용자 단말(200), 영상 데이터 공급 단말(300)은 상기 장치 구분에 한정되지 않고 데이터 처리 및 저장, 관리 기능을 고도화하여 확장할 수 있는 서버 시스템 관련 장치를 포함할 수 있다. In addition, the service providing device 100, the user terminal 200, and the video data supply terminal 300 are not limited to the above device classification and may include a server system-related device that can enhance and expand data processing, storage, and management functions. can

도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 설명하기 위한 블록도이다.2 is a block diagram illustrating a service providing apparatus according to an embodiment of the present invention in more detail.

도 2를 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 통신부(120), 베이스 얼굴 이미지 처리부(125), 노이즈 부가 형성부(130), 학습 기반 이미지 복원 알고리즘 처리부(140), 얼굴 이미지 생성부(150), 서비스 제공부(160) 및 저장부(170)를 포함한다.Referring to FIG. 2 , the service providing apparatus 100 according to an embodiment of the present invention includes a communication unit 120, a base face image processing unit 125, a noise addition forming unit 130, and a learning-based image restoration algorithm processing unit 140. ), a face image generating unit 150, a service providing unit 160, and a storage unit 170.

베이스 얼굴 이미지 처리부(125)는, 사용자 입력에 대응하는 베이스 얼굴 이미지를 획득한다.The base face image processing unit 125 obtains a base face image corresponding to a user input.

베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 베이스 얼굴 이미지를 직접 획득할 수 있다. 또한, 베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 키워드 정보에 따른 베이스 얼굴 이미지를 색인하여 획득할 수 있다. 그리고, 베이스 얼굴 이미지 처리부(125)는, 사용자 단말(200)로부터 수신되는 유사 이미지 정보에 기초한 베이스 얼굴 이미지를 이미지 간 얼굴 유사도 분석에 따라 색인하여 획득할 수도 있다.The base face image processing unit 125 may directly obtain a base face image received from the user terminal 200 . Also, the base face image processing unit 125 may index and obtain a base face image according to keyword information received from the user terminal 200 . Also, the base face image processing unit 125 may index and obtain a base face image based on similarity image information received from the user terminal 200 according to face similarity analysis between images.

그리고, 베이스 얼굴 이미지 처리부(125)는, 이미지 인식 기술, 이미지 분석 기술, 이미지 유사도 판단 기술, 이미지 매칭 기술 등으로 공지된 기술 또는 관련 분야로 개발되는 기술을 활용하여, 상기 베이스 얼굴 이미지 정보를 획득할 수 있다. 베이스 얼굴 이미지 처리부(125)는, 안면 및 이미지 인식 기술을 이용하는 응용 프로그램 또는 알고리즘을 활용하여 얼굴 이미지 부분을 분리 인식할 수 있다.In addition, the base face image processing unit 125 obtains the base face image information by using known technologies such as image recognition technology, image analysis technology, image similarity determination technology, and image matching technology or technologies developed in related fields. can do. The base face image processing unit 125 may separate and recognize a face image part by utilizing an application program or an algorithm using face and image recognition technology.

예를 들어, 베이스 얼굴 이미지 처리부(125)에서 얼굴 이미지를 식별하고 분석하는 기술은 Microsoft Computer Vision, Kairos Face Recognition, Animetrics Face Recognition, Lambda Labs Face Recognition, Luxand.cloud Face Recognition, EyeRecognize Face Detection, Face++ Face Detection, Macgyver Face Recognition, BetaFace Face Recognition, Amazon (AWS) Rekognition, Trueface.ai Facial Recognition, IBM Watson's Visual Recognition, ColorTag, Everypixel Image Recognition, Eyeris EmoVu, Inferdo Face Detection 등을 이용할 수 있다.For example, technologies for identifying and analyzing face images in the base face image processor 125 include Microsoft Computer Vision, Kairos Face Recognition, Animetrics Face Recognition, Lambda Labs Face Recognition, Luxand.cloud Face Recognition, EyeRecognize Face Detection, and Face++ Face. Detection, Macgyver Face Recognition, BetaFace Face Recognition, Amazon (AWS) Rekognition, Trueface.ai Facial Recognition, IBM Watson's Visual Recognition, ColorTag, Everypixel Image Recognition, Eyeris EmoVu, Inferdo Face Detection, and more.

한편, 노이즈 부가 형성부(130)는, 상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리한다.Meanwhile, the noise addition forming unit 130 processes noise addition formation according to one or more preset noise addition processes in the base face image.

여기서, 상기 노이즈 부가 형성부(130)는, 학습 기반 이미지 복원 알고리즘 처리부(140)에서 인공신경망 기반으로 예측 복원될 수 있는 정도의 사전 설정된 노이즈를 상기 베이스 얼굴 이미지에 부가할 수 있다. 이에 따라, 베이스 얼굴 이미지에는 사전 설정된 다양한 노이즈 부가 프로세스에 따라, 노이즈 정보가 부가 형성될 수 있다.Here, the noise addition forming unit 130 may add a predetermined level of noise to the base face image that can be predicted and restored by the learning-based image restoration algorithm processing unit 140 based on the artificial neural network. Accordingly, noise information may be added to the base face image according to various preset noise adding processes.

여기서, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스를 포함할 수 있다.Here, the one or more noise adding processes may include a random color conversion process of changing one or more pixel pairs selected from the base face image to a preset first color.

예를 들어, 랜덤 색상 변환 프로세스는 이미지의 픽셀 사이즈를 기준으로 하여 특정 픽셀의 색상을 변환하는 프로세스를 포함할 수 있다. 만약 베이스 이미지의 픽처 사이즈가 가로 1080 픽셀 x 세로 720 픽셀인 경우, 노이즈 부가 형성부(130)는 가로 0 ~ 1079 에서 N 개의 정수를 랜덤하게 선택하고, 세로 0 ~ 719에서 M 개의 정수를 랜덤하게 선택한 후, 두 정수를 X 좌표 및 Y 좌표 쌍으로 하는 (X, Y) 좌표의 픽셀들 각각의 색상을 사전 설정된 검정색 색상(RGB 기준 255 값) 등으로 변환하거나, 흰색 색상으로 변환하거나, 녹색 색상으로 변환하거나, 투명 색상을 부여하는 등의 랜덤 색상 변환 프로세스를 수행할 수 있다.For example, the random color conversion process may include a process of converting the color of a specific pixel based on the pixel size of the image. If the picture size of the base image is 1080 pixels wide x 720 pixels long, the noise adding unit 130 randomly selects N integers from 0 to 1079 horizontally and randomly selects M integers from 0 to 719 vertically. After selection, each color of the pixels of (X, Y) coordinates, which is a pair of X coordinates and Y coordinates of two integers, is converted to a preset black color (RGB standard 255 value), etc., to white color, or to green color It is possible to perform a random color conversion process, such as converting to , or giving a transparent color.

예를 들어, N = 2 인 경우 노이즈 부가 형성부(130)는 123, 777 좌표를 선택하고, M = 3 인 경우 4, 36, 612 가 선택되었다면, 노이즈 부가 형성부(130)는, (123,4), (123,36), (123,612), (777, 4), (777,36), (777,612) 좌표의 각 픽셀들을 기존 이미지에서 제거하거나, 검정색으로 변환할 수 있다. For example, when N = 2, the noise addition forming unit 130 selects 123, 777 coordinates, and when M = 3, if 4, 36, and 612 are selected, the noise addition forming unit 130 selects (123 ,4), (123,36), (123,612), (777, 4), (777,36), (777,612) pixels can be removed from the existing image or converted to black.

또한, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지에 대응하는 사용자 입력에 따라 결정된 부분 영역에, 사전 설정된 패턴 이미지를 부가 형성하는 패턴 이미지 부가 프로세스를 포함할 수 있다.The one or more noise adding processes may include a pattern image adding process of additionally forming a preset pattern image in a partial area determined according to a user input corresponding to the base face image.

예를 들어, 노이즈 부가 형성부(130)는, 사용자 단말(200)로부터 입력된 사용자 패턴에 따른 부분 영역을 생성하고, 상기 생성된 부분 영역을 특정 색상 또는 이미지 패턴으로 마스킹하는 패턴 이미지 부가 프로세스를 수행할 수 있다. 사용자는 예를 들어, 마우스나 터치 펜 등으로 원하는 영역을 직사각형 영역, 원 영역 등으로 지정할 수 있으며, 노이즈 부가 형성부(130)는 상기 지정된 영역에 백색이나 투명색 또는 검정색 등의 색상 패턴이나 음영, 모자이크 등의 이미지 패턴을 부가할 수 있다.For example, the noise adding forming unit 130 performs a pattern image adding process of generating a partial area according to a user pattern input from the user terminal 200 and masking the generated partial area with a specific color or image pattern. can be done The user may designate a desired area as a rectangular area, a circular area, etc., for example, with a mouse or a touch pen, and the noise adding unit 130 may use a color pattern or shade, such as white, transparent, or black, in the designated area. Image patterns such as mosaics can be added.

또한, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하고, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 포함할 수 있다.In addition, the one or more noise adding processes include a face segment noise adding process of extracting a plurality of face segment areas from the base face image and adding noise to one or more preset face segment areas among the plurality of face segment areas. can do.

여기서, 상기 얼굴 세그먼트 영역 추출 프로세스는 얼굴의 다양한 부위를 점으로 추출하는 작업과, 상기 점들간의 관계 분석에 따라, 눈 영역, 코 영역, 입 영역, 눈썹 영역, 얼굴 윤곽 영역 등의 세그먼트 영역들을 분석하는 프로세스를 포함할 수 있다. 노이즈 부가 형성부(130)는, 이에 따라 분석된 각 얼굴 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 백색이나 투명색 또는 검정색 등의 색상 패턴이나 음영, 모자이크 등의 이미지 패턴을 부가할 수 있다.Here, the face segment region extraction process extracts various parts of the face as points, and segment regions such as the eye region, the nose region, the mouth region, the eyebrow region, and the facial contour region are analyzed according to the operation of extracting various parts of the face as points and analyzing the relationship between the points. The analysis process may include The noise adding unit 130 may add color patterns, such as white, transparent, or black, or image patterns, such as shading and mosaic, to one or more predetermined face segment regions among the analyzed face regions.

한편, 상기 하나 이상의 노이즈 추가 프로세스는, 상기 베이스 얼굴 이미지 전체 또는 일부에 대응하여, 사전 설정된 필터를 적용하는 필터 부가 프로세스를 포함할 수 있다.Meanwhile, the one or more noise adding processes may include a filter adding process of applying a preset filter corresponding to all or part of the base face image.

여기서, 상기 사전 설정된 필터는, 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함할 수 있으며, 상기 베이스 얼굴 이미지는 설정에 따라 전체가 필터링되거나, 사용자 단말(200)에 의해 선택된 일부분만 필터링 처리될 수 있다.Here, the preset filter may include at least one of a Gaussian filter, an average filter, a masking filter, and a blur filter, and the entire base face image is filtered according to settings, or a portion selected by the user terminal 200 can only be filtered.

한편, 학습 기반 이미지 복원 알고리즘 처리부(140)에서는 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행한다.Meanwhile, the learning-based image restoration algorithm processing unit 140 performs image restoration based on a learning algorithm using the base face image in which the noise is added.

상기 학습 기반 이미지 복원 알고리즘 처리부(140)는, 별도의 추가 정보 없이 저품질의 얼굴 이미지를 고품질의 얼굴 이미지로 복원하는 알고리즘 모델이 사전 학습된 이미지 복원용 인공 신경망에, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 적용하여, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 고품질의 이미지로 복원 처리할 수 있다.The learning-based image restoration algorithm processing unit 140, without additional information, restores a low-quality face image to a high-quality face image in an artificial neural network for image restoration, in which an algorithm model for restoring a high-quality face image is pre-learned, and the base face image to which the noise is added. By applying, it is possible to restore the base face image in which the noise is formed into a high-quality image.

여기서, 상기 이미지 복원용 인공 신경망은, 이미지의 해상도, 노이즈, 블러, 압축 아티팩트, 색상 중 적어도 하나의 품질을 향상시키도록, 저품질 이미지에 대응하는 고품질 복원 이미지가 사전 딥러닝된 하나 이상의 생성적 적대 신경망을 포함할 수 있다.Here, the artificial neural network for image reconstruction includes one or more generative hostiles in which a high-quality reconstructed image corresponding to a low-quality image is pre-deep-learned to improve the quality of at least one of image resolution, noise, blur, compression artifact, and color. may include neural networks.

보다 구체적으로, 예를 들어 상기 학습 기반 이미지 복원 알고리즘 처리부(140)는, 알려진 BRF(blind face restoration) 알고리즘 등을 이용하여, 별도의 추가 정보 없이 예측 기반으로 노이즈 부가 형성된 베이스 얼굴 이미지의 노이즈를 제거하면서 품질을 향상시키는 이미지 복원 처리를 수행할 수 있다. 이러한 BFR 알고리즘에 대하여는 논문 GAN Prior Embedded Network for Blind Face Restoration in the Wild(2021.05.13, Tao Yang 외)를 통해서 보다 구체적으로 확인할 수 있으며, 이외에도 다양한 방식의 생성적 적대 신경망 기반 이미지 복원 알고리즘이 활용될 수 있다.More specifically, for example, the learning-based image restoration algorithm processing unit 140 uses a known blind face restoration (BRF) algorithm, etc., to remove noise of the base face image in which the noise part is formed based on prediction without additional information. Image restoration processing can be performed while improving the quality. This BFR algorithm can be found in more detail through the thesis GAN Prior Embedded Network for Blind Face Restoration in the Wild (2021.05.13, Tao Yang et al.), and various generative adversarial network-based image restoration algorithms will be utilized. can

이러한 노이즈 제거 과정에서, 전술한 색상 변환 영역이나 이미지 패턴 부가 영역 등은 이미지 복원용 인공 신경망의 예측을 기반으로 복원될 수 있으며, 원본 이미지에 대한 정보가 없으므로, 복원된 이미지는 원본 베이스 이미지와는 상이하게 예측될 수 있다. 이러한 예측이 이루어짐에 따라, 원본 베이스 이미지와는 유사하나 실제로는 존재하지 않는 가상 얼굴 이미지가 각각의 노이즈 패턴에 따라 다양하게 생성될 수 있게 된다.In this noise removal process, the above-described color conversion area or image pattern addition area may be restored based on the prediction of the artificial neural network for image restoration, and since there is no information about the original image, the restored image is different from the original base image. may be predicted differently. As these predictions are made, virtual face images that are similar to the original base image but do not actually exist can be generated in various ways according to each noise pattern.

또한, 이러한 노이즈 부가 형성부(130)의 노이즈 추가 프로세스는 사용자가 원하는 방식에 따라 하나 또는 복수 개가 선택적으로 수행될 수 있는 바, 원본 베이스 이미지와 어느 정도 어느 부분이 유사할지 등을 사용자가 미리 의도하여 가상 인물 이미지를 생성시킬 수 있는 효과가 있다.In addition, one or a plurality of noise adding processes of the noise adding forming unit 130 may be selectively performed according to a method desired by the user, and the user intends in advance how much and which part will be similar to the original base image. There is an effect of generating a virtual character image by doing so.

이에 따라, 얼굴 이미지 생성부(150)는, 상기 상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출할 수 있다. 얼굴 이미지 생성부(150)는, 전술한 바와 같은 얼굴 이미지 인식 알고리즘을 이용하여, 복원 처리된 이미지로부터 얼굴 이미지를 추출하여 가상 인물용 얼굴 이미지로서 생성할 수 있다.Accordingly, the face image generator 150 may extract a face image for a virtual person from the restored image. The face image generator 150 may extract a face image from the restored image and generate it as a face image for a virtual person using the face image recognition algorithm as described above.

그리고, 서비스 제공부(160)는, 영상 데이터 공급 단말(300)로부터의 상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말(200)로 제공할 수 있다. 상기 가상 인물 콘텐츠는, 상기 가상 인물용 얼굴 이미지를 직접 포함할 수 있다.In addition, the service providing unit 160 may provide the virtual person content including the face image for the virtual person from the video data supply terminal 300 to the user terminal 200 . The virtual person content may directly include a face image for the virtual person.

또한. 가상 인물 콘텐츠는, 영상 데이터 공급 단말(300)로부터 수신된 영상 콘텐츠와, 상기 가상 인물영 얼굴 이미지가 페이스 스왑 알고리즘에 의해 합성된 합성 영상 콘텐츠를 포함할 수도 있다. 여기서, 상기 페이스 스왑 영상 생성 알고리즘은 DeepFaceLab 알고리즘을 적용하여 얼굴이 변환된 출력 영상 데이터를 생성할 수 있다. 상기 DeepFaceLab 알고리즘은 오픈 소스 딥페이크 영상 생성 기법으로, 소스 영상의 눈, 코, 입 등 얼굴의 특징을 타깃 영상(배경 영상)의 대상 인물 얼굴에 대체하는 페이스 스와핑(Face swapping)을 처리할 수 있다. 참고적으로, 상기 DeepFaceLab 알고리즘은 추출(Extraction), 학습(Training), 전환(Conversion)의 세 가지 단계로 구분하여 요약될 수 있으며, 결과적으로는 변환하고자 하는 얼굴을, 얼굴이 대체될 대상의 얼굴에 적용하여 변환할 수 있다.also. The virtual person content may include video content received from the video data supply terminal 300 and synthesized video content in which the face image of the virtual person is synthesized by a face swap algorithm. Here, the face swap image generation algorithm may generate output image data in which the face is transformed by applying the DeepFaceLab algorithm. The DeepFaceLab algorithm is an open source deepfake image generation technique, and can process face swapping in which facial features such as eyes, nose, and mouth of a source image are replaced with the face of a target person in a target image (background image). . For reference, the DeepFaceLab algorithm can be summarized by dividing it into three stages: extraction, training, and conversion. As a result, the face to be converted is the face of the target to be replaced. can be converted by applying

한편, 저장부(170)는, 서비스 제공 장치(100)의 동작에 필요한 정보 및 데이터베이스를 저장 및 관리하는 하나 이상의 기록 매체를 구비할 수 있다.Meanwhile, the storage unit 170 may include one or more recording media for storing and managing information and a database necessary for the operation of the service providing apparatus 100 .

도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating an operating method of a service providing apparatus according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 베이스 얼굴 이미지를 획득한다(S101).Referring to FIG. 3 , the service providing apparatus 100 according to an embodiment of the present invention acquires a base face image (S101).

그리고, 서비스 제공 장치(100)는, 상기 베이스 얼굴 이미지에, 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성 처리를 수행한다(S103).Then, the service providing apparatus 100 performs a noise adding forming process according to one or more preset noise adding processes on the base face image (S103).

이후, 서비스 제공 장치(100)는, 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 기반 이미지 복원 알고리즘 처리를 수행한다.Thereafter, the service providing apparatus 100 performs a learning-based image restoration algorithm process using the base face image with added noise.

그리고, 서비스 제공 장치(100)는, 이미지 복원 알고리즘 처리된 이미지로부터, 가상 인물용 얼굴 이미지를 추출한다.Then, the service providing apparatus 100 extracts a face image for a virtual person from the image subjected to image restoration algorithm processing.

이후, 서비스 제공 장치(100)는, 추출된 가상 인물용 얼굴 이미지를 이용하여, 가상 인물 영상 콘텐츠를 생성 및 제공한다.Thereafter, the service providing apparatus 100 generates and provides virtual character video content using the extracted face image for the virtual person.

여기서, 상기 가상 인물 영상 콘텐츠는, 상기 가상 인물용 얼굴 이미지를 이용한 얼굴 합성 변환 영상 콘텐츠일 수 있다. 서비스 제공부(160)는 복원 프로세스에 의해 선명해진 컬러 얼굴 이미지를 활용하여 움직이는 영상으로 만드는 처리를 수행할 수 있다.Here, the virtual person image content may be face synthesis conversion image content using the face image for the virtual person. The service providing unit 160 may perform a process of converting a moving image into a moving image by using the color face image sharpened by the restoration process.

예를 들어, 서비스 제공부(160)는 알려진 First Order Model(FOM) 방식을 이용하여 가상 인물용 얼굴 이미지를 영상 데이터 공급 단말(300)로부터 수집된 영상의 얼굴 이미지로 변환 할 수 있다.For example, the service provider 160 may convert a face image for a virtual person into a face image of a video collected from the video data supply terminal 300 using a known First Order Model (FOM) method.

또한, 알려진 PC-AVS 방식을 이용하면 가상 얼굴 이미지에 대응하는 영상 데이터 공급 단말(300)의 포즈 영상, 말하는 영상과의 합성에 의해, 상기 가상 얼굴 이미지가 포즈 영상에서 말하는 영상의 입모양을 적용한 가상 인물 영상 콘텐츠가 생성될 수도 있다.In addition, when the known PC-AVS method is used, the pose image of the image data supply terminal 300 corresponding to the virtual face image and the talking image are synthesized to apply the mouth shape of the talking image to the virtual face image. Virtual person image content may be created.

다만, 전술한 FOM, PC-AVS 방식들은 입력 이미지의 크기가 제한적이므로, 서비스 제공부(160)는 FOM 또는 PC-AVS 방식의 제한된 크기에 맞게 상기 가상 얼굴 이미지를 리사이징 처리할 수 있다.However, since the size of the input image is limited in the aforementioned FOM and PC-AVS methods, the service provider 160 may resize the virtual face image to fit the limited size of the FOM or PC-AVS methods.

도 4 내지 도 5는 본 발명의 실시 예에 따른 노이즈 부가 형성 방식들을 설명하기 위한 예시도이다.4 to 5 are exemplary diagrams for explaining methods for forming noise additions according to an embodiment of the present invention.

도 4 및 도 5를 참조하면, 본 발명의 실시 예에 따른 노이즈 부가 형성부(130)는, 학습 기반 이미지 복원 알고리즘 처리부(140)에서의 복원 프로세스를 고려하여, 가상 인물 이미지가 생성될 수 있도록 베이스 이미지를 역으로 저품질의 이미지로 변환 처리하거나, 부분 영역에 다른 이미지 패턴을 부가하는 등의 노이즈 부가를 수행할 수 있다.Referring to FIGS. 4 and 5 , the noise adding unit 130 according to an embodiment of the present invention considers the restoration process in the learning-based image restoration algorithm processing unit 140 so that a virtual person image can be generated. Noise addition may be performed, such as converting the base image into a low quality image or adding another image pattern to the partial area.

예를 들어, 도 4에 도시된 바와 같이, 좌측의 원본 베이스 얼굴 이미지는, 노이즈 부가 형성부(130)에 의해 우측의 노이즈가 부가된 이미지로 변환될 수 있다. 즉, 노이즈 부가 형성부(130)는 원본 베이스 이미지에 의도적인 손상을 부가하여, 학습 기반 이미지 복원 알고리즘 처리부(140)에서 노이즈 부분을 뚜렷하게 만드는 작업을 수행하게 하는 것이다. For example, as shown in FIG. 4 , the original base face image on the left side may be converted into an image to which noise is added on the right side by the noise adding unit 130 . That is, the noise adding unit 130 adds intentional damage to the original base image so that the learning-based image restoration algorithm processing unit 140 makes the noise part distinct.

또한, 사용자는 원하는 위치나 영역별 노이즈를 다르게 부가할 수 있는 바, 예를 들어 눈이나 코만을 수정하기 위해 눈이나 코 영역에 노이즈를 추가하는 입력을 노이즈 부가 형성부(130)에 요청할 수 있다.In addition, the user may add noise differently for each desired location or region. For example, the noise adding unit 130 may be requested to add noise to the eye or nose region in order to correct only the eyes or nose. .

도 4에 도시된 바와 같이, 대표적인 노이즈는 블러나 화질 열화를 부가하는 가우시안 노이즈(Gaussian noise), 솔트 앤 페퍼 노이즈(salt and pepper noise) 등이 예시될 수 있으며, 이미지 영역을 제거하는 방식(투명, 백색 또는 검정색 변환)의 노이즈 부가도 가능할 수 있다.As shown in FIG. 4, representative noise may include Gaussian noise, salt and pepper noise, etc. that add blur or image quality degradation, and a method of removing an image area (transparent , white or black conversion) may also be possible.

또한, 도 5에서는 전술한 얼굴 세그먼트 기반의 이미지 영역 선택 과정을 도시한 것으로, 얼굴 세그먼트로 분류된 이미지 영역 중 적어도 하나가 선택되어 변환되거나 제거될 수 있다.In addition, FIG. 5 illustrates the process of selecting an image region based on the face segment, and at least one of the image regions classified as face segments may be selected and converted or removed.

이외에도 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함하는 노이즈 부가 필터링이 수행될 수 있다. 또한, 상기 필터 적용을 위한 마스크 영역이 상기 베이스 얼굴 이미지의 전체 또는 일부에 설정될 수 있다. 마스크의 크기가 커질수록 필터링된 이미지들의 열화 범위가 넓어질 수 있고, 컨볼루션 연산량이 높아질 수 있다.In addition, noise addition filtering including at least one of a Gaussian filter, an average filter, a masking filter, and a blur filter may be performed. In addition, a mask area for applying the filter may be set on all or part of the base face image. As the size of the mask increases, the deterioration range of the filtered images may widen, and the amount of convolution operation may increase.

이렇게 제거되거나 필터링에 의해 열화된 노이즈 부가 베이스 얼굴 이미지가 입력되면, 학습 기반 이미지 복원 알고리즘 처리부(140)에서는, 저장부(170)에서 사전 구축된 데이터베이스에 저장된 영상 이미지 중 얼굴 이미지가 가장 유사한 영상 이미지를 선택하고, 선택된 영상 이미지에 기초한 예측 기반의 이미지 복원을 처리할 수 있다. 여기서, 학습 기반 이미지 복원 알고리즘 처리부(140)는, 데이터베이스상의 유사 영상 이미지 선택을 위해, SSIM, MSE, Mahalanobis 거리 등을 사용한 유사도 연산을 더 수행할 수 있다.When the base face image with noise removed or deteriorated by filtering is input, the learning-based image restoration algorithm processing unit 140 has the most similar face image among the video images stored in the database pre-built in the storage unit 170. , and image restoration based on prediction based on the selected video image may be processed. Here, the learning-based image restoration algorithm processing unit 140 may further perform a similarity calculation using SSIM, MSE, Mahalanobis distance, and the like to select similar video images on the database.

상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.The method according to the present invention described above may be produced as a program to be executed on a computer and stored in a computer-readable recording medium. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, and magnetic tape. , floppy disks, optical data storage devices, and the like, and also includes those implemented in the form of carrier waves (for example, transmission through the Internet).

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The computer-readable recording medium is distributed to computer systems connected through a network, so that computer-readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the method can be easily inferred by programmers in the technical field to which the present invention belongs.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In addition, although the preferred embodiments of the present invention have been shown and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

Claims (16)

서비스 제공 장치의 동작 방법에 있어서,
사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하는 단계;
상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하는 단계;
상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 단계;
상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 단계; 및
상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 단계를 포함하는
서비스 제공 장치의 동작 방법.
In the operating method of the service providing device,
obtaining a base face image corresponding to a user input;
processing noise addition formation according to one or more preset noise addition processes to the base face image;
performing an image restoration process based on a learning algorithm using the base face image in which the noise is added;
extracting a face image for a virtual person from the restored image; and
Providing virtual person content including a face image for the virtual person to a user terminal.
A method of operating a service providing device.
제1항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The one or more noise adding process comprises:
A random color conversion process of changing one or more pixel pairs selected from the base face image to a preset first color
A method of operating a service providing device.
제1항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지에 대응하는 사용자 입력에 따라 결정된 부분 영역에, 사전 설정된 패턴 이미지를 부가 형성하는 패턴 이미지 부가 프로세스를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The one or more noise adding process comprises:
And a pattern image adding process of additionally forming a preset pattern image in a partial area determined according to a user input corresponding to the base face image.
A method of operating a service providing device.
제1항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하고, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The one or more noise adding process comprises:
A face segment noise adding process of extracting a plurality of face segment regions from the base face image and adding noise to one or more preset face segment regions among the plurality of face segment regions
A method of operating a service providing device.
제1항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지 전체 또는 일부에 대응하여, 사전 설정된 필터를 적용하는 필터 부가 프로세스를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The one or more noise adding process comprises:
And a filter adding process of applying a preset filter to all or part of the base face image.
A method of operating a service providing device.
제1항에 있어서,
상기 사전 설정된 필터는, 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The preset filter includes at least one of a Gaussian filter, an average filter, a masking filter, and a blur filter.
A method of operating a service providing device.
제1항에 있어서,
상기 이미지 복원 처리를 수행하는 단계는,
별도의 추가 정보 없이 저품질의 얼굴 이미지를 고품질의 얼굴 이미지로 복원하는 알고리즘 모델이 사전 학습된 이미지 복원용 인공 신경망에, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 입력하는 단계를 포함하는
서비스 제공 장치의 동작 방법.
According to claim 1,
The step of performing the image restoration process,
Inputting the noise-added base face image to an artificial neural network for image restoration in which an algorithm model for restoring a low-quality face image into a high-quality face image without additional information is pre-trained
A method of operating a service providing device.
제7항에 있어서,
상기 이미지 복원용 인공 신경망은, 이미지의 해상도, 노이즈, 블러, 압축 아티팩트, 색상 중 적어도 하나의 품질을 향상시키도록, 저품질 이미지에 대응하는 고품질 복원 이미지가 사전 딥러닝된 하나 이상의 생성적 적대 신경망을 포함하는
서비스 제공 장치의 동작 방법.
According to claim 7,
The artificial neural network for image reconstruction includes one or more generative adversarial networks in which a high-quality reconstructed image corresponding to a low-quality image is pre-deep-learned to improve the quality of at least one of image resolution, noise, blur, compression artifact, and color. including
A method of operating a service providing device.
서비스 제공 장치에 있어서,
사용자 입력에 대응하는 베이스 얼굴 이미지를 획득하는 베이스 얼굴 이미지 처리부;
상기 베이스 얼굴 이미지에 사전 설정된 하나 이상의 노이즈 추가 프로세스에 따른 노이즈 부가 형성을 처리하는 노이즈 부가 형성부;
상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 이용하여, 학습 알고리즘 기반의 이미지 복원 처리를 수행하는 이미지 복원 알고리즘 처리부;
상기 복원 처리된 이미지로부터 가상 인물용 얼굴 이미지를 추출하는 얼굴 이미지 생성부; 및
상기 가상 인물용 얼굴 이미지를 포함하는 가상 인물 콘텐츠를 사용자 단말로 제공하는 서비스 제공부를 포함하는
서비스 제공 장치.
In the service providing device,
a base face image processing unit acquiring a base face image corresponding to a user input;
a noise addition forming unit processing noise addition formation according to one or more preset noise addition processes to the base face image;
an image restoration algorithm processing unit that performs an image restoration process based on a learning algorithm using the base face image in which the noise is added;
a face image generating unit extracting a face image for a virtual person from the restored image; and
A service providing unit providing virtual character content including a face image for the virtual character to a user terminal.
Service Provisioning Device.
제9항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지에서 선택된 하나 이상의 픽셀 쌍들을 사전 설정된 제1 색상으로 변경하는 랜덤 색상 변환 프로세스를 포함하는
서비스 제공 장치.
According to claim 9,
The one or more noise adding process comprises:
A random color conversion process of changing one or more pixel pairs selected from the base face image to a preset first color
Service Provisioning Device.
제9항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지에 대응하는 사용자 입력에 따라 결정된 부분 영역에, 사전 설정된 패턴 이미지를 부가 형성하는 패턴 이미지 부가 프로세스를 포함하는
서비스 제공 장치.
According to claim 9,
The one or more noise adding process comprises:
And a pattern image adding process of additionally forming a preset pattern image in a partial area determined according to a user input corresponding to the base face image.
Service Provisioning Device.
제9항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지로부터 복수의 얼굴 세그먼트 영역을 추출하고, 상기 복수의 얼굴 세그먼트 영역 중 사전 설정된 하나 이상의 얼굴 세그먼트 영역에 노이즈를 부가하는 얼굴 세그먼트 노이즈 부가 프로세스를 포함하는
서비스 제공 장치.
According to claim 9,
The one or more noise adding process comprises:
A face segment noise adding process of extracting a plurality of face segment regions from the base face image and adding noise to one or more preset face segment regions among the plurality of face segment regions
Service Provisioning Device.
제9항에 있어서,
상기 하나 이상의 노이즈 추가 프로세스는,
상기 베이스 얼굴 이미지 전체 또는 일부에 대응하여, 사전 설정된 필터를 적용하는 필터 부가 프로세스를 포함하는
서비스 제공 장치.
According to claim 9,
The one or more noise adding process comprises:
And a filter adding process of applying a preset filter to all or part of the base face image.
Service Provisioning Device.
제9항에 있어서,
상기 사전 설정된 필터는, 가우시안 필터, 평균값 필터, 마스킹 필터, 블러 필터 중 적어도 하나를 포함하는
서비스 제공 장치.
According to claim 9,
The preset filter includes at least one of a Gaussian filter, an average filter, a masking filter, and a blur filter.
Service Provisioning Device.
제9항에 있어서,
상기 이미지 복원 알고리즘 처리부는,
별도의 추가 정보 없이 저품질의 얼굴 이미지를 고품질의 얼굴 이미지로 복원하는 알고리즘 모델이 사전 학습된 이미지 복원용 인공 신경망에, 상기 노이즈가 부가 형성된 베이스 얼굴 이미지를 적용하는
서비스 제공 장치.
According to claim 9,
The image restoration algorithm processing unit,
An algorithm model that restores a low-quality face image to a high-quality face image without additional information applies the base face image with the added noise to an artificial neural network for image restoration pre-trained.
Service Provisioning Device.
제15항에 있어서,
상기 이미지 복원용 인공 신경망은, 이미지의 해상도, 노이즈, 블러, 압축 아티팩트, 색상 중 적어도 하나의 품질을 향상시키도록, 저품질 이미지에 대응하는 고품질 복원 이미지가 사전 딥러닝된 하나 이상의 생성적 적대 신경망을 포함하는
서비스 제공 장치.
According to claim 15,
The artificial neural network for image reconstruction includes one or more generative adversarial networks in which a high-quality reconstructed image corresponding to a low-quality image is pre-deep-learned to improve the quality of at least one of image resolution, noise, blur, compression artifact, and color. including
Service Provisioning Device.
KR1020210175528A 2021-12-09 2021-12-09 A method and a device for generating face image of virtual person using image restoration algorithm KR20230086991A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210175528A KR20230086991A (en) 2021-12-09 2021-12-09 A method and a device for generating face image of virtual person using image restoration algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210175528A KR20230086991A (en) 2021-12-09 2021-12-09 A method and a device for generating face image of virtual person using image restoration algorithm

Publications (1)

Publication Number Publication Date
KR20230086991A true KR20230086991A (en) 2023-06-16

Family

ID=86948355

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210175528A KR20230086991A (en) 2021-12-09 2021-12-09 A method and a device for generating face image of virtual person using image restoration algorithm

Country Status (1)

Country Link
KR (1) KR20230086991A (en)

Similar Documents

Publication Publication Date Title
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
CN106682632B (en) Method and device for processing face image
US11410457B2 (en) Face reenactment
CN110503703B (en) Method and apparatus for generating image
CN112330574B (en) Portrait restoration method and device, electronic equipment and computer storage medium
KR102605077B1 (en) Methods and systems for compositing realistic head rotations and facial animation on mobile devices
CN109919874B (en) Image processing method, device, computer equipment and storage medium
CN111340711A (en) Super-resolution reconstruction method, device, equipment and storage medium
Zhang et al. Hierarchical density-aware dehazing network
US11961237B2 (en) Foreground data generation method and method for applying same, related apparatus, and system
CN111985281B (en) Image generation model generation method and device and image generation method and device
CN110223245B (en) Method and system for processing blurred picture in sharpening mode based on deep neural network
US20200184098A1 (en) Systems and Methods for Secure Obfuscation of Sensitive Information in Images
US20220398704A1 (en) Intelligent Portrait Photography Enhancement System
JP2010286959A (en) Method, device and program for enhancing face image resolution
Hilgefort et al. Spying through virtual backgrounds of video calls
KR20230086999A (en) A recording medium recording a virtual character content creation program
KR20230086996A (en) A computer program that performs the noise addition process
KR20230086998A (en) A computer program that creates virtual character contnet by adding noise to face segment regions
CN113240598B (en) Face image deblurring method, face image deblurring device, medium and equipment
Liu et al. X-gans: Image reconstruction made easy for extreme cases
CN111476741B (en) Image denoising method, image denoising device, electronic equipment and computer readable medium
CN112714263A (en) Video generation method, device, equipment and storage medium
Tao et al. LEGAN: A low-light image enhancement generative adversarial network for industrial internet of smart-cameras
KR20230086991A (en) A method and a device for generating face image of virtual person using image restoration algorithm