KR20210094451A - 이미지 생성 방법 및 장치 - Google Patents

이미지 생성 방법 및 장치 Download PDF

Info

Publication number
KR20210094451A
KR20210094451A KR1020200123809A KR20200123809A KR20210094451A KR 20210094451 A KR20210094451 A KR 20210094451A KR 1020200123809 A KR1020200123809 A KR 1020200123809A KR 20200123809 A KR20200123809 A KR 20200123809A KR 20210094451 A KR20210094451 A KR 20210094451A
Authority
KR
South Korea
Prior art keywords
image
user
face
presenting
input
Prior art date
Application number
KR1020200123809A
Other languages
English (en)
Other versions
KR102451198B1 (ko
Inventor
허난 장
신 리
푸 리
티안웨이 린
하오 쑨
시레이 웬
홍우 장
얼루이 딩
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210094451A publication Critical patent/KR20210094451A/ko
Application granted granted Critical
Publication of KR102451198B1 publication Critical patent/KR102451198B1/ko

Links

Images

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/0012Context preserving transformation, e.g. by using an importance map
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06K9/00221
    • G06K9/6268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001Image restoration
    • G06T5/002Denoising; Smoothing
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/23Reliability checks, e.g. acknowledgments or fault reporting
    • H04L51/30
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

본원 실시예는 이미지 생성 방법 및 장치를 제공한다. 상기 방법은 상호 작용 상황에서 사용자가 입력하는 얼굴을 포함한 제1 이미지를 수신하는 단계; 사용자에게 제1 이미지를 제시하는 단계; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계 - 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용함 -; 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시하는 단계를 포함한다. 상기 방법은 생성적 적대 네트워크가 입력된 제1 이미지를 기반으로 제2 이미지를 생성하는 정확도 및 효율을 향상시키고, 이미지를 생성 오류의 확률을 감소시킬 수 있다.

Description

이미지 생성 방법 및 장치{METHOD AND DEVICE FOR GENERATING IMAGE}
본원은 컴퓨터 기술 분야에 관한 것이고, 더 상세하게, 이미지 전환 기술 분야, 특히 이미지를 생성하는 방법 및 장치에 관한 것이다.
현재 수많은 디지털 오락 제품이 시중에 판매되고 있고, 그 중 얼굴을 어린 아이의 얼굴로 바꾸고, 다른 스타일의 얼굴로 바꾸는 등의 셀카 특수 효과는 상당한 오락성을 갖추어 많은 사람들의 사랑을 받고 있다.
현재 대부분의 애플리케이션은 얼굴 템플릿을 사용하여 서로 다른 스타일의 얼굴을 생성하는 서비스를 제공하는 바, 즉 인식된 사용자의 이목구비와 얼굴형에 따라 그에 다른 스타일의 소재 라이브러리에서, 상기 인식된 사용자의 이목구비 및 얼굴형과 가장 유사한 소재를 선택하여 스티칭함으로써, 얼굴에 대해 이차원 변환을 진행하여 서로 다른 스타일의 얼굴을 획득할 수 있다.
본원의 실시예는 이미지 생성 방법 및 장치를 제공한다.
제1 양태에 있어서, 본원의 실시예는 이미지 생성 방법을 제공하고, 상기 방법은, 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하는 단계; 사용자에게 제1 이미지를 제시하는 단계; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계 - 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용함 -; 및 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시하는 단계를 포함한다.
일부 실시예에서, 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하기 전에, 상기 방법은 상호 작용 상황에서 얼굴 변환에 대한 지시를 수신하는 단계; 및 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계를 더 포함한다.
일부 실시예에서, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계는, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계를 포함하고, 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하는 단계는, 사용자가 자동 촬영 인터페이스에 얼굴을 입력한 것을 감지한 것에 응답하여, 자동 촬영 기능을 트리거하여 제1 이미지를 획득하는 단계를 포함한다.
일부 실시예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계는, 사용자에게 기설정된 스타일의 프레임 및/또는 사진 촬영 요구 사항을 구비한 자동 촬영 인터페이스를 제시하는 단계; 또는 촬영 인터페이스에서 얼굴을 감지하지 못한 것에 응답하여, 사용자에게 얼굴을 감지하지 못했다는 알림 메시지를 제시하는 단계; 중 적어도 하나를 포함한다.
일부 실시예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계는, 촬영 인터페이스에서 얼굴을 감지한 것에 응답하여, 사용자에게 자동 촬영 카운트다운을 제시하는 단계; 자동 촬영 카운트다운이 종료되는 것에 응답하여, 감지한 얼굴을 촬영하는 단계; 및 자동 촬영 카운트다운 시간 내에 사용자가 얼굴을 입력하지 않은 것에 응답하여, 카운트다운을 종료하고 사용자에게 얼굴을 인식하지 못했다는 알림 메시지를 제시하는 단계를 더 포함한다.
일부 실시예에서, 사용자에게 제1 이미지를 제시하는 단계는, 사용자에게 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 제1 이미지 상에 마스크를 설정하고, 상호 작용 상황에서 얼굴 변환 진행 정도 알림 메시지를 제시하는 단계를 포함한다.
일부 실시예에서, 기설정된 스타일의 프레임은 얼굴 변환 진행 정도 알림 메시지의 디자인 스타일과 동일하거나 유사하다.
일부 실시예에서, 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계는, 제1 이미지에 서로 다른 정도의 가우시안 블러(Gaussian blur) 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계; 또는 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하여, 큰 것으로 감지되는 경우, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계를 포함한다.
일부 실시예에서, 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 사용하는 것을 포함하고, 여기서 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지와 입력된 이미지의 아래와 같은 이미지, 즉, 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 얼굴 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 및 머리카락의 바이너리 이미지 1 채널 이미지 중 적어도 하나의 이미지를 포함한다.
일부 실시예에서, 상기 방법은 사용자에게 제2 이미지를 기설정 시간 동안 제시한 후, 사용자에게 제1 이미지 및 제2 이미지를 동시에 제시하는 단계를 더 포함한다.
일부 실시예에서, 상기 방법은 사용자에게 얼굴 스타일 변환 옵션을 제시하는 단계; 변환 옵션에 대한 사용자의 선택 사항을 수신하는 단계; 사용자에게 변환 과정 이미지를 제시하는 단계; 및 백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하는 단계를 더 포함한다.
일부 실시예에서, 사용자에게 얼굴 스타일 변환 옵션을 제시하는 단계는, 사용자에게 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하는 단계를 포함하고, 변환 옵션에 대한 사용자의 선택 사항을 수신하는 단계는, 주사위 버튼에 대한 사용자의 클릭을 수신하는 단계를 포함하며, 사용자에게 변환 과정 이미지를 제시하는 단계는, 사용자에게 동적인 흔들리는 주사위 이미지를 제시하는 단계를 포함한다.
일부 실시예에서, 사용자에게 새로운 제2 이미지를 제시하는 단계는, 아래방향 닦아내기 애니메이션 특수 효과로 새로운 제2 이미지를 사용자에게 제시하는 단계를 포함한다.
일부 실시예에서, 상기 방법은 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계를 더 포함한다.
일부 실시예에서, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계는, 백엔드에서 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계를 포함하고, 상기 방법은, 백엔드에서 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력할 때에 네트워크 오류를 감지한 것에 응답하여, 사용자에게 네트워크 오류를 알리고 재시도를 요청하는 메시지를 제시하고, 네트워크 오류를 알리고 재시도를 요청하는 메시지를 기설정 시간 동안 제시한 후, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계를 더 포함한다.
일부 실시예에서, 상기 방법은, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 시간이 기설정된 시간을 초과한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 과정에서 오류가 발생한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계; 또는 사용자가 다른 애플리케이션으로 전환하고 다른 애플리케이션으로부터 복귀하는 것에 응답하여, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계 중 적어도 하나를 더 포함한다.
제2 양태에 있어서, 본원의 실시예는 얼굴 이미지 생성 장치를 제공하고, 상기 장치는, 사용자가 입력한 얼굴이 포함된 제1 이미지를 수신하도록 구성된 제1 이미지 입력 유닛; 사용자에게 제1 이미지를 제시하도록 구성된 제1 이미지 표시 유닛; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하도록 구성된 제2 이미지 출력 유닛; 및 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시하도록 구성된 제2 이미지 표시 유닛을 포함하되, 사익 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용한다.
일부 실시예에서, 제1 이미지 표시 유닛은, 사용자에게 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 제1 이미지 상에 마스크를 설정하고 상호 작용 상황에서 얼굴 변환 진행 정도를 표시하는 알림 메시지를 제시하도록 더 구성된다.
일부 실시예에서, 제2 이미지 출력 유닛은, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하거나; 또는 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하여, 큰 것으로 감지되는 경우, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하도록 더 구성된다.
일부 실시예에서, 제2 이미지 출력 유닛에서 사용하는 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 사용하는 것을 포함하고, 여기서 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지와 입력된 이미지의 이하 이미지, 즉, 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 얼굴 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 또는 머리카락의 바이너리 이미지 1 채널 이미지; 중 적어도 하나의 이미지를 포함한다.
일부 실시예에서, 상기 장치는 사용자에게 얼굴 스타일 변환 옵션을 제시하도록 구성된 변환 옵션 표시 유닛; 변환 옵션에 대한 사용자의 선택 사항을 수신하도록 구성된 사용자 선택 사항 수신 유닛; 사용자에게 변환 과정 이미지를 제시하도록 구성된 과정 이미지 표시 유닛; 및 백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하도록 구성된 제2 이미지 업데이트 유닛을 더 포함한다.
일부 실시예에서, 변환 옵션 표시 유닛은 사용자에게 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하도록 더 구성되고; 사용자 선택 사항 수신 유닛은 주사위 버튼에 대한 사용자의 클릭을 수신하도록 더 구성되며; 과정 이미지 표시 유닛은 사용자에게 동적인 흔들리는 주사위 이미지를 제시하도록 더 구성된다.
일부 실시예에서, 제2 이미지 업데이트 유닛은 아래방향 닦아내기 애니메이션 특수 효과로 새로운 제2 이미지를 사용자에게 제시하도록 더 구성된다.
일부 실시예에서, 상기 장치는, 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 다시 제시하도록 구성된 메시지 표시 복귀 유닛을 더 포함한다.
제3 양태에 있어서, 본원의 실시예는 전자 기기/단말기/서버를 제공하고, 이는 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하고, 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 경우, 하나 또는 복수의 프로세서가 상술한 어느 한 얼굴 이미지 생성 방법을 구현하도록 한다.
제4 양태에 있어서, 본원의 실시예는 컴퓨터 판독 가능한 매체를 제공하고, 상기 컴퓨터 판독 가능한 매체에는 컴퓨터 프로그램이 저장되어 있으며, 상기 컴퓨터 프로그램로이 프로세서에 의해 실행될 경우 상술한 어느 한 얼굴 이미지 생성 방법을 구현한다.
본원의 실시예에서 제공되는 이미지 생성 방법 및 장치는, 우선 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신한 후, 사용자에게 제1 이미지를 제시하고, 다음으로, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하되, 여기서 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하며, 마지막으로 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시한다. 이러한 과정에서, 얼굴 속성 정보를 생성적 적대 네트워크의 제약으로 사용하므로, 생성적 적대 네트워크가 입력된 제1 이미지를 기반으로 제2 이미지를 생성하는 정확도 및 효율을 향상시킬 수 있고, 이미지 생성 오류가 발생할 확률을 낮추어 생성된 제2 이미지의 타깃성을 향상시킬 수 있다.
아래의 도면을 참조한 비제한적인 실시예의 상세 설명을 통해, 본원의 다른 특징, 목적 및 장점들은 더 명확해질 것이다.
도 1은 본원 발명이 적용될 수 있는 시스템 아키텍처의 일 예이다.
도 2는 본원의 실시예에 따른 이미지 생성 방법의 일 실시예의 흐름도를 개략적으로 나타낸다.
도 3은 본원의 실시예에 따른 이미지 생성 방법의 일 실시예의 응용 상황을 개략적으로 나타낸다.
도 4는 본원의 실시예에 따른 이미지 생성 방법의 또 다른 일 실시예의 흐름도를 개략적으로 나타낸다.
도 5는 본원의 이미지 생성 장치의 일 실시예의 예시적인 구조도이다.
도 6은 본원의 실시예를 구현하기 위한 서버의 컴퓨터 시스템의 구조도를 개략적으로 나타낸다.
도면과 실시예를 함께 참조하여 이하에서 본원에 대해 더 상세하게 설명하고자 한다. 여기서 설명하는 구체적인 실시예는 관련 발명을 설명하기 위해 제시되는 것으로, 당해 발명에 대한 제한이 아님을 이해할 것이다. 또한 용이한 설명을 위해 도면에서는 발명과 관련된 부분만 도시하였다.
상충되지 않는 한, 본원의 실시예와 실시예의 구성들은 서로 결합될 수 있음은 이해할 것이다. 아래에서는 첨부된 도면과 실시예를 결합하여 본원에 대해 상세하게 설명한다. 본 명세서에서 "제1", "제2"등으로 이미지를 설명하였으나, 이러한 이미지들 상기 용어에 제한되는 것이 아님은 해당 분야의 기술자에게 자명할 것이다. 이러한 용어는 하나의 이미지와 다른 이미지를 구분하는 용도로만 사용된다.
도 1은 본원의 이미지 생성 방법 및 이미지 생성 장치 실시예가 적용 가능한 예시적인 시스템 아키텍처(100)이다.
도 1과 같이 시스템 아키텍처(100)는 단말기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기(101, 102, 103)와 서버(105) 간의 통신 링크를 제공하기 위한 매체이다. 네트워크(104)는 유선, 무선 통신 링크, 광섬유 케이블 등 다양한 유형 연결을 포함할 수 있다.
사용자는 단말기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 상호 작용하여, 메시지 등을 수신하거나 송신할 수 있다. 단말기(101, 102, 103)에는 클립, 브라우저, 쇼핑, 검색, 인스턴트 메신저, 메일 클라이언트, 소셜 플랫폼 소프트웨어 등 다양한 통신 클라이언트 애플리케이션들이 설치될 수 있다.
단말기(101, 102, 103)는 하드웨어일 수도 있고, 소프트웨어 일 수도 있다. 단말기(101, 102, 103)가 하드웨어일 경우, 브라우저 애플리케이션의 다양한 전자 기기를 지원할 수 있으며, 여기에는 태블릿 컴퓨터, 랩탑 컴퓨터, 데스크탑 컴퓨터 등이 포함되나 이에 제한되지 않는다. 단말기(101, 102, 103)가 소프트웨어일 경우, 위에서 열거한 전자 기기 중에 장착할 수 있다. 이는 분산식 서비스를 제공하기 위해 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 구체적으로 한정하지 않는다.
서버(105)는 단말기(101, 102, 103)를 지원하는 백엔드 서버와 같은 다양한 서비스를 제공하는 서버일 수 있다. 백엔드 서버는 수신된 요청 등 데이터에 대한 분석 등을 처리하고, 처리 결과를 단말기에 피드백할 수 있다.
서버는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 서버가 하드웨어인 경우, 복수의 서버로 구성된 분산식 서버 클러스터로 구현될 수 있고, 단일 서버로 구현될 수도 있다. 서버가 소프트웨어인 경우, 예를 들어 분산식 서비스를 제공하기 위한 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서 구체적으로 한정하지 않는다.
실제 응용에서, 본원 실시예에서 제공하는 이미지 생성 방법은 단말기(101, 102, 103) 및/또는 서버(105, 106)에 의해 수행되고, 이미지 생성 장치 또한 단말기(101, 102, 103) 및/또는 서버(105, 106)에 장착될 수 있다.
도 1의 단말기, 네트워크 및 서버의 개수는 단지 예시적인 것으로 이해하여야 한다. 실제 필요에 따라, 임의 개수의 단말기, 네트워크 및 서버를 구비할 수 있다.
이어서 도 2는 본원에 따른 이미지 생성 방법의 일 실시예의 흐름도(200)를 나타낸다. 상기 이미지 생성 방법은 다음과 같은 단계들을 포함한다.
단계(201)에서, 사용자가 입력한 얼굴을 포함한 제1 이미지를 수신한다.
본 실시예에서, 이미지 생성 방법의 수행 주체(예를 들어, 도 1에 도시한 단말기 또는 서버)는 사용자가 상호 작용 상황에서 로컬 또는 원격 앨범, 데이터 베이스로부터 입력한 얼굴을 포함한 제1 이미지를 획득할 수 있으며, 로컬 또는 원격 촬영 서비스를 통해 얼굴을 포함한 제1 이미지를 획득할 수도 있다.
본 실시예의 일부 선택 가능한 구현예에서, 사용자가 입력한 얼굴을 포함한 제1 이미지를 수신하기 전, 얼굴 이미지 생성 방법은, 상호 작용 상황에서 얼굴 변환에 대한 지시를 수신하는 단계; 및 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계를 더 포함한다.
본 실시예에서, 상기 수행 주체가 수신한 얼굴 변환 지시는, 예를 들어 사용자가 얼굴 변환 옵션에 대한 선택 등의 사용자가 입력한 얼굴 변환 지시일 수 있고; 상기 수행 주체가 얼굴 변환 서비스 제공 모드에서, 사용자의 얼굴을 감지할 경우를 얼굴 변환 지시를 받은 것으로 간주하는 등의 사용자의 존재에 의해 트리거된 얼굴 변환 지시일 수도 있다.
상기 수행 주체는 얼굴 변환 지시를 수신한 후, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시할 수 있다. 예를 들어, 사용자에게 로컬 또는 클라우드 앨범 또는 데이터 베이스로부터 얼굴 이미지를 입력하라는 메시지를 제시하거나, 사용자에게 로컬 또는 원격 촬영 서비스를 호출하여 얼굴 이미지를 입력하라는 메시지를 제시한다.
구체적인 일 예로, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 것은, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 것을 포함할 수 있고; 사용자가 입력한 얼굴을 포함한 제1 이미지를 수신하는 것은, 사용자가 자동 촬영 인터페이스에 얼굴을 입력하는 것을 감지한 것에 응답하여, 자동 촬영 기능을 트리거하여 제1 이미지를 획득하는 것을 포함한다. 이를 통해, 수행 주체가 수신한 얼굴 변환 지시에 따라, 제1 이미지를 빠르게 획득할 수 있다. 나아가, 자동 사진 촬영 기능을 트리거할 때, 사용자에게 플래시의 음향 및 명도 효과를 제시할 수 있으므로, 사용자의 주의력을 높이고 자동 사진 촬영의 효율을 향상시킬 수 있다.
여기서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시함에 있어서, 상기 수행 주체는 사용자에게 기설정 스타일의 프레임 및/또는 사진 촬영 요구사항을 구비한 자동 촬영 인터페이스를 표시할 수 있으며, 이로써 촬영의 취미성/오락성 및/또는 인간-컴퓨터 상호 작용 효율을 높일 수 있고; 선택적으로 또는 추가적으로, 상기 수행 주체는 촬영 인터페이스에서 얼굴을 감지하지 못한 것에 응답하여, 사용자에게 얼굴을 감지하지 못했다는 알림 메시지를 제시하여 사용자가 얼굴을 입력하도록 알릴 수 있고, 따라서 인간-컴퓨터 상호 작용의 효율을 향상시킬 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제공하는 것은, 촬영 인터페이스에서 얼굴을 감지한 것에 응답하여 사용자에게 자동 촬영 카운트다운을 제공하고; 자동 촬영 카운트다운 시간 내에 사용자가 지속적으로 얼굴을 입력하는 것에 응답하여, 자동 촬영 카운트다운이 종료될 때에 상기 감지한 얼굴을 촬영하며; 사용자가 자동 촬영 카운트다운 시간 내에 얼굴을 입력하지 않은 것에 응답하여, 카운트다운을 종료하고 사용자에게 얼굴을 인식하지 못했다는 알림 메시지를 제시하는 것을 더 포함한다.
본 구현예에서, 상기 수행 주체는 촬영 인터페이스에서 얼굴을 감지한 후, 사용자에게 자동 촬영 카운트다운을 제시할 수 있다. 사용자가 자동 촬영 카운트다운 시간 내에 지속적으로 얼굴을 입력하는 경우, 즉 상기 수행 주체가 자동 촬영 카운트다운 시간 내에 지속적으로 얼굴을 감지하는 경우, 상기 수행 주체는 자동 촬영 카운트다운이 종료될 때에 상기 감지한 얼굴을 촬영할 수 있다. 사용자가 자동 촬영 카운트다운 시간 내에 얼굴을 입력하지 않은 경우, 즉 상기 수행 주체가 자동 촬영 카운트다운 시간 내에 얼굴을 감지하지 못하는 경우, 상기 수행 주체는 카운트다운을 종료하고 사용자에게 얼굴을 인식하지 못했다는 알림 메시지를 제시한다.
본 구현예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 방식을 통해, 자동 촬영 카운트다운 시간 내에 얼굴 존재 여부를 감지할 수 있고, 만약 사용자의 얼굴이 지속적으로 존재할 경우, 자동 촬영 카운트다운이 종료될 때에 촬영을 하고, 얼굴이 감지되지 않았을 경우에는 즉시 사용자에게 알려 자동적으로 얼굴을 촬영하는 효율을 향상시킬 수 있다.
단계(202)에서 사용자에게 제1 이미지를 제시한다.
본 실시예에서, 이미지 생성 방법의 수행 주체는 종래 기술 또는 향후 발전할 기술 중의 표시 방식을 사용하여 사용자에게 제1 이미지를 제시할 수 있으며, 본원은 이에 대해 제한하지 않는다. 예를 들어, 상기 수행 주체는 디스플레이에서 사용자에게 제1 이미지를 제시하거나, 또는 일반 프로젝션 기술이나 홀로그램 프로젝션 기술을 사용하여 사용자에게 제1 이미지를 제시할 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 사용자에게 제1 이미지를 제시하는 단계는, 사용자에게 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 제1 이미지에 마스크를 설정하고, 상호 작용 상황에서 얼굴 변환 진행 정도를 표시하는 알림 메시지를 제시하는 단계를 포함한다.
본 실시 방안에서, 사용자에게 제1 이미지를 제시하는 기설정 시간(예를 들어, 3초) 후, 제1 이미지에 마스크를 설정하고, 상호 작용 상황에서 얼굴 변환 진행 정도를 표시하는 알림 메시지를 제시하여, 제1 이미지에 대한 얼굴 변환이 진행 중임을 알림으로써 사용자가 얼굴 변환 진행 정도를 직관적으로 볼 수 있도록 하여, 인간-컴퓨터 상호 작용의 효율을 향상시킬 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 기설정 스타일의 프레임 및 얼굴 변환 진행 알림 메시지의 디자인 스타일은 동일하거나 유사하다.
본 구현예에서, 기설정 스타일의 프레임을 얼굴 변환 진행 알림 메시지의 디자인 스타일과 같거나 유사하게 설정하는 것은, 사용자에게 전후가 일치되는 느낌을 주어 사용자의 인지도를 향상시킬 수 있다. 여기서 디자인 스타일이 유사하다는 것은 디자인 스타일의 유사도가 기설정 유사도 임계치보다 크거나, 디자인 스타일이 기설정 스타일 정렬 리스트에서 인접한 스타일이라는 것을 의미한다.
단계(203)에서, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력한 제2 이미지를 획득한다.
본 실시예에서, 상기 수행 주체는 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력한 제2 이미지를 획득할 수 있고, 여기서, 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용한다.
사전 훈련된 생성적 적대 네트워크란, 생성적 적대 네트워크(GAN, Generative Adversarial Networks)를 기반으로 발전된 딥러닝 모델을 지칭한다. 예를 들면, 생성적 적대 네트워크(GAN), 순환 일치 생성적 적대 네트워크(CycleGan), 얼굴 고정밀 속성 편집 모델(AttGAN), 다중 도메인을 위한 이미지 합성(StarGAN), 공간 변환기 생성적 적대 네트워크(STGAN), 듀얼 학습 생성적 적대 네트워크(DualGAN, DiscoGAN) 등이 있다.
상기 사전 훈련된 생성적 적대 네트워크는 일반적으로 생성부 G(generator)와 감별부(Discriminator)를 포함한다. 그리고 X, Y라는 두 개의 데이터 도메인을 갖는다. G는 X 도메인의 데이터를 실제 데이터로 모방하고 실제 데이터 속에 매입시키며, D는 위조 데이터와 실제 데이터를 분리시킨다. 양자의 경쟁 결과, G의 위조 기술은 점점 더 강화되고, D의 감별 기술도 점점 더 강화된다. D가 데이터가 실제 데이터인지 G가 생성한 데이터인지 더 이상 분간할 수 없을 때에, 적대 과정은 비로소 동적 균형을 이루게 된다.
생성적 적대 네트워크를 훈련하려면 생성부의 재구축 손실 함수 및 감별부의 감별 손실 함수 두 가지 손실 함수가 필요하다. 그 중, 재구축 손실 함수는 생성된 이미지가 원본 이미지와 최대한 비슷한지의 여부를 결정하는데 사용되고; 감별 손실 함수는 생성된 가짜 이미지와 원본 진짜 이미지를 감별부에 입력하여, 0, 1의 이진 분류 손실을 획득한다.
생성부는 인코더, 컨버터 및 디코더로 구성된다. 인코더는 컨볼루션 신경망을 사용하여 입력된 이미지로부터 피처(또는 특징)를 추출한다. 예를 들어, 이미지를 64*64의 256개의 피처 벡터로 압축한다. 컨버터는 이미지의 유사하지 않은 피처들을 조합함으로써, DA 도메인의 이미지의 피처 벡터를 DB 도메인의 피처 벡터로 변화시킨다. 예를 들어, 6개 레이어의 Reset 모듈을 사용할 수 있는데, 각각의 Reset 모듈은 두 개의 컨볼루션 레이어로 구성된 하나의 신경망 레이어이므로, 변환을 진행함과 동시에 원본 이미지의 피처를 유지하는 목적을 달성할 수 있다. 디코더는 디컨볼루션(decovolution)을 이용해 피처 벡터로부터 로우 레벨 피처를 복원하는 작업을 하고, 최종적으로 생성된 이미지를 획득한다.
감별부는 한 장의 이미지를 입력으로 하고, 해당 이미지가 원본 이미지인지 생성부가 출력한 이미지인지에 대한 예측을 시도한다. 감별부 자체가 컨볼루션 네트워크이므로 이미지에서 피처를 추출하고, 1차원의 출력을 생성하는 컨볼루션 레이어를 추가함으로써 추출한 피처가 특정 범주에 속하는지 여부를 확인한다.
여기에서, 사전 훈련된 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용한다. 여기의 얼굴 속성 정보는 얼굴의 피처를 나타내는 일련의 생물 특성 정보로, 자체 안정성 및 개체 차이성이 매우 강하며 사람의 신분을 식별할 수 있다. 얼굴 속성 정보는 성별, 피부색, 나이, 표정 등을 포함할 수 있다.
생성적 적대 네트워크가 입력된 제1 이미지(예컨대, 생성적 적대 네트워크 이용 시 입력된 제1 이미지 또는 생성적 적대 네트워크 훈련 시 입력된 제1 이미지 샘플)를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용함에 있어서, 종래 기술 또는 향후 발전할 기술 중 머신 러닝 네트워크의 제약에 사용되는 방법으로 구현할 수 있으며, 본원은 여기에 대해 제한하지 않는다.
본원의 하나의 구체적인 실시예에서, 상기 입력된 이미지를 기반으로 생성된 얼굴 속성 정보는 생성적 적대 네트워크 중 생성부 네트워크의 임의의 한 레이어 또는 복수 레이어의 입력이 될 수 있으며, 해당 레이어 네트워크의 기존 입력과 연합하여 입력이 됨으로써, 머신 러닝에서 제약을 도입한 생성부 네트워크의 출력 이미지와 얼굴 속성 정보의 연관성을 개선할 수 있다.
본원의 또 다른 구체적인 실시예에서, 상기 입력된 이미지를 기반으로 생성된 얼굴 속성 정보는 얼굴의 상징적 피처를 사용하여 일관성 손실을 정의하고, 생성적 적대 네트워크에서의 감별부 훈련을 지도한다. 먼저, 생성부는 입력된 제1 이미지를 기반으로 대략적인 제2 이미지를 생성한다. 그 후 생성적 적대 네트워크는 생성된 제2 이미지를 기반으로, 사전 훈련된 회귀량(regressor)을 생성하여 얼굴 경계인 landmark를 예측하고, 얼굴의 키 포인트를 표시한다. 마지막으로, 국부 감별부와 전역 감별부를 통해 제2 이미지 중 제1 이미지에 대응하는 얼굴 피처를 세분화한다. 이 단계에서, landmark의 일관성이 강조되므로, 최종적으로 생성되는 결과가 진짜에 가깝고, 식별 가능하다.
해당 분야의 기술자들은 생성적 적대 네트워크가 훈련 및 응용 단계에서 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용할 수 있음을 이해할 수 있을 것이다. 그 중, 생성적 적대 네트워크를 훈련시킴에 있어서, 입력된 이미지는 입력된 제1 이미지의 샘플일 수 있다. 생성적 적대 네트워크는 입력된 제1 이미지 샘플의 얼굴 속성 정보를 추출하고, 얼굴 속성 정보를 생성적 적대 네트워크의 제약으로 사용하여, 출력된 생성 이미지를 획득한다. 해당 생성적 적대 네트워크를 응용함에 있어서, 입력된 이미지는 입력된 제1 이미지일 수 있다. 생성적 적대 네트워크는 입력된 제1 이미지의 얼굴 속성 정보를 추출하고, 제1 이미지의 얼굴 속성 정보를 생성적 적대 네트워크의 제약으로 사용하여 출력된 제2 이미지를 획득한다.
상술한 생성적 적대 네트워크에 입력되는 제1 이미지는 얼굴을 포함한 이미지일 수 있다. 생성적 적대 네트워크가 출력한 제2 이미지는 스타일 또는 성별이 제1 이미지와 다르면서 얼굴을 포함하는 이미지일 수 있다.
구체적으로, 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴의 키 포인트 및/또는 얼굴의 시맨틱 분할 결과를 제약으로 사용하는 것을 포함한다.
상기 수행 주체는 얼굴 키 포인트 추출 기술을 사용하여, 입력된 이미지의 얼굴 키 포인트를 추출하고, 얼굴 키 포인트를 생성적 적대 네트워크가 출력 이미지를 생성할 때의 제약으로 사용한다. 선택적 또는 추가적으로, 상기 수행 주체는 얼굴 시맨틱 분할 기술을 사용하여, 얼굴의 시맨틱 분할 결과(face semantic segmentation result)를 생성적 적대 네트워크가 출력하는 이미지를 생성할 때의 제약으로 사용한다.
입력된 이미지를 기반으로 생성된 얼굴 키 포인트 및/또는 얼굴의 시맨틱 분할 결과를 제약으로 사용함으로써, 생성부가 입력된 이미지의 이목구비와 출력된 이미지의 이목구비를 연관시키도록 하여, 다른 부위에서 얼굴 피처를 잘못 생성하지 않도록 할 수 있고, 입력된 이미지가 단순히 얼굴 이미지만 입력하는 것에 국한되지 않고 얼굴을 포함하는 보다 큰 이미지가 될수 있도록 하며, 출력된 이미지의 정확도 및 품질을 향상시킬 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 것은, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 것을 포함한다.
본 구현예에서, 가우시안 블러(Gaussian Blur)는 가우시안 스무딩이라고도 지칭되며, 이미지 노이즈를 줄이고 정밀도를 낮춰, 서로 다른 비율 조건 하에서의 이미지 효과(스케일 공간 표현 및 스케일 공간 구현 참조)를 확대시킬 수 있다. 수학적인 관점에서 보면, 이미지의 가우시안 블러 과정은 이미지와 정규 분포에 대해 컨볼루션을 진행하는 것이다. 정규 분포를 가우시안 분포로 지칭되기도 하므로, 이러한 기술 또한 가우시간 블러로 지칭된다.
서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 생성적 적대 네트워크의 입력으로 사용함으로써, 서로 다른 해상도의 제2 이미지를 획득할 수 있으며, 따라서 서로 다른 해상도의 제2 이미지를 기반으로 하여, 필요한 해상도의 제2 이미지를 확정할 수 있다.
선택적으로 또는 추가적으로, 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 것은, 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하고, 큰 것으로 감지될 경우, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 것을 포함한다.
여기서 이미지의 텍스처 피처 파라미터 값은 이미지의 텍스처 피처를 나타내는 파라미터 값이다. 예를 들어, 텍스처의 두께, 밀도, 방향성 등을 포함한다. 제1 이미지의 텍스처 피쳐 파라미터 값이 텍스처 임계치보다 큰 것으로 감지되는 경우는, 제1 이미지의 텍스처가 복잡함을 의미한다. 일반적으로 복잡한 텍스처 이미지를 기반으로 생성된 이미지는 그 내용이 상대적으로 복잡하다. 따라서 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용함으로써, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지에 대해 각각 제2 이미지를 생성하여, 서로 다른 해상도의 제2 이미지를 획득할 수 있다. 그 후, 서로 다른 해상도의 제2 이미지를 기반으로, 필요한 해상도의 제2 이미지를 확정함으로써, 생성된 이미지의 품질을 향상시킬 수 있다.
상기 사전 훈련된 생성적 적대 네트워크는, 웹 크롤러를 사용하여 웹사이트로부터 이미지 샘플을 크롤링하거나 이미지 샘플의 데이터 세트를 직접 획득할 수 있으며, 이러한 이미지 중 각각의 이미지는 얼굴을 포함한다. 그 후, 직접 크롤링에 의한 또는 획득한 이미지 샘플을 직접 생성적 적대 네트워크의 훈련을 위한 이미지 샘플로 삼을 수 있거나; 또는 크롤링하여 얻은 얼굴을 포함한 이미지를 초기 이미지 샘플로 삼아, 초기 이미지 샘플에 추가적인 데이터 처리를 하여 이미지 샘플의 요구에 부합하는 선별된 이미지를 획득하고, 선별된 이미지를 생성적 적대 네트워크의 훈련을 위한 이미지 샘플로 삼는다.
사전 훈련된 생성적 적대 네트워크의 훈련 데이터는 스타일이 일치하고 서로 다른 성별, 다른 각도, 다른 얼굴 크기의 이미지 샘플들을 포함하여야 하므로, 초기 이미지 샘플에 대한 데이터 증강을 진행하여 훈련 데이터 양을 증가시키고 생성적 적대 네트워크의 일반화 능력을 향상시키며, 노이즈 데이터를 증가시키고 생성적 적대 네트워크의 강건성(robustness)을 향상시킬 수 있다. 데이터 증강에는 회전, 평행 이동, 접기, 뒤집기, 확대/축소 및 서로 다른 정도의 가우시안 블러 등의 동작들이 포함될 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 삼는 것을 포함하고, 여기서, 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지와 입력된 이미지의 아래와 같은 이미지: 즉, 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 얼굴의 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 및 머리카락의 바이너리 이미지 1 채널 이미지 중 적어도 하나의 이미지를 포함한다.
본 구현예의 일부 구체적인 예로, 제1 이미지를 기반으로 종래 기술 또는 향후 발전될 기술 중 얼굴 키 포인트를 추출하는 기술을 사용하여 제1 이미지의 얼굴 키 포인트 이미지를 획득할 수 있다. 본원은 이에 대하여 제한하지 않는다. 예를 들어, 능동적 형태 모델(ASM, Active Shape Model), 능동적 외양 모델(AMM, Active Appearance Model), 캐스케이드 형태 회귀 모델 (Cascaded Shape Regression: CRS), 얼굴 얼라인먼트 알고리즘(DAN,Deep Alignment Network) 등을 사용하여 얼굴 키 포인트를 추출할 수 있다. 그런 다음, 얼굴 키 포인트 이미지를 기반으로 얼굴 키 포인트의 RGB 3 채널 이미지 또는 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지를 획득할 수 있다.
제1 이미지를 기반으로. 종래 기술 또는 향후 발전될 기술 중 시맨틱 분할 기술을 이용하여 제1 이미지의 얼굴의 시맨틱 분할 결과를 획득할 수 있으며, 본원은 이에 대하여 제한하지 않는다. 일부 구체적인 예로, 얼굴의 시맨틱 분할 기술은 완전 컨볼루션 신경망 FCN(Fully Convolutional Networks for Semantic Segmentation), 시맨틱 분할 네트워크(SegNet, Semantic Segmentation), 확장 컨볼루션(Dilated Convolutions), 시맨틱 분할(DeepLab(v1, v2, V3 등)), 이미지 분할 모델(RefineNet), 피라미드 장면 파싱 네트워크(PSPNet) 등을 이용하여 제1 이미지를 기반으로 제1 이미지의 얼굴의 시맨틱 분할 결과를 획득할 수 있다. 시맨틱 분할은 목표 감지의 확장이며, 그 출력은 유형에 맞게 구분된 컬러 마스크로, 목표에 대해 더 정확하게 위치를 결정할 수 있고, 목표의 복잡한 형태에 영향을 받지 않는다. 그런 다음, 얼굴의 시맨틱 분할 결과를 기반으로 얼굴의 시맨틱 분할 결과의 RGB 3 채널 이미지 또는 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지를 획득할 수 있다.
제1 이미지를 기반으로, 종래 기술 또는 향후 발전될 기술 중 머리카락 분할 기술의 기술을 이용하여 제1 이미지의 머리카락의 바이너리 이미지 1 채널 이미지를 획득할 수 있으며, 본원은 이에 대하여 제한하지 않는다. 예를 들어, 머리카락 분할 기술을 사용하여, 우선 머리카락 분할 결과를 획득하고, 머리카락 분할 결과를 다시 머리카락의 바이너리 이미지 1 채널 이미지로 변환하는데, 머리카락 분할 결과의 각각의 픽셀 포인트는 바이너리 화상 1 채널로 표시된다.
해당 분야의 기술자라면 사전 훈련된 생성적 적대 네트워크에서 사용하는 다중 채널 얼굴 이미지 샘플은 해당 생성적 적대 네트워크를 이용할 때에 입력된 다중 채널 얼굴 이미지와 서로 적응됨으로써, 훈련을 거친, 이용 시 입력된 다중 채널 얼굴 이미지에 적합한 생성적 적대 네트워크를 획득하도록 함을 이해할 수 있을 것이다.
본 구현예의 얼굴 이미지 생성 방법은, 다중 채널 얼굴 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 입력된 이미지의 세부 사항을 더 풍부하게 하며, 사전 훈련된 생성적 적대 네트워크가 출력하는 제2 이미지의 정확도 및 품질을 향상시킬 수 있다.
단계(204)에서, 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시한다.
본 실시예에서, 상기 수행 주체는 사전 훈련된 생성적 적대 네트워크가 출력한 제2 이미지를 사용자에게 제시할 수 있다.
일 구체적인 실시예에서, 제1 이미지는 실제 얼굴 이미지이고; 제2 이미지는 만화 캐릭터 이미지이다. 여기서 만화 이미지는 벽화, 유화, 카펫 등의 스케치, 밑그림일 수 있고, 캐리커처, 풍자화, 만화 등일 수도 있다.
본 실시예의 일부 선택 가능한 실시예에서, 상기 방법은 사용자에게 제2 이미지를 기설정 시간 동안 제시한 후, 사용자에게 제1 이미지 및 제2 이미지를 동시에 제시하는 단계를 더 포함한다.
본 실시예에서, 상기 수행 주체는 사용자에게 제2 이미지를 기설정된 시간 동안 제시한 후, 제1 이미지 및 제2 이미지를 동시에 사용자에게 제시할 수 있다. 예를 들어, 상기 수행 주체는 제1 이미지 및 제2 이미지를 화면의 좌측 상단 및 우측 하단에 각각 표시할 수 있다. 또는 분할 화면 방식으로 제1 이미지와 제2 이미지를 제시한다. 이로써 사용자는 제1 이미지와 제2 이미지를 편하게 비교하여 볼 수 있고, 상호 작용의 효율성을 향상시킬 수 있다.
본원의 상기 실시예의 이미지 생성 방법은, 생성적 적대 네트워크가 제1 이미지를 기반으로 제2 이미지를 생성하는 과정에서, 제1 이미지의 얼굴 속성 정보를 생성적 적대 네트워크의 제약으로 사용하므로, 생성적 적대 네트워크가 입력된 제1 이미지를 기반으로 제2 이미지를 생성하는 품질, 정확도 및 효율을 향상시키고, 이미지 생성 오류가 발생하는 확률을 낮추어, 생성된 제2 이미지의 타깃성을 향상시킬 수 있다.
이하에서 도 3을 참조하여 본원의 이미지 생성 방법의 응용 상황의 일 예를 설명한다.
도 3에서 도시한 바와 같이, 도 3은 본원의 이미지 생성 방법에 따른 응용 상황의 일 예를 나타낸다.
도 3과 같이, 이미지 생성 방법(300)은 전자 기기(310)에서 실행되고, 이는 아래와 같은 단계들을 포함할 수 있다.
우선, 사용자가 입력한 얼굴을 포함하는 제1 이미지(301)를 수신한다.
다음으로, 사용자에게 제1 이미지(301)를 제시한다.
그 다음, 백엔드에서 제1 이미지(301)를 사전 훈련된 생성적 적대 네트워크(302)에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지(303)를 획득하되, 여기서, 생성적 적대 네트워크(302)는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보(304)를 제한(305)으로 삼는다.
마지막으로, 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지(303)를 획득한 것에 응답하여, 사용자에게 제2 이미지(303)를 제시한다.
상기 도 3에서 도시한 이미지 생성 방법의 응용 상황은 이미지 생성 방법에 대한 예시적인 설명일 뿐, 해당 방법에 대한 제한을 의미하는 것은 아니다. 예를 들어, 상기 도 3에서 도시한 각 단계에서는 보다 세부적인 구현 방법을 추가적으로 채택할 수도 있다. 또한 상기 도 3을 기초로 다양한 이미지 생성 단계를 추가할 수도 있다.
나아가 도 4를 참조하면, 도 4는 본원의 이미지 생성 방법의 또 다른 일 실시예의 흐름도를 개략적으로 나타낸다.
도 4와 같이, 본 실시예의 얼굴 이미지 생성 방법(400)은 아래와 같은 단계들을 포함할 수 있다.
단계(401)에서, 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신한다.
본 실시예에서, 이미지 생성 방법의 수행 주체(예컨대, 도 1에서 도시한 단말기 또는 서버)는 사용자가 상호 작용 상황에서 로컬 또는 원격 앨범, 데이터 베이스로부터 입력한 얼굴을 포함한 제1 이미지를 획득할 수 있으며, 로컬 또는 원격 촬영 서비스를 통해 얼굴을 포함한 제1 이미지를 획득할 수도 있다.
단계(402)에서, 사용자에게 제1 이미지를 제시한다.
본 실시예에서, 이미지 생성 방법의 수행 주체는 종래 기술 또는 향후 발전할 기술 중의 표시 방식을 사용하여 사용자에게 제1 이미지를 제시할 수 있으며, 본원은 이에 대해 제한하지 않는다. 예를 들어, 상기 수행 주체는 표시 스크린에서 사용자에게 제1 이미지를 제시하거나, 또는 일반 프로젝션 기술이나 홀로그램 프로젝션 기술을 사용하여 사용자에게 제1 이미지를 제시할 수 있다.
단계(403)에서, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력한 제2 이미지를 획득한다.
본 실시예에서, 상기 수행 주체는 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여 생성적 적대 네트워크가 출력한 제2 이미지를 획득할 수 있고, 여기서 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용한다.
사전 훈련된 생성적 적대 네트워크란, 생성적 적대 네트워크(GAN, Generative Adversarial Networks)를 기반으로 발전된 딥러닝 모델을 의미한다. 예를 들면, 생성적 적대 네트워크(GAN), 순환 일치 생성적 적대 네트워크(CycleGan), 얼굴 고정밀 속성 편집 모델(AttGAN), 다중 도메인을 위한 이미지 합성(StarGAN), 공간 변환기 생성적 적대 네트워크(STGAN), 듀얼 학습 생성적 적대 네트워크(DualGAN, DiscoGAN) 등이 있다.
단계(404)에서, 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시한다.
본 실시예에서, 상기 수행 주체는 사전 훈련된 생성적 적대 네트워크가 출력한 제2 이미지를 사용자에게 제시할 수 있다.
구체적인 일 예로, 제1 이미지는 실제 얼굴 이미지이고; 제2 이미지는 만화 이미지이다. 여기서 만화 이미지는 벽화, 유화, 카펫 등의 스케치, 밑그림일 수 있고, 캐리커처, 풍자화, 만화 등일 수도 있다.
해당 분야의 기술자들이라면, 상술한 단계(401) 내지 단계(404)는 도 2에서 도시한 실시예의 단계(201) 내지 단계(204)에 해당한다는 것을 이해할 수 있을 것이다. 따라서 도 2에서 도시한 실시예의 단계(201) 내지 단계(204)에서 설명한 동작 및 구성들이 단계(401) 내지 단계(404)에도 마찬가지로 적용되며, 이에 대한 중복된 설명은 생략하기로 한다.
단계(405)에서, 사용자에게 얼굴 스타일 변환 옵션을 제시한다.
본 실시예에서, 상기 수행 주체가 사용자에게 제2 이미지를 제시할 때 또는 사용자에게 제2 이미지를 제시한 후, 사용자에게 얼굴 스타일 변환 옵션을 제시하여 사용자가 스타일 변환 옵션을 선택하도록 함으로써, 생성된 제2 이미지의 스타일을 변환할 수 있다. 예를 들어, 사용자에게 회전 가능한 스타일 변환 옵션 휠을 제시하여 사용자가 휠을 회전하여 원하는 스타일을 선택하도록 할 수 있다.
본 실시예의 일부 선택 가능한 실시예에서, 사용자에게 얼굴 스타일 변환 옵션을 제시하는 단계는, 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하는 것을 포함할 수 있다. 이를 통해 사용자가 주사위 버튼에 대한 클릭을 수신하여 얼굴 스타일을 변환하도록 안내할 수 있다.
단계(406)에서, 변환 옵션에 대한 사용자의 선택 사항을 수신한다.
본 실시예에서, 변환 옵션에 대한 사용자의 선택을 수신하는 것은, 즉 상기 수행 주체가 변환 옵션에 대한 사용자의 선택 사항을 수신하는 것이다.
단계(407)에서, 사용자에게 변환 과정 이미지를 제시한다.
본 실시예에서, 상기 수행 주체는 변환 옵션에 대한 사용자의 선택 사항을 수신한 후, 백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성하고, 사용자에게 변환 과정 이미지를 제시한다. 여기서 변환 과정 이미지란, 변환 과정을 구현할 수 있는 이미지를 의미하는데, 예를 들면 프로세스 바, 동적 변환 이미지 등이 있다.
백엔드에서 이전 단계에서 생성된 제2 이미지와 상이한 제2 이미지를 생성함에 있어서, 제1 이미지의 부분 내용을 수정하는 방식을 통해 상이한 스타일의 새로운 제2 이미지를 획득할 수 있다. 예를 들어, 제1 이미지의 배경 밝기, 명암비 등 파라미터를 수정하고, 수정 후의 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여 새로운 제2 이미지를 획득한다.
본 실시예의 일부 선택 가능한 구현예에서, 상기 주사위 버튼 및 동적인 클릭하는 손 이미지를 사용자에게 제시한 후, 사용자는 주사위 버튼을 클릭할 수 있으며, 상기 수행 주체는 동적인 주사위 흔들기 이미지를 사용자에게 제시할 수 있다. 이를 통해 사용자가 주사위를 클릭해 얼굴 스타일을 변환하도록 직관적으로 안내할 수 있고, 사용자에게 주사위를 클릭한 후의 상호 작용 과정을 직관적으로 제시할 수 있으므로 인간-컴퓨터 상호 작용의 효율을 향상시킬 수 있다.
단계(408)에서, 백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시한다.
본 실시예에서, 상기 수행 주체가 백엔드에서 스타일 변환 후의 제2 이미지를 생성한 경우, 스타일 변환 후의 제2 이미지를 새로운 제2 이미지로써 사용자에게 새로운 제2 이미지를 제시할 수 있다.
사용자에게 새로운 제2 이미지를 제시함에 있어서, 일부 특수 효과를 사용하여 새로운 제2 이미지를 제시할 수 있다. 예를 들어, 아래방향 닦아내기 애니메이션 특수 효과, 원형 사라지기 애니메이션 특수 효과 또는 회적식 사라지기 애니메이션 특수 효과 등 효과로 사용자에게 새로운 제2 이미지를 제시함으로써, 2차 이미지의 변화 과정을 직관적으로 구현할 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 상기 얼굴 이미지 생성 방법은, 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 것을 더 포함한다.
본 구현예에서, 변환 옵션을 제시한 후 기설정 시간 내에 사용자의 저장 옵션 또는 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 이는 사용자가 현재의 제2 이미지에 만족하지 못하며 더 이상 이전의 제1 이미지를 기반으로 스타일을 변환하고 싶지 않음을 의미하며, 이때 수행 주체는 사용자에게 얼굴 이미지를 입력하라는 메시지를 표시하는 단계로 돌아간다. 이로써 사용자의 동작이 필요 없이, 다음 단계의 얼굴 이미지 생성을 위해, 상기 수행 주체는 사용자에게 얼굴을 포함한 새로운 제1 이미지를 입력하도록 즉각적으로 알릴 수 있으므로, 얼굴 이미지를 생성하는 방법의 지능성 및 인간-컴퓨터 상호 작용의 효율을 높일 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 상기 수행 주체는 백엔드에서 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하고, 백엔드에서 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 제1 이미지를 입력할 때에 네트워크 오류를 감지한 것에 응답하여, 사용자에게 네트워크 오류를 알리고 재시도를 요청하는 메시지를 제시하며, 네트워크 오류를 알리고 재시도를 요청하는 메시지를 기설정 시간 동안 제시한 후, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아간다.
본 구현예에서, 상기 수행 주체는 네트워크 오류 발생 시, 사용자에게 네트워크 오류를 알리고 재시도를 요청할 수 있고, 설정된 시간 이후, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 다시 복귀하여, 사용자의 추가 동작이 필요 없이, 다음 단계의 얼굴 이미지 생성을 위해, 상기 수행 주체는 사용자에게 얼굴을 포함한 새로운 제1 이미지를 입력할 것을 즉각적으로 알릴 수 있으므로, 얼굴 이미지를 생성하는 방법의 지능성 및 인간-컴퓨터 상호 작용의 효율을 높일 수 있다.
본 실시예의 일부 선택 가능한 구현예에서, 얼굴 이미지 생성 방법은, 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 시간이 기설정된 시간을 초과한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 단계; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 과정에서 오류가 발생한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 단계; 사용자가 다른 애플리케이션으로 전환하고 다른 애플리케이션으로부터 복귀하는 것에 응답하여, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계 중 적어도 하나를 더 포함한다.
본 구현예에서, 상기 수행 주체가 제2 이미지를 생성하는 시간이 설정 시간을 초과하거나, 제2 이미지를 생성하는 과정에서 요류가 발생한 경우, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 복귀한다. 이와 같이, 사용자에게 재시도할 것을 직관적으로 알림으로써, 상호 작용의 효율을 높일 수 있다.
또한 사용자가 다른 애플리케이션으로 전환하고 다른 애플리케이션에서 복귀할 경우, 상기 수행 주체는 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는데, 이와 같이 사용자의 동작이 필요 없이, 다음 단계의 얼굴 이미지 생성을 위해, 상기 수행 주체는 사용자에게 얼굴을 포함한 새로운 제1 이미지를 입력하도록 즉각적으로 알릴 수 있으므로 얼굴 이미지를 생성하는 방법의 지능성 및 인간-컴퓨터 상호 작용의 효율을 높일 수 있다.
본원의 상기 실시예의 이미지 생성 방법은, 상기 도 2에서 도시한 실시예의 방법과 비교할 경우, 도 2에서 도시한 실시예에 비해, 사용자에게 얼굴 스타일 변환 옵션을 제시하고, 그 후 변환 옵션에 대한 사용자의 선택 사항을 수신하고, 사용자에게 변환 과정 이미지를 보여준 후, 마지막으로 백엔드에서 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하고, 사용자가 생성된 2차원 이미지에 불만족할 경우, 다시 촬영할 필요 없이, 단순한 버튼 클릭으로 바로 2차원 이미지를 다시 생성할 수 있다. 한 장의 원본 이미지는 서로 다른 유형의 2차원 이미지를 생성할 수 있으므로 사용자의 수요에 부합하는 제2 이미지를 생성하는 효율을 향상시킬 수 있다.
본원의 실시예는 상기 각 도면에서 도시한 방법의 구체적인 구현인, 이미지 생성 장치의 일 실시예를 제공하고, 해당 장치 실시예는 도 2 내지 도 4에서 도시한 방법의 실시예에 서로 대응되며, 해당 장치는 구체적으로 상기 도 1에서 도시한 단말기 또는 서버에 적용될 수 있다.
도 5와 같이, 본 실시예의 이미지 생성 장치(500)는, 사용자가 입력한 얼굴이 포함된 제1 이미지를 수신하도록 구성된 제1 이미지 입력 유닛(501); 사용자에게 제1 이미지를 제시하도록 구성된 제1 이미지 표시 유닛(502); 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하도록 구성된 제2 이미지 출력 유닛(503) - 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용함 -; 백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시하도록 구성된 제2 이미지 표시 유닛(504)을 포함할 수 있다.
일부 실시예에서, 장치는 상호 작용 상황에서, 얼굴 변환 지시를 수신하도록 구성된 지시 수신 유닛; 및 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하도록 구성된 메시지 표시 유닛을 더 포함한다(미도시).
일부 실시예에서, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 표시하는 것은, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 것을 포함하고; 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하는 것은, 사용자가 자동 촬영 인터페이스에 얼굴을 입력한 것을 감지한 것에 응답하여, 자동 촬영 기능을 트리거하여 제1 이미지를 획득하는 것을 포함한다.
일부 실시예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 것은, 사용자에게 기설정된 스타일의 프레임 및/또는 사진 촬영 요구 사항을 구비한 자동 촬영 인터페이스를 제시하는 것; 및 촬영 인터페이스에서 얼굴을 감지하지 못한 것에 응답하여, 사용자에게 얼굴을 감지하지 못했다는 알림 메시지를 제시하는 것; 중 적어도 하나를 포함한다.
일부 실시예에서, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 것은, 촬영 인터페이스에서 얼굴을 감지한 것에 응답하여, 사용자에게 자동 촬영 카운트다운을 제시하는 것; 자동 촬영 카운트다운이 종료되는 것에 응답하여, 감지한 얼굴을 촬영하는 것; 자동 촬영 카운트다운 시간 내에 사용자가 얼굴을 입력하지 않은 것에 응답하여, 카운트다운을 종료하고 사용자에게 얼굴을 인식하지 못했다는 알림 메시지를 제시하는 것을 더 포함한다.
일부 실시예에서, 제1 이미지 표시 유닛은, 사용자에게 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 제1 이미지 상에 마스크를 설정하고, 상호 작용 상황에서 얼굴 변환 진행 정도 알림 메시지를 제시하도록 더 구성된다.
일부 실시예에서, 기설정된 스타일의 프레임은 얼굴 변환 진행 정도 알림 메시지의 디자인 스타일과 동일하거나 유사하다.
일부 실시예에서, 제2 이미지 출력 유닛은, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하거나; 또는 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하여, 큰 것으로 감지되는 경우, 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하도록 더 구성된다.
일부 실시예에서, 제2 이미지 출력 유닛에서 사용되는 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 사용하는 것을 포함하고, 여기서, 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지와 입력된 이미지의 아래와 같은 이미지, 즉, 얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 얼굴 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 및 머리카락의 바이너리 이미지 1 채널 이미지 중 적어도 하나의 이미지를 포함한다.
일부 실시예에서, 상기 장치는 사용자에게 제2 이미지를 기설정 시간 동안 제시한 후에 사용자에게 제1 이미지 및 제2 이미지를 동시에 제시하도록 구성된 이미지 동시 표시 유닛을 더 포함한다(미도시).
일부 실시예에서, 상기 장치는 사용자에게 얼굴 스타일 변환 옵션을 제시하도록 구성된 변환 옵션 표시 유닛; 변환 옵션에 대한 사용자의 선택 사항을 수신하도록 구성된 사용자 선택 수신 유닛; 사용자에게 변환 과정 이미지를 제시하도록 구성된 과정 이미지 표시 유닛; 및 백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하도록 구성된 제2 이미지 업데이트 유닛을 더 포함한다(미도시).
일부 실시예에서, 변환 옵션 표시 유닛은 사용자에게 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하도록 더 구성되고; 사용자 선택 수신 유닛은 주사위 버튼에 대한 사용자의 클릭을 수신하도록 더 구성되며; 과정 이미지 표시 유닛은 사용자에게 동적인 흔들리는 주사위 이미지를 제시하도록 더 구성된다.
일부 실시예에서, 제2 이미지 업데이트 유닛은 아래방향 닦아내기 애니메이션 특수 효과로 새로운 제2 이미지를 사용자에게 표시하도록 더 구성된다.
일부 실시예에서, 상기 장치는 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가도록 구성된 메시지 표시 복귀 유닛을 더 포함한다(미도시).
일부 실시예에서, 상술한 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 것은, 백엔드에서 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 것을 포함하고, 또한, 상술한 장치는 백엔드에서 클라우드 서버에 위치한 사전 훈련된 대항 네트워크에 제1 이미지를 입력할 때에 네트워크 오류를 감지한 것에 응답하여, 사용자에게 네트워크 오류를 알리고 재시도를 요청하는 메시지를 제시하고, 네트워크 오류를 알리고 재시도를 요청하는 메시지를 기설정 시간 동안 제시한 후, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가도록 구성된 메시지 표시 복귀 유닛을 더 포함한다.
일부 실시예에서, 상술한 메시지 표시 복귀 유닛은 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 시간이 기설정된 시간을 초과한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 복귀하고; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 과정에서 오류가 발생한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 복귀하며; 사용자가 다른 애플리케이션으로 전환하고 다른 애플리케이션으로부터 복귀하는 것에 응답하여, 사용자에게 얼굴 이미지를 입력하라는 메시지를 표시하는 단계로 되돌아가도록 더 구성된다.
장치(500)에서 도시한 각각의 유닛은 도 2 내지 도 4에서 설명한 방법의 각각의 단계와 서로 대응된다는 것을 이해할 것이다. 따라서, 위의 방법에 대해 설명한 동작 및 구성들은 상기 장치(500) 및 장치(500)에 포함된 각각의 유닛에도 마찬가지로 적용되므로, 이에 대한 중복된 설명은 생략하기로 한다.
이하 도 6을 참고하여, 본원의 실시예를 구현하기에 적합한 전자 기기(예컨대, 도 1의 서버 또는 단말기)(600)의 구조도를 개략적으로 나타낸다. 본원의 실시예의 단말기는 노트북 컴퓨터, 데스크톱 컴퓨터 등을 포함하되 이에 제한되지 않는다. 도 6에 도시한 단말기/서버는 단지 예시에 불과하며 본원의 실시예의 기능 및 사용 범위를 제한하지 않는다.
도 6에 도시한 바와 같이, 전자 기기(600)는 읽기 전용 메모리(ROM; 602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜덤 액세스 메모리(RAM; 603)에 로드된 프로그램에 따라 다양한 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예컨대, 중앙처리장치, 그래픽처리장치; 601)를 포함한다. RAM(603)에는 전자 기기(600) 작업에 필요한 다양한 프로그램과 데이터가 더 저장된다. 처리 장치(601), ROM(602), RAM(603)은 버스(604)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.
일반적으로, 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 액정 모니터(LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 자기 테이프, 하드 디스크 등을 포함하는 저장 장치(608); 및 통신 장치(609)는 I/O 인터페이스(605)에 연결된다. 통신 장치(609)는 전자 기기(600)가 데이터 교환을 위해 다른 기기와 무선 또는 유선으로 통신을 하도록 허용할 수 있다. 도 6에서 다양한 장치를 구비한 전자 기기(600)를 도시하였으나, 반드시 도시한 모든 장치를 구현 또는 구비하여야 하는 것이 아님은 물론이다. 선택적으로 더 많거나 더 적은 장치들을 구현 또는 구비할 수 있다. 도 6에서 도시한 각각의 블록은 하나의 장치를 대표할 수 있고, 수요에 따라 복수의 장치를 대표할 수도 있다.
특히 본원의 실시예에 따라, 위에서 흐름도를 참고하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본원의 실시예는 컴퓨터 판독 가능한 매체에 컴퓨터 프로그램이 탑재된 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 나타낸 방법을 수행하는 프로그램 코드를 포함한다. 이러한 실시예에서 상기 컴퓨터 프로그램은 통신 장치(609)를 통해 네트워크로부터 다운로드 및 설치되고, 또는 저장 장치(608)로부터 설치되거나, 또는 ROM(602)으로부터 설치된다. 중앙처리장치(CPU;1101)에서 상기 컴퓨터 프로그램을 실행할 경우 본원 실시예의 방법에 한정된 상기 기능들이 수행된다. 본원의 실시예에서 설명한 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체이거나 컴퓨터 판독 가능한 저장 매체 또는 상기 두 개의 임의 조합일 수 있다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 빛, 전자, 적외선 또는 반도체의 시스템, 장치 또는 부품 또는 이들의 임의 조합일 수 있으나 이에 제한되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예로 하나 또는 복수의 도선을 갖춘 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 비휘발성 반도체 기억장치(EPROM 또는 플래시 메모리), 광섬유, 읽기용 콤팩트 디스크 기억장치(CD-ROM), 광 메모리, 자기 메모리 또는 이들의 적절한 조합을 포함할 수 있으나 이에 제한되지 않는다. 본원의 실시예에서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의 유형의 매체일 수 있고, 상기 프로그램은 명령어 실행 시스템, 장치 또는 부재에 의해 사용되거나 이들과 결합되어 사용될 수 있다. 본원의 실시예에서, 컴퓨터 판독 가능한 신호 매체는 기저대역에서 또는 반송파의 일 부분으로써 전송되는 컴퓨터 판독 가능한 프로그램 코드를 탑재한 데이터 신호를 포함할 수 있다. 이렇게 전송되는 데이터 신호는 전자기 신호, 광신호 또는 이들의 임의의 적절한 조합을 포함하는 다양한 형식을 사용할 수 있으나 이에 제한되지 않는다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체 외 임의의 컴퓨터 판독 가능한 매체일수도 있으며, 상기 컴퓨터 판독 가능한 매체는 명령어 실행 시스템, 장치 또는 부재에 의해 사용되거나 이들과 결합되어 사용되는 프로그램을 발송, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 전선, 광케이블, RF(주파수) 등 또는 이들의 임의의 적절한 조합을 포함하나 이에 제한되지 않는 임의의 적절한 매체로 전송될 수 있다.
상술한 컴퓨터 판독 가능한 매체는 상술한 전자 기기에 포함된 것일 수 있고; 상기 전자 기기에 장착되지 않고 별도로 존재하는 것일 수도 있다. 상술한 컴퓨터 판독 가능한 매체는 하나 또는 복수의 프로그램을 탑재하고, 상기 전자 기기가 상기 하나 또는 복수의 프로그램을 실행할 경우, 상기 전자 기기가, 사용자가 입력한 얼굴을 포함한 제1 이미지를 수신하고; 사용자에게 제1 이미지를 제시하며; 백엔드에서 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하되, 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속정 정보를 제약으로 사용하며; 벡엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 제2 이미지를 제시하도록 한다.
하나 또는 복수 종류의 프로그래밍 언어 또는 이들의 조합으로 본원 실시예의 작업을 수행하는 컴퓨터 프로그램 코드를 프로그래밍할 수 있고, 상기 프로그래밍 언어는 Java, Smalltalk, C++와 같은 객체를 위한 프로그래밍 언어를 포함하고, C 언어 또는 이와 유사한 절차식 프로그래밍 언어를 더 포함한다. 프로그램 코드는 전부 사용자 컴퓨터에서 실행되거나, 사용자 컴퓨터에서 부분적 실행되거나, 하나의 독립된 소프트웨어 패키지로 실행되거나, 일부는 사용자의 컴퓨터에서 그리고 다른 일부는 원격 컴퓨터에서 실행되거나, 또는 전체적으로 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터와 연관된 환경에서, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의의 네트워크를 통해 사용자 컴퓨터에 연결되거나, 외부 컴퓨터(예컨대, 인터넷 제공업체를 통해 인터넷에 연결됨)에 연결될 수 있다.
도면의 흐름도와 블록도는 본원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 나타낸다. 여기서 흐름도 또는 블록도의 각 블록들은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부를 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 규정된 논리적 기능을 구현하는 실행 가능한 하나 이상의 명령어를 포함한다. 또한 일부 선택적인 실시예에서, 블록도에 표시된 기능이 도면에 표시된 순서와 다른 순서로 작동될 수 있다는 점을 주의하여야 한다. 예를 들어 연속적으로 표시된 두 개의 블록은 사실상 기본적으로 병렬로 수행될 수 있고, 때로는 반대 순서로 수행될 수도 있는데 이는 관련되는 기능에 따라 변경될 수 있다. 블록도 및/또는 흐름도의 각 블록 및 블록도 및/또는 흐름도의 블록 조합은 규정된 기능 또는 동작을 수행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령어 조합으로 구현될 수 있다.
본원 실시예 설명에서 언급한 유닛들은 소프트웨어 방식으로 구현될 수도 있고, 하드웨어 방식으로도 구현될 수 있다. 설명한 유닛은 프로세서에 설치될 수도 있는데, 예를 들어, 프로세스가 제1 이미지 입력 유닛, 제1 이미지 표시 유닛, 제2 이미지 출력 유닛 및 제2 이미지 표시 유닛을 포함하는 것으로 설명할 수 있다. 여기서, 이러한 유닛들의 명칭은 특정 상황에서 상기 유닛 자체에 대한 한정인 것이 아니라, 예를 들어 제1 이미지 입력 유닛을 "사용자가 입력한 얼굴을 포함한 제1 이미지를 수신하는 유닛"으로도 설명할 수 있다.
위 설명은 단지 본원의 비교적 바람직한 실시예와 그에 이용되는 기술 원리를 설명하기 위한 것이다. 해당 분야의 기술자들은 본원에서 언급한 발명 범위가 상술한 기술 특징의 특정 조합으로 구성된 기술적 방안에 국한되지 않으며, 상기 발명의 사상을 벗어나지 않는 한 상술한 기술적 구성 또는 그와 동등한 구성으로 임의 조합하여 기타 기술적 방안을 도출할 수 있음을 이해할 것이다. 예를 들어 상술한 구성과 본원에서 개시되나 이에 제한되지 않는 유사한 기능을 구비한 기술적 구성들을 서로 대체하여 기술적 방안을 구성할 수 있다.

Claims (26)

  1. 얼굴 이미지 생성 방법으로서,
    사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하는 단계;
    사용자에게 상기 제1 이미지를 제시하는 단계;
    백엔드에서 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계로서, 상기 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는, 상기 제2 이미지를 획득하는 단계; 및
    백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 상기 제2 이미지를 제시하는 단계
    를 포함하는, 얼굴 이미지 생성 방법.
  2. 제1항에 있어서,
    상기 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하기 전에, 상기 방법은,
    상호 작용 상황에서 얼굴 변환에 대한 지시를 수신하는 단계; 및
    사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계
    를 더 포함하는, 얼굴 이미지 생성 방법.
  3. 제2항에 있어서,
    사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계는, 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계를 포함하고,
    상기 사용자가 입력한 얼굴을 포함하는 제1 이미지를 수신하는 단계는, 사용자가 얼굴 자동 촬영 인터페이스에 얼굴을 입력한 것을 감지한 것에 응답하여, 자동 촬영 기능을 트리거하여 상기 제1 이미지를 획득하는 단계를 포함하는, 얼굴 이미지 생성 방법.
  4. 제3항에 있어서,
    사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계는,
    사용자에게 기설정된 스타일의 프레임 및/또는 사진 촬영 요구 사항을 구비한 얼굴 자동 촬영 인터페이스를 제시하는 단계; 또는
    얼굴 자동 촬영 인터페이스에서 얼굴을 감지하지 못한 것에 응답하여, 사용자에게 얼굴을 감지하지 못했다는 알림 메시지를 제시하는 단계
    중 적어도 하나를 포함하는, 얼굴 이미지 생성 방법.
  5. 제3항에 있어서,
    상기 사용자에게 얼굴 자동 촬영 인터페이스를 제시하는 단계는,
    얼굴 자동 촬영 인터페이스에서 얼굴을 감지한 것에 응답하여, 사용자에게 자동 촬영 카운트다운을 제시하는 단계;
    자동 촬영 카운트다운이 종료되는 것에 응답하여, 감지한 얼굴을 촬영하는 단계; 및
    자동 촬영 카운트다운 시간 내에 사용자가 얼굴을 입력하지 않은 것에 응답하여, 카운트다운을 종료하고 사용자에게 얼굴을 인식하지 못했다는 알림 메시지를 제시하는 단계
    를 더 포함하는, 얼굴 이미지 생성 방법.
  6. 제4항에 있어서,
    상기 사용자에게 상기 제1 이미지를 제시하는 단계는,
    사용자에게 상기 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 상기 제1 이미지 상에 마스크를 설정하고, 상호 작용 상황에서 얼굴 변환 진행 정도 알림 메시지를 제시하는 단계를 포함하는, 얼굴 이미지 생성 방법.
  7. 제6항에 있어서,
    상기 기설정된 스타일의 프레임은 상기 얼굴 변환 진행 정도 알림 메시지의 디자인 스타일과 동일하거나 유사한 얼굴 이미지 생성 방법.
  8. 제1항에 있어서,
    상기 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계는,
    상기 제1 이미지에 서로 다른 정도의 가우시안 블러(Gaussian blur) 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계; 또는
    상기 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하여, 큰 것으로 감지되는 경우, 상기 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하는 단계
    를 포함하는, 얼굴 이미지 생성 방법.
  9. 제1항에 있어서,
    상기 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 상기 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 사용하는 것을 포함하되, 상기 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지 및 입력된 이미지의,
    얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나;
    얼굴 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 및
    머리카락의 바이너리 이미지 1 채널 이미지
    중 적어도 하나의 이미지를 포함하는, 얼굴 이미지 생성 방법.
  10. 제1항에 있어서,
    사용자에게 상기 제2 이미지를 기설정 시간 동안 제시한 후, 사용자에게 상기 제1 이미지 및 상기 제2 이미지를 동시에 제시하는 단계를 더 포함하는, 얼굴 이미지 생성 방법.
  11. 제2항에 있어서,
    사용자에게 얼굴 스타일 변환 옵션을 제시하는 단계;
    얼굴 스타일 변환 옵션에 대한 사용자의 선택 사항을 수신하는 단계;
    사용자에게 변환 과정 이미지를 제시하는 단계; 및
    백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하는 단계
    를 더 포함하는, 얼굴 이미지 생성 방법.
  12. 제11항에 있어서,
    상기 사용자에게 얼굴 스타일 변환 옵션을 제시하는 단계는, 사용자에게 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하는 단계를 포함하고,
    상기 얼굴 스타일 변환 옵션에 대한 사용자의 선택 사항을 수신하는 단계는, 주사위 버튼에 대한 사용자의 클릭을 수신하는 단계를 포함하며,
    상기 사용자에게 변환 과정 이미지를 제시하는 단계는, 사용자에게 동적인 흔들리는 주사위 이미지를 제시하는 단계를 포함하는, 얼굴 이미지 생성 방법.
  13. 제11항에 있어서,
    상기 사용자에게 새로운 제2 이미지를 제시하는 단계는, 아래방향 닦아내기 애니메이션 특수 효과로 새로운 제2 이미지를 사용자에게 제시하는 단계를 포함하는, 얼굴 이미지 생성 방법.
  14. 제11항에 있어서, 상기 방법은,
    얼굴 스타일 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 얼굴 스타일 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계를 더 포함하는, 얼굴 이미지 생성 방법.
  15. 제2항에 있어서,
    상기 백엔드에서 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계는, 백엔드에서 상기 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 단계를 포함하고,
    상기 방법은, 백엔드에서 상기 제1 이미지를 클라우드 서버에 위치한 사전 훈련된 생성적 적대 네트워크에 입력할 때에 네트워크 오류를 감지한 것에 응답하여, 사용자에게 네트워크 오류를 알리고 재시도를 요청하는 메시지를 제시하고, 네트워크 오류를 알리고 재시도를 요청하는 메시지를 기설정 시간 동안 제시한 후, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계를 더 포함하는, 얼굴 이미지 생성 방법.
  16. 제2항에 있어서, 상기 방법은,
    백엔드에서 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 시간이 기설정된 시간을 초과한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계;
    백엔드에서 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하는 과정에서 오류가 발생한 것에 응답하여, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하고, 사용자에게 생성 실패를 알리고 재시도를 요청하는 메시지를 제시하는 시간이 설정 시간을 만족시킬 경우, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계; 또는
    사용자가 다른 애플리케이션으로 전환하고 다른 애플리케이션으로부터 복귀하는 것에 응답하여, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 제시하는 단계로 되돌아가는 단계
    중 적어도 하나를 더 포함하는, 얼굴 이미지 생성 방법.
  17. 얼굴 이미지 생성 장치로서,
    사용자가 입력한 얼굴이 포함된 제1 이미지를 수신하도록 구성된 제1 이미지 입력 유닛;
    사용자에게 상기 제1 이미지를 제시하도록 구성된 제1 이미지 표시 유닛;
    백엔드에서 상기 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하여, 생성적 적대 네트워크가 출력하는 제2 이미지를 획득하도록 구성된 제2 이미지 출력 유닛; 및
    백엔드에서 생성적 적대 네트워크가 출력한 제2 이미지를 획득한 것에 응답하여, 사용자에게 상기 제2 이미지를 제시하도록 구성된 제2 이미지 표시 유닛을 포함하되,
    상기 생성적 적대 네트워크는 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는, 얼굴 이미지 생성 장치.
  18. 제17항에 있어서,
    상기 제1 이미지 표시 유닛은, 사용자에게 상기 제1 이미지를 기설정 시간 동안 제시한 후, 제시한 상기 제1 이미지 상에 마스크를 설정하고 상호 작용 상황에서 얼굴 변환 진행 정도를 표시하는 알림 메시지를 제시하도록 더 구성되는, 얼굴 이미지 생성 장치.
  19. 제17항에 있어서,
    상기 제2 이미지 출력 유닛은,
    상기 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하거나, 또는
    상기 제1 이미지의 텍스처 피처 파라미터 값이 텍스처 임계치보다 큰지 여부를 감지하여, 큰 것으로 감지되는 경우, 상기 제1 이미지에 서로 다른 정도의 가우시안 블러 처리를 적용하여, 서로 다른 정도의 가우시안 블러 처리를 거친 제1 이미지를 사전 훈련된 생성적 적대 네트워크에 입력하도록 더 구성되는, 얼굴 이미지 생성 장치.
  20. 제17항 또는 제19항에 있어서,
    상기 제2 이미지 출력 유닛에서 사용하는 상기 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 얼굴 속성 정보를 제약으로 사용하는 것은, 상기 생성적 적대 네트워크가 입력된 이미지를 기반으로 생성된 다중 채널 얼굴 이미지를 입력으로 사용하는 것을 포함하고, 여기서 상기 다중 채널 얼굴 이미지는 입력된 이미지의 RGB 3 채널 이미지 및 입력된 이미지의,
    얼굴 키 포인트의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나;
    얼굴 시맨틱 분할 결과의 바이너리 이미지 1 채널 이미지 또는 RGB 3 채널 이미지 중 어느 하나; 또는
    머리카락의 바이너리 이미지 1 채널 이미지
    중 적어도 하나의 이미지를 포함하는, 얼굴 이미지 생성 장치.
  21. 제17항에 있어서,
    사용자에게 얼굴 스타일 변환 옵션을 제시하도록 구성된 변환 옵션 표시 유닛;
    얼구 스타일 변환 옵션에 대한 사용자의 선택 사항을 수신하도록 구성된 사용자 선택 사항 수신 유닛;
    사용자에게 변환 과정 이미지를 제시하도록 구성된 과정 이미지 표시 유닛; 및
    백엔드에서 변환 전의 제2 이미지와 상이한 스타일의 새로운 제2 이미지를 생성한 것에 응답하여, 사용자에게 새로운 제2 이미지를 제시하도록 구성된 제2 이미지 업데이트 유닛
    을 더 포함하는, 얼굴 이미지 생성 장치.
  22. 제21항에 있어서,
    상기 얼굴 스타일 변환 옵션 표시 유닛은 사용자에게 주사위 버튼 및 동적인 클릭하는 손 이미지를 제시하도록 더 구성되고,
    상기 사용자 선택 사항 수신 유닛은 주사위 버튼에 대한 사용자의 클릭을 수신하도록 더 구성되며,
    상기 과정 이미지 표시 유닛은 사용자에게 동적인 흔들리는 주사위 이미지를 제시하도록 더 구성되는, 얼굴 이미지 생성 장치.
  23. 제21항에 있어서,
    상기 제2 이미지 업데이트 유닛은 아래방향 닦아내기 애니메이션 특수 효과로 새로운 제2 이미지를 사용자에게 제시하도록 더 구성되는, 얼굴 이미지 생성 장치.
  24. 제21항에 있어서,
    얼굴 스타일 변환 옵션을 제시한 후 기설정 시간 내에, 사용자의 저장 옵션 또는 상기 얼굴 스타일 변환 옵션에 대한 선택 동작을 수신하지 못할 경우, 상기 사용자에게 얼굴 이미지를 입력하라는 메시지를 다시 제시하도록 구성된 메시지 표시 복귀 유닛을 더 포함하는, 얼굴 이미지 생성 장치.
  25. 전자 기기/단말기/서버로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제16항 중 어느 한 항에 따른 얼굴 이미지 생성 방법을 구현하는, 전자 기기/단말기/서버.
  26. 비일시적인 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제16항 중 어느 한 항에 따른 얼굴 이미지 생성 방법을 구현하는, 비일시적인 컴퓨터 판독 가능한 저장 매체.
KR1020200123809A 2020-01-20 2020-09-24 이미지 생성 방법 및 장치 KR102451198B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010065590.1A CN111260545B (zh) 2020-01-20 2020-01-20 生成图像的方法和装置
CN202010065590.1 2020-01-20

Publications (2)

Publication Number Publication Date
KR20210094451A true KR20210094451A (ko) 2021-07-29
KR102451198B1 KR102451198B1 (ko) 2022-10-05

Family

ID=70948037

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200123809A KR102451198B1 (ko) 2020-01-20 2020-09-24 이미지 생성 방법 및 장치

Country Status (4)

Country Link
US (1) US11463631B2 (ko)
JP (1) JP7084457B2 (ko)
KR (1) KR102451198B1 (ko)
CN (1) CN111260545B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780084A (zh) * 2021-08-11 2021-12-10 上海藤核智能科技有限公司 基于生成式对抗网络的人脸数据扩增方法、电子设备和存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6693684B2 (ja) * 2018-03-29 2020-05-13 三菱電機株式会社 異常検査装置および異常検査方法
CN111738910A (zh) * 2020-06-12 2020-10-02 北京百度网讯科技有限公司 一种图像处理方法、装置、电子设备和存储介质
CN111833242A (zh) * 2020-07-17 2020-10-27 北京字节跳动网络技术有限公司 人脸变换方法、装置、电子设备和计算机可读介质
CN111915526A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种基于亮度注意力机制低照度图像增强算法的摄影方法
US11425121B2 (en) * 2020-12-15 2022-08-23 International Business Machines Corporation Generating an evaluation-mask for multi-factor authentication
US11651525B2 (en) * 2020-12-31 2023-05-16 Accenture Global Solutions Limited Utilizing machine learning models for inserting user-generated content into media content
CN113762015A (zh) * 2021-01-05 2021-12-07 北京沃东天骏信息技术有限公司 一种图像处理方法和装置
KR20230159608A (ko) * 2021-03-30 2023-11-21 스냅 인코포레이티드 포괄적 카메라
US11908071B2 (en) * 2021-10-07 2024-02-20 Google Llc Systems and methods for reconstructing body shape and pose
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
CN114387160B (zh) * 2022-03-23 2022-06-24 北京大甜绵白糖科技有限公司 训练方法、图像的处理方法、装置、电子设备及存储介质
CN115439375B (zh) * 2022-11-02 2023-03-24 国仪量子(合肥)技术有限公司 图像去模糊模型的训练方法和装置以及应用方法和装置
CN116137023B (zh) * 2023-04-20 2023-06-20 中国民用航空飞行学院 基于背景建模和细节增强的低照度图像增强方法
CN117057981B (zh) * 2023-10-10 2024-04-26 广州方图科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN117649695B (zh) * 2024-01-30 2024-04-12 深圳市宗匠科技有限公司 一种人脸图像生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090079844A1 (en) * 2007-09-25 2009-03-26 Masatoshi Suzuki Image pickup apparatus for performing a desireble self-timer shooting and an automatic shooting method using the same
JP2020003906A (ja) * 2018-06-26 2020-01-09 トヨタ自動車株式会社 中間工程状態推定方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457367B1 (en) * 2012-06-26 2013-06-04 Google Inc. Facial recognition
FR3057403B1 (fr) * 2016-10-10 2019-10-18 Citel Composant integrant une varistance thermoprotegee et un eclateur en serie
CN106951867B (zh) * 2017-03-22 2019-08-23 成都擎天树科技有限公司 基于卷积神经网络的人脸识别方法、装置、系统及设备
KR102370063B1 (ko) * 2017-03-28 2022-03-04 삼성전자주식회사 얼굴 인증 방법 및 장치
US10552977B1 (en) * 2017-04-18 2020-02-04 Twitter, Inc. Fast face-morphing using neural networks
CN107577985B (zh) * 2017-07-18 2019-10-15 南京邮电大学 基于循环生成对抗网络的人脸头像卡通化的实现方法
AU2017101166A4 (en) * 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
CN107491771A (zh) * 2017-09-21 2017-12-19 百度在线网络技术(北京)有限公司 人脸检测方法和装置
US10482337B2 (en) * 2017-09-29 2019-11-19 Infineon Technologies Ag Accelerating convolutional neural network computation throughput
JP2019148980A (ja) 2018-02-27 2019-09-05 株式会社サムスン日本研究所 画像変換装置及び画像変換方法
CN108537152B (zh) * 2018-03-27 2022-01-25 百度在线网络技术(北京)有限公司 用于检测活体的方法和装置
CN108550176A (zh) * 2018-04-19 2018-09-18 咪咕动漫有限公司 图像处理方法、设备及存储介质
CN108564127B (zh) * 2018-04-19 2022-02-18 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质
US10607065B2 (en) * 2018-05-03 2020-03-31 Adobe Inc. Generation of parameterized avatars
JP7022668B2 (ja) 2018-09-04 2022-02-18 藤森工業株式会社 粘着剤層付き光学フィルムの製造方法
KR102503939B1 (ko) * 2018-09-28 2023-02-28 한국전자통신연구원 얼굴 이미지 비식별화 장치 및 방법
CN109800732B (zh) * 2019-01-30 2021-01-15 北京字节跳动网络技术有限公司 用于生成漫画头像生成模型的方法和装置
CN110070483B (zh) * 2019-03-26 2023-10-20 中山大学 一种基于生成式对抗网络的人像卡通化方法
US20210019541A1 (en) * 2019-07-18 2021-01-21 Qualcomm Incorporated Technologies for transferring visual attributes to images
CN110503601A (zh) * 2019-08-28 2019-11-26 上海交通大学 基于对抗网络的人脸生成图片替换方法及系统
CN110648294B (zh) * 2019-09-19 2022-08-30 北京百度网讯科技有限公司 图像修复方法、装置及电子设备
CN110706303B (zh) 2019-10-15 2021-05-11 西南交通大学 基于GANs的人脸图像生成方法
US11385526B2 (en) * 2019-11-15 2022-07-12 Samsung Electronics Co., Ltd. Method of processing image based on artificial intelligence and image processing device performing the same

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090079844A1 (en) * 2007-09-25 2009-03-26 Masatoshi Suzuki Image pickup apparatus for performing a desireble self-timer shooting and an automatic shooting method using the same
JP2020003906A (ja) * 2018-06-26 2020-01-09 トヨタ自動車株式会社 中間工程状態推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ruizheng Wu1 et al., ‘Landmark Assisted CycleGAN for Cartoon Face Generation’, arXiv:1907.01424v1 [cs.CV] 2 Jul 2019.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780084A (zh) * 2021-08-11 2021-12-10 上海藤核智能科技有限公司 基于生成式对抗网络的人脸数据扩增方法、电子设备和存储介质

Also Published As

Publication number Publication date
JP7084457B2 (ja) 2022-06-14
CN111260545B (zh) 2023-06-20
KR102451198B1 (ko) 2022-10-05
US20210227152A1 (en) 2021-07-22
JP2021114279A (ja) 2021-08-05
CN111260545A (zh) 2020-06-09
US11463631B2 (en) 2022-10-04

Similar Documents

Publication Publication Date Title
KR102451198B1 (ko) 이미지 생성 방법 및 장치
US11151765B2 (en) Method and apparatus for generating information
US11430247B2 (en) Image generation using surface-based neural synthesis
JP7225188B2 (ja) ビデオを生成する方法および装置
CN111275784B (zh) 生成图像的方法和装置
CN113994384A (zh) 使用机器学习的图像着色
US20220207875A1 (en) Machine learning-based selection of a representative video frame within a messaging application
CN110298850B (zh) 眼底图像的分割方法和装置
US11736717B2 (en) Video compression system
WO2022072328A1 (en) Music reactive animation of human characters
CN111491187A (zh) 视频的推荐方法、装置、设备及存储介质
TW202219831A (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN113642359B (zh) 人脸图像生成方法、装置、电子设备及存储介质
CN111274447A (zh) 基于视频的目标表情生成方法、装置、介质、电子设备
CN115909170A (zh) 深度视频理解方法、装置、设备及可读存储介质
CN113705154A (zh) 基于视频的内容交互方法、装置、计算机设备和存储介质
Newnham Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps
Virmani et al. GAPER: gender, age, pose and emotion recognition using deep neural networks
US11983462B2 (en) Conversation guided augmented reality experience
US20230067305A1 (en) Conversation guided augmented reality experience
Abou Elhasan et al. An Intelligent Assistive System for Healthcare Support to Blind and Alzheimer’s Patients
CN116781846A (zh) 高清虚拟主播视频生成方法、装置、电子设备及存储介质
KR20230125292A (ko) 머신 러닝에 의한 대표 비디오 프레임 선택

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant