KR20210074360A - 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 - Google Patents

이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 Download PDF

Info

Publication number
KR20210074360A
KR20210074360A KR1020217014602A KR20217014602A KR20210074360A KR 20210074360 A KR20210074360 A KR 20210074360A KR 1020217014602 A KR1020217014602 A KR 1020217014602A KR 20217014602 A KR20217014602 A KR 20217014602A KR 20210074360 A KR20210074360 A KR 20210074360A
Authority
KR
South Korea
Prior art keywords
image
feature
feature set
target
target image
Prior art date
Application number
KR1020217014602A
Other languages
English (en)
Other versions
KR102477794B1 (ko
Inventor
이 왕
신 타오
쟈야 쟈
위윙 타이
샤오융 선
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210074360A publication Critical patent/KR20210074360A/ko
Application granted granted Critical
Publication of KR102477794B1 publication Critical patent/KR102477794B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체를 개시한다. 이 방법은 컴퓨팅 장치에 의해 수행되며, 이 방법은, 타깃 이미지를 예측하기 위한 입력 이미지를 수신하는 단계; 입력 이미지의 컨텍스트 특징을 결정하는 단계; 컨텍스트 특징에 따라 그리고 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하는 단계; 조정된 제2 특징 세트를 획득하기 위해, 제1 특징 세트의 제1 특징 통계에 따라 제2 특징 세트를 조정하는 단계; 및 조정된 제2 특징 세트 및 제1 특징 세트에 기초하여 타깃 이미지를 생성하는 단계를 포함한다.

Description

이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
본 출원은 2019년 3월 6일에 중국 특허청에 출원되고 발명의 명칭이 "이미지 처리 방법, 장치, 및 디바이스, 그리고 저장 매체"인 중국 특허 출원 제201910168409.7호의 우선권을 주장하며, 이것은 그 전체가 참조로서 본 명세서 포함된다.
본 출원은 이미지 처리 분야에 관한 것으로, 구체적으로는 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체에 관한 것이다.
인공 지능(Artificial Intelligence, AI)은 인간 지능을 시뮬레이션하고, 확장하며, 그리고 확대하며, 환경을 인식하고, 지식을 획득하며, 그리고 최적 결과를 획득하기 위해 지식을 사용하기 위해 디지털 컴퓨터 또는 디지털 컴퓨터에 의해 제어되는 기계를 사용하는 이론, 방법, 기술 및 응용 시스템이다. 즉, AI는 지능의 본질을 이해하고 인간 지능과 유사한 방식으로 반응할 수 있는 새로운 지능 기계를 생산하고자 하는 컴퓨터 과학의 종합 기술이다. AI는 기계가 인식, 추론 및 의사 결정 기능을 가질 수 있도록 다양한 지능 기계의 설계 원리와 구현 방법을 연구한다.
AI 기술은 포괄적인 규율이며, 하드웨어 수준의 기술과 소프트웨어 수준의 기술을 모두 포함하는 광범위한 분야와 관련이 있다. 기본적인 AI 기술은 일반적으로 센서, 전용 AI 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅데이터 처리 기술, 운영/상호작용 시스템 및 전자 기계 통합과 같은 기술을 포함한다. AI 소프트웨어 기술은 주로 컴퓨터 비전(computer vision, CV) 기술, 음성 처리 기술, 자연어 처리 기술 및 기계 학습/딥러닝(deep learning)과 같은 여러 주요 방향을 포함한다.
CV는 "보기" 위해 기계를 사용하는 방법을 연구하는 과학이며, 인식, 추적 및 타깃에 대한 측정과 같은 기계 비전을 수행하고, 컴퓨터가 타깃을 인간의 눈이 관찰하기에 더 적합한 이미지로 처리하거나, 또는 검출을 위해 기기에 전송된 이미지로 처리할 수 있도록, 그래픽 처리를 추가로 수행하기 위해 인간 눈을 대체하도록 카메라와 컴퓨터를 사용한다. 과학 분야로서, CV는 관련 이론과 기술을 연구하고 이미지 또는 다차원 데이터로부터 정보를 획득할 수 있는 AI 시스템을 구축하려고 한다. CV 기술은 일반적으로 이미지 처리, 이미지 인식, 이미지 시맨틱(semantic) 이해, 이미지 검색, 광학 문자 인식(optical character recognition, OCR), 비디오 처리, 비디오 시맨틱 이해, 비디오 컨텐츠/행동 인식, 3차원 객체 재구성, 3D 기술, 가상 현실, 증강 현실, 동기식 위치 지정 및 지도 구성과 같은 기술을 포함하고, 일반적인 얼굴 인식 및 지문 인식과 같은 생물학적 특징 인식 기술을 추가로 포함한다.
이미지 인페인팅(Image inpainting)은 이미지 특정 영역을 합리적인 요소로 채우는 이미지 편집 기술이다. 예를 들어, 주어진 이미지에 기초하여 이미지 경계를 벗어난 시각적 컨텐츠에 대해 합리적인 예측이 행해질 수 있다. 즉, 부분 이미지 정보에 따라 완전한 이미지 컨텐츠가 생성된다. 그러나, 부분 이미지에 기초한 기존의 이미지 인패인팅 방법은 알려진 부분 이미지와 부분 이미지에 기초한 예측 결과 사이의 제약 관계를 고려하지 않기 때문에, 획득된 인페인팅된 이미지는 시맨틱 정보와 텍스처(texture)에 의해 알려진 부분 이미지와 일관성이 낮다. 따라서, 부분 이미지 정보에 기초하여 보다 완전한 시맨틱 정보와 더 강한 텍스처 일관성을 갖는 이미지가 생성될 수 있도록 향상된 이미지 인페인팅 방법을 제공하는 것이 기대된다.
본 출원의 목적은 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체를 제공하는 것이다. 본 출원에서 제공되는 방법에 따르면, 부분 이미지에 대한 정보에 기초하여 부분 이미지의 경계를 벗어난 영역에서 시맨틱 확장이 수행될 수 있고, 실제 시맨틱 값을 사용한 이미지 인페인팅 효과, 일관된 구조 및 보다 실제적인 텍스처가 획득될 수 있다.
본 출원의 측면에 따르면, 컴퓨팅 장치에 의해 수행되는 이미지 처리 방법이 제공되며, 이 방법은, 타깃 이미지를 예측하기 위한 입력 이미지를 수신하는 단계; 상기 입력 이미지의 컨텍스트(context) 특징을 결정하는 단계; 상기 컨텍스트 특징에 따라 그리고 상기 타깃 이미지의 크기 및 상기 타깃 이미지 내의 상기 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하는 단계; 조정된 제2 특징 세트를 획득하기 위해, 상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하는 단계; 및 상기 조정된 제2 특징 세트 및 상기 제1 특징 세트에 기초하여 상기 타깃 이미지를 생성하는 단계를 포함한다.
본 출원의 다른 측면에 따르면, 이미지 처리 장치가 더 제공되며, 이 장치는, 입력 이미지를 수신하도록 구성된 수신 유닛; 상기 입력 이미지의 컨텍스트 특징을 결정하도록 구성된 컨텍스트 특징 결정 유닛; 상기 컨텍스트 특징에 따라 그리고 타깃 이미지의 크기 및 상기 타깃 이미지 내의 상기 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하도록 구성된 특징 세트 결정 유닛; 조정된 제2 특징 세트를 획득하기 위해, 상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하도록 구성된 조정 유닛; 및 상기 조정된 제2 특징 세트 및 상기 제1 특징 세트에 기초하여 상기 타깃 이미지를 생성하도록 구성된 타깃 이미지 생성 유닛을 포함한다.
본 출원의 다른 측면에 따르면, 이미지 처리를 위한 컴퓨팅 장치가 더 제공되며, 이 컴퓨팅 장치는 메모리 및 프로세서를 포함하며, 상기 메모리는 명령을 저장하고, 상기 명령은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 전술한 방법을 수행하게 한다.
본 출원의 다른 측면에 따르면, 컴퓨터 판독 가능 저장 매체가 더 제공되고, 명령을 저장하며, 상기 명령은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 전술한 방법을 수행하게 한다.
본 출원에서 제공되는 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체에 따르면, 부분 이미지 정보가 완전한 이미지 정보를 획득하기 위해 인페인팅될 수 있다. 알려지지 않은 영역을 나타내기 위한 특징 세트의 요소 값은 알려진 영역을 나타내기 위한 특징 세트의 통계 정보를 사용하여 조정되고, 알려진 영역의 통계는 알려지지 않은 영역으로 전송될 수 있어서, 본 출원에 따른 방법을 사용하여 생성된 예측된 이미지의 컨텐츠가 예측된 이미지에 가장 가까운 알려진 이미지에 대한 정보의 일방향 제약 조건을 초과할 수 있고, 알려진 영역과 알려지지 않은 영역 사이의 컬러/텍스처 일관성이 향상될 수 있다. 또한, 부분 이미지의 컨텍스트 특징이 직접 추출되고, 불필요한 사전 정보가 이미지 인페인팅 중에 도입될 수 없으며, 구조, 시맨틱스, 및 텍스터 측면에서 입력된 부분 이미지와 더 일치하는 인페인팅된 이미지가 생성될 수 있도록 컨텍스트 특징이 입력된 부분 이미지에 대한 정보에 기초하여 완벽하게 결정될 수 있다.
본 출원의 실시예에서 기술적 해결수단을 보다 명확하게 설명하기 위해, 이하에서 실시예를 설명하는 데 필요한 첨부 도면을 간략하게 설명한다. 명백히, 다음 설명에서 첨부된 도면은 단지 본 출원의 일부 실시예를 나타내고, 당업자는 창의적인 노력 없이도 이러한 첨부 도면으로부터 다른 도면을 도출할 수 있다. 다음의 첨부 도면은 의도적으로 실제 크기에 따른 축척으로 도시된 것이 아니며, 본 출원의 주요 아이디어를 보여주고자 한 것이다.
도 1a 및 도 1b는 부분 이미지에 기초한 이미지 처리를 수행하는 예이다.
도 2a는 본 출원의 실시예에 따른 이미지 처리 시스템의 시나리오 도면이다.
도 2b 내지 도 2e는 본 출원의 실시예에 따른 이미지 처리 방법의 응용의 그래픽 사용자 인터페이스이다.
도 3은 본 출원의 실시예에 따른 이미지 처리 장치의 개략도이다.
도 4a 및 도 4b는 본 출원의 실시예에 따른 입력 이미지의 예이다.
도 5는 본 출원의 실시예에 따른 특징 확장 네트워크의 구조이다.
도 6은 본 출원에 따른 심층 신경망에 의해 출력되는 이미지의 적대적 손실을 결정하는 예이다.
도 7은 본 출원의 실시예에 따른 이미지 처리 방법의 개략적인 흐름도이다.
도 8a는 본 출원의 실시예에 따른 이미지 처리의 프로세스이다.
도 8b 내지 도 8j는 본 출원에 따른 이미지 처리 방법의 효과도이다.
도 9는 본 출원의 실시예에 따른 컴퓨팅 장치의 아키텍처이다.
본 출원의 실시예의 목적, 기술적 해결수단 및 이점을 보다 이해하기 쉽게 하기 위해, 이하에서 본 출원의 실시예의 첨부 도면을 참조하여 본 출원의 실시예의 기술적 해결수단을 명확하고 완전하게 설명한다. 물론, 설명된 실시예는 본 출원의 모든 실시예가 아니라 일부이다. 본 출원의 실시예에 기초하여 당업자가 창의적인 노력없이 획득한 다른 모든 실시예는 본 출원의 보호 범위에 속한다.
달리 정의되지 않는 한, 본 출원에서 사용되는 기술 용어 또는 과학 용어는 본 출원의 당업자에 의해 이해되는 일반적인 의미를 갖는다. 본 출원에서 사용되는 "제1", "제2" 및 유사한 용어는 어떠한 순서, 수량 또는 중요성을 나타내지 않지만, 서로 다른 컴포넌트를 구별하는 데만 사용된다. 마찬가지로, "포함한다", "포함하는" 또는 유사한 용어는 용어 전에 나타나는 요소 또는 아이템이 용어 또는 그들의 등가물 후에 나열된 요소 또는 아이템을 커버하지만, 다른 요소나 아이템을 배제하는 것은 아님을 의미한다. "연결", "링크" 등은 물리적 또는 기계적 연결에 국한되지 않고, 직접적이든 간접적이든 전기적 연결 또는 신호 연결을 포함할 수 있다.
도 1a 및 도 1b는 부분 이미지에 기초하여 이미지 처리를 수행하는 예이다. 도면에 도시된 바와 같이, 사람이나 동물의 이미지는 완전한 인페인팅된 이미지를 획득하기 위해 이미지 인페인팅 알고리즘을 사용함으로써 부분 얼굴, 신체 등에 대한 정보에 기초하여 인페인팅될 수 있다. 완전한 인페인팅된 이미지의 한 부분은 알려진 부분 이미지가고, 다른 부분은 부분 이미지에 대한 예측을 수행함으로써 획득된 예측된 이미지가다.
예측된 이미지가 부분 이미지에 기초하여 생성되기 때문에, 예측된 이미지는 고유하게 결정되지 않는다는 것이 이해될 수 있다. 예측된 이미지의 시맨틱 정보가 실제적일 수 있고 텍스처 정보가 부분 이미지의 것과 유사한 것으로 가정되면 이미지 인페인팅의 효과는 양호한 것으로 간주될 수 있다.
예를 들어, 도 1a에 도시된 바와 같이, 완전한 사람 초상화 또는 동물 얼굴의 이미지를 생성하기 위해 부분적인 사람 얼굴 또는 동물 얼굴의 이미지가 인페인팅될 수 있다.
다른 예에서, 도 1b의 세 가지 예의 경우, 부분 신체 정보 인페인팅을 통해 동물 또는 사람의 완전한 신체가 획득될 수 있다. 도 1b에서 알 수 있는 바와 같이, 인페인팅된 새 정보는 머리, 입, 꼬리와 같은 원래의 부분 이미지에는 포함되지 않는 시맨틱 정보를 포함하고, 이미지 인페인팅을 통해 생성된 새의 신체 부위 또는 배경 부분의 텍스처 정보는 또한 부분 이미지에서 대응하는 텍스처와 높은 일관성을 갖는다.
유사하게, 도 1b의 사람 신체 인페인팅의 예의 경우, 부분 이미지가 사람의 머리와 어깨에 대한 정보만을 포함하더라도, 부분 정보 텍스처에 일관되는 완전한 사람 신체 이미지가 본 출원에서 제공되는 이미지 처리 알고리즘을 사용하여 생성될 수 있다.
당압자라면, 이미지 인페인팅에 대해, 완전한 이미지를 생성하기 위해 부분 이미지의 컨텐츠 정보를 제한할 필요가 없음을 이해할 수 있다. 부분 이미지는 명확한 시맨틱 정보를 가질 수 있거나, 또는 텍스처 이미지일 수 있다. 이미지 인페인팅 알고리즘이 서로 다른 시맨틱을 갖는 이미지 인페인팅에 적용될 수 있도록 당업자는 실제 상황에 따라 이미지 인페인팅 알고리즘의 파라미터를 조정할 수 있다.
도 2a는 본 출원에 따른 이미지 처리 시스템의 시나리오 도면이다. 도 2a에 도시된 바와 같이, 이미지 처리 시스템(100)은 하나 이상의 사용자 단말(110), 하나 이상의 네트워크(120), 하나 이상의 서버 장치(130) 및 하나 이상의 데이터베이스(140)를 포함할 수 있다.
일부 실시예에서, 사용자 단말(110)은 컴퓨터(110-1), 휴대폰(120-1) 등을 포함할 수 있으나 이에 제한되지 않는다. 사용자 단말은 임의의 다른 유형의 전자 장치일 수 있으며, 노트북, 태블릿 컴퓨터, 스마트 홈 장치, 웨어러블 장치 등을 포함하지만 이에 제한되지는 않는다는 것이 이해될 수 있다. 본 출원에 따르면, 사용자 단말은 입력 이미지로서 이미지 인페인팅을 위한 원래의 부분 이미지에 대한 정보를 수신하도록 구성될 수 있다. 일부 실시예에서, 사용자 단말은 입력 이미지를 수신하고 사용자 단말의 처리 유닛을 사용하여 입력 이미지에 대한 이미지 인페인팅을 수행하도록 구성될 수 있다. 예를 들어, 사용자 단말은 내장 메모리에 저장된 알고리즘 및 데이터를 사용하여 입력 이미지에 대한 이미지 인페인팅 알고리즘을 수행할 수 있다. 일부 구현에서, 사용자 단말은 내장된 애플리케이션 프로그램을 사용하여 이미지 인페인팅을 수행할 수 있다. 일부 다른 구현에서, 사용자 단말은 외부 데이터베이스에 저장된 이미지 인페인팅 프로그램을 호출하여 이미지 인페인팅을 수행할 수 있다.
일부 다른 실시예에서, 사용자 단말은 입력 이미지를 수신하고, 네트워크(120)를 통해 입력 이미지를 서버 장치(130)로 전송하도록 구성될 수 있고, 서버 장치(130)는 이미지 처리 또는 이미지 인페인팅을 수행한다. 일부 구현에서, 서버 장치(130)는 내장된 애플리케이션 프로그램을 사용하여 이미지 인페인팅을 수행할 수 있다. 일부 다른 구현에서, 서버 장치(130)는 외부 데이터베이스에 저장된 이미지 인페인팅 프로그램을 호출하여 이미지 인페인팅을 수행할 수 있다.
네트워크(120)는 단일 네트워크 또는 복수의 상이한 네트워크의 조합일 수 있다. 예를 들어, 네트워크(120)는 근거리 통신망, 광역 네트워크, 공용 네트워크, 사설 네트워크 등 중 하나 또는 일부의 조합을 포함할 수 있지만, 이에 제한되는 것은 아니다.
서버 장치(130)는 독립적인 서버 장치, 또는 서버 장치 그룹일 수 있으며, 그룹 내의 서버 장치는 유선 또는 무선 네트워크를 통해 연결될 수 있다. 서버 장치 그룹은 중앙 집중화될 수 있다. 예를 들어, 서버 장치는 데이터 센터일 수 있다. 서버 장치(130)는 로컬 또는 원격일 수 있다.
데이터베이스(140)는 일반적으로 저장 기능이 있는 장치를 지칭할 수 있다. 데이터베이스(140)는 주로 사용자 단말로부터 수신되는 데이터와 작업시 서버 장치(130)에 의해 출력되고, 생성되며, 사용되는 데이터를 저장하도록 구성된다. 데이터베이스(140)는 다양한 메모리, 예를 들어 랜덤 액세스 메모리(random access memory, RAM), 읽기 전용 메모리(read-only memory, ROM)일 수 있다. 상기한 저장 장치는 단지 예시일 뿐이며, 시스템에서 사용될 수 있는 저장 장치는 이들로만 제한되지 않는다.
데이터베이스(140)는 네트워크(120)에 연결되거나 네트워크(120)를 사용하여 통신할 수 있거나, 또는 서버 장치(130) 또는 서버 장치의 일부에 직접 연결되거나 또는 이들을 통해 통신할 수 있거나, 또는 두 가지 방식의 조합일 수 있다.
도 2a에서 제공되는 이미지 처리 시스템에 따르면, 인페인팅될 입력 이미지는 사용자 단말에 의해 수신될 수 있다. 예를 들어, 사용자는 사용자 단말기에 설치된 카메라를 사용하여 입력 이미지로서 이미지를 캡처할 수 있다. 다른 예로, 사용자는 네트워크를 통해 사진을 입력 이미지로 다운로드하거나 사용자 장비의 저장 유닛으로부터 입력 이미지를 읽을 수 있다. 이미지 인페인팅은 사용자 단말의 처리 유닛을 사용하여 결정된 입력 이미지에 대해 수행될 수 있거나, 또는 사용자 단말은 네트워크(120)를 통해 인페인팅될 입력 이미지를 서버 장치로 전송하며, 그 후 서버 장치가 이미지 인페인팅을 수행한다. 이하 이미지 처리 방법의 프로세스에 대해 상세히 설명하며, 본 출원에서, 이미지 처리는 이미지 인페인팅을 포함할 수 있으나 이에 한정되지는 않는다.
도 2b 내지 도 2e는 본 출원의 실시예에 따른 이미지 처리 방법의 적용의 그래픽 사용자 인터페이스이다.
상기한 바와 같이, 본 출원에서 제공되는 이미지 인페인팅 방법은 사용자 단말에 의해 수행될 수 있다. 도 2b에 도시된 바와 같이, 사용자는 사용자 단말에 내장된 프로그램을 사용하여 인페인팅을 위한 부분 이미지를 선택할 수 있다. 예를 들어, 사용자는 도 2b에서 "화상 추가"의 "십자" 심볼을 클릭하고 인페인팅될 입력 이미지를 입력할 수 있다. 예를 들어, 사용자는 로컬 저장 유닛에서 인페인팅될 입력 이미지를 선택하거나 또는 사용자 단말의 이미지 획득 장치를 사용하여 인페인팅될 입력 이미지를 획득할 수 있다. 도 2c는 사용자가 인페인팅될 입력 이미지를 입력한 후 그래픽 사용자 인터페이스의 결과를 도시한다.
일부 실시예에서, 사용자는 타깃 이미지, 즉 인페인팅된 후에 획득되는 이미지의 크기를 추가로 입력할 수 있다. 도 2d에 도시된 바와 같이, 사용자는 타깃 이미지의 크기를 결정하기 위해 "상부(upper)", "하부(down)", "왼쪽(left)" 및 "오른쪽(right)"의 4개의 파라미터를 입력할 수 있다. 4개의 파라미터는 각각 입력 이미지의 상부 에지와 타깃 이미지의 상부 에지 사이의 거리, 입력 이미지의 하부 에지와 타깃 이미지의 하부 에지 사이의 거리, 입력 이미지의 왼쪽 에지와 타깃 이미지의 왼쪽 에지 사이의 거리, 및 입력 이미지의 오른쪽 에지와 타깃 이미지의 오른쪽 에지 사이의 거리를 나타낸다.
상기한 바와 같이, 이미지 인페인팅 프로세스는 사용자 단말을 사용하여 수행될 수 있다. 다르게는, 입력 이미지는 네트워크를 통해 서버 장치로 전송될 수 있고, 서버 장치가 이미지 인페인팅 프로세스를 수행한다. 도 2e는 본 출원의 실시예에 따른 방법을 사용하여 획득된 타깃 이미지의 결과 도면이다. 도 2e에 도시된 이미지는 도 2c에 도시된 부분 이미지에 따라 생성되고, 이미지는 부분 이미지의 텍스처 정보 및 보다 완전한 시맨틱 정보와 일치하는 텍스처 정보를 갖는다.
당업자라면, 도 2b 내지 도 2e가 본 출원에 따른 이미지 인페인팅 방법을 구현하기 위한 그래픽 사용자 인터페이스만을 도시하고 있음을 이해할 수 있을 것이다. 실제로, 당업자는 어떠한 방식으로든 사용자의 요청에 응답하여 부분 이미지를 인페인팅할 수 있다. 본 출원은 이에 제한되지 않는다.
도 3은 본 출원에 따른 이미지 처리 장치의 개략도이다. 도 3에 도시된 이미지 인페인팅 장치는 도 2a에 도시된 사용자 단말 또는 서버 장치로서 구현될 수 있다.
이미지 인페인팅 장치(300)는 수신 유닛(310), 컨텍스트 특징 결정 유닛(320) 및 컨텍스트 예측 유닛(330)을 포함할 수 있다. 컨텍스트 예측 유닛(330)은 타깃 이미지를 생성하기 위해 컨텍스트 특징 결정 유닛에 의해 결정된 컨텍스트 특징에 따라 예측을 수행하도록 구성된다. 도 3에 도시된 바와 같이, 컨텍스트 예측 유닛은 특징 세트 결정 유닛(331), 조정 유닛(332) 및 타깃 이미지 생성 유닛(333)을 더 포함할 수 있다. 도 3에 명확하게 도시되지는 않았지만, 당업자라면 도 3에 도시된 특징 세트 결정 유닛(331), 조정 유닛(332) 및 타깃 이미지 생성 유닛(333)이 본 출원의 원리에 따라 독립적인 유닛으로 설정될 수 있거나, 또는 통합 모듈로 설정될 수 있음을 이해할 수 있다.
수신 유닛(310)은 입력 이미지를 수신하도록 구성될 수 있다. 도 4a 및 도 4b는 입력 이미지의 두 가지 예를 도시한다. 도시된 이미지는 거리 풍경을 포함한다. 도 4b에 도시된 이미지는 텍스처 이미지를 포함한다. 도 4a 및 도 4b는 입력 이미지의 두 가지 가능한 예일 뿐임이 이해될 수 있다. 작동 중에, 입력 이미지는 임의 유형의 이미지 정보를 포함할 수 있다. 이는 본 출원에서 제한되지 않는다.
여전히 도 3을 참조하면, 컨텍스트 특징 결정 유닛(320)은 입력 이미지의 컨텍스트 특징을 결정하도록 구성될 수 있다. 일부 실시예에서, 컨텍스트 특징 결정 유닛은 심층 신경망일 수 있으며, 본 출원에서, 컨텍스트 특징 결정 유닛은 다르게는 특징 확장 네트워크로 지칭될 수 있고, 특징 확장 네트워크는 컨볼루션 계층 및 풀링 계층을 포함하며, 입력 이미지에 대해 컨볼루션 처리를 수행하고 입력 이미지의 컨텍스트 특징을 결정하도록 구성될 수 있다. 예를 들어, 특징 확장 네트워크는 컨볼루션 계층 및 풀링 계층에 의해 형성된 인코딩 유닛, 컨볼루션 계층을 딜레이션(dilation)하여 형성된 딜레이션 유닛, 및 컨볼루션 계층과 풀링 계층에 의해 형성되는 디코딩 유닛이자 또한 딜레이션 비율이 1보다 큰 컨볼루션을 지칭하는 컨볼루션을 딜레이팅한 인코딩 유닛에 대응하는 디코딩 유닛을 포함할 수 있다.
일부 실시예에서, 입력 이미지는 특징 확장 네트워크로 직접 입력될 수 있고, 특징 확장 네트워크의 출력은 입력 이미지의 컨텍스트 특징으로 사용된다. 입력 이미지가 특징 확장 네트워크를 사용하여 직접 처리되는 경우, 특징 확장 네트워크에 의해 출력되는 컨텍스트 특성은 입력 이미지에 대한 정보에 기초하여 완전히 생성되지만 어떠한 의미없는 사전 정보를 포함하지 않는 것으로 간주될 수 있다.
일부 다른 실시예에서, 특징 확장 네트워크의 입력은 타깃 이미지의 크기 정보를 포함할 수 있다. 일부 예에서, 입력 이미지는 인페이팅될 타깃 이미지의 크기 및 타깃 이미지에서 입력 이미지의 위치에 따라 조정될 수 있으며, 그 다음, 조정된 입력 이미지는 특징 확장 네트워크로 입력되고, 특징 확장 네트워크의 출력은 입력 이미지의 컨텍스트 특징으로 사용된다. 예를 들어, 입력 이미지의 크기가 64*64 픽셀인 경우, 타깃 이미지의 크기는 128*128 픽셀이고, 입력 이미지는 타깃 이미지의 중앙에 위치하는 것으로 알려져 있으며, 입력 이미지의 크기는 픽셀을 추가함으로써 128*128로 조정될 수 있다. 조정된 입력 이미지의 중앙 위치에 있는 픽셀은 원래의 입력 이미지의 대응하는 픽셀의 값이고, 나머지 추가된 픽셀 값은 랜덤 값이거나 또는 0, 1, 또는 임의의 다른 가능한 값과 같은 미리 정의된 값일 수 있다.
일부 실시예에서, 입력 이미지의 픽셀 값은 심층 신경망의 계산 부하를 줄이기 위해 선형 매핑을 통해 -1 내지 1로 조정될 수 있다.
특징 세트 결정 유닛(331)은 컨텍스트 특징에 따라 그리고 타깃 이미지의 크기 및 타깃 이미지에서 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하도록 구성될 수 있다. 제1 특징 세트는 타깃 이미지에서 입력 이미지의 위치에 대응하는 컨텍스트 특징의 요소에 의해 형성된 세트일 수 있고, 제2 특징 세트는 타깃 이미지에서 예측된 이미지의 위치에 대응하는 컨텍스트 특징의 요소에 의해 형성된 세트일 수 있다.
일부 실시예에서, 특징 세트 결정 유닛(331)은 심층 신경망으로서 구현될 수 있다. 예를 들어, 컨텍스트 특징은 완전한 타깃 이미지를 표현하기 위한 특징 세트를 획득하기 위해 심층 신경망을 사용하여 처리될 수 있고, 제1 특징 세트 및 제2 특징 세트는 타깃 이미지의 크기, 입력 이미지의 크기, 타깃 이미지에서 입력 이미지의 위치에 기초하여 처리된 컨텍스트 특징에서 결정된다. 예를 들어, 특징 세트 결정 유닛은 컨볼루션 계층 및/또는 딜레이팅된 컨볼루션 유닛에 의해 형성된 인코딩 유닛을 포함할 수 있다.
구현에서, 컨텍스트 특징이 컨텍스트 특징 결정 유닛을 사용하여 입력 이미지를 직접 처리함으로써 결정되는 경우, 예측된 이미지의 영역을 지시하기 위한 위치 특징은 타깃 이미지의 크기 및 타깃 이미지에서 입력 이미지의 위치에 기초하여 결정될 수 있고, 위치 특징 및 컨텍스트 특징은 결합된 컨텍스트 특징을 획득하기 위해 결합된다. 이 경우, 특징 세트 결정 유닛(331)은 심층 신경망을 사용하여 결합된 컨텍스트 특징을 처리할 수 있고, 결합 컨텍스트 특징은 제1 특징 세트 및 제2 특징 세트를 결정하기 위해 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 특징 세트 결정 유닛을 사용하여 처리(예를 들어, 인코딩)될 수 있다.
조정 유닛(332)은 제1 특징 세트의 제1 특징 통계에 따라 제2 특징 세트를 조정하도록 구성될 수 있다. 상기한 바와 같이, 제1 특징 세트는 타깃 내의 입력 이미지의 위치에 대응하는 요소를 포함하고, 제2 특징 세트는 타깃 이미지에서 입력 이미지가 아닌 예측된 이미지의 위치에 대응하는 요소를 포함한다. 따라서, 제1 특징 세트의 요소는 타깃 이미지의 알려진 영역에서 입력 이미지의 특징을 나타내기 위해 사용될 수 있고, 제2 특징 세트의 요소는 타깃 이미지의 알 수 없는 영역에 있는 예측된 이미지의 특징을 나타내는 데 사용될 수 있다. 본 출원의 원리에 따라, 제1 특징 집합의 제1 특징 통계가 결정될 수 있고, 제2 특징 세트의 요소의 값은 제1 특징 통계에 따라 조정될 수 있으며, 알려진 영역에 있는 특징의 통계적 특성은 알 수 없는 영역에 있는 특징으로 전달될 수 있으므로, 최종 생성된 예측된 이미지의 컨텐츠가 예측된 이미지에 가장 가까운 알려진 이미지에 대한 정보의 단방향 제약 조건을 초과할 수 있고, 알려진 영역과 알 수 없는 영역 사이의 컬러/텍스처 일관성이 강화될 수 있다.
일부 실시예에서, 제1 특징 통계는 제1 특징 집합의 모든 요소에 대한 통계일 수 있다. 제1 특징 세트의 요소의 평균값, 표준 편차, 분산 중 적어도 하나가 제1 특징 통계로서 사용될 수 있다. 본 출원의 원리를 벗어나지 않으면서, 당업자는 제1 특징 통계를 결정하기 위한 방법을 임의로 선택할 수 있음이 이해될 수 있다. 예를 들어, 제1 특징 세트의 샘플 평균값, 샘플 분산 또는 샘플 범위와 같은 통계가 다르게는 제1 특징 통계로서 사용될 수 있다.
일부 실시예에서, 조정 유닛(332)은 조정된 제2 특징 세트의 제2 특징 통계가 제1 특징 통계와 동일하고, 제2 특징 통계가 제2 특징 세트의 요소의 통계일 수 있도록 제2 특징 세트의 요소의 값을 조정하도록 추가로 구성된다. 예를 들어, 제1 특징 통계가 제1 특징 세트의 요소의 평균값과 표준 편차인 경우, 제2 특징 세트의 각각의 요소의 값은 조정된 제2 특징 세트의 요소의 평균값과 표준 편차가 제1 특징 통계와 동일할 수 있도록 조정된 제2 특징 세트를 획득하기 위해 다음의 수학식에 기초하여 조정될 수 있다.
Figure pct00001
여기서 x1은 제2 특징 세트를 나타내고, x2는 제1 특징 세트를 나타낸다.
Figure pct00002
는 제1 특징 세트의 요소의 평균값을 나타내고,
Figure pct00003
는 제1 특징 세트의 요소의 표준 편차를 나타낸다.
Figure pct00004
는 제2 특징 세트의 요소의 평균값을 나타내고,
Figure pct00005
는 제2 특징 세트의 요소의 표준 편차를 나타낸다. AdaIN(x1, x2)은 조정된 제2 특징 세트의 특징 통계가 제1 특징 세트의 특징 통계와 동일하도록 제2 특징 세트 x1의 요소의 값이 제1 특징 세트 x2의 특징 통계에 기초하여 조정된 것이다.
또한, 조정 유닛(332)은 조정된 제2 특징 세트의 각각의 요소에 대해, 각각의 요소의 값을 조정되지 않은 제2 특징 세트의 각각의 요소 값의 가중 평균값 및 조정된 제2 특징 세트의 각각의 요소 값으로 추가로 조정하도록 추가로 구성될 수 있다. 조정되지 않은 요소 값의 가중치 및 조정된 요소 값의 가중치는 본 출원에서 제한되지 않는다. 구체적으로, 조정되지 않은 제2 특징 세트의 각각의 요소의 가중치는
Figure pct00006
일 수 있고, 조정된 제2 특징 세트의 각각의 요소의 가중치는 1-
Figure pct00007
이며,
Figure pct00008
는 0보다 크거나 같고 1보다 작거나 같은 임의의 값일 수 있다. 예에서,
Figure pct00009
는 0.5와 같을 수 있다.
조정 유닛을 사용함으로써, 조정된 제2 특징 세트 및 제1 특징 세트에 의해 형성된 조정된 타깃 특징은 다음과 같이 표현될 수 있으며,
Figure pct00010
여기서
Figure pct00011
Figure pct00012
는 각각 입력 이미지에 대응하는 알려진 영역과 예측된 이미지에 대응하는 알려지지 않은 이미지 영역을 나타내고, f는 결합된 위치 특징과 컨텍스트 특징을 처리하여 결정된 타깃 특징을 나타내며,
Figure pct00013
는 0 내지 1의 값을 갖는 미리 정의된 파라미터이고, M은 f(X)의 일정한 크기를 갖는 마스크 매트릭스이며, M에서 0은 알려진 영역을 지시하는 데 사용될 수 있고, 1은 예측 영역을 지시한다. μ와 σ는 계산된 평균값 및 표준 편차를 나타낸다.
타깃 이미지 생성 유닛(333)은 추가로 조정된 제2 특징 세트 및 제1 특징 세트에 기초하여 타깃 이미지를 생성하도록 구성될 수 있으며, 타깃 이미지는 입력 이미지 및 예측된 이미지에 의해 형성된다. 상기한 바와 같이, 제1 특징 세트는 타깃 이미지에서 입력 이미지의 위치에 대응하는 요소를 포함하고, 제2 특징 세트는 타깃 이미지에서 입력 이미지가 아닌 예측된 이미지의 위치에 대응하는 요소를 포함한다. 따라서, 완전한 타깃 이미지의 특징 세트는 제1 특징 세트와 조정된 제2 특징 세트를 결합하여 결정될 수 있다. 일부 실시예에서, 타깃 이미지 생성 유닛(333)은 컨볼루션 계층과 풀링 계층에 의해 형성된 심층 신경망, 예를 들어 컨벌루션 계층에 의해 구현된 디코딩 유닛으로 구현될 수 있다. 조정된 제2 특징 세트 및 제1 특징 세트에 의해 형성된 타깃 특징은 심층 신경망을 사용하여 처리되고, 예측된 이미지를 포함하는 타깃 이미지가 출력될 수 있다.
본 출원에서 제공되는 이미지 인페인팅 장치에 따르면, 알려지지 않은 영역을 나타내기 위한 특징 세트의 요소 값은 알려진 영역을 나타내기 위한 특징 세트의 통계 정보를 사용하여 조정되고, 알려진 영역의 통계는 알려지지 않은 영역으로 전송될 수 있으므로, 본 출원에 따른 방법을 사용하여 생성된 예측된 이미지의 내용은 예측된 이미지에 가장 가까운 알려진 이미지에 대한 정보의 단방향 제약을 초과할 수 있고, 알려진 영역과 알려지지 않은 영역 사이의 컬러/텍스처 일관성이 향상될 수 있다.
또한, 본 출원과 일치하는 실시예에서, 부분 이미지의 컨텍스트 특징은 직접 추출되고, 불필요한 사전 정보는 이미지 인페인팅 중에 도입되지 않을 것이며, 컨텍스트 특징은 입력된 부분 이미지에 대한 정보에 기초하여 완전히 결정될 수 있으므로, 구조, 시맨틱 및 텍스처에 의해 입력된 부분 이미지와 더 일관성이 있는 인페인팅된 이미지가 생성될 수 있다.
도 5는 본 출원의 실시예에 따른 특징 확장 네트워크의 구조이다. 도 5에 도시된 바와 같이, 특징 확장 네트워크(500)는 인코딩 유닛(501), 딜레이션 유닛(502) 및 디코딩 유닛(503)을 포함할 수 있다. 딜레이션 유닛(502)은 인코딩 유닛(501)과 디코딩 유닛(503) 사이에 연결된다.
본 출원의 실시예에서, 인코딩 유닛(501)은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 풀링 계층을 포함할 수 있으며, 특징 확장 네트워크의 입력을 인코딩하도록 구성된다. 일부 실시예에서, 인코딩 유닛에 의해 출력된 특징 맵의 크기는 특징 확장 네트워크의 입력 이미지의 크기보다 작고, 인코딩 유닛에 의해 출력된 특징 맵의 채널의 개수는 특징 확장 네트워크의 입력 이미지의 채널 개수보다 많다.
딜레이션 유닛(502)은 특징 맵에서 컨텍스트 정보를 추가로 획득하도록 구성될 수 있다. 예를 들어, 딜레이션 유닛(502)은 컨볼루션 계층을 딜레이팅함으로써 형성된 네트워크 구조로 구현될 수 있다. 딜레이팅된 컨볼루션 계층은 1보다 큰 딜레이션 비율을 갖는 컨볼루션 계층으로 지칭한다. 딜레이션 유닛(502)은 특징 맵에서 컨텍스트 정보를 추출하기 위해 인코딩 유닛(501)에 의해 출력된 특징 맵을 추가로 처리하도록 구성될 수 있다. 일부 실시예에서, 인코딩 유닛(501)에 의해 출력된 특징 맵이 딜레이션 유닛(502)을 사용하여 처리되는 경우, 특징 맵의 해상도는 조정되지 않는다. 이것은 특징 맵의 해상도가 조정되지 않은 채로 유지되는 경우 딜레이팅된 컨볼루션을 통해 더 큰 시야에서 특징 맵의 정보가 획득될 수 있기 때문이다. 당업자라면 실제 필요에 따라 딜레이팅된 컨볼루션 계층을 특징 맵에 대한 정보를 획득할 수 있는 신경망의 다른 구조로 대체할 수 있음이 이해될 수있을 것이다. 딜레이션 유닛의 특정 형태는 본 출원에서 제한되지 않는다.
디코딩 유닛(503)은 적어도 하나의 컨볼루션 계층 및 적어도 하나의 풀링 계층을 포함할 수 있으며, 딜레이션 유닛(502)의 출력을 디코딩하도록 구성된다. 일부 실시예에서, 디코딩 유닛에 의해 출력되는 특징 맵의 크기는 인페인팅될 타깃 이미지의 해상도와 동일하다. 디코딩 유닛(503)은 쌍선형 업샘플링(bilinear upsampling)을 통해 특징 맵의 해상도를 높일 수 있다. 당업자라면 다르게는 특징 맵의 해상도가 다른 업샘플링 방법을 사용하여 증가할 수 있음을 이해할 수 있다.
일부 실시예에서, 디코딩 유닛은 특징 재배열 계층을 포함할 수 있다. 특징 재배열 계층은 처리된 특징 맵의 해상도를 조정하도록 구성될 수 있다. 예를 들어, 디코딩 유닛의 마지막 계층의 입력은 h*w*(r1*r2*c')의 특징 맵이다. 특징 재배열 계층은 크기가 h*w*(r1*r2*c')인 특징 맵을 미리 결정된 매핑 관계에 기초하여 크기가 r1h*r2w*c'인 특징 맵으로 재배열하도록 구성될 수 있다. 예에서, 특징 재배열 계층이 디코딩 유닛(503)의 마지막 계층인 경우, h*w는 특징 확장 네트워크의 입력 이미지 크기를 나타내고, r1h*r2w는 인페인팅될 타깃 이미지의 크기를 나타내다. 이러한 재배열 작동은
Figure pct00014
로서 정의될 수 있으며,
여기서 F는 특징 재배열 계층에 의해 입력된 특징 맵을 나타내고, r1, r2, c'는 미리 정의된 파라미터 값이며, i, j 및 k는 인덱스 파라미터이다. floor는 라운딩 다운 연산을 나타내고, mod는 모듈로 연산을 나타낸다. 즉, i를 r1으로 나눈 결과의 정수 부분 값은 floor(i/r1)를 통해 획득되고, j를 r2로 나눈 결과의 정수 부분 값은 floor(j/r2)를 통해 획득된다. i를 r1으로 나눈 나머지는 mod(i, r1)을 통해 획득되고, j를 r2로 나눈 나머지는 mod(j, r2)를 통해 획득된다.
인코딩 유닛의 중간 계층에 의해 출력되는 특징 맵의 요소는 재배열 작동 s를 통해 재배열될 수 있으며, 타깃 이미지와 동일한 크기의 특징 맵이 생성된다.
일부 실시예에서, 디코딩 유닛(503)은 재배열된 특징 맵에서 컨텍스트 특징을 더 잘 획득하기 위해 특징 재배열 계층에 대해 컨볼루션을 수행하기 위한 컨볼루션 계층을 더 포함할 수 있다.
크기가 r1h*r2w*c'인 출력의 경우, 해상도가 업샘플링을 통해 증가되는 경우, 업샘플링 전 컨벌루션 계층의 채널 개수는 c'이고, 업샘플링이 특징 재배열 계층을 사용하여 대체되는 경우, 특징 재배열 계층 이전의 컨벌루션 계층의 채널 개수는 r1*r2*c'로 설정된다. 따라서, 컨볼루션 커널의 크기가 조정되지 않은 경우, 컨볼루션 계층의 파라미터의 개수는 특징 확장 네트워크의 표현 능력이 더 강해질 수 있도록 특징 재배열 계층을 사용하여 증가될 수 있다.
도 3에 도시된 컨텍스트 특징 결정 유닛 및 컨텍스트 예측 유닛이 심층 신경망으로 구현되는 경우, 심층 신경망은 다음의 단계로 훈련될 수 있다.
샘플 이미지 Y는 훈련 샘플 세트에서 결정되며, 훈련 샘플 세트는 얼굴, 새, 텍스처 또는 거리 풍경과 같은 이미지 컨텐츠를 포함할 수 있다. 에지 m = (top, left, bottom, right)는 심층 신경망의 입력으로 부분 이미지를 결정하기 위해 샘플 이미지에 랜덤으로 채워질 수 있다. 타깃 이미지와 부분 이미지가 직사각형이라고 가정하면, 상단(top)은 부분 이미지의 상부 에지와 타깃 이미지의 상부 에지 사이의 거리를 나타내고, 왼쪽(left)은 부분 이미지의 왼쪽 에지와 타깃 이미지의 왼쪽 에지 사이의 거리를 나타내며, 하단(bottom)은 부분 이미지의 하부 에지와 타깃 이미지의 하부 에지 사이의 거리를 나타내고, 오른쪽은 부분 이미지의 오른쪽 에지와 타깃 이미지의 오른쪽 에지 사이의 거리를 나타낸다.
이후, 부분 이미지는 심층 신경망을 사용하여 처리될 수 있고, 부분 이미지에 기초한 타깃 이미지가 출력된다.
타깃 이미지와 샘플 이미지 사이의 손실을 최소화하기 위해 심층 신경망의 값이 조정되고, 손실은
- 샘플 이미지와 타깃 이미지 사이의 픽셀 차이;
- 샘플 이미지와 타깃 이미지 사이의 텍스처 차이; 및
- 샘플 이미지와 타깃 이미지 사이의 적대적 손실
중 적어도 하나를 포함한다.
본 출원에서, 샘플 이미지와 타깃 이미지 사이의 픽셀 차이는 다르게는 재구성 손실 함수로서 지칭될 수 있고, 재구성 손실 함수는 상대적 신뢰 방법에 의해 결정될 수 있다. 즉, 알려진 영역은 센터로서 사용되고, 알려지지 않은 영역에 있는 픽셀이자 또한 알려진 영역에 더 가까운 픽셀은 가장 높은 가중치를 가지며, 알려진 영역에서 먼 픽셀은 더 낮은 가중치를 갖는다. 이는 이미지 인페인팅 프로세스에서 알려지지 않은 영역에 있는 이미지의 컨텐츠이자 또한 알려진 영역에 더 가까운 이미지의 컨텐츠가 알려진 영역의 이미지에 의해 더 영향을 많이 받기 때문이다. 따라서, 재구성 손실 함수가 결정되는 경우, 출력된 타깃 이미지에서 알려진 영역에 더 가까운 픽셀과 실제 이미지의 픽셀 사이의 차이는 본 방식에서 더 작다.
일부 실시예에서, 재구성 손실 함수는
Figure pct00015
로서 표현될 수 있으며,
여기서 Y는 실제 샘플 이미지의 매트릭스를 나타내고, G는 심층 신경망의 출력을 나타내며, X는 부분 이미지를 나타내고, m은 에지의 크기를 나타내며, θ는 심층 신경망의 파라미터를 나타내고, Mw는 가중치 매트릭스를 나타낸다.
Figure pct00016
은 매트릭스에서 대응하는 요소를 곱하는 연산이다. 심볼 ||A||1는 매트릭스 A의 1-a 놈(norm)을 나타낸다.
가중치 매트릭스 Mw
Figure pct00017
, 여기서
Figure pct00018
로서 표현될 수 있으며,
여기서
Figure pct00019
는 가우스 필터이고,
Figure pct00020
Figure pct00021
이다.
Figure pct00022
Figure pct00023
를 생성하기 위해 k번 반복되고, k는 인덱스 파라미터이며, i는 현재 작동의 시퀀스 번호를 나타내고, k는 미리 정의된 양의 정수이다.
Figure pct00024
는 미리 정의된 양의 상수이다. 예를 들어,
Figure pct00025
은 10의 음의 4제곱일 수 있다.
Figure pct00026
는 Mw가 결정될 때 나눗셈 연산을 수행하여 획득되는 값이 미리 설정된 범위를 초과하지 않도록 설정된다.
샘플 이미지와 타깃 이미지 사이의 텍스처 차이는 ID-MRF 정규화 함수로 표현될 수 있으며, 함수는 심층 신경망의 파라미터를 조정함으로써 최적화되고, 심층 신경망에 의해 출력되는 이미지 G(X, m)과 원래 이미지 Y 사이의 텍스처 차이가 가능한 한 작을 수 있도록 심층 신경망에 의해 출력되는 이미지 G(X, m)과 원래 이미지의 특징 분포를 좁힘으로써 선명한 텍스처가 생성될 수 있다.
구체적으로,
Figure pct00027
은 알려지지 않은 영역에서 예측된 이미지를 나타내고, Y는 샘플 이미지를 나타내며,
Figure pct00028
Figure pct00029
는 미리 정의된 이미지 특징 추출 네트워크의 특징 맵의 L번째 계층에서 추출된 특징을 나타낸다. 미리 정의된 이미지 특징 추출 네트워크는 VGG19 네트워크일 수 있거나, 또는 임의의 다른 알려진 이미지 특징 추출 네트워크일 수 있다. L 계층은 VGG19 네트워크의 conv3_2 및/또는 conv4_2 계층 또는 임의의 다른 계층일 수 있다.
Figure pct00030
Figure pct00031
에서 각각 추출된 미리 정의된 크기를 가진 이미지 블록 v 및 s의 경우, 둘 사이의 유사성은
Figure pct00032
와 같이 정의되며,
여기서
Figure pct00033
는 두 개의 이미지 블록 사이의 코사인 유사성을 계산한다.
Figure pct00034
는 s를 제외한
Figure pct00035
에 속하는 모든 이미지 블록을 나타낸다. h 및
Figure pct00036
는 두 개의 미리 정의된 양의 상수이다. 마지막으로,
Figure pct00037
Figure pct00038
사이의 ID-MRF 손실은
Figure pct00039
,
여기서
Figure pct00040
와 같으며,
여기서
Figure pct00041
Figure pct00042
의 정규화를 통해 계산될 수 있으며, Z는 미리 정의된 상수이다. L은 미리 정의된 이미지 특징 추출 네트워크의 계층 개수를 나타낸다.
텍스처 또는 스타일을 복원하기 위한 스타일 손실 및 스타일 손실의 변형의 다른 손실과 비교하면, 손실 함수는 가장 비교적 유사한 이미지 블록을 참조하여 부분 이미지의 상세를 향상시킨다.
샘플 이미지와 타깃 이미지 사이의 적대적 손실은 미리 정의된 적대적 네트워크에 의해 출력된 결과를 사용하여 결정될 수 있다.
도 6은 본 출원에 따른 심층 신경망에 의해 출력되는 이미지의 적대적 손실을 결정하는 예이다.
도 6에 도시된 바와 같이, 본 출원의 실시예에 따르면, 적대적 손실을 생성하기 위해 미리 정의된 두 개의 적대적 네트워크가 사용되며, 컨텍스트 적대적 네트워크(Dcontext)는 본 출원의 심층 신경망에 의해 생성되는 이미지에서 알려지지 않은 영역의 일부를 식별하고, 글로벌 적대적 네트워크(Dglobal)는 심층 신경망에 의해 생성되는 글로벌 이미지를 식별하는 것이다.
컨텍스트 적대적 네트워크(Dcontext)에 의해 출력되는 특징 맵에서 알려진 영역과 알려지지 않은 영역에 각각 대응하는 부분은 샘플 이미지의 크기와 부분 이미지의 크기에 기초하여 결정될 수 있다. 특징 맵에서 알려지지 않은 영역의 각각 픽셀의 진위성은 컨텍스트 적대적 네트워크(Dcontext)를 사용하여 결정될 수 있으며, 진위성을 나타내는 대응하는 실제 값이 출력된다. 알려지지 않은 영역의 제1 실제 값은 알려지지 않은 영역에서 모든 픽셀의 실제 값을 평균하여 결정될 수 있다.
입력 이미지의 글로벌 진위성은 글로벌 적대적 네트워크(Dglobal)를 사용하여 결정될 수 있으며, 이미지의 글로벌 진위성을 나타내는 제2 실제 값이 출력된다.
여기에서 적대적 손실은
Figure pct00043
와 같이 정의될 수 있으며,
여기서
Figure pct00044
이고, n의 값이 컨텍스트인 경우 L은 알려지지 않은 영역의 적대적 손실을 나타내고, n의 값이 글로벌인 경우 L은 전체 이미지의 적대적 손실을 나타낸다.
Figure pct00045
이고, 여기서 t는 미리 정의된 상수이다. G는 훈련된 심층 신경망을 나타내고, θ는 네트워크 파라미터를 나타내며, Y는 샘플 이미지를 나타낸다.
Figure pct00046
Figure pct00047
에 기초하여
Figure pct00048
에 대한 미분 연산이다.
Figure pct00049
는 정규항 계수이다.
Figure pct00050
Figure pct00051
는 각각
Figure pct00052
Figure pct00053
의 분포이다.
Figure pct00054
는 PX에 속하는 모든 요소 X의 기대치를 나타내고,
Figure pct00055
Figure pct00056
에 속하는 모든 요소 X의 기대치를 나타낸다. 심볼 ||A||2는 매트릭스 A의 2-a 놈(norm)을 나타낸다.
최종 총 적대적 손실은 알려지지 않은 영역의 적대적 손실과 전체 이미지의 적대적 손실 사이의 가중 평균값으로 나타낼 수 있다. 예를 들어, 총 적대적 손실은
Figure pct00057
와 같이 표현될 수 있다.
샘플 이미지와 타깃 이미지 사이의 픽셀 차이(Ls), 샘플 이미지와 타깃 이미지 사이의 텍스처 차이(Lmrf), 샘플 이미지와 타깃 이미지 사이의 적대적 손실(Ladv)은 전술한 방식으로 결정될 수 있다. 따라서, 훈련될 심층 신경망의 총 손실 함수는
Figure pct00058
과 같이 나타낼 수 있으며,
여기서
Figure pct00059
,
Figure pct00060
Figure pct00061
는 미리 정의된 계수이다. 예에서,
Figure pct00062
는 5로 설정될 수 있고,
Figure pct00063
는 0.1로 설정될 수 있으며,
Figure pct00064
는 0.01로 설정될 수 있다. 상기 파라미터의 예는 본 출원의 범위를 제한하지 않는다. 당업자는 특정 요구사항에 따라 총 손실 함수에서 세 가지 서브 손실 함수의 각각의 가중치를 조정할 수 있다.
도 7은 본 출원의 실시예에 따른 이미지 처리 방법의 개략적인 흐름도이다. 이 방법은 도 9에 도시된 컴퓨팅 장치에 의해 수행될 수 있다.
단계 S702에서, 타깃 이미지를 예측하기 위한 입력 이미지가 수신될 수 있고, 입력 이미지는 타깃 이미지의 부분 이미지이며, 입력 이미지는 임의의 유형의 이미지 정보를 포함할 수 있다.
단계 S704에서, 입력 이미지의 컨텍스트 특징이 결정될 수 있고, 일부 실시예에서, 입력 이미지는 심층 신경망을 사용하여 처리될 수 있으며, 입력 이미지의 컨텍스트 특징이 결정된다.
일부 실시예에서, 입력 이미지가 직접 처리될 수 있고, 입력 이미지의 컨텍스트 특징이 결정된다. 입력 이미지가 직접 처리되는 경우, 그에 따라 결정된 컨텍스트 특징이 입력 이미지에 대한 정보에 기초하여 완전히 생성되는 것으로 간주될 수 있으나, 임의의 의미없는 사전 정보를 포함하지 않는다.
일부 다른 실시예에서, 입력 이미지는 타깃 이미지의 크기 및 타깃 이미지에서 입력 이미지의 위치에 따라 조정될 수 있고, 그 다음 조정된 입력 이미지는 입력 이미지의 컨텍스트 특징을 획득하기 위해 처리된다. 예를 들어, 입력 이미지의 크기가 64*64 픽셀이면, 타깃 이미지의 크기는 128*128 픽셀이고, 입력 이미지는 타깃 이미지의 중앙에 위치하고, 입력 이미지의 크기는 픽셀을 추가하여 128*128로 조정될 수 있는 것으로 알려져 있다. 조정된 입력 이미지의 중앙 위치에 있는 픽셀은 원래 입력 이미지의 대응하는 픽셀의 값이고, 나머지 추가된 픽셀 값은 랜덤 값 또는 0, 1 또는 임의의 다른 가능한 값과 같은 미리 정의된 값일 수 있다.
일부 실시예에서, 입력 이미지의 픽셀 값은 계산 부하를 줄이기 위해 선형 매핑을 통해 -1 내지 1로 조정될 수 있다.
일부 실시예에서, 입력 이미지는 인코딩될 수 있고, 인코딩 후 획득된 특징 맵의 크기는 입력 이미지의 크기보다 작을 수 있으며, 인코딩 후 획득된 특징 맵의 채널 개수는 입력 이미지의 채널 개수보다 클 수 있다.
일부 실시예에서, 인코딩된 입력 이미지는 딜레이팅된 컨볼루션을 통해 추가로 처리될 수 있다. 특징 맵의 해상도가 조정되지 않은 상태로 유지되는 경우 딜레이팅된 컨볼루션을 통해 더 큰 시야에서 특징 맵의 정보가 획득될 수 있다.
일부 실시예에서, 딜레이팅된 컨볼루션 후 획득된 입력 이미지의 특징 맵이 디코딩될 수 있다. 일부 실시예에서, 디코딩된 특징 맵의 크기는 인페인팅될 타깃 이미지의 해상도와 동일할 수 있다. 특징 맵의 해상도는 쌍선형 업샘플링을 통해 증가될 수 있다. 당업자라면 특징 맵의 해상도가 다르게는 다른 업샘플링 방법을 사용하여 증가될 수 있음을 이해할 수 있을 것이다.
일부 실시예에서, 특징 맵의 해상도는 다르게는 위에서 언급된 특징 재배열 작동을 사용하여 조정될 수 있어서, 네트워크에서 컨볼루션 계층의 파라미터의 수량이 증가될 수 있고, 특징 확장 네트워크의 표현 능력이 더 강해질 수 있으며, 자세한 내용은 여기서 다시 설명되지 않는다.
단계 S706에서, 제1 특징 세트 및 제2 특징 세트는 컨텍스트 특징에 따라 그리고, 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 결정될 수 있다. 제1 특징 세트는 타깃 이미지 내의 입력 이미지의 위치에 대응하는 컨텍스트 특징의 요소에 의해 형성된 세트일 수 있고, 제2 특징 세트는 타깃 이미지에서 예측된 이미지의 위치에 대응하는 컨텍스트 특징의 요소에 의해 형성된 세트일 수 있다.
일부 실시예에서, 컨텍스트 특징은 완전한 타깃 이미지를 표현하기 위한 특징 세트를 획득하기 위해 심층 신경망을 사용함으로써 처리(예를 들어, 인코딩)될 수 있고, 제1 특징 세트 및 제2 특징 세트는 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 처리된 컨텍스트에서 결정된다.
구현에서, 컨텍스트 특징이 컨텍스트 특징 결정 유닛을 사용하여 입력 이미지를 직접 처리함으로써 결정되는 경우, 예측된 이미지의 영역을 지시하기 위한 위치 특징은 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 결정될 수 있고, 타깃 이미지의 크기 특징 및 컨텍스트 특징은 결합된 컨텍스트특징을 획득하기 위해 결합된다. 이 경우, 결합된 컨텍스트 특징은 심층 신경망을 사용하여 처리될 수 있으며, 또한, 제1 특징 세트 및 제2 특징 세트는 결합된 컨텍스트 특징에 따라 그리고 타깃 이미지의 크기 및 타깃 이미지 내의 입력 이미지의 위치에 기초하여 결정될 수 있다.
단계 S708에서, 제2 특징 세트는 제1 특징 세트의 제1 특징 통계에 따라 조정될 수 있다. 상기한 바와 같이, 제1 특징 세트는 타깃 이미지에서 입력 이미지의 위치에 대응하는 요소를 포함하고, 제2 특징 세트는 타깃 이미지 내의 입력 이미지 이외의 예측된 이미지의 위치에 대응하는 요소를 포함한다. 따라서, 제1 특징 세트의 요소는 타깃 이미지의 알려진 영역에서 입력 이미지의 특징을 나타내는 데 사용될 수 있고, 제2 특징 세트의 요소는 타깃 이미지의 알려지지 않은 영역에서 예측된 이미지의 특징을 나타내는 데 사용될 수 있다. 본 출원의 원리에 따르면, 제1 특징 세트의 제1 특징 통계가 결정될 수 있고, 제2 특징 세트의 요소의 값은 제1 특징 통계에 따라 조정될 수 있으며, 알려진 영역에서 특징의 통계적 특성은 알려지지 않은 영역의 특징으로 전송되어, 최종 생성된 예측 이미지의 컨텐츠가 예측된 이미지에 가장 가까운 알려진 이미지에 대한 정보의 단방향 제약 조건을 초과할 수 있으며, 알려진 영역과 알려지지 않은 영역 사이의 컬러/텍스처 일관성 향상될 수 있다.
일부 실시예에서, 제1 특징 통계는 제1 특징 세트의 모든 요소의 통계일 수 있다. 제1 특징 세트의 요소의 평균값, 표준 편차, 분산 중 적어도 하나가 제1 특징 통계로서 사용될 수 있다. 본 출원의 원리를 벗어나지 않으면서 당업자는 제1 특징 통계를 결정하기 위한 방법을 임의로 선택할 수 있음이 이해될 수 있다. 예를 들어, 제1 특징 세트의 샘플 평균값, 샘플 분산, 또는 샘플 범위와 같은 통계가 다르게는 제1 특징 통계로서 사용될 수 있다.
일부 실시예에서, 제2 특징 세트의 요소의 값은 조정된 제2 특징 세트의 제2 특징 통계가 제1 특징 통계와 동일하도록 조정될 수 있고, 제2 특징 통계는 제2 특징 세트의 요소의 통계이다. 예를 들어, 제1 특징 통계가 제1 특징 세트의 요소의 평균값 및 표준 편차인 경우, 제2 특징 세트의 각각의 요소의 값은 제2 특징 세트의 요소의 평균값 및 표준 편차가 제1 특징 통계와 동일하도록 조정된 제2 특징 세트를 획득하기 위해 다음의 수학식
Figure pct00065
에 기초하여 조정될 수 있으며,
여기서 x1은 제2 특징 세트를 나타내고, x2는 제1 특징 세트를 나타낸다.
Figure pct00066
는 제1 특징 세트의 요소의 평균값을 나타내고,
Figure pct00067
는 제1 특징 세트의 요소의 표준 편차를 나타내며,
Figure pct00068
은 제2 특징 세트의 요소의 평균값을 나타내고,
Figure pct00069
은 제2 특징 세트의 요소의 표준 편차를 나타낸다. AdaIN(x1, x2)은 조정된 제2 특징 세트의 특징 통계가 제1 특징 세트의 특징 통계와 동일하도록 제2 특징 세트 x1의 요소 값이 제1 특징 세트 x2의 특징 통계에 기초하여 조정되는 것이다.
또한, 조정된 제2 특성 세트의 각각의 요소에 대해, 각각의 요소의 값은 조정되지 않은 제2 특징 세트의 각각의 요소 값과 조정된 제2 특징 세트의 각각의 요소 값의 가중 평균값으로 조정될 수 있다. 조정되지 않은 요소의 값의 가중치와 조정된 요소의 값의 가중치는 본 어플리케이션에서 제한되지 않는다. 구체적으로, 조정되지 않은 제2 특징 세트의 각각의 요소의 가중치는
Figure pct00070
로서 미리 정의될 수 있고, 조정된 제2 특징 세트의 각각의 요소의 가중치는 1-
Figure pct00071
이며,
Figure pct00072
는 0보다 크거나 같고 1보다 작거나 같은 임의의 값일 수 있다. 예에서,
Figure pct00073
는 0.5와 같을 수 있다.
조정 단계를 사용함으로써, 조정된 제2 특징 세트 및 제1 특징 세트에 의해 형성된 조정된 타깃 특징은
Figure pct00074
과 같이 표현될 수 있으며,
여기서
Figure pct00075
Figure pct00076
는 입력 이미지에 대응하는 알려진 영역과 예측된 이미지에 대응하는 알려지지 않은 이미지 영역을 각각 나타내고, f는 결합된 위치 특징과 컨텍스트 특징을 처리함으로써 결정된 타깃 특징을 나타내며,
Figure pct00077
는 0 내지 1의 값을 갖는 미리 정의된 파라미터이고, M은 f(X)의 일정한 크기를 갖는 마스크 매트릭스이며, M에서, 0은 알려진 영역을 지시하는 데 사용될 수 있고, 1은 예측된 영역을 지시한다. μ와 σ는 계산된 평균값과 표준 편차를 나타낸다.
단계 S710에서, 타깃 이미지는 조정된 제2 특징 세트에 기초하여 생성될 수 있고, 타깃 이미지는 입력 이미지 및 예측된 이미지에 의해 형성된다. 일부 실시예에서, 추가로 조정된 제2 특징 세트 및 제1 특징 세트에 의해 형성된 조정된 타깃 특징은 타깃 이미지를 생성하기 위해 디코딩될 수 있다.
상술한 바와 같이, 제1 특징 세트는 타깃 이미지 내의 입력 이미지의 위치에 대응하는 요소를 포함하고, 제2 특징 세트는 타깃 이미지에서 입력 이미지 이외의 예측된 이미지의 위치에 대응하는 요소를 포함한다. 따라서, 완전한 타깃 이미지의 특징 세트는 제1 특징 세트와 조정된 제2 특징 세트를 결합함으로써 결정될 수 있다. 일부 실시예에서, 조정된 제2 특징 세트와 제1 특징 세트에 의해 형성된 타깃 특징은 컨볼루션 계층 및 풀링 계층에 의해 형성된 심층 신경망을 사용하여 처리되고, 예측된 이미지를 포함하는 타깃 이미지가 출력될 수 있다.
본 출원에서 제공되는 이미지 인페인팅 방법에 따르면, 알려지지 않은 영역을 나타내는 특징 세트의 요소의 값은 알려진 영역을 나타내기 위한 특징 세트의 통계 정보를 사용하여 조정되고, 알려진 영역의 통계는 알려지지 않은 영역으로 전달되어, 본 출원에 따른 방법을 사용하여 생성된 예측된 이미지의 컨텐츠가 예측된 이미지에 가장 가까운 알려진 이미지에 대한 정보의 일방적 제약 조건을 초과할 수 있고, 알려진 영역과 알려지지 않은 영역 사이의 컬러/텍스처 일관성이 향상될 수 있도록 한다.
또한, 본 출원과 일치하는 실시예에서, 부분 이미지의 컨텍스트 특징이 직접 추출되고, 불필요한 사전 정보가 이미지 인페인팅 동안 도입되지 않을 것이며, 컨텍스트 특징이 입력된 부분 이미지에 대한 정보에 기초하여 완벽하게 결정될 수 있다. 본 출원과 일치하는 이미지 인페인팅 방법은 구조, 시맨틱스 및 텍스처 측면에서 입력된 부분 이미지와 더 일치하는 인페인팅 이미지를 생성할 수 있다.
일부 실시예에서, 도 7에 도시된 이미지 인페인팅 방법은 심층 신경망을 사용하여 구현될 수 있으며, 심층 신경망은 다음의 단계로 훈련될 수 있다.
샘플 이미지 Y는 훈련 샘플 세트에서 결정되며, 훈련 샘플 세트는 얼굴, 새, 텍스처 또는 거리 풍경과 같은 이미지 컨텐츠를 포함할 수 있다. 에지 m = (top, left, bottom, right)는 심층 신경망의 입력으로 부분 이미지를 결정하기 위해 샘플 이미지에 랜덤하게 채워질 수 있다. 타깃 이미지와 부분 이미지가 직사각형이라고 가정하면, 상단(top)은 부분 이미지의 상부 에지와 타깃 이미지의 상부 에지 사이의 거리를 나타내고, 왼쪽은 부분 이미지의 왼쪽 에지와 타깃 이미지의 왼쪽 에지 사이의 거리를 나타내며, 하단(bottom)은 부분 이미지의 하부 에지와 타깃 이미지의 하부 에지 사이의 거리를 나타내고, 오른쪽은 부분 이미지의 오른쪽 에지와 타깃 이미지의 오른쪽 에지 사이의 거리를 나타낸다.
이어서, 부분 이미지는 심층 신경망을 사용하여 처리될 수 있고, 부분 이미지에 기초한 타깃 이미지가 출력된다.
심층 신경망의 값은 타깃 이미지와 샘플 이미지 사이의 손실을 최소화하기 위해 조정되며, 손실은,
- 샘플 이미지와 타깃 이미지 사이의 픽셀 차이;
- 샘플 이미지와 대상 이미지 사이의 텍스처 차이; 및
- 샘플 이미지와 대상 이미지 사이의 적대적 손실
중 적어도 하나를 포함한다.
도 8a는 본 출원의 실시예에 따른 이미지 처리 방법이다.
도 8a에 도시된 바와 같이, 이미지 인페인팅 장치는 컨텍스트 특징 결정 유닛 및 컨텍스트 예측 유닛을 포함한다. 컨텍스트 특징 결정 유닛 및 컨텍스트 예측 유닛은 도 3 및 도 5에 도시된 컨텍스트 특징 결정 유닛 및 컨텍스트 예측 유닛으로 구현될 수 있다. 부분 이미지의 컨텍스트 특징은 컨텍스트 결정 유닛에 부분 이미지를 입력함으로써 결정될 수 있고, 컨텍스트 특징의 크기는 생성될 타깃 이미지의 크기와 동일할 수 있다. 이어서, 타깃 이미지를 예측하기 위한 특징 맵은 부분 이미지의 컨텍스트 특징과 타깃 이미지의 크기 정보를 결합함으로써 결정될 수 있다.
예를 들어, 마스크 M은 부분 이미지와 타깃 이미지 사이에 채워져야 하는 에지 영역의 크기에 따라 생성될 수 있으며, M은 타깃 이미지의 크기와 동일하고, 채널 개수는 1이다. 마스크 M에서, 알려진 부분 영역은 0으로 마킹될 수 있고, 채워질 에지 영역은 1로 마킹될 수 있다. 당업자라면 두 개의 다른 영역이 구별될 수 있는 경우 M에서 알려진 영역 및 알려지지 않은 영역을 다른 방식으로 마킹할 수 있음이 이해할 수 있을 것이다.
그 다음, M은 컨텍스트 특징 결정 유닛에 의해 출력되는 컨텍스트 특징에 연결될 수 있다. 즉, M과 컨텍스트 특징이 채널 개수의 방향으로 직접 결합되고, 결합된 특징이 컨텍스트 예측 유닛으로 입력된다.
결합된 특징은 타깃 이미지를 획득하기 위해 컨텍스트 예측 유닛을 사용하여 처리될 수 있다.
도 8b 내지 도 8j는 본 출원에 따른 이미지 처리 방법의 효과 도면의 예이다. 도 8b 및 도 8c는 부분적인 동물 얼굴을 사용하여 완전한 동물 이미지를 생성하는 효과 도면이다. 도 8d는 본 출원에 따른 이미지 인페인팅 방법을 사용하여 텍스처 이미지를 인페인팅한 효과이다. 종래 기술과 비교하면, 본 출원의 방법을 사용하여 획득된 인페인팅된 이미지의 텍스처 패턴이 입력 이미지의 텍스처 패턴보다 더 많다는 것을 알 수 있다. 도 8e 내지 도 8g는 본 출원에 따른 이미지 인페인팅 방법을 사용하여 사람과 동물을 인페인팅한 효과이다. 종래 기술에 비해, 본 출원의 방법을 사용하여 획득된 인페인팅된 이미지에서 사람 정보와 동물 정보가 자연 법칙에 위배되는 이미지 효과없이 더욱 실감 나게 나타나고, 도 8h 내지 도 8j는 본 출원에 따른 이미지 인페인팅 방법을 사용하여 풍경을 인페인팅한 효과이다. 종래 기술과 비교하면, 본 출원의 방법을 사용하여 획득된 인페인팅된 이미지의 풍경 정보가 더 풍부한 내용과 더 나은 텍스처 효과를 갖는다는 것을 알 수 있다.
또한, 본 출원의 실시예에 따른 방법 또는 장치는 다르게는 도 9에 도시된 컴퓨팅 장치의 아키텍처를 사용하여 구현될 수 있다. 도 9는 컴퓨팅 장치의 아키텍처를 도시한다. 도 9에 도시된 바와 같이, 컴퓨팅 장치(900)는 버스(910), 하나 이상의 CPU(920), 읽기 전용 메모리(read-only memory, ROM)(930), 랜덤 액세스 메모리(random access memory, RAM)(940), 네트워크에 연결된 통신 포트(950), 입력/출력 컴포넌트(960), 하드 디스크(970) 등을 포함할 수 있다. 컴퓨팅 장치(900)는도 2a에 도시된 단말 장치(110) 또는 서버 장치(130)에 설치될 수 있다. 컴퓨팅 장치(900)의 저장 장치, 예를 들어 ROM(930) 또는 하드 디스크(970)는 본 출원에 따른 이미지 처리 방법에서 처리되고 그리고/또는 통신에 사용되는 다양한 데이터 또는 파일 및 CPU에 의해 실행되는 프로그램 명령을 저장할 수 있다. 컴퓨팅 장치(900)는 사용자 인터페이스(980)를 더 포함할 수 있다. 물론, 도 9에 도시된 아키텍처는 예시일 뿐이며, 다른 장치가 구현되는 경우, 도 9에 도시된 컴퓨팅 장치의 하나 이상의 컴포넌트는 특정 요구사항에 따라 생략될 수 있다.
본 출원의 실시예는 다르게는 컴퓨터 판독 가능 저장 매체로 구현될 수 있다. 컴퓨터 판독 가능 명령은 본 출원의 실시예에 따른 컴퓨터 판독 가능 저장 매체에 저장된다. 컴퓨터 판독 가능 명령은, 프로세서에 의해 실행될 때, 전술한 첨부 도면을 참조하여 설명된 본 출원의 실시예에 따른 방법을 수행할 수 있다. 컴퓨터 판독 가능 저장 매체는 휘발성 메모리 및/또는 비 휘발성 메모리를 포함하지만, 이에 제한되지 않는다. 예를 들어, 휘발성 메모리는 RAM 및/또는 캐시를 포함할 수 있다. 예를 들어, 비 휘발성 메모리는 ROM, 하드 디스크 또는 플래시 메모리를 포함할 수 있다.
당업자라면 본 출원에서 개시된 컨텐츠가 다양한 변형 및 개선을 가짐을 이해할 수 있다. 예를 들어, 위에서 설명된 장치 또는 컴포넌트는 하드웨어를 사용하여 구현될 수 있거나, 또는 소프트웨어, 펌웨어 또는 소프트웨어, 펌웨어 및 하드웨어의 일부 또는 전부의 조합을 사용하여 구현될 수 있다.
또한, 본 출원 및 청구 범위에 나타난 바와 같이, "하나(a/an)", "하나(one)", "한 종류(one kind)" 및/또는 "그(the)"와 같은 단어는 구체적으로 단수 형태를 의미하지 않으며 또한 문맥 상 예외를 명시적으로 나타내지 않는 한 복수 형태를 포함할 수 있다. 일반적으로, 용어 "포함한다(comprise)" 및 "포함한다(include)"는 명확하게 식별된 단계 및 요소를 포함하는 것만을 지시한다. 단계 및 요소는 배타적 리스트를 구성하지 않는다. 방법 또는 장치도 또한 다른 단계 또는 요소를 포함할 수 있다.
또한, 본 출원이 본 출원의 실시예에 따라 시스템의 일부 유닛에 대해 다양한 참조가 이루어지지만, 클라이언트 및/또는 서버 장치에서 임의의 수량의 다른 유닛이 사용되고 실행될 수 있다. 유닛은 예시일 뿐이며, 시스템 및 방법의 다른 측면이 다른 유닛을 사용할 수 있다.
또한, 본 출원에서 본 출원의 실시예에 따른 시스템에 의해 수행되는 작동을 설명하기 위해 흐름도가 사용된다. 전술한 또는 다음의 작동이 반드시 순서에 따라 엄격하게 수행되는 것은 아님이 이해되어야 한다. 반대로, 그 작동은 역순으로 수행될 수도 있고 동시에 수행될 수도 있다. 한편, 다른 작동이 프로세스에 추가될 수다. 다르게는, 하나 이상의 작동이 프로세스에서 삭제될 수도 있다.
달리 정의되지 않는 한, 여기에서 사용된 (기술적이고 과학적인 용어를 포함하는) 모든 용어는 본 출원이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에서 정의된 것과 같은 용어는 관련 기술의 맥락에서 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 여기에서 명시적으로 정의되지 않는 한 최적화되거나 극도로 형식화된 의미로 해석되어서는 안된다.
이상은 본 출원에 대한 설명이며, 본 출원에 대한 제한으로 간주되어서는 안된다. 본 출원의 여러 실시예가 설명되었지만, 당업자라면 본 출원의 새로운 교시 및 장점을 벗어남이 없이 많은 변경이 이루어질 수 있음을 쉽게 이해할 수 있을 것이다. 따라서, 변경은 청구 범위에 의해 정의된 본 출원의 범위 내에 포함되도록 의도된다. 이상은 본 출원에 대한 설명이며, 개시된 특정 실시예에 의해 제한되는 것으로 간주되지 않으며, 개시된 실시예 및 다른 실시예에 대한 수정은 첨부된 청구 범위의 범위 내에 속함이 이해되어야 한다. 본 출원은 청구 범위 및 그의 균등물의 적용을 받는다.

Claims (16)

  1. 컴퓨팅 장치에 의해 수행되는 이미지 처리 방법으로서,
    타깃 이미지를 예측하기 위한 입력 이미지를 수신하는 단계;
    상기 입력 이미지의 컨텍스트(context) 특징을 결정하는 단계;
    상기 컨텍스트 특징에 따라 그리고 상기 타깃 이미지의 크기 및 상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하는 단계;
    조정된 제2 특징 세트를 획득하기 위해, 상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하는 단계; 및
    상기 조정된 제2 특징 세트 및 상기 제1 특징 세트에 기초하여 상기 타깃 이미지를 생성하는 단계
    를 포함하는 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 타깃 이미지는 상기 입력 이미지와 예측된 이미지에 의해 형성되고,
    상기 컨텍스트 특징에 따라 그리고 상기 타깃 이미지의 크기 및 상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하는 단계는,
    상기 타깃 이미지의 크기 및 상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여, 상기 예측된 이미지의 영역을 지시하는 위치 특징을 결정하는 단계;
    상기 위치 특징 및 상기 컨텍스트 특징을 결합하고, 타깃 특징을 획득하기 위해 상기 결합된 위치 특징 및 상기 컨텍스트 특징을 인코딩하는 단계; 및
    상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여, 상기 입력 이미지의 위치에 대응하는 타깃 특징의 요소 세트를 상기 제1 특징 세트로서 결정하고, 상기 타깃 이미지 내의 예측된 이미지의 위치에 대응하는 타깃 특징의 요소 세트를 상기 제2 특징 세트로서 결정하는 단계
    를 포함하는, 이미지 처리 방법.
  3. 제2항에 있어서,
    상기 제1 특징 통계는 상기 제1 특징 세트의 요소의 통계인,
    이미지 처리 방법.
  4. 제2항에 있어서,
    상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하는 단계는,
    상기 조정된 제2 특징 세트의 제2 특징 통계가 상기 제1 특징 통계와 동일할 수 있도록 상기 제2 특징 세트의 요소의 값을 조정하는 단계 ― 상기 제2 특징 통계는 상기 제2 특징 세트의 요소의 통계임 ―
    를 포함하는, 이미지 처리 방법.
  5. 제4항에 있어서,
    상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하는 단계는,
    상기 조정된 제2 특징 세트의 각각의 요소에 대해, 각각의 요소의 값을 조정되지 않은 제2 특징 세트의 각각의 요소의 값과 상기 조정된 제2 특징 세트의 각각의 요소의 값의 가중 평균값으로 추가로 조정하는 단계
    를 더 포함하는, 이미지 처리 방법.
  6. 제5항에 있어서,
    상기 조정된 제2 특징 세트 및 상기 제1 특징 세트에 기초하여 상기 타깃 이미지를 생성하는 단계는,
    상기 타깃 이미지를 생성하기 위해, 상기 추가로 조정된 제2 특징 세트 및 상기 제1 특징 세트에 의해 형성된 조정된 타깃 특징을 디코딩하는 단계
    를 포함하는, 이미지 처리 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은 심층 신경망을 사용하여 구현되고, 상기 심층 신경망은,
    훈련 샘플 세트에서 샘플 이미지를 결정하고, 상기 샘플 이미지 내의 부분 이미지를 상기 심층 신경망의 입력으로서 랜덤으로 결정하는 작동;
    상기 심층 신경망을 사용하여 상기 부분 이미지를 처리하고, 상기 부분 이미지에 기초하여 타깃 이미지를 출력하는 작동; 및
    상기 타깃 이미지와 상기 샘플 이미지 사이의 손실을 최소화하기 위해, 상기 심층 신경망의 값을 조정하는 작동 ― 상기 손실은 상기 샘플 이미지와 상기 타깃 이미지 사이의 픽셀 차이를 포함함 ―
    을 사용하여 훈련되는, 이미지 처리 방법.
  8. 제7항에 있어서,
    상기 손실은 상기 샘플 이미지와 상기 타깃 이미지 사이의 텍스처(texture) 차이를 더 포함하는,
    이미지 처리 방법.
  9. 제7항에 있어서,
    상기 손실은 상기 샘플 이미지와 상기 타깃 이미지 사이의 적대적 손실을 더 포함하는,
    이미지 처리 방법.
  10. 이미지 처리 장치로서,
    입력 이미지를 수신하도록 구성된 수신 유닛;
    상기 입력 이미지의 컨텍스트 특징을 결정하도록 구성된 컨텍스트 특징 결정 유닛;
    상기 컨텍스트 특징에 따라 그리고 타깃 이미지의 크기 및 상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여 제1 특징 세트 및 제2 특징 세트를 결정하도록 구성된 특징 세트 결정 유닛;
    조정된 제2 특징 세트를 획득하기 위해, 상기 제1 특징 세트의 제1 특징 통계에 따라 상기 제2 특징 세트를 조정하도록 구성된 조정 유닛; 및
    상기 조정된 제2 특징 세트 및 상기 제1 특징 세트에 기초하여 상기 타깃 이미지를 생성하도록 구성된 타깃 이미지 생성 유닛
    을 포함하는 이미지 처리 장치.
  11. 제10항에 있어서,
    상기 타깃 이미지는 상기 입력 이미지와 예측된 이미지에 의해 형성되고,
    상기 특징 세트 결정 유닛은,
    상기 타깃 이미지의 크기 및 상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여, 상기 예측된 이미지의 영역을 지시하는 위치 특징을 결정하고,
    상기 위치 특징 및 상기 컨텍스트 특징을 결합하고, 타깃 특징을 획득하기 위해 상기 결합된 위치 특징 및 상기 컨텍스트 특징을 인코딩하며,
    상기 타깃 이미지 내의 입력 이미지의 위치에 기초하여, 상기 입력 이미지의 위치에 대응하는 타깃 특징의 요소 세트를 상기 제1 특징 세트로서 결정하고, 상기 타깃 이미지 내의 예측된 이미지의 위치에 대응하는 타깃 특징의 요소 세트를 상기 제2 특징 세트로서 결정하도록
    추가로 구성되는, 이미지 처리 장치.
  12. 제11항에 있어서,
    상기 제1 특징 통계는 상기 제1 특징 세트의 요소의 통계인,
    이미지 처리 장치.
  13. 제11항에 있어서,
    상기 조정 유닛은 상기 조정된 제2 특징 세트의 제2 특징 통계가 상기 제1 특징 통계와 동일할 수 있도록 상기 제2 특징 세트의 요소의 값을 조정하도록 구성되며, 상기 제2 특징 통계는 상기 제2 특징 세트의 요소의 통계인,
    이미지 처리 장치.
  14. 제13항에 있어서,
    상기 조정 유닛은,
    상기 조정된 제2 특징 세트의 각각의 요소에 대해, 각각의 요소의 값을 조정되지 않은 제2 특징 세트의 각각의 요소의 값과 상기 조정된 제2 특징 세트의 각각의 요소의 값의 가중 평균값으로 추가로 조정하도록
    추가로 구성되는, 이미지 처리 장치.
  15. 이미지 처리 디바이스로서,
    메모리 및 프로세서를 포함하며, 상기 메모리는 명령을 저장하고, 상기 명령은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 이미지 처리 방법을 수행하게 하는,
    이미지 처리 디바이스.
  16. 컴퓨터 판독 가능 저장 매체로서,
    명령을 저장하며, 상기 명령은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 이미지 처리 방법을 수행하게 하는,
    컴퓨터 판독 가능 저장 매체.
KR1020217014602A 2019-03-06 2020-02-13 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 KR102477794B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910168409.7 2019-03-06
CN201910168409.7A CN109816615B (zh) 2019-03-06 2019-03-06 图像修复方法、装置、设备以及存储介质
PCT/CN2020/074990 WO2020177513A1 (zh) 2019-03-06 2020-02-13 图像处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
KR20210074360A true KR20210074360A (ko) 2021-06-21
KR102477794B1 KR102477794B1 (ko) 2022-12-14

Family

ID=66608242

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217014602A KR102477794B1 (ko) 2019-03-06 2020-02-13 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체

Country Status (6)

Country Link
US (1) US11983850B2 (ko)
EP (1) EP3937124A4 (ko)
JP (1) JP7266828B2 (ko)
KR (1) KR102477794B1 (ko)
CN (1) CN109816615B (ko)
WO (1) WO2020177513A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11820289B2 (en) 2018-07-31 2023-11-21 Sony Semiconductor Solutions Corporation Solid-state imaging device and electronic device
WO2020027233A1 (ja) 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム
CN110569864A (zh) * 2018-09-04 2019-12-13 阿里巴巴集团控股有限公司 基于gan网络的车损图像生成方法和装置
CN109816615B (zh) * 2019-03-06 2022-12-16 腾讯科技(深圳)有限公司 图像修复方法、装置、设备以及存储介质
CN110211205B (zh) * 2019-06-14 2022-12-13 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和存储介质
CN110390679B (zh) * 2019-07-03 2022-04-26 上海联影智能医疗科技有限公司 图像处理方法、计算机设备和可读存储介质
CN111242874B (zh) * 2020-02-11 2023-08-29 北京百度网讯科技有限公司 图像修复的方法、装置、电子设备和存储介质
US11562518B2 (en) 2020-06-05 2023-01-24 Google Llc Image manipulation by text instruction
CN112818146B (zh) * 2021-01-26 2022-12-02 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
US11900519B2 (en) * 2021-11-17 2024-02-13 Adobe Inc. Disentangling latent representations for image reenactment
WO2023225808A1 (en) * 2022-05-23 2023-11-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Learned image compress ion and decompression using long and short attention module
CN116109798B (zh) * 2023-04-04 2023-06-09 腾讯科技(深圳)有限公司 图像数据处理方法、装置、设备及介质
CN116664454B (zh) * 2023-08-01 2023-11-03 中国海洋大学 一种基于多尺度颜色迁移参数预测的水下图像增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080098042A (ko) * 2006-01-20 2008-11-06 퀄컴 인코포레이티드 에러 은닉과 관련된 왜곡값에 기초한 인코딩 방법을 결정하는 방법 및 장치
KR20170109465A (ko) * 2016-03-21 2017-09-29 한국전자통신연구원 영상 재구성 장치 및 방법
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7755645B2 (en) * 2007-03-29 2010-07-13 Microsoft Corporation Object-based image inpainting
US8285070B2 (en) * 2008-04-07 2012-10-09 The Trustees Of Tufts College Methods and apparatus for image restoration
CN103049886B (zh) * 2011-10-12 2015-10-28 方正国际软件(北京)有限公司 一种图像纹理修复方法及系统
US9042649B2 (en) * 2013-09-24 2015-05-26 Konica Minolta Laboratory U.S.A., Inc. Color document image segmentation and binarization using automatic inpainting
CN103778603B (zh) * 2014-01-08 2016-08-17 天津大学 显微ct中闪烁体缺陷引起的图像伪影的修复方法
CN107092874A (zh) * 2017-04-10 2017-08-25 山东大学 基于心电和指纹融合特征的身份识别方法、装置及系统
CN107993210A (zh) * 2017-11-30 2018-05-04 北京小米移动软件有限公司 图像修复方法、装置及计算机可读存储介质
CN109191402B (zh) * 2018-09-03 2020-11-03 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN109816615B (zh) * 2019-03-06 2022-12-16 腾讯科技(深圳)有限公司 图像修复方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080098042A (ko) * 2006-01-20 2008-11-06 퀄컴 인코포레이티드 에러 은닉과 관련된 왜곡값에 기초한 인코딩 방법을 결정하는 방법 및 장치
KR20170109465A (ko) * 2016-03-21 2017-09-29 한국전자통신연구원 영상 재구성 장치 및 방법
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Xian Wu ET AL:"Deep Portrait Image Completion and Extrapolation", Computer Science_Graphics, arXiv:1808.07757v1, 23 Aug. 2018(2018.08.23.) 1부.* *
Xun Huang ET AL:"Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization", Proceedings of the IEEE International Conference on Computer Vision (ICCV), 22 Oct. 2017(2017.10.22.) 1부.* *

Also Published As

Publication number Publication date
CN109816615A (zh) 2019-05-28
JP2022504292A (ja) 2022-01-13
EP3937124A1 (en) 2022-01-12
EP3937124A4 (en) 2022-04-27
JP7266828B2 (ja) 2023-05-01
KR102477794B1 (ko) 2022-12-14
CN109816615B (zh) 2022-12-16
US11983850B2 (en) 2024-05-14
US20210334942A1 (en) 2021-10-28
WO2020177513A1 (zh) 2020-09-10

Similar Documents

Publication Publication Date Title
KR102477794B1 (ko) 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
CN111369681B (zh) 三维模型的重构方法、装置、设备及存储介质
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN110599395B (zh) 目标图像生成方法、装置、服务器及存储介质
CN111768425B (zh) 图像处理方法、装置及设备
US20220222796A1 (en) Image processing method and apparatus, server, and storage medium
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN108734653B (zh) 图像风格转换方法及装置
CN111738280A (zh) 一种图像识别方法、装置、设备及可读存储介质
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
CN110852940A (zh) 一种图像处理方法及相关设备
WO2023020358A1 (zh) 面部图像处理方法、面部图像处理模型的训练方法、装置、设备、存储介质及程序产品
CN111080746A (zh) 图像处理方法、装置、电子设备和存储介质
CN113095206A (zh) 虚拟主播生成方法、装置和终端设备
CN113112518A (zh) 基于拼接图像的特征提取器生成方法、装置和计算机设备
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114266693A (zh) 图像处理方法、模型生成方法及设备
CN111402118B (zh) 图像替换方法、装置、计算机设备和存储介质
Han Texture image compression algorithm based on self-organizing neural network
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN110866866A (zh) 图像仿色处理方法、装置、电子设备及存储介质
KR20230141429A (ko) 이미지 프로세싱 방법 및 장치, 컴퓨터 디바이스, 컴퓨터-판독가능 저장 매체, 및 컴퓨터 프로그램 제품
CN114943799A (zh) 一种面部图像处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant