KR102461043B1 - 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치 - Google Patents

이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치 Download PDF

Info

Publication number
KR102461043B1
KR102461043B1 KR1020200183269A KR20200183269A KR102461043B1 KR 102461043 B1 KR102461043 B1 KR 102461043B1 KR 1020200183269 A KR1020200183269 A KR 1020200183269A KR 20200183269 A KR20200183269 A KR 20200183269A KR 102461043 B1 KR102461043 B1 KR 102461043B1
Authority
KR
South Korea
Prior art keywords
image
domain
images
translation
translated
Prior art date
Application number
KR1020200183269A
Other languages
English (en)
Other versions
KR20210148836A (ko
Inventor
샤오웅 양
첸 자오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210148836A publication Critical patent/KR20210148836A/ko
Application granted granted Critical
Publication of KR102461043B1 publication Critical patent/KR102461043B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치를 공개하며, 딥 러닝 및 이미지 처리 분야에 관한 것이다. 구체적인 구현 수단은, 이미지 번역 요청을 획득하되, 여기서, 번역 요청은 원본 이미지를 포함하고; 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링하며; 축소된 이미지에 따라, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하되, 미리 번역된 이미지 및 마스크 이미지의 크기는 원본 이미지의 크기와 동일하고; 변형 이미지를 생성하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하며; 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합하는 것이다. 따라서, 이미지 번역의 연산량을 감소시키는 동시에, 이미지 번역 효과를 보장할 수 있으며, 번역된 대상 번역 이미지의 선명도를 향상시킨다.

Description

이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치{IMAGE TRANSLATION METHOD AND DEVICE, IMAGE TRANSLATION MODEL TRAINING METHOD AND DEVICE}
본 발명은 이미지 처리 기술 분야에 관한 것으로, 구체적으로 딥 러닝 및 이미지 처리 기술 분야에 관한 것이며, 특히 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치에 관한 것이다.
이미지 번역 네트워크는 이미지 내용을 변경하지 않은 전제 하에서, 하나의 유형의 이미지를 다른 하나의 유형의 이미지로 직접 변환시키며, 이미지 생성, 장면 분할 및 이미지 스타일화 분야에서 광범위하게 응용되고 있다. 그러나, 이미지에 대해 번역하는 과정에서, 이의 연산량은 상대적으로 크다.
관련 기술에서, 일반적으로 번역 모델의 구조를 지속적으로 절단하거나 입력된 이미지의 해상도를 직접 축소시키는 방식을 통해, 이미지 번역의 연산량을 감소시킨다. 그러나, 상술한 방식을 통해 이미지에 대해 번역할 경우, 번역된 이미지의 선명도가 상대적으로 낮아지고, 또한 이미지 번역 효과도 크게 감소된다.
이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치, 전자 기기 및 저장 매체가 제공된다.
제1 측면으로, 이미지 번역 방법이 제공되는 바, 상기 방법은, 이미지 번역 요청을 획득하는 단계 - 상기 번역 요청은 원본 이미지를 포함함 - ; 상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 단계; 상기 축소된 이미지에 따라, 상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 단계 - 상기 미리 번역된 이미지 및 상기 마스크 이미지의 크기는 상기 원본 이미지의 크기와 동일함 - ; 변형 이미지를 생성하도록, 상기 변형 파라미터에 따라 상기 원본 이미지를 변형 처리하는 단계; 및 대상 번역 이미지를 생성하도록, 상기 변형 이미지, 상기 미리 번역된 이미지 및 상기 마스크 이미지를 융합하는 단계; 를 포함한다.
제2 측면으로, 이미지 번역 모델의 트레이닝 방법이 제공되는 바, 상기 방법은, 트레이닝 샘플 세트를 획득하는 단계 - 상기 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함함 - ; 제1 축소된 이미지 세트를 생성하도록, 상기 제1 이미지 세트 중 이미지를 각각 다운 샘플링하는 단계; 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 단계 - 상기 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 상기 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응됨 - ; 제1 변형 이미지 세트를 획득하도록, 상기 제1 변형 파라미터 세트에 따라, 상기 제1 이미지 세트 중 이미지를 각각 변형 처리하는 단계; 제3 이미지 세트를 획득하도록, 상기 제1 변형 이미지 세트, 상기 제1 미리 번역된 이미지 세트 및 상기 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 단계; 상기 제3 이미지 세트 중 이미지 및 상기 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 상기 제1 초기 판별기에 의해 출력된 상기 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 상기 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하는 단계; 및 제1 도메인에 속하는 대상 생성기를 생성하도록, 상기 제1 확률 세트 및 상기 제2 확률 세트에 따라, 상기 제1 초기 생성기 및 상기 제1 초기 판별기에 대해 보정하는 단계 - 상기 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 를 포함한다.
제3 측면으로, 이미지 번역 장치가 제공되는 바, 상기 장치는, 이미지 번역 요청을 획득하는 제1 획득 모듈 - 상기 번역 요청은 원본 이미지를 포함함 - ; 상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 제1 샘플링 모듈; 상기 축소된 이미지에 따라, 상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 제1 생성 모듈 - 상기 미리 번역된 이미지 및 상기 마스크 이미지의 크기는 상기 원본 이미지의 크기와 동일함 - ; 변형 이미지를 획득하도록, 상기 변형 파라미터에 따라 상기 원본 이미지를 변형 처리하는 제1 처리 모듈; 및 대상 번역 이미지를 생성하도록, 상기 변형 이미지, 상기 미리 번역된 이미지 및 상기 마스크 이미지를 융합하는 제1 융합 모듈; 을 포함한다.
제4 측면으로, 이미지 번역 모델의 트레이닝 장치가 제공되는 바, 상기 장치는, 트레이닝 샘플 세트를 획득하는 제2 획득 모듈 - 상기 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함함 - ; 제1 축소된 이미지 세트를 생성하도록, 상기 제1 이미지 세트 중 이미지를 각각 다운 샘플링하는 제2 샘플링 모듈; 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 제2 처리 모듈 - 상기 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 상기 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응됨 - ; 제1 변형 이미지 세트를 획득하도록, 상기 제1 변형 파라미터 세트에 따라, 상기 제1 이미지 세트 중 이미지를 각각 변형 처리하는 제3 처리 모듈; 제3 이미지 세트를 획득하도록, 상기 제1 변형 이미지 세트, 상기 제1 미리 번역된 이미지 세트 및 상기 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 제2 융합 모듈; 상기 제3 이미지 세트 중 이미지 및 상기 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 상기 제1 초기 판별기에 의해 출력된 상기 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 상기 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하는 제3 획득 모듈; 및 제1 도메인에 속하는 대상 생성기를 생성하도록, 상기 제1 확률 세트 및 상기 제2 확률 세트에 따라, 상기 제1 초기 생성기 및 상기 제1 초기 판별기에 대해 보정하는 제1 보정 모듈 - 상기 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 을 포함한다.
제5 측면으로, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하는 전자 기기가 제공되는 바, 여기서 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상술한 바와 같은 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 수행할 수 있도록 한다.
제6 측면으로, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체가 제공되는 바, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 바와 같은 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 수행하도록 한다.
제7 측면의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 상술한 바와 같은 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법이 실행된다.
본 발명의 기술에 따라, 번역 모델의 구조를 지속적으로 절단하거나 입력된 이미지의 해상도를 직접 축소시키는 방식을 통해, 이미지 번역의 연산량을 감소시킬 경우, 번역된 이미지의 선명도가 상대적으로 낮아지고, 또한 이미지 번역 효과도 크게 감소되는 기술적 문제를 해결하며, 이미지 번역의 연산량을 감소시키는 동시에, 이미지 번역 효과를 보장할 수 있으며, 번역된 대상 번역 이미지의 선명도를 향상시킨다.
본 부분에서 설명된 내용은 본 개시의 실시예의 핵심 또는 중요 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 한정하려는 의도가 아님을 이해해야 한다. 본 개시의 다른 특징은 아래 명세서를 통해 쉽게 이해될 것이다.
도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 발명의 실시예에서 제공된 하나의 이미지 번역 방법의 흐름 모식도이고;
도 2는 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 방법의 흐름 모식도이고;
도 3은 본 발명의 실시예에서 제공된 또 다른 하나의 이미지 번역 방법의 흐름 모식도이고;
도 4는 본 발명의 실시예에서 제공된 하나의 이미지 번역 장치의 구조 모식도이고;
도 5는 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 장치의 구조 모식도이고;
도 6은 본 발명의 실시예에서 제공된 또 다른 하나의 이미지 번역 장치의 구조 모식도이고;
도 7은 본 발명의 실시예에서 제공된 하나의 이미지 번역 모델의 트레이닝 방법의 흐름 모식도이고;
도 8은 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 모델의 트레이닝 방법의 흐름 모식도이고;
도 9는 본 발명의 실시예에서 제공된 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이고;
도 10은 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이고;
도 11은 본 발명의 실시예에서 제공된 또 다른 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이고;
도 12는 본 발명의 실시예의 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자는 본 발명의 범위와 사상을 벗어나지 않고, 여기서 설명되는 실시예에 대해 다양한 변경과 보정을 수행할 수 있다. 마찬가지로, 명확하고 간소화하기 위해, 이하 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치, 전자 기기 및 저장 매체를 설명한다.
본 발명은 관련 기술에서, 번역 모델의 구조를 지속적으로 절단하거나 입력된 이미지의 해상도를 직접 축소시키는 방식을 통해, 이미지 번역의 연산량을 감소시킬 경우, 번역된 이미지의 선명도가 상대적으로 낮아지고, 또한 이미지 번역 효과도 크게 감소되는 문제에 대해, 이미지 번역 방법을 제공한다.
본 발명에서 제공된 이미지 번역 방법은, 우선 이미지 번역 요청을 획득하고, 다음으로 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 이미지 번역 요청 중 원본 이미지에 대해 다운 샘플링하며, 따라서 축소된 이미지에 따라, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하여, 미리 번역된 이미지 및 마스크 이미지의 크기가 원본 이미지의 크기와 동일하도록 하고, 다음 변형 이미지를 생성하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하며, 마지막에 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합한다. 이로써, 원본 이미지를 축소 처리한 후 입력으로 사용하여, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
도 1은 본 발명의 실시예에서 제공된 하나의 이미지 번역 방법의 흐름 모식도이다.
설명해야 할 것은, 본 발명의 실시예의 이미지 번역 방법의 수행 주체는 이미지 번역 장치이고, 이미지 번역 장치는, 변형 파라미터에 따라 원본 이미지를 변형 처리하여, 변형 이미지를 획득한 후, 다시 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합하여 대상 번역 이미지를 생성하도록 전자 기기에 구성될 수 있다. 여기서, 전자 기기는 데이터를 처리할 수 있는 임의의 단말 기기 또는 서버 등일 수 있으며, 본 발명은 이에 한정되지 않는다.
도 1에 도시된 바와 같이, 이미지 번역 방법은 하기와 같은 단계를 포함할 수 있다.
단계 101에서, 이미지 번역 요청을 획득하되, 여기서 번역 요청은 원본 이미지를 포함할 수 있다.
실제 응용에서, 상이한 시나리오에서 상이한 실시형태를 통해 이미지 번역 요청을 획득할 수 있다. 일 가능한 구현 방식으로서, 사용자는 입력창을 통해 이미지 번역 요청 명령을 입력할 수 있다.
다른 일 가능한 구현 방식으로서, 이미지 번역 프로그램에 대한 사용자의 트리거 조작이 획득되면, 이미지 번역 요청을 획득한 것으로 간주되며, 예를 들어 사용자가 터치 스크린에서 이미지 번역을 시작하는 버튼을 클릭할 때 이미지 번역 요청이 획득된 것으로 간주된다.
또 다른 일 가능한 구현 방식으로서, 사전에 이미지 번역 프로그램의 메시지 제어 클래스에 후크 함수가 설정될 수 있으며, 이로써 당해 후크 함수에 따라 이미지 번역 요청 메시지를 검출한다. 구체적으로, 사용자가 이미지 번역 요청을 송신할 경우, 트리거 메시지를 송신하게 되는데, 이경우, 메시지 제어 클래스 함수는 호출되며, 따라서 메시지 제어 클래스 함수에 설정된 후크 함수는 당해 메시지 제어 클래스 함수의 호출을 검출할 수 있고, 또한 현재 메시지 제어 클래스 함수를 트리거하는 메시지 유형에 따라 이미지 번역 요청 메시지를 식별할 수 있다.
단계 102에서, 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링한다.
여기서, 원본 이미지에 대해 다운 샘플링(다운 샘플링으로도 지칭됨)하는 것은, 원본 이미지를 축소하는 것을 의미하며, 이의 목적은 이미지가 디스플레이 영역의 크기에 부합되거나, 대응되는 축소된 이미지를 생성하도록 하는 것이다. 예를 들어, 한 폭의 이미지의 크기가 M*N이면, 당해 이미지에 대해 s배로 다운 샘플링한 후, (M/s)*(N/s) 크기의 축소된 이미지를 얻을 수 있다.
다시 말해서, 번역 요청으로부터 원본 이미지를 획득한 후, 원본 이미지에 대해 축소하여 축소된 이미지를 생성하고, 또한 축소된 이미지를 입력으로 사용하여, 연산량을 크게 감소시킨다. 예를 들어, 남녀 얼굴 성별이 변환되는 애플리케이션 시나리오에서, 원본 이미지가 남성 얼굴의 이미지(256*256 해상도)이면, 원본 이미지에 대해 2배로 다운 샘플링한 후, 128*128 해상도의 축소된 이미지를 얻을 수 있으며, 이경우, 특징맵의 크기는 원 특징맵의 크기의 절반으로 감소되고, 대응되게, 이론적 연산량도 원 연산량의 0.25배로 감소된다.
단계 103에서, 축소된 이미지에 따라, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성한다. 여기서, 미리 번역된 이미지 및 마스크 이미지의 크기는 원본 이미지의 크기와 동일하다.
구체적으로, 축소된 이미지를 입력한 후, 축소된 이미지에 대해 디콘볼루션 동작을 수행하여, 축소된 이미지의 크기를 원본 이미지의 크기로 확대한 다음, 다시 확대된 이미지에 대해 처리하여, 원본 이미지에 대응되는 미리 번역된 이미지를 생성함과 동시에, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 획득할 수 있다.
여기서, 변형 파라미터는 각각의 픽셀점에 대응되는 x축 방향의 수평 이동량 및 y축 방향의 수평 이동량을 포함하고; 마스크 이미지는 이미지 필터 처리에 의한 템플릿이며, 여기서, 마스크 이미지의 주요 작용은, 처리 또는 처리 파라미터의 계산에 참여하지 않도록, 이미지의 특정 영역을 마스크로 차폐하거나; 유사성 변수 또는 이미지 매칭 방법으로 이미지 중 마스크와 유사한 구조 특징을 검출하고 추출하는 것이다.
예를 들어, 여전히 남녀 얼굴 성별 변환을 예로, 원본 이미지가 남성 얼굴의 이미지(256*256 해상도)이면, 대응되는 축소된 이미지의 해상도는 128*128이고, 우선 축소된 이미지에 대해 디콘볼루션 동작을 수행하여, 축소된 이미지의 해상도를 256*256으로 향상시켜, 256*256 해상도의 이미지를 얻은 다음, 다시 당해 256*256 해상도의 이미지 중 남성 얼굴을 여성 얼굴로 직접 변환시켜, 융합되지 않은 여성화 얼굴, 즉 원본 이미지에 대응되는 미리 번역된 이미지를 생성하며, 동시에 대응되는 마스크 이미지 및 변형 파라미터를 획득하는데, 여기서 미리 번역된 이미지의 해상도는 256*256이고, 마스크 이미지의 해상도도 256*256이며, 변형 파라미터는 256*256 그룹이고, 각 그룹의 변형 파라미터는 x축 방향 파라미터 및 y축 방향 파라미터를 포함한다.
단계 104에서, 변형 이미지를 획득하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리한다.
여기서, 변형 이미지를 생성하도록, 이미지 변환 도구를 통해 변형 파라미터에 따라 원본 이미지를 대응되게 변경시킬 수 있다.
예를 들어, 원본 이미지가 원래 남성 얼굴의 이미지인 경우, 변형 파라미터에서, 남성 눈썹 영역을 나타내는데 사용되는 변형 방식이 y축 방향을 따라 좁아지면, 이미지 변환 도구를 통해 변형 파라미터에 따라, 원본 이미지에 대해 변형한 후, 획득한 변형 이미지 중 원래 남성 얼굴의 눈썹이 좁아지게 되는데, 이로써 여성 눈썹의 특징에 더욱 가까워지도록 한다.
단계 105에서, 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합한다.
구체적으로, 실제 작동 과정에서, 단지 입력된 이미지의 해상도를 직접 축소하는 것으로 이미지 번역의 연산량을 감소시키면, 출력된 이미지의 해상도는 입력된 이미지의 해상도와 동일하게 되며, 따라서 이미지 번역의 연산량을 감소시킬 경우, 번역된 이미지의 선명도가 상대적으로 낮아지고, 또한 이미지 번역 효과도 크게 감소된다.
따라서, 본 발명에서는 먼저 원본 이미지를 축소 처리한 후 입력으로 사용하여, 이미지 번역의 연산량을 감소시키고, 다음으로 다시 축소된 이미지에 대해 처리하여 원본 이미지의 크기와 동일한 미리 번역된 이미지를 생성함과 동시에, 대응되는 마스크 이미지 및 변형 파라미터를 생성하며, 다음 변형 이미지를 획득하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하고, 마지막에 마스크 이미지 중 가중치에 따라 변형 이미지 및 미리 번역된 이미지를 융합하여 대상 번역 이미지를 생성한다. 이로써, 이미지 번역의 연산량을 감소시키는 동시에, 출력된 대상 번역 이미지의 크기가 원본 이미지의 크기와 동일하도록 보장할 수 있으며, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 대상 번역 이미지가 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시키도록 하며, 또한 생성된 대상 번역 이미지의 배경 부분도 원본 이미지와 일치하여, 이미지의 원활한 융합을 구현할 수 있어, 생성된 대상 번역 이미지의 자연도를 크게 향상시킨다.
설명해야 할 것은, 상기 실시예에서, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 대상 생성기를 통해 축소된 이미지에 대해 처리할 수 있다. 여기서, 상이한 애플리케이션 시나리오에서, 대상 생성기의 획득 방식 또한 상이하다.
일 가능한 구현 방식으로서, 먼저 대상 번역 이미지가 속한 제1 도메인을 획득하여, 대상 번역 이미지가 속한 제1 도메인에 따라 대상 생성기를 획득할 수 있다. 대응되게, 본 발명의 일 실시예에서, 번역 요청에 대상 번역 이미지가 속한 제1 도메인이 더 포함되므로, 따라서 상기 단계 101 이후에,
대상 번역 이미지가 속한 제1 도메인에 따라, 대상 생성기를 획득하는 단계를 더 포함한다.
대응되게, 상기 단계 103은,
원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 대상 생성기를 사용하여, 축소된 이미지에 대해 처리하는 단계를 포함할 수 있다.
여기서, 이미지 번역 분야에서, 상이한 도메인을 사용하여 원본 이미지와 대상 번역 이미지를 구분한다. 예를 들어, 성별을 번역할 경우, 남성 얼굴 이미지 및 여성 얼굴 이미지는 각각 상이한 도메인에 위치한 이미지이거나, 이미지 중 사과를 오렌지로 번역할 경우, 사과를 포함한 이미지 및 오렌지를 포함한 이미지는 각각 상이한 도메인에 속한다.
대응되게, 본 발명에서 대상 번역 이미지가 속한 제1 도메인은, 여성 얼굴을 포함한 이미지 또는 사과를 포함한 이미지와 같은 특정 유형의 지정된 객체를 포함한 이미지이다.
구체적으로, 상이한 도메인 중 이미지에 대해 번역할 경우, 사용되는 생성기도 상이하며, 따라서 본 개시는 번역 요청을 수신하고, 번역 요청으로부터 대상 번역 이미지가 속한 제1 도메인을 획득한 후, 대상 번역 이미지가 속한 제1 도메인에 따라 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기를 결정할 수 있다. 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 하나만 있으면, 대상 번역 이미지가 속한 제1 도메인에 따라 대응되는 대상 생성기를 직접 결정할 수 있다.
예를 들어, 대상 번역 이미지가 속한 제1 도메인이 여성 얼굴인 경우, 당해 대상 번역 이미지에 대응되는 생성기에 남성 얼굴이 여성 얼굴로 변환되는 생성기만 있는 것으로 결정할 수 있으며, 따라서 대상 생성기는 남성 얼굴이 여성 얼굴로 변환되는 생성기임을 결정할 수 있다. 대상 번역 이미지가 속한 제1 도메인이 아이 얼굴인 경우, 당해 대상 번역 이미지에 대응되는 생성기에 노인 얼굴이 아이 얼굴로 변환되는 생성기만 있는 것으로 결정할 수 있으며, 따라서, 대상 생성기는 노인 얼굴이 아이 얼굴로 변환되는 생성기임을 결정할 수 있다.
또한, 대상 생성기가 결정된 후, 대상 생성기를 통해 축소된 이미지에 대해 직접 처리하여, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성할 수 있다.
이로써, 축소된 이미지에 대해 처리하기 이전에, 대상 번역 이미지가 속한 제1 도메인에 따라 전용 대상 생성기를 결정하여 축소된 이미지에 대해 대응되게 처리할 수 있음으로써, 이미지 처리 효율 및 정확도를 크게 향상시킬 수 있다.
설명해야 할 것은, 실제 작동 과정에서, 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 다양한 경우도 존재한다.
대응되게, 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 단계 101 이후에,
원본 이미지가 속한 제2 도메인을 결정하도록, 원본 이미지에 대해 식별하는 단계; 및 원본 이미지가 속한 제2 도메인 및 대상 번역 이미지가 속한 제1 도메인에 따라, N종의 생성기로부터 대상 생성기를 선택하는 단계; 를 더 포함한다.
구체적으로, 대상 번역 이미지가 속한 제1 도메인에 따라 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 다양한 것으로 결정할 경우, 원본 이미지가 속한 제2 도메인을 획득하도록, 원본 이미지에 대해 식별한 다음, 대상 번역 이미지가 속한 제1 도메인 및 원본 이미지가 속한 제2 도메인에 따라, 다양한 생성기로부터 하나의 생성기를 선택하여 대상 생성기로 사용할 수 있다.
예를 들어, 대상 번역 이미지가 속한 제1 도메인이 사과를 포함한 이미지인 경우, 당해 대상 번역 이미지가 속한 제1 도메인에 따라, 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기에 오렌지가 사과로 변환되는 생성기, 배가 사과로 변환되는 생성기, 복숭아가 사과로 변환되는 생성기 등 다양한 생성기가 있는 것으로 결정할 수 있다. 이경우, 원본 이미지가 속한 제2 도메인이 오렌지를 포함한 이미지로 결정되면, 상기 다수의 생성기로부터 오렌지가 사과로 변환되는 생성기를 선택하여 대상 생성기로 사용할 수 있다.
또한, 대상 생성기가 결정된 후, 대상 생성기를 통해 축소된 이미지에 대해 직접 대응되게 처리하여, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터를 생성할 수 있다.
이로써, 대상 번역 이미지가 속한 제1 도메인에 따라 이에 대응되는 생성기가 다양한 것으로 결정될 경우, 또한 원본 이미지가 속한 제2 도메인에 따라 다양한 생성기로부터 유일한 하나의 생성기를 선택하여 대상 생성기로 사용하여, 축소된 이미지에 대해 대응되게 처리함으로써, 이미지 처리의 효율 및 정확도를 더욱 더 향상시킨다.
다른 일 가능한 구현 방식으로서, 먼저 원본 이미지가 속한 제2 도메인을 획득하여, 원본 이미지가 속한 제2 도메인에 따라 대상 생성기를 획득할 수 있다. 대응되게, 본 발명의 다른 일 실시예에서, 상기 단계 101 이후에,
원본 이미지가 속한 제2 도메인을 결정하도록, 원본 이미지에 대해 식별하는 단계; 및 원본 이미지가 속한 제2 도메인에 따라, 대상 생성기를 획득하는 단계; 를 더 포함한다.
대응되게, 상기 단계 103은,
원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 대상 생성기를 사용하여, 축소된 이미지에 대해 처리하는 단계를 포함할 수 있다.
구체적으로, 원본 이미지를 획득한 후, 원본 이미지에 대해 식별하여, 원본 이미지가 속한 제2 도메인을 획득할 수 있다. 원본 이미지가 속한 제2 도메인이 결정된 후, 원본 이미지가 속한 제2 도메인에 따라 원본 이미지가 속한 제2 도메인과 대응되는 생성기를 결정할 수 있다. 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 하나만 존재하면, 원본 이미지가 속한 제2 도메인에 따라 대응되는 대상 생성기를 직접 결정할 수 있다.
예를 들어, 원본 이미지가 속한 제2 도메인이 남성 얼굴인 것으로 결정될 경우, 원본 이미지가 속한 제2 도메인에 대응되는 생성기에 남성 얼굴이 여성 얼굴로 변환되는 생성기만 있는 것으로 결정할 수 있으며, 따라서, 대상 생성기가 남성 얼굴이 여성 얼굴로 변환되는 생성기임을 결정할 수 있고; 원본 이미지가 속한 제2 도메인이 노인 얼굴인 것으로 결정될 경우, 원본 이미지가 속한 제2 도메인에 대응되는 생성기에 노인 얼굴이 아이 얼굴로 변환되는 생성기만 있는 것으로 결정할 수 있으며, 따라서, 대상 생성기가 노인 얼굴이 아이 얼굴로 변환되는 생성기임을 결정할 수 있다.
또한, 대상 생성기가 결정된 후, 대상 생성기를 통해 축소된 이미지에 대해 직접 대응되게 처리하여, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터를 생성할 수 있다.
이로써, 축소된 이미지에 대해 처리하기 이전에, 원본 이미지가 속한 제2 도메인에 따라 전용 대상 생성기를 결정하여 축소된 이미지에 대해 대응되게 처리함으로써, 이미지 처리 효율 및 정확도를 크게 향상시킬 수 있다.
설명해야 할 것은, 실제 작동 과정에서, 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 다양한 경우도 존재한다.
대응되게, 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 단계 101 이후에,
대상 번역 이미지가 속한 제1 도메인을 획득하는 단계; 및 대상 번역 이미지가 속한 제1 도메인 및 원본 이미지가 속한 제2 도메인에 따라, N종의 생성기로부터 대상 생성기를 선택하는 단계; 를 더 포함한다.
구체적으로, 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 다양한 것으로 결정될 경우, 대상 번역 이미지가 속한 제1 도메인을 획득할 수 있다. 여기서, 번역 요청에 대상 번역 이미지가 속한 제1 도메인이 포함되면, 번역 요청으로분터 대상 번역 이미지가 속한 제1 도메인을 직접 획득할 수 있으며; 번역 요청에 대상 번역 이미지가 속한 제1 도메인이 포함되지 않으면, 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 다양한 것으로 결정될 경우, 사용자가 대상 번역 이미지의 이미지 유형 및 특징 정보에 따라 쉽게 선택하도록, 대상 번역 이미지가 속한 제1 도메인의 선택항을 팝업할 수 있다. 대상 번역 이미지가 속한 제1 도메인이 결정된 후, 대상 번역 이미지가 속한 제1 도메인 및 원본 이미지가 속한 제2 도메인에 따라, 다양한 생성기로부터 하나의 생성기를 선택하여 대상 생성기로 사용할 수 있다.
예를 들어, 원본 이미지가 속한 제2 도메인이 오렌지인 경우, 원본 이미지가 속한 제2 도메인에 따라, 원본 이미지가 속한 제2 도메인에 대응되는 생성기에 오렌지가 사과로 변환되는 생성기, 오렌지가 배로 변환되는 생성기, 오렌지가 복숭아로 변환되는 생성기 등 다양한 생성기가 있는 것으로 결정할 수 있다. 이경우, 대상 번역 이미지가 속한 제1 도메인이 배인 것으로 획득되면, 상기 다수의 생성기로부터 오렌지가 배로 변환되는 생성기를 선택하여 대상 생성기로 사용할 수 있다.
또한, 대상 생성기가 결정된 후, 대상 생성기를 통해 축소된 이미지에 대해 직접 대응되게 처리하여, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터를 생성할 수 있다.
이로써, 원본 이미지가 속한 제2 도메인에 따라 이에 대응되는 생성기가 다양한 것으로 결정될 경우, 또한 대상 번역 이미지가 속한 제1 도메인에 따라 다양한 생성기로부터 유일한 하나의 생성기를 선택하여 대상 생성기로 사용하여, 축소된 이미지에 대해 대응되게 처리함으로써, 이미지 처리의 효율 및 정확도를 더욱 더 향상시킨다.
설명해야 할 것은, 이미지에 대해 처리할 경우, 일반적으로 당해 이미지 중 특징 정보를 추출하고, 특징 정보에 대해 대응되게 처리하여 이미지에 대한 처리를 구현한다.
아래에 도 2를 결부하여 설명하며, 도 2에 도시된 바와 같이, 상기 단계 103은 구체적으로 하기와 같은 단계를 포함한다.
단계 201에서, 축소된 이미지가 제1 도메인으로 번역될 때 대응되는 제1 특징 벡터를 결정하도록, 축소된 이미지에 대해 처리한다. 여기서, 제1 도메인은 대상 번역 이미지가 속한 도메인이다.
여기서, 제1 특징 벡터는 축소된 이미지를 대상 번역 이미지로 직접 변환할 때 변경해야 하는 특징 벡터이고, 당해 제1 특징 벡터에 대응되는 크기는 축소된 이미지의 크기와 동일하다.
단계 202에서, 제2 특징 벡터를 생성하도록, 제1 특징 벡터에 대해 업 샘플링한다.
구체적으로, 제1 특징 벡터에 대응되는 크기가 축소된 이미지의 크기와 동일하므로, 제1 특징 벡터에 따라 축소된 이미지에 대해 직접 처리하면, 얻은 미리 번역된 이미지 및 마스크 이미지의 크기는 축소된 이미지의 크기와 동일하게 되어, 최종 생성된 축소된 이미지의 크기의 해상도가 상대적으로 낮아지도록 한다. 따라서, 제2 특징 벡터를 생성하도록, 제1 특징 벡터에 대해 업 샘플링하며, 즉 제1 특징 벡터에 대응되는 크기를 증가시켜야 한다.
단계 203에서, 제2 특징 벡터에 따라, 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성한다.
구체적으로, 생성기는 제2 특징 벡터를 획득한 후, 제2 특징 벡터에 대해 디코딩하여, 제2 특징 벡터에 따라 제2 도메인 중 대상 객체의 이미지를 리모델링함으로써, 미리 번역된 이미지를 생성할 수 있으며, 또한 대상 객체에 대해 리모델링하는 과정에서, 마스크 이미지 및 변형 파라미터를 생성한다.
이해할 수 있는 것은, 본 개시에서, 원본 이미지를 번역할 경우, 실제 처리된 이미지 크기는 축소된 이미지이고, 특징 벡터를 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터로 디코딩하기 이전에만, 업 샘플링 처리가 수행되므로, 따라서 최종 생성된 미리 번역된 이미지, 마스크 이미지 등이 원본 이미지 크기와 동일하도록 보장할 뿐만 아니라, 이미지 번역 과정에서 데이터의 처리량을 크게 감소시킨다.
또한, 선명도 및 자연도가 높은 대상 번역 이미지를 생성하기 위해, 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터를 획득한 후, 변형 파라미터에 따라 원본 이미지를 변형 처리하여, 변형 이미지를 획득할 수 있으며, 또한 마스크 이미지 중 가중치에 따라 변형 이미지 및 미리 번역된 이미지를 융합하여 대상 번역 이미지를 생성한다.
아래 도 3을 결부하여 대상 번역 이미지를 생성하는 방법을 상세하게 설명하며, 도 3에 도시된 바와 같이, 상기 단계 104는 구체적으로 하기와 같은 단계를 포함한다.
단계 301에서, 마스크 이미지 중 각 픽셀점의 픽셀값에 따라, 미리 번역된 이미지의 제1 가중치 및 변형 이미지의 제2 가중치를 결정한다.
단계 302에서, 제1 가중치 및 제2 가중치에 따라, 미리 번역된 이미지 중 각 픽셀점의 픽셀값과 변형 이미지 중 각 픽셀점의 픽셀값을 융합하여, 대상 번역 이미지를 생성한다.
구체적으로, 마스크 이미지 중 각 픽셀점의 픽셀값에 따라, 미리 번역된 이미지의 제1 가중치 및 변형 이미지의 제2 가중치를 결정할 수 있으므로, 제1 가중치 및 제2 가중치의 가중치 비에 따라, 대상 번역 이미지의 각 픽셀점에서, 미리 번역된 이미지의 픽셀값과 변형 이미지 중 픽셀값의 비값을 획득함으로써, 당해 비값에 따라 미리 번역된 이미지 중 각 픽셀점의 픽셀값과 변형 이미지 중 각 픽셀점의 픽셀값을 융합한다.
실제 사용 시, 마스크 이미지 중 픽셀점의 픽셀값은, 미리 번역된 이미지 중 동일한 픽셀점의 가중치일 수 있고, 변형 이미지 중 동일한 픽셀점의 가중치일 수 있다. 예를 들어, 마스크 이미지 중 제i개 픽셀점의 픽셀값이 0.7이면, 미리 번역된 이미지 중 제i개 픽셀점의 가중치가 0.7(또는 0.3)이고, 대응되게, 변형 이미지 중 제i개 픽셀점의 가중치가 0.3(또는 0.7)인 것으로 결정할 수 있으며, 미리 번역된 이미지 중 제i개 픽셀점의 픽셀값이 10이면, 변형 이미지 중 제i개 픽셀점의 픽셀값은 30이며, 따라서 융합하여 생성된 대상 번역 이미지 중 제i개 픽셀점의 픽셀값은 22 또는 24이다.
이로써, 변형 이미지 및 미리 번역된 이미지 중 각 픽셀점의 픽셀값을, 각각 마스크 이미지의 가중치에 따라 융합함으로써, 융합하여 생성된 대상 번역 이미지 중 각각의 픽셀점의 픽셀값이 번역 수요를 충족시킬 수 있고, 또한 원본 이미지의 고화질 및 풍부한 고주파 상세 정보를 충분히 구현할 수 있도록 함으로써, 생성된 대상 번역 이미지의 선명도를 향상시킬 뿐만 아니라, 생성된 대상 번역 이미지의 배경 부분도 원본 이미지와 일치하여, 이미지의 원활한 융합을 구현할 수 있어, 생성된 대상 번역 이미지의 자연도를 크게 향상시킨다.
설명해야 할 것은, 상기 실시예에서 이미지 번역 방법이 전자 기기에 응용될 수 있도록 하고, 또한 전자 기기를 통해 실시간 이미지 번역의 기능을 구현하기 위해, 원본 이미지에 대해 축소하여 축소된 이미지를 생성할 경우, 조정된 연산량이 전자 기기의 수요를 충족시키는지 확인하도록 이미지 축소 비율을 더 결정해야 한다.
따라서, 본 발명의 일 실시예에서, 단계 S102 이전에,
현재 존재하는 전자 기기의 속성 파라미터를 획득하는 단계; 전자 기기의 속성 파라미터에 따라, 다운 샘플링 계수를 결정하는 단계; 를 더 포함한다. 대응되게, 단계 S102는,
다운 샘플링 계수에 따라, 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링하는 단계를 포함한다.
여기서, 전자 기기의 속성 파라미터는 전자 기기의 CPU 주파수, 코어수 등을 포함할 수 있다.
구체적으로, 먼저 전자 기기의 속성 파라미터에 따라 전자 기기가 적재할 수 있는 연산량을 결정하고, 따라서 당해 연산량에 따라 다운 샘플링 계수를 결정한 다음, 다운 샘플링 계수에 따라 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링할 수 있다.
예를 들어, 원본 이미지가 남성 얼굴인 이미지의 해상도가 256*256이면, 이에 대응되는 연산량은 X이고, 전자 기기의 속성 파라미터에 따라 전자 기기가 적재할 수 있는 연산량이 0.25X인 것으로 결정되며, 따라서 원본 이미지에 대해 2배로 다운 샘플링하여, 128*128 해상도의 축소된 이미지를 얻을 수 있다.
이로써, 전자 기기의 속성 파라미터에 따라 이미지가 축소되는 비율을 결정하여, 조정된 연산량이 전자 기기의 수요를 충족시키도록 확인하고, 따라서 전자 기기가 실시간 이미지 번역 기능을 구현할 수 있고 또한 이미지 번역 효과를 보장할 수 있도록 하여, 대상 번역 이미지의 선명도가 상대적으로 높아진다.
종합해보면, 본 발명에서 제공된 이미지 번역 방법은, 우선 이미지 번역 요청을 획득하고, 다음으로 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 이미지 번역 요청 중 원본 이미지에 대해 다운 샘플링하며, 따라서 축소된 이미지에 따라, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하여, 미리 번역된 이미지 및 마스크 이미지의 크기가 원본 이미지의 크기와 동일하도록 하고, 다음 변형 이미지를 생성하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하며, 마지막에 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합한다. 이로써, 원본 이미지를 축소 처리한 후 입력으로 사용하여, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
상기 실시예를 구현하기 위해, 본 발명은 이미지 번역 장치를 더 제공한다. 당해 이미지 번역 장치는 전자 기기에 설치될 수 있다. 도 4는 본 발명의 실시예에서 제공된 하나의 이미지 번역 장치의 구조 모식도이다.
도 4에 도시된 바와 같이, 당해 이미지 번역 장치(400)는, 제1 획득 모듈(410), 제1 샘플링 모듈(420), 제1 생성 모듈(430), 제1 처리 모듈(440) 및 제1 융합 모듈(450)을 포함할 수 있다.
여기서, 제1 획득 모듈(410)은 이미지 번역 요청을 획득하는데 사용되되, 여기서 번역 요청은 원본 이미지를 포함하고; 제1 샘플링 모듈(420)은 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링하는데 사용되며; 제1 생성 모듈(430)은 축소된 이미지에 따라, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는데 사용되되, 여기서 미리 번역된 이미지 및 마스크 이미지의 크기는 원본 이미지의 크기와 동일하고; 제1 처리 모듈(440)은 변형 이미지를 획득하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하는데 사용되며; 제1 융합 모듈(450)은 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합하는데 사용된다.
도 5는 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 장치의 구조 모식도이다. 본 발명의 실시예의 일 가능한 구현 방식에서, 도 5에 도시된 바와 같이, 제1 생성 모듈(430)은, 제1 처리 유닛(431), 제1 샘플링 유닛(432) 및 제1 생성 유닛(433)을 포함한다.
여기서, 제1 처리 유닛(431)은 축소된 이미지가 제1 도메인으로 번역될 때 대응되는 제1 특징 벡터를 결정하도록, 축소된 이미지에 대해 처리하는데 사용되되, 여기서 제1 도메인은 대상 번역 이미지가 속한 도메인이고; 제1 샘플링 유닛(432)은 제2 특징 벡터를 생성하도록, 제1 특징 벡터에 대해 업 샘플링하는데 사용되며; 제1 생성 유닛(433)은 제2 특징 벡터에 따라, 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는데 사용된다.
본 발명의 실시예의 일 가능한 구현 방식에서, 번역 요청은 대상 번역 이미지가 속한 제1 도메인을 더 포함하고, 제1 획득 모듈(410)은 이미지 번역 요청을 획득한 이후, 또한 대상 번역 이미지가 속한 제1 도메인에 따라, 대상 생성기를 획득하는데 사용되며; 제1 생성 모듈(430)은 구체적으로, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 대상 생성기를 사용하여, 축소된 이미지에 대해 처리하는데 사용된다.
본 발명의 실시예의 다른 일 가능한 구현 방식에서, 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 제1 획득 모듈(410)은 이미지 번역 요청을 획득한 이후, 또한 원본 이미지가 속한 제2 도메인을 결정하도록, 원본 이미지에 대해 식별하며; 원본 이미지가 속한 제2 도메인 및 대상 번역 이미지가 속한 제1 도메인에 따라, N종의 생성기로부터 대상 생성기를 선택하는데 사용된다.
본 발명의 실시예의 또 다른 일 가능한 구현 방식에서, 제1 획득 모듈(410)은 이미지 번역 요청을 획득한 이후, 또한 원본 이미지가 속한 제2 도메인을 결정하도록, 원본 이미지에 대해 식별하고; 원본 이미지가 속한 제2 도메인에 따라, 대상 생성기를 획득하는데 사용되며; 제1 생성 모듈(430)은 구체적으로, 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 대상 생성기를 사용하여, 축소된 이미지에 대해 처리하는데 사용된다.
본 발명의 실시예의 또 다른 일 가능한 구현 방식에서, 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 제1 획득 모듈(410)은 이미지 번역 요청을 획득한 이후, 또한 대상 번역 이미지가 속한 제1 도메인을 획득하며; 대상 번역 이미지가 속한 제1 도메인 및 원본 이미지가 속한 제2 도메인에 따라, N종의 생성기로부터 대상 생성기를 선택하는데 사용된다.
도 6은 본 발명의 실시예에서 제공된 또 다른 하나의 이미지 번역 장치의 구조 모식도이다. 본 발명의 실시예의 일 가능한 구현 방식에서, 도 6에 도시된 바와 같이, 제1 융합 모듈(450)은 제1 결정 유닛(451) 및 제1 융합 유닛(452)을 포함한다.
여기서, 제1 결정 유닛(451)은 마스크 이미지 중 각 픽셀점의 픽셀값에 따라, 미리 번역된 이미지의 제1 가중치 및 변형 이미지의 제2 가중치를 결정하는데 사용되고; 제1 융합 유닛(452)은 제1 가중치 및 제2 가중치에 따라, 미리 번역된 이미지 중 각 픽셀점의 픽셀값과 변형 이미지 중 각 픽셀점의 픽셀값을 융합하여, 대상 번역 이미지를 생성하는데 사용된다.
본 발명의 실시예의 일 가능한 구현 방식에서, 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링하기 이전에, 제1 샘플링 모듈(420)은 또한, 현재 존재하는 전자 기기의 속성 파라미터를 획득하고; 전자 기기의 속성 파라미터에 따라, 다운 샘플링 계수를 결정하는데 사용되며; 제1 샘플링 모듈(420)은 구체적으로, 다운 샘플링 계수에 따라, 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 원본 이미지에 대해 다운 샘플링하는데 사용된다.
설명해야 할 것은, 본 발명의 실시예의 이미지 번역 장치에 공개되지 않은 세부 사항은 본 발명의 실시예의 이미지 번역 방법에서 공개된 세부 사항을 참조 바라며, 구체적으로 여기서 더이상 서술하지 않는다.
본 발명의 실시예의 이미지 번역 장치는, 우선 제1 획득 모듈을 통해 이미지 번역 요청을 획득하고, 다음으로 제1 샘플링 모듈을 통해 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 이미지 번역 요청 중 원본 이미지에 대해 다운 샘플링한 다음, 제1 생성 모듈을 통해 축소된 이미지에 따라, 원본 이미지에 대응되는, 원본 이미지의 크기와 동일한 미리 번역된 이미지, 마스크 이미지 및 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하여, 제1 처리 모듈을 통해 변형 이미지를 획득하도록, 변형 파라미터에 따라 원본 이미지를 변형 처리하며, 마지막에 제1 융합 모듈을 통해 대상 번역 이미지를 생성하도록, 변형 이미지, 미리 번역된 이미지 및 마스크 이미지를 융합한다. 이로써, 원본 이미지를 축소 처리한 후 입력으로 사용하여, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
상기 실시예를 구현하기 위해, 본 발명의 실시예는 이미지 번역 모델을 통해 상기 이미지 번역 방법을 구현하는 이미지 번역 모델의 트레이닝 방법을 더 제공한다. 도 7은 본 발명의 실시예에서 제공된 하나의 이미지 번역 모델의 트레이닝 방법의 흐름 모식도이다.
설명해야 할 것은, 본 발명의 실시예의 이미지 번역 모델의 트레이닝 방법의 수행 주체는 이미지 번역 모델의 트레이닝 장치이고, 이미지 번역 모델의 트레이닝 장치는 전자 기기에 구성되어, 이미지 번역 모델에 대한 트레이닝을 구현할 수 있어, 제1 생성기를 획득한다. 여기서, 전자 기기는 데이터를 처리할 수 있는 임의의 단말 기기 또는 서버 등일 수 있으며, 본 발명은 이에 한정되지 않는다.
도 7에 도시된 바와 같이, 이미지 번역 모델의 트레이닝 방법은 하기와 같은 단계를 포함할 수 있다.
단계 701에서, 트레이닝 샘플 세트를 획득한다.
여기서, 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함한다.
단계 702에서, 제1 축소된 이미지 세트를 생성하도록 제1 이미지 세트 중 이미지를 각각 다운 샘플링한다.
단계 703에서, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리한다. 여기서, 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응된다.
단계 704에서, 제1 변형 이미지 세트를 획득하도록, 제1 변형 파라미터 세트에 따라, 제1 이미지 세트 중 이미지를 각각 변형 처리한다.
단계 705에서, 제3 이미지 세트를 획득하도록, 제1 변형 이미지 세트, 제1 미리 번역된 이미지 세트 및 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합한다.
단계 706에서, 제3 이미지 세트 중 이미지 및 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 제1 초기 판별기에 의해 출력된 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득한다.
단계 707에서, 제1 도메인에 속하는 대상 생성기를 생성하도록, 제1 확률 세트 및 제2 확률 세트에 따라, 제1 초기 생성기 및 제1 초기 판별기에 대해 보정한다. 여기서, 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용된다.
여기서, 제1 이미지 세트 중 이미지는 각각 제2 이미지 세트 중 이미지와 일대일로 매칭된다.
구체적으로, 트레이닝 샘플 세트 중 제1 이미지 세트 중 이미지가 제2 이미지 세트 중 이미지와 일대일로 매칭될 경우, 제1 축소된 이미지 세트 중 이미지를 제1 초기 생성기의 입력으로 사용하여, 제1 초기 생성기를 통해 제1 축소된 이미지 세트 중 이미지에 대해 각각 번역하여, 제2 도메인에 속하는 제3 이미지 세트를 획득하되, 여기서, 제1 축소된 이미지 세트 중 이미지에 대해 각각 번역하는 과정은 상기 실시예에서 제공된 이미지 번역 방법을 참조할 수 있으며, 중복을 피하기 위해 여기서 더이상 상세하게 설명하지 않는다.
제3 이미지 세트를 획득한 후, 제3 이미지 세트 중 이미지 및 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 제1 초기 판별기를 통해 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 출력할 수 있다. 이경우, 제1 확률 세트 및 제2 확률 세트의 크기를 비교하여, 제1 초기 생성기 및 제1 초기 판별기에 대해 보정할 수 있다.
여기서, 제1 확률 세트와 제2 확률 세트의 편차가 비교적 크면, 제1 초기 생성기를 통해 이미지에 대해 번역할 경우, 오차가 비교적 큰 것으로 설명되므로, 따라서 제1 초기 생성기 및 제1 초기 판별기에 대해 대응되게 보정하여, 제1 도메인에 속하는 대상 생성기를 획득해야 하고; 제1 확률 세트와 제2 확률 세트의 편차가 비교적 작으면, 제1 초기 생성기를 통해 이미지에 대해 번역할 경우, 오차가 비교적 작은 것으로 설명되므로, 따라서 제1 초기 생성기 및 제1 초기 판별기에 대해 대응되게 보정할 필요 없이, 제1 초기 생성기를 제1 도메인에 속하는 대상 생성기로 직접 사용할 수 있다. 여기서, 제1 도메인에 속하는 대상 생성기를 이미지 번역 모델로 사용하여, 제1 도메인에 위치한 이미지를 제2 도메인 위치한 이미지로 번역할 수 있다.
이로써, 이미지 번역 모델에 대해 트레이닝하고, 트레이닝된 이미지 번역 모델을 통해 이미지에 대해 번역하여, 원본 이미지를 축소 처리한 후 입력으로 사용할 수 있어, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
설명해야 할 것은, 이미지에 대해 처리할 경우, 일반적으로 당해 이미지 중 특징 정보를 추출하고, 특징 정보에 대해 대응되게 처리하여 이미지에 대한 처리를 구현한다.
대응되게, 단계 703은, 축소된 이미지 세트 중 이미지가 제2 도메인으로 번역될 때 대응되는 제1 특징 벡터 세트를 결정하도록, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 단계; 제2 특징 벡터 세트를 생성하도록, 제1 특징 벡터 세트 중 제1 특징 벡터에 대해 각각 업 샘플링하는 단계; 및 제2 특징 벡터 세트 중 제2 특징 벡터에 따라, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하는 단계; 를 포함한다.
여기서, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 과정은 상기 실시예에서 제공된 이미지 번역 방법을 참조할 수 있으며, 중복을 피하기 위해 여기서 더이상 상세하게 설명하지 않는다.
이해할 수 있는 것은, 본 개시에서, 원본 이미지를 번역할 경우, 실제 처리된 이미지 크기는 축소된 이미지이고, 특징 벡터를 미리 번역된 이미지, 마스크 이미지 및 변형 파라미터로 디코딩하기 이전에만, 업 샘플링 처리가 수행되므로, 따라서 최종 생성된 미리 번역된 이미지, 마스크 이미지 등이 원본 이미지 크기와 동일하도록 보장할 뿐만 아니라, 이미지 번역 과정에서 데이터의 처리량을 크게 감소시킨다.
설명해야 할 것은, 제1 이미지 세트 중 이미지와 제2 이미지 세트 중 이미지가 매칭되지 않으면, 상기 실시예를 통해 획득한 제3 이미지 세트 중 이미지와 제2 이미지 세트 중 이미지도 매칭되지 않으므로, 제1 확률 세트 및 제2 확률 세트에 따라 제1 초기 생성기 및 제1 초기 판별기에 대해 정확하게 보정할 수 없음으로써 생성된 이미지 번역 모델의 오차가 커지도록 한다.
따라서, 본 발명의 일 실시예에서, 제1 이미지 세트 중 이미지와 제2 이미지 세트 중 이미지가 매칭되지 않을 경우, 도 8에 도시된 바와 같이, 상기 단계 707 이후에, 당해 방법은 하기와 같은 단계를 더 포함한다.
단계 801에서, 제2 축소된 이미지 세트를 생성하도록, 제3 이미지 세트 중 이미지를 각각 다운 샘플링한다.
단계 802에서, 제2 미리 번역된 이미지 세트, 제2 마스크 이미지 세트 및 제2 변형 파라미터 세트를 생성하도록, 제2 초기 생성기를 사용하여, 제2 축소된 이미지 세트 중 이미지에 대해 각각 처리한다.
단계 803에서, 제2 변형 이미지 세트를 획득하도록, 제2 변형 파라미터 세트에 따라, 제3 이미지 세트 중 이미지를 각각 변형 처리한다.
단계 804에서, 제4 이미지 세트를 획득하도록, 제2 변형 이미지 세트, 제2 미리 번역된 이미지 세트 및 제2 마스크 이미지 세트 중 대응되는 이미지를 각각 융합한다.
단계 805에서, 제4 이미지 세트 중 이미지 및 제1 이미지 세트 중 이미지를 제2 초기 판별기에 각각 입력하여, 제2 초기 판별기에 의해 출력된 제4 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제3 확률 세트, 및 제1 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제4 확률 세트를 획득한다.
단계 806에서, 제1 도메인에 속하는 대상 생성기 및 제2 도메인에 속하는 대상 생성기를 생성하도록, 제3 확률 세트 및 제4 확률 세트에 따라, 제1 초기 생성기, 제2 초기 생성기, 제1 초기 판별기 및 제2 초기 판별기에 대해 각각 보정한다. 여기서, 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용되고, 제2 도메인에 속하는 대상 생성기는 제2 도메인에 위치한 이미지를 제1 도메인에 위치한 이미지로 번역하는데 사용된다.
구체적으로, 트레이닝 샘플 세트 중 제1 이미지 세트 중 이미지와 제2 이미지 세트 중 이미지가 매칭되지 않을 경우, 제2 축소된 이미지 세트 중 이미지를 제2 초기 생성기의 입력으로 사용하여, 제2 초기 생성기를 통해 제2 축소된 이미지 세트 중 이미지에 대해 각각 번역하여, 제1 도메인에 속하는 제4 이미지 세트를 획득할 수 있으며, 여기서, 제2 축소된 이미지 세트 중 이미지에 대해 각각 번역하는 과정은 상기 실시예에서 제공된 이미지 번역 방법을 참조할 수 있으며, 중복을 피하기 위해 여기서 더이상 상세하게 설명하지 않는다.
제4 이미지 세트를 획득한 후, 제4 이미지 세트 중 이미지 및 제1 이미지 세트 중 이미지를 제2 초기 판별기에 각각 입력하여, 제2 초기 판별기를 통해 제4 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제3 확률 세트, 및 제1 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제4 확률 세트를 출력한다. 이경우, 제3 확률 세트 및 제4 확률 세트의 크기를 비교하여, 제1 초기 생성기, 제2 초기 생성기, 제1 초기 판별기 및 제2 초기 판별기에 대해 보정할 수 있다.
여기서, 제3 확률 세트와 제4 확률 세트 편차가 비교적 크면, 제1 초기 생성기 및 제2 초기 생성기를 통해 이미지에 대해 번역할 경우, 오차가 비교적 큰 것으로 설명되므로, 따라서 제1 초기 생성기, 제2 초기 생성기, 제1 초기 판별기 및 제2 초기 판별기에 대해 대응되게 보정하여, 제1 도메인에 속하는 대상 생성기 및 제2 도메인에 속하는 대상 생성기를 획득해야 하고; 제3 확률 세트와 제4 확률 세트 편차가 비교적 작으면, 제1 초기 생성기 및 제2 초기 생성기를 통해 이미지에 대해 번역할 경우, 오차가 비교적 작은 것으로 설명되므로, 따라서 제1 초기 생성기, 제2 초기 생성기, 제1 초기 판별기 및 제2 초기 판별기에 대해 보정할 필요 없이, 제1 초기 생성기를 제1 도메인에 속하는 대상 생성기로 직접 사용할 수 있으며, 또한 제2 초기 생성기를 제2 도메인에 속하는 대상 생성기로 직접 사용한다. 여기서, 제1 도메인에 속하는 대상 생성기를 이미지 번역 모델로 사용하여, 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역할 수 있고, 또한 제2 도메인에 속하는 대상 생성기를 다른 하나의 이미지 번역 모델로 사용하여, 제2 도메인에 위치한 이미지를 제1 도메인에 위치한 이미지로 번역할 수 있으며, 여기서, 당해 실시예에서 제1 도메인에 속하는 대상 생성기는 상기 실시예에서 제1 도메인에 속하는 대상 생성기와 동일할 수 있고, 상이할 수도 있으며, 구체적으로 실제 경우에 따라 선택할 수 있다.
이로써, 이미지 번역 모델에 대해 트레이닝하고, 트레이닝된 이미지 번역 모델을 통해 이미지에 대해 번역하여, 원본 이미지를 축소 처리한 후 입력으로 사용할 수 있어, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
종합해보면, 본 발명에서 제공된 이미지 번역 모델의 트레이닝 방법은, 트레이닝 샘플 세트를 획득하되, 여기서 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함하고, 또한 제1 축소된 이미지 세트를 생성하도록 제1 이미지 세트 중 이미지를 각각 다운 샘플링하며, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하되, 여기서이미지에 대해 각각 처리한다, 여기서, 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응되고, 제1 변형 이미지 세트를 획득하도록, 제1 변형 파라미터 세트에 따라, 제1 이미지 세트 중 이미지를 각각 변형 처리하며, 제3 이미지 세트를 획득하도록, 제1 변형 이미지 세트, 제1 미리 번역된 이미지 세트 및 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하고, 제3 이미지 세트 중 이미지 및 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 제1 초기 판별기에 의해 출력된 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하며, 제1 도메인에 속하는 대상 생성기를 생성하도록, 제1 확률 세트 및 제2 확률 세트에 따라, 제1 초기 생성기 및 제1 초기 판별기에 대해 보정하되, 여기서 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용된다. 이로써, 이미지 번역 모델에 대해 트레이닝하고, 트레이닝된 이미지 번역 모델을 통해 이미지에 대해 번역하여, 원본 이미지를 축소 처리한 후 입력으로 사용할 수 있어, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
상기 실시예를 구현하기 위해, 본 발명의 실시예는 이미지 번역 모델의 트레이닝 장치를 제공한다. 당해 이미지 번역 모델의 트레이닝 장치는 전자 기기에 설치될 수 있다. 도 9는 본 발명의 실시예에서 제공된 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이다.
도 9에 도시된 바와 같이, 당해 이미지 번역 모델의 트레이닝 장치(900)는 제2 획득 모듈(901), 제2 샘플링 모듈(902), 제2 처리 모듈(903), 제3 처리 모듈(904), 제2 융합 모듈(905), 제3 획득 모듈(906) 및 제1 보정 모듈(907)을 포함할 수 있다.
여기서, 제2 획득 모듈(901)은 트레이닝 샘플 세트를 획득하는데 사용되되, 여기서 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함하고; 제2 샘플링 모듈(902)은 제1 축소된 이미지 세트를 생성하도록 제1 이미지 세트 중 이미지를 각각 다운 샘플링하는데 사용되며; 제2 처리 모듈(903)은 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는데 사용되되, 여기서, 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응되고; 제3 처리 모듈(904)은 제1 변형 이미지 세트를 획득하도록, 제1 변형 파라미터 세트에 따라, 제1 이미지 세트 중 이미지를 각각 변형 처리하는데 사용되며; 제2 융합 모듈(905)은 제3 이미지 세트를 획득하도록, 제1 변형 이미지 세트, 제1 미리 번역된 이미지 세트 및 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는데 사용되고; 제3 획득 모듈(906)은 제3 이미지 세트 중 이미지 및 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 제1 초기 판별기에 의해 출력된 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하는데 사용되며; 제1 보정 모듈(907)은 제1 도메인에 속하는 대상 생성기를 생성하도록, 제1 확률 세트 및 제2 확률 세트에 따라, 제1 초기 생성기 및 제1 초기 판별기에 대해 보정하는데 사용되되, 여기서, 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용된다.
도 10은 본 발명의 실시예에서 제공된 다른 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이다. 도 10에 도시된 바와 같이, 제2 처리 모듈(903)은 제2 처리 유닛(9031), 제2 샘플링 유닛(9032) 및 제2 생성 유닛(9033)을 포함한다.
여기서, 제2 처리 유닛(9031)은 축소된 이미지 세트 중 이미지가 제2 도메인으로 번역될 때 대응되는 제1 특징 벡터 세트를 결정하도록, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는데 사용되고; 제2 샘플링 유닛(9032)은 제2 특징 벡터 세트를 생성하도록, 제1 특징 벡터 세트 중 제1 특징 벡터에 대해 각각 업 샘플링하는데 사용되며; 제2 생성 유닛(9033)은 제2 특징 벡터 세트 중 제2 특징 벡터에 따라, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하는데 사용된다.
본 발명의 일 실시예에서, 제1 이미지 세트 중 이미지는 각각 제2 이미지 세트 중 이미지와 일대일로 매칭된다.
도 11은 본 발명의 실시예에서 제공된 또 다른 하나의 이미지 번역 모델의 트레이닝 장치의 구조 모식도이다. 본 발명의 실시예의 일 가능한 구현 방식에서, 제1 이미지 세트 중 이미지와 제2 이미지 세트 중 이미지가 매칭되지 않으면, 도 11에 도시된 바와 같이, 당해 트레이닝 장치는 제3 샘플링 모듈(908), 제4 처리 모듈(909), 제5 처리 모듈(910), 제3 융합 모듈(911), 제4 획득 모듈(912) 및 제2 보정 모듈(913)을 더 포함한다.
여기서, 제3 샘플링 모듈(908)은 제2 축소된 이미지 세트를 생성하도록, 제3 이미지 세트 중 이미지를 각각 다운 샘플링하는데 사용되고; 제4 처리 모듈(909)은 제2 미리 번역된 이미지 세트, 제2 마스크 이미지 세트 및 제2 변형 파라미터 세트를 생성하도록, 제2 초기 생성기를 사용하여, 제2 축소된 이미지 세트 중 이미지에 대해 각각 처리하는데 사용되며; 제5 처리 모듈(910)은 제2 변형 이미지 세트를 획득하도록, 제2 변형 파라미터 세트에 따라, 제3 이미지 세트 중 이미지를 각각 변형 처리하는데 사용되고; 제3 융합 모듈(911)은 제4 이미지 세트를 획득하도록, 제2 변형 이미지 세트, 제2 미리 번역된 이미지 세트 및 제2 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는데 사용되며; 제4 획득 모듈(912)은 제4 이미지 세트 중 이미지 및 제1 이미지 세트 중 이미지를 제2 초기 판별기에 각각 입력하여, 제2 초기 판별기에 의해 출력된 제4 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제3 확률 세트, 및 제1 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제4 확률 세트를 획득하는데 사용되고; 제2 보정 모듈(913)은 제1 도메인에 속하는 대상 생성기 및 제2 도메인에 속하는 대상 생성기를 생성하도록, 제3 확률 세트 및 제4 확률 세트에 따라, 제1 초기 생성기, 제2 초기 생성기, 제1 초기 판별기 및 제2 초기 판별기에 대해 각각 보정하는데 사용되되, 여기서, 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용되고, 제2 도메인에 속하는 대상 생성기는 제2 도메인에 위치한 이미지를 제1 도메인에 위치한 이미지로 번역하는데 사용된다.
설명해야 할 것은, 본 발명의 실시예의 이미지 번역 모델의 트레이닝 장치에 공개되지 않은 세부 사항은 본 발명의 실시예의 이미지 번역 모델의 트레이닝 방법에서 공개된 세부 사항을 참조 바라며, 구체적으로 여기서 더이상 서술하지 않는다.
본 발명의 실시예의 이미지 번역 모델의 트레이닝 장치는, 제2 획득 모듈을 통해 트레이닝 샘플 세트를 획득하되, 여기서 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함하고, 또한 제2 샘플링 모듈을 통해 제1 축소된 이미지 세트를 생성하도록 제1 이미지 세트 중 이미지를 각각 다운 샘플링하며, 제2 처리 모듈을 통해 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하되, 여기서, 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응되고, 제3 처리 모듈을 통해 제1 변형 이미지 세트를 획득하도록, 제1 변형 파라미터 세트에 따라, 제1 이미지 세트 중 이미지를 각각 변형 처리하며, 제2 융합 모듈을 통해 제3 이미지 세트를 획득하도록, 제1 변형 이미지 세트, 제1 미리 번역된 이미지 세트 및 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하고, 또한 제3 획득 모듈을 통해 제3 이미지 세트 중 이미지 및 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 제1 초기 판별기에 의해 출력된 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하며, 제1 보정 모듈을 통해 제1 도메인에 속하는 대상 생성기를 생성하도록, 제1 확률 세트 및 제2 확률 세트에 따라, 제1 초기 생성기 및 제1 초기 판별기에 대해 보정하되, 여기서, 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용된다. 이로써, 이미지 번역 모델에 대해 트레이닝하고, 트레이닝된 이미지 번역 모델을 통해 이미지에 대해 번역하여, 원본 이미지를 축소 처리한 후 입력으로 사용할 수 있어, 이미지 번역의 연산량을 감소시키는 동시에, 원본 이미지 크기와 동일한 대상 번역 이미지를 출력하고, 또한 생성된 대상 번역 이미지에, 원본 이미지로부터 변형되어 생성된 변형 이미지가 포함되어, 이미지 번역의 연산량이 감소되도록 보장하는 동시에, 이미지 번역 효과도 보장할 수 있으며, 또한 대상 번역 이미지는 원본 이미지 입력의 고화질 및 풍부한 고주파 세부 정보를 충분히 이용하여, 생성된 대상 번역 이미지의 선명도를 크게 향상시킨다.
본 발명의 실시예에 따라, 본 발명은 전자 기기 및 판독 가능 저장 매체를 더 제공한다. 본 발명의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 이미지 번역 방법 또는 상기 이미지 번역 모델의 트레이닝 방법이 실행된다.
도 12에 도시된 바와 같이, 본 발명의 실시예의 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 발명의 구현을 한정하려는 의도가 아니다.
도 12에 도시된 바와 같이, 당해 전자 기기는, 하나 또는 다수의 프로세서(1201), 메모리(1202), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령이, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 수요되면, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리 및 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 12에서는 하나의 프로세서(1201)를 예로 한다.
메모리(1102)는 본 발명에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 발명의 실시예에서 제공된 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 수행하도록 한다. 본 발명의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 당해 컴퓨터 명령은 컴퓨터가 본 발명에서 제공된 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 수행하도록 한다.
메모리(1202)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 발명의 실시예에서의 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 4에 도시된 제1 획득 모듈(410), 제1 샘플링 모듈(420), 제1 생성 모듈(430), 제1 처리 모듈(440) 및 제1 융합 모듈(450), 도 9에 도시된 제2 획득 모듈(901), 제2 샘플링 모듈(902), 제2 처리 모듈(903), 제3 처리 모듈(904), 제2 융합 모듈(905), 제3 획득 모듈(906) 및 제1 보정 모듈(907))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(1201)는 메모리(1202)에 저장되어 있는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법을 구현한다.
메모리(1202)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 이미지 번역을 위해 전자 기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(1202)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(1202)는 프로세서(1201)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 이미지 번역의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
이미지 번역 방법 또는 이미지 번역 모델의 트레이닝 방법의 전자 기기는, 입력 장치(1203) 및 출력 장치(1204)를 더 포함할 수 있다. 프로세서(1201), 메모리(1202), 입력 장치(1203) 및 출력 장치(1204)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 12에서는 버스를 통한 연결을 예로 한다.
입력 장치(1203)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치와 같은 이미지 번역의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있다. 출력 장치(1204)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기에 설명되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC (주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 다음을 포함할 수 있다. 즉 하나 또는 다수의 컴퓨터 프로그램에서 구현되고, 당해 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함한 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한, 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 지칭됨)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 구현할 수 있다. 본문에 사용된 바와 같이, 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 상호 작용을 제공하기 위해, 컴퓨터에서 여기에 설명되는 시스템 및 기술을 구현할 수 있으며, 당해 컴퓨터는, 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (음극선 관) 또는 LCD (액정 디스플레이) 모니터); 및 사용자가 당해 키보드 및 당해 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 구비한다. 사용자와의 상호 작용을 제공하기 위해 다른 유형의 장치도 사용할 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있으며; 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.
여기에 설명되는 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 사용자가 여기에 설명되는 시스템 및 기술의 실시형태와 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 당해 웹 브라우저를 갖는 사용자 컴퓨터), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부재는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 대응되는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 생성된다. 서버는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서버 또는 클라우드 호스트로도 지칭될 수 있으며, 클라우드 컴퓨팅 서버 시스템의 호스트 제품으로서, 기존의 물리적 호스트와 VPS 서비스에 존재하는 관리 난이도가 크고, 비즈니스 확장성이 약한 결함을 해결한다.
상술한 설명에서 언급된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 병렬로, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 공개된 기술적 해결수단이 예기한 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상술한 구체적인 실시형태는 본 발명의 보호 범위를 한정하려는 것이 아니다. 당업자는, 설계 요구 및 기타 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 인식해야 할 것이다. 임의의 본 발명의 사상 및 원칙 이내에서 이루어진 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 이내에 포함되어야 한다.

Claims (27)

  1. 이미지 번역 방법에 있어서,
    이미지 번역 요청을 획득하는 단계 - 상기 번역 요청은 원본 이미지를 포함함 - ;
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 단계;
    상기 축소된 이미지가 제1 도메인으로 번역될 때 대응되는 제1 특징 벡터를 결정하도록, 상기 축소된 이미지에 대해 처리하는 단계 - 상기 제1 도메인은 대상 번역 이미지가 속한 도메인임 - ;
    제2 특징 벡터를 생성하도록, 상기 제1 특징 벡터에 대해 업 샘플링하는 단계;
    상기 제2 특징 벡터에 따라, 제2 도메인 중 대상 객체의 이미지를 리모델링하여, 상기 원본 이미지에 대응되는 미리 번역된 이미지를 생성하고, 상기 대상 객체에 대해 리모델링하는 과정에서, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 단계 - 상기 미리 번역된 이미지 및 상기 마스크 이미지의 크기는 상기 원본 이미지의 크기와 동일함 - ;
    변형 이미지를 생성하도록, 상기 변형 파라미터에 따라 상기 원본 이미지를 변형 처리하는 단계; 및
    상기 대상 번역 이미지를 생성하도록, 상기 변형 이미지, 상기 미리 번역된 이미지 및 상기 마스크 이미지를 융합하는 단계; 를 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 번역 요청은 상기 대상 번역 이미지가 속한 제1 도메인을 더 포함하고, 상기 이미지 번역 요청을 획득하는 단계 이후에,
    상기 대상 번역 이미지가 속한 제1 도메인에 따라, 대상 생성기를 획득하는 단계를 더 포함하며;
    상기 축소된 이미지에 따라, 상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 단계는,
    상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 상기 대상 생성기를 사용하여, 상기 축소된 이미지에 대해 처리하는 단계를 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  4. 제3항에 있어서,
    상기 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 이미지 번역 요청을 획득하는 단계 이후에,
    상기 원본 이미지가 속한 제2 도메인을 결정하도록, 상기 원본 이미지에 대해 식별하는 단계; 및
    상기 원본 이미지가 속한 제2 도메인 및 상기 대상 번역 이미지가 속한 제1 도메인에 따라, 상기 N종의 생성기로부터 상기 대상 생성기를 선택하는 단계; 를 더 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  5. 제1항에 있어서,
    상기 이미지 번역 요청을 획득하는 단계 이후에,
    상기 원본 이미지가 속한 제2 도메인을 결정하도록, 상기 원본 이미지에 대해 식별하는 단계; 및
    상기 원본 이미지가 속한 제2 도메인에 따라, 대상 생성기를 획득하는 단계; 를 더 포함하고,
    상기 축소된 이미지에 따라, 상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 단계는,
    상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 상기 대상 생성기를 사용하여, 상기 축소된 이미지에 대해 처리하는 단계를 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  6. 제5항에 있어서,
    상기 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 이미지 번역 요청을 획득하는 단계 이후에,
    대상 번역 이미지가 속한 제1 도메인을 획득하는 단계; 및
    상기 대상 번역 이미지가 속한 제1 도메인 및 상기 원본 이미지가 속한 제2 도메인에 따라, 상기 N종의 생성기로부터 상기 대상 생성기를 선택하는 단계; 를 더 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  7. 제1항에 있어서,
    상기 대상 번역 이미지를 생성하도록, 상기 변형 이미지, 상기 미리 번역된 이미지 및 상기 마스크 이미지를 융합하는 단계는,
    상기 마스크 이미지 중 각 픽셀점의 픽셀값에 따라, 상기 미리 번역된 이미지의 제1 가중치 및 상기 변형 이미지의 제2 가중치를 결정하는 단계; 및
    상기 대상 번역 이미지를 생성하도록, 상기 제1 가중치 및 상기 제2 가중치에 따라, 상기 미리 번역된 이미지 중 각 픽셀점의 픽셀값과 상기 변형 이미지 중 각 픽셀점의 픽셀값을 융합하는 단계; 를 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  8. 제1항에 있어서,
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 단계 이전에,
    현재 존재하는 전자 기기의 속성 파라미터를 획득하는 단계; 및
    상기 전자 기기의 속성 파라미터에 따라, 다운 샘플링 계수를 결정하는 단계; 를 더 포함하고,
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 단계는,
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 다운 샘플링 계수에 따라, 상기 원본 이미지에 대해 다운 샘플링하는 단계; 를 포함하는,
    것을 특징으로 하는 이미지 번역 방법.
  9. 이미지 번역 모델의 트레이닝 방법에 있어서,
    트레이닝 샘플 세트를 획득하는 단계 - 상기 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함함 - ;
    제1 축소된 이미지 세트를 생성하도록, 상기 제1 이미지 세트 중 이미지를 각각 다운 샘플링하는 단계;
    제1 초기 생성기를 사용하여, 상기 제1 축소된 이미지 세트 중 이미지가 상기 제2 도메인으로 번역될 때 대응되는 제1 특징 벡터 세트를 결정하도록, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 단계;
    제2 특징 벡터 세트를 생성하도록, 상기 제1 특징 벡터 세트 중 제1 특징 벡터에 대해 각각 업 샘플링하는 단계;
    상기 제2 특징 벡터 세트 중 제2 특징 벡터에 따라, 제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하는 단계 - 상기 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 상기 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응됨 - ;
    제1 변형 이미지 세트를 획득하도록, 상기 제1 변형 파라미터 세트에 따라, 상기 제1 이미지 세트 중 이미지를 각각 변형 처리하는 단계;
    제3 이미지 세트를 획득하도록, 상기 제1 변형 이미지 세트, 상기 제1 미리 번역된 이미지 세트 및 상기 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 단계;
    상기 제3 이미지 세트 중 이미지 및 상기 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 상기 제1 초기 판별기에 의해 출력된 상기 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 상기 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하는 단계; 및
    상기 제1 도메인에 속하는 대상 생성기를 생성하도록, 상기 제1 확률 세트 및 상기 제2 확률 세트에 따라, 상기 제1 초기 생성기 및 상기 제1 초기 판별기에 대해 보정하는 단계 - 상기 제1 도메인에 속하는 대상 생성기는 상기 제1 도메인에 위치한 이미지를 상기 제2 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 를 포함하는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 방법.
  10. 삭제
  11. 제9항에 있어서,
    상기 제1 이미지 세트 중 이미지는 각각 상기 제2 이미지 세트 중 이미지와 일대일로 매칭되는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 방법.
  12. 제9항에 있어서,
    제1 이미지 세트 중 이미지가 상기 제2 이미지 세트 중 이미지와 매칭되지 않으면, 상기 제1 확률 세트 및 상기 제2 확률 세트에 따라, 상기 제1 초기 생성기 및 상기 제1 초기 판별기에 대해 보정하는 단계 이후에,
    제2 축소된 이미지 세트를 생성하도록, 상기 제3 이미지 세트 중 이미지를 각각 다운 샘플링하는 단계;
    제2 미리 번역된 이미지 세트, 제2 마스크 이미지 세트 및 제2 변형 파라미터 세트를 생성하도록, 제2 초기 생성기를 사용하여, 상기 제2 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 단계;
    제2 변형 이미지 세트를 획득하도록, 상기 제2 변형 파라미터 세트에 따라, 상기 제3 이미지 세트 중 이미지를 각각 변형 처리하는 단계;
    제4 이미지 세트를 획득하도록, 상기 제2 변형 이미지 세트, 제2 미리 번역된 이미지 세트 및 상기 제2 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 단계;
    상기 제4 이미지 세트 중 이미지 및 상기 제1 이미지 세트 중 이미지를 제2 초기 판별기에 각각 입력하여, 상기 제2 초기 판별기에 의해 출력된 상기 제4 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제3 확률 세트, 및 상기 제1 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제4 확률 세트를 획득하는 단계; 및
    제1 도메인에 속하는 대상 생성기 및 제2 도메인에 속하는 대상 생성기를 생성하도록, 상기 제3 확률 세트 및 상기 제4 확률 세트에 따라, 상기 제1 초기 생성기, 상기 제2 초기 생성기, 상기 제1 초기 판별기 및 상기 제2 초기 판별기에 대해 보정하는 단계 - 상기 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용되고, 상기 제2 도메인에 속하는 대상 생성기는 제2 도메인에 위치한 이미지를 제1 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 를 더 포함하는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 방법.
  13. 이미지 번역 장치에 있어서,
    이미지 번역 요청을 획득하는 제1 획득 모듈 - 상기 번역 요청은 원본 이미지를 포함함 - ;
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 제1 샘플링 모듈;
    상기 축소된 이미지에 따라, 상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 제1 생성 모듈 - 상기 미리 번역된 이미지 및 상기 마스크 이미지의 크기는 상기 원본 이미지의 크기와 동일함 - ;
    변형 이미지를 획득하도록, 상기 변형 파라미터에 따라 상기 원본 이미지를 변형 처리하는 제1 처리 모듈; 및
    대상 번역 이미지를 생성하도록, 상기 변형 이미지, 상기 미리 번역된 이미지 및 상기 마스크 이미지를 융합하는 제1 융합 모듈; 을 포함하고,
    상기 제1 생성 모듈은,
    상기 축소된 이미지가 제1 도메인으로 번역될 때 대응되는 제1 특징 벡터를 결정하도록, 상기 축소된 이미지에 대해 처리하는 제1 처리 유닛 - 상기 제1 도메인은 상기 대상 번역 이미지가 속한 도메인임 - ;
    제2 특징 벡터를 생성하도록, 상기 제1 특징 벡터에 대해 업 샘플링하는 제1 샘플링 유닛; 및
    상기 제2 특징 벡터에 따라, 제2 도메인 중 대상 객체의 이미지를 리모델링하여, 상기 원본 이미지에 대응되는 미리 번역된 이미지를 생성하고, 상기 대상 객체에 대해 리모델링하는 과정에서, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하는 제1 생성 유닛; 을 포함하는,
    것을 특징으로 하는 이미지 번역 장치.
  14. 삭제
  15. 제13항에 있어서,
    상기 번역 요청은 상기 대상 번역 이미지가 속한 제1 도메인을 더 포함하고, 상기 제1 획득 모듈은 상기 이미지 번역 요청을 획득한 이후, 또한,
    상기 대상 번역 이미지가 속한 제1 도메인에 따라, 대상 생성기를 획득하는데 사용되고;
    상기 제1 생성 모듈은 구체적으로,
    상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 상기 대상 생성기를 사용하여, 상기 축소된 이미지에 대해 처리하는데 사용되는,
    것을 특징으로 하는 이미지 번역 장치.
  16. 제15항에 있어서,
    상기 대상 번역 이미지가 속한 제1 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 제1 획득 모듈은 상기 이미지 번역 요청을 획득한 이후, 또한,
    상기 원본 이미지가 속한 제2 도메인을 결정하도록, 상기 원본 이미지에 대해 식별하고;
    상기 원본 이미지가 속한 제2 도메인 및 상기 대상 번역 이미지가 속한 제1 도메인에 따라, 상기 N종의 생성기로부터 상기 대상 생성기를 선택하는데 사용되는,
    것을 특징으로 하는 이미지 번역 장치.
  17. 제13항에 있어서,
    상기 제1 획득 모듈은 상기 이미지 번역 요청을 획득한 이후, 또한,
    상기 원본 이미지가 속한 제2 도메인을 결정하도록, 상기 원본 이미지에 대해 식별하고;
    상기 원본 이미지가 속한 제2 도메인에 따라, 대상 생성기를 획득하는데 사용되며,
    상기 제1 생성 모듈은 구체적으로,
    상기 원본 이미지에 대응되는 미리 번역된 이미지, 마스크 이미지 및 상기 원본 이미지 중 각각의 픽셀점에 대응되는 변형 파라미터를 생성하도록, 상기 대상 생성기를 사용하여, 상기 축소된 이미지에 대해 처리하는데 사용되는,
    것을 특징으로 하는 이미지 번역 장치.
  18. 제17항에 있어서,
    상기 원본 이미지가 속한 제2 도메인에 대응되는 생성기가 N종이 존재하고, N이 1보다 큰 정수이면, 상기 제1 획득 모듈은 상기 이미지 번역 요청을 획득한 이후, 또한,
    대상 번역 이미지가 속한 제1 도메인을 획득하고;
    상기 대상 번역 이미지가 속한 제1 도메인 및 상기 원본 이미지가 속한 제2 도메인에 따라, 상기 N종의 생성기로부터 상기 대상 생성기를 선택하는데 사용되는,
    것을 특징으로 하는 이미지 번역 장치.
  19. 제13항에 있어서,
    상기 제1 융합 모듈은,
    상기 마스크 이미지 중 각 픽셀점의 픽셀값에 따라, 상기 미리 번역된 이미지의 제1 가중치 및 상기 변형 이미지의 제2 가중치를 결정하는 제1 결정 유닛; 및
    상기 대상 번역 이미지를 생성하도록, 상기 제1 가중치 및 상기 제2 가중치에 따라, 상기 미리 번역된 이미지 중 각 픽셀점의 픽셀값과 상기 변형 이미지 중 각 픽셀점의 픽셀값을 융합하는 제1 융합 유닛; 을 포함하는,
    것을 특징으로 하는 이미지 번역 장치.
  20. 제13항에 있어서,
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 원본 이미지에 대해 다운 샘플링하는 단계 이전에, 상기 제1 샘플링 모듈은 또한,
    현재 존재하는 전자 기기의 속성 파라미터를 획득하고;
    상기 전자 기기의 속성 파라미터에 따라, 다운 샘플링 계수를 결정하는데 사용되며,
    상기 제1 샘플링 모듈은 구체적으로,
    상기 원본 이미지에 대응되는 축소된 이미지를 생성하도록, 상기 다운 샘플링 계수에 따라, 상기 원본 이미지에 대해 다운 샘플링하는데 사용되는,
    것을 특징으로 하는 이미지 번역 장치.
  21. 이미지 번역 모델의 트레이닝 장치에 있어서,
    트레이닝 샘플 세트를 획득하는 제2 획득 모듈 - 상기 트레이닝 샘플 세트는 제1 도메인에 속하는 제1 이미지 세트, 및 제2 도메인에 속하는 제2 이미지 세트를 포함함 - ;
    제1 축소된 이미지 세트를 생성하도록, 상기 제1 이미지 세트 중 이미지를 각각 다운 샘플링하는 제2 샘플링 모듈;
    제1 미리 번역된 이미지 세트, 제1 마스크 이미지 세트 및 제1 변형 파라미터 세트를 생성하도록, 제1 초기 생성기를 사용하여, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 제2 처리 모듈 - 상기 제1 변형 파라미터 세트 중 각각의 파라미터는 각각 상기 제1 이미지 세트 중 이미지 중 각각의 픽셀점에 대응됨 - ;
    제1 변형 이미지 세트를 획득하도록, 상기 제1 변형 파라미터 세트에 따라, 상기 제1 이미지 세트 중 이미지를 각각 변형 처리하는 제3 처리 모듈;
    제3 이미지 세트를 획득하도록, 상기 제1 변형 이미지 세트, 상기 제1 미리 번역된 이미지 세트 및 상기 제1 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 제2 융합 모듈;
    상기 제3 이미지 세트 중 이미지 및 상기 제2 이미지 세트 중 이미지를 제1 초기 판별기에 각각 입력하여, 상기 제1 초기 판별기에 의해 출력된 상기 제3 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제1 확률 세트, 및 상기 제2 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제2 확률 세트를 획득하는 제3 획득 모듈; 및
    상기 제1 도메인에 속하는 대상 생성기를 생성하도록, 상기 제1 확률 세트 및 상기 제2 확률 세트에 따라, 상기 제1 초기 생성기 및 상기 제1 초기 판별기에 대해 보정하는 제1 보정 모듈 - 상기 제1 도메인에 속하는 대상 생성기는 상기 제1 도메인에 위치한 이미지를 상기 제2 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 을 포함하고,
    상기 제2 처리 모듈은,
    상기 제1 축소된 이미지 세트 중 이미지가 상기 제2 도메인으로 번역될 때 대응되는 제1 특징 벡터 세트를 결정하도록, 상기 제1 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 제2 처리 유닛;
    제2 특징 벡터 세트를 생성하도록, 상기 제1 특징 벡터 세트 중 제1 특징 벡터에 대해 각각 업 샘플링하는 제2 샘플링 유닛; 및
    상기 제2 특징 벡터 세트 중 제2 특징 벡터에 따라, 상기 제1 미리 번역된 이미지 세트, 상기 제1 마스크 이미지 세트 및 상기 제1 변형 파라미터 세트를 생성하는 제2 생성 유닛; 을 포함하는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 장치.
  22. 삭제
  23. 제21항에 있어서,
    상기 제1 이미지 세트 중 이미지는 각각 상기 제2 이미지 세트 중 이미지와 일대일로 매칭되는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 장치.
  24. 제21항에 있어서,
    제1 이미지 세트 중 이미지가 상기 제2 이미지 세트 중 이미지와 매칭되지 않으면, 상기 트레이닝 장치는,
    제2 축소된 이미지 세트를 생성하도록, 상기 제3 이미지 세트 중 이미지를 각각 다운 샘플링하는 제3 샘플링 모듈;
    제2 미리 번역된 이미지 세트, 제2 마스크 이미지 세트 및 제2 변형 파라미터 세트를 생성하도록, 제2 초기 생성기를 사용하여, 상기 제2 축소된 이미지 세트 중 이미지에 대해 각각 처리하는 제4 처리 모듈;
    제2 변형 이미지 세트를 획득하도록, 상기 제2 변형 파라미터 세트에 따라, 상기 제3 이미지 세트 중 이미지를 각각 변형 처리하는 제5 처리 모듈;
    제4 이미지 세트를 획득하도록, 상기 제2 변형 이미지 세트, 제2 미리 번역된 이미지 세트 및 상기 제2 마스크 이미지 세트 중 대응되는 이미지를 각각 융합하는 제3 융합 모듈;
    상기 제4 이미지 세트 중 이미지 및 상기 제1 이미지 세트 중 이미지를 제2 초기 판별기에 각각 입력하여, 상기 제2 초기 판별기에 의해 출력된 상기 제4 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제3 확률 세트, 및 상기 제1 이미지 세트 중 이미지가 각각 실제 이미지에 속하는 제4 확률 세트를 획득하는 제4 획득 모듈; 및
    제1 도메인에 속하는 대상 생성기 및 제2 도메인에 속하는 대상 생성기를 생성하도록, 상기 제3 확률 세트 및 상기 제4 확률 세트에 따라, 상기 제1 초기 생성기, 상기 제2 초기 생성기, 상기 제1 초기 판별기 및 상기 제2 초기 판별기에 대해 보정하는 제2 보정 모듈 - 상기 제1 도메인에 속하는 대상 생성기는 제1 도메인에 위치한 이미지를 제2 도메인에 위치한 이미지로 번역하는데 사용되고, 상기 제2 도메인에 속하는 대상 생성기는 제2 도메인에 위치한 이미지를 제1 도메인에 위치한 이미지로 번역하는데 사용됨 - ; 을 더 포함하는,
    것을 특징으로 하는 이미지 번역 모델의 트레이닝 장치.
  25. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 및 제3항 내지 제8항 중 어느 한 항에 따른 방법 또는 제9항, 제11항 및 제12항 중 어느 한 항에 따른 트레이닝 방법을 수행하도록 하는 것,
    을 특징으로 하는 전자 기기.
  26. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 및 제3항 내지 제8항 중 어느 한 항에 따른 방법 또는 제9항, 제11항 및 제12항 중 어느 한 항에 따른 트레이닝 방법을 수행하도록 하는 것,
    을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
  27. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 및 제3항 내지 제8항 중 어느 한 항에 따른 방법 또는 제9항, 제11항 및 제12항 중 어느 한 항에 따른 트레이닝 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020200183269A 2020-06-01 2020-12-24 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치 KR102461043B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010484916.4 2020-06-01
CN202010484916.4A CN111833239B (zh) 2020-06-01 2020-06-01 图像的翻译方法和装置、图像翻译模型的训练方法和装置

Publications (2)

Publication Number Publication Date
KR20210148836A KR20210148836A (ko) 2021-12-08
KR102461043B1 true KR102461043B1 (ko) 2022-10-28

Family

ID=72897504

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200183269A KR102461043B1 (ko) 2020-06-01 2020-12-24 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치

Country Status (5)

Country Link
US (1) US11508044B2 (ko)
EP (1) EP3920129A1 (ko)
JP (1) JP7133003B2 (ko)
KR (1) KR102461043B1 (ko)
CN (1) CN111833239B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461559B2 (en) * 2020-01-28 2022-10-04 Salesforce.Com, Inc. Mechanism to facilitate image translation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807290B2 (en) * 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
KR20080112193A (ko) * 2005-12-30 2008-12-24 스티븐 케이스 천부적인 적응성의 디자인
US20150086127A1 (en) * 2013-09-20 2015-03-26 Samsung Electronics Co., Ltd Method and image capturing device for generating artificially defocused blurred image
US9183616B2 (en) * 2014-01-13 2015-11-10 Arecont Vision, Llc. System and method for obtaining super image resolution through optical image translation
AU2015202937A1 (en) * 2015-05-29 2016-12-15 Canon Kabushiki Kaisha Systems and methods for registration of images
US9443316B1 (en) 2015-07-21 2016-09-13 Sony Corporation Semi-automatic image segmentation
US10810556B2 (en) 2017-02-24 2020-10-20 Mastercard International Incorporated Systems and methods for managing receipts for payment account transactions
US20180247201A1 (en) 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders
US10339642B2 (en) * 2017-03-30 2019-07-02 Adobe Inc. Digital image processing through use of an image repository
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN109711457A (zh) * 2018-12-20 2019-05-03 江南大学 一种基于改进hu不变矩的快速图像匹配方法及其应用
CN109978893B (zh) * 2019-03-26 2023-06-20 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质
CN110322416B (zh) * 2019-07-09 2022-11-18 腾讯科技(深圳)有限公司 图像数据处理方法、装置以及计算机可读存储介质
GB2586245B (en) * 2019-08-13 2021-09-22 Univ Of Hertfordshire Higher Education Corporation Method and apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Yuzhu Ji et al., ‘ Saliency detection via conditional adversarial image-to-image network’, Neurocomputing 316, pp.357~368, Available online 15 August 2018.*
Zhenfeng Shao et al., ‘Remote Sensing Image Fusion With Deep Convolutional Neural Network’, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, Vol.11, Issue 5, May 2018.*
Zili Yi et al., ‘DualGAN: Unsupervised Dual Learning for Image-to-Image Translation’, arXiv:1704.02510v4 [cs.CV] 9 Oct 2018.*

Also Published As

Publication number Publication date
EP3920129A1 (en) 2021-12-08
US11508044B2 (en) 2022-11-22
JP2021190085A (ja) 2021-12-13
CN111833239A (zh) 2020-10-27
KR20210148836A (ko) 2021-12-08
US20210374920A1 (en) 2021-12-02
JP7133003B2 (ja) 2022-09-07
CN111833239B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
KR102499996B1 (ko) 얼굴 초해상도 실현 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
KR102566277B1 (ko) 이미지 편집 모델 구축 방법 및 장치
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
JP7228608B2 (ja) ビデオフレームの処理方法及び処理装置、電子機器、記憶媒体並びにコンピュータプログラム
US11810384B2 (en) Method and apparatus for recognizing text content and electronic device
US20220148239A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
JP7337203B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
CN112529058B (zh) 图像生成模型训练方法和装置、图像生成方法和装置
KR102461043B1 (ko) 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치
KR20210131221A (ko) 이미지를 처리하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR102521013B1 (ko) 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치
KR20230112076A (ko) 비디오 변환 방법, 장치, 전자 기기 및 저장 매체
CN113160044B (zh) 深度图像超分辨率方法、训练方法及装置、设备、介质
KR20220129093A (ko) 타겟 분할 방법, 장치 및 전자 기기
KR102718950B1 (ko) 음성 인터랙션 방법, 장치, 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품
CN115035911B (zh) 噪声生成模型训练方法、装置、设备及介质
CN113160046B (zh) 深度图像超分辨率方法、训练方法及装置、设备、介质
CN117076838A (zh) 一种数据处理方法、装置、设备及可读存储介质
CN113901997A (zh) 图像风格转换方法、装置、设备、存储介质及程序产品
CN111382562A (zh) 文本相似度的确定方法、装置、电子设备及存储介质
CN118628353A (zh) 图像处理方法、深度学习模型的训练方法
CN115936094A (zh) 文本处理模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant