KR20220137076A - 이미지 프로세싱 방법 및 관련된 디바이스 - Google Patents

이미지 프로세싱 방법 및 관련된 디바이스 Download PDF

Info

Publication number
KR20220137076A
KR20220137076A KR1020227030515A KR20227030515A KR20220137076A KR 20220137076 A KR20220137076 A KR 20220137076A KR 1020227030515 A KR1020227030515 A KR 1020227030515A KR 20227030515 A KR20227030515 A KR 20227030515A KR 20220137076 A KR20220137076 A KR 20220137076A
Authority
KR
South Korea
Prior art keywords
target
feature
values
bit rate
gain
Prior art date
Application number
KR1020227030515A
Other languages
English (en)
Inventor
징 왕
저 추이
보 바이
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20220137076A publication Critical patent/KR20220137076A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Farming Of Fish And Shellfish (AREA)
  • Threshing Machine Elements (AREA)

Abstract

이 출원은 인공 지능의 분야에 관한 것으로, 이미지 프로세싱 방법을 개시하고, 이미지 프로세싱 방법은, 제1 이미지를 획득하는 단계; 적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하는 단계 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -; 타깃 압축 비트 레이트를 획득하는 단계 - 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -; M개의 제2 특징 값을 획득하기 위하여, M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계; 및 인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하는 단계 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 를 포함한다. 이 출원에서, 압축 비트 레이트 제어는 동일한 압축 모델에서 구현될 수 있다.

Description

이미지 프로세싱 방법 및 관련된 디바이스
이 출원은 "이미지 프로세싱 방법 및 관련된 디바이스(IMAGE PROCESSING METHOD AND RELATED DEVICE)"라는 명칭으로 2020년 2월 7일자로 중국 특허청에 출원된 중국 특허 출원 제202010082808.4호에 대한 우선권을 주장하고, 이 중국 특허 출원은 그 전체적으로 참조로 본 명세서에 통합된다.
이 출원은 인공 지능(artificial intelligence)의 분야에 관한 것으로, 특히, 이미지 프로세싱 방법 및 관련된 디바이스에 관한 것이다.
요즘, 멀티미디어 데이터는 광대한 대부분의 인터넷 트래픽을 점유한다. 이미지 데이터의 압축은 멀티미디어 데이터의 저장 및 효율적인 송신에 있어서 필수적인 역할을 한다. 그러므로, 이미지 인코딩은 매우 실용적인 가치의 기술이다.
이미지 인코딩은 오랜 역사 동안에 연구되었다. 연구자는 다량의 방법을 제안하고, JPEG, JPEG2000, WebP, 및 BPG와 같은 다양한 국제적인 표준을 공식화한다. 이 인코딩 방법은 현재 모두 널리 적용되지만, 이 기존의 방법은 증가하는 양의 이미지 데이터 및 연속적으로 등장하는 새로운 미디어 유형에 대한 일부 제한을 보여준다.
최근 수년 내에, 연구자는 심층 학습(deep learning)에 기초하는 이미지 인코딩 방법을 연구하기 시작하였다. 일부 연구자는 양호한 결과를 이미 달성하였다. 예를 들어,
Figure pct00001
등은 현재의 최상 이미지 인코딩 성능을 능가하고, 심지어, 현재의 최상 기존 인코딩 표준 BPG를 능가하는 종단-대-종단(end-to-end) 최적화 이미지 인코딩 방법을 제안하였다. 그러나, 현재, 심층 컨볼루션 네트워크(deep convolutional network)에 기초한 대부분의 이미지 인코딩은 단점을 가지고, 즉, 하나의 훈련된 모델은 하나의 유형의 입력 이미지에 대한 오직 하나의 인코딩 결과를 출력할 수 있고, 결과적으로, 타깃 압축 비트 레이트의 인코딩 효과는 실제적인 요건에 기초하여 획득될 수 없다.
이 출원은 동일한 압축 모델에서 압축 비트 레이트 제어를 구현하기 위한 이미지 프로세싱 방법을 제공한다.
제1 측면에 따르면, 이 출원은 이미지 프로세싱 방법을 제공한다. 이 방법은,
제1 이미지를 획득하는 단계; 적어도 하나의 제1 특징 맵(feature map)을 획득하기 위하여 제1 이미지에 대해 특징 추출(feature extraction)을 수행하는 단계 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -; 타깃 압축 비트 레이트를 획득하는 단계 - 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -; M개의 제2 특징 값을 획득하기 위하여 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계 - 원래의 제1 특징 맵은 이 출원의 이 실시예에서의 적어도 하나의 프로세싱된 제1 특징 맵으로 대체될 수 있음 -; 및 인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩(entropy encoding)을 수행하는 단계 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 를 포함한다. 상기한 방식으로, 상이한 타깃 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
제1 측면의 임의적인 설계에서, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
제1 측면의 임의적인 설계에서, 더 큰 타깃 압축 비트 레이트는 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다.
제1 측면의 임의적인 설계에서, 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속한다.
제1 측면의 임의적인 설계에서, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산(multiplication operation)을 별도로 수행함으로써 획득된다.
제1 측면의 임의적인 설계에서, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제1 측면의 임의적인 설계에서, 이 방법은,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 결정하는 단계를 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터(gain vector), 및 복수의 압축 비트 레이트와 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 이득 값은 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트(element)이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
제1 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, M개의 타깃 이득 값은 M개의 제1 이득 값 및 M개의 제2 이득 값에 대해 보간 연산(interpolation operation)을 수행함으로써 획득된다.
제1 측면의 임의적인 설계에서, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제3 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제1 측면의 임의적인 설계에서, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제1 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각은 하나의 역 이득 값(reverse gain value)에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱(product)은 사전설정된 범위 내에 속한다.
제1 측면의 임의적인 설계에서, 이 방법은, 적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하는 단계 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -; M개의 타깃 역 이득 값을 획득하는 단계 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응함 -; M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값에 대해 이득 프로세싱을 각각 수행하는 단계; 및 제2 이미지를 획득하기 위하여, 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 를 더 포함한다.
제1 측면의 임의적인 설계에서, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제1 측면의 임의적인 설계에서, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제1 양태의 임의적인 설계에서, 방법은 타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하는 단계를 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용된다.
제1 측면의 임의적인 설계에서, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이다.
제1 측면의 임의적인 설계에서, 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
제1 측면의 임의적인 설계에서, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제1 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
제1 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제1 측면의 임의적인 설계에서, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제3 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제2 측면에 따르면, 이 출원은 이미지 프로세싱 방법을 제공한다. 이 방법은,
인코딩된 데이터를 획득하는 단계; 적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩(entropy decoding)을 수행하는 단계 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임 -; M개의 타깃 역 이득 값을 획득하는 단계 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -; M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하는 단계; 및 제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 를 포함한다.
제2 측면의 임의적인 설계에서, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제2 측면의 임의적인 설계에서, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제2 측면의 임의적인 설계에서, 이 방법은, 타깃 압축 비트 레이트를 획득하는 단계; 타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하는 단계 - 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용됨 - 를 더 포함하고, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나; 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
제2 측면의 임의적인 설계에서, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제2 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제2 측면의 임의적인 설계에서, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제3 측면에 따르면, 이 출원은 이미지 프로세싱 방법을 제공한다. 이 방법은,
제1 이미지를 획득하는 단계;
적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하는 단계 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
타깃 압축 비트 레이트를 획득하는 단계 - 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계;
인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하는 단계 - 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함 -;
적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하는 단계 - 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하는 단계;
제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함함 -;
제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득하는 단계;
제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하는 단계 - 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함 -; 및
제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하는 단계 - 제2 인코딩/디코딩 네트워크는 반복적 훈련(iterative training)이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨 - 를 포함한다.
제3 측면의 임의적인 설계에서, 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
제3 측면의 임의적인 설계에서, 사전설정된 조건은, 더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
제3 측면의 임의적인 설계에서, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제3 측면의 임의적인 설계에서, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제3 측면의 임의적인 설계에서, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제3 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속하고, M개의 초기 이득 값의 각각 및 대응하는 초기 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
제4 측면에 따르면, 이 출원은 이미지 프로세싱 장치를 제공한다. 이 장치는,
제1 이미지를 획득하도록 구성된 획득 모듈;
적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하도록 구성된 이득 모듈; 및
인코딩된 데이터를 획득하기 위하여, 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 구성된 양자화 및 엔트로피 인코딩 모듈 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 을 포함한다.
제4 측면의 임의적인 설계에서, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
제4 측면의 임의적인 설계에서, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
제4 측면의 임의적인 설계에서, 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속한다.
제4 측면의 임의적인 설계에서, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제4 측면의 임의적인 설계에서, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제4 측면의 임의적인 설계에서, 이 장치는,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 이득 값은 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
제4 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, M개의 타깃 이득 값은 M개의 제1 이득 값 및 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제4 측면의 임의적인 설계에서, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제3 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제4 측면의 임의적인 설계에서, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제4 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
제4 측면의 임의적인 설계에서, 이 장치는,
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈을 더 포함하고, 여기서, 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응하고;
획득 모듈은 M개의 타깃 역 이득 값을 획득하도록 추가로 구성되고, 여기서, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고;
이 장치는,
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값에 대해 이득 프로세싱을 각각 수행하도록 구성된 역 이득 모듈; 및
제2 이미지를 획득하기 위하여, 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈 - 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 을 더 포함한다.
제4 측면의 임의적인 설계에서, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제4 측면의 임의적인 설계에서, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제4 측면의 임의적인 설계에서, 결정 모듈은,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 추가로 구성되고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용된다.
제4 측면의 임의적인 설계에서, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이다.
제4 측면의 임의적인 설계에서, 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
제4 측면의 임의적인 설계에서, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제4 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
제4 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제4 측면의 임의적인 설계에서, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제5 측면에 따르면, 이 출원은 이미지 프로세싱 장치를 제공한다. 이 장치는,
인코딩된 데이터를 획득하도록 구성된 획득 모듈;
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈은 M개의 타깃 역 이득 값을 획득하도록 추가로 구성되고, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하도록 구성된 역 이득 모듈; 및
제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈 - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 을 포함한다.
제5 측면의 임의적인 설계에서, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제5 측면의 임의적인 설계에서, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제5 측면의 임의적인 설계에서, 획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고;
이 장치는,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
제5 측면의 임의적인 설계에서, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제5 측면의 임의적인 설계에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제5 측면의 임의적인 설계에서, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
제6 측면에 따르면, 이 출원은 이미지 프로세싱 장치를 제공한다. 이 장치는,
제1 이미지를 획득하도록 구성된 획득 모듈;
적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고, 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하도록 구성된 이득 모듈;
인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 구성된 양자화 및 엔트로피 인코딩 모듈 - 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함 -;
적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈 - 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하도록 구성된 역 이득 모듈;
제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈 - 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함하고,
획득 모듈은 제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득하도록 추가로 구성됨 -;
제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하도록 구성된 훈련 모듈 - 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함 -; 및
제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하도록 구성된 출력 모듈 - 제2 인코딩/디코딩 네트워크는 반복적 훈련이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨 - 을 포함한다.
제6 측면의 임의적인 설계에서, 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
제6 측면의 임의적인 설계에서, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
제6 측면의 임의적인 설계에서, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
제6 측면의 임의적인 설계에서, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
제6 측면의 임의적인 설계에서, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
제6 측면의 임의적인 설계에서, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속하고, M개의 초기 이득 값의 각각 및 대응하는 초기 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
제7 측면에 따르면, 이 출원의 실시예는 실행 디바이스를 제공한다. 실행 디바이스는 메모리, 프로세서, 및 버스 시스템을 포함할 수 있다. 메모리는 프로그램을 저장하도록 구성되고, 프로세서는 메모리 내의 프로그램을 실행하도록 구성되고, 프로그램은 다음의 단계:
제1 이미지를 획득하는 단계;
적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하는 단계 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
타깃 압축 비트 레이트를 획득하는 단계 - 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계;
인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하는 단계 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 를 포함한다.
제7 측면의 임의적인 설계에서, 실행 디바이스는 가상 현실(virtual reality)(VR) 디바이스, 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 서버, 또는 지능형 웨어러블 디바이스(intelligent wearable device)이다.
이 출원의 제7 측면에서, 프로세서는 제1 측면 또는 제1 측면의 임의의 가능한 구현예의 단계를 수행하도록 추가로 구성될 수 있다. 세부사항에 대하여, 제1 측면을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제8 측면에 따르면, 이 출원의 실시예는 실행 디바이스를 제공한다. 실행 디바이스는 메모리, 프로세서, 및 버스 시스템을 포함할 수 있다. 메모리는 프로그램을 저장하도록 구성되고, 프로세서는 메모리 내의 프로그램을 실행하도록 구성되고, 프로그램은 다음의 단계:
인코딩된 데이터를 획득하는 단계;
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하는 단계 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임 -;
M개의 타깃 역 이득 값을 획득하는 단계 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하는 단계; 및
제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 를 포함한다.
제8 측면의 임의적인 설계에서, 실행 디바이스는 가상 현실(VR) 디바이스, 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 서버, 또는 지능형 웨어러블 디바이스이다.
이 출원의 제8 측면에서, 프로세서는 제2 측면 또는 제2 측면의 임의의 가능한 구현예의 단계를 수행하도록 추가로 구성될 수 있다. 세부사항에 대하여, 제2 측면을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제9 측면에 따르면, 이 출원의 실시예는 훈련 디바이스를 제공한다. 훈련 디바이스는 메모리, 프로세서, 및 버스 시스템을 포함할 수 있다. 메모리는 프로그램을 저장하도록 구성되고, 프로세서는 메모리 내의 프로그램을 실행하도록 구성되고, 프로그램은 다음의 단계:
제1 이미지를 획득하는 단계;
적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하는 단계 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
타깃 압축 비트 레이트를 획득하는 단계 - 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계;
인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하는 단계 - 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함 -;
적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하는 단계 - 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하는 단계;
제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함함 -;
제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득하는 단계;
제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하는 단계 - 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함 -; 및
제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하는 단계 - 제2 인코딩/디코딩 네트워크는 반복적 훈련(iterative training)이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨 - 를 포함한다.
이 출원의 제9 측면에서, 프로세서는 제3 측면 또는 제3 측면의 임의의 가능한 구현예의 단계를 수행하도록 추가로 구성될 수 있다. 세부사항에 대하여, 제3 측면을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제10 측면에 따르면, 이 출원의 실시예는 컴퓨터-판독가능 저장 매체를 제공한다. 컴퓨터-판독가능 저장 매체는 컴퓨터 프로그램을 저장한다. 컴퓨터 프로그램이 컴퓨터 상에서 작동될 때, 컴퓨터는 제1 측면 내지 제3 측면 중의 임의의 하나에 따른 이미지 프로세싱 방법을 수행하는 것이 가능하게 된다.
제11 측면에 따르면, 이 출원의 실시예는 컴퓨터 프로그램을 제공한다. 컴퓨터 프로그램이 컴퓨터 상에서 작동될 때, 컴퓨터는 제1 측면 내지 제3 측면 중의 임의의 하나에 따른 이미지 프로세싱 방법을 수행하는 것이 가능하게 된다.
제12 측면에 따르면, 이 출원은 칩 시스템을 제공한다. 칩 시스템은 상기한 측면에서의 기능, 예를 들어, 상기한 방법에서 데이터 및/또는 정보를 전송하거나 프로세싱하는 것을 구현할 시에 실행 디바이스 또는 훈련 디바이스를 지원하도록 구성된 프로세서를 포함한다. 가능한 설계에서, 칩 시스템은 메모리를 더 포함한다. 메모리는 실행 디바이스 또는 훈련 디바이스의 필요한 프로그램 명령 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수 있거나, 칩 및 또 다른 개별 컴포넌트를 포함할 수 있다.
이 출원의 실시예는 이미지 프로세싱 방법을 제공한다. 제1 이미지가 획득되고; 적어도 하나의 제1 특징 맵을 획득하기 위하여 특징 추출이 제1 이미지에 대해 수행되고, 여기서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고; 타깃 압축 비트 레이트가 획득되고, 여기서, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수이고; M개의 제2 특징 값을 획득하기 위하여, 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱되고; 인코딩된 데이터를 획득하기 위하여, 양자화 및 엔트로피 인코딩이 적어도 하나의 프로세싱된 제1 특징 맵에 대해 수행되고, 여기서, 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함한다. 상기한 방식으로, 상이한 타깃 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
도 1은 인공 지능 메인 프레임워크(artificial intelligence main framework)의 구조의 개략도이다.
도 2a는 이 출원의 실시예에 따른 적용 시나리오를 예시한다.
도 2b는 이 출원의 실시예에 따른 적용 시나리오를 예시한다.
도 3은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 실시예를 예시한다.
도 4는 CNN-기반 이미지 프로세싱 프로세스를 예시한다.
도 5a는 이 출원의 실시예에 따른 압축 비트 레이트에서의 특징 맵의 정보 엔트로피 분포를 예시한다.
도 5b는 이 출원의 실시예에 따른 압축 비트 레이트에서의 특징 맵의 정보 엔트로피 분포를 예시한다.
도 6은 이 출원의 실시예에 따른 타깃 함수 맵핑 관계를 예시한다.
도 7은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 실시예를 예시한다.
도 8은 이 출원의 실시예에 따른 이미지 압축 절차를 예시한다.
도 9는 이 출원의 실시예에 따른 압축 효과를 예시한다.
도 10은 이 출원의 실시예에 따른 훈련 프로세스를 예시한다.
도 11은 이 출원의 실시예에 따른 이미지 프로세싱 프로세스를 예시한다.
도 12는 이 출원의 실시예에 따른 이미지 프로세싱 시스템의 시스템 아키텍처의 도면이다.
도 13은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 개략적인 흐름도이다.
도 14는 이 출원의 실시예에 따른 이미지 프로세싱 장치의 구조의 개략도이다.
도 15는 이 출원의 실시예에 따른 이미지 프로세싱 장치의 구조의 개략도이다.
도 16은 이 출원의 실시예에 따른 이미지 프로세싱 장치의 구조의 개략도이다.
도 17은 이 출원의 실시예에 따른 실행 디바이스의 구조의 개략도이다.
도 18은 이 출원의 실시예에 따른 훈련 디바이스의 구조의 개략도이다.
도 19는 이 출원의 실시예에 따른 칩의 구조의 개략도이다.
다음은 본 발명의 실시예에서의 첨부 도면을 참조하여 본 발명의 실시예를 설명한다. 본 발명의 실시예에서 이용된 용어는 본 발명의 구체적인 실시예를 설명하기 위하여 단지 이용되고, 본 발명을 제한하도록 의도되지는 않는다.
다음은 첨부 도면을 참조하여 이 출원의 실시예를 설명한다. 본 기술분야에서의 통상의 기술자는 기술이 진화하고 새로운 시나리오가 등장함에 따라, 이 출원의 실시예에서 제공된 기술적 해결책이 유사한 기술적 문제에 또한 적용된다는 것을 학습할 수 있다.
이 출원의 명세서, 청구범위, 및 첨부 도면에서, 용어 "제1", "제2" 등은 유사한 객체 사이를 구별하도록 의도되지만, 구체적인 순서 또는 시퀀스(sequence)를 반드시 지시하지는 않는다. 이러한 방식으로 이용된 용어는 적절한 상황에서 상호 교환가능하고, 이것은 동일한 속성을 가지는 객체가 이 출원의 실시예에서 설명될 때에 이용되는 단지 판별 방식이라는 것이 이해되어야 한다. 추가적으로, 용어 "포함한다(include)", "가진다(have)", 및 그 임의의 다른 변형은 비-배타적 포함을 포괄하도록 의도하여, 이로써 일련의 유닛을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스는 반드시 그러한 유닛으로 제한되는 것이 아니라, 명백히 열거되지 않거나 이러한 프로세스, 방법, 제품, 또는 디바이스에 내재적이지 않은 다른 유닛을 포함할 수 있다.
인공 지능 시스템의 전체적인 작동 절차가 먼저 설명된다. 도 1은 인공 지능 메인 프레임워크의 구조의 개략도이다. 다음은 2개의 차원: "지능형 정보 사슬(intelligent information chain)"(수평 축) 및 "IT 가치 사슬(value chain)"(수직 축)로부터 상기한 인공 지능 메인 프레임워크를 설명한다. "지능형 정보 사슬"은 데이터 획득으로부터 데이터 프로세싱까지의 일반적인 프로세스를 반영한다. 예를 들어, 프로세스는 지능형 정보 지각, 지능형 정보 표현 및 형성, 지능형 추론, 지능형 의사결정, 및 지능형 실행 및 출력의 일반적인 프로세스일 수 있다. 이 프로세스에서, 데이터는 "데이터-정보-지식-지혜(data-information-knowledge-wisdom)"의 응축 프로세스를 거친다. "IT 가치 사슬"은 인간 지능의 기초적인 기반구조 및 정보(기술 제공 및 프로세싱 구현예)로부터 시스템의 산업 생태계 프로세스까지 인공 지능이 정보 기술 산업에 가져다 준 가치를 반영한다.
(1) 기반구조
기반구조는 인공 지능 시스템을 위한 계산 능력 지원을 제공하고, 외부 세계와 통신하고, 기본적인 플랫폼을 이용함으로써 지원을 구현한다. 기반구조는 센서를 이용함으로써 외부와 통신한다. 계산 능력은 지능형 칩(CPU, NPU, GPU, ASIC, 또는 FPGA와 같은 하드웨어 가속 칩)에 의해 제공된다. 기본 플랫폼은 분산형 계산 프레임워크 및 네트워크와 같은 관련된 플랫폼 보장 및 지원을 포함하고, 클라우드 저장 및 계산, 상호접속 및 연동 네트워크 등을 포함할 수 있다. 예를 들어, 센서는 데이터를 획득하기 위하여 외부와 통신하고, 데이터는 연산을 위하여, 기본적인 플랫폼에 의해 제공된 분산형 컴퓨팅 시스템 내의 지능형 칩에 제공된다.
(2) 데이터
기반구조의 더 상위 계층으로부터의 데이터는 인공 지능 분야에서 데이터 소스(data source)를 지시한다. 데이터는 그래프, 이미지, 음성, 및 텍스트에 관련되고, 기존의 디바이스의 사물 인터넷(internet of things) 데이터에 추가로 관련되고, 현존하는 시스템의 서비스 데이터, 및 힘, 변위, 액체 레벨, 온도, 및 습도와 같은 지각 데이터를 포함한다.
(3) 데이터 프로세싱
데이터 프로세싱은 통상적으로, 데이터 훈련(data training), 머신 학습(machine learning), 심층 학습(deep learning), 검색(searching), 추론(inference), 및 의사결정(decision-making)과 같은 방식을 포함한다.
머신 학습 및 심층 학습은 데이터에 대해 기호 및 공식화된 지능형 정보 모델링, 추출, 프리프로세싱, 훈련 등을 수행하는 것을 의미할 수 있다.
추론은 머신 사고(machine thinking)를 수행하고 문제를 해결하기 위하여, 컴퓨터 또는 지능형 시스템에서 지능형 인간 추론 방법을 시뮬레이팅하고, 추론 제어 정책에 기초하여, 공식화된 정보를 이용하는 프로세스이다. 추론의 전형적인 기능은 검색 및 정합(matching)이다.
의사결정은 지능형 정보 추론 후에 판정이 행해지는 프로세스이고, 통상적으로, 분류(classification), 등급화(ranking), 및 예측(prediction)과 같은 기능을 제공한다.
(4) 일반적인 능력
위에서 언급된 데이터 프로세싱이 데이터에 대해 수행된 후에, 데이터 프로세싱 결과에 기초하여 일부 일반적인 능력, 예를 들어, 알고리즘 또는 일반적인 시스템이 형성될 수 있어서, 번역, 텍스트 분석, 컴퓨터 비전(computer vision) 프로세싱, 스피치 인식, 이미지 인식 등이 수행된다.
(5) 지능형 제품 및 산업 애플리케이션
지능형 제품 및 산업 애플리케이션은 다양한 분야에서의 인공 지능 시스템의 제품 및 애플리케이션이고, 전체적인 인공 지능 솔루션의 캡슐화(encapsulation), 지능형 정보 의사결정의 제품화, 및 랜딩 애플리케이션(landing application)의 실현을 지시한다. 그 적용 분야는 지능형 단말, 지능형 수송, 지능형 의학적 치료, 자율 운전, 안전한 도시 등을 주로 포함한다.
이 애플리케이션은 인공 지능 분야에서의 이미지 프로세싱 분야에 적용될 수 있고, 다음은 제품 랜딩의 복수의 적용 시나리오를 설명한다.
I. 단말 디바이스에서의 이미지 압축 프로세스에 대한 적용
이 출원의 실시예에서 제공된 이미지 압축 방법은 단말 디바이스에서의 이미지 압축 프로세스에 적용될 수 있고, 구체적으로, 단말 디바이스에서의 앨범(album), 비디오 감시(video surveillance) 등에 적용될 수 있다. 세부사항에 대하여, 도 2a를 참조한다. 도 2a는 이 출원의 실시예에 따른 적용 시나리오를 예시한다. 도 2a에서 도시된 바와 같이, 단말 디바이스는 압축되어야 할 픽처를 획득할 수 있다. 압축되어야 할 픽처는 카메라에 의해 촬영된 사진, 또는 비디오로부터 추출된 픽처의 프레임일 수 있다. 단말 디바이스는 이미지 데이터를 더 낮은 중복성의 출력 특징으로 변환하기 위하여, 내장된 신경망 프로세싱 유닛(neural-network processing unit, NPU) 내의 인공 지능(artificial intelligence, AI) 인코딩 유닛을 이용함으로써 획득된 압축되어야 할 픽처에 대해 특징 추출을 수행할 수 있고; 출력 특징 내의 포인트(point)의 확률 추정치를 생성할 수 있다. 중앙 프로세싱 유닛(central processing unit, CPU)은 출력 특징의 인코딩 중복성을 감소시켜서, 이미지 압축 프로세스에서 데이터 송신량을 감소시키기 위하여, 출력 특징 내의 포인트의 확률 추정치를 이용함으로써 추출된 출력 특징에 대해 산술 인코딩(arithmetic encoding)을 수행하고; 데이터 파일의 형태로 대응하는 저장 위치에서, 인코딩 후에 획득된 인코딩된 데이터를 저장한다. 사용자가 저장 위치에서 저장된 파일을 획득할 필요가 있을 때, CPU는 대응하는 저장 위치로부터 저장된 파일을 획득하고 로딩할 수 있고, 산술 디코딩(arithmetic decoding)에 기초하여 디코딩된 특징 맵을 획득할 수 있고, 재구성된 이미지를 획득하기 위하여, NPU 내의 AI 디코딩 유닛을 이용함으로써 특징 맵에 대해 재구성을 수행할 수 있다.
2. 클라우드 측 상에서의 이미지 압축 프로세스에 대한 적용
이 출원의 실시예에서 제공된 이미지 압축 방법은 클라우드 측 상에서 이미지 압축 프로세스에 적용될 수 있고, 구체적으로, 클라우드-측 서버 내의 클라우드 앨범(cloud album)과 같은 기능에 적용될 수 있다. 세부사항에 대하여, 도 2b를 참조한다. 도 2b는 이 출원의 실시예에 따른 적용 시나리오를 예시한다. 도 2b에서 도시된 바와 같이, 단말 디바이스는 압축되어야 할 픽처를 획득할 수 있다. 압축되어야 할 픽처는 카메라에 의해 촬영된 사진, 또는 비디오로부터 추출된 픽처의 프레임일 수 있다. 단말 디바이스는 인코딩된 데이터를 획득하기 위하여, CPU를 이용함으로써 압축되어야 할 픽처에 대해 무손실 인코딩 압축을 수행할 수 있고, 여기서, 무손실 인코딩 압축은 예를 들어, 기존의 기술에서의 임의의 무손실 압축 방법에 기초하여 수행될 수 있지만, 기존의 기술에서의 임의의 무손실 압축 방법에 기초하여 수행되는 것으로 제한되지는 않는다. 단말 디바이스는 인코딩된 데이터를 클라우드-측 서버로 송신할 수 있다. 서버는 압축되어야 할 이미지를 획득하기 위하여 수신된 인코딩된 데이터에 대해 대응하는 무손실 디코딩을 수행할 수 있다. 서버는 이미지 데이터를 더 낮은 중복성의 출력 특징으로 변환하기 위하여, 그래픽 프로세싱 유닛(graphics processing unit, GPU) 내의 AI 인코딩 유닛을 이용함으로써 획득된 압축되어야 할 픽처에 대해 특징 추출을 수행할 수 있고; 출력 특징 내의 포인트의 확률 추정치를 생성할 수 있다. CPU는 출력 특징의 인코딩 중복성을 감소시켜서, 이미지 압축 프로세스에서 데이터 송신량을 감소시키기 위하여, 출력 특징 내의 포인트의 확률 추정치를 이용함으로써 추출된 출력 특징에 대해 산술 인코딩을 수행하고; 데이터 파일의 형태로 대응하는 저장 위치에서, 인코딩 후에 획득된 인코딩된 데이터를 저장한다. 사용자가 저장 위치에서 저장된 파일을 획득할 필요가 있을 때, CPU는 대응하는 저장 위치로부터 저장된 파일을 획득하고 로딩할 수 있고, 산술 디코딩에 기초하여 디코딩된 특징 맵을 획득할 수 있고, 재구성된 이미지를 획득하기 위하여, NPU 내의 AI 디코딩 유닛을 이용함으로써 특징 맵에 대해 재구성을 수행할 수 있다. 서버는 인코딩된 데이터를 획득하기 위하여, CPU를 이용함으로써 압축되어야 할 픽처에 대해 무손실 인코딩 압축을 수행할 수 있고, 여기서, 무손실 인코딩 압축은 예를 들어, 기존의 기술에서의 임의의 무손실 압축 방법에 기초하여 수행될 수 있지만, 기존의 기술에서의 임의의 무손실 압축 방법에 기초하여 수행되는 것으로 제한되지는 않는다. 서버는 인코딩된 데이터를 단말 디바이스로 송신할 수 있고, 단말 디바이스는 디코딩된 이미지를 획득하기 위하여, 수신된 인코딩된 데이터에 대해 대응하는 무손실 디코딩을 수행할 수 있다.
이 출원의 이 실시예에서, 특징 맵 내의 특징 값에 대해 이득 프로세싱을 수행하는 단계는 AI 인코딩 유닛과 양자화 유닛 사이에서 추가될 수 있고, 특징 맵 내의 특징 값에 대해 역 이득 프로세싱을 수행하는 단계는 산술 디코딩 유닛과 AI 디코딩 유닛 사이에서 추가될 수 있다. 다음으로, 이 출원의 실시예에서의 이미지 프로세싱 방법이 상세하게 설명된다.
이 출원의 실시예는 다량의 신경망 애플리케이션에 관련되므로, 이해의 용이함을 위하여, 다음은 이 출원의 실시예에서 이용될 수 있는 신경망의 관련된 용어 및 개념을 먼저 설명한다.
(1) 신경망
신경망은 뉴런(neuron)을 포함할 수 있다. 뉴런은 xs 및 1의 절편(intercept)을 입력으로서 이용하는 연산 유닛일 수 있고, 여기서, 연산 유닛의 출력은 다음과 같을 수 있고:
Figure pct00002
, 여기서,
s=1, 2, ..., n이고, n은 1 초과인 자연수이고, Ws는 Xs의 가중치이고, b는 뉴런의 오프셋이다. f는 뉴런의 활성화 함수(activation function)이고, 여기서, 활성화 함수는 비-선형 특성을 신경망 내로 도입하기 위하여 이용되어, 뉴런 내의 입력 신호를 출력 신호로 변환한다. 활성화 함수의 출력 신호는 다음의 컨볼루션 계층(convolutional layer)의 입력으로서 이용될 수 있고, 활성화 함수는 시그모이드 함수(sigmoid function)일 수 있다. 신경망은 복수의 단일 뉴런을 함께 접속함으로써 구성된 네트워크이다. 구체적으로, 뉴런의 출력은 또 다른 뉴런의 입력일 수 있다. 각각의 뉴런의 입력은 국소적 수용성 필드의 특징을 추출하기 위하여 이전의 계층의 국소적 수용성 필드에 접속될 수 있다. 국소적 수용성 필드는 몇몇 뉴런을 포함하는 영역일 수 있다.
(2) 심층 신경망
멀티-계층 신경망으로서 또한 지칭된 심층 신경망(deep neural network, DNN)은 복수의 은닉된 계층을 가지는 신경망으로서 이해될 수 있다. DNN은 상이한 계층의 위치에 기초하여 분할된다. DNN 내부의 신경망은 3개의 유형: 입력 계층, 은닉된 계층, 및 출력 계층으로 분류될 수 있다. 일반적으로, 첫 번째 계층은 입력 계층이고, 마지막 계층은 출력 계층이고, 중간 계층은 은닉된 계층이다. 계층은 완전히 접속된다. 구체적으로, i 번째 계층에서의 임의의 뉴런은 (i+1) 번째 계층에서의 임의의 뉴런에 반드시 접속된다.
DNN은 매우 복잡한 것으로 보이지만, 각각의 계층의 작동을 위하여 복잡하지 않다. 요약하면, DNN은 다음의 선형 관계 표현이고:
Figure pct00003
, 여기서,
Figure pct00004
는 입력 벡터이고,
Figure pct00005
는 출력 벡터이고,
Figure pct00006
는 오프셋 벡터이고, W는 가중치 행렬(또한, 계수로서 지칭됨)이고,
Figure pct00007
는 활성화 함수이다. 각각의 계층은 출력 벡터
Figure pct00008
를 획득하기 위하여 입력 벡터
Figure pct00009
에 대해 이러한 간단한 연산을 간단하게 수행한다. DNN의 다량의 계층으로 인해, 다량의 계수 W 및 오프셋 벡터
Figure pct00010
가 또한 있다. 이 파라미터는 DNN에서 다음과 같이 정의된다: 계수 W는 예로서 이용된다. 3-계층 DNN에서는, 제2 계층에서의 제4 뉴런으로부터 제3 계층에서의 제2 뉴런으로의 선형 계수가
Figure pct00011
으로서 정의된다는 것이 가정된다. 위첨자(superscript) 3은 계수 W가 위치되는 계층을 나타내고, 아래첨자(subscript)는 출력 제3-계층 인덱스 2 및 입력 제2-계층 인덱스 4에 대응한다.
결론적으로, (L-1) 번째 계층에서의 k 번째 뉴런으로부터 L 번째 계층에서의 j 번째 뉴런으로의 계수는
Figure pct00012
로서 정의된다.
입력 계층에서 파라미터 W가 없다는 것이 주목되어야 한다. 심층 신경망에서, 더 많은 은닉된 계층은 네트워크가 실세계에서의 복잡한 경우를 더 잘 설명할 수 있게 한다. 이론적으로, 더 많은 파라미터를 갖는 모델은 더 높은 복잡도 및 더 큰 "용량(capacity)"을 가진다. 그것은 모델이 더 복잡한 학습 태스크를 완료할 수 있다는 것을 지시한다. 심층 신경망을 훈련시키는 것은 가중치 행렬(weight matrix)을 학습하는 프로세스이고, 훈련의 최종적인 목적은 훈련된 심층 신경망의 모든 계층의 가중치 행렬(복수의 계층에서 벡터 W에 의해 형성된 가중치 행렬)을 획득하기 위한 것이다.
(3) 컨볼루션 신경망
컨볼루션 신경망(convolutional neuron network, CNN)은 컨볼루션 구조를 갖는 심층 신경망이다. 컨볼루션 신경망은 컨볼루션 계층 및 서브-샘플링 계층을 포함하는 특징 추출기를 포함한다. 특징 추출기는 필터로서 간주될 수 있다. 컨볼루션 계층은, 입력 신호에 대해 컨볼루션 프로세싱을 수행하고 컨볼루션 신경망 내에 있는 뉴런 계층이다. 컨볼루션 신경망의 컨볼루션 계층에서, 하나의 뉴런은 이웃하는 계층에서의 뉴런의 오직 일부에 접속될 수 있다. 컨볼루션 계층은 일반적으로, 몇몇 특징 평면을 포함하고, 각각의 특징 평면은 일부 직사각형-배열된 뉴런을 포함할 수 있다. 동일한 특징 평면 내의 뉴런은 가중치를 공유하고, 여기에서의 공유된 가중치는 컨볼루션 커널(convolution kernel)이다. 가중치 공유는 이미지 정보를 추출하는 방식이 위치에 비관련되는 것으로서 이해될 수 있다. 컨볼루션 커널은 무작위적 크기의 행렬의 형태로 초기화될 수 있다. 컨볼루션 신경망의 훈련 프로세스에서, 적절한 가중치는 학습을 통해 컨볼루션 커널에 대하여 획득될 수 있다. 추가적으로, 컨볼루션 신경망의 계층 사이의 접속이 감소되고, 과적합(overfitting)의 위험이 감소되므로, 가중치 공유가 유리하다.
(4) 손실 함수
심층 신경망을 훈련시키는 프로세스에서는, 심층 신경망의 출력이 실제적으로 예측된 값에 최대로 근접한 것으로 예상되므로, 네트워크의 현재의 예측된 값은 예상되는 타깃 값과 비교될 수 있고, 그 다음으로, 신경망의 각각의 계층에서의 가중치 벡터는 현재의 예측된 값과 타깃 값 사이의 차이에 기초하여 업데이팅된다(제1 업데이트 전에 통상적으로 초기화 프로세스가 있고, 다시 말해서, 파라미터는 심층 신경망의 각각의 계층에 대하여 사전구성됨). 예를 들어, 네트워크의 예측된 값이 클 경우에, 심층 신경망이 실제적으로 예상되는 타깃 값, 또는 실제적으로 예상되는 타깃 값에 근접한 값을 예측할 수 있을 때까지, 가중치 벡터는 예측된 값을 낮추도록 조절된다. 그러므로, "비교를 통해, 예측된 값과 타깃 값 사이의 차이를 어떻게 획득할 것인지"는 사전정의될 필요가 있다. 이것은 손실 함수(loss function) 또는 목적 함수(objective function)이다. 손실 함수 및 목적 함수는 예측된 값과 타깃 값 사이의 차이를 측정하기 위하여 이용된 중요한 수학식이다. 손실 함수는 예로서 이용된다. 손실 함수의 더 높은 출력 값(손실)은 더 큰 차이를 지시한다. 그러므로, 심층 신경망의 훈련은 손실을 가능한 한 많이 최소화하는 프로세스이다.
(5) 역전파 알고리즘
훈련 프로세스에서, 신경망은 오차 역전파(back propagation, BP) 알고리즘을 이용함으로써 초기 신경망 모델에서의 파라미터의 값을 정정할 수 있어서, 이로써 신경망 모델의 재구성 오차 손실은 점점 더 작아진다. 구체적으로, 입력 신호는 오차 손실이 출력에서 생성될 때까지 순방향 전송되고, 초기 신경망 모델에서의 파라미터는 역전파 오차 손실 정보에 기초하여 업데이팅되어, 이로써 오차 손실이 감소된다. 역전파 알고리즘은 오차 손실에 주로 종속적인 역전파 모션(back propagation motion)이고, 최적의 신경망 모델의 파라미터, 예를 들어, 가중치 행렬을 획득하는 것을 목적으로 한다.
이 출원의 실시예는 적용 시나리오가 단말 디바이스인 예를 이용함으로써 설명을 먼저 제공한다.
예를 들어, 단말 디바이스는 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 또는 지능형 웨어러블 디바이스일 수 있고, 단말 디바이스는 획득된 픽처에 대해 압축 프로세싱을 수행할 수 있다. 또 다른 예에 대하여, 단말 디바이스는 가상 현실(virtual reality, VR) 디바이스일 수 있다. 또 다른 예에 대하여, 이 출원의 실시예는 또한, 지능형 모니터링에 적용될 수 있다. 카메라는 지능형 모니터링에서 구성될 수 있다. 이 경우에, 지능형 모니터링에서, 압축되어야 할 픽처 등은 카메라를 이용함으로써 획득될 수 있다. 이 출원의 실시예는 이미지 압축이 수행될 필요가 있는 다른 시나리오에 추가로 적용될 수 있다는 것이 이해되어야 한다. 다른 적용 시나리오는 본 명세서에서 하나씩 열거되지 않는다.
도 3은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 실시예를 예시한다. 도 3에서 도시된 바와 같이, 이 출원의 이 실시예에서 제공된 이미지 프로세싱 방법은 다음의 단계를 포함한다.
301. 제1 이미지를 획득함.
이 출원의 이 실시예에서, 제1 이미지는 압축되어야 할 이미지이다. 제1 이미지는 카메라를 이용함으로써 상기한 단말 디바이스에 의해 촬영된 이미지일 수 있거나, 제1 이미지는 단말 디바이스로부터 획득된 이미지(예를 들어, 단말 디바이스의 앨범 내에 저장된 이미지, 또는 클라우드로부터 단말 디바이스에 의해 획득된 픽처)일 수 있다. 제1 이미지는 이미지 압축 요건을 가지는 이미지일 수 있고, 프로세싱되어야 할 이미지의 소스는 이 출원에서 제한되지 않는다는 것이 이해되어야 한다.
302. 적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하고, 여기서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임.
이 출원의 이 실시예에서, 임의적으로, 단말 디바이스는 적어도 하나의 제1 특징 맵을 획득하기 위하여, CNN에 기초하여 제1 이미지에 대해 특징 추출을 수행할 수 있다. 이하에서, 제1 특징 맵은 또한, 채널별 특징 맵(channelwise feature map)으로서 지칭될 수 있고, 각각의 시맨틱 채널(semantic channel)은 하나의 제1 특징 맵(채널별 특징 맵)에 대응한다.
이 출원의 이 실시예에서, 도 4는 CNN-기반 이미지 프로세싱 프로세스를 예시한다. 도 4는 제1 이미지(401), CNN(402), 및 복수의 제1 특징 맵(403)을 도시한다. CNN(402)은 복수의 CNN 계층을 포함할 수 있다.
예를 들어, CNN(402)은 입력 데이터(제1 이미지)의 상부-좌측 3x3 픽셀을 가중치와 승산할 수 있고, 픽셀을 제1 특징 맵의 상부-좌측 뉴런으로 맵핑할 수 있다. 승산되어야 할 가중치는 또한 3x3이다. 그 다음으로, 동일한 프로세싱에서, CNN(402)은 입력 데이터(제1 이미지)를 좌측으로부터 우측으로 그리고 상부로부터 하부로 스캐닝하고, 입력 데이터를 특징 맵의 뉴런으로 맵핑하기 위하여 입력 데이터를 가중치와 승산한다. 본 명세서에서, 이용된 3x3 가중치는 필터 또는 필터 코어(filter core)로서 지칭된다. 즉, 필터를 CNN(402)에 적용하는 프로세스는 필터 코어를 이용함으로써 컨볼루션 연산을 수행하는 프로세스이고, 추출된 결과는 "제1 특징 맵"으로서 지칭된다. 제1 특징 맵은 또한, 멀티-채널별 특징 맵(multi-channelwise feature map)으로서 지칭될 수 있고, 용어 "멀티-채널별 특징 맵"은 복수의 채널에 대응하는 특징 맵 세트일 수 있다. 실시예에 따르면, 멀티-채널별 특징 맵은 CNN(402)에 의해 생성될 수 있고, CNN(402)은 또한, CNN의 "특징 추출 계층" 또는 "컨볼루션 계층"으로서 지칭된다. CNN의 계층은 출력으로부터 입력으로의 맵핑을 정의할 수 있다. 다음의 계층으로 출력되어야 할 특징 맵을 생성하기 위하여, 계층에 의해 정의된 맵핑은 입력 데이터에 적용되어야 할 하나 이상의 필터 코어(컨볼루션 코어)로서 실행된다. 입력 데이터는 구체적인 계층의 이미지 또는 특징 맵핑 이미지일 수 있다.
도 4를 참조한다. 순방향 실행(forward execution) 동안에, CNN(402)은 제1 이미지(401)를 수신하고, 멀티-채널별 특징 맵(403)을 출력으로서 생성한다. 추가적으로, 순방향 실행 동안에, 다음의 계층(402)은 멀티-채널별 특징 맵(403)을 입력으로서 수신하고, 멀티-채널별 특징 맵(403)을 출력으로서 생성한다. 그 다음으로, 각각의 후속 계층은 이전의 계층에서 생성된 멀티-채널별 특징 맵을 수신하고, 다음의 멀티-채널별 특징 맵을 출력으로서 생성한다. 최종적으로, N 번째 계층에서 생성된 멀티-채널별 특징 맵이 수신된다.
게다가, 입력 특징 맵을 출력 특징 맵으로 맵핑하기 위한 컨볼루션 코어를 적용하는 동작에 추가적으로, 또 다른 프로세싱 동작이 수행될 수 있다. 또 다른 프로세싱 동작의 예는 활성화 함수, 풀링(pooling), 리샘플링(resampling) 등의 적용을 포함할 수 있지만, 이것으로 제한되지는 않는다.
상기한 것은 제1 이미지에 대해 특징 추출을 수행하기 위한 오직 하나의 구현예라는 것이 주목되어야 한다. 실제적인 애플리케이션에서, 구체적인 특징 추출 구현예는 제한되지 않는다.
이 출원의 이 실시예에서, 상기한 방식으로, 원래의 이미지(제1 이미지)는 CNN(컨볼루션 신경망)을 이용함으로써 또 다른 공간(적어도 하나의 제1 특징 맵)으로 변환된다. 임의적으로, 192개의 제1 특징 맵이 있고, 즉, 192개의 시맨틱 채널이 있고, 각각의 시맨틱 채널은 하나의 제1 특징 맵에 대응한다. 이 출원의 이 실시예에서, 적어도 하나의 제1 특징 맵은 3 차원 텐서(tensor)의 형태로 되어 있을 수 있고, 텐서의 크기는
Figure pct00013
일 수 있고, 여기서,
Figure pct00014
은 단일 채널의 제1 특징 맵에 대응하는 행렬의 폭 및 길이이다.
이 출원의 이 실시예에서는, 특징 추출이 제1 이미지에 대해 수행되어, 복수의 특징 값이 획득될 수 있다. 적어도 하나의 제1 특징 맵은 복수의 특징 값의 일부 또는 전부를 포함할 수 있다. 이득 프로세싱은 압축 결과에 대해 상대적으로 작은 영향을 야기시키는 일부 시맨틱 채널에 대응하는 특징 맵에 대해 수행되지 않을 수 있다. 이 경우에, 적어도 하나의 제1 특징 맵은 복수의 특징 값의 일부를 포함할 수 있다.
이 출원의 이 실시예에서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이다.
303. 타깃 압축 비트 레이트를 획득하고, 여기서, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임.
이 출원의 이 실시예에서, 단말 디바이스는 타깃 압축 비트 레이트를 획득할 수 있다. 타깃 압축 비트 레이트는 사용자에 의해 특정될 수 있거나, 제1 이미지에 기초하여 단말 디바이스에 의해 결정될 수 있다. 이것은 본 명세서에서 제한되지 않는다.
이 출원의 이 실시예에서, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수이다. 즉, 타깃 압축 비트 레이트와 M개의 타깃 이득 값 사이에는 구체적인 연관성 관계가 있고, 타깃 압축 비트 레이트를 획득한 후에, 단말 디바이스는 획득된 타깃 압축 비트 레이트에 기초하여 M개의 대응하는 타깃 이득 값을 결정할 수 있다.
임의적으로, 실시예에서, 단말 디바이스는 타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 결정할 수 있다. 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용된다. 타깃 맵핑 관계는 사전저장된 맵핑 관계일 수 있다. 타깃 압축 비트 레이트를 획득한 후에, 단말 디바이스는 대응하는 저장 위치에서, 타깃 압축 비트 레이트에 대응하는 타깃 맵핑 관계를 직접적으로 발견할 수 있다.
임의적으로, 실시예에서, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 이득 벡터 사이의 연관성 관계를 포함할 수 있고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 이득 값은 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이다.
이 출원의 이 실시예에서, 타깃 맵핑 관계는 사전설정된 표이거나 또 다른 형태로 되어 있을 수 있다. 타깃 맵핑 관계는 복수의 압축 비트 레이트, 및 압축 비트 레이트에 대응하는 이득 벡터를 포함한다. 이득 벡터는 복수의 엘리먼트를 포함할 수 있고, 각각의 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, M개의 타깃 이득 값은 각각의 압축 비트 레이트에 대응하는 이득 벡터 내에 포함된 엘리먼트이다.
임의적으로, 실시예에서, 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함할 수 있고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
이 출원의 이 실시예에서, 타깃 맵핑 관계는 사전설정된 타깃 함수 맵핑 관계이거나 또 다른 형태로 되어 있을 수 있다. 타깃 함수 맵핑 관계는 압축 비트 레이트와 이득 값 사이의 적어도 대응성(correspondence)을 지시할 수 있다. 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
이 출원의 이 실시예에서, M개의 타깃 이득 값의 일부 또는 전부는 동일할 수 있다는 것이 주목되어야 한다. 이 경우에, M 미만인 수량은, M개의 타깃 특징 값 내에 있고 제1 특징 값에 대응하는 타깃 이득 값을 지시하기 위하여 이용될 수 있다. 예를 들어, 실시예에서, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다. 즉, P개의 제1 특징 값은 동일한 시맨틱 채널의 특징 값이고, 동일한 타깃 이득 값에 대응한다. 이 경우에, P개의 제1 특징 값은 하나의 이득 값을 이용함으로써 지시될 수 있다.
또 다른 실시예에서, 각각의 시맨틱 채널에 대응하는 제1 특징 값의 이득 값이 동일할 경우에, M개의 제1 이득 값은 시맨틱 채널과 동일한 수량의 타깃 이득 값을 이용함으로써 지시될 수 있다. 구체적으로, 192개의 시맨틱 채널(제1 특징 맵)이 있을 때, M개의 제1 이득 값은 192개의 이득 값을 이용함으로써 지시될 수 있다.
이 출원의 이 실시예에서, 적어도 하나의 제1 특징 맵의 전부 또는 일부의 각각 내에 포함된 제1 특징 값은 동일한 타깃 이득 값에 대응할 수 있다. 이 경우에, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다. 즉, 제1 타깃 특징 맵은 적어도 하나의 제1 특징 맵 중의 하나이고, P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응한다.
이 출원의 이 실시예에서, N개의 제1 특징 값은 적어도 하나의 제1 특징 맵 내에 포함된 모든 특징 값일 수 있다. M이 N과 동일할 때, 그것은 적어도 하나의 제1 특징 맵 내에 포함된 모든 특징 값의 각각이 대응하는 타깃 이득 값을 가지는 것과 같다. M이 N 미만일 때, 그것은 적어도 하나의 제1 특징 맵 내에 포함된 특징 값의 일부가 대응하는 타깃 이득 값을 가지는 것과 같다. 실시예에서, 제1 특징 맵의 수량이 1 초과일 경우에, 적어도 하나의 제1 특징 맵의 일부의 각각 내에 포함된 모든 특징 값의 각각은 대응하는 타깃 이득 값을 가지고, 적어도 하나의 제1 특징 맵의 일부의 각각 내에 포함된 특징 값의 일부는 대응하는 타깃 이득 값을 가진다.
임의적으로, 실시예에서, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
이 출원의 이 실시예에서는, 일부 시나리오에서, M개의 제1 특징 값은, N개의 제1 특징 값 내에 있고 하나 이상의 타깃 객체에 대응하는 특징 값이다. 예를 들어, 모니터에 의해 촬영된 비디오 컨텐츠에 대하여, 이득 프로세싱은 상대적으로 고정된 장면을 갖는 에어리어(area)에 대해 수행되지 않을 수 있고, 이득 프로세싱은 에어리어를 통과하는 객체 또는 사람의 컨텐츠에 대해 수행될 수 있다.
304. M개의 제2 특징 값을 획득하기 위하여, M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱함.
이 출원의 이 실시예에서, 타깃 압축 비트 레이트, 및 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값이 획득된 후에, M개의 타깃 이득 값을 획득하기 위하여, 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱될 수 있다. 실시예에서, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득되고, 즉, 대응하는 제2 특징 값은 제1 특징 값이 대응하는 타깃 이득 값에 의해 승산된 후에 획득될 수 있다.
이 출원의 이 실시예에서는, 동일한 AI 압축 모델에서 상이한 압축 비트 레이트의 효과를 구현하기 위하여, 상이한 타깃 이득 값이 상이한 획득된 타깃 압축 비트 레이트에 대하여 획득될 수 있다. M개의 제2 특징 값이 획득하기 위하여, 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱된 후에, 원래의 제1 이미지에 대응하는 적어도 하나의 특징 맵 내에 포함된 N개의 제1 특징 값의 분포는 이득 프로세싱이 수행되는 M개의 제1 특징 값으로 인해 변경된다.
이 출원의 이 실시예에서, 도 5a 및 도 5b는 이 출원의 실시예에 따른 상이한 압축 비트 레이트에 대한 특징 맵의 분포를 예시한다. 상이한 압축 비트 레이트는 상이한 픽셀 당 비트(bits per pixel, bpp)를 이용함으로써 표현된다. bpp는 각각의 픽셀을 저장하기 위하여 이용된 비트의 수량을 나타내고, 더 작은 bpp는 더 작은 압축 비트 레이트를 지시한다. 도 5a는 bpp가 1일 때, N개의 제1 특징 값의 분포를 도시한다. 도 5b는 bpp가 0.15일 때, N개의 제1 특징 값의 분포를 도시한다. 더 높은 압축 비트 레이트의 모델의 인코딩 네트워크의 출력 특징(N개의 제1 특징 값)은 통계적 히스토그램(statistical histogram)에서 더 큰 분산(variance)을 가지고, 그러므로, 양자화 후에 획득된 정보 엔트로피가 더 크다. 그러므로, 상이한 압축 비트 레이트가 상이한 타깃 이득 값에 대응한다면, 이득 프로세싱은 상이한 타깃 압축 비트 레이트에 기초하여 N개의 제1 특징 값에 대해 상이한 정도로 수행되어, 이로써 복수의 비트 레이트의 재구성 효과가 단일 AI 압축 모델에서 구현될 수 있다. 구체적으로, M개의 타깃 이득 값의 선택 규칙은 다음과 같다: 더 큰 타깃 압축 비트 레이트는 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱된 후에 획득된 N개의 제1 특징 값의 더 분산된 분포를 지시하고, 그러므로, 양자화 후에 획득된 정보 엔트로피가 더 크다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 모든 추출된 제1 특징 맵이 프로세싱될 필요가 있다. 복수의 제1 특징 맵 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응한다. 이 경우에, 복수의 제1 특징 맵 내에 포함된 모든 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 모든 추출된 제1 특징 맵이 프로세싱될 필요가 있다. 복수의 제1 특징 맵의 각각 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응하고, 즉, 각각의 제1 특징 맵은 하나의 타깃 이득 값에 대응한다. 이 경우에, 복수의 제1 특징 맵의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 모든 추출된 제1 특징 맵이 프로세싱될 필요가 있다. 제1 특징 맵의 일부의 각각 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응하고, 제1 특징 맵의 나머지 부분의 각각 내에 포함된 특징 값은 상이한 타깃 이득 값에 대응하고, 즉, 제1 특징 맵의 일부의 각각은 하나의 타깃 이득 값에 대응하고, 제1 특징 맵의 나머지 부분의 각각은 복수의 타깃 이득 값에 대응한다(동일한 특징 맵 내의 상이한 특징 값은 상이한 타깃 이득 값에 대응할 수 있음). 이 경우에, 복수의 제1 특징 맵의 일부의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되고, 제1 특징 맵의 나머지 부분의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 추출된 제1 특징 맵의 일부는 프로세싱될 필요가 있다(이득 프로세싱은 압축 결과에 대해 상대적으로 작은 영향을 야기시키는 일부 시맨틱 채널에 대응하는 제1 특징 맵에 대해 수행되지 않을 수 있음). 프로세싱될 필요가 있는 추출된 제1 특징 맵의 수량은 1 초과이다. 복수의 제1 특징 맵의 각각 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응하고, 즉, 각각의 제1 특징 맵은 하나의 타깃 이득 값에 대응한다. 이 경우에, 복수의 제1 특징 맵의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 추출된 제1 특징 맵의 일부는 프로세싱될 필요가 있다(이득 프로세싱은 압축 결과에 대해 상대적으로 작은 영향을 야기시키는 일부 시맨틱 채널에 대응하는 제1 특징 맵에 대해 수행되지 않을 수 있음). 프로세싱될 필요가 있는 추출된 제1 특징 맵의 수량은 1 초과이다. 제1 특징 맵의 일부의 각각 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응하고, 제1 특징 맵의 나머지 부분의 각각 내에 포함된 특징 값은 상이한 타깃 이득 값에 대응하고, 즉, 제1 특징 맵의 일부의 각각은 하나의 타깃 이득 값에 대응하고, 제1 특징 맵의 나머지 부분의 각각은 복수의 타깃 이득 값에 대응한다(동일한 특징 맵 내의 상이한 특징 값은 상이한 타깃 이득 값에 대응할 수 있음). 이 경우에, 복수의 제1 특징 맵의 일부의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되고, 제1 특징 맵의 나머지 부분의 각각 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 추출된 제1 특징 맵의 일부는 프로세싱될 필요가 있다(이득 프로세싱은 압축 결과에 대해 상대적으로 작은 영향을 야기시키는 일부 시맨틱 채널에 대응하는 제1 특징 맵에 대해 수행되지 않을 수 있음). 프로세싱될 필요가 있는 추출된 제1 특징 맵의 수량은 1이고, 제1 특징 맵 내에 포함된 특징 값은 동일한 타깃 이득 값에 대응하고, 즉, 제1 특징 맵은 하나의 타깃 이득 값에 대응한다. 이 경우에, 제1 특징 맵 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이 출원의 이 실시예에서, 특징 추출이 제1 이미지에 대해 수행되어 복수의 제1 특징 맵이 획득된 후에, 추출된 제1 특징 맵의 일부는 프로세싱될 필요가 있다(이득 프로세싱은 압축 결과에 대해 상대적으로 작은 영향을 야기시키는 일부 시맨틱 채널에 대응하는 제1 특징 맵에 대해 수행되지 않을 수 있음). 프로세싱될 필요가 있는 추출된 제1 특징 맵의 수량은 1이고, 제1 특징 맵 내에 포함된 특징 값은 상이한 타깃 이득 값에 대응하고, 즉, 제1 특징 맵은 복수의 타깃 이득 값에 대응한다(동일한 특징 맵 내의 상이한 특징 값은 상이한 타깃 이득 값에 대응할 수 있음). 이 경우에, 제1 특징 맵 내에 포함된 특징 값은 대응하는 타깃 이득 값에 의해 승산되어, 복수의 제1 특징 맵 내에 포함된 N개의 제1 특징 값의 분포가 변경된다. 더 큰 타깃 압축 비트 레이트는 N개의 제1 특징 값의 더 분산된 분포를 지시한다.
이득 프로세싱은 제1 특징 맵 내에 포함된 제1 특징 값의 오직 일부에 대해 수행될 수 있다는 것이 주목되어야 한다.
동일-스케일 이득 프로세싱이 시맨틱 채널의 특징 값에 대해 수행될 경우에, 즉, 모든 시맨틱 채널에 대응하는 복수의 제1 특징 맵 내에 포함된 제1 특징 값이 동일한 타깃 이득 값에 대응할 경우에, N개의 제1 특징 값의 정보 엔트로피가 변경될 수 있지만, 압축 효과는 상대적으로 열악하다는 것이 주목되어야 한다. 그러므로, 기본적인 이득 연산 유닛이 시맨틱 채널 레벨(모든 시맨틱 채널 중의 적어도 2개에 대응하는 제1 특징 맵의 각각 내에 포함된 제1 특징 값은 상이한 타깃 이득 값에 대응함) 또는 특징 값 레벨(시맨틱 채널에 대응하는 제1 특징 맵 내에 포함된 모든 제1 특징 값 중의 적어도 2개는 상이한 타깃 이득 값에 대응함)로 설정되어, 이로써 상대적으로 양호한 압축 효과가 달성될 수 있다.
다음은 상기한 기술적 효과를 구현할 수 있는 M개의 타깃 이득 값을 어떻게 획득할 것인지를 설명한다.
1. 수동적 결정 방식
이 출원의 이 실시예에서, 타깃 함수 맵핑 관계는 수동적으로 결정될 수 있다. 각각의 시맨틱 채널에 대응하는 제1 특징 맵 내에 포함된 제1 특징 값이 동일한 타깃 이득 값에 대응할 경우에, 타깃 함수 맵핑 관계의 입력은 시맨틱 채널 및 타깃 압축 비트 레이트일 수 있고, 타깃 함수 맵핑 관계의 출력은 대응하는 타깃 이득 값이다(제1 특징 맵 내에 포함된 제1 특징 값은 동일한 타깃 이득 값에 대응하므로, 시맨틱 채널에 대응하는 모든 타깃 이득 값은 하나의 타깃 이득 값을 이용함으로써 표현될 수 있음). 예를 들어, 각각의 시맨틱 채널에 대응하는 타깃 이득 값은 선형 함수(linear function), 이차 함수(quadratic function), 삼차 함수(cubic function), 또는 사차 함수(quartic function)를 이용함으로써 결정될 수 있다. 도 6은 이 출원의 실시예에 따른 타깃 함수 맵핑 관계를 예시한다. 도 6에서 도시된 바와 같이, 타깃 함수 맵핑 관계는 선형 함수이고, 함수의 입력은 시맨틱 채널 시퀀스 번호이고(예를 들어, 시맨틱 채널 시퀀스 번호 1 내지 192가 있음), 함수의 출력은 타깃 맵핑 함수이고, 각각의 타깃 압축 비트 레이트는 상이한 타깃 함수 맵핑 관계에 대응한다. 더 큰 타깃 압축 비트 레이트는 타깃 함수 맵핑 관계의 더 작은 기울기(slope)에 대응한다. 이차 비선형 함수 또는 삼차 비선형 함수의 근사 분포 법칙이 이것과 유사하고, 세부사항은 본 명세서에서 설명되지 않는다.
이 출원의 이 실시예에서, M개의 제1 특징 값의 각각에 대응하는 타깃 이득 값은 수동적으로 결정될 수 있다. 더 큰 타깃 압축 비트 레이트가 N개의 제1 특징 값의 더 분산된 분포를 지시한다면, 구체적인 설정 방식은 이 출원에서 제한되지 않는다.
2. 훈련 방식
이 출원의 이 실시예에서, 각각의 타깃 압축 비트에 대응하는 M개의 타깃 이득 값을 훈련 방식으로 획득하는 것은 디코딩 측 상에서의 프로세스와 조합될 필요가 있다. 그러므로, 각각의 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 훈련 방식으로 획득하는 것은 후속 실시예에서 상세하게 설명되고, 세부사항은 본 명세서에서 설명되지 않는다.
305. 인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하고, 여기서, 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함.
이 출원의 이 실시예에서, M개의 제2 특징 값을 획득하기 위하여, 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱된 후에, 인코딩된 데이터를 획득하기 위하여, 양자화 및 엔트로피 인코딩이 적어도 하나의 프로세싱된 제1 특징 맵에 대해 수행될 수 있다. 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함한다.
이 출원의 이 실시예에서, N개의 제1 특징 값은 특정된 규칙에 따라 양자화 중심으로 변환되어, 후속 엔트로피 인코딩이 용이하게 된다. 양자화 연산은 N개의 제1 특징 값을 부동 소수점 수(floating point number)로부터 비트스트림(예를 들어, 8-비트 정수 또는 4-비트 정수와 같은 구체적인-비트 정수를 이용하는 비트스트림)으로 변환할 수 있다. 일부 실시예에서, 양자화 연산은 반올림을 통해 N개의 제1 특징 값에 대해 수행될 수 있지만, 이것으로 제한되지는 않는다.
이 출원의 이 실시예에서, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다. 구체적으로, 더 큰 타깃 압축 비트 레이트는 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다.
이 출원의 이 실시예에서, 출력 특징 내의 포인트의 확률 추정치는 엔트로피 추정 네트워크를 이용함으로써 획득될 수 있고, 2진 비트스트림(binary bitstream)을 획득하기 위하여, 엔트로피 인코딩은 확률 추정치를 이용함으로써 출력 특징에 대해 수행된다. 현존하는 엔트로피 인코딩 기술은 이 출원에서의 엔트로피 인코딩 프로세스에서 이용될 수 있고, 세부사항은 이 출원에서 설명되지 않는다는 것이 주목되어야 한다.
이 출원의 이 실시예에서, 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속한다. 사전설정된 범위는 실제적인 애플리케이션에서 선택될 수 있다. 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이가 수락가능한 범위 내에 속한다면, 구체적인 사전설정된 범위는 이 출원에서 제한되지 않는다.
이 출원의 이 실시예에서, 인코딩된 데이터가 획득된 후에, 인코딩된 데이터는 압축해제를 위하여 단말 디바이스로 전송될 수 있다. 이 경우에, 압축해제를 위한 이미지 프로세싱 디바이스는 데이터를 압축해제할 수 있다. 대안적으로, 압축을 위한 단말 디바이스는 인코딩된 데이터를 저장 디바이스 내에 저장할 수 있다. 인코딩된 데이터가 요구될 때, 단말 디바이스는 저장 디바이스로부터 인코딩된 데이터를 획득할 수 있고, 인코딩된 데이터를 압축해제할 수 있다.
임의적으로, 실시예에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, M개의 타깃 이득 값은 M개의 제1 이득 값 및 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득된다. 이 출원의 이 실시예에서, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제3 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
이 출원의 이 실시예에서, 복수의 압축 비트 레이트의 압축 효과는 단일 모델에서 구현될 수 있다. 구체적으로, 상이한 타깃 이득 값은 복수의 타깃 압축 비트 레이트에 대하여 이에 따라 설정될 수 있어서, 상이한 압축 비트 레이트에 대한 압축 효과가 구현될 수 있다. 그 다음으로, 보간 연산은 보간 알고리즘을 이용함으로써 타깃 이득 값에 대해 수행될 수 있어서, 압축 비트 레이트 범위에서 임의의 압축 효과의 새로운 이득 값이 획득될 수 있다. 구체적으로, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제2 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다. 보간 연산은 다음의 공식에 기초하여 수행될 수 있다:
Figure pct00015
, 여기서,
Figure pct00016
은 제3 타깃 이득 값을 나타내고,
Figure pct00017
는 제1 타깃 이득 값을 나타내고,
Figure pct00018
는 제2 타깃 이득 값을 나타내고,
Figure pct00019
,
Figure pct00020
, 및
Figure pct00021
는 동일한 특징 값에 대응하고,
Figure pct00022
은 조절 계수이고, 타깃 압축 비트 레이트의 크기에 기초하여 결정될 수 있다.
이 출원의 이 실시예에서, 복수의 압축 비트 레이트의 각각에 대응하는 M개의 타깃 이득 값이 획득된 후에, 타깃 압축 비트 레이트에 대응하는 압축이 수행되어야 할 경우에, 타깃 압축 비트 레이트에 인접한 2개의 압축 비트 레이트에 대응하는 타깃 이득 값의 2개의 그룹(각각의 그룹은 M개의 타깃 이득 값을 포함함)은 복수의 압축 비트 레이트로부터 결정될 수 있고, 상기한 보간 프로세싱은 타깃 이득 값의 2개의 그룹에 대해 수행되어, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값이 획득된다. 이 출원의 이 실시예에서는, 압축 비트 레이트 간격에서의 AI 압축 모델의 임의의 압축 효과가 구현될 수 있다.
이 출원의 이 실시예에서, M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속한다. 디코딩 측 상의 역 이득 프로세스는 후속 실시예에서 설명되고, 세부사항은 본 명세서에서 설명되지 않는다.
이 출원의 이 실시예는 이미지 프로세싱 방법을 제공한다. 제1 이미지가 획득되고; 특징 추출이 제1 이미지에 대해 수행되어, 적어도 하나의 제1 특징 맵이 획득되고, 여기서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고; 타깃 압축 비트 레이트가 획득되고, 여기서, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수이고; M개의 제2 특징 값을 획득하기 위하여, 대응하는 제1 특징 값이 M개의 타깃 이득 값에 기초하여 각각 프로세싱되고; 인코딩된 데이터를 획득하기 위하여, 양자화 및 엔트로피 인코딩이 적어도 하나의 프로세싱된 제1 특징 맵에 대해 수행되고, 여기서, 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함한다. 상기한 방식으로, 상이한 타깃 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
도 7은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 실시예를 예시한다. 도 7에서 도시된 바와 같이, 이 실시예에서 제공된 이미지 프로세싱 방법은 다음의 단계를 포함한다.
701. 인코딩된 데이터를 획득함.
이 출원의 이 실시예에서는, 도 3 및 대응하는 실시예에서 획득된 인코딩된 데이터가 획득될 수 있다.
이 출원의 이 실시예에서, 인코딩된 데이터가 획득된 후에, 인코딩된 데이터는 압축해제를 위하여 단말 디바이스로 전송될 수 있다. 이 경우에, 압축해제를 위한 이미지 프로세싱 디바이스는 인코딩된 데이터를 획득할 수 있고 그 데이터를 압축해제할 수 있다. 대안적으로, 압축을 위한 단말 디바이스는 인코딩된 데이터를 저장 디바이스 내에 저장할 수 있다. 인코딩된 데이터가 요구될 때, 단말 디바이스는 저장 디바이스로부터 인코딩된 데이터를 획득할 수 있고, 인코딩된 데이터를 압축해제할 수 있다.
702. 적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고, 여기서, 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임.
이 출원의 이 실시예에서, 인코딩된 데이터는 기존의 기술에서의 엔트로피 디코딩 기술을 이용함으로써 디코딩될 수 있어서, 재구성된 출력 특징(적어도 하나의 제2 특징 맵)이 획득될 수 있다. 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함한다.
이 출원의 이 실시예에서의 적어도 하나의 제2 특징 맵은 상기한 적어도 하나의 프로세싱된 제1 특징 맵과 동일할 수 있다는 것이 주목되어야 한다.
703. M개의 타깃 역 이득 값을 획득하고, 여기서, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임.
임의적으로, 실시예에서, 타깃 압축 비트 레이트가 획득될 수 있고; 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값은 타깃 맵핑 관계에 기초하여 결정될 수 있다. 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용된다. 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나; 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
이 출원의 이 실시예에서, 타깃 역 이득 값은 또한, 도 3에 대응하는 실시예에서 타깃 이득 값을 획득하는 단계에서 획득될 수 있다. 이것은 본 명세서에서 제한되지 않는다.
임의적으로, 실시예에서, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 실시예에서, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
704. M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱함.
이 출원의 이 실시예에서, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득될 수 있다. 구체적으로, 이 출원의 이 실시예에서는, M개의 제4 특징 값을 획득하기 위하여 적어도 하나의 제2 특징 맵 내의 M개의 제3 특징 값이 대응하는 역 이득 값에 의해 각각 승산되어, 이로써 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵은 M개의 제4 특징 값을 포함한다. 역 이득 프로세싱은 도 3에 대응하는 실시예에서의 이득 프로세싱과 조합되어, 이로써 정상적인 이미지 파싱(image parsing)이 보장될 수 있다.
705. 제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하고, 여기서, 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함.
이 출원의 이 실시예에서는, M개의 제4 특징 값이 획득된 후에, 제2 이미지를 획득하기 위하여 이미지 재구성이 적어도 하나의 프로세싱된 제2 특징 맵에 대해 수행될 수 있다. 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함한다. 적어도 하나의 제2 특징 맵은 파싱되고, 상기한 방식으로 제2 이미지로 재구성된다.
임의적으로, 실시예에서, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다. 이 출원의 이 실시예에서, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
이 출원의 이 실시예에서, M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속하고, 즉, 동일한 특징 값에 속하는 타깃 이득 값과 역 이득 값 사이의 구체적인 값 관계가 있다: 2개의 값의 곱은 사전설정된 범위 내에 속한다. 사전설정된 범위는 값 "1" 근처의 값 범위일 수 있고, 본 명세서에서 제한되지 않는다.
이 출원의 이 실시예는 이미지 프로세싱 방법을 제공한다. 인코딩된 데이터가 획득되고; 적어도 하나의 제2 특징 맵을 획득하기 위하여 엔트로피 디코딩이 인코딩된 데이터에 대해 수행되고, 여기서, 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수이고; M개의 타깃 역 이득 값이 획득되고, 여기서, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수이다. M개의 제4 특징 값을 획득하기 위하여, 대응하는 제3 특징 값은 M개의 역 이득 값에 기초하여 각각 프로세싱되고; 제2 이미지를 획득하기 위하여, 이미지 재구성이 적어도 하나의 프로세싱된 제2 특징 맵에 기초하여 수행되고, 여기서, 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함한다. 상기한 방식으로, 상이한 타깃 역 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
다음으로, 변분적 오토인코더(variational autoencoder, VAE)의 아키텍처는 이 출원의 실시예에서 제공된 이미지 압축 방법을 설명하기 위한 예로서 이용된다. 변분적 오토인코더는 데이터 압축 또는 잡음 감소를 위하여 이용된 오토인코더이다.
도 8은 이 출원의 실시예에 따른 이미지 압축 절차를 예시한다.
이 실시예는 동일한 시맨틱 채널에 대응하는 타깃 이득 값이 동일하고 동일한 시맨틱 채널에 대응하는 타깃 역 이득 값이 동일한 예를 이용함으로써 설명을 제공한다. 192개의 시맨틱 채널이 있고, 훈련하는 동안에 4개의 특정된 코드 포인트(4개의 압축 비트 레이트)에서 훈련이 수행될 필요가 있다. 각각의 압축 비트 레이트는 하나의 타깃 이득 벡터 및 하나의 타깃 역 이득 벡터에 대응한다. 타깃 이득 벡터
Figure pct00023
는, 압축 비트 레이트에 대응하고 그 크기가
Figure pct00024
인 벡터이다. 타깃 역 이득 벡터
Figure pct00025
는, 압축 비트 레이트에 대응하고 그 크기가
Figure pct00026
인 벡터이다. y는 인코딩 네트워크의 (적어도 하나의 제1 특징 맵을 포함하는) 출력 특징이고, 출력 특징의 크기는
Figure pct00027
이다.
Figure pct00028
는 단일 시맨틱 채널의 특징 맵의 폭 및 길이이다.
Figure pct00029
,
Figure pct00030
, 및
Figure pct00031
은 이득 프로세싱, 양자화, 엔트로피 인코딩, 엔트로피 디코딩, 및 역 이득 프로세싱 후에 획득된 각각 새로운 출력 특징이고, 크기에 있어서 모두 y와 동일하다. 이 실시예에서, VAE 방법은 기본적인 모델 프레임으로서 이용되고, 이득 유닛 및 역 이득 유닛이 추가된다. 도 8에서 도시된 바와 같이, 모델 작동은 다음의 단계일 수 있다:
801. 제1 이미지가 인코딩 네트워크에 진입한 후에 출력 특징 y를 획득함.
802. 이득 프로세싱 후에 획득된 출력 특징
Figure pct00032
를 획득하기 위하여 출력 특징 y를 대응하는 이득 벡터
Figure pct00033
에 의해 채널 대 채널로 승산함.
803. 특징
Figure pct00034
를 획득하기 위하여 출력 특징
Figure pct00035
를 양자화함.
804. 엔트로피 추정 모듈을 이용함으로써 출력 특징 내의 포인트의 확률 추정치를 획득하고, 2진 비트스트림을 획득하기 위하여, 확률 추정치를 이용함으로써 출력 특징에 대해 엔트로피 인코딩을 수행함.
805. 재구성된 출력 특징
Figure pct00036
를 획득하기 위하여, 엔트로피 디코더를 이용함으로써 2진 비트스트림에 대해 엔트로피 디코딩을 수행함.
806. 역 이득 프로세싱 후에 획득된 출력 특징
Figure pct00037
를 획득하기 위하여 출력 특징
Figure pct00038
를 대응하는 역 이득 벡터
Figure pct00039
에 의해 채널 대 채널로 승산함.
807. 출력 특징이 디코딩 네트워크에 진입한 후에, 출력 특징
Figure pct00040
을 제2 이미지로 파싱하고 재구성함.
도 9를 참조한다. 도 9에서의 좌측 도면은 멀티-스케일 구조적 유사도 인덱스 척도(multi-scale structural similarity index measure, MS-SSIM)가 평가 지시자로서 이용되는 조건 하에서, 이 실시예에서의 단일 모델에서의 레이트-왜곡 성능(비-파선 라인)과 기존의 기술에서의 VAE 방법을 이용함으로써 4개의 압축 모델을 별도로 훈련시킬 시의 레이트-왜곡 성능(파선 라인) 사이의 비교를 도시하고, 여기서, 수평 좌표는 BPP이고, 수직 좌표는 MS-SSIM이다. 도 9에서의 우측 도면은 피크 신호 대 잡음 비율(peak signal to noise ratio, PSNR)이 평가 지시자로서 이용되는 조건 하에서, 이 실시예에서의 단일 모델에서의 레이트-왜곡 성능(비-파선 라인)과 기존의 기술에서의 VAE 방법을 이용함으로써 4개의 압축 모델을 별도로 훈련시킬 시의 레이트-왜곡 성능(파선 라인) 사이의 비교를 도시하고, 여기서, 수평 좌표는 BPP이고, 수직 좌표는 PSNR이다. 이 실시예에서는, 모델 파라미터 수량이 VAE 방법의 단일 모델의 모델 파라미터 수량과 기본적으로 일치한다는 전제 하에서, 임의의 비트 레이트의 압축 효과는 평가 지시자 둘 모두에 기초하여 구현될 수 있고, 압축 효과는 VAE 방법의 멀티-모델 구현 효과보다 열악하지 않고, 모델 저장량은 N 배만큼 감소될 수 있다(N은 VAE 방법에서 본 발명의 이 실시예의 상이한 비트 레이트의 압축 효과를 구현하기 위하여 요구된 모델의 수량임)는 것이 학습될 수 있다.
도 10은 이 출원의 실시예에 따른 훈련 프로세스를 예시한다. 도 10에서 도시된 바와 같이, 이 실시예에서의 모델의 손실 함수는 다음과 같다:
Figure pct00041
, 여기서,
Figure pct00042
는, 평가 지시자에 기초하여 계산되는, 제1 이미지에 대한 제2 이미지의 왜곡 손실이고,
Figure pct00043
은 계산을 통해 엔트로피 추정 네트워크에 의해 획득된 비트 레이트 손실(또는 비트 레이트 추정치로서 지칭됨)이고,
Figure pct00044
는 왜곡 손실과 비트 레이트 추정치 사이의 절충을 조절하기 위한 라그랑주 계수(Lagrange coefficient)이다.
상이한 압축 비트 레이트와 정합하는 이득 및 역 이득 행렬
Figure pct00045
을 획득하기 위하여, 모델 훈련 프로세스는 도 10에서 도시될 수 있다: 손실 함수에서의 라그랑주 계수
Figure pct00046
는 모델 훈련 프로세스에서 연속적으로 변환되고, 대응하는 이득 및 역 이득 벡터
Figure pct00047
는 무작위적 초기화된 이득 및 역 이득 행렬
Figure pct00048
으로부터 선택되고, 인코딩 네트워크의 백 엔드(back end) 및 디코딩 네트워크의 프론트 엔드(front end)에서 각각 배치되어, 이득 및 역 이득 행렬
Figure pct00049
및 모델의 공동 최적화가 구현된다. 이러한 방식으로, 복수의 압축 비트 레이트의 압축 효과는 단일 모델에서 구현될 수 있다.
예를 들어, 4개의 압축 비트 레이트의 압축 효과는 단일 모델에서 구현될 수 있다. 훈련을 통해 획득된 4개의 이득 벡터는 대응하는 역 이득 벡터에 의해 승산된다. 상이한 압축 비트 레이트에 대응하는 타깃 이득 벡터 및 타깃 역 이득 벡터에서의 대응하는 엘리먼트의 승산 결과는 근사적으로 같아서, 이로써 다음의 관계식이 획득될 수 있다:
Figure pct00050
, 여기서,
Figure pct00051
Figure pct00052
는 각각 상이한 압축 비트 레이트에 대응하는 이득 및 역 이득 벡터 쌍이고,
Figure pct00053
는 그 엘리먼트가 모두 상수인 벡터이고,
Figure pct00054
이다.
단일 모델에서의 연속적인 비트 레이트 조절을 구현하기 위하여, 다음의 유도는 상기한 공식을 이용함으로써 이 실시예에서 수행될 수 있다:
Figure pct00055
;
Figure pct00056
; 및
Figure pct00057
Figure pct00058
, 여기서,
Figure pct00059
Figure pct00060
는 이득/역 이득 행렬에서의 2 개의 인접한 이득/역 이득 벡터이고,
Figure pct00061
은 조절 계수이다.
이 출원의 이 실시예에서, 새로운 이득 및 역 이득 벡터 쌍을 획득하기 위하여, 보간 연산은 훈련을 통해 획득된 4개의 인접한 이득 및 역 이득 벡터 쌍에 대해 수행될 수 있다.
상이한 압축 비트 레이트와 정합하는 이득 행렬
Figure pct00062
을 획득하기 위하여, 훈련 프로세스는 다음과 같다: 이 실시예에서, 손실 함수에서의 라그랑주 계수는 모델 훈련 프로세스에서 연속적으로 변환되고, 대응하는 이득 벡터
Figure pct00063
및 역 이득 벡터
Figure pct00064
는 무작위적 초기화된 이득 행렬
Figure pct00065
으로부터 선택된다. 역 이득 벡터
Figure pct00066
는 이득 벡터
Figure pct00067
의 역수(reciprocal)를 획득함으로써 생성될 수 있다. 세부사항에 대하여, 상기한 실시예에서의 단계(705)에서의 타깃 이득 값 및 타깃 역 이득 값의 선택 규칙의 설명을 참조한다. 세부사항은 본 명세서에서 설명되지 않는다.
이 출원의 이 실시예에서, 이득 벡터
Figure pct00068
및 역 이득 벡터
Figure pct00069
은 각각 인코딩 네트워크의 백 엔드 및 디코딩 네트워크의 프론트 엔드에서 배치되어, 이득 행렬
Figure pct00070
및 모델의 공동 최적화가 구현된다. 이러한 방식으로, 4개의 비트 레이트의 압축 효과는 단일 모델에서 구현될 수 있다. 세부사항에 대하여, 도 11을 참조한다. 도 11은 이 출원의 실시예에 따른 이미지 프로세싱 프로세스를 예시한다. 그 다음으로, 보간 연산은 보간 알고리즘을 이용함으로써, 훈련을 통해 획득된 4개의 인접한 이득 및 역 이득 벡터 쌍에 대해 수행되어, 이로써 비트 레이트 간격에서의 임의의 압축 효과의 새로운 이득 벡터가 획득될 수 있다.
이 실시예에서는, 모델 파라미터 수량이 단일 VAE 방법 모델의 모델 파라미터 수량과 기본적으로 일치한다는 전제 하에서, 임의의 비트 레이트의 압축 효과가 구현될 수 있고, 압축 효과는 각각의 비트 레이트에서의 독립적인 훈련의 효과보다 열악하지 않고, 모델 저장량은 N 배만큼 감소될 수 있다(N은 VAE 방법에서 본 발명의 이 실시예의 상이한 비트 레이트의 압축 효과를 구현하기 위하여 요구된 모델의 수량임).
오직 VAE가 설명을 위한 아키텍처로서 위에서 설명된다는 것이 주목되어야 한다. 실제적인 애플리케이션에서, 이미지 압축 방법은 또 다른 AI 압축 모델 아키텍처(예를 들어, 오토-인코더 오토-인코더 또는 또 다른 이미지 압축 모델)에 추가로 적용될 수 있다. 이것은 이 출원에서 제한되지 않는다.
도 12는 이 출원의 실시예에 따른 이미지 프로세싱 시스템의 시스템 아키텍처의 도면이다. 도 12에서, 이미지 프로세싱 시스템(200)은 실행 디바이스(210), 훈련 디바이스(220), 데이터베이스(230), 클라이언트 디바이스(240), 및 데이터 저장 시스템(250)을 포함한다. 실행 디바이스(210)는 계산 모듈(211)을 포함한다.
데이터베이스(230)는 제1 이미지들의 세트를 저장한다. 훈련 디바이스(220)는 제1 이미지를 프로세싱하기 위하여 이용된 타깃 모델/규칙(201)을 생성하고, 완숙된 타깃 모델/규칙(201)을 획득하기 위하여, 데이터베이스 내의 제1 이미지를 이용함으로써 타깃 모델/규칙(201)에 대해 반복적 훈련을 수행한다. 이 출원의 이 실시예는 타깃 모델/규칙(201)이 제2 인코딩/디코딩 네트워크, 및 각각의 압축 비트 레이트에 대응하는 M개의 타깃 이득 값 및 M개의 타깃 역 이득 값을 포함하는 예를 이용함으로써 설명을 제공한다.
제2 인코딩/디코딩 네트워크, 및 훈련 디바이스(220)에 의해 획득되는, 각각의 압축 비트 레이트에 대응하는 M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, VR 디바이스, 또는 모니터링 시스템과 같은 상이한 시스템 또는 디바이스에 적용될 수 있다. 실행 디바이스(210)는 데이터 저장 시스템(250) 내의 데이터, 코드 등을 호출할 수 있거나, 데이터, 명령 등을 데이터 저장 시스템(250) 내에 저장할 수 있다. 데이터 저장 시스템(250)은 실행 디바이스(210)에서 배치될 수 있거나, 데이터 저장 시스템(250)은 실행 디바이스(210)에 대한 외부 메모리일 수 있다.
계산 모듈(211)은 적어도 하나의 제1 특징 맵을 획득하기 위하여, 제2 인코딩/디코딩 네트워크를 이용함으로써, 클라이언트 디바이스(240)에 의해 수신된 제1 메시지에 대한 특징 추출을 수행할 수 있고 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -; 타깃 압축 비트 레이트를 획득할 수 있고 - 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -; M개의 제2 특징 값을 획득하기 위하여 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱할 수 있고; 인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행할 수 있다 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 -.
계산 모듈(211)은 적어도 하나의 제2 특징 맵을 획득하기 위하여, 제2 인코딩/디코딩 네트워크를 이용함으로써, 인코딩된 데이터에 대해 엔트로피 디코딩을 추가로 수행할 수 있고 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임 -; M개의 타깃 역 이득 값을 획득할 수 있고 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -; M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱할 수 있고; 제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행할 수 있다 - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 -.
이 출원의 일부 실시예에서는, 도 12를 참조한다. 실행 디바이스(210) 및 클라이언트 디바이스(240)는 독립적인 디바이스일 수 있다. I/O 인터페이스(212)는 클라이언트 디바이스(240)와 데이터를 교환하도록 실행 디바이스(210)에서 구성된다. "사용자"는 클라이언트 디바이스(240)를 이용함으로써 제1 이미지를 I/O 인터페이스(212)로 입력할 수 있고, 실행 디바이스(210)는 사용자를 위한 제2 이미지를 제공하기 위하여, I/O 인터페이스(212)를 이용함으로써 제2 이미지를 클라이언트 디바이스(240)로 반환한다.
도 12는 본 발명의 실시예에 따른 이미지 프로세싱 시스템의 아키텍처의 개략도에 불과하고, 도면에서 도시된 디바이스, 컴포넌트, 모듈 등 사이의 위치 관계는 제한을 구성하지 않는다는 것이 주목되어야 한다. 예를 들어, 이 출원의 일부 다른 실시예에서, 실행 디바이스(210)는 클라이언트 디바이스(240)에서 구성될 수 있다. 예를 들어, 클라이언트 디바이스가 이동 전화 또는 태블릿 컴퓨터일 때, 실행 디바이스(210)는, 이동 전화 또는 태블릿 컴퓨터의 호스트 중앙 프로세싱 유닛(host central processing unit)(Host CPU) 내에 있고 어레이 이미지를 프로세싱하도록 구성되는 모듈일 수 있거나, 실행 디바이스(210)는 이동 전화 또는 태블릿 컴퓨터 내의 그래픽 프로세싱 유닛(graphics processing unit, GPU) 또는 신경망 프로세싱 유닛(neural-network processing unit)(NPU)일 수 있다. GPU 또는 NPU는 코프로세서(coprocessor)로서 호스트 중앙 프로세싱 유닛 상으로 장착되고, 호스트 중앙 프로세싱 유닛은 태스크(task)를 GPU 또는 NPU에 할당한다.
상기한 설명을 참조하면, 다음은 이 출원의 실시예에서 제공된 이미지 프로세싱 방법의 훈련 국면의 구체적인 구현 절차를 설명하기 시작한다.
1. 훈련 국면
세부사항에 대하여, 도 13을 참조한다. 도 13은 이 출원의 실시예에 따른 이미지 프로세싱 방법의 개략적인 흐름도이다. 이 출원의 이 실시예에서 제공된 이미지 프로세싱 방법은 다음의 단계를 포함할 수 있다:
1301. 제1 이미지를 획득함.
1302. 적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하고, 여기서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임.
1303. 타깃 압축 비트 레이트를 획득하고, 여기서, 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임.
1304. M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱함.
1305. 인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하고, 여기서, 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함.
1306. 적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고, 여기서, 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함.
1307. M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱함.
1308. 제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하고, 여기서, 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함함.
1309. 제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득함.
1310. 제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하고, 여기서, 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함.
1311. 제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하고, 여기서, 제2 인코딩/디코딩 네트워크는 반복적 훈련이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨.
단계(1301) 내지 내지(1311)의 구체적인 설명에 대하여, 상기한 실시예에서의 설명을 참조한다. 이것은 본 명세서에서 제한되지 않는다.
임의적으로, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
임의적으로, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
임의적으로, M개의 제2 특징 값은 M개의 초기 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, M개의 제4 특징 값은 M개의 초기 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속하고, M개의 초기 이득 값의 각각 및 대응하는 초기 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
도 1 내지 도 13에 대응하는 실시예에 따르면, 이 출원의 실시예에서의 상기한 해결책을 더 양호하게 구현하기 위하여, 다음은 상기한 해결책을 구현하도록 구성된 관련된 디바이스를 추가로 제공한다. 세부사항에 대하여, 도 14를 참조한다. 도 14는 이 출원의 실시예에 따른 이미지 프로세싱 장치(1400)의 구조의 개략도이다. 이미지 프로세싱 장치(1400)는 단말 디바이스 또는 서버일 수 있고, 이미지 프로세싱 장치(1400)는,
제1 이미지를 획득하도록 구성된 획득 모듈(1401);
적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈(1402) - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈(1401)은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하도록 구성된 이득 모듈(1403); 및
인코딩된 데이터를 획득하기 위하여, 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 구성된 양자화 및 엔트로피 인코딩 모듈(1404) - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 을 포함한다.
임의적으로, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
임의적으로, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
임의적으로, 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속한다.
임의적으로, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 장치는,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 이득 값은 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, M개의 타깃 이득 값은 M개의 제1 이득 값 및 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제2 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
임의적으로, 장치는,
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈을 더 포함하고, 여기서, 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응하고;
획득 모듈은 M개의 타깃 역 이득 값을 획득하도록 추가로 구성되고, 여기서, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고;
이 장치는,
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값에 대해 이득 프로세싱을 각각 수행하도록 구성된 역 이득 모듈; 및
제2 이미지를 획득하기 위하여, 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈 - 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 을 더 포함한다.
임의적으로, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 결정 모듈은,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 추가로 구성되고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용된다.
임의적으로, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이다.
임의적으로, 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
임의적으로, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
이 출원의 이 실시예는 이미지 프로세싱 장치(1400)를 제공한다. 획득 모듈(1401)은 제1 이미지를 획득한다. 특징 추출 모듈(1402)은 적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하고, 여기서, 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이다. 획득 모듈(1401)은 타깃 압축 비트 레이트를 획득하고, 여기서, 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수이다. 이득 모듈(1403)은 M개의 제2 특징 값을 획득하기 위하여, M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 프로세싱한다. 양자화 및 엔트로피 인코딩 모듈(1404)은 인코딩된 데이터를 획득하기 위하여, 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하고, 여기서, 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함한다. 상기한 방식으로, 상이한 타깃 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
도 15는 이 출원의 실시예에 따른 이미지 프로세싱 장치(1500)의 구조의 개략도이다. 이미지 프로세싱 장치(1500)는 단말 디바이스 또는 서버일 수 있고, 이미지 프로세싱 장치(1500)는,
인코딩된 데이터를 획득하도록 구성된 획득 모듈(1501);
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈(1502) - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈(1501)은 M개의 타깃 역 이득 값을 획득하도록 추가로 구성되고, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하도록 구성된 역 이득 모듈(1503); 및
제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈(1504) - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 을 포함한다.
임의적으로, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고;
이 장치는,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
임의적으로, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
이 출원의 이 실시예는 이미지 프로세싱 장치를 제공한다. 획득 모듈(1501)은 인코딩된 데이터를 획득한다. 디코딩 모듈(1502)은 적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고, 여기서, 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수이다. 획득 모듈(1501)은 M개의 타깃 역 이득 값을 획득하고, 여기서, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수이다. 역 이득 모듈(1503)은 M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱한다. 재구성 모듈(1504)은 제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하고, 여기서, 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함한다. 상기한 방식으로, 상이한 타깃 이득 값은 상이한 타깃 압축 비트 레이트에 대하여 설정되어, 압축 비트 레이트 제어가 구현된다.
도 16은 이 출원의 실시예에 따른 이미지 프로세싱 장치(1600)의 구조의 개략도이다. 이미지 프로세싱 장치(1600)는 단말 디바이스 또는 서버일 수 있고, 이미지 프로세싱 장치(1600)는,
제1 이미지를 획득하도록 구성된 획득 모듈(1601);
적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈(1602) - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고,
획득 모듈(1601)은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고, 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하도록 구성된 이득 모듈(1603);
인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 구성된 양자화 및 엔트로피 인코딩 모듈(1604) - 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함 -;
적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈(1605) - 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하도록 구성된 역 이득 모듈(1606);
제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈(1607) - 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함하고,
획득 모듈(1601)은 제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득하도록 추가로 구성됨 -;
제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하도록 구성된 훈련 모듈(1608) - 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함 -; 및
제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하도록 구성된 출력 모듈(1609) - 제2 인코딩/디코딩 네트워크는 반복적 훈련이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨 - 을 포함한다.
임의적으로, 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵이 양자화된 후에 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련되고, N은 M 이상인 양의 정수이다.
임의적으로, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
임의적으로, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속하고, M개의 초기 이득 값의 각각 및 대응하는 초기 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
다음은 이 출원의 실시예에서 제공된 실행 디바이스를 설명한다. 도 17은 이 출원의 실시예에 따른 실행 디바이스의 구조의 개략도이다. 실행 디바이스(1700)는 가상 현실(VR) 디바이스, 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 지능형 웨어러블 디바이스, 모니터링 데이터 프로세싱 디바이스 등으로서 구체적으로 표현될 수 있다. 이것은 본 명세서에서 제한되지 않는다. 도 14 및 도 15에 대응하는 실시예에서 설명된 이미지 프로세싱 장치는 도 14 및 도 15에 대응하는 실시예에서의 이미지 프로세싱 장치의 기능을 구현하기 위하여 실행 디바이스(1700)에서 전개될 수 있다. 구체적으로, 실행 디바이스(1700)는 수신기(1701), 송신기(1702), 프로세서(1703), 및 메모리(1704)를 포함한다(실행 디바이스(1700) 내에 하나 이상의 프로세서(1703)가 있을 수 있고, 하나의 프로세서는 도 17에서 예로서 이용됨). 프로세서(1703)는 애플리케이션 프로세서(17031) 및 통신 프로세서(17032)를 포함할 수 있다. 이 출원의 일부 실시예에서, 수신기(1701), 송신기(1702), 프로세서(1703), 및 메모리(1704)는 버스를 이용함으로써 또는 또 다른 방식으로 접속될 수 있다.
메모리(1704)는 판독-전용 메모리(read-only memory) 및 랜덤 액세스 메모리(random access memory)를 포함할 수 있고, 프로세서(1703)를 위한 명령 및 데이터를 제공할 수 있다. 메모리(1704)의 일부는 비-휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 더 포함할 수 있다. 메모리(1704)는 프로세서 실행가능 동작 명령, 실행가능 모듈, 데이터 구조, 그 서브세트, 또는 그 확장 세트를 저장한다. 동작 명령은 다양한 동작을 구현하기 위한 다양한 동작 명령을 포함할 수 있다.
프로세서(1703)는 실행 디바이스의 동작을 제어한다. 구체적인 애플리케이션 동안에, 실행 디바이스의 컴포넌트는 버스 시스템을 이용함으로써 함께 결합된다. 데이터 버스에 추가적으로, 버스 시스템은 전력 버스, 제어 버스, 스테이터스 신호 버스 등을 더 포함할 수 있다. 그러나, 명확한 설명을 위하여, 도면에서의 다양한 유형의 버스가 버스 시스템으로서 표기된다.
이 출원의 상기한 실시예에서 개시된 방법은 프로세서(1703)에 적용될 수 있거나 프로세서(1703)에 의해 구현될 수 있다. 프로세서(1703)는 집적 회로 칩일 수 있고, 신호 프로세싱 능력을 가진다. 구현 프로세스에서, 상기한 방법에서의 단계는 프로세서(1703) 내의 하드웨어 집적된 논리적 회로를 이용함으로써 또는 소프트웨어 형태인 명령을 이용함으로써 구현될 수 있다. 프로세서(1703)는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 마이크로프로세서, 또는 마이크로제어기일 수 있거나; 애플리케이션-특정 집적 회로(application-specific integrated circuit, ASIC), 필드-프로그래밍가능 게이트 어레이(field-programmable gate array, FPGA) 또는 또 다른 프로그래밍가능 로직 디바이스, 개별 게이트 또는 트랜지스터 로직 디바이스, 또는 개별 하드웨어 컴포넌트를 더 포함할 수 있다. 프로세서(1703)는 이 출원의 실시예에서 개시된 방법, 단계, 및 로직 블록도를 구현할 수 있거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 기존의 프로세서 등일 수 있다. 이 출원의 실시예를 참조하여 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접적으로 수행되고 완료될 수 있거나, 디코딩 프로세서 내의 하드웨어 및 소프트웨어 모듈의 조합을 이용함으로써 수행되고 완료될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그래밍가능 판독-전용 메모리, 전기적 소거가능 프로그래밍가능 메모리, 또는 레지스터(register)와 같은, 본 기술분야에서의 완숙된 저장 매체에서 위치될 수 있다. 저장 매체는 메모리(1704)에서 위치되고, 프로세서(1703)는 메모리(1704) 내의 정보를 판독하고, 프로세서의 하드웨어와 조합하여 상기한 방법에서의 단계를 완료한다.
수신기(1701)는 입력 디지털 또는 문자 정보를 수신하고 실행 디바이스의 관련된 설정 및 기능 제어에 관련된 신호 입력을 생성하도록 구성될 수 있다. 송신기(1702)는 제1 인터페이스를 통해 디지털 또는 문자 정보를 출력하도록 구성될 수 있다. 송신기(1702)는 디스크 그룹 내의 데이터를 수정하기 위하여, 제1 인터페이스를 통해 명령을 디스크 그룹으로 전송하도록 추가로 구성될 수 있다. 송신기(1702)는 디스플레이 스크린과 같은 디스플레이 디바이스를 더 포함할 수 있다.
이 출원의 이 실시예에서, 어떤 경우에는, 프로세서(1703)가 도 9 내지 도 11에 대응하는 실시예에서의 실행 디바이스에 의해 수행된 이미지 프로세싱 방법을 수행하도록 구성된다. 구체적으로, 애플리케이션 프로세서(17031)는, 제1 이미지를 획득하고;
적어도 하나의 제1 특징 맵을 획득하기 위하여 제1 이미지에 대해 특징 추출을 수행하고 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
타깃 압축 비트 레이트를 획득하고 - 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하고;
인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 - 적어도 하나의 프로세싱된 제1 특징 맵은 M개의 제2 특징 값을 포함함 - 구성된다.
임의적으로, 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
임의적으로, 사전설정된 조건은,
더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
임의적으로, 인코딩된 데이터에 대응하는 압축 비트 레이트와 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속한다.
임의적으로, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 애플리케이션 프로세서(17031)는,
타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 이득 값을 결정하도록 추가로 구성되고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고, 여기서,
타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 이득 값은 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이거나;
타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 이득 값을 포함한다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, M개의 타깃 이득 값은 M개의 제1 이득 값 및 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 이득 값은 제1 타깃 이득 값을 포함하고, M개의 제2 이득 값은 제2 타깃 이득 값을 포함하고, M개의 타깃 이득 값은 제2 타깃 이득 값을 포함하고, 제1 타깃 이득 값, 제2 타깃 이득 값, 및 제3 타깃 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 이득 값은 제1 타깃 이득 값 및 제2 타깃 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 역 이득 값은 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, M개의 타깃 이득 값의 각각 및 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
임의적으로, 애플리케이션 프로세서(17031)는,
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -; M개의 타깃 역 이득 값을 획득하고 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응함 -; M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값에 대해 이득 프로세싱을 각각 수행하고; 제2 이미지를 획득하기 위하여, 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵에 대해 이미지 재구성을 수행하도록 - 역 이득 프로세싱 후에 획득된 적어도 하나의 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 추가로 구성된다.
임의적으로, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 애플리케이션 프로세서(17031)는 타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 추가로 구성되고, 여기서, 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용된다.
임의적으로, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이다.
임의적으로, 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
임의적으로, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
구체적으로, 애플리케이션 프로세서(17031)는,
인코딩된 데이터를 획득하고;
적어도 하나의 제2 특징 맵을 획득하기 위하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고 - 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임 -;
M개의 타깃 역 이득 값을 획득하고 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하고;
제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 - 적어도 하나의 프로세싱된 제2 특징 맵은 M개의 제4 특징 값을 포함함 - 구성된다.
임의적으로, M개의 제4 특징 값은 M개의 타깃 역 이득 값 및 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 애플리케이션 프로세서(17031)는, 타깃 압축 비트 레이트를 획득하고; 타깃 맵핑 관계에 기초하여, 타깃 압축 비트 레이트에 대응하는 M개의 타깃 역 이득 값을 결정하도록 - 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용됨 - 추가로 구성되고, 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 복수의 압축 비트 레이트와 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 타깃 압축 비트 레이트는 복수의 압축 비트 레이트 중의 하나이고, M개의 타깃 역 이득 값은 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나; 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 타깃 함수 관계의 입력이 타깃 압축 비트 레이트를 포함할 때, 타깃 함수 관계의 출력은 M개의 타깃 역 이득 값을 포함한다.
임의적으로, 제2 이미지는 타깃 객체를 포함하고, M개의 제3 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, M개의 타깃 역 이득 값은 M개의 제1 역 이득 값 및 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
임의적으로, M개의 제1 역 이득 값은 제1 타깃 역 이득 값을 포함하고, M개의 제2 역 이득 값은 제2 타깃 역 이득 값을 포함하고, M개의 타깃 역 이득 값은 제3 타깃 역 이득 값을 포함하고, 제1 타깃 역 이득 값, 제2 타깃 역 이득 값, 및 제3 타깃 역 이득 값은 M개의 제1 특징 값의 동일한 것에 대응하고, 제3 타깃 역 이득 값은 제1 타깃 역 이득 값 및 제2 타깃 역 이득 값에 대해 보간 연산을 수행함으로써 획득된다.
이 출원의 실시예는 훈련 디바이스를 추가로 제공한다. 도 18은 이 출원의 실시예에 따른 훈련 디바이스의 구조의 개략도이다. 도 16에 대응하는 실시예에서 설명된 이미지 프로세싱 장치는 도 16에 대응하는 실시예에서의 이미지 프로세싱 장치의 기능을 구현하기 위하여 훈련 디바이스(1800)에서 전개될 수 있다. 구체적으로, 훈련 디바이스(1800)는 하나 이상의 서버에 의해 구현된다. 훈련 디바이스(1800)는 상이한 구성 또는 성능으로 인해 상대적으로 큰 차이를 생성할 수 있고, 하나 이상의 중앙 프로세싱 유닛(central processing unit, CPU)(1822)(예를 들어, 하나 이상의 프로세서), 메모리(1832), 및 애플리케이션(1842) 또는 데이터(1844)를 저장하는 하나 이상의 저장 매체(1830)(예를 들어, 하나 이상의 대용량 저장 디바이스)를 포함할 수 있다. 메모리(1832) 및 저장 매체(1830)는 일시적 스토리지(storage) 또는 지속적 스토리지일 수 있다. 저장 매체(1830) 내에 저장된 프로그램은 적어도 하나의 모듈(도면에서 도시되지 않음)을 포함할 수 있고, 각각의 모듈은 훈련 디바이스를 위한 일련의 명령 동작을 포함할 수 있다. 또한, 중앙 프로세싱 유닛(1822)은 훈련 디바이스(1800)에서, 저장 매체(1830) 내의 일련의 명령 동작을 수행하기 위하여, 저장 매체(1830)와 통신하도록 배치될 수 있다.
훈련 디바이스(1800)는 하나 이상의 전력 공급부(1826), 하나 이상의 유선 또는 무선 네트워크 인터페이스(1850), 하나 이상의 입력/출력 인터페이스(1858), 및/또는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, 또는 FreeBSDTM과 같은 하나 이상의 오퍼레이팅 시스템(1841)을 더 포함할 수 있다.
이 출원의 이 실시예에서, 중앙 프로세싱 유닛(1822)은 도 16에 대응하는 실시예에서의 이미지 프로세싱 장치에 의해 수행된 이미지 프로세싱 방법을 수행하도록 구성된다. 구체적으로, 중앙 프로세싱 유닛(1822)은,
제1 이미지를 획득하고;
적어도 하나의 제1 특징 맵을 획득하기 위하여 인코딩 네트워크에 기초하여 제1 이미지에 대해 특징 추출을 수행하고 - 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
타깃 압축 비트 레이트를 획득하고 - 타깃 압축 비트 레이트는 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제1 특징 값에 대응하고, 각각의 초기 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
M개의 제2 특징 값을 획득하기 위하여, M개의 초기 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하고;
인코딩된 데이터 및 비트 레이트 손실을 획득하기 위하여, 양자화 네트워크 및 엔트로피 인코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하고 - 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵은 M개의 제2 특징 값을 포함함 -;
적어도 하나의 제2 특징 맵을 획득하기 위하여, 엔트로피 디코딩 네트워크에 기초하여 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하고 - 적어도 하나의 제2 특징 맵은 M개의 제3 특징 값을 포함하고, 각각의 제3 특징 값은 하나의 제1 특징 값에 대응함 -;
M개의 제4 특징 값을 획득하기 위하여, M개의 초기 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하고;
제2 이미지를 획득하기 위하여, 디코딩 네트워크에 기초하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하고 - 적어도 하나의 프로세싱된 특징 맵은 M개의 제4 특징 값을 포함함 -;
제1 이미지에 대한 제2 이미지의 왜곡 손실을 획득하고;
제1 이미지와 제2 이미지 사이의 이미지 왜곡 값이 제1 사전설정된 정도에 도달할 때까지, 손실 함수를 이용함으로써 제1 인코딩/디코딩 네트워크, M개의 초기 이득 값, 및 M개의 초기 역 이득 값에 대해 공동 훈련을 수행하고 - 이미지 왜곡 값은 비트 레이트 손실 및 왜곡 손실에 관련되고, 인코딩/디코딩 네트워크는 인코딩 네트워크, 양자화 네트워크, 엔트로피 인코딩 네트워크, 및 엔트로피 디코딩 네트워크를 포함함 -;
제2 인코딩/디코딩 네트워크, M개의 타깃 이득 값, 및 M개의 타깃 역 이득 값을 출력하도록 - 제2 인코딩/디코딩 네트워크는 반복적 훈련이 제1 인코딩/디코딩 네트워크에 대해 수행된 후에 획득된 모델이고, M개의 타깃 이득 값 및 M개의 타깃 역 이득 값은 반복적 훈련이 M개의 초기 이득 값 및 M개의 초기 역 이득 값에 대해 수행된 후에 획득됨 - 구성된다.
임의적으로, 이득 프로세싱 후에 획득된 적어도 하나의 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 사전설정된 조건은 타깃 압축 비트 레이트에 관련된다.
임의적으로, 사전설정된 조건은, 더 큰 타깃 압축 비트 레이트가 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함한다.
임의적으로, M개의 제2 특징 값은 M개의 타깃 이득 값 및 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득된다.
임의적으로, 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수이다.
임의적으로, 제1 이미지는 타깃 객체를 포함하고, M개의 제1 특징 값은, 적어도 하나의 특징 맵 내에 있고 타깃 객체에 대응하는 특징 값이다.
임의적으로, M개의 타깃 이득 값의 각각 및 대응하는 타깃 역 이득 값의 곱은 사전설정된 범위 내에 속하고, M개의 초기 이득 값의 각각 및 대응하는 초기 역 이득 값의 곱은 사전설정된 범위 내에 속한다.
이 출원의 실시예는 컴퓨터 프로그램 제품을 추가로 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 작동될 때, 컴퓨터는 도 17에서 도시된 상기한 실시예에서 설명된 방법에서 실행 디바이스에 의해 수행된 단계를 수행하는 것이 가능하게 되거나, 컴퓨터는 도 18에서 도시된 상기한 실시예에서 설명된 방법에서 훈련 디바이스에 의해 수행된 단계를 수행하는 것이 가능하게 된다.
이 출원의 실시예는 컴퓨터-판독가능 저장 매체를 추가로 제공한다. 컴퓨터-판독가능 저장 매체는 신호 프로세싱을 수행하기 위하여 이용된 프로그램을 저장한다. 프로그램이 컴퓨터 상에서 작동될 때, 컴퓨터는 도 17에서 도시된 상기한 실시예에서 설명된 방법에서 실행 디바이스에 의해 수행된 단계를 수행하는 것이 가능하게 되거나, 컴퓨터는 도 18에서 도시된 상기한 실시예에서 설명된 방법에서 훈련 디바이스에 의해 수행된 단계를 수행하는 것이 가능하게 된다.
이 출원의 실시예에서 제공된 실행 디바이스, 훈련 디바이스, 또는 단말 디바이스는 구체적으로 칩일 수 있다. 칩은 프로세싱 유닛 및 통신 유닛을 포함한다. 프로세싱 유닛은 예를 들어, 프로세서일 수 있다. 통신 유닛은 예를 들어, 입력/출력 인터페이스, 핀(pin), 또는 회로일 수 있다. 프로세싱 유닛은 실행 디바이스 내의 칩이 도 3 내지 도 7에서 도시된 실시예에서 설명된 이미지 프로세싱 방법을 수행하는 것을 가능하게 하거나, 훈련 디바이스 내의 칩이 도 13에서 도시된 실시예에서 설명된 이미지 프로세싱 방법을 수행하는 것을 가능하게 하기 위하여, 저장 유닛 내에 저장된 컴퓨터-실행가능 명령을 실행할 수 있다. 임의적으로, 저장 유닛은 칩 내의 저장 유닛, 예를 들어, 레지스터 또는 캐시(cache)이다. 저장 유닛은 대안적으로, 무선 액세스 디바이스 종단 내의 칩 외부에 위치된 저장 유닛, 예를 들어, 정적 정보 및 명령을 저장할 수 있는 판독-전용 메모리(read-only memory, ROM) 또는 또 다른 유형의 정적 저장 디바이스, 또는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
세부사항에 대하여, 도 19를 참조한다. 도 19는 이 출원의 실시예에 따른 칩의 구조의 개략도이다. 칩은 신경망 프로세싱 유닛(NPU)(2000)로서 표현될 수 있다. NPU(2000)는 코프로세서로서 호스트 CPU(Host CPU) 상으로 장착되고, 호스트 CPU는 태스크를 NPU에 할당한다. NPU의 핵심 부분은 연산 회로(2003)이고, 연산 회로(2003)는 제어기(2004)를 이용함으로써, 메모리로부터 행렬 데이터를 추출하고 승산 연산을 수행하도록 제어된다.
일부 구현예에서, 연산 회로(2003)는 복수의 프로세스 엔진(Process Engine, PE)을 포함한다. 일부 구현예에서, 연산 회로(2003)는 2 차원 시스톨릭 어레이(systolic array)이다. 연산 회로(2003)는 대안적으로, 승산 및 가산과 같은 수학적 연산을 수행할 수 있는 1 차원 시스톨릭 어레이 또는 또 다른 전자 회로일 수 있다. 일부 구현예에서, 연산 회로(2003)는 범용 행렬 프로세서(general-purpose matrix processor)이다.
예를 들어, 입력 행렬 A, 가중치 행렬 B, 및 출력 행렬 C가 있는 것으로 가정된다. 연산 회로는 가중치 메모리(2002)로부터 행렬 B의 대응하는 데이터를 페치(fetch)하고, 연산 회로 내의 각각의 PE 상에서 데이터를 버퍼링한다. 연산 회로는 입력 메모리(2001)로부터 행렬 A의 데이터를 획득하고, 데이터 및 행렬 B에 대해 행렬 연산을 수행하고, 획득된 부분적인 결과 또는 행렬의 최종적인 결과를 누산기(accumulator)(2008) 내에 저장한다.
통합된 메모리(2006)는 입력 데이터 및 출력 데이터를 저장하도록 구성된다. 가중치 데이터는 직접 메모리 액세스 제어기(Direct Memory Access Controller, DMAC)(2005)를 이용함으로써 가중치 메모리(2002)로 직접적으로 전송된다. 입력 데이터는 또한, DMAC를 이용함으로써 통합된 메모리(2006)로 전송된다.
BIU는 AXI 버스를 이용함으로써 DMAC 및 명령 페치 버퍼(Instruction Fetch Buffer, IFB)(2009)와 상호작용하도록 구성된 버스 인터페이스 유닛(Bus Interface Unit), 즉, 버스 인터페이스 유닛(2010)이다.
버스 인터페이스 유닛(2010)(Bus Interface Unit, 줄여서 BIU)은 명령 페치 버퍼(2009)가 외부 메모리로부터 명령을 획득하도록 구성되고, 직접 메모리 액세스 제어기(2005)가 외부 메모리로부터 입력 행렬 A 또는 가중치 행렬 B의 원시 데이터(raw data)를 획득하도록 추가로 구성된다.
DMAC는, 외부 메모리 DDR 내의 입력 데이터를 통합된 메모리(2006)로 전송하거나, 가중치 데이터를 가중치 메모리(2002)로 전송하거나, 입력 데이터를 입력 메모리(2001)로 전송하도록 주로 구성된다.
벡터 계산 유닛(2007)은 복수의 연산 프로세싱 유닛을 포함한다. 추가의 프로세싱이 필요할 때, 벡터 승산(vector multiplication), 벡터 가산(vector addition), 지수 연산(exponential operation), 로그 연산(logarithmic operation), 또는 값 비교와 같은 추가의 프로세싱은 연산 회로의 출력에 대해 수행된다. 벡터 계산 유닛(2007)은 신경망 내의 비-컨볼루션/완전-접속된 계층 상에서, 특징 평면의 배치 정규화(batch normalization), 픽셀-레벨 합산(pixel-level summation), 및 업샘플링(upsampling)과 같은 네트워크 컴퓨팅(network computing)을 수행하도록 주로 구성된다.
일부 구현예에서, 벡터 계산 유닛(2007)은 프로세싱된 출력 벡터를 통합된 메모리(2006) 내에 저장할 수 있다. 예를 들어, 벡터 계산 유닛(2007)은 선형 함수 및/또는 비-선형 함수를 연산 회로(2003)의 출력에 적용할 수 있고, 예를 들어, 컨볼루션 계층에서 추출된 특징 평면에 대해 선형 보간을 수행할 수 있다. 또 다른 예에 대하여, 선형 함수 및/또는 비-선형 함수는 활성화 값을 생성하기 위하여 누산된 값의 벡터에 적용된다. 일부 구현예에서, 벡터 계산 유닛(2007)은 정규화된 값, 픽셀-레벨 합, 또는 정규화된 값 및 픽셀-레벨 합을 생성한다. 일부 구현예에서, 프로세싱된 출력 벡터는 연산 회로(2003)에 대한 활성화된 입력으로서 이용될 수 있고, 예를 들어, 프로세싱된 출력 벡터는 신경망의 후속 계층에서 이용될 수 있다.
제어기(2004)에 접속된 명령 페치 버퍼(instruction fetch buffer)(2009)는 제어기(2004)에 의해 이용된 명령을 저장하도록 구성된다.
통합된 메모리(2006), 입력 메모리(2001), 가중치 메모리(2002), 및 명령 페치 버퍼(2009)는 모두 온-칩(on-chip) 메모리이다. 외부 메모리는 NPU의 하드웨어 아키텍처에 전용이다.
위의 어딘가에서 언급된 프로세서는 제1 측면에 따른 방법의 프로그램 실행을 제어하도록 구성된 범용 중앙 프로세싱 유닛, 마이크로프로세서, ASIC, 또는 하나 이상의 집적 회로일 수 있다.
추가적으로, 설명된 장치 실시예는 단지 예인 것이 주목되어야 한다. 별도의 부분으로서 설명된 유닛은 물리적으로 별도이거나 그렇지 않을 수 있고, 유닛으로서 디스플레이된 부분은 물리적 유닛이거나 그렇지 않을 수 있고, 하나의 위치에서 위치될 수 있거나, 복수의 네트워크 유닛 상에서 분산될 수 있다. 일부 또는 전부의 모듈은 실시예의 해결책의 목적을 달성하기 위하여 실제적인 요건에 따라 선택될 수 있다. 추가적으로, 이 출원에서 제공된 장치 실시예의 첨부 도면에서, 모듈 사이의 접속 관계는 모듈이 서로와의 통신 접속을 가지다는 것을 지시하고, 이것은 구체적으로, 하나 이상의 통신 버스 또는 신호 케이블로서 구현될 수 있다.
상기한 구현예의 설명에 기초하여, 본 기술분야에서의 통상의 기술자는 이 출원이 필요한 보편적인 하드웨어에 추가적으로 소프트웨어에 의해 구현될 수 있거나, 애플리케이션-특정 집적 회로, 전용 CPU, 전용 메모리, 전용 컴포넌트 등을 포함하는 전용 하드웨어에 의해 확실히 구현될 수 있다는 것을 명확하게 이해할 수 있다. 일반적으로, 컴퓨터 프로그램에 의해 수행될 수 있는 임의의 기능은 대응하는 하드웨어를 이용함으로써 용이하게 구현될 수 있고, 동일한 기능을 달성하기 위하여 이용된 구체적인 하드웨어 구조는 다양한 형태, 예를 들어, 아날로그 회로, 디지털 회로, 또는 전용 회로의 형태일 수 있다. 그러나, 이 출원에서, 소프트웨어 프로그램 구현예는 대부분의 경우에 더 양호한 구현예이다. 이러한 이해에 기초하여, 필수적으로 이 출원의 기술적 해결책, 또는 기존의 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 컴퓨터의 플로피 디스크, USB 플래시 드라이브, 분리가능한 하드 디스크, ROM, RAM, 자기 디스크, 또는 광학 디스크와 같은 판독가능 저장 매체 내에 저장되고, 이 출원의 실시예에서 설명된 방법을 수행하도록 (개인용 컴퓨터, 훈련 디바이스, 또는 네트워크 디바이스일 수 있는) 컴퓨터 디바이스에 명령하기 위한 몇몇 명령을 포함한다.
상기한 실시예의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 그 임의의 조합을 이용함으로써 구현될 수 있다. 소프트웨어가 실시예를 구현하기 위하여 이용될 때, 실시예의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령을 포함한다. 컴퓨터 프로그램 명령이 컴퓨터 상에서 로딩되고 실행될 때, 이 출원의 실시예에 따른 절차 또는 기능의 전부 또는 일부가 생성된다. 컴퓨터는 범용 컴퓨터, 특수-목적 컴퓨터, 컴퓨터 네트워크, 또는 또 다른 프로그래밍가능 장치일 수 있다. 컴퓨터 명령은 컴퓨터-판독가능 저장 매체 내에 저장될 수 있거나, 컴퓨터-판독가능 저장 매체로부터 또 다른 컴퓨터-판독가능 저장 매체로 송신될 수 있다. 예를 들어, 컴퓨터 명령은 유선(예를 들어, 동축 케이블, 광섬유, 또는 디지털 가입자 선로(digital subscriber line)(DSL)) 또는 무선(예를 들어, 적외선, 무선(radio), 또는 마이크로파) 방식으로 웹사이트, 컴퓨터, 훈련 디바이스, 또는 데이터 센터로부터 또 다른 웹사이트, 컴퓨터, 훈련 디바이스, 또는 데이터 센터로 송신될 수 있다. 컴퓨터-판독가능 저장 매체는 하나 이상의 이용가능 매체를 통합하는 컴퓨터 또는 데이터 저장 디바이스, 예를 들어, 훈련 디바이스 또는 데이터 센터에 의해 액세스가능한 임의의 이용가능 매체일 수 있다. 이용가능 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 또는 자기 테이프), 광학 매체(예를 들어, DVD), 반도체 매체(예를 들어, 솔리드-스테이트 디스크(Solid State Disk, SSD)) 등일 수 있다.

Claims (33)

  1. 이미지 프로세싱 방법으로서,
    제1 이미지를 획득하는 단계;
    적어도 하나의 제1 특징 맵을 획득하기 위하여 상기 제1 이미지에 대해 특징 추출을 수행하는 단계 - 상기 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수임 -;
    타깃 압축 비트 레이트를 획득하는 단계 - 상기 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
    M개의 제2 특징 값을 획득하기 위하여 상기 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하는 단계; 및
    인코딩된 데이터를 획득하기 위하여 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하는 단계 - 상기 적어도 하나의 프로세싱된 제1 특징 맵은 상기 M개의 제2 특징 값을 포함함 -
    를 포함하는 이미지 프로세싱 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 상기 사전설정된 조건은 상기 타깃 압축 비트 레이트에 관련되는, 이미지 프로세싱 방법.
  3. 제2항에 있어서,
    상기 사전설정된 조건은,
    더 큰 타깃 압축 비트 레이트가 상기 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함하는, 이미지 프로세싱 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 인코딩된 데이터에 대응하는 압축 비트 레이트와 상기 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속하는, 이미지 프로세싱 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 M개의 제2 특징 값은 상기 M개의 타깃 이득 값 및 상기 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득되는, 이미지 프로세싱 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 상기 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, 상기 P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수인, 이미지 프로세싱 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 이미지 프로세싱 방법은,
    타깃 맵핑 관계에 기초하여, 상기 타깃 압축 비트 레이트에 대응하는 상기 M개의 타깃 이득 값을 결정하는 단계를 더 포함하고, 상기 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고,
    상기 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 상기 복수의 압축 비트 레이트와 상기 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 상기 타깃 압축 비트 레이트는 상기 복수의 압축 비트 레이트 중의 하나이고, 상기 M개의 타깃 이득 값은 상기 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이거나;
    상기 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 상기 타깃 함수 관계의 입력이 상기 타깃 압축 비트 레이트를 포함할 때, 상기 타깃 함수 관계의 출력은 상기 M개의 타깃 이득 값을 포함하는, 이미지 프로세싱 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 상기 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 상기 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, 상기 M개의 타깃 이득 값은 상기 M개의 제1 이득 값 및 상기 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득되는, 이미지 프로세싱 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제1 이미지는 타깃 객체를 포함하고, 상기 M개의 제1 특징 값은, 상기 적어도 하나의 특징 맵 내에 있고 상기 타깃 객체에 대응하는 특징 값인, 이미지 프로세싱 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 상기 역 이득 값은 상기 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, 상기 M개의 타깃 이득 값의 각각 및 상기 대응하는 역 이득 값의 곱(product)은 사전설정된 범위 내에 속하는, 이미지 프로세싱 방법.
  11. 이미지 프로세싱 방법으로서,
    인코딩된 데이터를 획득하는 단계;
    적어도 하나의 제2 특징 맵을 획득하기 위하여 상기 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하는 단계 - 상기 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수임 -;
    M개의 타깃 역 이득 값을 획득하는 단계 - 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
    M개의 제4 특징 값을 획득하기 위하여, 상기 M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하는 단계; 및
    제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하는 단계 - 상기 적어도 하나의 프로세싱된 제2 특징 맵은 상기 M개의 제4 특징 값을 포함함 -
    를 포함하는 이미지 프로세싱 방법.
  12. 제11항에 있어서,
    상기 M개의 제4 특징 값은 상기 M개의 타깃 역 이득 값 및 상기 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득되는, 이미지 프로세싱 방법.
  13. 제11항 또는 제12항에 있어서,
    상기 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 상기 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, 상기 P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수인, 이미지 프로세싱 방법.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서,
    상기 이미지 프로세싱 방법은,
    타깃 압축 비트 레이트를 획득하는 단계; 및
    타깃 맵핑 관계에 기초하여, 상기 타깃 압축 비트 레이트에 대응하는 상기 M개의 타깃 역 이득 값을 결정하는 단계
    를 더 포함하고, 상기 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용되고,
    상기 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 상기 복수의 압축 비트 레이트와 상기 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 상기 타깃 압축 비트 레이트는 상기 복수의 압축 비트 레이트 중의 하나이고, 상기 M개의 타깃 역 이득 값은 상기 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나;
    상기 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 상기 타깃 함수 관계의 입력이 상기 타깃 압축 비트 레이트를 포함할 때, 상기 타깃 함수 관계의 출력은 상기 M개의 타깃 역 이득 값을 포함하는, 이미지 프로세싱 방법.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 제2 이미지는 타깃 객체를 포함하고, 상기 M개의 제3 특징 값은, 상기 적어도 하나의 특징 맵 내에 있고 상기 타깃 객체에 대응하는 특징 값인, 이미지 프로세싱 방법.
  16. 제11항 내지 제15항 중 어느 한 항에 있어서,
    상기 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 상기 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 상기 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, 상기 M개의 타깃 역 이득 값은 상기 M개의 제1 역 이득 값 및 상기 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득되는, 이미지 프로세싱 방법.
  17. 이미지 프로세싱 장치로서,
    제1 이미지를 획득하도록 구성된 획득 모듈;
    적어도 하나의 제1 특징 맵을 획득하기 위하여 상기 제1 이미지에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈 - 상기 적어도 하나의 제1 특징 맵은 N개의 제1 특징 값을 포함하고, N은 양의 정수이고,
    상기 획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고, 상기 타깃 압축 비트 레이트는 M개의 타깃 이득 값에 대응하고, 각각의 타깃 이득 값은 하나의 제1 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
    M개의 제2 특징 값을 획득하기 위하여, 상기 M개의 타깃 이득 값에 기초하여 대응하는 제1 특징 값을 각각 프로세싱하도록 구성된 이득 모듈; 및
    인코딩된 데이터를 획득하기 위하여, 적어도 하나의 프로세싱된 제1 특징 맵에 대해 양자화 및 엔트로피 인코딩을 수행하도록 구성된 양자화 및 엔트로피 인코딩 모듈 - 상기 적어도 하나의 프로세싱된 제1 특징 맵은 상기 M개의 제2 특징 값을 포함함 -
    을 포함하는 이미지 프로세싱 장치.
  18. 제17항에 있어서,
    상기 적어도 하나의 프로세싱된 제1 특징 맵을 양자화함으로써 획득된 양자화된 데이터의 정보 엔트로피는 사전설정된 조건을 충족시키고, 상기 사전설정된 조건은 상기 타깃 압축 비트 레이트에 관련되는, 이미지 프로세싱 장치.
  19. 제18항에 있어서,
    상기 사전설정된 조건은,
    더 큰 타깃 압축 비트 레이트가 상기 양자화된 데이터의 더 큰 정보 엔트로피를 지시한다는 것을 적어도 포함하는, 이미지 프로세싱 장치.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 인코딩된 데이터에 대응하는 압축 비트 레이트와 상기 타깃 압축 비트 레이트 사이의 차이는 사전설정된 범위 내에 속하는, 이미지 프로세싱 장치.
  21. 제17항 내지 제20항 중 어느 한 항에 있어서,
    상기 M개의 제2 특징 값은 상기 M개의 타깃 이득 값 및 상기 대응하는 제1 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득되는, 이미지 프로세싱 장치.
  22. 제17항 내지 제21항 중 어느 한 항에 있어서,
    상기 적어도 하나의 제1 특징 맵은 제1 타깃 특징 맵을 포함하고, 상기 제1 타깃 특징 맵은 P개의 제1 특징 값을 포함하고, 상기 P개의 제1 특징 값의 전부는 동일한 타깃 이득 값에 대응하고, P는 M 이하인 양의 정수인, 이미지 프로세싱 장치.
  23. 제17항 내지 제22항 중 어느 한 항에 있어서,
    상기 이미지 프로세싱 장치는,
    타깃 맵핑 관계에 기초하여, 상기 타깃 압축 비트 레이트에 대응하는 상기 M개의 타깃 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 상기 타깃 맵핑 관계는 압축 비트 레이트와 M개의 타깃 이득 값 사이의 연관성 관계를 지시하기 위하여 이용되고,
    상기 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 이득 벡터, 및 상기 복수의 압축 비트 레이트와 상기 복수의 이득 벡터 사이의 연관성 관계를 포함하고, 상기 타깃 압축 비트 레이트는 상기 복수의 압축 비트 레이트 중의 하나이고, 상기 M개의 타깃 이득 값은 상기 복수의 이득 벡터 중의 하나의 이득 벡터의 엘리먼트이거나;
    상기 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 상기 타깃 함수 관계의 입력이 상기 타깃 압축 비트 레이트를 포함할 때, 상기 타깃 함수 관계의 출력은 상기 M개의 타깃 이득 값을 포함하는, 이미지 프로세싱 장치.
  24. 제17항 내지 제23항 중 어느 한 항에 있어서,
    상기 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 상기 제1 압축 비트 레이트는 M개의 제1 이득 값에 대응하고, 상기 제2 압축 비트 레이트는 M개의 제2 이득 값에 대응하고, 상기 M개의 타깃 이득 값은 상기 M개의 제1 이득 값 및 상기 M개의 제2 이득 값에 대해 보간 연산을 수행함으로써 획득되는, 이미지 프로세싱 장치.
  25. 제17항 내지 제24항 중 어느 한 항에 있어서,
    상기 제1 이미지는 타깃 객체를 포함하고, 상기 M개의 제1 특징 값은, 상기 적어도 하나의 특징 맵 내에 있고 상기 타깃 객체에 대응하는 특징 값인, 이미지 프로세싱 장치.
  26. 제17항 내지 제25항 중 어느 한 항에 있어서,
    상기 M개의 타깃 이득 값의 각각은 하나의 역 이득 값에 대응하고, 상기 역 이득 값은 상기 인코딩된 데이터의 디코딩 프로세스에서 획득된 특징 값을 프로세싱하기 위하여 이용되고, 상기 M개의 타깃 이득 값의 각각 및 상기 대응하는 역 이득 값의 곱은 사전설정된 범위 내에 속하는, 이미지 프로세싱 장치.
  27. 이미지 프로세싱 장치로서,
    인코딩된 데이터를 획득하도록 구성된 획득 모듈;
    적어도 하나의 제2 특징 맵을 획득하기 위하여 상기 인코딩된 데이터에 대해 엔트로피 디코딩을 수행하도록 구성된 디코딩 모듈 - 상기 적어도 하나의 제2 특징 맵은 N개의 제3 특징 값을 포함하고, N은 양의 정수이고,
    상기 획득 모듈은 M개의 타깃 역 이득 값을 획득하도록 추가로 구성되고, 각각의 타깃 역 이득 값은 하나의 제3 특징 값에 대응하고, M은 N 이하인 양의 정수임 -;
    M개의 제4 특징 값을 획득하기 위하여, 상기 M개의 타깃 역 이득 값에 기초하여 대응하는 제3 특징 값을 각각 프로세싱하도록 구성된 역 이득 모듈; 및
    제2 이미지를 획득하기 위하여 적어도 하나의 프로세싱된 제2 특징 맵에 대해 이미지 재구성을 수행하도록 구성된 재구성 모듈 - 상기 적어도 하나의 프로세싱된 제2 특징 맵은 상기 M개의 제4 특징 값을 포함함 -
    을 포함하는 이미지 프로세싱 장치.
  28. 제27항에 있어서,
    상기 M개의 제4 특징 값은 상기 M개의 타깃 역 이득 값 및 상기 대응하는 제3 특징 값에 대해 승산 연산을 별도로 수행함으로써 획득되는, 이미지 프로세싱 장치.
  29. 제27항 또는 제28항에 있어서,
    상기 적어도 하나의 제2 특징 맵은 제2 타깃 특징 맵을 포함하고, 상기 제2 타깃 특징 맵은 P개의 제3 특징 값을 포함하고, 상기 P개의 제3 특징 값의 전부는 동일한 타깃 역 이득 값에 대응하고, P는 M 이하인 양의 정수인, 이미지 프로세싱 장치.
  30. 제27항 내지 제29항 중 어느 한 항에 있어서,
    상기 획득 모듈은 타깃 압축 비트 레이트를 획득하도록 추가로 구성되고;
    상기 이미지 프로세싱 장치는,
    타깃 맵핑 관계에 기초하여, 상기 타깃 압축 비트 레이트에 대응하는 상기 M개의 타깃 역 이득 값을 결정하도록 구성된 결정 모듈을 더 포함하고, 상기 타깃 맵핑 관계는 압축 비트 레이트와 역 이득 벡터 사이의 연관성 관계를 지시하기 위하여 이용되고,
    상기 타깃 맵핑 관계는 복수의 압축 비트 레이트, 복수의 역 이득 벡터, 및 상기 복수의 압축 비트 레이트와 상기 복수의 역 이득 벡터 사이의 연관성 관계를 포함하고, 상기 타깃 압축 비트 레이트는 상기 복수의 압축 비트 레이트 중의 하나이고, 상기 M개의 타깃 역 이득 값은 상기 복수의 역 이득 벡터 중의 하나의 역 이득 벡터의 엘리먼트이거나;
    상기 타깃 맵핑 관계는 타깃 함수 맵핑 관계를 포함하고, 상기 타깃 함수 관계의 입력이 상기 타깃 압축 비트 레이트를 포함할 때, 상기 타깃 함수 관계의 출력은 상기 M개의 타깃 역 이득 값을 포함하는, 이미지 프로세싱 장치.
  31. 제27항 내지 제30항 중 어느 한 항에 있어서,
    상기 제2 이미지는 타깃 객체를 포함하고, 상기 M개의 제3 특징 값은, 상기 적어도 하나의 특징 맵 내에 있고 상기 타깃 객체에 대응하는 특징 값인, 이미지 프로세싱 장치.
  32. 제27항 내지 제31항 중 어느 한 항에 있어서,
    상기 타깃 압축 비트 레이트는 제1 압축 비트 레이트 초과이며 제2 압축 비트 레이트 미만이고, 상기 제1 압축 비트 레이트는 M개의 제1 역 이득 값에 대응하고, 상기 제2 압축 비트 레이트는 M개의 제2 역 이득 값에 대응하고, 상기 M개의 타깃 역 이득 값은 상기 M개의 제1 역 이득 값 및 상기 M개의 제2 역 이득 값에 대해 보간 연산을 수행함으로써 획득되는, 이미지 프로세싱 장치.
  33. 서로 결합되는 비-휘발성 메모리 및 프로세서를 포함하는 이미지 프로세싱 디바이스로서,
    상기 프로세서는 제1항 내지 제16항 중 어느 한 항에 따른 상기 이미지 프로세싱 방법을 수행하기 위하여, 상기 메모리 내에 저장된 프로그램 코드를 호출하는, 이미지 프로세싱 디바이스.
KR1020227030515A 2020-02-07 2021-02-05 이미지 프로세싱 방법 및 관련된 디바이스 KR20220137076A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010082808.4 2020-02-07
CN202010082808.4A CN113259665B (zh) 2020-02-07 2020-02-07 一种图像处理方法以及相关设备
PCT/CN2021/075405 WO2021155832A1 (zh) 2020-02-07 2021-02-05 一种图像处理方法以及相关设备

Publications (1)

Publication Number Publication Date
KR20220137076A true KR20220137076A (ko) 2022-10-11

Family

ID=77200542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227030515A KR20220137076A (ko) 2020-02-07 2021-02-05 이미지 프로세싱 방법 및 관련된 디바이스

Country Status (10)

Country Link
US (1) US20220375133A1 (ko)
EP (1) EP4090022A4 (ko)
JP (1) JP2023512570A (ko)
KR (1) KR20220137076A (ko)
CN (2) CN113259665B (ko)
AU (1) AU2021215764A1 (ko)
BR (1) BR112022015510A2 (ko)
CA (1) CA3167227A1 (ko)
MX (1) MX2022009686A (ko)
WO (1) WO2021155832A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111988629B (zh) 2019-05-22 2024-02-09 富士通株式会社 图像编码装置和图像解码装置
CN113840145B (zh) * 2021-09-23 2023-06-09 鹏城实验室 一种面向人眼观看和视觉分析联合优化的图像压缩方法
CN115913245A (zh) * 2021-09-30 2023-04-04 华为技术有限公司 数据编码方法、数据解码方法以及数据处理装置
CN114051082B (zh) * 2021-10-19 2023-10-27 河南师范大学 基于失真度和信息增益比的隐写检测特征选取方法及装置
CN113822955B (zh) * 2021-11-18 2022-02-22 腾讯医疗健康(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN116778003A (zh) * 2022-03-10 2023-09-19 华为技术有限公司 一种特征图编码、特征图解码方法及装置
CN114630125B (zh) * 2022-03-23 2023-10-27 徐州百事利电动车业有限公司 基于人工智能与大数据的车辆图像压缩方法与系统
CN114944945A (zh) * 2022-05-09 2022-08-26 江苏易安联网络技术有限公司 一种基于变分自编码器和属性的动态访问控制方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903271B (zh) * 2014-04-11 2017-01-18 北京航空航天大学 一种针对自然图像和基于dwt压缩篡改图像的图像的取证方法
ITUB20153912A1 (it) * 2015-09-25 2017-03-25 Sisvel Tech S R L Metodi e apparati per codificare e decodificare immagini digitali mediante superpixel
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
CN109996066A (zh) * 2017-12-29 2019-07-09 富士通株式会社 图像编码装置,图像解码装置和电子设备
US11257254B2 (en) * 2018-07-20 2022-02-22 Google Llc Data compression using conditional entropy models
CN110225342B (zh) * 2019-04-10 2021-03-09 中国科学技术大学 基于语义失真度量的视频编码的比特分配系统及方法
CN110222717B (zh) * 2019-05-09 2022-01-14 华为技术有限公司 图像处理方法和装置
CN110163370B (zh) * 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
CN110222758B (zh) * 2019-05-31 2024-04-23 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
WO2022155245A1 (en) * 2021-01-12 2022-07-21 Qualcomm Incorporated Variable bit rate compression using neural network models
US11943460B2 (en) * 2021-01-12 2024-03-26 Qualcomm Incorporated Variable bit rate compression using neural network models

Also Published As

Publication number Publication date
BR112022015510A2 (pt) 2022-09-27
AU2021215764A1 (en) 2022-09-15
JP2023512570A (ja) 2023-03-27
CN113259665B (zh) 2022-08-09
CN115088257A (zh) 2022-09-20
US20220375133A1 (en) 2022-11-24
MX2022009686A (es) 2022-11-16
EP4090022A1 (en) 2022-11-16
WO2021155832A1 (zh) 2021-08-12
CA3167227A1 (en) 2021-08-12
CN113259665A (zh) 2021-08-13
EP4090022A4 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
KR20220137076A (ko) 이미지 프로세싱 방법 및 관련된 디바이스
US20210125070A1 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
WO2022116856A1 (zh) 一种模型结构、模型训练方法、图像增强方法及设备
WO2022021938A1 (zh) 图像处理方法与装置、神经网络训练的方法与装置
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
US20230177646A1 (en) Image processing method and apparatus
EP4283876A1 (en) Data coding method and related device
WO2021227787A1 (zh) 训练神经网络预测器的方法、图像处理方法及装置
WO2022028197A1 (zh) 一种图像处理方法及其设备
CN115081588A (zh) 一种神经网络参数量化方法和装置
WO2022088063A1 (zh) 神经网络模型的量化方法和装置、数据处理的方法和装置
WO2023207836A1 (zh) 一种图像编码方法、图像解压方法以及装置
CN113066018A (zh) 一种图像增强方法及相关装置
WO2022022176A1 (zh) 一种图像处理方法以及相关设备
WO2023174256A1 (zh) 一种数据压缩方法以及相关设备
TWI826160B (zh) 圖像編解碼方法和裝置
WO2022100140A1 (zh) 一种压缩编码、解压缩方法以及装置
CN115409697A (zh) 一种图像处理方法及相关装置
WO2022001364A1 (zh) 一种提取数据特征的方法和相关装置
WO2021189321A1 (zh) 一种图像处理方法和装置
US20240078414A1 (en) Parallelized context modelling using information shared between patches
CN114693811A (zh) 一种图像处理方法以及相关设备

Legal Events

Date Code Title Description
A201 Request for examination