KR20200138079A - 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 - Google Patents

전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 Download PDF

Info

Publication number
KR20200138079A
KR20200138079A KR1020200065289A KR20200065289A KR20200138079A KR 20200138079 A KR20200138079 A KR 20200138079A KR 1020200065289 A KR1020200065289 A KR 1020200065289A KR 20200065289 A KR20200065289 A KR 20200065289A KR 20200138079 A KR20200138079 A KR 20200138079A
Authority
KR
South Korea
Prior art keywords
image
entropy
context
padding
model
Prior art date
Application number
KR1020200065289A
Other languages
English (en)
Inventor
이주영
조승현
고현석
권형진
김연희
김종호
정세윤
김휘용
최진수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US17/615,519 priority Critical patent/US20220277491A1/en
Priority to PCT/KR2020/007039 priority patent/WO2020242260A1/ko
Publication of KR20200138079A publication Critical patent/KR20200138079A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 가 제공된다. 개시되는 이미지 압축 네트워크는 엔드-투-엔드 조인트 학습 스킴에 대하여 기존의 이미지 품질 향상 네트워크를 채용한다. 이미지 압축 네트워크는 이미지 압측 및 품질 향상을 조인트로 최적화할 수 있다. 이미지 압축 네트워크들 및 이미지 향상 네트워크들은 총 손실를 최소화하는 통합된 아키텍처 내에서 용이하게 조합될 수 있고, 용이하게 조인트되어 최적화될 수 있다.

Description

전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치{METHOD AND APPARATUS FOR IMAGE COMPRESSING BASED ON MACHINE-LEARNING USING GLOBAL CONTEXT}
아래의 실시예들은 비디오의 복호화 방법, 복호화 장치, 부호화 방법 및 부호화 장치에 관한 것으로서, 전역적 문맥을 이용하는 기계 학습에 기반하여 이미지에 대한 압축을 제공하는 복호화 방법, 복호화 장치, 부호화 방법 및 부호화 장치에 관한 것이다.
최근에는 학습된 이미지 압축 방법들이 활발하게 연구되고 있다. 이러한 학습된 이미지 압축 방법들 중 엔트로피-최소화(entropy-minimization) 기반의 접근방법(approach)들은 BPG 및 JPEG2000과 같은 통상적인 이미지 코덱들에 비해 우월한 결과들을 달성하였다.
그러나, 이미지 압축의 처리에서 품질 향상(quality enhancement) 및 율-최적화(rate-minimization)는 상충하여 커플된다. 즉, 고 이미지 품질의 유지는 낮은 압축률을 수반하고, 그 반대도 마찬가지이다.
그러나, 이미지 압축과 함께하여 별도의 품질 향상을 공동으로 훈련함으로써, 코딩 효율이 향상될 수 있다.
일 실시예는 전역적 문맥을 이용하는 기계 학습에 기반하여 이미지에 대한 압축을 제공하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법을 제공할 수 있다.
일 측에 있어서, 입력 이미지에 대해 엔트로피 모델을 사용하는 엔트로피 부호화를 수행하여 비트스트림을 생성하는 단계; 및 상기 비트스트림을 전송 또는 저장하는 단계를 포함하는 부호화 방법이 제공된다.
상기 엔트로피 모델은 문맥-적응형 엔트로피 모델일 수 있다.
상기 문맥-적응형 엔트로피 모델은 문맥들의 서로 상이한 3 개의 타입들을 활용할 수 있다.
상기 문맥들은 가우시안 혼합 모델의 파라미터를 추정하기 위해 사용될 수 있다.
상기 파라미터는 가중치 파라미터, 평균 파라미터 및 표준 편차 파라미터를 포함할 수 있다.
상기 엔트로피 모델은 문맥-적응형 엔트로피 모델일 수 있다,
상기 문맥-적응형 엔트로피 모델은 전역 문맥을 사용할 수 있다.
상기 엔트로피 부호화는 이미지 압축 네트워크 및 품질 향상 네트워크의 결합에 의해 수행될 수 있다.
상기 품질 향상 네트워크는 매우 깊은 슈퍼 레졸루션(Very Deep Super Resolution; VDSR), 잔차 밀도 네트워크(Residual Dense Network; RDN) 또는 그룹된 잔차 밀도 네트워크(Grouped Residual Dense Network; GRDN)일 수 있다.
상기 입력 이미지에 수평 방향의 패딩 또는 수직 방향의 패딩이 적용될 수 있다.
상기 수평 방향의 패딩은 상기 입력 이미지의 수직 축 상의 중심에 하나 이상의 행들을 삽입하는 것일 수 있다.
상기 수직 방향의 패딩은 상기 입력 이미지의 수평 축 상의 중심에 하나 이상의 열들을 삽입하는 것일 수 있다.
상기 수평 방향의 패딩은 상기 입력 이미지의 높이가 k의 배수가 아닐 경우에 수행될 수 있다.
상기 수직 방향의 패딩은 상기 입력 이미지의 폭이 k의 배수가 아닐 경우에 수행될 수 있다
상기 k는 2n이고,
상기 n은 상기 입력 이미지에 대한 다운-스케일링들의 개수일 수 있다.
상기 부호화 방법에 의하여 생성된 상기 비트스트림을 기록하는 기록 매체가 제공될 수 있다.
다른 일 측에 있어서, 비트스트림을 획득하는 통신부; 및 상기 비트스트림에 대해 엔트로피 모델을 사용하는 복호화를 수행하여 재구축된 이미지를 생성하는 처리부를 포함하는 복호화 장치가 제공된다.
또 다른 일 측에 있어서, 비트스트림을 획득하는 단계; 및 상기 비트스트림에 대해 엔트로피 모델을 사용하는 복호화를 수행하여 재구축된 이미지를 생성하는 단계를 포함하는 복호화 방법이 제공된다.
상기 엔트로피 모델은 문맥-적응형 엔트로피 모델일 수 있다.
상기 문맥-적응형 엔트로피 모델은 문맥들의 서로 상이한 3 개의 타입들을 활용할 수 있다.
상기 문맥들은 가우시안 혼합 모델의 파라미터를 추정하기 위해 사용될 수 있다.
상기 파라미터는 가중치 파라미터, 평균 파라미터 및 표준 편차 파라미터를 포함할 수 있다.
상기 엔트로피 모델은 문맥-적응형 엔트로피 모델일 수 있다.
상기 문맥-적응형 엔트로피 모델은 전역 문맥을 사용할 수 있다.
상기 엔트로피 부호화는 이미지 압축 네트워크 및 품질 향상 네트워크의 결합에 의해 수행될 수 있다.
상기 품질 향상 네트워크는 매우 깊은 슈퍼 레졸루션(Very Deep Super Resolution; VDSR), 잔차 밀도 네트워크(Residual Dense Network; RDN) 또는 그룹된 잔차 밀도 네트워크(Grouped Residual Dense Network; GRDN)일 수 있다.
상기 재구축된 이미지로부터 수평 방향의 패딩 영역 또는 수직 방향의 패딩 영역이 제거될 수 있다.
상기 수평 방향의 패딩 영역의 제거는 상기 재구축된 이미지의 수직 축 상의 중심에서 하나 이상의 행들을 제거하는 것일 수 있다.
상기 수직 방향의 패딩 영역의 제거는 상기 재구축된 이미지의 수평 축 상의 중심에서 하나 이상의 열들을 제거하는 것일 수 있다.
상기 수평 방향의 패딩 영역의 제거는 원 이미지의 높이가 k의 배수가 아닐 경우에 수행될 수 있다.
상기 수직 방향의 패딩 영역의 제거는 상기 원 이미지의 폭이 k의 배수가 아닐 경우에 수행될 수 있다.
상기 k는 2n일 수 있다.
상기 n은 상기 원 이미지에 대한 다운-스케일링들의 개수일 수 있다.
전역적 문맥을 이용하는 기계 학습에 기반하여 이미지에 대한 압축을 제공하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법이 제공된다.
도 1은 일 예에 따른 엔트로피 모델에 기반하는 엔드-투-엔드 이미지 압축을 나타낸다.
도 2는 일 예에 따른 자동회귀 접근방식으로의 확장을 나타낸다.
도 3은 일 실시예에 따른 자동 부호기의 구현을 나타낸다.
도 4는 일 예에 따른 이미지에 대한 훈련가능한 변수들을 나타낸다.
도 5는 클립된 상대적 위치들을 사용하는 유도를 나타낸다.
도 6은 일 예에 따른 (0, 0)의 현재 위치에 대한 오프셋을 도시한다.
도 7은 일 예에 따른 (2, 3)의 현재 위치에 대한 오프셋을 도시한다.
도 8는 일 실시예에 따른 캐스케이드로된 이미지 압축 및 품질 향상의 엔드-투-엔드 조인트 학습 스킴을 나타낸다.
도 9는 일 실시예에 따른 이미지 압축 네트워크의 전반적인 네트워크 아키텍처를 나타낸다.
도 10은 일 예에 따른 모델 파라미터 추정자의 구조를 나타낼 수 있다.
도 11은 일 예에 따른 비-로컬 문맥 프로세싱 네트워크를 나타낼 수 있다.
도 12는 일 예에 따른 오프셋-문맥 프로세싱 네트워크를 나타낼 수 있다.
도 13은 일 예에 따른 전역 문맥 지역에 매핑된 변수들을 나타낸다.
도 14는 일 실시예에 따른 GRDN의 구조를 나타낸다.
도 15는 일 실시예에 따른 GRDN의 GRDB의 구조를 나타낸다.
도 16은 일 실시예에 따른 GRDB의 RDB의 구조를 나타낸다.
도 17은 실시예에 따른 부호기를 나타낸다.
도 18은 실시예에 따른 복호기를 나타낸다.
도 19는 일 실시예에 따른 부호화 장치의 구조도이다.
도 20은 일 실시예에 따른 복호화 장치의 구조도이다.
도 21는 일 실시예에 따른 부호화 방법의 흐름도이다.
도 22는 일 실시예에 따른 복호화 방법의 흐름도이다.
도 23은 일 예에 따른 입력 이미지로의 패딩을 나타낸다.
도 24는 일 실시예에 따른 부호화에서의 패딩을 위한 코드를 나타낸다.
도 25는 일 실시예에 따른 부호화에서의 패딩 방법의 흐름도이다.
도 26은 일 실시예에 따른 부호화에서의 패딩 영역의 제거를 위한 코드를 나타낸다.
도 26은 일 실시예에 따른 부호화에서의 패딩의 제거 방법의 흐름도이다.
후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.
도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
실시예에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 실시예에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않으며, 추가적인 구성이 예시적 실시예들의 실시 또는 예시적 실시예들의 기술적 사상의 범위에 포함될 수 있음을 의미한다. 어떤 구성요소(component)가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들이 서로 간에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1 및 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기의 구성요소들은 상기의 용어들에 의해 한정되어서는 안 된다. 상기의 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하여 지칭하기 위해서 사용된다. 예를 들어, 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
또한, 실시예들에 나타나는 구성요소들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성요소가 분리된 하드웨어나 하나의 소프트웨어 구성 단위로만 이루어짐을 의미하지 않는다. 즉, 각 구성요소는 설명의 편의상 각각의 구성요소로 나열된 것이다. 예를 들면, 구성요소들 중 적어도 두 개의 구성요소들이 하나의 구성요소로 합쳐질 수 있다. 또한, 하나의 구성요소가 복수의 구성요소들로 나뉠 수 있다. 이러한 각 구성요소의 통합된 실시예 및 분리된 실시예 또한 본질에서 벗어나지 않는 한 권리범위에 포함된다.
또한, 일부의 구성요소는 본질적인 기능을 수행하는 필수적인 구성요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성요소일 수 있다. 실시예들은 실시예의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 예를 들면, 단지 성능 향상을 위해 사용되는 구성요소와 같은, 선택적 구성요소가 제외된 구조 또한 권리 범위에 포함된다.
이하에서는, 기술분야에서 통상의 지식을 가진 자가 실시예들을 용이하게 실시할 수 있도록 하기 위하여, 첨부된 도면을 참조하여 실시예들을 상세히 설명하기로 한다. 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
명세서의 설명에서, 기호 "/"는 "및/또는'의 약자로서 사용될 수 있다. 말하자면, "A/B"는 "A 및/또는 B"나 "A 및 B 중 적어도 하나"를 의미할 수 있다.
전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축
최근, 인공 신경망에서의 상당한 발전은 인해 다양한 연구 분야에서 다수의 획기적인 성과들을 이끌어 왔다. 이미지 및 비디오 압축 분야에서, 다수의 학습 기반 연구들이 수행되었다.
특히, 엔트로피 최소화에 기반하는 몇몇 최신의 엔드-투-엔드(end-to-end) 최적화 이미지 압축 방법은 이미 BPG 및 JPEG2000과 같은 기존의 이미지 압축 코덱보다 더 나은 압축 성능을 보일 수 있다.
현장의 짧은 역사에도 불구하고. 엔트로피 최소화를 위한 기본적인 접근방식은 분석 변환 네트워크(analysis transform network)(말하자면, 부호기(encoder)) 및 합성 변환 네트워크(synthesis transform network)를 훈련시켜서 분석 변환 네트워크 및 합성 변환 네트워크가 재구축된(reconstructed) 이미지들의 품질을 가능한 원본들에 가깝게 유지시키면서 변환된 은닉 표현성분들(transformed latent representations)의 엔트로피를 감소시킬 수 있게 할 수 있다.
엔트로피 최소화 접근방식은 2 개의 다른 측면에서 보일 수 있다: 사전 확률 모델링(prior probability modeling) 및 문맥 활용(context exploitation)
사전 확률 모델링은 엔트로피 최소화의 주 요소이며, 엔트로피 모델이 은닉 표현성분들의 실제의 엔트로피를 근사(approximate)하게 할 수 있다. 사전 확률 모델링은 훈련 및 실제의 엔트로피 디코딩 및/또는 인코딩에 대하여 키 역할(key role)을 수행할 수 있다.
각 변환된 표현성분들에 대하여, 이미지 압축 방법은 이전에 복호화된 이웃 표현성분들 또는 몇몇 비트-할당된(bit-allocated) 부(side) 정보들과 같은 문맥(context)에 기반하여 사전 확률 모델의 파라미터들을 추산할 수 있다.
더 나은 문맥은 모델 파라미터 추정기(model parameter estimator)에 주어진 정보로 간주될 수 있다. 이러한 정보는 은닉 표현성분들의 분포들을 더 정확하게 예측하는데 도움이 될 수 있다.
인공 신경 네트워크들(Artificial Neural Networks; ANN)-기반 이미지 압축
도 1은 일 예에 따른 엔트로피 모델에 기반하는 엔드-투-엔드 이미지 압축을 나타낸다.
ANN-기반 이미지 압축과 관련하여 제안된 방법들은 두 개의 스트림들로 나뉠 수 있다.
첫 번째로, 생성적(generative) 모델들의 성공의 귀결로서, 인지적(perceptual) 품질을 타겟팅하는 몇몇 이미지 압축 접근방식들이 제안되어 왔다.
이러한 접근방식들의 기본적인 아이디어는 자연 이미지들의 분포의 학습에 있어서, 텍스처들과 같은, 재구축된 이미지의 구조 또는 인지 품질에 큰 영향을 미치지 않는 이미지 구성요소들(components)의 생성을 허용함으로써, 심각한 인지적 손실(loss) 없이 매우 높은 압축을 가능하게 하는 것이다.
그러나, 이러한 접근방식에 의해 생성된 이미지들이 매우 사실적임에도 불구하고, 기계-생성된(machine-created) 이미지 구성요소들의 수용가능성(acceptability)은 결국에는 다소 어플리케이션-의존적(application-dependent)일 수 있다.
한편, 두 번째로, 생성 모델들을 사용하지 않고, 엔드-투-엔드(end-to-end) 최적화된 ANN-기반 접근방식들이 사용될 수 있다.
이러한 접근방식에서는, 예측(prediction), 변환(transform) 및 양자화(quantization)와 같은 개별적인 도구들로 구성된 전통적인 코덱들과는 다르게, 엔드-투-엔드 최적화를 통해 전체 기능들을 커버하는 포괄적(comprehensive) 솔루션이 제공될 수 있다.
예를 들면, 한 접근방식은 모든 단계들에서 압축된 정보를 포함하기 위해 이진의(binary) 은닉(latent) 표현성분들(representations)의 소량을 활용할 수 있다. 각 단계는 점진적으로 품질을 향상시키는 것을 달성하기 위해 추가의 은닉 표현성분들을 더욱 더 쌓을 수 있다.
다른 접근방식은, 전술된 접근방식의 네트워크 구조를 향상시켜서 압축 성능을 향상시킬 수 있다.
이러한 접근방식들은 하나의 훈련된 네트워크를 통한 품질 제어에 적합한 새로운 프레임워크들을 제공할 수 있다. 이러한 접근방식들에 있어서, 반복(iteration) 단계들의 개수의 증가는 몇몇 어플리케이션들에는 부담이 될 수 있다.
이러한 접근방식들은 최대한 높은 엔트로피를 갖는 이진 표현성분들을 추출할 수 있다. 반면, 다른 접근 방식들은 이미지 압축 문제를 어떻게 가능한 낮은 엔트로피를 갖는 이산 은닉 표현성분들(discrete latent representations)을 어떻게 검출하는(retrieve) 가로 간주한다.
다시 말하면, 전자의 접근방식들의 목표 문제는 어떻게 고정된 개수의 표현성분 내에 가능한 많은 정보를 포함시키는가로 간주될 수 있고, 반면 후자의 접근방식들의 목표 문제는 단지 표현성분들이 충분한 개수가 주어졌을 때 어떻게 예상되는 비트-레이트를 감소시킬 수 있는가로 간주될 수 있다. 여기에서, 낮은 엔트로피는 엔트로피 코딩에 의한 낮은 비트-레이트에 대응한다고 가정될 수 있다.
후자의 접근방식들의 목표 문제를 해결하기 위해, 접근방식들은 이산 은닉 표현성분들의 실제의 분포를 근사하기 위한 자체의 엔트로피 모델들을 채용할 수 있다.
예를 들면, 일부 접근방식들은 엔트로피 모델들을 활용하는 새로운 프레임워크들을 제안할 수 있고, 엔트로피 모델들에 의해 생성된 결과들을 JPEG2000과 같은 기존의 코덱들과 비교함으로써 엔트로피 모델들의 성능이 입증될 수 있다.
이러한 접근방식들에 있어서, 각 표현성분이 고정된 분포를 갖는다고 가정될 수 있다. 접근방식에 대해서, 각 표현성분에 대한 분포의 스케일을 추정하는 입력-적응적(input-adaptive) 엔트로피 모델이 사용될 수 있다. 이러한 접근방식은 표현성분들의 스케일들이 인접한 영역들 내에서 함께 변한다는 자연 이미지들의 특성에 기반할 수 있다.
엔드-투-엔드 최적화 이미지 압축의 주요 요소들 중 하나는 은닉 표현성분들을 위한 훈련가능한 엔트로피 모델일 수 있다.
은닉 표현성분들의 실제의 분포들은 알려져 있지 않기 때문에, 엔트로피 모델들은 은닉 표현성분들의 분포들을 근사함으로써 은닉 표현성분들을 부호화하기 위한 추정된 비트들을 계산할 수 있다.
도 1에서,
Figure pat00001
는 입력 이미지를 나타낼 수 있다.
Figure pat00002
는 출력 이미지를 나타낼 수 있다.
Figure pat00003
는 양자화(quantization)를 나타낼 수 있다.
Figure pat00004
는 양자화된 은닉 표현성분을 나타낼 수 있다.
입력 이미지
Figure pat00005
가 은닉 표현성분
Figure pat00006
로 변환(transform)되고, 은닉 표현성분
Figure pat00007
Figure pat00008
에 의해 양자화된 은닉 표현성분
Figure pat00009
로 균일하게 양자화될 때, 단순한 엔트로피 모델은
Figure pat00010
로 표현될 수 있다. 엔트로피 모델은 의 근사(approximation)일 수 있다.
Figure pat00011
Figure pat00012
의 실제의 한계(marginal) 분포를 나타낼 수 있다. 엔트로피 모델
Figure pat00013
을 사용하는 교차(cross) 엔트로피를 통해 계산된 율 추정(rate estimation)은 아래의 수학식 1과 같이 표현될 수 있다.
Figure pat00014
율 추정은
Figure pat00015
의 실제의 엔트로피 및 추가의 비트들로 분해될 수 있다. 말하자면, 율 추정은
Figure pat00016
의 실제의 엔트로피 및 추가의 비트들을 포함할 수 있다.
추가의 비트들은 실제의 분포들 및 이러한 실제의 분포들에 대한 추정들 간의 불일치(mismatch)에 기인할 수 있다.
따라서, 훈련의 프로세스 동안 율 항(rate term)
Figure pat00017
이 감소하면, 엔트로피 모델
Figure pat00018
및 근사
Figure pat00019
가 가능한 가까워질 수 있으며, 또한
Figure pat00020
의 실제의 엔트로피가 작게 되도록 다른 파라미터들이
Figure pat00021
Figure pat00022
로 원활하게 변환할 수 있다.
쿨백-라이블러(Kullback-Leibler; KL)-발산(divergence)의 관점에서,
Figure pat00023
Figure pat00024
가 실제의 분포
Figure pat00025
와 완벽하게 매치될 때 최소화될 수 있다. 이는, 상기의 방법들의 압축 성능이 본질적으로 엔트로피 모델의 성능에 의존한다는 것을 의미할 수 있다.
도 2는 일 예에 따른 자동회귀 접근방식으로의 확장을 나타낸다.
자동회귀(auto-regressive) 접근방식(approach)의 3 개의 양상(aspect)들로서, 구조(structure), 문맥(context) 및 프라이어(prior)가 있을 수 있다.
구조는 다양한 빌딩 블록들(building blocks)을 어떻게 결합(combine)하는가를 의미할 수 있다. 다양한 빌딩 블록들은, 하이퍼 파라미터(hyper parameter), 스킵 연결(skip connection), 비-선형성(non-linearity), 일반화된 분할 정규화(Generalized Divisive Normalization; GDN) 및 어텐션 레이어(attention layer) 등을 포함할 수 있다.
문맥은 모델 추정을 위해 활용되는 것을 나타낼 수 있다. 활용의 대상은 인접한 알려진 영역(adjacent known area), 위치와 관련된 정보(positional information) 및
Figure pat00026
로부터의 부가 정보(side information) 등을 포함할 수 있다.
프라이어는 은닉 표현성분들의 실제의 분포(distribution)를 추정하기 위해 사용되는 분포들을 의미할 수 있다. 예를 들면, 프라이어는 제로-중간 가우시안(zero-mean Gaussian) 분포, 가우시안(Gaussian) 분포, 라플라시안(Laplacian) 분포, 가우시안 스케일 혼합(Gaussian Scale Mixture) 분포, 가우시안 혼합(Gaussian Mixture) 분포 및 논-파라메틱(Non-parametric) 분포 등을 포함할 수 있다.
실시예에서, 성능을 향상시키기 위해, 문맥들의 2 개의 타입들을 활용하는 새로운 엔트로피 모델이 제안될 수 있다. 문맥의 2 개의 타입들은, 비트-소비(bit-consuming) 문맥 및 비트-프리(bit-free) 문맥일 수 있다. 비트-프리 문맥은 자동회귀 접근방식을 위해 사용될 수 있다.
비트-소비 문맥 및 비트-프리 문맥은 문맥이 전송(transmission)을 위한 추가적인 비트 할당(allocation)을 요구하는지 여부에 따라 구분될 수 있다.
이러한 문맥들을 이용하여, 제안되는 엔트로피 모델은 엔트로피 모델들의 보다 일반적인 형태를 사용하여 각 은닉 표현성분의 분포를 보다 정확하게 추정하게 할 수 있다. 또한, 제안되는 엔트로피 모델은 이러한 정확한 추정을 통해 인접한 은닉 표현성분들 간의 공간적 의존성들(spatial dependencies)을 더 효율적으로 감소시킬 수 있다.
후술될 실시예들에 의해 아래와 같은 효과가 이루어질 수 있다.
- 문맥들의 2 개의 다른 타입들을 접목시키는(incorporate) 새로운 문맥-적응적 엔트로피 모델 프레임워크가 제공될 수 있다.
- 모델 용량(capacity) 및 문맥들의 레벨의 측면에서 실시예의 방법들의 개선(improvement) 방향들(directions)이 설명될 수 있다.
- ANN 기반 이미지 압축의 도메인에서, 최대 신호 대 잡음 비(Peak Signal-to-Noise Ratio; PSNR)의 측면에서, 널리 사용되는 기존의 이미지 코덱을 성능에서 능가하는 테스트 결과들이 제공될 수 있다.
또한, 실시예들에 관하여 아래와 같은 설명들이 후술될 수 있다.
1) 엔드-투-엔드 최적화된 이미지 압축의 키 접근방식들이 소개되고, 문맥-적응적 엔트로피 모델이 제안될 수 있다.
2) 부호기 및 복호기 모델들이 구조가 설명될 수 있다.
3) 실험의 셋업 및 실험의 결과가 제공될 수 있다.
4) 실시예들의 현재의 상태 및 개선 방향들이 설명될 수 있다.
문맥-적응적 엔트로피 모델에 기반하는 엔드-투-엔드 최적화의 엔트로피 모델들
실시예의 엔트로피 모델들은 이산 은닉 표현성분들의 분포를 근사할 수 있다. 이러한 근사를 통해 엔트로피 모델들은 이미지 압축 성능을 향상시킬 수 있다.
실시예의 엔트로피 모델들 중 어떤 것은 비-파라미터의(non-parametric) 모델들로 가정될 수 있고, 다른 것은 표현성분 당 6 개의 가중치가 부여되는(six weighted) 제로-평균(zero-mean) 가우시안 모델로 구성된 가우시안 스케일 혼합 모델일 수 있다.
엔트로피 모델들의 형태들이 서로 다르다고 가정되더라도, 엔트로피 모델들은 입력 적응성에 대한 고려 없이 표현성분들의 분포들을 학습하는 것에 집중한다는 공통된 특징을 가질 수 있다. 다시 말해서, 일단 엔트로피 모델이 훈련되면, 표현성분들에 대하여 훈련된 모델들은 테스트 시간 동안 임의의 입력에 대해서 고정될 수 있다.
반면, 특정 엔트로피 모델은 표현성분들에 대하여 입력-적응적 스케일 추정을 채용할 수 있다. 이러한 엔트로피 모델에서는, 자연 이미지들로부터의 은닉 표현성분들 스케일들은 인접한 영역 내에서 함께 움직이는 경향이 있다는 가정이 적용될 수 있다.
이러한 중복성(redundancy)을 감소시키기 위해, 엔트로피 모델은 추가 정보의 소량을 사용할 수 있다. 추가 정보는 은닉 표현성분들의 적절한 스케일 파라미터들(예를 들면, 표준 편차들)과 같이 추정될 수 있다.
스케일 추정 외에도, 연속적인 도메인 내의 각 표현성분에 대한 사전 확률 밀도 함수(Probability Density Function; PDF)가 표준 균일 밀도 함수(standard uniform density function)와 콘볼루션될(convolved) 때, 엔트로피 모델은 라운딩(rounding)에 의해 균일하게 양자화된 이산 은닉 표현성분의 사전의 확률 질량 함수(Probability Mass Function; PMF)에 더 가깝게 근사할 수 있다.
훈련에 대하여, 균일 노이즈가 각 은닉 표현성분에 추가될 수 있다. 이러한 추가는 노이즈 낀(noisy) 표현성분들의 분포를 언급된 PMF-근사 함수들에 맞추기 위한 것일 수 있다.
이러한 접근방식들로, 엔트로피 모델은 베터 포터블 그래픽스(Better Portable Graphics; BPG)와 유사한 최신의(state-of-the-art) 압축 성능을 달성할 수 있다.
은닉 변수들의 공간적 의존성들
은닉 표현성분들이 콘볼루션(convolution) 신경 네트워크를 통해 변환 될 때, 동일한 콘볼루션 필터들이 공간적 구역들(regions)을 걸쳐 공유되고, 자연 이미지들은 인접한 구역들 내에서 다양한 팩터들(factors)을 공통적으로 갖기 때문에 은닉 표현성분들은 본질적으로 공간적 의존성들을 포함할 수 있다.
엔트로피 모델에 있어서, 은닉 표현성분들의 표준 편차들을 입력-적응적으로 추정함으로써 이러한 공간 의존성들이 성공적으로 포착될 수 있고, 압축 성능이 향상될 수 있다.
한 걸음 더 나아가서, 표준 편차 외에도, 문맥들을 활용하는 평균(mean) 추정을 통해 추정된 분포의 형태(form)가 일반화될 수 있다.
예를 들면, 특정한(certain) 표현성분들이 공간적으로 인접한 영역 내에서 유사한 값을 갖는 경향이 있다고 가정하면, 모든 이웃 표현성분들이 10의 값을 가질 때, 현재의 표현성분이 10 또는 유사한 값들을 가질 가능성이 비교적 높다는 것이 직관적으로 추측될 수 있다. 따라서, 이러한 간단한 추정은 엔트로피를 감소시킬 수 있다.
마찬가지로, 실시예의 방법에 따른 엔트로피 모델은 각 은닉 표현성분의 평균 및 표준 편차를 추정하기 위해 주어진 문맥을 사용할 수 있다.
또는, 엔트로피 모델은 각 이진 표현성분의 확률을 추정함으로써 문맥-적응적 엔트로피 코딩을 수행할 수 있다.
그러나, 이러한 문맥-적응적 엔트로피 코딩은, 엔트로피 코딩의 확률 추정이 율-왜곡(Rate-Distortion; R-D) 최적화 프레임워크의 율 항(rate term)에 직접적으로 기여하지 않기 때문에, 앤드-투-앤드 최적화 구성요소들 중 하나라기 보다는 별개의 구성요소들로 보일 수 있다.
2 개의 상이한 접근방식들의 은닉 변수들
Figure pat00027
및 이러한 은닉 변수들의 정규화된 버전들이 예시될 수 있다. 앞서 언급된 문맥들의 2 개의 타입들을 가지고, 하나의 접근방식에서는 단지 표준 편차 파라미터들이 추정될 수 있고, 다른 하나의 접근방식에서는 평균 및 표준 편차 파라미터들의 양자가 추정될 수 있다. 이 때, 주어진 문맥들을 가지고 평균이 함께 추정될 때 공간적 의존성은 더 효율적으로 제거될 수 있다.
문맥-적응적 엔트로피 모델
실시예에서의 최적화 문제에 있어서, 입력 이미지
Figure pat00028
는 낮은 엔트로피를 갖는 은닉 표현성분
Figure pat00029
로 변환될 수 있고,
Figure pat00030
의 공간적 의존성들은
Figure pat00031
로 포착될 수 있다. 따라서, 4 개의 주요한 파라미터의(parametric) 변환 함수들이 사용될 수 있다. 엔트로피 모델의 4 개의 파라미터의 변환 함수들은 아래의 1) 내지 4)와 같다.
1)
Figure pat00032
를 은닉 표현성분
Figure pat00033
로 변환하기 위한 분석 변환
Figure pat00034
2) 재구축된 이미지
Figure pat00035
를 생성하기 위한 합성(synthesis) 변환
Figure pat00036
2)
Figure pat00037
의 공간적 중복성들을 은닉 표현성분
Figure pat00038
로 포착(capture)하기 위한 분석 변환
Figure pat00039
4) 모델 추정에 대한 문맥들을 생성하기 위한 합성 변환
Figure pat00040
실시예에서,
Figure pat00041
는 표현성분들의 표준 편자들을 직접적으로 추정하지 않을 수 있다. 대신, 실시예에서,
Figure pat00042
는 분포를 추정하기 위해 문맥들의 복수의 개의 타입들 중 하나인 문맥
Figure pat00043
을 생성할 수 있다. 문맥들의 복수의 개의 타입들에 대해서는 아래에서 설명된다.
변이(variational) 자동 부호기(autoencoder)의 시점(viewpoint)로부터 최적화 문제가 분석될 수 있고, KL-발산의 최소화는 이미지 압축의 R-D 최적화와 동일한 문제로 간주될 수 있다. 기본적으로, 실시예에서는 동일한 컨셉이 채용될 수 있다. 그러나 훈련에 있어서, 실시예에서는 노이즈 낀 표현성분들 대신에 조건들(conditions)에 대한 이산 표현성분들이 사용될 수 있고, 따라서 노이즈 낀 표현성분들은 엔트로피 모델들로의 입력들로만 사용될 수 있다.
경험적으로, 조건들에 대한 이산 표현성분들을 사용하는 것은 더 나은 결과들을 낳을 수 있다. 이러한 결과들은 훈련 시간 및 테스팅 시간 사이에서의 조건들의 불일치를 제거하는 것과, 이러한 불일치의 제거에 의해 훈련 용량을 향상시키는 것으로부터 올 수 있다. 훈련 용량은 균일 노이즈의 영향(affect)을 단지 확률 질량 함수들로의 근사를 돕는 것만으로 제한함으로써 향상될 수 있다.
실시예에서, 균일 양자화로부터의 불연속성들(discontinuities)을 다루기 위해 정체(identity) 함수를 갖는 그래디언트 오버라이딩(gradient overriding) 방법이 사용될 수 있다. 실시예에서 사용되는 결과인(resulting) 목적 함수들(objective functions)은 아래의 수학식 2에서 설명되었다.
Figure pat00044
수학식 2에서, 총 손실(total loss)은 2 개의 항들을 포함한다. 2 개의 항들은 비율들 및 왜곡들을 나타난다. 말하자면, 총 손실은 율 항(rate term) R 및 왜곡 항(distortion term) D를 포함할 수 있다.
계수
Figure pat00045
는 R-D 최적화 프로세스 내에서 율 및 왜곡 간의 균형(balance)을 제어할 수 있다.
Figure pat00046
여기에서,
Figure pat00047
가 변환
Figure pat00048
의 결과이고,
Figure pat00049
가 변환
Figure pat00050
의 결과일 때,
Figure pat00051
Figure pat00052
의 노이즈가 낀 표현성분은 표준 균일 분포를 따를 수 있다. 여기에서,
Figure pat00053
의 평균은
Figure pat00054
일 수 있고,
Figure pat00055
의 평균은
Figure pat00056
일 수 있다. 또한,
Figure pat00057
로의 입력은, 노이즈 낀 표현성분
Figure pat00058
가 아니라,
Figure pat00059
일 수 있다.
Figure pat00060
는 라운딩 함수
Figure pat00061
에 의한
Figure pat00062
의 균일하게 양자화된 표현성분들일 수 있다.
율 항은
Figure pat00063
Figure pat00064
의 엔트로피 모델들을 가지고 계산된 예상되는 비트들을 나타낼 수 있다.
Figure pat00065
는 궁극적으로
Figure pat00066
의 근사일 수 있고,
Figure pat00067
는 궁극적으로
Figure pat00068
의 근사일 수 있다.
아래의 수학식 4는
Figure pat00069
에 대한 요구되는 비트들의 근사를 위한 엔트로피 모델을 나타낼 수 있다. 수학식 4는 엔트로피 모델에 대한 공식적인(formal) 표현성분일 수 있다.
Figure pat00070
엔트로피 모델은 표준 편차 파라미터
Figure pat00071
뿐만 아니라, 평균 파라미터
Figure pat00072
도 갖는 가우시안 모델에 기반할 수 있다.
Figure pat00073
Figure pat00074
는 함수
Figure pat00075
에 의해 주어진 문맥들의 2 개의 타입들로부터 결정적 방식으로 추정될 수 있다. 함수
Figure pat00076
는 추정자(estimator)일 수 있다. 실시예에서, 용어들 "추정자", "분포 추정자", "모델 추정자" 및 "모델 파라미터 추정자"는 동일한 의미를 가질 수 있으며, 서로 교체되어 사용될 수 있다.
문맥들의 2 개의 타입들은 비트-소비 문맥 및 비트-프리 문맥일 수 있다. 여기에서, 어떤 표현성분의 분포를 추정하기 위한 문맥들의 2 개의 타입들은
Figure pat00077
Figure pat00078
로 표시될 수 있다.
추출자
Figure pat00079
Figure pat00080
로부터
Figure pat00081
를 추출할 수 있다.
Figure pat00082
는 변환
Figure pat00083
의 결과일 수 있다.
Figure pat00084
와는 대조적으로,
Figure pat00085
에 대해서는 어떤 추가 비트 할당도 요구되지 않을 수 있다. 대신,
Figure pat00086
의 알려진(이미 엔트로피-부호화되거나, 엔트로피-복호화된) 서브세트가 활용될 수 있다. 이러한
Figure pat00087
의 알려진 서브세트는
Figure pat00088
로 표시될 수 있다.
추출자
Figure pat00089
Figure pat00090
로부터
Figure pat00091
를 추출할 수 있다.
엔트로피 부호기 및 엔트로피 복호기는, 래스트 스캐닝(raster scanning)과 같은, 동일한 특정된(specific) 순서로 순차적으로(sequentially)
Figure pat00092
를 처리할 수 있다. 따라서, 동일한
Figure pat00093
를 처리함에 있어서, 엔트로피 부호기 및 엔트로피 복호기에게 주어지는
Figure pat00094
는 언제나 동일할 수 있다.
Figure pat00095
의 경우에는, 단순한 엔트로피 모델이 사용될 수 있다. 이러한 단순한 엔트로피 모델은 훈련가능한
Figure pat00096
를 가진 제로-평균 가우시안 분포들을 따르는 것으로 가정될 수 있다.
Figure pat00097
는 부가 정보(side information)로 간주될 수 있으며,
Figure pat00098
는 총 비트-레이트의 매우 적은 양에 기여할 수 있다. 따라서, 실시예에서는, 더 복잡한 엔트로피 모델들이 아닌, 엔트로피 모델의 단순화된 버전이 제안된 방법의 전체의 파라미터들 상의 엔드-투-엔드 최적화를 위해 사용될 수 있다.
아래의 수학식 5는 엔트로피 모델의 단순화된 버전을 나타낸다.
Figure pat00099
율 항은 실제의 비트들의 양이 아니고, 언급된 것과 같이 엔트로피 모델들로부터 계산된 추정일 수 있다. 따라서, 훈련 또는 부호화에 있어서, 실제의 엔트로피 부호화 또는 엔트로피 복호화 프로세스들이 필수적으로 요구되지 않을 수 있다.
왜곡 항(distortion term)에 관하여,
Figure pat00100
가 널리-사용되는 왜곡 메트릭스들(metrics)로서 가우시안 분포들을 따른다고 가정될 수 있다. 이러한 가정 하에서, 왜곡 항은 평균 제곱된 에러(Mean Squared Error; MSE)를 사용하여 계산될 수 있다.
도 3은 일 실시예에 따른 자동 부호기의 구현을 나타낸다.
도 3에서, 콘볼루션은 "conv"로 약술되었다. "GDN"은 일반화된 분할 정규화(generalized divisive normalization)를 나타낼 수 있다. "IGDN"은 역 일반화된 분할 정규화(inverse generalized divisive normalization)를 나타낼 수 있다.
도 3에서, leakyReLU는 ReLU의 변형인 함수일 수 있으며, 유출되는(leaky) 정도가 특정되는 함수일 수 있다. leakyReLU 함수에 대해 제1 설정 값 및 제2 설정 값이 설정될 수 있다. leakyReLU 함수는 입력 값이 제1 설정 값의 이하인 경우, 제1 설정 값을 출력하지 않고, 입력 값 및 제2 설정 값을 출력할 수 있다.
또한, 도 3에서 사용된 콘볼루션 레이어에 대한 기보법들(notations)은 다음과 같을 수 있다: 필터들의 개수
Figure pat00101
필터 높이
Figure pat00102
필터 폭 (/ 다운-스케일 또는 업-스케일의 팩터(factor)).
또한,
Figure pat00103
Figure pat00104
는 업-스케일링 및 다운-스케일링을 각각 나타낼 수 있다. 업-스케일링 및 다운-스케일링에 대해서, 트랜스포스된(transposed)된 컨볼루션이 사용될 수 있다.
콘볼루션 신경 네트워크들은 변환 및 재구축 기능들을 구현하기 위해 사용될 수 있다.
도 3에서 도시된
Figure pat00105
,
Figure pat00106
,
Figure pat00107
Figure pat00108
는 전술된 다른 실시예에서의 설명이 적용될 수 있다. 또한,
Figure pat00109
의 말단(end)에서는, 절대(absolute) 연산자(operator)가 아닌 자승(exponentiation) 연산자가 사용될 수 있다.
Figure pat00110
의 분포를 추정하기 위한 구성요소들이 컨볼루션 자동 부호기에 추가되었다.
도 3에서, "Q"는 균일 양자화 (반올링)을 나타낼 수 있다. "EC"는 엔트로피 인코딩을 나타낼 수 있다. "ED"는 엔트로피 디코딩을 나타낼 수 있다. "
Figure pat00111
"는 분포 추정자를 나타낼 수 있다.
또한, 컨볼루션 자동 부호기는 컨볼루션 레이어들을 사용하여 구현될 수 있다. 컨볼루션 레이어로의 입력은 채널-단위로(channel-wisely) 연쇄된(concatenated)
Figure pat00112
Figure pat00113
일 수 있다. 컨볼루션 레이어는 추정된
Figure pat00114
및 추정된
Figure pat00115
를 결과들로서 출력할 수 있다.
여기에서, 동일한
Figure pat00116
Figure pat00117
가 동일한 공간적 위치에 위치하는 모든
Figure pat00118
들에게 공유될 수 있다.
Figure pat00119
Figure pat00120
를 검출하기 위해 채널들을 걸쳐 모든 공간적으로 인접한 요소들을
Figure pat00121
로부터 추출할 수 있다. 유사하게,
Figure pat00122
Figure pat00123
를 위하여 모든 인접한 알려진 요소들을
Figure pat00124
로부터 추출할 수 있다. 이러한
Figure pat00125
Figure pat00126
에 의한 추출들은 서로 다른 채널들 사이의 남아있는(remaining) 상관관계들(correlations)을 캡춰하는 효과를 가질 수 있다.
Figure pat00127
는 동일한 공간적 위치에서의 1) 모든
Figure pat00128
, 2)
Figure pat00129
의 채널들의 총 개수 및 3)
Figure pat00130
들의 분포들을 단 하나의 단계에서 추출할 수 있으며, 이러한 추출을 통해 추정들의 총 개수가 감소될 수 있다.
나아가
Figure pat00131
의 파라미터들은
Figure pat00132
의 모든 공간적 위치들에 대하여 공유될 수 있다. 이러한 공유를 통해
Figure pat00133
당 단지 하나의 훈련된
Figure pat00134
가 이미지들의 임의의 크기를 처리하기 위해 필요할 수 있다.
그러나, 훈련의 경우, 전술된 단순화들에도 불구하고, 율 항을 계산하기 위하 전체의 공간적 위치들로부터의 결과들을 수집하는 것은 크나큰 부담이 될 수 있다. 이러한 부담을 감소시키기 위해, 문맥 적응형 엔트로피 모델에 대한 모든 훈련 단계마다 랜덤의(random) 공간적 포인트들의 특정된 개수(예를 들면, 16)가 대표자들(representatives)로서 지정될 수 있다. 이러한 지정은 율 항의 계산을 용이하게 할 수 있다. 여기에서, 이러한 랜덤 공간적 포인트들은 단지 율 항을 위해서 사용될 수 있다. 반면, 왜곡 항은 여전히 전체의 이미지들 상에서 계산될 수 있다.
Figure pat00135
는 3-차원의 배열(array)이기 때문에,
Figure pat00136
에 대한 인덱스 i는 3 개의 인덱스들 k, lm을 포함할 수 있다. k는 수평의 인덱스일 수 있다. l는 수직의 인덱스일 수 있다. m는 채널 인덱스일 수 있다.
현재의 위치가 (k, l, m)일 때,
Figure pat00137
Figure pat00138
Figure pat00139
로서 추출할 수 있다. 또한,
Figure pat00140
Figure pat00141
Figure pat00142
로서 추출할 수 있다. 여기에서,
Figure pat00143
Figure pat00144
의 알려진 영역을 나타낼 수 있다.
Figure pat00145
의 알려지지 않은 영역은 0으로 채워질 수 있다.
Figure pat00146
의 알려지지 않은 영역을 0으로 채움에 따라,
Figure pat00147
의 차원이
Figure pat00148
의 차원과 동일성을 갖도록 유지될 수 있다. 따라서,
Figure pat00149
는 언제나 0으로 채워질 수 있다.
추정 결과들의 차원을 입력으로 유지시키기 위해,
Figure pat00150
Figure pat00151
의 마진의(marginal) 영역들 또한 0으로 세트될 수 있다.
훈련 또는 부호화가 수행될 때,
Figure pat00152
는 단지 단순한 4
Figure pat00153
4
Figure pat00154
Figure pat00155
윈도우들 및 이진(binary) 마스크들을 사용하여 추출될 수 있다. 이러한 추출은 병렬 처리를 가능하게 할 수 있다. 반면, 복호화에서는, 순차적인(sequential) 재구축이 사용될 수 있다.
구현 비용을 감소시키기 위한 다른 구현 테크닉으로서, 하이브리드 접근방식이 사용될 수 있다. 실시예의 엔트로피 모델은 경량(lightweight) 엔트로피 모델과 결합될 수 있다. 경량 엔트로피 모델에 있어서, 표현성분들은 추정된 표준 편차들을 갖는 제로-평균 가우시안 모델을 따르는 것으로 가정될 수 있다.
이러한 하이브리드 접근방식은 9 개의 구성들(configurations) 내에서 비트-레이트의 내림차순으로 상위 4 개의 경우들에 대하여 활용될 수 있다. 이러한 활용에 있어서, 더 고품질의 압축에 대하여 매우 낮은 공간적 의존성을 갖는 희소(sparse) 표현성분들의 개수가 증가하고, 따라서 직접 스케일 추정이 이러한 추가된 표현성분들에 대해서 충분한 성능을 제공한다는 것이 가정될 수 있다.
구현에 있어서, 은닉 표현성분
Figure pat00156
는 2 개의 파트들
Figure pat00157
Figure pat00158
로 분리될 수 있다. 2 개의 상이한 엔트로피 모델들이
Figure pat00159
Figure pat00160
에 대해서 적용될 수 있다.
Figure pat00161
,
Figure pat00162
,
Figure pat00163
Figure pat00164
의 파라미터들은 공유될 수 있고, 전체의 파라미터들은 여전히 함께 훈련될 수 있다.
예를 들면, 5 개의 하위의 구성들에 대하여 파라미터들
Figure pat00165
의 개수는 182로 세트될 수 있다. 파라미터들
Figure pat00166
의 개수는 192로 세트될 수 있다. 약간 더 많은 파라미터들이 더 상위의 구성들에 대해서 사용될 수 있다.
실제의 엔트로피 부호화를 위해, 산술(arithmetic) 부호기가 사용될 수 있다. 산술 부호기는 추정된 모델 파라미터들을 가지고 전술된 것과 같은 비트스트림의 생성 및 재구축을 수행할 수 있다.
앞서 설명된 것과 같이, 엔트로피 모델을 활용하는 ANN-기반 이미지 압축 접근방식에 기반하여, 실시예의 엔트로피 모델들은 문맥들의 2 개의 다른 타입들을 활용하도록 확장될 수 있다.
이러한 문맥들은 엔트로피 모델이 평균 파라미터들 및 표준 편차들을 갖는 일반화된 형태를 갖고서 표현성분들의 분포를 더 정확하게 추정하게 할 수 있다.
활용되는 문맥들은 2 개의 타입들로 나뉠 수 있다. 2 개의 타입들 중 하나는 자유(free) 문맥의 일종일 수 있으며, 부호기 및 복호기의 양자에게 알려진 은닉 변수들의 부분을 포함할 수 있다. 2 개의 타입들 중 다른 하나는 공유될 추가의 비트의 할당을 요하는 문맥일 수 있다. 전자는 다양한 코덱들에서 일반적으로 이용되는 문맥들일 수 있다. 후자는 압축에 도움이 되는 것으로 검증된 것일 수 있다. 실시예에서는, 이러한 문맥들을 활용하는 엔트로피 모델들의 프레임워크가 제공되었다.
추가적으로 실시예의 성능을 향상시키는 다양한 방법들이 고려될 수 있다.
성능 향상을 위한 하나의 방법은 엔트로피 모델의 기반이 되는 분포 모델을 일반화하는 것일 수 있다. 실시예에서는, 이전의 엔트로피 모델들을 일반화함으로써 성능이 향상될 수 있고, 상당히 수용 가능한 결과가 검출될 수 있다. 그러나, 가우시안-기반의 엔트로피 모델들은 명백하게 제한된 표현력(expression power)을 가질 수 있다.
예를 들면, 비-파라미터의(non-parametric) 모델들과 같이 더 정교한(elaborate) 모델들이 실시예의 문맥-적응성(context-adaptivity)과 결합될 경우, 이러한 결합은 실제의 분포들 및 추정 모델들 간의 미스매치를 감소시킴으로써 더 나은 결과들을 제공할 수 있다.
성능 향상을 위한 다른 방법은 문맥들의 레벨들을 향상시키는 것일 수 있다.
실시예는 제한된 인접 영역들 내에서의 낮은 레벨의 표현성분들을 사용할 수 있다. 네트워크들의 충분한 용량과, 문맥들의 더 높은 레벨이 주어진다면, 실시예에 의해 더 정확한 추정이 가능해질 수 있다.
예를 들면, 사람 안면들의 구조들에 관하여, 엔트로피 모델이 상기의 구조들이 일반적으로 2 개의 눈들을 가지고, 2 개의 눈들 간의 대칭이 존재한다는 것을 이해한다면, 엔트로피 모델은 사람 안면의 남은 하나의 눈을 부호화함에 있어서 (하나의 눈의 형상과 위치를 참조하여) 분포들을 더 정확하게 근사할 수 있다.
예를 들면, 생성적인 엔트로피 모델은, 예를 들면 사람 안면들 및 침실들과 같은 특정한 도메인 내에서의 이미지들의 분포
Figure pat00167
를 학습할 수 있다. 또한, 인--페인팅(in-painting) 방법들은 보이는 영역들이
Figure pat00168
로 주어졌을 때 조건적인(conditional) 분포
Figure pat00169
를 학습할 수 있다. 이러한 고-레벨 이해들(understandings)이 실시예에 결합될 수 있다.
나아가, 부가 정보를 통해 제공되는 문맥들은 세그맨테이션 맵(segmentation map) 및 압축을 돕는 다른 정보과 같은 고-레벨 정보로 확장될 수 있다. 예를 들면, 세그맨테이션 맵은 표현성분이 속하는 세그먼트 클래스에 따라 표현성분의 분포를 구별적으로(discriminatively) 추정하는 것을 도울 수 있다.
향상된 엔트로피 최소화를 갖는 이미지 압측 및 품질 향상의 엔드-투-엔드 조인트 학습 스킴
실시예의 엔드-투-엔드 조인트 학습 스킴과 관련하여 아래의 기술이 사용될 수 있다:
1) 엔트로피 모델에 기반한 접근방식들: 엔드-투-엔드 최적화 이미지 압축이 사용될 수 있으며, 압축적인(compressive) 자동부호기를 갖는 손실(lossy) 이미지 압축이 사용될 수 있다.
2) 은닉 표현성분들의 계층적인(hierarchical) 프라이어(prior) 추정 스케일 파라미터들: 스케일 하이퍼프라이어(hyperprior)를 갖는 변하는(variational) 이미지 압축이 사용될 수 있다.
3) 하이퍼프라이어로부터의 문맥과 조인트하여 인접한(adjacent) 은닉 표현성분들을 추가의 문맥으로 활용: 조인트 자동회귀(autoregressive) 및 계층적 프라이어를 학습된 이미지 압축을 위해서 사용될 수 있고, 엔드-투-엔드 최적화된 이미지 압축에 대하여 문맥-적응적(context-adaptive) 엔트로피 모델이 사용될 수 있다.
실시예에서, 문맥에 대해서 아래와 같은 특성이 고려될 수 있다:
1) 공간적 상관관계(spatial correlation): 자동회귀에 있어서 기존의 접근방법들은 단지 인접한 영역들만 활용할 수 있다. 그러나, 많은 표현성분들은 실-세계(real-image) 이미지 내에서 반복될 수 있다. 남아있는(remaining) 비-로컬 상관관계들은 제거될 필요가 있다.
2) 채널-간(inter-channel) 상관관계: 은닉 표현성분들 내의 서로 다른 채널들 간의 상관관계는 효율적으로 제거될 수 있다. 또한, 채널-간 상관관계가 활용될 수 있다.
따라서, 문맥에 대하여, 실시예에서는 새롭게 정의된 비-로컬 문맥과의 공간적 상관관계가 제거될 수 있다.
실시예에서, 구조에 대해서 아래와 같은 특성이 고려될 수 있다: 품질 향상을 위한 방법들이 이미지 압축에 조인트되어 최적화될 수 있다.
실시예에서, 프라이어에 대해서 아래와 같은 문제 및 특성이 고려될 수 있다: 가우시안 프라이어를 사용하는 접근방법은 표현력(expression power)에 제한을 가질 수 있으며, 실제의 분포들에 피팅함에 있어서 제약을 가질 수 있다. 프라이어가 더 일반화될(generalized)수록, 실제의 분포들에 대한 더 정확한 근사(approximation)을 통해, 더 높은 압축 성능이 획득될 수 있다.
도 4는 일 예에 따른 이미지에 대한 훈련가능한 변수들을 나타낸다.
도 5는 클립된 상대적 위치들을 사용하는 유도를 나타낸다.
비-로컬 상관관계들을 제거하는 문맥에 대해서 아래의 요소들이 사용뒬 수 있다:
- 각 채널에 대한, 알려진 은닉 표현성분들의 가중치가 부여된 샘플 평균(average) 및 변화(variance)
- 가변-크기 영역들에 대한 고정된 가중치들
비-로컬 문맥은 비-로컬 상관관계들을 제거하는 문맥을 의미할 수 있다.
비-로컬 문맥
Figure pat00170
은 아래의 수학식 6과 같이 정의될 수 있다.
Figure pat00171
수학식 6에 대하여, 아래의 수학식 7 및 수학식 8이 사용될 수 있다.
Figure pat00172
Figure pat00173
H는 선형 함수를 나타낼 수 있다.
j는 채널에 대한 인덱스일 수 있다. k는 수직 축에 대한 인덱스일 수 있다. l은 수평 축에 대한 인덱스일 수 있다.
kv j 내의 훈련가능한 변수들의 개수를 결정하는 항수(constant)일 수 있다.
도 4에서는. 현재 위치에 대한 훈련가능한 변수들 v j 이 도시되었다.
현재 위치는 부호화 및/또는 복호화의 대상의 위치일 수 있다.
훈련가능한 변수들은 현재 위치로부터의 거리가 k의 이하인 변수들일 수 있다. 현재 위치로부터의 거리는 1) 현재의 x 좌표 및 변수의 x 좌표 간의 차이 및 2) 현재의 y 좌표 및 변수의 y 좌표 간의 차이 중 더 큰 것일 수 있다.
도 5에서는, 클립된 상대적 위치들(clipped relative positions)을 사용하여 유도된 변수들이 도시되었다.
도 5에서, 현재 위치는 (9, 11)이고, 폭은 13인 것으로 예시되었다.
도 6은 일 예에 따른 (0, 0)의 현재 위치에 대한 오프셋을 도시한다.
도 7은 일 예에 따른 (2, 3)의 현재 위치에 대한 오프셋을 도시한다.
실시예에서, 경계들(boarders)로부터의 오프셋들을 가리키는 문맥이 사용될 수 있다.
마진 영역들 내의 제로-값들로부터의 모호성(ambiguity) 때문에, 은닉 표현성분들의 조건적인(conditional) 분배들은 공간적(spatial) 위치들에 따라서 다를 수 있다. 이러한 특징을 고려하여, 오프셋들이 문맥들로서 활용될 수 있다.
오프셋은 경계들로부터의 오프셋들을 가리키는 문맥을 의미할 수 있다.
도 6 및 도 7에서는 현재 위치, 유효 영역(effective area) 및 마진 영역(margin area)이 도시되었다.
도 6에서, 오프셋(L, R, T, B)는 (0, w-1, 0, h-1)일 수 있고, 도 7에서, 오프셋(L, R, T, B)는 (2,w-3, 3, h-4)일 수 있다.
L, R, TB는 각각 좌측, 우측, 상단 및 하단을 의미할 수 있다. w는 입력 이미지의 폭일 수 있다. h는 입력 이미지의 높이일 수 있다.
네트워크 아키텍처
이미지 압축 및 품질 향상의 조인트 학습 스킴(joint learning scheme)
도 8는 일 실시예에 따른 캐스케이드로된 이미지 압축 및 품질 향상의 엔드-투-엔드 조인트 학습 스킴을 나타낸다.
도 8에서는, 품질 향상 네트워크들을 포용(embracing)하는 구조(structure)들이 도시되었다.
실시예에서, 개시되는 이미지 압축 네트워크는 엔드-투-엔드 조인트 학습 스킴에 대하여 기존의 이미지 품질 향상 네트워크를 채용할 수 있다. 이미지 압축 네트워크는 이미지 압측 및 품질 향상을 조인트로 최적화할 수 있다.
따라서, 실시예의 아키텍처는 고 유동성(flexibility) 및 고 확장성(extensibility)을 제공할 수 있다. 특히, 실시예의 방법은 미래의 향상된 이미지 품질 항샹 네트워크들을 용이하게 수용(accommodate)할 수 있으며, 이미지 압축 방법들 및 품질 향상 방법들의 다양한 조합들을 허용할 수 있다. 즉, 개별적으로 개발된 이미지 압축 네트워크들 및 이미지 향상 네트워크들은 아래의 수학식 9의 총 손실(total loss)를 최소화하는 통합된 아키텍처 내에서 용이하게 조합될 수 있고, 용이하게 조인트되어 최적화될 수 있다.
Figure pat00174
Figure pat00175
는 총 손실을 나타낼 수 있다.
Figure pat00176
는 입력 이미지
Figure pat00177
를 입력으로 사용하는 이미지 압축을 나타낼 수 있다. 말하자면,
Figure pat00178
는 이미지 압축 서브-네트워크일 수 있다.
Figure pat00179
는 재구축된 이미지
Figure pat00180
를 입력으로 사용하는 품질 향상 함수일 수 있다. 말하자면,
Figure pat00181
는 품질 향상 서브-네트워크일 수 있다.
여기에서,
Figure pat00182
Figure pat00183
일 수 있다. 또한,
Figure pat00184
Figure pat00185
,
Figure pat00186
,
Figure pat00187
Figure pat00188
의 중간(intermediate) 재구축 출력일 수 있다.
Figure pat00189
는 율(rate)을 나타낼 수 있다.
Figure pat00190
는 왜곡(distortion)을 나타낼 수 있다.
Figure pat00191
Figure pat00192
Figure pat00193
간의 왜곡을 나타낼 수 있다.
Figure pat00194
는 균형 파라미터(balancing parameter)를 나타낼 수 있다.
종래의 방법들에서는 이미지 압축 서브-네트워크
Figure pat00195
를 출력 이미지들이 가능한 작은 왜곡을 갖도록 재구축하도록 훈련시킬 수 있다. 이러한 종래의 방법들과 대비되게, 실시예에서
Figure pat00196
의 출력들은 중간 은닉 표현성분
Figure pat00197
으로 간주될 수 있다.
Figure pat00198
은 품질 향상 서브-네트워크
Figure pat00199
로 입력될 수 있다.
따라서, 왜곡
Figure pat00200
는 1) 입력 이미지
Figure pat00201
및 2)
Figure pat00202
에 의해 재구축된 최종의 출력 이미지
Figure pat00203
의 사이에서 측정될 수 있다.
여기에서,
Figure pat00204
Figure pat00205
일 수 있다.
따라서, 실시예의 아키텍처는, 2 개의 서브-네트워크들
Figure pat00206
Figure pat00207
를 수학식 9의 총 손실
Figure pat00208
을 최소화하도록 조인트되어 최적화될 수 있게 할 수 있다. 여기에서,
Figure pat00209
Figure pat00210
가 최종적인 재구축을 고 충실도(high fidelity)로 출력한다는 뜻에서 최적으로 표현될 수 있다.
실시예는 커스터마이즈된 품질 향상 네트워크보다는, 이미지 압축 및 품질 향상의 양자에 대한 조인트 엔드-투-엔드 학습 스킴을 제시할 수 있다. 따라서, 적합한 품질 향상 네트워크를 선택하기 위해, 참조 이미지 압축 방법이 다양한 품질 향상 방법들과 캐시케이스 연결들로 결합될 수 있다.
실시예에서, 이미지 압축 네트워크는 품질 향상 네트워크들의 검증된(verified) 지혜들(wisdoms)을 활용할 수 있다. 품질 향상 네트워크의 검증된 지혜들은 슈퍼-레졸루션(super-resolution) 및 아티팩트-감축(artifact-reduction)을 포함할 수 있다. 예를 들면, 품질 향상 네트워크는 매우 깊은 슈퍼 레졸루션(Very Deep Super Resolution; VDSR), 잔차 밀도 네트워크(Residual Dense Network; RDN) 및 그룹된 잔차 밀도 네트워크(Grouped Residual Dense Network; GRDN)을 포함할 수 있다.
도 9는 일 실시예에 따른 이미지 압축 네트워크의 전반적인 네트워크 아키텍처를 나타낸다.
도 9는 자동 부호기(auto encoder)인 이미지 압축 네트워크의 아키텍처를 나타낼 수 있다. 자동 부호기의 구조는 부호기(encoder) 및 복호기(decoder)에 대응할 수 있다.
말하자면, 부호기 및 복호기를 위해, 컨볼루션(convolution) 자동 부호기 구조가 사용될 수 있고, 분포 추정자
Figure pat00211
또한 콘볼루션 신경 네트워크들과 함께 구현될 수 있다.
도 9 및 이하의 도면들에서는, 이미지 압축 네트워크의 아키텍처에 대하여, 아래와 같이 약어들 및 기보법(notation)들이 사용될 수 있다:
-
Figure pat00212
Figure pat00213
를 은닉 표현성분
Figure pat00214
로 변환하기 위한 분석 변환을 나타낼 수 있다.
-
Figure pat00215
는 재구축된 이미지
Figure pat00216
를 생성하기 위한 합성(synthesis) 변환을 나타낼 수 있다.
-
Figure pat00217
Figure pat00218
의 공간적 중복성들을 은닉 표현성분
Figure pat00219
로 포착(capture)하기 위한 분석 변환을 나타낼 수 있다.
-
Figure pat00220
는 모델 추정에 대한 문맥들을 생성하기 위한 합성 변환을 나타낼 수 있다.
- "conv"가 표시된 사각형은 콘볼루션 레이어를 나타낼 수 있다.
- 콘볼루션 레이어는 "필터들의 개수"
Figure pat00221
"필터 높이"
Figure pat00222
"필터 폭" / "다운-스케일링 또는 업-스케일링의 팩터(factor)"로서 표현될 수 있다.
- "
Figure pat00223
" 및 "
Figure pat00224
"는 트랜스포스된(transposed) 콘볼루션들을 통한 업-스케일링 및 다운-스케일링을 각각 나타낼 수 있다.
- 입력 이미지는 -1 및 1 사이의 스케일로 정규화될 수 있다.
- 콘볼루션 레이어에서 "N" 및 "M"은 특징 맵 채널(feature map channel)들의 개수들을 가리킬 수 있다. 반면, 각 완전-연결된(fully-connected) 레이어 내의 "M"은 노드들의 개수 및 부수하는(accompanying) 정수의 곱일 수 있다.
- "GDN"은 일반화된 분할 정규화(Generalized Divisive Normalization; GDN)를 나타낼 수 있다. "IGDN"은 역 일반화된 분할 정규화(Inverse Generalized Divisive Normalization; IGDN)를 나타낼 수 있다.
- "ReLU"는 렐루(relu) 레이어를 나타낼 수 있다.
- "Q"는 균일 양자화 (반올림)을 나타낼 수 있다.
- "EC"는 엔트로피 부호화 프로세스을 나타낼 수 있다. "ED"는 엔트로피 복호화 프로세스을 나타낼 수 있다.
- "정규화(normalization)"는 정규화를 나타낼 수 있다.
- "비정규화(denormalization)"는 비정규화를 나타낼 수 있다.
- "abs"는 절대(absolute) 연산자(operator)을 나타낼 수 있다.
- "exp"는 자승(exponentiation) 연산자를 나타낼 수 있다.
- "
Figure pat00225
"는 모델 파라미터 추정자를 나타낼 수 있다.
-
Figure pat00226
,
Figure pat00227
Figure pat00228
는 3 개의 타입들의 문맥들을 추출하기 위한 함수(function)들을 각각 나타낼 수 있다.
이미지 압축 네트워크에서, 콘볼루션 신경 네트워크들은 변환 및 재구축 기능들을 구현하기 위해 사용될 수 있다.
도 9에서 도시된 것과 같이, 이미지 압축 네트워크 및 품질 향상 네트워크는 캐시케이드로 연결될 수 있다. 예를 들면, 품질 향상 네트워크는 GRDN일 수 있다.
율-왜곡(rate-distirtion) 최적화 및 변환 함수들에 관해 전술된 설명들이 실시예에 적용될 수 있다.
이미지 압축 네트워크는 입력 이미지
Figure pat00229
를 은닉 표현성분들
Figure pat00230
로 변환할 수 있다. 다음으로,
Figure pat00231
Figure pat00232
로 양자화될 수 있다.
이미지 압축 네트워크는 하이퍼프라이어(hyperprior)
Figure pat00233
를 사용할 수 있다.
Figure pat00234
Figure pat00235
의 공간적(spatial) 상관관계들(correlations)을 포착(capture)할 수 있다.
이미지 압축 네트워크는 4 개의 근본적인 변환 함수들을 사용할 수 있다. 변환 함수들은 전술된 분석 변환
Figure pat00236
, 합성 변환
Figure pat00237
, 분석 변환
Figure pat00238
및 합성 변환
Figure pat00239
일 수 있다.
도 9에서 도시된
Figure pat00240
,
Figure pat00241
,
Figure pat00242
Figure pat00243
에 대햇서 전술된 다른 실시예에서의 설명이 적용될 수 있다. 또한,
Figure pat00244
의 말단(end)에서는, 절대(absolute) 연산자(operator)가 아닌 자승(exponentiation) 연산자가 사용될 수 있다.
실시예의 율-왜곡에 대한 최적화 프로세스는 이미지 압축 네트워크가
Figure pat00245
Figure pat00246
의 엔트로피를 가능한 낮게 도출(yield)하는 것을 보장할 수 있다. 또한, 최적화 프로세스는 이미지 압축 네트워크가
Figure pat00247
로부터 재구축되는 출력 이미지
Figure pat00248
를 가능한 원래의 시각적(visual) 품질에 근접하도록 도출하는 것을 보장할 수 있다.
이러한 율-왜곡 최적화를 위해, 입력 이미지
Figure pat00249
및 출력 이미지
Figure pat00250
간의 왜곡이 계산될 수 있다, 율(rate)은
Figure pat00251
Figure pat00252
에 대한 사전 확률 모델들(prior probability models)에 기반하여 계산될 수 있다.
Figure pat00253
에 대하여,
Figure pat00254
와 콘볼브된 단순(simple) 제로-평균(zero-mean) 가우시안 모델이 사용될 수 있다. 단순 제로-평균 가우시안 모델의 표준 편차들은 훈련을 통해 갖춰질 수 있다. 반면, 전술된 실시예에서 설명된 것과 같이,
Figure pat00255
에 대한 사전 확률 모델은 모델 파라미터 추정자
Figure pat00256
에 의해 자동회귀 방식(auto-regressive manner)으로 추정될 수 있다.
전술된 실시예에서 설명된 것과 같이, 모델 파라미터 추정자
Figure pat00257
는 2 개의 타입들의 문맥들을 활용할 수 있다.
2 개의 타입들의 문맥들은 비트-소비(bit-consuming) 문맥
Figure pat00258
및 비트-프리(bit-free) 문맥
Figure pat00259
일 수 있다.
Figure pat00260
는 하이퍼프라이어
Figure pat00261
로부터 재구축될 수 있다.
Figure pat00262
Figure pat00263
의 인접한 알려진 표현성분들로부터 추출될 수 있다.
추가하여, 실시예에서, 모델 파라미터 추정자
Figure pat00264
는 모델 파라미터들을 더 정교하게 추정하기 위해 전역 문맥
Figure pat00265
를 활용할 수 있다.
3 개의 주어진 문맥들을 가지고,
Figure pat00266
는 (
Figure pat00267
와 콘볼브된) 가우시안 혼합 모델(Gussian Mixture Model; GMM)의 파라미터들을 추정할 수 있다. 실시예에서, GMM은
Figure pat00268
에 대한 사전 확률 모델로서 채용될 수 있다. 이러한 파라미터 추정은 EC 및 ED로 표현된 엔트로피 부호화 프로세스 및 엔트로피 복호화 프로세스에서 사용될 수 있다. 또한, 파라미터 추정은 훈련을 위한 율 항(rate term)의 계산에서도 사용될 수 있다.
도 10은 일 예에 따른 모델 파라미터 추정자의 구조를 나타낼 수 있다.
도 11은 일 예에 따른 비-로컬 문맥 프로세싱 네트워크를 나타낼 수 있다.
도 12는 일 예에 따른 오프셋-문맥 프로세싱 네트워크를 나타낼 수 있다.
도 10, 도 11 및 도 12에서는, 이미지 압축 네트워크의 아키텍처에 대하여, 아래와 같이 약어들 및 기보법(notation)들이 사용될 수 있다:
- "FCN"은 완전-연결된 네트워크(fully-connected network)를 나타낼 수 있다.
- "concat"는 연쇄(concatenation) 연산자를 나타낼 수 있다.
- "leakyReLU"는 유출되는(leaky) ReLU를 나타낼 수 있다. 유출되는 ReLU는 ReLU의 변형인 함수일 수 있으며, 유출되는(leaky) 정도가 특정되는 함수일 수 있다. 예를 들면, leakyReLU 함수에 대해 제1 설정 값 및 제2 설정 값이 설정될 수 있다. leakyReLU 함수는 입력 값이 제1 설정 값의 이하인 경우, 제1 설정 값을 출력하지 않고, 입력 값 및 제2 설정 값을 출력할 수 있다.
모델 파라미터 추정자
Figure pat00269
의 구조는
Figure pat00270
를 새로운 모델 추정자로 확장함으로써 향상될 수 있다. 새로운 모델 추정자는 모델 파라미터 추정의 능력(capability)을 향상시키기 위해 모델 파라미터 개선 모듈(Model Parameter Refinement Module; MPRM)을 접목할 수 있다.
MPRM은 2 개의 잔차(residual) 블록들을 가질 수 있다. 2 개의 잔차(residual) 블록은 오프셋-문맥(offset-context) 프로세싱 네트워크 및 비-로컬(non-local) 문맥 프로세싱 네트워크일 수 있다.
2 개의 잔차 블록들의 각각은 완전-연결된(fully-connected) 레이어들 및 대응하는(corresponding) 비-선형(non-linear) 활성(activation) 레이어들을 포함할 수 있다.
엔트로피-최소화에 대한 향상된 엔트로피 모델 및 파라미터 추정
전술된 실시예의 엔트로피-최소화 방법은 각
Figure pat00271
에 대한 사전 모델 파라미터들을 추정하기 위해 로컬 문맥들을 활용할 수 있다. 엔트로피-최소화 방법은 현재의 은닉 표현성분
Figure pat00272
에 대한 (균일 함수(uniform function)과 콘볼드된) 단일(single) 가우시안 사전 모델(Gaussian prior model)의 표준 편차 파라미터
Figure pat00273
및 평균 파라미터
Figure pat00274
를 추정하기 위해 현재의 은닉 표현성분
Figure pat00275
의 이웃 은닉 표현성분들을 활용할 수 있다.
이러한 접근방식들은 아래의 2 개의 제한들을 가질 수 있다.
(i) 단일 가우시안 모델은 은닉 표현성분들의 다양한 분포를 모델링하는데 있어서 제한된 능력을 가질 수 있다. 실시예에서는, 가우시안 혼합 모델(Gaussian Mixture Model; GMM)이 사용될 수 있다.
(ii) 이웃 은닉 표현성분들의 상관관계(correlation)들이 전체의 공간의 도메인들(spatial domains)에 걸쳐 널리펴져 존재할 때에는 이웃 은닉 표현성분들로부터 문맥 정보를 추출하는 것이 제한될 수 있다.
사전 분배들에 대한 가우시안 혼합 모델
전술된 실시예의 자동회귀 접근방식들은 각
Figure pat00276
의 분포를 모델링하기 위해 단일 가우시안 분포(또는, 가우시안 사전 모델)를 사용할 수 있다. 이러한 자동회귀 방법들의 변환 네트워크들이 단일 가우시안 분포들을 따르는 은닉 표현성분들을 생성할 수 있지만, 이러한 단일 가우시안 모델링은 은닉 표현성분들의 실제의 분포들을 예측함에 있어서 제한될 수 있으며, 따라서 차선의(sub-optimal) 성능으로 이끌 수 있다. 대신, 실시예에서는 더 일반화된 형태인 사전 확률 모델의 GMM이 사용될 수 있다. GMM은 실제의 분포들을 더 정확하게 근사할 수 있다.
아래의 수학식 10은 GMM을 사용하는 엔트로피 모델을 나타낼 수 있다.
Figure pat00277
엔트로피 모델들에 대한 공식(formulation)
기본적으로, 전술된 실시예의 수학식 9를 참조하여 전술된 R-D 최적화 프레임워크가 실시예의 엔트로피 모델을 위해 사용될 수 있다.
율 항은
Figure pat00278
Figure pat00279
에 대한 크로스-엔트로피로 구성될 수 있다.
양자화에 인한 불연속성(discontinuity)들을 다루기 위해서,
Figure pat00280
의 확률 질량 함수(Probability Mass Funtion; PMF)를 근사하기 위해 균일 함수
Figure pat00281
와 콘볼브된 밀도 함수가 사용될 수 있다. 따라서, 훈련에 있어서, 노이즈 낀 표현성분들
Figure pat00282
Figure pat00283
가 실제의 샘플 분포들을 PMF-근사 함수들로 피트(fit)시키기 위해 사용될 수 있다. 여기에서,
Figure pat00284
Figure pat00285
는 균일 분포들을 따를 수 있고,
Figure pat00286
의 평균 값은
Figure pat00287
일 수 있고,
Figure pat00288
의 평균 값은
Figure pat00289
일 수 있다.
Figure pat00290
의 분포를 모델링하기 위해, 전술된 실시예에서 설명된 것과 같이, (균일 밀도 함수와 콘볼브된) 제로-평균(zero-mean) 가우시안 밀도 함수들이 사용될 수 있다. 제로-평균 가우시안 밀도 함수들의 표준 편차들은 훈련을 통해 최적화될 수 있다.
Figure pat00291
에 대한 엔트로피 모델은 GMM에 기반하여 아래의 수학식 11 및 수학식 13와 같이 확장될 수 있다.
Figure pat00292
수학식 11에서, 아래의 수학식 12는 가우시안 혼합을 나타낼 수 있다.
Figure pat00293
수학식 11에서,
Figure pat00294
는 비-로컬 문맥들을 나타낼 수 있다.
수학식 11에서,
Figure pat00295
는 오프셋들을 나타낼 수 있다. 오프셋은 원-핫 코드될(one-hot coded) 수 있다.
수학식 11은 병합된 모델의 공식을 나타낼 수 있다. 구조적인 변경들은 수학식 11에 따른 모델 공식과는 무관할 수 있다.
Figure pat00296
Figure pat00297
는 가우시안 분포 함수들의 개수일 수 있다.
모델 파라미터 추정자
Figure pat00298
Figure pat00299
개의 파라미터들을 예측할 수 있고, 예측을 통해
Figure pat00300
개의 가우시안 분포들의 각 가우시안 분포가 그 자신의 가중치(weight) 파라미터
Figure pat00301
, 평균 파라미터
Figure pat00302
및 표준 편차 파라미터
Figure pat00303
를 가지게 할 수 있다.
평균 제곱된 에러(Mean Squared Error; MSE)는 전술된 수학식 9에서의 최적화를 위하여 왜곡 항으로서 기본적으로 사용될 수 있다. 또한, 왜곡 항으로서 다중스케일 구조적 유사도(MultiScale-Structural SIMilarity; MS-SSIM) 최적화된 모델이 사용될 수 있다.
모델 파라미터 추정을 위한 전역 문맥
도 13은 일 예에 따른 전역 문맥 지역에 매핑된 변수들을 나타낸다.
현재의 은닉 표현성분에 대한 문맥 정보를 더 잘 추출하기 위해, 사전 모델 파라미터들을 추정하기 위한 알려진 표현성분들의 전체의 영역(area)으로부터 모든 가능한 문맥들을 집계(aggregating)함으로써 전역 문맥이 사용될 수 있다.
전역 문맥의 사용을 위해, 전역 문맥은 로컬 문맥 지역(region) 및 비-로컬 문맥 지역으로부터 집계된 정보로서 정의될 수 있다.
이하에서, 용어들 "영역(area)" 및 "지역(region)"은 동일한 의미로 사용될 수 있고, 서로 교체되어 사용될 수 있다.
여기에서, 로컬 문맥 지역은 현재의 은닉 표현성분
Figure pat00304
로부터 고정된 거리 내의 지역일 수 있다.
Figure pat00305
는 고정된 거리를 나타낼 수 있다. 비-로컬 문맥 지역은 로컬 문맥 지역의 외부의(outside) 전체의 인과관계의(causal) 영역일 수 있다.
전역 문맥
Figure pat00306
로서, 전역 문맥 지역으로부터 집계된 가중치가 부여된(weighted) 평균 값 및 가중치가 부여된 표준 편차 값이 사용될 수 있다.
전역 문맥 지역은
Figure pat00307
의 채널 내의 전체의 알려진 공간적 영역일 수 있다.
Figure pat00308
는 1
Figure pat00309
1 콘볼루션 레이어를 통한
Figure pat00310
의 선형으로(linearly) 변환된 버전일 수 있다.
전역 문맥
Figure pat00311
은,
Figure pat00312
로부터 보다는,
Figure pat00313
의 서로 다른 채널들에 걸친 상관관계들을 또한 포착하기 위해
Figure pat00314
로부터 획득될 수 있다.
전역 문맥
Figure pat00315
은 아래의 수학식 14와 같이 표현될 수 있다.
Figure pat00316
전역 문맥
Figure pat00317
은 가중치가 부여된 평균
Figure pat00318
및 가중치가 부여된 표준 편차
Figure pat00319
를 포함할 수 있다.
Figure pat00320
는 아래의 수학식 15와 같이 정의될 수 있다.
Figure pat00321
Figure pat00322
는 아래의 수학식 16과 같이 정의될 수 있다.
Figure pat00323
Figure pat00324
는 아래의 수학식 17과 같이 정의될 수 있다.
Figure pat00325
Figure pat00326
Figure pat00327
번째 채널 내에서 현재의 위치
Figure pat00328
를 가리키는 3-차원 시공간-채널-별(spatio-channel-wise) 위치(position) 인덱스일 수 있다.
Figure pat00329
는 현재의 위치
Figure pat00330
에 기반한 상대적 좌표들
Figure pat00331
에 대한 가중치 변수일 수 있다.
Figure pat00332
는 전역 문맥 지역
Figure pat00333
내에서, 위치
Figure pat00334
에서의
Figure pat00335
의 표현성분일 수 있다.
Figure pat00336
Figure pat00337
Figure pat00338
번째 채널 내에서의 2-차원 표현성분들일 수 있다.
Figure pat00339
내의 가중치 변수들은 정규화된 가중치들일 수 있다. 정규화된 가중치들은 요소-별로(element-wise)
Figure pat00340
에 곱해질 수 있다. 수학식 15에서. 가중치 변수들은 가중치가 부여된 평균을 위하여 요소 별로
Figure pat00341
에 곱해질 수 있다. 수학식 16에서. 가중치 변수들은
Figure pat00342
의 차이 제곱(difference square)들로 곱해질 수 있다.
실시예에서, 키 이슈는 모든 위치
Figure pat00343
에서 가중치 변수들
Figure pat00344
의 최적의 세트를 발견하는 것일 수 있다. 고정된 개수의 훈련가능한 변수들
Figure pat00345
로부터
Figure pat00346
를 획득하기 위해,
Figure pat00347
는 2-차원 확장(extension)에서 1-차원 전역 문맥 지역을 추출하는 스킴에 기반하여 추정될 수 있다.
도 13에서는, 1) 고정된 거리
Figure pat00348
내의 로컬 문맥 지역 및 2) 가변의 크기를 갖는 비-로컬 문맥 지역을 포함하는 전역 문맥 지역이 도시된다.
로컬 문맥 지역은 훈련가능한 변수들
Figure pat00349
에 의해 커버될 수 있다. 비-로컬 문맥 지역은 로컬 문맥 영역의 외부(outside)일 수 있다.
전역 문맥 추출에서, 비-로컬 문맥 지역은 로컬 문맥 영역을 정의하는 지역 문맥 윈도우가 특징 맵 상으로 슬라이드됨에 따라 확대될 수 있다. 비-로컬 문맥 지역이 확대됨에 따라 가중치 변수들
Figure pat00350
의 개수는 증가할 수 있다.
훈련가능한 변수들
Figure pat00351
의 고정된 크기에 의해 커버될 수 없는 비-로컬 문맥 지역을 다루기 위해, 도 13에서 도시된 것과 같이, 가장 가까운 로컬 문맥 지역에 할당된
Figure pat00352
의 변수가 비-로컬 문맥 지역 내의 각 공간적 위치에 대해 사용될 수 있다.
그 결과로서, 훈련가능한 변수들
Figure pat00353
의 집합
Figure pat00354
이 획득될 수 있다.
Figure pat00355
는 전역 문맥 지역에 대응할 수 있다.
다음으로,
Figure pat00356
는 아래의 수학식 18 같이 소프트맥스(softmax)를 통해
Figure pat00357
를 정규화함으로써 계산될 수 있다.
Figure pat00358
Figure pat00359
는 아래의 수학식 19과 같이 정의될 수 있다.
Figure pat00360
Figure pat00361
는 아래의 수학식 20과 같이 정의될 수 있다.
Figure pat00362
동일한 채널 내에서(즉, 동일한 공간적 특징 공간에 걸쳐) 아래의 수학식 21이 성립할 수 있다.
Figure pat00363
Figure pat00364
의 몇 개의 채널들에 대하여, 훈련된
Figure pat00365
의 예들이 시각화될 수 있다. 예를 들면, 채널의 문맥은 현재 은닉 표현성분의 바로 옆에 있는 이웃 표현성분에 의존할 수 있다. 또는, 채널의 문맥은 넓게 확산된 이웃 표현성분들에 의존할 수 있다.
도 14는 일 실시예에 따른 GRDN의 구조를 나타낸다.
구현에서는, 중간의(intermediate) 재구축이 GRDN으로 입력될 수 있고, 최종의 재구축이 GRDN으로부터 출력될 수 있다.
도 14에서는, GRDN의 아키텍처에 대하여, 아래와 같이 약어들 및 기보법(notation)들이 사용될 수 있다:
- "GRDB"는 그룹된 잔차 밀도 블록(Grouped Residual Dense Block; GRDB)를 나타낼 수 있다.
- "CBAM"은 콘볼루션 블록 어텐션 모듈(Convolutional Block Attention Module; CBAM)을 나타낼 수 있다.
- "Conv. Up"은 콘볼루션 업-샘플링을 나타낼 수 있다.
- "+"는 합(addition) 연산을 나타낼 수 있다.
도 15는 일 실시예에 따른 GRDN의 GRDB의 구조를 나타낸다.
도 15에서는, GRDB의 아키텍처에 대하여, 아래와 같이 약어들 및 기보법(notation)들이 사용될 수 있다:
- "RDB"는 잔차 밀도 블록(Residual Dense Block; RDB)을 나타낼 수 있다.
도 16은 일 실시예에 따른 GRDB의 RDB의 구조를 나타낸다.
도 14, 도 15 및 도 16을 참조하여 예시된 것과 같이, GRDN의 구현을 위해 4 개의 GRDB들이 사용될 수 있다. 또한, 각 GRDB를 위해 3 개의 RDB들이 사용될 수 있다. 각 RDB를 위해 3 개의 콘볼루션 레이어들이 사용될 수 있다.
부호기-복호기 모델
도 17은 실시예에 따른 부호기를 나타낸다.
도 17에서, 우측의 작은 아이콘들은 엔트로피-부호화된 비트스트림을 나타낼 수 있다.
도 17에서, EC는 엔트로피 코딩(즉, 엔트로피 인코딩)을 나타낼 수 있다.
Figure pat00366
는 균일 잡음 추가 또는 균일 양자화를 나타낼 수 있다.
또한, 도 17에서, 노이즈가 낀 표현성분들은 점선들(dotted lines)로 도시되었다. 실시예에서, 노이즈가 낀 표현성분들은 엔트로피 모델들로의 입력으로서 단지 훈련을 위해 사용될 수 있다.
도 17에서 도시된 것과 같이, 부호기는 도 9를 참조하여 전술된 자동 부호기에서 부호화 프로세스에 대한 요소들을 포함할 수 있고, 자동 부호기의 부호화를 수행할 수 있다. 말하자면, 실시예의 부호기는 도 9를 참조하여 전술된 자동 부호기가 입력 이미지에 대한 부호화를 수행하는 측면으로 보인 것일 수 있다.
따라서, 도 9를 참조하여 전술된 자동 부호기에 대한 설명은 본 실시예의 부호기에도 적용될 수 있다.
부호기 및 복호기의 동작들 및 상호작용(interaction)에 대해서 아래에서 더 상세하게 설명된다.
도 18은 실시예에 따른 복호기를 나타낸다.
도 18에서, 좌측의 작은 아이콘들은 엔트로피-부호화된 비트스트림을 나타낼 수 있다.
ED는 엔트로피 디코딩을 나타낼 수 있다.
도 18에서 도시된 것과 같이, 복호기는 도 9를 참조하여 전술된 자동 부호기에서 복호화 프로세스에 대한 요소들을 포함할 수 있고, 자동 부호기의 복호화를 수행할 수 있다. 말하자면, 실시예의 복호기는 도 9를 참조하여 전술된 자동 복호기가 입력 이미지에 대한 복호화를 수행하는 측면으로 보인 것일 수 있다.
따라서, 도 9를 참조하여 전술된 자동 부호기에 대한 설명은 본 실시예의 복복호기에도 적용될 수 있다.
부호기 및 복호기의 동작들 및 상호작용에 대해서 아래에서 더 상세하게 설명된다.
부호기는 입력 이미지를 은닉 표현성분들로 변환할 수 있다. 부호기는 은닉 표현성분들을 양자화함으로써 양자화된 은닉 표현성분들을 생성할 수 있다. 또한, 부호기는 양자화된 은닉 표현성분들에 대해 훈련된 엔트로피 모델을 사용하는 엔트로피-부호화을 수행함으로서 엔트로피-인코딩된 은닉 표현성분들을 생성할 수 있고, 엔트로피-부호화된 은닉 표현성분들을 비트스트림으로서 출력할 수 있다.
훈련된 엔트로피 모델은 부호기 및 복호기 간에 공유될 수 있다. 말하자면, 훈련된 엔트로피 모델은 공유된 엔트로피 모델로도 칭해질 수 있다.
반면, 복호기는 비트스트림을 통해 엔트로피-부호화된 은닉 표현성분들을 수신할 수 있다. 복호기는 엔트로피-인코딩된 은닉 표현성분들에 대해 공유된 엔트로피 모델을 사용하는 엔트로피-디코딩을 수행함으로써 은닉 표현성분들을 생성할 수 있다. 복호기는 은닉 표현성분들을 사용하여 재구축된 이미지를 생성할 수 있다.
부호기 및 복호기에 있어서, 모든 파라미터들은 이미 훈련된 것으로 가정될 수 있다.
부호기-복호기 모델의 구조(structure)는 기본적으로
Figure pat00367
Figure pat00368
를 포함할 수 있다.
Figure pat00369
Figure pat00370
Figure pat00371
로의 변환을 담당할 수 있으며,
Figure pat00372
Figure pat00373
의 변환에 대한 역변환(inverse transform)을 담당할 수 있다.
변환된
Figure pat00374
는 라운딩에 의해
Figure pat00375
로 균일하게 양자화될 수 있다.
여기에서, 기존의 코덱들과는 다르게, 엔트로피 모델들에 기반한 접근방식들의 경우에는, 표현성분들의 스케일들이 훈련에 의해 함께 최적화되기 때문에 양자화 스텝들에 대한 튜닝은 일반적으로 불필요할 수 있다.
Figure pat00376
Figure pat00377
의 사이의 다른 구성요소들은 1) 공유된 엔트로피 모델들 및 2) 기저에 있는(underlying) 문맥 준비(preparation) 프로세스들을 가지고 엔트로피 부호화(또는, 엔트로피 복호화)의 역할을 수행할 수 있다.
보다 구체적으로, 엔트로피 모델은 각
Figure pat00378
의 분포를 개별적으로 추정할 수 있다. 각
Figure pat00379
의 분포의 추정에 있어서,
Figure pat00380
,
Figure pat00381
Figure pat00382
는 주어진 문맥들의 3 개의 타입들인
Figure pat00383
,
Figure pat00384
Figure pat00385
을 가지고 추정될 수 있다.
이러한 문맥들 중에서,
Figure pat00386
는 추가의 비트 할당을 요구하는 부가 정보일 수 있다.
Figure pat00387
를 운반하기 위해 요구되는 비트-레이트를 감소시키기 위해,
Figure pat00388
로부터 변환된 은닉 표현성분
Figure pat00389
Figure pat00390
자신의 엔트로피 모델에 의해 양자화 및 엔트로피-부호화될 수 있다.
반면,
Figure pat00391
는 어떤 추가의 비트 할당 없이
Figure pat00392
로부터 추출될 수 있다. 여기에서,
Figure pat00393
는 엔트로피 부호화 또는 엔트로피 복호화 진행함에 따라 변할 수 있다. 그러나,
Figure pat00394
는 동일한
Figure pat00395
를 처리함에 있어서 언제나 부호기 및 복호기의 양자 내에서 동일할 수 있다.
Figure pat00396
Figure pat00397
로부터 추출될 수 있다.
Figure pat00398
의 파라미터들 및 엔트로피 모델들은 부호기 및 복호기의 양자에 의해 단순하게 공유될 수 있다.
훈련이 진행되는 동안 엔트로피 모델들로의 입력들은 노이즈 낀 표현성분들일 수 있다. 노이즈 낀 표현성분들은 엔트로피 모델이 이산 표현성분들의 확률 질량 함수들에 근사하도록 할 수 있다.
도 19는 일 실시예에 따른 부호화 장치의 구조도이다.
부호화 장치(1900)는 버스(1990)를 통하여 서로 통신하는 처리부(1910), 메모리(1930), 사용자 인터페이스(User Interface; UI) 입력 디바이스(1950), UI 출력 디바이스(1960) 및 저장소(storage)(1940)를 포함할 수 있다. 또한, 부호화 장치(1900)는 네트워크(1999)에 연결되는 통신부(1920)를 더 포함할 수 있다.
처리부(1910)는 중앙 처리 장치(Central Processing Unit; CPU), 메모리(1930) 또는 저장소(1940)에 저장된 프로세싱(processing) 명령어(instruction)들을 실행하는 반도체 장치일 수 있다. 처리부(1910)는 적어도 하나의 하드웨어 프로세서일 수 있다.
처리부(1910)는 장치(1900)로 입력되거나, 장치(1900)에서 출력되거나, 장치(1900)의 내부에서 사용되는 신호, 데이터 또는 정보의 생성 및 처리를 수행할 수 있고, 신호, 데이터 또는 정보에 관련된 검사, 비교 및 판단 등을 수행할 수 있다. 말하자면, 실시예에서 데이터 또는 정보의 생성 및 처리와, 데이터 또는 정보에 관련된 검사, 비교 및 판단은 처리부(1910)에 의해 수행될 수 있다.
처리부(1910)를 구성하는 요소들의 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 부호화 장치(1900)에 포함될 수 있다.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 부호화 장치(1900)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴퍼넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.
프로그램 모듈들은 부호화 장치(1900)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.
처리부(1910)는 전술된 부호화기에 대응할 수 있다. 말하자면, 도 17을 참조하여 전술된 부호화기 및 도 9를 참조하여 전술된 자동 부호기의 부호화에 대한 동작은 처리부(1910)에 의해 수행될 수 있다.
저장부는 메모리(1930) 및/또는 저장소(1940)를 나타낼 수 있다. 메모리(1930) 및 저장소(1940)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들면, 메모리(1930)는 롬(ROM)(1931) 및 램(RAM)(1932) 중 적어도 하나를 포함할 수 있다.
저장부는 부호화 장치(1900)의 동작을 위해 사용되는 데이터 또는 정보를 저장할 수 있다. 실시예에서, 부호화 장치(1900)가 갖는 데이터 또는 정보는 저장부 내에 저장될 수 있다.
부호화 장치(1900)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.
기록 매체는 부호화 장치(1900)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다. 메모리(1930)는 적어도 하나의 모듈을 저장할 수 있고, 적어도 하나의 모듈이 처리부(1910)에 의하여 실행되도록 구성될 수 있다.
부호화 장치(1900)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(1920)를 통해 수행될 수 있다.
네트워크(1999)는 부호화 장치(1900) 및 복호화 장치(2000) 간의 통신을 제공할 수 있다.
도 20은 일 실시예에 따른 복호화 장치의 구조도이다.
복호화 장치(2000)는 버스(2090)를 통하여 서로 통신하는 처리부(2010), 메모리(2030), 사용자 인터페이스(User Interface; UI) 입력 디바이스(2050), UI 출력 디바이스(2060) 및 저장소(storage)(2040)를 포함할 수 있다. 또한, 복호화 장치(2000)는 네트워크(2099)에 연결되는 통신부(2020)를 더 포함할 수 있다.
처리부(2010)는 중앙 처리 장치(Central Processing Unit; CPU), 메모리(2030) 또는 저장소(2040)에 저장된 프로세싱(processing) 명령어(instruction)들을 실행하는 반도체 장치일 수 있다. 처리부(2010)는 적어도 하나의 하드웨어 프로세서일 수 있다.
처리부(2010)는 장치(2000)로 입력되거나, 장치(2000)에서 출력되거나, 장치(2000)의 내부에서 사용되는 신호, 데이터 또는 정보의 생성 및 처리를 수행할 수 있고, 신호, 데이터 또는 정보에 관련된 검사, 비교 및 판단 등을 수행할 수 있다. 말하자면, 실시예에서 데이터 또는 정보의 생성 및 처리와, 데이터 또는 정보에 관련된 검사, 비교 및 판단은 처리부(2010)에 의해 수행될 수 있다.
처리부(2010)를 구성하는 요소들의 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 복호화 장치(2000)에 포함될 수 있다.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 복호화 장치(2000)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴퍼넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.
프로그램 모듈들은 복호화 장치(2000)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.
처리부(2010)는 전술된 복호화기에 대응할 수 있다. 말하자면, 도 18을 참조하여 전술된 복호화기 및 도 9를 참조하여 전술된 자동 부호기의 복호화에 대한 동작은 처리부(2010)에 의해 수행될 수 있다.
저장부는 메모리(2030) 및/또는 저장소(2040)를 나타낼 수 있다. 메모리(2030) 및 저장소(2040)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들면, 메모리(2030)는 롬(ROM)(2031) 및 램(RAM)(2032) 중 적어도 하나를 포함할 수 있다.
저장부는 복호화 장치(2000)의 동작을 위해 사용되는 데이터 또는 정보를 저장할 수 있다. 실시예에서, 복호화 장치(2000)가 갖는 데이터 또는 정보는 저장부 내에 저장될 수 있다.
복호화 장치(2000)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.
기록 매체는 복호화 장치(2000)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다. 메모리(2030)는 적어도 하나의 모듈을 저장할 수 있고, 적어도 하나의 모듈이 처리부(2010)에 의하여 실행되도록 구성될 수 있다.
복호화 장치(2000)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(2020)를 통해 수행될 수 있다.
네트워크(2099)는 부호화 장치(1900) 및 복호화 장치(2000) 간의 통신을 제공할 수 있다.
도 21는 일 실시예에 따른 부호화 방법의 흐름도이다.
단계(2110)에서, 부호화 장치(1900)의 처리부(1910)는 비트스트림을 생성할 수 있다.
처리부(1910)는 입력 이미지에 대해 엔트로피 모델을 사용하는 엔트로피 부호화를 수행하여 비트스트림을 생성할 수 있다.
처리부(1910)는 도 17을 참조하여 전술된 부호화기 및 도 9를 참조하여 전술된 자동 부호기의 부호화에 대한 동작을 수행할 수 있다. 처리부(1910)는 부호화에 있어서 이미지 압축 네트워크 및 품질 향상 네트워트를 사용할 수 있다.
단계(2120)에서, 부호화 장치(1900)의 통신부(1920)는 비트스트림을 전송할 수 있다. 통신부(1920)는 비트스트림을 복호화 장치(2000)로 전송할 수 있다. 또는, 비트스트림은 부호화 장치(1900)의 저장부에 저장될 수 있다.
전술된 실시예에서 설명된 이미지의 엔트로피 부호화 및 엔트로피 엔진에 관련된 내용은 본 실시예에도 적용될 수 있다. 중복되는 설명은 생략된다.
도 22는 일 실시예에 따른 복호화 방법의 흐름도이다.
단계(2210)에서, 복호화 장치(2000)의 통신부(2020) 또는 저장부는 비트스트림을 획득할 수 있다.
단계(2220)에서, 복호화 장치(2000)의 처리부(2010)는 비트스트림을 사용하여 재구축된 이미지를 생성할 수 있다.
복호화 장치(2000)의 처리부(2010)는 비트스트림에 대해 엔트로피 모델을 사용하는 복호화를 수행하여 재구축된 이미지를 생성할 수 있다.
처리부(2010)는 도 18을 참조하여 전술된 복호화기 및 도 9를 참조하여 전술된 자동 부호기의 복호화에 대한 동작을 수행할 수 있다.
처리부(2010)는 복호화에 있어서 이미지 압축 네트워크 및 품질 향상 네트워트를 사용할 수 있다.
전술된 실시예에서 설명된 이미지의 엔트로피 복호화 및 엔트로피 엔진에 관련된 내용은 본 실시예에도 적용될 수 있다. 중복되는 설명은 생략된다.
이미지에 대한 패딩
도 23은 일 예에 따른 입력 이미지로의 패딩을 나타낸다.
도 23에서는, 입력 이미지의 중심부로의 패딩을 통해, 입력 이미지의 크기가 w
Figure pat00399
y로부터 w + pw
Figure pat00400
h + ph로 변하는 것이 도시되었다.
고수준의 MS-SSIM을 획득하기 위해 패딩 방법이 사용될 수 있다.
실시예의 이미지 압축 방법에서는, y 생성 및 z 생성의 단계에서 1/2의 다운-스케일링이 수행될 수 있다. 따라서, 입력 이미지의 크기가 2 n 의 배수일 경우에, 최대의 압축 성능이 도출될 수 있다. 여기에서, n은 입력 이미지에 대한 다운-스캐일링의 개수일 수 있다.
예를 들면, 도 9를 참조하여 전술된 실시예에서는 x로부터 y로의 1/2 다운-스케일링이 4회 수행될 수 있고, y로부터 z로의 1/2 다운-스케일링이 2회 수행될 수 있다. 따라서, 입력 이미지의 크기는 26(= 64)의 배수가 되는 것이 바람직할 수 있다.
또한, 패딩의 위치와 관련하여, MS-SSIM과 같은 특정된 방식이 사용되는 경우, 입력 이미지의 경계에 대한 패딩보다, 입력 이미지의 중심부에 패딩이 이루어지는 것이 더 바람직하다.
도 24는 일 실시예에 따른 부호화에서의 패딩을 위한 코드를 나타낸다.
도 25는 일 실시예에 따른 부호화에서의 패딩 방법의 흐름도이다.
도 21을 참조하여 전술된 단계(2110)는 단계들(2510, 2520, 2530 및 2540)을 포함할 수 있다.
이하에서, 기준 값 k는 2 n 일 수 있다. n은 이미지 압축 네트워크에서의 입력 이미지에 대한 다운-스케일링들의 개수일 수 있다.
단계(2510)에서, 처리부(1910)는 입력 이미지에 수평 방향의 패딩을 적용할지 여부를 판단할 수 있다.
수평 방향의 패딩은 입력 이미지의 수직 축 상의 중심에 하나 이상의 행들을 삽입하는 것일 수 있다.
예를 들면, 처리부(1910)는 입력 이미지의 높이 h 및 기준 값 k에 기반하여 입력 이미지에 수평 방향의 패딩을 적용할지 여부를 판단할 수 있다. 처리부(1910)는 입력 이미지의 높이 h가 기준 값 k의 배수가 아니면 입력 이미지에 수평 방향의 패딩을 적용할 수 있다. 처리부(1910)는 입력 이미지의 높이 h가 기준 값 k의 배수이면 입력 이미지에 수평 방향의 패딩을 적용하지 않을 수 있다.
입력 이미지에 수평 방향의 패딩을 적용하는 경우 단계(2520)가 수행될 수 있다.
입력 이미지에 수평 방향의 패딩을 적용하지 않는 경우 단계(2530)가 수행될 수 있다.
단계(2520)에서, 처리부(1910)는 입력 이미지에 수평 방향의 패딩을 적용할 수 있다. 처리부(1910)는 입력 이미지의 상측 영역 및 입력 이미지의 하측 영역 사이에 패딩 영역을 추가할 수 있다.
처리부(1910)는 입력 이미지에 수평 방향의 패딩을 적용함으로써 입력 이미지의 높이를 기준 값 k의 배수가 되도록 조정할 수 있다.
예를 들면, 처리부(1910)는 입력 이미지를 수직 방향으로 분리함으로써 상단 이미지 및 하단 이미지를 생성할 수 있다. 처리부(1910)는 상단 이미지 및 하단 이미지의 사이에 패딩을 적용할 수 있다. 처리부(1910)는 패딩 영역을 생성할 수 있다. 처리부(1910)는 상단 이미지, 패딩 영역 및 하단 이미지를 결합함으로써 높이가 조절된 입력 이미지를 생성할 수 있다.
여기에서, 패딩은 모서리(edge) 패딩일 수 있다.
단계(2530)에서, 처리부(1910)는 입력 이미지에 수직 방향의 패딩을 적용할지 여부를 판단할 수 있다.
수직 방향의 패딩은 입력 이미지의 수평 축 상의 중심에 하나 이상의 열들을 삽입하는 것일 수 있다.
예를 들면, 처리부(1910)는 입력 이미지의 넓이 w 및 기준 값 k에 기반하여 입력 이미지에 수직 방향의 패딩을 적용할지 여부를 판단할 수 있다. 처리부(1910)는 입력 이미지의 넓이 w가 기준 값 k의 배수가 아니면 입력 이미지에 수직 방향의 패딩을 적용할 수 있다. 처리부(1910)는 입력 이미지의 넓이 w가 기준 값 k의 배수이면 입력 이미지에 수직 방향의 패딩을 적용하지 않을 수 있다.
입력 이미지에 수직 방향의 패딩을 적용하는 경우 단계(2540)가 수행될 수 있다.
입력 이미지에 수직 방향의 패딩을 적용하지 않는 경우 절차가 종료할 수 있다.
단계(2540)에서, 처리부(1910)는 입력 이미지에 수직 방향의 패딩을 적용할 수 있다. 처리부(1910)는 입력 이미지의 좌측 영역 및 입력 이미지의 우측 영역 사이에 패딩 영역을 추가할 수 있다.
처리부(1910)는 입력 이미지에 수직 방향의 패딩을 적용함으로써 입력 이미지의 폭을 기준 값 k의 배수가 되도록 조정할 수 있다.
예를 들면, 처리부(1910)는 입력 이미지를 수직 방향으로 분리함으로써 좌측 이미지 및 우측 이미지를 생성할 수 있다. 처리부(1910)는 좌측 이미지 및 우측 이미지의 사이에 패딩을 적용할 수 있다. 처리부(1910)는 패딩 영역을 생성할 수 있다. 처리부(1910)는 좌측 이미지, 패딩 영역 및 우측 이미지를 결합함으로써 폭이 조절된 입력 이미지를 생성할 수 있다.
여기에서, 패딩은 모서리(edge) 패딩일 수 있다.
전술된 단계들(2510, 2520, 2530 및 2540)의 패딩을 통해 패딩된 이미지가 생성될 수 있다. 패딩된 이미지의 폭 및 높이는 각각 기준 값 k의 배수일 수 있다.
패딩된 이미지는 입력 이미지를 대체하여 사용될 수 있다.
도 26은 일 실시예에 따른 부호화에서의 패딩 영역의 제거를 위한 코드를 나타낸다.
도 27은 일 실시예에 따른 부호화에서의 패딩의 제거 방법의 흐름도이다.
도 22를 참조하여 전술된 단계(2220)는 단계들(2710, 2720, 2730 및 2740)을 포함할 수 있다.
이하에서, 대상 이미지는 도 25를 참조하여 전술된 실시예의 패딩이 적용된 이미지에 대해 재구축된 이미지일 수 있다. 말하자면, 대상 이미지는 입력 이미지에 대한, 패딩, 부호화 및 복호화를 통해 생성된 이미지일 수 있다. 이하에서, 원 이미지의 높이 h는 수평 방향의 패딩이 적용되기 전의 입력 이미지의 높이를 의미할 수 있다. 원 이미지의 폭 w는 수직 방향의 패딩이 적용되기 전의 입력 이미지의 폭을 의미할 수 있다.
이하에서, 기준 값 k는 2 n 일 수 있다. n은 이미지 압축 네트워크에서의 입력 이미지에 대한 다운-스케일링들의 개수일 수 있다.
단계(2710)에서, 처리부(2010)는 대상 이미지로부터 수평 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다.
수평 방향의 패딩 영역의 제거는 대상 이미지의 수직 축 상의 중심에서 하나 이상의 행들을 제거하는 것일 수 있다.
예를 들면, 처리부(2010)는 원 이미지의 높이 h 및 기준 값 k에 기반하여 대상 이미지로부터 수평 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다. 처리부(2010)는 원 이미지의 높이 h가 기준 값 k의 배수가 아니면 대상 이미지로부터 수평 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 원 이미지의 높이 h가 기준 값 k의 배수이면 대상 이미지로부터 수평 방향의 패딩 영역을 제거하지 않을 수 있다.
예를 들면, 처리부(2010)는 원 이미지의 높이 h 및 대상 이미지의 높이에 기반하여 이미지로부터 대상 이미지로부터 수평 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다. 처리부(2010)는 원 이미지의 높이 h 및 대상 이미지의 높이가 동일하지 않으면 대상 이미지로부터 수평 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 원 이미지의 높이 h 및 대상 이미지의 높이가 동일하면 대상 이미지로부터 수평 방향의 패딩 영역을 제거하지 않을 수 있다.
대상 이미지로부터 수평 방향의 패딩 영역을 제거하는 경우 단계(2720)가 수행될 수 있다.
대상 이미지로부터 수평 방향의 패딩 영역을 제거하지 않는 경우 단계(2730)가 수행될 수 있다.
단계(2720)에서, 처리부(2010)는 대상 이미지로부터 수평 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 대상 이미지의 상측 영역 및 입력 이미지의 하측 영역 사이의 패딩 영역을 제거할 수 있다.
예를 들면, 처리부(2010)는 대상 이미지로부터 수평 방향의 패딩 영역을 제거함으로써 상단 이미지 및 하단 이미지를 생성할 수 있다. 처리부(2010)는 상단 이미지 및 하단 이미지를 결합함으로써 대상 이미지의 높이를 조절할 수 있다.
패딩 영역의 제거를 통해 대상 이미지의 높이가 원 이미지의 높이 h와 동일하게 될 수 있다.
여기에서, 패딩 영역은 모서리(edge) 패딩에 의해 생성된 영역일 수 있다.
단계(2730)에서, 처리부(2010)는 대상 이미지로부터 수직 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다.
수직 방향의 패딩 영역의 제거는 대상 이미지의 수평 축 상의 중심에서 하나 이상의 열들을 제거하는 것일 수 있다.
예를 들면, 처리부(2010)는 원 이미지의 넓이 w 및 기준 값 k에 기반하여 대상 이미지로부터 수직 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다. 처리부(2010)는 원 이미지의 넓이 w가 기준 값 k의 배수가 아니면 대상 이미지로부터 수직 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 원 이미지의 넓이 w가 기준 값 k의 배수이면 대상 이미지로부터 수직 방향의 패딩 영역을 제거하지 않을 수 있다.
예를 들면, 처리부(2010)는 원 이미지의 넓이 w 및 대상 이미지의 넓이에 기반하여 이미지로부터 대상 이미지로부터 수직 방향의 패딩 영역을 제거할지 여부를 판단할 수 있다. 처리부(2010)는 원 이미지의 넓이 w 및 대상 이미지의 넓이가 동일하지 않으면 대상 이미지로부터 수직 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 원 이미지의 넓이 w 및 대상 이미지의 넓이가 동일하면 대상 이미지로부터 수직 방향의 패딩 영역을 제거하지 않을 수 있다.
대상 이미지로부터 수직 방향의 패딩 영역을 제거하는 경우 단계(2740)가 수행될 수 있다.
대상 이미지로부터 수직 방향의 패딩 영역을 제거하지 않는 경우 절차가 종료할 수 있다.
단계(2740)에서, 처리부(2010)는 대상 이미지로부터 수직 방향의 패딩 영역을 제거할 수 있다. 처리부(2010)는 대상 이미지의 좌측 영역 및 입력 이미지의 우측 영역 사이의 패딩 영역을 제거할 수 있다.
예를 들면, 처리부(2010)는 대상 이미지로부터 수직 방향의 패딩 영역을 제거함으로써 좌측 이미지 및 우측 이미지를 생성할 수 있다. 처리부(2010)는 좌측 이미지 및 우측 이미지를 결합함으로써 대상 이미지의 폭을 조절할 수 있다.
여기에서, 패딩 영역은 모서리(edge) 패딩에 의해 생성된 영역일 수 있다.
전술된 단계들(2710, 2720, 2730 및 2740)에 의해 대상 이미지로부터 패딩이 제거될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.
컴퓨터 판독 가능한 기록 매체는 본 발명에 따른 실시예들에서 사용되는 정보를 포함할 수 있다. 예를 들면, 컴퓨터 판독 가능한 기록 매체는 비트스트림을 포함할 수 있고, 비트스트림은 본 발명에 따른 실시예들에서 설명된 정보를 포함할 수 있다.
컴퓨터 판독 가능한 기록 매체는 비-일시적 컴퓨터 판독 가능한 매체(non-transitory computer-readable medium)를 포함할 수 있다.
상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
실시예에서 설명된 장치는 하나 이상의 프로세서들을 포함할 수 있고, 메모리를 포함할 수 있다. 메모리는 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장할 수 있다. 하나 이상의 프로그램들은 실시예에서 설명된 장치의 동작을 수행할 수 있다. 예를 들면, 장치의 하나 이상의 프로그램들은 전술된 단계들 중 장치와 관련된 단계에서 설명된 동작을 수행할 수 있다. 말하자면, 실시예에서 설명된 장치의 동작은 하나 이상의 프로그램들에 의해 실행될 수 있다. 하나 이상의 프로그램들은 실시예에서 전술된 장치의 프로그램, 어플리케이션 및 앱 등을 포함할 수 있다. 예를 들면, 하나 이상의 프로그램들 중 하나의 프로그램은 실시예에서 전술된 장치의 프로그램, 어플리케이션 및 앱에 대응할 수 있다.

Claims (20)

  1. 입력 이미지에 대해 엔트로피 모델을 사용하는 엔트로피 부호화를 수행하여 비트스트림을 생성하는 단계; 및
    상기 비트스트림을 전송 또는 저장하는 단계
    를 포함하는 부호화 방법.
  2. 제1항에 있어서,
    상기 엔트로피 모델은 문맥-적응형 엔트로피 모델이고,
    상기 문맥-적응형 엔트로피 모델은 문맥들의 서로 상이한 3 개의 타입들을 활용하는 부호화 방법.
  3. 제2항에 있어서,
    상기 문맥들은 가우시안 혼합 모델의 파라미터를 추정하기 위해 사용되는 부호화 방법.
  4. 제3항에 있어서,
    상기 파라미터는 가중치 파라미터, 평균 파라미터 및 표준 편차 파라미터를 포함하는 부호화 방법.
  5. 제1항에 있어서,
    상기 엔트로피 모델은 문맥-적응형 엔트로피 모델이고,
    상기 문맥-적응형 엔트로피 모델은 전역 문맥을 사용하는 부호화 방법.
  6. 제1항에 있어서,
    상기 엔트로피 부호화는 이미지 압축 네트워크 및 품질 향상 네트워크의 결합에 의해 수행되는 부호화 방법.
  7. 제6항에 있어서,
    상기 품질 향상 네트워크는 매우 깊은 슈퍼 레졸루션(Very Deep Super Resolution; VDSR), 잔차 밀도 네트워크(Residual Dense Network; RDN) 또는 그룹된 잔차 밀도 네트워크(Grouped Residual Dense Network; GRDN)인 부호화 방법.
  8. 제1항에 있어서,
    상기 입력 이미지에 수평 방향의 패딩 또는 수직 방향의 패딩이 적용되고,
    상기 수평 방향의 패딩은 상기 입력 이미지의 수직 축 상의 중심에 하나 이상의 행들을 삽입하는 것이고,
    상기 수직 방향의 패딩은 상기 입력 이미지의 수평 축 상의 중심에 하나 이상의 열들을 삽입하는 것인 부호화 방법.
  9. 제8항에 있어서,
    상기 수평 방향의 패딩은 상기 입력 이미지의 높이가 k의 배수가 아닐 경우에 수행되고,
    상기 수직 방향의 패딩은 상기 입력 이미지의 폭이 k의 배수가 아닐 경우에 수행되고,
    상기 k는 2n이고,
    상기 n은 상기 입력 이미지에 대한 다운-스케일링들의 개수인 부호화 방법.
  10. 제1항에 기재된 부호화 방법에 의하여 생성된 상기 비트스트림을 기록하는 기록 매체.
  11. 비트스트림을 획득하는 통신부; 및
    상기 비트스트림에 대해 엔트로피 모델을 사용하는 복호화를 수행하여 재구축된 이미지를 생성하는 처리부
    를 포함하는 복호화 장치.
  12. 비트스트림을 획득하는 단계; 및
    상기 비트스트림에 대해 엔트로피 모델을 사용하는 복호화를 수행하여 재구축된 이미지를 생성하는 단계
    를 포함하는 복호화 방법.
  13. 제12항에 있어서,
    상기 엔트로피 모델은 문맥-적응형 엔트로피 모델이고,
    상기 문맥-적응형 엔트로피 모델은 문맥들의 서로 상이한 3 개의 타입들을 활용하는 복호화 방법.
  14. 제13항에 있어서,
    상기 문맥들은 가우시안 혼합 모델의 파라미터를 추정하기 위해 사용되는 복호화 방법.
  15. 제14항에 있어서,
    상기 파라미터는 가중치 파라미터, 평균 파라미터 및 표준 편차 파라미터를 포함하는 복호화 방법.
  16. 제12항에 있어서,
    상기 엔트로피 모델은 문맥-적응형 엔트로피 모델이고,
    상기 문맥-적응형 엔트로피 모델은 전역 문맥을 사용하는 복호화 방법.
  17. 제12항에 있어서,
    상기 엔트로피 부호화는 이미지 압축 네트워크 및 품질 향상 네트워크의 결합에 의해 수행되는 복호화 방법.
  18. 제12항에 있어서,
    상기 품질 향상 네트워크는 매우 깊은 슈퍼 레졸루션(Very Deep Super Resolution; VDSR), 잔차 밀도 네트워크(Residual Dense Network; RDN) 또는 그룹된 잔차 밀도 네트워크(Grouped Residual Dense Network; GRDN)인 복호화 방법.
  19. 제12항에 있어서,
    상기 재구축된 이미지로부터 수평 방향의 패딩 영역 또는 수직 방향의 패딩 영역이 제거되고,
    상기 수평 방향의 패딩 영역의 제거는 상기 재구축된 이미지의 수직 축 상의 중심에서 하나 이상의 행들을 제거하는 것이고,
    상기 수직 방향의 패딩 영역의 제거는 상기 재구축된 이미지의 수평 축 상의 중심에서 하나 이상의 열들을 제거하는 것인 복호화 방법.
  20. 제19항에 있어서,
    상기 수평 방향의 패딩 영역의 제거는 원 이미지의 높이가 k의 배수가 아닐 경우에 수행되고,
    상기 수직 방향의 패딩 영역의 제거는 상기 원 이미지의 폭이 k의 배수가 아닐 경우에 수행되고,
    상기 k는 2n이고,
    상기 n은 상기 원 이미지에 대한 다운-스케일링들의 개수인 복호화 방법.
KR1020200065289A 2019-05-31 2020-05-29 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 KR20200138079A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/615,519 US20220277491A1 (en) 2019-05-31 2020-05-29 Method and device for machine learning-based image compression using global context
PCT/KR2020/007039 WO2020242260A1 (ko) 2019-05-31 2020-05-29 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190064882 2019-05-31
KR20190064882 2019-05-31

Publications (1)

Publication Number Publication Date
KR20200138079A true KR20200138079A (ko) 2020-12-09

Family

ID=73787592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200065289A KR20200138079A (ko) 2019-05-31 2020-05-29 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20200138079A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
KR102467091B1 (ko) * 2022-07-20 2022-11-16 블루닷 주식회사 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템
KR20240003902A (ko) 2022-07-04 2024-01-11 주식회사 케이티 유동적 공간탐색 기반의 조합 최적화 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114386595B (zh) * 2021-12-24 2023-07-28 西南交通大学 一种基于超先验架构的sar图像压缩方法
KR20240003902A (ko) 2022-07-04 2024-01-11 주식회사 케이티 유동적 공간탐색 기반의 조합 최적화 장치 및 방법
KR102467091B1 (ko) * 2022-07-20 2022-11-16 블루닷 주식회사 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템

Similar Documents

Publication Publication Date Title
CN111047516B (zh) 图像处理方法、装置、计算机设备和存储介质
US10904564B2 (en) Method and apparatus for video coding
US11477468B2 (en) Method and device for compressing image and neural network using hidden variable
CN112771583B (zh) 处理点云数据的方法、装置和存储介质
CN110915215B (zh) 使用神经网络的图块化图像压缩
CN107005712B (zh) 使用优化函数执行基于图形的预测的方法和装置
CN113678466A (zh) 用于预测点云属性编码的方法和设备
US20220277491A1 (en) Method and device for machine learning-based image compression using global context
KR20200138079A (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
US11412225B2 (en) Method and apparatus for image processing using context-adaptive entropy model
CN114600163A (zh) 每切片trisoup节点尺寸
KR20180131073A (ko) 다채널 특징맵 영상을 처리하는 방법 및 장치
JP2020173782A (ja) 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置
JP2020191077A (ja) 画像コーディング方法及び装置並びに画像デコーディング方法及び装置
US20210314615A1 (en) Data processing apparatuses, methods, computer programs and computer-readable media
KR20190062283A (ko) 선택적 손실 함수를 이용한 생성적 적대 네트워크의 학습을 위한 방법 및 장치
EP3841528A1 (en) Data compression using integer neural networks
CN116485741A (zh) 一种无参考图像质量评价方法、系统、电子设备及存储介质
CN115731505A (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
CN110633735B (zh) 基于小波变换的渐进式深度卷积网络图像识别方法及装置
CN107113426B (zh) 使用广义图形参数执行基于图形的变换的方法和设备
EP3686809A1 (en) Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
KR20210070944A (ko) 픽셀-공간 예측을 이용하는 종단 간 압축을 위한 방법, 장치 및 기록 매체
CN117242493A (zh) 点云解码、上采样及模型训练方法与装置
WO2023278829A1 (en) Attribute coding in geometry point cloud coding