KR101990092B1 - 영상 압축 장치 및 방법 - Google Patents

영상 압축 장치 및 방법 Download PDF

Info

Publication number
KR101990092B1
KR101990092B1 KR1020170037840A KR20170037840A KR101990092B1 KR 101990092 B1 KR101990092 B1 KR 101990092B1 KR 1020170037840 A KR1020170037840 A KR 1020170037840A KR 20170037840 A KR20170037840 A KR 20170037840A KR 101990092 B1 KR101990092 B1 KR 101990092B1
Authority
KR
South Korea
Prior art keywords
image
auto
encoder
unit
neural network
Prior art date
Application number
KR1020170037840A
Other languages
English (en)
Other versions
KR20180108288A (ko
Inventor
최형원
성낙호
신진우
Original Assignee
주식회사 엔씨소프트
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔씨소프트, 한국과학기술원 filed Critical 주식회사 엔씨소프트
Priority to KR1020170037840A priority Critical patent/KR101990092B1/ko
Publication of KR20180108288A publication Critical patent/KR20180108288A/ko
Application granted granted Critical
Publication of KR101990092B1 publication Critical patent/KR101990092B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

영상 압축 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 영상 압축 장치는, 영상을 입력 받는 입력부, 상기 입력된 영상을 다운 샘플링(down-sampling)하는 다운 샘플링부, 컨볼루션 신경망으로 구성된 적어도 하나의 제1 오토 인코더(auto encoder)를 이용하여, 상기 다운 샘플링된 영상으로부터 제1 압축 영상을 생성하는 제1 압축부, 상기 제1 압축 영상을 업 샘플링(up-sampling)하는 업 샘플링부, 상기 입력된 영상에서 상기 업 샘플링된 영상을 감산하는 감산부, 컨볼루션 신경망으로 구성된 적어도 하나의 제2 오토 인코더를 이용하여, 상기 감산된 영상으로부터 제2 압축 영상을 생성하는 제2 압축부, 및 상기 업 샘플링된 영상 및 상기 제2 압축 영상을 가산하여 결과 영상을 생성하는 가산부를 포함한다.

Description

영상 압축 장치 및 방법{APPARATUS AND METHOD FOR COMPRESSING IMAGE}
본 발명의 실시예들은 영상 압축 기술과 관련된다.
컨볼루션 신경망(convolution neural network)은 주로 영상 처리에 응용되는 앞먹임 신경망으로써, 영상 압축(특히, 손실 영상 압축)에 적용되는 방법들 중 하나로 연구되고 있다. 그러나, 종래 컨볼루션 신경망을 이용한 영상 압축 기술들은 예를 들어, JPEG(joint photographic coding experts group), JPEG 2000 등과 같은 코덱들에 비해 좋은 성능을 나타내지 못한다는 문제가 있었다.
이러한 문제를 해결하기 위해, 최근 태스크의 복잡성(complexity of task)을 분할함으로써 컨볼루션 신경망을 이용한 영상 압축 기술의 성능을 향상시키는 기술들이 연구되고 있다.
대한민국 등록특허공보 제10-0248072호 (1999.12.15 등록)
본 발명의 실시예들은 컨볼루션 신경망(convolution neural network)을 이용하여 영상을 압축하는 장치 및 방법을 제공하기 위한 것이다.
본 발명의 일 실시예에 따른 영상 압축 장치는, 영상을 입력 받는 입력부, 상기 입력된 영상을 다운 샘플링(down-sampling)하는 다운 샘플링부, 컨볼루션 신경망으로 구성된 적어도 하나의 제1 오토 인코더(auto encoder)를 이용하여, 상기 다운 샘플링된 영상으로부터 제1 압축 영상을 생성하는 제1 압축부, 상기 제1 압축 영상을 업 샘플링(up-sampling)하는 업 샘플링부, 상기 입력된 영상에서 상기 업 샘플링된 영상을 감산하는 감산부, 컨볼루션 신경망으로 구성된 적어도 하나의 제2 오토 인코더를 이용하여, 상기 감산된 영상으로부터 제2 압축 영상을 생성하는 제2 압축부, 및 상기 업 샘플링된 영상 및 상기 제2 압축 영상을 가산하여 결과 영상을 생성하는 가산부를 포함한다.
상기 제2 압축부는, 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상을 반복 압축할 수 있다.
상기 제1 오토 인코더 및 제2 오토 인코더는, 상기 입력된 영상 및 상기 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습될 수 있다.
상기 제2 오토 인코더는, 상기 학습된 제1 오토 인코더의 파라미터들을 이용하여 학습될 수 있다.
상기 입력된 영상은, 복수의 채널을 포함하고, 상기 제1 압축부는, 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더를 이용하여 상기 다운 샘플링된 영상의 각 채널을 압축할 수 있다.
상기 입력된 영상은, 복수의 채널을 포함하고, 상기 제2 압축부는, 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상의 각 채널을 압축할 수 있다.
본 발명의 일 실시예에 따른 영상 압축 방법은, 영상을 입력 받는 단계, 상기 입력된 영상을 다운 샘플링(down-sampling)하는 단계, 컨볼루션 신경망으로 구성된 적어도 하나의 제1 오토 인코더(auto encoder)를 이용하여, 상기 다운 샘플링된 영상으로부터 제1 압축 영상을 생성하는 단계, 상기 제1 압축 영상을 업 샘플링(up-sampling)하는 단계, 상기 입력된 영상에서 상기 업 샘플링된 영상을 감산하는 단계, 컨볼루션 신경망으로 구성된 적어도 하나의 제2 오토 인코더를 이용하여, 상기 감산된 영상으로부터 제2 압축 영상을 생성하는 단계, 및 상기 업 샘플링된 영상 및 상기 제2 압축 영상을 가산하여 결과 영상을 생성하는 단계를 포함한다.
상기 제2 압축 영상을 생성하는 단계는, 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상을 반복 압축할 수 있다.
상기 제1 오토 인코더 및 제2 오토 인코더는, 상기 입력된 영상 및 상기 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습될 수 있다.
상기 제2 오토 인코더는, 상기 학습된 제1 오토 인코더의 파라미터들을 이용하여 학습될 수 있다.
상기 입력된 영상은, 복수의 채널을 포함하고, 상기 제1 압축 영상을 생성하는 단계는, 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더를 이용하여 상기 다운 샘플링된 영상의 각 채널을 압축할 수 있다.
상기 입력된 영상은, 복수의 채널을 포함하고, 상기 제2 압축 영상을 생성하는 단계는, 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상의 각 채널을 압축할 수 있다.
본 발명의 실시예들에 따르면, 태스크의 복잡성(complexity of task)을 분할하여 영상 압축 장치의 전체적인 성능을 향상시킬 수 있다.
또한, 본 발명의 실시예들에 따르면, 영상이 복수의 채널을 갖는 경우, 각 채널에 이용되는 오토 인코더(auto encoder)들이 서로 일부 정보를 공유함으로써, 복수의 채널을 갖는 영상들을 효율적으로 압축할 수 있다.
도 1은 본 발명의 일 실시예에 따른 영상 압축 장치의 블록도
도 2는 본 발명의 일 실시예에 따른 오토 인코더(auto encoder)의 블록도
도 3은 본 발명의 일 실시예에 따른 오토 인코더의 인코더에 포함된 레지듀얼 블록(residual block)의 블록도
도 4는 본 발명의 일 실시예에 따른 영상 압축 과정의 일 예를 나타낸 도면
도 5는 본 발명의 추가적인 실시예에 따른 오토 인코더의 구성을 나타낸 도면
도 6은 본 발명의 일 실시예에 따른 영상 압축 방법을 나타낸 흐름도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 본 발명의 일 실시예에 따른 영상 압축 장치의 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 영상 압축 장치(100)는 입력부(110), 다운 샘플링부(120), 제1 압축부(130), 업 샘플링부(140), 감산부(150), 제2 압축부(160) 및 가산부(170)를 포함한다.
이때, 영상 압축 장치(100)는 컨볼루션 신경망(Convolution Neural Network; CNN)을 이용하여 입력 영상을 압축하기 위한 장치일 수 있다. 구체적으로, 본 발명의 일 실시예에 따르면, 영상 압축 장치(100)는 컨볼루션 신경망으로 구성된 적어도 하나의 압축 오토 인코더(compressive auto-encoder)를 이용하여 입력 영상을 압축할 수 있다.
입력부(110)는 영상을 입력 받는다.
이때, 입력부(110)로 입력 되는 영상은 예를 들어, 흑백 영상, 3채널의 RGB 영상, 노멀 맵(normal map), 반짝임 맵(specular map) 등일 수 있다. 그러나, 입력되는 영상이 반드시 상술한 예에 한정되는 것은 아니므로, 입력되는 영상은 상술한 예 외에도 다양한 크기, 다양한 채널을 가진 다양한 형태의 영상일 수 있다.
다운 샘플링부(120)는 입력부(110)를 통해 입력된 영상을 다운 샘플링(down-sampling) 한다.
구체적으로, 다운 샘플링부(120)는 다운 샘플링을 통해 입력된 영상을 1보다 작은 비율로 축소시킬 수 있다.
한편, 다운 샘플링부(120)는 공지된 다양한 방식의 다운 샘플링 기법을 이용하여 입력된 영상을 다운 샘플링할 수 있다.
제1 압축부(130)는 컨볼루션 신경망으로 구성된 적어도 하나의 제1 오토 인코더(auto encoder)를 이용하여, 다운 샘플링부(120)를 통해 다운 샘플링된 영상으로부터 제1 압축 영상을 생성한다.
이때, 제1 오토 인코더는 예를 들어, 각각 컨볼루션 신경망으로 구성된 인코더(encoder), 이진화기(binarizer) 및 디코더(decoder)로 구성될 수 있다. 한편, 제1 압축부(130)의 압축 영상 생성 방법은 도 2 및 도 3을 참조하여 상세히 설명하기로 한다.
업 샘플링부(140)는 제1 압축부(130)에서 생성된 제1 압축 영상을 업 샘플링(up-sampling) 한다.
구체적으로, 업 샘플링부(140)는 업 샘플링을 통해 제1 압축 영상을 1보다 큰 비율로 확대시킬 수 있다. 이때, 업 샘플링부(140)는 제1 압축 영상의 크기가 입력부(110)를 통해 입력된 영상의 크기와 동일하도록 제1 압축 영상을 확대시킬 수 있다.
한편, 업 샘플링부(140)는 예를 들어, 바이리니어(bilinear), 바이큐빅(bicubic) 등과 같이 공지된 다양한 방식의 업 샘플링 기법을 이용하여 영상을 제1 압축 영상을 업 샘플링할 수 있다.
감산부(150)는 입력부(110)를 통해 입력된 영상에서 업 샘플링부(140)를 통해 업 샘플링된 영상을 감산한다.
예를 들어, 감산부(150)는 입력부(110)를 통해 입력된 영상의 픽셀 값에서 업 샘플링부(140)를 통해 업 샘플링된 영상의 픽셀 값을 감산할 수 있다.
제2 압축부(160)는 컨볼루션 신경망으로 구성된 적어도 하나의 제2 오토 인코더를 이용하여, 감산부(150)를 통해 감산된 영상으로부터 제2 압축 영상을 생성한다.
이때, 제2 오토 인코더는 예를 들어, 각각 컨볼루션 신경망으로 구성된 인코더(encoder), 이진화기(binarizer) 및 디코더(decoder)로 구성될 수 있다. 한편, 제1 압축부(130)의 압축 영상 생성 방법은 도 2 및 도 3을 참조하여 상세히 설명하기로 한다.
또한, 제2 압축부(160)는 복수의 제2 오토 인코더를 이용하여 감산부(150)를 통해 감산된 영상을 반복 압축할 수 있다.
예를 들어, 제2 압축부(160)는 제2-1 오토 인코더를 이용하여 감산된 영상을 압축하고, 제2-1 오토 인코더를 통해 압축된 영상을 제2-2 오토 인코더를 이용하여 한번 더 압축할 수 있다.
가산부(170)는 업 샘플링부(140)를 통해 업 샘플링된 영상 및 제2 압축부(160)에서 생성된 제2 압축 영상을 가산하여 결과 영상을 생성한다.
구체적으로, 가산부(170)는 업 샘플링된 영상의 픽셀 값 및 이에 대응하는 제2 압축 영상의 픽셀 값을 서로 가산하여 결과 영상을 생성할 수 있다.
한편, 일 실시예에서, 도 1에 도시된 입력부(110), 다운 샘플링부(120), 제1 압축부(130), 업 샘플링부(140), 감산부(150), 제2 압축부(160) 및 가산부(170)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 하나 이상의 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
도 2는 본 발명의 일 실시예에 따른 오토 인코더(auto encoder)의 블록도이며, 도 3은 본 발명의 일 실시예에 따른 오토 인코더의 인코더에 포함된 레지듀얼 블록(residual block)의 블록도이다.
한편, 도 2에 도시된 오토 인코더는 예를 들어, 제1 압축부(130)에 포함되는 제1 오토 인코더 또는 제2 압축부(160)에 포함되는 제2 오토 인코더일 수 있다.
도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 오토 인코더는 인코더(encoder), 이진화기(binarizer) 및 디코더(decoder)를 포함할 수 있다.
구체적으로, 인코더 및 디코더는 예를 들어, 각각 하나의 컨볼루션 층(Conv) 및 3개의 레지듀얼 블록(Residual block #1, #2, #3)을 포함하는 신경망으로 구성될 수 있다.
한편, 도 2 및 도 3에 도시된 예에서, 각 컨볼루션 층에 표기된 "C x K x K"는 C개의 필터를 가지는 K x K 컨볼루션을 의미하며, "스트라이드(Stride)"는 필터의 적용 위치 간격을 의미할 수 있다. 예를 들어, 인코더의 컨볼루션 층의 표기 "64x5x5 Stride 2"는 스트라이드 값이 2이며, 64개의 필터를 가지는 5x5 컨볼루션을 의미할 수 있다.
한편, 인코더에 포함된 레지듀얼 블록들은 예를 들어, 3개의 컨볼루션 층(Conv) 및 하나의 가산 층(sum)을 포함할 수 있다.
이진화기(Binarizer)는 하나의 컨볼루션 층(Conv)을 포함하는 신경망을 이용하여 이진화를 수행할 수 있다. 구체적으로, 이진화기는 예를 들어, tanh 함수를 출력 층의 활성화 함수로 이용하여 하기 수학식 1과 같이 이진화(b(x))를 수행할 수 있다.
[수학식 1]
Figure 112017029509355-pat00001
이때,
Figure 112017029509355-pat00002
일 수 있다.
한편, 도 2 및 도 3에는 도시하지 않았으나, 디코더의 레지듀얼 블록들은 적어도 하나의 디컨볼루션 층(deconvolutional layer) 또는 적어도 하나의 서브 픽셀 컨볼루션 층(sub-pixel convolution layer)을 포함할 수 있다.
한편, 오토 인코더 및 레지듀얼 블록의 구성은 반드시 도 2 및 3에 도시된 예에 한정되는 것은 아니며, 실시예에 따라 다양하게 변형될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 오토 인코더는, 입력부(110)를 통해 입력된 영상 및 가산부(170)에 의해 생성된 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습될 수 있다.
구체적으로, 제1 압축부(130)의 제1 오토 인코더의 파라미터는 입력부(110)를 통해 입력된 영상 및 가산부(170)를 통해 가산된 영상 사이의 평균제곱오차를 최소화하도록 학습될 수 있으며, 제2 압축부(160)의 제2 오토 인코더의 파라미터는 학습된 제1 오토 인코더의 파라미터들을 이용하여 학습될 수 있다.
도 4는 본 발명의 일 실시예에 따른 영상 압축 과정의 일 예를 나타낸 도면이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 영상 압축 장치(100)의 다운 샘플링부(120)는 입력 영상(i0)을 다운 샘플링 하여 입력 영상(i0)보다 크기가 작은 다운 샘플링된 영상(i1)을 생성할 수 있다.
또한, 영상 압축 장치(100)의 제1 압축부(130)는 다운 샘플링된 영상(i1)으로부터 제1 압축 영상(c1)을 생성할 수 있다.
또한, 영상 압축 장치(100)의 업 샘플링부(140)는 예를 들어, 바이큐빅 샘플링을 이용하여 제1 압축 영상(c1)을 업 샘플링하여, 입력 영상(i0)과 크기가 동일한 업 샘플링된 영상(c0)을 생성할 수 있다.
또한, 영상 압축 장치(100)의 감산부(150)는 입력 영상(i0)에서 업 샘플링된 영상(c0)를 감산할 수 있다.
또한, 영상 압축 장치(100)의 제2 압축부(160)는 감산부(150)를 통해 감산된 영상을 압축하여 제2 압축 영상(r0)을 생성할 수 있다.
또한, 영상 압축 장치(100)는 가산부(170)는 업 샘플링된 영상(c0) 및 제2 압축 영상(r0)를 가산하여 결과 영상(r0+c0)를 생성할 수 있다.
한편, 만약 입력부(110)를 통해 입력된 영상이 n x m 해상도의 3채널 영상인 경우, 총 코드 길이(code length)는 하기 수학식 2로 표현될 수 있다.
[수학식 2]
Figure 112017029509355-pat00003
이때, NC 및 NR은 각각 제1 오토 인코더 및 제2 오토 인코더에 대한 이진화층의 출력 채널 크기를 나타낸다.
도 5는 본 발명의 추가적인 실시예에 따른 오토 인코더의 구성을 나타낸 도면이다. 구체적으로, 도 5는 입력부(110)를 통해 입력된 영상이 복수의 채널(예를 들어, RGB의 3채널 등)을 포함하는 경우, 각 채널에 이용되는 복수의 오토 인코더들의 구성을 나타낸 도면이다.
구체적으로, 도 5의 (a) 는 각 채널에 이용된 오토 인코더들이 오토 인코더 내 포함되는 인코더의 모든 신경망 층들을 공유하는 것을 나타내며, 도 5의 (b)는 각 채널에 이용된 오토 인코더들이 오토 인코더 내 포함되는 디코더의 모든 신경망 층들을 공유하는 것을 나타낸다.
또한, 도 5의 (c)는 각 채널에 이용되는 오토 인코더들이 오토 인코더 내 포함되는 신경망 층들 중 하나의 층을 공유하는 것을 나타낸다. 구체적으로, 도 5의 (c)는 오토 인코더 내 포함되는 디코더의 신경망 층들 중 첫 번째 층(D1)을 공유하는 것을 나타낸다.
한편, 도 5에 도시된 오토 인코더들은 예를 들어, 제1 압축부(130)에 포함되는 제1 오토 인코더 또는 제2 압축부(160)에 포함되는 제2 오토 인코더일 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 제1 압축부(130)는 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더를 이용하여 다운 샘플링부(120)를 통해 다운 샘플링된 영상의 각 채널을 압축할 수 있다.
또한 본 발명의 일 실시예에 따르면, 제2 압축부(160)는 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여 감산부(150)를 통해 감산된 영상의 각 채널을 압축할 수 있다.
예를 들어, 만약 입력부(110)를 통해 입력된 영상이 3개의 채널을 포함하는 경우, 제1 영상 압축부(130)는 제1-1 오토 인코더, 제1-2 오토 인코더 및 제1-3 오토 인코더 각각을 다운 샘플링부(120)에 의해 다운 샘플링된 영상의 각 채널을 압축하기 위해 이용할 수 있다. 이때, 제1-1 내지 제1-3 오토 인코더들 각각은 도 5에 도시된 예와 같이 적어도 하나의 신경망 층을 공유할 수 있다.
또한, 제2 영상 압축부(160)는 제2-1 오토 인코더, 제2-2 오토 인코더 및 제2-3 오토 인코더 각각을 감산부(150)에 의해 감산된 영상의 각 채널을 압축하기 위해 이용할 수 있다. 이때, 제2-1 내지 제2-3 오토 인코더들 각각은 도 5에 도시된 예와 같이 적어도 하나의 신경망 층을 공유할 수 있다.
도 6은 본 발명의 일 실시예에 따른 영상 압축 방법을 나타낸 흐름도이다.
도 6에 도시된 방법은 예를 들어, 도 1에 도시된 영상 압축 장치(100)에 의해 수행될 수 있다.
한편, 도 6에 도시된 흐름도에서는 동작을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 6을 참조하면, 영상 압축 장치(100)는 영상을 입력 받는다(601). 이때, 영상 압축 장치(100)로 입력되는 영상은 복수의 채널을 포함할 수 있다.
영상 압축 장치(100)는 입력된 영상을 다운 샘플링 한다(602).
영상 압축 장치(100)는 컨볼루션 신경망으로 구성된 적어도 하나의 제1 오토 인코더를 이용하여, 다운 샘플링된 영상으로부터 제1 압축 영상을 생성한다(603). 이때, 영상 압축 장치(100)는 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더를 이용하여 다운 샘플링된 영상의 각 채널을 압축할 수 있다.
영상 압축 장치(100)는 제1 압축 영상을 업 샘플링한다(604).
영상 압축 장치(100)는 입력된 영상에서 업 샘플링된 영상을 감산한다(605).
영상 압축 장치(100) 컨볼루션 신경망으로 구성된 적어도 하나의 제2 오토 인코더를 이용하여, 감산된 영상으로부터 제2 압축 영상을 생성한다(606). 이때, 영상 압축 장치(100)는 복수의 제2 오토 인코더를 이용하여 감산된 영상을 반복 압축할 수 있다.
또한, 영상 압축 장치(100)는 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여 감산된 영상의 각 채널을 압축할 수 있다.
영상 압축 장치(100)는 업 샘플링된 영상 및 제2 압축 영상을 가산하여 결과 영상을 생성한다(607). 이때, 제1 오토 인코더 및 제2 오토 인코더는, 입력된 영상 및 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습될 수 있다. 또한, 제2 오토 인코더는 제1 오토 인코더의 파라미터들을 이용하여 학습될 수 있다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 영상 압축 장치
110: 입력부
120: 다운 샘플링부
130: 제1 압축부
140: 업 샘플링부
150: 감산부
160: 제2 압축부
170: 가산부

Claims (12)

  1. 복수의 채널을 포함하는 영상을 입력 받는 입력부;
    상기 입력된 영상을 다운 샘플링(down-sampling)하는 다운 샘플링부;
    컨볼루션 신경망으로 구성되며 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더(auto encoder)를 이용하여, 상기 다운 샘플링된 영상의 각 채널을 압축하여 제1 압축 영상을 생성하는 제1 압축부;
    상기 제1 압축 영상을 업 샘플링(up-sampling)하는 업 샘플링부;
    상기 입력된 영상에서 상기 업 샘플링된 영상을 감산하는 감산부;
    컨볼루션 신경망으로 구성되며 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여, 상기 감산된 영상의 각 채널을 압축하여 제2 압축 영상을 생성하는 제2 압축부; 및
    상기 업 샘플링된 영상 및 상기 제2 압축 영상을 가산하여 결과 영상을 생성하는 가산부를 포함하는 영상 압축 장치.
  2. 청구항 1에 있어서,
    상기 제2 압축부는, 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상을 반복 압축하는 영상 압축 장치.
  3. 청구항 1에 있어서,
    상기 복수의 제1 오토 인코더 및 제2 오토 인코더는, 상기 입력된 영상 및 상기 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습되는 영상 압축 장치.
  4. 청구항 3에 있어서,
    상기 제2 오토 인코더는, 상기 학습된 제1 오토 인코더의 파라미터들을 이용하여 학습되는 영상 압축 장치.
  5. 삭제
  6. 삭제
  7. 복수의 채널을 포함하는 영상을 입력 받는 단계;
    상기 입력된 영상을 다운 샘플링(down-sampling)하는 단계;
    컨볼루션 신경망으로 구성되며 적어도 하나의 신경망 층을 공유하는 복수의 제1 오토 인코더(auto encoder)를 이용하여, 상기 다운 샘플링된 영상의 각 채널을 압축하여 제1 압축 영상을 생성하는 단계;
    상기 제1 압축 영상을 업 샘플링(up-sampling)하는 단계;
    상기 입력된 영상에서 상기 업 샘플링된 영상을 감산하는 단계;
    컨볼루션 신경망으로 구성되며 적어도 하나의 신경망 층을 공유하는 복수의 제2 오토 인코더를 이용하여, 상기 감산된 영상의 각 채널을 압축하여 제2 압축 영상을 생성하는 단계; 및
    상기 업 샘플링된 영상 및 상기 제2 압축 영상을 가산하여 결과 영상을 생성하는 단계를 포함하는 영상 압축 방법.
  8. 청구항 7에 있어서,
    상기 제2 압축 영상을 생성하는 단계는, 복수의 제2 오토 인코더를 이용하여 상기 감산된 영상을 반복 압축하는 영상 압축 방법.
  9. 청구항 7에 있어서,
    상기 복수의 제1 오토 인코더 및 제2 오토 인코더는, 상기 입력된 영상 및 상기 결과 영상 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화하도록 학습되는 영상 압축 방법.
  10. 청구항 9에 있어서,
    상기 제2 오토 인코더는, 상기 학습된 제1 오토 인코더의 파라미터들을 이용하여 학습되는 영상 압축 방법.
  11. 삭제
  12. 삭제
KR1020170037840A 2017-03-24 2017-03-24 영상 압축 장치 및 방법 KR101990092B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170037840A KR101990092B1 (ko) 2017-03-24 2017-03-24 영상 압축 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170037840A KR101990092B1 (ko) 2017-03-24 2017-03-24 영상 압축 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180108288A KR20180108288A (ko) 2018-10-04
KR101990092B1 true KR101990092B1 (ko) 2019-06-17

Family

ID=63863054

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170037840A KR101990092B1 (ko) 2017-03-24 2017-03-24 영상 압축 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101990092B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021205067A1 (en) * 2020-04-07 2021-10-14 Nokia Technologies Oy Feature-domain residual for video coding for machines
WO2023033241A1 (ko) * 2021-09-03 2023-03-09 주식회사 파블로아트컴퍼니 미술 심리분석용 데이터 생성 장치 및 이를 이용한 미술 심리분석용 데이터의 증강과 효율적 관리 방법
KR20230034666A (ko) * 2021-09-03 2023-03-10 주식회사 아이스크림아트 인공지능 모델을 활용한 미술 기반 심리분석 장치 및 이를 이용한 심리분석 결과 제공 방법
US11954833B2 (en) 2021-04-02 2024-04-09 Samsung Electronics Co., Ltd Electronic device for supporting machine learning-based image processing

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080665A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080827A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Ai encoding apparatus and operation method of the same, and ai decoding apparatus and operation method of the same
WO2020080873A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Method and apparatus for streaming data
KR102285738B1 (ko) 2018-10-19 2021-08-05 삼성전자주식회사 영상의 주관적 품질을 평가하는 방법 및 장치
WO2020080751A1 (ko) * 2018-10-19 2020-04-23 삼성전자 주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
US11616988B2 (en) 2018-10-19 2023-03-28 Samsung Electronics Co., Ltd. Method and device for evaluating subjective quality of video
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
US11720997B2 (en) 2018-10-19 2023-08-08 Samsung Electronics Co.. Ltd. Artificial intelligence (AI) encoding device and operating method thereof and AI decoding device and operating method thereof
KR102525578B1 (ko) 2018-10-19 2023-04-26 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR102212442B1 (ko) 2018-12-13 2021-02-04 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR102192980B1 (ko) * 2018-12-13 2020-12-18 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
CN110084773A (zh) * 2019-03-25 2019-08-02 西北工业大学 一种基于深度卷积自编码网络的图像融合方法
KR102436512B1 (ko) 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR20210056179A (ko) 2019-11-08 2021-05-18 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
EP4000272A4 (en) * 2019-11-20 2022-11-09 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR USING AI METADATA ASSOCIATED WITH IMAGE QUALITY
WO2021117942A1 (ko) * 2019-12-12 2021-06-17 전자부품연구원 저복잡도 딥러닝 가속 하드웨어 데이터 가공장치
KR102287942B1 (ko) 2020-02-24 2021-08-09 삼성전자주식회사 전처리를 이용한 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
WO2021230707A1 (ko) * 2020-05-15 2021-11-18 삼성전자 주식회사 압축 영상의 노이즈를 추출하는 방법 및 장치, 압축 영상의 노이즈를 저감하는 방법 및 장치
CN111709516B (zh) * 2020-06-09 2023-07-28 深圳先进技术研究院 神经网络模型的压缩方法及压缩装置、存储介质、设备
KR20220081648A (ko) * 2020-12-09 2022-06-16 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR102442434B1 (ko) * 2021-11-11 2022-09-14 주식회사 파블로아트컴퍼니 미술 심리분석용 데이터 생성 장치 및 이를 이용한 미술 심리분석용 데이터의 생성과 사용자의 심리상태 정보제공 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100248072B1 (ko) 1997-11-11 2000-03-15 정선종 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법
KR101551915B1 (ko) 2015-03-16 2015-09-08 스타십벤딩머신 주식회사 영상압축방법 및 영상압축장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5227719A (en) * 1990-09-07 1993-07-13 Eaton Corporation Drive axle in-axle annular speed sensor
KR20110011361A (ko) * 2009-07-28 2011-02-08 삼성전자주식회사 샘플링을 이용한 영상 데이터 인코딩/디코딩 장치 및 인코딩/디코딩 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100248072B1 (ko) 1997-11-11 2000-03-15 정선종 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법
KR101551915B1 (ko) 2015-03-16 2015-09-08 스타십벤딩머신 주식회사 영상압축방법 및 영상압축장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUKAS CAVIGELLI ET AL., ‘CAS-CNN: A Deep Convolutaional Neural Network for Image Compression Artifact Suppression’, Cornell University, 8pages, 2016.11.22.*
논문:JINGXUAN HOU ET AL.,

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021205067A1 (en) * 2020-04-07 2021-10-14 Nokia Technologies Oy Feature-domain residual for video coding for machines
US11954833B2 (en) 2021-04-02 2024-04-09 Samsung Electronics Co., Ltd Electronic device for supporting machine learning-based image processing
WO2023033241A1 (ko) * 2021-09-03 2023-03-09 주식회사 파블로아트컴퍼니 미술 심리분석용 데이터 생성 장치 및 이를 이용한 미술 심리분석용 데이터의 증강과 효율적 관리 방법
KR20230034666A (ko) * 2021-09-03 2023-03-10 주식회사 아이스크림아트 인공지능 모델을 활용한 미술 기반 심리분석 장치 및 이를 이용한 심리분석 결과 제공 방법
KR102533225B1 (ko) 2021-09-03 2023-05-26 주식회사 아이스크림아트 인공지능 모델을 활용한 미술 기반 심리분석 장치 및 이를 이용한 심리분석 결과 제공 방법

Also Published As

Publication number Publication date
KR20180108288A (ko) 2018-10-04

Similar Documents

Publication Publication Date Title
KR101990092B1 (ko) 영상 압축 장치 및 방법
JP5956571B2 (ja) スケーラブルビデオ符号化における動き予測
EP1998284B1 (en) Image Processing Apparatus, Image Processing Method, Program and Semiconductor Integrated Circuit
JP5529293B2 (ja) メタデータによる時間スケーリングのためのエッジエンハンスメントのための方法
KR100763194B1 (ko) 단일 루프 디코딩 조건을 만족하는 인트라 베이스 예측방법, 상기 방법을 이용한 비디오 코딩 방법 및 장치
JP5547394B2 (ja) 映像を階層的に符号化/復号化する方法及び装置
US8116581B2 (en) Efficient image representation by edges and low-resolution signal
JP2015144423A (ja) 画像符号化装置、画像復号化装置、それらの方法、プログラム及び画像処理システム
JP2008529151A (ja) 複数解像度の画像フィルタリングに関するピラミッド分解
CN113014927A (zh) 图像压缩方法和图像压缩装置
JP2856300B2 (ja) 画像符号化装置および復号装置
JP6170614B2 (ja) アップサンプリング及び信号強調
WO2014010583A1 (ja) 映像符号化/復号方法、装置、プログラム、記録媒体
JP2006121701A (ja) 多階層基盤のビデオコーダでモーションベクトルを効率よく圧縮する方法及び装置
JP2014523695A (ja) スケーラブルビデオ符号化技法
EP1743298B1 (en) Method of down-sampling data values
US6327307B1 (en) Device, article of manufacture, method, memory, and computer-readable memory for removing video coding errors
Guleryuz et al. Sandwiched Image Compression: Increasing the resolution and dynamic range of standard codecs
US20240037802A1 (en) Configurable positions for auxiliary information input into a picture data processing neural network
JP5019053B2 (ja) 画像復号方法、画像復号装置及びプログラム
WO2024055458A1 (zh) 图像降噪处理方法、装置、设备、存储介质和程序产品
JP4690371B2 (ja) スケーラブル画像符号化方法,復号方法,符号化装置,復号装置およびそれらのプログラムとその記録媒体
EP4272437A1 (en) Independent positioning of auxiliary information in neural network based picture processing
Ghorbel et al. AICT: An Adaptive Image Compression Transformer
JP2005286689A (ja) ノイズ低減方法及び画像処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant