KR20220097251A - 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법 - Google Patents
예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법 Download PDFInfo
- Publication number
- KR20220097251A KR20220097251A KR1020210182334A KR20210182334A KR20220097251A KR 20220097251 A KR20220097251 A KR 20220097251A KR 1020210182334 A KR1020210182334 A KR 1020210182334A KR 20210182334 A KR20210182334 A KR 20210182334A KR 20220097251 A KR20220097251 A KR 20220097251A
- Authority
- KR
- South Korea
- Prior art keywords
- feature map
- prediction
- block
- encoding
- vcm
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 238000013135 deep learning Methods 0.000 claims description 45
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000013136 deep learning model Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 239000000284 extract Substances 0.000 description 15
- 230000009466 transformation Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법에 관한 개시로서, 본 실시예는, 머신 비전에 사용하는 데이터의 부호화 효율을 향상시키기 위하여, 데이터들 간의 상관도에 따라 참조 데이터를 설정하고, 참조 데이터와 상관도가 큰 원본 데이터에 대해 참조 데이터를 바탕으로 예측 데이터를 생성하며, 예측 데이터와 원본 데이터 간의 잔차 데이터를 생성하는 VCM(Video Coding for Machines) 코딩 장치 및 방법을 제공한다.
Description
본 개시는 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
딥러닝 기술의 발전과 컴퓨팅 파워의 발전과 함께 머신 비전 어플리케이션이 폭발적으로 증가함에 따라 비디오 트래픽(video traffic)의 대부분이 기계에 의해 이용될 것이라는 인식이 확산되고 있다. 머신 투 머신(machine-to-machine) 애플리케이션은 향후 인터넷 비디오 트래픽의 가장 큰 사용량을 차지할 것으로 예상된다. 따라서, 기계가 사용하는 비디오 데이터의 정보를 최적화하는 방안은 비디오 처리 기술의 혁신 및 신규 솔루션의 상용화 측면에서 핵심 요소가 될 수 있다.
기존의 비디오 코딩 방식은 특정 비트 전송률 제약 조건 하에서 최고의 영상 또는 영상 품질을 목표로 하므로, 인간의 시각에 최적화되어 있다. 반면, 머신 비전을 위한 코딩의 경우, 복원 영상/비디오가 반드시 높은 시각적 성능을 가질 필요는 없다. 지연 시간(latency)과 규모(scale)에 대한 엄격한 제한사항이 있는 커넥티드 차량, IoT(Internet of Things) 장치, 초대형 비디오 감시 네트워크, 스마트 시티, 품질 검사 등의 분야가 출현함에 따라 머신 비전을 위한 새로운 패러다임이 등장하여 머신 비전을 목표로 하는 신규 이미지/비디오 코딩 방법의 필요성이 대두되었다.
이에 따라, 표준화 기구인 MPEG(Moving Picture Expert Group)에서는 머신 비전을 위한 표준화의 필요성이 논의되고, 머신 비전 데이터를 위한 압축 코딩, 및 휴먼-머신 하이브리드 시야를 위한 압축 코딩을 제공하는 차세대 비디오 코덱으로서 VCM (Video Coding for Machines)이 제안되었다.
VCM 코덱의 구조에는 다양한 변형이 있을 수 있으나, 기본적인 VCM 코덱의 구조는 도 16에 예시된 바와 같다. 센서의 출력인 비디오가 입력되었을 때, VCM 부호화기는 머신 비전을 위한 정보로서 특징을 추출(feature extraction)하고, 이를 필요에 맞게 변형(feature conversion)한 후, 부호화(feature encoding)한다. 또한, VCM 부호화기는 입력 영상 또는 비디오를 부호화할 때 부호화된 특징을 참조할 수 있다. 최종적으로, VCM 부호화기는 머신 비전을 위한 특징과 입력 영상(또는, 잔차 영상)을 부호화하여 비트스트림을 생성한다. VCM 부호화기는 특징 및 비디오를 부호화하여 생성되는 각각의 비트스트림을 다중화(multiplexing)하여 함께 전송한다.
VCM 복호화기는 전송된 비트스트림으로부터 특징 비트스트림과 비디오 비트스트림으로 역다중화(demultiplexing)한 후, 특징과 비디오를 각각 복호화한다. 이때, VCM 복호화기는, 비디오의 복호화 시, 복원된 특징을 참조할 수 있다. 복원된 특징은 역변형(inverse conversion)된 후, 머신 비전과 인간의 시각에 동시에 사용될 수 있다.
또한, 도 16의 예시에서, VCM 부호화기에서의 특징 추출, VCM 복호화기에서의 머신 비전용 태스크 수행 등에 딥러닝 모델을 적용하기 위해, 신경망 연결부(interface for Neural Network)가 이용될 수 있다.
한편, 자율주행(self-driving) 시스템은 VCM 기술의 활용 사례 중 대표적인 다중 태스크 시스템이다. 이때 머신에 의해 수행되는 다중 태스크는 다중 객체 탐지(multiple object detection), 객체 분할(object segmentation), 객체(예컨대, 차선(line)) 추적(tracking), 활동 인식(action recognition 또는 action localization), 이벤트 예측(event prediction) 등을 포함한다. 일반적으로, 카메라, 적외선, 라이다(LiDAR), 레이더, 초음파 등의 센서들로부터 취득한 비디오를 이용하여, 전술한 태스크별로 단일 태스크 딥러닝 모델을 학습시킨 후, 학습된 단일 태스크 모델들을 이용하여 머신은 해당되는 태스크 각각을 수행할 수 있다.
전술한 바와 같은 다양한 분류 및 추론 태스크에 적합하도록 발전을 거듭하고 있는 딥러닝(deep learning) 기술에 있어서, 머신 비전에 적합한 표현들(representation)을 찾고 이를 어떻게 효율적으로 압축할 지에 대한 협의가 필요하다. 즉, 인간 시각 중심의 기존 압축 방식에 비해 전송 비용을 크게 절감하고, 머신 비전용 시스템을 높은 정확도로 동작시키는 데 필요한 정보를 제공한다는 측면에서, 이러한 새로운 표현들이 고려되어야 한다.
본 개시는, 머신 비전에 사용하는 데이터의 부호화 효율을 향상시키기 위하여, 데이터들 간의 상관도에 따라 참조 데이터를 설정하고, 참조 데이터와 상관도가 큰 원본 데이터에 대해 참조 데이터를 바탕으로 예측 데이터를 생성하며, 예측 데이터와 원본 데이터 간의 잔차 데이터를 생성하는 VCM(Video Coding for Machines) 코딩 장치 및 방법을 제공하는 데 목적이 있다.
본 개시의 실시예에 따르면, 머신 비전 시스템의 부호화 장치가 수행하는, 비디오 프레임들의 특징맵을 부호화하는 부호화 방법에 있어서, 딥러닝 기반 머신 태스크 모델을 이용하여 키 프레임으로부터 상기 키 프레임의 특징맵인 참조 특징맵을 추출하는 단계, 여기서, 상기 키 프레임은, 비트율 왜곡 최적화 측면에서 상기 비디오 프레임들 중에서 선택됨; 상기 머신 태스크 모델을 이용하여 나머지 프레임들로부터 상기 나머지 프레임들 각각의 원본 특징맵을 추출하는 단계; 상기 참조 특징맵을 기반으로 상기 나머지 프레임들 각각의 예측 특징맵을 생성하는 단계; 상기 나머지 프레임들 각각의 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 잔차 특징맵을 생성하는 단계; 상기 참조 특징맵을 부호화하는 단계; 및 상기 나머지 프레임들 각각의 잔차 특징맵을 부호화하는 단계를 포함하는 것을 특징으로 하는, 부호화 방법을 제공한다.
본 개시의 다른 실시예에 따르면, 머신 비전 시스템의 부호화 장치가 수행하는, 주태스크(main task)와 부태스크들(subtasks)의 특징맵을 부호화하는 부호화 방법에 있어서, 대상 태스크들 중에서 설정된 주태스크에 대해 딥러닝 기반 머신 태스크 모델을 이용하여 상기 주태스크의 특징맵인 참조 특징맵을 추출하는 단계; 상기 머신 태스크 모델을 이용하여 부태스크들로부터 상기 부태크들 각각의 원본 특징맵을 추출하는 단계; 상기 참조 특징맵을 기반으로 상기 부태스크들 각각의 예측 특징맵을 생성하는 단계; 상기 부태스크들 각각의 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 잔차 특징맵을 생성하는 단계; 상기 참조 특징맵을 부호화하는 단계; 및 상기 부태스크들 각각의 잔차 특징맵을 부호화하는 단계를 포함하는 것을 특징으로 하는, 부호화 방법을 제공한다.
본 개시의 다른 실시예에 따르면, 머신 비전 시스템의 부호화 장치가 수행하는, 다수의 계층들(layers)을 포함하는 머신 태스크 모델의 특징맵을 부호화하는 부호화 방법에 있어서, 상기 머신 태스크 모델을 이용하여 입력 영상으로부터 제1 계층의 출력 특징맵인 참조 특징맵을 추출하는 단계; 상기 머신 태스크 모델을 이용하여 상기 입력 영상으로부터 제2 계층의 출력 특징맵인 원본 특징맵을 추출하는 단계, 여기서. 상기 제2 계층은, 상기 머신 태스크 모델 내에서 상기 제1 계층보다 더 깊은 계층임; 상기 참조 특징맵을 기반으로 예측 특징맵을 생성하는 생성하는 단계; 상기 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 상기 제2 계층의 잔차 특징맵을 생성하는 단계; 상기 참조 특징맵을 부호화하는 단계; 및 상기 제2 계층의 잔차 특징맵을 부호화하는 단계를 포함하는 것을 특징으로 하는, 부호화 방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 데이터들 간의 상관도에 따라 참조 데이터를 설정하고, 참조 데이터와 상관도가 큰 원본 데이터에 대해 참조 데이터를 바탕으로 예측 데이터를 생성하며, 예측 데이터와 원본 데이터 간의 잔차 데이터를 생성하는 VCM 코딩 장치 및 방법을 제공함으로써, 잔차 데이터의 전송에 따라 머신 비전에 사용하는 데이터의 부호화 효율을 향상시키는 것이 가능해지는 효과가 있다.
또한 본 실시예에 따르면, 참조 데이터를 바탕으로 예측 데이터를 생성하며, 예측 데이터와 원본 데이터 간의 잔차 데이터를 생성하는 VCM 코딩 장치 및 방법을 제공함으로써, 머신 비전용 데이터와 참조 데이터 간의 상관성 존재 여부에 기초하여 다양한 시나리오들에서 본 실시예를 활용하는 것이 가능해지는 효과가 있다. 여기서, 다양한 시나리오들은, 비디오 입력에 대해 머신 비전 데이터가 시간 및 공간적으로 연관이 있는 경우, 머신 비전 시스템이 다수의 머신 비전 태스크를 수행하되 태스크별 머신 비전 데이터 간에 연관이 있는 경우, 머신 비전 태스크를 수행하는 모델의 구조에 따른 머신 비전 데이터 간에 연관이 있는 경우 등을 포함한다.
도 1은 본 개시에 일 실시예에 따른 VCM 부호화 장치를 개념적으로 나타내는 블록도이다.
도 2는 본 개시에 일 실시예에 따른 VCM 복호화 장치를 개념적으로 나타내는 블록도이다.
도 3은 본 개시의 일 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
도 4은 본 개시의 일 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
도 5는 본 개시의 다른 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 6는 본 개시의 다른 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 7은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 장치를 나타내는 블록도이다.
도 8은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 장치를 나타내는 블록도이다.
도 9는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 장치를 나타내는 블록도이다.
도 10은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 방법을 나타내는 순서도이다.
도 11은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 복호화 방법을 나타내는 순서도이다.
도 12는 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
도 13은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
도 14는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 방법을 나타내는 순서도이다.
도 15는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 복호화 방법을 나타내는 순서도이다.
도 16은 본 개시의 일 실시예에 따른 VCM 코덱을 개념적으로 나타내는 블록도이다.
도 2는 본 개시에 일 실시예에 따른 VCM 복호화 장치를 개념적으로 나타내는 블록도이다.
도 3은 본 개시의 일 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
도 4은 본 개시의 일 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
도 5는 본 개시의 다른 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 6는 본 개시의 다른 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 7은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 장치를 나타내는 블록도이다.
도 8은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 장치를 나타내는 블록도이다.
도 9는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 장치를 나타내는 블록도이다.
도 10은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 방법을 나타내는 순서도이다.
도 11은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 복호화 방법을 나타내는 순서도이다.
도 12는 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
도 13은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
도 14는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 방법을 나타내는 순서도이다.
도 15는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 복호화 방법을 나타내는 순서도이다.
도 16은 본 개시의 일 실시예에 따른 VCM 코덱을 개념적으로 나타내는 블록도이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 실시예는 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법에 관한 내용을 개시한다. 보다 자세하게는, 머신 비전에 사용하는 데이터의 부호화 효율을 향상시키기 위하여, 데이터들 간의 상관도에 따라 참조 데이터를 설정하고, 참조 데이터와 상관도가 큰 원본 데이터에 대해 참조 데이터를 바탕으로 예측 데이터를 생성하며, 예측 데이터와 원본 데이터 간의 잔차 데이터를 생성하는 VCM(Video Coding for Machines) 코딩 장치 및 방법을 제공한다.
여기서, VCM 코딩 장치, 즉 VCM 코덱은 VCM 부호화 장치와 VCM 복호화 장치를 포함한다.
본 실시예는, 머신 비전을 위해 이용되는 임의의 형태의 데이터, 예를 들어, 딥러닝 모델이 출력하는 특징맵에 대해 적용될 수 있다. 또한, 본 실시예는 이러한 특징맵 중의 단일 채널 정보, 화면 분할 맵, 어텐션 맵 등에 대해 적용될 수 있다. 이하의 설명에서, 머신 비전을 위해 이용되는 데이터를 딥러닝 모델에 의해 생성되는 특징맵(feature-map)으로 치환한다.
이하의 설명에서, 특징맵과 특징(feature)은 호환적으로 이용될 수 있다.
이하, 머신 비전을 위한 다중 태스크들로부터 특징맵을 추출, 부호화, 및 전송하는 장치 및 방법을 VCM 부호화 장치 및 방법으로 나타내고, 수신된 비트스트림으로부터 특징맵을 복호화하는 장치 및 방법을 VCM 복호화 장치 및 방법으로 나타낸다. 따라서, 본 개시에 따른 VCM 부호화 장치 및 VCM 복호화 장치는 다중 태스크를 수행하는 다중 태스크 시스템의 일 예일 수 있다. 다중 태스크 시스템은, 하나의 태스크를 수행하는 단일 태스크 시스템을 포함한다.
이하의 설명에서, 다중 태스크 시스템, 태스크 시스템, 머신 비전 시스템, 또는 시스템은, VCM 코덱을 나타내기 위해 호환적으로 이용될 수 있다. 또한, 태스크, 머신 태스크, 비전 태스크 또는 머신 비전 태스크도 호환적으로 이용될 수 있다.
한편, 인간의 시각에 최적화되도록 비디오 신호를 부호화 및 복호화하는 기존의 코덱을 비디오 부호화기 및 비디오 복호화기로 나타낸다.
이하, VCM 코덱에서 부/복호화하려는 머신 비전 데이터와 높은 연관성을 가지는 참조 머신 비전 데이터가 존재한다는 가정 하에, 도 1 및 도 2의 도시를 이용하여, VCM 부호화 장치 및 VCM 복호화 장치의 동작을 설명한다.
도 1은 본 개시에 일 실시예에 따른 VCM 부호화 장치를 개념적으로 나타내는 블록도이다.
VCM 부호화 장치는 센서의 출력에 해당하는 비디오 데이터, 또는 입력 영상을 획득한다. VCM 부호화 장치는 입력 영상으로부터 머신 비전을 위한 데이터인 특징맵을 추출한다. VCM 부호화 장치는 참조 머신 비전 데이터, 즉, 참조 특징맵(reference feature)으로부터 원본 특징맵(original feature)을 예측하여 예측 특징맵(predicted feature)을 생성한다. VCM 부호화 장치는 원본 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵(residual feature)을 생성한다. VCM 부호화 장치는 부호화 시 필요할 수 있는 데이터 타입 변환, 특징맵 채널 재정렬 등의 변형을 잔차 특징맵에 적용한 후, 변환된 잔차 특징맵을 부호화한다. 이때, 잔차 특징맵은 인간 시각을 위해 입력 영상(또는, 입력 영상으로부터 생성된 잔차 영상)을 부호화할 때 참조될 수 있다. VCM 부호화 장치는 머신 비전을 위한 잔차 특징맵과 입력 영상을 부호화한 비트스트림을 다중화(multiplexing)한 후, 이를 VCM 복호화 장치로 전송한다.
VCM 부호화 장치는, 도 1에 예시된 바와 같이, 특징 추출기(feature extractor, 110), 특징 예측기(feature predictor, 120), 특징 변형기(feature converter, 130), 특징 부호화기(140), 비디오 부호화기(150), 다중화기(multiplexer, 160), 및 신경망 연결부(interface unit for NN, 170)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 VCM 부호화 장치에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, VCM 부호화 장치가 포함하는 다수의 딥러닝 모델들을 트레이닝하기 위해, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
특징 추출기(110)는 딥러닝 모델을 기반으로, 입력 영상으로부터 머신 비전을 위한 태스크의 특징맵을 추출한다. 추가적으로, 특징 추출기(110) 내 딥러닝 모델은 머신 비전 태스크를 수행하여, 예컨대, 머신 비전 태스크의 분석 결과를 생성할 수 있다.
이하의 설명에서, 이러한 특징 추출기(110) 내 딥러닝 모델을 머신 태스크 모델(machine task model)로 명칭한다.
특징 추출기(110) 내 머신 태스크 모델은, 머신 비전 태스크의 분석에 적합한 특징맵을 생성할 수 있는 어느 신경망 모델이든 이용될 수 있다. 예컨대, 콘볼루션 레이어(convolutional layer)와 풀링 레이어(pooling layer)를 포함하는, 다수의 인코딩 레이어로 구현된 CNN(convolutional neural network) 기반의 모델일 수 있다.
트레이닝부는 특징 추출기(110) 내 머신 태스크 모델을 트레이닝시킬 수 있다.
특징 예측기(120)는 참조 특징맵으로부터 원본 특징맵을 예측하여 예측 특징맵을 생성한 후, 원본 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵을 생성한다. 참조 특징맵의 선정 방법, 및 예측 특징맵의 예측 방법은 추후 기술하기로 한다.
특징 변형기(130)는, 부호화 시 필요할 수 있는 데이터 타입 변환, 특징맵 채널 재정렬 등의 변형을 잔차 특징맵에 적용한다. 이러한 변형이 필요 없는 경우, 특징 변형기(130)는 생략될 수 있다.
특징 부호화기(140)는 잔차 특징맵을 부호화하여 해당되는 비트스트림을 생성한다.
일반적인 딥러닝 모델의 특징맵은 (W,H,C)의 크기를 갖는다. 채널의 크기 C를 시간으로 대응시킴으로써, 공통 특징맵은 W×H(Width×Height) 크기의 프레임 C 개를 포함하는 비디오로 가정될 수 있다. 따라서, HEVC(High Efficiency Video Coding), VVC(Versatile Video Coding) 등과 같은 기존의 비디오 코덱을 사용하여 특징 부호화기(140)는 잔차 특징맵을 부호화할 수 있다. 또는, 딥러닝 기반 오토인코더(auto-encoder)를 사용하여 특징 부호화기(140)는 잔차 특징맵을 부호화할 수 있다.
딥러닝 기반 오토인코더를 이용하는 경우, 트레이닝부는, 특징 복호화기(220)까지 포함하여 특징 부호화기(140)를 학습시킬 수 있다. VCM 복호화 장치에 포함되는 특징 복호화기(220)는 추후 설명하기로 한다.
오토인코더는 입력을 출력으로 복사하는 딥러닝 모델이다. 간단한 딥러닝 모델처럼 보이나, 모델에 다양한 제약(constraint)을 설정함으로써 복잡한 모델을 생성할 수 있다. 예컨대, 은닉층(hidden layer)의 크기를 입력층(input layer)의 크기보다 작게 하여, 오토인코더는 데이터를 압축, 즉 차원을 축소할 수 있다. 또는, 입력 데이터에 잡음(noise)를 추가하여 원본 입력을 복원할 수 있도록 딥러닝 모델이 트레이닝될 수 있다. 이러한 제약들은 오토인코더가 단순히 입력을 바로 출력으로 복사하는 것을 방지하고, 데이터를 효율적으로 표현(representation)하는 방법을 학습하도록 한다.
한편, 오토인코더는 항상 부호화기(encoder)와 복호화기(decoder), 두 부분으로 구성된다. 본 개시는, 부호화기의 출력 데이터의 크기를 입력 데이터보다 작게 설정함으로써, 입력 데이터를 압축하여 비트스트림을 생성할 수 있다
비디오 부호화기(150)는 인간 시각을 위해 입력 영상을 부호화하되, 잔차 특징맵을 참조할 수 있다. 예컨대, 잔차 특징맵으로부터 기본 영상을 생성하고, 입력 영상으로부터 기본 영상을 감산하여 잔차 영상을 생성한 후, 비디오 부호화기(150)는 잔차 영상을 부호화하여 비트스트림을 생성할 수 있다.
비디오 부호화기(150)는, HEVC, VVC 등과 같은 기존의 비디오 코덱을 이용하여 구현될 수 있다. 또는, 딥러닝 기반 오토인코더를 이용하여 구현될 수 있다.
딥러닝 기반 오토인코더를 이용하는 경우, 트레이닝부는, 비디오 복호화기(250)까지 포함하여 비디오 부호화기(150)를 트레이닝시킬 수 있다. VCM 복호화 장치에 포함되는 비디오 복호화기(250)는 추후 설명하기로 한다.
다중화기(160)는 머신 비전을 위한 잔차 특징맵을 부호화한 비트스트림 및 입력 영상을 부호화한 비트스트림을 다중화한다. 다중화된 비트스트림은 VCM 복호화 장치로 전송될 수 있다.
신경망 연결부(170)는, VCM 부호화 장치에서 이용하는 딥러닝 모델들의 정보(예컨대, 파라미터)를 저장하는 모듈이다. 이 모듈은 트레이닝부에 의해 트레이닝된 딥러닝 모델들의 파라미터를 저장하되, VCM 부호화 장치의 구성요소일 필요는 없다.
도 2는 본 개시에 일 실시예에 따른 VCM 복호화 장치를 개념적으로 나타내는 블록도이다.
VCM 복호화 장치는 다중화 비트스트림을 획득하여, 잔차 특징맵 및 입력 영상에 해당하는 비트스트림을 획득한다. VCM 복호화 장치는 비트스트림으로부터 잔차 특징맵을 복호화한다. VCM 복호화 장치는, 특징맵 역변형을 잔차 특징맵에 적용하여 복원 잔차 특징맵을 생성한다. VCM 복호화 장치는 복원된 참조 특징맵으로부터 예측 특징맵을 생성한 후, 잔차 특징맵에 예측 특징맵을 가산하여 복원 특징맵을 생성한다. 복원된 특징맵은 머신 비전과 인간의 시각에 동시에 사용될 수 있다. VCM 복호화 장치는, 도 2에 예시된 바와 같이, 특징 복호화기(220), 특징 역변형기(feature inverse converter, 230), 특징 예측기(240), 비디오 복호화기(250), 역다중화기(demultiplexer, 260), 및 신경망 연결부(270)의 전부 또는 일부를 포함한다.
역다중화기(260)는 다중화 비트스트림으로부터 특징 복호화기(220)에 의해 이용되는 비트스트림, 및 비디오 복호화기(250)에 의해 이용되는 비트스트림을 역다중화한다.
특징 복호화기(220)는 비트스트림으로부터 잔차 특징맵을 복호화한다. 특징 복호화기(220)는 기존의 비디오 코덱을 사용하여 잔차 특징맵을 복호화할 수 있다. 또는, 딥러닝 기반 오토인코더를 사용하여 특징 복호화기(220)는 잔차 특징맵을 복호화할 수 있다.
딥러닝 기반 오토인코더를 이용하는 경우, 특징 부호화기(140)까지 포함하여 특징 복호화기(220)가 사전에 트레이닝될 수 있다.
특징 역변형기(230)는, VCM 부호화 장치에 의한 특징맵 변형의 역과정인 특징맵 역변형을 잔차 특징맵에 적용하여 복원 잔차 특징맵을 생성한다. VCM 부호화 장치에 의해 이러한 변형이 적용되지 않은 경우, 특징 역변형기(230)는 생략될 수 있다.
특징 예측기(240)는 복원된 참조 특징맵으로부터 예측 특징맵을 생성한 후, 복원 잔차 특징맵에 예측 특징맵을 가산하여 복원 특징맵을 생성한다. 예측 특징맵의 예측 방법은 추후 기술하기로 한다.
한편, 도 2에 점선 박스로 예시된 머신 비전 부분에서는, 복원 특징맵을 이용하여, 머신 비전 태스크가 수행될 수 있다.
인간의 시각을 만족시키기 위한 더 개선된 영상을 제공하기 위해 입력 영상 또는 잔차 영상이 전송된 경우, 비디오 복호화기(250)는 비트스트림으로부터 입력 영상 또는 잔차 영상을 복호화한다. 이때, 잔차 영상으로부터 입력 영상을 복원 시, 비디오 복호화기(250)는 복원된 잔차 특징맵을 참조할 수 있다. 예컨대, 복원된 잔차 특징맵으로부터 기본 영상을 복원하고, 복호화된 잔차 영상에 복원된 기본 영상을 가산하여 입력 영상이 복원될 수 있다.
비디오 복호화기(250)는, 전술한 바와 같은, 기존의 비디오 코덱을 사용하여 잔차 영상을 복호화할 수 있다. 또는, 딥러닝 기반 오토인코더를 사용하여 잔차 영상을 복호화할 수 있다.
딥러닝 기반 오토인코더를 이용하는 경우, 비디오 부호화기(150)까지 포함하여 비디오 복호화기(250)가 사전에 트레이닝될 수 있다.
신경망 연결부(270)는 VCM 복호화 장치에서 이용하는 딥러닝 모델들의 정보(예컨대, 파라미터)를 저장하는 모듈이다. 이 모듈은 트레이닝부에 의해 트레이닝된 딥러닝 모델들의 파라미터를 저장하되, VCM 복호화 장치의 구성요소일 필요는 없다.
한편, 단일 머신 비전 데이터만을 전송하거나 복수의 머신 비전 데이터를 부호화할 때, 참조 머신 비전 데이터가 존재하지 않는 경우, 비디오 코덱에서 첫 번째 프레임을 부호화하는 경우와 유사하게, VCM 코덱은 머신 비전 데이터의 부호화/복호화를 수행할 수 있다. 예컨대, VCM 부호화 장치는, 특징맵 예측을 제외한, 특징맵 추출, 특징맵 변형, 및 특징맵 부호화의 순서로 나머지 과정을 수행함으로써, 머신 비전 데이터를 부호화할 수 있다. 또한, VCM 복호화 장치는, 특징맵 예측을 제외한, 특징맵 복호화, 및 특징맵 역변형의 순서로 나머지 과정을 수행함으로써, 머신 비전 데이터를 복호화할 수 있다.
이하의 설명에서, VCM 부호화 장치가 전송하고자 하는 원본 특징맵(또는 목표 특징맵)을 ft로 표현하고, 참조되는 참조 특징맵을 fref로 표현하고, 예측된 특징맵을 fpred로 표현하며, VCM 복호화 장치로 전송되는 잔차 특징맵을 fres(= ft - fpred)로 표현한다. 한편, VCM 복호화 장치에서 복원되는 모든 특징맵은 특징맵 표현의 아래첨자에 'rec' 표기를 부가한다. 예컨대, 복원 특징맵을 ft,rec로 표현한다.
이하, VCM 부호화 장치 내 특징 예측기(120)와 VCM 복호화 장치 내 특징 예측기(240)가 수행하는, 예측 특징맵의 예측 방법에 대해 설명한다.
먼저, 가장 간단한 예측 방법으로서, VCM 부호화 장치 내 특징 예측기(120)는 별도의 예측 없이 참조 특징맵을 예측 특징맵으로 설정(fpred = fref)할 수 있다. 이때, VCM 복호화 장치로 전송되는 잔차 특징맵 fres는 ft - fpred이고, VCM 복호화 장치 내 특징 예측기(240)도 별도의 예측 없이 복원 참조 특징맵을 예측 특징맵으로 설정(fpred,rec = fref,rec)한 후, 복원 특징맵 ft,rec을 fres,rec + fpred,rec으로 복원할 수 있다. 이러한 예측 방법은, 구현이 가장 간단하지만 특징맵 예측으로부터 파생되는 부호화 이득을 활용하지 못할 수 있다.
다른 실시예로서, HEVC, VVC 등과 같은 기존 비디오 코덱에서 사용하는 인트라 예측 방법 및 인터 예측 방법이 그대로 사용될 수 있다. 이때, 이러한 예측 방법의 입력으로서 목표 특징맵과 참조 특징맵이 이용될 수 있다. 인트라 예측 모드 및 인터 예측 모드의 선택은 목표 특징맵의 특성에 따라 결정될 수 있다. 인트라 예측 모드가 선택되면 참조 특징맵은 목표 특징맵 내부의 특정 블록이 되고, 인터 예측 모드가 선택되면 참조 특징맵은 목표 특징맵과 동일한 크기를 갖는 다른 특징맵이 될 수 있다.
도 3은 본 개시의 일 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
도 4은 본 개시의 일 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 동작을 나타내는 블록도이다.
한편, 도 3 및 도 4의 도시에서는, 비디오 부호화기(150) 및 비디오 복호화기(250)가 수행하는, 입력 영상의 비디오 부호화 및 비디오 복호화 과정이 생략된다.
도 3의 도시에서, VCM 부호화 장치 내 특징 추출기(110)는 입력 영상으로부터 목표 특징맵 ft를 추출한다. 목표 특징맵 ft 및 참조 특징맵 fref를 입력으로 이용하는 비디오 프레임 예측(frame prediction) 방법을 이용하여, 특징 예측기(120)는 예측 특징맵 fpred을 생성하다. 특징 예측기(120)는 원본 목표 특징맵 ft로부터 예측 특징맵 fpred를 감산하여 원본 목표 특징맵과 예측 특징맵 간의 차이에 해당하는 잔차 특징맵 fres를 생성한다. 잔차 특징맵 fres은 특징 변형기(130)에 의해 변형되고, 특징 부호화기(140)에 의해 비트스트림으로 부호화된 후, VCM 복호화 장치로 전송된다.
도 3의 도시에서, 특징 부호화기(140)는, 복호화 경로를 포함하고, 이를 이용하여, 복원 잔차 특징맵 fres,rec을 생성할 수 있다. VCM 부호화 장치는 복원 잔차 특징맵 fres,rec과 예측 특징맵 fpred를 가산하여 복원 특징맵 ft,rec를 생성할 수 있다. 추후, 기존의 비디오 프레임 예측 방법에서와 같이, 복원 특징맵 ft,rec는 참조 특징맵 fref로 이용될 수 있다.
도 4의 도시에서, VCM 복호화 장치는 수신된 비트스트림을 특징 복호화기(220) 및 특징 역변형기(230)에 적용하여 복원 잔차 특징맵 fres,rec을 생성한다. 특징 예측기(240)는 복원된 참조 특징맵 fref,rec를 이용하여 복원된 예측 특징맵 fpred,rec을 생성한 후, 복원 잔차 특징맵 fres,rec과 복원 예측 특징맵 fpred,rec을 가산하여 목표 특징맵 ft,rec을 복원한다.
추후, 기존의 비디오 프레임 예측 방법에서와 같이, 복원 특징맵 ft,rec는 복원 참조 특징맵 fref,rec로 이용될 수 있다.
한편, 딥러닝 네트워크에 의해 생성된 특징맵으로 대표되는 머신 비전 데이터들은 일반 영상과는 다른 형태를 갖는다. 반면, 비디오를 입력으로 하는 기존 비디오 예측 방법에서는, 공간적 연관성이 있다는 가정 하에 인트라 예측 모드가 수행되고, 시간적 연관성이 있다는 가정 하에 인터 예측 모드가 수행된다. 이러한 기존 비디오 예측 방법은 일반 영상과는 다른 특성을 갖는 머신 비전 데이터들에 대해 최적의 예측을 수행하지 못할 수 있다. 따라서, HEVC, VVC 등의 기존 비디오 코덱에서 제공하는 일부 부호화 모듈이 사용되지 않을 수 있다. 예컨대, 변환 생략 모드(transform skip mode)를 이용하는 경우, 이산 코사인 변환(Discrete Cosine Transform: DCT)이 사용되지 않을 수 있다. 반면, 일부 부호화 모듈들은 사용될 수 있다. 예컨대, RPDCM(Residual Differential Pulse Code Modulation) 부호화, 4:4:4 영상 신호 포맷에서 사용하는 팔레트, 인트라 블록 복사(intra block copy) 등과 같은 모듈들이 사용될 수 있다.
전술한 바와 같은 일반적인 영상의 특성을 이용하는 기존 비디오 예측 방법의 단점을 극복하기 위해, 또다른 실시예로서, 딥러닝 기반 특징맵 예측 모델(이하 '예측 모델')에 기반하는 예측 방법이 이용될 수 있다. 예측 모델은, 예측 모델이 생성하는 출력 특징맵을 기반으로 목표 특징맵과 참조 특징맵 간의 상관성을 학습함으로써, 기존 비디오 예측 방법에 비해 더 좋은 예측 성능을 보일 수 있다.
도 5는 본 개시의 다른 실시예에 따른, VCM 부호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 6는 본 개시의 다른 실시예에 따른, VCM 복호화 장치 내 특징맵 예측 구조를 나타내는 블록도이다.
도 5 및 도 6의 도시는 하나의 예시이며, 목적에 따라 다양한 구조로 변형될 수 있다. 또한, 도 5 및 도 6의 도시에서, 비디오 부호화기(150) 및 비디오 복호화기(250)가 수행하는, 입력 영상의 부호화 및 복호화 과정이 생략되었다.
도 5의 도시에서, 특징 예측기(120)는 예측 모델을 이용하여, 참조 특징맵 fref로부터 목표 특징맵과 동일한 크기의 예측 특징맵 fpred을 생성한다. 특징 예측기(120)는 원본 목표 특징맵 ft과 예측 특징맵 fpred 간의 차이에 해당하는 잔차 특징맵 fres를 획득한다. 잔차 특징맵 fres은 특징 변형기(130)에 의해 변형되고, 특징 부호화기(140)에 의해 비트스트림으로 부호화된 후, VCM 복호화 장치로 전송된다.
도 6의 도시에서, VCM 복호화 장치는 수신된 비트스트림을 특징 복호화기(220) 및 특징 역변형기(230)에 적용하여 복원 잔차 특징맵 fres,rec을 생성한다. 특징 예측기(240)는 예측 모델을 이용하여, 복원된 참조 특징맵 fref,rec로부터 복원된 예측 특징맵 fpred,rec을 생성한 후, 복원 잔차 특징맵 fres,rec과 복원 예측 특징맵 fpred,rec을 가산하여 목표 특징맵 ft,rec을 복원한다.
추후, 기존의 비디오 프레임 예측 방법에서와 같이, 복원 특징맵 ft,rec는 복원 참조 특징맵 fref,rec로 이용될 수 있다.
도 5 및 도 6에 도시된 바와 같은 예측 모델을 이용하는 예측 방법에 대해, 참조 특징맵의 선정 방법은 추후 기술하기로 한다.
한편, 예측 모델은 트레이닝부에 의해 단독으로 트레이닝되거나, 특징맵 추출과 머신 태스크를 수행하는 특징 추출기(110) 내 딥러닝 모델, 및 특징맵 부호화를 수행하는 특징 부호화기(140) 내 딥러닝 모델과 함께 종단간(end-to-end)으로 트레이닝될 수도 있다.
예측 모델이 단독으로 트레이닝되는 경우, 손실함수(loss function)는 수학식 1과 같이 표현될 수 있다.
여기서, 첫 번째 항은 L2 손실로서, 참조 특징맵 fref로부터 예측된 예측 특징맵 fref이 목표 특징맵 ft를 잘 예측하도록 하기 위한 손실이고. 두 번째 항은 L1 손실로서, 실제 전송하는 잔차 특징맵 fres의 비트 수를 감소시키기 위한 손실이다. 세 번째 항은 L2 손실로서, VCM 복호화 장치에서 출력되는 복원 목표 특징맵과 원본 특징맵(즉, 목표 특징맵) 간의 차이를 감소시키기 위한 손실이다. λ1와 λ2는, 학습 중 해당되는 손실의 영향을 조절하기 위한 하이퍼파라미터이다.
예측 모델이 특징맵 추출과 기계 태스크를 수행하는 머신 태스크 모델과 함께 종단간으로 트레이닝되는 경우, 손실함수는 수학식 2와 같이 표현될 수 있다.
여기서, 첫 번째 항 LT은 태스크에 대해 보편적으로 사용하는 손실이고, 두 번째 항 LE는, 특징맵 부호화가 학습 기반인 경우 사용되는 손실이다. 세 번째 및 네 번째 항은 수학식 1에서와 동일한 목적으로 사용된다. λ1 내지 λ3는, 학습 중 해당되는 손실의 영향을 조절하기 위한 하이퍼파라미터이다.
한편, VCM 부호화 장치는 트레이닝된 예측 모델의 파라미터를 VCM 복호화 장치와 공유한다, 또한, 예측 모델의 파라미터가 업데이트된 경우, VCM 부호화 장치는 업데이트된 파라미터를 VCM 복호화 장치로 전송할 수 있다.
이하, 본 개시가 활용할 수 있는 시나리오들에 따라, VCM 부호화 장치 내 특징 예측기(120)와 VCM 복호화 장치 내 특징 예측기(240)가 이용하는 참조 특징맵의 선정 방법에 대해 설명한다.
본 개시가 활용할 수 있는 시나리오들은, 기본적으로 전송하고자 하는 목표 특징맵에 대해, 목표 특징맵과 상관성이 크고, 부호화 및 복호화 가능한 참조 특징맵이 존재하는 상황들이다. 전술한 바와 같이, 이러한 시나리오들은 비디오 입력에 대해 머신 비전 데이터가 시간 및 공간적으로 연관이 있는 경우, 머신 비전용 시스템이 다수의 머신 비전 태스크를 수행하되 태스크별 머신 비전 데이터 간에 연관이 있는 경우, 머신 비전 태스크를 수행하는 모델의 구조에 따른 머신 비전 데이터 간에 연관이 있는 경우 등을 포함한다. 따라서, 목표 특징맵과 참조 특징맵 간의 상관성은 시간과 공간 측면, 태스크 측면, 및 머신 태스크 모델의 구조 측면에서 구분될 수 있다.
일반적으로, 딥러닝 모델의 출력 특징맵의 채널은 일반 영상보다 깊다. 이때, 출력 특징맵들의 채널의 위치는 모두 동일하며, 다른 채널에서도 서로 동일한 측면의 연관성이 존재할 수 있다.
첫 번째 예로서, 머신 태스크 모델의 입력이 비디오인 경우, 비디오를 구성하는 프레임들 간에 시간적 연관성이 존재한다. 모든 프레임들이 동일한 머신 태스크 모델에 적용되는 경우, 각 프레임에 대응되는 출력 특징맵들 간에도 시간적 연관성이 유지될 수 있다. 따라서, 머신 비전 시스템은 특정 프레임의 출력 특징맵을 참조 특징맵으로 설정한 후, 참조 특징맵에 기초하여 나머지 프레임들의 출력 특징맵을 예측할 수 있다.
또한, 하나의 입력 영상에 대해서 머신 태스크 모델의 비교적 얕은 계층의 특징맵을 출력하면 영상 내 공간적 연관성도 유지될 수 있다. 따라서, 머신 비전 시스템은 출력 특징맵 내 서브블록을 참조 블록으로 설정한 후, 출력 특징맵 내의 나머지 블록들을 이 참조 블록을 기반으로 예측할 수 있다.
다른 예로서, 입력 영상에 대해 복수의 태스크를 수행하는 경우, 각각의 태스크에 대해 개별 태스크를 수행하는 모델을 사용하더라도, 복수의 태스크들에 해당하는 출력 특징맵들 간에 연관성이 존재한다. 다수의 사람이 등장하는 입력 영상에 대해, 영상 분할 모델(image segmentation model)은 사람들을 중심으로 큰 값을 갖는 특징맵을 출력한다. 동일한 영상에 대해, 얼굴 인식 모델(face recognition model)은 사람들의 얼굴 영역에 특히 큰 값을 갖지만, 여전히 사람들의 분할 영역이 배경에 비해서 큰 값을 갖는 특징맵을 출력한다.
예를 들어, 머신 비전 시스템은 영상 분할 모델의 출력 특징맵을 참조 특징맵으로 설정한 후, 얼굴 인식 태스크에 대해서, 이러한 참조 특징맵으로부터 얼굴 인식 모델의 출력 특징맵을 예측하여 예측 특징맵을 생성할 수 있다. 또한, 머신 비전 시스템은 예측 특징맵과 원본 특징맵 간의 차이에 해당하는 잔차 특징맵만을 전송할 수 있다. 이때, 잔차 특징맵은 얼굴을 제외한 사람의 영역은 제외한 채로, 얼굴 영역에서의 값만을 유지할 수 있다.
또다른 예로서, 하나의 딥러닝 모델에서 계층(layer)별로 출력 특징맵 간에 연관성이 존재한다. 일반적인 딥러닝 모델은, 연속적인 계층 구조를 포함하고, 풀링 레이어들을 통과시키면서 특징맵의 크기를 감소시켜 결이 거친(coarse) 특징맵들을 출력한다. 그럼에도, 깊은 계층의 특징맵은 이전에 존재하는 얕은 계층의 특징맵이 다수의 중간 계층을 통과하여 생성된 결과이기 때문에, 얕은 계층의 특징맵의 특성(characteristic)을 여전히 보존한다. 따라서, 머신 비전 시스템은 얕은 계층의 특징맵을 참조 특징맵으로 선정한 후, 이러한 참조 특징맵에 기초하여 깊은 계층의 출력 특징맵을 예측할 수 있다.
또한, 이러한 시나리오들은 상호 독립적이지 않기 때문에, 비전 시스템이 여러 시나리오들을 중복적으로 수행하는 경우, 비전 시스템은 복수의 특징맵 예측을 동시에 수행하여 부호화 효율을 극대화할 수 있다.
이하, 각 시나리오에 대해 사용할 수 있는 VCM 부호화 장치 및 VCM 복호화 장치의 구조를 기술한다. 이때, VCM 부호화 장치 및 VCM 복호화 장치는, 특징맵 예측 방법으로서, 전술한 바와 같은 다양한 예측 방법들 중의 하나를 이용할 수 있다.
전술한 바와 같이, 비디오 입력, 즉 공간 및 시간적 연관성이 큰 다수 프레임들이 동일한 머신 태스크 모델로 입력되는 경우, 출력 특징맵들 간에도 밀접한 공간 및 시간적 연관성이 존재한다. 이하, 이러한 연관성을 기반으로 구성될 수 있는 VCM 부호화 장치 및 VCM 복호화 장치의 구조를 설명한다.
도 7은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 장치를 나타내는 블록도이다.
VCM 부호화 장치는, 비디오 프레임들로부터 특징 추출기(110)에 의해 출력되는 특징맵들 중 가장 대표적인 특징맵을 키 특징맵(key feature)으로 설정한 후, 키 특징맵을 참조 특징맵으로 사용한다. VCM 부호화 장치는, 비트율 왜곡(rate-distortion)의 최적화 측면에서, 특징 추출기(110)에 의해 추출된 특징맵들 중에서 키 특징맵을 선택할 수 있다. 다른 실시예로서, VCM 부호화 장치는, 비트율 왜곡의 최적화 측면에서, 비디오 프레임들 중에서 키 프레임을 선택할 수도 있다. 또한, 특징 추출기(110)는 나머지 프레임들로부터 나머지 프레임들 각각의 원본 특징맵을 추출한다.
VCM 부호화 장치 내 특징 예측기(120)는, 나머지 프레임들의 원본 특징맵 각각에 대해 선택된 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성할 수 있다. 특징 예측기(120)는 나머지 프레임들의 원본 특징맵 각각으로부터 해당되는 예측 특징맵을 감산하여 잔차 특징맵을 생성할 수 있다. 특징 부호화기(140)는, 도 7에 예시된 바와 같이, 키 프레임의 참조 특징맵을 부호화하고, 나머지 프레임들의 잔차 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송한다. VCM 부호화 장치는 나머지 프레임들의 잔차 특징맵을 부호화한 비트스트림을 전송함으로써, 부호화 효율을 향상시킬 수 있다.
한편, 특징 예측기(120)는, 예측 특징맵을 생성하기 위한 방법으로서, 참조 특징맵을 예측 특징맵으로 그대로 설정할 수 있다. 다른 방법으로서, 특징 예측기(120)는 참조 특징맵을 기반으로 인터 예측을 수행하여 예측 특징맵을 생성할 수 있다. 또다른 방법으로서, 특징 예측기(120)는 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 복호화 장치 내 특징 복호화기(220)는, 비트스트림으로부터 키 프레임의 참조 특징맵을 복호화하고, 나머지 프레임들의 잔차 특징맵을 복호화한다. 특징 예측기(240)는 나머지 프레임들 각각에 대해 복원 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성할 수 있다. 특징 예측기(240)는 나머지 프레임들의 복원 잔차 특징맵과 해당되는 예측 특징맵을 가산하여 복원 특징맵을 생성할 수 있다. 이때, 특징 예측기(240)는, 예측 특징맵을 생성하기 위해, 도 7에 도시된 VCM 부호화 장치에 적용된 예측 방법들 중의 하나를 이용할 수 있다.
이하, 키 프레임의 참조 특징맵을 부호화하는 방안을 기술한다.
먼저, VCM 부호화 장치는, 입력 영상의 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 부호화할 수 있다.
다른 실시예로서, VCM 부호화 장치는 입력 영상의 공간적 정보를 이용할 수 있다. 전술한 바와 같이, 머신 태스크 모델의 얕은 계층의 출력 특징맵은 입력 프레임의 형태를 비교적 잘 보존하므로, 입력 영상의 공간적 정보도 보존할 수 있다. 이와 같이, 단일 특징맵 내에서 공간적 상관성이 크게 유지되는 경우, 특징 추출기(110)에 의해 출력된 특징맵에 대해, VCM 부호화 장치는 전송하려는 서브블록의 주변 블록을 참조 블록으로 설정할 수 있다. 특징 예측기(120)는 참조 블록의 특징맵으로부터 전송 블록의 특징맵을 예측하여 예측 블록의 특징맵을 생성할 수 있다. 특징 예측기(120)는 전송 블록으로부터 예측 블록을 감산하여 잔차 블록의 특징맵을 생성한다. VCM 부호화 장치는, 잔차 블록의 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 부호화 장치로 전송할 수 있다. 이때, 특징 예측기(120)는 예측 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 복호화 장치 내 특징 복호화기(220)는, 비트스트림으로부터 잔차 블록의 특징맵을 복호화한다. 특징 예측기(240)는 복원 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성할 수 있다. 특징 예측기(240)는 복원된 잔차 블록에 예측 블록을 가산하여 복원 블록을 생성할 수 있다. 이후, 복원 불록은 복원 참조 블록으로 이용될 수 있다.
키 프레임의 참조 특징맵에 대해, 전술한 바와 같은 참조 블록을 이용하는 예측 방법을 적용함으로써, VCM 부호화 장치는 키 프레임의 참조 특징맵에 대해, 부호화 효율을 향상시킬 수 있다.
한편, 태스크 시스템이 복수의 태스크들을 수행하는 경우, 태스크들 간의 태스크 유사도를 측정하여 주태스크(main task)가 선택될 수 있다. 또한, 나머지 태스크들은 부태스크(subtask)로 명명될 수 있다.
태스크 간 유사도는 두 태스크 간의 이전성(transferability)을 나타내는 유사도 행렬(affinity matrix)로부터 측정될 수 있다. 여기서, 두 태스크 간의 이전성은, 소스 태스크(source task)를 대상으로 학습된 신경망 모델의 특징의 표현(feature representation)을 타겟 태스크(target task)에 그대로 적용하여 사후적으로 타겟 태스크를 학습했을 때와, 타겟 태스크를 단독으로 학습했을 때 간의 성능 향상 수준을 나타낸다.
한편, 부태스크들과 주태스크와의 태스크 유사도가 크다면 상이한 태스크 모델을 사용하더라도 두 모델은 유사한 특징맵을 학습한다. 따라서, 이러한 태스크 간 상관성에 기초하여 특징맵이 예측될 수 있다.
태스크 간 상관성이 큰 경우, 일반적인 비디오 코덱에서의 예측 방법을 대신하여 딥러닝 기반 예측 모델을 사용하는 것이 적합하다. 예를 들어, 오토인코더 구조의 딥러닝 모델에 영상 분할 모델의 출력 특징맵을 입력하여 얼굴 인식 모델의 출력 특징맵을 출력하도록 학습시킬 수 있다. 따라서, 이러한 오토인코더 구조의 딥러닝 모델이 특징맵 예측 모델로 사용될 수 있다.
도 8은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 장치를 나타내는 블록도이다.
VCM 부호화 장치는 대상 태스크들의 특징맵을 추출하기 위해 주태스크 특징 추출기(812) 및 복수의 부태스크 특징 추출기들(814)을 포함한다.
VCM 부호화 장치는 대상 태스크들 간의 태스크 유사도를 측정하여, 다른 태스크들에 대해 태스크 유사도를 가장 높게 가지는 태스크를 주태스크로 설정한다.
주태스크 특징 추출기(812)는 주태스크로부터 특징맵을 추출한다. VCM 부호화 장치는 추출된 특징맵을 나머지 부태스크들을 위한 참조 특징맵으로 설정할 수 있다. 특징 부호화기(14)는 주태스크의 특징맵을 부호화한다. 이때, VCM 부호화 장치는, 특징 예측기(120)을 이용하지 않은 채로, 주태스크의 특징맵을 부호화할 수 있다. 다른 실시예로서, VCM 부호화 장치는, 도 7에 도시된 바와 같이, 키 특징맵의 참조 특징맵, 참조 블록, 또는 이들의 결합을 이용함으로써, 주태스크의 특징맵을 부호화할 수 있다.
부태스크 특징 추출기들(814)은 부태스크들로부터 부태스크들 각각의 원본 특징맵을 추출한다. 한편, 주태스크 특징 추출기(812) 및 복수의 부태스크 특징 추출기들(814)은 동일한 딥러닝 기반 머신 태스크 모델을 포함하고, 이 동일한 모델을 이용하여 주태스크 및 부태스크들의 특징맵을 추출할 수 있다.
특징 예측기(120)는 참조 특징맵을 기반으로 예측을 수행하여 부태스크들의 예측 특징맵을 생성할 수 있다. 특징 예측기(120)는 부태스크들의 원본 특징맵 각각으로부터 해당되는 예측 특징맵을 감산하여 잔차 특징맵을 생성할 수 있다. 이때, 특징 예측기(120)는, 전술한 바와 같은, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다. 특징 부호화기(140)는, 도 8에 예시된 바와 같이, 부태스크들의 잔차 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송한다. VCM 부호화 장치는 부태스크들의 잔차 특징맵을 부호화한 비트스트림을 전송함으로써, 부호화 효율을 향상시킬 수 있다.
VCM 복호화 장치 내 특징 복호화기(220)는, 비트스트림으로부터 주태스크의 특징맵을 복호화하여 복원 참조 특징맵으로 설정한다. 이때, 특징맵 예측을 이용하지 않은 채로, 주태스크의 특징맵이 부호화된 경우, VCM 부호화 장치는, 특징 예측기(240)을 이용하지 않은 채로, 주태스크의 특징맵을 복호화할 수 있다. 다른 실시예로서, VCM 복호화 장치는, 키 특징맵의 참조 특징맵, 참조 블록, 또는 이들의 결합을 이용함으로써, 주태스크의 특징맵을 복호화할 수 있다.
특징 복호화기(220)는 비트스트림으로부터 부태스크들의 잔차 특징맵을 복호화한다. 특징 예측기(240)는 부태스크들 각각에 대해 복원 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성할 수 있다. 이때, 특징 예측기(240)는, 전술한 바와 같은, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다. 특징 예측기(240)는 부태스크들의 복원 잔차 특징맵과 해당되는 예측 특징맵을 가산하여 복원 특징맵을 생성할 수 있다.
한편, 태스크 유사도 측면에서 주태스크와 큰 태스크 유사도를 갖지 않는 태스크의 경우, VCM 부호화/복호화 장치는, 특징맵 예측을 이용하지 않은 채로, 해당 태스크의 특징맵을 부호화/복호화할 수 있다. 다른 실시예로서, VCM 부호화/복호화 장치는, 도 7에 도시된 바와 같이, 키 특징맵의 참조 특징맵을 이용하거나, 참조 블록을 이용함으로써, 큰 유사도를 갖지 않는 태스크의 특징맵을 부호화/복호화할 수 있다.
일반적으로, 머신 태스크 모델의 어떤 계층(layer)의 결과 특징맵을 전송하는 지에 따라, 전송 비트와 태스크 성능이 달라질 수 있다. 특징맵의 손실 압축(lossy compression)이 사용되는 경우, 일반적으로 태스크 목적에 부합하는 출력 단에 가까운 깊은 계층의 특징맵을 전송할수록, 부호화에 따른 태스크의 성능 저하가 감소된다. 반면, 태스크에 필요한 정교한 특징맵을 학습하기 위해, 일반적으로 출력 단에 가까워질수록, 많은 채널을 포함하는 특징맵을 출력하도록 머신 태스크 모델이 설계되어야 한다. 따라서, 이러한 머신 태스크 모델의 경우, 전송되어야 하는 비트수가 증가할 수 있다.
머신 비전 시스템은, 부호화 효율 측면에서 효용 비트수에 기초하여 전송 가능한 가장 깊은 계층의 출력 특징맵을 전송하여야 한다. 다만, 최종 출력 계층의 특징맵을 전송하는 경우와 대비하여, 태스크 성능 저하가 감수되어야 한다.
예컨대, 초기 효용 비트수에 기초하여 태스크 모델의 중간 특징맵이 이미 전송되어, 이에 따른 성능 저하가 발생한 상황을 가정한다. 이때, 효용 비트수가 증가하면, 머신 비전 시스템은, 증가된 효용 비트수에 기초하여 기존 계층보다 깊은 계층의 출력 특징맵을 전송함으로써, 성능 저하를 회복할 수 있다.
특히, 머신 태스크 모델이 연속적인 구조를 가지는 경우, 중간 계층과 그보다 깊은 계층 간의 네트워크 구조에 따른 연관성이 존재한다. 따라서, 머신 비전 시스템은 중간 계층의 출력 특징맵을 참조 특징맵으로 설정한 후, 참조 특징맵을 기반으로 깊은 계층의 출력 특징맵을 예측하여, 예측 특징맵을 생성할 수 있다. 이후, 머신 비전 시스템은 깊은 계층의 출력 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵을 생성한 후, 잔차 특징맵만을 전송할 수 있다. 이러한 효율적인 부호화 방법을 이용함으로써, 기존보다 더 깊은 계층의 특징맵이 선택된 후, 전송될 수 있다.
도 9는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 장치를 나타내는 블록도이다.
도 9의 도시에서, 머신 태스크 모델로서, 16 개의 계층이 연결되는 VGG16 모델(arXiv:1409.1556의 "Very Deep Convolutional Networks for Large-Scale Image Recognition" 문헌 참조)이 사용된다.
효용 비트수가 적은 상황에서, VCM 부호화 장치는 VGG16의 콘볼루션 계층(convolution layer) 3-2(Conv 3-2)의 출력 특징맵을 추출한 후, 이를 부호화하여 VCM 복호화 장치로 전송한다. VCM 복호화 장치는 특징맵을 복호화한 후, 복원 특징맵을 VGG16의 Conv 3-3에 입력시켜 머신 태스크를 수행할 수 있다. 비교적 얕은 계층의 특징맵이 부호화/복호화되고, 이에 따른 전송 과정의 오차가 발생할 수 있으므로, 태스크 성능 저하가 증대될 수 있다.
반면, 효용 비트수가 증가하여, 더 깊은 콘볼루션 계층 5-2(Conv 5-2)의 출력 특징맵을 전송할 수 있는 경우, VCM 부호화 장치 내 특징 예측기(120)는 기전송한 Conv 3-2의 출력 특징맵을 참조 특징맵으로 이용하여 예측 특징맵을 생성할 수 있다. 예컨대, 특징 예측기(120)는, 전술한 바와 같이, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다. 이후, 특징 예측기(120)는 Conv 5-2의 출력 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵을 생성할 수 있다. 특징 부호화기(140)는, 증가된 효용 비트수 내에서 잔차 특징맵만을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 비트스트림을 전송할 수 있다.
특징 복호화기(220)는 비트스트림으로부터 잔차 특징맵을 복호화한다. 특징 예측기(240)는 기복원된 참조 특징맵(복원된 Conv 3-2의 출력 특징맵)에 복원된 잔차 특징맵을 가산하여, Conv 5-2의 출력 특징맵을 개선할 수 있다.
다른 실시예로서, 특징 예측기(240)는 복원 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성한 후, 복원 잔차 특징맵과 예측 특징맵을 가산하여 복원 특징맵을 생성할 수 있다.
이후, VCM 복호화 장치는, 개선된 출력 특징맵을 머신 태스크 모델 VGG16의 Conv 5-3의 신규 입력으로 이용하여 머신 태스크를 수행함으로써, 태스크 성능을 회복할 수 있다.
이때, 사용 가능한 예측 방법으로는 JPEG2000의 밴드간 예측 방법, 딥러닝 기반 예측 모델을 이용하는 방법 등이 있다. 딥러닝 기반 예측 모델을 이용하는 경우, 전술한 바와 같이, 특징맵 추출과 특징맵 예측이 종단간으로 함께 학습되거나, 특징맵 추출과 특징맵 예측이 개별적으로 학습될 수도 있다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 다양한 특징맵 예측 구조를 구현할 수 있는 VCM 코딩 장치 및 방법을 머신 비전 데이터의 연관성에 따른 다양한 시나리오들에 적용할 수 있다. 특히, 중복적으로 발생할 수 있는 시나리오들에 적합하도록, VCM 코딩 장치가 복수의 특징맵 예측 방법들을 사용함으로써, 머신 비전 관점의 부호화 효율을 극대화할 수 있다.
이하, 도 10 및 도 11의 도시를 이용하여, 비디오 프레임들 중 키 프레임의 특징맵인 키 특징맵을 이용하는 VCM 부호화 방법 및 VCM 복호화 방법을 기술한다.
도 10은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 부호화 방법을 나타내는 순서도이다.
VCM 부호화 장치는 딥러닝 기반 머신 태스크 모델을 이용하여 키 프레임으로부터 키 프레임의 특징맵인 참조 특징맵을 추출한다(S1000). VCM 부호화 장치는 비디오 프레임들로부터 머신 태스크 모델에 의해 출력되는 특징맵들 중 가장 대표적인 특징맵을 키 특징맵으로 설정한 후, 키 특징맵을 참조 특징맵으로 사용한다.
VCM 부호화 장치는, 비트율 왜곡의 최적화 측면에서, 머신 태스크 모델에 의해 추출된 특징맵들 중에서 키 특징맵을 선택할 수 있다. 다른 실시예로서, VCM 부호화 장치는, 비트율 왜곡의 최적화 측면에서, 비디오 프레임들 중에서 키 프레임을 선택할 수도 있다.
VCM 부호화 장치는 머신 태스크 모델을 이용하여 나머지 프레임들로부터 나머지 프레임들 각각의 원본 특징맵을 추출한다(S1002).
VCM 부호화 장치는 참조 특징맵을 기반으로 나머지 프레임들 각각의 예측 특징맵을 생성한다(S1004).
VCM 부호화 장치는, 예측 특징맵을 생성하기 위한 방법으로서, 참조 특징맵을 예측 특징맵으로 그대로 설정할 수 있다. 다른 방법으로서, VCM 부호화 장치는 참조 특징맵을 기반으로 인터 예측을 수행하여 예측 특징맵을 생성할 수 있다. 또다른 방법으로서, VCM 부호화 장치는 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 부호화 장치는 나머지 프레임들 각각의 원본 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵을 생성한다(S1006).
VCM 부호화 장치는 참조 특징맵을 부호화한다(S1008).
VCM 부호화 장치는 나머지 프레임들 각각의 잔차 특징맵을 부호화한다(S1010).
VCM 부호화 장치는 참조 특징맵, 및 나머지 프레임들 각각의 잔차 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송할 수 있다.
이하, VCM 부호화 장치가 참조 특징맵을 부호화하는 단계(S1008)을 자세히 기술한다.
먼저, VCM 부호화 장치는, 입력 영상의 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 부호화할 수 있다.
다른 실시예로서, 다음과 같이, VCM 부호화 장치는 입력 영상의 공간적 정보를 이용하여 참조 특징맵을 부호화할 수 있다.
VCM 부호화 장치는 키 프레임 내 전송 블록의 주변 블록을 참조 블록으로 설정한다(S1020).
VCM 부호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1022). VCM 부호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 부호화 장치는 전송 블록의 특징맵으로부터 예측 블록의 특징맵을 감산하여 잔차 블록을 생성한다(S1024).
VCM 부호화 장치는 잔차 블록을 부호화한다(S1026). VCM 부호화 장치는 전송 블록에 대응하는 잔차 블록을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송한다.
도 11은 본 개시의 일 실시예에 따른, 키 특징맵을 이용하는 VCM 복호화 방법을 나타내는 순서도이다.
VCM 복호화 장치는 비트스트림으로부터 비디오 프레임들 중 키 프레임의 특징맵인 참조 특징맵을 복호화한다(S1100).
전술한 바와 같이, 키 프레임은, 비트율 왜곡 최적화 측면에서 비디오 프레임들을 대표하는 프레임으로서, VCM 부호화 장치에 의해 선택된다.
VCM 복호화 장치는 비트스트림으로부터 나머지 프레임들의 잔차 특징맵을 복호화한다(S1102).
VCM 복호화 장치는 나머지 프레임들 각각에 대해 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성한다(S1104). VCM 복호화 장치는, 예측 특징맵을 생성하기 위해, 전술한 바와 같은 예측 방법들 중의 하나를 이용할 수 있다.
VCM 복호화 장치는 나머지 프레임들 각각의 잔차 특징맵과 해당되는 예측 특징맵을 가산하여 복원 특징맵을 생성한다(S1106).
이하, VCM 복호화 장치가 참조 특징맵을 복호화하는 단계(S1100)을 자세히 기술한다.
먼저, 키 프레임의 공간적 정보의 이용하지 않은 채로 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치도 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 복호화할 수 있다.
다른 실시예로서, 키 프레임의 공간적 정보의 이용하여 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치는, 다음과 같이, 키 프레임의 공간적 정보를 이용하여 참조 특징맵을 복호화할 수 있다.
VCM 복호화 장치는 비트스트림으로부터 잔차 블록의 특징맵을 복호화한다(S1120). 여기서, 잔차 블록은, VCM 부호화 장치에 의해 전송된, 키 프레임 내 전송 블록에 대응하는 블록이다.
VCM 복호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1122). VCM 복호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 복호화 장치는 잔차 블록의 특징맵에 예측 블록의 특징맵을 가산하여 복원 블록을 생성한다(S1124). 이후, 복원 블록은 참조 블록으로 이용될 수 있다.
이하, 도 12 및 도 13의 도시를 이용하여, 주태스크와 부태스크들의 특징맵을 이용하는 VCM 부호화 방법 및 VCM 복호화 방법을 기술한다.
도 12는 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
VCM 부호화 장치는 딥러닝 기반 머신 태스크 모델을 이용하여 주태스크의 특징맵인 참조 특징맵을 추출한다(S1200). VCM 부호화 장치는 대상 태스크들 간의 태스크 유사도를 측정하여, 다른 태스크들에 대해 태스크 유사도가 가장 높은 태스크를 주 태스크로 선택하고, 나머지 태스크들을 부태스크로 설정한다. VCM 부호화 장치는 주태스크로부터 추출한 특징맵을 부태스크들을 위한 참조 특징맵으로 사용한다.
VCM 부호화 장치는 머신 태스크 모델을 이용하여 부태스크들로부터 부태스크들 각각의 원본 특징맵을 추출한다(S1202).
VCM 부호화 장치는 참조 특징맵을 기반으로 부태스크들 각각의 예측 특징맵을 생성한다(S1204). 이때, VCM 부호화 장치는, 전술한 바와 같은, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 부호화 장치는 부태스크들 각각의 원본 특징맵으로부터 예측 특징맵을 감산하여 잔차 특징맵을 생성한다(S1206).
VCM 부호화 장치는 참조 특징맵을 부호화한다(S1208).
VCM 부호화 장치는 부태스크들 각각의 잔차 특징맵을 부호화한다(S1210).
VCM 부호화 장치는 참조 특징맵, 및 부태스크들 각각의 잔차 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송할 수 있다.
이하, VCM 부호화 장치가 참조 특징맵을 부호화하는 단계(S1208)을 자세히 기술한다.
먼저, VCM 부호화 장치는, 주태스크를 나타내는 프레임의 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 부호화할 수 있다.
다른 실시예로서, 다음과 같이, VCM 부호화 장치는 주태스크를 나타내는 프레임의 공간적 정보를 이용하여 참조 특징맵을 부호화할 수 있다.
VCM 부호화 장치는 주태스크를 나타내는 프레임 내 전송 블록의 주변 블록을 참조 블록으로 설정한다(S1220).
VCM 부호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1222). VCM 부호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 부호화 장치는 전송 블록의 특징맵으로부터 예측 블록의 특징맵을 감산하여 잔차 블록을 생성한다(S1224).
VCM 부호화 장치는 잔차 블록을 부호화한다(S1226). VCM 부호화 장치는 전송 블록에 대응하는 잔차 블록을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송한다.
도 13은 본 개시의 다른 실시예에 따른, 복수의 유사 태스크들을 수행하는 VCM 부호화 방법을 나타내는 순서도이다.
VCM 복호화 장치는 비트스트림으로부터 주태스크의 특징맵인 참조 특징맵을 복호화한다(S1300).
전술한 바와 같이, 주태스크는 대상 태스크들 간의 태스크 유사도를 측정하여, 다른 태스크들에 대해 태스크 유사도가 가장 높은 태스크로서, VCM 부호화 장치에 의해 선택된다.
VCM 복호화 장치는 비트스트림으로부터 부태스크들의 잔차 특징맵을 복호화한다(S1302).
VCM 복호화 장치는 부태스크들 각각에 대해 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성한다(S1304). 이때, VCM 복호화 장치는, 전술한 바와 같은, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 복호화 장치는 부태스크들 각각의 잔차 특징맵과 해당되는 예측 특징맵을 가산하여 복원 특징맵을 생성한다(S1306).
이하, VCM 복호화 장치가 참조 특징맵을 복호화하는 단계(S1300)을 자세히 기술한다.
먼저, 주태스크를 나타내는 프레임의 공간적 정보의 이용하지 않은 채로 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치도 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 복호화할 수 있다.
다른 실시예로서, 주태스크를 나타내는 프레임의 공간적 정보의 이용하여 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치는, 다음과 같이, 주태스크를 나타내는 프레임의 공간적 정보를 이용하여 참조 특징맵을 복호화할 수 있다.
VCM 복호화 장치는 비트스트림으로부터 잔차 블록의 특징맵을 복호화한다(S1320). 여기서, 잔차 블록은, VCM 부호화 장치에 의해 전송된, 주태스크를 나타내는 프레임 내 전송 블록에 대응하는 블록이다.
VCM 복호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1322). VCM 복호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 복호화 장치는 잔차 블록의 특징맵에 예측 블록의 특징맵을 가산하여 복원 블록을 생성한다(S1324). 이후, 복원 블록은 참조 블록으로 이용될 수 있다.
이하, 도 14 및 도 15의 도시를 이용하여, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 방법 및 VCM 복호화 방법을 기술한다.
도 14는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 부호화 방법을 나타내는 순서도이다.
VCM 부호화 장치는 딥러닝 기반 머신 태스크 모델을 이용하여 입력 영상으로부터 제1 계층의 출력 특징맵인 참조 특징맵을 추출한다(S1400).
VCM 부호화 장치는 머신 태스크 모델을 이용하여 입력 영상으로부터 제2 계층의 출력 특징맵인 원본 특징맵을 추출한다(S1402). 여기서. 제2 계층은, 머신 태스크 모델 내에서 제1 계층보다 더 깊은 계층이다.
VCM 부호화 장치는 참조 특징맵을 기반으로 예측 특징맵을 생성한다(S1404). 이때, VCM 부호화 장치는, 전술한 바와 같이, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 부호화 장치는 나머지 프레임들 각각의 원본 특징맵으로부터 예측 특징맵을 감산하여 제2 계층의 잔차 특징맵을 생성한다(S1406).
VCM 부호화 장치는 참조 특징맵을 부호화한다(S1408).
VCM 부호화 장치는 제2 계층의 잔차 특징맵을 부호화한다(S1410).
VCM 부호화 장치는 참조 특징맵, 및 제2 계층의 잔차 특징맵을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송할 수 있다.
이하, VCM 부호화 장치가 참조 특징맵을 부호화하는 단계(S1408)을 자세히 기술한다.
먼저, VCM 부호화 장치는, 입력 영상의 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 부호화할 수 있다.
다른 실시예로서, 다음과 같이, VCM 부호화 장치는 입력 영상의 공간적 정보를 이용하여 참조 특징맵을 부호화할 수 있다.
VCM 부호화 장치는 입력 영상 내 전송 블록의 주변 블록을 참조 블록으로 설정한다(S1420).
VCM 부호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1422). VCM 부호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 부호화 장치는 전송 블록의 특징맵으로부터 예측 블록의 특징맵을 감산하여 잔차 블록을 생성한다(S1424).
VCM 부호화 장치는 잔차 블록을 부호화한다(S1426). VCM 부호화 장치는 전송 블록에 대응하는 잔차 블록을 부호화하여 비트스트림을 생성한 후, VCM 복호화 장치로 전송한다.
도 15는 본 개시의 또다른 실시예에 따른, 머신 태스크 모델의 구조에 기반하는 VCM 복호화 방법을 나타내는 순서도이다.
VCM 복호화 장치는 비트스트림으로부터 머신 태스크 모델의 제1 계층의 출력 특징맵인 참조 특징맵을 복호화한다(S1500).
VCM 복호화 장치는 비트스트림으로부터 머신 태스크 모델의 제2 계층의 잔차 특징맵을 복호화한다(S1502). 여기서. 제2 계층은, 머신 태스크 모델 내에서 제1 계층보다 더 깊은 계층이다.
VCM 복호화 장치는 참조 특징맵을 기반으로 예측을 수행하여 예측 특징맵을 생성한다(S1504). 이때, VCM 복호화 장치는 참조 특징맵을 예측 특징맵으로 설정할 수 있다. 다른 실시예로서, VCM 복호화 장치는, 전술한 바와 같은, 딥러닝 기반 예측 모델을 이용하여, 참조 특징맵으로부터 예측 특징맵을 생성할 수 있다.
VCM 복호화 장치는 잔차 특징맵과 해당되는 예측 특징맵을 가산하여 제2 계층의 복원 특징맵을 생성한다(S1506).
이후, VCM 복호화 장치는 복원 특징맵을 제2 계층의 다음 계층에 입력하여 머신 태스크 모델의 최종 출력 특징맵을 생성할 수 있다.
이하, VCM 복호화 장치가 참조 특징맵을 복호화하는 단계(S1500)을 자세히 기술한다.
먼저, 입력 영상의 공간적 정보의 이용하지 않은 채로 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치도 공간적 정보의 이용하지 않은 채로, 참조 특징맵을 복호화할 수 있다.
다른 실시예로서, 입력 영상의 공간적 정보의 이용하여 VCM 부호화 장치에 의해 참조 특징맵이 부호화된 경우, VCM 복호화 장치는, 다음과 같이, 입력 영상의 공간적 정보를 이용하여 참조 특징맵을 복호화할 수 있다.
VCM 복호화 장치는 비트스트림으로부터 잔차 블록의 특징맵을 복호화한다(S1520). 여기서, 잔차 블록은, VCM 부호화 장치에 의해 전송된, 입력 영상 내 전송 블록에 대응하는 블록이다.
VCM 복호화 장치는 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성한다(S1522). VCM 복호화 장치는, 예측 블록의 특징맵을 생성하기 위한 방법으로서, 비디오 코딩의 인트라 예측 또는 딥러닝 기반 블록 예측 모델을 이용할 수 있다.
VCM 복호화 장치는 잔차 블록의 특징맵에 예측 블록의 특징맵을 가산하여 복원 블록을 생성한다(S1524). 이후, 복원 블록은 참조 블록으로 이용될 수 있다.
본 명세서의 흐름도/타이밍도에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 흐름도/타이밍도에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 흐름도/타이밍도는 시계열적인 순서로 한정되는 것은 아니다.
이상의 설명에서 예시적인 실시예들은 많은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 하나 이상의 예시들에서 설명된 기능들 혹은 방법들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 본 명세서에서 설명된 기능적 컴포넌트들은 그들의 구현 독립성을 특히 더 강조하기 위해 "...부(unit)" 로 라벨링되었음을 이해해야 한다.
한편, 본 실시예에서 설명된 다양한 기능들 혹은 방법들은 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 비일시적 기록매체에 저장된 명령어들로 구현될 수도 있다. 비일시적 기록매체는, 예를 들어, 컴퓨터 시스템에 의하여 판독가능한 형태로 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 예를 들어, 비일시적 기록매체는 EPROM(erasable programmable read only memory), 플래시 드라이브, 광학 드라이브, 자기 하드 드라이브, 솔리드 스테이트 드라이브(SSD)와 같은 저장매체를 포함한다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110: 특징 추출기
120: 특징 예측기
140: 특징 부호화기
220: 특징 복호화기
240: 특징 예측기
120: 특징 예측기
140: 특징 부호화기
220: 특징 복호화기
240: 특징 예측기
Claims (20)
- 머신 비전 시스템의 부호화 장치가 수행하는, 비디오 프레임들의 특징맵을 부호화하는 부호화 방법에 있어서,
딥러닝 기반 머신 태스크 모델을 이용하여 키 프레임으로부터 상기 키 프레임의 특징맵인 참조 특징맵을 추출하는 단계, 여기서, 상기 키 프레임은, 비트율 왜곡 최적화 측면에서 상기 비디오 프레임들 중에서 선택됨;
상기 머신 태스크 모델을 이용하여 나머지 프레임들로부터 상기 나머지 프레임들 각각의 원본 특징맵을 추출하는 단계;
상기 참조 특징맵을 기반으로 상기 나머지 프레임들 각각의 예측 특징맵을 생성하는 단계;
상기 나머지 프레임들 각각의 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 잔차 특징맵을 생성하는 단계;
상기 참조 특징맵을 부호화하는 단계; 및
상기 나머지 프레임들 각각의 잔차 특징맵을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제1항에 있어서,
상기 예측 특징맵을 생성하는 단계는,
상기 참조 특징맵을 기반으로 인터 예측을 수행하여, 상기 예측 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제1항에 있어서,
상기 예측 특징맵을 생성하는 단계는,
딥러닝 기반 예측 모델을 이용하여, 상기 참조 특징맵으로부터 상기 예측 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제3항에 있어서,
상기 예측 모델은,
손실함수를 기반으로 사전에 트레이닝되되, 상기 손실함수는 상기 예측 특징맵이 상기 참조 특징맵으로부터 상기 원본 특징맵을 잘 예측하도록 하는 손실, 상기 잔차 특징맵의 비트 수를 감소시키기 위한 손실, 및 상기 머신 비전 시스템의 복호화 장치가 생성하는 복원 특징맵과 상기 원본 특징맵 간의 차이를 감소시키기 위한 손실을 포함하는 것을 특징으로 하는, 부호화 방법. - 제3항에 있어서,
상기 예측 모델은,
상기 머신 태스크 모델과 함께 종단간으로 사전에 트레이닝되는 것을 특징으로 하는, 부호화 방법. - 제1항에 있어서,
상기 참조 특징맵을 부호화하는 단계는,
상기 키 프레임 내 전송 블록의 주변 블록을 참조 블록으로 설정하는 단계;
상기 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성하는 단계;
상기 전송 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 감산하여 잔차 블록을 생성하는 단계; 및
상기 잔차 블록을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제6항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
상기 참조 블록의 특징맵을 기반으로 인트라 예측을 수행하여, 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제6항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
딥러닝 기반 블록 예측 모델을 이용하여, 상기 참조 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 머신 비전 시스템의 부호화 장치가 수행하는, 주태스크(main task)와 부태스크들(subtasks)의 특징맵을 부호화하는 부호화 방법에 있어서,
대상 태스크들 중에서 설정된 주태스크에 대해 딥러닝 기반 머신 태스크 모델을 이용하여 상기 주태스크의 특징맵인 참조 특징맵을 추출하는 단계;
상기 머신 태스크 모델을 이용하여 부태스크들로부터 상기 부태크들 각각의 원본 특징맵을 추출하는 단계;
상기 참조 특징맵을 기반으로 상기 부태스크들 각각의 예측 특징맵을 생성하는 단계;
상기 부태스크들 각각의 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 잔차 특징맵을 생성하는 단계;
상기 참조 특징맵을 부호화하는 단계; 및
상기 부태스크들 각각의 잔차 특징맵을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제9항에 있어서,
상기 예측 특징맵을 생성하는 단계는,
딥러닝 기반 예측 모델을 이용하여, 상기 참조 특징맵으로부터 상기 예측 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제10항에 있어서,
상기 예측 모델은,
손실함수를 기반으로 사전에 트레이닝되되, 상기 손실함수는 상기 예측 특징맵이 상기 참조 특징맵으로부터 상기 원본 특징맵을 잘 예측하도록 하는 손실, 상기 잔차 특징맵의 비트 수를 감소시키기 위한 손실, 및 상기 머신 비전 시스템의 복호화 장치가 생성하는 복원 특징맵과 상기 원본 특징맵 간의 차이를 감소시키기 위한 손실을 포함하는 것을 특징으로 하는, 부호화 방법. - 제9항에 있어서,
상기 참조 특징맵을 부호화하는 단계는,
상기 주태스크를 나타내는 프레임 내 전송 블록의 주변 블록을 참조 블록으로 설정하는 단계;
상기 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성하는 단계;
상기 전송 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 감산하여 잔차 블록을 생성하는 단계; 및
상기 잔차 블록을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제12항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
상기 참조 블록의 특징맵을 기반으로 인트라 예측을 수행하여, 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제12항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
딥러닝 기반 블록 예측 모델을 이용하여, 상기 참조 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 머신 비전 시스템의 부호화 장치가 수행하는, 다수의 계층들(layers)을 포함하는 머신 태스크 모델의 특징맵을 부호화하는 부호화 방법에 있어서,
상기 머신 태스크 모델을 이용하여 입력 영상으로부터 제1 계층의 출력 특징맵인 참조 특징맵을 추출하는 단계;
상기 머신 태스크 모델을 이용하여 상기 입력 영상으로부터 제2 계층의 출력 특징맵인 원본 특징맵을 추출하는 단계, 여기서. 상기 제2 계층은, 상기 머신 태스크 모델 내에서 상기 제1 계층보다 더 깊은 계층임;
상기 참조 특징맵을 기반으로 예측 특징맵을 생성하는 생성하는 단계;
상기 원본 특징맵으로부터 상기 예측 특징맵을 감산하여 상기 제2 계층의 잔차 특징맵을 생성하는 단계;
상기 참조 특징맵을 부호화하는 단계; 및
상기 제2 계층의 잔차 특징맵을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제15항에 있어서,
상기 예측 특징맵을 생성하는 단계는,
딥러닝 기반 예측 모델을 이용하여, 상기 참조 특징맵으로부터 상기 예측 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제16항에 있어서,
상기 예측 모델은,
손실함수를 기반으로 사전에 트레이닝되되, 상기 손실함수는 상기 예측 특징맵이 상기 참조 특징맵으로부터 상기 원본 특징맵을 잘 예측하도록 하는 손실, 상기 잔차 특징맵의 비트 수를 감소시키기 위한 손실, 및 상기 머신 비전 시스템의 복호화 장치가 생성하는 복원 특징맵과 상기 원본 특징맵 간의 차이를 감소시키기 위한 손실을 포함하는 것을 특징으로 하는, 부호화 방법. - 제15항에 있어서,
상기 참조 특징맵을 부호화하는 단계는,
상기 입력 영상 내 전송 블록의 주변 블록을 참조 블록으로 설정하는 단계;
상기 참조 블록의 특징맵을 기반으로 예측을 수행하여 예측 블록의 특징맵을 생성하는 단계;
상기 전송 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 감산하여 잔차 블록을 생성하는 단계; 및
상기 잔차 블록을 부호화하는 단계
를 포함하는 것을 특징으로 하는, 부호화 방법. - 제18항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
상기 참조 블록의 특징맵을 기반으로 인트라 예측을 수행하여, 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법. - 제18항에 있어서,
상기 예측 블록의 특징맵을 생성하는 단계는,
딥러닝 기반 블록 예측 모델을 이용하여, 상기 참조 블록의 특징맵으로부터 상기 예측 블록의 특징맵을 생성하는 것을 특징으로 하는, 부호화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/565,545 US11516478B2 (en) | 2020-12-30 | 2021-12-30 | Method and apparatus for coding machine vision data using prediction |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200187062 | 2020-12-30 | ||
KR20200187062 | 2020-12-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220097251A true KR20220097251A (ko) | 2022-07-07 |
Family
ID=82398783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210182334A KR20220097251A (ko) | 2020-12-30 | 2021-12-20 | 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220097251A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024049151A1 (ko) * | 2022-08-29 | 2024-03-07 | 주식회사 딥엑스 | 인공신경망의 분산 연산 시스템 및 방법 |
WO2024151061A1 (ko) * | 2023-01-10 | 2024-07-18 | 엘지전자 주식회사 | 채널 예측에 기반한 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
-
2021
- 2021-12-20 KR KR1020210182334A patent/KR20220097251A/ko active Search and Examination
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024049151A1 (ko) * | 2022-08-29 | 2024-03-07 | 주식회사 딥엑스 | 인공신경망의 분산 연산 시스템 및 방법 |
WO2024151061A1 (ko) * | 2023-01-10 | 2024-07-18 | 엘지전자 주식회사 | 채널 예측에 기반한 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11516478B2 (en) | Method and apparatus for coding machine vision data using prediction | |
CN110830802B (zh) | 基于机器学习的视频压缩 | |
US11575938B2 (en) | Cascaded prediction-transform approach for mixed machine-human targeted video coding | |
CN111670580B (zh) | 渐进压缩域计算机视觉和深度学习系统 | |
US11375204B2 (en) | Feature-domain residual for video coding for machines | |
Ascenso et al. | The jpeg ai standard: Providing efficient human and machine visual data consumption | |
MX2021008963A (es) | Manejo de bufer para copia intra-bloque en codificacion de video. | |
US11636626B2 (en) | Apparatus and method of using AI metadata related to image quality | |
KR20220097251A (ko) | 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법 | |
KR20220162786A (ko) | 비디오 코딩에서 심층 신경 네트워크 기반 인터프레임 예측을 위한 방법 및 장치 | |
WO2021205066A1 (en) | Training a data coding system for use with machines | |
US8582876B2 (en) | Hybrid codec for compound image compression | |
US20240013448A1 (en) | Method and apparatus for coding machine vision data using feature map reduction | |
CN117441333A (zh) | 用于输入图像数据处理神经网络的辅助信息的可配置位置 | |
US20240171769A1 (en) | Parameter map for machine-learned video compression | |
US20220377342A1 (en) | Video encoding and video decoding | |
US20240054686A1 (en) | Method and apparatus for coding feature map based on deep learning in multitasking system for machine vision | |
KR20220136176A (ko) | 특징맵 축소를 이용하는 머신 비전 데이터 코딩 장치 및 방법 | |
JP2024511587A (ja) | ニューラルネットワークベースのピクチャ処理における補助情報の独立した配置 | |
US11589038B2 (en) | Methods for video encoding and video decoding | |
WO2024043116A1 (ja) | 学習装置、推論装置、学習方法、推論方法、符号化装置および復号化装置 | |
Le | Still image coding for machines: an end-to-end learned approach | |
US20240013441A1 (en) | Video coding using camera motion compensation and object motion compensation | |
US20240015318A1 (en) | Video coding using optical flow and residual predictors | |
US20240333942A1 (en) | Efficient activation function in neural network image compression decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |