KR20180052651A - 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치 - Google Patents
비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치 Download PDFInfo
- Publication number
- KR20180052651A KR20180052651A KR1020187008893A KR20187008893A KR20180052651A KR 20180052651 A KR20180052651 A KR 20180052651A KR 1020187008893 A KR1020187008893 A KR 1020187008893A KR 20187008893 A KR20187008893 A KR 20187008893A KR 20180052651 A KR20180052651 A KR 20180052651A
- Authority
- KR
- South Korea
- Prior art keywords
- dnn
- target signal
- video
- prediction
- picture
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 165
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 title claims description 30
- 230000008569 process Effects 0.000 claims abstract description 105
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 108010063123 alfare Proteins 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/436—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/174—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Abstract
심층 신경망(Deep Neural Network)을 포함하는 비디오 코딩 방법 및 장치가 개시된다. DNN(심층 신경망)을 사용하여 타겟 신호가 프로세싱되며, DNN 입력에 제공되는 타겟 신호는 예측 프로세스, 재구성 프로세스, 하나 이상의 필터링 프로세스, 또는 이들의 조합으로부터 출력되는, 재구성된 잔차에 대응한다. DNN 출력으로부터의 출력 데이터가 인코딩 프로세스 또는 디코딩 프로세스를 위해 제공된다. DNN은, 타겟 신호의 픽셀 값을 복원하거나 타겟 신호와 오리지널 신호 사이에서 하나 이상의 잔차 픽셀의 부호를 예측하는 데에 사용될 수 있다. 하나 이상의 잔차 픽셀의 절대값은 비디오 비트스트림에서 시그널링될 수 있고 타겟 신호의 잔차 오차를 감소시키기 위해 부호와 함께 사용될 수 있다.
Description
<관련 출원과의 교차 참조>
본 발명은 2015년 9월 3일에 출원한 미국 가특허출원 일련 번호 62/214,121에 대해 우선권을 주장한다. 이 미국 가특허출원은 그 전체가 참조로 본 명세서에 포함된다.
<기술 분야>
본 발명은 개괄적으로 비디오 코딩에 관한 것이다. 구체적으로, 본 발명은 코딩 시스템 내의 심층 신경망(DDD, Deep Neural Network)을 타겟 신호에 적용하는 것에 관한 것이며, DNN 입력에 제공되는 타겟 신호는 예측 프로세스, 재구성 프로세스, 적어도 하나의 필터링 프로세스, 또는 이들의 임의의 조합으로부터 출력되는, 재구성된 잔차(residual)에 대응한다.
'인공' 신경망(ANN, Artificial Neural Network)이라고도 하는 신경망은 생물학적 신경망과 공통된 특정 성능 특성을 갖는 정보 프로세싱 시스템이다. 신경망 시스템은 외부 입력에 대한 자신의 동적 상태 응답에 의해 정보를 프로세싱하는 다수의 간단하고 고도로 상호 연결된 프로세싱 요소로 구성된다. 프로세싱 요소는 인간 두뇌의 뉴런으로서 간주될 수 있는데, 각각의 퍼셉트론(perceptron)은 다수의 입력을 받아들이고 입력의 가중화된 합을 계산한다. 신경망의 분야에서, 퍼셉트론은 생물학적 뉴런의 수학적 모델로서 간주된다. 또한, 이들 상호 연결된 프로세싱 요소는 종종 계층으로 조직화된다. 인식 애플리케이션의 경우, 외부 입력은 "숨겨진 계층"이라고도 하는 하나 이상의 중간 계층과 통신하는 신경망에 제공되는 패턴에 대응할 수 있는데, 실제 프로세싱은 가중화된 '연결'의 시스템을 통해 수행된다.
인공 신경망은 신경망에 포함되는 변수 및 토폴리지 관계를 지정하기 위해 상이한 아키텍처를 사용할 수 있다. 예를 들어, 신경망에 포함되는 변수는 뉴런의 활동과 함께 뉴런들 간의 연결의 가중치일 수도 있다. 피드 포워드 네트워크가 신경망 토폴로지의 일 유형인데, 여기서는 각 계층 내의 노드가 다음 스테이지로 공급되고 동일한 계층에서 노드들 간에 연결이 있다. 대부분의 ANN은 제공되는 입력 패턴에 따라 연결의 가중치를 수정하는 '학습 규칙'의 일부 형태를 포함한다. 어떤 면에서, ANN은 예를 들어 마치 생물학적 대응물이 하는 것처럼 학습한다. 역방향 전파 신경망(backward propagation neural network)은 가중 조정치의 역방향 에러 전파를 허용하는, 보다 진보한 신경망이다. 결과적으로, 역방향 전파 신경망은 신경망에 역방향으로 공급되는 에러를 최소화함으로써 성능을 향상시킬 수 있다.
심층 다계층 신경망 또는 심층 신경망(DNN)는 다수의 레벨의 상호 연결된 노드를 갖는 신경망에 대응하여 매우 비선형이고 고도로 변화하는 기능을 콤팩트하게 표현할 수 있다. 그럼에도 불구하고, 다수의 계층과 연관된 노드의 수와 함께 DNN에 대한 계산 복잡도가 급격히 상승한다. 최근까지, 이러한 심층 신경망을 트레이닝하기 위한 몇몇 연산 효율적인 방법이 개발되었다. 그 중에서도 Hinton 등은 심층 신뢰 신경망(DBN, deep belief network)의 파라미터를 초기화하기 위해 제한형 볼츠만 머신(RBM, restricted Boltzmann machine)의 트레이닝 알고리즘에 의존하는 탐욕적인 계층별 비지도 학습 절차(greedy layer-wise unsupervised learning procedure)를 제안하였다(Hinton et al. "A fast learning algorithm for deep belief nets", Neural Computation, vol. 18, pp1527-1554, 2006). 다른 탐욕적인 계층별 비지도 학습 절차는 Bengio 등에 의해 제안되었다("Greedy layer-wise training of deep networks", Advances in Neural Information Processing Systems 19, Editors: Schoelkopf et al., pp153-160, MIT Press, 2007). 또 다른 효율적인 트레이닝 알고리즘은 Ranzato 등에 의해 개발되었다("Efficient learning of sparse representations with an energy-based model", Advances in Neural Information Processing Systems 19, Editors: Schoelkopf et al., pp153-160, MIT Press, 2007).
DNN의 트레이닝 속도가 획기적으로 높아짐으로써, DNN은 음성 인식, 이미지 세분화, 물체 감지, 안면 인식 등의 다양한 복잡한 작업에 성공적으로 적용되고 있다. 다양한 분야에서 DNN가 성공함에 따라, DNN을 비디오 코딩에 적용할 수 있는 가능성을 탐구하는 것이 바람직하다. 특히, 고효율 비디오 코딩(HEVC, High Efficiency Video Coding) 등의 대두하는 새로운 비디오 코딩 표준의 성능을 더욱 향상시키는 것이 바람직하다.
HEVC(고효율 비디오 코딩) 표준은 ITU-T VCEG(비디오 코딩 전문가 그룹) 및 ISO/IEC MPEG(동영상 전문가 그룹) 표준화 조직의 공동 비디오 프로젝트에서 개발되었으며, 특히 JCT-VC(Joint Collaborative Team on Video Coding)로서 알려진 파트너쉽을 갖는다.
HEVC에서는, 하나의 슬라이스가 다수의 코딩 트리 유닛(CTU, coding tree unit)으로 분할된다. CTU는 다양한 국부적 특성(local characteristics)에 적응하기 위해 다수의 코딩 유닛(CU, coding unit)으로도 분할된다. HEVC는 다수의 인트라 예측 모드(Intra prediction mode)를 지원하고, 인트라 코딩된 CU에 대해, 선택된 인트라 예측 모드가 시그널링된다. HEVC에는 코딩 유닛의 개념 외에, 예측 유닛(PU, prediction unit)의 개념도 도입된다. CU 계층적 트리의 분할이 완료되면, 각 리프(leaf) CU는 또한, 예측 타입 및 PU 파티션에 따라 하나 이상의 예측 유닛(PU)으로도 분할된다. 예측 후에, CU와 연관된 나머지는 변환 프로세스에서 변환 유닛(TU, transform unit)으로 명명되는 변환 블록으로 분할된다.
도 1a는 HEVC에 기초한 예시적인 적응형 인트라/인터 비디오 인코더를 도시한다. 인트라/인터 예측 유닛(110)은 인터 모드(Inter mode)가 사용될 때 모션 추정(ME)/모션 보상(MC)에 기초하여 인터 예측을 생성한다. 인트라/인터 예측 유닛(110)은 인터 모드가 사용될 때 인트라 예측을 생성한다. 인트라/인터 예측 데이터(즉, 인트라/인터 예측 신호)는 입력 화상과 연관된 신호로부터 인트라/인터 예측 신호를 감산함으로써 나머지 또는 잔차라고도 하는 예측 오차를 형성하는, 감산기(116)에 공급된다. 인트라/인터 예측 데이터를 생성하는 프로세스는 본 명세서에서 예측 프로세스로서 지칭된다. 이어서, 예측 오차(즉, 잔차)는 변환(T)에 이은 양자화(Q)(T + Q, 120)에 의해 프로세싱된다. 변환 및 양자화된 나머지는 그런 다음 엔트로피 코딩 유닛(122)에 의해 코딩되어, 압축된 비디오 데이터에 대응하는 비디오 비트스트림에 포함된다. 변환 계수와 연관된 비트스트림은 모션, 코딩 모드, 및 이미지 영역과 연관된 기타 정보 등의 부가 정보와 함께 팩킹된다. 또한, 부가 정보는 필요한 대역폭을 줄이기 위해 엔트로피 코딩에 의해 압축될 수 있다. 재구성된 화상이 인터 예측을 위한 참조 화상로서 사용될 수 있기 때문에, 참조 화상 또는 화상들도 인코더단에서 재구성되어야 한다. 그 결과, 변환 및 양자화된 나머지는 잔차를 복구하기 위해 역양자화(IQ) 및 역변환(IT)(IQ + IT, 124)에 의해 프로세싱된다. 그런 다음, 재구성된 나머지는 비디오 데이터를 재구성하는 재구성 유닛(REC)(128)에서 인트라/인터 예측 데이터에 다시 추가된다. 재구성된 잔차를 인트라/인터 예측 신호에 추가하는 프로세스는 본 개시내용에서 재구성 프로세스로서 지칭된다. 재구성 프로세스로부터의 출력 화상은 재구성된 화상으로서 지칭된다. 재구성된 화상에서 아티팩트를 감소시키기 위해, 디블록킹 필터(DF)(130) 및 SAO(Sample Adaptive Offset)(132)을 포함하는 인루프(in-loop) 필터가 사용된다. 모든 필터링 프로세스의 출력에서의 필터링 및 재구성된 화상은 본 개시내용에서 디코딩된 화상으로서 지칭된다. 디코딩된 화상은 프레임 버퍼(140)에 저장되어 다른 프레임의 예측을 위해 사용된다
도 1b는 HEVC에 기초한 예시적인 적응형 인트라/인터 비디오 디코더를 도시한다. 인코더가 비디오 데이터를 재구성하기 위한 로컬 디코더도 포함하기 때문에, 일부 디코더 구성요소는 엔트리피 디코더를 제외한 인코더에서 이미 사용된다. 디코더측에서, 엔트로피 디코딩 유닛(160)은 비트스트림으로부터 코딩된 심볼 또는 신택스를 복구하는데 사용된다. 입력 비트스트림으로부터 재구성된 잔차를 생성하는 프로세스는 본 개시내용에서 잔차 디코딩 프로세스로서 지칭된다. 인트라/인터 예측 데이터를 생성하는 예측 프로세스가 디코딩측에도 적용되지만, 인터 예측은 비트스트림으로부터 도출된 모션 정보를 사용하여 모션 보상을 수행하는 것만을 필요로 하기 때문에, 인트라/인터 예측 유닛(150)은 인코더측에 있는 것과는 상이하다. 또한, 가산기(114)가 재구성된 나머지를 인트라/인터 예측 데이터에 추가하는데 사용된다.
HEVC 표준의 개발 중에 ALF(Adaptive Loop Filter)라고 하는 또 다른 인루프 필터도 공개되었지만, 주요 표준에 채택되지는 않았다. ALF는 비디오 품질을 더욱 향상시키는데 사용될 수 있다. 예를 들어, ALF(210)는 SAO(132) 다음에 사용될 수 있고, ALF(210)로부터의 출력은 엔코더측의 경우 도 2a 및 디코더측의 경우 도 2b에 도시하는 바와 같이 프레임 버퍼(140)에 저장된다. 디코더측의 경우, ALF(210)로부터의 출력은 또한 디스플레이 또는 다른 프로세싱을 위해 디코더 출력으로서 사용될 수 있다. 본 개시내용에서는, 디블록킹 필터, SAO 및 ALF가 모두 필터링 프로세스로서 지칭된다.
심층 신경망(Deep Neural Network)을 포함하는 비디오 인코딩 또는 디코딩 방법 및 장치가 개시된다. 이 방법에 따르면, DNN(심층 신경망)을 사용하여 타겟 신호가 프로세싱되며, DNN 입력에 제공되는 타겟 신호는 예측 프로세스, 재구성 프로세스, 하나 이상의 필터링 프로세스, 또는 이들의 조합으로부터 출력되는, 재구성된 잔차에 대응한다. 인코더측에서, DNN 출력으로부터의 출력 신호가 인코딩 프로세스를 위해 제공된다. 디코더측에서, DNN 출력으로부터의 출력 신호가 디코딩 프로세스를 위해 제공된다. DNN은, 타겟 신호의 픽셀 값을 복원하거나 타겟 신호와 오리지널 신호 사이에서 하나 이상의 잔차 픽셀의 부호(sign)를 예측하는데 사용될 수 있다. 하나 이상의 잔차 픽셀의 절대값은 비디오 비트스트림에서 시그널링될 수 있고 타겟 신호의 잔차 오차를 감소시키기 위해 부호와 함께 사용될 수 있다.
필터링 프로세스는 디블록킹(deblocking) 필터, SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filer), 및 이들의 임의의 조합을 포함할 수 있다. DNN 입력에 제공되는 타겟 신호는 재구성 프로세스, 디블록킹 필터, SAO 또는 ALF로부터의 출력에 대응할 수 있다. 한편, DNN 출력으로부터의 출력 데이터는 디코딩된 화상으로서 제공되거나, 디블록킹 필터, SAO 또는 ALF에 대한 입력으로서 제공될 수 있다.
DNN의 파라미터는 비디오 코딩 시스템에 대해 사전에 정의될 수 있다. 또한, 비디오 코딩 시스템이 선택하는 데에 다수의 DNN 파라미터 세트가 사용될 수 있다. 다수의 DNN 파라미터 세트 중의 선택은 비디오 비트스트림으로부터 결정될 수 있거나 디코더에서 암시적으로 정해질 수 있다. 다수의 DNN 파라미터 세트 중의 선택은 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU(코딩 트리 유닛) 레벨 또는 CU(코딩 유닛) 레벨에서 비디오 비트스트림으로부터 결정될 수 있다. 더욱이, DNN의 인에이블 여부를 나타내는 데에 온/오프 제어 플래그가 사용될 수 있다.
일 실시형태에 있어서, DNN은 재구성된 잔차를 하나의 DNN 입력으로서 포함한 다수의 DNN 입력을 가질 수 있다. 예를 들어, 다수의 DNN 입력은 재구성된 잔차 및 예측 신호에 대응하고, DNN은 필터링 프로세스를 위해 재구성된 화상을 DNN 출력으로서 제공한다.
블록 기반 코딩에서는, DNN 프로세스에 인접한 샘플들을 사용할 수 없다. 사용 불가능한 샘플들이 패딩(padding)에 의해 생성될 수 있거나 DNN 프로세스가 사용되지 않는다. 각각의 화상이 영역들로 분할되어 DNN을 가진 코딩 프로세스가 다수의 영역에 동시에 적용될 수도 있다. 영역 경계에 인접한 사용할 수 없는 샘플의 경우, 패딩에 의해 사용 불가능한 샘플들이 생성될 수 있다.
또 다른 실시형태에 있어서, 타겟 신호는 다수의 화상과 연관된다. 다수의 화상은 DNN을 사용하여 타겟 신호를 프로세싱하기 전에 정렬된다. 이 경우에, 다수의 화상의 대응하는 유닛으로부터의 픽셀은 다수의 화상의 대응하는 유닛에 관한 모션 정보에 기초하여 정렬된다.
또 다른 실시형태에 있어서, 화상이 상이한 컬러 성분들을 포함하는 경우에, DNN을 사용한 타겟 신호의 프로세싱은 상이한 컬러 성분들을 공동으로 또는 독립적으로 프로세싱할 수 있다.
도 1a는 고효율 비디오 코딩(HEVC) 표준에 기초한 예시적인 적응형 인트라/인터 비디오 인코더를 도시한다.
도 1b는 고효율 비디오 코딩(HEVC) 표준에 기초한 예시적인 적응형 인트라/인터 비디오 디코더를 도시한다.
도 2a는 ALF 프로세스가 부가된, 도 1a와 유사한 예시적인 적응형 인트라/인터 비디오 인코더를 도시한다.
도 2b는 ALF 프로세스가 부가된, 도 1b와 유사한 예시적인 적응형 인트라/인터 비디오 디코더를 도시한다.
도 3은 본 발명의 일 실시형태에 따른 예시적인 비디오 인코더를 도시하는데, 여기에는 심층 신경망(DNN)이 잔차 신호에 적용된다.
도 4는 본 발명의 일 실시형태에 따른 예시적인 비디오 인코더를 도시하는데, 여기에는 심층 신경망(DNN)이 잔차 신호를 포함한 다수 입력을 갖는다.
도 5는 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 디코더의 예시적인 흐름도를 도시한다.
도 6은 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 인코더의 예시적인 흐름도를 도시한다.
도 1b는 고효율 비디오 코딩(HEVC) 표준에 기초한 예시적인 적응형 인트라/인터 비디오 디코더를 도시한다.
도 2a는 ALF 프로세스가 부가된, 도 1a와 유사한 예시적인 적응형 인트라/인터 비디오 인코더를 도시한다.
도 2b는 ALF 프로세스가 부가된, 도 1b와 유사한 예시적인 적응형 인트라/인터 비디오 디코더를 도시한다.
도 3은 본 발명의 일 실시형태에 따른 예시적인 비디오 인코더를 도시하는데, 여기에는 심층 신경망(DNN)이 잔차 신호에 적용된다.
도 4는 본 발명의 일 실시형태에 따른 예시적인 비디오 인코더를 도시하는데, 여기에는 심층 신경망(DNN)이 잔차 신호를 포함한 다수 입력을 갖는다.
도 5는 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 디코더의 예시적인 흐름도를 도시한다.
도 6은 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 인코더의 예시적인 흐름도를 도시한다.
이어지는 설명은 본 발명을 수행하기에 최적이라 고려되는 모드에 속한다. 이 설명은 본 발명의 일반적인 원리를 예시하는 목적에서 이루어지며 제한적인 의미로 해석되어서는 안 된다. 본 발명의 범주는 첨부하는 청구범위를 참조하여 가장 잘 정해진다.
상이한 이미지 복원 또는 프로세싱 방법들 중에서, 신경망 기반 방법들, 특히 심층 신경망(DNN)이 최근에 유망한 것으로 알려져 있다. 이것은 이미지 노이즈 제거, 이미지 초해상도, 및 기타 다양한 복잡한 이미지 프로세싱 작업에 적용되고 있다. 다양한 연구에서, DNN은 전통적인 이미지 프로세싱 방법에 비해 더 나은 성능을 달성하는 것을 보여주고 있다. 따라서, 본 발명에서는, 주관적 품질이나 코딩 효율을 향상시키기 위해 비디오 코딩에 이미지 복원 방법으로서 DNN을 사용한다.
본 발명에 따르면, DNN은 비디오 코딩 시스템에서 이미지 복원 기술로서 사용된다. 본 발명은 기저 픽셀을 상이한 클래스로 분류하는 분류기로서 DNN을 사용하는 다른 유형의 DNN 애플리케이션도 개시한다. 한편, DNN은 각각의 인루프 필터 인에이블 영역마다 픽셀별 인루프 필터의 온/오프를 결정하는 데에 사용된다. DNN은 비디오 신호가 왜곡되는 비디오 코딩 체인 내의 한 지점에 적용될 수 있다. 예를 들어, DNN은 도 2a 및 도 2b에 각각 도시하는 바와 같이, 인코더뿐만 아니라 디코더에서도 ALF의 출력(포인트 A로 표시)에 적용될 수 있다. DNN은 도 2a 및 도 2b에 도시하는 바와 같이, 하나의 비디오 코딩 시스템에서의 다른 복원 방법의 유무에 관계없이 SAO 다음(포인트 B로 표시), DF 다음(포인트 C로 표시) 또는 REC 다음(포인트 D로 표시)에 적용될 수 있다. DNN이 신호 복원에 사용될 때에, DNN 출력은 다음 스테이지에 제공된다. 예를 들어, DNN의 경우에, 도 2a 및 도 2b의 신호 포인트 A에서, DNN 입력은 ALF(210)로부터의 출력에 대응하고, DNN 출력은 프레임 버퍼(140)에 저장된다. DNN의 경우에, 신호 포인트 B에서, DNN 입력은 SAO(132)로부터의 출력에 대응하고, DNN 출력은 ALF(210)에 제공된다. DNN이 프로세싱하는 신호는 도 2a 및 도 2b의 예에 도시하는 바와 같이, 재구성된 화상(포인트 D), DF 프로세싱된 것(포인트 C), SAO 프로세싱된 것(포인트 B), 및 ALF 프로세싱된 것(포인트 A) 등의 상이한 유형의 신호에 대응할 수 있다. 편의상, DNN에 의해 프로세싱되는 신호는 본 개시내용에서 타겟 신호로서 지칭된다.
본 개시내용의 다른 실시형태에 따르면, DNN은 재구성된 잔차 신호에 적용된다. 예를 들어, 도 2a의 인코더의 경우, 도 3에 도시하는 바와 같이, DNN(310)은 IQ+IT(124)로부터의 재구성된 잔차에 적용될 수 있다. 이 경우에, 타겟 신호는 IQ+IT(124)로부터의 출력(즉, 재구성된 잔차)에 대응한다. DNN에 의한 복원 후의 재구성된 잔차는 재구성된 화상을 생성하기 위해 재구성 프로세스(즉, REC(128))에 제공된다.
본 발명의 또 다른 실시형태에 따르면, DNN은 다수의 입력을 사용할 수 있다. 그 입력 중 하나가 재구성된 잔차일 수 있다. 예를 들어, 도 4에 도시하는 바와 같이 인트라/인터 예측 신호 및 재구성된 잔차 신호 둘 다는 DNN(410)에 대한 입력이며, 출력은 DNN 필터링된 재구성 픽셀이다. 이 경우에, DNN은 재구성 프로세스에도 사용된다(즉, 재구성 픽셀을 직접 복원하기 위해). DNN으로부터의 재구성된 화상을 추가 프로세싱을 위해 DF(130)에 제공된다.
전술한 바와 같이, 계층 또는 심도(depth)의 수, 필터 계수, 필터 풋프린트, 비선형 연산 등등, DNN에는 다수의 파라미터 또는 변수가 있다. 디코더에서 사용되는 이들 파라미터는 인코더에서 사용되는 파라미터와 동일해야 한다. 이들 파라미터는 인코더로부터 디코더로 시그널링되어야 한다. DNN의 부가 정보를 줄이기 위해, 일부 사전 정의된 파라미터가 비디오 코딩 시스템에서 표준화될 수 있다. 따라서, 출력 비트스트림에 추가 정보를 코딩할 필요가 없다.
그러나, 가변 입력 화상의 특성에 적응하기 위해, 비디오 코딩 시스템에서는 복수의 사전 정의된 파라미터 세트가 지원될 수 있다. 사전 정의된 파라미터 세트의 선택은 명시적으로 디코더에 시그널링되거나 암시적으로 디코더에서 정해질 수 있다. 명시적인 선택은 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU(코딩 트리 유닛)-행(row) 레벨, CTU 레벨, 또는 CU(코딩 유닛) 레벨에서 시그널링될 수 있다. 암시적인 선택은 슬라이스 유형, 양자화 파라미터, 예측 모드, 양자화된 계수, 재구성된 잔차, 예측기, 재구성된 픽셀, 또는 모션 정보에 의존할 수 있다.
사전 정의된 파라미터 외에, DNN 파라미터도 이 프레임워크를 일반화하기 위해 비트스트림에서 시그널링될 수 있다. 파라미터는 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU-행 레벨, CTU 레벨 또는 CU 레벨에서 코딩될 수 있다. 또한, DNN의 인에이블 여부를 나타내기 위한 온/오프 제어 플래그도 이 프레임워크의 성능을 더 향상시키기 위해 디코더로 시그널링될 수 있다. 온/오프 제어 플래그는 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU-행 레벨, CTU 레벨 또는 CU 레벨에서 시그널링될 수 있다. 다른 실시형태에 있어서, DNN 파라미터는 전송 비트스트림에 기초하여 플라이트 상태에서(on-the-flight) 적응적으로 업데이트될 수 있다. 예를 들어, 코딩된 화상의 최종 재구성 픽셀은 연속적으로 코딩된 화상에 대해 DNN 파라미터 변수를 플라이트 상태에서 업데이트하는 데에 트레이닝 데이터로서 사용될 수 있다.
다른 실시형태에서는, 타겟 신호와 오리지널 신호 사이에서 하나 이상의 잔차 픽셀의 부호를 예측하기 위해 DNN가 REC, DF, SAO 또는 ALF 다음에 적용된다. 이 잔차는 오리지널 입력 화상으로부터 인트라/인터 예측 데이터를 감산함으로써 생성된 잔차(즉, 도 2a의 감산기(116)로부터의 출력)와는 상이하다. 여기서 명확성을 위해 제2 잔차라고 지칭되는 잔차는 코딩 체인 내의 신호와 대응하는 오리지널 신호 간의 차이를 나타낸다. 예를 들어, 재구성 프로세스(즉, REC(128))의 출력에서의 제2 잔차는 재구성 프로세스의 출력과 오리지널 입력 화상 간의 차이에 대응한다. 다른 예에서, SAO(132)의 출력에서의 제2 잔차는 SAO(132)의 출력과 DF(130)의 출력 간의 차이에 대응한다. 절대값이 추가로 전송되어, 픽셀 또는 픽셀 그룹에 대한 잔차 오차를 줄이기 위해 DNN에 의해 예측된 부호와 결합된다. 메소드는 인루프(in-loop) 또는 아웃루프(out-loop) 프로세스일 수 있다. 메소드가 아웃루프이면, 디코더는 선택사항으로서 그 메소드를 적용할 수 있다. 인코더는 복원된 프레임을 사용하여 다음 프레임을 예측하지 않을 것이다. 따라서, 디코더가 프레임에 대해 메소드를 적용하지 않으면, 인코더와 디코더 간의 불일치가, 그 메소드를 적용하지 않은 결과에 따라 다음 프레임으로 전파되지 않을 것이다.
또 다른 실시형태에서는, 인루프 필터 인에이블 영역 내의 픽셀이 인루프 필터에 의해 수정되어야 하는지를 결정하기 위해 DNN가 DF, SAO, ALF 또는 다른 인루프 필터 다음에 적용된다. 예를 들어, DNN은 도 2a 및 도 2b에 각각 도시하는 바와 같이, 인코더뿐만 아니라 디코더에서도 SAO(132)의 출력에 적용될 수 있다. SAO(132)가 현재 CTU에 대해 인에이블될 때, DNN은 현재 CTU 내의 각 픽셀이 SAO(132)에 의해 수정되어야 하는지를 결정하는데 사용된다. DNN에 의해 행해진 결정에 따라, 현재 CTU 내의 일부 픽셀은 DF(130)에 의해 출력된 것과 동일한 픽셀 강도(pixel intensity)를 유지하는 반면, 현재 CTU 내의 다른 픽셀은 SAO(132)에 의해 수정될 수 있다.
DNN의 주요 프로세스는 본질적으로 필터링과 유사하다. 따라서, 화상 경계에 있는 픽셀의 경우, DNN 프로세스에 필요하지만 일부 사용 불가능한 픽셀이 있다. 이 문제를 해결할 수 있는 두 가지 솔루션이 있다. 하나는 패딩 기술(padding technique)을 적용하여 대응 픽셀을 생성하는 것이다. 패딩 기술은 최근접 픽셀 카피, 홀수 미러링, 또는 짝수 미러링일 수 있다. 다른 하나는 이들 픽셀에 대해 DNN 프로세스를 스킵하는 것이다. 또한, DNN의 병렬 프로세싱을 달성하기 위해, 유사한 패딩 기술이, DNN에 의해 병렬로 프로세싱될 수 있는 일부 사전 정의된 영역에 적용될 수 있다. 사전 정의된 영역은 1 화상, 1 슬라이스, 1 CTU 행, 1 CTU, 1 코딩 유닛, 1 예측 유닛, 1 변환 유닛, 또는 1 블록일 수 있다. 사전 정의된 영역은 디코더로 시그널링될 수 있다. DNN의 병렬 프로세싱은 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, 또는 CTU-행 레벨에 있는 하나의 코딩된 플래그에 의해 인에이블 또는 디스에이블될 수 있다.
다른 실시형태에 있어서, DNN의 입력은 본 개시내용에서 멀티프레임 DNN으로 명명된 다수의 프레임으로부터의 픽셀일 수 있다. 멀티프레임 DNN이 적용되면, 다수의 프레임으로부터의 입력 픽셀이 먼저 모션 정보와 정렬될 수 있다. 정렬의 정밀도는 정수적(integer-) 또는 소수적 샘플(fractional-sample) 정확도일 수 있다. 대응하는 유닛은 1 프레임, 1 슬라이스, 1 CTU 행, 1 CTU, 1 코딩 유닛, 1 예측 유닛, 1 변환 유닛, 1 사전 정의된 블록, 또는 1 픽셀일 수 있다. 관련된 모션 정보는 병진 모델(translational model), 등방성 모델(isotropic model), 아핀 모델(affine model), 원근감 모델(perspective model), 포물선 모델(parabolic model), 또는 다른 고차 다항식 모션 모델일 수 있다. 비트스트림에 코딩된 모션 정보는 멀티프레임 DNN이 사용될 때 정렬을 수행하기 위해 재사용될 수 있다.
다른 실시형태에서, DNN이 비디오 코딩에 적용될 때, 상이한 컬러 성분들이 하나의 DNN 시스템에서 함께 프로세싱되거나 독립적으로 프로세싱될 수 있다. 또한, DNN은 먼저 휘도 부분에 적용될 수 있다. 그런 다음, 휘도 부분이 색차를 수정하는데 사용되거나 색차가 직접 스킵될 수 있다. 하나의 DNN 시스템의 비트 심도(bit-depth)는 입력 픽셀의 비트 심도에 의존할 수 있다.
도 5는 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 디코더의 예시적인 흐름도를 도시한다. 단계 510에서 본 방법은 비디오 시퀀스 내의 하나 이상의 화상에 대응하는 비디오 비트스트림을 수신한다. 단계 520에서 비디오 비트스트림으로부터 재구성된 잔차를 생성하는 잔차 디코딩 프로세스, 각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 재구성된 잔차와 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 디코딩 프로세스를 사용하여 각각의 화상이 디코딩된다. 단계 530에서 DNN(심층 신경망)을 사용하여 타겟 신호가 프로세싱되며, DNN 입력에 제공되는 타겟 신호는 예측 프로세스, 재구성 프로세스, 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터 출력되는, 재구성된 잔차에 대응한다. 단계 540에서 디코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터가 제공된다.
도 6은 본 발명의 일 실시형태에 따른 심층 신경망(DNN)을 포함하는 비디오 인코더의 예시적인 흐름도를 도시한다. 단계 610에서 본 방법은 비디오 시퀀스 내의 하나 이상의 화상에 대응하는 입력 데이터를 수신한다. 단계 620에서 각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 재구성된 잔차와 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 인코딩 프로세스를 사용하여 각각의 화상이 인코딩된다. 단계 630에서 DNN(심층 신경망)을 사용하여 타겟 신호가 프로세싱되며, DNN 입력에 제공되는 타겟 신호는 예측 프로세스, 재구성 프로세스, 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터 출력되는, 재구성된 잔차에 대응한다. 단계 640에서 인코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터가 제공된다.
도시하는 흐름도는 본 발명에 따른 비디오 코딩의 예를 나타내기 위한 것이다. 당업자라면 본 발명의 사상으로부터 이탈하는 일 없이 본 발명을 실시하기 위해 각 단계를 변형, 단계들을 재배열, 한 단계를 분할, 또는 단계들을 조합할 수도 있다. 본 개시내용에서는, 본 발명의 실시형태를 구현하기 위한 예를 설명하기 위해 특정 구문(syntax) 및 의미(semantics)가 사용되었다. 당업자는 본 발명의 사상을 벗어나지 않으면서 상기 구문 및 의미를 동등한 구문 및 의미로 대체함으로써 본 발명을 실시할 수도 있다.
앞의 설명은 당업자로 하여금 본 발명을, 특정한 적용 상황 및 그것의 요건에서 제공되는 것처럼 실시하게 하기 위해 제공되는 것이다. 설명한 실시형태에 대한 다양한 변형이 당업자에게 분명할 것이며, 여기에서 정의되는 일반적 원리는 다른 실시형태에도 적용될 수 있다. 이에, 본 발명은 도시하고 설명하는 특정 실시형태에 제한되는 것을 의도하는 것이 아니라, 본 명세서에 개시하는 원리 및 신규한 특징과 부합하는 가장 넓은 범위에 따른다. 이상의 상세한 설명에서는, 본 발명의 면밀한 이해를 제공하기 위해 다양한 특정 상세가 설명되고 있다. 그럼에도 불구하고, 당업자는 본 발명이 실시될 수 있음을 이해할 것이다.
전술한 바와 같은 본 발명의 실시형태는 다양한 하드웨어, 소프트웨어 코드, 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 본 발명의 실시형태는 비디오 압축 칩에 집적된 하나 이상의 전자 회로 또는 본 명세서에서 설명한 프로세싱을 수행하기 위해 비디오 압축 소프트웨어에 통합된 프로그램 코드일 수 있다. 본 발명의 실시형태는 본 명세서에서 설명한 프로세싱을 수행하기 위해 디지털 신호 프로세서(DSP) 상에서 실행되는 프로그램 코드일 수도 있다. 본 발명은 또한 컴퓨터 프로세서, 디지털 신호 프로세서, 마이크로 프로세서, 또는 필드 프로그래머블 게이트 어레이(FPGA)에 의해 수행되는 다수의 기능을 포함할 수도 있다. 이들 프로세서는 본 발명에 의해 구체화되는 특정 방법을 정의하는 기계 판독 가능한 소프트웨어 코드 또는 펌웨어 코드를 실행함으로써, 본 발명에 따른 특정 태스크를 수행하도록 구성될 수 있다. 소프트웨어 코드 또는 펌웨어 코드는 상이한 프로그래밍 언어 및 상이한 포맷 또는 스타일로 개발될 수 있다. 소프트웨어 코드는 다른 타겟 플랫폼에 맞게 컴파일될 수도 있다. 그러나, 본 발명에 따른 태스크를 수행하기 위한 소프트웨어 코드의 상이한 코드 포맷, 스타일 및 언어, 그리고 다른 코드 구성 방법도 본 발명의 사상 및 범위를 벗어나지 않을 것이다.
본 발명은 그 사상 또는 본질적인 특성을 벗어나지 않고서 다른 특정 형태로 구체화될 수 있다. 설명한 예들은 모든 면에서 단지 예시적인 것이며 제한적이지 않는 것으로서 간주되어야 한다. 따라서, 본 발명의 범위는 전술한 설명보다는 첨부한 청구범위에 의해 명시된다. 청구범위와 균등한 의미 및 범위 내에 있는 모든 변경은 그 범위 내에 포함되어야 한다.
Claims (40)
- 비디오 디코더를 위한 비디오 디코딩 방법에 있어서,
비디오 시퀀스 내의 하나 이상의 화상(picture)에 대응하는 비디오 비트스트림을 수신하는 단계와,
상기 비디오 비트스트림으로부터 재구성된 잔차(residual)를 생성하는 잔차 디코딩 프로세스, 각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 상기 재구성된 잔차와 상기 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 상기 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 디코딩 프로세스를 사용하여 각각의 화상을 디코딩하는 단계와,
DNN(Deep Neural Network, 심층 신경망)을 사용하여 타겟 신호를 프로세싱하는 단계로서, DNN 입력에 제공되는 상기 타겟 신호는, 상기 예측 프로세스, 상기 재구성 프로세스, 상기 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터의 출력인, 상기 재구성된 잔차에 대응하는 것인 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계와,
상기 디코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터를 제공하는 단계
를 포함하는 비디오 디코딩 방법. - 제1항에 있어서, 상기 적어도 하나의 필터링 프로세스는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter), 또는 이들의 임의의 조합을 포함하는 것인 비디오 디코딩 방법.
- 제2항에 있어서, 상기 DNN 입력에 제공되는 타겟 신호는 상기 재구성 프로세스, 상기 디블록킹 필터, SAO 또는 ALF로부터의 출력에 대응하는 것인 비디오 디코딩 방법.
- 제2항에 있어서, 상기 DNN 출력으로부터의 출력 데이터는 디코딩된 화상으로서 제공되거나, 상기 디블록킹 필터, SAO 또는 ALF에 대한 입력으로서 제공되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN은 상기 타겟 신호의 픽셀 값을 복원하도록 구성되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN은 상기 타겟 신호와 오리지널 신호 사이에서 하나 이상의 잔차 픽셀의 부호(sign)를 예측하도록 구성되는 것인 비디오 디코딩 방법.
- 제6항에 있어서, 상기 하나 이상의 잔차 픽셀의 절대값은 상기 비디오 비트스트림으로부터 결정되고, 상기 하나 이상의 잔차 픽셀의 절대값과 부호는 상기 하나 이상의 잔차 픽셀의 잔차 오차를 줄이기 위해 사용되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN에 대한 DNN 파라미터는 상기 비디오 디코더에 대해 사전에 정의되는 것인 비디오 디코딩 방법.
- 제8항에 있어서, 상기 비디오 디코더가 선택하는 데에 다수의 DNN 파라미터 세트가 사용 가능한 것인 비디오 디코딩 방법.
- 제9항에 있어서, 상기 다수의 DNN 파라미터 세트 중의 선택은, 상기 비디오 비트스트림으로부터 결정되거나 상기 비디오 디코더에서 암시적으로 정해지는 것인 비디오 디코딩 방법.
- 제10항에 있어서, 상기 다수의 DNN 파라미터 세트 중의 선택은, 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU(코딩 트리 유닛) 레벨 또는 CU(코딩 유닛) 레벨에서 상기 비디오 비트스트림으로부터 결정되는 것인 비디오 디코딩 방법.
- 제10항에 있어서, 상기 다수의 DNN 파라마터 세트 중의 선택은 상기 비디오 디코더에서 정해지며, 상기 선택은 슬라이스 유형, 양자화 파라미터, 예측 모드, 양자화된 계수, 상기 재구성된 잔차, 예측기, 재구성된 픽셀, 모션 정보, 또는 이들의 임의의 조합에 의존하는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN에 대한 DNN 파라미터는 상기 비디오 비트스트림으로부터 결정되는 것인 비디오 디코딩 방법.
- 제13항에 있어서, 상기 DNN 파라미터는 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU(코딩 트리 유닛)-행(row) 레벨, CTU 레벨, 또는 CU(코딩 유닛) 레벨에서 상기 비디오 비트스트림으로부터 결정되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN의 인에이블 여부를 나타내는 데에 온/오프 제어 플래그가 사용되는 것인 비디오 디코딩 방법.
- 제15항에 있어서, 상기 온/오프 제어 플래그는 시퀀스 레벨, 화상 레벨, 슬라이스 레벨, CTU(코딩 트리 유닛)-행 레벨, CTU 레벨, 또는 CU(코딩 유닛) 레벨에서 상기 비디오 비트스트림으로부터 결정되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN 입력은 상기 재구성된 잔차에 대응하고, 상기 DNN 출력은 상기 재구성 프로세스에 제공되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN은 하나의 DNN 입력으로서 상기 재구성된 잔차를 포함한 다수의 DNN 입력을 사용하는 것인 비디오 디코딩 방법.
- 제18항에 있어서, 상기 다수의 DNN 입력은 상기 재구성된 잔차 및 상기 예측 신호에 대응하고, 상기 DNN은 상기 적어도 하나의 필터링 프로세스를 위해 상기 재구성된 화상을 상기 DNN 출력으로서 제공하는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 각각의 화상은 상기 디코딩 프로세스를 위해 블록으로 분할되고, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는 상기 타겟 신호의 적어도 하나의 샘플을 프로세싱하기 위해 하나 이상의 이웃 샘플을 사용하며, 현재 블록의 상기 하나 이상의 이웃 샘플 중 어느 것도 블록 경계에서 사용할 수 없다면, 사용할 수 없는 이웃 샘플은 패딩(padding) 기술을 사용해서 생성되거나, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는 스킵되는 것인 비디오 디코딩 방법.
- 제20항에 있어서, 각각의 영역이 1 화상, 1 슬라이스, 1 CTU(코딩 트리 유닛) 행, 1 CTU, 1 CU(코딩 유닛), 1 PU(예측 유닛), 1 TU(변환 유닛), 또는 1 블록에 대응하는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 타겟 신호는 다수의 화상과 연관되는 것인 비디오 디코딩 방법.
- 제22항에 있어서, 상기 다수의 화상은, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계 이전에 정렬되고, 상기 다수의 화상의 대응하는 유닛으로부터의 픽셀은 상기 다수의 화상의 상기 대응하는 유닛에 관련된 모션 정보에 기초하여 정렬되는 것인 비디오 디코딩 방법.
- 제23항에 있어서, 각각의 대응하는 유닛은 1 화상, 1 슬라이스, 1 CTU(코딩 트리 유닛) 행, 1 CTU, 1 CU(코딩 유닛), 1 PU(예측 유닛), 1 TU(변환 유닛), 1 블록, 또는 1 픽셀에 대응하는 것인 비디오 디코딩 방법.
- 제23항에 있어서, 상기 모션 정보는 병진 모델(translational model), 등방성 모델(isotropic model), 아핀 모델(affine model), 원근감 모델(perspective model), 포물선 모델(parabolic model), 또는 고차 다항식 모션 모델과 연관되는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 하나 이상의 화상이 상이한 색 성분들을 포함할 경우, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는 상기 상이한 색 성분들을 공동으로 또는 독립적으로 프로세싱하는 것인 비디오 디코딩 방법.
- 제26항에 있어서, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는, 먼저 휘도 성분을 프로세싱한 다음에, 상기 프로세싱된 휘도 성분은 상기 DNN을 사용해서 하나 이상의 색차 성분을 프로세싱하기 위한 하나의 입력으로서 사용되거나, 상기 하나 이상의 색차 성분은 상기 DNN에 의해 프로세싱되지 않는 것인 비디오 디코딩 방법.
- 제1항에 있어서, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계에 대한 비트 심도(bit depth)는 상기 타겟 신호의 픽셀의 비트 심도에 의존하는 것인 비디오 디코딩 방법.
- 비디오 디코더 내의 비디오 디코딩 장치에 있어서, 상기 장치는 하나 이상의 전자장치 또는 프로세서를 포함하고, 상기 하나 이상의 전자장치 또는 프로세서는,
비디오 시퀀스 내의 하나 이상의 화상에 대응하는 비디오 비트스트림을 수신하고,
상기 비디오 비트스트림으로부터 재구성된 잔차를 생성하는 잔차 디코딩 프로세스, 각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 상기 재구성된 잔차와 상기 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 상기 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 디코딩 프로세스를 사용하여 각각의 화상을 디코딩하며,
DNN(심층 신경망)을 사용하여 타겟 신호를 프로세싱하고―DNN 입력에 제공되는 상기 타겟 신호는, 상기 예측 프로세스, 상기 재구성 프로세스, 상기 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터의 출력인, 상기 재구성된 잔차에 대응함―,
상기 디코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터를 제공하도록 구성되는 것인 비디오 디코딩 장치. - 비디오 인코더를 위한 비디오 인코딩 방법에 있어서,
비디오 시퀀스 내의 하나 이상의 화상에 대응하는 입력 데이터를 수신하는 단계와,
각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 재구성된 잔차와 상기 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 상기 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 인코딩 프로세스를 사용하여 각각의 화상을 인코딩하는 단계와,
DNN(심층 신경망)을 사용하여 타겟 신호를 프로세싱하는 단계로서, DNN 입력에 제공되는 상기 타겟 신호는, 상기 예측 프로세스, 상기 재구성 프로세스, 상기 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터의 출력인, 상기 재구성된 잔차에 대응하는 것인 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계와,
상기 인코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터를 제공하는 단계
를 포함하는 비디오 인코딩 방법. - 제30항에 있어서, 상기 적어도 하나의 필터링 프로세스는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter), 또는 이들의 임의의 조합을 포함하는 것인 비디오 인코딩 방법.
- 제31항에 있어서, 상기 DNN 입력에 제공되는 타겟 신호는 상기 재구성 프로세스, 상기 디블록킹 필터, SAO 또는 ALF로부터의 출력에 대응하는 것인 비디오 인코딩 방법.
- 제31항에 있어서, 상기 DNN 출력으로부터의 출력 데이터는 디코딩된 화상으로서 제공되거나, 상기 디블록킹 필터, SAO 또는 ALF에 대한 입력으로서 제공되는 것인 비디오 인코딩 방법.
- 제30항에 있어서, 상기 DNN은 상기 타겟 신호의 픽셀 값을 복원하도록 구성되는 것인 비디오 인코딩 방법.
- 제30항에 있어서, 상기 DNN은 상기 타겟 신호의 하나 이상의 픽셀에 대한 재구성된 잔차와 연관된 부호를 예측하도록 구성되는 것인 비디오 인코딩 방법.
- 제30항에 있어서, 상기 DNN은 상기 재구성된 잔차 및 상기 예측 신호를 포함한 다수의 DNN 입력을 사용하고, 상기 DNN은 상기 적어도 하나의 필터링 프로세스를 위해 상기 재구성된 화상을 상기 DNN 출력으로서 제공하는 것인 비디오 인코딩 방법.
- 제30항에 있어서, 각각의 화상은 상기 인코딩 프로세스를 위해 블록으로 분할되고, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는 상기 타겟 신호의 적어도 하나의 샘플을 프로세싱하기 위해 하나 이상의 이웃 샘플을 사용하며, 현재 블록의 상기 하나 이상의 이웃 샘플 중 어느 것도 블록 경계에서 사용할 수 없다면, 사용할 수 없는 이웃 샘플은 패딩 기술을 사용해서 생성되거나, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계는 스킵되는 것인 비디오 인코딩 방법.
- 제30항에 있어서, 상기 타겟 신호는 다수의 화상과 연관되는 것인 비디오 인코딩 방법.
- 제38항에 있어서, 상기 다수의 화상은, 상기 DNN을 사용하여 타겟 신호를 프로세싱하는 단계 이전에 정렬되고, 상기 다수의 화상의 대응하는 유닛으로부터의 픽셀은 상기 다수의 화상의 상기 대응하는 유닛에 관련된 모션 정보에 기초하여 정렬되는 것인 비디오 인코딩 방법.
- 비디오 인코더 내의 비디오 인코딩 장치에 있어서, 상기 장치는 하나 이상의 전자장치 또는 프로세서를 포함하고, 상기 하나 이상의 전자장치 또는 프로세서는,
비디오 시퀀스 내의 하나 이상의 화상에 대응하는 입력 데이터를 수신하고,
각각의 화상에 관련된 예측 신호를 생성하는 예측 프로세스, 재구성된 잔차와 상기 예측 신호로부터 재구성된 화상을 생성하는 재구성 프로세스, 및 재구성된 화상에 적용되는 적어도 하나의 필터링 프로세스 중 하나 또는 조합을 포함하는 인코딩 프로세스를 사용하여 각각의 화상을 인코딩하며,
DNN(심층 신경망)을 사용하여 타겟 신호를 프로세싱하고―DNN 입력에 제공되는 상기 타겟 신호는 상기 예측 프로세스, 상기 재구성 프로세스, 상기 적어도 하나의 필터링 프로세스, 또는 이들의 조합으로부터의 출력인, 상기 재구성된 잔차에 대응함―,
상기 인코딩 프로세스를 위해 DNN 출력으로부터의 출력 데이터를 제공하도록 구성되는 것인 비디오 인코딩 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562214121P | 2015-09-03 | 2015-09-03 | |
US62/214,121 | 2015-09-03 | ||
PCT/CN2016/097134 WO2017036370A1 (en) | 2015-09-03 | 2016-08-29 | Method and apparatus of neural network based processing in video coding |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180052651A true KR20180052651A (ko) | 2018-05-18 |
KR102124714B1 KR102124714B1 (ko) | 2020-06-19 |
Family
ID=58186697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187008893A KR102124714B1 (ko) | 2015-09-03 | 2016-08-29 | 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (2) | US11196992B2 (ko) |
EP (1) | EP3342164B1 (ko) |
KR (1) | KR102124714B1 (ko) |
CN (1) | CN107925762B (ko) |
CA (1) | CA2997193C (ko) |
PH (1) | PH12018500454A1 (ko) |
WO (1) | WO2017036370A1 (ko) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102006292B1 (ko) | 2018-12-07 | 2019-08-01 | 한화시스템(주) | Fec를 이용한 초협대역 멀티미디어 전송 장치 및 방법, 그리고, fec 파라미터 결정을 위한 dnn 모델 선택 장치 |
KR20200005403A (ko) | 2018-07-05 | 2020-01-15 | (주)인시그널 | 코덱 단위의 dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
US20200126185A1 (en) | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Artificial intelligence (ai) encoding device and operating method thereof and ai decoding device and operating method thereof |
WO2020080623A1 (ko) * | 2018-10-19 | 2020-04-23 | 삼성전자 주식회사 | 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 |
KR20200073079A (ko) * | 2018-12-13 | 2020-06-23 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
KR20200073078A (ko) * | 2018-12-13 | 2020-06-23 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
KR20200075710A (ko) | 2019-03-21 | 2020-06-26 | 한화시스템 주식회사 | Fec 파라미터 결정을 위한 dnn 모델 선택 장치 |
KR20200075709A (ko) | 2019-03-21 | 2020-06-26 | 한화시스템 주식회사 | Fec를 이용한 초협대역 멀티미디어 전송 방법 |
KR20200109904A (ko) | 2019-03-15 | 2020-09-23 | (주)인시그널 | Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
KR20200115239A (ko) | 2019-03-26 | 2020-10-07 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
US10817986B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10817985B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10819992B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing encoding and decoding on image |
US10825205B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
WO2020251124A1 (ko) * | 2019-06-11 | 2020-12-17 | 건국대학교 산학협력단 | 기계 학습 모델에 기초한 블록 체인을 이용한 hevc 분산형 복호화 방법, 장치 및 시스템 |
US10950009B2 (en) | 2018-10-19 | 2021-03-16 | Samsung Electronics Co., Ltd. | AI encoding apparatus and operation method of the same, and AI decoding apparatus and operation method of the same |
KR20210035679A (ko) | 2019-09-24 | 2021-04-01 | (주)인시그널 | 비디오 코딩 도구의 훈련된 심층 인공 신경망의 압축 장치 및 방법 |
KR20210035678A (ko) | 2019-09-24 | 2021-04-01 | (주)인시그널 | 동영상 코딩을 위한 훈련된 심층 인공 신경망의 압축 장치 및 방법 |
WO2021101243A1 (en) * | 2019-11-20 | 2021-05-27 | Samsung Electronics Co., Ltd. | Apparatus and method for using ai metadata related to image quality |
KR20210066707A (ko) * | 2019-11-28 | 2021-06-07 | 울산과학기술원 | 무손실 이미지 압축을 위한 데이터 압축 및 복원 장치 |
KR20210119046A (ko) | 2020-03-24 | 2021-10-05 | (주)인시그널 | 멀티미디어 콘텐츠의 처리를 위한 훈련된 심층 신경망의 압축 장치 및 방법 |
KR20210131894A (ko) | 2020-04-24 | 2021-11-03 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
US11182876B2 (en) | 2020-02-24 | 2021-11-23 | Samsung Electronics Co., Ltd. | Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image by using pre-processing |
KR20220027433A (ko) * | 2020-08-27 | 2022-03-08 | 한국전자기술연구원 | 딥러닝 네트워크 모델을 포함하는 멀티미디어 비트스트림 생성방법 및 그 장치 |
KR20220041404A (ko) | 2020-09-25 | 2022-04-01 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
US11405637B2 (en) | 2019-10-29 | 2022-08-02 | Samsung Electronics Co., Ltd. | Image encoding method and apparatus and image decoding method and apparatus |
WO2022177383A1 (ko) * | 2021-02-22 | 2022-08-25 | 삼성전자 주식회사 | Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법 |
US11616988B2 (en) | 2018-10-19 | 2023-03-28 | Samsung Electronics Co., Ltd. | Method and device for evaluating subjective quality of video |
US11720998B2 (en) | 2019-11-08 | 2023-08-08 | Samsung Electronics Co., Ltd. | Artificial intelligence (AI) encoding apparatus and operating method thereof and AI decoding apparatus and operating method thereof |
US11863756B2 (en) | 2021-02-22 | 2024-01-02 | Samsung Electronics Co., Ltd. | Image encoding and decoding apparatus and method using artificial intelligence |
US11863783B2 (en) | 2021-02-22 | 2024-01-02 | Samsung Electronics Co., Ltd. | Artificial intelligence-based image encoding and decoding apparatus and method |
WO2024029873A1 (ko) * | 2022-08-04 | 2024-02-08 | 삼성전자 주식회사 | 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9532080B2 (en) | 2012-05-31 | 2016-12-27 | Sonic Ip, Inc. | Systems and methods for the reuse of encoding information in encoding alternative streams of video data |
US9357210B2 (en) | 2013-02-28 | 2016-05-31 | Sonic Ip, Inc. | Systems and methods of encoding multiple video streams for adaptive bitrate streaming |
US10748062B2 (en) | 2016-12-15 | 2020-08-18 | WaveOne Inc. | Deep learning based adaptive arithmetic coding and codelength regularization |
US11948075B2 (en) * | 2017-06-09 | 2024-04-02 | Deepmind Technologies Limited | Generating discrete latent representations of input data items |
CN109120937B (zh) * | 2017-06-26 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
CN109151475B (zh) * | 2017-06-27 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
US10986356B2 (en) | 2017-07-06 | 2021-04-20 | Samsung Electronics Co., Ltd. | Method for encoding/decoding image and device therefor |
CN110892723B (zh) | 2017-07-06 | 2024-04-12 | 三星电子株式会社 | 用于编码或解码图像的方法和装置 |
WO2019009490A1 (ko) | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화/복호화 하는 방법 및 그 장치 |
WO2019009452A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
WO2019009449A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화/복호화 하는 방법 및 그 장치 |
WO2019009448A1 (ko) | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
CN107316079A (zh) * | 2017-08-08 | 2017-11-03 | 珠海习悦信息技术有限公司 | 终端卷积神经网络的处理方法、装置、存储介质及处理器 |
WO2019031410A1 (ja) * | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
EP3451670A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with mode-aware deep learning |
EP3451293A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with multi-branch deep learning |
EP3685577A4 (en) * | 2017-10-12 | 2021-07-28 | MediaTek Inc. | METHOD AND DEVICE OF A NEURAL NETWORK FOR VIDEO ENCODING |
GB2567861A (en) * | 2017-10-27 | 2019-05-01 | Sony Corp | Image data encoding and decoding |
CN108184129B (zh) * | 2017-12-11 | 2020-01-10 | 北京大学 | 一种视频编解码方法、装置及用于图像滤波的神经网络 |
WO2019115865A1 (en) * | 2017-12-13 | 2019-06-20 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
CN110062226B (zh) * | 2018-01-18 | 2021-06-11 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、视频解码方法、装置、系统及介质 |
CN110062225B (zh) * | 2018-01-18 | 2021-06-11 | 杭州海康威视数字技术股份有限公司 | 一种图片滤波的方法及装置 |
WO2019194425A1 (ko) * | 2018-04-06 | 2019-10-10 | 에스케이텔레콤 주식회사 | 영상 부호화 또는 복호화에 인공 신경망을 적용하는 장치 및 방법 |
US11265540B2 (en) * | 2018-02-23 | 2022-03-01 | Sk Telecom Co., Ltd. | Apparatus and method for applying artificial neural network to image encoding or decoding |
US20190297603A1 (en) * | 2018-03-23 | 2019-09-26 | Samsung Electronics Co., Ltd. | Method and apparatus for beam management for multi-stream transmission |
US11889070B2 (en) * | 2018-03-23 | 2024-01-30 | Sharp Kabushiki Kaisha | Image filtering apparatus, image decoding apparatus, and image coding apparatus |
US10855986B2 (en) | 2018-05-29 | 2020-12-01 | Qualcomm Incorporated | Bandwidth compression for neural network systems |
US10499081B1 (en) | 2018-06-19 | 2019-12-03 | Sony Interactive Entertainment Inc. | Neural network powered codec |
CN108924558B (zh) * | 2018-06-22 | 2021-10-22 | 电子科技大学 | 一种基于神经网络的视频预测编码方法 |
WO2020008104A1 (en) * | 2018-07-02 | 2020-01-09 | Nokia Technologies Oy | A method, an apparatus and a computer program product for image compression |
EP3811621A4 (en) | 2018-07-06 | 2022-04-06 | HFI Innovation Inc. | ACQUIRED MOTION INFORMATION TO DECODE A CURRENT ENCODER UNIT IN A VIDEO ENCODER SYSTEM |
GB2575628A (en) * | 2018-07-09 | 2020-01-22 | Nokia Technologies Oy | Video processing |
CN110971915B (zh) * | 2018-09-28 | 2022-07-01 | 杭州海康威视数字技术股份有限公司 | 滤波方法和设备 |
CN111107357B (zh) * | 2018-10-25 | 2022-05-31 | 杭州海康威视数字技术股份有限公司 | 一种图像处理的方法、装置、系统及存储介质 |
CN111105357B (zh) * | 2018-10-25 | 2023-05-02 | 杭州海康威视数字技术股份有限公司 | 一种失真图像的去失真方法、装置及电子设备 |
GB201817784D0 (en) * | 2018-10-31 | 2018-12-19 | V Nova Int Ltd | Methods,apparatuses, computer programs and computer-readable media |
KR102622950B1 (ko) | 2018-11-12 | 2024-01-10 | 삼성전자주식회사 | 디스플레이장치, 그 제어방법 및 기록매체 |
US11689726B2 (en) * | 2018-12-05 | 2023-06-27 | Google Llc | Hybrid motion-compensated neural network with side-information based video coding |
US11601644B2 (en) * | 2018-12-11 | 2023-03-07 | Google Llc | Image and video coding using machine learning prediction coding models |
US11282172B2 (en) * | 2018-12-11 | 2022-03-22 | Google Llc | Guided restoration of video data using neural networks |
WO2020123686A1 (en) * | 2018-12-14 | 2020-06-18 | Pcms Holdings, Inc. | System and method for procedurally colorizing spatial data |
CN109787715B (zh) * | 2018-12-18 | 2021-01-19 | 中国科学院深圳先进技术研究院 | Scma系统的dnn解码方法及解码通信设备 |
US11599773B2 (en) | 2018-12-27 | 2023-03-07 | Micron Technology, Inc. | Neural networks and systems for decoding encoded data |
US11240492B2 (en) * | 2019-01-22 | 2022-02-01 | Apple Inc. | Neural network based residual coding and prediction for predictive coding |
KR20210117327A (ko) * | 2019-01-25 | 2021-09-28 | 미디어텍 인크. | 비디오 코딩에서 비선형 적응적 루프 필터링을 위한 방법 및 장치 |
WO2020165493A1 (en) * | 2019-02-15 | 2020-08-20 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
WO2020181554A1 (zh) * | 2019-03-14 | 2020-09-17 | Oppo广东移动通信有限公司 | 预测值的确定方法、解码器以及计算机存储介质 |
JP2022525235A (ja) * | 2019-03-24 | 2022-05-11 | オッポ広東移動通信有限公司 | フィルタリング方法及び装置、コンピュータ記憶媒体 |
TW202046180A (zh) * | 2019-04-23 | 2020-12-16 | 美商內數位Vc控股公司 | 用於編碼及解碼深度神經網路之低等級及基於位移等級層之架構 |
CN110163370B (zh) * | 2019-05-24 | 2021-09-17 | 上海肇观电子科技有限公司 | 深度神经网络的压缩方法、芯片、电子设备及介质 |
CN112019854B (zh) * | 2019-05-28 | 2023-01-17 | 北京大学 | 基于深度学习神经网络的环路滤波方法 |
JP7318314B2 (ja) * | 2019-05-30 | 2023-08-01 | 富士通株式会社 | 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法 |
EP3767536A1 (en) * | 2019-07-17 | 2021-01-20 | Naver Corporation | Latent code for unsupervised domain adaptation |
WO2021089494A1 (en) * | 2019-11-07 | 2021-05-14 | Interdigital Vc Holdings France, Sas | Iterative training of neural networks for intra prediction |
US11424764B2 (en) * | 2019-11-13 | 2022-08-23 | Micron Technology, Inc. | Recurrent neural networks and systems for decoding encoded data |
CN111160435B (zh) * | 2019-12-20 | 2022-05-27 | 浙江大学 | 基于重构残差编码器的荧光光谱有机污染预警方法 |
WO2021170901A1 (en) * | 2020-02-24 | 2021-09-02 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video encoding and video decoding |
US11769276B2 (en) | 2020-03-05 | 2023-09-26 | Electronics And Telecommunications Research Institute | Method, apparatus, and storage medium using padding/trimming in compression neural network |
KR20210127412A (ko) * | 2020-04-14 | 2021-10-22 | 삼성전자주식회사 | Ai 다운스케일 장치 및 그 동작방법, 및 ai 업스케일 장치 및 그 동작방법 |
US20210326710A1 (en) * | 2020-04-16 | 2021-10-21 | Tencent America LLC | Neural network model compression |
WO2021211966A1 (en) * | 2020-04-18 | 2021-10-21 | Alibaba Group Holding Limited | Convolutional-neutral-network based filter for video coding |
US11388415B2 (en) * | 2020-05-12 | 2022-07-12 | Tencent America LLC | Substitutional end-to-end video coding |
US20230188713A1 (en) * | 2020-06-04 | 2023-06-15 | Interdigital Vc Holdings France, Sas | Neural network based filter in video coding |
CN113784146A (zh) * | 2020-06-10 | 2021-12-10 | 华为技术有限公司 | 环路滤波方法和装置 |
US11611355B2 (en) | 2020-06-22 | 2023-03-21 | Tencent America LLC | Techniques for parameter set and header design for compressed neural network representation |
JP2023532436A (ja) * | 2020-07-02 | 2023-07-28 | インターデイジタル パテント ホールディングス インコーポレイテッド | トポロジフレンドリ表現を用いたグラフ条件付きオートエンコーダ(gcae)のための方法、装置、及びシステム |
FR3112662A1 (fr) * | 2020-07-17 | 2022-01-21 | Fond B Com | Procédé et dispositif électronique de décodage d’un flux de données, et flux de données associé |
FR3112661B1 (fr) * | 2020-07-17 | 2024-02-02 | Fond B Com | Procédés de décodage d’un flux de données, dispositifs et flux de données associés |
CN116113973A (zh) * | 2020-08-06 | 2023-05-12 | 现代自动车株式会社 | 使用基于深度学习的帧间预测的视频编码与解码 |
US11582470B2 (en) * | 2020-09-03 | 2023-02-14 | Tencent America LLC | Method and apparatus for multi-scale neural image compression with intra-prediction residuals |
CN114173136A (zh) * | 2020-09-10 | 2022-03-11 | Oppo广东移动通信有限公司 | 编码方法、解码方法、编码器、解码器以及编码系统 |
US20220101095A1 (en) * | 2020-09-30 | 2022-03-31 | Lemon Inc. | Convolutional neural network-based filter for video coding |
US11792438B2 (en) * | 2020-10-02 | 2023-10-17 | Lemon Inc. | Using neural network filtering in video coding |
US11601661B2 (en) * | 2020-10-09 | 2023-03-07 | Tencent America LLC | Deep loop filter by temporal deformable convolution |
US11190760B1 (en) * | 2020-10-15 | 2021-11-30 | Tencent America LLC | Neural network based coefficient sign prediction |
CN114501031B (zh) * | 2020-11-13 | 2023-06-02 | 华为技术有限公司 | 一种压缩编码、解压缩方法以及装置 |
WO2022116085A1 (zh) * | 2020-12-03 | 2022-06-09 | Oppo广东移动通信有限公司 | 编码方法、解码方法、编码器、解码器以及电子设备 |
US11336789B1 (en) | 2020-12-22 | 2022-05-17 | Xerox Corporation | Controlling a multi-function device based on a user limit associated with a policy |
US11490078B2 (en) | 2020-12-29 | 2022-11-01 | Tencent America LLC | Method and apparatus for deep neural network based inter-frame prediction in video coding |
WO2022186620A1 (ko) * | 2021-03-04 | 2022-09-09 | 현대자동차주식회사 | 인트라 예측의 예측 신호를 개선하는 비디오 코딩방법 및 장치 |
US20220337853A1 (en) * | 2021-04-07 | 2022-10-20 | Lemon Inc. | On Neural Network-Based Filtering for Imaging/Video Coding |
US11563449B2 (en) * | 2021-04-27 | 2023-01-24 | Micron Technology, Inc. | Systems for error reduction of encoded data using neural networks |
US11973513B2 (en) | 2021-04-27 | 2024-04-30 | Micron Technology, Inc. | Decoders and systems for decoding encoded data using neural networks |
US20220385907A1 (en) * | 2021-05-21 | 2022-12-01 | Qualcomm Incorporated | Implicit image and video compression using machine learning systems |
CN113438049A (zh) * | 2021-05-31 | 2021-09-24 | 杭州电子科技大学 | 一种基于dnn模型分析的汉明码译码方法及系统 |
US11755408B2 (en) | 2021-10-07 | 2023-09-12 | Micron Technology, Inc. | Systems for estimating bit error rate (BER) of encoded data using neural networks |
WO2023082107A1 (zh) * | 2021-11-10 | 2023-05-19 | Oppo广东移动通信有限公司 | 解码方法、编码方法、解码器、编码器和编解码系统 |
CN114173130B (zh) * | 2021-12-03 | 2023-02-10 | 电子科技大学 | 一种适用于低码率条件的深度神经网络的环路滤波方法 |
CN116433783A (zh) * | 2021-12-31 | 2023-07-14 | 中兴通讯股份有限公司 | 用于视频处理的方法及装置、存储介质及电子装置 |
WO2023133889A1 (zh) * | 2022-01-17 | 2023-07-20 | 深圳市大疆创新科技有限公司 | 图像处理方法、装置、遥控设备、系统及存储介质 |
CN117412040A (zh) * | 2022-07-06 | 2024-01-16 | 维沃移动通信有限公司 | 环路滤波方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090034622A1 (en) * | 2007-08-01 | 2009-02-05 | Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry | Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images |
KR20130007654A (ko) * | 2010-04-13 | 2013-01-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 샘플 배열 멀티트리 세부분할에서 계승 |
KR20150035943A (ko) * | 2015-03-12 | 2015-04-07 | 삼성전자주식회사 | 픽셀 그룹별 픽셀값 보상을 위한 비디오 부호화 방법과 그 장치, 및 픽셀 그룹별 픽셀값 보상을 위한 비디오 복호화 방법과 그 장치 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418895A (en) * | 1992-11-25 | 1995-05-23 | Eastman Kodak Company | Method for displaying a high quality digital color image on a limited color display |
US6678421B1 (en) * | 2000-06-09 | 2004-01-13 | Hrl Laboratories, Llc | Subband coefficient prediction with pattern recognition techniques |
US6947378B2 (en) * | 2001-02-28 | 2005-09-20 | Mitsubishi Electric Research Labs, Inc. | Dynamic network resource allocation using multimedia content features and traffic features |
US7050969B2 (en) | 2001-11-27 | 2006-05-23 | Mitsubishi Electric Research Laboratories, Inc. | Distributed speech recognition with codec parameters |
CN100496129C (zh) * | 2007-06-05 | 2009-06-03 | 南京大学 | 基于h.264多路视频转码复用的方法 |
US8625676B2 (en) * | 2007-06-29 | 2014-01-07 | Pai Kung Limited Liability Company | Video bitstream decoding using least square estimates |
CN101609549B (zh) * | 2009-07-24 | 2011-08-10 | 河海大学常州校区 | 视频模糊图像的多尺度几何分析超分辨处理方法 |
US9681132B2 (en) * | 2010-11-24 | 2017-06-13 | Thomson Licensing Dtv | Methods and apparatus for adaptive loop filtering in video encoders and decoders |
JP5810700B2 (ja) * | 2011-07-19 | 2015-11-11 | ソニー株式会社 | 画像処理装置及び画像処理方法 |
RU2718230C2 (ru) * | 2011-11-08 | 2020-03-31 | Кт Корпорейшен | Способ декодирования видеосигнала |
BR122019022458B1 (pt) * | 2012-06-11 | 2021-10-05 | Samsung Electronics Co., Ltd | Método decodificador de vídeo |
JPWO2014084106A1 (ja) * | 2012-11-30 | 2017-01-05 | ソニー株式会社 | 画像処理装置および方法 |
US9177550B2 (en) | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US9460525B2 (en) * | 2013-04-03 | 2016-10-04 | Vivante Corporation | Tile-based compression and decompression for graphic applications |
US9451254B2 (en) | 2013-07-19 | 2016-09-20 | Qualcomm Incorporated | Disabling intra prediction filtering |
US9813730B2 (en) * | 2013-12-06 | 2017-11-07 | Mediatek Inc. | Method and apparatus for fine-grained motion boundary processing |
JP6080077B2 (ja) * | 2014-07-15 | 2017-02-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法及び画像符号化装置 |
EP3310058B1 (en) * | 2015-06-12 | 2023-02-22 | Panasonic Intellectual Property Management Co., Ltd. | Image coding method, image decoding method, image coding device and image decoding device |
-
2016
- 2016-08-29 CN CN201680049982.0A patent/CN107925762B/zh active Active
- 2016-08-29 EP EP16840799.7A patent/EP3342164B1/en active Active
- 2016-08-29 WO PCT/CN2016/097134 patent/WO2017036370A1/en active Application Filing
- 2016-08-29 CA CA2997193A patent/CA2997193C/en active Active
- 2016-08-29 KR KR1020187008893A patent/KR102124714B1/ko active IP Right Grant
- 2016-08-29 US US15/754,694 patent/US11196992B2/en active Active
-
2018
- 2018-03-02 PH PH12018500454A patent/PH12018500454A1/en unknown
-
2021
- 2021-11-15 US US17/526,678 patent/US11589041B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090034622A1 (en) * | 2007-08-01 | 2009-02-05 | Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry | Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images |
KR20130007654A (ko) * | 2010-04-13 | 2013-01-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 샘플 배열 멀티트리 세부분할에서 계승 |
KR20150035943A (ko) * | 2015-03-12 | 2015-04-07 | 삼성전자주식회사 | 픽셀 그룹별 픽셀값 보상을 위한 비디오 부호화 방법과 그 장치, 및 픽셀 그룹별 픽셀값 보상을 위한 비디오 복호화 방법과 그 장치 |
Non-Patent Citations (2)
Title |
---|
CHAO DONG et al., "Compression Artifacts Reduction by a Deep Convolutional Network", Computer Vision and Pattern Recognition, ACM classes, (2015.04.27.)* * |
Chia-Yang Tsai et al., "Adaptive Loop Filtering for Video Coding", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 7, NO. 6,, pp934-945, (2013.12.31.) * |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200005402A (ko) | 2018-07-05 | 2020-01-15 | (주)인시그널 | 도구 단위의 dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
KR20200005403A (ko) | 2018-07-05 | 2020-01-15 | (주)인시그널 | 코덱 단위의 dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
US11688038B2 (en) | 2018-10-19 | 2023-06-27 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10825139B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
WO2020080623A1 (ko) * | 2018-10-19 | 2020-04-23 | 삼성전자 주식회사 | 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 |
US10825206B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US11288770B2 (en) | 2018-10-19 | 2022-03-29 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10825203B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US11200702B2 (en) | 2018-10-19 | 2021-12-14 | Samsung Electronics Co., Ltd. | AI encoding apparatus and operation method of the same, and AI decoding apparatus and operation method of the same |
US11190782B2 (en) | 2018-10-19 | 2021-11-30 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing encoding and decoding on image |
US11647210B2 (en) | 2018-10-19 | 2023-05-09 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing encoding and decoding on image |
US20210358083A1 (en) | 2018-10-19 | 2021-11-18 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US11170473B2 (en) | 2018-10-19 | 2021-11-09 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10817986B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10817985B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10817988B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10819992B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing encoding and decoding on image |
US11663747B2 (en) | 2018-10-19 | 2023-05-30 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10817989B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10819993B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing encoding and decoding on image |
US10825204B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Artificial intelligence encoding and artificial intelligence decoding methods and apparatuses using deep neural network |
US10825205B2 (en) | 2018-10-19 | 2020-11-03 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US11616988B2 (en) | 2018-10-19 | 2023-03-28 | Samsung Electronics Co., Ltd. | Method and device for evaluating subjective quality of video |
US20200126185A1 (en) | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Artificial intelligence (ai) encoding device and operating method thereof and ai decoding device and operating method thereof |
US10817987B2 (en) | 2018-10-19 | 2020-10-27 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10832447B2 (en) | 2018-10-19 | 2020-11-10 | Samsung Electronics Co., Ltd. | Artificial intelligence encoding and artificial intelligence decoding methods and apparatuses using deep neural network |
US11170472B2 (en) | 2018-10-19 | 2021-11-09 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US10937197B2 (en) | 2018-10-19 | 2021-03-02 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US10950009B2 (en) | 2018-10-19 | 2021-03-16 | Samsung Electronics Co., Ltd. | AI encoding apparatus and operation method of the same, and AI decoding apparatus and operation method of the same |
US11170534B2 (en) | 2018-10-19 | 2021-11-09 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
US11720997B2 (en) | 2018-10-19 | 2023-08-08 | Samsung Electronics Co.. Ltd. | Artificial intelligence (AI) encoding device and operating method thereof and AI decoding device and operating method thereof |
US11748847B2 (en) | 2018-10-19 | 2023-09-05 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
KR102006292B1 (ko) | 2018-12-07 | 2019-08-01 | 한화시스템(주) | Fec를 이용한 초협대역 멀티미디어 전송 장치 및 방법, 그리고, fec 파라미터 결정을 위한 dnn 모델 선택 장치 |
KR20200073079A (ko) * | 2018-12-13 | 2020-06-23 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
US11575897B2 (en) | 2018-12-13 | 2023-02-07 | Pixtree Co., Ltd. | Image processing apparatus and operation method for learning parameiers based on machine learning |
US11943454B2 (en) | 2018-12-13 | 2024-03-26 | Pixtree Co., Ltd. | Image processing apparatus and operation method for learning parameters based on machine learning |
WO2020122481A3 (ko) * | 2018-12-13 | 2020-08-06 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
WO2020122478A3 (ko) * | 2018-12-13 | 2020-08-06 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
KR20200073078A (ko) * | 2018-12-13 | 2020-06-23 | 주식회사 픽스트리 | 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법 |
KR20200109904A (ko) | 2019-03-15 | 2020-09-23 | (주)인시그널 | Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
KR20200075709A (ko) | 2019-03-21 | 2020-06-26 | 한화시스템 주식회사 | Fec를 이용한 초협대역 멀티미디어 전송 방법 |
KR20200075710A (ko) | 2019-03-21 | 2020-06-26 | 한화시스템 주식회사 | Fec 파라미터 결정을 위한 dnn 모델 선택 장치 |
KR20200115239A (ko) | 2019-03-26 | 2020-10-07 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
KR20210135465A (ko) | 2019-03-26 | 2021-11-15 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치가 구현된 컴퓨터 시스템 |
WO2020251124A1 (ko) * | 2019-06-11 | 2020-12-17 | 건국대학교 산학협력단 | 기계 학습 모델에 기초한 블록 체인을 이용한 hevc 분산형 복호화 방법, 장치 및 시스템 |
KR20210035678A (ko) | 2019-09-24 | 2021-04-01 | (주)인시그널 | 동영상 코딩을 위한 훈련된 심층 인공 신경망의 압축 장치 및 방법 |
KR20210035679A (ko) | 2019-09-24 | 2021-04-01 | (주)인시그널 | 비디오 코딩 도구의 훈련된 심층 인공 신경망의 압축 장치 및 방법 |
US11405637B2 (en) | 2019-10-29 | 2022-08-02 | Samsung Electronics Co., Ltd. | Image encoding method and apparatus and image decoding method and apparatus |
US11720998B2 (en) | 2019-11-08 | 2023-08-08 | Samsung Electronics Co., Ltd. | Artificial intelligence (AI) encoding apparatus and operating method thereof and AI decoding apparatus and operating method thereof |
WO2021101243A1 (en) * | 2019-11-20 | 2021-05-27 | Samsung Electronics Co., Ltd. | Apparatus and method for using ai metadata related to image quality |
US11636626B2 (en) | 2019-11-20 | 2023-04-25 | Samsung Electronics Co., Ltd. | Apparatus and method of using AI metadata related to image quality |
KR20210066707A (ko) * | 2019-11-28 | 2021-06-07 | 울산과학기술원 | 무손실 이미지 압축을 위한 데이터 압축 및 복원 장치 |
US11182876B2 (en) | 2020-02-24 | 2021-11-23 | Samsung Electronics Co., Ltd. | Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image by using pre-processing |
KR20210119046A (ko) | 2020-03-24 | 2021-10-05 | (주)인시그널 | 멀티미디어 콘텐츠의 처리를 위한 훈련된 심층 신경망의 압축 장치 및 방법 |
KR20210131894A (ko) | 2020-04-24 | 2021-11-03 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
KR20220027433A (ko) * | 2020-08-27 | 2022-03-08 | 한국전자기술연구원 | 딥러닝 네트워크 모델을 포함하는 멀티미디어 비트스트림 생성방법 및 그 장치 |
KR20220041404A (ko) | 2020-09-25 | 2022-04-01 | (주)인시그널 | 훈련된 심층 신경망의 압축 장치 및 방법 |
US11863756B2 (en) | 2021-02-22 | 2024-01-02 | Samsung Electronics Co., Ltd. | Image encoding and decoding apparatus and method using artificial intelligence |
US11863783B2 (en) | 2021-02-22 | 2024-01-02 | Samsung Electronics Co., Ltd. | Artificial intelligence-based image encoding and decoding apparatus and method |
WO2022177383A1 (ko) * | 2021-02-22 | 2022-08-25 | 삼성전자 주식회사 | Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법 |
WO2024029873A1 (ko) * | 2022-08-04 | 2024-02-08 | 삼성전자 주식회사 | 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CA2997193A1 (en) | 2017-03-09 |
WO2017036370A1 (en) | 2017-03-09 |
US11196992B2 (en) | 2021-12-07 |
EP3342164A4 (en) | 2019-02-27 |
CN107925762A (zh) | 2018-04-17 |
PH12018500454A1 (en) | 2018-09-10 |
US11589041B2 (en) | 2023-02-21 |
CN107925762B (zh) | 2020-11-27 |
EP3342164A1 (en) | 2018-07-04 |
US20220078418A1 (en) | 2022-03-10 |
CA2997193C (en) | 2021-04-06 |
US20180249158A1 (en) | 2018-08-30 |
EP3342164B1 (en) | 2020-04-15 |
KR102124714B1 (ko) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102124714B1 (ko) | 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치 | |
TWI709329B (zh) | 用於視訊編碼的神經網絡方法和裝置 | |
TWI690196B (zh) | 360度虛擬現實視訊的環路濾波方法和裝置 | |
US11470356B2 (en) | Method and apparatus of neural network for video coding | |
Baig et al. | Learning to inpaint for image compression | |
TWI779161B (zh) | 用於視訊編解碼的分組類神經網路的方法以及裝置 | |
US20210400311A1 (en) | Method and Apparatus of Line Buffer Reduction for Neural Network in Video Coding | |
CN115606179A (zh) | 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器 | |
CN115552905A (zh) | 用于图像和视频编码的基于全局跳过连接的cnn滤波器 | |
Jia et al. | Residual guided deblocking with deep learning | |
KR20210139342A (ko) | 필터링 방법, 장치, 인코더 및 컴퓨터 저장 매체 | |
Santamaria et al. | Overfitting multiplier parameters for content-adaptive post-filtering in video coding | |
CN111901595B (zh) | 一种基于深度神经网络的视频编码方法及装置、介质 | |
WO2023134731A1 (en) | In-loop neural networks for video coding | |
CN111937392B (zh) | 视频编解码的神经网络方法和装置 | |
Jánosi | Two-Stage Overfitting of Neural Network-Based Video Coding In-Loop Filter | |
TW202404370A (zh) | 解碼方法、編碼方法、解碼器、編碼器、電子設備、電腦可讀儲存媒介、電腦程式產品以及碼流 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |