KR102456690B1 - 강화학습에 기반한 gop 선택 방법 및 분석장치 - Google Patents

강화학습에 기반한 gop 선택 방법 및 분석장치 Download PDF

Info

Publication number
KR102456690B1
KR102456690B1 KR1020200187458A KR20200187458A KR102456690B1 KR 102456690 B1 KR102456690 B1 KR 102456690B1 KR 1020200187458 A KR1020200187458 A KR 1020200187458A KR 20200187458 A KR20200187458 A KR 20200187458A KR 102456690 B1 KR102456690 B1 KR 102456690B1
Authority
KR
South Korea
Prior art keywords
gop
node
frames
reinforcement learning
binary tree
Prior art date
Application number
KR1020200187458A
Other languages
English (en)
Other versions
KR20220095693A (ko
Inventor
강제원
김나영
이정경
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020200187458A priority Critical patent/KR102456690B1/ko
Publication of KR20220095693A publication Critical patent/KR20220095693A/ko
Application granted granted Critical
Publication of KR102456690B1 publication Critical patent/KR102456690B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

강화학습에 기반한 GOP 선택 방법은 분석장치가 복수의 프레임으로 구성되는 입력 영상을 입력받는 단계, 상기 분석장치가 상기 복수의 프레임들을 기준으로 GOP(Group of Picture)를 결정하기 위한 이진 트리의 경로를 결정하는 단계 및 상기 분석장치가 상기 이진 트리의 리프 노드를 기준으로 상기 입력 영상의 GOP를 선택하는 단계를 포함한다. 상기 분석장치는 환경은 상기 이진 트리이고, 행동은 트리의 분기 여부이고, 보상은 선택된 GOP의 부호화 효율을 사용하는 강화학습을 이용하여 상기 이진 트리의 경로를 결정한다.

Description

강화학습에 기반한 GOP 선택 방법 및 분석장치{GOP SELECTION METHOD BASED ON REINFORCEMENT LEARNING AND IMAGE ANALYSIS APPARATUS}
이하 설명하는 기술은 비디오 부호화에서 GOP(Group of Picture)를 선택하는 기법에 관한 것이다.
HEVC(High Efficiency Video Coding)/H.265(이하 HEVC)을 포함한 비디오 부호화 기술은 GOP 단위로 영상을 나누어 부호화를 진행한다. 비디오 부호화는 동일 프레임 또는 다른 프레임에서 이미 부호화한 정보를 이용하여 현재 부호화하고자하는 대상을 부호화한다.
HEVC는 I-프레임, P-프레임, B-프레임을 이용하여 화면 내 예측만을 이용한 All Intra(AI) 모드, 저지연 모드 (LD: Low Delay), 임의 접근 모드 (RA: Random Access)의 부호화 모드를 제공하여 응용 서비스의 목적에 따라 부호화 및 복호화 구조를 선택적으로 사용할 수 있다. 특히 임의 접근 모드는 B-프레임을 사용하여 고화질의 영상을 낮은 비트로 압축할 수 있다. HEVC는 GOP 내로 한정된 참조 구조로 부호화가 수행된다.
미국등록특허 US10523940호
GOP 크기는 해당 GOP 내 프레임 간의 시간적 상관도와 연관된다. 즉, GOP의 크기 변화는 GOP의 참조 계층 구조와 현재 부호화할 프레임의 참조 프레임의 변화를 가져온다. 예컨대, 급격한 장면의 변화나 큰 움직임 변화가 있는 비디오 경우 GOP의 크기가 크다면, 참조 프레임의 텍스처 정보가 현재 부호화를 진행하는 프레임과 달라져 부호화 효율이 악화될 수 있다.
이하 설명하는 기술은 부호화를 위한 GOP의 크기를 선택하는 기법을 제공하고자 한다. 이하 설명하는 기술은 학습 모델에 기반하여 GOP 크기를 결정하는 기법을 제공하고자 한다.
강화학습에 기반한 GOP 선택 방법은 분석장치가 복수의 프레임으로 구성되는 입력 영상을 입력받는 단계, 상기 분석장치가 상기 복수의 프레임들을 기준으로 GOP(Group of Picture)를 결정하기 위한 이진 트리의 경로를 결정하는 단계 및 상기 분석장치가 상기 이진 트리의 리프 노드를 기준으로 상기 입력 영상의 GOP를 선택하는 단계를 포함한다.
강화학습에 기반하여 GOP 선택하는 분석장치는 복수의 프레임으로 구성되는 입력 영상을 입력받는 입력장치, 프레임들을 기준으로 GOP(Group of Picture)를 결정하기 위한 이진 트리의 경로를 결정하는 강화학습모델을 저장하는 저장장치 및 상기 복수의 프레임들을 상기 이진 트리에 적용하여 상기 이진 트리의 리프 노드를 기준으로 상기 입력 영상의 GOP를 선택하는 연산장치를 포함한다.
상기 강화학습에서 환경은 상기 이진 트리이고, 행동은 트리의 분기 여부이고, 보상은 선택된 GOP의 부호화 효율이다.
이하 설명하는 기술은 강화학습을 이용하여 현재 영상에 대하여 최적의 GOP 크기를 제공한다. 따라서, 이하 설명하는 기술은 비디오 부호화의 효율을 최대화하는데 기여한다.
도 1은 임의 접근 모드에서의 계층적 부호화 구조를 도시한다.
도 2는 GOP 선택을 위한 강화학습 환경에 대한 예이다.
도 3은 적응적 GOP 트리 구조에 대한 예이다.
도 4는 GOP 크기에 따른 GOP 선택 시나리오에 대한 예이다.
도 5는 GOP 이진 트리의 분기를 결정하기 위한 신경망 모델에 대한 예이다.
도 6은 강화학습을 이용한 QP 결정의 예이다.
도 7은 분석장치에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 학습 모델을 이용하여 GOP를 선택하는 기법이다. 특히, 이하 설명하는 기술은 강화학습(reinforcement learning)을 이용하여 GOP를 선택하는 기법이다. 먼저, 강화학습에 대하여 간략하게 설명한다.
지도학습(supervised Learning)은 정답이 주어진 데이터로 학습해서 새로운 데이터에 대한 값이나 카테고리를 예측하고, 비지도학습(unsupervised Learning)은 정답이 없는 데이터를 적절히 그룹화하거나 각 데이터 간의 관계를 찾아낸다. 이에 반하여 강화학습은 에이전트(agent)가 주어진 환경(Environment) 내에서 어떻게 행동해야 하는지에 대해 학습한다. 강화학습은 어떤 환경에서 정의된 에이전트가 현재의 상태(state)를 인식하여, 선택 가능한 행동들 중 보상(reward)을 최대화하는 행동(action) 혹은 행동 순서를 선택하는 방법론이다. 강화학습은 에이전트가 보상을 최대로 하도록 행동 혹은 행동 순서를 학습해 나가는 것을 목표로 한다.
강화 학습은 주로 MDP(Markov Decision Process)라는 확률 모델을 이용한다. MDP는 시간 t에서의 상태는 t-1에서의 상태에만 영향을 받는다는 의사결정 확률을 모델링하며 아래 수학식 1과 같은 확률식을 보인다.
Figure 112020143311111-pat00001
MDP에서 상태에 보상을 추가하여 확장한 개념을 마르코프 보상 과정(Markov reward process)이라고 하며 (χ,A,p,q,p0)와 같은 튜플 형태로 표현한다. χ는 상태, A는 행동, p(ㆍ|x,a)는 다음 상태 xt +1로 갈 확률, q(ㆍ|x,a)는 행동에 대한 보상 R(xt,at)의 확률, p0는 초기 확률 분포를 뜻한다.
강화학습은 현재 상태에서 행동을 취할 때 각각의 행동에 대해서 보상을 얼마나 받을지를 고려한 행동을 취하게 된다. 가장 높은 보상을 받을 수 있는 행동들을 연속적으로 취해야 좋은 행동을 선택하는 것이다. 최종적으로 받는 모든 보상의 총합을 Q값(Q-value)이라고 하고 아래 수학식 2와 같이 표현된다. 현재 상태 s에서 행동 a를 취할 때 받을 수 있는 모든 보상의 총합 Q(s,a)는 현재 행동을 취해서 받을 수 있는 즉각 보상과 미래에 받을 미래보상의 최대값의 합으로 계산될 수 있다.
Figure 112020143311111-pat00002
여기서 r(s,a)는 현재상태 s에서 행동 a를 취할 때 받는 즉각 보상값을 나타낸다. s'는 현재 상태 s에서 행동 a를 취해 도달하는 바로 다음 상태이다. maxaQ(s',a)는 다음 상태 s'에서 받을 수 있는 보상의 최대값이다. γ는 할인율로 미래 가치에 대한 중요도를 조절하는 값이다. 할인율의 값이 커질수록 미래에 받을 보상에 더 큰 가치를 두는 것이고, 작아질수록 즉각적 보상을 더 중요하게 고려하는 것이다. Q(s,a) 값을 최대화하는 행동을 선택하는 것이 강화학습의 목표이다.
Q 테이블(Q-table)은 현재 상태에서 취한 행동에 대한 행동 가치 함수 값을 나타낸다. Q 테이블은 처음에는 임의의 값으로 초기화한 뒤 학습이 진행됨에 따라 아래 수학식 3과 같이 업데이트된다.
Figure 112020143311111-pat00003
행동에 대한 Q 테이블을 만들고 이 테이블을 지속적으로 업데이트 하는 방법을 Q 학습(Q-learning)이라고 한다. 마르코프 상태 가정이 유효하다면, 수학식 3은 재귀적인 성질이 미래에 받을 수 있는 보상을 멀리 떨어진 과거까지 전파할 수 있음이 증명되어있다. Q 테이블의 업데이트 없이 현재 상태 값을 입력 값으로 받고, 현재 상태에서 취할 수 있는 행동들에 대한 Q 값을 예측하는 모델을 Q 네트워크(Q-Network)라고 한다.
컨볼루션 네트워크(Convolution networks)를 이용하여 Q 네트워크를 학습하는 방법을 DQN(Deep Q-Network)이라고 한다. DQN은 입력으로 고차원 데이터(이미지, 동영상 등)가 상태로 주어지게 될 때 컨볼루션 네트워크를 이용하여 효과적으로 학습될 수 있다. DQN의 동작에 대한 상세한 설명은 생략한다. DQN의 구조는 다양할 수 있다. 이하 설명하는 기술에서도 DQN을 이용하여 GOP 결정을 위한 Q 값을 예측할 수 있다.
전술한 바와 같이 HEVC는 응용 서비스의 목적에 따라 AI 모드, 저지연 모드 및 임의 접근 모드의 부호화 모드 중 어느 하나의 모드를 선택적으로 사용할 수 있다. 임의 접근 모드는 부호화하려는 픽쳐를 기준으로 이전 시간과 이후 시간에 부호화되고 복호화된 픽쳐를 모두 참조하여 부호화를 수행한다. 두 방향의 참조픽쳐를 사용하여 계층적 부호화를 수행하기 때문에 이전 시간 방향의 참조 픽쳐만을 사용하는 저지연 모드보다 높은 압축 성능을 얻을 수 있다.
도 1은 임의 접근 모드에서의 계층적 부호화 구조를 도시한다. 도 1은 GOP 크기가 8인 경우이다. GOP가 16이나 32로 설정된다면, 그에 따른 계층적 구조도 변화하며 현재 부호화하는 프레임의 참조 프레임도 변하게 된다.
도 1에서 사각형 안의 숫자는 부호화 순서를 의미한다. I-프레임이 0번째로 가장 먼저 코딩되는 것을 볼 수 있다. 그 다음으로 I 프레임을 참조하여 P (또는 B) 프레임이 코딩되고 그 사이의 B 프레임이 코딩된다. 이 세 장의 프레임은 각각 QP=I, QP=I+1, QP=I+2로 코딩된다. 이러한 프레임은 계층적으로 가장 깊이가 낮다고 한다. 또는 Temporal ID = 0이라고 한다.
그 다음으로 Temporal ID = 0 에 속하는 프레임 사이의 프레임들이 코딩이 된다. 예를 들어서 0 번째, 2번째로 코딩이 된 프레임의 중간에 위치한 프레임이 다음으로 코딩된다. 또한, 1번째, 2번째로 코딩이 된 프레임의 중간에 위치한 프레임이 다음으로 코딩된다. 이러한 프레임들은 Temporal ID = 1을 부여 받는다. 같은 방식으로 Temporal ID = 2를 부여 받는 프레임들이 코딩 된다.
POC(Picture of Count)는 GOP 안에서의 시간 순서에 따라 부여 받는 인덱스이다. 0번째 처음 프레임부터 8번째 프레임까지 순서대로 POC = 0 부터 POC = 8까지 값을 가진다.
HEVC에서는 부호화 시나리오에 맞춰 프레임별 QP 크기가 결정되어 있으며 이를 따라 부호화가 진행된다. 예컨대, 도 1과 같이 GOP 8 시나리오인 경우, INTRA 프레임의 QP가 I라면, 다음으로 부호화되는 프레임의 QP는 I+1로 부호화되며, 그 다음 부호화 프레임의 QP는 I+2로 부호화된다.
이하 설명에서 GOP를 선택하는 장치는 영상을 처리하는 장치이다. 따라서, 영상 처리 장치가 GOP를 선택한다. 나아가, 입력 영상을 분석하여 GOP를 선택하게 되므로, GOP를 선택하는 장치를 분석장치라고 명명할 수도 있다. 이하 분석장치가 GOP를 선택하는 과정을 수행한다고 가정한다. 분석장치는 영상을 입력받아 처리하고 연산할 수 있는 장치에 해당한다. 분석장치는 컴퓨터 장치, 스마트기기, 네트워크 상의 서버 등과 같은 장치일 수 있다. 한편, 분석장치는 영상을 부호화하는 인코더일 수 있다.
도 2는 GOP 선택을 위한 강화학습 환경에 대한 예이다. 강화학습은 에이전트와 환경이 행동, 상태와 보상을 주고받는다.
도 2에서 환경은 적응적 GOP 이진 트리(GOP binary tree) 구조를 가진다. GOP 트리는 트리 구조로 노드로 구성된다. 각 노드 n은 하나의 GOP 또는 서브 GOP의 부호화를 의미하며 n(S, L) 형식으로 정의한다. 여기서 S는 시작 프레임, L은 하나의 GOP 또는 서브 GOP 내에 구성된 프레임의 개수이다. 도 2는 0번 POC부터 부호화되는 비디오에 대해 GOP 트리의 예시를 보여준다. 노드가 분기하면서 트리의 깊이가 증가하게 된다. 깊이가 증가하면서 리프(leaf) 노드에 도달하게 된다. 해당 리프 노드는 하나의 GOP 또는 서브 GOP에 대한 결정된 구조를 나타낸다. 하나의 GOP 또는 서브 GOP가 결정이 되면 해당 구간에서의 부호화 순서가 계층적 B 구조에 따라 결정이 된다.
도 2에서 행동은 U(undetermined)와 D(determined)로 구성된다. 선택 U는 GOP 트리에서 현재 상태 노드에서 분기되서 다음 깊이의 상태로 이동하는 것이고, 선택 D은 현재 노드를 리프 노드로 결정하여 시작 POC S부터 부호화할 길이 L의 프레임인 프레임 [S:S+L]까지 부호화하는 것을 의미한다. 모든 입력 프레임에 대해 부호화 방법이 결정되었다면, 입력 비디오에 대한 GOP 선택을 종료하게 되고 강화학습 에피소드는 종료된다.
도 2에서 보상은 선택한 GOP를 사용하였을 때 제공하는 부호화 효율을 사용한다. 부호화 효율은 RD(Rate-Distortion) 비용 J를 계산하여 사용한다. RD 비용은 아래 수학식 4와 같이 정의한다.
Figure 112020143311111-pat00004
여기서 D는 왜곡, R은 소요 비트, λ는 상수이다.
분석장치는 선택한 GOP가 현재 비용보다 더 낮은 비용 J를 제공하면, 보상은 가산점(rt>0)을 부여한다. 분석장치는 선택한 GOP가 현재 비용이상의 비용 J를 제공하면, 보상은 감점(rt≤0)을 부여한다. 중단 조건을 만족한 경우와 그렇지 않은 경우 각각의 yt는 아래 수학식 5와 같이 결정된다.
Figure 112020143311111-pat00005
여기서 Q는 행동으로 가중치 θ를 갖는 가치함수, rt는 보상, φt는 t 단계에서의 시퀀스이다.
DQN은 실제 가치함수 Q가 참값에 도달했을 때 가장 큰 보상을 획득할 수 있다. 분석장치는 아래 수학식 6으로 비용 함수를 정의하고 그레디언트를 업데이트 한다.
Figure 112020143311111-pat00006
도 3은 적응적 GOP 트리 구조에 대한 예이다. 적응적 GOP 트리는 강화 학습을 이용하여 입력 비디오의 GOP를 결정하기 위한 환경으로 사용된다. GOP 트리는 도 3에서 보이는 것과 같이 노드와 경로로 구성되며, 각각의 노드는 부호화 시작 POC와 부호화를 진행할 프레임 수로 구성된다. 적응적 GOP 트리는 최초 n0로 시작되며 아래 수학식 7과 같이 표현된다.
Figure 112020143311111-pat00007
여기서 S는 입력 비디오의 시작 POC를 의미하고, L 길이를 의미한다. 예컨대, S = 0, L = 32인 경우 n0 = [0,32]이며 POC 0을 기준으로 32장의 프레임 코딩을 고려한다. 도 3은 GOP의 최소 단위 8이고, 최대 단위가 32일 경우의 예이다. 트리 구조는 GOP의 최소 단위가 작을수록 더 깊은 트리를 구성하게 된다. 임의의 노드 n에서 깊이 d가 증가하게 되면, 현재 노드를 기준으로 좌 노드와 우 노드 분기가 연결되며 다음과 같이 표현한다.
Figure 112020143311111-pat00008
이때 Pd(S)는 현재 분기 노드의 부모 노드의 시작 프레임이다. 좌 노드는 부모 노드의 코딩할 시작 POC를 따르며 L의 1/2로 길이가 설정된다. 우 노드는 부모 노드의 S에 L/21만큼 움직인 POC를 시작점으로 하며 L의 1/2로 길이가 설정된다. 예컨대, S = 0, L = 32인 경우 n1,l = [0,16]이며 POC 0을 기준으로 16장의 프레임 코딩을 고려한다. n1,r = [16,16]이며 POC 16을 기준으로 16장의 프레임 코딩을 고려한다.
노드의 길이는 최소 단위보다 더 작게 나눠질 수 없다. 즉 L/2d = Lmin를 만족하는 만큼의 깊이 d가 적응적 트리의 깊이가 된다.
적응적 GOP 트리 구조에서 경로는 자기 자신을 선택하는 경로와 다음 깊이로 분기하는 경로가 존재한다. 각 노드에서의 경로는 강화학습의 행동이 결정한다. 적응적 GOP 트리 구조에서는 행동 U(undetermined)와 D(determined)로 구성된다. 분석장치는 행동 D가 선택되는 경우 해당 노드를 최종 경로로 결정하고, U를 선택하게 되면 다음 깊이로 분기하여 재차 경로를 결정한다. 이때 분기는 오른 노드와 왼 노드로 구성이 되며 각각의 노드에 대해서 행동을 선택하게 된다.
깊이 d = 0일 때는 하나의 노드 n0만 존재하기 때문에 하나의 노드에서 행동 U/D를 선택한다. 깊이 d = 0에서 U를 선택한 경우, 깊이 d = 1일 때는 두 개의 노드 nr,nl이 존재하기 때문에 두 개의 노드에서 행동 U 또는 D를 선택한다.
분석 장치가 행동 D를 선택하여 해당 노드 자신을 선택하는 경로를 택하면 그때 노드의 시작 POC를 기준으로 설정된 길이까지를 한 GOP를 선택하여 코딩한다.
도 4는 GOP 크기에 따른 GOP 선택 시나리오에 대한 예이다. 도 4는 GOP의 최소 단위가 8, 최대 단위가 32일 경우 적응적 GOP 트리 구조를 통하여 결정되는 GOP 경우의 수를 도시한다. 도 4는 도 3의 GOP 트리를 기준하여 분기하는 경우이다.
(i) 경우(case) 1은 n0에서 행동 D를 선택한 경우이다. (ii) 경우 2는 n0에서 행동 U를 선택한 후, nl에서 행동 D를 선택하고 nr에서 행동 D를 선택한 경우이다. (iii) 경우 3은 노드에서 분기하다가 리프 노드인 n1,l에서 행동 D를 선택하고, n1,r에서 행동 D를 선택하고, nr,l에서 행동 D를 선택하고, nr,r에서 행동 D를 선택한 경우이다. (iv) 경우 4는 n0에서 행동 U하고, nl에서 행동 U한 후, 리프 노드인 n1,l에서 행동 D를 선택하고, n1,r에서 행동 D를 선택하고, nr에서 행동 D를 선택한 경우이다. (v) 경우 5는 nl에서 행동 D를 선택하고, nr에서 행동 U를 선택한 후 nr,l에서 행동 D를 선택하고, nr,r에서 행동 D를 선택한 경우이다.
모든 분기에서 D를 선택하거나, 또는 최소 단위의 L을 만나게 되는 경우 행동 결정이 완료된다. 분석 장치는 행동 결정이 완료되면 최종 분기 경로에 따라 GOP를 결정한다.
입력 비디오가 주어질 때에 행동을 예측하기 위해서 CNN(Convolution Neural Network)을 이용할 수 있다. 도 5는 GOP 이진 트리의 분기를 결정하기 위한 신경망 모델(100)에 대한 예이다. 신경망 모델(100)은 제1 입력단(110), 제2 입력단(120) 및 출력단(130)을 포함한다. 제1 입력단(110) 및 제2 입력단(120)은 동일한 구조로 각각 입력 영상에서 특징값을 추출하는 구성이다. 입력단(110, 120)은 컨볼루션 계층, 풀링 계층을 포함할 수 있다. 출력단(130)은 제1 입력단(110)의 출력 및 제2 입력단(120)의 출력을 퓨전(fusion)하고 전연결 계층에서 최종 결과를 출력한다. 신경망 모델(100)은 GOP 이진 트리의 현재 노드에서의 행동(분기 여부)을 결정한다.
도 5는 깊이가 0일 때의 입력 비디오와 그에 따른 행동을 예측 네트워크를 보여준다. 제1 입력단(110)은 제1 스트림을 입력받는다. 제1 스트림은 3장의 프레임을 결합(concatenation)한 데이터이다. 제1 스트림은 프레임 n0, n8 및 n16을 결합한 데이터이다. 제2 입력단(120)은 제2 스트림을 입력받는다. 제2 스트림은 3장의 프레임을 결합한 데이터이다. 제2 스트림은 프레임 n8, n16 및 n32을 결합한 데이터이다. 입력단에 입력되는 입력 프레임은 아래 수학식 9로 결정할 수 있다.
Figure 112020143311111-pat00009
S는 시작 프레임 번호, L은 해당 노드에 설정된 프레임의 길이, d는 트리 깊이, Pd(S)는 현재 노드의 부모 노드의 시작 프레임, Pd(L)은 현재 노드의 부모 노드에 설정된 프레임의 길이, nd,l(S)는 부모 노드의 좌측 자식 노드의 시작 프레임 번호, nd,r(L)은 부모 노드의 우측 자식 노드에 설정된 프레임의 길이이다.
수학식 9에서 (1)은 제1 스트림을 생성하는 입력 프레임들이고, (2)는 제2 스트림을 생성하는 입력 프레임들이다.
출력단(130)은 제1 입력단(110)의 출력 및 제2 입력단(120)의 출력을 퓨전하고, 최종적으로 입력 데이터에 대한 행동에 대한 정보를 출력한다.
한편, 인공 신경망(100)은 입력 영상 외에 프레임 간의 움직임을 표현하는 옵티컬 플로우(optical flow), 움직임 벡터 등을 입력받을 수도 있다.
인공 신경망(100)의 출력은 행동에 대한 Q 값으로 나오게 된다. 행동은 U와 D 중 더 큰 Q 값을 갖는 것으로 선택된다.
학습 과정은 보상이 최대화되는 방향으로 네트워크 파라미터를 업데이트하게 된다. 적응적 GOP 선택 강화학습은 입력 비디오에 대해서 하나의 에피소드로 정의된다. 에피소드가 종료되는 기준은 적응적 GOP 트리 구조에서 행동 D로 인해 분기가 종료된 노드들의 합집합 구간이 L과 일치하게 될 때이다. 이때 분기의 종료는 행동 D 또는 깊이가 Lmin로 인해 깊어 질 수 없는 경우에 해당한다. Lmin은 GOP 최소 크기이다. 에피소드가 종료되는 시점에서 보상을 계산하게 되고 보상이 최대가 되는 선택을 하여 입력 비디오에 대해서 최상의 GOP 조합을 설정하였다면 다음 비디오로 에피소드가 진행되게 된다. 다음 비디오의 에피소드는 적응적 GOP 트리의 n0로 초기화되어 실행되는 반면 보상은 앞선 에피소드에서 얻은 값을 그대로 유지한다. 반면 잘못된 GOP 예측으로 인하여 감점된 경우 수학식 6을 통하여 네트워크의 파라미터가 업데이트 되고, 강화학습은 입력 비디오, 보상 및 상태가 모두 초기화되어 다른 비디오로 다시 시작된다.
이하 결정된 GOP의 프레임에 대한 QP(Quantization Parameter)를 결정하는 과정을 설명한다. 종전 QP 결정은 도 1에서 설명한 바 있다. 이하 설명하는 기술은 전술한 GOP 선택 기법과 유사한 기법을 이용하여 QP를 결정할 수 있다. 즉, 강화 학습을 이용한 QP 결정 기법이다.
환경은 GOP 이진 트리와 유사한 QP 이진 트리일 수 있다. 또는, 환경은 체인(chain)과 같은 형태일 수도 있다. QP 트리 또는 QP 체인은 행동에 따른 상태 노드로 구성된다. 상태 노드는 현재 부호화되는 프레임을 의미한다. 행동은 QP 트리 또는 체인의 현재 노드와 직전(또는 상위) 노드와의 QP 크기와의 차이로 나타내는 α 값을 선택할 수 있다. 보상은 선택한 QP를 사용하였을 때 제공하는 부호화 효율이다. 부호화 효율은 RD 비용으로 계산할 수 있다. QP 트리 또는 QP 체인에서 깊이는 한 에피소드 안에서 상태 노드와 연속된 행동에 따른 순서를 의미한다. 강화학습이 종료되기 전까지 연속된 행동에 따라 깊이도 커지게 된다.
선택한 QP가 더 낮은 RD 비용을 선택할 경우는 보상으로 가산점을, 그렇지 못한 경우에는 감점을 부여한다. 부호화 효율은 전술한 수학식 4의 비용 J를 사용할 수 있다.
분석장치는 강화학습 알고리즘을 통해 QP 트리 또는 QP 체인을 이용하여 입력 프레임에 따라 QP의 크기를 선택할 수 있다. 도 6은 강화학습을 이용한 QP 결정의 예이다.
도 6은 GOP의 32일 경우의 QP 체인의 예시이다. INTRA 프레임인 POC 0번의 QP크기가 q라면, 그 다음 프레임인 POC 32번은 QP 크기는 q + α가 된다. 경우 1인 에서 POC 32번은 q + 1, POC 16번도 q + 1 크기로 결정되어 부호화 된다. 경우 2에서 POC 32번은 q + 1, POC 16번은 q + 2 크기로 기존 HEVC의 고정 QP와 동일한 가능한 조합이다. α의 값은 다양한 값이 사용될 수 있다.
적응적 QP 선택 네트워크는 적응적 GOP 선택 네트워크와 동일한 구조의 네트워크를 사용할 수 있다. 도 5의 적응적 GOP 선택 네트워크와 동일하게 입력 비디오가 주어질 때 프레임 간 상관도를 고려하여 QP 크기를 예측하게 된다. 학습에서는 보상이 최대화되는 방향으로 네트워크 파라미터를 업데이트하게 된다.
최적의 GOP의 크기가 결정되었다면, 분석 장치는 결정된 GOP 크기의 계층적 구조를 동일하게 유지하되, QP 체인을 통해 프레임별 최적의 QP 크기를 결정할 수 있다.
또는 전술한 적응적 GOP 선택만 사용하여 부호화를 진행할 수 있다. 이때, QP 설정은 부호화 시나리오의 고정된 QP값을 따른다. 예를 들면, GOP 16로 결정된 비디오라면 기존 HEVC와 동일한 GOP 16에서의 QP크기를 사용할 수 있다.
나아가, 적응적 QP 선택만 사용하여 부호화를 진행할 수 있다. 이때, GOP 크기는 고정된 값을 사용한다. 예컨대, 고정된 GOP 8을 사용한다면, GOP 8의 계층적 구조를 유지하며 입력 비디오 프레임에 따른 최적의 QP를 결정할 수 있다.
도 7은 분석장치(200)에 대한 예이다. 분석장치(200)는 GOP 및/또는 GP만을 결정하는 전용장치일 수 있다. 또는 분석장치(200)는 입력 영상을 처리하는 영상처리장치일 수도 있다. 예컨대, 분석장치(200)는 인코더일 수 있다. 분석장치(200)는 영상 데이터 처리 및 분석 가능한 컴퓨터 장치, 네트워크의 서버, 프로그램이 임베딩된 칩 셋 등의 형태로 구현될 수 있다.
분석장치(200)는 저장 장치(210), 메모리(220), 연산장치(220) 및 인터페이스 장치(230)를 포함한다. 나아가, 분석장치(200)는 통신장치(250)를 포함할 수도 있다.
저장 장치(210)는 GOP 이진 트리 및 프레임들을 기준으로 GOP를 결정하기 위한 이진 트리의 경로를 결정하는 강화학습모델을 저장할 수 있다.
저장 장치(210)는 입력 또는 수신하는 입력 영상을 저장할 수 있다.
메모리(220)는 영상 처리 및 GOP 선택 과정에서 생성되거나 필요한 정보를 임시로 저장할 수 있다.
인터페이스 장치(240)는 데이터 및 명령을 입력받는 구성을 의미한다. 인터페이스 장치(240)는 내부 통신을 위한 물리적 장치 및 통신 프로토콜을 포함할 수 있다. 인터페이스 장치(240)는 입력 영상을 입력받을 수 있다. 인터페이스 장치(240)는 입력 영상을 분석하기 위한 명령을 입력받을 수도 있다.
통신장치(250)는 유선 또는 무선 통신을 통해 외부 객체로부터 일정한 정보를 수신할 수 있다. 통신장치(200)는 입력 영상을 수신할 수 있다. 통신장치(250)는 결정한 GPO 및/ GP를 외부 객체로 송신할 수 있다.
통신장치(250) 내지 인터페이스 장치(240)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(250) 내지 인터페이스 장치(240)는 일정한 데이터를 입력받기에 입력장치라고 명명할 수 있다.
연산장치(230)는 주어진 데이터 내지 정보를 처리하는 구성을 의미한다. 연산장치(230)는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
연산장치(230)는 입력 장치로부터 입력되는 입력 영상에 대한 프레임들을 GOP 이진 트리의 루트 노드에 입력하고, GOP 이진 트리의 경로를 결정한다.
연산장치(230)는 GOP 이진 트리의 분기는 전술한 강화학습 모델을 이용하여 결정할 수 있다.
연산장치(230)는 강화학습 모델을 이용하여 GOP 이진 트리의 경로를 모두 결정하고, 최종 결정되는 리프 노드를 기준으로 GOP를 선택할 수 있다.
연산장치(230)는 프레임들 중 복수의 프레임들을 입력받은 강화학습 모델이 출력하는 Q 값을 기준으로 해당 노드의 행동(U 또는 D)을 결정할 수 있다.
연산장치(230)는 전술한 바와 같이 강화학습을 이용하여 상기 선택한 GOP의 QP를 결정할 수 있다.
또한, 상술한 바와 같은 영상 처리 방법, GOP 선택 방법 내지 QP 결정 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (12)

  1. 분석장치가 복수의 프레임으로 구성되는 입력 영상을 입력받는 단계;
    상기 분석장치가 상기 복수의 프레임들을 기준으로 GOP(Group of Picture)를 결정하기 위한 이진 트리의 경로를 결정하는 단계; 및
    상기 분석장치가 상기 이진 트리의 리프 노드를 기준으로 상기 입력 영상의 GOP를 선택하는 단계를 포함하되,
    상기 분석장치는 환경은 상기 이진 트리이고, 행동은 트리의 분기 여부이고, 보상은 선택된 GOP의 부호화 효율을 사용하는 강화학습을 이용하여 상기 이진 트리의 경로를 결정하고,
    상기 이진 트리의 노드는 GOP 후보를 나타내며 입력되는 프레임들의 시작 번호 및 길이로 정의되고,
    상기 분석장치는 상기 이진 트리의 노드에 입력되는 프레임들 중 복수의 프레임들을 입력받은 인공신경망이 출력하는 Q 값을 기준으로 상기 노드에서의 분기 여부를 결정하되,
    상기 인공신경망은 아래 수식 (1)로 결정되는 프레임들을 결합한 데이터를 입력받는 제1 입력단, 아래 수식 (2)로 결정되는 프레임들을 결합한 데이터를 입력받은 제2 입력단 및 상기 제1 입력단의 출력 및 상기 제2 입력단의 출력을 퓨전하고, 퓨전된 데이터를 기준으로 상기 Q 값을 출력하는 출력단을 포함하는 강화학습에 기반한 GOP 선택 방법.
    Figure 112022052559127-pat00010

    (Pd(S)는 현재 노드의 부모 노드의 시작 프레임, L은 상기 현재 노드에 설정된 길이, Pd(L)은 현재 노드의 부모 노드에 설정된 프레임의 길이, nd,l(S)는 부모 노드의 좌측 자식 노드의 시작 프레임 번호, nd,r(L)은 부모 노드의 우측 자식 노드에 설정된 프레임의 길이임)
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 분석장치가 강화학습을 이용하여 상기 선택한 GOP의 QP(Quantization Parameter)를 결정하는 단계를 더 포함하되,
    상기 강화학습에서 상태 노드는 현재 부호화되는 프레임, 행동은 현재 노드와 이전 노드와의 QP 차이 및 보상은 선택한 QP를 사용하였을 때 제공하는 부호화 효율인 강화학습에 기반한 GOP 선택 방법.
  7. 복수의 프레임으로 구성되는 입력 영상을 입력받는 입력장치;
    프레임들을 기준으로 GOP(Group of Picture)를 결정하기 위한 이진 트리의 경로를 결정하는 강화학습모델을 저장하는 저장장치; 및
    상기 복수의 프레임들을 상기 이진 트리에 적용하여 상기 이진 트리의 리프 노드를 기준으로 상기 입력 영상의 GOP를 선택하는 연산장치를 포함하되,
    상기 연산장치는 환경은 상기 이진 트리이고, 행동은 트리의 분기 여부이고, 보상은 선택된 GOP의 부호화 효율을 사용하는 강화학습을 이용하여 상기 이진 트리의 경로를 결정하고,
    상기 이진 트리의 노드는 GOP 후보를 나타내며 입력되는 프레임들의 시작 번호 및 길이로 정의되고,
    상기 연산장치는 상기 이진 트리의 노드에 입력되는 프레임들 중 복수의 프레임들을 입력받은 인공신경망이 출력하는 Q 값을 기준으로 상기 노드에서의 분기 여부를 결정하되,
    상기 인공신경망은 아래 수식 (1)로 결정되는 프레임들을 결합한 데이터를 입력받는 제1 입력단, 아래 수식 (2)로 결정되는 프레임들을 결합한 데이터를 입력받은 제2 입력단 및 상기 제1 입력단의 출력 및 상기 제2 입력단의 출력을 퓨전하고, 퓨전된 데이터를 기준으로 상기 Q 값을 출력하는 출력단을 포함하는 강화학습에 기반하여 GOP 선택하는 분석장치.
    Figure 112022052559127-pat00011

    (Pd(S)는 현재 노드의 부모 노드의 시작 프레임, L은 상기 현재 노드에 설정된 길이, Pd(L)은 현재 노드의 부모 노드에 설정된 프레임의 길이, nd,l(S)는 부모 노드의 좌측 자식 노드의 시작 프레임 번호, nd,r(L)은 부모 노드의 우측 자식 노드에 설정된 프레임의 길이임)
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 제7항에 있어서,
    상기 연산장치는 강화학습을 이용하여 상기 선택한 GOP의 QP(Quantization Parameter)를 결정하되,
    상기 강화학습에서 상태 노드는 현재 부호화되는 프레임, 행동은 현재 노드와 이전 노드와의 QP 차이 및 보상은 선택한 QP를 사용하였을 때 제공하는 부호화 효율인 강화학습에 기반하여 GOP 선택하는 분석장치.
KR1020200187458A 2020-12-30 2020-12-30 강화학습에 기반한 gop 선택 방법 및 분석장치 KR102456690B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200187458A KR102456690B1 (ko) 2020-12-30 2020-12-30 강화학습에 기반한 gop 선택 방법 및 분석장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200187458A KR102456690B1 (ko) 2020-12-30 2020-12-30 강화학습에 기반한 gop 선택 방법 및 분석장치

Publications (2)

Publication Number Publication Date
KR20220095693A KR20220095693A (ko) 2022-07-07
KR102456690B1 true KR102456690B1 (ko) 2022-10-18

Family

ID=82397515

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200187458A KR102456690B1 (ko) 2020-12-30 2020-12-30 강화학습에 기반한 gop 선택 방법 및 분석장치

Country Status (1)

Country Link
KR (1) KR102456690B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180270482A1 (en) * 2017-03-14 2018-09-20 Axis Ab Method and encoder system for determining gop length for encoding video

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160261869A1 (en) * 2015-03-04 2016-09-08 Ati Technologies Ulc Content-adaptive b-picture pattern video encoding
KR102602690B1 (ko) * 2015-10-08 2023-11-16 한국전자통신연구원 화질에 기반한 적응적 부호화 및 복호화를 위한 방법 및 장치
WO2018124332A1 (ko) * 2016-12-28 2018-07-05 엘지전자(주) 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180270482A1 (en) * 2017-03-14 2018-09-20 Axis Ab Method and encoder system for determining gop length for encoding video
US10523940B2 (en) 2017-03-14 2019-12-31 Axis Ab Method and encoder system for determining GOP length for encoding video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Thao Nguyen Thi Huong et al, Artificial Intelligence Based Adaptive GOP Size Selection for Effective Wyner-Ziv Video Coding, 2018 International Conference on Advanced Technologies for Communications (ATC) (2018.10.18.) 1부.*

Also Published As

Publication number Publication date
KR20220095693A (ko) 2022-07-07

Similar Documents

Publication Publication Date Title
WO2021164176A1 (zh) 基于深度学习的端到端视频压缩方法、系统及存储介质
CN109615073A (zh) 一种神经网络模型的构建方法、设备以及存储介质
CN113574888A (zh) 利用神经网络的预测性编码
TWI744827B (zh) 用以壓縮類神經網路參數之方法與裝置
CN109688407B (zh) 编码单元的参考块选择方法、装置、电子设备及存储介质
TWI806199B (zh) 特徵圖資訊的指示方法,設備以及電腦程式
CN110062239B (zh) 一种用于视频编码的参考帧选择方法及装置
EP3818502A1 (en) A method, an apparatus and a computer program product for image compression
KR102456690B1 (ko) 강화학습에 기반한 gop 선택 방법 및 분석장치
KR20200109904A (ko) Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법
WO2022116207A1 (zh) 编码方法、解码方法和编码装置、解码装置
US6909746B2 (en) Fast robust data compression method and system
CN118077177A (zh) 用于压缩视频域中自适应推理的方法、设备和介质
KR102226693B1 (ko) 영상에 대한 고속 움직임 예측 방법 및 장치
JP2024511084A (ja) ニューラルネットワークを用いた画像及びビデオコーディングにおける潜時特徴の多分布エントロピーモデリング
CN110119779B (zh) 基于自编码器的跨网络数据任意维度融合方法和装置
CN112954350A (zh) 一种基于帧分类的视频后处理优化方法及装置
CN108012154B (zh) 一种视频编码方法及装置
CN111263163A (zh) 一种基于手机平台的深度视频压缩框架的实现方法
CN115527526B (zh) 端到端远场语音识别系统训练方法、装置、计算机设备
Kamal Iteration free fractal image compression for color images using vector quantization, genetic algorithm and simulated annealing
CN113556551B (zh) 一种编码、解码方法、装置及设备
CN116910372B (zh) 信息推送模型处理方法和装置、信息推送方法和装置
US20240022718A1 (en) Content aware dataset generation and model selection for learned image compression
Gulia Performance Analysis of Advancements in Video Compression with Deep Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant