KR100790900B1 - 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치 - Google Patents

영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치 Download PDF

Info

Publication number
KR100790900B1
KR100790900B1 KR1020060127955A KR20060127955A KR100790900B1 KR 100790900 B1 KR100790900 B1 KR 100790900B1 KR 1020060127955 A KR1020060127955 A KR 1020060127955A KR 20060127955 A KR20060127955 A KR 20060127955A KR 100790900 B1 KR100790900 B1 KR 100790900B1
Authority
KR
South Korea
Prior art keywords
value
image
input image
calculated
initial
Prior art date
Application number
KR1020060127955A
Other languages
English (en)
Inventor
조대성
리크사르 아틸라
라스즐로 크쥬니
크사자르 게르겔리
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060127955A priority Critical patent/KR100790900B1/ko
Application granted granted Critical
Publication of KR100790900B1 publication Critical patent/KR100790900B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 영상을 부호화하기 위한 초기 QP(Quantization Parameter) 값을 예측하는 장치 및 방법에 관한 것으로, 입력 영상의 적어도 하나의 특성 값을 산출하고, 이 특성 값에 기초하여 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP 값을 결정함으로써 입력 영상의 초기 QP 값을 보다 정확하게 예측할 수 있다.

Description

영상 부호화를 위한 초기 QP (Quantization Parameter) 값 예측 방법 및 장치{Method and apparatus for estimating first QP value to encode video}
도 1은 PAL 방식의 해상도 720 x 576의 테스트 영상을 도시한 도면이다.
도 2는 도 1에 도시된 테스트 영상에 대한 BR-QP 곡선을 도시한 도면이다.
도 3은 종래 기술을 영상 특성이 서로 다른 세 개의 GOP들로 구성된 테스트 영상에 적용함으로써 발생되는 효과들을 도시한 도면이다.
도 4는 본 발명의 바람직한 일 실시예에 따른 영상 부호화 장치의 구성도이다.
도 5는 본 실시예에 사용되는 신경망의 구조도이다.
도 6은 도 1에 도시된 테스트 영상에 대한 실제 BR-QP 곡선 및 모델 BR-QP 곡선을 도시한 도면이다.
도 7은 본 발명의 바람직한 일 실시예에 따른 신경망 학습 장치의 구성도이다.
도 8은 도 4에 도시된 초기 QP 값 예측부(44)의 상세 구성도이다.
도 9는 본 발명의 바람직한 일 실시예에 따른 영상 부호화 방법의 흐름도이다.
도 10은 본 발명의 바람직한 일 실시예에 따른 신경망 학습 방법의 흐름도이다.
도 11은 본 발명의 바람직한 일 실시예에 따른 초기 QP 값 예측 방법의 흐름도이다.
도 12는 본 발명에 따른 실시예를 적용함으로써 예측된 BR-QP 곡선을 도시한 도면이다.
도 13은 본 발명에 따른 실시예를 영상 특성이 서로 다른 세 개의 GOP들로 구성된 테스트 영상에 적용함으로써 발생되는 효과들을 도시한 도면이다.
도 14는 두 개의 테스트 영상들에 대해 종래 기술을 적용한 경우와 본 발명에 따른 실시예를 적용한 경우의 PSNR 값의 차이를 도시한 도면이다.
본 발명은 영상을 효율적으로 부호화하는 장치 및 방법에 관한 것으로, 특히 영상을 부호화하기 위한 초기 QP(Quantization Parameter) 값을 예측하는 장치 및 방법에 관한 것이다.
어떤 영상을 효율적으로 부호화하기 위한 여러 파라미터들 중 1) QP 값, 2) I 픽쳐(Intra coded picture), P 픽쳐(Predictive coded picture), B 픽쳐(Bidirectionally predictive coded picture) 사이의 QP 값의 비율, 및 3) 영상의 부호화 결과인 비트 스트림에 대한 목표 비트레이트(target bit rate) 값 등이 복원 영상의 화질에 큰 영향을 미친다.
종래의 압축 방식(Gary Sullivan, T. Wiegand, and K. P. Lim, "Joint Model Reference Encoding Methods and Decoding Concealment Methods; Section 2.6: Rate Control" JVT-I049, San Diego, September 2003)은 첫 번째 GOP(Group of Pictures)의 첫 번째 픽쳐(일반적으로 I 픽쳐)의 QP 값(이하 "초기 QP 값"이라 함)을 사용 가능한 채널 대역폭을 고려하여 다음과 같이 구하였다.
Figure 112006092726916-pat00001
Figure 112006092726916-pat00002
여기에서, BR은 목표 비트레이트(bit/sec), f는 프레임 레이트(frame/sec), bpp는 픽셀 당 비트 수(bit/pixel), Npixel은 하나의 픽쳐에서의 픽셀 수(pixel/picture)를 의미한다. 일반적으로, QCIF(Quarter CIF)/CIF(Common Intermediate Format)의 해상도를 갖는 영상에 대해서는 l1 = 0.15, l2 = 0.45, l3 = 0.9를 사용하고, CIF 보다 높은 해상도를 갖는 영상에 대해서 l1 = 0.6, l2 = 1.4, l3 = 2.4를 사용한다.
도 1은 PAL(Phase Alternation by Line) 방식의 해상도 720 x 576의 테스트 영상을 도시한 도면이다.
도 1을 참조하면, GOP 2 - 10은 GOP 각각을 구성하는 픽쳐들간의 차이의 정도가 서로 다름을 알 수 있다. 예를 들어, GOP 2와 같이 움직임이 작은 영상인 경우, 그 픽쳐들간의 차이가 작다. 그러나, GOP 5와 같이 움직임 큰 영상인 경우, 그 픽쳐들간의 차이가 크다.
도 2는 도 1에 도시된 테스트 영상에 대한 BR-QP 곡선을 도시한 도면이다. BR-QP 곡선은 어떤 영상의 부호화 과정에 적용된 초기 양자화 QP 값과 이 초기 양자화 QP 값에 따른 영상의 부호화 결과인 비트 스트림의 비트레이트의 상관 관계를 나타낸다.
도 2를 참조하면, 도 1에 도시된 테스트 영상, 즉 GOP 2 - 10 각각에 대해 실제 실험을 통하여 측정된 BR-QP 곡선(이하 "실제 BR-QP 곡선"이라 함)과 수학식 1에 따른 BR-QP 곡선은 많은 차이가 남을 알 수 있다. 즉, 수학식 1을 이용한 초기 QP 값 예측은 그 정확도가 많이 떨어진다는 문제점이 있었다.
도 3은 종래 기술을 영상 특성이 서로 다른 세 개의 GOP들로 구성된 테스트 영상에 적용함으로써 발생되는 효과들을 도시한 도면이다. 도 3에서 테스트 영상 1은 GOP 2(움직임이 작은 영상) + GOP 5(움직임이 큰 영상) + GOP 3(움직임이 작은 영상)으로 구성되고, 테스트 영상 2는 GOP 5(움직임이 큰 영상) + GOP 2(움직임이 작은 영상) + GOP 6(움직임이 큰 영상)으로 구성된다. 또한, 테스트 영상들 각각은 각 GOP의 첫 번째 픽쳐를 I 픽쳐로, 다른 모든 픽쳐들을 P 픽쳐로 부호화되었고, 프레임레이트 30, 목표 비트레이트를 각각 4 Mbps, 8 Mbps로 설정하여 부호화되었 다.
도 3을 참조하면, 참조 번호 31에 해당하는 그래프는 테스트 영상을 구성하는 픽쳐들 각각의 비트레이트의 변화를 나타낸다. 참조 번호 32에 해당하는 그래프는 테스트 영상을 구성하는 픽쳐들 각각의 QP 값의 변화를 나타낸다. 참조 번호 33에 해당하는 그래프는 테스트 영상을 구성하는 픽쳐들 각각의 PSNR(Peak Signal to Noise Ratio) 값의 변화를 나타낸다.
특히, 도 3에 도시된 그래프들은 각 테스트 영상의 첫 번째 GOP의 초기 QP 값은 수학식 1에 의하여 결정된 값을 사용하고, 두 번째 GOP과 세 번째 GOP의 초기 QP 값은 첫 번째 GOP의 초기 QP 값으로부터 각각 최대 2 만큼 차이나는 값을 사용한 결과이다. 이와 같이, 종래에는 영상의 급격한 화질 변화를 방지하기 위하여 초기 QP 값의 변화에 제한을 두었으며, 일반적으로 상기된 2가 최대로 변화 가능한 양이었다.
그런데, 영상 특성이 서로 다른 GOP들은 도 2에 도시된 BR-QP 곡선으로부터 알 수 있듯이 그 각각의 최적 QP 값들은 상기된 2만큼 차이가 나는 것이 아니라 훨씬 더 큰 차이가 난다. 종래에는 이러한 것을 고려하지 않고, 모든 GOP들에 대해서 초기 QP 값을 서서히 변화시켰기 때문에 영상 특성이 서로 다른 GOP들이 연결되는 부분에서는 비트레이트, QP의 값, PSNR 값의 급격한 변화가 발생하게 된다는 것을 도 3에 도시된 그래프들로부터 알 수 있다. 특히, 이와 같은 급격한 변화는 10 내지 15 프레임들에 걸쳐 발생하기 때문에 뮤직 비디오 컨텐츠, CF(Commercial Film) 컨텐츠 등과 같이 여러 개의 짧은 GOP들이 연결된 영상에 상기된 종래 기술을 적용 할 경우에 복원 영상의 품질이 떨어진다는 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP 값을 보다 정확히 예측할 수 있게 하는 장치 및 방법을 제공하는데 있다. 또한, 상기된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.
본 발명이 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. 이것은 본 발명이 속하는 기술 분야에서 통상을 지식을 가진 자들이라면 아래의 기재로부터 명확하게 이해될 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 초기 QP 값 예측 방법은 입력 영상의 적어도 하나의 특성 값을 산출하는 단계; 및 상기 산출된 특성 값에 기초하여 목표 비트레이트에 도달하기 위한 상기 입력 영상의 초기 QP 값을 결정하는 단계를 포함한다.
상기 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 초기 QP 값 예측 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 초기 QP 값 예측 장치는 입력 영상의 적어도 하나의 특성 값을 산출하는 산출부; 및 상기 산출된 특 성 값에 기초하여 목표 비트레이트에 도달하기 위한 상기 입력 영상의 초기 QP 값을 결정하는 결정부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 영상 부호화 방법은 입력 영상의 예측 영상을 생성하는 단계; 상기 입력 영상으로부터 상기 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성하는 단계; 상기 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환하는 단계; 상기 입력 영상의 적어도 하나의 특성 값에 기초하여 목표 비트레이트에 대응하는 상기 입력 영상의 초기 QP 값을 예측하는 단계; 상기 예측된 초기 QP 값을 이용하여 상기 변환된 결과를 양자화하는 단계; 및 상기 양자화된 결과를 엔트로피 부호화하는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 영상 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 영상 부호화 장치는 입력 영상의 예측 영상을 생성하는 제 1 예측부; 상기 입력 영상으로부터 상기 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성하는 감산기; 상기 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환하는 변환부; 상기 입력 영상의 적어도 하나의 특성 값에 기초하여 목표 비트레이트에 대응하는 상기 입력 영상의 초기 QP 값을 예측하는 제 2 예측부; 상기 예측된 초기 QP 값을 이용하여 상기 변환된 결과를 양자화하는 양자화부; 및 상기 양자화된 결과를 엔트로피 부호화하는 엔트로피 부호화부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 신경망 학습 방법은 훈련 영상의 적어도 하나의 특성 값을 산출하는 단계; 상기 훈련 영상의 BR-QP 곡선을 모델링하기 위한 값을 결정하는 단계; 및 상기 산출된 적어도 하나의 특성 값을 신경망의 입력층에 입력하고, 상기 결정된 값이 상기 신경망의 출력층으로부터 출력되도록 상기 신경망을 학습시키는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 신경망 학습 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 신경망 학습 장치는 훈련 영상의 적어도 하나의 특성 값을 산출하는 산출부; 상기 훈련 영상의 BR-QP 곡선을 모델링하기 위한 값을 결정하는 결정부; 및 상기 산출된 적어도 하나의 특성 값을 신경망의 입력층에 입력하고, 상기 결정된 값이 상기 신경망의 출력층으로부터 출력되도록 상기 신경망을 학습시키는 학습부를 포함한다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 4는 본 발명의 바람직한 일 실시예에 따른 영상 부호화 장치의 구성도이다.
도 4를 참조하면, 본 실시예에 따른 영상 부호화 장치는 시공간 예측부(41), 감산기(42), 변환부(43), 초기 QP 값 예측부(44), 비트레이트 제어부(45), 양자화부(46), 엔트로피 부호화부(47), 역양자화부(48), 역변환부(49), 가산기(410) 및 복원 영상 저장부(411)로 구성된다.
시공간 예측부(41)는 복원 영상 저장부(411)에 저장된 복원 영상에 기초하여 입력 영상의 시공간적 예측 영상을 생성한다. 본 실시예에서 입력 영상은 연속적인 픽쳐(picture)들의 집합이다. 다만, 픽쳐는 "프레임(frame)"으로도 호칭될 수 있음을 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 수 있다. 보다 상세하게 설명하면, 시공간 예측부(41)는 입력 영상의 어느 하나의 픽처 내부의 공간적 상관 관계를 이용하여 복원 영상 저장부(411)에 저장된 복원 영상으로부터 현재 픽쳐의 예측 픽쳐를 생성한다. 또한, 시공간 예측부(41)는 현재 픽쳐와 현재 픽쳐의 이전 픽처 및/또는 이후 픽처와의 시간적 상관 관계를 이용하여 복원 영상 저장부(411)에 저장된 복원 영상으로부터 현재 픽쳐의 예측 픽쳐를 생성한다. 일반적으로, 전자의 부호화 방식을 인트라 부호화(intra coding)라 하고, 후자의 부호화 방식을 인터 부호화(inter coding)라 한다.
특히, 본 실시예에서는 입력 영상에 해당하는 연속적인 픽쳐들의 집합들 중 영상의 시공간적 특성이 유사한 픽쳐들의 집합을 샷(shot)이라고 부르기로 한다. 이와 같은 샷의 대표적인 예로는 MPEG(Moving Picture Experts Group) 규격의 GOP(Group Of Pictures)를 들 수 있다. GOP는 적어도 하나의 I 픽쳐를 포함하는 픽쳐들의 집합으로서, I 픽쳐 이외에 P 픽쳐, B 픽쳐 등을 포함할 수 있다. I 픽쳐는 입력 영상의 어느 하나의 픽처 내부의 공간적 상관 관계를 이용한 예측 픽쳐이고, P 픽쳐는 현재 픽쳐와 현재 픽쳐의 이전 픽처와의 시간적 상관 관계를 이용한 예측 픽쳐이고, B 픽쳐는 현재 픽쳐와 현재 픽쳐의 이전 픽처 및 이후 픽쳐와의 시간적 상관 관계를 이용한 예측 픽쳐이다.
감산기(42)는 입력 영상으로부터 시공간 예측부(41)에 의해 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성한다.
변환부(43)는 감산기(42)에 의해 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환한다. 일반적으로, 색 공간으로부터 주파수 공간으로 변환하는 방식으로는 DHT(Discrete Hadamard Transformation), DCT(Discrete Cosine Transformation) 등이 있다.
초기 QP 값 예측부(44)는 입력 영상의 시공간적 특성들을 나타내는 특성 값들에 기초하여 비트레이트 제어부(45)로부터 입력된 목표 비트레이트에 대응하는 입력 영상의 초기 QP 값을 예측한다. 본 실시예에서 목표 비트레이트는 엔트로피 부호화부(47)에 의해 엔트로피 부호화된 결과인 비트스트림의 목표 비트레이트이다.
비트레이트 제어부(45)는 초기 QP 값 예측부(44)에 입력 영상의 부호화 결과인 비트 스트림에 대한 목표 비트레이트를 입력하고, 이 입력에 대한 응답으로서 초기 QP 값 예측부(44)에 의해 예측된 입력 영상의 초기 QP 값을 획득한다. 또한, 비트레이트 제어부(45)는 엔트로피 부호화부(47)에 의해 엔트로피 부호화된 결과를 피드백 받고, 이것의 비트레이트에 따라 초기 QP 값 이후의 QP 값들을 조정한다. 입력 영상의 부호화 결과인 비트 스트림에 대한 목표 비트레이트는 사용자에 의해 수동적으로 설정될 수도 있고, 가용한 채널 대역폭 및 영상 부호화/복호화 시스템의 사양 등에 따라 자동적으로 설정될 수도 있다.
양자화부(46)는 비트레이트 제어부(45)에 의해 획득된 초기 QP 값을 이용하여 주파수 공간 변환부(43)에 의해 변환된 결과를 양자화한다. 보다 상세하게 설명하면, 양자화부(46)는 주파수 공간 변환부(43)에 의해 변환된 주파수 성분 값들을 비트레이트 제어부(45)에 의해 획득된 초기 QP 값 또는 조정된 QP 값으로 나누고, 그 결과를 정수 값들로 근사화한다.
엔트로피 부호화부(47)는 양자화부(110)에 의해 양자화된 결과를 엔트로피 부호화함으로서 비트 스트림을 생성하고, 이것을 출력한다. 일반적으로, 엔트로피 부호화 방식으로는 CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context -Adaptive Binary Arithmetic Coding) 등이 있다.
역양자화부(48)는 양자화부(46)에 의해 양자화된 값들을 역양자화한다. 즉, 역양자화부(48)는 양자화부(46)에 의해 근사화된 정수 값들에 양자화부(46)에 의해 사용된 QP 값을 곱함으로서 주파수 성분 값들을 복원한다.
역변환부(49)는 역양자화부(48)의 역양자화에 의해 복원된 주파수 성분 값들을 주파수 공간으로부터 색 공간으로 역변환한다.
가산기(410)는 시공간 예측부(41)에 의해 생성된 예측 영상에 역변환부(49)의 역변환에 의해 복원된 레지듀 영상을 가산함으로써 복원 영상을 생성한다.
복원 영상 저장부(411)는 가산기(410)에 의해 생성된 복원 영상을 저장한다.
특히, 초기 QP 값 예측부(44)는 신경망(neural network)을 사용하여 초기 QP 값을 예측한다. 이하에서는 초기 QP 값 예측부(44)가 어떻게 신경망을 사용하여 초기 QP 값을 예측하는 지에 관하여 상세히 설명하기로 한다.
도 5는 본 실시예에 사용되는 신경망의 구조도이다.
도 5를 참조하면, 본 실시예에 사용되는 신경망은 입력층(input layer)과 출력층(output layer) 사이에 하나 이상의 중간층(은닉층, hidden layer)이 존재하는 층 구조를 가지고 있다. 신경망에 대한 학습은 신경망의 입력층에 입력 값을 준 상태에서 신경망의 출력층으로부터 원하는 출력 값이 나오도록 신경망의 뉴런(neuron)들 사이에 존재하는 가중치(weight)를 조절하는 교사 학습(supervised learning)에 의하여 이루어진다. 다시 말하면, 어떤 입력 값과 이것에 대응되는 출력 값을 실험 등을 통하여 정확히 측정하고, 이와 같이 측정된 여러 개의 완전 세트를 학습 패턴(training pattern)으로 신경망에 인가하여, 그 입력 값에 대하여 실제 신경망의 출력과 원하는 출력과의 차이를 목적 함수로 정의한 후, 이를 최소로 하는 가중치를 구하게 된다. 여기에서, 이 목적함수는 입력 값, 원하는 출력 값 및 가중치에 대한 함수로 표시된다. 일반적으로, 목적 함수는 평균 제곱 오차를 사용하거나, 교차 엔트로피(cross entropy) 오차를 사용한다.
y = g(WL * hL-1), for output layer
hi = g(Wi * Wi-1), for the i-th hidden layer
h1 = g(W1 * x), for the 1st hidden layer
즉, 은닉층의 출력은 수학식 2와 수학식 3에 의하여 결정되며, 출력층의 출력은 수학식 1에 의하여 결정된다. 여기에서, g 함수는 스칼라 활성화 함수(scalar activation function)로서, 주로 시그모이드(sigmoid) 함수가 자주 이용된다. 신경망에 대해서는 "Neural Computing An Introduction" (R.Beale and T.Jackson 저, Adam Hilger, New York, 1991 발간) 등 다수의 책 등에서 보다 자세히 설명되어 있다.
그런데, 초기 QP 값 예측에 신경망을 사용하기 위해서는 신경망의 입력층의 입력 값과 출력층의 출력 값을 어떤 종류의 값으로 해야 할 것인가를 결정해야 한다. 본 실시예에서는 도 2에 도시된 BR-QP 곡선은 다음과 같은 수학식 6의 대수(logarithmic) 함수로 모델링하고, 영상의 시공간적 특성 값들을 입력 값으로 하고, 수학식 6의 함수로 모델링된 BR-QP 곡선(이하 "모델 BR-QP 곡선"이라 함)을 결정하는 인수들을 출력 값으로 한다.
QP = a * ln(BR) + b
여기에서, BR은 목표 비트레이트이다.
도 6은 도 1에 도시된 테스트 영상에 대한 실제 BR-QP 곡선 및 모델 BR-QP 곡선을 도시한 도면이다.
도 6을 참조하면, 모델 BR-QP 곡선은 실제 BR-QP 곡선에 거의 근사함을 알 수 있다. 특히, 수학식 6에서의 a 값과 b 값이 결정되면 모델 BR-QP 곡선이 결정된다. 또한, 이와 같이 모델 BR-QP 곡선이 결정되면, 어떤 BR의 값에 도달하기 위한 QP 값이 얼마인지를 예측할 수 있게 된다.
도 7은 본 발명의 바람직한 일 실시예에 따른 신경망 학습 장치의 구성도이다.
도 7을 참조하면, 본 실시예에 따른 신경망 학습 장치는 특성 값 산출부(71), 영상 분할부(72), BR-QP 모델러(73), BR-QP 모델 값 결정부(74), 신경망 학습부(75) 및 신경망 데이터베이스(76)로 구성된다. 일반적으로, 신경망을 사용하는 제품은 학습이 완료된 신경망을 사용하기 때문에 도 7에 도시된 신경망 학습 장치는 제품의 생산 단계에서 적용될 것이다.
특성 값 산출부(71)는 훈련 영상의 4 가지 종류의 시공간적 특성 값들을 산출한다. 즉, 특성 값 산출부(71)는 훈련 영상의 첫 번째 시공간적 특성 값으로서 훈련 영상을 구성하는 적어도 하나의 픽쳐 각각의 블록 단위로 움직임 벡터를 산출하고, 이와 같이 산출된 움직임 벡터들의 평균 값을 산출한다. 특히, 블록들 각각의 움직임 벡터의 평균 값을 계산하는 과정의 복잡도를 줄이기 위하여, 특성 값 산출부(71)는 훈련 영상의 해상도를 낮추고, 이와 같이 낮추어진 해상도를 갖는 훈련 영상을 구성하는 블록들 각각의 움직임 벡터의 평균 값을 산출한다. 예를 들어, 훈련 영상의 해상도가 CIF(Common Intermediate Format)인 경우, 특성 값 산출부(71)는 훈련 영상의 해상도 CIF를 QCIF(Quarter CIF)로 낮추고, 해상도 QCIF를 갖는 훈련 영상을 구성하는 적어도 하나의 픽쳐에 대해 각 픽쳐의 블록 단위로 움직임 벡터를 산출하고, 이와 같이 산출된 움직임 벡터들의 평균 값을 산출한다.
또한, 특성 값 산출부(71)는 훈련 영상의 두 번째 시공간적 특성 값으로서 훈련 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 x 축 상의 색 변화도(gradient)의 절대값과 y 축 상의 색 변화도의 절대값을 산출하고, 이와 같이 산출된 절대값들의 총합을 산출한다. 여기에서, x 축 상의 색 변화도란 x 축 상의 좌표 값의 변화량 대 그에 따른 색 값의 변화량의 비를 의미한다. y 축 상의 색 변화도도 마찬가지이다.
또한, 특성 값 산출부(71)는 훈련 영상의 세 번째 시공간적 특성 값으로서 훈련 영상을 구성하는 복수 개의 픽쳐들에 대해 각 픽쳐와 이 각 픽쳐의 인접 픽쳐, 예를 들면 각 픽쳐의 이전 픽쳐 또는 이후 픽쳐간의 차이값의 절대값을 산출하고, 이와 같이 산출된 절대값들의 평균 값을 산출한다. 이 특성 값은 다른 특성 값과는 달리 훈련 영상이 복수 개의 픽쳐들로 구성된 경우에만 산출될 수 있다.
또한, 특성 값 산출부(71)는 훈련 영상의 네 번째 시공간적 특성 값으로서 훈련 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 블록 단위로 현재 처리할 블록(이하 "현재 블록"이라 함)의 인접 블록들, 예를 들면 현재 블록의 좌 위치의 블록, 현재 블록의 우 위치의 블록, 현재 블록의 좌상 위치의 블록 각각의 움직임 벡터를 산출하고, 이와 같이 산출된 움직임 벡터들 중 중간 값(median)에 해당하는 움직임 벡터와 블록들 각각의 움직임 벡터의 오차 값의 평균 값을 산출한다.
특히, 특성 값 산출부(71)는 이상에서 기술된 4 종류의 특성 값들을 영상 분할부(72)에 의해 분할된 샷 단위, 예를 들면 GOP 단위로 산출한다. 따라서, 이와 같은 특성 값 산출에 사용된 평균 값은 샷 단위, 예를 들면 GOP 단위의 평균 값을 의미하게 된다. 물론, 특성 값들은 픽쳐 단위로 산출될 수도 있으나, 셋 번째 특성 값은 픽쳐 단위로 산출될 수 없다. 이상에서 기술된 4 종류의 특성 값들 중 일부만이 사용될 수도 있으며, 이 4 종류의 특성 값들 이외에 다른 값들도 추가적으로 사용될 수 있음을 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
영상 분할부(72)는 특성 값 산출부(71)에 의해 산출된 각 픽쳐의 특성 값에 기초하여 훈련 영상을 영상의 시공간적 특성이 유사한 샷 단위, 예를 들면 GOP 단위로 분할한다. 보다 상세하게 설명하면, 영상 분할부(72)는 특성 값 산출부(71)에 의해 산출된 블록들 각각의 움직임 벡터의 평균 값, 특성 값 산출부(71)에 의해 산출된 x 축 상의 색 변화도의 절대값과 y 축 상의 색 변화도의 절대값의 총합, 특성 값 산출부(71)에 의해 산출된 각 픽쳐와 이 각 픽쳐의 인접 픽쳐의 차이값의 절대값, 및 특성 값 산출부(71)에 의해 산출된 현재 블록의 인접 블록들 각각의 움직임 벡터 중 중간 값에 해당하는 움직임 벡터와 블록들 각각의 움직임 벡터의 오차 값의 평균 값이 갑자기 크게 변동되면, 이와 같은 변동 이전의 픽쳐들과 이후의 픽쳐들을 별도의 샷으로 구분지음으로써 훈련 영상을 분할한다.
BR-QP 모델러(73)는 훈련 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링한다. 보다 상세하게 설명하면, BR-QP 모델러(74)는 수학식 6의 대수 함수의 인수 a 값 및 b 값을 조정함으로써 훈련 영상의 실제 BR-QP 곡선과 가장 근사한 대수 함수를 결정한다.
BR-QP 모델 값 결정부(74)는 훈련 영상의 실제 BR-QP 곡선을 수학식 6의 대 수 함수로 모델링하기 위한 값, 즉 수학식 6의 대수 함수에서의 인수 a 값 및 b 값을 결정한다. 보다 상세히 설명하면, BR-QP 모델 값 결정부(73)는 BR-QP 모델러(74)에 의한 모델링 결과에 해당하는 모델 BR-QP 곡선을 특정하는 인수 a 값 및 b 값을 훈련 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링하기 위한 값으로 결정한다.
신경망 학습부(75)는 특성 값 산출부(71)에 의해 산출된 4 종류의 특성 값들을 신경망 데이터베이스(76)에 저장된 신경망의 입력층에 입력하고, BR-QP 모델 값 결정부(73)에 의해 결정된 인수 a 값 및 b 값이 신경망의 출력층으로부터 출력되도록 신경망의 뉴런들 사이에 존재하는 가중치를 조절함으로써 신경망을 학습시킨다.
도 8은 도 4에 도시된 초기 QP 값 예측부(44)의 상세 구성도이다.
도 8을 참조하면, 도 4에 도시된 초기 QP 값 예측부(44)는 특성 값 산출부(81), 영상 분할부(82), BR-QP 모델 값 획득부(83), 신경망 데이터베이스(84), BR-QP 모델러(85), 및 초기 QP 값 결정부(86)로 구성된다.
특성 값 산출부(81)는 입력 영상의 4 가지 종류의 시공간적 특성 값들을 산출한다. 즉, 특성 값 산출부(81)는 입력 영상의 첫 번째 시공간적 특성 값으로서 입력 영상을 구성하는 적어도 하나의 픽쳐 각각의 블록 단위로 움직임 벡터를 산출하고, 이와 같이 산출된 움직임 벡터들의 평균 값을 산출한다. 특히, 블록들 각각의 움직임 벡터의 평균 값을 계산하는 과정의 복잡도를 줄이기 위하여, 특성 값 산출부(81)는 입력 영상의 해상도를 낮추고, 이와 같이 낮추어진 해상도를 갖는 입력 영상을 구성하는 블록들 각각의 움직임 벡터의 평균 값을 산출한다.
또한, 특성 값 산출부(81)는 입력 영상의 두 번째 시공간적 특성 값으로서 입력 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 x 축 상의 색 변화도의 절대값과 y 축 상의 색 변화도의 절대값을 산출하고, 이와 같이 산출된 절대값들의 총합을 산출한다.
또한, 특성 값 산출부(81)는 입력 영상의 세 번째 시공간적 특성 값으로서 입력 영상을 구성하는 복수 개의 픽쳐들에 대해 각 픽쳐와 이 각 픽쳐의 인접 픽쳐, 예를 들면 각 픽쳐의 이전 픽쳐 또는 이후 픽쳐간의 차이값의 절대값을 산출하고, 이와 같이 산출된 절대값들의 평균 값을 산출한다. 이 특성 값은 다른 특성 값과는 달리 입력 영상이 복수 개의 픽쳐들로 구성된 경우에만 산출될 수 있다.
또한, 특성 값 산출부(81)는 입력 영상의 네 번째 시공간적 특성 값으로서 입력 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 블록 단위로 현재 블록의 인접 블록들, 예를 들면 현재 블록의 좌 위치의 블록, 현재 블록의 우 위치의 블록, 현재 블록의 좌상 위치의 블록 각각의 움직임 벡터를 산출하고, 이와 같이 산출된 움직임 벡터들 중 중간 값에 해당하는 움직임 벡터와 블록들 각각의 움직임 벡터의 오차 값의 평균 값을 산출한다.
특히, 특성 값 산출부(81)는 이상에서 기술된 4 종류의 특성 값들을 영상 분할부(82)에 의해 분할된 샷 단위, 예를 들면 GOP 단위로 산출한다. 따라서, 이와 같은 특성 값 산출에 사용된 평균 값은 샷 단위, 예를 들면 GOP 단위의 평균 값을 의미하게 된다. 물론, 특성 값들은 픽쳐 단위로 산출될 수도 있으나, 셋 번째 특성 값은 픽쳐 단위로 산출될 수 없다.
영상 분할부(82)는 특성 값 산출부(81)에 의해 산출된 각 픽쳐의 특성 값에 기초하여 입력 영상을 영상의 시공간적 특성이 유사한 샷 단위, 예를 들면 GOP 단위로 분할한다. 보다 상세하게 설명하면, 영상 분할부(82)는 특성 값 산출부(81)에 의해 산출된 블록들 각각의 움직임 벡터의 평균 값, 특성 값 산출부(81)에 의해 산출된 x 축 상의 색 변화도의 절대값과 y 축 상의 색 변화도의 절대값의 총합, 특성 값 산출부(81)에 의해 산출된 각 픽쳐와 이 각 픽쳐의 인접 픽쳐의 차이값의 절대값, 및 특성 값 산출부(81)에 의해 산출된 현재 블록의 인접 블록들 각각의 움직임 벡터 중 중간 값에 해당하는 움직임 벡터와 블록들 각각의 움직임 벡터의 오차 값의 평균 값이 갑자기 크게 변동되면, 이와 같은 변동 이전의 픽쳐들과 이후의 픽쳐들을 별도의 샷으로 구분지음으로써 입력 영상을 분할한다.
BR-QP 모델 값 획득부(83)는 특성 값 산출부(81)에 의해 산출된 4 종류의 특성 값들에 기초하여 입력 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링하기 위한 값, 즉 수학식 6의 대수 함수에서의 인수 a 값 및 b 값을 획득한다. 보다 상세히 설명하면, BR-QP 모델 값 획득부(83)는 특성 값 산출부(81)에 의해 산출된 4 종류의 특성 값들을 신경망 데이터베이스(84)에 저장된 신경망의 입력층에 입력함으로써 이 신경망의 출력층으로부터 인수 a 값 및 b 값을 획득한다. 신경망 데이터베이스(84)에 저장된 신경망은 도 7에 도시된 신경망 학습 장치에 의해 학습이 완료된 신경망이다.
BR-QP 모델러(85)는 BR-QP 모델 값 획득부(83)에 의해 획득된 인수 a 값 및 b 값을 이용하여 입력 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링한 다. 보다 상세하게 설명하면, BR-QP 모델러(85)는 BR-QP 모델 값 획득부(83)에 의해 획득된 인수 a 값 및 b 값을 수학식 6의 대수 함수에 대입함으로써 입력 영상의 실제 BR-QP 곡선과 가장 근사한 대수 함수를 결정한다.
초기 QP 값 결정부(86)는 BR-QP 모델러(85)에 의한 모델링 결과에 해당하는 모델 BR-QP 곡선에 목표 비트레이트를 적용함으로써 이 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP의 값을 결정한다. 보다 상세하게 설명하면, 초기 QP 값 획득부()는 BR-QP 모델러(85)에 의한 모델링 결과에 해당하는 모델 BR-QP 곡선, 즉 BR-QP 모델 값 획득부(83)에 의해 획득된 인수 a 값 및 b 값에 특정된 수학식 6의 대수 함수에 목표 비트레이트를 대입함으로써 이 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP의 값을 결정한다.
도 9는 본 발명의 바람직한 일 실시예에 따른 영상 부호화 방법의 흐름도이다.
도 9를 참조하면, 본 실시예에 따른 영상 부호화 방법은 도 4에 도시된 영상 부호화 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 4에 도시된 영상 부호화 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 영상 부호화 방법에도 적용된다.
91 단계에서 영상 부호화 장치는 복원 영상에 기초하여 입력 영상의 시공간적 예측 영상을 생성한다.
92 단계에서 영상 부호화 장치는 입력 영상으로부터 91 단계에서 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성한다.
93 단계에서 영상 부호화 장치는 92 단계에서 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환한다.
94 단계에서 영상 부호화 장치는 입력 영상의 시공간적 특성들을 나타내는 특성 값들에 기초하여 목표 비트레이트에 대응하는 입력 영상의 초기 QP 값을 예측한다.
95 단계에서 영상 부호화 장치는 94 단계에서 예측된 초기 QP 값을 이용하여 93 단계에서 변환된 결과를 양자화한다.
96 단계에서 영상 부호화 장치는 95 단계에서 양자화된 결과를 엔트로피 부호화함으로서 비트 스트림을 생성한다.
97 단계에서 영상 부호화 장치는 95 단계에서 양자화된 값들을 역양자화한다.
98 단계에서 영상 부호화 장치는 97 단계에서의 역양자화에 의해 복원된 주파수 성분 값들을 주파수 공간으로부터 색 공간으로 역변환한다.
99 단계에서 영상 부호화 장치는 91 단계에서 생성된 예측 영상에 98 단계에서의 역변환에 의해 복원된 레지듀 영상을 가산함으로써 복원 영상을 생성한다.
910 단계에서 영상 부호화 장치는 99 단계에서 생성된 복원 영상을 저장한다.
911 단계에서 영상 부호화 장치는 입력 영상을 구성하는 모든 샷들에 대한 부호화가 완료되었지를 확인하고, 그 결과 완료되었으면 종료하고, 완료되지 않았으면 91 단계로 돌아간다. 다만, 97 단계 이후에 과정에서는 96 단계에서 생성된 비트 스트림의 비트레이트에 따라 QP 값을 조정하고, 이와 같이 조정된 QP 값을 이용하여 주파수 공간 변환된 결과를 양자화하게 된다.
도 10은 본 발명의 바람직한 일 실시예에 따른 신경망 학습 방법의 흐름도이다.
도 10을 참조하면, 본 실시예에 따른 신경망 학습 방법은 도 7에 도시된 신경망 학습 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 7에 도시된 신경망 학습 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 신경망 학습 방법에도 적용된다.
101 단계에서 신경망 학습 장치는 훈련 영상의 샷 단위 또는 픽쳐 단위로 훈련 영상의 시공간적 특성 값들을 산출한다.
102 단계에서 신경망 학습 장치는 102 단계에서 산출된 각 픽쳐의 특성 값에 기초하여 훈련 영상을 영상의 시공간적 특성이 유사한 샷 단위로 분할한다.
103 단계에서 신경망 학습 장치는 훈련 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링한다.
104 단계에서 신경망 학습 장치는 103 단계에서의 모델링 결과에 해당하는 모델 BR-QP 곡선을 특정하는 인수 a 값 및 b 값을 훈련 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링하기 위한 값으로 결정한다.
105 단계에서 신경망 학습 장치는 101 단계에서 산출된 특성 값들을 신경망 데이터베이스(76)에 저장된 신경망의 입력층에 입력하고, 104 단계에서 결정된 인수 a 값 및 b 값이 신경망의 출력층으로부터 출력되도록 신경망의 뉴런들 사이에 존재하는 가중치를 조절함으로써 신경망을 학습시킨다.
105 단계에서 신경망 학습 장치는 훈련 영상을 구성하는 모든 샷들에 대한 신경망 학습이 완료되었지를 확인하고, 그 결과 완료되었으면 종료하고, 완료되지 않았으면 101 단계로 돌아간다.
도 11은 본 발명의 바람직한 일 실시예에 따른 초기 QP 값 예측 방법의 흐름도이다.
도 11을 참조하면, 본 실시예에 따른 초기 QP 값 예측 방법은 도 7에 도시된 신경망 학습 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 8에 도시된 초기 QP 값 예측부(44)에 관하여 이상에서 기술된 내용은 본 실시예에 따른 초기 QP 값 예측 방법에도 적용된다.
111 단계에서 초기 QP 값 예측부(44)는 입력 영상의 시공간적 특성 값들을 산출한다.
112 단계에서 초기 QP 값 예측부(44)는 111 단계에서 산출된 각 픽쳐의 특성 값에 기초하여 입력 영상을 영상의 시공간적 특성이 유사한 샷 단위로 분할한다.
113 단계에서 초기 QP 값 예측부(44)는 111 단계에서 산출된 4 종류의 특성 값들에 기초하여 입력 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링하기 위한 값, 즉 수학식 6의 대수 함수에서의 인수 a 값 및 b 값을 획득한다.
114 단계에서 초기 QP 값 예측부(44)는 113 단계에서 획득된 인수 a 값 및 b 값을 이용하여 입력 영상의 실제 BR-QP 곡선을 수학식 6의 대수 함수로 모델링한다.
115 단계에서 초기 QP 값 예측부(44)는 114 단계에서의 모델링 결과에 해당하는 모델 BR-QP 곡선에 목표 비트레이트를 적용함으로써 이 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP의 값을 결정한다.
116 단계에서 초기 QP 값 예측부(44)는 입력 영상을 구성하는 모든 샷들에 대한 초기 QP 값 결정이 완료되었지를 확인하고, 그 결과 완료되었으면 종료하고, 완료되지 않았으면 111 단계로 돌아간다.
도 12는 본 발명에 따른 실시예를 적용함으로써 예측된 BR-QP 곡선을 도시한 도면이다.
도 12를 참조하면, 입력 영상의 실제 BR-QP 곡선과 이상에서 설명된 실시예에 따른 초기 QP 값을 이용하여 예측된 BR-QP 곡선은 거의 일치한다는 것을 알 수 있다.
도 13은 본 발명에 따른 실시예를 영상 특성이 서로 다른 세 개의 GOP들로 구성된 테스트 영상에 적용함으로써 발생되는 효과들을 도시한 도면이다. 도 13에 도시된 테스트 영상은 도 3에 도시된 테스트 영상과 동일하다.
도 13에 도시된 그래프 131과 도 3에 도시된 그래프 31을 비교해보면, 본 실시예를 테스트 영상에 적용함으로써 종래보다 테스트 영상을 구성하는 픽쳐들 각각의 비트레이트의 변화가 현저하게 줄어들었다는 것을 알 수 있다. 도 13에 도시된 그래프 132와 도 3에 도시된 그래프 32를 비교해보면, 본 실시예를 테스트 영상에 적용함으로써 종래보다 테스트 영상을 구성하는 픽쳐들 각각의 QP 값의 변화가 현저하게 줄어들었다는 것을 알 수 있다. 도 13에 도시된 그래프 133과 도 3에 도시 된 그래프 33을 비교해보면, 본 실시예를 테스트 영상에 적용함으로써 종래보다 테스트 영상을 구성하는 픽쳐들 각각의 PSNR 값의 변화가 현저하게 줄어들었다는 것을 알 수 있다. 이것은 본 실시예를 테스트 영상에 적용함으로써 보다 정확하게 초기 QP 값을 예측할 수 있게 된 결과이다. 특히, 그래프 131을 참조하면, I 픽쳐에 P 픽쳐, B 픽쳐에 비해 보다 많은 비트레이트가 할당되었음을 알 수 있다. 이것은 인트라 부호화 및 인터 부호화 각각에 대한 비트레이트 할당이 적절하게 이루어졌음을 나타내며, 이에 따라 복원 영상의 품질이 높아지게 된다.
도 14는 두 개의 테스트 영상들에 대해 종래 기술을 적용한 경우와 본 발명에 따른 실시예를 적용한 경우의 PSNR 값의 차이를 도시한 도면이다. 특히, 도 14는 목표 비트레이트를 각각 4 Mbps 및 8 Mbps로 설정하고, 종래 기술을 적용해 보고, 본 실시예를 적용해 본 경우를 도시한 것이다.
도 14를 참조하면, 본 실시예를 적용한 경우가 종래 기술을 적용한 경우보다 픽쳐들 간의 PSNR 값의 변화량을 나타내는 표준 편차(Standard Deviation)가 많이 줄어들었음을 알 수 있다. 이것은 픽쳐들간의 화질 차이가 줄어드는 효과가 나타남을 의미한다. 또한, PSNR 값 자체도 약 0.27 ~ 1.09 dB(decibel) 개선되었다는 것을 알 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하 여 기록될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 입력 영상의 적어도 하나의 특성 값을 산출하고, 이 특성 값에 기초하여 목표 비트레이트에 도달하기 위한 입력 영상의 초기 QP 값을 결정함으로써 입력 영상의 초기 QP 값을 보다 정확하게 예측할 수 있다는 효과가 있다. 특히, 이와 같이 초기 QP 값이 보다 정확하게 예측됨에 따라 입력 영상을 구성하는 픽쳐들 각각의 비트레이트의 변화, QP 값의 변화, PSNR 값의 변화가 현저하게 줄어들게 되며, 결과적으로 복원 영상의 품질이 높아지게 된다.

Claims (17)

  1. (a) 입력 영상의 적어도 하나의 특성 값을 산출하는 단계; 및
    (b) 상기 산출된 특성 값에 기초하여 목표 비트레이트에 도달하기 위한 상기 입력 영상의 초기 QP 값을 결정하는 단계를 포함하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  2. 제 1 항에 있어서,
    상기 (b) 단계는
    상기 산출된 특성 값에 기초하여 상기 입력 영상의 BR-QP 곡선을 모델링하기 위한 값을 획득하는 단계; 및
    상기 획득된 값을 이용하여 상기 BR-QP 곡선을 모델링하는 단계; 및
    상기 모델링 결과에 상기 목표 비트레이트를 적용함으로써 상기 초기 QP 값을 결정하는 단계를 포함하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  3. 제 1 항에 있어서,
    상기 (b) 단계는 상기 산출된 입력 영상의 특성 값을 신경망에 입력함으로써 상기 신경망으로부터 출력되는 값을 이용하여 상기 초기 QP 값을 결정하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  4. 제 1 항에 있어서,
    상기 (a) 단계는 상기 입력 영상을 구성하는 적어도 하나의 픽쳐에 대해 각 픽쳐의 블록 단위로 움직임 벡터를 산출하고, 상기 산출된 움직임 벡터들의 평균 값을 상기 특성 값으로서 산출하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  5. 제 1 항에 있어서,
    상기 (a) 단계는 상기 입력 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 x 축 상의 색 변화도(gradient)의 절대값과 y 축 상의 색 변화도의 절대값을 산출하고, 상기 산출된 절대값들의 총합을 상기 특성 값으로서 산출하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  6. 제 1 항에 있어서,
    상기 (a) 단계는 상기 입력 영상을 구성하는 복수 개의 픽처들에 대해 각 픽쳐와 상기 각 픽쳐의 인접 픽쳐간의 차이값의 절대값을 산출하고, 이와 같이 산출된 절대값들의 평균 값을 상기 특성 값으로서 산출하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  7. 제 1 항에 있어서,
    상기 (a) 단계는 상기 입력 영상을 구성하는 적어도 하나의 픽처에 대해 각 픽쳐의 블록 단위로 현재 블록의 인접 블록들 각각의 움직임 벡터를 산출하고, 상 기 산출된 움직임 벡터들 중 중간 값에 해당하는 움직임 벡터와 상기 현재 블록의 움직임 벡터의 오차 값을 산출하고, 상기 산출된 오차 값들의 평균 값을 상기 특성 값으로서 산출하는 것을 특징으로 하는 초기 QP 값 예측 방법.
  8. 제 1 항 내지 제 7 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  9. 입력 영상의 적어도 하나의 특성 값을 산출하는 산출부; 및
    상기 산출된 특성 값에 기초하여 목표 비트레이트에 도달하기 위한 상기 입력 영상의 초기 QP 값을 결정하는 결정부를 포함하는 것을 특징으로 하는 초기 QP 값 예측 장치.
  10. (a) 입력 영상의 예측 영상을 생성하는 단계;
    (b) 상기 입력 영상으로부터 상기 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성하는 단계;
    (c) 상기 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환하는 단계;
    (d) 상기 입력 영상의 적어도 하나의 특성 값에 기초하여 목표 비트레이트에 대응하는 상기 입력 영상의 초기 QP 값을 예측하는 단계;
    (e) 상기 예측된 초기 QP 값을 이용하여 상기 변환된 결과를 양자화하는 단 계; 및
    (f) 상기 양자화된 결과를 엔트로피 부호화하는 단계를 포함하는 것을 특징으로 하는 영상 부호화 방법.
  11. 제 10 항에 있어서,
    상기 (d) 단계는 신경망을 사용하여 상기 초기 QP 값을 예측하는 것을 특징으로 하는 영상 부호화 방법.
  12. 제 10 항 내지 제 11 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  13. 입력 영상의 예측 영상을 생성하는 제 1 예측부;
    상기 입력 영상으로부터 상기 생성된 예측 영상을 감산함으로써 레지듀 영상을 생성하는 감산기;
    상기 생성된 레지듀 영상을 색 공간으로부터 주파수 공간으로 변환하는 변환부;
    상기 입력 영상의 적어도 하나의 특성 값에 기초하여 목표 비트레이트에 대응하는 상기 입력 영상의 초기 QP 값을 예측하는 제 2 예측부;
    상기 예측된 초기 QP 값을 이용하여 상기 변환된 결과를 양자화하는 양자화부; 및
    상기 양자화된 결과를 엔트로피 부호화하는 엔트로피 부호화부를 포함하는 것을 특징으로 하는 영상 부호화 장치.
  14. (a) 훈련 영상의 적어도 하나의 특성 값을 산출하는 단계;
    (b) 상기 훈련 영상의 BR-QP 곡선을 모델링하기 위한 값을 결정하는 단계; 및
    (c) 상기 산출된 적어도 하나의 특성 값을 신경망의 입력층에 입력하고, 상기 결정된 값이 상기 신경망의 출력층으로부터 출력되도록 상기 신경망을 학습시키는 단계를 포함하는 것을 특징으로 하는 신경망 학습 방법.
  15. 제 14 항에 있어서,
    상기 훈련 영상의 BR-QP 곡선을 모델링하는 단계를 더 포함하고,
    상기 (b) 단계는 상기 모델링 결과에 대한 모델 BR-QP 곡선을 특정하는 인수 값을 상기 훈련 영상의 BR-QP 곡선을 모델링하기 위한 값으로 결정하는 것을 특징으로 하는 신경망 학습 방법.
  16. 제 14 항 내지 제 15 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  17. 훈련 영상의 적어도 하나의 특성 값을 산출하는 산출부;
    상기 훈련 영상의 BR-QP 곡선을 모델링하기 위한 값을 결정하는 결정부; 및상기 산출된 적어도 하나의 특성 값을 신경망의 입력층에 입력하고, 상기 결정된 값이 상기 신경망의 출력층으로부터 출력되도록 상기 신경망을 학습시키는 학습부를 포함하는 것을 특징으로 하는 신경망 학습 장치.
KR1020060127955A 2006-12-14 2006-12-14 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치 KR100790900B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060127955A KR100790900B1 (ko) 2006-12-14 2006-12-14 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060127955A KR100790900B1 (ko) 2006-12-14 2006-12-14 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치

Publications (1)

Publication Number Publication Date
KR100790900B1 true KR100790900B1 (ko) 2008-01-03

Family

ID=39216425

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060127955A KR100790900B1 (ko) 2006-12-14 2006-12-14 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100790900B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019216515A1 (ko) * 2018-05-09 2019-11-14 삼성전자주식회사 전자 장치 및 그 제어 방법
US11734577B2 (en) 2019-06-05 2023-08-22 Samsung Electronics Co., Ltd Electronic apparatus and method of performing operations thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960032302A (ko) * 1995-02-23 1996-09-17 김광호 고화질 디지탈 자기기록재생장치에 있어서 양자화폭 결정방법
KR19990015281A (ko) * 1997-08-04 1999-03-05 구자홍 영상 복잡도를 고려한 적응 양자화 장치 및 방법
KR20030083916A (ko) * 2002-04-23 2003-11-01 베르텐씨엔씨 주식회사 양자화계수를 결정하는 방법
KR20030085336A (ko) * 2002-04-30 2003-11-05 삼성전자주식회사 사람의 시각적 특성을 고려한 색상 양자화를 통한 영상부호화 및 복호화 방법 및 장치
KR20040097525A (ko) * 2003-05-12 2004-11-18 엘지전자 주식회사 동영상 코딩 방법
KR20040101591A (ko) * 2003-05-23 2004-12-03 엘지전자 주식회사 동영상 코딩 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960032302A (ko) * 1995-02-23 1996-09-17 김광호 고화질 디지탈 자기기록재생장치에 있어서 양자화폭 결정방법
KR19990015281A (ko) * 1997-08-04 1999-03-05 구자홍 영상 복잡도를 고려한 적응 양자화 장치 및 방법
KR20030083916A (ko) * 2002-04-23 2003-11-01 베르텐씨엔씨 주식회사 양자화계수를 결정하는 방법
KR20030085336A (ko) * 2002-04-30 2003-11-05 삼성전자주식회사 사람의 시각적 특성을 고려한 색상 양자화를 통한 영상부호화 및 복호화 방법 및 장치
KR20040097525A (ko) * 2003-05-12 2004-11-18 엘지전자 주식회사 동영상 코딩 방법
KR20040101591A (ko) * 2003-05-23 2004-12-03 엘지전자 주식회사 동영상 코딩 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019216515A1 (ko) * 2018-05-09 2019-11-14 삼성전자주식회사 전자 장치 및 그 제어 방법
US11734577B2 (en) 2019-06-05 2023-08-22 Samsung Electronics Co., Ltd Electronic apparatus and method of performing operations thereof

Similar Documents

Publication Publication Date Title
US20210258579A1 (en) Method and device for encoding or decoding image
JP4256574B2 (ja) 画像信号符号化方法および画像信号符号化装置
US7680346B2 (en) Method and apparatus for encoding image and method and apparatus for decoding image using human visual characteristics
KR101375664B1 (ko) 영상의 디퓨전 특성을 이용한 영상 부호화/복호화 방법 및장치
KR20100004037A (ko) 영상의 부호화 방법 및 장치, 그 복호화 방법 및 장치
JP2006140758A (ja) 動画像符号化方法、動画像符号化装置および動画像符号化プログラム
KR20060072070A (ko) 이미지 또는 픽쳐 시퀀스를 인코딩하는데 사용될 수 있는양자화 매트릭스를 발생하는 방법 및 장치
JP7015183B2 (ja) 画像符号化装置及びその制御方法及びプログラム
KR20030082818A (ko) 실시간 가변 비트율 제어를 수행하는 부호화 장치 및 방법
JP2001501429A (ja) 可変ビットレートビデオ符号化方法及び対応するビデオ符号化装置
JP2003037843A (ja) 画像処理装置および方法、記録媒体、並びにプログラム
JP7434604B2 (ja) ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練
US20050286628A1 (en) Human visual system (HVS) filter in a discrete cosine transformator (DCT)
CN111164972A (zh) 用于在帧级别控制视频编码的系统和方法
KR20150099165A (ko) Tsm 율-왜곡 최적화 방법, 그를 이용한 인코딩 방법 및 장치, 그리고 영상 처리 장치
KR100540655B1 (ko) 비디오 코딩시의 비트율 제어 방법 및 장치
KR101450645B1 (ko) 비디오 비트율 제어 방법 및 장치
KR100790900B1 (ko) 영상 부호화를 위한 초기 QP (QuantizationParameter) 값 예측 방법 및 장치
KR101345294B1 (ko) 영상의 양자화 장치 및 방법
JP6946979B2 (ja) 動画像符号化装置、動画像符号化方法、及び動画像符号化プログラム
JPH07203430A (ja) 画像符号化装置
JPH11513873A (ja) ブロック・ベースのコード化システムにおいてコード化モードを選択するための装置および方法
JP5358485B2 (ja) 画像符号化装置
KR100762591B1 (ko) 비디오 코덱의 양자화 파라미터 결정방법
KR101737006B1 (ko) 인지 품질 기반의 변환 부호화 고속화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee