KR101061275B1 - 향상된 코딩 모드 선택 방법 및 장치 - Google Patents

향상된 코딩 모드 선택 방법 및 장치 Download PDF

Info

Publication number
KR101061275B1
KR101061275B1 KR1020097000307A KR20097000307A KR101061275B1 KR 101061275 B1 KR101061275 B1 KR 101061275B1 KR 1020097000307 A KR1020097000307 A KR 1020097000307A KR 20097000307 A KR20097000307 A KR 20097000307A KR 101061275 B1 KR101061275 B1 KR 101061275B1
Authority
KR
South Korea
Prior art keywords
encoding
value
lagrange
mode
calculated
Prior art date
Application number
KR1020097000307A
Other languages
English (en)
Other versions
KR20090018719A (ko
Inventor
애드리아나 더미트라스
바린 쥐. 하스켈
아툴 푸리
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Publication of KR20090018719A publication Critical patent/KR20090018719A/ko
Application granted granted Critical
Publication of KR101061275B1 publication Critical patent/KR101061275B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Abstract

본 발명은 H.264(MPEG-4/Part 10)의 프레임워크에서 B-화상의 직접 모드 향상과 P-화상의 스킵 모드를 향상을 위한 선택 실행 방법을 제공하는 것이다. 직접 모드와 스킵 모드 향상은 라그랑지 값의 클러스터링, 이상치의 제거와 엔코딩 모드 선택을 위한 비트율-왜곡 매개변수 최적화에서의 라그랑지 승수의 작은 값의 지정에 의해 달성될 수 있다. 고품질 비디오 시퀀스를 사용한 실험결과는 본 발명의 방법을 사용함으로써 PSNR(peak signal-to-noise ratio)의 적은 손실에 의해 비트 레이트를 감소시킬 수 있었다. 두가지의 다른 실험에 의해서, PSNR이 변화함에도 불구하고 본질적인 비주얼 손실이 없음이 명백하게 증명되었다. MPEG-4/Part 10(비표준) 엔코더에서 최근에 사용되는 현재의 비트율-왜곡 최적화 관련하여, 본 발명의 방법은 단순하면서도 유용하다. 더욱 중요한 점은, 승인되지 않은 가공물이 디코드된 화상에 도입되는 것처럼, 양자화 매개변수의 값을 더욱 증가시키는 것과 같은 다른 방법이 적용되지 않을 때, 본 발명의 방법으로 디코드된 시퀀스에 시각적 왜곡을 도입하지 않고 비트레이트 감소를 이룰 수 있다는 것이다.
양자화, 시퀀스, 이상치, 모드, 라그랑지, 클러스터링

Description

향상된 코딩 모드 선택 방법 및 장치{METHOD AND APPARATUS FOR IMPROVED CODING MODE SELECTION}
본 발명은 멀티 미디어 압축 시스템과 관련된 것으로 특히 엔코딩 모드 선택 을 향상시키는 방법 및 시스템에 관한 것이다.
디지털 방식 전자 미디어 포맷은 아날로그 전자 미디어 포맷을 광범위하게 대체하고 있다. 디지털 컴팩트 디스크(CDs)는 오래전에 아날로그 비닐 레코드를 대체했으며, 아날로그 마그네틱 카세트 테이프는 거의 찾아볼 수 없게 되었다. 미니디스크와 MP3(MPEG Audio - layer 3)와 같은 2, 3 세대 디지털 오디오 시스템은 현재 컴팩 디스크의 1세대 디지털 오디오 포맷으로부터 시장을 선점하고 있다.
비디오 미디어는 오디오 미디어보다 점진적으로 디지털 저장 및 디지털 전송 포맷으로 바뀌고 있으며, 이는 대개 디지털 형태로 적합한 품질의 비디오를 정밀하게 나타내는데 필요한 엄청난 양의 디지털 정보 때문이다. 비디오를 정밀하게 나타내는데 필요한 엄청난 양의 디지털 정보를 위해서는 대용량 디지털 저장 시스템과 고 밴드폭 전송 시스템이 필요하다.
그러나, 비디오는 현재 디지털 저장과 전송 포맷으로 급속히 바뀌고 있다. 빠른 컴퓨터 프로세서, 고밀도 저장 시스템, 효과적인 압축과 엔코딩 알고리즘은 디지털 비디오 전송과 저장을 소비자의 가격관점에서 볼 때 매우 실용적으로 만들어지고 있다. DVD(Digital Versatile Disc), 즉 디지털 비디오 시스템은 해마다 최다 판매되는 가전제품 중에 하나가 되고 있다. DVD는 고품질 비디오, 고성능 오디오, 편리함 등 여러 가지 이유 때문에 프리레코드 비디오 후재생 시스템으로서 비디오 카세트 레코더(VCRs)를 빠른 속도로 대체하고 있다. 구식의 아날로그 NTSC(National Televsion Standards Committee) 비디오 전송 시스템은 최근 디지털 ATSC(Advanced Television Standards Commiteee) 비디오 전송 시스템으로 대체되는 과정에 있다.
컴퓨터 시스템은 몇 년 동안 다양하고 상이한 디지털 비디오 엔코딩 포맷을 사용해왔다. 컴퓨터 시스템을 사용하는 최고의 디지털 비디오 압축 및 엔코딩 시스템들은 MPEG(Motion Pictures Expert Group)에 의해 더욱 강화된 디지털 비디오 시 스템이 되었다. 가장 유명하고 많이 사용되고 있는 MPEG의 디지털 비디오 포맷은 MPEG-1, MPEG-2, MPEG-4이다. Video CDs와 소비자 등급 디지털 비디오 편집 시스템은 초기 MPEG-1 디지털 비디오 엔코딩 포맷을 사용한다. DVDs(Digital Versatile Discs)와 DBS(Dish Network brand Direct Broadcast Satellite) 텔레비젼 방송 시스템은 고품질의 MPEG-2 디지털 비디오 압축과 엔코딩 시스템을 사용한다. MPEG-4 엔코딩 시스템은 디지털 비디오 엔코더와 관련 디지털 비디오 플레이어를 기본으로 하는 최신 컴퓨터에 의해 빠르게 채택되고 있다.
본 발명의 목적은 엔코딩 모드 선택을 향상시키기 위한 방법 및 시스템으로, H.264(MPEG-4/Part 10)의 프레임워크에서 B-화상의 직접 모드 향상과 P-화상의 스킵 모드 향상을 위한 선택 실행 방법을 제공하는 것이다.
직접 모드와 스킵 모드의 향상은 현재의 압축 시스템의 변경에 의해 이룩할 수 있다. 특히 본 발명의 시스템에서는 왜곡 값에서의 이상치 제거, 엔코딩 모드 선택을 위한 비트율-왜곡 최적화에서의 라그랑지 승수의 작은 값 지정, 엔코딩 모드 선택 이전에 라그랑지 값을 클러스터링하는 단계를 제안하고 있다. 하나의 실시예로, 후버 코스트 함수는 이상치를 제거하기 위해서 서로 다른 엔코딩 모드의 왜곡을 계산하는데 사용된다. 본 발명의 일 실시예에서, 시스템은 기준 H.264(MPEG-4/Part 10) 구현 보다는 양자화 값 Q의 함수에 따라 천천히 변화하도록 라그랑지 승수를 바꾼다. 라그랑지 클러스터링은 비트 레이트 감소를 위한 모드 0 엔코딩 모드를 확증하는 데 사용된다.
고품질 비디오 시퀀스를 사용한 실험 결과로 본 발명의 방법을 사용함으로써 PSNR(peak signal-to-noise ratio)의 적은 손실에 의해 비트 레이트를 감소시킬 수 있음을 알 수 있었다. 두가지의 다른 실험에 의해서, PSNR이 변화함에도 불구하고 본질적인 비주얼 손실이 없음이 명백하게 증명되었다.
MPEG-4/Part 10(비표준) 엔코더에서 최근에 사용되는 현재의 비트율-왜곡 최적화에 관련하여, 본 발명의 방법은 단순하면서도 유용하다. 더욱 중요한 점은, 승인되지 않은 가공물이 디코드된 화상에 도입되는 것처럼, 양자화 매개변수의 값을 더욱 증가시키는 것과 같은 다른 방법이 적용되지 않을 때, 본 발명의 방법으로 디코드된 시퀀스에 시각적 왜곡을 도입하지 않고 비트레이트 감소를 이룰 수 있다는 것이다.
본 발명의 목적, 특징, 장점들은 도면 및 실시예에서 명확하게 설명될 것이다.
본 발명에 따른 엔코딩 모드 선택을 향상시키는 방법 및 시스템에 대해 설명한다. 더욱 자세한 설명을 위해, 다음의 설명에서 본 발명의 이해를 위한 특정 명칭이 먼저 설명되고 있다. 그러나, 당업자 입장에서 볼 때 이들의 상세한 설명이 본 발명의 실행을 위해 불필요하다는 사실은 명백하다.
서론
MPEG-4/Part 10, JVT(Joint Video Team), AVC(Advanced Video Coding), H.26L로 알려진 최근의 H.264 비디오 엔코딩 표준은 현재의 MPEG 표준에 따르는 비디오 엔코딩 시스템보다 향상된 동화상 압축 제공을 목적으로 MPEG(Motion Pictures Expert Group)과 ITU(International Telecommunication Union)에 의해 공동으로 발전 되어 왔다.
다른 비디오 엔코딩 표준의 주요부분 혹은 부가적인 부분과 비슷하게 H.264 표준은 비트율-왜곡(RD) 결정 프레임워크를 사용하며, 특히 H.264 표준은 엔코딩 모드 선택 및 모션 추정을 위해 비트율-왜곡 최적화를 사용한다. 본 발명에서는 H.264 표준의 프레임워크 내의 엔코딩 모드 선택에 그 초점이 맞춰져 있다.
대부분의 디지털 비디오 엔코딩 시스템에서는 비디오 시퀀스의 각각의 비디오 프레임이 소위 화소블록이라고 불리는 화소의 서브세트로 분리된다. H.264 표준에서는 화소블록의 크기가 매우 다양하다(매크로 블록으로서 16x16 화소 크기의 화소블록이 알려져 있다). 엔코딩 모드 선택 문제는 "비디오 프레임에 각각의 화소블록을 엔코드하기 위한 가능한 엔코딩 방법 또는 엔코딩 모드의 최적의 선택방법" 이라고 정의될 수 있다. 엔코딩 모드 선택 문제는 다양한 방법으로 비디오 엔코더에 의해 해결될 수 있다. 엔코딩 모드 선택 문제를 해결하기 위한 한가지 방법은 비트율-왜곡 최적화를 사용하는 것이다.
H.264 비디오 엔코딩 표준의 프레임워크의 각각의 화소블록을 엔코드 하기 위해 다양한 엔코딩 모드가 선택될 수 있다. 모드 0 은 B-프레임에서 "직접 모드", P-프레임에서 "스킵 모드"으로 알려져 있다. 이외의 엔코딩 모드는 B-화상 혹은 P-화상에서 16x16, 16x8 과 8x16 화소, 8x8, 8x4, 4x8, 4x4 와 같은 화소 크기의 화 소블록을 사용한다.
직접 방식(B-화상의 모드 0)에서는 어떠한 모션 정보도 디코더로 전송되지 않는다. 대신에 예측 시스템이 모션 정보를 발생시키는데 사용된다. 따라서, 직접 모드는 인접 공간 혹은 일시적 정보를 사용하여 양호한 모션 벡터 예측을 가능하게 하는 시퀀스의 중요한 비트 레이트를 저장 할 수 있다. 하지만, 실험 평가결과 H.264의 직접 모드 선택이 어떤 비디오 시퀀스에서는 예상된 만큼의 선택된 화소블록을 산출하지 못함을 알 수 있었다.
본 발명에서는 H.264 표준의 프레임워크 내의 B-화상 또는 B-프레임으로 알려진 양방향 예측 화상선택에서의 직접 모드(모드 0) 선택을 향상시키기 위한 방법을 제안한다. P-프레임에 있어서, 본 발명의 엔코딩 방법은 스킵 모드(모드 0) 선택을 향상시킬 수 있다. 직접 모드와 스킵 모드 향상은 인코딩 모드 선택을 위한 비트율-왜곡 최적화에서 라그랑지 값의 클러스터링, 이상치의 제거, 라그랑지 승수의 가장 작은 값 지정에 의한 것이다.
고품질의 샘플 비디오 시퀀스를 사용한 실험 결과는 본 발명에서의 압축된 비트스트림의 비트레이트가 기준 H.264 코덱 사용에 의해 얻어진 압축된 비트 스트림과 비교해서 줄어든 것을 알 수 있다. 이러한 비트 레이트 감소는 PSNR(peak signal-to-noise)에서의 약간의 비트스트림 감소와 관련 있다. 하지만, 두번의 실험 결과는 어떠한 본질적 영상 손실이 PSNR의 변화와 관련이 없음을 입증하고 있다. 더욱 중요한 점은, 디코드된 화상에 도입되는 허용 불가능한 가공물을 이유로 양자화 매개 변수 값이 더욱 증가하는 것과 같은 다른 가능한 해결방법들이 허용되 지 않을 때, 본 발명의 방법은 디코드된 비디오 시퀀스에서 시각적 왜곡 없이 비트 레이트를 더욱 감소시킬 수 있다. 또한, 본 발명이 H.264 프레임워크를 사용하고 있음 에도 불구하고, 본 발명의 엔코딩 방법은 비트율-왜곡 양자화를 사용하는 어떠한 비디오 엔코딩 시스템에도 적용될 수 있다.
비디오 압축의 개요 섹션에서는 H.264 표준 내의 비트율-왜곡 양자화 프레임워크와 관련된 기본적인 개념들을 설명한다. 본 발명에서 제안하는 엔코딩 방법은 명시된 직접 모드 향상 방법 섹션의 세부사항에서 설명된다. 마지막으로 실험 결과와 결론이 실험 결과 섹션과 결론 섹션에서 각각 설명된다.
비디오 압축 개요
앞서 설명한 바와 같이, 각각의 비디오 프레임은 H.264 표준에서 화소블록의 세트로 분리된다. 이러한 화소블록들은 모션 보상 예측 엔코딩을 사용하여 엔코드 된다. 예측된 화소블록은 엔코딩에 있어서 이전 화상으로부터 어떠한 정보도 사용하지않는 인트라(I) 화소블록(I-화소블록), 하나의 이전 화상으로부터 정보를 사용하는 단향성 예측(P) 화소블록 (P-화소블록) 또는 하나의 이전 화상과 하나의 이후 화상으로부터 정보를 사용하는 양방향성 예측(B) 화소블록(B-화소블록) 중에 하나일 것이다.
P-화상의 각각의 P-화소블록에서는 하나의 모션 벡터가 계산된다(각각의 비디오 화상 내부에는 화소블록이 다양한 방법으로 엔코드 될 수 있음에 주의해야 한다. 예를 들면, 화소 블록이 작은 서브 블록들로 분리되어 모션 벡터들이 계산되고 각각의 서브 블록으로 전송될 수 있다. 서브 블록의 형태는 매우 다양하며 정방형 의 형태를 띠지 않을 것이다). 컴퓨터 모션 벡터를 사용하는 예측 화소블록은 앞서 언급된 이전 화상의 화소 변환에 의해 형성될 수 있다. 비디오 화상의 실제 화소블록과 예측 화소블록의 차이는 전송을 위해 이후 엔코드 된다는 것이다(이러한 차이는 예측 화소블록과 실제 화소블록 사이의 미소한 차이를 보정하는데 사용된다).
각각의 모션 벡터는 또한 예측 엔코딩을 통해서 전송될 수 있다. 이는 모션 벡터를 위한 예측이 전송된 근처의 모션 벡터를 사용하여 형성되며, 실제 모션 벡터와 예측 모션 벡터 사이의 차이가 전송을 위해 엔코드 되는 것을 말한다.
각각의 B-화소블록에서, 앞서 언급된 이전 화상의 모션 벡터와 이후의 모션 벡터인 두개의 모션 벡터가 일반적으로 계산된다(P-화상 혹은 B-화상 내부의 어떤 화소블록들은 모션 보상을 사용하지 않고도 더 좋은 상태로 엔코드 될 수 있다. 이러한 화소들은 인트라-화소블록으로 엔코드 될 것이다. B-화상 내부의 어떤 화소블록들은 앞쪽과 뒤쪽의 단향성 모션 추정을 사용하여 더욱 좋은 상태로 엔코드 될 수 있다. 이러한 화소들은 이전 화상 혹은 이후 화상 중에서 어느 것이 예측에 사용되었는지에 따라 앞쪽 예측 혹은 뒤쪽 예측으로 엔코드 될 것이다). 두개의 B-화소블록 모션 벡터에서 두개의 예측 화소로 계산된다. 두개의 예측 화소블록은 마지막 예측 화소블록의 형태로 결합된다. 위와 같이, 비디오 화상의 실제 화소블록과 예측 블록 사이의 차이는 전송을 위해 엔코드된다.
P-화소블록으로서 B-화소블록의 각각의 모션 벡터가 예측 엔코딩을 통해서 전송될 것이다. 이는, 예측 모션 벡터가 이미 전송된 근처의 모션 벡터를 사용하여 형성될 수 있음을 알 수 있다. 실제 모션 벡터와 예측 모션 벡터 사이의 차이는 전 송을 위해 엔코드된다.
하지만, B-화소블록의 경우 배열된 모션 벡터 혹은 저장된 화상의 근처 화소블록으로부터 모션 벡터의 보간의 기회가 존재한다. (모션 벡터 예측이 현재 화소블록의 배열된 블록의 모션 벡터에 의해 구성되어 있을 때의 직접 모드 형태는 일시적 직접 모드로 알려져 있다. 모션 벡터 예측이 현재 화소블록의 공간 인접에 의해 구성되어 있을 때의 직접 모드 형태는 공간 직접 모드로 알려져 있다.) 보간 값은 예측 모션 벡터로 사용되며 실제 모션 벡터와 예측 모션 벡터 사이의 차이는 전송을 위해 엔코드된다. 이러한 보간은 엔코더와 디코더 모두에서 실행된다(엔코더는 재현된 비디오 화상이 어떻게 나타나는지 정확하게 엔코더가 알 수 있도록 항상 디코더를 가진다).
어떤 케이스에서는, 보간된 모션 벡터가 보정 차이 없이 사용될 수 있으며, 이런 경우 어떠한 모션 벡터 데이터도 전송될 필요가 없다. 이는 H.264와 H.263 표준의 직접 모드에 적용된다. 직접 모드 선택은 특히 카메라 녹화가 고정된 배경을 따라 서서히 패닝할 때 효과적이다. 사실 모션 벡터 보간은 그 자체로 사용되기에 충분하며 이는 미분 정보가 이러한 B-화소블록 모션 벡터로 전송되는데 필요하지 않음을 의미한다. 스킵 모드(P-화상에서의 모드 0) 에서는 모션 벡터 예측이 16x16 직접 모드에서와 동일하게 처리되기 때문에 어떤 모션 벡터 비트의 전송도 발생하지 않는다.
전송 이전에 화소블록 혹은 서브블록의 예측 에러(차이)가 비트수를 감소시키기 위해 일반적으로 변형, 양자화, 엔트로피 엔코드되어 진다. 오리지널 화소블 록과 직접모드를 사용해서 엔코딩한 후에 디코드된 예측 화소블록 사이의 평균 스퀘어 에러로 계산된 예측 에러는 직접 모드에서 엔코드된다. 하지만 예측 에러는 스킵 모드에서 엔코드되어 전송되지 않는다. 변형에 사용되는 서브블록의 크기와 형태는 모션 보정에 사용되는 서브블록의 크기, 형태와 같지 않을 것이다. 예를 들어, 6X16 화소, 16X8 화소, 8X16화소 혹은 그보다 작은 크기의 화소들이 공통적으로 모션 보정에 사용되는데 반해, 8X8 화소 혹은 4X4 화소는 변형에 공통적으로 사용된다. 모션 보상과 서브블록의 크기와 형태 변형은 화소블록마다 매우 다양하다.
각각의 화소블록을 엔코드 하기 위한 최상의 엔코딩 모드 선택은 디코드된 비디오 시퀀스의 왜곡 D 뿐만 아니라 압축된 비트스트림의 비트 레이트 R의 매우 직접적인 충돌을 포함하는 H.264 표준에서 결정의 하나이다. 엔코딩 모드 선택의 목적은 P가 조절 가능한 엔코딩 매개 변수의 벡터이고 RMAX 가 최대 허용 비트 레이트일때, R(
Figure 112009000875889-pat00001
)≤RMAX 의 비트 레이트 제약을 조건부로 하는 왜곡 D(
Figure 112009000875889-pat00002
)를 최소로 만드는 엔코딩 모드 M* 을 선택하는 것이다. 이러한 제약 양자화 문제는, 이하의 라그랑지 J(
Figure 112009000875889-pat00003
,λ)을 사용하는 제약 없는 양자화 문제로 변형될 것이다.
Figure 112009000875889-pat00004
(1)
여기서, λ는 비트율-왜곡 교환을 제어하는 라그랑지 승수이다.
엔코딩 모드 결정 문제는 J(
Figure 112009000875889-pat00005
,λ)의 최소화이다. 이는 다음의 식으로 표현될 수 있다.
Figure 112009000875889-pat00006
(2)
앞선 라그랑지 방정식은 각각의 용인되는 엔코딩 모드에서 다음과 같은 단계의 실행에 의해 계산된다.
(a)오리지널 화소블록과 특정한 엔코딩 모드의 사용으로 엔코딩과 디코딩된 이후에 재구성된 화소블록 사이의 에러의 L2 놈(norm)으로 왜곡 D를 계산하는 단계,
(b)모션 벡터와 변형 계수를 엔코드 하는데 필요한 총 비트 수로써 비트 레이트 R을 계산하는 단계,
(c)식(1)을 사용하여 라그랑지 J를 계산하는 단계,
마지막으로 모든 엔코딩 모드의 라그랑지 J 값을 계산한 후에 얻어진 최소 라그랑지 J는 식(2)에서 표현된 최소화를 해결하는 엔코딩 모드 M* 를 나타낸다.
H.264 비디오 압축 표준에서는 엔코딩 모드 결정이 큰 화소블록의 엔코딩 모드 결정 이전에 8X8 화소블록과 작은 화소블록의 사용으로 실행된다. 또한, 최적화 프로세스의 복잡성을 감소시키기 위해서 최소화 결정이 고정된 양자화 값 Q와 함께 실행되고 라그랑지 승수는 Q 가 양자화 매개변수인, 예를 들어 0.85 x Q/2 또는 0.85 x 2Q/3로 선택된다. 물론 이러한 복잡성 감소는 또한 비트율-왜곡 평면에서 라그랑지 J의 최소값의 검색을 제한한다.
직접 모드 향상 방법
본 발명의 시스템은 B-프레임의 직접 모드 선택과 P-프레임에서의 스킵 모드 선택의 향상을 위한 방법을 제시하는 것이다. 본 발명의 시스템은 코스트 값의 클러스터링, 이상치 감소 및 라그랑지 승수의 명세를 사용한다. 하나의 실시 예로 시스템은 4단계에 의한 방법을 실행한다. 도 3에 나타난 이러한 방법의 단계를 다음에 자세히 설명한다.
첫째, 현재 화소블록은 310과 320의 단계에서와 같이 계산된 각각의 가능한 엔코딩 모드 M과 왜곡 DM으로 엔코드 및 디코드된다. 하나의 실시 예로, 왜곡 DM 는 오리지널 화소블록의 화소와 디코드된 화소블록의 화소 사이의 에러에 대한 후버 함수 값의 합계로 계산된다. 도 1에 나타난 후버 함수는 x 가 화소블록의 화소에 대한 에러이고 β가 매개변수 일 때 다음의 식으로 도출된다.
Figure 112009000875889-pat00007
정확하게 말하면, β보다 작은 에러 값의 경우, 후버 함수 값은 스퀘어 에러에 의해 주어진 값과 동일하다. β보다 큰 에러 값의 경우, 후버 함수 값은 동일한 에러 값의 스퀘어 에러보다 작다.
둘째, 각각의 엔코딩 모드의 비트 레이트 R은 330 단계에서와 같이 계산된다. 하나의 실시 예로, 시스템은 모션 벡터를 엔코드하고 화소블록의 계수를 변형시키는데 필요한 총 비트수로써 비트 레이트 R 을 계산한다.
셋째, 본 발명의 시스템은 340 단계에서와 같이 식(1)을 사용하여 엔코딩 모드를 위해 라그랑지를 계산한다. 하나의 실시 예로, 시스템은 H.264 표준 버전 4.1의 비표준적 부분에서 제안된 오리지널 라그랑지 λ 보다는 양자화 매개변수의 함수로써 느리게 변동하는 라그랑지 승수 λ 값을 선택한다. 양자화Q 의 함수로 제안된 라그랑지 λ의 변동은 도 2A, 도 2B, 도 2C에 나타나 있다. 라그랑지 승수 람다를 참조 구현의 람다보다 느리게 변화시킴으로써, 본 발명의 시스템은 라그랑지 식(1)의 비트 레이트 성분 R에 크게 중점을 두지 않고 왜곡 성분 D에 중점을 둔다. 라그랑지 승수 람다의 변화 결과로서, 비트 레이트 R의 약간의 증가가 J의 라그랑지 값의 산출에 영향을 덜 준다. (또한, 이 시스템은 라그랑지 클러스터에 포함된 비트 레이트 R의 효과도 감소시키며, 이는 다음 단락에서 자세히 설명한다.)
넷째, M이 가능한 엔코딩 모드의 하나 일 때, JM*을 식(1)을 사용하여 모든 JM에 대해 J를 최소값으로 만든다. JM을 산출하는 엔코딩 모드(M*)의 선택 대신에, 시스템은 다음과 같이 계산된 라그랑지 JM 값을 클러스터한다. 여기서 S는 계산된 라그랑지 값이 다음의 조건을 만족시키는 엔코딩 모드 k의 세트로 한다.
Figure 112009000875889-pat00008
(3)
이때 입실론('ε') 은 선택된 에러 값이고 J* 는 모든 모드의 최소 J 이다. 만약 엔코딩 모드 0 이 세트 S의 요소라면, 시스템은 화소블록을 엔코드하는데 사 용되는 엔코딩 모드로써 엔코딩 모드 0을 선택할 것이며, 그렇지 않다면 시스템은 JM*에 해당하는 엔코딩 모드 M*을 선택할 것이다(가장 작은 J 값을 산출하는 엔코딩 모드 M*).
위의 단계는 참조(비표준적) H.264 엔코더와 비교하여 새로운 구성을 사용한다. 특히, 본 발명에서는 왜곡, 수정 라그랑지 승수, 라그랑지 값의 클러스터링을 계산하기 위해서 후버 코스트 함수를 사용한다.
후버 코스트 함수는 안정적 M-추정 집합에 속해 있다. 이러한 함수의 중요한 속성은 이상치의 임팩트을 감소시키는 것이다. 자세히 말해, 만약 어떤 이상치가 화소블록내에 존재한다면 후버 코스트 함수는 이상치에 평균 스퀘어 에러 함수보다(2차) 가중치를 덜 주고(1차), 인접 매크로블록과 동일하게 화소블록을 위해 선택된 엔코딩 모드가 선택되게 한다.
수정된 라그랑지 승수 λ는 양자화 매개변수 Q의 함수에 따라 서서히 변하며, 따라서 비트 레이트 성분 R 보다 라그랑지 J의 왜곡 성분에 더 많은 중점을 둔다. (본 명세서에서는 '람다' 또는 람다의 심볼 'λ'가 디코딩 모드 선택 프로세스에서 사용되는 라그랑지 승수를 의미하며, 모션 벡터 선택 프로세스에서 사용되는 승수와 다르다.)
마지막으로, 앞서 설명된 라그랑지 값의 클러스터링은 엔코딩 모드 0를 뒷받침한다. 결과적으로, 본 발명의 시스템은 더 많은 화소블록을 직접 모드 또는 B-화소블록과 P-화소블록을 위한 스킵모드를 사용하여 엔코드되도록 한다.
실험 결과
실험에서 사용된 비디오 테스트 세트는 영화 시퀀스 "이집트 발견", "바람과 함께 사라지다", "잉글리쉬 페이션트"의 9 색상 비디오 클립으로 이루어져 있다. 이 비디오 시퀀스의 특성을 표 1에 나타낸다.
테스트 시퀀스(ch와 Og는 챕터와 역반사광을 의미한다.)
Seq.
No.
Video sequence name Frame size No. frames Type
1 이집트 발견, ch. 1 704 x 464 58 Pan
2 바람과 함께 사라지다, ch.11 720 x 480 44 Og
3 이집트 발견, ch. 1 704 x 464 630 Pan
4 이집트 발견, ch. 2 704 x 464 148 Zoom
5 이집트 발견, ch. 3 704 x 464 196 Boom
6 이집트 발견, ch. 6 704 x 464 298 Pan
7 잉글리쉬 페이션트, ch. 2 720 x 352 97 Texture
8 잉글리쉬 페이션트, ch. 6 720 x 352 196 Og
9 잉글리쉬 페이션트, ch.8 720 x 352 151 Og
비디오 프레임은 YUV 포맷에서 나타나고 비디오 프레임 레이트는 모든 비디오 시퀀스에서 초당(fps) 23.976 프레임과 동일하다. 본 발명에서 제안하는 방법의 효과는 압축된 비디오 시퀀스의 비트 레이트 R과 디코드된 비디오 시퀀스의 비주얼 품질에 의해 평가된다. 디코드된 비디오 시퀀스의 비주얼 품질은 비디오 시퀀스와 PSNR(peak signal-to-noise ratio) 값에 의해 평가된다.
직접 모드 향상 방법 섹션에서 설명된 본 발명의 엔코딩 방법에 있어서의 신규성은 레이트와 왜곡의 임팩트에 있어서 서로 보완하고 있다. 본 발명에서는 약간의 PSNR 감소뿐만 아니라 전반적인 비트 레이트를 감소시킨다. 다음 단락에서는 두가지 실험에 의한 본 발명의 시스템의 평가 결과를 자세히 설명한다.
모든 시퀀스의 고정된 양자화 매개변수
첫번째 실험에서는 양자화 매개변수 Q가 모든 비디오 시퀀스에서 동일하고 I-프레임, P-프레임, B-프레임에서 각각의 Q, Q+1, Q+3 이다. 표 2에서 보는 바와 같이, PSNR(peak signal-to-noise ratio) 손실이 0.12 dB 정도일 때 본 발명의 엔코딩 방법을 사용하여 비트 레이트를 9% 감소시킬 수 있다. 참조 방법에 의해 엔코드된 비디오 시퀀스에 비해, 본 발명의 엔코딩 방법을 사용하여 엔코드된 비디오 시퀀에서는 왜곡이 보이지 않는다.
참조 방법을 사용하는 영화 시퀀스와 모든 시퀀스에서 동일한 양자화 매개변수 Q를 사용하는 제시된 방법에 의한 비트 레이트(BR)[kbits/sec] 및 PSNR(peak signal-to-noise ratio)[dB]
Seq
No
.
참조 방법 제시된 방법
비트 레이트
[kbits/sec]
PSNR
[dB]
비트 레이트
[kbits/sec]
PSNR
[dB]
1 162.04 38.89 155.43 (-4.08%) 38.75 (-0.13dB)
2 287.71 39.82 283.35 (-1.51 %) 39.71 (-0.11 dB)
3 659.14 37.32 650.92(4.24%) 37.20 (-0.12 dB)
4 1029.02 35.84 1012.17 (-1.63%) 35.76 (-0.07 dB)
5 390.46 36.77 354.25 (-9.27%) 39.59 (-0.18 dB)
6 144.82 39.11 139.02 (-4.00%) 39.02 (-0.09 dB)
7 257.06 37.30 255.08 (-0.76 %) 37.12 (-0.18 dB)
8 102.75 40.17 99.81 (-2.85%) 40.03 (-0.13 dB)
9 222.29 39.62 218.48 (-1.71%) 39.50 (-0.12 dB
Max BR Change: -9.27%
Mm BR Change: -0.76%
Avg. BR Change: -3.00%
Max PSNR Gain: 0 dB
Max PSNR Loss: -0.183 dB
Avg. PSNR Change: -0.128 dB
각각의 시퀀스의 최대 양자화 매개변수
두번째 실험 결과에 본 발명의 엔코딩 방법의 유용성이 더욱 자세히 평가되어 있다. 비트 레이트 R과 PSNR 값이 감소할 때, 일반적으로 발생하는 논쟁은 비디오 시퀀스의 프리-필터링, 양자화 Q 값의 증가 등의 많은 방법들이 비슷한 결과를 도출한다는 것이다. 이 실험의 목적은, 이러한 해결방안이 비디오 품질에 손상되지 않도록 하면서 적용되지 못할 때, 본 발명의 방법으로 비트 레이트를 감소시킬 수 있음을 보여주는 것이다.
첫째, 각각의 테스트 비디오 시퀀스에서 비트 레이트의 왜곡이 보일 때 QMAX+1까지 양자화 매개변수 값을 증가시키는 참조 방법을 사용하여 가능한 많이 감소된다. 다음으로, QMAX(왜곡이 보이지 않는 최대 값)와 도 3에 포함된 비트 레이트와 PSNR(peak signal-to-noise ratio) 값을 산출하는 참조 방법을 사용하여 비디오 시퀀스를 엔코드와 디코드한다. 각각의 시퀀스에서 QMAX 값은 다르며, I-프레임, P-프레임, B-프레임과도 다르다. 비주얼 손실이 없는 최대 비트 레이트 감소를 가정할 때, 본 발명의 엔코딩 방법이 동일한 값 QMAX에서 시퀀스를 엔코딩 하기 위해 적용될 것이다.
참조 방법과 최대 양자화 매개변수를 사용하는 영화 시퀀스에 대한 비트 레이트(BR)[kbits/sec] 와 PSNR(peak signal-to-noise ratio)[dB]
Seq.
No .
참조 방법 제시된 방법
비트 레이트
[kbits/sec]
PSNR
[dB]
비트 레이트
[kbits/sec]
PSNR
[dB]
1 512.59 41.39 479.52 (-6.45%) 41.15 (-0.24 dB)
2 316.70 40.10 298.86 (-5.63%) 39.89 (-0.21 dB)
5 238.78 35.74 210.40 (-11.33%) 35.18 (-0.56 dB)
6 169.28 39.46 146.75 (-13.30%) 39.10 (-0.36 dB)
7 300.56 37.78 290.67 (-3.28%) 37.50 (-0.28 dB)
9 276.91 40.45 270.56 (-2.30%) 40.31 (-0.14 dB)
Max BR Change: -13.30%
Mm BR Change: -2.30%
Avg. BR Change: -7.04%
Max PSNR Gain: 0 dB
Max PSNR Loss: -0.56 dB
Avg. PSNR Change: -0.29 dB
표 3에서 보는 바와 같이, 본 발명의 방법은 비트 레이트를 최대 13.3% 까지 감소시켜서 약 0.29dB 정도의 PSNR 손실을 가능하게 한다. 가공물과 관련된 B-프레임 평가를 위해서 풀 프레임 레이트에서의 시퀀스의 비주얼 검사에 의해서 이러한 비트 레이트 감소가 비주얼 가공물을 디코드된 비디오 시퀀스에 도입하지 않음을 알 수 있다. 본 발명에서 제시되는 방법을 사용했을 때에 상기 QMAX 양자화 매개변수 값을 증가시키고 비주얼 손실 없이 비트 레이트 감소를 얻을 수 있다.
*결론
본 발명은 H.264(MPEG-4/Part 10) 비디오 압축 표준의 프레임워크에서 B-화상에서의 직접 모드 향상과 P-화상에서의 스킵 모드 향상을 위한 방법을 제안한 것이다. 본 발명의 시스템은 후버 코스트 함수를 사용해서 왜곡, 수정된 라그랑지 승수를 계산하고 화소블록을 엔코드하는데 사용되는 엔코딩 모드 선택을 위한 라그랑지 값의 클러스터링을 한다. 앞의 테스트들은 본질적인 비주얼 품질 저하 없이 PSNR(peak signal-to-noise ratio)에서의 작은 손실에서 본 발명의 방법으로 비트 레이트를 감소시킬 수 있음을 보여준다. 이러한 특징들은 양자화 매개변수 값의 증가와 같은 다른 해결방법들이 더이상 적용되지 않을 때의 부가 장치와 같이, 엔코딩 모드 선택을 위해 비트율-왜곡 최적화 프레임워크를 사용하는 어떠한 비디오 엔코딩 시스템에서도 본 발명의 방법이 비트 레이트 감소에 유용하게 사용될 수 있게 한다.
이상, 본 발명자에 의해서 이루어진 발명은 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
도 1은 변수 r 의 후버 코스트 함수를 그래픽적으로 나타낸 도면.
도 2A는 관심 범위에서 양자화 매개변수(Q) 값의 함수로써 오리지널 및 수정 라그랑지 승수 λMODE의 변동을 나타낸 도면.
도 2B는 관심 범위에서 양자화 매개변수(Q) 값의 함수로써 B-프레임에 대한 오리지널 및 수정 라그랑지 승수 λMODE의 변동을 나타낸 도면.
도 2C는 관심 범위에서 양자화 매개변수(Q) 값의 함수로써 오리지널 및 수정 라그랑지 승수 λmotion의 변동을 나타낸 도면.
도 3은 엔코딩 모드가 어떻게 선택되는지를 설명하는 흐름도.

Claims (33)

  1. 복수의 인코딩 모드로부터 엔코딩 모드를 선택하는 방법으로서,
    상기 복수의 엔코딩 모드로부터의 각각의 엔코딩 모드에 대하여, 픽셀들의 특정 어레이에 대한 왜곡값에 기초하여 라그랑지(Lagrangian) 값을 산출하는 단계 - 상기 왜곡값은 상기 픽셀들의 특정 어레이에서의 특이값(outlier) 픽셀들의 영향을 감소시킴으로써 산출되고, 상기 왜곡값은 원본 픽셀들의 어레이에서의 픽셀들과 디코딩된 픽셀들의 어레이에서 대응하는 픽셀들 사이의 에러 값에 기초하여 산출되고, 상기 특이값 픽셀들의 영향을 감소시키는 것은, 임계치를 만족시키는 에러값에, 상기 임계치를 만족시키지 않는 에러값 보다 작은 가중치를 부여하는 함수를 사용하는 것을 포함함 -; 및
    상기 산출된 라그랑지 값에 기초하여 특정 엔코딩 모드를 선택하는 단계
    를 포함하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  2. 제1항에 있어서,
    상기 임계치를 만족시키는 에러값에, 상기 임계치를 만족시키지 않는 에러값 보다 작은 가중치를 부여하는 함수는 후버 함수(Huber function)인, 엔코딩 모드 선택 방법.
  3. 제1항에 있어서,
    상기 산출된 라그랑지 값은 비트 레이트 값 및 라그랑지 승수를 더 기초로 하는 것 - 상기 비트 레이트 값은 복수의 모션 벡터 및 복수의 변환 계수를 엔코딩하기 위해 요구되는 총 비트수를 포함함 - 을 특징으로 하는 엔코딩 모드 선택 방법.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    복수의 비디오 화상을 엔코딩하는 단계 - 상기 엔코딩된 비디오 화상들 중 하나는 상기 픽셀들의 특정 어레이를 포함함 -;
    상기 픽셀들의 특정 어레이에서의 상기 특이값 픽셀들의 영향을 감소시키기 위한 함수를 사용하여 상기 픽셀들의 특정 어레이에 대한 상기 왜곡 값을 산출하는 단계;
    상기 엔코딩된 복수의 비디오 화상에 대한 비트 레이트를 산출하는 단계; 및
    상기 산출된 왜곡 값, 상기 산출된 비트 레이트 및 라그랑지 승수에 기초하여 상기 라그랑지 값을 산출하는 단계
    를 포함하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  7. 제1항에 있어서,
    상기 선택된 특정 엔코딩 모드를 사용하여 복수의 비디오 화상을 엔코딩하는 단계를 더 포함하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  8. 제1항에 있어서,
    산출된 최소 라그랑지 값을 이용하여 결정된 임계값 내에 있는 산출된 라그랑지 값들의 클러스터를 식별하는 단계를 더 포함하고, 상기 특정 엔코딩 모드를 선택하는 것은 산출된 라그랑지 값들의 상기 식별된 클러스터에 기초하여 이루어지는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 복수의 엔코딩 모드로부터 엔코딩 모드를 선택하기 위한 방법으로서,
    상기 복수의 엔코딩 모드로부터의 각각의 엔코딩 모드에 대하여, 엔코딩 표준에 대한 기준 라그랑지 승수보다 느린 레이트로 양자화 값의 함수로 가변하는 슬로우 가변 라그랑지 승수에 기초하여 라그랑지 값을 산출하는 단계; 및
    상기 산출된 라그랑지 값에 기초하여 특정 엔코딩 모드를 선택하는 단계
    를 포함하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  13. 제12항에 있어서,
    기준 엔코딩 표준에 대한 상기 기준 라그랑지 승수는 양자화 값의 지수 함수(exponential function)의 특정 분수에 기초하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  14. 제12항에 있어서,
    기준 엔코딩 표준에 대한 상기 기준 라그랑지 승수는 양자 값의 특정 분수에 기초하는 것을 특징으로 하는 엔코딩 모드 선택 방법.
  15. 제12항에 있어서,
    상기 엔코딩 표준은 H.264 표준인 것을 특징으로 하는 엔코딩 모드 선택 방법.
  16. 제12항에 있어서,
    상기 산출된 라그랑지 값은 비트 레이트 값에 기초하고, 상기 슬로우 가변 라그랑지 승수는 상기 산출된 라그랑지 값에 대한 상기 비트 레이트 값의 영향을 감소시키기(de-emphasizing) 위한 것인, 엔코딩 모드 선택 방법.
  17. 제16항에 있어서,
    상기 산출된 라그랑지 값은 왜곡 값에 더 기초하고, 상기 슬로우 가변 라그랑지 승수는 상기 산출된 라그랑지 값에 대한 상기 왜곡값의 영향을 강화하는 것을 또한 특징으로 하는 엔코딩 모드 선택 방법.
  18. 삭제
  19. 삭제
  20. 복수의 엔코딩 모드로부터 엔코딩 모드를 선택하기 위한 방법으로서,
    상기 복수의 엔코딩 모드로부터 각각의 엔코딩 모드에 대하여, 라그랑지 값을 산출하는 단계;
    산출된 최소 라그랑지 값을 이용하여 결정된 임계값 내에 있는 두 개 이상의 산출된 라그랑지 값을 클러스터링하는 단계; 및
    상기 클러스터링된 라그랑지 값에 기초하여 특정 엔코딩 모드를 선택하는 단계
    를 포함하는 엔코딩 모드 선택 방법.
  21. 제20항에 있어서,
    상기 복수의 엔코딩 모드는 모드 0 엔코딩을 포함하고, 상기 모드 0 엔코딩은, 보간된 모션 벡터를 이용하며 상기 보간된 모션 벡터에 대한 보정 차이를 요구하지 않는, 엔코딩 모드 선택 방법.
  22. 제21항에 있어서,
    상기 모드 0 엔코딩은 양방향으로 예측된 픽셀들의 어레이를 엔코딩하기 위한 직접 모드인 것을 특징으로 하는 엔코딩 모드 선택 방법.
  23. 제21항에 있어서,
    상기 모드 0 엔코딩은 단방향으로 예측된 픽셀들의 어레이를 엔코딩하기 위한 스킵 모드인 것을 특징으로 하는 엔코딩 모드 선택 방법.
  24. 제21항에 있어서,
    상기 모드 0 엔코딩에 대한 산출된 라그랑지 값이 상기 클러스터링된 라그랑지 값들 내에 있는 경우 상기 모드 0 엔코딩을 선택하는 단계를 더 포함하는 엔코딩 모드 선택 방법.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 제17항에 있어서,
    상기 특정 엔코딩 모드를 선택하는 단계는, 상기 산출된 라그랑지 값이, 산출된 최소 라그랑지 값을 이용하여 결정된 임계 값 내에 있는 산출된 라그랑지 값들의 클러스터 내에 있는지 여부를 판단하는 단계를 포함하는, 엔코딩 모드 선택 방법.
  29. 삭제
  30. 삭제
  31. 제1항에 있어서,
    상기 임계치를 만족시키는 에러값에, 상기 임계치를 만족시키지 않는 에러값 보다 작은 가중치를 부여하는 함수는, 안정적 M-추정 함수(robust M-estimator function)인, 엔코딩 모드 선택 방법.
  32. 적어도 하나의 프로세서에 의해 실행가능한 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 매체로서, 상기 컴퓨터 프로그램은,
    제1항 내지 제3항, 제6항 내지 제8항, 제12항 내지 제17항, 및 제20항 내지 제24항, 제28항 및 제31항 중 어느 한 항에 따른 방법을 구현하기 위한 명령들의 세트들을 포함하는, 컴퓨터 판독가능 매체.
  33. 제1항 내지 제3항, 제6항 내지 제8항, 제12항 내지 제17항, 및 제20항 내지 제24항, 제28항 및 제31항 중 어느 한 항에 따른 단계들을 구현하기 위한 수단을 포함하는 것을 특징으로 하는 컴퓨터 시스템.
KR1020097000307A 2003-01-08 2004-01-07 향상된 코딩 모드 선택 방법 및 장치 KR101061275B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US43906203P 2003-01-08 2003-01-08
US60/439,062 2003-01-08
US10/614,929 2003-07-07
US10/614,929 US7194035B2 (en) 2003-01-08 2003-07-07 Method and apparatus for improved coding mode selection
PCT/US2004/000316 WO2004064414A2 (en) 2003-01-08 2004-01-07 Method and apparatus for improved coding mode selection

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020057012860A Division KR100919557B1 (ko) 2003-01-08 2005-07-08 향상된 코딩 모드 선택 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090018719A KR20090018719A (ko) 2009-02-20
KR101061275B1 true KR101061275B1 (ko) 2011-08-31

Family

ID=32685543

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020097000307A KR101061275B1 (ko) 2003-01-08 2004-01-07 향상된 코딩 모드 선택 방법 및 장치
KR1020057012860A KR100919557B1 (ko) 2003-01-08 2005-07-08 향상된 코딩 모드 선택 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020057012860A KR100919557B1 (ko) 2003-01-08 2005-07-08 향상된 코딩 모드 선택 방법 및 장치

Country Status (5)

Country Link
US (3) US7194035B2 (ko)
EP (1) EP1584200A2 (ko)
JP (2) JP4480713B2 (ko)
KR (2) KR101061275B1 (ko)
WO (1) WO2004064414A2 (ko)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
AU2002351310A1 (en) 2001-12-06 2003-06-23 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7042943B2 (en) 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
US7194035B2 (en) * 2003-01-08 2007-03-20 Apple Computer, Inc. Method and apparatus for improved coding mode selection
US7324595B2 (en) * 2003-09-22 2008-01-29 Lsi Logic Corporation Method and/or apparatus for reducing the complexity of non-reference frame encoding using selective reconstruction
JP4031455B2 (ja) * 2004-03-29 2008-01-09 株式会社東芝 画像符号化装置
US7570827B2 (en) 2004-07-14 2009-08-04 Slipstream Data Inc. Method, system and computer program product for optimization of data compression with cost function
KR20070064598A (ko) * 2004-09-16 2007-06-21 톰슨 라이센싱 인터프레임에 대한 고속 모드 결정 방법 및 장치
WO2006080662A1 (en) * 2004-10-21 2006-08-03 Samsung Electronics Co., Ltd. Method and apparatus for effectively compressing motion vectors in video coder based on multi-layer
KR100664929B1 (ko) 2004-10-21 2007-01-04 삼성전자주식회사 다 계층 기반의 비디오 코더에서 모션 벡터를 효율적으로압축하는 방법 및 장치
JP5046335B2 (ja) * 2004-11-04 2012-10-10 トムソン ライセンシング ビデオ符号器におけるbフレームの高速モード決定のための方法および装置
US7764740B2 (en) * 2004-11-24 2010-07-27 Electronics And Telecommunications Research Institute Fast block mode determining method for motion estimation, and apparatus thereof
US7751478B2 (en) * 2005-01-21 2010-07-06 Seiko Epson Corporation Prediction intra-mode selection in an encoder
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
WO2006104357A1 (en) * 2005-04-01 2006-10-05 Samsung Electronics Co., Ltd. Method for compressing/decompressing motion vectors of unsynchronized picture and apparatus using the same
KR100763179B1 (ko) * 2005-04-01 2007-10-04 삼성전자주식회사 비동기 픽쳐의 모션 벡터를 압축/복원하는 방법 및 그방법을 이용한 장치
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
US8054882B2 (en) * 2005-05-13 2011-11-08 Streaming Networks (Pvt.) Ltd. Method and system for providing bi-directionally predicted video coding
JPWO2006123606A1 (ja) * 2005-05-16 2008-12-25 パイオニア株式会社 レート変換器
US7830961B2 (en) * 2005-06-21 2010-11-09 Seiko Epson Corporation Motion estimation and inter-mode prediction
US8094716B1 (en) * 2005-08-25 2012-01-10 Maxim Integrated Products, Inc. Method and apparatus of adaptive lambda estimation in Lagrangian rate-distortion optimization for video coding
US7944965B2 (en) * 2005-12-19 2011-05-17 Seiko Epson Corporation Transform domain based distortion cost estimation
US8170102B2 (en) * 2005-12-19 2012-05-01 Seiko Epson Corporation Macroblock homogeneity analysis and inter mode prediction
US7843995B2 (en) * 2005-12-19 2010-11-30 Seiko Epson Corporation Temporal and spatial analysis of a video macroblock
KR100781525B1 (ko) * 2006-04-06 2007-12-03 삼성전자주식회사 가중 평균합을 이용하여 fgs 계층을 인코딩 및디코딩하는 방법 및 장치
US7401062B2 (en) * 2006-06-13 2008-07-15 International Business Machines Corporation Method for resource allocation among classifiers in classification systems
KR101377833B1 (ko) 2006-08-30 2014-03-26 톰슨 라이센싱 분석적이고 경험적인 하이브리드 인코딩 왜곡 모델링을 위한 방법 및 장치
KR100845303B1 (ko) * 2006-09-29 2008-07-10 한국전자통신연구원 고속 부호화를 위한 되먹임 구조를 가진 동영상 압축부호화 장치 및 최적 모드 결정 방법
US8358699B2 (en) * 2007-04-09 2013-01-22 Cavium, Inc. Method and system for selection of reference picture and mode decision
US8175150B1 (en) * 2007-05-18 2012-05-08 Maxim Integrated Products, Inc. Methods and/or apparatus for implementing rate distortion optimization in video compression
US8315296B2 (en) 2007-05-21 2012-11-20 Research In Motion Limited Method for testing a radio frequency (RF) receiver and related methods
KR101172430B1 (ko) * 2007-08-17 2012-08-08 삼성전자주식회사 비트율 제어 방법 및 그 장치
US20090052540A1 (en) * 2007-08-23 2009-02-26 Imagine Communication Ltd. Quality based video encoding
US20090074058A1 (en) * 2007-09-14 2009-03-19 Sony Corporation Coding tool selection in video coding based on human visual tolerance
FR2925819A1 (fr) * 2007-12-21 2009-06-26 Thomson Licensing Sas Procede de codage double passe par macrobloc
US8295356B2 (en) 2008-03-07 2012-10-23 International Business Machines Corporation Method and system for coding mode selection in video compression systems
KR101431545B1 (ko) 2008-03-17 2014-08-20 삼성전자주식회사 영상의 부호화, 복호화 방법 및 장치
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
US20090274213A1 (en) * 2008-04-30 2009-11-05 Omnivision Technologies, Inc. Apparatus and method for computationally efficient intra prediction in a video coder
US20090274211A1 (en) * 2008-04-30 2009-11-05 Omnivision Technologies, Inc. Apparatus and method for high quality intra mode prediction in a video coder
US8451719B2 (en) * 2008-05-16 2013-05-28 Imagine Communications Ltd. Video stream admission
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8654835B2 (en) * 2008-09-16 2014-02-18 Dolby Laboratories Licensing Corporation Adaptive video encoder control
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8498493B1 (en) 2009-06-02 2013-07-30 Imagination Technologies Limited Directional cross hair search system and method for determining a preferred motion vector
US10477249B2 (en) * 2009-06-05 2019-11-12 Apple Inc. Video processing for masking coding artifacts using dynamic noise maps
WO2011031692A2 (en) 2009-09-10 2011-03-17 Dolby Laboratories Licensing Corporation Speedup techniques for rate distortion optimized quantization
EP2520092A1 (en) * 2009-12-31 2012-11-07 Thomson Licensing Methods and apparatus for adaptive coupled pre-processing and post-processing filters for video encoding and decoding
KR101418104B1 (ko) * 2010-03-08 2014-07-16 에스케이 텔레콤주식회사 움직임 벡터 해상도 조합을 이용한 움직임 벡터 부호화/복호화 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
KR101099257B1 (ko) 2010-03-12 2011-12-27 호서대학교 산학협력단 H.264/avc에서 매크로 블록의 부호화 모드 고속 결정방법
US9338463B2 (en) 2011-10-06 2016-05-10 Synopsys, Inc. Visual quality measure for real-time video processing
US9781449B2 (en) * 2011-10-06 2017-10-03 Synopsys, Inc. Rate distortion optimization in image and video encoding
US10230956B2 (en) 2012-09-26 2019-03-12 Integrated Device Technology, Inc. Apparatuses and methods for optimizing rate-distortion of syntax elements
US20140219331A1 (en) * 2013-02-06 2014-08-07 Magnum Semiconductor, Inc. Apparatuses and methods for performing joint rate-distortion optimization of prediction mode
US9819962B2 (en) * 2015-04-06 2017-11-14 Ati Technologies Ulc Efficient low-complexity video compression
CA2986600A1 (en) * 2016-11-24 2018-05-24 Ecole De Technologie Superieure Method and system for parallel rate-constrained motion estimation in video coding
GB2557997B (en) * 2016-12-21 2019-05-01 Apical Ltd Encoding and Decoding of image data
CN109982082B (zh) * 2019-05-05 2022-11-15 山东大学 一种基于局部纹理特性的hevc多失真准则率失真优化方法
CN114760473A (zh) * 2021-01-08 2022-07-15 三星显示有限公司 用于执行速率失真优化的系统和方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5592302A (en) 1992-03-23 1997-01-07 Canon Kabushiki Kaisha Coding method for coding pixel blocks and apparatus therefor
WO1996034496A2 (en) 1995-04-25 1996-10-31 Philips Electronics N.V. Device and method for coding video pictures
DE69605523T2 (de) 1995-04-25 2000-07-06 Koninkl Philips Electronics Nv Vorrichtung und verfahren zur kodierung von videobildern.
US5778192A (en) * 1995-10-26 1998-07-07 Motorola, Inc. Method and device for optimal bit allocation between different sources of information in digital video compression
US5872598A (en) 1995-12-26 1999-02-16 C-Cube Microsystems Scene change detection using quantization scale factor rate control
US5929916A (en) * 1995-12-26 1999-07-27 Legall; Didier J. Variable bit rate encoding
US5801779A (en) * 1995-12-26 1998-09-01 C-Cube Microsystems, Inc. Rate control with panic mode
US5867221A (en) 1996-03-29 1999-02-02 Interated Systems, Inc. Method and system for the fractal compression of data using an integrated circuit for discrete cosine transform compression/decompression
US5790131A (en) 1996-05-15 1998-08-04 Iterated Systems, Inc. System and method for lossy compression of data with output file size control
FR2753330B1 (fr) 1996-09-06 1998-11-27 Thomson Multimedia Sa Procede de quantification pour codage video
US6111991A (en) 1998-01-16 2000-08-29 Sharp Laboratories Of America Method and apparatus for optimizing quantizer values in an image encoder
WO1999022525A1 (en) 1997-10-23 1999-05-06 Mitsubishi Denki Kabushiki Kaisha Image encoding method, image encoder, image decoding method, and image decoder
US6278735B1 (en) * 1998-03-19 2001-08-21 International Business Machines Corporation Real-time single pass variable bit rate control strategy and encoder
US6289129B1 (en) 1998-06-19 2001-09-11 Motorola, Inc. Video rate buffer for use with push dataflow
JP2002535895A (ja) * 1999-01-15 2002-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 画像シーケンスの符号化及びノイズフィルタリング
US6414992B1 (en) 1999-01-27 2002-07-02 Sun Microsystems, Inc. Optimal encoding of motion compensated video
US6760482B1 (en) * 1999-02-19 2004-07-06 Unisearch Limited Method for visual optimisation of embedded block codes to exploit visual masking phenomena
US6490320B1 (en) * 2000-02-02 2002-12-03 Mitsubishi Electric Research Laboratories Inc. Adaptable bitstream video delivery system
US6574279B1 (en) * 2000-02-02 2003-06-03 Mitsubishi Electric Research Laboratories, Inc. Video transcoding using syntactic and semantic clues
US6493386B1 (en) 2000-02-02 2002-12-10 Mitsubishi Electric Research Laboratories, Inc. Object based bitstream transcoder
US6687294B2 (en) 2001-04-27 2004-02-03 Koninklijke Philips Electronics N.V. Distortion quantizer model for video encoding
US6975680B2 (en) * 2001-07-12 2005-12-13 Dolby Laboratories, Inc. Macroblock mode decision biasing for video compression systems
EP1296524A1 (en) * 2001-09-20 2003-03-26 STMicroelectronics S.r.l. Process and apparatus for the compression of digital video signals, a system and a computer program product therefor
EP1347649A1 (en) 2002-03-18 2003-09-24 Lg Electronics Inc. B picture mode determining method and apparatus in video coding system
KR100468726B1 (ko) 2002-04-18 2005-01-29 삼성전자주식회사 실시간 가변 비트율 제어를 수행하는 부호화 장치 및 방법
US7936818B2 (en) 2002-07-01 2011-05-03 Arris Group, Inc. Efficient compression and transport of video over a network
US7042943B2 (en) 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
EP1933569A3 (en) 2002-11-08 2010-07-07 Apple Inc. Method and apparatus for control of rate-distortion tradeoff by using lagrange multiplier and/or quantizer value
US7194035B2 (en) 2003-01-08 2007-03-20 Apple Computer, Inc. Method and apparatus for improved coding mode selection
EP1936995A3 (en) 2003-01-08 2011-01-19 Apple Inc. Method and apparatus for improved coding mode selection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ICIP2001, Vol. 1, 2001.10.07, IEEE, Thomas Wiegand et al., "Lagrange Multiplier Selection in Hybrid Video Coder Control", 542-545*

Also Published As

Publication number Publication date
JP2008141787A (ja) 2008-06-19
WO2004064414A3 (en) 2004-11-18
US20040131121A1 (en) 2004-07-08
JP4480713B2 (ja) 2010-06-16
KR20090018719A (ko) 2009-02-20
WO2004064414A2 (en) 2004-07-29
US20140362903A1 (en) 2014-12-11
KR100919557B1 (ko) 2009-10-01
EP1584200A2 (en) 2005-10-12
JP5021507B2 (ja) 2012-09-12
US8781002B2 (en) 2014-07-15
KR20050098243A (ko) 2005-10-11
US7194035B2 (en) 2007-03-20
JP2006516375A (ja) 2006-06-29
US20070127579A1 (en) 2007-06-07

Similar Documents

Publication Publication Date Title
KR101061275B1 (ko) 향상된 코딩 모드 선택 방법 및 장치
EP1528812B1 (en) Predicting motion vectors for fields forward-predicted interlaced video frames
US20070140349A1 (en) Video encoding method and apparatus
JP4529615B2 (ja) 符号化装置、符号化方法、符号化方法のプログラム及び符号化方法のプログラムを記録した記録媒体
US8149918B2 (en) Method of estimating coded block pattern and method of determining block mode using the same for moving picture encoder
US9271005B2 (en) Multi-pass video encoder and methods for use therewith
KR20040069210A (ko) 코딩 정보 및 로컬 공간 특징을 이용한 디지털 비디오신호들의 후처리에서의 선명도 향상
WO2012098845A1 (ja) 画像符号化方法、画像符号化装置、画像復号方法及び画像復号装置
JP2005513968A (ja) 映像鮮明度の向上における一時的な整合性の改善
JP2007134755A (ja) 動画像符号化装置及び画像記録再生装置
EP1936995A2 (en) Method and apparatus for improved coding mode selection
US20160156905A1 (en) Method and system for determining intra mode decision in h.264 video coding
Sarwer Efficient Motion Estimation and Mode Decision Algorithms for Advanced Video Coding
JP4429516B2 (ja) 画像符号化装置
JP6181242B2 (ja) 画像復号化方法
JP5951915B2 (ja) 画像復号化方法
JP5946980B1 (ja) 画像復号化方法
JP5911982B2 (ja) 画像復号化方法
Padia Complexity reduction for VP6 to H. 264 transcoder using motion vector reuse
JP5750191B2 (ja) 画像復号化方法
Pantoja et al. Adaptive transform size and frame-field selection for efficient VC-1 to H. 264 high profile transcoding
Murmu Fast motion estimation algorithm in H. 264 standard
WO2009046601A1 (en) Method for motion compensation
Jerbi et al. The Use of MPEG-4 AVC in the Contribution Market
Nguyen Optimized techniques for video compression and enhancement

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee