KR101263813B1

KR101263813B1 - 듀얼 패스 인코딩에서 주사 모드의 선택을 위한 방법 및 장치

Info

Publication number: KR101263813B1
Application number: KR1020067002821A
Authority: KR
Inventors: 용 헤; 시우-와이 우
Original assignee: 제너럴 인스트루먼트 코포레이션
Priority date: 2003-08-12
Filing date: 2004-08-10
Publication date: 2013-05-13
Also published as: WO2005017699A3; EP1661398A4; CA2533885A1; CN100571365C; CN1839629A; US20050036549A1; KR20060071393A; WO2005017699A2; EP1661398A2

Abstract

본 발명은 입력 이미지 시퀀스의 콘텐트에 기초하여 주사 모드들의 적응적 선택을 위한 시스템(100) 및 방법을 개시한다. 일 실시예에서, 2개의 인코더들(110, 120)이 사용된다. 제 1 인코더(110)는 입력 이미지 시퀀스를 수신하고 MPEG-2 표준 등에 따라, 적어도 2개의 상이한 주사 모드들, 예를 들면, 지그재그 주사 모드 또는 교대 주사 모드를 사용하여 이미지 시퀀스의 각 프레임을 인코딩한다. 구체적으로, 각 프레임의 상이한 부분들은 상이한 주사 모드들을 사용하여 주사될 것이다. 상기 제 1 인코딩은 제 2 인코더가 더 효율적인 주사 순서로 DCT 양자화 계수들을 할당할 수 있도록 선행 정보(look-ahead information)를 제공하므로 인코딩 비트들의 감소 및/또는 화상 품질을 개선한다.

인코더, 주사 모드, 지그재그 모드, MPEG-2, 이미지 시퀀스

Description

듀얼 패스 인코딩에서 주사 모드의 선택을 위한 방법 및 장치{Method and apparatus for selection of scanning mode in dual pass encoding}

본 발명은 본원에서 참조로 포함된 2003년 8월 12일 출원된 미국 가출원 번호 제60/494,515호의 이익을 청구한다.

본 발명의 실시예들은 일반적으로 인코딩 시스템에 관한 것이다. 특히, 본 발명은, 주사 모드가 적응적으로 선택될 수 있는 듀얼 패스 인코딩 시스템에 관한 것이다.

더 낮은 비트 레이트들과 더 높은 비디오 품질에 대한 요구들은 대역폭의 효율적인 사용을 필요로 한다. 이들 목표들을 달성하기 위해, 동화상 전문가 그룹(MPEG)은 참조로서 그 전체가 본 명세서에 포함된 ISO/IEC 국제 표준들(1991)(일반적으로, MPEG-1 포맷이라 함) 및 13818(1995)(일반적으로, MPEG-2 포맷이라 함)에서 생성된 동화상 전문 그룹(MPEG)을 제작하였다. 이들 표준들의 일 목표는 데스크톱 비디오 출판, 비디오 전화, 비디오 회의, 디지털 저장 매체 및 텔레비전 방송과 같은 복수의 상이한 애플리케이션들과 서비스들을 수용하기에 충분한 유연성을 갖는 표준 코딩/디코딩 전략을 수립하는 것이다.

상기 MPEG 표준들은 MPEG 컴플라이언트(compliant) 비트스트림을 생성하기 위한 일반적인 코딩 방법과 문법을 규정하지만, 다양한 변경들이 많은 파라미터들에 할당된 값들에서 허용되고 그에 따라 광범위한 애플리케이션들과 상호운용성을 지원한다. 실제로, MPEG은 유효 비트스트림을 생성하는데 필요한 특정 알고리즘을 정의하지 않는다. 게다가, MPEG 인코더 설계자들은 이미지 사전-처리, 모션 추정, 코딩 모드 결정들, 범위성, 레이트 제어 및 주사 모드 결정들과 같은 영역들에서 그들 자신의 MPEG-특정 알고리즘들을 개발하고 구현하는데 큰 유연성을 요구한다. 그러나, MPEG 인코더 설계자들의 공통 목표는 소정의 비트 레이트와 동작 지연 제한에 대한 본질적인 왜곡을 최소화하는 것이다.

주사 모드 결정들의 영역에서, 양자화된 이산 코사인 변환("DCT(Discrete Cosine Transform)") 블록은 다음의 연속 길이 인코딩(run-length encoding)을 용이하게 하기 위해 몇몇 상이한 주사 모드들, 예를 들면, 지그재그 또는 교대(alternative) 순서로 주사될 수 있다. 제공된 비디오 콘텐트에 따라, 하나의 주사 모드는 또 다른 주사 모드 보다 양호한 압축 효율성을 생성할 수 있거나 그 반대일 수 있다.

설명을 위해, 상기 MPEG-2 표준에서, 매 화상의 헤더에서 1비트 플래그-신호 DCT 주사 모드가 있다. 상기 주사 모드가 선택되면, 전체의 화상은 동일한 DCT 주사 모드를 사용해야 한다. 그러나, 픽셀들의 수직 상관 관계 및 수평 상관 관계는 프레임마다 변한다.

일부 인코더들은 상기 DCT 주사 모드를 결정하기 위해 프레임/필드 모션 예측 모드를 사용하며, 예를 들면, 지그재그 주사는, 프레임이 프레임 예측(예를 들면, 필름)으로서 코딩되면 선택되거나 교대 주사(alternative scan)는 정상 인터레이스된 비디오에 대해 선택된다. 그러나, 최상의 프레임/필드 모션 예측 모드는 종종 최상의 DCT 주사 모드를 생성할 수 없다. 예를 들면, 수직 라인들의 정지 이미지는 프레임 예측 및 지그재그 DCT 주사로 더 양호하게 압축되는 한편, 수평 라인들의 정지 이미지는 프레임 예측 및 교대 DCT 주사로 더 양호하게 압축된다.

따라서, 당해 기술 분야에서, 화상 품질을 유지하거나 개선하면서 보다 양호한 압축 효율을 달성하기 위해 적당한 주사 모드를 선택할 수 있는 인코딩 시스템 및 방법에 대한 필요성이 있다.

발명의 요약
일 실시예에서, 본 발명은 입력 이미지 시퀀스의 콘텐트에 기초하여 주사 모드들의 적응적인 선택을 위한 시스템 및 방법을 개시한다. 즉, 콘텐트-적응적 주사 모드 선택은 더 효율적인 주사 순서로 DCT 양자화된 계수들을 할당할 수 있으므로, 인코딩 비트들을 감소시키고 상기 화상 품질을 개선할 수 있다.

일 실시예에서, 2개의 인코더들이 사용된다. 제 1 인코더는 입력 이미지 시퀀스를 수신하고, MPEG-2 표준 등에 따라 적어도 2개의 상이한 주사 모드들, 예컨대 지그재그 주사 모드 또는 교대 주사 모드를 사용하여 이미지 시퀀스의 각각의 프레임을 인코딩한다. 구체적으로, 각각의 프레임의 상이한 부분들은 상이한 주사 모드들을 사용하여 주사될 것이다.

예를 들면, 상기 상이한 부분들은 매크로블록들의 슬라이스들, 매크로블록들, 또는 상기 매크로블록들 내의 서브블록들 등을 포함할 수 있다. 설명을 위해, 480행들을 갖는 화상은 매크로블록들의 30개의 슬라이스들로 분할될 수 있다. 매크로블록들의 홀수 슬라이스들은 제 1 주사 모드, 예컨대 지그재그 주사 모드를 사용하여 인코딩되는 한편, 매크로블록들의 짝수 슬라이스들은 제 2 주사 모드, 예컨대 교대 주사 모드를 사용하여 인코딩될 것이다. 각각의 프레임이 인코딩되면, 인코더는 어느 주사 모드가 실제로 더 효율적이고, 및/또는 화상 품질을 개선할 것인지 결정할 수 있을 것이다. 이 정보는 입력 이미지 시퀀스를 실제로 인코딩하기 위해 적당한 주사 모드를 적응적으로 선택할 수 있을 제 2 인코더에 제공된다. 적절한 DCT 주사 패턴을 사용하여, 제 2 패스 인코더는 각각의 개별 프레임 또는 화상에 대해 보다 양호한 인코딩 효율을 달성할 수 있다.

도 1은 본 발명의 듀얼 패스 인코딩 시스템을 도시하는 도면.

도 2는 본 발명의 모션 압축 인코더를 도시하는 도면.

도 3은 지그재그 주사 패턴을 도시하는 도면.

도 4는 MPEG-2에 따른 교대 주사 패턴을 도시하는 도면.

도 5a 및 도 5b는 본 발명의 입력 이미지 패턴의 콘텐트에 기초하여 주사 모드들의 적응적 선택의 방법을 도시하는 도면.

도 6은 범용 컴퓨터를 사용하여 구현된 본 발명을 도시하는 도면.

본 발명의 상술된 특징들이 구체적으로 이해될 수 있도록, 상기 간략하게 요약된 본 발명의 더 특정한 설명은 실시예들을 참조하여 기재되어 있으며, 일부는 첨부된 도면들을 도시되어 있다. 그러나, 본 발명은 다른 균등하게 효과적인 실시 예들에 대해 허용할 수 있기 때문에, 첨부된 도면들은 본 발명의 일반적인 실시예들 만을 기재할 뿐이고 이에 따라 그 범위의 한정은 고려되지 않아야 한다는 것을 알아야 한다.

이해를 돕기 위해, 도면들에 공통인 동일한 요소들을 명시하기 위해 동일한 참조번호들이 사용되었다.

도 1은 본 발명의 듀얼 패스 인코딩 시스템(100)을 도시한다. 상기 듀얼 패스 인코딩 시스템(100)은 제 1 인코더(110) 및 제 2 인코더(120)를 포함한다. 동작 시, 상기 제 1 인코더(110)는 경로(105)상에서 입력 이미지 시퀀스 내의 각 화상은 적어도 2개의 주사 모드들을 사용하여 인코딩하는 적응적 주사 모드를 구현한다. 상기 적어도 2개의 주사 모드들에 기초하여 각 프레임 동안의 결과적 인코딩 효율 정보(예를 들면, 각 주사 모드에 사용되는 인코딩 비트들의 개수)는 상기 제 2 인코더(120)에 제공된다. 그 다음, 상기 제 2 인코더(120)는 경로(125)에서 상기 입력 이미지 시퀀스(105)를 컴플라이언트(예를 들면, MPEG-컴플라이언트) 인코딩된 스트림을 실제로 인코딩하도록 적당한 주사 모드를 선택하게 하기 위해 상기 정보를 지금 제공받는다.

상기 제 1 인코더(110)는 컴플라이언트 인코더, 예를 들면, MPEG 인코더일 필요가 없다는 것을 알아야 한다. 그 이유는, 이미지 시퀀스가 상기 제 1 인코더에 의해 최종 컴플라이언트 인코딩된 스트림으로 실제로 인코딩되지 않는다는 것이다. 상기 제 1 인코더의 주요 목적은 상이한 주사 모드들을 상기 입력 이미지 시퀀스 내의 각 이미지에 적용하는 것이다. 예를 들면, 각 화상들 내의 홀수 슬라이스들은 상기 지그재그 주사 모드(도 3에 도시됨)를 사용하여 주사되는 반면, 각 화상들의 짝수 슬라이스는 상기 교대 주사 모드(도 4에 도시됨)를 사용하여 주사된다. 상기 인코딩된 이미지의 효율성 및/또는 품질은 각각의 선택된 주사 모드들 각각의 결과, 예를 들면, 홀수 슬라이스들의 효율성과 짝수 슬라이스들의 효율성과의 비교에 기초하여 쉽게 결정될 수 있다. 그 다음, 경로(107) 상의 이러한 정보는 상기 이미지 시퀀스를 실제로 인코딩하도록 상기 주사 모드를 적당하게 선택하기 위해 상기 제 2 인코더에 의해 효과적으로 이용될 수 있다. 따라서, 상기 제 1 인코더는 넌-컴플라이언트 인코더 또는 컴플라이언트 인코더일 수 있는 한편, 상기 제 2 인코더는 컴플라이언트 인코더이다.

본 발명이 MPEG-2의 콘텐트 내에 기재되어 있지만, 본 발명은 한정되지 않는다는 것을 알아야 한다. 즉, 상기 컴플라이언트 인코더는 MPEG-2 컴플라이언트 인코더 또는 임의의 다른 압축 표준들, 예를 들면, MPEG-4, H.261, H.263 등에 적응하는 인코더일 수 있다. 즉, 본 발명은 다수의 주사 모드 결정들을 허용하는 임의의 다른 압축 표준들에 적용될 수 있다.

도 2는 본 발명의 예시적인 모션 보상 인코더(200), 예를 들면, 도 1의 컴플라이언트 인코더(120)를 도시한다. 본 발명의 일 실시예에서, 상기 장치(200)는 인코더 또는 더 복잡한 가변 블록-기반 모션 보상 코딩 시스템의 일부일 수 있다. 상기 장치(200)는 가변 블록 모션 추정 모듈(240), 모션 보상 모듈(250), 레이트 제어 모듈(230), 이산 코사인 변환(DCT) 모듈(260), 양자화(Q) 모듈(270), 가변 길이 코딩(VLC) 모듈(280), 버퍼(BUF)(290), 역 양자화(Q^-1) 모듈(275), 역 DCT(DCT^-1) 변환 모듈(265), 감산기(215) 및 합산기(255)를 포함한다. 상기 장치(200)가 복수의 모듈들을 포함하지만, 기술분야의 당업자는 다양한 모듈들에 의해 수행되는 기능들이 도 2에 도시된 별도의 모듈들로 분리되도록 요구되지 않는다는 것을 알 수 있다. 예를 들면, 상기 모션 보상 모듈(250), 역 양자화 모듈(275) 및 역 DCT 모듈(265)을 포함하는 모듈들의 세트는 일반적으로 "내장된 디코더(embedded decoder)"로서 잘 알려져 있다.

도 2는 디지털화되고 상기 MPEG 표준에 따라 휘도 및 2개의 색차 신호(color difference signal)들(Y, C_r, C_b)로서 표현된 경로(210) 상의 입력 비디오 이미지(이미지 시퀀스)를 도시한다. 이들 신호들은, 각 화상(프레임)가 상이한 크기들을 갖는 복수의 블록들에 의해 표현되도록 복수의 계층들(시퀀스, 화상들의 그룹, 화상, 슬라이스 및 블록들)로 더 분할된다. 블록 유닛들로의 화상의 분할은 2개의 연속 화상들 간의 변화들을 식별하는 능력을 개선하고 낮은 크기로 변환된 계수들(이하 기재됨)의 제거를 통해 이미지 압축을 개선한다. 상기 디지털화 신호는 적절한 윈도우, 해상도 및 입력 포맷을 선택하기 위한 포맷 변환과 같은 사전-처리를 선택적으로 경험할 수 있다.

경로(210) 상의 입력 비디오 이미지는 모션 벡터들을 추정하기 위한 가변 블록 모션 추정 모듈(240)로 수신된다. 상기 가변 블록 모션 추정 모듈(240)로부터의 상기 모션 벡터들은 샘플 값들의 예측의 효율성을 개선하기 위해 상기 모션 보상 모듈(250)에 의해 수신된다. 모션 보상은 오프셋들을 과거 및/또는 예측 에러를 형성하는데 사용되는 이전 디코딩된 샘플 값들을 포함한 미래 참조 프레임들에 제공하기 위해 모션 벡터들을 사용하는 예측을 포함한다. 즉, 상기 모션 보상 모듈(250)은 현재 프레임의 추정치를 구성하기 위해 상기 이전 디코딩된 프레임 및 상기 모션 값들을 사용한다.

게다가, 주어진 블록에 대한 모션 보상 예측을 수행하기 전에, 코딩 모드가 선택되어야 한다. 코딩 모드 결정의 영역에서, MPEG은 복수의 상이한 코딩 모드들을 제공한다. 일반적으로, 이들 코딩 모드들은 2개의 넓은 분류들, 인터 모드 코딩 및 인트라 모드 코딩으로 그룹화된다. 인트라 모드 코딩은 블록 및 화상로부터의 정보만을 사용하는 블록 또는 화상의 코딩을 포함한다. 반대로, 인터 모드 코딩은 자신과 상이한 시간들에서 발생하는 블록들 및 화상들 모두로부터의 정보를 사용하는 블록 또는 화상의 코딩을 포함한다. 구체적으로, MPEG-2는 인트라 모드, 모션없는 보상 모드(No MC), 프레임/필드/듀얼-프라임 모션 보상 인터 모드, 순방향/역방향/평균 인터 모드 및 필드/프레임 DCT 모드를 포함하는 코딩 모드들을 제공한다. 각 블록에 대한 코딩 모드의 적당한 선택은 코딩 성능을 개선할 것이다. 다시, 다양한 방법들은 코딩 모드 결정을 구현하기 위해 인코더 설계자에 현재 가용하다.

코딩 모드가 선택되면, 모션 보상 모듈(250)은 과거 및/또는 미래 참조 화상들에 기초하여 블록의 콘텐트들의 경로(252) 상의 모션 보상된 예측(예측된 이미지)을 발생시킨다. 경로(252) 상의 이러한 모션 보상된 예측은 현재 블록에서 경로(210) 상의 비디오 이미지로부터 감산기(215)를 통해 감산되어, 경로(253) 상에 에러 신호 또는 예측 잔여 신호를 형성한다. 상기 예측 잔여 신호의 형성은 상기 입력 비디오 이미지에서 잔여 정보를 효과적으로 제거한다. 즉, 전송 채널을 통해 실제 비디오 이미지를 전송하는 것 대신에, 상기 비디오 이미지의 예측들과 이들 예측들의 에러들을 생성하는데 필요한 정보만은 전송되어, 전송될 필요가 있는 데이터량을 크게 감소시킨다. 비트 레이트를 더 감소시키기 위해, 경로(253) 상의 예측 잔여 신호는 인코딩을 위해 상기 DCT 모듈(260)에 전달된다.

그 다음, 상기 DCT 모듈(260)은 순방향 이산 코사인 변환 과정을 상기 예측 잔여 신호의 각 블록에 적용하여, DCT 계수들의 8 x 8 블록들의 세트를 생성한다. DCT 계수들의 8 x 8 블록들의 개수는 각 블록의 크기에 좌우할 것이다. 상기 이산 코사인 변환은 상기 DCT 계수들이 코사인 기본 기능들의 세트의 진폭들을 나타내는 역 가능한 이산 직교 변환이다. 이산 코사인 변환의 하나의 이점은, 상기 DCT 계수들이 상관되지 않는다는 것이다. 상기 DCT 계수들의 비상관관계(decorrelation)는, 각 계수가 압축 효율의 손실 없이 독립적으로 처리될 수 있으므로, 압축을 위해 중요하다. 게다가, 상기 DCT 기본 기능 또는 서브밴드 분해는 다음의 양자화 단계에 중요한 정신적시각 기준의 효과적인 사용을 허용한다.

DCT 계수들의 최종 8 x 8 블록은, 상기 DCT 계수들이 양자화되는 양자화 모듈(270)에 의해 수신된다. 양자화의 과정은 정수 값들을 만들기 위해 적절한 반올림으로 양자화 값들의 세트에 의해 상기 DCT 계수들을 분할함으로써 표현된다. 상기 양자화 값들은 (가시적으로 가중된 양자화로서 알려진) 기본 기능들의 가시성에 기초한 기준을 사용하여, 각각의 DCT 계수에 대해 개별적으로 설정될 수 있다. 즉, 상기 양자화 값은 주어진 기본 기능의 가시성에 대한 임계치, 즉, 인간 눈에 의해 검출가능한 계수 크기에 대응한다. 상기 DCT 계수들을 이 값으로 양자화함으로써, 많은 DCT 계수들은 값 "0(zero)"으로 변환되고, 그에 의해 이미지 압축 효율을 개선한다. 양자화 과정은 중요한 연산이고 가시 품질을 실현하고 그 출력을 주어진 비트 레이트(레이트 제어)에 일치시키기 위해 상기 인코더를 제어하는 중요한 도구이다. 상이한 양자화 값이 각각의 DCT 계수에 적용될 수 있으므로, "양자화 매트릭스(quantization matrix)"는 일반적으로 참조표, 예를 들면, 휘도 양자화 표 또는 색차 양자화 표로서 수립된다. 따라서, 상기 인코더는 변환된 블록에서 각 주파수 계수가 양자화되는 방법을 결정하는 양자화 매트릭스를 선택한다.

다음에, 상기 양자화된 DCT 계수들의 최종 8 x 8 블록은 양자화된 계수들의 2차원 블록이 특정 주사 모드, 예를 들면, MPEG-2에 따라 도 3의 "지그-재그(zig-zag)" 순서 또는 도 4의 "교대(alternative)" 주사 순서를 사용하여 주사되는, 신호 접속(271)을 통해 가변 길이 코딩 모듈(280)에 의해 수신되어, 이를 양자화된 DCT 계수들의 1차원 스트링으로 변환시킨다. 예를 들면, 상기 지그-재그 주사 순서는 최저 공간 주파수에서 최고 공간 주파수로 상기 DCT 계수들의 근사한 시퀀셜 오더링이다. 양자화는 일반적으로 높은 공간 주파수들의 DCT 계수들을 0으로 감소시키므로, 상기 양자화된 DCT 계수들의 1차원 스트링은 일련의 0들이 수반되는 몇몇 정수들로 일반적으로 표현된다.

일 실시예에서, 가변 길이 코딩(VLC) 모듈(280)에서 적당한 주사 모드의 선택은 경로(107) 상의 정보로부터 결정된다. 즉, 각 인코딩된 이미지의 효율 및/또는 품질은 상기 선택된 주사 모드들 각각의 상기 제 1 인코더(110)에 의해 공급되는 결과, 예를 들면, 홀수 슬라이스들의 코딩 효율을 짝수 슬라이스들과 비교하여 쉽게 결정될 수 있다. 설명을 위해, 상기 제 2 패스 인코더(120)는 상기 지그재그 주사 및 상기 교대 주사 패턴에 대한 복잡성(사용된 비트들)을 비교할 수 있고, 그 다음에, 상기 프레임의 인코딩의 시작 전에 인코딩 비트들을 덜 발생시키는 주사 패턴을 선택할 수 있다. 따라서, 경로(107) 상의 정보는 상기 이미지 시퀀스를 실제로 인코딩하도록 상기 주사 모드를 적절하게 선택하기 위해 상기 제 2 인코더에 의해 효과적으로 이용될 수 있다.

그 다음에, 가변 길이 코딩(VLC) 모듈(280)은 블록 형태 및 모션 벡터들과 같은 블록에 대한 일련의 양자화된 DCT 계수들과 모든 사이드-정보를 인코딩한다. 상기 VLC 모듈(280)은 가변 길이 코딩과 연속-길이 코딩을 이용하여 코딩 효율을 효율적으로 개선한다. 가변 길이 코딩은, 더 짧은 코드-워드들이 빈번한 이벤트들에 할당되고 더 긴 코드-워드들이 덜 빈번한 이벤트들에 할당되는 가역 코딩 과정인 한편, 연속-길이 코딩은 단일 심볼로 일련의 심볼들을 인코딩함으로써 코딩 효율을 증가시킨다. 이들 코딩 스킴들은 기술분야에 잘 알려져 있고, 정수-길이 코드 워드들이 사용될 때 종종 허프만 코딩(Huffman coding)이라 한다. 따라서, 상기 VLC 모듈(280)은 상기 입력 비디오 이미지를 유효 데이터 스트림으로 변환하는 최종 단계를 수행한다.

상기 데이터 스트림은 "선입-선출(First In-First Out: FIFO) 버퍼(290)로 수신된다. 상이한 화상 유형들과 가변 길이 코딩을 사용하는 결과는 상기 FIFO로의 전체 비트 레이트가 가변한다는 것이다. 즉, 각 프레임을 코딩하는데 사용되는 비트 수는 다를 수 있다. 고정-레이트 채널을 포함하는 애플리케이션들에서, FIFO 버퍼는 비트 레이트를 평탄화하기 위한 채널에 상기 인코더 출력을 일치시키는데 사용된다. 따라서, FIFO 버퍼(290)의 출력 신호는 상기 입력 비디오 이미지(210)의 압축 표현이며, 저장 매체 또는 경로(295) 상의 통신 채널에 전송된다.

상기 레이트 제어 모듈(230)은 상기 데이터 스트림의 전송 이후에 (도시되지 않은 수신기 또는 타겟 저장 장치 내의) 디코더 측 상에서 오버플로우(overflow) 및 언더플로우(underflow)를 방지하기 위해 상기 FIFO 버퍼(290)를 진입하는 데이터 스트림의 비트 레이트를 모니터에 제공하고 이를 조정한다. 고정-레이트 채널은 일정한 레이트로 비트들을 상기 디코더 내의 입력 버퍼로 출력하는 것으로 가정된다. 화상 레이트로 결정되는 일정한 간격들에서, 상기 디코더는 그 입력 버퍼로부터 다음 화상에 대한 모든 비트들을 바로 제거한다. 상기 입력 버퍼에 너무 적은 비트들이 있다면, 즉 다음의 화상에 대한 모든 비트들은 수신되지 않았다면, 상기 입력 버퍼는 에러를 초래하여 언더플로우한다. 유사하게, 상기 입력 버퍼에 너무 많은 비트들이 있다면, 즉, 상기 입력 버퍼의 용량은 화상 시작들 간에 초과되면, 상기 입력 버퍼는 오버플로우 에러를 초래하여 오버플로우한다. 따라서, 상기 인코더에 의해 발생된 비트 수를 제어하기 위해 버퍼(290)의 상태를 모니터하여 오버플로우 및 언더플로우 조건들을 방지하는 것이 상기 레이트 제어 모듈(230)의 임무이다. 레이트 제어 알고리즘들은 이미지 품질과 압축 효율에 영향을 미치는 중요한 역할을 한다.

도 5a 및 도 5b는 본 발명의 입력 이미지 시퀀스의 콘텐트에 기초하여 주사 모드들의 적응적 선택을 위한 방법(500)을 도시한다. 구체적으로, 일 실시예에서, 본 발명은 비디오 품질을 개선하기 위한 비디오 콘텐트에 따라 MPEG-2에서 적절한 DCT 주사 패턴을 선택하는 방법 및 장치를 수반한다.

일 실시예에서, 본 발명은 제 1 패스 인코더 상에서 매 앵커 프레임(anchor frame)을 P 프레임으로서 인코딩한다. 상기 제 1 패스 인코더 상의 P 프레임들 내의 교대 슬라이스들은 I 슬라이스들 및 P 슬라이스들로서 교대로 인코딩된다. 매 I 및 P 슬라이스들 쌍의 상기 DCT 양자화 계수들은 지그재그 주사 패턴과 교대 주사 패턴을 사용하여 교대로 배열된다. 따라서, 지그재그 및 교대 주사 패턴 모두의 복잡성(사용된 비트들)은 동일한 프레임에 대한 주사 패턴들을 2번 적용하지 않고 계산된다. 이 구성은 상기 제 2 패스 인코더가 더 적은 인코딩 비트들을 사용하는 주사 패턴을 선택하게 한다.

듀얼 패스 인코딩 시스템에서, 상기 제 1 패스 인코더는 I 및 P 슬라이스로서 모든 다른 슬라이스를 대신 인코딩함으로써 하나의 앵커 프레임에 대한 I 및 P 복잡성을 한번 계산한다. 상기 제 2 패스 인코더는 이러한 선행 정보(look-ahead information)를 이용하여 화상 코딩 유형을 결정할 것이다. 주사 패턴은 화상의 인코딩 시작 전에 결정되어야만 한다. 상이한 주사 패턴으로 동일한 프레임을 두번 인코딩하지 않기 위해, 상기 제 1 패스 인코더는 쌍으로 각각 인접하는 I 및 P 슬라이스를 그룹화하고, 각 I/P 슬라이스 쌍의 상기 DCT 양자화 계수들은 지그재그 또는 교대 주사 패턴을 사용하여 교대로 배열된다. 상이한 주사 패턴과 함께 사용된 비트들은 상기 제 2 패스 인코더 주사 패턴 결정을 위한 참조로서 축적된다.

상기 제 2 패스 인코더에 대한 인코딩 프레임이 앵커 프레임(예를 들면, B 프레임)이 아닌 경우, 상기 제 1 패스 인코더에 대한 B 프레임들에서의 교대 슬라이스들의 상기 DCT 양자화 계수들은 지그재그 또는 교대 주사 패턴을 사용하여 번갈아 배열된다. 따라서, 주사 패턴과 함께 사용되는 비트들은 동일한 패턴을 두 번 인코딩하지 않고 계산된다. 상이한 주사 패턴들과 함께 사용되는 비트들은 상기 제 2 패스 인코더 주사 패턴 결정에 대한 참조로서 축적된다. 이미지 시퀀스에서 각 화상에 대한 주사 모드를 적응적으로 선택하는 상술된 방법은 도 5a 및 도 5b를 참조하여 지금 기재된다.

방법(500)은 단계(505)에서 시작하고 프레임 또는 화상이 상기 제 1 인코더에 의해 수신되는 단계(510)로 진행한다. 단계(510)에서, 방법(500)은 상기 수신된 프레임이 앵커 프레임인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(520)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(550)로 진행한다.

단계(520)에서, 방법(500)은 현재의 슬라이스가 I 슬라이스인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(530)로 진행한다. 상기 질의가 부정적으로 응답되면(예를 들면, 현재의 슬라이스가 P 슬라이스임), 방법(500)은 단계(540)로 진행한다.

단계(530)에서, 방법(500)은 상기 I 슬라이스가 제 1의 I 슬라이스인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(532)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(535)로 진행한다.

단계(532)에서, 방법(500)은 상기 DCT 양자화 계수들을 지그재그 순서로 할당한다. 그 다음에, 단계(534)에서 방법(500)은 상기 지그재그 주사를 사용하여 인코딩 비트들을 축적한다.

단계(535)에서, 방법(500)은, 이전의 I 슬라이스가 지그재그 순서인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(536)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(542)로 진행한다.

단계(536)에서, 방법(500)은 상기 DCT 양자화 계수들을 교대 순서로 할당한다. 그 다음, 단계(538)에서 방법(500)은 상기 교대 주사를 사용하여 인코딩 비트들을 축적한다.

단계(542)에서, 방법(500)은 상기 DCT 양자화 계수들을 지그재그 순서로 할당한다. 그 다음, 단계(544)에서 방법(500)은 상기 지그재그 주사를 사용하여 상기 인코딩 비트들을 축적한다.

단계(539)에서, 방법(500)은 인코딩될 필요가 있는 프레임에서 다른 슬라이스가 있는지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 전체의 프레임이 처리될 때까지 다양한 단계들이 반복되는 단계(520)로 돌아간다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(560)로 진행한다.

단계(550)에서, 방법(500)은 상기 B 슬라이스가 제 1의 B 슬라이스인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(551)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(553)로 진행한다.

단계(551)에서, 방법(500)은 상기 DCT 양자화 계수들을 지그재그 순서로 할당한다. 그 다음, 단계(552)에서 방법(500)은 상기 지그재그 주사를 사용하여 인코딩 비트들을 축적한다.

단계(553)에서, 방법(500)은 이전의 B 슬라이스가 지그재그 순서인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은 단계(554)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(556)로 진행한다.

단계(554)에서, 방법(500)은 상기 DCT 양자화 계수들을 교대 주사 순서로 할당한다. 그 다음, 단계(555)에서 방법(500)은 상기 교대 주사를 사용하여 상기 인코딩 비트들을 축적한다.

단계(556)에서, 방법(500)은 상기 DCT 양자화 계수들을 지그재그 순서로 할당한다. 그 다음에, 단계(557)에서 방법(500)은 상기 지그재그 주사를 사용하여 상기 인코딩 비트들을 축적한다.

단계(559)에서, 방법(500)은 이전의 B 슬라이스가 지그재그 순서인지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은, 전체 프레임이 처리될 때까지 다양한 단계들이 반복되는 단계(550)로 돌아간다. 상기 질의가 부정적으로 응답되면, 방법(500)은 단계(560)로 진행한다.

단계(560)에서, 방법(500)은 상기 총 지그재그 주사 코딩 비트들이 총 교대 주사 코딩 비트들보다 큰지를 질의한다. 상기 질의가 긍정적으로 응답되면, 방법(500)은, 현재의 화상에 대한 교대 주사 모드를 선택하기 위해 상기 제 2 인코더에게 알리는 상기 제 2 인코더에 전송되는 단계(565)로 진행한다. 상기 질의가 부정적으로 응답되면, 방법(500)은 현재의 화상에 대한 상기 지그재그 주사 모드를 선택하기 위해 상기 제 2 인코더에게 알리는 상기 제 2 인코더에 전송되는 단계(567)로 진행한다.

본 발명이 상이한 주사 모드들에서 프레임의 교대 슬라이스들의 인코딩에 비추어 상술되어 있지만, 본 발명은 이에 한정되지 않는다. 대안적으로, 상기 제 1 패스 인코더에서 하나 걸러 매크로블록은 지그재그 및 교대 DCT 주사 순서로 인코딩될 수 있고, 상기 지그재그 및 교대 주사 순서에 사용되는 비트들은 유사하게 축적되고 상기 제 2 패스 인코더 주사 패턴 결정에 사용된다. 사실상, 프레임의 임의의 교대 "부분"이 사용될 수 있고, 상기 부분의 크기(예를 들면, 슬라이스들의 그룹, 슬라이스, 매크로블록, 서브블록 등)는 응용 전제조건들에 기초하여 선택될 수 있다.

대안적으로, 지그재그 주사 및 교대 주사 매크로블록의 체커 보드 패턴은 또한 상기 제 1 패스 인코더에서 사용될 수 있다.

도 6은 범용 컴퓨터로 구현되는 듀얼 패스 인코딩 시스템의 블록도이다. 일 실시예에서, 상기 듀얼 패스 인코딩 시스템(600)은 범용 컴퓨터 또는 임의의 다른 하드웨어 등가물들을 사용하여 구현된다. 보다 구체적으로는, 상기 듀얼 패스 인코딩 시스템(600)은 프로세서(CPU)(610), 메모리(620), 예를 들면, 랜덤 액세스 메모리(RAM) 및/또는 판독 전용 메모리(ROM), 제 1 인코더(622), 제 2 인코더(624) 및 다양한 입력/출력 장치들(630)(예를 들면, 테이프 드라이브, 플로피 드라이브, 하드 디스크 드라이브 또는 컴팩트 디스크 드라이브, 수신기, 전송기, 스피커, 표시장치, 출력포트, 사용자 입력 장치(키보드, 키패드, 마우스 등과 같은) 또는 스피치 명령들을 획득하기 위한 마이크로폰을 포함하지만 이에 한정되지 않는 저장 장치들)을 포함한다.

상기 제 1 인코더(622) 및 상기 제 2 인코더(624)는 통신 채널을 통해 상기 CPU(610)에 결합되는 물리적 장치들 또는 서브시스템들로서 구현될 수 있다는 것을 알아야 한다. 대안적으로, 상기 제 1 인코더(622) 및 상기 제 2 인코더(624)는 하나 이상의 소프트웨어 응용들(또는, 소프트웨어 및 하드웨어의 조합도, 예를 들면, 주문형 집적 회로들(ASIC))로 표현되며, 상기 소프트웨어는 저장 매체(예를 들면, 자기 또는 광학 드라이브 또는 디스켓)로부터 로딩되고 상기 컴퓨터의 상기 메모리(620)에서 상기 CPU에 의해 동작된다. 이와 같이, 본 발명의 상기 제 1 인코더(622) 및 상기 제 2 인코더(624)(관련된 데이터 구조들 포함)는 컴퓨터 판독가능한 매체 또는 캐리어, 예를 들면, RAM 메모리, 자기 또는 광학 드라이브 또는 디스켓 등 상에 저장될 수 있다.

상기가 본 발명의 실시예들에 관한 것이지만, 본 발명의 다른 및 추가 실시예들은 그 기본 범위를 벗어나지 않고 고안될 수 있고 그 범위는 다음의 청구항들에 의해 결정된다.

Claims

이미지 시퀀스 내의 화상에 대한 주사 모드를 선택하는 방법에 있어서:

상기 화상을 적어도 두 개의 부분들로 분할함으로써 적어도 2개의 주사 모드들을 사용하여 제 1 인코더에서 상기 화상을 인코딩하는 단계로서, 상기 적어도 두개의 부분들은 적어도 두 개의 서로 다른 주사 모드들을 이용하여 코딩되는, 상기 화상을 인코딩하는 단계;

상기 적어도 2개의 주사 모드들에 대한 코딩 효율 정보(coding efficiency information)를 결정하는 단계; 및

제 2 인코더에서 상기 화상을 인코딩하기 위해 상기 적어도 2개의 주사 모드들 중 하나를 상기 코딩 효율 정보에 기초하여 선택하는 단계를 포함하는, 주사 모드 선택 방법.
제 1 항에 있어서,

상기 제 2 인코더는 압축 표준에 따르는 컴플라이언트(compliant) 인코더인, 주사 모드 선택 방법.
제 2 항에 있어서,

상기 압축 표준은 동화상 전문 그룹(MPEG)-2인, 주사 모드 선택 방법.
제 1 항에 있어서,

상기 적어도 2개의 주사 모드들은 지그재그 주사 모드(zigzag scan mode) 및 교대 모드(alternative mode)를 포함하는, 주사 모드 선택 방법.
삭제
제 1 항에 있어서,

상기 적어도 두 개의 부분들은 슬라이스들, 매크로블록들 및 서브블록들 중 적어도 하나를 포함하는, 주사 모드 선택 방법.
제 6 항에 있어서,

상기 화상이 앵커 프레임(anchor frame)이면, 상기 화상의 적어도 두 개의 부분들은 교대하는 I 부분들 또는 P 부분들로서 인코딩되는, 주사 모드 선택 방법.
이미지 시퀀스 내의 화상에 대한 주사 모드를 선택하기 위한 장치(100)에 있어서:

상기 화상을 적어도 두 개의 부분들로 분할함으로써 적어도 2개의 주사 모드들을 이용하여 상기 화상을 인코딩하기 위한 제 1 인코더(110)로서, 상기 적어도 두 부분들 중 제 1 부분은 제 1 주사 모드를 이용하여 스캐닝 되고 상기 적어도 두 부분들 중 제 2 부분은 제2 주사 모드를 이용하여 스캐닝 되는, 상기 화상을 인코딩하기 위한 제 1 인코더; 및

상기 화상을 인코딩하기 위해 상기 적어도 2개의 주사 모드들 중 하나를, 상기 제 1 인코더로부터 수신된 상기 적어도 2개의 주사 모드들에 대한 코딩 효율 정보에 기초하여 선택하기 위한 제 2 인코더(120)를 포함하는, 주사 모드 선택 장치.
제 8 항에 있어서,

상기 제 2 인코더(120)는 동화상 전문 그룹(MPEG)-2에 따르는 컴플라이언트 인코더인, 주사 모드 선택 장치.
제 8 항에 있어서,

상기 적어도 2개의 주사 모드들은 지그재그 주사 모드 및 교대 모드를 포함하는, 주사 모드 선택 장치.