KR100878825B1 - 스케일러블 비디오 신호 인코딩 및 디코딩 방법 - Google Patents

스케일러블 비디오 신호 인코딩 및 디코딩 방법 Download PDF

Info

Publication number
KR100878825B1
KR100878825B1 KR1020077025373A KR20077025373A KR100878825B1 KR 100878825 B1 KR100878825 B1 KR 100878825B1 KR 1020077025373 A KR1020077025373 A KR 1020077025373A KR 20077025373 A KR20077025373 A KR 20077025373A KR 100878825 B1 KR100878825 B1 KR 100878825B1
Authority
KR
South Korea
Prior art keywords
image
layer
current
base layer
offset
Prior art date
Application number
KR1020077025373A
Other languages
English (en)
Other versions
KR20080013881A (ko
Inventor
전병문
박승욱
박지호
윤도현
박현욱
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020050084742A external-priority patent/KR20060105408A/ko
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20080013881A publication Critical patent/KR20080013881A/ko
Application granted granted Critical
Publication of KR100878825B1 publication Critical patent/KR100878825B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Abstract

일 실시예에 있어서, 비디오 신호의 디코딩 방법은 현재 레이어에서의 현재 이미지의 적어도 일 부분을 예측하는 단계를 포함하며, 상기 예측하는 단계는, 베이스 레이어에서의 베이스 이미지의 적어도 일 부분과 오프셋 정보에 기초하고, 상기 오프셋 정보는 상기 현재 이미지 내의 적어도 하나의 픽셀과 상기 베이스 이미지 내의 해당하는 적어도 하나의 픽셀에 기초하여 오프셋을 나타낸다.
비디오

Description

스케일러블 비디오 신호 인코딩 및 디코딩 방법{METHOD FOR SCALABLY ENCODING AND DECODING VIDEO SIGNAL}
본 발명은 비디오 신호의 스케일러블 인코딩 및 디코딩 방법에 관한 것이다.
TV 신호들에 요구되는 고대역폭을 이동전화들이나 노트북 컴퓨터에서 무선으로 송수신되는 디지털 비디오 신호들에 할당하기는 곤란하다. 이와 유사한 곤란성들이 장래에 폭넓게 사용될 이동 TV들과 휴대용 PC들에서도 발생할 것이다. 이와 같이, 이동 장치들에 이용될 비디오 압축 표준들은 높은 비디오 신호 압축 효율성들을 가져야 한다.
이러한 이동 장치들은 다양한 처리능력들과 다양한 프레젠테이션 능력들을 가짐으로써 다양한 압축 비디오 형태들이 마련되어야 한다. 즉, 초당 전송되는 프레임들의 수, 해상도, 그리고 픽셀당 비트들의 수와 같은 수많은 변수들의 상이한 조합들을 갖는 다양한 서로 다른 품질의 비디오 데이터들이 하나의 비디오 소스에 기반하여 제공되어야 한다. 이는 콘텐츠 제공자들에게 많은 부담을 지우게 된다.
상기와 같은 이유 때문에, 콘텐츠 제공자들은 각각의 소스 비디오에 대한 높은 전송률의 압축 비디오 데이터를 준비하는 한편, 이동 장치로부터 요구를 수신 할 경우, 압축 비디오를 디코딩하고 상기 이동 장치의 비디오 처리 능력들에 적합한 비디오 데이터로 상기 디코딩된 비디오를 다시 인코딩하는 과정을 수행한다.
그러나, 이러한 방법은 디코딩, 스케일링 그리고 인코딩 과정들을 포함하는 트랜스코딩 절차를 수반하게 되어, 요구된 데이터를 상기 이동 장치에 제공하는데 있어서 어느 정도의 시간 지연을 초래한다. 또한, 상기 트랜스코딩 절차는, 다양한 타겟 인코딩 포맷들에 대응하기 위하여, 복잡한 하드웨어와 알고리즘들을 요구한다.
상기 문제들을 극복하기 위하여, 스케일러블 비디오 코덱(scalable video codec, SVC)이 개발되어 왔다. 이러한 방식은 비디오를 최상의 화질을 갖는 픽쳐들의 시퀀스로 인코딩하며, 한편, 이러한 방식은 상기 인코딩된 픽쳐 (프레임) 시퀀스(특히, 프레임들의 전체 시퀀스로부터 간헐적으로 선택되는 프레임들의 일부 시퀀스)의 일부가 소정의 화질을 생성할 수 있도록 디코딩될 수 있다는 것을 확신한다.
움직임 보상 시간 필터링(motion compensated temporal filtering, MCTF)은 인코딩 방식으로 스케일러블 비디오 코덱 (scalable video codec)에서 사용되는 것으로 제안되어 왔다. 상기 MCTF 방식은 초당 전송되는 비트들의 수를 감소시키기 위하여 높은 압축 효율, 즉, 높은 코딩 효율을 갖는다. 상기 MCTF 방식은 대역폭이 제한된 이동통신 환경과 같은 전송 환경들에 적용되기에 적합하다.
상술한 바와 같이, 스케일러블 코딩 방식으로 인코딩된 픽쳐들의 시퀀스 일부가 수신될 수 있고 또한 소정 레벨의 화질을 갖는 비디오로 처리될 수 있다는 사 실이 확신되어도, 만약 전송률(bitrate)이 낮아지면 화질이 상당히 감소하는 문제점이 여전히 남아있다. 이러한 문제점의 해결책으로서, 낮은 전송률들에 대한 보조 픽쳐 시퀀스, 예를 들면, 작은 스크린 크기 또는 낮은 프레임 레이트를 갖는 픽쳐들의 시퀀스를 제공하는 것이다.
상기 보조 픽쳐 시퀀스는 베이스 레이어(base layer, BL)이라 부르고, 주 픽쳐 시퀀스는 인핸스트 또는 인핸스먼트 레이어(enhanced or enhancement layer)라 부른다. 동일한 비디오 콘텐트가 서로 다른 공간 해상도 또는 서로 다른 프레임 레이트를 갖는 두 개의 계층들로 인코딩되므로, 상기 베이스 및 인핸스트 레이어들의 비디오 신호들은 리던던시를 갖는다. 상기 인핸스트 레이어의 코딩 효율을 증가시키기 위하여, 움직임 정보 또는 상기 베이스 레이어의 텍스쳐 정보를 이용하여 상기 인핸스트 레이어의 비디오 신호가 예측될 수도 있다. 이러한 예측 (prediction) 방법을 계층간 예측이라 부른다.
도 1은 인트라 베이스 레이어 예측 방법과 인터레이어 레지듀얼 예측 방법의 예들을 나타낸다. 이러한 예들은 상기 베이스 레이어를 이용하여 상기 인핸스트 레이어를 인코딩하는 인터레이어 예측 방법들응 나타낸다.
상기 인트라 베이스 레이어 예측 방법은 상기 베이스 레이어의 텍스처 (texture) 또는 이미지 데이터를 사용한다. 특히, 상기 인트라 베이스 레이어 예측 방법은 인트라 모드에서 인코딩된 상기 베이스 레이어의 해당 블록을 이용하여 상기 인핸스트 레이어의 매크로블록의 예측 데이터를 생성한다. 상기 용어 '해당 블록'은 상기 매크로블록을 포함하는 프레임과 임시적으로 일치하는 베이스 레이어 프레임에 위치하며 또한 만약 상기 베이스 레이어가 상기 인핸스트 레이어의 스크린 사이즈 대 상기 베이스 레이어의 스크린 사이즈 비에 의하여 확대된 경우에 상기 매크로블록을 덮는 영역을 갖게 될 블록을 나타낸다.
업-샘플링 (upsampling)을 통하여 상기 인핸스트 레이어의 스크린 사이즈 대 상기 베이스 레이어의 스크린 사이즈의 비로 상기 해당 블록을 확대한 다음, 상기 인트라 베이스 레이어 예측 방법은 상기 베이스 레이어의 상기 해당 블록을 사용한다.
상기 인터레이어 레지듀얼 예측 방법은 상기 인트라 베이스 레이어 예측 방법과 유사하지만, 다음과 같은 점에서 다르다. 즉, 상기 인터레이어 레지듀얼 예측 방법은, 이미지 데이터를 포함하는 베이스 레이어의 해당 블록 보다는 이미지 차이의 데이터인 레지듀얼 데이터를 포함하도록 인코딩된 베이스 레이어의 해당 블록을 사용한다.
상기 인터레이어 레지듀얼 예측 방법은, 레지듀얼 데이터를 포함하도록 인코딩된 상기 베이스 레이어의 해당 블록을 이용하여 이미지 차이의 데이터인 레지듀얼 데이터를 포함하도록 인코딩된 인핸스트 레이어의 매크로블록의 예측 데이터를 생성한다.
상기 인트라 베이스 레이어 예측 방법과 유사하게, 업-샘플링을 통하여 상기 인핸스트 레이어의 스크린 사이즈 대 상기 베이스 레이어의 스크린 사이즈 비로 상기 해당 블록을 확대한 다음, 상기 인터레이어 레지듀얼 예측 방법은 레지듀얼 데이터를 포함하는 상기 베이스 레이어의 상기 해당 블록을 사용한다.
상기 인터레이어 예측 방법에서 사용되는 낮은 해상도를 갖는 베이스 레이어는 비디오 소스를 다운-샘플링(downsampling)하여 생성된다. 다양한 서로 다른 다운-샘플링 기법들과 다운-샘플링 비들(ratios) (즉, 수평 그리고/또는 수직 크기 감소 비들)이 채용될 수 있기 때문에, 동일한 비디오 소스로부터 생산된 인핸스트 및 베이스 레이어들에서의 해당 픽쳐들(프레임들 또는 블록들)은 위상이 다를 수 있다.
도 2는 인핸스트 레이어와 베이스 레이어 사이의 위상 관계를 도시한다. 베이스 레이어는 (i) 인핸스트 레이어로부터 별도로 상대적으로 낮은 공간 해상도에서 비디오 소스를 샘플링 하거나, (ii) 상대적으로 높은 공간 해상도로 인핸스트 레이어를 다운-샘플링하여 생성될 수 있다. 도 2에 도시된 예에 있어서, 상기 인핸스트 레이어와 상기 베이스 레이어 사이의 다운-샘플링 비는 2/3 이다.
비디오 신호는 별도의 성분들, 즉, 하나의 휘도 성분(luma component)과 두 개의 색도 성분들(chroma components)로 관리된다. 상기 휘도 성분은 휘도 정보 Y와 연관이 있고, 상기 두 개의 색도 성분들은 색도 (chrominance) 정보 Cb 및 Cr과 연관된다. 휘도 신호와 색도 신호 사이의 비율(ratio)인 4:2:0 (Y:Cb:Cr)는 널리 사용된다. 상기 색도 신호의 샘플들은 전형적으로 상기 휘도 신호의 샘플들 중간쯤에 위치한다.
인핸스트 레이어 그리고/또는 베이스 레이어가 비디오 소스로부터 직접 생성될 때, 상기 인핸스트 레이어 그리고/또는 베이스 레이어의 휘도 및 색도 신호들은 상기 비율 4:2:0 그리고 상기 비율 4:2:0에 따른 위치 조건(position condition)을 만족하도록 샘플링 된다.
상기 케이스 (i)에 있어서, 상기 인핸스트 레이어와 상기 베이스 레이어는, 도 2의 섹션 (a)에 도시된 바와 같이, 위상이 서로 다를 수(out of phase) 있다. 이는 상기 인핸스트 레이어와 상기 베이스 레이어가 각기 다른 샘플링 위치들을 가질 수 있기 때문이다. 상기 섹션 (a)의 예에 있어서, 상기 인핸스트 레이어와 상기 베이스 레이어 각각의 휘도 및 색도 신호들은 상기 비율 4:2:0와 상기 비율 4:2:0에 따른 위치 조건을 만족한다.
상기 케이스 (ii)에 있어서, 상기 베이스 레이어는 특정 비율에서 상기 인핸스트 레이어의 다운-샘플링 휘도 및 색도 신호에 의하여 생성된다. 만약 상기 베이스 레이어의 휘도 및 색도 신호들이 상기 인핸스트 레이어의 휘도 및 색도 신호들과 같은 위상에 있도록 상기 베이스 레이어가 생성된다면, 상기 베이스 레이어의 상기 휘도 및 색도 신호들은, 도 2의 섹션 (b)에 도시된 바와 같이, 상기 4:2:0 비율에 따른 위치 조건(position condition)을 만족 못한다.
추가로, 만약 상기 베이스 레이어의 휘도 및 색도 신호들이 상기 4:2:0 비율에 따른 위치 조건을 만족하도록 상기 베이스 레이어가 생성된다면, 상기 베이스 레이어의 상기 색도 신호는, 도 2의 섹션 (c)에 도신 된 바와 같이, 상기 인핸스트 레이어의 색도 신호와 위상이 서로 다르게 된다. 이러한 경우, 만약 상기 베이스 레이어의 상기 색도 신호가 상기 인터레이어 예측 방법에 따른 특정 비율로 업-샘플된다면, 상기 베이스 레이어의 상기 업-샘플된 색도 신호는 생기 인핸스 레이어의 색도 신화와 서로 다른 위상을 갖는다.
또한, 케이스 (ii)에 있어서, 상기 인핸스트 레이어와 상기 베이스 레이어는, 섹션 (a)에 도시된 바와 같이, 서로 다른 위상을 가질 수 있다.
즉, 상기 베이스 레이어를 생성하기 위한 상기 다운-샘플링 절차와 상기 인터레이어 예측 방법의 업-샘플링 절차에서, 상기 베이스 레이어의 위상은 변화할 수 있다. 그리하여, 상기 베이스 레이어는 상기 인핸스트 레이어와 서로 다른 위상을 갖게 되고, 결국 코딩 효율을 감소시키게 된다.
본 발명에 따른 일 실시예에 있어서, 비디오 신호의 디코딩 방법은 현재 레이어에서의 현재 이미지의 적어도 일 부분을 예측하는 단계를 포함하며, 상기 예측하는 단계는, 베이스 레이어에서의 베이스 이미지의 적어도 일 부분과 오프셋 정보에 기초한다. 상기 오프셋 정보는 상기 현재 이미지 내의 적어도 하나의 픽셀과 상기 베이스 이미지 내의 해당하는 적어도 하나의 픽셀에 기초하여 오프셋을 나타낸다.
일 실시예에 있어서, 상기 오프셋 정보는 (ⅰ) 상기 현재 이미지 내의 적어도 하나의 샘플과 상기 베이스 이미지의 상기 업-샘플링된 부분 내의 적어도 하나의 샘플 사이의 수평 오프셋, (ⅱ) 상기 현재 이미지 내의 적어도 하나의 샘플과 상기 베이스 이미지의 상기 업-샘플링된 부분 내의 적어도 하나의 샘플 사이의 수직 오프셋 중 적어도 하나이다.
일 실시예에 있어서, 상기 예측하는 단계는 상기 베이스 레이어의 슬라이스의 헤더로부터 상기 오프셋 정보를 획득할 수 있고, 다른 실시예에 있어서, 상기 현재 레이어 내의 시퀀스 레벨 헤더로부터 상기 오프셋 정보를 획득할 수 있다.
다른 실시예들은 비디오 신호을 인코딩하는 방법들과 비디오 신호 인코딩 및 디코딩 장치들을 포함한다.
본 발명의 상기 목적들과 또 다른 목적들, 특징들, 그리고 다른 장점들은 첨부한 도면들과 연계된 하기 상세 설명으로부터 분명하게 이해될 수 있을 것이다.
도 1은 베이스 레이어를 이용하여 인핸스트 레이어를 인코딩하는 인터레이어 예측 방법의 일 예를 도시 한 것이다.
도 2는 인핸스트 레이어와 베이스 레이어 사이의 위상 관계들의 일 예들을 도시한 것이다.
도 3은 본 발명에 따른 스케일러블 비디오 신호 코딩 방법이 적용 가능한 비디오 신호 인코딩 장치의 블록도 이다.
도 4는 도 3에 도시된 EL 인코더의 구성 요소들을 도시한다.
도 5는 본 발명의 일 실시예에 따른 인핸스트 레이어를 디코딩하는데 있어서 사용되는 베이스 레이어를 업-샘플링하는 방법을 도시하는 것으로, 상기 인핸스트 레이어는 인터레이어 예측 방법에 따라 인코딩 되고, 이 때, 상기 베이스 레이어 그리고/또는 상기 인핸스트 레이어 상의 위상 천이를 고려한다.
도 6은 도 3의 상기 장치에 의하여 인코딩된 비트 스트림을 디코딩 하는 장치의 블록도이다.
도 7은 도 6에 도시된 EL 디코더의 구성 요소들을 도시한다.
본 발명의 실시 예들은 상기 첨부된 도면들을 참조하여 상세히 설명될 것이다.
도 3은 본 발명에 따른 스케일러블 비디오 신호 코딩 방법이 적용 가능한 비디오 신호 인코딩 장치의 블록도 이다.
도 3을 참조하면, 비디오 신호 디코딩 장치는 인핸스트 레이어 (EL) 인코더 (enhanced layer encoder, 100), 텍스처 코딩 유닛 (texture coding unit, 110), 모션 코딩 유닛(motion coding unit, 120), 먹서 또는 멀티플렉서 (muxer or demultiplexer, 130), 다운-샘플링 유닛 (downsampling unit, 140), 그리고 베이스 레이어 인코더(base layer (BL) encoder, 150)로 구성된다.
상기 다운-샘플링 유닛(140)은 입력 비디오 신호로부터 직접 인핸스트 레이어 신호를 생성하거나 상기 입력 비디호 신호를 다운-샘플링하여 생성한다. 그리고, 상기 다운-샘플링 유닛(140)은 특정 방식으로 상기 입력 비디오 신호를 다운-샘플링하여 베이스 레이어 신호를 생성한다. 상기 특정 방식은 각각의 레이어를 수신하는 애플리케이션들이나 장치들에 의존한다. 따라서, 상기 특정 방식은 설계 선택상의 문제이다.
상기 EL 인코더(100)는 특정 인코딩 방식(예를 들면, MCTF 방식)에 따른 스케일러블 형태의 매 매크로블록 기반으로 상기 다운-샘플링 유닛(140)에 의하여 생성되는 상기 인핸스트 레이어 신호를 인코딩한다. 그리고, 상기 EL 인코더(100)는 적저란 관리 정보를 생성한다.
상기 텍스처 코딩 유닛(110)은 인코딩된 매크로블록들의 데이터를 압축 비트스트림으로 변환한다.
상기 모션 코딩 유닛(120)은 상기 EL 인코더(100)로부터 획득된 이미지 블록들의 움직임 벡터들을 특정 방식에 따르는 압축 비트스트림으로 코딩한다.
상기 BL 인코더(150)은 특정 방식에 따르는, 예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4 표준 또는 H.261 또는 H.264 표준에 따르는 상기 다운-샘플링 유닛(140)에 의하여 생성된 상기 베이스 레이어 신호를 인코딩하고, 또한 스몰 픽쳐 스크린 시퀀스, 예를 들면, 필요에 의하여 원래 사이즈의 25%로 스케일-다운된 픽쳐들의 시퀀스를 생성한다.
상기 먹서(130)는 상기 텍스처 코딩 유닛(110)의 출력 데이터, 상기 BL 인코더(150)로부터의 상기 스몰-스크린 시퀀스, 그리고 상기 모션 코딩 유닛(12)의 상기 출력 벡터 데이터를 의도된 포맷으로 캡슐화한다. 상기 먹서(13)는 상기 캡슐화된 데이터를 다중화하여 의도된 전송포맷으로 출력한다.
상기 다운-샘플링 유닛(14)은, 상기 인핸스트 및 베이스 레이어 신호들을 상기 EL 및 BL 인코더들(100, 150)으로 전송할 뿐만 아니라, 상기 두 레이어들의 샘플링 관련 정보를 상기 EL 및 BL 인코더들(100, 150)으로 전송한다. 이때, 상기 두 개 레이어들의 상기 샘플링 관련 정보는 공간 해상도 (또는 스크린 사이즈들), 프레임 레이트들, 상기 두 개 레이어들의 휘도 및 색도 신호들 사이의 비율, 상기 두 개 레이어들의 색도 신호들의 위치들, 그리고 상기 두 개 레이어들의 상기 휘도 및 색도 신호들의 각각의 위치에 기초한 상기 두 개 레이어들의 휘도 및 색도 신호 들 사이의 위상 천이에 관한 정보를 포함할 수 있다.
상기 위상 천이는 상기 두 개 레이어들의 휘도 신호들 사이의 위상 차이로 정의 될 수 있다. 전형적으로, 상기 두 개의 레이어들의 휘도 및 색도 신호들은 샘플링 되어 상기 휘도 및 색도 신호들 사이의 비율에 의한 위치 조건을 만족시킬 수 있게 된다. 그리고, 상기 두 개의 레이어들의 휘도 신호들은 샘플링되어 서로 같은 위상을 갖게 된다.
또한, 상기 위상 천이는 상기 두 개이 레이어들의 색도 신호들 사이의 위상 차이로 정의 될 수 있다. 상기 두 개의 레이어들의 상기 휘도 신호들의 위치들이 서로 매칭되어 상기 두 개의 레이어들의 상기 휘도 신호들이 서로 같은 위상을 갖게 된 다음, 상기 두 개이 레이어들의 색도 신호들 사이의 상기 위상 차이는 상기 두 개의 레이어들의 상기 색도 신호들의 상기 위치들 사이의 차이에 기반하여 결정될 수 있다.
또한, 상기 위상 차이는 각각의 레이어에 대하여 개별적으로 결정될 수 있다. 예를 들면, 상기 위상 차이는 상기 인핸스트 또는 베이스 레이어를 생성하기 위한 상기 입력 비디오 신호에 기초한 하나의 가상 레이어, 예를 들면, 업-샘플링 된 베이스 레이어를 참조하여 정의될 수 있다. 여기서, 상기 위상 차이는 상기 베이스 레이어의 인핸스트 레이어와 상기 가상 레이어, 예를 들면, 업-샘플링된 베이스 레이어의 휘도 그리고/또는 색도 샘플들 (예를 들면, 픽셀들)의 사이에 있다.
상기 EL 인코더(100)는 상기 다운-샘플링 유닛(140)으로부터 전송된 상기 위상 차이 정보를 시퀀스 레이어 또는 슬라이스 레이어의 헤더 영역에 기록한다.
만약, 상기 위상 천이 정보가 0 이외의 값을 갖는다면, 상기 EL 인코더(100)는 상기 두 개의 레이어들 사이의 위상 천이 유무를 나타내는 글로벌 쉬프트 플래그 ‘global_shift_flag’를, 예를 들면, ‘1’로 설정하고, 상기 위상 천이의 값을 ‘global_shift_x’ 와 ‘global_shift_y’ 정보 필드들 내에 기록한다. 상기 ‘global_shift_x’ 값은 수평 위상 천이를 나타낸다. 그리고, 상기 ‘global_shift_y’ 값은 수직 위상 천이를 나타낸다. 이를 달리 표현하면, 상기 ‘global_shift_x’ 값은 상기 샘플들 (즉, 픽셀들) 사이의 수평 위치 오프셋을 나타내고, 상기 ‘global_shift_y’ 값은 상기 샘플들 (즉, 픽셀들) 사이의 수직 위치 오프셋을 나타낸다.
반면에, 상기 위상 천이 정보가 0의 값을 갖는다면, 상기 EL 인코더(100)는 상기 글로벌 쉬프트 플래그 ‘global_shift_flag’를, 예를 들면, ‘0’으로 설정하고, 상기 위상 천이의 값들을 상기 ‘global_shift_x’ 와 ‘global_shift_y’ 정보 필드들 내에 기록하지 아니한다.
또한, 필요한 경우, 상기 EL 인코더(100)는 상기 샘플링 관련 정보를 상기 슬라이스 또는 시퀀스 레이어의 헤더 영역에 기록한다.
상기 EL 인코더(100)는 MCTF를 상기 다운-샘플링 유닛(14)으로부터 수신된 상기 비디오 데이터에 실시한다. 따라서, 상기 EL 인코더(100)는 움직임 예측에 의하여 찾은 참조 블록을 매크로블록으로부터 차감하여 예측 동작을 비디오 프레임 또는 픽쳐의 매크로블록 마다 수행한다.
또한, 상기 EL 인코더(100)는 상기 참조 블록과 상기 매크로블록 사이의 이 미지 차이를 상기 참조 블록에 더하는 방법으로 업데이트 동작을 선택적으로 수행한다.
상기 EL 인코더(100)는 입력 비디오 프레임 시퀀스를, 예를 들면, 짝수 및 홀수 프레임들로 분리한다. 상기 EL 인코더(100)는 예측 동작 및 업데이트 동작을 인코딩 레벨 수 이상의 상기 분리된 프레임들에 실시한다. 예를 들면, 상기 동작들은 L 개의 프레임들의 수가 픽쳐 그룹(group of pictures, GOP)을 위한 하나로 감소할 때까지 실시된다. 이 때, 상기 L 개의 프레임들은 상기 업데이트 동작에 의하여 생성된다.
도 4는 상기 EL 인코더의 구성 요소들을 도시하며, 이 경우 상기 EL 인코더(100)는 상기 인코딩 레벨들 중 하나에 따른 예측 및 업데이트 동작들 관 연관이 있다.
도 4를 참조하면, 상기 EL 인코더(100)의 구성요소들은 추정기/예측기(estimator/predictor, 101)를 포함한다. 움직임 추정을 통하여, 상기 추정기/예측기(101)는 레지듀얼 데이터를 포함하기 위한 프레임(예를 들면, 상기 인핸스트 레이어의 홀수 프레임)의 각각의 매크로블록을 탐색한 다음, 예측 동작을 실시하여 상기 참조블록으로부터의 매크로블록의 이미지 차이(즉, 픽셀간의 차이)와 상기 매크로블록부터 상기 참조블록으로의 움직임 벡터(motion vector)를 계산한다.
상기 EL 인코더(100)는, 상기 참조 블록과의 상기 매크로블록의 상기 계산된 이미지 차이를 일반화하고 (normalizing) 상기 일반화된 값을 상기 kawh 블록에 더하여, 상기 매크로블록의 상기 참조 블록을 포함하는 프레임(예를 들면, 짝수 프 레임)에 업데이트 동작을 수행하는 갱신기(updater, 102)를 더 포함할 수 있다.
타겟 블록과의 가장 작은 이미지 차이를 갖는 블록은 상기 타겟 블록과 가장 큰 상관관계(correlation)를 갖는다. 상기 두 개의 블록들의 이미지 차이는, 예를 들면, 상기 두 개의 블록들의 픽셀간 차이들의 합 또는 평균으로 정의된다. 임계 픽셀간 차이 합(또는 평균) 혹은 상기 타겟 블록으로부터의 그 보다 작은 값 중 상기 가장 작은 차이 합(또는 평균)을 갖는 블록(들)은 참조 블록(들)로 언급된다.
상기 추정기/예측기(101)에 의하여 수행되는 동작은 ‘P’ 동작으로 언급된다. 상기 ‘P’ 동작에 의해 생성되는 프레임은 ‘H’ 프레임으로 언급된다. 상기 ‘H’ 프레임에 존재하는 상기 레지듀얼 데이터는 상기 비디오 신호의 높은 주파수 성분들을 반영한다. 상기 갱신기(102)에 의하여 수행되는 상기 동작은 ‘U’ 동작으로 언급된다. 상기 ‘U’ 동작에 의하여 생성되는 프레임은 ‘L’ 프레임으로 언급된다. 상기 ‘L’ 프레임은 로우-패스 서브밴드 픽쳐(low-pass subband picture)이다.
도 4의 상기 추정기/예측기(101)와 상기 갱신기(102)는, 프레임들의 단위들로 그들의 동작들을 수행하는 대신, 한 개의 프레임을 나누어서 생성되는 복수의 슬라이들에 대하여, 동시적으로 그리고 서로 평행하게, 그들의 동작들을 수행한다. 상기 실시예들에 관한 하기 설명에서, 만약 ‘슬라이스’라는 용어로 ‘프레임’이라는 용어가 대치되는 것이 기술적으로 동일 하다면, 상기 용어 ‘프레임’은 ‘슬라이스’를 포함하는 광의의 의미로 사용된다.
특히, 상기 추정기/예측기(101)는 각각의 입력 비디오 프레임 또는 이전 레 벨에서 획득된 상기 L 프레임들의 각각의 홀수 프레임을 하나의 사이즈를 갖는 매크로블록들로 분할한다. 이후, 상기 추정기/예측기(101)는, 상기 현재 홀수 프레임에서 또는 동일한 시간 디콤포지션 레벨(temporal decomposition level)에 있는 상기 현재 홀수 프레임 이전의 또는 이후의 짝수 프레임들에서, 각각의 분할된 매크로블록의 이미지와 가장 확실히 유사한 블록을 탐색한 다음, 상기 가장 유사한 블록 또는 참조 블록을 이용하여 각각의 상기 분할된 매크로블록의 예측 이미지를 생성하고 이에 해당하는 움직임 벡터를 획득한다.
또한, 도 4에 도시된 바와 같이, 상기 EL 인코더(100)는 BL 디코더(BL decoder, 105)를 더 포함할 수 있다. 상기 BL 디코더(105)는 상기 BL 인코더(150)로부터 수신된 스몰-스크린 시퀀스를 포함하는 인코딩된 베이스 레이어 스트림으로부터 매크로블록 모드와 같은 인코딩 정보를 추출하고, 상기 인코딩된 베이스 레이어 스트림을 디코딩하여 각각 적어도 하나 이상의 매크로블록을 포함하는 프레임들을 생성한다.
또한, 상기 추정기/예측기(101)는 상기 인트라 BL 예측 방법에 따라 상기 베이스 레이어의 프레임에서 매크로블록의 참조 블록을 탐색할 수 있다. 특히, 상기 추정기/예측기(101)는, 상기 매크로블록을 포함하는 상기 프레임과 일시적으로 부합하는(coincident), 상기 BL 디코더(105)에 의하여 재구성된 상기 베이스 레이어의 프레임에서 인트라 모드로 인코딩된 해당 블록을 탐색한다. 상기 용어 ‘해당 블록’은, 상기 일시적으로 부합하는 베이스 레이어 프레임에 위치하고, 만약 상기 베이스 레이어 프레임이 상기 인핸스트 레이어의 상기 스크린 사이즈 대 상기 베이 스 레이어의 상기 스크린 사이즈 비율로 확대된 다면 상기 매크로블록을 덮는 영역을 가질, 블록으로 언급된다.
상기 추정기/예측기(101)는 상기 해당 블록의 인트라-코딩된 픽셀 값들을 디코딩하여 상기 발견된 해당 블록의 원래 이미지를 복원한 다음, 상기 발견된 해당 블록을 업-샘플링하여 상기 인핸스트 레이어의 상기 스크린 사이즈 대 상기 베이스 레이어의 상기 스크린 사이즈 비율로 상기 발견된 해당 블록을 확대한다.
상기 추정기/예측기(101)는 상기 다운-샘플링 유닛(140)으로부터 전송된 상기 위상 천이 정보 ‘global_shift_x/y’을 고려하는 이러한 업-샘플링을 수행하여, 상기 베이스 레이어의 상기 확대된 해당 블록이 상기 인핸스트 레이어의 상기 매크로블록과 동일한 위상을 가질 수 있도록 한다.
상기 추정기/예측기(101)는, 확대되어 상기 매크로블록과 동일한 위상을 갖는 상기 베이스 레이어의 상기 해당 블록에 있는 해당 영역을 참조하여 상기 마클로블록을 인코딩 한다. 여기서, 상기 용어 ‘해당 영역’은 상기 프레임에서 상대적인 위치에 있는 상기 해당 블록의 일부 영역을 상기 매크로블록으로 나타낸다.
필요하다면, 상기 추정기/예측기(101)는 상기 해당 블록의 상기 위상을 바꾸는 동안 움직임 추정(motion estimation)을 상기 매크로블록에 수행하여 상기 베이스 레이어의 상기 확대된 해당 블록에 있는 상기 매크로블록과 더욱 높은 상관관계가 있는 영역을 탐색한 다음, 상기 발견된 참조 영역을 이용하여 상기 매크로블록을 인코딩 한다.
상기 참조 영역이 탐색되는 동안 상기 확대된 해당 블록의 위상이 더욱 변 화되면, 상기 추정기/예측기(101)는 위상 천이의 유무를 나타내며 상기 매크로블록과 상기 해당 업-샘플링된 블록 사이에서 상기 글로벌 위상 천이 ‘global_shift_x/y’와 다른 로컬 쉬프트 플래그 ‘local_shift_flag’를, 예를 들면, ‘1’로 설정한다.
또한, 상기 추정기/예측기(101)는 상기 로컬 쉬프트 플래그를 상기 매크로블록의 헤더 영역에 기록하고, 상기 매크로블록과 상기 해당 블록 사이의 상기 로컬 위상 천이를 정보 필드들인 ‘local_shift_x’와 ‘local_shift_y’에 기록한다. 상기 로컬 위상천이 정보는 치환 정보(replacement information)일 수 있고, 전체 위상 천이 정보를 상기 글로벌 위상 천이 정보에 대한 치환 또는 대체 (replacement or substitute)로 제공한다. 다른 대안으로, 상기 위상 천이 정보는 추가 정보(additive information)일 수 있다. 이 때, 상기 해당 글로벌 위상 천이 정보에 추가되는 상기 로컬 위상 처이 정보는 전체 또는 종합적인 위상 천이 정보를 제공한다.
상기 추정기/예측기(101)는 상기 인핸스트 레이어의 상기 매크로블록이 인트라 BL 모드에서 인코딩 되었음을 나타내는 정보를 상기 매크로블록의 헤더 영역에 더 삽입하여 상기 디코더에게 동일한 사실을 알려줄 수 있도록 한다.
또한, 상기 추정기/예측기(101)는 상기 인터레이어 레지듀얼 예측 방법을 매크로블록에 적용함으로써 상기 매크로블록 이전 또는 이후의 다른 프레임들에서 발견된 참조 블록을 이용하여 이미지 차이의 데이터인 레지듀얼 데이터를 포함하도록 할 수 있다. 또한, 이 경우, 상기 추정기/예측기(101)는, 이미지 차이의 데이터 이며 상기 다운-샘플링 유닛(140)으로부터 전송된 상기 위상 천이 정보 ‘global_shift_x/y’를 고려한 레지듀얼 데이터를 포함하도록 인코딩된 상기 베이스 레이어의 해당 블록을 업-샘플링하여, 상기 베이스 레이어가 상기 인핸스트 레이어와 동일한 위상을 갖도록 한다. 여기서, 상기 베이스 레이어의 상기 해당 블록은 인코딩되어 이미지 차이의 데이터인 레지듀얼 데이터를 포함하는 블록을 말한다.
상기 추정기/예측기(101)는 상기 인핸스트 레이어의 상기 매크로블록이 상기 인터레이어 레지듀얼 예측 방법에 따라 인코딩되었음을 나타내는 정보를 상기 매크로블록의 헤더 영역에 삽입하여 상기 디코더에게 동일한 사실을 알려준다.
상기 추정기/예측기(101)는 상기 프레임의 모든 매크로블록들을 위한 상기 절차를 수행하여 상기 프레임의 예측 이미지인 H 프레임을 완성한다. 상기 추정기/예측기(101)는 모든 입력 비디오 프레임들 또는 모든 상기 L 프레임들의 홀수 프레임들을 위한 상기 절차를 수행하여 상기 입력 프레임들의 예측 이미지들인 H 프레임들을 완성한다.
상술한 바와 같이, 상기 갱신기(102)는 상기 추정기/예측기(101)에 의하여 생성된 하나의 H 프레임에서의 각각의 매크로블록의 이미지 파이를 자신의 참조 블록을 갖는 L 프레임에 더한다. 이 때, 상기 L프레임은 입력 비디오 프레임이거나 이전 레벨에서 획득된 상기 L 프레임들의 짝수 프레임이다.
상기한 방법으로 인코딩된 상기 데이터 스트림은 유선 또는 무선으로 디코딩 장치에 전송되거나, 녹화 미디어를 통하여 전달된다. 상기 디코딩 장치는 상기 원본 비디오 신호를 하기에서 설명되는 방법에 따라 복원한다.
도 5는 본 발명의 일 실시예에 따른 인핸스트 레이어를 디코딩하는데 있어서 사용되는 베이스 레이어를 업-샘플링하는 방법을 도시하는 것으로, 상기 인핸스트 레이어는 인터레이어 예측 방법에 따라 인코딩 되고, 이 때, 상기 베이스 레이어 그리고/또는 상기 인핸스트 레이어 상의 위상 천이를 고려한다.
상기 인터레이어 예측 방법에 따라 인코딩된 상기 인핸스트 레이어의 매크로블록을 디코딩 하기 위하여, 상기 매크로블록에 해당하는 상기 베이스 레이어의 블록은 업-샘플링을 통하여 상기 인핸스트 레이어의 스크린 사이즈 대 상기 베이스 레이어의 스크린 사이즈 비율에 의하여 확대된다, 이러한 업-샘플링은 상기 인핸스트 레이어 그리고/또는 상기 베이스 레이어에서의 위상 천이 정보 ‘global_shift_x/y’를 고려하여 수행되어, 상기 인핸스트 레이어의 상기 매크로블록과 상기 베이스 레이어의 상기 확대된 해당 블록 사이의 글로벌 위상 천이를 보상하도록 한다.
상기 인핸스트 레이어의 상기 매크로블록과 상기 베이스 레이어의 상기 해당 블록 사이에서, 상기 글로벌 위상 천이 ‘global_shift_x/y’와 다른 로컬 위상 천이 ‘local_shift_x/y’가 있다면, 상기 해당 블록은 상기 로컬 위상 천이 ‘local_shift_x/y’를 고려하여 업-샘플링 된다. 예를 들면, 상기 로컬 위상 천이 정보는 일 실시예의 상기 글로벌 위상 천이 정보 대신에 이용되거나, 또는, 다른 실시예의 상기 글로벌 위상 천이 정보애 추가하여 이용된다.
그리하여, 상기 인핸스트 레이어의 상기 매크로블록의 원본 이미지가 상기 매크로블록과 동일한 위상을 갖도록 상기 확대된 해당 블록을 이용하여 복원된다.
도 6은 도 3의 상기 장치에 의하여 인코딩된 비트 스트림을 디코딩 하는 장치의 블록도이다. 도 6을 참조하면, 상기 디코딩 장치는 디먹서 또는 디멀티플렉서 (demuxer or demultiplexer, 200), 텍스처 디코딩 유닛(texture decoding unit, 210), 모션 디코딩 유닛(motion decoding unit, 220), EL 디코더(EL decoder, 230), 그리고 BL 디코더(BL decoder, 240)를 포함한다. 상기 디먹서(200)은 수신된 비트 스트림을 압축된 모션 벡터 스트림과 압축된 매크로블록 정보 스트림으로 분리한다. 상기 텍스처 디코딩 유닛(210)은 상기 압축된 매크로블록 정보 스트림을 그 것의 원래 비압축 상태로 복원한다. 상기 모션 디코딩 유닛(220)은 상기 압축된 모션 벡터 스트림을 그것의 원래 비압축 상태로 복원한다. 상기 EL 디코더(230)는 상기 비압축 매크로블록 정보 스트림과 상기 비압축 모션 벡터 스트림을 특정 방식(예를 들면, MCTF 방식)에 따라 원본 비디오 신호로 다시 변환한다. 그리고, 상기 BL 디코더(240)는 특정 방식(예를 들면, 상기 MPEG4 또는 H.264 표준)에 따라 베이스 레이어 스트림을 디코딩한다.
한편, 상기 인터레이어 예측 방법에 따라 인핸스트 레이어 스트림을 디코딩 하기 위하여, 상기 EL 디코더(230)는 상기 베이스 레이어 그리고/또는 상기 베이스 레이어의 디코딩 된 프레임 또는 매크로블록의 인코딩 정보를 이용한다. 이를 성취하기 위하여, 상기 EL 디코더(230)는 글로벌 시프트 플래그 ‘global_shift_flag’와 위상 천이 정보 ‘global_shift_x/y’를 시퀀스 헤더 영역 또는 상기 인핸스트 레이어의 슬라이스 헤더 영역으로부터 읽어 들여 상기 인핸스트 레이어 그리고/또는 상기 베이스 레이어에 위상 천이가 있는지 여부를 결정하고 상기 위상 천이를 확인한다. 상기 EL 디코더(230)는 상기 확인된 위상 천이를 고려하여 상기 베이스 레이어를 업-샘플링하여, 상기 인터레이어 예측 방법에 사용될 상기 베이스 레이어가 상기 인핸스트 레이어와 동일한 위상을 갖도록 한다.
상기 EL 디코더(230)는 입력 스트림을 원본 프레임 시퀀스로 복원한다.
도 7은 도 6에 도시된 EL 디코더의 구성 요소들을 도시하며, 상기 EL 디코더는 상기 MCTF 방식에 따라 구현된다. 도 7을 참조하면, 상기 EL 디코더(230)의 상기 구성요소들은 템포럴 디콤포지션 레벨 N의 H와 N 프레임 시퀀스들의 템포럴 콤포지션(temporal composition)을 수행하여 템포럴 디콤포지션 레벨 N-1의 L 프레임 시퀀스를 만든다. 도 7의 상기 구성요소들은 역갱신기(inverse updater, 231), 역예측기(inverse predictor, 232), 모션 벡터 디코더(motion vector decoder, 233), 그리고 배열기(arranger, 234)를 포함한다. 상기 역갱신기(231)은 선택적으로 입력 H 프레임들의 픽셀들의 차이 값들을 입력 L 프레임들의 해당 픽셀 값들로부터 감산한다. 상기 역예측기(232)는, 상기 H 프레임들의 상기 이미지 차이 값들이 차감된 상기 H 프레임들과 상기 H 프레임들을 이용하여, 입력 H 프레임들을 복원하여 원본 이미지들의 L 프레임들을 만든다. 상기 모션 벡터 예측기(233)는 입력 모션 벡터 스트림을 디코딩 하여 H 프레임들의 블록들의 움직임 벡터 정보로 만들고, 상기 움직임 벡터 정보를 각각의 스테이지의 역갱신기(231)와 역예측기(232)에 제공한다. 그리고, 상기 배열기(234)는 상기 역갱신기(231)에서 출력된 상기 L 프레임들 사이에서 상기 역예측기(232)에 의하여 완성된 상기 L 프레임들을 인터리빙 하여, 보통의 L 프레임 시퀀스를 생성한다.
상기 배열기(234)에서 출력된 상기 L 프레임들은 레벨 N-1의 L 프레임 시퀀스(701)을 구성한다. 레벨 N-1의 다음-스테이지(next-stage) 역갱신기와 예측기는 상기 L 프레임 시퀀스와 레벨 N-1의 입력 H 프레임 시퀀스(702)를 복원하여 L 프레임 시퀀스를 만든다. 이러한 디코딩 과정은 상기 인코딩 절차에서 수행된 인코딩 레벨들의 수로서 동일한 레벨 수 이상으로 수행되어, 원본 비디오 프레임 시퀀스를 복원한다.
레벨 N의 수신된 H 프레임들과 레벨 N+1에서 생성된 레벨 N의 L 프레임들이 레벨 N-1의 L 프레임들로 복원되는, 레벨 N의 복원 (reconstruction, temporal composition) 절차가 이하 더욱 상세히 기술된다.
레벨 N의 입력 L 프레임을 위하여, 상기 역갱신기(231)는, 상기 인코딩 절차에서의 레벨 N의 상기 입력 L 프레임으로 갱신된 레벨 N-1의 원본 L 프레임에 있는 참조 블록들로서의 블록들을 이용하여 획득된 이미지 차이들을 갖는, 레벨 N의 모든 해당 H 프레임들을 상기 모션 벡터 디코더(233)에서 제공된 음직임 벡터들을 참조하여, 결정한다.
이후, 상기 역갱신기(231)는 레벨 N의 상기 해당 H 프레임들에 있는 매크로블록들의 에러 값들을 레벨 N의 상기 입력 L 프레임들에 있는 해당 블록들의 픽셀 값들로부터 차감하여 원본 L 프레임을 복원한다.
이와 같은 역갱신 동작은, 상기 인코딩 절차에서의 H 프레임들에 있는 매크로블록들의 에러 값들을 이용하여 갱신된, 레벨 N의 현재 L 프레임에 있는 블록들을 위하여 수행됨으로써, 레벨 N의 상기 L 프레임에서 레벨 N-1의 L 프레임을 복원 한다.
입력 H 프레임에 있는 타겟 매크로블록을 위하여, 상기 역예측기(232)는 상기 역갱신기(231)에서 출력된 역-갱신된 L 프레임들에 있어서의 자신의 참조 블록들을 상기 모션 벡터 디코더(233)로부터 제공된 움직임 벡터들을 참조하여 결정하고, 상기 참조 블록들의 픽셀 값들을 상기 타겟 매크로블록의 차이 (에러) 값들에 더하여 그 원본 이미지를 복원한다.
만약 H 프레임에 있는 매크로블록이 인트라 BL 모드에서 인코딩 되었음을 나타내는 정보가 상기 매크로블록의 헤더 영역에 포함되어 있으면, 상기 역예측기(232)는 상기 BL 디코더(240)에서 wrhdehls 베이스 레이어 프레임을 이용하여 상기 매크로블록의 원본 이미지를 복원한다. 이러한 과정의 상세한 예가 이하 설명된다.
상기 역예측기(232)는, 상기 인핸스트 레이어의 상기 매크로블록에 해당하는, 상기 베이스 레이어의 인트라-코딩된 블록의 이미지를 복원한다. 그리고, 상기 역예측기(232)는 상기 베이스 레이어부터의 상기 복원된 해당 블록을 업-샘플링 하여 그것을 상기 인핸스트 레이어의 스크린 사이즈 대 상기 베이스 레이어의 스크린 사이즈 비율로 확대한다.
상기 역예측기(232)는 상기 인핸스트 레이어 그리고/또는 상기 베이스 레이어에서 위상 천이 정보 ‘global_shift_x/y’를 고려하여 이러한 업-샘플링을 수행함으로써, 상기 베이스 레이어의 상기 확대된 해당 블록이 상기 인핸스트 레이어의 상기 매크로블록과 동일한 위상을 갖는다. 즉, 만약 ‘global_shift_flag’가 상기 베이스 레이어와 상기 인핸스트 레이어 사이에 위상 천이가 존재함을 나타낸다면 (예를 들면, equals 1), 상기 역예측기(232)는 상기 ‘global_shift_x’와 상기 ‘global_shift_y’에 의한 업-샘플링 동안 상기 베이스 레이어로부터 상기 해당 매크로블록을 위상천이 시킨다.
상기 역예측기(232)는, 상기 매크로블록과 동일한 위상을 갖도록 확대된 상기 베이스 레이어의 상기 확대된 해당 블록에서의 해당 영역의 픽셀 값들을 상기 매크로블록의 픽셀들의 상기 차이 값들에 가산하여, 상기 매크로블록의 원본 이미지를 복원한다. 여기서, 상기 용어 ‘해당 영역’은 상기 프레임에서 동일한 상대적 위치에 있는 상기 해당 블록에서의 일부 영역을 상기 매크로블록으로 나타낸다.
만약, 로컬 쉬프트 플래그 ‘local_shift_flag’가 상기 매크로블록과 상기 해당 블록 사이의 상기 글로벌 위상 천이 ‘global_shift_x/y’와 상이한 로컬 위상 천이 ‘local_shift_x/y’가 있음을 나타낸다면, 상기 역예측기(232)는 상기 로컬 위상 천이 ‘local_shift_x/y’(대체 또는 추가 위상 천이 정보로서)를 고려하여 상기 해당 블록을 업-샘플링 한다. 상기 위상 천이 정보는 상기 매크로블록의 상기 헤더 영역에 포함될 수 있다.
만약 H 프레임에서의 매크로블록이 인터레이어 레지듀얼 모드에서 인코딩 되었음을 나타내는 정보가 상기 매크로블록의 헤더영역에 포함되어 있다면, 상기 역예측기(232)는 레지듀얼 데이터를 포함하도록 인코딩된 상기 베이스 레이어의 해당 블록을 업-샘플링 한다. 이 경우, 상기에서 논의된 바와 같이, 상기 인핸스트 레이어의 상기 매크로블록과 동일한 위상을 갖도록 상기 해당 블록을 확대하기 위 한 상기 글로벌 위상 천이 ‘global_shift_x/y’가 고려된다. 이후, 상기 매크로블록과 동일한 위상을 갖도록 확대된 상기 해당 블록을 이용하여, 상기 역예측기(232)는 상기 매크로블록의 레지듀얼 데이터를 복원한다.
상기 역예측기(232)는 L 프레임에서 레지듀얼 데이터를 포함하는 상기 복원된 매크로블록의 참조 블록을, 상기 모션 벡터 디코더(233)에서 제공된 움직임 벡터를 참조하여, 탐색한다. 그리고, 상기 역예측기(232)는 상기 참조 블록의 픽셀 값들을 상기 매크로블록의 픽셀들(즉, 레지듀얼 데이터)의 차이 값들에 가산하는 방법으로 상기 매크로블록의 원본 이미지를 복원한다.
상기 현재 H 프레임에서의 모든 매크로블록들은 상기 동작과 같은 방법으로 자신들의 원본 이미지들로 복원된다. 그리고, 상기 복원된 매크로블록들은 결합되어 상기 현재 H 프레임을 L 프레임으로 재구성한다. 상기 배열기(234)는 상기 역예측기(232)에 의하여 재구성된 L 프레임들과 상기 역갱신기(231)에 의하여 갱신된 L 프레임들을 교번적으로 배열하고, 이렇게 배열된 L 프레임들을 다음 스테이지로 촐력한다.
상술한 디코딩 방법은 MCTF-인코딩된 데이터 스트림을 완전한 비디오 프레임 시퀀스로 재구성한다. 상술한 상기 MCTF 인코딩 절차에서 하나의 픽쳐 그룹 (group of pictures, GOP)를 위하여 상기 예측 및 갱신 동작들이 N 번 수행된 경우, 상기 역갱신 및 역예측 동작들이 상기 MCTF 디코딩 절차에서 N 번 수행된다면 원본 화질을 갖는 비디오 프레임 시퀀스가 획득된다.
그러나, 상기 역갱신 및 역예측 동작들이 상기 MCTF 디코딩 절차에서 N 번 미만으로 수행된다면, 낮은 비트 레이트에서 낮은 화질을 갖는 비디오 프레임 시퀀스가 획득될 수 있다.
따라서, 상기 디코딩 장치는 상기 성능에 적합한 정도로 역갱신 및 역 예측 동작들을 수행하도록 설계된다.
상술한 상기 디코딩 장치는 이동통신 단말기, 미디어 플레이어 등에 적용될 수 있다.
상기 기술된 내용으로부터 명백히 알 수 있듯이, 본 발명에 따른 비디오 신호 인코딩과 디코딩 방법은, 인터레이어 예측 방법에 따라 비디호 신호를 인코딩/디코딩 할 때 다운-샘플링과 업-샘플링 절차들에서 야기되는 베이스 레이어 그리고/또는 인핸스트 레이어에서의 위상 천이를 방지하여, 코딩 효율을 증가시킨다.
본 발명의 실시예들이 설명에 도움을 주기 위하여 개시되었지만, 당업자들은 본 발명의 범위와 정신을 벗어남 없이 다양한 개량, 수정, 대체 그리고 부가가 가능하다는 것을 이해할 수 있다.
상술한 상기 디코딩 장치는 이동통신 단말기, 미디어 플레이어 등에 적용될 수 있다.

Claims (21)

  1. 제 1 레이어에 있는 현재 블록의 위치 정보를 획득하는 단계;
    제 2 레이어에 있는 참조 이미지의 적어도 하나의 이미지 경계 픽셀과 상기 현재 이미지의 적어도 하나의 이미지 경계 픽셀 사이의 오프셋 정보를 획득하는 단계;
    상기 현재 블록의 위치 정보와 상기 오프셋 정보에 기초하여, 상기 현재 블록의 위치가 샘플된 제 2 레이어 내에 포함되는지 여부를 결정하는 단계; 및
    상기 결정 단계에 기초하여 상기 현재 블록을 디코딩하는 단계
    를 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  2. 제 1항에 있어서,
    상기 제 1 레이어는 상기 제 2 레이어와 스크린 비율 또는 공간 해상도가 다르고, 상기 제 2 레이어는 상기 제 1 레이어와 동일한 비디오 신호에 해당하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  3. 제 1항에 있어서,
    상기 제 1 레이어는 인핸스드 레이어를 나타내고, 상기 제 2 레이어는 베이스 레이어를 나타내는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  4. 제 1항에 있어서,
    상기 참조 이미지는 제 2 레이어 이미지의 업샘플된 부분을 나타내는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  5. 제 1항에 있어서,
    상기 제 2 레이어 이미지의 업샘플된 부분의 적어도 한 일부와 상기 오프셋 정보에 기초하여, 상기 현재 이미지의 부분을 예측하는 단계를 더 포함하되,
    상기 현재 블록은 상기 현재 이미지의 예측된 부분을 이용하여 디코딩되는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  6. 제 5항에 있어서,
    상기 오프셋 정보는 상기 현재 이미지의 적어도 하나의 샘플과 상기 제 2레이어 이미지의 업샘플된 부분 내의 적어도 하나의 샘플 사이의 위치 오프셋을 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  7. 제 6항에 있어서,
    상기 오프셋 정보는 상기 현재 이미지의 적어도 하나의 샘플과 상기 제 2 레이어 이미지의 업샘플된 부분 내의 적어도 하나의 샘플 사이의 수평 방향 오프셋을 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  8. 제 7항에 있어서,
    상기 오프셋 정보는 상기 현재 이미지의 적어도 하나의 샘플과 상기 제 2 레이어 이미지의 업샘플된 부분 내의 적어도 하나의 샘플 사이의 수직 방향 오프셋을 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  9. 제 6항에 있어서,
    상기 오프셋 정보는 상기 현재 이미지의 적어도 하나의 샘플과 베이스 이미지의 업샘플된 부분 내의 적어도 하나의 샘플 사이의 수직 방향 오프셋을 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  10. 제 1항에 있어서,
    제 2레이어 이미지의 적어도 한 부분을 업샘플링하여 참조 이미지로서 업샘플된 이미지를 획득하는 단계
    를 더 포함하는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  11. 제 1항에 있어서,
    상기 오프셋 정보는 상기 제 2 레이어의 시퀀스 파라미터 세트로부터 획득되는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  12. 제 1항에 있어서,
    상기 오프셋 정보는 상기 제 2 레이어의 슬라이스 헤더로부터 획득되는 것을 특징으로 하는 비디오 신호 디코딩 방법.
  13. 베이스 레이어에 있는 베이스 이미지의 적어도 한 부분에 기초하여, 현재 레이어에 있는 현재 이미지의 적어도 한 부분을 인코딩하는 단계와;
    상기 현재 이미지의 적어도 하나의 이미지 경계 픽셀과 상기 베이스 이미지의 대응되는 적어도 하나의 이미지 경계 픽셀 사이의 위치 오프셋을 나타내는 오프셋 정보를 기록하는 단계
    를 포함하는 것을 특징으로 하는 비디오 신호 인코딩 방법.
  14. 제 1 레이어에 있는 현재 블록의 위치 정보 및 제 2 레이어에 있는 참조 이미지의 적어도 하나의 이미지 경계 픽셀과 상기 현재 이미지의 적어도 하나의 이미지 경계 픽셀 사이의 오프셋 정보를 획득하는 디먹서와;
    상기 현재 블록의 위치 정보와 상기 오프셋 정보에 기초하여 상기 현재 블록의 위치가 샘플된 제 2 레이어 내에 포함되는 것으로 결정된 경우, 상기 현재 블록을 디코딩하는 디코더
    를 포함하는 것을 특징으로 하는 비디오 신호 디코딩 장치.
  15. 베이스 레이어에 있는 베이스 이미지의 적어도 한 부분에 기초하여, 현재 레이어에 있는 현재 이미지의 적어도 한 부분을 인코딩하는 인코더와;
    상기 현재 이미지의 적어도 하나의 이미지 경계 픽셀과 상기 베이스 이미지의 대응되는 적어도 하나의 이미지 경계 픽셀 사이의 위치 오프셋을 나타내는 오프셋 정보를 기록하는 다운샘플링부
    를 포함하는 것을 특징으로 하는 비디오 신호 인코딩 장치.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
KR1020077025373A 2005-04-01 2006-03-31 스케일러블 비디오 신호 인코딩 및 디코딩 방법 KR100878825B1 (ko)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US66711505P 2005-04-01 2005-04-01
US60/667,115 2005-04-01
US67024605P 2005-04-12 2005-04-12
US67024105P 2005-04-12 2005-04-12
US60/670,246 2005-04-12
US60/670,241 2005-04-12
KR1020050084742A KR20060105408A (ko) 2005-04-01 2005-09-12 영상 신호의 스케일러블 인코딩 및 디코딩 방법
KR1020050084729 2005-09-12
KR1020050084729A KR20060105407A (ko) 2005-04-01 2005-09-12 영상 신호의 스케일러블 인코딩 및 디코딩 방법
KR1020050084742 2005-09-12
KR1020050084744 2005-09-12
KR1020050084744A KR20060105409A (ko) 2005-04-01 2005-09-12 영상 신호의 스케일러블 인코딩 및 디코딩 방법

Publications (2)

Publication Number Publication Date
KR20080013881A KR20080013881A (ko) 2008-02-13
KR100878825B1 true KR100878825B1 (ko) 2009-01-14

Family

ID=37053592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077025373A KR100878825B1 (ko) 2005-04-01 2006-03-31 스케일러블 비디오 신호 인코딩 및 디코딩 방법

Country Status (3)

Country Link
EP (1) EP1878247A4 (ko)
KR (1) KR100878825B1 (ko)
WO (1) WO2006104363A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US10616607B2 (en) 2013-02-25 2020-04-07 Lg Electronics Inc. Method for encoding video of multi-layer structure supporting scalability and method for decoding same and apparatus therefor
KR20150140635A (ko) * 2013-02-25 2015-12-16 엘지전자 주식회사 스케일러빌러티를 지원하는 멀티 레이어 구조의 비디오 인코딩 방법 및 비디오 디코딩 방법과 이를 이용하는 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970064261A (ko) * 1996-02-09 1997-09-12 모리시타 요우이치 윤곽 부호화 방법, 윤곽 복호화 방법, 및 그의 방법을 이용한 윤곽 부호화 장치, 윤곽 복호화 장치 및 그의 방법을 기록한 기록 매체
KR19990070553A (ko) * 1998-02-21 1999-09-15 윤종용 임의 해상도 다계층 이진형상 부호화기 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0631444B1 (en) * 1992-03-03 1998-12-23 Kabushiki Kaisha Toshiba Time-varying image encoder
US6957350B1 (en) * 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US6057884A (en) * 1997-06-05 2000-05-02 General Instrument Corporation Temporal and spatial scaleable coding for video object planes
US6510177B1 (en) * 2000-03-24 2003-01-21 Microsoft Corporation System and method for layered video coding enhancement
KR20020064932A (ko) * 2000-10-11 2002-08-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 미세 입상 비디오 인코딩을 위한 공간적 스케일러빌리티

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970064261A (ko) * 1996-02-09 1997-09-12 모리시타 요우이치 윤곽 부호화 방법, 윤곽 복호화 방법, 및 그의 방법을 이용한 윤곽 부호화 장치, 윤곽 복호화 장치 및 그의 방법을 기록한 기록 매체
KR19990070553A (ko) * 1998-02-21 1999-09-15 윤종용 임의 해상도 다계층 이진형상 부호화기 및 그 방법

Also Published As

Publication number Publication date
WO2006104363A1 (en) 2006-10-05
EP1878247A1 (en) 2008-01-16
EP1878247A4 (en) 2012-11-21
KR20080013881A (ko) 2008-02-13

Similar Documents

Publication Publication Date Title
US7970057B2 (en) Method for scalably encoding and decoding video signal
US9288486B2 (en) Method and apparatus for scalably encoding and decoding video signal
US7835452B2 (en) Method for encoding and decoding video signal
US7899115B2 (en) Method for scalably encoding and decoding video signal
US8532187B2 (en) Method and apparatus for scalably encoding/decoding video signal
US20060133482A1 (en) Method for scalably encoding and decoding video signal
US20070189382A1 (en) Method and apparatus for scalably encoding and decoding video signal
KR100880640B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
KR100878824B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
KR100883604B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
US20060120454A1 (en) Method and apparatus for encoding/decoding video signal using motion vectors of pictures in base layer
US20080008241A1 (en) Method and apparatus for encoding/decoding a first frame sequence layer based on a second frame sequence layer
KR100878825B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
US20060159176A1 (en) Method and apparatus for deriving motion vectors of macroblocks from motion vectors of pictures of base layer when encoding/decoding video signal
US20070242747A1 (en) Method and apparatus for encoding/decoding a first frame sequence layer based on a second frame sequence layer
US20070280354A1 (en) Method and apparatus for encoding/decoding a first frame sequence layer based on a second frame sequence layer
US20070223573A1 (en) Method and apparatus for encoding/decoding a first frame sequence layer based on a second frame sequence layer

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121227

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131224

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141224

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151224

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20161214

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20171214

Year of fee payment: 10