WO2013085245A1

WO2013085245A1 - 입체영상 디스플레이가 가능한 디지털 방송 수신방법 및 수신장치

Info

Publication number: WO2013085245A1
Application number: PCT/KR2012/010421
Authority: WO
Inventors: 서종열; 최지현; 홍호택; 김진필
Original assignee: 엘지전자 주식회사
Priority date: 2011-12-04
Filing date: 2012-12-04
Publication date: 2013-06-13
Also published as: US20140362181A1; CN103959768A; EP2787733A4; KR101977260B1; CA2856909C; CN103959768B; CA2856909A1; EP2787733A1; KR20140102642A; US10009591B2

Abstract

본 발명은 기준시점 및 확장시점 비디오 스트림이 포함된 디지털 방송 신호를 수신 및 역다중화하는 단계와, PMT(Program Map Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table), EIT(Event Information Table) 중 적어도 하나에 구비되는 서술자를 이용하여 상기 기준시점 및 확장시점 비디오 스트림의 좌/우 정보를 판단하는 단계와, 상기 기준시점 및 확장시점 비디오 스트림을 디코딩하는 단계, 및 상기 좌/우 정보를 이용하여 디코딩된 기준시점 및 확장시점 비디오 스트림을 제어하는 단계를 포함하는 디지털 방송 수신방법을 제공한다.

Description

입체영상 디스플레이가 가능한 디지털 방송 수신방법 및 수신장치

본 발명은 디지털 방송 수신방법 및 수신장치에 관한 것으로서, 더 구체적으로는 입체영상 디스플레이를 가능하게 하는 디지털 방송 수신방법 및 수신장치에 관한 것이다.

최근 입체 영상 서비스에 대한 관심이 점점 증대되면서 입체영상을 제공하는 장치들이 계속 개발되고 있다. 이러한 입체영상을 구현하는 방식 중에 스테레오스코픽(stereoscopic) 방식, 부피표현(volumetric) 방식, 홀로그래픽(holographic) 방식 등이 있다.

스테레오스코픽 방식의 기본 원리는, 사람의 좌안과 우안에 서로 직교하도록 배열된 영상을 분리하여 입력하고, 사람의 두뇌에서 좌안과 우안에 각각 입력된 영상이 결합되어 입체 영상이 생성되는 방식이다. 이때, 서로 직교하도록 배열된 영상이 각각 좌안 영상(reft view image) 및 우안 영상(right view image)이 된다. 상기 좌안 및 우안 영상이 편광 안경이나 디스플레이 장비 자체를 통해 좌안과 우안에서 각각 시청되면, 사용자는 입체 영상 효과를 인지하게 된다.

그러나, 종래의 디지털 방송은 이차원 영상을 기준으로 하고 있다. 따라서, 디지털 방송에서 이러한 입체 영상 서비스를 효과적으로 구현하기 위해서, 스테레오스코픽 영상 신호를 효과적으로 확인 및 처리하는 방법이 고려될 수 있다.

본 발명은 이상과 같은 종래의 문제점을 감안하여 안출된 것으로서, 본 발명의 목적은 입체영상을 위한 신호를 확인 및 처리가 가능한 디지털 방송 송수신방법 및 장치를 제공하는 것이다.

본 발명의 다른 목적은, 입체영상 디스플레이가 가능한 수신장치 및 이차원영상 디스플레이만 가능한 수신장치에서 각각 적절한 신호 처리를 수행할 수 있는 데이터 구성방법 및 출력 제어방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 다양한 레벨에서 좌안 및 우안 영상을 확인 및 처리하여 입체영상 디스플레이를 지원할 수 있는 디지털 방송 송수신방법 및 장치를 제공하는 것이다.

본 발명의 또 다른 목적은, MVC Stereo 코딩 기법에 기반한 3D 방송에 대비하여, 관련 수신장치 동작 및 추가로 필요한 제한조건이나 규정 등을 제공하는 것이다.

상기와 같은 목적을 달성하기 위하여, 본 발명과 관련된 디지털 방송 수신방법은, 기준시점 및 확장시점 비디오 스트림이 포함된 디지털 방송 신호를 수신 및 역다중화하는 단계와, PMT(Program Map Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table), EIT(Event Information Table) 중 적어도 하나에 구비되는 서술자를 이용하여 상기 기준시점 및 확장시점 비디오 스트림의 좌/우 정보를 판단하는 단계와, 상기 기준시점 및 확장시점 비디오 스트림을 디코딩하는 단계, 및 상기 좌/우 정보를 이용하여 디코딩된 기준시점 및 확장시점 비디오 스트림을 제어하는 단계를 포함한다.

본 발명과 관련된 일 예로서, 상기 기준시점 및 확장시점 비디오 스트림은 각각 서로 다른 시점의 비디오 스트림 구간들을 구비한다. 상기 서술자는 상기 서로 다른 시점의 비디오 스트림 구간들의 좌/우 정보를 프로그램 레벨, 이벤트 레벨 및 프레임 레벨 중 적어도 하나에서 표시할 수 있다. 상기 프로그램 레벨, 이벤트 레벨 및 프레임 레벨에서 좌/우 정보의 처리는 우선 순위를 가지도록 설정될 수 있다.

본 발명과 관련된 다른 일 예로서, 상기 디코딩하는 단계는 SEI(Supplemental Enhancement Information) message를 이용하여 해당 스트림의 시점 정보를 판단하는 과정을 더 포함한다. 상기 기준시점 및 확장시점 비디오 스트림은 각각 서로 다른 시점의 비디오 스트림 구간들을 구비하고, 상기 시점 정보는 상기 비디오 스트림 구간들의 시점을 비디오 프레임 단위, 픽처 단위 및 시퀀스 단위 중 적어도 하나를 사용하여 나타낼 수 있다.

또한, 본 발명은 기준시점 및 확장시점 비디오 스트림이 포함된 디지털 방송 신호를 수신하는 튜너와, 상기 디지털 방송 신호로부터 기준시점 및 확장시점 비디오 스트림을 역다중화하는 디멀티플렉서와, PMT(Program Map Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table), EIT(Event Information Table) 중 적어도 하나에 구비되는 서술자를 이용하여 상기 기준시점 및 확장시점 비디오 스트림의 좌/우 정보를 판단하는 PSI/PSIP 프로세서와, 상기 기준시점 및 확장시점 비디오 스트림을 디코딩하는 디코더, 및 상기 좌/우 정보를 이용하여 디코딩된 기준시점 및 확장시점 비디오 스트림을 제어하는 3D 비디오 프로세서를 포함하는 디지털 방송 수신장치를 개시한다.

또한, 본 발명은 수신된 MVC(Multiview Video Codec) 스트레오 스트림의 PID 값을 검출하고 상기 MVC 스트레오 스트림을 디코더로 출력하는 단계와, 상기 MVC 스트레오 스트림을 기준시점 및 확장시점에 따라 상기 디코더의 기본계층(AVC layer) 및 확장계층(MVC extension layer)으로 각각 할당하는 단계, 및 상기 기본계층 및 확장계층에서 GOP내에 포함된 Access unit들을 처리하여, 기준시점 및 확장시점 비디오 데이터를 디코딩하는 단계를 포함하는 디지털 방송 수신방법을 제시한다.

본 발명과 관련된 다른 일 예로서, 2-PID multiplex mode 인 경우에, 상기 확장시점의 비디오 데이터는 Coded slice extension 의 NAL 종류를 가지거나, IDR 픽처의 슬라이스 또는 IDR 이외의 픽처 슬라이스의 NAL 종류를 가질 수 있다.

본 발명과 관련된 또 다른 일 예로서, 1-PID multiplex mode 인 경우에, 상기 확장시점의 비디오 데이터는 Prefix NAL unit의 존재여부에 따라 서로 다른 NAL 종류를 가질 수 있다.

본 발명에 따르면, 디지털 방송에서 다양한 방식으로 입체영상에 대한 정보를 제공할 수 있고, 또한 이러한 입체영상 정보를 확인 및 처리할 수 있어 입체영상 디스플레이 출력이 가능하다.

본 발명에 따르면, 방송 수신장치는 수신된 비디오 스트림에 포함된 이미지의 시점(view point)을 파악하여, 입체영상 디스플레이 출력을 제어할 수 있다.

또한, 본 발명에 따르면, view information이 적용되는 범위를 레벨별로 정의함에 따라 각 레벨에서 좌안 및 우안 영상에 대한 정보를 줄 수 있게 된다. 또한, 상기 정보 및 해당 정보의 정확도를 서술자에서 나타냄에 따라, 비디오 스트림과 좌안 및 우안 영상과의 관계를 채널/프로그램/서비스/프레임 단위로 설정할 수 있게 된다.

도 1a 및 도 1b는 본 발명의 일 실시예와 관련된 3D 비디오 스트림(3D content video stream) 전송 방법을 설명하는 도면.

도 2는 본 발명의 일 실시예에 따른 SEI message를 포함하는 비디오 스트림의 처리 순서를 도시한 흐름도.

도 3은 본 발명의 일 실시예에 따른 view information metadata를 포함하는 SEI message의 신택스(syntax) 구조를 설명하는 도면.

도 4는 본 발명의 일 실시예에 따른 view_info_SEI_data의 신택스 구조를 도시한 도면.

도 5는 view_info_descriptor 의 신택스 구조를 도시한 도면.

도 6은 시그널링 데이터(signaling data)를 파싱(parsing)하는 과정을 나타내는 개념도.

도 7은 도 6의 방식을 이용하여 시점정보를 획득하는 과정을 나타내는 흐름도.

도 8은 view switching의 다양한 실시예들을 나타내는 도면.

도 9는 event boundary detection을 위한 시그널링 제안을 도시한 개념도.

도 10은 시점정보를 이용하여 디코딩된 픽처의 3D 출력을 제어하기 위한 수신장치 구조를 나타내는 도면.

도 11은 시점정보를 이용한 decoder 및 formatter 구성의 일 실시예를 나타내는 개념도.

도 12는 MVC 코딩에서 NAL unit 의 종류를 나타내는 테이블.

도 13은 2-PID mode인 MVC stereo 방송에서의 수신장치의 구조를 나타내는 도면.

도 14a는 AVC layer 에서 base view stream(PID_A)를 처리하는 일 실시예를 나타내는 도면.

도 14b 및 도 14c는 MVC extension layer 에서 dependent view stream(PID_B)를 처리하는 실시예들을 나타내는 도면들.

도 15는 1-PID mode인 MVC stereo 방송에서의 수신장치의 나타내는 도면.

도 16은 1-PID 모드에서 GOP 내에 포함된 각 Access unit 별 처리 순서를 나타내는 도면.

도 17은 2-PID 모드에서 3D 방송 송신을 위한 송신장치의 데이터 처리과정을 나타내는 도면.

도 18은 3D 방송 수신 및 출력을 위한 수신장치의 구조를 나타내는 도면.

3-D 또는 3D 라는 용어는 깊이의 착시 효과를 갖는 입체영상(이하, '3D 영상'이라 한다)을 재생하려고 하는 시각적 표현 또는 표시 기술을 설명하는데 사용된다. 좌안 영상과 우안 영상에 대해, 관찰자의 시각 피질(visual cortex)은 두 영상을 하나의 3D 영상으로 해석한다.

3차원(3D) 표시기술은 3D 영상 표시가 가능한 장치에 대해 3D 영상 처리 및 표현의 기술을 채용한다. 선택적으로는, 3D 영상 표시가 가능한 장치는 관찰자에게 3차원 영상을 효과적으로 제공하기 위해 특수한 관찰장치를 사용해야 할 수 있다.

3D 영상 처리 및 표현의 예로는 스테레오스코픽 영상/비디오 캡처, 다수의 카메라를 이용한 다시점 영상/비디오 캡처, 이차원 영상과 깊이 정보의 처리 등이 있다. 3D 영상 표시가 가능한 표시 장치의 예로는, 3D 영상 표시기술을 지원하는 적절한 하드웨어 및/또는 소프트웨어를 구비한 LCD(Liquid Crystal Display), 디지털 TV 화면, 컴퓨터 모니터 등이 있다. 특수한 관찰장치의 예로는, 특수화 안경, 고글, 헤드기어, 안경류(eyewear) 등이 있다.

구체적으로, 3D 영상 표시기술은, 애너글리프(anaglyph) 입체영상(통상적으로 수동형 적청 안경을 함께 사용), 편광 입체영상(통상적으로 수동형 편광 안경과 함께 사용), 프레임-교대 시퀀싱(alternate-frame sequencing)(통상적으로 능동형 셔터 안경/헤드기어와 함께 사용), 렌티큘러(lenticular) 또는 배리어(barrier) 스크린을 사용한 오토스테레오스코픽 디스플레이(autostereoscopic display) 등이 있다. 이하에서 설명하는 다양한 사상 및 특징은 이러한 3D 영상 표시기술에 적용가능하다.

어떠한 3D 영상 표시기술은 회전하거나 교대로 동작하는 광학장치, 예를 들면 컬러필터 휠(wheel)에 부착된 분할 편광기(segmented polarizer)를 사용할 수 있으며, 이때는 서로 간에 동기화가 요구된다. 다른 3D 영상 표시기술은, 표시할 영상의 픽셀과 대응하는 사각형 배열로 배치된, 회전가능한 마이크로스코픽 미러(micorscopic mirror)를 사용하는 디지털 미소 반사 표시기(digital micromirror device; DMD)에 기반한 디지털 광처리기(digital light processor; DLP)를 이용할 수 있다.

한편, 3D 영상의 렌더링(rendering) 및 표시기술(특히, 3D TV)와 관련된 새로운 유형의 표준이, 현재 다양한 기업, 컨소시엄, 및 기구에서 개발되고 있으며, 그 예로는 SMPTE(the Society of Motion Picture and Television Engineers), CEA(Consumer Electronics Association), 3d@Home 컨소시엄, ITU(International Telecommunication Union) 등이 있다. 이외에도, DVB, BDA, ARIB, ATSC, DVD 포럼, IEC 등과 같은 다른 표준화 그룹들이 참여하고 있다. MPEG(Moving Picture Experts Group)은, 다시점 영상, 스테레오스코픽 영상, 및 깊이 정보를 갖는 이차원 영상의 3D 영상 코딩에 참여하고 있으며, 현재는 MPEG-4 AVC(advanced video coding) 에 대한 다시점 영상 코덱 익스텐션(Multiview Video Codec extension)이 표준화 진행 중이다. 스테레오스코픽 영상 코딩 및 스테레오스코픽 분배 포맷팅은 컬러 시프팅(anaglyph), 픽셀 서브 샘플링(pixel sub-sampling)(사이드 바이 사이드(side-by-side), 체커보드(checkerboard), 오점형(quincunx) 등), 및 인핸스드 비디오 코딩(enhanced video coding)(2D + 델타(Delta), 2D + 메타데이터(Metadata), 깊이정보를 갖는 2D)와 관련있다. 여기서 설명하는 사상 및 특징은 이러한 표준에 적용가능하다.

또한, 여기에 기재된 발명의 사상 및 특징 중 적어도 일부는, 디지털 영상 또는 3D TV 에 대한 영상 재생 및 표시 환경의 면에서 설명되는 3D 영상 표시기술과 관련 있다. 그러나, 그 세부내용은 여기에서 설명되는 다양한 특징을 한정하기 위한 것이 아니며, 다른 유형의 표시 기술 및 장치에 적용가능하다. 예를 들면, 3D TV 기술은 TV 방송 뿐만 아니라 블루레이(Blu-rayTM), 콘솔(console) 게임, 케이블, 및 IPTV 전송, 이동전화 컨텐츠 전달 등에도 적용될 수 있으며, 이러한 경우 다른 유형의 TV, 셋톱 박스, 블루레이 장치(예를 들면, BD(Blu-rayTM Disk) 플레이어), DVD 플레이어 및 TV 컨텐츠 분배기와 호환가능하여야 한다.

다시, 3D 영상 처리 및 표현 방법을 살펴보면, 스테레오스코픽 영상/비디오 캡처는 2 개의 시점을 고려하는 스테레오 영상 방식으로 지칭되며, 다수의 카메라를 이용한 다시점 영상/비디오 캡처는 3개 이상의 시점을 고려하는 다시점 영상 방식으로 지칭된다.

스테레오 영상 방식은 일정한 거리로 이격되어 있는 좌측 카메라와 우측 카메라로 동일한 피사체를 촬영하여 획득한 좌우 한 쌍의 영상을 사용한다. 다시점 영상 방식은 일정한 거리나 각도를 갖는 3 개 이상의 카메라에서 촬영하여 획득한 3 개 이상의 영상을 사용한다. 다시점 영상 방식에서 영상들 중 2개의 영상을 좌 영상(left view image) 및 우 영상(right view image)으로 지정함에 따라, 입체영상 구현이 가능하게 된다. 다만, 본 발명은 반드시 이에 한정되는 것은 아니며, 3 개 이상의 영상을 이용한 다른 입체영상 방식의 구현(예를 들어 집적영상(integral imaging) 방식으로 구현)도 가능하다.

스테레오 영상 또는 다시점 영상은 MPEG(Moving Picture Experts Group)을 포함하는 여러가지 방법으로 압축 부호화되어 전송될 수 있다. 예를 들어, 스테레오 영상 또는 다시점 영상은 H.264/AVC(Advanced Video Coding) 방식으로 압축 부호화되어 전송될 수 있다. 이때 수신 시스템은 H.264/AVC 코딩 방식의 역으로 수신 영상을 복호하여 3D 영상을 얻을 수 있다.

또한 스테레오 영상이나 다시점 영상 중 하나의 영상을 기본계층(base layer) 영상으로, 나머지 영상은 확장계층(extended layer or extension layer) 영상으로 할당하고, 기본계층의 영상은 모노스코픽 영상과 동일한 방식으로 부호화하고, 확장계층의 영상은 기본 계층과 확장 계층의 영상간의 관계 정보에 대해서만 부호화하여 전송할 수 있다. 기본계층 영상에 대한 압축 부화화 방식의 예로 JPEG, MPEG-2, MPEG-4, H.264/AVC 방식 등이 사용될 수 있으며, 확장계층의 영상에 대한 압축 부호화 방식은 H.264/MVC(Multi-view Video Coding) 방식이 이용될 수 있다.

3D 영상 처리 및 표현을 위해 AVC 방식에 MVC 방식을 추가로 사용하거나 AVC 만으로 좌/우 영상 시퀀스를 코딩한 경우, 해당 3D 콘텐츠를 방송하고자 할 때 고려해야하는 사항 중 하나는 기존의 2D 방송 수신장치(또는 수신기, 이하 수신장치로 통일하여 칭한다)와의 호환성이다. 좌/우 영상 중 한 시점의 영상을 backward compaptible한 방법으로 코딩을 하여 송신하면, 2D 방송 수신장치에서 해당 신호만을 인식하여 출력함으로써 해당 콘텐츠의 시청이 가능하다.

이와 같이, 3D 콘텐츠 전송의 일 실시예는, 한 시점의 영상을 2D compatible 한 신호로 코딩하여 전송하는 것이다. 다만, 제작자의 의도에 따라 동일한 콘텐츠 내에서 2D로 송신할 비디오 스트림을 구간에 따라 상이한 시점의 비디오 프레임들을 편집하여 전송할 수도 있다. 이하, 이러한 실시예에 대하여 도 1a 및 도 1b를 참조하여 보다 상세히 설명한다. 도 1a는 본 발명의 일 실시예와 관련된 3D 비디오 스트림(3D content video stream) 전송 방법을 설명하는 도면이다.

도 1a를 참조하면, 좌 영상의 비디오 스트림 구간(video stream section)과 우 영상의 비디오 스트림 구간이 순차적으로 배열된 비디오 스트림은 backward compatible한 코딩 방식인 AVC 방식으로 코딩되는 (또는 2D 방송 수신장치를 위한) 비디오 스트림(이하, 제1 비디오 스트림, 120)이다. 여기에서 비디오 스트림 구간(video stream section)은, 상이한 시점을 갖는 비디오 스트림 내의 비디오 스트림 구간을 의미하며, 이 구간은 비디오 프레임, 픽처, 시퀀스의 단위로 구성될 수 있다. 3D 방송 수신장치(또는 수신기, 이하 수신장치로 통일하여 칭한다)를 위한 추가적인 비디오 스트림(이하, 제2 비디오 스트림, 130)은, AVC 방식 또는 MVC 방식으로 코딩되어 전송된다.

도 1a에서, left view image sequence(110)와 right view image sequence(140)는 3D content를 제작하기 위해 각각 좌 영상 및 우 영상에서 촬영되어 편집된 image sequence이다. 전송 시스템은, 2D 방송수신기에서의 디스플레이를 위해 left/right view image sequence(110, 140) 중 하나를 선택하여 코딩 및 전송할 수도 있으나, 도시된 바와 같이 좌 영상 및 우 영상를 선택하여 배열한 제1 및 제2 비디오 스트림(120, 130)을 코딩하여 전송한다.

이 경우에, 2D 방송 수신장치는 제1 비디오 스트림(120)을 수신 및 디코딩하여 출력하면 된다. 다만, 3D 방송 수신장치의 경우 제1 비디오 스트림(120)과 제2 비디오 스트림(130)을 수신하여 그대로 출력하는 경우, 좌 영상과 우 영상이 바뀌어 출력되는 구간이 발생할 수 있다. 즉, 도시된 바와 같이 코딩된 비디오 스트림 내에서 시점(view point)이 변경되는 경우 해당 시점에 따라 3D 출력을 정확히 제어하지 않으면 3D 영상이 정상적으로 출력되지 않는 문제점이 발생한다. 또한, 정확한 제어가 가능하므로, 2D 방송 수신장치에서도 좌 영상과 우 영상 중 어느 하나만 지속적으로 출력하는 것도 가능하게 된다.

상기에서 설명한 문제점은 예를 들어, 채널/프로그램/이벤트 레벨에서도 존재할 수 있다.

도 1b를 참조하면, 이벤트가 제1 내지 제3 이벤트가 순서대로 처리되는 경우에, 제작자의 의도에 따라 제1 이벤트에서는 제1 비디오 스트림(120)이 좌 영상이나, 제2 이벤트에서는 우 영상인 경우가 발생할 수 있다. 이 경우에, 제2 비디오 스트림(130)은 제1 이벤트에서 우 영상이고, 제2 이벤트에서는 좌 영상이 된다. 이와 같이, 이벤트 레벨에서도 코딩된 비디오 스트림 내에서 해당 시점에 따라 3D 출력을 정확히 제어하는 수단이 구비되면, 이벤트에 따라 좌우가 바뀌는 신호 처리가 가능하게 된다.

본 발명은 시점에 따라 3D 출력을 정확히 제어하기 위한 신호 처리 방법을 제시한다. 이하, 코딩된 이미지 시퀀스에 대해 픽처(picture), 프레임(frame) 또는 시퀀스(sequence) 단위로 해당 영상의 시점를 알려주기 위한 시그널링 데이터(signaling data)인 view information metadata의 구성 및 처리와, 채널/프로그램/이벤트 단위로 시점을 알려주기 위한 서술자(descriptor)의 구성 및 처리에 대하여 설명한다.

먼저, 본 발명의 일 실시예로서 view information metadata를 video ES(Elementary stream)에 포함하여 전송하는 방법을 설명한다.

H.264(또는 AVC) video data 및 MVC extension video data의 경우 video ES는 SEI(Supplemental Enhancement Information) message(message)를 포함한다. SEI message는 VCL(Video Coding Layer)의 복호 과정에 필수가 아닌 부가정보를 나타낸다. HRD(Hypothetical Reference Decoder)와 관련된 각 픽처(picture)의 타이밍 정보, 팬/스캔 기능(복호한 영상의 일부를 판독하여 표시하는 기능)에 관한 정보, 임의 액세스를 수행하는데 필요한 정보, 사용자가 독자적으로 정의하는 정보 등이 SEI message에 포함된다.

도 2는 본 발명의 일 실시예에 따른 SEI message를 포함하는 비디오 스트림의 처리 순서를 도시한 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 view information metadata를 포함하는 SEI message의 신택스(syntax) 구조를 설명하는 도면이다.

도시한 바에 따른 비디오 스트림의 처리 순서에서 엑세스 유닛(Access unit)을 처리하는 방법은 다음과 같다.

먼저, Access unit delimiter(딜리미터) NAL (Network Abtraction layer) unit의 존재 여부를 확인(S210)한다. 만약 존재하면, 그것은 첫번째 NAL unit이 될 수 있다.

SEI NAL unit이 존재하는 경우(S220), 그것들은 프라이머리 코딩된 픽처를 선행(S230)하게 된다. 또한, buffering period SEI message를 포함하는 SEI NAL unit이 존재하는 경우, buffering period SEI message는 Access unit 내의 첫 번째 SEI NAL unit의 첫 번째 SEI message payload 일 수 있다.

프라이머리 코딩된 픽처는 대응되는 리던던트(redundant) 코딩된 픽처에 선행할 수 있다. 리던던트 코딩된 픽처가 존재하는 경우(S240), 그것들은 redundant_pic_cnt의 값의 오름차순으로 정렬될 수 있다.

SPS(sequence parameter set) extension NAL unit이 존재하는 경우, 그것은 SPS(sequence parameter set) extension NAL unit 내의 seq_parameter_set_id의 값과 동일한 값을 가지는 SPS(sequence parameter set) NAL unit 후의 다음 NAL unit이 될 수 있다.

NAL unit을 구분하지 않은 auxiliary coded picture의 하나 또는 그 이상의 코딩된 슬라이스가 존재하는 경우(S250), 그것들은 프라이머리 코딩된 픽처와 모든 리던던트 코딩된 픽처들을 따를 수 있다.

sequence NAL unit의 끝(end of sequence)이 존재하는 경우, 그것은 프라이머리 코딩된 픽처와 모든 리던던트 코딩된 픽처들을 따를 수 있고, NAL unit을 구분하지 않은 auxiliary coded picture의 모든 코딩된 슬라이스를 따를 수 있다. stream NAL unit의 끝(end of stream)이 존재하는 경우(S270), 그것은 마지막 NAL unit이 될 수 있다.

비디오 복호기(decoder)가 video bitstream 내에서 SEI message를 처리하는 순서에 의하면, 전송 시스템은 픽처(picture), 프레임(frame) 또는 시퀀스(sequence) 단위로 해당 영상의 시점을 알려주기 위하여 video ES의 SEI영역에 view branching data, 예를 들어 view information metadata를 포함시켜 전송할 수 있다. 이를 통하여 video level metadata를 통한 전송이 구현될 수 있다.

H.264 (또는 AVC) video 및 MVC extension video data의 경우에는 SEI (Supplemental Enhancement Information) 영역에 부가 정보를 전송할 수 있으며, 도 3에서 전송 시스템은 SEI message에서 SEI payloadType 값이 4인 user_data_registered_itu_t_t35()에서 user_identifier와 user_structure를 이용하여 방송 application에 필요한 부가 정보를 전송한다.

user_structure 내에 ATSC_user_data가 위치하며 user_data_type_code 필드를 이용하여 해당 데이터가 view_info_SEI_data라는 것을 알 수 있다. 수신장치는 user_data_type_structure에 포함된 view branching data 신택스, 예를 들어 view_info_SEI_data에 포함된 필드들을 이용하여 해당 픽처가 어느 시점인지를 알 수 있다.

도 4는 본 발명의 일 실시예에 따른 view_info_SEI_data의 신택스 구조를 도시한 도면이다. 이하, 도 4 에 도시된 본 발명의 view_info_SEI_data 를 구성하는 각 필드를 설명한다. 본 발명의 간명한 설명을 위해 신택스를 구성하는 필드의 영어 표현을 그대로 사용하되 큰 따옴표를 이용해 구분한다.

"left_view_flag" 는 SEI message가 포함된 픽처가 (또는 SEI message 직후에 수신된 픽처) 좌 영상 인지 우 영상인지를 알려준다. '1'이면 좌 영상, '0'이면 우 영상이다.

"view_id" 는 본 SEI message가 적용되는 corresponding view ID를 나타내며 이는 MVC의 PPS(Picture parameter set) 또는 SPS(sequence parameter set)에 지정된 view_id와 동일한 값을 사용한다. 즉, 이 필드를 이용해 MVC 스트림 중 어느 시점에 이 SEI message 내용이 적용되는지를 파악할 수 있다. 즉, view_id는 좌 영상 및 우 영상에 매칭되는 번호를 알려준다(이하, 설명에서 지칭하는 시점정보는 별도의 설명이 없으면 좌/우 영상의 정보를 의미하며, view_id의 정보와는 구별된다).

다만, 본 발명은 반드시 상기 신택스에 한정되는 것은 아니며, 예를 들어 veiw_id 필드가 생략될 수 있다. view_id 필드를 생략하고자 할 경우, view_info_SEI_data에서 지정하는 left_view_flag 값을 무조건 base view component에 대한 것으로 하는 실시예도 가능하다. 이 경우에는 base view가 좌 영상이면 corresponding view는 우 영상으로 설정하고, 반대로 base view가 우 영상이면 corresponding view는 좌 영상으로 설정한다.

또한, view information metadata의 전송 방법에는 하기와 같은 여러가지 실시예가 가능하다.

일 실시예로서, view information metadata는 영상 시퀀스의 선두 픽처인 IDR(Instantaneous Decoding Refresh) 픽처 위치에서 전송될 수 있다. IDR 픽처는, H.264/AVC 에서는 I 픽처의 뒤에 있는 P 픽처가 I 픽처보다 앞에 있는 픽처를 참조하는 프레임간 예측도 허용되므로 상태를 완전히 초기화하는 것은 통항의 I 픽처로는 불충분하여 사용하는 픽처이다.

다른 일 실시예로서, view information metadata는 매 픽처 위치마다 전송될 수 있다. 다른 일 실시예로서, view information metadata는 매 시퀀스의 시작 위치마다 전송될 수 있다. 이 경우 새로운 view information metadata가 오기 전까지 이전 view information metadata의 정보는 유지된다. 다른 일 실시예로서, view information metadata는 매 픽처 위치마다 전송되면서, 해당 값은 하나의 시퀀스 내에서는 동일한 값을 유지하도록 할 수 있다. 즉, 2D 비디오 시퀀스를 위해 특정 구간에 대해 하나의 view point를 선택하면 하나의 시퀀스 동안은 동일한 view point를 유지하도록 비디오 시퀀스를 코딩할 수 있다.

또한, 비디오 데이터를 복수의 스트림들로 전송하는 경우에, view information metadata는 기본적으로 기본시점 비디오 스트림(base view video stream)에 포함시켜 전송하고, 확장시점(extended view, 또는 부가시점(dependent view)) 비디오 스트림(video stream)을 처리하는 경우에도 기본시점 비디오 스트림에 포함된 시점에 대한 정보를 사용하도록 할 수 있다. 예를 들면, 스테레오스코픽 비디오 스트림의 경우 확장시점 비디오 스트림의 시점은 기본시점 비디오 스트림의 시점의 반대 시점이 될 것이므로, 확장시점 비디오 스트림을 처리하는 경우에도 기본시점 비디오 스트림에 포함된 시점에 대한 정보를 사용할 수 있다. 다른 예로서, 기본시점 비디오 스트림에 확장시점 비디오 스트림의 시점에 대한 정보까지 포함시켜 전송할 수도 있다. 또한, view information metadata를 확장시점 비디오 스트림에 포함시켜 전송하거나, 각각의 스트림들 모두에 포함시켜 전송할 수도 있다.

또한, 하나의 프레임(frame)에 좌우시점이 함께 믹싱되어 하나의 스트림으로 스트레오 비디오 데이터(stereoscopic video data)가 전송되는 경우가 있다. Side-by-side, top-bottom, checkerboard, horizontally/vertically interleaved formats들이 대표적이다. 이 경우에도 마찬가지로 view SEI Data를 전송할 수 있으며, 2D mode로 출력하는 경우에는 view SEI Data 정보를 이용해서 2D 시퀀스(sequence)를 좌우 영상들을 가지고 재구성하여 디스플레이할 수 있다. 이 때, view_id 필드를 이용해 top-and-bottom의 경우 view_id='0'이면 top, view_id='1'이면 bottom 등의 구분방법을 사용할 수 있다.

또한, 본 발명의 일 실시예로서 view information metadata를 별도의 PES(Packetized Elementary Stream) 패킷(packet)으로 구성하여 전송될 수 있다. 즉, 전송 시스템은, 상술한 바와 같이 view information metadata을 비디오 스트림에 포함시키는 대신, 비디오 스트림 및 오디오 스트림 외의 별도의 독립적인 PES 패킷으로 구성하여 전송할 수 있다.

이상에서는 코딩된 이미지 시퀀스에 대해 픽처(picture), 프레임(frame) 또는 시퀀스(sequence) 단위로 해당 영상의 시점을 알려주기 위한 시그널링 데이터인인 view information metadata의 구성 및 처리에 대하여 살펴 보았다.

이와 같은 방식은, 채널/프로그램/이벤트 단위로 시점을 알려주는 신택스로 확장될 수 있다. 즉, 각 레벨에서 좌안 및 우안 영상에 대한 정보를 주도록 시점 정보가 적용되는 범위를 레벨별로 정의할 수 있다. 이러한 예로서, PSI(Program Specific Information)의 PMT(Program Map Table)에서 새로운 서술자(이하, 디스크립터라 한다)로 지정을 해서 시그널링(signaling) 하는 방안이 가능하다. 다만, 본 발명은 반드시 이에 한정되는 것은 아니며, 상기 디스크립터는 EIT(Event Information Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table) 등의 테이블 정보에 구비될 수 있다.

이와 같은 디스크립터의 신택스 구조로서, 도 5는 view_info_descriptor의 신택스 구조를 도시한다.

도 5에서, view_info_descriptor에는 시점정보(view information)에 대한 정보 및 해당 정보의 정확도를 나타내는 엘리먼트가 포함되어 있다.

"program_level" 은 left_view_flag에서 지정한 해당 비디오 스트림에 대한 시점정보가 어느 수준까지 유효한지를 알려주는 필드이다. program_level 필드가 '1'이면 다른 필드의 값에 관계없이 left_view_flag에 의해 지정된 시점정보가 채널/프로그램/서비스 단위로 고정된다는 의미이다. 즉, "program_level" 은 프로그램 레벨에서 시점정보가 변하는지를 알려주게 된다.

"event_level" 은 left_view_flag에서 지정한 해당 비디오 스트림에 대한 시점정보가 어느 수준까지 유효한지를 알려주는 필드이다. event_level 필드가 '1'(이때, program_level 필드는 '0')이면 left_view_flag에 의해 지정된 시점정보가 이벤트(event) 단위로 변경된다는 의미이며 이벤트내에서 시점정보가 바뀌는지 여부는 frame_level 필드와의 조합을 통해 시그널링 한다.

"frame_level" 은 left_view_flag에서 지정한 해당 비디오 스트림에 대한 시점정보가 어느 수준까지 유효한지를 알려주는 필드이다. frame_level 필드가 '1'(이때, program_level 및 event_level 필드는 '0')이면 left_view_flag에 의해 지정된 시점정보가 프레임(frame) 단위로 변경될 수 있다는 의미이며 자세한 사항은 아래 표 1을 참고한다.

표 1

event_level	frame_level	Description
0	0	해당 비디오의 좌/우 정보는 frame은 물론 event 단위로도 변하지 않는다(이때, progarm_level = '1' 이어야 한다.).
0	1	해당 비디오의 좌/우 정보는 frame 단위로 변한다.
1	0	해당 비디오의 좌/우 정보는 event 단위로 변하며 변화시점은 event boundary와 일치한다.
1	1	해당 비디오의 좌/우 정보는 event 단위로 변하나 같은 event 내에서도 좌/우 정보의 변화가 발생할 수 있다(예: 동일한 event_id로 지정된 시간 내에서 중간광고 등의 segment 발생시).

"view_info_SEI_included" 는 필드가 '1'이면 해당 비디오 스트림에 대한 시점정보를 포함한 SEI message가 비디오 내에 존재한다는 의미이다. 이때, view_info_descriptor에 포함된 left_view_flag의 값은 실제 시점정보를 반영하지 못한다. 따라서, view_info_SEI_included 를 이용하면 비디오 레벨에서 시점정보를 확인하게 된다.

"left_view_flag" 는 프로그램 또는 이벤트 레벨(program/event level)에서 해당 비디오 스트림에 대한 시점정보를 나타내며 이 필드의 값이 '1'이면 해당 비디오 스트림은 3D의 좌 영상을 의미하고 '0'이면 우 영상임을 나타낸다.

상기에서 설명된, 픽처, 프레임 또는 시퀀스 단위로 해당 영상의 시점을 알려주기 위한 시그널링 방법과, 채널/프로그램/이벤트 단위로 시점을 알려주기 위한 시그널링 방법을 조합하면, 대부분의 경우에 해당 영상의 좌/우 정보가 확인될 수 있다. 이하, 이러한 예의 처리방법에 대하여 설명한다.

도 6은 시그널링 데이터(signaling data)를 파싱(parsing)하는 과정을 나타내는 개념도로서, 좌우 영상 정보를 PSI(Program Specific Information)의 PMT(Program Map Table)과, 비디오 스트림의 SEI message를 통하여 제공하는 방식을 설명하는 도면이며, 도 7은 도 6의 방식을 이용하여 시점정보를 획득하는 과정을 나타내는 흐름도이다.

"view_info_SEI" 는 video stream 에 포함되어 있으며, PMT(Program Map Table)에 "view_info_descriptor" 가 구비된다.

PMT(Program Map Table)된 필드에 대해 살펴보면, "stream_type" 은 엘러멘터리 스트림의 타입(type)을 나타낸다. stream_type은 만약, 기준시점 비디오 스트림이 AVC 로 코딩되었다면 '0x1B' 값을 가지며, 확장시점 비디오 스트림이 MVC 로 코딩되었다면 '0x20' 값을 가짐으로써 엘러멘터리 스트림의 기준영상인지 부가영상인지를 알려주게 된다. 또한, "elementary PID" 는 스트림 패킷에 대한 PID 값을 제공하게 된다.

이하, 상기와 같이 정의된 구조에서 signaling data를 parsing하는 과정을 설명한다.

먼저, PMT에서 기준영상 (AVC)에 대한 PID 값 (PID_V1)을 파악한다(S310). 다음은, 기준영상 (AVC, PID값 = PID_V1)에 대한 view_info_descriptor를 통해 해당 영상의 좌/우 정보를 파악한다(S320). S320 과정은 생략될 수 있으며 아래 과정 S340로 대체 가능하다.

또한, PMT에서 부가영상 (MVC)에 대한 PID 값 (PID_V2)를 파악한다(S330). 부가영상 (MVC, PID값 = PID_V2)에 대한 view_info_descriptor를 통해 해당 영상의 좌/우 정보를 파악한다(S340). S340 과정은 생략될 수 있으며 S320 과정에 의해 대체 가능하다.

해당 영상의 좌/우 정보가 파악되었으면, 기준영상 및 부가영상에 해당하는 PID 값 (PID_V1, PID_V2)을 갖는 transport packet을 비디오 디코더에 입력(S350)하고, 기준영상 및 부가영상에 대한 디코딩 작업을 수행(S360)한다(S360에서 video stream에 포함된 view_info_SEI를 이용해 해당 스트림의 좌/우 정보를 파악한다).

좌/우 정보 파악에 대하여, 도 7을 참조하여 보다 상세히 살펴보면, 만약 program_level 값이 '1'이면, view_info_descriptor 의 left_veiw_flag 에 의하여 해당 영상의 좌 영상 및 우 영상 여부가 결정된다.

만약, program_level='0', event_level='1', frame_level='0' 이면 view_info_descriptor 의 left_veiw_flag 에 의하여 해당 영상의 좌 영상 및 우 영상 여부가 결정된다. 다만, 실제 방송과정에서 EIT에 의해 signaling 된 event boundary가 실제 event boundary와 일치하지 않으므로 수신장치 동작에 문제가 발생할 수 있다. 이러한 경우에는, view_info_SEI messgae 의 left_veiw_field를 확인하여 좌 영상 및 우 영상 여부가 결정된다.

만약, program_level='0', frame_level='1' 이면 event_level 의 값에 관계없이 항상 view_info_SEI messgae 의 left_veiw_field를 확인하여 좌 영상 및 우 영상 여부가 결정된다.

다시 도 7과 함께 도 6을 참조하면, display processor는 기준영상 및 부가영상에 대한 post processing (de-interlacing, frame rate converting 등)을 수행(S370)하며 view info descriptor 또는 view info SEI message를 이용해 좌/우 영상을 mapping 하여 3D 비디오 출력(S380)을 수행한다.

상기와 같은 수신 제어 방법에 의하여 여러가지 view switching 이 가능하게 된다. 도 8은 시점 스위칭(view switching)의 다양한 실시예들을 나타내는 도면이다.

Case 1 은 program_level='1', event_level='0', frame_level='0' 인 경우이며, 좌 및 우 영상이 각 비디오 스트림에서 고정된다. 따라서, 구간 A ~ E까지 view_info_descriptor의 program_level은 '1'의 값을 가지며 view_info_descriptor에 포함된 left_view_flag 값을 이용해 각 비디오 스트림에 대한 좌/우 정보를 파악한다.

Case 2 는 program_level='0', event_level='1', frame_level='0' 인 경우이며, 좌 및 우 영상이 이벤트 레벨에서 스위칭된다.

시점 정보가 이벤트 단위로 변화하며, 하나의 이벤트 내에서는 시점 정보는 유지된다. 그러나 실제 방송과정에서 EIT에 의해 시그널링된 event boundary가 실제 event boundary와 일치하지 않으므로 수신장치 동작에 문제가 발생할 수 있다. 예를 들어, 구간 B는 EIT에 의하면 Event2가 방영되는 시간이어야 하나 실제로는 Event1이 방송되는 구간에 해당되며 Event1과 Event2 사이에 시점정보의 차이가 존재하는 경우 Event2에 대한 시점정보가 적용되는 지점(또는 시간, 시점)은 구간 C가 시작되는 지점(또는 시간, 시점)이다. 그러나 PMT의 VI descriptor(view information descriptor) 또는 EIT의 VI descriptor 만으로는 프레임 레벨로 정확한 시점 스위칭 시점을 알려줄 수 없다.

따라서, 각 구간 단위로 다음과 같은 시그널링을 수행한다.

- 구간 A, 구간 C, 구간 E: EIT에서 시그널링한대로 Event1이 진행되는 구간이며, 이 구간에서는 PMT의 view_info_descriptor 또는 EIT의 view_info_descriptor를 이용해 각 video component의 좌/우 여부에 대한 정보를 파악한다. 이 경우에는, view_info_descriptor 에서 program_level='0', event_level='1', frame_level='0' 으로 설정한다.

- 구간 B, 구간 D: EIT의 시그널링 내용과 실제 방송되는 내용에 차이가 있거나 차이가 발생할 가능성이 있는 구간이며, 이 구간에서는 다음과 같이 시그널링을 수행한다.

view_info_descriptor 에서 각 필드는 program_level='0', event_level='1', frame_level='1', view_info_SEI_included='1'로 설정하고, view info SEI를 비디오 스트림내에 반드시 전송하며, left_view_field를 이용해 좌/우 영상 정보를 시그널링한다. 본 실시예는 EIT에서 시그널링한 이벤트의 시작(start) 또는 종료(end) 시간이 임박한 시점 또는 EIT와 실제 방송 내용이 상이한 경우를 모두 포함할 수 있다.

Case 3 은 program_level='0', event_level='0', frame_level='1' 인 경우이며, 좌 및 우 영상이 프레임 레벨에서 스위칭된다. 따라서, view info SEI message를 이용해 좌/우 영상을 mapping 하게 된다. view_info_descriptor의 view_info_SEI_included='1'로 설정하며, view Info SEI를 반드시 전송하며, left_view_field를 이용해 좌/우 영상 정보를 시그널링한다.

Case 4 는 program_level='0', event_level='1', frame_level='1' 인 경우이며, 좌 및 우 영상이 이벤트 레벨에서 스위칭되나, 프레임 레벨에서도 스위칭이 가능하다.

이 경우에, 시점정보는 이벤트의 주 영역을 걸쳐 고정될 수 있다. 즉, 이벤트의 대부분 기간동안 특정한 좌/우 영상 정보를 유지하나 중간광고, 기타 일부 segment 에서 좌/우 영상 정보가 바뀌는 경우가 발생할 수 있다. 또한, Scene 단위로 좌/우 영상 정보가 바뀌는 경우도 포함될 수 있다. 이하, 상기 Case 4에 대하여 도 9를 참조하며 보다 상세히 설명한다.

도 9는 event boundary detection을 위한 시그널링 제안을 도시한 개념도이다.

도 9에서 Event 1은 중간 광고 부분에서 시점정보가 바뀌며, Event 2는 이벤트의 마지막 부분에 광고가 존재하며 이때 시점정보가 바뀐다. 아울러 Event 3의 경우는 이벤트 내에서 수시로 (scene 단위) 시점정보가 바뀌는 경우이다.

이 때, 구간 A, C, E는 해당 이벤트를 대표하는 시점정보를 EIT 또는 PMT 레벨에서 시그널링하며 이 정보를 해당 구간의 시점정보로 활용할 수 있다. 따라서, 다음과 같은 시그널링이 가능하다.

- 구간 A, 구간 C, 구간 E: event_level='1', frame_level='0' 으로 설정되고, 해당 구간에 대한 view 정보는 view_info_descriptor의 left_view_flag 필드를 이용해 시그널링한다.

- 구간 B, 구간 D, 구간 F: event_level='1', frame_level='1' 으로 설정된다. 이벤트가 진행되는 동안 일부 구간에 대해 이벤트 레벨의 시점정보가 valid 하지 않은 구간 (B, F) 이거나 이벤트의 경계가 진행되는 부분 (D) 이므로 해당 구간에서는 비디오 스트림을 통해 view info SEI message 를 반드시 전송한다. 따라서, view_info_descriptor의 view_info_SEI_included='1'로 설정되며, view info SEI message의 left_view_field를 이용해 시점정보를 시그널링한다.

- 구간 G: event_level='0', frame_level='1', view_info_SEI_included='1' 로 설정된다. 이 구간은 이벤트를 대표할만한 시점정보가 없으며 수시로 시점정보가 변하게 된다. 따라서, view info SEI message 를 반드시 전송하며 left_view_field를 이용해 시점정보를 시그널링한다.

이상에서 설명한 바에 더하여, 본 발명은 여러가지 형태의 기준이 제시될 수 있다. 예를 들어, program_level, event_level, frame_level 시그널링이 앞서 정의된 실시예와는 다르게 상충되게 시그널링될 경우(예를 들어 세 필드가 모두 '1'로 세팅된 경우)에, frame_level > event_level > program_level 순서의 우선 순위를 갖는다. 따라서, 수신장치는 위 세 개의 필드가 모두 '1'인 경우 frame_level='1'에 대한 시그널링 처리를 위한 동작을 우선적으로 수행하며 결과적으로 프레임 단위로 비디오 레벨에서 해당 스트림의 좌/우 정보를 파악해 처리한다.

또한, program_level 필드는 경우에 따라 생략이 가능하다. 즉, event_level과 frame_level이 모두 '0'인 경우 해당 서비스/채널에 대한 시점정보는 고정되는 것으로 판단 가능하다.

또한, view_information_descriptor 가 PMT 및 EIT 에 모두 존재하는 경우에 이에 대한 우선 순위가 설정될 수 있다. 예를 들어, view_information_descriptor가 EIT에 위치하는 것은 미리 해당 이벤트에 대해 정보 파악을 위한 성격으로 실제 정확한 시점정보는 PMT 및 video level의 view info SEI message를 통해 파악될 수 있다. 따라서, EIT의 view_information_descriptor와 PMT의 view_information_descriptor 내용에 상충(conflict)이 발생하는 경우 PMT의 view_information_descriptor 내용을 우선적으로 처리한다.

또한, view info SEI message는 가급적이면 기준시점(또는 기존시점의 영상)에 대해서만 시그널링하는 방법도 가능하다. 아울러 view info SEI message가 기준시점과 확장시점(또는 확장시점의 영상)에 대해 모두 시그널링되는 경우에 상충이 발생하면 기준시점에 대한 view info SEI message를 우선 처리하는 실시예가 가능하다.

도 10 및 도 11은 각각, 시점정보를 이용하여 디코딩된 픽처의 3D 출력을 제어하기 위한 수신장치 구조와, 시점정보를 이용한 decoder 및 formatter 구성의 일 실시예를 나타내는 개념도이다.

방송 수신장치는 tuner and demodulator(410), VSB decoder(420), TP demux(430), PSI/PSIP processor(440), A/V decoder(450), Extension video decoder(460) 및 3D stereoscopic control and 3D formatter(470, 3D video processor)를 포함할 수 있다.

또한, 도시하지 않았지만, 방송 수신장치는 해당 시점의 영상을 출력하기 위한 image output unit을 포함할 수 있다. image output unit은 각 시점에 대한 영상들을 제어하여 화면에 디스플레이하나, 복수로 구비되어 각각 좌우 영상을 출력하도록 구성될 수도 있다.

tuner and demodulator(410)는 디지털 방송 신호를 수신하여 해당 신호를 검파하고 오류를 정정하여 트랜스포트 스트림(Trasport Stream)을 생성하며, 트랜스포트 스트림(Trasport Stream)에 대해 필터링 및 파싱(parsing)을 수행하는 역다중화부의 예로서, TP demux(430)가 구비된다. PSI/PSIP processor(440)는 TP demux(430)로부터 전달받은 테이블 정보로부터 비디오 스트림에 대한 PID(Packet Identifier) 정보를 추출한다.

A/V decoder(450)는 기준시점 비디오를 디코딩하는 디코더이고, extension video decoder(460)는 확장시점 비디오를 디코딩하는 디코더이다. A/V decoder(450)와 extension video decoder(460)는 각각, video data를 처리하는 VCL(video coding layer) 및 supplemental data를 처리하는 Header & SEI 를 구비한다. 또한, 본 발명의 실시예에 따라 view information processor를 더 포함할 수 있다.

이하, 상기와 같은 수신장치의 동작 방법에 대하여 설명한다.

수신장치는 PSI/PSIP processor(440)에서 파싱된 PMT 및 TVCT 정보로부터 video stream PID를 추출하고, 해당 video stream PID를 사용하여 TP Demux(430)에서 비디오 스트림을 출력한다. 출력하는 비디오 스트림이 기준시점 비디오(AVC)에 해당하면 TP Demux(430)는 비디오 스트림을 A/V decoder(450)로 출력하고, 출력하는 비디오 스트림이 확장시점 비디오(MVC extension)에 해당하면 TP Demux(430)는 비디오 스트림을 extension video decoder(460)로 출력한다.

A/V decoder(450) 및 extension video decoder(460)는 각각 수신한 비디오 스트림에 포함된 video data 및 supplemental data를 처리하여 3D video processor(470)으로 출력한다. 이때 A/V decoder(450) 및 extension video decoder(460)는 supplemental data 에 포함된 SEI message 를 처리하여, view point information(시점정보)를 출력한다. 이 경우에는 프레임 레벨의 제어가 수행된다.

또한, view information processor(480)는 PSI/PSIP processor(440)에서 파싱된 PMT 또는 EIT 정보를 이용하여 view_information_descriptor 에서 지정하는 view point information 을 처리하여, 이를 3D video processor(470)로 출력한다. 이 경우에는 프로그램 또는 이벤트 레벨의 제어가 수행될 수 있다.

3D video processor(470)는 앞서 설명한 제어방법(도 6 내지 도 9 참조)을 따라 A/V decoder(450) 및 Extension video decoder(460)로부터 수신한 비디오를 view point information 들의 시점(view point)에 맞게 제어하여 출력한다.

도 11을 참조하면, 3D video processor(470)는 view information 에 따라 좌우 영상을 스위칭하는 switch(471)를 구비한다. 도 11은 디스플레이 장치가 line interlaced 편광방식인 경우를 나타낸다. 도시에 의하면, switch(471)에서 좌우 영상이 설정된 후에 3D Formatting 을 수행하며, 그 결과 프레임에서 좌우 영상의 조합이나 스위칭이 구현될 수 있다.

이상에서 설명한 바와 같이, 본 발명의 수신장치는 수신된 비디오 스트림에 포함된 이미지의 시점(view point)을 파악하거나, PMT 또는 EIT의 디스크립터에 포함된 이미지의 좌우 영상 여부를 파악하여 채널/프로그램/서비스/프레임 단위로 이미지 스위칭을 할 수 있게 된다.

수신 장치에서 디지털 방송 신호를 통해 전송되는 3D 비디오 방송 신호를 처리하고 3D 비디오 데이터를 화면에 출력하기 위한 기능은 앞서 설명한 이미지 스위칭 외에도 여러 가지가 요구될 수 있다. 이러한 예로서, 특정 코딩 기법에 기반하여 3D 방송을 지원하고자 할 때, 스트림 구성 관련 송신단 및 수신단의 상황을 고려해 추가적인 제약 및 동작에 대한 명확한 가이드가 필요하다. 특히, 좌, 우 두개의 영상으로 구성된 스테레오 3D 방송의 경우 두개의 스트림에 대한 코딩을 지원하는 MVC stereo 기술에 기반하여 전송이 가능하며, 이러한 방송을 지원하기 위한 방법 및 수신장치 동작 방식이 정의될 필요가 있다.

이러한 예로서, 본 발명에서는 H.264/AVC 표준을 기반으로 3D 방송을 위하여 추가로 필요한 제한조건이나 규정 등을 보충하여 MVC stereo codec 을 정의하며, 먼저 NAL unit, Access unit, View Component, Base view component, Dependent view component, SPS, PPS 에 대하여 설명한다.

MVC stereo codec 에서도 동영상 부호화 처리 그 자체를 다루는 VCL(video coding layer)와 부호화된 정보를 전송하고 저장하는 하위 시스템과의 사이에 있는 NAL(network abstraction layer) 이라는 계층이 정의되며, 이를 통하여 VCL과 NAL이 분리된 구조로 구성된다. NAL unit는 NAL 헤더와 VCL에서 생성된 RBSP(raw byte sequence payload)로 구성되며, MVC (H.264/AVC 스펙의 Annex H에 기술) 코딩은 H.264/AVC와 마찬가지로 NAL unit을 기본으로 하며, nal_unit_type 구성은 도 12과 같다.

비트열 속의 정보를 픽처 단위로 엑세스하기 위하여 몇 개의 NAL 단위를 모은 하나의 집합을 Access unit 이라 한다. MVC stereo codec 에서 Access unit (또는 MVC Access unit)은 서로 대응되는 기본시점(base view)와 확장시점(dependent view)로 구성된 한 쌍의 스테레오 영상 조합으로 의미가 확장된다. 즉, 기본시점와 확장시점이 쌍을 이루어 Access unit을 구성하게 된다.

View Component 는 MVC로 코딩된 base view와 dependent view를 각각 지칭하는 것으로 좌 여상 또는 우 영상 중 하나를 의미한다. 결과적으로 두 개의 대응되는 View Component를 합쳐 하나의 Access Unit을 구성한다.

Base view component 는 AVC video sub-bitstream of MVC (2-PID multiplex mode인 경우) 또는 an MVC base view sub-bitstream (1-PID multiplex mode인 경우)로 불리우며 MVC로 코딩된 두 개의 view component 중 기준 영상에 해당되는 component이며 기존의 AVC/H.264 디코더를 이용해 복호화가 가능한 스트림을 의미한다.

Dependent view component 는 ISO/IEC 14496-10의 Annex H를 이용해 복호화가 가능한 스트림이며 MVC extension stream에 해당한다. Base view의 복호화 결과를 이용한 inter-view prediction 또는 Dependent view component 사이의 inter-prediction 등을 이용해 복호화를 수행한다.

SPS(Sequence parameter set)는 video sequence에 공통으로 적용되는 parameter를 포함하며 profile, level, chroma format (4:2:0 등과 같은 정보), sequence에 포함되는 frame 개수, picture 크기, frame crop 관련 정보 등을 포함한다. 즉, SPS 는 profile, level 등 시퀀스 전체의 부호화에 걸쳐있는 정보가 포함되어 있는 헤더정보가 될 수 있다.

PPS(Picture parameter set)는 하나 또는 여러 개의 picture에 적용되는 parameter를 담고 있으며, picture에 대한 entropy coding mode (CABAC, CAVLC 등), 슬라이스 개수, 슬라이스 구성 정보, quantization parameter 등에 대한 정보를 포함한다. 특히, PPS 는 픽처 전체의 부호화 모드를 나타내는 헤더정보가 될 수 있다.

이하, MVC Stereo 코딩에 기반한 3D 방송에서 NAL unit 의 전송/수신 및 처리 순서에 대하여 설명한다. 수신장치가 NAL unit을 전송/수신 및 처리하는 순서는 Multiplex mode 구성에 따라 달라진다. MVC stereo bitstream은 두가지 multiplex mode로 구성이 가능하며, 먼저 2-PID multiplex mode인 경우에 대하여 설명한다.

도 13은 2-PID mode인 MVC stereo 방송에서의 수신장치의 구조를 나타낸다.

도시에 의하면, 2-PID multiplex mode인 경우에는 한 개의 PES packet은 하나의 MVC view component를 포함하며, 각 스트림은 별도의 디코더에서 처리된다. 이하, 2-PID mode 스트림에 대한 수신기 동작을 예를 들어 설명한다.

먼저, TP deumx에서는 PSI/PSIP/SI section에 포함된 정보를 이용해 기본시점 및 확장시점이 포함된 패킷의 PID 값을 파악하고 (각각 PID_A, PID_B) 해당되는 PID 패킷을 Video Input Buffer & Control 부로 입력한다.

Video Input Buffer & Control은 독립적인 두 개의 PID 스트림을 임시로 저장한 후, PES packet에 포함된 PTS 또는 DTS 정보를 이용해 서로 대응되는 기본시점 및 확장시점에 해당하는 패킷을 파악한 후에 MCV decoder 로 출력을 수행한다. 즉, Video Input Buffer & Control은 NAL unit의 슬라이스를 처리하게 된다.

Video Input Buffer & Control은 입력되는 기본시점과 확장시점 스트림의 순서가 어긋나는 경우를 대비해 충분한 저장공간을 확보한다. 또한 MVC decoder로의 출력에서 항상 두 개의 대응되는 view pair를 전달하도록 ideo Input Buffer & Control은 synchronization 기능을 함께 담당한다.

다음은, 대응되는 기본시점 및 확장시점이 포함된 PES 또는 ES도 MVC decoder로 전달된다(이때, SPS, PPS 등과 같은 non-VCL 정보도 포함).

MVC decoder는 AVC layer와 MVC extension layer에 해당되는 데이터를 디코딩하는 기능 및 구성을 포함하며 이들은 각각 기본시점 및 확장시점 데이터를 디코딩한다. 이하, MVC decoder에서 디코딩을 수행하는 단계에 대하여 보다 상세히 설명한다.

도 14a는 AVC layer 에서 기본시점 스트림(PID_A)을 처리하는 일 실시예를 나타내는 도면이며, 도 14b 및 도 14c는 MVC extension layer 에서 확장시점 스트림(PID_B)을 처리하는 실시예들을 나타내는 도면들이다.

모든 Access unit에는 주픽처의 슬라이스에 해당하는 NAL unit 이 포함되며, Access unit의 선두에는 AU delimiter 가 부가될 수 있다.

도 14a를 참조하면, AVC layer 에서는 NAL unit 처리를 위하여 먼저, GOP(Group of Pictures, 또는 sequence)에서 첫번째 Access unit의 AU delimiter 을 이용하여 Access unit의 선두를 판단하고, SPS, PPS, SEI message 를 확인한다. 도시에 의하면, Prefix NAL unit or Subset sequence parameter set이 추가될 수 있다. 마지막으로, 첫번째 Access unit 에서 기본시점 비디오가 처리되며, 구체적으로 기본시점 스트림의 주픽처(Primary coded picture) 및 예비픽처(Redundant/Auxiliary coded picture)가 처리된다.

차후의 Access units 에서는 AU delimiter, PPS, SEI message 및 기본시점 비디오가 각각 처리되며, GOP의 마지막 Access unit에서는 EOS(end of sequence)를 통하여 시퀀스의 종료를 판단한다. 또한, AU delimiter와 함께 Access unit 의 각 NAL unit 들은 기존 2D HDTV와의 backward-compatibility 를 위해 H.264/AVC와 동일한 규정을 따른다.

도 14b 및 도 14c를 참조하면, MVC extension layer 에서의 NAL unit 처리 순서의 크게 두 가지 시나리오로 나뉠 수 있다. 또한, 상기 시나리오는 MVC Stereo 코딩에서 NAL unit 처리의 제약조건이 될 수 있다.

먼저, 확장시점에 대한 비디오 데이터를 포함하는 NAL nuit에 대한 종류를 nal_unit_type=20 (coded slice of non-base view)으로 전송/처리하는 경우가 가능하며, 이때에 GOP 내에서 어디에 위치하는지에 따라 Access units은 도 14b와 같이 구성된다.

AU delimiter는 각 Access unit의 선두를 표시하는 개시부호로서 nal_unit_type=9로 설정될 수 있으며, PPS나 SPS보다 선행한다. 다른 예로서, nal_unit_type=18을 이용하여 확장시점 스트림 전용의 AU delimiter를 명시할 수도 있다. Subset sequence parameter set는 SPS MVC extension 과 관련된 정보, 예를 들어 MVC 에 대한 프로파일과 레벨 등이나 시퀀스 전체의 부호화에 관한 확장정보를 포함한다. Subset sequence parameter set 은 GOP (또는 sequence)에서 첫번째 Access unit 에 포함될 수 있다.

PPS 는 확장시점에 대한 픽처 전체의 부호화 모드를 표시하며, SEI message는 MVC scalable nesting SEI message 안에 포함되어 전송된다. 전술한 바와 같이, 각 Access unit에서 확장시점에 대한 비디오 데이터는 coded slice extension(nal_unit_type=20)으로 지정되어 전송/처리된다.

다음은, 확장시점에 대한 비디오 데이터를 포함하는 NAL Unit에 대한 nal_unit_type을 1(non-IDR) or 5 (IDR)로 전송/처리하는 경우의 순서이며 구성은 도 14c와 같다.

이 경우에도, AU delimiter는 각 Access unit의 선두를 표시하는 개시부호로서 nal_unit_type=9로 설정될 수 있다. 다른 예로서, nal_unit_type=18을 이용하여 dependent view stream 전용의 AU delimiter를 명시할 수도 있다.

각 Access unit에서 확장시점에 대한 비디오 데이터는 nal_unit_type=1 또는 5으로 지정되어 전송/처리된다. 보다 구체적으로, NAL unit이 IDR 픽처의 슬라이스(Coded slice of an IDR picture)인지 IDR 이외의 픽처 슬라이스(Coded slice of a non-IDR picture)인지를 알려주게 된다. 따라서, GOP의 첫번째 픽처는 어떤 조건인지, 그 다음은 어떤 순서인지 또한 마지막은 어떤 순서인지를 알려줄 수 있게 된다.

본 예시에서는 앞선 예시와 달리, Prefix NAL unit이 추가로 구성될 수 있다. Prefix NAL unit은 디코딩 순서가 다른 NAL unit보다 선행하는 NAL unit을 의미한다. 예를 들어, nal_unit_type=14로 전송/처리되며, nal_unit_type=1 또는 5 의 NAL unit 보다 먼저 디코딩되며, 따라서 확장시점에 대한 비디오 데이터보다 먼저 디코딩될 수 있다.

이상에서는 2-PID multiplex mode인 경우에 대하여 설명하였으며, 이하, 1-PID multiplex mode에 대하여 설명한다.

도 15는 1-PID mode인 MVC stereo 방송에서의 수신장치의 구조를 나타낸다.

도시에 의하면, 1-PID multiplex mode인 경우에, 기본시점 및 확장시점 비디오는 모두 하나의 스트림에 포함되어 MVC decoder에서 함께 처리된다. 이하, 1-PID mode 스트림에 대한 수신기 동작을 예를 들어 설명한다.

먼저, TP deumx에서는 PSI/PSIP/SI section에 포함된 정보를 이용해 기본시점 및 확장시점이 포함된 MVC 비디오 스트림 패킷의 PID 값(PID_A)을 파악하고, 해당되는 PID 패킷을 Video Input Buffer & Control 부로 입력한다.

Video Input Buffer & Control은 입력되는 하나의 MVC 스트림을 임시로 저장한 후, PES packet에 포함된 PTS 또는 DTS 정보를 이용해 MVC decoder로의 출력을 수행한다. 이 경우에, 하나의 스트림으로 전송된 기본시점 및 확장시점은 그 순서가 이미 align 되어 있는 상황이므로 Video Input Buffer & Control 블록에서 별도의 synchronization 처리를 할 필요는 없다.

또한, MVC Access unit 단위로 PES 또는 ES를 MVC decoder로 전달한다. 이 때, SPS, PPS 등과 같은 non-VCL 정보도 포함될 수 있으며, MVC access unit은 AU delimiter가 포함된 NAL unit을 기준으로 시작점을 판단할 수 있다.

MVC decoder는 AVC layer와 MVC extension layer에 해당되는 데이터를 디코딩하는 기능 및 구성을 포함하며 이들은 각각 기본시점 및 확장시점 데이터를 디코딩한다. 이하, MVC decoder에서 디코딩을 수행하기 위한 Access unit 의 구성에 대하여 보다 상세히 설명한다.

도 16은 1-PID 모드에서 GOP 내에 포함된 각 Access unit 별 처리 순서를 나타내는 도면이다.

모든 Access unit의 선두에는 AU delimiter 가 부가되며, 이는 base view 의 개시부호를 나타낸다. 또한, AU delimiter는 기존 2D HDTV와의 backward-compatibility를 위해 H.264/AVC와 동일한 규정을 따른다.

각 Access unit은 PPS(base view), PPS(dependent view), SEI message(base view), SEI message(dependent view), Video(base view), Prefix NAL unit (dependent View), Video(dependent view)의 순서로 구성된다. 또한, GOP의 첫번째 Access unit에서는 SPS(base view)와 Subset sequence parameter set이 구비되고, 마지막 Access unit에서는 EOS(End of sequence)가 배치된다. Subset sequence parameter set는 SPS MVC extension(dependent view)과 관련된 정보를 포함하며, SPS(base view) 다음에 위치하는 것도 가능하다.

SEI message(dependent view)는 MVC scalable nesting SEI message 안에 포함될 수 있다.

Video(base view)는 주픽처(Primary coded picture) 및 부가픽처(Redundant/Auxiliary coded picture)를 구비하며, IDR 픽처의 슬라이스(Coded slice of an IDR picture)로 전송될 수 있다.

Prefix NAL unit(dependent View)은 기존 AVC decoder의 오동작 방지를 위하여 생략 가능하며, MVC extension descriptor의 no_prefix_nal_unit_present 값에 따라 존재 여부 결정 가능하다.

Video(dependent view)는 coded slice MVC extension NAL units 이 될 수 있다. 또한, Prefix NAL unit이 있는 경우 확장시점을 구성하는 비디오 슬라이스(video slice)의 NAL unit의 종류는 nal_unit_type=1 (non-IDR) 또는 5 (IDR)이며, Prefix NAL unit이 없는 경우에 확장시점을 구성하는 비디오 슬라이스는 nal_unit_type=20이 될 수 있다.

EOS(End of sequence)는 nal_unit_type=10으로 지정될 수 있다.

상기의 구성에서 알 수 있듯이, MVC stereo NAL unit의 디코딩시 각 단계별로 규정되어야 할 항목은 AU delimiter(base view), SPS(base view), PPS(base view), SEI message(base view), Prefix NAL unit or Subset sequence parameter set(base view), Video(base view), SPS MVC extension(dependent view), PPS(dependent view), SEI message(dependent view), Prefix NAL unit or Subset sequence parameter set(dependent view), Video(dependent view), End of sequence 등이 있다.

이하, 상기 각 항목의 제약조건에 대하여 보다 상세히 설명하며, 2-PID 모드에 적용할 수 없는 특별한 부분을 제외하고는 하기의 설명은 앞선 도 14a 내지 도 14c의 구성에도 적용될 수 있다.

먼저, SPS(base view), PPS(base view), SEI message(base view) 및 Prefix NAL unit or Subset sequence parameter set(base view), End of sequence는 각각 기존 2D HDTV와의 backward-compatibility를 위해 H.264/AVC와 동일한 규정을 따른다.

H.264/AVC와 동일한 규정을 따르는 것은 Video(base view)도 마찬가지이며, base view와 dependent view 사이의 관계는 다음의 조건을 따른다.

먼저, MVC random access는 transport packet의 adaptation field 내의 random_access_indicator 필드를 이용해 나타낸다. 단, 이 필드는 Base view component에만 위치해도 문제 없으며, 따라서 Base view component의 시작점이 포함된 transport packet에만 해당 필드를 포함시키는 실시예가 가능하다.

elementary_stream_priority_indicator는 MVC stereo base view가 I 또는 IDR(random access 시작되고, base view에 IDR 픽처가 존재)일 때 '1'로 세팅되며, 대응되는 dependent view가 포함된 NAL unit에 대해서는 anchor_pic_flag값을 '1'로 설정한다. 즉, all prefix NAL units(nal_unit_type=14), slice extension NAL units(nal_unit_type=20), 및 dependent view가 nal_unit_type=1 또는 5인 경우에도 해당 NAL unit의 anchor_pic_flag를 '1'로 설정한다.

기본시점 및 확장시점에 대해, PES packet payload의 첫 바이트는 기본시점 (또는 확장시점) 비디오의 첫번째 바이트이어야 한다. 이 경우 수신장치가 PES packet을 처리할 때, payload에서 픽처의 첫 바이트를 찾기 위한 별도의 처리를 추가하는 부담이 없어지게 된다.

또한, Base view component와 Dependent view component의 PTS/DTS가 일치해야 한다. Tolerance가 있는 경우 하위 9비트 (약 1/180 second에 해당, 1/50 second의 절반에 가장 가까우면서 counter 비교가 수월한 값)에서만 차이가 나도록 해야한다. 이 경우 receiver가 PTS/DTS의 상위 24비트만 비교해 처리한다.

AVC descriptor의 AVC_still_present가 '1'인 경우 MVC stereo에도 해당 사항이 적용되는 것으로 간주한다. 즉, MVC still picture로 해석해 처리한다.

pic_width_in_mbs_minus1과 pic_height_in_map_units_minus1은 MVC stereo 에서 바뀔 수 없으며, Base view component 및 Dependent view component에서 서로 다른 값을 취할 수 있다. MVC stereo 에서 영상의 aspect ratio 는 16:9가 될 수 있으며, aspect ratio 는 기본시점 비디오 및 확장시점 비디오에서 서로 같아야 한다. 이 경우 Dependent view component가 송신단에서 downsampled 되어 전송된 경우, 해상도 관점에서의 가로 / 세로 비율이 다를 수 있으나 sample aspect ratio를 이용해 최종 출력되는 aspect ratio는 16:9로 동일하게 설정 가능하다.

또한, Base view component 및 Dependent view component 각각에 대해 color parameter information 이 전송되며, 각 color parameter information은 같은 value 를 가질 수 있다.

3D event를 진행하는 도중에 video의 Profile, Level, frame rate, progressive/interlaced 여부, entropy_coding_mode_flag 등은 고정되며, MVC를 유지해야 한다. 또한, PPS에서 Entropy_coding_mode_flag는 base와 dependent view에서 동일한 값으로 설정되어야 한다.

SPS(base view)는 Sub-set sequence parameter set에서 부호화되는데, SPS MVC extension(dependent view)와 동일한 값을 갖도록 설정되어야 한다. 즉, SPS 필드는 기본시점 및 확장시점이 동일한 값을 갖도록 설정된다. 다만, 이 경우에 seq_parameter_set_id 및 profile_idc는 제외된다.

Base view component 및 Dependent view component에 동일한 데이터가 적용되는 것이므로 dependent view component의 subset_seq_param_set 내의 seq_parameter_set_data() 자리에는 같은 parameter value를 갖는 base view의 seq_parameter_set_id 값만 전송하는 방안도 가능하다. 다만 이 경우에, MVC decoder는 기본시점 및 확장시점을 디코딩할 때, 각 view component가 사용하는 SPS, PPS 등이 저장되는 메모리를 별도 관리하지 말고, 공유(share)하는 구조를 사용할 수 있다. 즉, 기본시점을 위한 SPS를 확장시점에서도 사용 가능하도록 하는 구조를 사용한다.

PPS(dependent view)에서 Entropy_coding_mode는 기본시점 및 확장시점 모두 동일하게 설정한다.

SEI message(dependent view)는 MVC scalable nesting SEI message 안에 포함될 수 있다. 보다 구체적으로, 확장시점에 적용되는 모든 SEI message는 MVC_scalable_nesting SEI message에 포함되어 전송한다. 예를 들어, Pan-scan rectangle SEI message를 사용하며 MVC_scalable_nesting SEI message에 포함시켜 전송한다. 이 경우 수신기는 좌우 영상을 디코딩한 후 각 영상에 대한 pan-scan rectangle SEI message를 이용해 최종 출력과정에서 각각 디스플레이되는 영역을 설정한다. 즉, pan-scan rectangle SEI가 기본시점 및 확장시점에 대해 다르게 설정되었다면 기본시점은 기본시점 스트림의 pan-scan rectangle SEI에서 시그널링된 영역을 출력하고, 확장시점은 Dependent view component에 대한 pan-scan rectangle SEI에서 시그널링된 영역을 출력한다. 수신장치는 각각 선택된 영역을 이용해 stereoscopic video를 출력하게 된다.

이 경우에, 확장시점에 포함되는 SEI message의 전송/처리 순서는 3단계가 될 수 있다. 예를 들어, SEI message는 Buffering period SEI message를 포함하는 MVC scalable nesting SEI message, User data registered SEI message with OSD Depth range metadata를 포함하는 MVC scalable nesting SEI message, other MVC scalable SEI message로 구성될 수 있다.

Prefix NAL unit or Subset sequence parameter set(dependent view)에서, MVC_extension_descriptor의 no_prefix_nal_unit_present 필드가 '1'인 경우, 확장시점 비디오 스트림 내에 Prefix NAL unit이 존재할 수 없다. 이 경우에 D확장시점의 비디오를 포함하는 NAL unit은 nal_unit_type=20인 경우만 가능하다. 즉, nal_unit_type=1 또는 5 는 될 수 없다.

다음은, Video(dependent view)의 제약조건에 대하여 설명한다.

먼저, MVC anchor picture의 경우에 decoder가 MVC anchor picture를 기점으로 3D stereo view pair가 정상적으로 디코딩을 수행하고 stereo picture가 디스플레이 가능해야 한다.

MVC Stereo Corresponding view component의 경우에는, MVC picture를 구성하는 기본시점 및 확장시점에 대해 허용되는 primary_pic_type을 정하거나 허용되는 slice_type을 정해야 한다. Inter-view와 관련된 slice_type은 따로 없으므로 I/P/B slice를 이용한 constraint 정의가 필요하며, 아래 표 2와 같이 구성될 수 있다.

표 2

	Base view component에 대해 허용된 parameter 값		Dependent view component에 대해 허용된 parameter 값
	primary_pic_type	slice_type	primary_pic_type	slice_type
Stereo I picture (MVC I picture)	0	2, 7	0	2, 7
Stereo P picture(MVC P picture)	0, 1	0, 2, 5, 7	0, 1	0, 2, 5, 7
Stereo B picture(MVC B picture)	0, 1, 2	0, 1, 2, 5, 6, 7	0, 1, 2	0, 1, 2, 5, 6, 7

단, Stereo P picture의 경우 Base view와 Dependent view의 primary_pic_type이 동시에 0이 될 수는 없다. 아울러, Stereo B picture의 경우 기본시점 및 확장시점 중 최소한 하나는 반드시 primary_pic_type 값이 2가 되어야 한다.

또한, MVC Stereo RAP의 경우에는 허용되는 slice 조합을 명시해야 한다. MVC Stereo RAP은 임의의 시점에서 3D 영상이 모두 온전한 형태로 디코딩될 수 있는 시작점을 의미하며, 기본시점뿐만 아니라 확장시점의 데이터까지 수신한 경우이다. 예를 들어, 기본시점은 IDR picture 또는 I slice만 포함하고, 확장시점은 I slice만 포함하거나 P slice를 포함하되 reference picture는 같은 access unit에 존재하는 기본시점 픽처만 허용할 수 있다.

이상에서 설명한 각 항목의 제약조건에 더하여, MVC stereo 디코딩에서는 4기본시점 및 확장시점의 RAP 구성에 대한 제약조건이 부여될 수 있다. 즉, MVC stereo RAP 시간 간격은 변할 수 있으며, 이에 대한 broadcast requirement 가 setting 되어야 한다. 예를 들어, MVC stereo RAP 또는 MVC random access view component의 PES header를 포함하는 TP 는 adaptation field 를 포함한다. 이때 각 필드의 구성은 다음과 같다:

- payload_unit_start_indicator = '1'

- adaptation_field_control = '11'

- random_access_indicator = '1'

- elementary_stream_priority_indicator = '1' (단, base view component 인 경우)

MVC stereo RAP의 배치 간격은 일정한 주기를 갖도록 권장한다. 이 경우에, 3D 모드로 trick play를 수행할 경우 균일한 interval로 frame skip이 가능하므로 자연스러운 trick play가 가능하게 된다.

또한, MVC Stereo Base view에서 Prefix NAL unit은 허용하지 않는다. 이는 backward-compatibility 유지를 위함이다. 단, MVC 기본시점은 다음과 같은 특성을 갖는 것으로 가정한다.

- IDR / non-IDR 여부는 corresponding Base view component의 nal_unit_type에 따라 결정된다(nal_unit_type이 5인 경우 IDR picture이므로 '0' 으로 설정하며, nal_unit_type이 1인 경우, non-IDR picture이므로 '1' 로 설정한다).

- 기본시점은 가장 높은 priority를 갖는 것으로 간주한다.

- 기본시점의 view_id는 '0'인 것으로 간주한다.

- 대응되는 Base 및 Dependent view의 temporal level이 동일한 것으로 가정한다.

- anchor_pic_flag 필드의 값은 기본시점 및 확장시점에 대해 동일하게 설정한다.

- inter_view는 수행한다.

또한, MVC Stereo Base view에서 Coded slice extension NAL unit (nal_unit_type=20)과, Subset Sequence Parameter set NAL unit (nal_unit_type=15)은 허용하지 않는다.

또, 다른 제약조건으로서, 기본시점 비디오 스트림과 확장시점 비디오 스트림의 각 GOP 구조는 서로 같아야 한다. 나아가, 기본시점 비디오 스트림과 확장시점 비디오 스트림이 같아야 하는 것에는 GOP구조, view 개수, 서로 대응되는 slice에서 nal_ref_idc 값, display order (Picture Order Count), GOP의 첫번째 픽처의 PTS에서 DTS를 뺌으로서 정의되는 decoding delay 등이 포함될 수 있다.

이하, 2-PID mode에서 TS packet(transport packet) 다중화의 가이드라인에 대하여 도 17을 참조하여 설명한다. 도 17은 2-PID 모드에서 3D 방송 송신을 위한 송신장치의 데이터 처리과정을 나타내는 도면이다.

도시에 의하면, 2-PID multiplex mode인 경우에는 한 개의 PES packet은 하나의 MVC view component를 포함하며, 각 스트림(또는 좌 영상 및 우 영상의 스트림)은 별도의 엔코더에서 처리된다. 도시에 의하면, 기본시점 및 확장시점 중 어느 하나가 좌 영상이고, 다른 하나가 우 영상이 될 수 있다. 이 경우에, 기본시점 및 확장시점이 포함된 패킷의 PID 값(각각 PID_A, PID_B)이 부여되고, 해당되는 PID 패킷에 따라 서로 다른 버퍼(각각 버퍼 A, 버퍼 B)로 출력된다.

이 경우에, GOP에서 첫번째 Access unit에 해당하는 MVC Stereo base view component의 PES 패킷 헤더의 첫번째 TS 패킷은 GOP에서 첫번째 dependent unit를 위하여 기본시점에 대응하는 MVC Stereo dependent view component의 PES 패킷 헤더의 첫번째 TS 패킷보다 선행하여야 한다. 또한, GOP에서 마지막 dependent unit의 MVC Stereo dependent view component를 가지는 PES 패킷 헤더의 마지막 TS 패킷은 다음에 올 GOP에서 첫번째 Access unit의 MVC Stereo base view component를 가진 PES 패킷 헤더의 첫번째 TS 패킷보다 선행하여야 한다.

이 경우에, 엔코딩 및 remuxing 과정에서는 각 view component의 PTS를 참고해 대응되는 기본시점 및 확장시점이 포함된 PES packet이 순서대로 배치되도록 처리한다. 이를 위하여, multiplexer의 전단에서 두 개의 기본시점 및 확장시점 스트림에 대한 버퍼를 동시에 관리하는 블럭이 존재할 수 있다. 예를 들어, 블럭은 버퍼 A 및 버퍼 B에 더하여 버퍼 제어부(buffer controller)를 포함할 수 있으며, 상기 버퍼 제어부는 PTS를 참고하여 각 PES 패킷의 싱크를 맞추게 된다.

이상에서는 MVC stereo 기반의 3D 방송을 실시하는데 있어 가능한 수신장치의 동작과 함께 송신장치의 동작을 정의하고, 이를 활용하는 방법을 제안하였다. 이하, MVC stereo 기반에서 3D 방송 수신 및 출력을 위한 수신장치의 전체적인 형태에 대하여 설명한다.

도 18은 3D 방송 수신 및 출력을 위한 수신장치의 구조를 나타내는 도면이다.

방송 수신장치는 tuner and demodulator(510), VSB decoder(520), TP demux(530), PSI/PSIP processor(540), output formatter(550)를 포함할 수 있다.

tuner and demodulator(510)는 디지털 방송 신호를 수신하여 해당 신호를 검파하고 오류를 정정하여 트랜스포트 스트림(Trasport Stream)을 생성하며, 트랜스포트 스트림(Trasport Stream)에 대해 필터링 및 파싱(parsing)을 수행하는 역다중화부의 예로서, TP demux(530)가 구비된다. PSI/PSIP processor(540)는 TP demux(530)로부터 전달받은 테이블 정보로부터 비디오 스트림에 대한 PID(Packet Identifier) 정보를 추출한다. TP deumx(530)에서는 PSI/PSIP/SI section에 포함된 정보를 이용해 기준시점 및 확장시점이 포함된 패킷의 PID 값을 파악하고 해당되는 PID 패킷을 Video Buffer & Control(560)로 입력한다.

Video Buffer & Control(560)은 독립적인 두 개의 스트림을 임시로 저장한 후, 서로 대응되는 기준시점 및 확장시점에 해당하는 패킷을 파악한 후에 decoder(570)로 출력을 수행한다. 여기서, AVC layer는 base view video를 디코딩하는 디코더이고, MVC extension layer는 extended view video를 디코딩하는 디코더이다.

output formatter(550)는, PSI/PSIP processor(540)가 추출한 정보에 기초하여, 기준시점 비디오 스트림과 확장시점 비디오 스트림을 image output unit의 출력에 맞게 포맷팅한 후 전송한다.

이때, 기준시점 비디오 스트림과 확장시점 비디오 스트림을 스테레오스코픽 출력에 맞게 포맷팅하기 위해서, L/R splitter(580)가 output formatter(550)의 전단에 배치된다. L/R splitter(580)는 PSI/PSIP processor(540)가 추출한 시점위치 정보(특히, 좌우 영상인지 여부)를 이용하여, 기준시점 비디오 스트림과 확장시점 비디오 스트림을 각각 좌 영상 또는 우 영상으로 매칭시킨다.

상기와 같은 수신장치에 의하여 입체영상 정보를 확인 및 처리할 수 있어 입체영상 디스플레이 출력이 가능하게 된다.

본 발명의 여러 측면과 관련된 독창적인 사상을 설명하기 위해 다양한 실시예들을 기술하였다. 그러나, 하나의 특정 실시예에 있는 하나 이상의 구체적인 특징들은 하나 이상의 다른 실시예에도 적용될 수 있다. 각 실시예 및 그에 연관된 도면에서 설명하는 일부 구성요소 또는 단계는 수정될 수 있고 부가적인 구성요소 및/또는 단계를 삭제, 이동, 또는 포함할 수 있다.

여기서 설명한 다양한 특징 및 사상은, 소프트웨어, 하드웨어, 펌웨어, 미들웨어, 또는 그 결합의 형태로 실시될 수 있다. 예를 들면, 디지털 방송에서 입체영상 신호의 수신방법 및 입체영상 신호의 수신장치를 구현하기 위한, 컴퓨터 실행가능한(computer-executable) 매체에 저장된 컴퓨터 프로그램(컴퓨터, 프로세서, 제어기 등에 의해 실행된다)은 다양한 작업을 수행하는 하나 이상의 프로그램 코드 섹션(section)을 포함할 수 있다. 유사하게, 디지털 방송에서 입체영상 신호의 수신방법 및 입체영상 신호의 수신장치를 구현하기 위한, 컴퓨터 실행가능한(computer-executable) 매체에 저장된 소프트웨어 도구(컴퓨터, 프로세서, 제어기 등에 의해 실행된다)는, 다양한 작업을 수행하는 프로그램 코드 일부를 포함할 수 있다.

입체영상 디스플레이가 가능한 디지털 방송 수신방법 및 수신장치는, 입체영상을 위한 신호를 확인 및 처리하는 방법을 제시함으로서, 산업상 이용가능성이 있다.

Claims

기준시점 및 확장시점 비디오 스트림이 포함된 디지털 방송 신호를 수신 및 역다중화하는 단계;

PMT(Program Map Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table), EIT(Event Information Table) 중 적어도 하나에 구비되는 서술자를 이용하여 상기 기준시점 및 확장시점 비디오 스트림의 좌/우 정보를 판단하는 단계;

상기 기준시점 및 확장시점 비디오 스트림을 디코딩하는 단계; 및

상기 좌/우 정보를 이용하여 디코딩된 기준시점 및 확장시점 비디오 스트림을 제어하는 단계를 포함하는 디지털 방송 수신방법.
제1항에 있어서,

상기 기준시점 및 확장시점 비디오 스트림은 각각 서로 다른 시점의 비디오 스트림 구간들을 구비하는 것을 특징으로 하는 디지털 방송 수신방법.
제2항에 있어서,

상기 서술자는 상기 서로 다른 시점의 비디오 스트림 구간들의 좌/우 정보를 프로그램 레벨, 이벤트 레벨 및 프레임 레벨 중 적어도 하나에서 표시하는 것을 특징으로 하는 디지털 방송 수신방법.
제3항에 있어서,

상기 프로그램 레벨, 이벤트 레벨 및 프레임 레벨에서 좌/우 정보의 처리는 우선 순위를 가지도록 설정되는 것을 특징으로 하는 디지털 방송 수신방법.
제2항에 있어서,

상기 기준시점 및 확장시점 비디오 스트림은 대응하는 서로 다른 시점의 비디오 스트림 구간들에서 좌 영상 및 우 영상 여부가 스위칭되는 것을 특징으로 하는 디지털 방송 수신방법.
제1항에 있어서,

상기 디코딩하는 단계는 SEI(Supplemental Enhancement Information) message를 이용하여 해당 스트림의 시점 정보를 판단하는 과정을 더 포함하는 디지털 방송 수신방법.
제6항에 있어서,

상기 기준시점 및 확장시점 비디오 스트림은 각각 서로 다른 시점의 비디오 스트림 구간들을 구비하고, 상기 시점 정보는 상기 비디오 스트림 구간들의 시점을 비디오 프레임 단위, 픽처 단위 및 시퀀스 단위 중 적어도 하나를 사용하여 나타내는 것을 특징으로 하는 디지털 방송 수신방법.
제7항에 있어서,

상기 서술자는 상기 SEI message가 포함되어 있는지 여부를 알여주는 필드를 더 포함하는 것을 특징으로 하는 디지털 방송 수신방법.
제8항에 있어서,

상기 서술자와 상기 SEI message에서 지정하는 내용들에 상충이 발생하는 경우에 상기 서술자의 내용을 우선적으로 처리하는 것을 특징으로 하는 디지털 방송 수신방법.
제6항에 있어서,

상기 SEI message는 상기 SEI message가 포함된 픽처가 좌 영상 및 우 영상 중 어느 영상인지를 알려주는 필드와, 상기 픽처가 MVC(Multiview Video Codec) 스트림들 중 어느 시점에 적용되는지를 알려주는 필드를 구비하는 것을 특징으로 하는 디지털 방송 수신방법.
기준시점 및 확장시점 비디오 스트림이 포함된 디지털 방송 신호를 수신하는 튜너;

상기 디지털 방송 신호로부터 기준시점 및 확장시점 비디오 스트림을 역다중화하는 디멀티플렉서;

PMT(Program Map Table), TVCT(Terrestrial Virtual Channel Table), SDT(Service Description Table), EIT(Event Information Table) 중 적어도 하나에 구비되는 서술자를 이용하여 상기 기준시점 및 확장시점 비디오 스트림의 좌/우 정보를 판단하는 PSI/PSIP 프로세서;

상기 기준시점 및 확장시점 비디오 스트림을 디코딩하는 디코더; 및

상기 좌/우 정보를 이용하여 디코딩된 기준시점 및 확장시점 비디오 스트림을 제어하는 3D 비디오 프로세서를 포함하는 디지털 방송 수신장치.
제11항에 있어서,

상기 기준시점 및 확장시점 비디오 스트림은 각각 서로 다른 시점의 비디오 스트림 구간들을 구비하고,

상기 서술자는 상기 서로 다른 시점의 비디오 스트림 구간들의 좌/우 정보를 프로그램 레벨, 이벤트 레벨 및 프레임 레벨 중 적어도 하나에서 표시하는 것을 특징으로 하는 디지털 방송 수신장치.
수신된 MVC(Multiview Video Codec) 스트레오 스트림의 PID 값을 검출하고 상기 MVC 스트레오 스트림을 디코더로 출력하는 단계;

상기 MVC 스트레오 스트림을 기준시점 및 확장시점에 따라 상기 디코더의 기본계층(AVC layer) 및 확장계층(MVC extension layer)으로 각각 할당하는 단계; 및

상기 기본계층 및 확장계층에서 GOP내에 포함된 Access unit들을 처리하여, 기준시점 및 확장시점 비디오 데이터를 디코딩하는 단계를 포함하는 디지털 방송 수신방법.
제13항에 있어서,

2-PID multiplex mode 인 경우에, 상기 확장시점의 비디오 데이터는 Coded slice extension 의 NAL 종류를 가지거나, IDR 픽처의 슬라이스 또는 IDR 이외의 픽처 슬라이스의 NAL 종류를 가지는 것을 특징으로 하는 디지털 방송 수신방법.
제13항에 있어서,

상기 확장시점의 AU delimiter는 상기 기준시점의 AU delimiter와 동일한 NAL 종류를 가지거나, nal_unit_type=18로 전용의 NAL 종류를 가지는 것을 특징으로 하는 디지털 방송 수신방법.
제13항에 있어서,

1-PID multiplex mode 인 경우에, 상기 확장시점의 비디오 데이터는 Prefix NAL unit의 존재여부에 따라 서로 다른 NAL 종류를 가지는 것을 특징으로 하는 디지털 방송 수신방법.
제16항에 있어서,

상기 기준시점의 비디오 데이터는 backward-compatibility을 위하여 Prefix NAL unit이 제한되는 것을 특징으로 하는 디지털 방송 수신방법.
제13항에 있어서,

기존시점 및 확장시점에 대해 허용되는 primary_pic_type 및 slice_type은 I 픽처, P 픽처, B 픽처를 기준으로 설정되는 것을 특징으로 하는 디지털 방송 수신방법.