KR101450921B1

KR101450921B1 - 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치

Info

Publication number: KR101450921B1
Application number: KR1020097000056A
Authority: KR
Inventors: 푸르빈 비바스 판디트; 예핑 수; 펭 인; 크리스티나 고밀라
Original assignee: 톰슨 라이센싱
Priority date: 2006-07-05
Filing date: 2007-05-25
Publication date: 2014-10-15
Also published as: US20090279612A1; JP5833531B2; KR20100014212A; JP6108637B2; WO2008005124A2; JP5715756B2; JP5833532B2; EP2039168A2; WO2008005124A3; BRPI0713348A2; JP2009543448A; JP2015216680A; JP2013070415A; JP2013081198A; CN101485208B; CN101485208A

Abstract

멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치가 제공되고 있다. 이 장치는 체계 요소를 이용하여 멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 최종 비트스트림으로 엔코딩하기 위한 엔코더(100)를 포함한다. 체계 요소는 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다.

멀티뷰, 비디오 엔코딩, 비디오 디코딩, 디코딩 의존성, 체계 요소

Description

멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치{METHODS AND APPARATUS FOR MULTI-VIEW VIDEO ENCODING AND DECODING}

관련 출원의 상호 참조

이 출원은 여기에서 참조로 언급되고 있는 2006년 7월 5일자 출원된 미국 가출원 번호 60/818,655를 우선권 주장한다.

본 발명은 일반적으로 비디오 엔코딩 및 디코딩에 관한 것으로, 더욱 특히 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치에 관한 것이다.

멀티뷰 비디오 코딩 (MVC) 시퀀스는 여러 시점으로부터 동일한 장면을 캡쳐한 둘 이상의 비디오 시퀀스의 세트이다. 뷰 랜덤 액세스와 뷰 범위성(scalability)의 효율적인 지원을 위해서, 디코더가 멀티뷰 비디오 코딩 시퀀스에서의 여러 화상이 서로 얼마나 의존하는지에 대한 인식을 갖는 것이 중요하다.

종래 기술의 이들 및 그 외 단점과 결함들은 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치에 관한 본 발명에 의해 해결된다.

본 발명의 형태에 따르면, 일 장치가 제공되고 있다. 이 장치는 체계(syntax) 요소를 이용하여 멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 최종 비트스트림으로 엔코딩하기 위한 엔코더를 포함한다. 상기 체계 요소는 상기 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다.

본 발명의 다른 형태에 따르면, 일 방법이 제공되고 있다. 이 방법은 체계 요소를 이용하여 멀티뷰 비디오 컨텐트에 대응하는 적어도 두개의 뷰를 최종 비트스트림으로 엔코딩하는 단계를 포함한다. 상기 체계 요소는 상기 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다.

본 발명의 또 다른 형태에 따르면, 일 장치가 제공되고 있다. 이 장치는 체계 요소를 이용하여 멀티뷰 비디오 컨텐트에 대응하는 적어도 두개의 뷰를 비트스트림으로부터 디코딩하기 위한 디코더를 포함한다. 상기 체계 요소는 상기 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다.

본 발명의 또 다른 형태에 따르면, 일 방법이 제공되고 있다. 이 방ㅂ버은 멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 체계 요소를 이용하여 비트스트림으로부터 디코딩하는 단계를 포함한다. 상기 체계 요소는 상기 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다.

본 발명의 이들 및 그 외 형태, 특성 및 장점들은 첨부한 도면과 관련하여 읽게 되는 예시의 실시예의 다음 상세 설명으로부터 명백하게 될 것이다.

본 발명의 원리는 다음 예시의 도면에 따라 잘 이해될 것이며, 이들은:

도 1은 본 발명의 실시예에 따라 본 발명이 적용될 수 있는 예시의 비디오 엔코더의 블럭도이다.

도 2는 본 발명의 실시예에 따라 본 발명이 적용될 수 있는 예시의 비디오 디코더의 블럭도이다.

도 3은 본 발명의 실시예에 따라 vps_selection_flag를 최종 비트스트림에 삽입하기 위한 예시 방법의 흐름도이다.

도 4는 본 발명의 실시예에 따라 비트스트림에 있는 vps_selection_flag를 디코딩하기 위한 예시의 방법의 흐름도이다.

본 발명은 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치에 관한 것이다.

본 설명은 본 발명의 원리를 설명한다. 따라서 당업자라면 여기에 명백하게 설명하거나 나타내지 않았어도 본 발명의 원리를 구체화하며 그 정신 및 영역 내에 포함되는 여러 구성을 고안할 수 있다는 것이 이해될 것이다.

여기에 인용된 모든 예시와 조건들은 본 발명과 본 발명자에 의한 개념을 이해하는 데에 도움을 줄 것이며 이렇게 특별히 언급된 예시와 조건을 제한하고자 하는 것이 아니다.

더구나, 여기에서 본 발명의 모든 설명, 형태 및 실시예들을 언급하는 모든 설명 뿐만 아니라, 그 특정예들은 이 구조적 및 기능적 등가물을 모두 포괄하는 것이다. 부가하여, 이런 등가물은 현재 공지된 등가물과 장차 개발되는 등가물 모두, 즉 구조와 상관 없이 모든 기능을 실행하는 어느 개발 요소들이나 포함하는 것이다.

따라서, 예를 들어, 당업자라면 여기 개시된 블럭도가 본 발명을 구체화화는 설명적인 회로의 개념도를 나타낸다는 것을 이해할 것이다. 유사하게, 플로우챠트, 흐름도, 상태 전이도, 의사코드 등은 (컴퓨터나 프로세서의 명시적 도시 여부와는 관계없이) 컴퓨터 판독 가능 매체에서 실질적으로 표현되어 그러한 컴퓨터나 프로세서에 의해 실행될 수 있는 여러 프로세스를 나타낸다는 것이 이해될 것이다.

도면에서 나타낸 여러 요소의 기능은 전용 하드웨어 뿐만 아니라 적합한 소프트웨어와 관련하여 소프트웨어를 실행할 수 있는 하드웨어를 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 이 기능은 단일의 전용 프로세서, 단일의 공유 프로세서, 또는 복수의 개별 프로세서에 의해 제공되며, 이들 중 일부는 공유될 수 있다. 더구나, 용어 "프로세서" 또는 "컨트롤러"의 이용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 말하는 것으로 파악되어서는 안되며, 제한없이, 디지털 신호 프로세서 ("DSP") 하드웨어, 소프트웨어 저장을 위한 판독 전용 메모리 ("ROM"), 랜덤 액세스 메모리 ("RAM") 및 비휘발성 저장소를 포함할 수 있다.

종래 및/또는 통상적인 다른 하드웨어가 또한 포함될 수 있다. 유사하게, 도면에서 나타낸 스위치는 개념적일 뿐이다. 이들의 기능은 프로그램 로직의 동작, 전용 로직, 프로그램 제어 및 전용 로직의 상호 작용으로, 또는 수동적으로도 실행될 수 있으며, 특정 기술은 이 컨텍스트로부터 더욱 특히 이해되는 바와 같이 구현자에 의해 선택 가능하다.

이 청구범위에서, 특정 기능을 실행하기 위한 수단으로 표현되는 요소들은 예를 들어, a) 이 기능을 실행하는 회로 요소의 조합 또는 b) 어느 형태나 가능한 소프트웨어 - 따라서, 이 소프트웨어를 실행하여 기능을 실행하는 적합한 회로와 조합되는 펌웨어, 마이크로코드 등을 포함함 - 를 포함하여 기능을 실행하는 어느 방식이나 포함하는 것이다. 청구범위에 의해 정의되는 본 발명은 여러 언급된 수단에 의해 제공되는 기능들이 청구범위가 청구하는 방식으로 함께 조합 및 결합된다는 사실에 존재한다. 이들 기능들을 제공할 수 있는 수단들은 여기 나타낸 것과 등가인 것으로 간주된다.

명세서에서 본 발명의 "일 실시예"로 언급한 것은 실시예와 관련하여 기재된 특정한 형태, 구조, 특성들이 본 발명의 적어도 일 실시예에 포함되는 것을 의미한다. 따라서, 명세서 전반에 걸친 여러 부분에서 나타나는 "일 실시예"는 반드시 동일한 실시예를 모두 참조하는 것은 아니다.

여기에서 사용되는 "하이 레벨 체계"는 매크로블럭 계층 위에 계층적으로 놓인 비트스트림에 존재하는 체계를 말한다. 예를 들어, 여기에서 사용한 하이 레벨 체계는 슬라이스 헤더 레벨, 부가 정보 (Supplemental Enhancement Information (SEI)) 레벨, 화상 파라미터 세트 레벨 및 시퀀스 변수 세트 레벨에서의 체계를 말하지만, 이에만 제한되는 것은 아니다.

도 1을 참조하면, 본 발명이 적용될 수 있는 예시의 비디오 엔코더를 참조 부호 100으로 일반적으로 나타낸다.

비디오 엔코더(100)에의 입력은 조합기(110)의 비반전 입력과 신호 통신되게 연결된다. 조합기(110)의 출력은 변환기/양자화기(120)와 신호 통신되게 연결된다. 변환기/양자화기(120)의 출력은 엔트로피 코더(140)와 신호 통신되게 연결된다. 엔트로피 코더(140)의 출력은 엔코더(100)의 출력으로서 이용가능하다.

변환기/양자화기(120)의 출력은 역변환기/역양자화기(150)와 신호 통신되게 더 연결된다. 역변환기/역양자화기(150)의 출력은 디블럭(deblock) 필터(160)의 입력과 신호 통신되게 접속된다. 디블럭 필터(160)의 출력은 기준 화상 저장소(170)과 신호 통신되게 접속된다. 기준 화상 저장소(170)의 제1 출력은 움직임 추정기(180)의 제1 입력과 신호 통신되게 접속된다. 엔코더(100)에의 입력은 움직임 추정기(180)의 제2 입력과 신호 통신되게 더 접속된다. 움직임 추정기(180)의 출력은 움직임 보상기(190)의 제1 입력과 신호 통신되게 접속된다. 기준 화상 저장소(170)의 제2 출력은 움직임 추정기(190)의 제2 입력과 신호 통신되게 접속된다. 움직임 보상기(190)의 출력은 조합기(110)의 반전 입력과 신호 통신되게 접속된다.

도 2를 참조하면, 본 발명이 적용되는 예시의 비디오 디코더는 일반적으로 참조 부호 200으로 나타낸다.

비디오 디코더(200)는 비디오 시퀀스를 수신하기 위한 엔트로피 디코더(210)를 포함한다. 엔트로피 디코더(210)의 제1 출력은 역양자화기/역변환기(220)의 입력과 신호 통신되게 접속된다. 역양자화기/역변환기(220)의 출력은 조합기(240)의 제1 비반전 입력과 신호 통신되게 접속된다.

조합기(240)의 출력은 디블럭 필터(290)의 입력과 신호 통신되게 접속된다. 디블럭 필터(290)의 출력은 기준 화상 저장소(250)의 입력과 신호 통신되게 접속된다. 기준 화상 저장소(250)의 출력은 움직임 보상기(260)의 제1 입력과 신호 통신되게 접속된다. 움직임 보상기(260)의 출력은 조합기(240)의 제2 비반전 입력과 신호 통신되게 접속된다. 엔트로피 디코더(210)의 제2 출력은 움직임 보상기(260)의 제2 입력과 신호 통신되게 접속된다. 디블럭 필터(290)의 출력은 비디오 디코더(200)의 출력으로 이용 가능하다.

본 발명에 따르면, 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치가 제공된다. 일 실시예에서, MPEG-4AVC 표준의 하이 레벨 체계의 변경이 멀티뷰 비디오 시퀀스의 효율적인 처리를 위해 제안된다. 예를 들어, 일 실시예에서, 우리는 멀티뷰 비디오 시퀀스의 의존 구조를 나타내는 여러 방법 사이에서 선택하기 위해 플래그나 그 외 체계 요소를 포함하는 것을 제안한다. 플래그나 그 외 체계 요소를 제공하여, 본 발명의 실시예는 멀티뷰 비디오 시퀀스에서의 여러 화상이 서로 얼마나 다른지를 디코더가 결정하도록 한다. 이런 식으로, 오직 필요한 화상만을 디코딩하는 것이 바람직하다. 더욱, 이런 뷰 의존 정보는 뷰 랜덤 액세스 및 뷰 확장성을 효율적으로 지원해준다.

이하 "제1 방법" 및 "제2 방법"으로 언급되는 두 다른 방법은 멀티뷰 압축 비트스트림에 의존 정보를 제공하도록 제안되었다. 두 방법은 표준/국제 전기 표준 협회 (ISO/IEC) 동화상 전문가 그룹-4 (MPEG-4) 파트 10 어드밴스드 비디오 코 딩 (AVC) 표준/국제 텔레커뮤니케이션 연합, 텔레커뮤니케이션 연합, 텔레커뮤니케이션 섹터 (ITU-T) H.264 권장 (이하 "MPEG-4 AVC 표준")에 대한 국제 기구의 하이 레벨 체계의 변경을 제안한다. 특히, 이들은 뷰 파라미터 세트 (VPS)로 불리는 새로운 파라미터 세트를 정의한다.

다음의 설명에서, 노드는 비디오 시퀀스에서의 화상에 대응한다고 가정한다. 각 화상은 독립적으로 코딩될 수 있거나 이미 코딩된 화상에 따라 엔코딩될 수 있다. 화상의 엔코딩이 이미 코딩된 화상에 따라 달라지는 경우, 관련 화상 (즉, 이미 코딩된 화상)를 엔코딩되는 화상의 모체(parents)로 부른다. 화상은 하나 이상의 모체를 가질 수 있다. 화상 A의 후손은 그 참조로 A를 이용하는 화상이다.

제1 방법은 종속 정보를 로컬 영역(scope)으로 제공한다. 이것은 각 노드에 대하여 모체가 직접 신호보내진 것을 의미한다. 이 방법으로, 우리는 종속 정보를 이용하여 종속 그래프를 재구성할 필요가 있다. 종속 그래프를 재구성하는 한 방법은 반복적 호출을 가져 이 그래프를 결정하는 것이다.

제2 방법은 종속 정보를 글로벌 영역으로 제공하는 것이다. 이것은 각 노드에 대해 후손이 신호보내진 것을 의미한다. 사실상, 모체/후손 관계가 두 노드 사이에 존재하는지의 여부를 결정하기 위해 테이블 룩업만을 이용할 수 있다.

바로 아래의 다음 체계는 멀티뷰 비디오 비트스트림의 종속 정보를 나타내기 위한 제1 및 제2 방법의 가능한 실시예를 나타낸다.

표 1은 멀티뷰 비트스트림으로 종속 정보를 나타내기 위한 제1 방법의 뷰 파라미터 세트 (VPS) 체계를 나타낸다.

view_parameter_set_id는 슬라이스 헤더에서 참조되는 뷰 파라미터 세트를 식별한다. view_parameter_set_id의 값은 0 내지 2¹⁶-1의 범위에 있다.

num_multiview_refs_for_list0은 리스트0에 대한 멀티뷰 예측 기준의 수를 지정한다. num_multiview_refs_for_list0의 값은 리스트0에서의 요소의 최대수 보다 적거나 동일하다.

num_multiview_refs_for_list1은 리스트1에 대한 멀티뷰 예측 기준의 수를 지정한다. num_multiview_refs_for_list1의 값은 리스트1에서의 요소의 최대수 보다 적거나 동일하다.

reference_view_for_list0[i]는 리스트0에 대한 현재 뷰의 i번째 기준으로 이용되는 뷰의 뷰인덱스를 식별한다.

reference_view_for_list1[i]는 리스트1에 대한 현재 뷰의 i번째 기준으로 이용되는 뷰의 뷰인덱스를 식별한다.

표 2는 멀티뷰 비트스트림으로 종속 정보를 나타내기 위한 제2 방법의 뷰 파라미터 세트 (VPS) 체계를 나타낸다.

view_parameter_set_id는 슬라이스 헤더에서 참조되는 뷰 파라미터 세트를 식별한다. view_parameter_set_id의 값은 0 내지 255의 범위 내에 있다.

number_of_views_minus_1 플러스 1은 비트스트림의 뷰의 총 개수를 식별한다. number_of_views_minus_1의 값은 0 내지 255의 범위 내에 있다.

avc_compatible_view_id는 AVC 호환 뷰의 veiw_id를 나타낸다. avc_compatible_view_id의 값은 0 내지 255의 범위 내에 있다.

is_base_view_flag[i]가 1인 것은 뷰 i가 베이스 뷰이고 독립적으로 디코딩 가능하다는 것을 나타낸다. is_base_view_flag[i]가 0인 것은 뷰 i가 베이스 뷰가 아닌 것을 나타내다. is_base_view_flag[i]의 값은 AVC 호환 뷰 i에 대해 1과 동일하다.

dependency_update_flag가 1인 것은 이 뷰에 대한 종속 정보가 VPS에서 갱신된 것을 나타낸다. dependency_update_flag가 0인 것은 이 뷰의 종속 정보가 갱신되지 않고 변경되지 않아야 한다는 것을 나타낸다.

anchor_picture_dependency_maps[i][j]가 1인 것은 view_id가 j와 동일한 앵커(anchor) 화상이 view_id가 i과 동일한 앵커 화상에 따라 달라지게 되는 것을 나타낸다.

non_anchor_picture_dependency_maps[i][j]는 viwe_id가 j와 동일한 넌앵커(non-anchor) 화상이 view_id가 i와 동일한 논앵커 화상에 따라 달라지게 되는 것을 나타낸다. non_anchor_picture_dependency_maps[i][j]는 anchor_picture_dependency_maps[i][i]가 1과 동일할 때에만 존재한다. anchor_picture_dependency_maps[i][j]이 존재하고 0과 동일하면, non_anchor_picture_dependency_map[i][j]는 0으로 추리된다.

두 방법은 앵커 화상으로 불리는 새로운 화상 유형의 정의에 의지한다.

앵커 화상: 모든 슬라이스가 동일한 임시(temporal) 인덱스를 갖는 슬라이스만을 참조로 하는, 즉 현재 뷰에서의 슬라이스가 아니고 다른 뷰에서의 슬라이스만을 참조로 하는 코딩된 화상. 이런 화상은 nal_ref_idc=3으로 설정하여 신호보내진다. 앵커 화상을 디코딩한 후, 디스플레이 순서로 이어지는 모든 코딩된 화상은 앵커 화상 이전에 디코딩된 화상으로부터 상호 예측 없이 디코딩될 수 있다. 하나의 뷰에서의 화상이 앵커 화상이면, 다른 뷰에서의 동일한 임시 인덱스를 갖는 모든 화상이 또한 앵커 화상이 된다 .

두 독립적인 변경은 앵커 화상이 기준에 사용되지 않은 디스플레이 순서에서 이전 화상의 마킹을 필요로 하게 하고/하거나 (이탤릭체로 나타냄) 앵커 화상이 뷰 전체에 걸쳐 정렬되는 것을 요구함으로써 (굵은 이탤릭체로 나타냄) 임시의 종속성의 파괴를 나타내고 있다.

제1 방법 및 제2 방법 둘 다는 표 4에서 굵게 나타낸 새로운 NAL 유닛 타입을 도입한다. 그 외, 두 방법은 또한 사용된 뷰 파라미터 세트 및 또한 표 5에 나타낸 view_id를 나타내기 위해 슬라이스 헤더를 변경한다.

제1 방법은 베이스 뷰가 시간 경과에 따라 변할 수 있는 핸들링 경우의 장점을 가지지만, 어느 화상을 폐기해야 하는지를 결정하기 전에 화상의 추가 버퍼링을 필요로 한다. 제1 방법은 또한 의존성을 결정하기 위해 반복적인 프로세스를 갖는다는 단점을 갖는다.

반대로, 제2 방법은 베이스 뷰가 변하지 않는 경우 반복적인 프로세스를 필요로 하지 않으며 화상의 버퍼링을 필요로 하지 않는다. 그러나, 베이스 뷰가 시간 경과에 따라 변하면, 제2 방법은 또한 화상의 버퍼링을 필요로 하게 된다.

본 발명이 멀티뷰 비디오 비트스트림에 의존 정보를 나타내는 두 방법과 관련하여 주로 설명되었지만, 본 발명은 본 발명의 영역을 유지하면서 멀티뷰 비디오 비트스트림에 의존 정보를 나타내는 다른 방법에 적용될 수 있다는 것이 이해될 것이다. 예를 들어, 본 발명은 여기 설명된 의존 정보를 나타내기 위한 두 방법 대신에 및/또는 이들 중 하나 이상에 부가하여 다른 방법과 관련하여 구현될 수 있다.

본 발명에 따르면, 새로운 체계는 멀티뷰 비디오 비트스트림의 도입에 제안되며, 이 때 새로운 체계는 비트스트림으로 하나 이상의 화상의 의존 구조를 나타내는 다른 방법 사이에서 선택하는 데에 이용된다. 일 실시예에서, 이 체계는 하이 레벨 체계이다. 상기된 바와 같이, 문구 "하이 레벨 체계"는 매크로블럭 계층 위에 계층적으로 놓이는 비트스트림에 존재하는 체계를 말한다. 예를 들어, 여기에서 사용된 하이 레벨 체계는 슬라이스 헤더 레벨, 부가 정보 (SEI) 레벨, 화상 파라미터 세트 레벨 및 시퀀스 파라미터 세트 레벨에서의 체계를 말하지만, 이에만 제한되지 않는다. 일 실시예에서, 이 체계의 값에 따라, 디코더는 의존 구조를 나타내는 특정 방법에 속하는 후속 체계 요소를 인식할 수 있다. 일 실시예에서, 이 체계는 디코더에 저장되어 이 요구가 생기는 더 나중에 처리될 수 있다.

의존 구조를 나타내는 두 방법 사이에서의 선택은 본 발명에 따라 새로운 체계의 특수한 경우로 생각될 수 있다. 이런 경우, 이 체계 요소는 두 값만을 생각할 수 있다. 그 결과, 일 실시예에서, 이것은 간단히 비트스트림의 이진값 플래그일 수 있다. 이런 일 예시의 실시예는 후술된다.

MPEG-4 AVC 비트스트림에 대해, 이 방법들 중 하나는 상술된 제1 방법과 같이, 로컬 영역으로 이 종속 정보를 제공하는 것에 근거한 것이다. 이것은 각 노드에 대해 직접적인 모체가 신호보내진 것을 의미한다. 이 방법에서, 우리는 이 정보를 이용하여 종속 그래프를 재구성할 필요가 있다. 한 가지 방법은 반복적 호출을 가져 이 그래프를 결정하는 것이다.

제2 방법에서, 종속 정보는 글로벌 범위에 있다. 이것은 각 노드에 대해 후손을 신호보낸 것을 의미한다. 사실상, 모체/후손 관계가 두 노드 사이에서 존재하는지의 여부를 결정하기 위해 테이블 룩업만을 이용할 수 있다.

일 실시예에서, 우리는 두 방법 중 어느 것이 비트스트림으로 신호보내졌는지를 나타내기 위해 비트스트림의 하이 레벨에서의 플래그를 도입한다. 이것은 시퀀스 파라미터 세트 (SPS), 뷰 파라미터 세트 (VPS) 또는 그 외 MPEG-4 AVC 비트스트림의 하이 레벨에 존재하는 특수 데이터 구조로 신호보내질 수 있다.

일 실시예에서, 이 플래그는 vps_selection_flag로 참조된다. vps_selection_flag이 1로 세트되면, 종속 그래프는 제1 방법 (글로벌 방법)을 이용하여 나타낸다. vps_selection_flag가 0으로 세트되면, 종속 그래프는 제2 방법 (로컬 방법)을 이용하여 나타낸다. 이것은 종속 구조를 나타내기 위해 두 다른 방법 사이에서 선택하도록 한다. 이 플래그의 실시예를 표 3에서 나타낸 뷰 파라미터 세트에 나타낸다. 표 3은 본 발명의 일 실시예에 따라 제안된 뷰 파라미터 세트 (VPS) 체계를 나타낸다. 표 4는 본 발명의 일 실시예에 따른 NAL 유닛 타입 코드를 나타낸다. 표 5는 본 발명의 일 실시예에 따른 슬라이스 헤더 체계를 나타낸다. 표 6은 본 발명의 일 실시예에 따라 제시된 시퀀스 파라미터 세트 (SPS) 체계를 나타낸다. 표 7은 본 발명의 일 실시예에 따라 제안된 화상 파라미터 세트 (PPS) 체계를 나타낸다.

	NAL 유닛 타입 코드
nal_unit-type	NAL 유닛의 컨텐트와 RBSP 체계 구조	C
0	비지정
1	비IDR 화상의 코딩된 슬라이스 slice_layer_without_partitioning_rbsp()	2,3,4
2	코딩된 슬라이스 데이터 파티션 A slice_data_partition_a_layer_rbsp()	2
3	코딩된 슬라이스 데이터 파티션 B slice_data_partition_b_layer_rbsp()	3
4	코딩된 슬라이스 데이터 파티션 C slice_data_partition_c_layer_rbsp()	4
5	IDR 화상의 코딩된 슬라이스 slice_data_without_partitioning_rbsp()	2,3
6	부가 정보 (SEI) sei_rbsp()	5
7	시퀀스 파라미터 세트 seq_parameter_set_rbsp()	0
8	화상 파라미터 세트 pic_parameter_set_rbsp()	1
9	액세스 유닛 디리미터 access_unit_delimiter_rbsp()	6
10	시퀀스의 종료 end_of_seq_rbsp()	7
11	스트림의 종료 end_of_stream_rbsp()	8
12	필러 데이터 filler_data_rbsp()	9
13	시퀀스 파라미터 세트 확장 seq_parameter_set_extension_rbsp()	10
14	뷰 파라미터 세트 view_parameter_set_rbsp()	11
15..18	보유
19	파티션 없이 보조 코딩된 화상의 코딩된 슬라이스 slice_layer_without_partitioning_rbsp()	2,3,4
20	스케일러블 확장으로 비IDR 화상의 코딩된 슬라이스 slice_layer_in_scalable_extension_rbsp()	2,3,4
21	스케일러블 확장으로 IDR 화상의 코딩된 슬라이스 slice_layer_in_scalable_extension_rbsp()	2,3
22	멀티뷰 확장으로 비IDR 화상의 코딩된 슬라이스 slice_layer_in_mve_extension_rbsp()	2,3,4
23	멀티뷰 확장으로 IDR 화상의 코딩된 슬라이스 slice_layer_in_mve_extension_rbsp()	2,3
24..31	비지정

도 3을 참조하여, vps_selection_flag를 최종 비트스트림에 삽입하기 위한 예시의 방법을 참조 부호 300으로 보통 나타낸다. 방법 300은 멀티뷰 비디오 컨텐트에 대응하는 다수의 뷰를 엔코딩하는 데에 이용하기 특히 적합하다.

방법 300은 기능 블럭 310으로 제어를 보내는 시작 블럭(305)을 포함한다. 기능 블럭(310)은 랜덤 액세스 방법 선택 표준을 제공하고, 판정 블럭(315)으로 제어를 보낸다. 판정 블럭(315)은 제1 방법 체계가 랜덤 액세스에 이용되는지를 결정한다. 이용된다면, 제어는 기능 블럭(320)으로 보내진다. 아니면, 제어는 기능 블럭(335)로 보내진다.

기능 블럭(320)은 vps_selection_flag를 1로 세트하고, 제어를 기능 블럭(325)로 보낸다. 기능 블럭(325)는 뷰 파라미터 세트(VPS), 시퀀스 파라미터 세트 (SPS), 또는 화상 파라미터 세트 (PPS)에 제1 방법의 랜덤 액세스 체계를 기록하고, 제어를 기능 블럭(350)으로 보낸다.

기능 블럭(350)은 엔코더 파라미터를 판독하고 제어를 기능 블럭(355)로 보낸다. 기능 블럭(355)는 화상을 엔코딩하고 제어를 기능 블럭(360)으로 보낸다. 기능 블럭(360)은 파일이나 스트림에 비트스트림을 기록하고, 제어를 판정 블럭(365)로 보낸다. 판정 블럭(365)은 엔코딩할 화상이 더 있는지의 여부를 판정한다. 엔코딩되었다면, 제어는 기능 블럭(355)로 돌아간다 (다음 화상을 엔코딩하기 위해). 아니면, 제어는 판정 블럭(370)으로 보내진다. 판정 블럭(370)은 파라미터가 대역내 신호 보내졌는지의 여부를 판정한다. 보내졌다면, 제어는 기능 블럭(375)로 보내진다. 아니면, 제어는 기능 블럭(380)으로 보내진다.

기능 블럭(375)은 비트스트림의 일부로로서 파라미터 세트를 파일에 기록하거나 이 파라미터 세트를 비트스트림과 함께 스트리밍하고, 제어를 종료 블럭(399)로 보낸다.

기능 블럭(380)은 비트스트림과 비교하여 개별적으로 (대역외) 파라미터 세트를 스트리밍하고, 제어를 종료 블럭(399)으로 보낸다.

기능 블럭(355)는 vps_selection_flag을 0과 동일하게 세트하고, 제어를 기능 블럭(340)으로 보낸다. 기능 블럭(340)은 제2 방법의 랜덤 액세스 체계를 VPS, SPS 또는 PPS에 기록하고, 제어를 기능 블럭(350)으로 보낸다.

도 4를 참조하면, 비트스트림에 있는 vps_selection_flag를 디코딩하는 예시의 방법을 참조 부호 400으로 보통 나타낸다. 이 방법 400은 멀티뷰 비디오 컨텐트에 대응하는 다수의 뷰를 디코딩하는 데에 이용하기에 특히 적합하다.

방법 400은 기능 블럭(410)으로 제어를 보내는 시작 블럭(405)를 포함한다. 기능 블럭(410)은 파라미터 세트가 대역내 신호 보내졌는지의 여부를 판정한다. 보내졌다면, 제어는 기능 블럭(415)으로 보내진다. 아니면, 제어는 기능 블럭(420)으로 보내진다.

기능 블럭(415)은 파라미터 세트와 코딩된 비디오를 포함하는 비트스트림을 파싱 (parsing)하기 시작하고, 제어를 기능 블럭(425)로 보낸다.

기능 블럭(425)는 뷰 파라미터 세트 (VPS), 시퀀스 파라미터 세트 (SPS), 또는 화상 파라미터 세트 (PPS)에 존재하는 vps_selection_flag를 판독하고, 제어를 판정 블럭(430)으로 보낸다.

판정 블럭(430)은 vps_selection_flag가 1과 동일한지의 여부를 판정한다. 동일하면, 제어는 기능 블럭(435)로 보내진다. 아니면, 제어는 기능 블럭(440)으로 보내진다.

기능 블럭(435)는 제1 방법의 랜덤 액세스 체계를 판독하여 판정 블럭(455)으로 제어를 보낸다. 판정 블럭(455)은 랜덤 액세스가 필요한지의 여부를 판정한다. 필요하다면, 제어는 기능 블럭(460)으로 보내진다. 아니면, 제어는 기능 블럭(465)으로 보내진다.

기능 블럭(460)은 VPS, SPS 또는 PPS 체계에 기초하여 요청된 뷰를 디코딩하는 데에 필요한 화상을 결정하고, 제어를 기능 블럭(465)로 보낸다.

기능 블럭(465)는 비트스트림을 파싱하고, 제어를 기능 블럭(470)으로 보낸다. 기능 블럭(470)은 화상을 디코딩하고 제어를 판정 블럭(475)로 보낸다. 판정 블럭(475)는 디코딩할 화상이 더 많은지의 여부를 판정한다. 더 많으면, 제어는 기능 블럭(465)으로 돌아가고, 아니면 종료 블럭(499)으로 간다.

기능 블럭(420)은 대역외 스트림으로부터 파라미터 세트를 얻고, 제어를 기능 블럭(425)로 보낸다.

기능 블럭(440)은 제2 방법의 랜덤 액세스 체계를 판독하고 제어를 판정 블럭(455)으로 보낸다.

본 발명의 많은 부수적인 장점/특성들 중 일부에 대해 이하 설명하며, 이들 중 일부는 상술하였다. 예를 들어, 일 장점/특성은 체계 요소를 이용하여 멀티뷰 비디오 컨텐트에 대응하는 적어도 두개의 뷰를 최종 비트스트림에 엔코딩하기 위한 엔코더를 포함하는 장치이다. 체계 요소는 적어도 두개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별한다. 다른 장점/특성은 상술된 바와 같은 엔코더를 갖는 장치이며, 여기에서 체계 요소는 하이 레벨 체계 요소이다. 또 다른 장점/특성은 상술된 엔코더를 갖는 장치이며, 여기에서 하이 레벨 체계는 최종 비트스트림에 관련하여 대역외 제공된다. 또 다른 장점/특성은 상술된 바와 같은 엔코더를 갖는 장치이며, 여기에서 하이 레벨 체계는 최종 비트스트림과 관련하여 대역내 제공된다. 더구나, 다른 장점/특성은 상술된 바와 같이 엔코더를 갖는 장치로, 여기에서 체계 요소는 최종 비트스트림의 파라미터 세트에 존재한다. 또한, 다른 장점/특성은 상술된 바와 같은 엔코더를 갖는 장치로, 여기에서 파나미터 세트는 뷰 파라미터 세트, 시퀀스 파라미터 세트 또는 화상 파라미터 세트 중 하나이다. 또한, 다른 장점/특성은 상술된 바와 같은 엔코더를 갖는 장치로, 여기에서 체계 요소는 이진 값의 플래그가다. 더욱, 다른 장점/특성은 엔코더를 갖는 장치로 여기에서 체계 요소는 상술된 바와 같은 이진 값의 플래그가고, 이 때 플래그는 vps_selection_flag 요소로 나타낸다. 또한, 다른 장점/특성은 엔코더를 갖는 장치로 여기에서 체계 요소는 상술된 바와 같이 이진 값 플래그가고, 이 때 플래그는 최종 비트스트림에서 매크로블럭 레벨 보다 높은 레벨로 존재한다. 또한, 다른 장점/특성은 엔코더를 갖는 장치로 여기에서 체계 요소는 상술된 매크로블럭 레벨 보다 더 높은 레벨로 존재하는 이진값의 플래그가고, 이 레벨은 최종 비트스트림의 파라미터 세트에 대응한다. 더욱, 다른 장점/특성은 엔코더를 갖는 장치이고 체계 요소는 상술된 바와 같은 파라미터 세트에 대응하는 레벨이며, 이 파라미터 세트는 시퀀스 파라미터 세트, 화상 파라미터 세트, 또는 뷰 파라미터 세트 중 하나이다.

본 발명의 이들 및 그 외 특성 및 장점은 여기 개시된 바에 기초하여 관련 기술의 당업자에게 잘 이해될 수 있다. 본 발명의 개시는 하드웨어, 소프트웨어, 펌웨어, 특수 목적의 프로세서 또는 이들의 조합의 여러 형태로 구현될 수 있다는 것이 이해될 것이다.

더욱 바람직하게, 본 발명의 개시는 하드웨어와 소프트웨어의 조합으로 구현된다. 더욱, 소프트웨어는 프로그램 저장 장치에서 실재 구현된 응용 프로그램으로 구현될 수 있다. 응용 프로그램은 적합한 아키텍처를 포함하는 기기에 업로드되거나 이 기기에 의해 실행될 수 있다. 바람직하게, 이 기기는 하나 이상의 중앙 처리 장치 ("CPU"), 랜덤 액세스 메모리 ("RAM"), 및 입/출력 ("I/O") 인터페이스와 같은 하드웨어를 갖는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 또한 운용 시스템과 마이크로명령 코드를 포함할 수 있다. 여기 개시된 여러 프로세스 및 기능은 마이크로명령 코드의 일부나 응용 프로그램의 일부, 또는 그 조합일 수 있으며, 이는 CPU에 의해 실행된다. 부가하여, 부가의 데이터 저장 장치와 인쇄 장치와 같은 여러 다른 주변 장치가 컴퓨터 플랫폼에 접속될 수 있다.

또한 첨부한 도면에서 도시한 구성 시스템 요소와 방법 중 일부가 바람직하게 소프트웨어로 구현되기 때문에, 시스템 구성 요소나 프로세스 기능 블럭 간의 실재 접속은 본 발명이 프로그램되는 방법에 따라 달라질 수 있다. 여기 개시된 바에 의해, 관련 기술의 당업자라면 본 발명의 이들 및 유사한 구현이나 구성을 생각할 수 있을 것이다.

설명적인 실시예가 첨부한 도면을 참조하여 기술되었지만, 본 발명은 이들 실시예에만 한정되는 것은 아니고, 여러 변경 및 변형이 본 발명의 정신과 영역에서 벗어나지 않고 관련 기술의 당업자에 의해 실시될 수 있다는 것이 이해될 것이다. 이런 변경 및 변형은 첨부한 청구범위에서 기재된 본 발명의 영역 내에 포함되는 것이다.

Claims

멀티뷰 비디오 엔코딩을 위한 장치로서,

멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 수신하기 위한 제1 유닛;

상기 적어도 두 개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별하는 체계 요소(syntax element)를 결정하기 위한 제2 유닛; 및

상기 체계 요소를 이용하여 상기 적어도 두 개의 뷰를 최종 비트스트림(resultant bitstream)으로 엔코딩하기 위한 제3 유닛 - 상기 최종 비트스트림은 엔코딩된 상기 적어도 두 개의 뷰 및 상기 체계 요소를 포함함 -

을 포함하는, 멀티뷰 비디오 엔코딩을 위한 장치.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서, 상기 체계 요소는 상기 적어도 두 방법 중 특정한 하나를 식별하는 이진 값 플래그인, 멀티뷰 비디오 엔코딩을 위한 장치.
제7항에 있어서, 상기 플래그는 vps_selection_flag 요소로 표시되는, 멀티뷰 비디오 엔코딩을 위한 장치.
제7항에 있어서, 상기 플래그는 상기 최종 비트스트림에서 매크로블럭 레벨 보다 높은 레벨로 존재하는, 멀티뷰 비디오 엔코딩을 위한 장치.
삭제
삭제
멀티뷰 비디오 엔코딩을 위한 방법으로서,

멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 수신하는 단계;

상기 적어도 두 개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별하는 체계 요소를 결정하는 단계; 및

상기 체계 요소를 이용하여 상기 적어도 두 개의 뷰를 최종 비트스트림으로 엔코딩하는 단계 - 상기 최종 비트스트림은 엔코딩된 상기 적어도 두 개의 뷰 및 상기 체계 요소를 포함함 -

를 포함하는, 멀티뷰 비디오 엔코딩을 위한 방법.
삭제
삭제
삭제
삭제
삭제
제12항에 있어서, 상기 체계 요소는 상기 적어도 두 방법 중 특정한 하나를 식별하는 이진 값 플래그인, 멀티뷰 비디오 엔코딩을 위한 방법.
제18항에 있어서, 상기 플래그는 vps_selection_flag 요소로 표시되는 (320, 335), 멀티뷰 비디오 엔코딩을 위한 방법.
제18항에 있어서, 상기 플래그는 상기 최종 비트스트림에서 매크로블럭 레벨 보다 높은 레벨로 존재하는 (325, 340), 멀티뷰 비디오 엔코딩을 위한 방법.
삭제
삭제
멀티뷰 비디오 디코딩을 위한 장치로서,

비트스트림을 수신하기 위한 제1 유닛;

상기 비트스트림을 코딩된 비디오 및 파라미터 세트로 파싱하기 위한 제2 유닛 - 상기 코딩된 비디오는 엔코딩된 적어도 두 개의 뷰를 가지고, 상기 적어도 두 개의 뷰는 멀티뷰 비디오 컨텐트에 대응하고, 상기 파라미터 세트는 체계 요소를 포함하며, 상기 체계 요소는 상기 적어도 두 개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별함 -

상기 파라미터 세트로부터 상기 체계 요소를 추출하기 위한 제3 유닛; 및

상기 체계 요소를 이용하여 상기 코딩된 비디오를 디코딩하기 위한 제4 유닛

을 포함하는, 멀티뷰 비디오 디코딩을 위한 장치.
삭제
삭제
삭제
삭제
삭제
제23항에 있어서, 상기 체계 요소는 상기 적어도 두 방법 중 특정한 하나를 식별하는 이진 값 플래그인, 멀티뷰 비디오 디코딩을 위한 장치.
제29항에 있어서, 상기 플래그는 vps_selection_flag 요소로 표시되는, 멀티뷰 비디오 디코딩을 위한 장치.
제29항에 있어서, 상기 플래그는 상기 비트스트림에서 매크로블럭 레벨 보다 높은 레벨로 존재하는, 멀티뷰 비디오 디코딩을 위한 장치.
삭제
삭제
멀티뷰 비디오 디코딩을 위한 방법으로서,

비트스트림을 수신하는 단계;

상기 비트스트림을 코딩된 비디오 및 파라미터 세트로 파싱하는 단계 - 상기 코딩된 비디오는 엔코딩된 적어도 두 개의 뷰를 가지고, 상기 적어도 두 개의 뷰는 멀티뷰 비디오 컨텐트에 대응하고, 상기 파라미터 세트는 체계 요소를 포함하며, 상기 체계 요소는 상기 적어도 두 개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별함 -

상기 파라미터 세트로부터 상기 체계 요소를 추출하는 단계; 및

상기 체계 요소를 이용하여 상기 코딩된 비디오를 디코딩하는 단계

를 포함하는, 멀티뷰 비디오 디코딩을 위한 방법.
삭제
삭제
삭제
삭제
삭제
제34항에 있어서, 상기 체계 요소는 상기 적어도 두 방법 중 특정한 하나를 식별하는 이진 값 플래그인, 멀티뷰 비디오 디코딩을 위한 방법.
제40항에 있어서, 상기 플래그는 vps_selection_flag 요소로 표시되는 (425), 멀티뷰 비디오 디코딩을 위한 방법.
제40항에 있어서, 상기 플래그는 상기 비트스트림에서 매크로블럭 레벨 보다 높은 레벨로 존재하는 (425), 멀티뷰 비디오 디코딩을 위한 방법.
삭제
삭제
삭제
실행될 때, 멀티뷰 비디오 엔코딩을 위한 방법을 수행하는 프로그램을 저장하고 있는 컴퓨터 판독가능 저장 매체로서,

상기 방법은,

멀티뷰 비디오 컨텐트에 대응하는 적어도 두 개의 뷰를 수신하는 단계;

상기 적어도 두 개의 뷰 중 적어도 일부 간의 디코딩 의존성을 나타내는 적어도 두 방법 중 특정한 하나를 식별하는 체계 요소를 결정하는 단계; 및

상기 체계 요소를 이용하여 상기 적어도 두 개의 뷰를 최종 비트스트림으로 엔코딩하는 단계 - 상기 최종 비트스트림은 엔코딩된 상기 적어도 두 개의 뷰 및 상기 체계 요소를 포함함 -

를 포함하는, 컴퓨터 판독가능 저장 매체.