KR20150032253A

KR20150032253A - 인핸스드 3d 오디오/비디오 처리 장치 및 방법

Info

Publication number: KR20150032253A
Application number: KR1020147034786A
Authority: KR
Inventors: 정상오; 김경호; 전병문
Original assignee: 엘지전자 주식회사
Priority date: 2012-07-09
Filing date: 2013-07-09
Publication date: 2015-03-25
Also published as: US9723287B2; CN104429063A; US20150181192A1; WO2014010920A1; EP2871842A4; EP2871842A1; CN104429063B

Abstract

본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 3D 컨텐츠 생성부, 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 뎁스 정보 생성부 및 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 신호 생성부를 포함할 수 있다, 또한 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D 컨텐츠를 포함하는 3D 인핸스드 신호를 처리하는 신호 처리부, 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 뎁스 정보 추출부, 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 3D 오디오 이펙트 생성부 및 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 3D 오디오 컨텐츠 생성부를 포함할 수 있다.

Description

인핸스드 3D 오디오/비디오 처리 장치 및 방법{ENHANCED 3D AUDIO/VIDEO PROCESSING APPARATUS AND METHOD}

본 발명은 인핸스드 3D 오디오 및 비디오 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 MPEG 파일 포맷 (MPEG file format)을 이용하여 3D 비디오 뎁스(depth)에 따른 3D 오디오 뎁스를 콘트롤하기 위한 뎁스 관련 정보를 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치에 관한 것이다.

3차원 텔레비젼(3-Dimensional Television, 3DTV)의 보급이 본격화됨에 따라 저장 매체에 의한 3D(3차원) 비디오 컨텐츠 보급뿐만 아니라 디지털 방송에 의한 3D 비디오 컨텐츠의 전송이 활성화되고 있다. 또한 비디오 컨텐츠 뿐만 아니라 오디오 컨텐츠에도 3D 효과를 적용한 3D 오디오 컨텐츠의 보급 및 전송이 활성화 되고 있다.

이러한 디지털 기술 발달에 따라, 사용자들은 보다 정교한 오디오/비디오 익스페리언스(experience)를 요구하고 있다. 이러한 사용자 요구에 따라 오디오/ 비디오 익스페리언스를 극대화 하기 위하여 일반 홈 시어터 시스템(Home Theater System, 이하 HTS라 호칭한다)에서도 적용될 수 있는 스테레오 사운드(stereo sound) 및 서라운드 사운드(surround sound) 기술을 채용한 어드밴스드 사운드 시스템(advanced sound system)이 등장하게 되었다.

대부분의 TV나 HTS는 두 개의 스피커들을 구비하고 있기 때문에 사용자들에게 사운드 익스페리언스를 제공하기 위하여 스테레오 사운드 시스템을 사용하는 것이 일반적이다. 하지만 하이 엔드 (high-end) HTS의 경우에는 두 개 이상의 스피커들을 구비할 수 있으므로, 사용자들에게 보다 잔잔하고 정교한 사운드 익스페리언스를 제공하기 위하여 서라운드 사운드 시스템을 사용하고 있다.

최근에는, 3D 사운드 공간 내의 방향 및 거리를 재생산하여 3D 사운드 이펙트를 생성하여 3D 사운드를 제공하는 3D 오디오 기술이 각광을 받고 있다. 3D 오디오 기술에 있어서, 사운드 재생산이 콘트롤된 어쿠스틱 스윗 스팟(acoustic sweet spot), 즉 사용자들이 가장 좋은 소리를 들을 수 있는 위치 또는 범위는 3D 공간 및 사용자의 청각의 일부분이 될 수 있다.

또한 컨텐츠마다 3D 비디오 및 3D 오디오 기술을 각각 적용할 수 있게 됨으로써, 3D 비디오 기술과 3D 오디오 기술이 함께 적용된 3D 컨텐츠에 대한 요구가 증가되고 있다. 즉, 기존의 3D 비디오 및 3D 오디오 기술을 개별적으로 사용하여 3D 비디오 효과와 3D 오디오 효과가 독립적으로 적용된 3D 컨텐츠를 넘어서서, 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠에 대한 요구가 증대되고 있다.

본 발명이 이루고자 하는 기술적 과제는 상술한 3D 비디오 효과와 3D 오디오 효과를 싱크로나이즈 하기 위하여, 3D 비디오의 뎁스에 따라 3D 오디오 이펙트를 생성하기 위해 뎁스 정보를 MPEG 파일 포맷을 이용하여 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치를 제공하는 데에 있다.

전술한 기술적 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법은 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 단계, 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 단계로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하는데 사용되고, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고, 상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 단계를 포함할 수 있다.

또한 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법은, 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 단계, 상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 단계로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고, 상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 단계 및 상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 단계를 포함할 수 있다.

본 발명에 따르면, 인핸스드 3D AV 장치는 3D 비디오 뎁스에 따른 시그널링 정보를 이용하여 3D 사운드 이펙트를 생성할 수 있으므로 보다 3D 비디오와 3D 오디오가 정확히 싱크로나이즈된 3D 컨텐츠를 제공할 수 있다.

또한 본 발명에 따르면, 인핸스드 3D AV 장치는 3D 비디오 뎁스에 따른 시그널링 정보를 이용하여 3D 사운드 이펙트를 생성할 수 있으므로 장치 설계의 복잡도가 감소될 수 있다.

또한 본 발명에 따르면, 3D 비디오 뎁스에 따른 시그널링 정보를 전송할 때, 중복되는 정보를 제거하여 전송하므로 보다 높은 전송 효율을 획득할 수 있다.

도 1은 오디오 시스템의 발전 과정을 나타낸 개념도이다.
도 2는 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 개념도이다
도 3은 본 발명의 일 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 4는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 5는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 3D 사운드 스페이스를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 8은 본 발명의 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 12는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
도 13은 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
도 14는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.
도 15는 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.

발명의 실시를 위한 최선의 형태

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

디지털 기술이 발달함에 따라, 사용자들은 보다 정교한 오디오/ 비디오 익스페리언스(experience)를 요구하고 있다. 이러한 사용자 요구에 따라 오디오/ 비디오 익스페리언스를 극대화 하기 위하여 일반 홈 시어터 시스템(Home Theater System, 이하 HTS라 호칭한다)에서도 적용될 수 있는 스테레오 사운드(stereo sound) 및 서라운드 사운드(surround sound) 기술을 채용한 어드밴스드 사운드 시스템(advanced sound system)이 등장하게 되었다.

최근에는, 3D 사운드 스페이스내의 사운드 소스에 대해 방향 및 거리를 재생산하여 3D 오디오 이펙트를 생성하는 것을 목표로 하는 3D 오디오 기술이 각광을 받고 있다. 3D 오디오 기술에 있어서, 사운드 재생산이 콘트롤된 어쿠스틱 스윗 스팟(acoustic sweet spot), 즉 사용자들이 가장 좋은 소리를 들을 수 있는 위치 또는 범위는 3D 공간 및 사용자의 청각의 일부분이 될 수 있다.

또한 기술의 발전으로, 컨텐츠마다 3D 비디오 및 3D 오디오 기술을 각각 적용할 수 있게 됨으로써, 3D 비디오 기술과 3D 오디오 기술이 함께 적용된 3D 컨텐츠에 대한 요구가 증가되고 있다. 즉, 기존에 3D 비디오 및 3D 오디오 기술을 개별적으로 사용하여 3D 비디오 효과와 3D 오디오 효과가 독립적으로 적용된 3D 컨텐츠를 넘어서서, 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈되어 적용된 3D 컨텐츠에 대한 요구가 증대되고 있다.

이 경우, 3D 오디오의 뎁스(depth)가 3D 비디오의 뎁스와 정확하게 싱크로나이즈된다면, 사용자에게 정교한 인핸스드 3D 오디오/비디오 익스페리언스를 제공할 수 있을 것이다.

따라서 본 발명에서는 MPEG 파일 포맷을 이용하여 3D 비디오의 뎁스에 따라 3D 오디오 사운드의 뎁스를 컨트롤링 하기 위한 뎁스 정보를 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치를 제공하고자 한다.

도 1은 오디오 시스템의 발전 과정을 나타낸 개념도이다. 도 1에 도시된 바와 같이 오디오 시스템은 두 채널의 스테레오 오디오 시스템에서부터 인핸스드 3D 오디오/비디오 시스템으로 발전해왔다. 이하 각 도면에 대해 간략히 설명한다.

도 1의 (a)은 스테레오 오디오 시스템을 도시하고 있으며, 도 1의 (b)는 서라운드 오디오 시스템을 도시하고 있다. 도 1의 (c)는 본 발명에서 제안하는 인핸스드 3D 오디오 시스템을 도시하고 있다.

스테레오 오디오 시스템은 도 1의 (a)에 도시된 바와 같이 일반적인 TV 또는 HTS에 구비된 두 개의 스피커들, 즉 두 개의 채널을 통해 사용자에게 오디오 사운드를 제공할 수 있다. 서라운드 오디오 시스템은 도 1의 (b)에 도시된 바와 같이 두 개 이상의 스피커들, 즉 두 개 이상의 채널들을 통하여 사용자에게 오디오 사운드를 제공할 수 있다. 서라운드 오디오 시스템의 경우, 스테레오 오디오 시스템에서 사용된 두 개의 채널을 통해 기본 오디오 사운드를 제공하되, 오디오 시스템의 정면 또는 측면, 후면 등에 설치된 추가 스피커를 통해 추가 오디오 사운드를 제공함으로써 입체적인 사운드 효과를 생성할 수 있다.

도 1의 (c)에 도시된 인핸스드 3D 오디오/비디오 시스템은 사용자들을 둘러 싸고 있는 복수의 채널들을 가질 수 있을 뿐만 아니라, 비디오 컨텐츠에서 획득한 뎁스 정보를 이용하여 3D 사운드 스페이스 내에서 제공되는 3D 오디오에 적용될 3D 오디오 이펙트를 생성할 수 있다. 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수 개의 뎁스 레벨에 따라 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다. 또한 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다. 따라서, 비디오 컨텐츠의 뎁스 정보를 획득하여 3D 사운드 스페이스의 오디오 스팟에 해당하는 3D 오디오 이펙트를 생성하고, 현재 비디오 컨텐츠에 대응하는 오디오 컨텐츠에 생성한 3D 오디오 이펙트를 적용하여 사용자에게 높은 퀄리티의 3D 오디오/비디오 익스페리언스를 제공할 수 있다. 인핸스드 3D 오디오/비디오 시스템은 두 개의 채널을 사용할 수 있고, 그 이상의 복수개의 채널들을 사용할 수도 있다.

도 2는 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 개념도이다.

도 2에 도시된 바와 같이, 인핸스드 3D 오디오/비디오 처리 장치는 비디오 엔진(210) 및 오디오 엔진(220)을 포함할 수 있다. 비디오 엔진(210)은 뎁스 맵 모듈(211) 및 뎁스 분석 모듈(212)를 포함할 수 있으며, 오디오 엔진(220)은 사운드 필터링 모듈(221) 및 3D 사운드 이펙트 생성 모듈(222)을 포함할 수 있다. 이하 각 모듈에 대해 간략히 설명한다.

비디오 엔진(210)에 포함된 뎁스 맵 모듈(211)은 3D 비디오 스트림으로부터 3D 비디오 컨텐츠를 구성하는 레프트 뷰 이미지(left view image) 및 라이트 뷰 이미지 (right view image)를 전달하는 레프트 프레임(left frame) 및 라이트 프레임(right frame)에 대한 뎁스 맵(depth map)을 추출할 수 있다.

일반적으로 3D 비디오 컨텐츠는 두 눈의 스테레오(stereo) 시각 원리를 이용하여 입체 효과를 제공한다. 인간은 두 눈의 시차, 다시 말해 약 65mm 정도 떨어진 두 눈 사이의 간격에 의한 양안 시차(binocular parallax)를 통해 원근감을 느끼므로, 3D 영상은 좌안과 우안이 각각 연관된 레프트 뷰 이미지 및 라이트 뷰 이미지를 제공하여 입체감과 원근감을 제공할 수 있다. 따라서 입체 효과를 위하여 레프트 프레임 및 라이트 프레임은 페어로 묶여 있다.

뎁스(depth)는 이러한 입체 효과 즉, 3D 효과의 양을 나타내는 것으로서 수치화된 일정 단위로 표현될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 본 발명의 일 실시예에 따른 페어 프레임들의 뎁스는 페어를 구성하고 있는 각 프레임마다 같거나 다르게 설정될 수 있다.

뎁스 맵 모듈(211)은 각 프레임마다 설정되어 있는 뎁스에 관한 정보를 추출하여 각 프레임에 해당하는 뎁스 정보를 지시하는 뎁스 맵을 생성할 수도 있으며, 3D 비디오 스트림 내에 이미 포함되어 있는 뎁스 맵을 추출할 수도 있다. 뎁스 분석 모듈(212)은 생성된 뎁스 맵 또는 추출된 뎁스 맵을 분석하여 각 페어 프레임에 대한 대표 비디오 뎁스 레벨들을 결정할 수 있다. 이후 비디오 엔진(210)은 뎁스 분석 모듈(212)에서 결정된 비디오 뎁스 레벨들을 오디오 엔진(220)으로 전송할 수 있다.

오디오 엔진(220)에 포함된 사운드 필터링 모듈(221)은 오디오 사운드를 필터링 할 수 있다. 이후 3D 사운드 이펙트 생성 모듈(222)은 필터링된 오디오 사운드에 3D 효과를 나타낼 수 있는 3D 오디오 이펙트(또는 3D 사운드 이펙트)를 생성 또는 결정할 수 있다. 3D 오디오 이펙트의 사운드 뎁스 레벨은 상술한 비디오 뎁스 레벨에 따라 결정되므로 결과적으로 3D 오디오의 뎁스 레벨과 3D 비디오의 뎁스 레벨은 싱크로나이즈될 수 있다.

하지만 도 2에 도시된 인핸스드 3D 오디오 및 비디오 처리 장치의 경우, 다음과 같은 문제점이 발생한다.

첫째로, 장치의 설계에 요구되는 높은 개발 비용 및 제품 비용이 문제될 수 있다. 상술한 인핸스드 3D 오디오 및 비디오 처리 장치의 경우, 비디오 엔진(210)의 역할은 3D 비디오 뎁스 레벨들을 결정하는 것이고, 오디오 엔진(220)의 역할은 이에 대응하는 3D 오디오 이펙트를 생성하는 것이다. 따라서 3D 비디오 뎁스 레벨들을 결정할 수 있는 비디오 엔진을 설계하기 위해서는 높은 개발 비용 및 제품 비용이 요구될 수 있다.

둘째로, 장치 설계에 있어서 디자인의 복잡성의 증가가 문제될 수 있다. 일반적으로 오디오 엔진에 비해 높은 퀄리티의 3D 비디오를 실시간 처리하기 위한 비디오 엔진의 설계 디자인은 더 높은 복잡성이 요구된다. 따라서 실시간으로 비디오 엔진과 오디오 엔진을 싱크로나이즈 하기 위한 장치는 디자인 설계 측면에 있어서 추가적인 복잡성이 요구 될 수 있다.

마지막으로, 뎁스 레벨의 낮은 정확도 및 만족도가 문제 될 수 있다. 현재 서비스되고 있는 3D 컨텐츠는 3D 비디오의 분석 결과로 얻어진 뎁스 레벨들과 싱크로나이즈된 3D 오디오 이펙트들을 반드시 포함할 필요가 없다. 따라서 높은 디자인 복잡성과 높은 비용에도 불구하고 인핸스드 3D 오디오 및 비디오 처리 장치를 개발한다 하더라도, 3D 오디오 이펙트를 조절하기 위한 뎁스 레벨의 정확성이 낮아 3D 오디오 컨텐츠의 퀄리티가 3D 비디오 컨텐츠의 퀄리티와 비교할 때 낮을 수 있다. 더욱이, 3D 비디오 컨텐츠에 적용된 3D 효과는 가변적이기 때문에 각 비디오 프레임들에 대한 뎁스 레벨의 정확도가 떨어질 수 있다.

따라서 본 발명에서는 상술한 문제점들을 해결하기 위해 MPEG 파일 포맷을 통해 인핸스드 3D 오디오/비디오 컨텐츠를 지원할 수 있는 뎁스 정보를 시그널링하는 방법을 제시하고자 한다.

상술한 3D 컨텐츠를 구성하는 비디오 이미지들 또는 오디오 데이터들은 MPEG (Moving Picture Experts Group)을 포함하는 다양한 방법으로 압축 부호화될 수 있다. 예를 들어, 3D 비디오 컨텐츠를 구성하는 이미지들 또는 3D 오디오 컨텐츠를 구성하는 오디오 데이터들은 MPEG 또는 H.264/AVC(Advanced Video Coding) 코딩 방식으로 압축 부호화될 수 있다. 이때 수신측은 MPEG 또는 H.264/AVC 코딩 방식의 역으로 각각 비디오 이미지들 및 오디오 데이터들을 복호하여 3D 컨텐츠를 획득할 수 있다.

MPEG 파일 포맷은 MPEG 방식으로 압축된 3D 컨텐츠를 구성하는 비디오 및 오디오 스트림을 전송하기 위해 사용될 수 있으며, 기타 부가 데이터를 포함하는 멀티미디어 컨테이너 포맷이다. 구체적으로 MPEG 파일 포맷은 실제 비디오/오디오 스트림의 데이터를 포함하는 미디어 데이터 컨테이너 (media data container) 및 컨텐츠와 관련된 정보 또는 파일을 재생하기 위한 정보 등을 포함하는 메타 데이터 컨테이너 (meta data container)를 포함할 수 있다. 본 발명에서는 미디어 데이터 컨테이너는 미디어 데이터 박스(media data box)로 호칭하고, 메타 데이터 컨테이너는 메타 데이터 박스(meta data box)로 호칭하는 것을 일 실시예로 할 수 있다. 각 컨테이너들은 각각 식별되는 하위 박스(box, 또는 atom)들을 포함할 수 있다.

미디어 데이터 컨테이너는 비디오/오디오 스트림의 데이터를 프레임 단위로 저장할 수 있다. 메타 데이터 컨테이너는 비디오/오디오 스트림에 대한 비디오/오디오 트랙(track)들과 샘플 테이블 박스(sample table box)을 포함할 수 있다.

비디오/오디오 샘플은 프레임 단위로 저장된 비디오/오디오 스트림에 접근하기 위한 억세스 유닛(access unit)으로, 각 샘플은 각 비디오 프레임/ 오디오 프레임의 데이터를 의미한다. 본 발명에서는 샘플을 프레임이라 호칭하는 것을 일 실시예로 한다. 또한 비디오/오디오 트랙은 관련된 비디오/오디오 샘플들의 집합을 의미한다. 샘플 테이블 박스는 각 트랙에 포함된 샘플들의 타이밍(timing) 및 피지컬 레이아웃(Physical layout)을 위한 인덱스(index)를 포함할 수 있다.

따라서, 3D 컨텐츠 전송/제공측은 MPEG 파일 포맷을 통하여 상술한 뎁스 정보를 시그널링하고, 수신측은 MPEG 파일 포맷을 통해 시그널링된 뎁스 관련 정보를 디텍팅하여 3D 사운드 뎁스를 결정하여 3D 오디오 이펙트를 생성하고, 사용자에게 인핸스드 3D 컨텐츠를 제공할 수 있다. 즉, 도 2에서 설명한 바와 같이 비디오 뎁스 레벨을 실시간으로 추출하거나 처리하지 않고, MPEG 파일 포맷에 포함된 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있으므로, 보다 높은 퀄리티의 인핸스드 3D 컨텐츠를 제공할 수 있다.

이하에서는 상술한 뎁스 정보를 MPEG 파일 포맷을 통해 전송하는 시그널링 방법을 설명한다.

본 발명의 일 실시예에 따른 뎁스 정보는 상술한 샘플 테이블 박스에 포함될 수 있으며 이는 설계자의 의도에 따라 변경 가능하다. 특히 본 발명의 일 실시예에 따른 뎁스 정보는 3D 오디오 이펙트의 사운드 뎁스 레벨을 조절하기 위한 비디오 프레임의 뎁스 레벨(depth level) 정보 또는 뎁스 레인지(depth range)정보 등을 포함할 수 있으며, 이는 설계자의 의도에 따라 변경 가능하다. 본 발명의 일 실시예에 따른 뎁스 정보는 각 비디오 트랙마다 시그널링 될 수 있다. 이 경우, 뎁스 정보는 num_depth_levels 정보를 포함할 수 있다. num_depth_levels 정보는 3D 오디오 이펙트의 사운드 뎁스를 조절하기 위한 뎁스 레벨(depth level)의 개수를 지시하는 정보로서, 비디오 프레임마다 정의된 뎁스 레벨의 개수와 동일하다. 뎁스 레벨 값은 1부터 9까지 총 9개의 레벨 값을 포함할 수 있으며, num_depth_levels 정보는 1부터 9까지의 뎁스 레벨에 따라 각각 1, 2, 4, 8, 16, 32, 64, 128, 256의 값을 가질 수 있다. 또한 num_depth_levels는 각 비디오 트랙에 해당하는 뎁스 레벨들의 개수를 지시할 수 있다.

본 발명의 일 실시예에 따른 num_depth_levels 정보는 상술한 샘플 테이블 박스 내의 샘플 엔트리 엘레먼트인 VisualsampleEntry 또는 AudioSampleEntry에 포함될 수 있으며, 샘플 테이블 박스에 포함되는 하위 박스인“DepthLevelsFor3DAVBox”에 포함될 수 있다. “DepthLevelsFor3DAVBox”의 명칭은 설계자의 의도에 따라 변경가능하며, “DepthLevelsFor3DAVBox”는 상술한 샘플 엔트리 엘레먼트인 VisualSamepleEntry 또는 AudioSampleEntry 에 포함될 수 있고, 또 다른 샘플 엔트리 엘레먼트인 MetadataSamepleEntry 에 포함될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.

하기의 표 1은 본 발명의 일 실시예에 따른 신택스(syntax)로서, num_depth_levels 정보를 VisualsampleEntry를 통해 시그널링 하는 경우를 나타낸다. 표 2는 본 발명의 다른 실시예에 따른 신택스로서 num_depth_levels 정보를 AudiosampleEntry를 통해 시그널링 하는 경우를 나타낸다.

하기 표 3은 본 발명의 또 다른 실시예에 따른 신택스로서, num_depth_levels 정보를 상술한 “DepthLevelsFor3DAVBox”를 통해 시그널링 하는 경우를 나타낸다. 상술한 바와 같이, DepthLevelsFor3DAVBox”는 상술한 샘플 엔트리 엘레먼트인 VisualSamepleEntry 또는 AudioSampleEntry 에 포함될 수 있고, 또 다른 샘플 엔트리 엘레먼트인 MetadataSamepleEntry 에 포함될 수 있다, 표 3의 “DepthLevelsFor3DAVBox”는 VisualSamepleEntry에 포함된 경우를 나타낸다.

본 발명의 일 실시예에 따른 뎁스 정보는 각 비디오 샘플, 즉 비디오 프레임 마다 시그널링 될 수 있다. 이 경우 뎁스 정보는 depth_level_per_video_frame 정보를 포함할 수 있다. depth_level_per_video_frame 정보는 각 비디오 프레임 마다 정의된 뎁스 레벨 정보를 지시하는 정보로서, 비디오 프레임에 대응하는 오디오 컨텐츠에 적용되는 3D 오디오 이펙트의 사운드 뎁스를 결정하기 위해 사용될 수 있다.

구체적으로, depth_level_per_video_frame 정보는 0 부터 상술한 num_depth_levels 정보의 밸류(value)에서 1을 뺀 값, 즉, num_depth_levels-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. depth_level_per_video_frame 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 대응하는 3D 사운드 뎁스 레벨로 정의 될 수 있다. 또한, depth_level_per_video_frame 정보 값이 num_depth_levels-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 대응하는 3D 사운드 뎁스 레벨로 정의 될 수 있다.

표 4는 본 발명의 또 다른 실시예에 따른 신택스로서 depth_level_per_video_frame 정보가 상술한“DepthFor3DAVBox”에 포함된 경우를 나타낸다.

표 4에 도시된 샘플 카운트(sample count)값은 메타 데이터 컨테이너에 포함된 샘플 사이즈 박스(sample size box)에서 도출될 수 있다.

상술한 바와 같이 3D 컨텐츠 전송/제공기는 표 1 내지 4에 도시된 MPEG 파일 포맷의 신택스를 이용하여 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 시그널링 할 수 있으며, 수신기는 표 1 내지 4에 도시된 MPEG 파일 포맷의 신택스에 포함된 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 디텍팅 하여 3D 사운드 뎁스를 결정할 수 있다. 하지만 이 경우, 각 샘플마다 depth_level_per_video_frame 정보 값이 정의되어야 하므로, 신택스 내의 depth_level_per_video_frame 정보의 용량이 문제될 수 있다.

따라서 본 발명에서는 샘플들에 대한 depth_level_per_video_frame 정보 값을 줄이고 효율적인 시그널링을 위하여, 샘플들을 그룹핑한 샘플 그룹별로 뎁스 정보를 지시하는 시그널링 방법을 제안한다. 이 경우 상술한 num_depth_levels 정보 및 depth_level_per_video_frame 정보는 두 개의“DepthLevelsGroupFor3DAV” 를 통해 각각 시그널링 될 수 있다.

표 5는 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플들을 그룹핑한 샘플 그룹별로 뎁스 정보를 지시하기 위하여 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 상술한 “DepthLevelsGroupFor3DAVBox” 를 통해 각각 시그널링 하는 경우를 나타낸다.

표 5에 도시된 바와 같이, 두 개의“DepthLevelsGroupFor3DAV extends FullBox”들은 모두 entry_count정보 및 group_description_index 정보를 포함할 수 있다.

entry_count정보는 작업이 처리되는 엔트리의 번호를 지시하는 정보로서 정수(integer) 값을 갖는다. 또한 group_description_index 정보는 현재 그룹내의 샘플들을 표현하는 동일한 샘플 그룹 엔트리의 인덱스를 지시하는 정보로서 정수(integer) 값을 갖는다. group_description_index 정보는 메타 데이터 컨테이너에 포함된 샘플투그룹박스(SampleToGroupBox)에 포함될 수 있다. 또한 표 5에 도시된 바와 같이, “DepthLevelsGroupFor3DAV extends FullBox”는 각 샘플 그룹내의 num_depth_levels 정보를 포함할 수 있으며, 각 샘플 그룹내의 num_depth_levels 정보는 3D 비디오의 그룹 내에 있는 전체 샘플들에 대한 num_depth_levels 정보와 동일할 수 있다.

또한,“DepthLevelsGroupFor3DAV extends FullBox”내에 depth_level_per_video_frame 정보가 포함되므로, 각 샘플 그룹에 포함된 샘플들에는 동일한 depth_level_per_video_frame 정보 값이 적용될 수 있다.

상술한 바와 같이 본 발명의 일 실시예에 따른 뎁스 정보는 샘플 테이블 박스 내의 샘플 엔트리 엘레먼트등을 통해 시그널링 될 수 있다. 이하에서는, 본 발명의 일 실시예에 따른 샘플 테이블 내에 포함된 박스를 통해 다양한 뎁스 정보를 시그널링 하는 방법을 설명한다.

표 6은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox” 를 통해 뎁스 정보를 시그널링 하는 경우를 나타낸다.

이 경우, 시그널링 되는 뎁스 정보는 표 6에 도시된 바와 같이 entry_counter 정보, sample_index 정보, depth_level 정보 및 depth_range 정보를 포함할 수 있다. 이하 각 정보에 대해 설명한다.

entry_counter 정보는 후술할 뎁스 테이블 내의 엔트리 번호를 지시하는 정보로서 정수 값을 가질 수 있다.

sample_index 정보는 현재 비디오 트랙내의 각 샘플, 즉 프레임들의 인덱스 번호를 지시하는 정보로서, 프레임의 번호를 지시할 수 있다. 정수 값을 가질 수 있다.

depth_range 정보는 3D 사운드 뎁스를 조절하기 위해 사용되는 뎁스 레벨의 전체 레벨 개수를 지시하는 정보로서, 상술한 num_depth_levels 정보와 명칭은 다르나 동일한 정보를 전달할 수 있다. 즉, 뎁스 레벨의 범위를 지시할 수 있다. 따라서 depth_range가 0이면, depth_level 정보는 아무런 의미를 가지지 않는다.

depth_level 정보는 비디오 프레임에 대응하는 오디오 컨텐츠에 적용할 3D 오디오 이펙트를 생성하기 위해 사용되는 정보로서, 구체적으로 3D 오디오 이펙트의 사운드 뎁스 레벨은 depth_level 정보에 따라 결정될 수 있다. depth_level 정보는 각 비디오 프레임의 뎁스 레벨을 나타내며, 상술한 depth_level_per_video_frame 정보와 명칭은 다르나 동일한 정보를 전달 할 수 있다. 따라서, depth_level 정보는 depth_level_per_video_frame 정보와 같이, 0 부터 상술한 depth_range 정보 값에서 1을 뺀 값, 즉, depth_range-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. 또한 depth_level 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다. 또한, depth_level 정보 값이 depth_range-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨을 의미한다.즉, 3D 사운드 뎁스 레벨은 상술한 depth_level 정보에 대응하며, 각 오디오 스팟에 따라 다르거나 같게 설정될 수 있다.

표 6에 도시된 바와 같이 sample_index 정보, depth_level 정보 및 depth_range 정보는 entry_counter 정보 다음에 위치한 for 루프 내에 위치하며, entry_counter 정보 값이 1씩 증가함에 따라 정의되는 각 엔트리마다 정의될 수 있다.

표 6에 도시된 본 발명의 일 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레벨 및 뎁스 레인지의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.

도 3은 본 발명의 일 실시예에 따른 뎁스 테이블을 나타낸 도면이다.

도 3에 도시된 뎁스 테이블은 상술한 바와 같이 표 6의 신택스에 의해 제공될 수 있다.

도 3-(a)의 뎁스 테이블은 sample_index 정보, decoding_time 정보, depth_range 정보 및 depth_level 정보를 포함할 수 있다. decoding_time 정보는 sample_index 정보에 따라 식별되는 각 프레임이 디코딩되는 시간을 지시하는 정보이다. 즉, 도 3-(a)의 뎁스 테이블은 비디오 트랙에 포함된 각 프레임들의 디코딩 시간 정보, 뎁스 레인지 및 뎁스 레벨 정보를 제공할 수 있다.

도 3-(b)에 도시된 뎁스 테이블은 entry_counter 정보, sample_index 정보, depth_range 정보 및 depth_level 정보를 포함할 수 있다. 즉, 도 3(b)의 뎁스 테이블은 각각의 엔트리마다 처리되는 프레임의 뎁스 레인지 및 뎁스 레벨 정보를 제공할 수 있다.

도 3-(b)에 도시된 뎁스 테이블은 도 3-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 3-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 3-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.

이하 도 3-(a)의 뎁스 테이블에 대해 설명한다.

도 3-(a)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 비디오 트랙에 포함된 프레임을 식별하기 위한 sample_index 정보 값들을 포함하며, 두번째 행 내지 네번째 행은 각각 decoding_time 정보 값, depth_range 정보 값, depth_level 정보 값을 포함할 수 있다. 두번째 내지 네번째 행에 포함된 decoding_time 정보 값, depth_range 정보 값 및 depth_level 정보 값은 첫번째 행에 표시된 각 프레임마다 정의된다.

구체적으로, 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 해당 비디오 트랙의 가장 첫번째 프레임에 해당하므로, 0의 decoding_time 정보 값을 가질 수 있다. 또한 도 3-(a)의 뎁스 테이블에 따라 프레임 1의 뎁스 레인지는 16 이 되며, 뎁스 레벨은 3에 해당한다. 또한, 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 2인 프레임 2는 가장 첫번째 프레임인 프레임 1을 디코딩한 뒤에 디코딩 되므로, 프레임 2의 decoding_time 정보 값은 되므로 0에서 증가한 10이 될 수 있다. 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 프레임 2의 뎁스 레인지는 16, 뎁스 레벨은 3이 될 수 있다.

이하 도 3-(b)의 뎁스 테이블에 대해 설명한다.

도 3-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, depth_range 정보 및 depth_level 정보를 나타낸다. 도 3-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, depth_range 정보 값 및 depth_level 정보 값을 포함할 수 있다.

도 3-(a)에 도시된 바와 같이 각 프레임들은 첫번째 프레임부터 순차적으로 처리되므로, 엔트리 1에 해당하는 프레임은 sample_index 정보 값이 1인 프레임이 될 수 있다. 따라서 도 3-(b)의 뎁스 테이블에 도시된 바와 같이 entry_counter 정보 값이 1인 경우 sample_index 정보 값은 1이 된다. 따라서, sample_index 정보 값이 1인 프레임의 뎁스 레인지는 16이고, 뎁스 레벨은 3이므로, 도 3-(b)의 뎁스 테이블의 depth_range 정보 값은 16, depth_level 정보 값은 3으로 표시될 수 있다.

동일한 방법으로, 두번째 엔트리에 해당하는 프레임은 sample_index 정보 값이 2인 프레임이 되므로, entry_counter 정보 값이 2인 경우 sample_index 정보 값은 2로 표시될 수 있으며, depth_range 정보 값은 16, depth_level 정보 값은 3으로 표시 될 수 있다. 또한, 전체 프레임들의 개수가 12개이므로, 도 3-(b)의 뎁스 테이블의 엔트리 개수는 12개가 될 수 있다.

따라서, 수신기는 도 3에 도시된 뎁스 테이블을 이용하여 각 엔트리에 따른 각 프레임의 뎁스 레인지, 뎁스 레벨에 대한 정보를 획득하고, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레인지 및 뎁스 레벨과 대응하는 3D 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 생성할 수 있다.

하지만 도 3에 도시된 뎁스 테이블은 모든 프레임들에 대한 모든 뎁스 정보를 포함하기 때문에 하나의 비디오 트랙에 포함된 프레임들의 개수가 증가하는 경우 뎁스 테이블의 용량이 증가할 수 있다. 특히 일부 프레임들의 뎁스 레인지 및 뎁스 레벨이 동일한 경우에도 중복되는 정보들을 포함하므로 전송 효율이 떨어질 수 있다는 문제가 발생 할 수 있다.

따라서 본 발명에서는 뎁스 테이블의 용량을 줄이고 전송 효율을 높이기 위하여 동일한 뎁스 레인지 및 뎁스 레벨을 갖는 프레임들에 대해서 중복되는 정보를 제거하고, depth_range 정보와 depth_level 정보를 각각 별도의 신택스를 통해 전송하고, 각각 독립적인 뎁스 테이블을 제공하는 시그널링 방법을 제시한다.

표 7은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox”를 통해 뎁스 레벨 정보를 시그널링 하는 경우를 나타낸다.

표 7에 도시된 신택스는 상술한 표 6에 도시된 신택스와 동일하게 entry_counter 정보, sample_index 정보 및 depth_level 정보를 포함할 수 있으나, depth_range 정보를 포함하지 않으며, sample_offset 정보를 포함할 수 있다는 점이 다르다. 표 6에서 도시된 정보들과 동일한 정보들에 대한 설명은 생략하며, 이하 sample_offset 정보에 대해 설명한다.

sample_offset 정보는 비디오 트랙 내에 포함된 프레임들 중에 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 개수를 의미하는 오프셋(offset)을 지시할 수 있다. 따라서 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 sample_index 정보 값 및 sample_offset 정보 값은 1부터 순차적으로 증가할 수 있다. 구체적인 내용은 후술한다.

표 6에 도시된 신택스와 마찬가지로 표 7에 도시된 본 발명의 또 다른 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레벨의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.

도 4는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.

도 4에 도시된 뎁스 테이블은 상술한 바와 같이 표 7의 신택스에 의해 제공될 수 있다.

도 4-(a)에 도시된 뎁스 테이블은 sample_index 정보 값, decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 즉, 도 4-(a)에 도시된 뎁스 테이블은 비디오 트랙에 포함된 모든 샘플들의 디코딩 시간 정보, 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 오프셋 정보 및 뎁스 레벨 정보를 제공할 수 있다.

도 4-(b)에 도시된 뎁스 테이블은 entry_counter 정보 값, sample_index 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 즉. 도 4-(b)에 도시된 뎁스 테이블은 각 엔트리에 처리되는 프레임의 뎁스 레벨 및 동일한 뎁스 레벨이 적용되는 프레임들의 오프셋 정보를 제공할 수 있다.

도 4-(b)에 도시된 뎁스 테이블은 도 4-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 4-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 표 7에 도시된 신택스와 4-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.

이하 도 4-(a)에 도시된 뎁스 테이블을 설명한다.

도 4-(a)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 비디오 트랙에 포함된 프레임을 식별하기 위한 sample_index 정보 값들을 포함하며, 두번째 행 내지 네번째 행은 각각 decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 두번째 내지 네번째 행에 포함된 decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값은 첫번째 행에 표시된 각 프레임마다 정의된다.

도 4-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 depth_level 정보 값에 따라 3의 뎁스 레벨을 갖는다. 상술한 바와 같이 연속적인 프레임들의 뎁스 레벨이 동일한 경우에는, 해당 뎁스 레벨을 갖는 첫번째 프레임의 depth_level 정보 값만이 뎁스 테이블에 표시되며, 바로 다음에 위치하는 연속적인 프레임들의 depth_level 정보 값은 표시되지 않는다. 따라서 도 4-(a)에 도시된 바와 같이 sample_index 정보 값이 2인 프레임 2의 뎁스 레벨은 프레임 1의 뎁스 레벨과 동일하므로 중복된 depth_level 정보 값은 뎁스 테이블에 표시되지 않는다. 동일한 방식으로, sample_index 정보 값이 8 및 9인 프레임 8 및 9는 sample_index 정보 값이 7인 프레임 7의 뎁스 레벨과 동일한 뎁스 레벨을 가지므로, 프레임 8 및 9의 depth_level 정보 값은 뎁스 테이블에 표시되지 않는다.

또한, 상술한 바와 같이 동일한 뎁스 레벨을 갖는 프레임들의 sample_offset 값은 해당 프레임들 중 가장 첫번째에 해당하는 프레임부터 순차적으로 증가할 수 있다. 따라서 도 4-(a)에 도시된 바와 같이, 프레임 1의 sample_offset 값은 1 이 되고, 프레임 2의 sample_offset 값은 프레임 1의 sample_offset 값에서 1이 증가한 2가 된다. 반면, sample_index 정보 값이 3인 프레임 3의 depth_level 정보 값은 4로서, 프레임 1 및 프레임 2의 뎁스 레벨과 다르므로, 프레임 3의 sample_offset 값은 1로 표시된다.

동일한 방식으로, 동일한 뎁스 레벨을 갖는 프레임 7 내지 9의 경우, 프레임 7의 sample_offset 값은 1이 되고, 프레임 8의 sample_offset 값은 2, 프레임 9의 sample_offset 값은 3이 될 수 있다. sample_index 정보 값이 10인 프레임 10은 프레임 7 내지 프레임 9와 다른 뎁스 레벨을 가지므로, 프레임 10의 sample_offset 값은 1로 표시된다.

이하 도 4-(b)의 뎁스 테이블에 대해 설명한다.

도 4-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, sample_offset 정보 및 depth_level 정보를 나타낸다. 도 4-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다.

이 경우, 각 엔트리마다 동일한 뎁스 레벨이 적용되는 프레임들은 함께 처리될 수 있으므로, 각 엔트리에 해당하는 sample_index 정보 값은 동일한 뎁스 레벨을 갖는 프레임들 중 가장 첫번째 프레임의 sample_index 정보 값이 표시된다. 또한, 각 엔트리에 해당하는 sample_offset 정보 값은 동일한 뎁스 레벨을 갖는 프레임들 중 가장 마지막 프레임의 sample_index 정보 값이 표시된다.

구체적으로, 도 4-(a)에 도시된 바와 같이 프레임 1 및 프레임 2에는 동일한 뎁스 레벨이 적용되므로, 프레임 1 및 프레임 2는 함께 처리될 수 있다. 따라서 4-(b)의 뎁스 테이블의 첫번째 행에 도시된 바와 같이, 엔트리 1에 해당하는 sample_index 정보 값은 프레임 1의 sample_index 정보 값인 1이 표시되며, sample_offset 정보 값은 프레임 2의 sample_offset 정보 값인 2가 표시될 수 있다. 또한 depth_level 정보 값은 프레임 1 및 프레임 2의 depth_level 정보 값인 3이 표시될 수 있다.

도 4-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 3인 프레임 3부터 sample_index 정보 값이 6인 프레임 6까지는 서로 다른 depth_level 정보 값을 가진다. 따라서 도 4-(b)의 뎁스 테이블의 엔트리 2부터 5에 해당하는 행에는 프레임 3부터 프레임 6의 sample_offset 정보 값 및 depth_level 정보 값이 각각 표시될 수 있다.

또한, 도 4-(a)에 도시된 바와 같이 프레임 7 내지 프레임 9에는 동일한 뎁스 레벨이 적용되므로, 4-(b)의 뎁스 테이블의 엔트리 6에 해당하는 sample_index 정보 값은 프레임 7의 sample_index 정보 값인 7이 표시되며, sample_offset 정보 값은 프레임 9의 sample_offset 정보 값인 3이 표시될 수 있다. 또한 depth_level 정보 값은 프레임 7 내지 프레임 9의 depth_level 정보 값인 11로 표시될 수 있다.

도 4-(a)에 도시된 바와 같이 전체 샘플들의 개수는 12개이나 각 엔트리에서는 동일한 뎁스 레벨이 적용되는 프레임들이 함께 처리되므로, 도 4-(b)의 뎁스 테이블은 9개의 엔트리에 대한 정보를 포함할 수 있다.

따라서 수신기는 도 4에 도시된 뎁스 테이블을 이용하여, 동일한 뎁스 레벨이 적용되는 프레임들의 개수에 대한 정보를 획득하고, 동일한 뎁스 레벨 정보를 한번만 획득하여, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레벨과 대응하는 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 효율적으로 생성할 수 있다.

표 8은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox”를 통해 뎁스 레인지 정보를 시그널링 하는 경우를 나타낸다.

표 8에 도시된 신택스는 상술한 표 7에 도시된 신택스와 동일하게 entry_counter 정보, sample_index 정보 및 sample_offset 정보를 포함할 수 있으나, depth_level 정보 대신 depth_range 정보를 포함할 수 있다는 점이 다르다. 또한 sample_offset 정보는 명칭은 동일하나 표 7에서 설명한 sample_offset 정보와는 다른 정보를 포함할 수 있다. 표 6 및 표 7에서 도시된 정보들과 동일한 정보들에 대한 설명은 생략하며, 표 8에 도시된 신택스에 포함된 sample_offset 정보에 대해 설명한다.

sample_offset 정보는 비디오 트랙 내에 포함된 프레임들 중에서 동일한 뎁스 레인지를 갖는 뎁스 레벨이 적용되는 연속적인 프레임들의 개수를 나타내는 오프셋을 지시할 수 있다.

따라서 동일한 뎁스 레인지를 갖는 뎁스 레벨이 적용되는 연속적인 프레임들의 sample_index 정보 값 및 sample_offset 정보 값은 1부터 순차적으로 증가할 수 있다. 구체적인 내용은 후술한다.

표 6 및 표 7에 도시된 신택스와 마찬가지로 표 8에 도시된 본 발명의 또 다른 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레인지의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.

도 5는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.

도 5에 도시된 뎁스 테이블은 상술한 바와 같이 표 8의 신택스에 의해 제공될 수 있다.

도 5-(a)에 도시된 뎁스 테이블은 sample_index 정보 값, decoding_time 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있으며, 선택적으로 depth_level 정보 값을 포함할 수 있다. 즉, 도 5-(a)에 도시된 뎁스 테이블은 비디오 트랙에 포함된 모든 샘플들의 디코딩 시간 정보, 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 오프셋 정보 및 뎁스 레인지 정보를 제공할 수 있다.

도 5-(b)에 도시된 뎁스 테이블은 entry_counter 정보 값, sample_index 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있다. 즉. 도 4-(b)에 도시된 뎁스 테이블은 각 엔트리에 처리되는 프레임의 뎁스 레인지 및 동일한 뎁스 레벨이 적용되는 프레임들의 오프셋 정보를 제공할 수 있다.

도 5-(b)에 도시된 뎁스 테이블은 도 5-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 5-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 표 8에 도시된 신택스와 5-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.

이하 도 5-(a)에 도시된 뎁스 테이블을 설명한다.

도 5-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 depth_level 정보 값에 따라 3의 뎁스 레벨을 가지며 뎁스 레벨의 뎁스 레인지는 depth_range 정보 값에 따라 16이 된다. 상술한 바와 같이 연속적인 프레임들의 뎁스 레벨의 뎁스 레인지가 동일한 경우, 해당 뎁스 레인지에 따른 뎁스 레벨을 갖는 첫번째 프레임의 depth_range 정보 값만이 뎁스 테이블에 표시되며, 바로 다음에 위치하는 연속적인 프레임들의 depth_range 정보 값은 표시되지 않는다. 이 경우, 연속적인 프레임들의 depth_level 정보 값이 동일한지 여부는 문제되지 않는다.

따라서 도 5-(a)에 도시된 바와 같이 sample_index 정보 값이 2 내지 6인 프레임 2 내지 프레임 6의 뎁스 레벨의 뎁스 레인지는 프레임 1의 뎁스 레인지와 동일하므로 중복된 depth_range 정보 값은 뎁스 테이블에 표시되지 않는다.

또한, 상술한 바와 같이 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들의 sample_offset 값은 해당 프레임들 중 가장 첫번째에 해당하는 프레임부터 순차적으로 증가할 수 있다. 따라서 도 5-(a)에 도시된 바와 같이, 프레임 1의 sample_offset 값은 1 이 되고, 프레임 2 내지 프레임 6의 sample_offset 값은 프레임 1의 sample_offset 값인 1부터 1씩 증가한 2, 3, 4, 5, 6으로 표시된다. 반면, 프레임 7의 depth_range 정보 값은 4로서, 프레임 1의 depth_range 정보 값과 다르므로 뎁스 테이블에 표시가 되며, 프레임 7의 sample_offset 값은 1로 표시된다.

이하 도 5-(b)의 뎁스 테이블에 대해 설명한다.

도 5-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, sample_offset 정보 및 depth_range 정보를 나타낸다. 도 5-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있다.

이 경우, 각 엔트리마다 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 적용되는 프레임들은 함께 처리될 수 있으므로, 각 엔트리에 해당하는 sample_index 정보 값은 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들 중 가장 첫번째 프레임의 sample_index 정보 값이 표시된다. 또한, 각 엔트리에 해당하는 sample_offset 정보 값은 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들 중 가장 마지막 프레임의 sample_index 정보 값이 표시된다.

구체적으로, 도 5-(a)에 도시된 바와 같이 프레임 1 내지 프레임 6은 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 각각 적용되므로, 프레임 1 내지 프레임 6은 함께 처리될 수 있다. 따라서 5-(b)의 뎁스 테이블의 첫번째 행에 도시된 바와 같이, 엔트리 1에 해당하는 sample_index 정보 값은 프레임 1의 sample_index 정보 값인 1이 표시되며, sample_offset 정보 값은 프레임 6의 sample_offset 정보 값인 6이 표시될 수 있다. 또한 depth_range 정보 값은 프레임 1 내지 프레임 6의 depth_range 정보 값인 16이 표시될 수 있다.

또한, 도 5-(a)에 도시된 바와 같이 프레임 7 내지 프레임 12는 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 각각 적용되므로, 5-(b)의 뎁스 테이블의 엔트리 2에 해당하는 sample_index 정보 값은 프레임 7의 sample_index 정보 값인 7이 표시되며, sample_offset 정보 값은 프레임 12의 sample_offset 정보 값인 6이 표시될 수 있다. 또한 depth_range 정보 값은 프레임 7 내지 프레임 12의 depth_range 정보 값인 4로 표시될 수 있다.

도 5-(a)에 도시된 바와 같이 전체 샘플들의 개수는 12개이나 각 엔트리에서는 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 적용되는 프레임들이 함께 처리되므로, 도 5-(b)의 뎁스 테이블은 2개의 엔트리에 대한 정보를 포함할 수 있다.

따라서 수신기는 도 5에 도시된 뎁스 테이블을 이용하여, 동일한 뎁스 레인제 해당하는 뎁스 레벨이 적용되는 프레임들의 개수에 대한 정보를 획득하고, 동일한 뎁스 레인지 정보를 한번만 획득하여, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레벨과 대응하는 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 효율적으로 생성할 수 있다.

도 6은 본 발명의 일 실시예에 따른 3D 사운드 스페이스를 나타낸 도면이다.

상술한 바와 같이, 본 발명의 일 실시예에 따른 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정된 영역으로서, 복수개의 오디오 스팟으로 나누어질 수 있다. 각 오디오 스팟에는 해당 뎁스 레벨에 따라 생성된 3D 오디오 이펙트를 적용하여 생성된 3D 오디오가 제공될 수 있다. 또한 오디오 스팟의 개수는 뎁스 레인지 및 뎁스 레벨에 따라 달라질 수 있다. 또한 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다. 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.

도 6은 3D 사운드 스페이스의 일 실시예를 나타내는 도면으로서, 도 6의 좌측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드 스페이스를 나타내며, 도 6의 우측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드 스페이스를 나타낸다. 상술한 바와 같이, num_depth_levels 정보는 depth_range 정보와 명칭은 다르나 동일한 정보로 사용된다. 또한 상술한 바와 같이, depth_level 정보는 0 부터 depth_range 정보의 밸류(value)에서 1을 뺀 값, 즉, depth_range-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. 또한 상술한 바와 같이, depth_level 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다. 또한, depth_level 정보 값이 depth_range-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다.. 도 6에 도시된 3D 사운드 스페이스는 depth_level 정보 값이 0인 경우, 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 뎁스 레벨로 정의된 경우를 나타낸다.

이하 도 6에 대해 구체적으로 설명한다.

도 6의 좌측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드로서, depth_level 정보 값은 0부터 3까지 될 수 있으며, 3D 사운드 스페이스는 depth_level 정보 값에 따라 4개의 오디오 스팟으로 나누어 질 수 있다. 각 오디오 스팟들의 간격은 일정하며, 각 오디오 스팟에는 해당 depth_level 정보 값에 따라 생성된 3D 오디오 이펙트를 적용한 3D 오디오가 제공될 수 있다. 따라서 depth_levlel 정보 값이 3에 대응하는 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 0에 대응하는 오디오 스팟에 위치한 사용자보다 더 큰 3D 오디오 이펙트 효과를 인식할 수 있다.

또한, 도 6의 우측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 16인 경우의 3D 사운드 스페이스로서, depth_level 정보 값은 0부터 15가 될 수 있고. 3D 사운드 스페이스는 depth_level 정보 값에 따라 16개의 오디오 스팟으로 나누어 질 수 있다. 각 오디오 스팟들의 간격은 일정하며, 각 오디오 스팟에는 해당 depth_level 정보 값에 따라 생성된 3D 오디오 이펙트를 적용한 3D 오디오가 제공될 수 있다. 따라서 depth_levlel 정보 값이 14에 대응하는 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 0에 대응하는 오디오 스팟에 위치한 사용자보다 더 큰 3D 오디오 이펙트 효과를 인식할 수 있다.

도 6의 좌측과 같이 depth_range 정보 값이 작은 경우, depth_level 정보 값에 따른 오디오 스팟의 개수가 적고 오디오 스팟 간의 간격이 크므로, 각 오디오 스팟에 위치한 사용자는 각 오디오 스팟마다 제공되는 3D 오디오의 차이를 깨끗하고 정확하게 인식할 수 있다. 즉, depth_level 정보 값이 0인 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 3인 오디오 스팟으로 위치를 옮겼을 때 각 위치에 제공되는 3D 오디오 이펙트의 효과의 차이를 크게 인식할 수 있다.

도 6의 우측과 같이 depth_range 정보 값이 큰 경우, depth_level 정보 값에 따른 오디오 스팟의 개수도 많고, 각 오디오 스팟 간의 간격이 작으므로, 각 오디오 스팟마다 제공되는 3D 오디오의 차이가 크지 않을 수 있다. 따라서 depth_range 정보 값이 큰 경우에는 각 오디오 스팟에 제공되는 3D 오디오의 차이가 크게 드러나지 않으므로 사용자에게 보다 부드러운 사운드의 3D 오디오를 제공할 수 있다.

도 7 내지 도 9는 표 1 내지 표 5에서 상술한 num_depth_levels 정보 및 depth_level_per_video_frame 정보에 따른 비디오 프레임의 실시예를 나타낸 도면이다. 도 7 내지 도 9에서는 depth_level_per_video_frame 정보를 약술하여, depth_level으로 표시한다. 이하 각 도면에 대해 설명한다.

도 7은 본 발명의 일 실시예에 따른 비디오 프레임을 나타낸 도면이다.

도 7은 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 뎁스 레인지가 고정된 경우로서, 8개의 비디오 프레임에 대한 num_depth_levels 정보 값은 16으로 일정하다. 또한, 각 비디오 프레임의 depth_level 정보 값은 각 프레임 마다 다르게 설정될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 도 7의 실시예에 따르는 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.

도 8은 본 발명의 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.

도 8은 도 7에서 설명한 비디오 프레임의 다른 실시예로서, 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 num_depth_levels 정보 값은 고정되어 있으나, 각 비디오 프레임의 depth_level 정보 값은 같거나 다른 실시예를 나타낸다. 도 8에 도시된 바와 같이 프레임 1 내지 프레임 4의 depth_level 정보 값은 3으로 동일하며, 프레임 5 및 6의 depth_level 정보 값은 213, 프레임 7 및 프레임 8의 depth_level 정보 값은 29로 동일하다. 상술한 바와 같이, 커먼 모드의 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.

도 9는 비디오 트랙내에 포함된 프레임들의 depth_level 정보 값 및 num_depth_levels 정보 값이 변화되는 경우로서, 8개의 비디오 프레임에 대한 num_depth_levels 정보 값은 일정 프레임 단위마다 다르게 설정될 수 있다. 이 경우 각 프레임의 depth_level 정보 값은 프레임 마다 다르게 설정될 수 있다..

도 9에 도시된 바와 같이 프레임 1 내지 프레임 3의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 16으로 동일하다. 또한 프레임 4 내지 6의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 256으로 동일하다. 마찬가지로 프레임 7 및 프레임 8의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 32로 동일하다. 상술한 바와 같이, 커먼 모드의 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.

도 10내지 도 11은 표 6 내지 8에서 상술한 뎁스 레인지 정보 및 뎁스 레벨 정보에 따른 비디오 프레임의 실시예를 나타낸 도면이다. 이하 각 도면에 대해 설명한다.

도 10은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.

도 10은 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 뎁스 레인지가 고정된 경우로서, 12개의 비디오 프레임에 대한 depth_range 정보 값은 16으로 일정하다. 또한, 각 비디오 프레임의 depth_level 정보 값은 각 프레임마다 같거나 다르게 설정될 수 있다. 도 10에 도시된 실시예는 대부분의 인핸스드 3D 오디오/비디오 처리 장치에서 처리되는 가장 일반적인 실시예로서, 커먼 모드(common mode)라 호칭할 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 커먼 모드의 경우, 송신측은 표 6 및 도 3 에서 설명한 시그널링 방법을 이용하여, depth_range 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.

도 11은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.

도 11은 비디오 트랙내에 포함된 프레임들의 뎁스 레벨 및 뎁스 레인지가 변화된 경우로서, 12개의 비디오 프레임에 대한 depth_range 정보 값은 일정 프레임 마다 다르게 설정될 수 있다. 또한 각 비디오 프레임의 depth_level 정보 값은 같거나 다를 수 있다. 도 11에 도시된 바와 같이 프레임 1 내지 프레임 6의 depth_range 정보 값은 16으로 동일하며, 프레임 7 내지 프레임 12의 depth_range 정보 값은 4로 동일하다. 도 11에 도시된 실시예는 서로 다른 3D 사운드 특성을 갖고 있는 비디오 컨텐츠의 여러 부분에 대해서 보다 다양한 3D 사운드 이펙트를 생성할 필요가 있을 때 사용될 수 있는 실시예로, 어댑티브 모드(adaptive mode)라 호칭할 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 또한 어댑티브 모드의 depth_range 정보 값은 사용자가 3D 사운드 이펙트의 변화를 감지할 수 있는 최소한의 비디오 프레임 개수를 고려하여 변경될 수 있다. 따라서 어댑티브 모드는 상술한 커먼 모드에 해당하는 비디오 프레임들을 포함하는 그룹들의 연속으로 설명될 수 있다. 어댑티브 모드의 경우, 송신측은 표 7 내지 8 및 도 4 내지 5에서 설명한 시그널링 방법을 이용하여, depth_range 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.

도 12는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.

본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 3D 컨텐츠 생성부(1200), 뎁스 정보 생성부(1210) 및 신호 생성부(1220)를 포함할 수 있다.

3D 컨텐츠 생성부(1200)는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D 컨텐츠를 생성할 수 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.

뎁스 정보 생성부(1210)는 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성할 수 있다. 뎁스 정보는 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.

뎁스 정보는 상술한 표 1 내지 표 8에서 설명한 신택스 및 도 3 내지 도 5에서 설명한 테이블들을 포함할 수 있으며, MPEG 파일 포맷을 통해 시그널링 될 수 있다. 특히 MPEG 파일 포맷 내의 샘플 테이블 박스를 통해 시그널링 될 수 있다.

뎁스 정보는 프레임 식별 정보, 뎁스 레벨 정보 및 뎁스 레인지 정보를 포함할 수 있다. 이하 각 정보에 대해 간략히 설명한다.

프레임 식별 정보는 표 6에서 설명한 sample_index 정보가 될 수 있다.

뎁스 레벨 정보는 표 1 내지 표 5에서 설명한 depth_level_per_video_frame 정보 또는 표 6 내지 표 8에서 설명한 depth_level 정보가 될 수 있다. 뎁스 레벨 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.

만약, 뎁스 레벨 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함할 수 있다. 제 1 오프셋 정보는 표 7 및 도 4에서 설명한 sample_offset 정보가 될 수 있다.

뎁스 레인지 정보는 표 1 내지 표 5에서 설명한 num_depth_levels 정보 또는 표 6 내지 표 8에서 설명한 depth_range 정보가 될 수 있다. 뎁스 레인지 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.

만약, 뎁스 레인지 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는, 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함할 수 있다. 제 2 오프셋 정보는 표 8 및 도 5에서 설명한 sample_offset 정보가 될 수 있다.

이후, 신호 생성부(1220)는 생성된 3D 컨텐츠와 생성된 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성할 수 있다. 3D 인핸스드 신호는 CD와 같은 저장매체에 저장될 수도 있고, 인터넷 망 또는 방송 망을 통해 전송될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.

도 13은 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.

본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 신호 처리부(1300), 뎁스 정보 추출부(1310), 3D 오디오 이펙트 생성부(1320) 및 3D 오디오 컨텐츠 생성부(1330)을 포함할 수 있다.

신호 처리부(1300)는 3D 컨텐츠를 포함하는 인핸스드 3D 신호를 처리할 수 있다. 신호 처리부(1300)는 인핸스드 3D 신호에 포함된 3D 컨텐츠와 뎁스 정보를 분리할 수 있고, 3D 컨텐츠를 구성하는 비디오 컨텐츠와 오디오 컨텐츠를 분리할 수도 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.

또한 3D 인핸스드 신호는 CD와 같은 저장매체에 저장된 신호일 수도 있고, 인터넷 망 또는 방송 망을 통해 수신되는 신호일 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.

뎁스 정보 추출부(1310)는 처리된 인핸스드 3D 신호에 포함된 뎁스 정보를 추출할 수 있다.

뎁스 정보는 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.

3D 오디오 이펙트 생성부(1320)는 획득한 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있다. 도 6에서 상술한 바와 같이, 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.

이후, 3D 오디오 컨텐츠 생성부(1330) 는 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성할 수 있다. 구체적인 내용은 도 6에서 상술한 바와 같다.

도 14는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.

도 12에서 설명한 3D 컨텐츠 생성부(1200)는 3D 컨텐츠를 생성할 수 있다(S1400). 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.

도 12에서 설명한 뎁스 정보 생성부(1210)는 뎁스 정보를 생성할 수 있다(S1410). 뎁스 정보는 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보로서, 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.

이후, 도 12에서 설명한 신호 생성부(1220)는 생성된 3D 컨텐츠와 생성된 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성할 수 있다(S1420). 3D 인핸스드 신호는 CD와 같은 저장매체에 저장될 수도 있고, 인터넷 망 또는 방송 망을 통해 전송될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.

도 15는 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.

도 13에서 설명한 신호 처리부(1300)는 인핸스드 3D 신호를 처리할 수 있다(S1500). 신호 처리부(1300)는 인핸스드 3D 신호에 포함된 3D 컨텐츠와 뎁스 정보를 분리할 수 있고, 3D 컨텐츠를 구성하는 비디오 컨텐츠와 오디오 컨텐츠를 분리할 수도 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.

도 13에서 설명한 뎁스 정보 추출부(1310)는 처리된 인핸스드 3D 신호로부터 뎁스 정보를 추출할 수 있다(S1510).

도 13에서 설명한 3D 오디오 이펙트 생성부(1320)는 획득한 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있다(S1520). 도 6에서 상술한 바와 같이, 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.

이후, 도 13에서 설명한 3D 오디오 컨텐츠 생성부(1330) 는 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성할 수 있다(S1530). 구체적인 내용은 도 6에서 상술한 바와 같다.

발명의 실시를 위한 형태

전술한 바와 같이, 상기 발명의 실시를 위한 최선의 형태에서, 관련된 사항을 기술하였다.

전술한 바와 같이, 본 발명은 디지털 방송 시스템 또는 인핸스드 3D AV 장치에 전체적으로 또는 부분적으로 적용될 수 있다.

Claims

비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 단계;
상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 단계로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하기 위해 사용되는 정보로서, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고; 및
상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 단계를 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 1 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
제 1 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임마다 다르게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 3 항에 있어서, 상기 뎁스 레인지 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 4 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 5 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 단계;
상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 단계로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고;
상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 단계; 및
상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 단계를 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 7 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
제 7 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 9 항에 있어서, 상기 뎁스 레인지 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 10 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
제 11 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 3D 컨텐츠 생성부;
상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 뎁스 정보 생성부로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하는데 사용되고, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고; 및
상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 신호 생성부를 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
제 13 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷 (file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 장치.
제 13 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되고, 상기 뎁스 레인지 정보는 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
제 15 항에 있어서, 상기 뎁스 정보는 제 1 오프셋 정보 및 제 2 오프셋 정보를 더 포함하고, 상기 제 1 오프셋 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하고, 상기 제 2 오프셋 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 것을 더 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 신호 처리부;
상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 뎁스 정보 추출부로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고;
상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 3D 오디오 이펙트 생성부; 및
상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 3D 오디오 컨텐츠 생성부를 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
제 17 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
제 17 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되고, 상기 뎁스 레인지 정보는 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
제 19 항에 있어서, 상기 뎁스 정보는 제 1 오프셋 정보 및 제 2 오프셋 정보를 더 포함하고, 상기 제 1 오프셋 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하고, 상기 제 2 오프셋 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 것을 더 포함하는 인핸스드 3D 오디오/비디오 처리 장치.