KR101652186B1 - 삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치 - Google Patents

삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101652186B1
KR101652186B1 KR1020147024010A KR20147024010A KR101652186B1 KR 101652186 B1 KR101652186 B1 KR 101652186B1 KR 1020147024010 A KR1020147024010 A KR 1020147024010A KR 20147024010 A KR20147024010 A KR 20147024010A KR 101652186 B1 KR101652186 B1 KR 101652186B1
Authority
KR
South Korea
Prior art keywords
display
scene
distance
displayable
objects
Prior art date
Application number
KR1020147024010A
Other languages
English (en)
Other versions
KR20140127287A (ko
Inventor
아이메드 부아지지
지오바니 코다라
루카스 콘드래드
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140127287A publication Critical patent/KR20140127287A/ko
Application granted granted Critical
Publication of KR101652186B1 publication Critical patent/KR101652186B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof

Abstract

본 발명은 삼차원(3D) 장면과 함께 표시될 표시 객체(303)의 표시 위치(x, y, z)를 결정하기 위한 방법(100)에 관한 것으로서, 상기 방법(100, 300)은 상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 디스플레이 평면(201)에 대한 표시 거리(znear)를 제공하는 단계(101, 305); 및 상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리(znear)에 따라 상기 표시 객체(303)의 표시 거리(zbox)를 포함하는 상기 표시 위치(x, y, z)를 제공하는 단계(103, 307)를 포함한다.

Description

삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING A DISPLAY POSITION OF A DISPLAY OBJECT AND FOR DISPLAYING A DISPLAY OBJECT IN A THREE-DIMENSIONAL SCENE}
본 발명은 입체 3D 및 멀티-뷰 3D 비디오 및 정지 이미지들을 포함하는 3D 멀티미디어의 분야에 관한 것이다. 구체적으로, 본 발명은 3D 좌표계에서의 타이밍 텍스트(timed text) 및 타이밍 그래픽 평면 위치를 조종하기 위한 시그널링 정보에 관한 것이다.
이용 가능한 미디어 파일 포맷 표준들은 ISO 기초 미디어 파일 포맷(ISO/IEC 14496-12), MPEG-4 파일 포맷(MP4 포맷으로도 알려진 ISO/IEC 14496-14), AVC 파일 포맷(ISO/IEC 14496-15), 3GPP 파일 포맷(3GP 포맷으로도 알려진 3GPP TS 26.244) 및 DVB 파일 포맷을 포함한다. ISO 파일 포맷은 (ISO 파일 포맷 자체를 제외한) 모든 전술한 파일 포맷들의 도출을 위한 기초이다. (ISO 파일 포맷 자체를 포함하는) 이러한 파일 포맷들은 파일 포맷들의 ISO 패밀리로서 지칭된다.
도 8은 ISO 기초 미디어 파일 포맷에 따른 간이 파일 구조(simplified file structure; 800)를 나타낸다. ISO 기초 미디어 파일 포맷 내의 기초 빌딩 블록은 박스로서 지칭된다. 각각의 박스는 헤더 및 페이로드를 갖는다. 박스 헤더는 박스 타입 및 바이트 단위의 박스 크기를 지시한다. 박스는 다른 박스들을 둘러쌀 수 있으며, ISO 파일 포맷은 소정 타입의 박스 내에서 어떤 박스 타입들이 허가되는지를 지정한다. 더구나, 일부 박스들은 각각의 파일 내에 필수적으로 존재하지만, 다른 박스들은 옵션이다. 더욱이, 일부 박스 타입들의 경우, 둘 이상의 박스가 파일 내에 존재하는 것이 허가된다. ISO 기초 미디어 파일 포맷은 박스들의 계층 구조를 지정한다는 결론을 내릴 수 있다.
파일 포맷들의 ISO 패밀리에 따르면, 파일(800)은 개별 박스들, 즉 미디어 데이터(mdat) 박스(801) 및 영화(moov) 박스(803) 내에 각각 넣어진 미디어 데이터 및 메타데이터로 구성된다. 파일(800)이 동작할 수 있기 위해서는 이러한 박스들(801, 803) 모두가 존재해야 한다. 영화 박스(803)는 하나 이상의 트랙(805, 807)을 포함할 수 있으며, 각각의 트랙은 하나의 트랙 박스 내에 위치한다. 트랙은 다음 타입들, 즉 미디어, 힌트, 타이밍 메타데이터 중 하나일 수 있다. 미디어 트랙은 미디어 압축 포맷(및 ISO 기초 미디어 파일 포맷에 대한 그의 캡슐화)에 따라 포맷팅된 샘플들을 지칭한다. 힌트 트랙은 지시된 통신 프로토콜을 통해 전송할 패킷들을 구성하기 위한 쿡북 명령들(cookbook instructions)을 포함하는 힌트 샘플들을 지칭한다. 쿡북 명령들은 패킷 헤더 구성을 위한 지침을 포함할 수 있으며, 패킷 페이로드 구성을 포함할 수 있다. 패킷 페이로드 구성에서는 다른 트랙들 또는 아이템들 내에 존재하는 데이터가 참조될 수 있는데, 즉 특정 트랙 또는 아이템 내의 데이터 중 어떤 데이터가 패킷 구성 프로세스 동안 패킷 내에 복사되도록 지시되는지가 참조에 의해 지시된다. 타이밍 메타데이터 트랙은 참조되는 미디어 및/또는 힌트 샘플들을 설명하는 샘플들을 지칭한다. 프레젠테이션을 위해, 하나의 미디어 타입, 통상적으로 하나의 미디어 트랙, 예를 들어 비디오 트랙(805) 또는 오디오 트랙(507)이 선택된다. 트랙의 샘플들은 샘플들의 지시된 디코딩 순서에서 1만큼 증가되는 샘플 번호들과 암시적으로 연관된다.
ISO 기초 미디어 파일 포맷은 하나의 파일(800) 내에 포함될 프레젠테이션을 제한하지 않는다는 점에 유의해야 하지만, 이것은 여러 개의 파일 내에 포함될 수 있다. 하나의 파일(800)은 전체 프레젠테이션에 대한 메타데이터(803)를 포함한다. 이 파일(800)은 모든 미디어 데이터(801)도 포함할 수 있으며, 따라서 프레젠테이션은 자체로 완전하다(self-contained). 다른 파일들이 사용되는 경우에 이들은 ISO 기초 미디어 파일 포맷으로 포맷팅될 필요가 없고, 미디어 데이터를 포함하는 데 사용될 수 있으며, 미사용 미디어 데이터 또는 다른 정보도 포함할 수 있다. ISO 기초 미디어 파일 포맷은 프레젠테이션 파일의 구조에만 관련된다. 미디어 데이터 파일들의 포맷은 ISO 기초 미디어 파일 포맷 또는 그의 파생 포맷들로만 한정되는데, 이는 미디어 파일들 내의 미디어 데이터가 ISO 기초 미디어 파일 포맷 또는 그의 파생 포맷들에서 지정되는 대로 포맷팅되어야 하기 때문이다.
3GPP SA4(Third Generation Partnership Project Specification Group Service and Systems Aspects: Codec)는 3GPP 서비스들을 위한 타이밍 텍스트 및 타이밍 그래픽에 대해 유효하며, 이는 타이밍 텍스트에 대한 기술 사양 TS 26.245 및 타이밍 그래픽에 대한 기술 사양 TS 26.430을 생성하였다. 도 9는 이차원(2D) 좌표계에서 3GPP 타이밍 텍스트에 의해 정의된 텍스트 렌더링 위치 및 구성의 예시를 나타낸다. 양 포맷, 즉 타이밍 텍스트 및 타이밍 그래픽은 표시 영역(907)에 표시된 비디오 요소(905)에 대한 멀티미디어 장면 내의 텍스트(903) 및 그래픽의 배치를 가능하게 한다. 3GPP 타이밍 텍스트 및 타이밍 그래픽은 표시된 비디오(905)의 맨 위에 그리고 비디오(905)의 좌상 코너(upper left corner; 911)에 대해 구성된다. 영역(903)은 좌상 코너(911)의 좌표 (tx, ty)(913) 및 영역(903)의 폭/높이(915, 917)를 제공함으로써 정의된다. 텍스트 박스(901)는 텍스트 샘플 내의 'tbox'에 의해 무효화되지 않는 한은 영역(903) 내에 디폴트로 설정된다. 이어서, 박스 값들이 영역(903)의 맨 위 및 좌측 위치들로부터의 상대 값들(919, 921)로서 정의된다.
타이밍 텍스트 및 타이밍 그래픽은 하이퍼텍스트 전송 프로토콜(HTTP, RFC 2616)을 이용하여 파일 포맷의 일부로서 다운로드될 수 있거나, 실시간 전송 프로토콜(RTP, RFC 3550)을 통해 스트리밍될 수 있다.
타이밍 텍스트의 저장을 위한 3GP 파일 확장은 표준 RFC 4396 내의 기술 사양 3GPP TS 26.245 및 RTP 페이로드 포맷으로 지정된다.
타이밍 그래픽은 두 가지 방법, 즉 스케일링 가능 벡터 그래픽(SVG) 기반 타이밍 그래픽 또는 단순 타이밍 그래픽 모드 중 하나로 실현될 수 있다. SVG 기반 타이밍 그래픽에서, 레이아웃 및 타이밍은 SVG 장면에 의해 제어된다. 전송 및 저장을 위해, 타이밍 그래픽은 동적 및 상호작용 멀티미디어 장면들(DIMS, 3GPP TS 26.142), RTP 페이로드 포맷 및 3GP 파일 포맷 확장들을 재사용한다. 타이밍 그래픽은 또한 DIMS에 대해 정의된 세션 서술 프로토콜(SDP) 신택스 및 미디어 타입 파라미터들을 재사용한다. 간단한 타이밍 그래픽 모드에서는 그래픽 요소들의 간단한 삽입을 가능하게 하기 위해 이진 표현 포맷이 정의된다. 타이밍 그래픽은 3GPP TS 26.430에서 지정된 타이밍 텍스트 RTP 페이로드 포맷(RFC 4396) 및 3GP 파일 포맷 확장을 이용하여 간단한 형태로 전송된다.
깊이 인식은 삼차원(3D) 내의 세상 및 객체의 거리를 인식하는 시각적 능력이다. 입체 3D 비디오는 장면의 2개의 오프셋 이미지를 관찰자의 좌안 및 우안에 각각 제시함으로써 장면 내의 깊이의 환영을 생성하기 위한 기술을 지칭한다. 입체 3D 비디오는 2개의 개별 카메라를 통해 장면을 캡처하여 장면의 객체들을 좌측 및 우측 이미지들 내의 상이한 위치들에 투영함으로써 장면의 3D 인식을 전달한다.
3개 이상의 개별 카메라를 통해 장면을 캡처함으로써, 멀티-뷰 3D 비디오가 생성된다. 캡처 이미지들의 선택된 쌍에 따라, 장면의 상이한 투시(도)가 제공될 수 있다. 멀티-뷰 3D 비디오는 관찰자가 상호작용 방식으로 시점을 제어하는 것을 가능케 한다. 멀티-뷰 3D 비디오는 상이한 투시도들로부터 동일한 장면을 표현하는 다수의 입체 3D 비디오의 멀티플렉스로서 간주될 수 있다.
객체 또는 픽셀의 좌측 뷰로부터 우측 뷰로의 변위를 디스패리티(disparity)라고 한다. 디스패리티는 제시되는 비디오 장면의 인식 깊이에 역비례한다.
입체 3D 비디오는 프레임 호환 방식으로 인코딩될 수 있다. 인코더 측에서, 스테레오 쌍의 단일 프레임으로의 공간 팩킹이 수행되며, 단일 프레임들이 인코딩된다. 디코더에 의해 생성되는 출력 프레임들은 스테레오 쌍의 구성 프레임들을 포함한다. 통상의 동작 모드에서, 각각의 뷰의 오리지널 프레임들의 그리고 패키징된 단일 프레임의 공간 해상도들은 동일한 해상도를 갖는다. 이 경우, 인코더는 팩킹 동작 전에 입체 비디오의 2개의 뷰를 다운 샘플링한다. 공간 팩킹은 나란한, 위에서 아래로의, 인터리빙된 또는 체커보드 포맷들을 이용할 수 있다. 인코더 측은 사용된 프레임 팩킹 포맷을 적절한 시그널링 정보에 의해 지시한다. 예를 들어, H.264/AVC 비디오 코딩의 경우, 프레임 팩킹은 입체 3D 비디오 비트스트림의 일부인 보완 향상 정보(SEI) 메시지들을 이용하여 시그널링된다. 디코더 측은 프레임을 통상적으로 디코딩하고, 디코더의 출력 프레임들로부터 2개의 구성 프레임을 언팩킹하고, 인코더 측 다운 샘플링 프로세스를 반전시키기 위해 업 샘플링을 수행하고, 구성 프레임들을 3D 디스플레이 상에 렌더링한다. 대부분의 상용 배열들에서는 나란한 또는 위에서 아래로의 프레임 팩킹 배열들만이 적용된다.
멀티-뷰 3D 비디오는 멀티-뷰 비디오 코딩을 이용하여 인코딩될 수 있으며, 그러한 코딩 기술들의 일례는 H.264/AVC 표준에 대한 확장으로서 표준화된 H.264/MVC이다. 멀티-뷰 비디오는 많은 양의 뷰간(inter-view) 통계적 의존성을 포함하는데, 그 이유는 모든 카메라들이 상이한 시점들로부터 동일 장면을 캡처하기 때문이다. 소정 카메라로부터의 프레임이 동일 카메라로부터의 임시 관련된 프레임들뿐만 아니라, 이웃 카메라들의 프레임들로부터도 예측될 수 있다. 멀티-뷰 비디오 코딩은 효율적인 인코딩을 위한 키(key)인 결합된 임시 및 뷰간 예측을 이용한다.
입체 3D 비디오는 하나의 3D 뷰만이 이용 가능한 멀티-뷰 3D 비디오로 간주될 수 있다. 따라서, 입체 3D 비디오는 멀티-뷰 코딩 기술을 이용하여 인코딩될 수도 있다.
3GPP에서의 입체 3D 비디오 지원의 도입에 따라, 타이밍 텍스트 및 타이밍 그래픽의 배치는 더 어려워진다. 현재의 3GPP 사양에 따르면, 타이밍 텍스트 박스 또는 타이밍 그래픽 박스는 입체 3D 비디오의 양 뷰들 상의 동일 위치에 배치될 것이다. 이것은 0의 디스패리티에 대응하며, 따라서 객체는 스크린 상에 배치될 것이다. 그러나 텍스트 또는 그래픽 요소를 입체 3D 비디오의 맨 위에 단순히 오버레이하는 것은 만족스런 결과를 야기하지 못하는데, 이는 그것이 모순되는 깊이 단서들을 전달함으로써 관찰자를 혼란시킬 수 있기 때문이다. 일례로서, 이미지 평면에 배치되는 타이밍 텍스트 박스(즉, 0의 디스패리티)는 네거티브 디스패리티에 의해 장면 내의 객체들(즉, 스크린의 정면에서 사용자에게 나타나도록 되어 있는 객체)을 오버페인트(over-paint)할 것이며, 따라서 입체 3D 비디오 장면의 구성을 방해할 것이다.
블루레이는 깊이 제어 기술을 제공하며, 이는 입체 3D 비디오, 타이밍 텍스트 및 타이밍 그래픽 간의 간섭을 방지하기 위해 도입된다. 입체 3D 비디오와 함께 다양한 타이밍 텍스트 및 타이밍 그래픽 포맷들에 대한 2개의 프레젠테이션 타입이 블루레이 사양들에서 정의된다. 이들은 a) 1 평면 플러스 오프셋 프레젠테이션 타입 및 b) 입체 프레젠테이션 타입이다.
도 10a는 블루레이에 의해 정의된 1 평면 플러스 오프셋 프레젠테이션 타입에 대한 평면 오버레이 모델의 예시를 나타내며, 여기서 3D 디스플레이 표면(1001)은 하나의 평면을 형성하고, 3D 서브타이틀 박스(1003a) 및 3D 메뉴 박스(1005a)는 편평한 박스들이며, 3D 디스플레이(1001)에 대한 그들의 위치들(1007, 1009)은 디스패리티와 관련된 이른바 "오프셋 값"에 의해 정의된다.
블루레이에 의해 정의된 1 평면 플러스 오프셋 프레젠테이션 타입에서, 사용자는 시그널링된 오프셋 값에 의해 정의되는 스크린(1001)으로부터의 거리들(1007, 1009)에서 편평한 객체들(1003a, 1005a)을 볼 수 있다. 텍스트 박스(1003a) 내의 텍스트가 스크린(1001)과 사용자 사이에 제시될 것으로 예상될 때, 오프셋 값만큼 우측으로 시프트된 텍스트 박스가 입체 3D 비디오의 좌측 뷰 상에 오버레이되고, 오프셋 값만큼 좌측으로 시프트된 텍스트 박스가 입체 3D 비디오의 우측 뷰 상에 오버레이된다. 오프셋 메타데이터는 H.264/MVC 종속 (제2) 뷰 비디오 스트림의 각각의 픽처 그룹(GOP)의 제1 픽처의 보완 향상 정보(SEI) 메시지 내에서 전송된다. 오프셋 메타데이터는 복수의 오프셋 시퀀스를 포함하며, 각각의 그래픽 타입은 오프셋 시퀀스 id에 의해 오프셋 시퀀스들 중 하나와 연관된다.
블루레이에 의해 정의된 입체 프레젠테이션 타입에서, 타이밍 그래픽은 입체 3D 비디오의 2개의 뷰에 대응하는 2개의 사전 정의된 독립 박스를 포함한다. 그들 중 하나는 입체 3D 비디오의 좌측 뷰 상에 오버레이되고, 다른 하나는 입체 3D 비디오의 우측 뷰 상에 오버레이된다. 결과적으로, 사용자는 제시된 장면 내에 배치된 3D 객체를 볼 수 있다. 다시, 그래픽 박스의 거리는 시그널링된 오프셋 값에 의해 정의된다.
블루레이 솔루션에서, 텍스트 박스 또는 그래픽 박스의 위치는 사용되는 프레젠테이션 타입에 관계없이 시그널링된 오프셋 값에 의해 정의된다. 도 10b는 블루레이에 의해 정의된 입체 프레젠테이션 타입에 대한 평면 오버레이 모델의 예시를 나타내며, 여기서 3D 비디오 스크린(1001)은 하나의 평면을 형성하고, 3D 서브타이틀 박스(1003b) 및 3D 메뉴 박스(1005b)는 3D 박스들이며, 3D 비디오 스크린(1001)에 대한 그들의 거리들(1007, 1009)은 시그널링된 오프셋 값에 의해 정의된다.
발명의 요약
본 발명의 양태들 및 그의 구현들의 목적은 더 유연한 삼차원(3D) 장면에서 표시 객체, 예로서 타이밍 텍스트 또는 타이밍 그래픽의 표시 위치를 제공하기 위한 개념을 제공하는 것이다.
본 발명의 양태들 및 그의 구현들의 추가적인 목적은 3D 장면을 표시하는 타겟 장치의 디스플레이 특성들(스크린 크기, 해상도 등) 및/또는 관찰 거리(즉, 관찰자와 디스플레이 스크린 사이의 거리)와 같은 관찰 조건들에 독립적이거나 적어도 덜 종속적인 표시 객체, 예를 들어 타이밍 텍스트 또는 타이밍 그래픽의 표시 위치를 제공하기 위한 개념을 제공하는 것이다.
본 발명의 양태들 및 그의 구현들의 추가적인 목적은 깊이를 고려하여 표시 객체, 예를 들어 타이밍 텍스트 박스 또는 타이밍 그래픽 박스의 적절한 배치를 제공하기 위한 개념을 제공하는 것이다.
이러한 목적들 중 하나 또는 전부는 독립 청구항들의 특징들에 의해 달성된다. 추가적인 구현 형태들이 종속 청구항들, 명세서 및 도면들로부터 명백하다.
본 발명은 디스플레이 표면으로부터의 거리인, Z 값에 기초하는 타이밍 텍스트 또는 타이밍 그래픽 박스의 위치를 제공함으로써 하드웨어 특성 및 사용자 관찰 거리에 기초하여 올바른 디스패리티들을 계산하는 것이 가능하고, 따라서 타겟 장치들 및 관찰 조건들에 대한 독립성이 제공된다는 발견에 기초한다.
Z 값에 기초하여 입체 3D 비디오의 제2 뷰 또는 멀티-뷰 3D 비디오의 임의의 뷰를 생성하는 것이 가능하여 디스패리티 계산을 필요로 하지 않는 기술들이 이용 가능하다. 결과적으로, 타이밍 텍스트 및 타이밍 그래픽 박스는 하드웨어 특성 및 관찰 거리에 관계없이 디스플레이 표면으로부터 고정된 위치들을 갖는다.
3D 비디오 개념은 또한 상이한 위치 정보, 소위 Z 값을 박스들의 상이한 영역들에 할당함으로써 타이밍 텍스트 박스 및 타이밍 그래픽 박스의 배치에 있어서 더 큰 자유를 제공한다. 결과적으로, 타이밍 텍스트 박스 및 타이밍 그래픽 박스는 디스플레이 표면과 평행하게 배치되는 것으로 한정되지 않는다.
위치 정보의 사용으로 인해, 타이밍 텍스트 박스 및 타이밍 그래픽 박스는 변환 동작을 통해 2개보다 많은 뷰에 맵핑될 수 있다. 결과적으로, 여기서 제시되는 개념은 2개보다 많은 뷰를 갖는 3D 장면들(예로서, 멀티-뷰 3D 비디오)에 적용될 수 있으며, 따라서 예를 들어 입체 3D 비디오와 같은 2개의 뷰만을 갖는 3D 장면들로 한정되지 않는다.
디스플레이 하드웨어 특성 및 관찰 거리에 관계없이, 시그널링을 이용하여, 표시 객체들, 예로서 타이밍 텍스트 및 타이밍 그래픽 평면들의 사전 정의된 깊이를 유지할 수 있다.
본 발명을 상세히 설명하기 위하여, 아래의 용어들, 약어들 및 표기법들이 사용된다.
2D: 이차원.
3D: 삼차원.
AVC: 고급 비디오 코딩으로서, AVC 파일 포맷을 정의한다.
MPEG-4: 동화상 전문가 그룹 No. 4로서, 오디오 및 비주얼(AV) 디지털 데이터를 압축하기 위한 방법을 정의하며, MP4 포맷으로도 알려져 있다.
3GPP: 3세대 파트너십 프로젝트로서, 3GP 파일 포맷으로도 알려진 3GPP 파일 포맷을 정의한다.
DVB: 디지털 비디오 방송으로서, DVB 파일 포맷을 정의한다.
ISO: 국제 표준화 기구. ISO 파일 포맷은 박스들의 계층 구조를 지정한다.
mdat: 미디어 데이터로서, 비디오 또는 오디오 파일의 하나 이상의 트랙을 설명하는 데이터이다.
moov: 비디오 또는 오디오 파일의 영화, 비디오 및/또는 오디오 프레임들.
타이밍 텍스트(Timed text): 오디오 및 비디오와 같은 다른 미디어와 동기화된 텍스트 미디어의 프레젠테이션을 지칭한다. 타이밍 객체의 통상의 응용들은 외국어 영화들의 실시간 서브타이틀링(subtitling), 청각 장애를 가진 사람들을 위한 캡셔닝(captioning), 뉴스 아이템들의 스크롤링 또는 텔레프롬프터 응용들이다. MPEG-4 영화들 및 셀폰 미디어에 대한 타이밍 텍스트는 MPEG-4 파트 17 타이밍 텍스트로 지정되며, 그의 MIME 타입(인터넷 미디어 타입)은 RFC 3839에 의해 그리고 3GPP 26.245에 의해 지정된다.
타이밍 그래픽(Timed Graphics): 오디오 및 비디오와 같은 다른 미디어와 동기화된 그래픽 미디어의 프레젠테이션을 지칭한다. 타이밍 그래픽은 3GPP TS 26.430에 의해 지정된다.
HTTP: RFC 2616에 의해 정의되는 하이퍼텍스트 전송 프로토콜.
RTP: RFC 3550에 의해 정의되는 실시간 전송 프로토콜.
SVG: 스케일링 가능 벡터 그래픽으로서, 타이밍 그래픽을 실현하기 위한 하나의 방법.
DIMS: 3GPP TS 26.142에 의해 정의되는 동적 및 상호작용 멀티미디어 장면으로서, 전송 및 저장을 위해 타이밍 그래픽에 의해 사용되는 프로토콜이다.
SDP: RFC 4566에 의해 정의되는 세션 서술 프로토콜로서, 타이밍 그래픽에 의해 사용되는 스트리밍 미디어 초기화 파라미터들을 서술하기 위한 포맷이다.
SEI: 보완 향상 정보로서, 프레임 팩킹을 시그널링하기 위한 프로토콜이다.
GOP: 픽처들의 그룹으로서, 비디오 스트림의 다수의 픽처.
용어 "표시가능 객체(displayable object)"는 삼차원 장면 내에 이미 포함된 이차원(2D) 또는 삼차원(3D) 객체들을 지칭하며, 그러한 객체들을 동일한 3D 장면과 함께 또는 그 안에 추가 또는 표시될 추가적인 "표시 객체(display object)"와 구별하는 데 사용된다. 용어 "표시가능"은 이미 존재하는 표시가능 객체들 중 하나 이상이 표시 객체와 함께 표시될 때 "표시 객체"에 의해 부분적으로 또는 완전히 오버레이될 수 있다는 것을 또한 지시할 것이다.
제1 양태에 따르면, 본 발명은 삼차원(3D) 장면 내에 또는 그와 함께 표시될 표시 객체의 표시 위치를 결정하기 위한 방법에 관한 것으로, 상기 방법은, 상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리를 제공하는 단계; 및 상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리에 따라 상기 표시 객체의 표시 거리를 포함하는 상기 표시 위치를 제공하는 단계를 포함한다.
제1 양태에 따른 방법의 제1의 가능한 구현 형태에서, 상기 표시 객체는 그래픽 객체, 특히 적어도 하나의 타이밍 그래픽 박스 또는 하나의 타이밍 텍스트 박스이다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 제1 구현 형태에 따른 방법의 제2의 가능한 구현 형태에서, 상기 디스플레이 평면은 상기 3D 장면을 표시하기 위한 장치의 디스플레이 표면에 의해 결정된 평면이다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제3의 가능한 구현 형태에서, 상기 하나 이상의 표시가능 객체의 상기 표시 거리를 제공하는 상기 단계는 깊이 맵을 결정하고, 상기 깊이 맵으로부터 상기 표시 거리(znear)를 계산하는 단계를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제4의 가능한 구현 형태에서, 상기 표시 위치를 제공하는 상기 단계는 상기 표시 객체가 상기 3D 장면과 함께 표시될 때 관찰자에 대해 가깝게 또는 상기 3D 장면의 임의의 다른 표시가능 객체보다 더 가깝게 인식되도록 상기 표시 객체의 상기 표시 거리를 제공하는 단계를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제5의 가능한 구현 형태에서, 상기 표시 객체의 상기 표시 위치를 제공하는 상기 단계는 상기 표시 객체의 상기 표시 위치의 상기 표시 거리가 상기 3D 장면 내의 상기 복수의 표시가능 객체 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체의 상기 표시 거리 이상인 것으로 결정하는 단계; 또는
상기 표시 객체의 상기 표시 위치의 상기 표시 거리가 상기 3D 장면 내의 상기 복수의 표시가능 객체 중에서 상기 관찰자에 대해 가장 먼 거리를 갖는 상기 표시가능 객체와 동일 3D 장면 내의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 다른 표시가능 객체의 상기 표시 거리 간의 차이, 특히 차이의 백분율인 것으로 결정하는 단계; 또는
상기 표시 객체의 상기 표시 위치의 상기 표시 거리가 상기 표시 객체의 적어도 하나의 코너 표시 위치인 것으로 결정하는 단계 - 상기 코너 표시 위치는 상기 표시 거리, 특히 상기 3D 장면 내의 상기 복수의 표시가능 객체 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체의 상기 표시 거리 이상임 -
를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제6의 가능한 구현 형태에서, 상기 표시 위치를 제공하는 단계는 상기 표시 객체의 상기 표시 거리(zbox)가 상기 표시 객체와 동일한 상기 디스플레이 평면의 측부에 배치된 임의의 다른 표시가능 객체의 상기 표시 거리 이상이 되도록 상기 표시 객체의 상기 표시 거리를 제공하는 단계를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제7의 가능한 구현 형태에서, 상기 방법은 상기 표시 객체의 상기 표시 위치를 상기 표시 객체와 함께 통신 네트워크를 통해 전송하는 단계를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제8의 가능한 구현 형태에서, 상기 방법은 상기 표시 객체의 상기 표시 위치를 상기 표시 객체와 함께 저장하는 단계를 포함한다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제9의 가능한 구현 형태에서, 상기 표시 객체의 상기 표시 위치는 소정의 3D 장면에 대해 결정되며, 상기 표시 객체의 다른 표시 위치가 다른 3D 장면에 대해 결정된다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제10의 가능한 구현 형태에서, 상기 3D 장면은 3D 정지 이미지이고, 상기 표시가능 객체들은 이미지 객체들이고, 상기 표시 객체는 그래픽 박스 또는 텍스트 박스이다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 제1 내지 제9의 구현 형태들 중 어느 하나에 따른 방법의 제11의 가능한 구현 형태에서, 상기 3D 장면은 3D 비디오 이미지이고, 상기 표시가능 객체는 비디오 객체들이고, 상기 표시 객체는 타이밍 그래픽 박스 또는 타이밍 텍스트 박스이고, 상기 3D 비디오 이미지는 3D 비디오 시퀀스 내에 포함된 복수의 3D 비디오 이미지 중 하나이다.
전술한 바와 같은 제1 양태에 따른 또는 제1 양태의 이전 구현 형태들 중 어느 하나에 따른 방법의 제12의 가능한 구현 형태에서, 상기 표시 객체 및/또는 상기 표시가능 객체는 2D 또는 3D 객체들이다.
제2 양태에 따르면, 본 발명은 하나 이상의 표시가능 객체를 포함하는 삼차원(3D) 장면 내에 또는 그와 함께 표시 객체를 표시하기 위한 방법에 관한 것으로, 상기 방법은, 상기 3D 장면을 수신하는 단계; 상기 표시 객체의 디스플레이 평면에 대한 표시 거리(zbox)를 포함하는 상기 표시 객체의 표시 위치를 수신하는 단계; 및 상기 3D 장면을 표시할 때 상기 수신된 표시 위치에 상기 표시 객체를 표시하는 단계를 포함한다.
제3 양태에 따르면, 본 발명은 삼차원(3D) 장면 내에 또는 그와 함께 표시될 표시 객체의 표시 위치를 결정하도록 구성되는 장치에 관한 것으로서, 상기 장치는 프로세서를 포함하고, 상기 프로세서는
상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리를 제공하고;
상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리에 따라 상기 표시 객체의 표시 거리를 포함하는 상기 표시 위치를 제공하도록 구성된다.
제3 양태에 따른 장치의 제1의 가능한 구현 형태에서, 상기 프로세서는 하나 이상의 표시가능 객체의 상기 디스플레이 평면에 대한 상기 표시 거리를 제공하기 위한 제1 제공자 및 동일 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리에 따라 상기 표시 객체의 상기 표시 위치를 제공하기 위한 제2 제공자를 포함한다.
제4 양태에 따르면, 본 발명은 하나 이상의 표시가능 객체를 포함하는 삼차원(3D) 장면 내에 또는 그와 함께 표시될 표시 객체를 표시하기 위한 장치에 관한 것으로, 상기 장치는, 상기 하나 이상의 표시가능 객체를 포함하는 상기 3D 장면을 수신하고, 상기 표시 객체를 수신하고, 상기 표시 객체의 디스플레이 평면에 대한 표시 거리를 포함하는 상기 표시 객체의 표시 위치를 수신하기 위한 인터페이스; 및 상기 하나 이상의 표시가능 객체를 포함하는 상기 3D 장면을 표시할 때 상기 수신된 표시 위치에 상기 표시 객체를 표시하기 위한 디스플레이를 포함한다.
제5 양태에 따르면, 본 발명은 프로그램 코드를 갖는 컴퓨터 프로그램에 관한 것으로서, 상기 프로그램 코드는 상기 프로그램 코드가 컴퓨터에서 실행될 때 전술한 바와 같은 제1 양태에 따른 또는 상기 제1 양태의 이전의 구현 형태들 중 어느 하나에 따른 방법 또는 제2 양태에 따른 방법을 수행한다.
본 명세서에서 설명되는 방법들은 디지털 신호 프로세서(DSP) 내에서, 마이크컨트롤러 내에서 또는 임의의 다른 사이드-프로세서 내에서 소프트웨어로서 또는 주문형 집적 회로(ASIC) 내에서 하드웨어 회로로서 구현될 수 있다.
본 발명은 디지털 전자 회로에서 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합들에서 구현될 수 있다.
또한, 본 발명의 실시예들이 아래의 도면들과 관련하여 설명될 것이다. 도면들에서:
도 1은 일 구현 형태에 따른, 삼차원 장면에서 표시 객체의 표시 위치를 결정하기 위한 방법의 개략도를 나타낸다.
도 2는 일 구현 형태에 따른, 삼차원 장면에서 표시 객체의 표시 위치를 결정하는 데 사용할 수 있는 평면 오버레이 모델의 개략도이다.
도 3은 일 구현 형태에 따른, 삼차원 장면에서 표시 객체의 표시 위치를 결정하기 위한 방법의 개략도를 나타낸다.
도 4는 일 구현 형태에 따른, 삼차원 장면 내에 표시 객체를 표시하기 위한 방법의 개략도를 나타낸다.
도 5는 일 구현 형태에 따른, 삼차원 장면 내에 표시 객체를 표시하기 위한 방법의 개략도를 나타낸다.
도 6은 일 구현 형태에 따른, 삼차원 장면에서 표시 객체의 표시 위치를 결정하기 위한 장치의 블록도를 나타낸다.
도 7은 일 구현 형태에 따른, 삼차원 장면 내에 표시 객체를 표시하기 위한 장치의 블록도를 나타낸다.
도 8은 ISO 기초 미디어 파일 포맷에 따른 ISO 파일의 간이 구조를 도시하는 블록도를 나타낸다.
도 9는 2D 좌표계에서 3GPP 타이밍 텍스트에 의해 정의되는 텍스트 렌더링 위치 및 구성의 개략도를 나타낸다.
도 10a는 블루레이에 의해 정의되는 1 평면 플러스 오프셋 프레젠테이션 타입에 대한 평면 오버레이 모델의 개략도를 나타낸다.
도 10b는 블루레이에 의해 정의되는 입체 프레젠테이션 타입에 대한 평면 오버레이 모델의 다른 개략도를 나타낸다.
본 발명의 실시예들의 상세들을 설명하기 전에, 본 발명의 보다 양호한 이해를 위해 종래 기술에 관한 추가적인 발견들이 설명된다. 전술한 바와 같이, 좌측 뷰로부터의 우측 뷰로의 객체 또는 픽셀의 변위를 디스패리티라고 한다. 디스패리티는 제시된 비디오 장면의 인식 깊이에 비례하며, 시그널링되어 3D 임프레션(impression)을 정의하는 데 사용된다.
그러나, 관찰자에 의해 인식되는 깊이는 디스플레이 특성(스크린 크기, 픽셀 밀도), 관찰 거리(관찰자와 이미지들이 표시되는 스크린 간의 거리) 및 관찰자 경향(관찰자의 동공간 거리)에도 의존한다. 관찰자에 의해 인식되는 깊이, 디스패리티 및 디스플레이 특성(즉, 디스플레이 크기 및 디스플레이 해상도) 사이의 관계는 아래와 같이 계산될 수 있다.
Figure 112014081718408-pct00001
여기서, D는 인식된 3D 깊이이고, V는 관찰 거리이고, I는 관찰자의 동공간 거리이고, sD는 (수평 방향에서의) 스크린의 디스플레이 픽셀 피치이고, d는 디스패리티이다.
블루레이 솔루션들에서는 최종 인식 깊이, 즉 3D 디스플레이(1001)로부터의 3D 객체들의 거리(1007, 1009)가 디스패리티 값의 절반과 동일한 오프셋 값뿐만 아니라, 디스플레이(1001) 특성(스크린 크기 및 해상도) 및 관찰 거리에도 의존한다는 것을 수학식 1에 기초하여 알 수 있다. 그러나, 블루레이 솔루션에서 제공되는 오프셋 값은 타겟 장치 및 관찰 조건들이 무엇인지에 대한 충분한 지식 없이 사전에 설정되어야 한다. 이로 인해, 인식 깊이는 장치마다 다를 뿐만 아니라, 관찰 조건들에 의존한다. 더욱이, 블루레이 솔루션은 텍스트 박스(1003b) 또는 그래픽 박스(1005b)의 배치에 있어서의 자유도를 스크린(1001)에 평행한 2D 표면들로 제한한다. 결과적으로, 그래픽 또는 텍스트를 입체 3D 비디오 내에 혼합하는 것이 불가능하다. 마지막으로, 블루레이 솔루션은 입체 3D 비디오로 제한되며, 멀티-뷰 3D 비디오가 고려될 때 텍스트 박스 또는 그래픽 박스를 어떻게 배치할지를 다루지 않는다.
도 1은 일 구현 형태에 따른, 3D 장면 내의 표시 객체의 표시 위치를 결정하기 위한 방법(100)의 개략도를 나타낸다. 방법(100)은 3D 장면 내의 하나 이상의 표시가능 객체에 따라 3D 장면과 함께 표시될 표시 객체의 표시 위치(x, y, z)를 결정하기 위한 것이다. 방법(100)은 3D 장면 내의 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리를 제공하는 단계(101), 및 동일 3D 장면 내의 하나 이상이 표시가능 객체의 표시 거리에 따라 표시 객체의 표시 거리를 포함하는 표시 위치(x, y, z)를 제공하는 단계(103)를 포함한다.
표시 위치는 삼차원 좌표계 내의 위치이며, x는 x축 상의 위치를 나타내고, y는 y축 상의 위치를 나타내고, z는 z축 상의 위치를 나타낸다. 가능한 좌표계가 도 2와 관련하여 설명될 것이다. 표시 객체 및 표시가능 객체들은 장치의 디스플레이 표면 상에 표시될 객체들이다. 디스플레이 장치는 예를 들어 대응하는 디스플레이 또는 스크린을 갖는 3D 가능 TV 세트 또는 모니터, 또는 3D 이동 단말기 또는 대응하는 디스플레이 또는 스크린을 갖는 임의의 다른 휴대용 장치일 수 있다.
표시 객체는 그래픽 객체일 수 있다. 정지 이미지들에 대한 구현들에서, 3D 장면은 3D 정지 이미지일 수 있고, 표시가능 객체는 2D 또는 3D 이미지 객체들일 수 있으며, 표시 객체는 2D 또는 3D 그래픽 박스 또는 2D 또는 3D 텍스트 박스일 수 있다. 비디오들에 대한 구현들에서, 3D 장면은 3D 비디오 이미지일 수 있고, 표시가능 객체는 2D 또는 3D 비디오 객체들일 수 있으며, 표시 객체는 2D 또는 3D 타이밍 그래픽 박스 또는 타이밍 텍스트 박스일 수 있다.
타이밍 텍스트는 오디오 및 비디오와 같은 다른 미디어와 동기화된 텍스트 미디어의 프레젠테이션을 지칭한다. 타이밍 객체의 통상의 응용들은 외국어 영화들의 실시간 서브타이틀링, 청각 장애를 가진 사람들을 위한 캡셔닝, 뉴스 아이템들의 스크롤링 또는 텔레프롬프터 응용들이다. MPEG-4 영화들 및 셀폰 미디어에 대한 타이밍 텍스트는 MPEG-4 파트 17 타이밍 텍스트로 지정되며, 그의 MIME 타입(인터넷 미디어 타입)은 RFC 3839에 의해 그리고 3GPP 26.245에 의해 지정된다.
타이밍 그래픽은 오디오 및 비디오와 같은 다른 미디어와 동기화된 그래픽 미디어의 프레젠테이션을 지칭한다. 타이밍 그래픽은 3GPP TS 26.430에 의해 지정된다. 비디오 객체는 영화 내에 나타나는 객체, 예로서 사람, 차, 꽃, 집, 볼 등과 같은 사물이다. 비디오 객체는 움직이거나 고정 위치를 갖는다. 3D 비디오 시퀀스는 다수의 비디오 객체를 포함한다. 3D 장면은 하나 이상의 비디오 객체, 타이밍 텍스트 객체, 타이밍 그래픽 객체 또는 이들의 조합들을 포함할 수 있다.
디스플레이 평면은 표시 객체가 표시되는 기준 평면, 예를 들어 스크린, 모니터, 텔레스크린 또는 임의의 다른 종류의 디스플레이이다. 표시 거리는 좌표계의 z축에 대해 표시 객체의 디스플레이 평면까지의 거리이다. 표시 객체가 디스플레이 평면으로부터 거리를 가짐에 따라, 관찰자에 대한 3D 효과가 생성된다. 일 구현 형태에서, 좌표계의 원점은 디스플레이 표면의 좌상 코너에 위치한다.
도 2는 일 구현 형태에 따른, 삼차원 좌표계에서 표시 객체의 표시 위치를 결정하는 데 사용될 수 있는 평면 오버레이 모델(200)의 개략도를 나타낸다.
표시가능 객체 또는 표시 객체의 표시 위치는 삼차원 좌표계에서 정의되며, 도 2에 도시된 바와 같이, x는 x축 상의 위치를 나타내고, y는 y축 상의 위치를 나타내고, z는 z축 상의 위치를 나타낸다. 디스플레이 평면은 x축 및 y축에 의해 정의되며, z 방향에서의 표시가능 객체 또는 표시 객체의 표시 거리를 정의하는 기준 평면을 형성한다. 디스플레이 평면은 3D 장면을 표시하기 위한 장치의 물리적 디스플레이 표면, 또는 예를 들어 3D 장면을 표시하기 위한 장치의 물리적 디스플레이 표면에 평행한 임의의 다른 평면에 대응하도록 정의될 수 있다.
도 2에 도시된 좌표계에서, 좌표계의 원점은 디스플레이 표면의 좌상 코너에 있다. x축은 디스플레이 표면의 우상 코너를 향하는 방향을 갖는 디스플레이 표면에 평행하다. y축은 디스플레이 표면의 좌하 코너를 향하는 방향을 갖는 디스플레이 표면과 평행하다. z축은 양의 z 값들에 대해 관찰자를 향하는 방향을 갖는 디스플레이 표면에 수직인데, 즉 0의 z 값을 갖는 표시가능 또는 표시 객체들은 디스플레이 평면 상에 배치되고, 0보다 큰 z 값을 갖는 표시가능 또는 표시 객체들은 디스플레이 평면 앞에 배치 또는 표시되며, z 값이 클수록 표시가능 또는 표시 객체는 관찰자에게 더 가까이 배치 또는 표시되는 것으로 인식된다. 0보다 작은 z 값(음의 z 값들)을 갖는 표시가능 또는 표시 객체들은 디스플레이 평면 뒤에 배치 또는 표시되며, z 값이 작을수록 표시가능 또는 표시 객체는 관찰자에게 더 멀리 배치 또는 표시되는 것으로 인식된다.
도 2의 평면 오버레이 모델(200)은 그래픽 평면(205), 예를 들어 타이밍 그래픽 박스, 및 텍스트 평면(203), 예를 들어 타이밍 텍스트 박스를 비디오 평면(201) 위에 오버레이한다. 텍스트 또는 그래픽 요소가 배치되는 타이밍 텍스트 박스(203) 또는 타이밍 그래픽 박스(205)는 3D 장면 내에 올바르게 배치된다.
도 2는 비디오 평면을 갖는 3D 비디오 구현을 참조하지만, 동일한 평면 오버레이 모델(200)은 3D 정지 이미지들에 대해서도 적용될 수 있으며, 게다가 참조 부호 201은 이미지 평면 또는 일반적으로 임의 종류의 3D 장면들을 지칭한다. 게다가, 참조 부호 201은 임의의 디스플레이 평면을 지칭한다.
도 2에 도시된 바와 같은 좌표계는 하나의 가능한 좌표계일 뿐이며, 다른 좌표계들, 특히 상이한 원점 정의들 및 양의 값들에 대해 축의 방향을 갖는 다른 데카르트 좌표계들이 본 발명의 실시예들을 구현하는 데 사용될 수 있다.
도 3은 일 구현 형태에 따른, 삼차원 장면 내의 표시 객체의 표시 위치를 결정하기 위한 방법(300)의 개략도를 나타낸다. 예를 들어, 도 3은 3D 비디오 이미지 또는 3D 비디오 장면 내의 타이밍 텍스트 및/또는 타이밍 그래픽 객체의 표시 위치를 결정하기 위한 방법(300)의 개략도를 나타낸다.
방법(300)은 복수의 표시가능 객체를 포함하는 3D 장면(301) 내에 표시될 표시 객체(303), 예로서 타이밍 텍스트 객체 또는 타이밍 그래픽 객체의 표시 위치(x, y, z)를 결정하기 위한 것이다. 방법(300)은 3D 장면, 예로서 3D 비디오(301)를 제공하는 단계, 및 타이밍 텍스트 및/또는 타이밍 그래픽 객체(303)를 제공하는 단계를 포함한다. 방법(300)은 3D 장면, 예로서 3D 비디오(301)의 깊이 정보를 결정하는 단계(305), 타이밍 텍스트 및/또는 타이밍 그래픽에 대해 3D 좌표계 내의 타이밍 텍스트 및/또는 타이밍 그래픽 객체(303)의 위치를 설정하는 단계(307) 및 대응하는 시그널링 데이터를 생성하는 단계를 더 포함한다. 방법(300)은 3D 장면 플러스 타이밍 텍스트 및/또는 타이밍 그래픽의 위치 및 타이밍 텍스트 및/또는 타이밍 그래픽 자체를 저장 및/또는 전송하는 단계(309)를 더 포함한다.
도 3은 3D 장면으로서 3D 비디오를 그리고 표시 객체로서 타이밍 텍스트 및/또는 타이밍 그래픽 객체를 갖는 3D 비디오 구현을 참조하지만, 동일 방법이 3D 정지 이미지들에 대해 적용될 수 있으며, 게다가 참조 부호 301은 3D 정지 이미지를 지칭하고, 게다가 참조 부호 303은 텍스트 및/또는 그래픽 객체를 지칭하며, 단계 305는 3D 정지 이미지의 깊이 정보를 결정하고, 단계 307은 3D 좌표계 내의 텍스트 및/또는 그래픽 객체(303)의 위치를 설정하고, 단계 309는 3D 정지 이미지 플러스 텍스트 및/또는 그래픽의 위치 및 텍스트 및/또는 그래픽 자체를 저장 및/또는 전송한다.
즉, 도 3은 특정 비디오 구현을 도시하지만, 동일 방법이 일반적으로 3D 장면에 대해서도 적용될 수 있으며, 게다가 참조 부호 301은 3D 장면을 지칭하고, 게다가 참조 부호 303은 표시 객체를 지칭하며, 단계 305는 3D 장면의 깊이 정보를 결정하고, 단계 307은 3D 좌표계 내의 표시 객체(303)의 위치를 설정하고, 단계 309는 3D 장면 플러스 표시 객체의 위치 및 표시 객체 자체를 저장 및/또는 전송한다.
3D 장면, 예를 들어 3D 비디오(301)의 깊이 정보를 결정하는 단계(305)는 도 1과 관련하여 설명된 바와 같이 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리를 제공하는 단계(101)에 대응할 수 있다.
타이밍 텍스트 및/또는 타이밍 그래픽에 대해 3D 좌표계 내의 위치 깊이를 설정하고, 시그널링 데이터를 생성하는 단계(307)는 도 1과 관련하여 설명된 바와 같이 3D 장면 내의 하나 이상의 표시가능 객체의 표시 거리에 따라 표시 객체의 표시 위치(x, y, z)를 제공하는 단계(103)에 대응할 수 있다.
제1 구현 형태에서, 단계 307에 따른 타이밍 텍스트 및 타이밍 그래픽의 3D 배치는 아래와 같다. 3D 장면의 관찰자에 대해 가장 가까운 표시가능 객체의 표시 위치의 표시 거리인 Znear이 추출 또는 추정된다. z 방향에서의 타이밍 텍스트 객체 또는 타이밍 그래픽 객체(또는 일반적으로 표시 객체)의 표시 위치의 표시 거리인 Zbox가 3D 장면, 예를 들어 3D 비디오(301)의 가장 가까운 표시가능 객체보다 관찰자에 대해 더 가깝게 설정되는데, 즉 Zbox>Znear이다. Zbox 및 Znear는 도 2에 도시된 바와 같은 좌표계의 z축 상의 좌표들이다.
제1 구현 형태의 일 실시예에서, Znear는 다음과 같이 결정되는데, 즉 먼저 3D 비디오의 좌측 및 우측 뷰들 내의 동일 특징들을 찾으며, 이 프로세스는 대응으로 알려져 있다. 이 단계의 출력은 디스패리티 맵이며, 여기서 디스패리티들은 좌측 및 우측 뷰들 내의 동일 특징의 이미지 평면들 상의 x 좌표들의 차이들, 즉 xl-xr이다. 여기서, xl 및 xr은 각각 좌측 뷰 및 우측 뷰 내의 x 좌표에서의 특징의 위치들이다. 3D 비디오를 캡처하는 데 사용된 카메라들의 기하학적 배열 정보를 이용하여, 디스패리티 맵이 거리들, 즉 깊이 맵으로 바뀐다. 대안으로서, 3D 비디오가 생성된 타겟 스크린 크기 및 관찰 거리를 알면, 전술한 바와 같은 수학식 1을 이용하여 깊이 맵이 계산된다. Znear 값은 깊이 맵 데이터로부터 추출된다. Znear는 z축의 좌표이고, xl 및 xr은 도 2에 도시된 바와 같은 좌표계의 x축 상의 좌표들이다.
제1 구현 형태의 일 실시예에서, 3D 비디오에 대한 파일 포맷은 공간적으로 인접하는 뷰들 간의 최대 디스패리티의 정보를 포함한다. "ISO/IEC 14496-15 "Information technology - Coding of audio-visual objects - Part 15: 'Advanced Video Coding (AVC) file format', June 2010"에는 그러한 정보를 포함하기 위한 박스('vwdi')가 지정되어 있다. 시그널링된 디스패리티는 주어진 장면에서 최대 깊이를 추출하는 데 사용된다.
제2 구현 형태에서, 단계 307에 따른 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체(또는 일반적으로 표시 객체)의 3D 배치는 다음과 같은데, 즉 3D 장면, 예를 들어 3D 비디오(301)의 관찰자에 대해 가장 가까운 표시가능 객체의 표시 위치의 표시 거리인 Znear가 추출 또는 추정된다. 3D 장면, 예를 들어 3D 비디오(301)의 관찰자에 대해 가장 먼 표시가능 객체의 표시 위치의 표시 거리인 Zfar가 추출 또는 추정된다. z 방향에서의 타이밍 텍스트 객체 또는 타이밍 그래픽 객체(또는 일반적으로 표시 객체)의 표시 위치의 표시 거리인 Zbox는 3D 장면, 예를 들어 3D 비디오(301)의 Zfar-Znear 거리의 백분율인 Zpercent에 의해 표현된다. Znear, Zbox 및 Zfar는 도 2에 도시된 바와 같은 좌표계의 z축 상의 좌표들이다.
제3 구현 형태에서, 단계 307에 따른 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체(또는 일반적으로 표시 객체)의 3D 배치는 다음과 같은데, 즉 박스의 각각의 코너(Zcorner _ top _ left , Zcorner _ top _ right , Zcorner _ bottom _ left , Zcorner _ bottom _ right)는 개별 Z 값을 할당받으며, 각각의 코너 Zcorrner > Znear이고, Znear는 주어진 코너의 영역에 대해서만 추정된다. Zcorner _ top _ left, Zcorner _ top _ right, Zcorner _ bottom _ left 및 Zcorner _ bottom _ right는 도 2에 도시된 바와 같은 좌표계의 z축 상의 좌표들이다.
제3 구현 형태의 일 실시예에서, 타이밍 텍스트 객체 또는 표시 객체의 일 구현으로서의 타이밍 텍스트 박스의 Zcorrner 값들은 아래와 같이 3DRecord라고 하는 새로운 클래스 및 새로운 텍스트 스타일 박스 '3dtt'를 지정함으로써 3GPP 파일 포맷으로 시그널링된다.
aligned(8) class 3DRecord {
unsigned int(16) startChar;
unsigned int(16) endChar;
unsigned int(32) [3] top-left;
unsigned int(32) [3] top-right;
unsigned int(32) [3] bottom-left;
unsigned int(32) [3] bottom-right;
}
여기서, startChar은 이 스타일 런(run)의 시작의 문자 오프셋이고(샘플 설명에서는 항상 0임), endChar은 이 스타일이 적용되지 않는 제1 문자 오프셋이고(샘플 설명에서는 항상 0임), startChar 이상이어야 한다. 줄 바꿈 문자들 및 임의의 다른 비인쇄 문자들을 포함하는 모든 문자들이 문자 카운트들에 포함되고, top-left, top-right, bottom-left 및 bottom-right는 코너의 (x,y,z) 좌표들을 포함하고, 양의 z 값은 스크린의 정면의, 즉 관찰자에 대해 더 가까운 위치를 지시하고, 음의 값은 스크린 뒤의, 즉 관찰자로부터 더 먼 위치를 지시하며,
class TextStyleBox() extends TextSampleModifierBox ('3dtt') {
unsigned int(16) entry-count;
3DRecord text-styles[entry-count];
}
여기서, '3dtt'는 3D 좌표들 내의 텍스트의 위치를 지정한다. 이것은 전술한 바와 같은 일련의 3D 레코드들로 구성되며, 그 앞에는 3D 레코드들의 수의 16비트 카운트가 위치한다. 각각의 레코드는 그가 적용되는 텍스트의 시작 및 종료 문자 위치들을 지정한다. 3D 레코드들은 시작 문자 오프셋에 의해 순서화되어야 하고, 하나의 3D 레코드의 시작 오프셋은 이전 레코드의 종료 문자 오프셋 이상이어야 하며, 3D 레코드들은 그들의 문자 범위들과 오버랩되지 않아야 한다.
제3 구현 형태의 일 실시예에서, 단계 307에 따른 타이밍 텍스트 및/또는 타이밍 그래픽 박스(또는 일반적으로 표시 객체)의 배치는 다음과 같은데, 즉 타이밍 그래픽 박스(또는 일반적으로 표시 객체)의 Zcorrner 값들은 아래와 같이 새로운 텍스트 스타일 박스 '3dtg'를 지정함으로써 3GPP 파일 포맷으로 시그널링된다.
class TextStyleBox() extends SampleModifierBox ('dtg') {
unsigned int(32) [3] top-left;
unsigned int(32) [3] top-right;
unsigned int(32) [3] bottom-left;
unsigned int(32) [3] bottom-right;
}
여기서, top-left, top-right, bottom-left 및 bottom-right는 코너의 (x,y,z) 좌표들을 포함한다. 양의 z 값은 스크린의 정면의, 즉 관찰자에 대해 더 가까운 위치를 지시하고, 음의 z 값은 스크린 뒤의, 즉 관찰자로부터 더 먼 위치를 지시한다.
제4 구현 형태에서, 단계 307에 따른 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체(또는 일반적으로 표시 객체)의 배치는 다음과 같은데, 즉 유연한 텍스트 박스 및/또는 그래픽 박스는 회전(alpha_x, alpha_y, alpha_z) 및 병진(trans_x, trans_y) 동작들에 더하여 3D 공간 또는 3D 장면 내의 박스의 한 코너(통상적으로 좌상 코너)의 위치(x,y,z), 박스의 폭 및 높이(width, height)를 시그널링하는 것에 기초한다. 이어서, 단말기는 회전 행렬 Rx*Ry*Rz를 이용하고 병진 벡터 (trans_x, trans_y, 0)를 더하여 3D 공간 내의 박스의 모든 코너들의 위치를 계산하며, 여기서
Rx ={1 0 0; 0 cos(alpha_x) sin (alpha_x); 0 -sin(alpha_x) cos(alpha_x)}
Ry ={cos(alpha_y) 0 -sin(alpha_y); 0 1 0; sin(alpha_y) 0 cos(alpha_y)}
Rz ={cos(alpha_z) sin(alpha_z) 0; -sin(alpha_z) cos(alpha_z) 0; 0 0 1}
이다. 그러한 정보를 저장 및 전송하기 위해, 제3 구현의 일 실시예에서 설명된 것과 유사하게 3GP 파일 포맷과 같은 ISO 기초 미디어 파일 포맷의 새로운 박스들 및 클래스들이 생성된다.
도 4는 일 구현 형태에 따른, 3D 장면과 함께 표시 객체를 표시하기 위한 방법(400)의 개략도를 나타낸다.
방법(400)은 3D 장면 내에 포함된 하나 이상의 표시가능 객체와 함께 표시될 때 3D 장면 내의 표시 위치에 표시될 표시 객체를 표시하는 데 사용된다. 방법(400)은 하나 이상의 표시가능 객체를 포함하는 3D 장면을 수신하는 단계, 표시 객체를 수신하는 단계(401), 디스플레이 평면에 대한 표시 객체의 표시 거리를 갖는 표시 위치(x, y, z)를 수신하는 단계(403), 및 3D 장면을 표시할 때 3D 장면의 하나 이상의 표시가능 객체와 함께 표시 객체를 수신된 표시 위치(x, y, z)에 표시하는 단계(405)를 포함한다. 표시 객체는 도 3과 관련하여 설명된 바와 같은 타이밍 텍스트 객체 또는 타이밍 그래픽 객체(303)에 대응할 수 있다.
도 3과 관련하여 설명된 바와 같은 제1 내지 제4 구현 형태에서는, 3D 장면의 타겟 뷰들(예로서, 입체 3D 비디오의 좌측 및 우측 뷰) 상에 박스를 투영하기 위해 투영 동작이 수행된다. 이러한 투영 변환은 아래의 식(또는 좌표계 조정을 포함하는 그의 임의의 변형들)에 기초하여 수행된다.
여기서, vx 및 vy는 수평 및 수직 방향들에서의 픽셀 크기들과 관찰 거리를 곱한 값들이고, cx 및 cy는 투영의 중심의 좌표들을 나타낸다.
도 5는 일 구현 형태에 따른, 3D 장면 내에 표시 객체를 표시하기 위한 방법(500)의 개략도이다. 예를 들어, 도 5는 3D 비디오 이미지 또는 3D 비디오 장면 내에 타이밍 텍스트 및/또는 타이밍 그래픽 객체를 표시하기 위한 방법(500)의 개략도를 나타낸다.
도 5는 3D 장면으로서 3D 비디오를 그리고 표시 객체로서 타이밍 텍스트 및/또는 타이밍 그래픽 객체를 갖는 3D 비디오 구현을 참조하지만, 동일 방법은 3D 정지 이미지들 및 텍스트 및/또는 그래픽 객체에 대해, 또는 일반적으로 3D 장면들 및 표시 객체들에 적용될 수 있다.
방법(500)은 삼차원 장면 내의 수신된 표시 위치(x, y, z)에 표시될 표시 객체를 표시하는 데 사용된다. 방법(500)은 멀티미디어 데이터 및 시그널링 데이터를 개방/수신하는 단계(501), 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체를 수신된 표시 위치(x, y, z)에 따라 3D 좌표들에 배치하는 단계(503), 타이밍 텍스트 및 타이밍 그래픽의 뷰들을 생성하는 단계(505), 3D 비디오를 디코딩하는 단계(511), 타이밍 텍스트 및/또는 타이밍 그래픽의 뷰들을 디코딩된 3D 비디오의 맨 위에 오버레이하는 단계(507), 및 표시하는 단계(509)를 포함한다.
멀티미디어 데이터 및 시그널링 데이터를 개방/수신하는 단계(501)는 도 4와 관련하여 설명된 바와 같은 표시 객체를 수신하는 단계(401)에 대응할 수 있다. 표시 객체를 3D 좌표들에 배치하는 단계(503) 및 표시 객체의 뷰들을 생성하는 단계(505)는 도 4와 관련하여 설명된 바와 같은 표시 객체의 표시 위치를 수신하는 단계(403)에 대응할 수 있다. 타이밍 텍스트 및/또는 타이밍 그래픽 객체의 뷰들을 3D 비디오의 맨 위에 오버레이하는 단계(507) 및 표시하는 단계(509)는 도 4와 관련하여 설명된 바와 같은, 3D 장면의 하나 이상의 표시가능 객체를 표시할 때 표시 위치에 표시 객체를 표시하는 단계(405)에 대응할 수 있다.
수신기 또는 디코더 측에서, 단계 501에 따라 시그널링 정보가 파싱된다. 단계 503에 따라, 시그널링 정보에 기초하여, 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체가 3D 좌표들의 공간에 투영된다. 다음 단계 505에서, 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체가 변환 동작을 통해 3D 장면의 뷰들에 투영된다. 이어서, 단말기는 단계 507에 따라 3D 장면의 뷰들 위에 타이밍 텍스트 뷰들 및/또는 타이밍 그래픽 뷰들을 오버레이하며, 이들은 단계 509에 따라 단말기의 스크린 상에 표시된다. 타이밍 텍스트 객체 및/또는 타이밍 그래픽 객체의 좌표들의 계산은 참조 부호 503으로 도시되며, 디코더 측에서의 처리 체인 내의 타이밍 텍스트 및 타이밍 그래픽의 대응하는 뷰들의 생성은 도 5에서 참조 부호 505로 도시된다.
도 6은 일 구현 형태에 따른 장치(600)의 블록도를 나타낸다. 장치(600)는 복수의 표시가능 객체를 포함하는 삼차원 장면에서 삼차원(3D) 장면 내에, 예를 들어 도 3과 관련하여 설명된 바와 같은 소정의 표시가능 객체(301)의 정면에 표시될 표시 객체, 예를 들어 도 3과 관련하여 설명된 바와 같은 표시 객체(303)의 표시 위치(x, y, z)를 결정하도록 구성된다. 장치(600)는 3D 장면의 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리(z)를 제공하고, 동일 3D 장면의 하나 이상의 표시가능 객체의 표시 거리(z)에 따라 표시 객체의 디스플레이 평면에 대한 표시 거리(z)를 갖는 표시 위치(x, y, z)를 제공하도록 구성된 프로세서(601)를 포함한다.
프로세서(601)는 3D 장면의 하나 이상의 표시가능 객체의 디스플레이 평면에 대한 표시 거리(z)를 제공하기 위한 제1 제공자(603), 및 동일 3D 장면의 하나 이상의 표시가능 객체의 표시 거리(z)에 따라 표시 객체의 디스플레이 평면에 대한 표시 거리(z)를 갖는 표시 위치(x, y, z)를 제공하기 위한 제2 제공자(605)를 포함한다.
도 7은 일 구현 형태에 따른 장치(700)의 블록도를 나타낸다. 장치(700)는 복수의 표시가능 객체를 포함하는 3D 장면, 예를 들어 도 3과 관련하여 설명된 바와 같은 3D 비디오(301) 내에 또는 그와 함께 표시될 표시 객체, 예를 들어 도 3과 관련하여 설명된 바와 같은 표시 객체(303)를 표시하는 데 사용된다. 장치(700)는 표시 객체를 수신하고, 디스플레이 평면으로부터의 거리, 예를 들어 일정한 거리를 포함하는 표시 객체의 표시 위치(x, y, z)를 수신하기 위한 인터페이스(701); 및 3D 장면의 하나 이상의 표시가능 객체를 표시할 때 표시 객체를 수신된 표시 위치(x, y, z)에 표시하기 위한 디스플레이(703)를 포함한다.
위의 설명으로부터, 다양한 방법들, 시스템들, 기록 매체 상의 컴퓨터 프로그램들 등이 제공된다는 것이 이 분야의 기술자들에게 명백할 것이다.
본 발명은 또한, 실행될 때 적어도 하나의 컴퓨터가 본 명세서에서 설명되는 수행 및 컴퓨팅 단계들을 실행하게 하는 컴퓨터 실행 가능 코드 또는 컴퓨터 실행 가능 명령어들을 포함하는 컴퓨터 프로그램 제품을 지원한다.
본 발명은 또한, 본 명세서에서 설명되는 수행 및 컴퓨팅 단계들을 실행하도록 구성된 시스템을 지원한다.
위의 가르침에 비추어 많은 대안, 변경 및 변형이 이 분야의 기술자들에게 명백할 것이다. 물론, 이 분야의 기술자들은 본 명세서에서 설명되는 것들 외에도 본 발명의 다양한 응용들이 존재한다는 것을 쉽게 인식한다. 본 발명은 하나 이상의 특정 실시예와 관련하여 설명되었지만, 이 분야의 기술자들은 본 발명의 사상 및 범위로부터 벗어나지 않고서 그러한 실시예들에 대한 많은 변경이 이루어질 수 있다는 것을 인식한다. 따라서, 첨부된 청구항들 및 그들의 균등물들의 범위 내에서 본 발명은 본 명세서에서 구체적으로 설명된 것과 다른 방식으로 실시될 수 있다는 것을 이해해야 한다.

Claims (15)

  1. 삼차원(3D) 장면과 함께 표시될 표시 객체(303)의 표시 위치(x, y, z)를 결정하기 위한 방법(100; 300)으로서,
    디스플레이 평면(201)에 대한, 상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 표시 거리(znear)를 제공하는 단계(101, 305) - 상기 제공하는 단계는 깊이 맵을 결정하고 상기 깊이 맵으로부터 상기 표시 거리(znear)를 계산하는 단계를 포함하고, 상기 디스플레이 평면(201)은 상기 3D 장면을 표시하기 위한 장치의 디스플레이 표면에 의해 결정된 평면임 - ; 및
    상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리(znear)에 따라(in dependence on) 상기 표시 객체(303)의 표시 거리(zbox)를 포함하는 상기 표시 위치(x, y, z)를 제공하는 단계(103, 307)
    를 포함하고,
    상기 표시 위치를 제공하는 단계(103, 307)는, 상기 표시 객체가 상기 3D 장면과 함께 표시될 때 관찰자에 대해 상기 3D 장면의 임의의 다른 표시가능 객체만큼 가깝게 또는 상기 3D 장면의 임의의 다른 표시가능 객체보다 더 가깝게 인식되도록 상기 표시 객체(303)의 상기 표시 거리(zbox)를 제공하는 단계를 포함하고,
    상기 표시 객체(303)의 표시 위치(x, y, z)를 제공하는 단계(103, 307)는,
    상기 표시 객체의 상기 표시 위치(x, y, z)의 표시 거리를, 상기 3D 장면 내의 복수의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 먼 거리를 갖는 상기 표시가능 객체(301)와 동일 3D 장면 내의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 다른 표시가능 객체의 표시 거리(z) 간의 차이의 백분율인 것으로 결정하는 단계; 또는
    상기 표시 객체의 상기 표시 위치(x, y, z)의 상기 표시 거리를 상기 표시 객체(303)의 적어도 하나의 코너 표시 위치인 것으로 결정하는 단계 - 상기 코너 표시 위치는 상기 3D 장면 내의 상기 복수의 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체(301)의 상기 표시 거리(z) 이상임 -
    를 포함하는, 방법(100; 300).
  2. 제1항에 있어서,
    상기 표시 객체(303)는 그래픽 객체이거나,
    상기 3D 장면은 3D 정지 이미지이고, 상기 표시가능 객체들은 이미지 객체들이고, 상기 표시 객체(303)는 그래픽 박스 또는 텍스트 박스이거나,
    상기 3D 장면은 3D 비디오 이미지이고, 상기 표시가능 객체들은 비디오 객체들이고, 상기 표시 객체는 타이밍 그래픽 박스(timed graphic box) 또는 타이밍 텍스트 박스이고,
    상기 표시 객체 및/또는 상기 표시가능 객체들은 2D 또는 3D 객체들인, 방법(100; 300).
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 표시 위치를 제공하는 단계(103, 307)는, 상기 표시 객체의 상기 표시 거리(zbox)가 상기 표시 객체와 동일한 상기 디스플레이 평면의 측부에 배치된 임의의 다른 표시가능 객체의 표시 거리 이상이 되도록 상기 표시 객체(303)의 상기 표시 거리(zbox)를 제공하는 단계를 포함하는, 방법(100; 300).
  7. 삭제
  8. 제1항에 있어서,
    상기 방법은 상기 표시 객체가 상기 3D 장면 내에 포함된 소정의 표시가능 객체의 정면에 표시되도록 상기 표시 객체의 상기 표시 위치를 결정하는 단계를 포함하고,
    상기 디스플레이 평면(201)에 대한, 상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 표시 거리(znear)를 제공하는 단계(101, 305)는 상기 소정의 표시가능 객체의 표시 거리를 제공하는 단계(101, 305)를 포함하고,
    동일 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리(znear)에 따라 상기 표시 객체(303)의 상기 표시 거리(zbox)를 포함하는 상기 표시 위치(x, y, z)를 제공하는 단계(103, 307)는 상기 소정의 표시가능 객체의 상기 표시 거리(znear)에 따라 상기 표시 객체(303)의 상기 표시 거리(zbox)를 제공하는 단계(103, 307)를 포함하는, 방법(100; 300).
  9. 제1항에 있어서,
    상기 표시 객체(303)의 상기 표시 위치(x, y, z)를 상기 표시 객체(303)와 함께 통신 네트워크를 통해 전송하거나, 상기 표시 객체(303)의 상기 표시 위치(x, y, z)를 상기 표시 객체(303)와 함께 저장하는 단계를 포함하는 방법(100; 300).
  10. 제1항에 있어서,
    상기 표시 객체(303)의 상기 표시 위치(x, y, z)는 소정의 3D 장면에 대해 결정되며, 상기 표시 객체(303)의 다른 표시 위치는 다른 3D 장면에 대해 결정되는, 방법(100; 300).
  11. 하나 이상의 표시가능 객체를 포함하는 삼차원(3D) 장면과 함께 표시 객체를 표시하기 위한 방법(400, 500)으로서,
    3D 장면(301)을 수신하는 단계(401, 501);
    디스플레이 평면에 대한 표시 객체(303)의 표시 거리(zbox)를 포함하는 상기 표시 객체(303)의 표시 위치(x, y, z)를 수신하는 단계(403, 503) - 상기 표시 객체(303)의 상기 표시 위치(x, y, z)는 상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 표시 거리(znear)에 따르고(in dependence on), 상기 표시 거리(znear)는 깊이 맵으로부터 계산되고, 상기 디스플레이 평면은 상기 3D 장면을 표시하기 위한 장치의 디스플레이 표면에 의해 결정된 평면이고, 상기 표시 객체(303)의 상기 표시 거리(zbox)는 상기 표시 객체가 상기 3D 장면과 함께 표시될 때 관찰자에 대해 상기 3D 장면의 임의의 다른 표시가능 객체만큼 가깝게 또는 상기 3D 장면의 임의의 다른 표시가능 객체보다 더 가깝게 인식되도록 제공됨 - ; 및
    상기 3D 장면을 표시(509)할 때 상기 수신된 표시 위치(x, y, z)에 상기 표시 객체(303)를 표시하는 단계(405, 507)
    를 포함하고,
    상기 표시 객체(303)의 표시 위치(x, y, z)는
    상기 3D 장면 내의 복수의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 먼 거리를 갖는 상기 표시가능 객체(301)와 동일 3D 장면 내의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 다른 표시가능 객체의 표시 거리(z) 간의 차이의 백분율인 것으로 결정되거나;
    상기 표시 객체(303)의 적어도 하나의 코너 표시 위치인 것으로 결정되는 - 상기 코너 표시 위치는 상기 3D 장면 내의 상기 복수의 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체(301)의 상기 표시 거리(z) 이상임 -,
    방법(400, 500).
  12. 삼차원(3D) 장면과 함께 표시될 표시 객체(303)의 표시 위치(x, y, z)를 결정하도록 구성되는 장치(600)로서,
    프로세서(601)
    를 포함하고,
    상기 프로세서(601)는,
    디스플레이 평면(201)에 대한, 상기 3D 장면 내에 포함된 하나 이상의 표시가능 객체의 표시 거리(znear)를 제공(603)하고 - 상기 표시 거리(znear)를 제공하는 것은 깊이 맵을 결정하고 상기 깊이 맵으로부터 상기 표시 거리(znear)를 계산하는 것을 포함하고, 상기 디스플레이 평면(201)은 상기 3D 장면을 표시하기 위한 디스플레이 표면에 의해 결정된 평면임 - ;
    상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리(znear)에 따라 상기 표시 객체(303)의 표시 거리(zbox)를 포함하는 상기 표시 위치(x, y, z)를 제공(605)하도록 구성되고,
    상기 표시 객체(303)의 상기 표시 거리(zbox)는 상기 표시 객체가 상기 3D 장면과 함께 표시될 때 관찰자에 대해 상기 3D 장면의 임의의 다른 표시가능 객체만큼 가깝게 또는 상기 3D 장면의 임의의 다른 표시가능 객체보다 더 가깝게 인식되도록 제공되고,
    상기 표시 객체(303)의 표시 위치(x, y, z)를 제공하는 것은,
    상기 표시 객체의 상기 표시 위치(x, y, z)의 표시 거리를, 상기 3D 장면 내의 복수의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 먼 거리를 갖는 상기 표시가능 객체(301)와 동일 3D 장면 내의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 다른 표시가능 객체의 표시 거리(z) 간의 차이의 백분율인 것으로 결정하는 것; 또는
    상기 표시 객체의 상기 표시 위치(x, y, z)의 상기 표시 거리를 상기 표시 객체(303)의 적어도 하나의 코너 표시 위치인 것으로 결정하는 것 - 상기 코너 표시 위치는 상기 3D 장면 내의 상기 복수의 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체(301)의 상기 표시 거리(z) 이상임 -
    을 포함하는, 장치(600).
  13. 제12항에 있어서,
    상기 프로세서(601)는 하나 이상의 표시가능 객체의 상기 디스플레이 평면(201)에 대한 상기 표시 거리(z)를 제공하기 위한 제1 제공자(603), 및 동일 3D 장면 내의 상기 하나 이상의 표시가능 객체의 상기 표시 거리(z)에 따라 상기 표시 객체(303)의 상기 표시 위치(x, y, z)를 제공하기 위한 제2 제공자(605)를 포함하는, 장치(600).
  14. 하나 이상의 표시가능 객체를 포함하는 삼차원(3D) 장면과 함께 표시될 표시 객체(303)를 표시하기 위한 장치(700)로서,
    상기 하나 이상의 표시가능 객체를 포함하는 상기 3D 장면을 수신하고, 상기 표시 객체(303)를 수신하고, 상기 표시 객체(303)의 디스플레이 평면에 대한 표시 거리(zbox)를 포함하는 상기 표시 객체(303)의 표시 위치(x, y, z)를 수신하기 위한 인터페이스(701) - 상기 표시 객체(303)의 상기 표시 위치(x, y, z)는 상기 3D 장면 내의 상기 하나 이상의 표시가능 객체의 표시 거리(znear)에 따르고(in dependence on), 상기 표시 거리(znear)는 깊이 맵으로부터 계산되고, 상기 디스플레이 평면은 상기 3D 장면을 표시하기 위한 디스플레이 표면에 의해 결정된 평면임 - ; 및
    상기 하나 이상의 표시가능 객체를 포함하는 상기 3D 장면을 표시할 때 상기 수신된 표시 위치(x, y, z)에 상기 표시 객체(303)를 표시하기 위한 디스플레이(703)
    를 포함하고,
    상기 표시 객체(303)의 상기 표시 거리(zbox)는 상기 표시 객체가 상기 3D 장면과 함께 표시될 때 관찰자에 대해 상기 3D 장면의 임의의 다른 표시가능 객체만큼 가깝게 또는 상기 3D 장면의 임의의 다른 표시가능 객체보다 더 가깝게 인식되도록 제공되고,
    상기 표시 객체(303)의 표시 위치(x, y, z)는
    상기 3D 장면 내의 복수의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 먼 거리를 갖는 상기 표시가능 객체(301)와 동일 3D 장면 내의 상기 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 다른 표시가능 객체의 표시 거리(z) 간의 차이의 백분율인 것으로 결정되거나;
    상기 표시 객체(303)의 적어도 하나의 코너 표시 위치인 것으로 결정되는 - 상기 코너 표시 위치는 상기 3D 장면 내의 상기 복수의 표시가능 객체들 중에서 상기 관찰자에 대해 가장 가까운 거리를 갖는 상기 표시가능 객체(301)의 상기 표시 거리(z) 이상임 -,
    장치(700).
  15. 프로그램 코드를 갖는 컴퓨터 프로그램을 갖는 컴퓨터-판독가능한 기록 매체로서,
    상기 프로그램 코드는 컴퓨터에서 실행될 때 제1항, 제2항, 제6항 및 제8항 내지 제10항 중 어느 한 항의 방법(100, 300) 또는 제11항의 방법(400, 500)을 수행하는 컴퓨터-판독가능한 기록 매체.
KR1020147024010A 2012-04-10 2012-04-10 삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치 KR101652186B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056415 WO2013152784A1 (en) 2012-04-10 2012-04-10 Method and apparatus for providing a display position of a display object and for displaying a display object in a three-dimensional scene

Publications (2)

Publication Number Publication Date
KR20140127287A KR20140127287A (ko) 2014-11-03
KR101652186B1 true KR101652186B1 (ko) 2016-08-29

Family

ID=46001175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147024010A KR101652186B1 (ko) 2012-04-10 2012-04-10 삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US20150022645A1 (ko)
EP (1) EP2803197A1 (ko)
JP (1) JP2015517236A (ko)
KR (1) KR101652186B1 (ko)
CN (1) CN103931177A (ko)
WO (1) WO2013152784A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3100177A1 (en) * 2014-01-30 2016-12-07 Huawei Technologies Co., Ltd. Method for recognizing objects
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US11086396B2 (en) * 2017-03-31 2021-08-10 Sony Interactive Entertainment LLC Depth-keying of web content
CN108737907B (zh) * 2017-04-18 2020-05-12 杭州海康威视数字技术股份有限公司 一种生成字幕的方法及装置
KR20180131856A (ko) * 2017-06-01 2018-12-11 에스케이플래닛 주식회사 배송 물품 정보 제공 방법 및 이를 위한 장치
CN109743892B (zh) * 2017-07-04 2020-10-13 腾讯科技(深圳)有限公司 虚拟现实内容的显示方法和装置
TWI687087B (zh) * 2017-07-13 2020-03-01 新加坡商聯發科技(新加坡)私人有限公司 呈現超出全方位媒體的vr媒體的方法和裝置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008038205A2 (en) * 2006-09-28 2008-04-03 Koninklijke Philips Electronics N.V. 3 menu display
US9357231B2 (en) * 2008-07-31 2016-05-31 Mitsubishi Electric Corporation Video encoding device, video encoding method, video reproducing device, video reproducing method, video recording medium, and video data stream
KR20100128233A (ko) * 2009-05-27 2010-12-07 삼성전자주식회사 영상 처리 방법 및 장치
JP2011029849A (ja) * 2009-07-23 2011-02-10 Sony Corp 受信装置、通信システム、立体画像への字幕合成方法、プログラム、及びデータ構造
EP2282550A1 (en) * 2009-07-27 2011-02-09 Koninklijke Philips Electronics N.V. Combining 3D video and auxiliary data
KR20110018261A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 텍스트 서브타이틀 데이터 처리 방법 및 재생 장치
JP5505881B2 (ja) * 2010-02-02 2014-05-28 学校法人早稲田大学 立体映像制作装置およびプログラム
US8878913B2 (en) * 2010-03-12 2014-11-04 Sony Corporation Extended command stream for closed caption disparity
CN103026713B (zh) * 2010-07-12 2016-02-24 皇家飞利浦电子股份有限公司 3d视频广播中的辅助数据
EP2602999A1 (en) * 2010-08-06 2013-06-12 Panasonic Corporation Encoding method, display device, and decoding method
JP5668385B2 (ja) * 2010-09-17 2015-02-12 ソニー株式会社 情報処理装置、プログラムおよび情報処理方法

Also Published As

Publication number Publication date
US20150022645A1 (en) 2015-01-22
JP2015517236A (ja) 2015-06-18
EP2803197A1 (en) 2014-11-19
CN103931177A (zh) 2014-07-16
WO2013152784A1 (en) 2013-10-17
KR20140127287A (ko) 2014-11-03

Similar Documents

Publication Publication Date Title
US11284055B2 (en) Method and an apparatus and a computer program product for video encoding and decoding
KR101652186B1 (ko) 삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치
US8780173B2 (en) Method and apparatus for reducing fatigue resulting from viewing three-dimensional image display, and method and apparatus for generating data stream of low visual fatigue three-dimensional image
US8259162B2 (en) Method and apparatus for generating stereoscopic image data stream for temporally partial three-dimensional (3D) data, and method and apparatus for displaying temporally partial 3D data of stereoscopic image
RU2554465C2 (ru) Комбинирование 3d видео и вспомогательных данных
EP3334164A1 (en) A method and an apparatus and a computer program product for video encoding and decoding
KR101490689B1 (ko) 카메라 파라미터를 이용한 스테레오스코픽 영상데이터스트림 생성 방법 및 그 장치와 스테레오스코픽 영상복원 방법 및 그 장치
US20180167634A1 (en) Method and an apparatus and a computer program product for video encoding and decoding
ES2676055T5 (es) Receptor de imagen eficaz para múltiples vistas
US10158838B2 (en) Methods and arrangements for supporting view synthesis
KR101863767B1 (ko) 의사-3d 인위적 원근법 및 장치
US8878836B2 (en) Method and apparatus for encoding datastream including additional information on multiview image and method and apparatus for decoding datastream by using the same
KR101797495B1 (ko) 디지털 수신기 및 디지털 수신기에서의 캡션 데이터 처리 방법
US9596446B2 (en) Method of encoding a video data signal for use with a multi-view stereoscopic display device
US20150304640A1 (en) Managing 3D Edge Effects On Autostereoscopic Displays
EP3632124B1 (en) High-level signalling for fisheye video data
EP2282550A1 (en) Combining 3D video and auxiliary data
WO2009034519A1 (en) Generation of a signal
CH706886A2 (it) Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.
US20140218490A1 (en) Receiver-Side Adjustment of Stereoscopic Images
Choi et al. 3D DMB player and its realistic 3D services over T-DMB
Zhao et al. An overview of 3D-TV system using depth-image-based rendering
Kim A characterisitc analysis study of android based stereoscopic 3D technology
Pahalawatta et al. A subjective comparison of depth image based rendering and frame compatible stereo for low bit rate 3D video coding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190729

Year of fee payment: 4