KR20200051599A - 화상 처리 장치 및 파일 생성 장치 - Google Patents

화상 처리 장치 및 파일 생성 장치 Download PDF

Info

Publication number
KR20200051599A
KR20200051599A KR1020207005955A KR20207005955A KR20200051599A KR 20200051599 A KR20200051599 A KR 20200051599A KR 1020207005955 A KR1020207005955 A KR 1020207005955A KR 20207005955 A KR20207005955 A KR 20207005955A KR 20200051599 A KR20200051599 A KR 20200051599A
Authority
KR
South Korea
Prior art keywords
stream
texture
image
stored
depth
Prior art date
Application number
KR1020207005955A
Other languages
English (en)
Other versions
KR102543309B1 (ko
Inventor
료헤이 다카하시
미츠히로 히라바야시
미츠루 가츠마타
도시야 하마다
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20200051599A publication Critical patent/KR20200051599A/ko
Application granted granted Critical
Publication of KR102543309B1 publication Critical patent/KR102543309B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving MPEG packets from an IP network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Abstract

본 기술은 BV 콘텐츠를 적절하게 재생할 수 있도록 하는 화상 처리 장치 및 파일 생성 장치에 관한 것이다. 화상 처리 장치는, 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 관리 영역에 3D 오브젝트 콘텐츠를 구성하는 복수의 스트림 중, 3D 오브젝트 콘텐츠의 재생에 적절한 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 취득하는 파일 취득부와, 그룹 정보에 기초하여, 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 스트림을 선택하는 파일 처리부를 구비한다. 본 기술은 클라이언트 장치에 적용할 수 있다.

Description

화상 처리 장치 및 파일 생성 장치
본 기술은 화상 처리 장치 및 파일 생성 장치에 관한 것이며, 특히 3D 오브젝트 콘텐츠를 재생할 수 있도록 한 화상 처리 장치 및 파일 생성 장치에 관한 것이다.
종래, 버드뷰 콘텐츠(이하, BV(Birdview) 콘텐츠라고 칭함)라고 불리는 콘텐츠가 알려져 있다.
BV 콘텐츠는, 공간을 3차원적으로 캡처하는 기술인 Volumetric Capturing에 의해 생성되는 3D 모델이다. 이 3D 모델은, 예를 들어 헤드 마운티드 디스플레이를 사용하여, 주위 둘러보기 시청이 가능하다.
이러한 BV 콘텐츠는 복수의 BV 스트림으로 구성되고, BV 스트림은 텍스처(texture), 메쉬(mesh) 및 뎁스(depth)의 3종류의 정보의 조합으로 부호화된다.
여기서, 메쉬나 뎁스는, 모두 3D 형상을 구성하기 위한 데이터이며, 그 3D 형상에 텍스처를 첩부함으로써 3D 모델이 구성된다. 특히, 3D 모델은, 텍스처와 뎁스, 또는 텍스처와 메쉬를 사용함으로써 구성할 수 있다. 또한 텍스처, 메쉬 및 뎁스를 사용해도 3D 모델을 구성 가능하다.
BV 콘텐츠를 시청하는 경우, 3D 모델의 주위를 원활하게 둘러볼 수 있는 시청 체험이 가장 중요하다.
그런데, ISOBMFF(ISO Base Media File Format)(예를 들어, 비특허문헌 1 참조)에 대한 BV 콘텐츠 저장에 대해서는, BV 스트림을 1개의 track(트랙), 또는 복수의 track에 저장하고, 그루핑을 행하는 방법이 ISO/IEC 14496-15에 규정 완료되어 있다.
이때, 텍스처나 뎁스는 ISO/IEC 14496-10에서 규정된 MVC(Multiview Video Coding) with depth, 3D AVC(Advanced Video Coding)나, ISO/IEC 23008-2에서 규정된 MV(Multiview) HEVC(High Efficiency Video Coding), 3D HEVC로 부호화된다.
ISO/IEC 14496-12 Information technology-Coding of audio-visual objects-P art12: ISO base media file format
그러나, 현시점에서는 시장에 있는 디코더에 있어서 MVC with depth나 MV HEVC 등의 지원은 일반적이지는 않다.
그 때문에, HEVC나 AVC와 같은 일반적인 코덱으로 텍스처나 뎁스를 부호화하여 운용을 행하고, 범용적인 디코더로도 BV 스트림을 디코드 가능하게 함으로써, BV 콘텐츠 재생이 가능하게 되는 클라이언트의 저변을 확대할 것이 요망되고 있다.
현 상황에서는, HEVC나 AVC를 텍스처나 뎁스의 부호화에 사용하는 경우에, BV 스트림을 track에 저장하고, 그루핑하는 방법은 정의되어 있지 않으며, BV 콘텐츠 시청에 적절한 BV 스트림을 저장할 track을 클라이언트가 선택할 수 없다. 즉, 클라이언트가 BV 콘텐츠를 구성하는 복수의 BV 스트림 중, BV 콘텐츠를 재생하기 위해 필요한 적절한 BV 스트림의 조합을 알 수 없었다.
이상과 같이, 일반적인 디코더로 지원되고 있는 HEVC나 AVC로 텍스처나 뎁스를 부호화하려고 하면, BV 콘텐츠의 재생을 위한 적절한 BV 스트림이 저장된 track을 선택할 수 없었다. 바꾸어 말하면, BV 콘텐츠를 적절하게 재생할 수 없었다.
본 기술은, 이러한 상황을 감안하여 이루어진 것이며, BV 콘텐츠를 적절하게 재생할 수 있도록 하는 것이다.
본 기술의 제1 측면의 화상 처리 장치는, 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 취득하는 파일 취득부와, 상기 그룹 정보에 기초하여, 상기 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 상기 스트림을 선택하는 파일 처리부를 구비한다.
본 기술의 제1 측면에 있어서는, 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일이 취득되고, 상기 그룹 정보에 기초하여, 상기 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 상기 스트림이 선택된다.
본 기술의 제2 측면의 파일 생성 장치는, 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 생성하는 파일 생성부를 구비한다.
본 기술의 제2 측면에 있어서는, 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일이 생성된다.
본 기술의 제1 측면 및 제2 측면에 따르면, BV 콘텐츠를 적절하게 재생할 수 있다.
또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다.
도 1은, BV 콘텐츠에 대하여 설명하는 도면이다.
도 2는, BV 그룹의 예에 대하여 설명하는 도면이다.
도 3은, BV 그룹의 예에 대하여 설명하는 도면이다.
도 4는, MPD 파일의 예를 도시하는 도면이다.
도 5는, 표시 가능 영역에 대하여 설명하는 도면이다.
도 6은, 표시 가능 영역에 대하여 설명하는 도면이다.
도 7은, 표시 가능 영역 정보의 시맨틱스를 도시하는 도면이다.
도 8은, 표시 가능 영역 정보의 시맨틱스를 도시하는 도면이다.
도 9는, 파일 생성 장치의 구성예를 도시하는 도면이다.
도 10은, 업로드 처리를 설명하는 흐름도이다.
도 11은, 클라이언트 장치의 구성예를 도시하는 도면이다.
도 12는, BV 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 13은, BV 그룹과 추가 BV 스트림의 예에 대하여 설명하는 도면이다.
도 14는, BV 그룹과 추가 BV 스트림의 예에 대하여 설명하는 도면이다.
도 15는, MPD 파일의 예를 도시하는 도면이다.
도 16은, MPD 파일의 예를 도시하는 도면이다.
도 17은, birdview coverage descriptor의 시맨틱스를 도시하는 도면이다.
도 18은, MPD 파일의 예를 도시하는 도면이다.
도 19는, MPD 파일의 예를 도시하는 도면이다.
도 20은, quality ranking descriptor의 시맨틱스를 도시하는 도면이다.
도 21은, stream_type의 시맨틱스를 도시하는 도면이다.
도 22는, 실루엣의 전송에 대하여 설명하는 도면이다.
도 23은, 뎁스에 관련지어진 실루엣에 대하여 설명하는 도면이다.
도 24는, MPD 파일의 예를 도시하는 도면이다.
도 25는, MPD 파일의 예를 도시하는 도면이다.
도 26은, BV 그룹의 예에 대하여 설명하는 도면이다.
도 27은, BV 그룹의 예에 대하여 설명하는 도면이다.
도 28은, MPD 파일의 예를 도시하는 도면이다.
도 29는, MPD 파일의 예를 도시하는 도면이다.
도 30은, BV 그룹의 예에 대하여 설명하는 도면이다.
도 31은, BV 그룹의 예에 대하여 설명하는 도면이다.
도 32는, MPD 파일의 예를 도시하는 도면이다.
도 33은, MPD 파일의 예를 도시하는 도면이다.
도 34는, 파일 포맷예를 도시하는 도면이다.
도 35는, Track Group Type Box의 신택스와 시맨틱스를 도시하는 도면이다.
도 36은, Birdview Group Box의 신택스 예를 도시하는 도면이다.
도 37은, Birdview Coverage Information Box의 신택스와 시맨틱스의 예를 도시하는 도면이다.
도 38은, BV 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 39는, BV 스트림의 패킹에 대하여 설명하는 도면이다.
도 40은, Birdview Information Box의 신택스 예를 도시하는 도면이다.
도 41은, Birdview Information Box의 시맨틱스 예를 도시하는 도면이다.
도 42는, Birdview Information Box의 시그널 예를 도시하는 도면이다.
도 43은, Birdview Quality Ranking Box의 신택스 예를 도시하는 도면이다.
도 44는, Birdview Quality Ranking Box의 시맨틱스 예를 도시하는 도면이다.
도 45는, Birdview Information Box의 시맨틱스 예를 도시하는 도면이다.
도 46은, 제1 패킹 방법에 대하여 설명하는 도면이다.
도 47은, 제2 패킹 방법에 대하여 설명하는 도면이다.
도 48은, 제3 패킹 방법에 대하여 설명하는 도면이다.
도 49는, 제4 패킹 방법에 대하여 설명하는 도면이다.
도 50은, 영역 재배치에 대하여 설명하는 도면이다.
도 51은, RegionWisePackingBox의 예를 도시하는 도면이다.
도 52는, RegionWisePackingStruct의 예를 도시하는 도면이다.
도 53은, RectRegionPacking(i)의 예를 도시하는 도면이다.
도 54는, RegionWisePackingStruct와 RectRegionPacking(i)의 시맨틱스 예를 도시하는 도면이다.
도 55는, RegionWisePackingBox의 시그널 예를 도시하는 도면이다.
도 56는, 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술에 대하여>
본 기술은, BV 콘텐츠를 구성하기 위해 필요한 BV 스트림을 그룹화함으로써, 클라이언트에 대하여 BV 콘텐츠의 재생에 적절한 BV 스트림의 조합을 알림으로써, BV 콘텐츠를 적절하게 재생할 수 있도록 하는 것이다.
특히, 본 기술은 MPEG-DASH를 사용한 BV 콘텐츠 재생이나, ISOBMFF(ISO Base Media File Format)의 파일에서의 BV 콘텐츠 재생 등에 적용 가능하다.
예를 들어 본 기술에서는, MPD(Media Presentation Description) 파일을 확장함으로써, MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우에, BV 콘텐츠를 구성하는 BV 스트림을 참조할 Adaptation Set를 그룹화할 수 있도록 하였다. 이에 의해, MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우에도, MPD 파일에 기초하여 클라이언트가 BV 콘텐츠의 재생에 적절한 BV 스트림의 조합을 앎으로써, BV 콘텐츠를 적절하게 재생할 수 있다.
또한, 본 기술에서는, MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우에, MPD 파일에서의 새로운 메타데이터 정의, 즉 후술하는 descriptor 등에 의해, 전송 대역이나 유저의 시야 등에 따라 BV 콘텐츠의 고화질화를 행할 수 있도록 하였다.
또한, 예를 들어 본 기술에서는 ISOBMFF를 확장함으로써, BV 콘텐츠를 구성하는 BV 스트림을 ISOBMFF의 track(트랙)에 저장할 때, BV 콘텐츠를 구성하는 track을 그룹화할 수 있도록 하였다. 이에 의해, ISOBMFF의 파일에서 BV 콘텐츠를 재생하는 경우에도, BV 콘텐츠를 적절하게 재생할 수 있다.
그 밖에, 본 기술에서는, BV 스트림을 ISOBMFF의 track에 저장할 때, 복수의 BV 스트림을 1개의 track에 저장할 수 있도록 하였다.
그러면, 이하, 본 기술에 대하여, 보다 상세하게 설명한다. 우선, 제1 실시 형태에서는 MPEG-DASH를 사용한 BV 콘텐츠 배신에 본 기술을 적용한 경우를 예로 들어 설명한다.
상술한 바와 같이, BV 콘텐츠는, 공간을 3차원적으로 캡처하는 기술인 Volumetric Capturing에 의해 생성되는 주위 둘러보기 가능한 3D 모델이다. 바꾸어 말하면 BV 콘텐츠는, 소정의 3D 오브젝트, 즉 오브젝트의 3D 모델을, 그 3D 모델의 주위로부터 둘러볼 수 있는 콘텐츠이다.
이러한 BV 콘텐츠에서는, 예를 들어 도 1에 도시하는 바와 같이 텍스처나 메쉬, 뎁스 등으로 3D 모델이 구성된다.
도 1에 도시하는 예에서는, 화살표 Q11로 나타내는 바와 같이 복수의 서로 다른 시점 위치의 텍스처와, 3D 모델의 형상을 나타내는 메쉬를 사용함으로써 3D 모델 MDL11을 구성할 수 있다.
마찬가지로, 화살표 Q12로 나타내는 바와 같이 복수의 서로 다른 시점 위치의 텍스처와, 3D 모델의 형상을 나타내는, 복수의 서로 다른 시점 위치의 뎁스를 사용함으로써도 3D 모델 MDL11을 구성할 수 있다.
여기서, 텍스처(텍스처 정보)는, 예를 들어 공간 상의 소정의 위치를 시점 위치로 하였을 때의 전경으로 되는 3D 모델에 대응하는 피사체와, 배경으로 되는 피사체가 피사체로서 포함되는 컬러 화상의 화상 정보(텍스처 화상)이다. 즉, 텍스처는 3D 모델의 각 부위의 색을 나타내는 색 정보라고 할 수 있다. BV 콘텐츠에서는, 예를 들어 1개의 시점 위치에 대한 텍스처가 1개의 BV 스트림으로 된다.
또한, 메쉬는, 예를 들어 3D 모델(오브젝트) 상의 몇 개의 부위를 정점으로 하여, 그들 정점간의 연결에 의해 3D 모델의 형상을 나타내는 폴리곤 메쉬 등의 형상 정보(메쉬 정보)이다. BV 콘텐츠에서는, 1개의 메쉬가 1개의 BV 스트림으로 된다.
또한, 뎁스는, 예를 들어 공간 상의 소정의 위치를 시점 위치로 하였을 때의, 그 시점 위치에서부터, 전경으로 되는 3D 모델에 대응하는 피사체나, 배경으로 되는 피사체까지의 거리를 나타내는 뎁스 맵이라고 불리는 뎁스 화상(뎁스 정보)이다. 이 뎁스도 3D 모델의 형상을 나타내는 형상 정보로 되어 있다. BV 콘텐츠에서는, 예를 들어 1개의 시점 위치에 대한 뎁스가 1개의 BV 스트림으로 된다.
이와 같이 텍스처와, 메쉬 또는 뎁스를 사용하면, 3D 모델 MDL11을 구성할 수 있다. 즉, 메쉬나 뎁스로부터 3D 모델 MDL11에 3D 형상을 구축할 수 있으므로, 그 3D 형상의 각 영역에 텍스처에 의해 색 정보를 부가하면, 컬러 3D 모델 MDL11을 얻을 수 있다.
또한, 텍스처, 메쉬 및 뎁스를 사용하여 3D 모델 MDL11을 구성(구축)하는 것도 가능하다.
BV 콘텐츠에서는, 3D 모델 MDL11이 구성되면, 시청자인 유저는, 예를 들어 헤드 마운티드 디스플레이를 사용하여, 자신의 시점 위치를 바꾸면서, 3D 모델 MDL11을 그 주위로부터 둘러볼 수 있다.
BV 콘텐츠를 시청하는 경우, 3D 모델의 주위를 원활하게 둘러볼 수 있는 시청 체험이 가장 중요하다. 이것을 MPEG-DASH 배신으로 실현하기 위해서는, 예를 들어 클라이언트는 BV 콘텐츠를 구성하기 위해 적절한 모든 BV 스트림의 조합을 미리 취득해 둘 필요가 있다.
본 기술에서는, 클라이언트에 대하여, BV 콘텐츠의 재생에 적절한 BV 스트림의 조합을 알림으로써, 클라이언트가 적절한 BV 스트림을 선택하여 취득하고, 처리할 수 있도록 하기 위해, BV 콘텐츠를 구성하는 BV 스트림을 그룹화(그루핑)하도록 하였다.
이하에서는, 그룹화된 BV 스트림, 즉 복수의 BV 스트림을 포함하는 BV 스트림의 그룹을 BV 그룹이라고도 칭하기로 한다.
여기서, BV 그룹에는, 적어도 BV 콘텐츠의 재생에 필요한 BV 스트림이 포함되어 있는 것으로 한다. 바꾸어 말하면, BV 그룹을 구성하는 BV 스트림의 조합을 사용하면, 적어도 BV 콘텐츠의 재생이 가능한 것으로 한다.
복수의 BV 스트림을 통합하여 1개의 BV 그룹으로 함으로써, 클라이언트는, 적어도 BV 그룹을 구성하는 BV 스트림을 취득하면, BV 콘텐츠의 재생이 가능하게 된다. 따라서, 클라이언트는 원활한 주위 둘러보기 시청을 행하기 위해 필요한 BV 스트림을 용이하게 선택하거나 취득하거나 할 수 있다.
또한, 본 기술에서는, Volumetric Capturing에 의해 생성된 BV 콘텐츠의 3D 모델은, 텍스처, 메쉬, 뎁스, 실루엣으로서 부호화되는 것으로 한다. 즉, BV 스트림의 종류로서, 적어도 텍스처, 메쉬, 뎁스 및 실루엣이 있는 것으로 한다. 여기서, 실루엣(실루엣 정보)이란, 뎁스 화상에 있어서의 3D 모델로 되는 피사체(오브젝트)의 영역을 나타내는 실루엣 화상이다.
또한, 이하에서는, 뎁스나 실루엣이 화상 정보인 경우를 예로서 설명하지만, 이들 뎁스나 실루엣은, 3D 모델의 형상이나 3D 모델의 영역을 나타내는 정보이면 되며, 반드시 화상 정보일 필요는 없다. 또한, 이하에서는, BV 스트림의 종류를 명확히 하기 위해, 텍스처의 BV 스트림이나 뎁스의 BV 스트림 등이라고도 기재하기로 한다.
<BV 그룹의 시그널에 대하여>
이어서, 이상과 같은 BV 그룹의 시그널에 대하여 설명한다.
여기서는, 구체적인 예로서 텍스처와 메쉬로 1개의 BV 그룹이 구성되는 경우에 대하여 설명한다.
텍스처와 메쉬로 1개의 BV 그룹이 구성되는 경우의 장점 및 단점으로서, 이하의 점을 들 수 있다.
(장점 1)
메쉬는 뎁스와 비교하여, 클라이언트측에서의 디코더 처리 부하가 낮다
(단점 1)
메쉬의 BV 스트림은 뎁스의 BV 스트림과 비교하여, 3D 형상을 구성하기 위해 필요한 총 사이즈가 커진다
또한, 텍스처와 메쉬를 포함하는 BV 그룹의 예를 도 2에 도시한다.
도 2의 예에서는, 공간 상의 3D 모델(오브젝트)의 위치에, 그 3D 모델의 메쉬 MS1이 있고, 3D 모델의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난 4개의 텍스처 TX1 내지 텍스처 TX4가 있다.
그리고, 메쉬 MS1과, 텍스처 TX1 내지 텍스처 TX4로 1개의 BV 그룹이 구성되어 있다. 이 BV 그룹을 구성하는 BV 스트림에 의해 BV 콘텐츠를 구성하는 것이 가능하다.
또한, 각 텍스처나 메쉬는 전송로의 대역폭 등에 따라 고화질화가 가능하다. 즉, 동일한 텍스처나 메쉬라도, 비트 레이트 어댑테이션에 따라, 대역폭에 따라 보다 높은 비트 레이트의 텍스처나 메쉬를 취득함으로써, 보다 고품질의 BV 콘텐츠를 재생할 수 있다.
또한, BV 콘텐츠를 시청하는 유저의 시야에 상당하는 텍스처만의 고화질화도 가능하다. 예를 들어 3D 모델에 있어서의 유저의 시야 내의 영역을 표시하는 데 필요한 텍스처를 보다 높은 비트 레이트의 텍스처로 하고, 3D 모델에 있어서의 유저의 시야 외의 영역을 표시하는 데 필요한 텍스처를 낮은 비트 레이트의 텍스처로 하는 것이 가능하다. 이와 같이 함으로써, 대역폭이 그다지 넓지 않은 경우라도, 적어도 현시점의 유저의 시야에 대해서는 고품질의 BV 콘텐츠를 제시할 수 있다.
MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우, 이상과 같은 BV 그룹의 시그널에는, BV 콘텐츠를 관리하기 위한 미디어 표시 관리 파일인 MPD 파일을 사용하면 된다.
예를 들어 도 3에 도시하는 바와 같이, 메쉬 MS11과, 4개의 텍스처 TX11 내지 텍스처 TX14로 1개의 BV 그룹이 구성되어 있는 것으로 하자. 그러한 경우, 그 BV 그룹에 관한 정보는 도 4에 도시하는 MPD 파일에 의해 시그널하면 된다.
또한, 여기서는, 텍스처나 메쉬는, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다. 즉, 1개의 Adaptation Set에는, 1개의 텍스처 또는 메쉬에 관한 정보가 기술되어 있는 것으로 한다.
도 4에 도시하는 MPD 파일에서는, 화살표 W11로 나타내는 부분이 프리셀렉션(Preselection)으로 되어 있고, 이 Preselection에는, 1개 또는 복수의 Adaptation Set를 포함하는 1개의 그룹에 관한 정보가 기술되어 있다. 즉, Preselection은, BV 콘텐츠(BV 그룹)별 정보가 저장되는 영역이다.
화살표 W12로 나타내는 부분이나, 화살표 W13으로 나타내는 부분, 화살표 W14로 나타내는 부분은, 각각 1개의 Adaptation Set로 되어 있고, 이들 Adaptation Set에는, 1개의 텍스처나 메쉬에 관한 정보가 기술되어 있다. 즉, 여기서는 Adaptation Set는 BV 스트림에 관한 정보가 저장되는 영역으로 되어 있다.
또한, 이 예에서는 「schemeIdUri="urn:mpeg:dash:birdview:2017"」로 된 에센셜 프로퍼티(EssentialProperty) 또는 서플리멘탈 프로퍼티(SupplementalProperty)가 버드뷰 디스크립터(birdview descpriptor)로서 새롭게 정의되어 있다.
이 birdview descpriptor는, 그 birdview descpriptor가 포함되는 Preselection이나 Adaptation Set가, BV 콘텐츠에 관한 Preselection이나 Adaptation Set임을 나타내는 정보이다.
바꾸어 말하면, birdview descpriptor는 Preselection이나 Adaptation Set에 저장된 정보가 BV 콘텐츠에 관한 정보인, 즉 Preselection이나 Adaptation Set에 의해 나타나는 콘텐츠가 BV 콘텐츠임을 나타내는 정보라고 할 수 있다.
예를 들어 화살표 W11로 나타내는 Preselection에는, 화살표 A11로 나타내는 바와 같이 birdview descpriptor로 되는 「schemeIdUri="urn:mpeg:dash:birdview:2017"」로 된 SupplementalProperty가 마련되어 있다. 이에 의해, 클라이언트는, 화살표 W11로 나타내는 Preselection이 BV 콘텐츠에 관한 Preselection임을 파악할 수 있다.
또한, 이하, MPEG-DASH에 의해 콘텐츠의 배신을 받는 클라이언트를, 특히 DASH 클라이언트라고도 칭하기로 한다.
또한, 「schemeIdUri="urn:mpeg:dash:texture:2017"」로 된 EssentialProperty 또는 SupplementalProperty가, 텍스처에 관한 Preselection이나 Adaptation Set임을 나타내는 정보인 텍스처 디스크립터(texture descriptor)로서 새롭게 정의되어 있다.
예를 들어 화살표 W12로 나타내는 Adaptation Set의 화살표 A12로 나타내는 부분이나, 화살표 W13으로 나타내는 Adaptation Set의 화살표 A13으로 나타내는 부분에는, texture descriptor로 되는 「schemeIdUri="urn:mpeg:dash:texture:2017"」로 된 SupplementalProperty가 마련되어 있다. 이에 의해, 클라이언트는, 화살표 W12로 나타내는 Adaptation Set나, 화살표 W13으로 나타내는 Adaptation Set가 BV 콘텐츠를 구성하는 텍스처에 관한 Adaptation Set임을 파악할 수 있다.
또한, 「schemeIdUri="urn:mpeg:dash:mesh:2017"」로 된 EssentialProperty 또는 SupplementalProperty가, 메쉬에 관한 Preselection이나 Adaptation Set임을 나타내는 정보인 메쉬 디스크립터(mesh descriptor)로서 새롭게 정의되어 있다.
예를 들어 화살표 W14로 나타내는 Adaptation Set의 화살표 A14로 나타내는 부분에는, mesh descriptor로 되는 「schemeIdUri="urn:mpeg:dash:mesh:2017"」로 된 EssentialProperty가 마련되어 있다. 이에 의해, 클라이언트는, 화살표 W14로 나타내는 Adaptation Set가 BV 콘텐츠를 구성하는 메쉬에 관한 Adaptation Set임을 파악할 수 있다.
이하에서는, birdview descpriptor나 texture descriptor, mesh descriptor 등을 특별히 구별할 필요가 없는 경우에는, 간단히 descriptor라고도 칭하기로 한다. 또한, 이하, EssentialProperty와 SupplementalProperty를 특별히 구별할 필요가 없는 경우에는, 간단히 Property라고도 칭하기로 한다.
클라이언트는, descriptor를 참조함으로써, Preselection이나 Adaptation Set가 참조할 콘텐츠나 BV 스트림의 종류를 식별할 수 있다.
특히, texture descriptor나, mesh descriptor는, Adaptation Set에 대응하는 BV 스트림의 종류를 나타내는 정보라고 할 수 있다.
이들 birdview descpriptor나 texture descriptor, mesh descriptor 등의 각 descriptor는, Representation이나 SubRepresentation으로 시그널하도록 해도 된다. 즉, Representation 내나 SubRepresentation 내에 descriptor가 기술되어도 된다.
또한, EssentialProperty의 schemeIdUri에 대응하고 있지 않은 DASH 클라이언트는, 그 Property가 기재되어 있는 Preselection이나 Adaptation Set, Representation 등은 무시해야 한다.
즉, EssentialProperty에 상술한 birdview descpriptor 등의 descpriptor가 기술되어 있는 경우, 그 descpriptor에 대응하고 있지 않은 DASH 클라이언트는, 그러한 descpriptor가 기술된 EssentialProperty를 포함하는 Preselection이나 Adaptation Set 등을 무시해야 한다.
한편, SupplementalProperty의 schemeIdUri에 대응하고 있지 않은 DASH 클라이언트는, 이 Property값을 무시하고, 그 Preselection이나 Adaptation Set, Representation 등을 이용해도 된다. 즉, 상술한 descpriptor에 대응하고 있지 않은 DASH 클라이언트에서도, 그러한 descpriptor가 기술된 SupplementalProperty를 무시하고, descpriptor가 기술된 SupplementalProperty를 포함하는 Preselection이나 Adaptation Set 등을 이용하는 것이 가능하다.
또한, 도 4에 도시하는 MPD 파일에서는, BV 그룹의 그루핑에는 MPEG-DASH에서 규정되어 있는 Preselection 요소가 사용되고 있다.
여기서는, 화살표 W11로 나타내는 Preselection 요소의 preselectionComponents 속성에, BV 그룹을 구성하는 Adaptation Set의 id를 기재함으로써 그루핑이 행해지고 있다.
즉, 이 예에서는, 화살표 W11로 나타내는 Preselection의 preselectionComponents의 부분이 「preselectionComponents="mesh tex1 tex2 tex3 tex4"」로 되어 있다.
여기서, preselectionComponents의 부분에 있어서의 「mesh」, 「tex1」, 「tex2」, 「tex3」 및 「tex4」는, 1개의 BV 그룹을 구성하는 BV 스트림에 관한 Adaptation Set의 id로 되어 있다.
따라서, id가 mesh인 Adaptation Set, id가 tex1인 Adaptation Set, id가 tex2인 Adaptation Set, id가 tex3인 Adaptation Set 및 id가 tex4인 Adaptation Set에 의해 1개의 BV 그룹이 구성되어 있음을 알 수 있다. 보다 상세하게는, 그들 Adaptation Set에 대응하는 BV 스트림으로 1개의 BV 그룹이 구성되어 있다.
이 예에서는, 화살표 W12로 나타내는 Adaptation Set나, 화살표 W13으로 나타내는 Adaptation Set, 화살표 W14로 나타내는 Adaptation Set를 포함하는 5개의 Adaptation Set가 1개의 BV 그룹을 구성하는 BV 스트림의 Adaptation Set로 되어 있다.
예를 들어 화살표 W14로 나타나는, id가 mesh인 Adaptation Set는, 도 3의 메쉬 MS11의 BV 스트림에 관한 정보가 기술된 Adaptation Set로 되어 있다.
또한, 화살표 W12로 나타나는, id가 tex1인 Adaptation Set는, 도 3의 텍스처 TX11의 BV 스트림에 관한 정보가 기술된 Adaptation Set로 되어 있다.
마찬가지로, id가 tex2 내지 tex4인 Adaptation Set의 각각은, 도 3의 텍스처 TX12 내지 텍스처 TX14의 BV 스트림에 관한 정보가 기술된 Adaptation Set의 각각으로 되어 있다.
이와 같이 MPD 파일의 Preselection에는, 그 Preselection에 대응하는 1개의 BV 그룹을 구성하는 텍스처나 메쉬에 관한 정보가 포함되어 있는 Adaptation Set를 나타내는, 그들 Adaptation Set의 id가 포함되어 있다.
Preselection은, BV 그룹에 속하는 BV 스트림, 즉 동일한 3D 모델을 구성하기 위한 복수의 BV 스트림을 나타내는 그룹 정보로 되어 있다.
따라서, 도 4의 예에서는, DASH 클라이언트는 Preselection을 참조함으로써, 도 3에 도시한 바와 같이 1개의 메쉬 MS11과, 4개의 텍스처 TX11 내지 텍스처 TX14로 1개의 BV 그룹이 구성되어 있음을 특정할 수 있다.
또한, DASH 클라이언트는 Preselection과, 각 Adaptation Set의 id를 참조함으로써, BV 그룹을 구성하는 메쉬 MS11이나 텍스처 TX11 등에 관한 정보가 기술된 Adaptation Set를 특정할 수 있다.
이상으로부터, 클라이언트는 BV 콘텐츠를 취득할 때 「schemeIdUri="urn:mpeg:dash:birdview:2017"」로 되어 있는 Property를 갖는 Preselection 요소의 preselectionComponents 속성을 참조함으로써, BV 콘텐츠의 표시(재생)에 필요한 Adaptation Set를 용이하게 선택하여 취득할 수 있다.
또한, 텍스처나 메쉬의 각 Adaptation Set에 대하여, 전송로의 대역폭에 따라 각각 화질의 변경이 가능하게 된다. 예를 들어 대역폭에 여유가 있을 때에는, 보다 고화질의 텍스처나 메쉬의 BV 스트림을 취득함으로써, BV 콘텐츠를 고화질화할 수 있다.
즉, Adaptation Set에는, 복수의 Representation이 포함되어 있다. 그리고, 그들 복수의 Representation의 각각에는, 동일한 텍스처나 메쉬이지만, 복수의 다른 비트 레이트, 즉 복수의 다른 화질의 텍스처나 메쉬에 관한 BV 스트림의 각각에 관한 정보가 기술되어 있다.
따라서, 클라이언트는 1개의 Adaptation Set에 포함되는 복수의 Representation 중에서, 전송로의 대역폭 등에 따라 1개의 Representation을 선택하고, 그 선택한 Representation에 대응하는 BV 스트림을 취득함으로써, 임의의 화질의 BV 스트림을 얻을 수 있다.
또한 도 4에 도시하는 예에서는, 「schemeIdUri="urn:mpeg:dash:bvcoverage:2017"」로 된 schemeIdUri의 EssentialProperty 또는 SupplementalProperty가, 버드뷰 커버리지 디스크립터(birdview coverage descriptor)로서 새롭게 정의되어 있다.
이 birdview coverage descriptor는, Preselection이나 Adaptation Set에 기술되어 있는 정보, 즉 BV 콘텐츠나 텍스처, 메쉬 등의 표시 가능 영역을 나타내는 표시 가능 영역 정보이다. 도 4에서는, 화살표 A15 내지 화살표 A18의 각각에 의해 나타나는 SupplementalProperty의 각각이 birdview coverage descriptor로 되어 있다.
예를 들어 birdview coverage descriptor에서는, 3D 모델의 중심에서 본 구면 상 영역으로서 표시 가능 영역이 시그널된다.
여기서, 예를 들어 1개의 텍스처에 대한 표시 가능 영역의 예를 도 5에 도시한다. 또한, 도 5에 있어서 도 3에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 5에 도시하는 예에서는, 3D 모델의 중심 위치를 중심으로 하는 구(球) SP11의 표면의 영역이 구면 상 영역으로 되어 있다. 여기서는, 구 SP11의 중심 위치를 중심 O라고 기재하기로 한다.
이제, 공간 상에 3D 모델에 대한 텍스처 TX12를 배치한 것으로 하자. 여기서, 텍스처 TX12의 배치 위치는, 예를 들어 그 텍스처 TX12의 시점 위치에서 보았을 때, 텍스처 TX12 상의 3D 모델에 대응하는 피사체와, 중심 O에 배치되는 실제의 3D 모델이 겹치는 위치로 된다.
이때, 중심 O 및 텍스처 TX12의 끝 부분을 통과하는 직선과, 구 SP11이 교차하는 점을 포함하는 선을 경계로 하는 영역이, 텍스처 TX12의 표시 가능 영역 VR11로 된다. 따라서, 중심 O와, 텍스처 TX12의 임의의 끝 부분의 위치를 통과하는 직선은, 반드시 표시 가능 영역 VR11의 끝 부분을 통과하게 된다.
이러한 표시 가능 영역 VR11은, 공간 상에 배치된 텍스처 TX12를 구 SP11의 구면 상 영역에 투영하였을 때의 영역이며, 텍스처 TX12에 의해 피사체의 화상을 표시 가능한 영역으로 되어 있다.
이상과 같은 구면 상 영역에 있어서의 표시 가능 영역은, 예를 들어 도 6의 화살표 E11로 나타내는 바와 같이 구 SP11의 중심 O와, 그 중심 O와 중심이 일치하는 구 SP11 상의 4개의 원으로 둘러싸인 영역으로 된다. 여기서, 도 6에 있어서 도 5에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 6의 화살표 E12로 나타내는 부분에는, 도 5에 도시한 표시 가능 영역 VR11이 나타나 있다. 여기서는, 중심 O가 3D 모델의 중심 위치로 되어 있고, 중심 O'가 표시 가능 영역 VR11의 중심 위치로 되어 있다.
도 4의 설명으로 되돌아가서, birdview coverage descriptor로 된 Property의 value에는, 그 Property가 포함되는 Preselection이나 Adaptation Set에 대응하는 BV 콘텐츠나 텍스처, 메쉬 등의 표시 가능 영역을 나타내는 좌표 정보나 각도 정보가 포함되어 있다.
여기서는, 예를 들어 도 7에 도시하는 각 파라미터가 birdview coverage descriptor로 되어 있는 Property의 value에 기술되어 있다. 즉, 표시 가능 영역 정보의 시맨틱스는 도 7에 도시하는 바와 같다.
구체적으로는, 파라미터 「x」는, 공간 상에 있어서의 3D 모델의 중심 위치의 x 좌표를 나타내고 있다. 또한, 여기서는 3D 모델의 중심 위치는, x 좌표, y 좌표 및 z 좌표를 포함하는 3차원 직교 좌표계의 좌표에 의해 표현되는 것으로 한다.
또한, 파라미터 「y」는, 공간 상에 있어서의 3D 모델의 중심 위치의 y 좌표를 나타내고 있고, 파라미터 「z」는, 공간 상에 있어서의 3D 모델의 중심 위치의 z 좌표를 나타내고 있다.
이들 파라미터 x, y 및 z에 의해 정해지는 3D 모델의 중심 위치가, 도 6에 도시한 중심 O의 위치로 된다. 3D 모델의 중심 위치의 좌표는, 복수의 BV 콘텐츠가 존재할 때에는, 그들 BV 콘텐츠의 위치 관계를 결정하는 데 있어서 유용하다.
파라미터 「center_yaw」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 요각(yaw각)을 나타내고 있다. 또한, 파라미터 「center_pitch」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 피치각(pitch각)을 나타내고 있고, 파라미터 「center_roll」은, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치의 롤각(roll각)을 나타내고 있다.
이들 요각, 피치각 및 롤각에 의해, 구면 상 영역에 있어서의 표시 가능 영역의 중심 위치와, 그 표시 가능 영역의 방향(회전 각도)이 정해진다.
즉, 예를 들어 요각과 피치각에 의해 도 6에 도시한 중심 O'의 위치가 정해지고, 롤각에 의해 도 6에 도시한 표시 가능 영역 VR11의 회전 각도가 정해진다. 여기서 말하는 회전 각도란, 도 6의 중심 O와 중심 O'를 연결하는 직선을 회전축으로 하여 표시 가능 영역 VR11을 회전시켰을 때의 회전 각도이다.
또한, 파라미터 「hor_range」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 수평 방향 각도 레인지를 나타내고 있고, 파라미터 「ver_range」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 수직 방향 각도 레인지를 나타내고 있다.
따라서, 이들 hor_range와 ver_range로부터, 구면 상 영역에 있어서의 표시 가능 영역의 수평 방향의 폭과 수직 방향의 폭(높이)이 정해진다. 예를 들어 도 6의 예에서는, 점선으로 그려진 도 6 중, 횡방향의 화살표가의 hor_range로부터 정해지는 표시 가능 영역 VR11의 수평 방향의 폭을 나타내고 있고, 점선으로 그려진 도 6 중, 종방향의 화살표가의 ver_range로부터 정해지는 표시 가능 영역 VR11의 수직 방향의 폭을 나타내고 있다.
birdview coverage descriptor로 된 Property의 value에는 표시 가능 영역을 나타내는 정보로서, 상술한 파라미터인 x, y, z, center_yaw, center_pitch, center_roll, hor_range 및 ver_range가 콤마 구획으로 기술되어 있다. 즉, 「value="x,y,z,center_yaw,center_pitch,center_roll,hor_range,ver_range"」로 된다.
예를 들어 도 4의 예에서는, Preselection 요소로 시그널되는 화살표 A15로 나타내는 SupplementalProperty가 birdview coverage descriptor로 되어 있고, 그 value의 부분이 「0,0,0,0,0,0,360,120」으로 되어 있다.
이 value의 「0,0,0,0,0,0,360,120」의 부분이 BV 콘텐츠 자체의 표시 가능한 영역인 표시 가능 영역을 나타내는 정보로 되어 있다.
여기서는, 「0,0,0,0,0,0,360,120」으로부터, BV 콘텐츠의 3D 모델의 중심 위치의 좌표가 (0,0,0)이며, 그 표시 가능 영역의 중심 위치 및 방향이, 요각 「0도」, 피치각 「0도」 및 롤각 「0도」에 의해 정해지는 위치 및 방향임을 알 수 있다. 또한, 그 3D 모델의 표시 가능 영역의 범위는, 구면 상 영역에 있어서의 수평 방향에 360도이고 수직 방향에 120도인 범위로 되어 있음을 알 수 있다.
이 경우, BV 콘텐츠의 표시 가능 영역은, 구면 상 영역 전체, 즉 수직 방향과 수평 방향의 전방위(전체 주위)를 커버하고 있지 않다. 그러나, 그러한 경우에 있어서도, 텍스처가 부족한 부분, 즉 텍스처가 없는 표시 가능 영역 외의 부분에 대해서는, 클라이언트가 실장 의존으로 보완 처리를 행하여, 360도의 전체 주위로부터 둘러보기 가능한 BV 콘텐츠 표시를 행하도록 해도 된다.
또한, 예를 들어 도 4의 화살표 A16으로 나타내는 SupplementalProperty에서는 value의 부분이 「0,0,0,-90,0,0,90,120」으로 되어 있다. 이 점에서, 그 SupplementalProperty에 대응하는 텍스처의 표시 가능 영역의 범위는, 3D 모델의 중심 위치의 좌표 (0,0,0)으로부터 보아, 요각 「-90도」 및 피치각 「0도」에 의해 정해지는 위치를 중심으로 한, 수평 방향에 90도이고 수직 방향에 120도인 범위로 되어 있음을 알 수 있다. 또한, 표시 가능 영역의 회전 각도(롤각)는 0도로 되어 있음도 알 수 있다.
이와 같이, birdview coverage descriptor를 시그널함으로써, 클라이언트측에서는 BV 콘텐츠 자체나 BV 스트림의 표시 가능 영역을 파악할 수 있다.
이에 의해, 클라이언트는, 예를 들어 복수의 다른 표시 가능 영역의 BV 콘텐츠로부터 적절한 BV 콘텐츠를 선택하거나, 유저의 시점 위치에 따라 복수의 텍스처로부터 유저의 시야를 커버하는 텍스처만을 선택하거나 할 수 있게 된다.
또한, birdview coverage descriptor를 시그널함으로써, 클라이언트측에서는, 예를 들어 취득하는 텍스처 중 유저의 시야에 상당하는 영역을 커버하는 텍스처만, 보다 고화질의 것을 선택할 수 있다. 이에 의해, 유저의 시야에 적응한 BV 콘텐츠의 고화질화가 가능하게 된다.
또한, 여기서는 Property의 value의 부분에 표시 가능 영역을 나타내는 각 파라미터를 콤마 구획으로 기술하는 예에 대하여 설명하였지만, 각각의 파라미터별로 개별적인 속성값으로 시그널해도 된다. 이 경우, 각 파라미터가 value로 기술되는 것이 아니라, 1개의 엘리먼트 내에 x=0, y=0 등으로 기술된다.
또한, 도 7에 도시한 예에서는, 3D 모델의 중심 위치에서 보았을 때의 각 파라미터에 의해 표시 가능 영역이 표현되는 경우에 대하여 설명하였다. 그러나, 3D 모델의 외측에서 보았을 때의 각 파라미터에 의해 표시 가능 영역을 표현하고, 그들 파라미터를 시그널하도록 해도 된다. 그러한 경우, 예를 들어 표시 가능 영역 정보의 시맨틱스는 도 8에 도시하는 바와 같이 된다.
구체적으로는, 파라미터 「x」는, 공간 상에 있어서의 유저의 기준으로 되는 시점 위치의 x 좌표를 나타내고 있다. 여기서, 유저의 기준으로 되는 시점 위치는, 미리 정해진 위치로 된다.
또한, 파라미터 「y」는, 공간 상에 있어서의 유저의 기준으로 되는 시점 위치의 y 좌표를 나타내고 있고, 파라미터 「z」는, 공간 상에 있어서의 유저의 기준으로 되는 시점 위치의 z 좌표를 나타내고 있다.
파라미터 「center_yaw」는, 유저의 기준으로 되는 시점 위치에서 3D 모델을 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 요각(yaw각)을 나타내고 있다. 또한, 파라미터 「center_pitch」는, 유저의 기준으로 되는 시점 위치에서 3D 모델을 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 피치각(pitch각)을 나타내고 있고, 파라미터 「center_roll」은, 유저의 기준으로 되는 시점 위치에서 3D 모델을 보았을 때의 표시 가능 영역의 중심 위치의 롤각(roll각), 즉 표시 가능 영역의 회전 각도를 나타내고 있다.
또한, 파라미터 「hor_range」는, 유저의 기준으로 되는 시점 위치에서 3D 모델을 보았을 때의 표시 가능 영역의 수평 방향 각도 레인지를 나타내고 있고, 파라미터 「ver_range」는, 유저의 기준으로 되는 시점 위치에서 3D 모델을 보았을 때의 표시 가능 영역의 수직 방향 각도 레인지를 나타내고 있다.
<파일 생성 장치의 구성예>
이어서, 이상에 있어서 설명한 MPD 파일과, 그 MPD 파일에 대응하는 세그먼트 파일을 생성하는 파일 생성 장치에 대하여 설명한다.
MPD 파일 및 세그먼트 파일을 생성하는 파일 생성 장치는, 예를 들어 도 9에 도시하는 바와 같이 구성된다.
도 9에 도시하는 파일 생성 장치(11)는, 제어부(21) 및 파일 생성부(22)를 갖고 있다. 이 파일 생성 장치(11)는, MPEG-DASH 등에 의해 배신되는 BV 콘텐츠의 BV 스트림의 세그먼트 파일과 MPD 파일을 생성하여 서버에 업로드한다.
제어부(21)는, 파일 생성 장치(11) 전체의 동작을 제어한다. 예를 들어 제어부(21)는, 파일 생성부(22)를 제어하여, BV 스트림이 저장된 세그먼트 파일이나, BV 콘텐츠의 메타데이터가 포함되는 MPD 파일을 생성시키거나, 그들 세그먼트 파일이나 MPD 파일을 업로드시키거나 한다.
파일 생성부(22)는, 제어부(21)의 제어에 따라 세그먼트 파일이나 MPD 파일을 생성함과 함께, 그들 세그먼트 파일이나 MPD 파일을 네트워크를 통하여 서버에 업로드(송신)한다.
파일 생성부(22)는, 데이터 입력부(31), 데이터 부호화ㆍ생성부(32), MPD 파일 생성부(33), 기록부(34) 및 업로드부(35)를 갖고 있다.
데이터 입력부(31)는, 텍스처나 메쉬의 생성에 필요한 화상 등의 데이터, 표시 가능 영역 정보 등의 MPD 파일의 생성에 필요한 메타데이터를 취득하여 데이터 부호화ㆍ생성부(32) 및 MPD 파일 생성부(33)에 공급한다.
데이터 부호화ㆍ생성부(32)는, 데이터 입력부(31)로부터 공급된 화상 등의 데이터에 기초하여, 텍스처나 메쉬의 BV 스트림을 생성함과 함께, 그들 BV 스트림이 저장된 세그먼트 파일을 생성하고, 기록부(34)에 공급한다.
데이터 부호화ㆍ생성부(32)는, 전처리부(41), 부호화부(42) 및 세그먼트 파일 생성부(43)를 갖고 있다.
전처리부(41)는, 데이터 입력부(31)로부터 공급된 화상 등의 데이터에 기초하여, 텍스처나 메쉬의 BV 스트림을 생성하고, 부호화부(42)에 공급한다. 부호화부(42)는, 전처리부(41)로부터 공급된 BV 스트림을 부호화하고, 얻어진 부호화 데이터를 세그먼트 파일 생성부(43)에 공급한다.
세그먼트 파일 생성부(43)는, 데이터 입력부(31)로부터 공급된 메타데이터 등에 기초하여, 부호화부(42)로부터 공급된 부호화 데이터를 세그먼트 단위로 파일화하고, 그 결과 얻어진 세그먼트 파일을 기록부(34)에 공급한다.
MPD 파일 생성부(33)는, 데이터 입력부(31)로부터 공급된 메타데이터 등에 기초하여, BV 콘텐츠나, 그 BV 콘텐츠를 구성하는 텍스처나 메쉬의 BV 스트림에 관한 정보가 포함되는 MPD 파일을 생성하고, 기록부(34)에 공급한다. 또한, MPD 파일 생성부(33)는, MPD 파일의 생성에 필요한 메타데이터 등을 세그먼트 파일 생성부(43)로부터 취득하도록 해도 된다.
기록부(34)는, MPD 파일 생성부(33)로부터 공급된 MPD 파일, 및 세그먼트 파일 생성부(43)로부터 공급된 세그먼트 파일을 기록한다.
업로드부(35)는, 기록부(34)로부터 BV 콘텐츠의 MPD 파일 및 세그먼트 파일을 판독하여 서버에 업로드한다. 즉, 업로드부(35)는 MPD 파일 및 세그먼트 파일을 서버에 송신하는 통신부로서 기능한다.
또한, 여기서는 파일 생성 장치(11)가, MPD 파일 및 세그먼트 파일을 서버에 업로드하는 장치로서 기능하는 예에 대하여 설명하지만, 파일 생성 장치(11)가 서버로서 기능해도 된다. 그러한 경우, 파일 생성 장치(11)의 업로드부(35)는, 네트워크를 통하여 MPD 파일 및 세그먼트 파일을 클라이언트 장치에 송신한다.
<업로드 처리의 설명>
이어서, 파일 생성 장치(11)의 동작에 대하여 설명한다. 즉, 이하, 도 10의 흐름도를 참조하여, 파일 생성 장치(11)에 의한 업로드 처리에 대하여 설명한다.
스텝 S11에 있어서, 데이터 입력부(31)는, BV 스트림의 생성에 필요한 화상 등의 데이터와, 표시 가능 영역 정보 등의 MPD 파일의 생성에 필요한 메타데이터를 취득하여 데이터 부호화ㆍ생성부(32) 및 MPD 파일 생성부(33)에 공급한다.
스텝 S12에 있어서, 데이터 부호화ㆍ생성부(32)는 세그먼트 파일을 생성한다.
즉, 전처리부(41)는, 데이터 입력부(31)로부터 공급된 화상 등의 데이터에 기초하여 텍스처나 메쉬의 BV 스트림을 생성하고, 부호화부(42)에 공급한다. 부호화부(42)는, 전처리부(41)로부터 공급된 BV 스트림을 부호화하고, 얻어진 부호화 데이터를 세그먼트 파일 생성부(43)에 공급한다.
세그먼트 파일 생성부(43)는, 데이터 입력부(31)로부터 공급된 메타데이터 등에 기초하여, 부호화부(42)로부터 공급된 부호화 데이터를 파일화하고, 그 결과 얻어진 세그먼트 파일을 기록부(34)에 공급한다.
스텝 S13에 있어서, MPD 파일 생성부(33)는, 데이터 입력부(31)로부터 공급된 메타데이터에 기초하여 MPD 파일을 생성하고, 기록부(34)에 공급한다.
여기서, MPD 파일에는 birdview descpriptor나 texture descriptor, mesh descriptor, BV 그룹을 구성하는 BV 스트림에 관한 Adaptation Set의 id, birdview coverage descriptor 등이 포함되어 있다. 구체적으로는, 예를 들어 도 4에 도시한 MPD 파일이 생성된다.
스텝 S14에 있어서, 기록부(34)는, MPD 파일 생성부(33)로부터 공급된 MPD 파일, 및 세그먼트 파일 생성부(43)로부터 공급된 세그먼트 파일을 기록한다.
스텝 S15에 있어서, 업로드부(35)는, 임의의 타이밍에 기록부(34)로부터 MPD 파일 및 세그먼트 파일을 판독하여 서버에 업로드하고, 업로드 처리는 종료된다.
또한, MPD 파일 및 세그먼트 파일의 업로드의 타이밍은, 그들 MPD 파일 및 세그먼트 파일이 기록부(34)에 기록된 후라면, 어떠한 타이밍이어도 된다.
이상과 같이 하여 파일 생성 장치(11)는, MPD 파일 및 세그먼트 파일을 생성하고, 업로드한다.
특히, 파일 생성 장치(11)에서는, Preselection에 BV 그룹을 구성하는 Adaptation Set의 id가 포함되어 있는 MPD 파일이 생성된다.
이에 의해, MPD 파일의 공급을 받은 클라이언트는, 간단하게 BV 그룹을 구성하는 BV 스트림의 Adaptation Set를 특정할 수 있다. 즉, 간단하게 BV 콘텐츠의 재생에 필요한 BV 스트림의 조합을 특정할 수 있다.
그 결과, BV 콘텐츠가 MPEG-DASH 배신되는 경우라도, 클라이언트에 있어서, BV 콘텐츠의 재생에 필요한 BV 스트림을 취득하여, BV 콘텐츠를 적절하게 재생할 수 있게 된다.
<클라이언트 장치의 구성예>
이어서, 파일 생성 장치(11)에 의해 업로드된 MPD 파일이나 세그먼트 파일을 서버로부터 취득하여 BV 콘텐츠의 재생을 행하는 클라이언트 장치에 대하여 설명한다. 본 기술을 적용한 클라이언트 장치는, 예를 들어 도 11에 도시하는 바와 같이 구성된다.
도 11에 도시하는 클라이언트 장치(71)는 DASH 클라이언트이며, 제어부(81) 및 재생 처리부(82)를 갖고 있다.
제어부(81)는, 클라이언트 장치(71) 전체의 동작을 제어한다. 예를 들어 제어부(81)는, 재생 처리부(82)를 제어하여, 서버로부터 MPD 파일이나 세그먼트 파일을 취득시킴과 함께, 세그먼트 파일에 기초하여 BV 콘텐츠를 재생시킨다.
재생 처리부(82)는 제어부(81)의 제어에 따라 BV 콘텐츠를 재생한다. 재생 처리부(82)는 계측부(91), MPD 파일 취득부(92), MPD 파일 처리부(93), 세그먼트 파일 취득부(94), 표시 제어부(95), 데이터 해석ㆍ복호부(96) 및 표시부(97)를 갖고 있다.
계측부(91)는, 클라이언트 장치(71)와 서버의 사이의 네트워크의 전송 대역을 계측하고, 그 계측 결과를 MPD 파일 처리부(93)에 공급한다. MPD 파일 취득부(92)는, 서버로부터 MPD 파일을 취득하여 MPD 파일 처리부(93)에 공급한다.
MPD 파일 처리부(93)는, MPD 파일 취득부(92)로부터 공급된 MPD 파일에 기초하여, 취득할 BV 스트림을 선택하고, 그 선택 결과를 세그먼트 파일 취득부(94)에 공급한다. 또한, 취득할 BV 스트림의 선택 시에는, 계측부(91)로부터 공급된 계측 결과나, 표시 제어부(95)로부터 공급된 유저의 시점 위치 등도 적절하게 이용된다.
세그먼트 파일 취득부(94)는, MPD 파일 처리부(93)로부터 공급된 선택 결과에 기초하여, BV 콘텐츠의 재생에 필요한 BV 스트림이 저장된 세그먼트 파일을 서버로부터 취득하고, 데이터 해석ㆍ복호부(96)에 공급한다.
표시 제어부(95)는, BV 콘텐츠의 재생(표시)을 제어한다. 예를 들어 표시 제어부(95)는, BV 콘텐츠를 시청하는 유저의 시점 위치나 시선 방향의 검출 결과를 취득하고, MPD 파일 처리부(93) 및 데이터 해석ㆍ복호부(96)에 공급한다.
데이터 해석ㆍ복호부(96)는, 세그먼트 파일 취득부(94)로부터 공급된 세그먼트 파일에 기초하여, BV 콘텐츠인 3D 모델의 화상을 생성하고, 표시부(97)에 공급한다. 데이터 해석ㆍ복호부(96)는 세그먼트 파일 처리부(111), 복호부(112) 및 표시 정보 생성부(113)를 갖고 있다.
세그먼트 파일 처리부(111)는, 세그먼트 파일 취득부(94)로부터 공급된 세그먼트 파일로부터 BV 스트림의 부호화 데이터를 추출하고, 복호부(112)에 공급한다. 복호부(112)는, 세그먼트 파일 처리부(111)로부터 공급된 부호화 데이터를 복호하고, 그 결과 얻어진 BV 스트림을 표시 정보 생성부(113)에 공급한다.
표시 정보 생성부(113)는, 표시 제어부(95)로부터 공급된 유저의 시점 위치나 시선 방향의 검출 결과와, 복호부(112)로부터 공급된 BV 스트림에 기초하여, 유저의 시점 위치 및 시선 방향에 따른 3D 모델의 화상 데이터를 생성하고, 표시부(97)에 공급한다.
표시부(97)는, 예를 들어 액정 표시 패널 등을 포함하고, 표시 정보 생성부(113)로부터 공급된 데이터에 기초하여 3D 모델의 화상, 즉 BV 콘텐츠를 표시(재생)한다.
<BV 콘텐츠 재생 처리의 설명>
이어서, 클라이언트 장치(71)의 동작에 대하여 설명한다.
즉, 이하, 도 12의 흐름도를 참조하여, 클라이언트 장치(71)에 의해 행해지는, BV 콘텐츠 재생 처리에 대하여 설명한다.
스텝 S41에 있어서, MPD 파일 취득부(92)는, 서버로부터 MPD 파일을 취득하여 MPD 파일 처리부(93)에 공급한다. 즉, 서버에 의해 송신된 MPD 파일이 MPD 파일 취득부(92)에 의해 수신된다. 이에 의해, 예를 들어 도 4에 도시한 MPD 파일이 취득된다.
스텝 S42에 있어서, MPD 파일 처리부(93)는, 표시 제어부(95)로부터 유저의 시점 위치를 취득한다.
예를 들어 표시 제어부(95)는, 도시하지 않은 센서 등으로부터, 유저의 시점 위치 및 시선 방향의 검출 결과를 취득하고, MPD 파일 처리부(93) 및 표시 정보 생성부(113)에 공급한다. MPD 파일 처리부(93)는, 이와 같이 하여 표시 제어부(95)로부터 출력된 정보를 취득함으로써, 유저의 시점 위치를 얻는다. 예를 들어 유저의 시점 위치는, 3D 모델이 배치되는 3차원 공간 상에 있어서의 유저의 시점 위치의 좌표 정보 등으로 된다.
스텝 S43에 있어서, 계측부(91)는 클라이언트 장치(71)와 서버 사이의 전송 대역을 계측하고, 그 계측 결과를 MPD 파일 처리부(93)에 공급한다.
스텝 S44에 있어서, MPD 파일 처리부(93)는, 스텝 S41에 있어서 취득되고, MPD 파일 취득부(92)로부터 공급된 MPD 파일에 기초하여, BV 그룹을 식별하고, 1개 또는 복수의 BV 그룹 중에서 1개의 BV 그룹을 선택한다.
즉, MPD 파일 처리부(93)는, MPD 파일로부터 birdview descpriptor가 시그널되어 있는 Preselection 요소, 즉 birdview descpriptor가 포함되어 있는 Preselection 요소를 특정함으로써, 그 Preselection 요소가 1개의 BV 그룹의 것이라고 식별한다.
또한, MPD 파일 처리부(93)는, 식별된 1개 또는 복수의 BV 그룹 중에서 1개의 BV 그룹을 재생 대상의 BV 그룹으로서 선택한다.
이때, 예를 들어 MPD 파일 처리부(93)는, Preselection에 포함되어 있는 birdview coverage descriptor를 참조하여, 표시 제어부(95)로부터 공급된 유저의 시점 위치에 기초하여, 유저의 시야에 상당하는 영역을 표시 가능한 BV 그룹을 선택해도 된다.
스텝 S45에 있어서, MPD 파일 처리부(93)는, 스텝 S44에서 선택한 BV 그룹을 구성할 BV 스트림의 Adaptation Set를 식별한다.
즉, MPD 파일 처리부(93)는, 선택한 BV 그룹의 Preselection 요소에 있어서, preselectionComponents 속성에 기술된 Adaptation Set의 id에 의해 시그널되어 있는, BV 스트림을 참조할 Adaptation Set를, BV 그룹을 구성하는 BV 스트림의 Adaptation Set로서 식별한다. 이때, BV 그룹의 각 Adaptation Set의 종류, 즉 텍스처의 Adaptation Set인지, 메쉬의 Adaptation Set인지 등은, 그들 Adaptation Set로 시그널되어 있는 texture descriptor나 mesh descriptor에 의해 식별 가능하다.
스텝 S46에 있어서, MPD 파일 처리부(93)는, 스텝 S45에서 식별된 BV 그룹의 Adaptation Set에 대하여, BV 콘텐츠의 재생에 사용할 BV 스트림의 Adaptation Set 및 Representation을 선택한다.
즉, MPD 파일 처리부(93)는, 스텝 S42에서 얻어진 유저의 시점 위치나, 스텝 S43에서 얻어진 전송 대역(대역폭)에 기초하여, 스텝 S45에서 식별된 BV 그룹의 Adaptation Set 중에서, 취득할 BV 스트림의 Adaptation Set를 선택한다.
이때, 예를 들어 MPD 파일 처리부(93)는 전송 대역을 고려하여, BV 그룹의 모든 Adaptation Set의 BV 스트림을 취득 가능하면, 그들 모든 Adaptation Set를 선택하고, 각 Adaptation Set에 대하여 적절한 비트 레이트의 Representation을 선택한다.
또한, MPD 파일 처리부(93)가 birdview coverage descriptor를 참조하여, 유저의 시점 위치에 기초하여, 유저의 시야 영역에 상당하는 BV 스트림에 대해서는, 보다 고화질(고 비트 레이트)의 BV 스트림이 선택되도록 Representation을 선택해도 된다.
또한, 전송 대역의 제한으로부터 BV 그룹의 BV 스트림을 전부 취득할 수 없는 경우도 있다. 그러한 경우에는, MPD 파일 처리부(93)가 birdview coverage descriptor를 참조하여, 유저의 시야 영역만의 BV 콘텐츠 표시를 행하기 위해 필요한 최저한의 BV 스트림의 Adaptation Set만이 선택 및 취득되도록 해도 된다.
MPD 파일 처리부(93)는, BV 그룹의 Adaptation Set 및 Representation을 선택하면, 그 선택 결과를 세그먼트 파일 취득부(94)에 공급하고, 세그먼트 파일의 취득을 지시한다. 이에 의해, Adaptation Set 및 Representation에 의해 참조되는 BV 스트림의 취득이 지시되게 된다.
스텝 S47에 있어서, 세그먼트 파일 취득부(94)는, MPD 파일 처리부(93)로부터 공급된 선택 결과에 기초하여, 그 선택 결과에 의해 나타나는 Adaptation Set 및 Representation의 BV 스트림이 저장된 세그먼트 파일을 취득한다.
즉, 세그먼트 파일 취득부(94)는, MPD 파일 처리부(93)로부터 공급된 선택 결과에 따라, 세그먼트 파일의 송신을 서버에 요구한다. 그리고, 세그먼트 파일 취득부(94)는, 그 요구에 따라 서버로부터 송신되어 온 세그먼트 파일을 수신하여 세그먼트 파일 처리부(111)에 공급한다.
스텝 S48에 있어서, 세그먼트 파일 처리부(111)는, 세그먼트 파일 취득부(94)로부터 공급된 세그먼트 파일로부터 BV 스트림의 부호화 데이터를 추출하고, 복호부(112)에 공급한다.
스텝 S49에 있어서, 복호부(112)는, 세그먼트 파일 처리부(111)로부터 공급된 부호화 데이터를 복호하고, 그 결과 얻어진 텍스처나 메쉬의 BV 스트림을 표시 정보 생성부(113)에 공급한다.
스텝 S50에 있어서, 표시부(97)는 BV 콘텐츠를 재생하고, BV 콘텐츠 재생 처리는 종료한다.
즉, 표시 정보 생성부(113)는, 표시 제어부(95)로부터 공급된 유저의 시점 위치나 시선 방향의 검출 결과와, 복호부(112)로부터 공급된 BV 스트림에 기초하여, 유저의 시점 위치 및 시선 방향에 따른 3D 모델의 화상을 생성한다. 구체적으로는, 표시 정보 생성부(113)는 텍스처와 메쉬에 기초하여 3D 모델을 구축함으로써, 유저의 시야에 따른 3D 모델의 화상을 생성한다.
그리고, 표시 정보 생성부(113)는, 생성된 3D 모델의 화상을 표시부(97)에 공급하고, 3D 모델의 화상을 표시시킴으로써, BV 콘텐츠를 재생시킨다.
이상과 같이 하여, 클라이언트 장치(71)는 MPD 파일을 취득하고, MPD 파일의 Preselection을 참조하여 BV 그룹을 식별함과 함께, 유저의 시점 위치나 전송 대역에 따라 BV 그룹이나, 그 BV 그룹을 구성할 임의의 BV 스트림을 선택한다.
이와 같이 BV 그룹을 구성하는 Adaptation Set의 id가 포함되어 있는 Preselection이 기술된 MPD 파일을 사용하면, 간단하게 BV 그룹이나 BV 스트림을 선택할 수 있다. 이에 의해, BV 콘텐츠를 적절하게 재생할 수 있다.
<제1 실시 형태의 변형예 1>
<추가의 BV 스트림의 취득에 대하여>
그런데, 이상에 있어서는 BV 그룹을 구성하는 BV 스트림 중에서 필요한 것을 선택하는 예에 대하여 설명하였다.
그러나, 텍스처나 메쉬의 BV 스트림으로 구성되는 BV 그룹에 추가하여, 또한 BV 그룹에 포함되지 않는 시점 위치의 텍스처나 뎁스의 BV 스트림을 추가로 취득할 수 있도록 해도 된다. 즉, BV 그룹의 BV 스트림의 시점 위치와는 다른 시점 위치의 BV 스트림을 추가로 취득할 수 있도록 해도 된다.
BV 그룹에 더하여 추가의 BV 스트림을 취득하면, 보다 고화질의 BV 콘텐츠를 재생하는 것이 가능하게 된다.
즉, 취득 가능한 텍스처의 수를 증가시킴으로써, 표시 가능 영역 외의 영역의 텍스처를 보완에 의해 생성할 필요가 없어지므로, 렌더링 시의 BV 콘텐츠의 품질을 향상시킬 수 있다. 또한, 메쉬뿐만 아니라, 또한 뎁스를 추가함으로써 3D 모델을 구축할 때 보다 고정밀도의 3D 형상을 얻는 것이 가능하게 된다.
추가로 텍스처나 뎁스의 BV 스트림을 취득 가능하게 하는 경우, 예를 들어 도 13에 도시하는 예가 고려된다.
도 13의 예에서는, 도면 중, 좌측에 도시하는 바와 같이, 공간 상의 3D 모델의 위치에, 그 3D 모델의 메쉬 MS21이 있고, 3D 모델의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난 4개의 텍스처 TX21 내지 텍스처 TX24가 있다.
그리고, 메쉬 MS21과, 텍스처 TX21 내지 텍스처 TX24로 1개의 BV 그룹이 구성되어 있다.
또한, 이 BV 그룹의 BV 스트림에 추가하여, 도면 중, 중앙에 도시하는 바와 같이 3D 모델의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난, 텍스처 TX21 내지 텍스처 TX24와는 다른 시점 위치의 4개의 텍스처 HTX21 내지 텍스처 HTX24가 있다. 또한, 그들 텍스처 HTX21 내지 텍스처 HTX24의 각각과 동일한 시점 위치에, 뎁스 HDP21 내지 뎁스 HDP24의 각각이 있다.
클라이언트측에서는, 이들 텍스처 HTX21 내지 텍스처 HTX24의 BV 스트림이나, 뎁스 HDP21 내지 뎁스 HDP24의 BV 스트림을 추가로 취득하는 것이 가능하다. 이하에서는, 추가로 취득 가능한 BV 스트림을, 특히 추가 BV 스트림이라고도 칭하기로 한다.
이러한 추가로 취득 가능한 텍스처가 있다면, 예를 들어 도면 중, 우측에 도시하는 바와 같이 BV 그룹의 텍스처와는 다른 커버리지(표시 가능 영역)를 갖는 텍스처를 사용할 수 있게 되어, 보다 고화질의 BV 콘텐츠를 재생할 수 있다. 특히, 이 예에서는, 3D 모델의 주위를 둘러싸는, 보다 많은 시점 위치의 텍스처를 이용할 수 있다.
MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우에, 이상과 같은 추가 BV 스트림도 배신 가능하게 할 때에는, MPD 파일을 사용하여 추가 BV 스트림에 관한 정보의 시그널을 행하면 된다.
예를 들어 도 14에 도시하는 바와 같이, 메쉬 MS31과, 4개의 텍스처 TX31 내지 텍스처 TX34로 1개의 BV 그룹이 구성되어 있는 것으로 하자.
또한, 텍스처 TX31 내지 텍스처 TX34의 각각과는 다른 시점 위치의 추가의 텍스처 HTX31 내지 텍스처 HTX34를 추가로 취득 가능한 것으로 한다. 또한, 텍스처 HTX31 내지 텍스처 HTX34의 각각의 시점 위치와 동일한 시점 위치의 추가의 뎁스 HDP31 내지 뎁스 HDP34의 각각도 취득 가능한 것으로 한다.
또한, 도 14에서는, 도면 중, 좌측에 그려져 있는 원은, 각 BV 스트림, 즉 텍스처나 메쉬, 뎁스의 시점 위치를 나타내고 있다.
이와 같이 메쉬 MS31 및 텍스처 TX31 내지 텍스처 TX34의 각 BV 스트림에 의해 1개의 BV 그룹이 구성되고, 그 BV 그룹에 대하여 텍스처 HTX31 내지 텍스처 HTX34 및 뎁스 HDP31 내지 뎁스 HDP34의 각 BV 스트림이 추가로 취득 가능한 경우, 예를 들어 MPD 파일은 도 15 및 도 16에 도시하는 바와 같이 된다.
여기서, 도 16은, 도 15에 도시한 MPD 파일의 부분, 즉 도 15의 도면 중, 하측에 나타내는 부분에 이어지는 MPD 파일의 나머지 부분을 도시하고 있다. 도 15 및 도 16에서는, 1개의 MPD 파일이 그들 도면에 의해 도시되고 있음을 명확히 하기 위해, 도 15 중, 하측에는 문자 「도 16으로 이어짐」이 기재되어 있고, 도 16 중, 상측에는 문자 「도 15의 계속」이 기재되어 있다. 이들 문자 「도 16으로 이어짐」 및 「도 15의 계속」은, 실제로는 MPD 파일에는 기술되어 있지 않다.
또한, 도 15 및 도 16에 도시하는 MPD 파일에 있어서, 도 4에 도시한 예와 마찬가지의 부분에 대해서는, 반복으로 되므로 그 설명은 적절하게 생략한다. 또한, 여기서는 텍스처나 메쉬, 뎁스는, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다.
도 15 및 도 16에 도시하는 MPD 파일에서는, 화살표 W21로 나타내는 부분이 1개의 BV 그룹에 관한 Preselection으로 되어 있다.
또한, 화살표 W22 내지 화살표 W24의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 텍스처 또는 메쉬에 관한 Adaptation Set로 되어 있다. 그리고, 화살표 W22 내지 화살표 W24의 각각에 의해 나타나는 Adaptation Set를 포함하는, 1개의 BV 그룹을 구성하는 각 BV 스트림의 Adaptation Set의 id가 화살표 W21로 나타내는 Preselection에 기술되어 있다.
즉, 화살표 W22 내지 화살표 W24에 의해 나타나는 Adaptation Set는, 화살표 W21로 나타내는 Preselection에 있어서의 preselectionComponents의 부분에 의해 나타나는, BV 그룹을 구성하는 BV 스트림의 Adaptation Set로 되어 있다.
여기서는, tex1 내지 tex4는, 도 14의 텍스처 TX31 내지 텍스처 TX34에 관한 정보가 기술된 Adaptation Set의 id로 되어 있고, mesh는 도 14의 메쉬 MS31에 관한 정보가 기술된 Adaptation Set의 id로 되어 있다.
따라서, 화살표 W21로 나타내는 Preselection으로부터, 텍스처 TX31 내지 텍스처 TX34와 메쉬 MS31에 의해 1개의 BV 그룹이 구성되어 있음을 알 수 있다.
또한, 화살표 W25 내지 화살표 W28의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 BV 스트림에 의해 구성되는 3D 모델과 동일한 3D 모델을 구성하기 위한, BV 그룹을 구성하는 BV 스트림과는 다른, 고화질화용의 추가 BV 스트림에 관한 정보가 기술된 Adaptation Set로 되어 있다.
예를 들어 도 14에 도시한 텍스처 HTX31 내지 텍스처 HTX34에 관한 정보가 기술된 Adaptation Set의 id는 hq_tex1 내지 hq_tex4로 되어 있다. 또한, 도 14에 도시한 뎁스 HDP31 내지 뎁스 HDP34에 관한 정보가 기술된 Adaptation Set의 id는 hq_dep1 내지 hq_dep4로 되어 있다.
화살표 W25나 화살표 W26에 의해 나타나는 추가의 텍스처에 관한 Adaptation Set에는, 텍스처에 관한 Adaptation Set임을 나타내는 texture descriptor가 포함되어 있다.
또한, 이 예에서는 「schemeIdUri="urn:mpeg:dash:depth:2017"」로 된 EssentialProperty 또는 SupplementalProperty가, 뎁스에 관한 Preselection이나 Adaptation Set임을 나타내는 정보인 뎁스 디스크립터(depth descriptor)로서 새롭게 정의되어 있다.
클라이언트는, 이 depth descriptor를 참조함으로써, depth descriptor를 포함하는 Preselection이나 Adaptation Set가 참조할 BV 스트림이 뎁스임을 식별할 수 있다. 또한, depth descriptor는, Representation이나 SubRepresentation으로 시그널해도 된다.
예를 들어 화살표 W27로 나타내는 Adaptation Set의 화살표 A21로 나타내는 부분이나, 화살표 W28로 나타내는 Adaptation Set의 화살표 A22로 나타내는 부분에는, depth descriptor로 되는 「schemeIdUri="urn:mpeg:dash:depth:2017"」로 된 EssentialProperty가 마련되어 있다.
이에 의해, 클라이언트는, 화살표 W27이나 화살표 W28로 나타내는 Adaptation Set가 BV 콘텐츠를 구성하는 뎁스에 관한 Adaptation Set임을 파악할 수 있다.
또한, 이 예에서는, 화살표 W21로 나타내는 Preselection 및 화살표 W22 내지 화살표 W28로 나타내는 Adaptation Set에는, 각각 화살표 A23 내지 화살표 A30으로 나타내는 birdview coverage descriptor가 기술되어 있다.
또한, birdview coverage descriptor는, 텍스처나 메쉬와 마찬가지로 뎁스에도 적용 가능하며, 여기서는 뎁스의 Adaptation Set에도 birdview coverage descriptor가 기술되어 있다.
이들 birdview coverage descriptor는, 상술한 표시 가능 영역 정보이지만, 이 표시 가능 영역 정보에는, BV 스트림의 표시 가능 영역을 나타내는 정보 외에, 참조할 BV 스트림의 소스(소재)를 나타내는 source_id가 포함되어 있다.
바꾸어 말하면, birdview coverage descriptor에는, 표시 가능 영역 정보에 추가하여, BV 콘텐츠의 소스를 나타내는 소스 ID(source_id)가 포함되어 있다. 이 source_id는, BV 스트림을 사용하여 재생 가능한 BV 콘텐츠, 즉 BV 스트림을 사용하여 구성 가능한 3D 모델을 나타내는 정보라고 할 수 있다.
birdview coverage descriptor의 value 부분의 선두에는, source_id가 배치되고, 그 source_id에 이어서 표시 가능 영역에 관한 각 파라미터가 배치된다.
따라서, 도 15 및 도 16에 도시하는 예에 있어서의 birdview coverage descriptor는, 도 4의 예에서 도시한 birdview coverage descriptor를 확장한 것으로 되어 있다.
여기서, 도 15 및 도 16에 도시하는 예에 있어서의 birdview coverage descriptor의 시맨틱스는 도 17에 도시하는 바와 같다.
도 17에 도시하는 예에서는, 파라미터 「source_id」는, BV 콘텐츠의 소스 ID를 나타내고 있다. 따라서, source_id가 동일하면, BV 콘텐츠의 소스가 동일하기 때문에, 동일한 source_id를 갖는 BV 스트림을 조합하면 1개의 BV 콘텐츠를 구성할 수 있다.
또한, 도 17에 도시하는 예에서는, source_id 이외의 다른 파라미터, 즉 파라미터 「x」, 「y」, 「z」, 「center_yaw」, 「center_pitch」, 「center_roll」, 「hor_range」 및 「ver_range」는 도 7에 있어서의 경우와 마찬가지로 되어 있다.
도 15 및 도 16의 설명으로 되돌아가서, 도 15 및 도 16에 도시하는 예에서는 birdview coverage descriptor로 된 Property의 value에는, 상술한 파라미터인 source_id, x, y, z, center_yaw, center_pitch, center_roll, hor_range 및 ver_range가 콤마 구획으로 기술되어 있다. 즉, birdview coverage descriptor의 value 부분은, 「value="source_id,x,y,z,center_yaw,center_pitch,center_roll, hor_range,ver_range"」로 되어 있다.
특히, 이 예에서는 Adaptation Set별, 즉 BV 스트림별로 birdview coverage descriptor가 저장되어 있고, 화살표 A23 내지 화살표 A30으로 나타내는 각 birdview coverage descriptor에 있어서의 source_id는 전부 「1」로 되어 있다. 따라서, 이들 birdview coverage descriptor를 포함하는 Preselection이나 Adaptation Set는, 전부 동일한 BV 콘텐츠에 관한 것임을 특정할 수 있다. 즉, 이들 source_id 「1」을 포함하는 Adaptation Set에 대응하는 텍스처나 메쉬, 추가의 텍스처, 추가의 뎁스로부터 동일한 BV 콘텐츠를 구성할 수 있음을 알 수 있다.
이상과 같이 추가의 BV 스트림도 취득할 수 있는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S13에서는, 도 15 및 도 16에 도시한 바와 같이 MPD 파일 생성부(33)는, 추가의 텍스처나 추가의 뎁스에 대한 Adaptation Set가 포함되는 MPD 파일을 생성한다. 또한, MPD 파일 생성부(33)는, 도 15나 도 16에 도시한 바와 같이 source_id를 포함하는 birdview coverage descriptor를 생성하고, Preselection이나 Adaptation Set에 기술한다.
또한, 추가의 BV 스트림도 취득할 수 있는 경우, 클라이언트 장치(71)는, 도 12를 참조하여 설명한 BV 콘텐츠 재생 처리와 마찬가지의 처리를 행하여 BV 콘텐츠를 재생한다.
단, 스텝 S45에서는, MPD 파일 처리부(93)는 BV 그룹의 Adaptation Set나 Representation뿐만 아니라, birdview coverage descriptor의 source_id에 기초하여, BV 그룹에 대하여 추가 가능한 BV 스트림의 Adaptation Set나 Representation도 식별한다. 이 경우, 뎁스의 Adaptation Set나 Representation에 대해서는, 그들 Adaptation Set에 포함되는 depth descritptor에 의해 식별 가능하다.
또한, 스텝 S46에서는, MPD 파일 처리부(93)는 BV 그룹을 구성하는 Adaptation Set나 Representation, 및 추가의 BV 스트림의 Adaptation Set나 Representation 중에서, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
이때, MPD 파일 처리부(93)는, 유저의 시점 위치나 전송 대역, birdview coverage descriptor의 value에 포함되어 있는 source_id나 표시 가능 영역을 나타내는 정보(파라미터) 등에 기초하여, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
구체적으로는, 예를 들어 MPD 파일 처리부(93)는, 유저의 시야 영역에 상당하는 BV 스트림을 고화질화할 수 있다.
또한, MPD 파일 처리부(93)는 전송 대역에 여유가 있는 경우에는, BV 그룹을 구성하는 텍스처와는 다른 시점 위치의 추가의 텍스처의 Representation이나, 유저의 시야에 따른 고화질화용의 추가의 뎁스 Representation을 선택할 수 있다. 이에 의해, 보다 고화질의 BV 콘텐츠 재생을 행할 수 있다.
<제1 실시 형태의 변형예 2>
<BV 스트림의 quality ranking에 대하여>
그런데, 상술한 뎁스는 ISO/IEC 14496-10(MVC with depth, 3D AVC)이나 ISO/IEC 23008-2(Multiview HEVC, 3D HEVC)와 같은 AVC/HEVC 베이스의 뎁스 맵의 부호화에 의해 압축된다.
한편, 메쉬의 부호화에서는, ISO/IEC 14496-16(Animation Framework eXtension)에 의해 메쉬의 정점 좌표 및 정점의 결합 정보가 부호화된다.
이와 같이 뎁스와 메쉬에서는, 양자의 코덱(부호화 방식)이 다르기 때문에, 단순하게 뎁스와 메쉬의 BV 스트림의 비트 레이트만으로는, 뎁스나 메쉬의 BV 스트림으로 구성할 수 있는 3D 형상의 퀄러티(품질)를 비교할 수 없다.
그래서, 메쉬나 뎁스에 의해 구성되는 3D 형상의 품질을 나타내는 정보인 quality ranking을 시그널하면, 클라이언트측에 있어서, 전송 대역 등에 따라 적절한 퀄러티(품질)의 3D 형상을 구성 가능한 메쉬나 뎁스를 선택하여, 취득할 수 있다.
이하에서는, 메쉬나 뎁스의 quality ranking을 시그널하는 예에 대하여 설명한다. 또한, quality ranking은, 메쉬나 뎁스뿐만 아니라, 텍스처의 퀄러티의 시그널이나, 이들 텍스처나 메쉬 등을 조합하여 구성되는 BV 콘텐츠의 퀄러티의 시그널로도 사용 가능하다.
메쉬나 뎁스의 quality ranking을 시그널하는 경우, MPD 파일은 예를 들어 도 18 및 도 19에 도시하는 바와 같이 된다. 여기서, 도 19는, 도 18에 도시한 MPD 파일의 부분, 즉 도 18의 도면 중, 하측에 나타내는 부분에 이어지는 MPD 파일의 나머지 부분을 도시하고 있다. 도 18 및 도 19에서는, 1개의 MPD 파일이 그들 도면에 의해 도시되고 있음을 명확히 하기 위해, 도 18 중, 하측에는 문자 「도 19로 이어짐」이 기재되어 있고, 도 19 중, 상측에는 문자 「도 18의 계속」이 기재되어 있다. 이들 문자 「도 19로 이어짐」 및 「도 18의 계속」은, 실제로는 MPD 파일에는 기술되어 있지 않다.
또한, 도 18 및 도 19에 도시하는 MPD 파일에 있어서, 도 15 및 도 16에 도시한 예와 마찬가지의 부분에 대해서는, 반복으로 되므로 그 설명은 적절하게 생략한다. 또한, 여기서는 텍스처나 메쉬, 뎁스는, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다.
도 18 및 도 19에 도시하는 MPD 파일에서는, 화살표 W41 내지 화살표 W48의 각각으로 나타나는 Preselection이나 Adaptation Set는, 도 15 및 도 16의 화살표 W21 내지 화살표 W28의 각각으로 나타나는 Preselection이나 Adaptation Set와 동일하게 되어 있다.
즉, 화살표 W41로 나타내는 부분이 1개의 BV 그룹에 관한 Preselection으로 되어 있고, 화살표 W42 내지 화살표 W44의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 텍스처나 메쉬의 Adaptation Set로 되어 있다.
또한, 화살표 W45 내지 화살표 W48의 각각에 의해 나타나는 Adaptation Set는, BV 그룹과 동일한 BV 콘텐츠에 대한 추가의 텍스처나 뎁스의 Adaptation Set로 되어 있다.
또한, 이 예에서는 「schemeIdUri="urn:mpeg:dash:bvqualityranking:2017"」로 된 EssentialProperty 또는 SupplementalProperty가, BV 스트림의 퀄러티(품질)를 나타내는 정보인 퀄러티 랭킹 디스크립터(quality ranking descriptor)로서 새롭게 정의되어 있다.
이 예에서는 quality ranking descriptor는, 서로 다른 Adaptation Set에 포함되어 있는 Representation에 대응하는 메쉬나 뎁스간의 상대적인 퀄러티(quality ranking)를 나타내는 정보이다. 바꾸어 말하면, quality ranking descriptor는, 동일한 BV 콘텐츠를 재생하기 위한 복수의 BV 스트림간에 있어서의, 각 BV 스트림의 상대적인 퀄러티(품질)를 나타내는 품질 정보라고 할 수 있다. 특히, quality ranking descriptor에서는, 메쉬나 뎁스의 표시 가능 영역 내의 1개 또는 복수의 영역별로 quality ranking이 시그널된다.
예를 들어 quality ranking descriptor의 시맨틱스는 도 20에 도시하는 바와 같다.
구체적으로는, 파라미터 「id」는 quality ranking의 id를 나타내고 있고, quality ranking은 동일한 id의 quality ranking descriptor 중에서의 상대값으로 시그널된다.
파라미터 「quality_ranking」은, quality ranking의 값을 나타내고 있으며, quality_ranking의 값이 1 이상인 경우, 그 값이 작을수록 높은 퀄러티임을 나타내고 있다. 또한, quality_ranking의 값이 0인 경우, quality ranking(랭킹)은 미정의로 되어 있다.
파라미터 「remaining_area_flag」는, 파라미터 「quality_ranking」에 의해 나타나는 quality ranking의 값의 적용 범위로 되는 영역을 특정하기 위한 플래그 정보이다.
여기서는, 파라미터 「remaining_area_flag」의 값이 0이면, quality ranking descriptor에는, 추가로 파라미터 「center_yaw」, 「center_pitch」, 「center_roll」, 「hor_range」 및 「ver_range」가 포함되어 있고, 그들 파라미터에 의해 quality ranking이 시그널되는 영역 정보가 시그널된다.
바꾸어 말하면, 파라미터 「quality_ranking」에 의해 나타나는 quality ranking은, 파라미터 「center_yaw」, 「center_pitch」, 「center_roll」, 「hor_range」 및 「ver_range」에 의해 나타나는 영역에 대한 quality ranking으로 된다.
이에 비해, 파라미터 「remaining_area_flag」의 값이 1이면, 파라미터 「quality_ranking」에 의해 나타나는 quality ranking은, 동일한 Representation으로 quality ranking이 시그널되어 있지 않은 나머지 영역에 대한 quality ranking임을 나타낸다.
또한, 이하에서는, 메쉬나 뎁스의 표시 가능 영역 내에 있어서의, quality ranking의 대상으로 되는 영역을 대상 영역이라고도 칭하기로 한다. 파라미터 「remaining_area_flag」는, quality ranking이 적용되는 대상 영역을 나타내는 정보라고 할 수 있다.
파라미터 「center_yaw」는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치를 나타내는 요각(yaw각)을 나타내고 있다. 또한, 파라미터 「center_pitch」는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치를 나타내는 피치각(pitch각)을 나타내고 있고, 파라미터 「center_roll」은, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치의 롤각(roll각), 즉 대상 영역의 회전 각도를 나타내고 있다.
또한 파라미터 「hor_range」는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 수평 방향 각도 레인지를 나타내고 있고, 파라미터 「ver_range」는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 수직 방향 각도 레인지를 나타내고 있다.
이들 파라미터 「center_yaw」, 「center_pitch」, 「center_roll」, 「hor_range」 및 「ver_range」에 의해 대상 영역이 특정된다. 즉, 대상 영역은, 도 6을 참조하여 설명한 표시 가능 영역에 있어서의 경우와 마찬가지로, 예를 들어 구의 중심과, 그 중심과 중심이 일치하는 구 상의 4개의 원으로 둘러싸인 영역으로 되고, 특히 대상 영역은, 표시 가능 영역과 동일한 영역으로 되거나, 또는 표시 가능 영역의 일부의 영역으로 된다.
또한, 여기서는 3D 모델의 내측, 즉 3D 모델의 중심에서 보았을 때의 영역을 대상 영역으로 하여 시그널하고 있지만, 3D 모델의 외측, 즉 소정의 기준으로 되는 시점 위치에서 보았을 때의 영역을 대상 영역으로 하여 시그널해도 된다.
예를 들어 파라미터 「remaining_area_flag」의 값이 0인 경우, quality ranking descriptor로 된 Property의 value에는 quality ranking에 관한 정보로서, 상술한 파라미터인 id, quality_ranking, remaining_area_flag, center_yaw, center_pitch, center_roll, hor_range 및 ver_range가 콤마 구획으로 기술되어 있다.
즉, 예를 들어 quality ranking descriptor의 value는 「value= "id,quality_ranking,remaining_area_flag,center_yaw,center_pitch,center_roll,hor_range,ver_range"」 등으로 된다.
이에 비해, 파라미터 「remaining_area_flag」의 값이 1인 경우, quality ranking descriptor로 된 Property의 value에는 quality ranking에 관한 정보로서, 상술한 파라미터인 id, quality_ranking 및 remaining_area_flag가 콤마 구획으로 기술되어 있다.
즉, 예를 들어 quality ranking descriptor의 value는 「value="id,quality_ranking,remaining_area_flag"」 등으로 된다.
도 18 및 도 19에 도시하는 예에서는, 화살표 A41 내지 화살표 A44의 각각에 의해 나타나는 SupplementalProperty가 quality ranking descriptor로 되어 있다.
예를 들어 화살표 A41에 의해 나타나는 SupplementalProperty에서는, 그 value의 부분이 「1,5,1」로 되어 있다.
따라서, 이 SupplementalProperty에 대응하는, Adaptation Set의 id가 mesh인 Representation의 메쉬의 quality ranking의 값은 「5」임을 알 수 있다.
또한, 이 SupplementalProperty에 있어서의 remaining_area_flag의 값이 「1」이라는 점에서, quality ranking의 값 「5」는 메쉬의 표시 가능 영역 전체의 quality ranking으로 된다. 즉, 표시 가능 영역 전체가 대상 영역으로 된다.
또한, 예를 들어 화살표 A42에 의해 나타나는 SupplementalProperty는, Adaptation Set의 id가 hq_dep1인 Representation의 뎁스의 quality ranking descriptor로 되어 있고, 그 value의 부분이 「1,3,0,-90,0,0,90,120」으로 되어 있다.
따라서, 이 SupplementalProperty에 대응하는 추가의 뎁스의 대상 영역은, 3D 모델의 중심 위치에서 보아 요각 「-90도」 및 피치각 「0도」에 의해 정해지는 위치를 중심으로 하여, 롤각에 의해 나타나는 회전이 0도이고, 수평 방향에 90도이고 수직 방향에 120도인 범위의 영역으로 됨을 알 수 있다. 또한, 그 대상 영역의 quality ranking의 값은 「3」임을 알 수 있다.
또한, 예를 들어 화살표 A43에 의해 나타나는 SupplementalProperty, 및 화살표 A44에 의해 나타나는 SupplementalProperty는, Adaptation Set의 id가 hq_dep4인 Representation의 뎁스의 quality ranking descriptor로 되어 있음을 알 수 있다.
특히, 화살표 A43에 의해 나타나는 SupplementalProperty에 대응하는 추가의 뎁스의 대상 영역은, 3D 모델의 중심 위치에서 보아 요각 「180도」 및 피치각 「0도」에 의해 정해지는 위치를 중심으로 하여, 롤각에 의해 나타나는 회전이 0도이고, 수평 방향에 90도이고 수직 방향에 90도인 범위의 영역으로 됨을 알 수 있다. 또한, 그 대상 영역의 quality ranking의 값은 「1」임을 알 수 있다.
또한, 화살표 A44에 의해 나타나는 SupplementalProperty에 대응하는 추가의 뎁스의 대상 영역은, Adaptation Set의 id가 hq_dep4인 뎁스의 표시 가능 영역에 있어서의, 화살표 A43에 의해 나타나는 SupplementalProperty로 나타난 대상 영역 이외의 영역으로 되어 있음을 알 수 있다. 그리고, 화살표 A44에 의해 나타나는 SupplementalProperty에 대응하는 추가의 뎁스의 대상 영역의 quality ranking의 값은 「5」임을 알 수 있다.
이러한 점에서, 이 예에서는 Adaptation Set의 id가 hq_dep1인 Representation의 뎁스는, Adaptation Set의 id가 mesh인 Representation의 메쉬보다 모든 영역에 있어서 퀄러티가 높음을 알 수 있다. 또한, Adaptation Set의 id가 hq_dep4인 Representation의 뎁스는, 요각 「180도」, 피치각 「0도」, 롤각 「0도」, 수평 방향 각도 레인지 「90도」 및 수직 방향 각도 레인지 「90도」에 의해 정해지는 영역만, Adaptation Set의 id가 mesh인 Representation의 메쉬보다 퀄러티가 높음을 알 수 있다.
이상과 같이 quality ranking descriptor는, 메쉬나 뎁스 등의 BV 스트림에 대하여, 대상 영역별 품질(quality ranking)을 나타내는 정보로 되어 있고, 이에 의해 메쉬와 뎁스의 품질을 비교할 수 있다. 클라이언트에서는, 이러한 quality ranking descriptor에 기초하여, 메쉬에 추가하여 적절한 퀄러티(quality ranking)의 뎁스를 취득할 수 있다.
또한, 여기서는 Property의 value의 부분에 quality ranking의 값이나 대상 영역을 나타내는 각 파라미터를 콤마 구획으로 기술하는 예에 대하여 설명하였지만, 각각의 파라미터별로 개별적인 속성값으로 시그널하도록 해도 된다.
또한, quality ranking의 id 대신에, Representation을 갖는 Adaptation Set의 Viewpoint element를 사용하여 quality ranking에 의한 퀄러티의 비교 대상으로 되는 BV 스트림의 관련짓기를 행하도록 해도 된다. 이때, Property의 shcemeIdUri로서 「shcemeIdUri="urn:mpeg:dash:bvqualityrankinggroup:2017"」을 사용하게 된다. 그리고 Property의 value가 동일하면, 각 Adaptation Set에 포함되는 Representation에 대하여, 상대적인 quality ranking이 시그널됨을 나타내게 된다.
또한, 도 18 및 도 19에 도시한 예에서는, quality ranking descriptor가 Representation 밑에 시그널되어 있지만, quality ranking descriptor는 Adaptation Set 밑이나 Sub Representation 밑, Preselection 밑에 시그널되어도 된다.
또한, quality ranking descriptor에 파라미터로서 stream_type을 추가해도 된다.
예를 들어 1개의 Adaptation Set에 텍스처와 메쉬, 또는 텍스처와 뎁스에 관한 정보가 포함되어 있고, 그 1개의 Adaptation Set에 대응하는 BV 스트림에 의해 BV 콘텐츠를 구성 가능한 것으로 하자. stream_type은, 그러한 경우에, 텍스처, 메쉬, 뎁스 및 BV 콘텐츠의 각각에 대한 quality ranking을 시그널하기 위해 사용된다.
이러한 stream_type을 사용하면, 클라이언트가 BV 콘텐츠의 퀄러티를 높이기 위해 필요한 추가 BV 스트림을 선택할 때, 적절한 퀄러티를 갖는 BV 스트림(또는 BV 콘텐츠)에 관한 정보를 포함하는 Adaptation Set를 식별 가능하게 된다.
여기서, quality ranking descriptor에 추가되는 stream_type의 시맨틱스를 도 21에 도시한다. 이 예에서는 stream_type은 quality ranking이 시그널되는 BV 스트림의 종류를 나타내고 있다.
구체적으로는, 예를 들어 stream_type의 값 「0」은, quality ranking이 시그널되는 BV 스트림의 종류가 텍스처임을 나타내고 있다. 또한, stream_type의 값 「1」은 quality ranking이 시그널되는 BV 스트림의 종류가 뎁스 또는 메쉬임을 나타내고 있고, stream_type의 값 「2」는 quality ranking이 시그널되는 BV 스트림의 종류가 BV 콘텐츠임을 나타내고 있다.
이상과 같이 MPD 파일에 의해 quality ranking이 시그널되는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S13에서는, 도 18 및 도 19에 도시하는 바와 같이 MPD 파일 생성부(33)는, 추가의 텍스처나 뎁스의 Adaptation Set, 및 quality ranking descriptor가 포함되는 MPD 파일을 생성한다.
또한, MPD 파일에 의해 quality ranking이 시그널되는 경우, 클라이언트 장치(71)는, 도 12를 참조하여 설명한 BV 콘텐츠 재생 처리와 마찬가지의 처리를 행하여 BV 콘텐츠를 재생한다.
또한, 스텝 S44에서는, MPD 파일 처리부(93)는, 복수의 BV 콘텐츠의 quality ranking descriptor를 참조하여, 각 BV 콘텐츠의 quality ranking에 기초하여, 그들 BV 콘텐츠의 BV 그룹 중에서, 유저의 시야에 상당하는 영역이 고화질인 BV 콘텐츠의 BV 그룹을 선택하는 것도 가능하다.
또한, 스텝 S45에서는, MPD 파일 처리부(93)는 BV 그룹의 Adaptation Set나 Representation뿐만 아니라, 추가의 BV 스트림의 Adaptation Set나 Representation도 식별한다.
또한, 스텝 S46에서는, MPD 파일 처리부(93)는 BV 그룹을 구성하는 Adaptation Set나 Representation, 및 추가의 BV 스트림의 Adaptation Set나 Representation 중에서, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
이때, MPD 파일 처리부(93)는, 유저의 시점 위치나 전송 대역, birdview coverage descriptor, quality ranking descriptor 등에 기초하여, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
예를 들어 MPD 파일 처리부(93)는, quality ranking descriptor 등에 기초하여, 유저의 시야 영역에 상당하는 BV 스트림을 고화질화할 수 있다. 또한, 전송 대역에 여유가 있는 경우에는, MPD 파일 처리부(93)는 유저의 시야에 따른 추가의 뎁스 등의 Representation을 선택하여, 보다 고화질의 BV 콘텐츠 재생을 행할 수 있다.
<제1 실시 형태의 변형예 3>
<실루엣 정보의 전송에 대하여>
또한, 뎁스에 기초하여 3D 형상을 구성할 때 전경, 즉 3D 모델로 되는 오브젝트와, 배경을 분리하여 처리를 행하는 데 실루엣을 사용할 수 있다.
실루엣이란, 상술한 바와 같이 뎁스 화상에 있어서의 3D 모델로 되는 피사체(오브젝트)의 영역을 나타내는 실루엣 화상 등의 정보이다. 여기서 말하는 실루엣 화상은, 예를 들어 화소값으로서 1 또는 0을 갖는 화소를 포함하는 화상인 마스크 정보 등으로 된다.
또한, 예를 들어 소정의 역치 이상의 휘도값을 갖는 화소를 포함하는 뎁스 상의 영역이 전경의 영역으로 되는 경우에는, 그 역치를 실루엣으로 해도 되지만, 이하에서는 실루엣은 실루엣 화상인 것으로 하여 설명을 계속한다.
이러한 실루엣을 사용하는 경우, 실루엣과 뎁스를 사용하여 전경만의 3D 형상을 구성함으로써, 처리량을 삭감할 수 있다고 하는 장점이 있다.
실루엣의 BV 스트림을 전송하는 경우, 예를 들어 도 22에 도시하는 바와 같이 실루엣은, 실루엣 화상으로서 전송된다. 또한, 뎁스 화상 내에 실루엣 정보가 포함되도록 하여, 실루엣 정보가 포함된 뎁스가 전송되도록 해도 된다.
도 22에 도시하는 예에서는, 서로 다른 시점 위치의 뎁스 DP41 내지 뎁스 DP44와, 그들 뎁스 DP41 내지 뎁스 DP44와 시점 위치가 동일한 실루엣 SI41 내지 실루엣 SI44가 전송된다.
예를 들어 뎁스 DP41과 실루엣 SI41은, 동일한 시점 위치의 정보이며, 실루엣 SI41을 사용하면, 뎁스 DP41에 있어서의 전경 부분의 영역을 특정(추출)할 수 있다.
클라이언트에서는, 이들 뎁스 DP41 내지 뎁스 DP44와 실루엣 SI41 내지 실루엣 SI44를 사용함으로써, 화살표 Q41로 나타내는 바와 같이 배경이 없는, 전경인 3D 모델만의 3D 형상을 적은 처리량으로 구성할 수 있다. 그리고, 이와 같이 하여 얻어진 3D 형상에 대하여 텍스처를 첩부하면, 화살표 Q42로 나타내는 바와 같이, 3D 모델을 얻을 수 있다.
여기서, 예를 들어 도 14에 도시한 바와 같이 메쉬 MS31과, 4개의 텍스처 TX31 내지 텍스처 TX34로 1개의 BV 그룹이 구성되어 있고, 추가의 텍스처 HTX31 내지 텍스처 HTX34와 추가의 뎁스 HDP31 내지 뎁스 HDP34가 있는 것으로 하자.
또한, 이들 메쉬 MS31, 텍스처 TX31 내지 텍스처 TX34, 텍스처 HTX31 내지 텍스처 HTX34, 및 뎁스 HDP31 내지 뎁스 HDP34에 추가하여, 도 23에 도시하는 바와 같이 추가의 실루엣 HSI41 내지 실루엣 HSI44가 있는 것으로 한다. 여기서, 도 23에 있어서 도 14에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 23에 도시하는 예에서는, 고화질화용의 추가의 실루엣 HSI41 내지 실루엣 HSI44가 추가의 뎁스 HDP31 내지 뎁스 HDP34에 대응지어져 있다. 여기서, 실루엣 HSI41 내지 실루엣 HSI44의 각각의 시점 위치는, 뎁스 HDP31 내지 뎁스 HDP34의 각각의 시점 위치와 동일하게 되어 있다.
이와 같이 메쉬 MS31, 텍스처 TX31 내지 텍스처 TX34, 텍스처 HTX31 내지 텍스처 HTX34, 뎁스 HDP31 내지 뎁스 HDP34, 및 실루엣 HSI41 내지 실루엣 HSI44를 취득 가능한 경우, 예를 들어 MPD 파일은 도 24 및 도 25에 도시하는 바와 같이 된다.
또한, 도 25는, 도 24에 도시한 MPD 파일의 부분, 즉 도 24의 도면 중, 하측에 나타내는 부분에 이어지는 MPD 파일의 나머지 부분을 도시하고 있다. 도 24 및 도 25에서는, 1개의 MPD 파일이 그들 도면에 의해 도시되고 있음을 명확히 하기 위해, 도 24 중, 하측에는 문자 「도 25로 이어짐」이 기재되어 있고, 도 25 중, 상측에는 문자 「도 24의 계속」이 기재되어 있다. 이들 문자 「도 25로 이어짐」 및 「도 24의 계속」은, 실제로는 MPD 파일에는 기술되어 있지 않다.
또한, 도 24 및 도 25에 도시하는 MPD 파일에 있어서, 도 15 및 도 16에 도시한 예와 마찬가지의 부분에 대해서는, 반복으로 되므로 그 설명은 적절하게 생략한다. 또한, 여기서는 텍스처나 메쉬, 뎁스, 실루엣은, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다.
도 24 및 도 25에 도시하는 MPD 파일에서는, 화살표 W61로 나타내는 부분이 1개의 BV 그룹에 관한 Preselection으로 되어 있고, 이 Preselection은 도 15의 화살표 W21로 나타낸 Preselection과 완전 동일한 것으로 되어 있다.
또한, 화살표 W62 내지 화살표 W64의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 텍스처 또는 메쉬에 관한 Adaptation Set로 되어 있다. 여기서는, 화살표 W62 내지 화살표 W64의 각각에 의해 나타나는 Adaptation Set는, 도 15의 화살표 W22 내지 화살표 W24의 각각에 의해 나타나는 Adaptation Set와 완전 동일한 것으로 되어 있다.
여기서는, tex1 내지 tex4는, 도 14의 텍스처 TX31 내지 텍스처 TX34에 관한 Adaptation Set의 id로 되어 있고, mesh는 도 14의 메쉬 MS31에 관한 Adaptation Set의 id로 되어 있다. 그리고, 화살표 W61로 나타내는 Preselection 요소의 preselectionComponents 속성에, mesh 및 tex1 내지 tex4가 기술되어 있다.
화살표 W65 내지 화살표 W68의 각각에 의해 나타나는 Adaptation Set는, 도 16의 화살표 W25 내지 화살표 W28의 각각에 의해 나타나는 Adaptation Set에 대응하고 있다.
즉, 화살표 W65 내지 화살표 W68에 의해 나타나는 Adaptation Set는, 추가의 텍스처 HTX31이나 텍스처 HTX34, 뎁스 HDP31, 뎁스 HDP34에 관한 정보가 기술된 Adaptation Set로 되어 있다.
또한, 화살표 W65 및 화살표 W66에 의해 나타나는 Adaptation Set는, 도 16의 화살표 W25 및 화살표 W26에 의해 나타나는 Adaptation Set와 완전 동일한 것으로 되어 있다.
화살표 W69나 화살표 W70에 의해 나타나는 Adaptation Set는, 추가의 실루엣 HSI41이나 실루엣 HSI44에 관한 정보가 기술된 Adaptation Set로 되어 있다.
여기서는, 텍스처 HTX31 내지 텍스처 HTX34에 관한 정보가 기술된 Adaptation Set의 id는 hq_tex1 내지 hq_tex4로 되어 있고, 뎁스 HDP31 내지 뎁스 HDP34에 관한 Adaptation Set의 id는 hq_dep1 내지 hq_dep4로 되어 있다.
또한, 뎁스 HDP31 내지 뎁스 HDP34의 각각에 관련지어진 실루엣 HSI41 내지 실루엣 HSI44의 각각에 관한 Adaptation Set의 id는 sil1 내지 sil4로 되어 있다.
또한, 이 예에서는 「schemeIdUri="urn:mpeg:dash:silhouette:2017"」로 된 EssentialProperty 또는 SupplementalProperty가, 실루엣에 관한 Adaptation Set임을 나타내는 정보인 실루엣 디스크립터(silhouette descriptor)로서 새롭게 정의되어 있다.
클라이언트는, 이 silhouette descriptor를 참조함으로써, silhouette descriptor를 포함하는 Adaptation Set 내의 Representation이 실루엣에 관한 정보가 기술된 것임을 식별할 수 있다. 또한, silhouette descriptor는, Representation이나 SubRepresentation으로 시그널해도 된다.
예를 들어 화살표 W69로 나타내는 Adaptation Set에는, Adaptation Set의 id 「sil1」이 기술되어 있고, 이 Adaptation Set에는 실루엣 HSI41에 관한 정보가 기술되어 있다. 마찬가지로, 화살표 W70으로 나타내는 Adaptation Set에도, Adaptation Set의 id 「sil4」가 기술되어 있고, 이 Adaptation Set에는 실루엣 HSI44에 관한 정보가 기술되어 있다.
또한, 화살표 W69로 나타내는 Adaptation Set의 화살표 A61로 나타내는 부분이나, 화살표 W70으로 나타내는 Adaptation Set의 화살표 A62로 나타내는 부분에는, silhouette descriptor로 되는, 「schemeIdUri="urn:mpeg:dash: silhouette:2017"」로 된 EssentialProperty가 마련되어 있다.
이에 의해, 클라이언트는, 화살표 W69나 화살표 W70으로 나타내는 Adaptation Set가 BV 콘텐츠를 구성하는 실루엣에 관한 Adaptation Set임을 파악할 수 있다.
또한, 예시는 하지 않았지만, 뎁스에 실루엣 정보가 포함되는 경우, schemeIdUri가 「schemeIdUri="urn:mpeg:dash:depthwithsilhouette:2017"」인 EssentialProperty나 SupplementalProperty를 depth with silhouette descriptor로서 신규로 정의하면 된다. 이 경우, depth with silhouette descriptor에 의해, 그 depth with silhouette descriptor가 포함되는 Adaptation Set가 실루엣 정보가 포함되는 뎁스에 관한 정보가 기술된 것임을 시그널할 수 있다.
또한, 도 25에 도시하는 예에서는, Representation 내의 associationId와, Representation 내의 associationType="silh"가 사용되어, 실루엣의 Representation과, 그 Representation에 대응하는 뎁스의 Representation이 관련지어져 있다.
여기서, associationId는, 대응하는 뎁스와 실루엣, 즉 페어로 되는 뎁스와 실루엣을 대응짓기(관련짓기) 위한 정보(Id)로 되어 있다.
또한, associationType은, 그 associationType을 포함하는 Representation과 대응하는 Representation의 관련짓기의 종류를 나타내는 정보로 되어 있다. 특히, 여기서는 「associationType="silh"」는, Representation의 관련짓기의 종류가 실루엣과 뎁스의 관계임을 나타내고 있다.
예를 들어, 화살표 W67로 나타내는 Adaptation Set의 화살표 A63으로 나타내는 Representation 내에는, id로서 「hq_dep1_1」이 기술되어 있다.
마찬가지로, 화살표 W68로 나타내는 Adaptation Set의 화살표 A64로 나타내는 Representation 내에는, id로서 「hq_dep4_1」이 기술되어 있다.
이에 비해, 화살표 W69로 나타내는 Adaptation Set의 화살표 A65로 나타내는 Representation 내에는, associationId 「hq_dep1_1」과 associationType 「silh」가 기술되어 있다.
또한, 화살표 W70으로 나타내는 Adaptation Set의 화살표 A66으로 나타내는 Representation 내에는, associationId 「hq_dep4_1」과 associationType 「silh」가 기술되어 있다.
따라서, 클라이언트에서는 id 「hq_dep1_1」이 기술되어 있는 화살표 A63으로 나타내는 Representation은, 뎁스에 관한 것이라고 식별할 수 있다.
또한, 클라이언트에서는 associationId 「hq_dep1_1」과 「associationType="silh"」이 기술되어 있는 화살표 A65로 나타내는 Representation은, 화살표 A63으로 나타내는 Representation(뎁스)에 관련지어진 실루엣에 관한 것이라고 식별할 수 있다. 이것은, 화살표 A65로 나타내는 Representation에는, 화살표 A63으로 나타내는 Representation 내의 id와 동일한 것이 기술되어 있기 때문이다.
마찬가지로, 클라이언트에서는, 화살표 A64로 나타내는 Representation은, 뎁스에 관한 것이라고 식별할 수 있고, 화살표 A66으로 나타내는 Representation은, 화살표 A64로 나타내는 Representation(뎁스)에 관련지어진 실루엣에 관한 것이라고 식별할 수 있다.
이상과 같이 하여 associationId와 associationType을 사용하면, 클라이언트에서는, 뎁스와, 그 뎁스에 관련지어진(대응지어진) 실루엣을 식별하고, 그들 뎁스나 실루엣을 취득하는 것이 가능하게 된다.
이와 같이 추가의 실루엣을 취득할 수 있는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S13에서는, 도 24 및 도 25에 도시한 바와 같이 MPD 파일 생성부(33)는, 추가의 텍스처나 뎁스, 실루엣에 대한 Adaptation Set가 포함되는 MPD 파일을 생성한다.
특히, 이 경우, MPD 파일 생성부(33)는, 도 24나 도 25에 도시한 바와 같이 실루엣에 관한 Adaptation Set에는 silhouette descriptor를 기술하고, 실루엣의 Adaptation Set 내의 Representation에는, associationId나 associationType을 필요에 따라 기술한다.
또한, 추가의 실루엣을 취득할 수 있는 경우, 클라이언트 장치(71)는, 도 12를 참조하여 설명한 BV 콘텐츠 재생 처리와 마찬가지의 처리를 행하여 BV 콘텐츠를 재생한다.
단, 스텝 S45에서는, MPD 파일 처리부(93)는 BV 그룹의 Adaptation Set나 Representation뿐만 아니라, birdview coverage descriptor의 source_id나 silhouette descriptor 등에 기초하여, BV 그룹에 대하여 추가 가능한 BV 스트림의 Adaptation Set나 Representation도 식별한다.
특히, MPD 파일 처리부(93)는 Representation 내의 associationId나 associationType을 참조함으로써, 추가의 뎁스의 Representation과, 그 뎁스에 관련지어진 추가의 실루엣 Representation을 식별할 수 있다.
또한, 실루엣의 Adaptation Set나 Representation에 대해서는, Adaptation Set에 포함되는 silhouette descriptor에 의해 식별 가능하다. 또한, 뎁스에 실루엣 정보가 포함되어 있는 경우에는, 상술한 depth with silhouette descriptor에 의해, 실루엣 정보가 포함되어 있는 뎁스(실루엣을 갖는 뎁스)의 Adaptation Set나 Representation을 식별하는 것이 가능하다.
또한, 스텝 S46에서는, MPD 파일 처리부(93)는 BV 그룹을 구성하는 Adaptation Set나 Representation, 및 추가의 BV 스트림의 Adaptation Set나 Representation 중에서, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
이때, MPD 파일 처리부(93)는, 유저의 시점 위치나 전송 대역, birdview coverage descriptor 등에 기초하여, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다. 예를 들어 MPD 파일 처리부(93)는, 유저의 시야 영역에 상당하는 BV 스트림을 고화질화하거나, 전송 대역에 여유가 있는 경우에는, 유저의 시야 등에 따라 추가의 텍스처나 뎁스, 실루엣의 Representation을 선택하거나 할 수 있다.
<제2 실시 형태>
<BV 그룹에 대하여>
또한, 이상에 있어서는, 텍스처와 메쉬에 의해 1개의 BV 그룹이 구성되는 예에 대하여 설명하였지만, 텍스처와 뎁스에 의해 1개의 BV 그룹이 구성되도록 해도 된다.
예를 들어 텍스처와 뎁스에 의해 1개의 BV 그룹을 구성하는 경우, 이하와 같은 장점 및 단점이 있다.
(장점 1)
뎁스의 BV 스트림은 메쉬의 BV 스트림과 비교하여, 3D 형상을 구성하기 위해 필요한 총 사이즈가 작다
(단점 1)
클라이언트측에서 메쉬화가 필요하기 때문에, 클라이언트측의 처리 부하가 높다
(단점 2)
3D 형상을 구성하기 위해 복수의 뎁스 화상이 필요하게 된다
또한, 텍스처와 뎁스를 포함하는 BV 그룹의 예를 도 26에 도시한다. 여기서, 도 26에 있어서 도 2에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 26의 예에서는, 공간 상의 3D 모델(오브젝트)의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난 4개의 텍스처 TX1 내지 텍스처 TX4와, 그들 텍스처와 동일한 시점 위치의 4개의 뎁스 DP61 내지 뎁스 DP64가 있다.
즉, 뎁스 DP61 내지 뎁스 DP64의 각각은, 텍스처 TX1 내지 텍스처 TX4의 각각과 동일한 시점 위치이며, 텍스처 TX1 내지 텍스처 TX4의 각각과 뎁스 DP61 내지 뎁스 DP64의 각각이 페어로 되어 있다.
그리고, 뎁스 DP61 내지 뎁스 DP64와, 텍스처 TX1 내지 텍스처 TX4로 1개의 BV 그룹이 구성되어 있고, 이 BV 그룹을 구성하는 BV 스트림에 의해 BV 콘텐츠를 구성하는 것이 가능하다.
이러한 텍스처와 뎁스를 포함하는 BV 그룹의 시그널에 대해서도, 상술한 제1 실시 형태에 있어서의 경우와 마찬가지로, 미디어 표시 관리 파일인 MPD 파일을 사용하면 된다.
예를 들어 도 27에 도시하는 바와 같이, 4개의 텍스처 TX11 내지 텍스처 TX14와, 4개의 뎁스 DP71 내지 뎁스 DP74로 1개의 BV 그룹이 구성되어 있는 것으로 하자. 여기서, 도 27에 있어서 도 3에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
여기서, 뎁스 DP71 내지 뎁스 DP74의 각각의 시점 위치는, 텍스처 TX11 내지 텍스처 TX14의 각각의 시점 위치와 동일하게 되어 있다.
MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우, 이러한 BV 그룹에 관한 정보는, 예를 들어 도 28 및 도 29에 도시하는 MPD 파일에 의해 시그널하면 된다.
여기서, 도 29는, 도 28에 도시한 MPD 파일의 부분, 즉 도 28의 도면 중, 하측에 나타내는 부분에 이어지는 MPD 파일의 나머지 부분을 도시하고 있다. 도 28 및 도 29에서는, 1개의 MPD 파일이 그들 도면에 의해 도시되고 있음을 명확히 하기 위해, 도 28 중, 하측에는 문자 「도 29로 이어짐」이 기재되어 있고, 도 29 중, 상측에는 문자 「도 28의 계속」이 기재되어 있다. 이들 문자 「도 29로 이어짐」 및 「도 28의 계속」은, 실제로는 MPD 파일에는 기술되어 있지 않다.
또한, 도 28 및 도 29에 도시하는 MPD 파일에 있어서, 도 15 및 도 16에 도시한 예와 마찬가지의 부분에 대해서는, 반복으로 되므로 그 설명은 적절하게 생략한다. 또한, 여기서는 텍스처나 뎁스는, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다.
도 28 및 도 29에 도시하는 MPD 파일에서는, 화살표 W91로 나타내는 부분이 1개의 BV 그룹에 관한 Preselection으로 되어 있다.
또한, 화살표 W92 내지 화살표 W95의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 텍스처 또는 뎁스에 관한 Adaptation Set로 되어 있다. 그리고, 화살표 W92 내지 화살표 W95의 각각에 의해 나타나는 Adaptation Set를 포함하는, 1개의 BV 그룹을 구성하는 각 BV 스트림의 Adaptation Set의 id가 화살표 W91로 나타내는 Preselection에 기술되어 있다.
여기서는, tex1 내지 tex4는, 도 27의 텍스처 TX11 내지 텍스처 TX14에 관한 정보가 기술된 Adaptation Set의 id로 되어 있다. 또한, dep1 내지 dep4는 도 27의 뎁스 DP71 내지 뎁스 DP74에 관한 정보가 기술된 Adaptation Set의 id로 되어 있다.
예를 들어 화살표 W92로 나타내는 Adaptation Set에는, 그 Adaptation Set의 id로서 「tex1」이 기술되어 있고, 화살표 W93으로 나타내는 Adaptation Set에는, 그 Adaptation Set의 id로서 「tex4」가 기술되어 있다.
또한, 화살표 W94로 나타내는 Adaptation Set에는, 그 Adaptation Set의 id로서 「dep1」이 기술되어 있고, 화살표 W95로 나타내는 Adaptation Set에는, 그 Adaptation Set의 id로서 「dep4」가 기술되어 있다.
따라서, 화살표 W91로 나타내는 Preselection 요소의 preselectionComponents 속성에 기술된 「dep1 dep2 dep3 dep4 tex1 tex2 tex3 tex4」로부터, 텍스처 TX11 내지 텍스처 TX14와 뎁스 DP71 내지 뎁스 DP74에 의해 1개의 BV 그룹이 구성되어 있음을 알 수 있다. 바꾸어 말하면, 그들 텍스처나 뎁스에 대응하는 8개의 Adaptation Set가, 기본으로 되는 1개의 BV 그룹으로서 그루핑되어 있음을 알 수 있다.
또한, 화살표 W91로 나타내는 Preselection에는, 도 15의 화살표 W21로 나타낸 Preselection에 있어서의 경우와 마찬가지의 birdview descpriptor나 birdview coverage descriptor가 포함되어 있다. 마찬가지로, 예를 들어 화살표 W92로 나타내는 Adaptation Set에는, 도 15의 화살표 W22로 나타낸 Adaptation Set에 있어서의 경우와 마찬가지의 texture descriptor나 birdview coverage descriptor가 포함되어 있다.
또한, 화살표 W94로 나타내는 Adaptation Set나 화살표 W95로 나타내는 Adaptation Set에는, 도 16의 화살표 W27로 나타낸 Adaptation Set에 있어서의 경우와 마찬가지의 depth descritptor나 birdview coverage descriptor가 포함되어 있다.
예를 들어 화살표 W94로 나타내는 Adaptation Set에서는, 화살표 A81로 나타내는 EssentialProperty가 depth descritptor로 되어 있고, 화살표 A82로 나타내는 SupplementalProperty가 birdview coverage descriptor로 되어 있다.
또한, birdview descpriptor나 texture descriptor, depth descritptor의 정의는, 상술한 제1 실시 형태나 제1 실시 형태의 변형예 1에 있어서의 경우와 마찬가지이다. 또한, birdview coverage descriptor의 정의는 상술한 제1 실시 형태의 변형예 1에 있어서의 경우와 마찬가지이다.
이 예에 있어서도, BV 그룹을 구성하는 각 텍스처나 뎁스에 대하여, 클라이언트측에 있어서 전송 대역에 따라, 적절한 비트 레이트의 Representation을 선택하거나 하여 텍스처나 뎁스의 고화질화가 가능하다.
또한, 클라이언트에서는, birdview coverage descriptor를 참조함으로써, 유저의 시야에 상당하는 텍스처나 뎁스만 고화질화하는 것도 가능하다.
또한, 클라이언트에 있어서, BV 그룹을 구성하는 모든 텍스처 및 뎁스를 취득하지 않고, 유저의 시야 범위를 표시하는 데 있어서 필요한 텍스처와 뎁스만을 선택하고, 그들 선택한 텍스처 및 뎁스를 취득하여 렌더링하는 것도 가능하다. 이것은, 특히 전송 대역(대역폭)이 제한되어, BV 콘텐츠를 구성하는 모든 BV 스트림을 취득할 수 없는 경우에 유용하다.
이상과 같이 텍스처와 뎁스에 의해 BV 그룹이 구성되는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S13에서는, 도 28 및 도 29에 도시한 바와 같이 MPD 파일 생성부(33)는, 텍스처나 뎁스의 Adaptation Set가 포함되는 MPD 파일을 생성한다.
또한, 이러한 경우, 클라이언트 장치(71)는, 도 12를 참조하여 설명한 BV 콘텐츠 재생 처리와 마찬가지의 처리를 행하여 BV 콘텐츠를 재생한다.
또한, 스텝 S45에서는, MPD 파일 처리부(93)는, texture descriptor나 depth descritptor에 기초하여, BV 그룹을 구성할 텍스처와 뎁스의 Adaptation Set를 식별한다.
그리고, 스텝 S46에서는, MPD 파일 처리부(93)는, BV 그룹을 구성하는 텍스처와 뎁스의 Adaptation Set나 Representation 중에서, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다. 이때, MPD 파일 처리부(93)는, 유저의 시점 위치나 전송 대역, birdview coverage descriptor 등에 기초하여, Adaptation Set나 Representation을 선택한다.
<제2 실시 형태의 변형예 1>
<추가의 BV 스트림의 취득에 대하여>
또한, 제2 실시 형태에서 설명한 바와 같이, BV 그룹이 텍스처와 뎁스로 구성되는 경우, 또한 그 BV 그룹에 추가하여, BV 그룹에 포함되지 않는 시점 위치의 텍스처나 뎁스를 추가로 취득할 수 있도록 해도 된다.
BV 그룹에 더하여 추가의 BV 스트림을 취득하면, 보다 고화질의 BV 콘텐츠를 재생하는 것이 가능하게 된다.
즉, 취득 가능한 텍스처의 수를 증가시킴으로써, 표시 가능 영역 외의 영역의 텍스처를 보완에 의해 생성할 필요가 없어지므로, 렌더링 시의 BV 콘텐츠의 품질을 향상시킬 수 있다. 또한, 뎁스를 추가함으로써 3D 모델을 구축할 때 보다 고정밀도의 3D 형상을 얻는 것이 가능하게 된다.
추가로 텍스처나 뎁스를 취득 가능하게 하는 경우, 예를 들어 도 30에 도시하는 예가 고려된다. 여기서, 도 30에 있어서 도 26에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 30의 예에서는, 도면 중, 좌측에 도시하는 바와 같이, 공간 상의 3D 모델의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난 4개의 텍스처 TX1 내지 텍스처 TX4와 4개의 뎁스 DP61 내지 뎁스 DP64로 1개의 BV 그룹이 구성되어 있다.
또한, 이 BV 그룹의 BV 스트림에 추가하여, 도면 중, 중앙에 도시하는 바와 같이 3D 모델의 주위를 둘러싸도록 90도씩 시점 위치가 어긋난, 텍스처 TX1 내지 텍스처 TX4와는 다른 시점 위치의 4개의 텍스처 TX51 내지 텍스처 TX54가 있다. 또한, 그들 텍스처 TX51 내지 텍스처 TX54의 각각과 동일한 시점 위치에, 뎁스 DP81 내지 뎁스 DP84의 각각이 있다.
클라이언트측에서는, 이들 텍스처 TX51 내지 텍스처 TX54의 BV 스트림이나, 뎁스 DP81 내지 뎁스 DP84의 BV 스트림을 추가 BV 스트림으로서 취득하는 것이 가능하다.
이러한 추가로 취득 가능한 텍스처가 있으면, 예를 들어 도면 중, 우측에 도시하는 바와 같이 BV 그룹의 텍스처와는 다른 커버리지(표시 가능 영역)를 갖는 텍스처를 사용할 수 있게 되어, 보다 고화질의 BV 콘텐츠를 재생할 수 있다.
특히, 이 예에서는, 텍스처 TX1 내지 텍스처 TX4에 추가하여, 텍스처 TX51 내지 텍스처 TX54가 취득되고 있고, 이에 의해, 3D 모델의 주위를 둘러싸는 보다 많은 시점 위치의 텍스처를 이용할 수 있게 된다.
MPEG-DASH를 사용하여 BV 콘텐츠를 배신하는 경우에, 이상과 같은 추가 BV 스트림도 배신 가능하게 할 때에는, 추가 BV 스트림에 관한 정보의 시그널에는 MPD 파일을 사용하면 된다.
예를 들어 도 31에 도시하는 바와 같이, 4개의 텍스처 TX91 내지 텍스처 TX94와, 뎁스 DP91 내지 뎁스 DP94로 1개의 BV 그룹이 구성되어 있는 것으로 한다.
또한, 텍스처 TX91 내지 텍스처 TX94의 각각과는 다른 시점 위치의 추가의 텍스처 HTX51 내지 텍스처 HTX54의 각각의 BV 스트림을 추가로 취득 가능한 것으로 한다. 또한, 텍스처 HTX51 내지 텍스처 HTX54의 각각의 시점 위치와 동일한 시점 위치의 추가의 뎁스 HDP51 내지 뎁스 HDP54의 각각의 BV 스트림도 취득 가능한 것으로 한다.
또한, 도 31에서는, 도면 중, 좌측에 그려져 있는 원은, 각 BV 스트림, 즉 텍스처나 뎁스의 시점 위치를 나타내고 있다.
이와 같이 텍스처 TX91 내지 텍스처 TX94와 뎁스 DP91 내지 뎁스 DP94에 의해 1개의 BV 그룹이 구성되고, 그 BV 그룹에 대하여 텍스처 HTX51 내지 텍스처 HTX54 및 뎁스 HDP51 내지 뎁스 HDP54가 추가로 취득 가능한 경우, 예를 들어 MPD 파일은 도 32 및 도 33에 도시하는 바와 같이 된다.
또한, 도 33은, 도 32에 도시한 MPD 파일의 부분, 즉 도 32의 도면 중, 하측에 나타내는 부분에 이어지는 MPD 파일의 나머지 부분을 도시하고 있다. 도 32 및 도 33에서는, 1개의 MPD 파일이 그들 도면에 의해 도시되고 있음을 명확히 하기 위해, 도 32 중, 하측에는 문자 「도 33으로 이어짐」이 기재되어 있고, 도 33 중, 상측에는 문자 「도 32의 계속」이 기재되어 있다. 이들 문자 「도 33으로 이어짐」 및 「도 32의 계속」은, 실제로는 MPD 파일에는 기술되어 있지 않다.
또한, 도 32 및 도 33에 도시하는 MPD 파일에 있어서, 도 15 및 도 16에 도시한 예와 마찬가지의 부분에 대해서는, 반복으로 되므로 그 설명은 적절하게 생략한다. 또한, 여기서는 텍스처나 뎁스는, 각각 개별적으로 single track file로서 저장되어 있는 것으로 한다.
도 32 및 도 33에 도시하는 MPD 파일에서는, 화살표 W111로 나타내는 부분이 1개의 BV 그룹에 관한 Preselection으로 되어 있다.
또한, 화살표 W112 내지 화살표 W115의 각각에 의해 나타나는 Adaptation Set는, BV 그룹을 구성하는 텍스처 또는 뎁스에 관한 Adaptation Set로 되어 있다. 그리고, 화살표 W112 내지 화살표 W114의 각각에 의해 나타나는 Adaptation Set를 포함하는, 1개의 BV 그룹을 구성하는 각 BV 스트림의 Adaptation Set의 id가 화살표 W111로 나타내는 Preselection에 기술되어 있다.
여기서는, tex1 내지 tex4는, 도 31의 텍스처 TX91 내지 텍스처 TX94에 관한 정보가 기술된 Adaptation Set의 id로 되어 있다. 또한, dep1 내지 dep4는, 도 31의 뎁스 DP91 내지 뎁스 DP94에 관한 정보가 기술된 Adaptation Set의 id로 되어 있다.
따라서, 화살표 W111로 나타내는 Preselection 요소의 preselectionComponents 속성에 기술된 「dep1 dep2 dep3 dep4 tex1 tex2 tex3 tex4」로부터, 텍스처 TX91 내지 텍스처 TX94와 뎁스 DP91 내지 뎁스 DP94에 의해 1개의 BV 그룹이 구성되어 있음을 알 수 있다.
또한, 화살표 W116 내지 화살표 W119의 각각에 의해 나타나는 Adaptation Set는, 고화질화용의 추가 BV 스트림에 관한 정보가 기술된 Adaptation Set로 되어 있다.
예를 들어 도 31에 도시한 텍스처 HTX51 내지 텍스처 HTX54에 관한 정보가 기술된 Adaptation Set의 id는 hq_tex1 내지 hq_tex4로 되어 있다. 또한, 도 31에 도시한 뎁스 HDP51 내지 뎁스 HDP54에 관한 정보가 기술된 Adaptation Set의 id는 hq_dep1 내지 hq_dep4로 되어 있다.
또한, 도 32 및 도 33에 도시하는 예에 있어서, birdview descpriptor나 texture descriptor, depth descritptor의 정의는, 상술한 제1 실시 형태나 제1 실시 형태의 변형예 1에 있어서의 경우와 마찬가지이다. 또한, birdview coverage descriptor의 정의는, 제1 실시 형태의 변형예 1, 즉 도 15 및 도 16에 있어서의 경우와 마찬가지이다.
화살표 W111로 나타내는 Preselection에는, 도 15의 화살표 W21로 나타낸 Preselection에 있어서의 경우와 마찬가지의 birdview descpriptor나 birdview coverage descriptor가 포함되어 있다. 특히, 화살표 W111로 나타내는 Preselection의 화살표 A101로 나타내는 부분은, birdview coverage descriptor로 되어 있고, 이 birdview coverage descriptor에는, 참조할 BV 스트림의 소스(소재)를 나타내는 source_id로서 「1」이 포함되어 있다.
또한, 텍스처에 관한 Adaptation Set인, 화살표 W112나 화살표 W113, 화살표 W116, 화살표 W117로 나타내는 Adaptation Set에는, texture descriptor가 포함되어 있다. 마찬가지로, 뎁스에 관한 Adaptation Set인, 화살표 W114나 화살표 W115, 화살표 W118, 화살표 W119로 나타내는 Adaptation Set에는, depth descritptor가 포함되어 있다.
또한, 화살표 W112 내지 화살표 W119의 각각으로 나타나는 Adaptation Set에 있어서의, 화살표 A102 내지 화살표 A109의 각각으로 나타나는 부분은, birdview coverage descriptor로 되어 있고, 이들 birdview coverage descriptor에는, source_id로서 「1」이 포함되어 있다.
따라서, 클라이언트측에서는, 화살표 W112 내지 화살표 W119의 각각으로 나타나는 Adaptation Set에 대응하는 텍스처나 뎁스를 조합하여 1개의 BV 콘텐츠를 구성하는 것이 가능함을 식별(특정)할 수 있다. 이때, 예를 들어 유저의 시야에 따라 BV 그룹의 BV 스트림에 추가하여, source_id가 동일한 추가 BV 스트림, 즉 추가의 텍스처나 뎁스를 선택 및 취득하면, 보다 고화질의 BV 콘텐츠 재생을 실현할 수 있다.
이상과 같이 추가의 BV 스트림을 취득할 수 있는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S13에서는, 도 32 및 도 33에 도시한 바와 같이 MPD 파일 생성부(33)는, 추가의 텍스처나 뎁스에 대한 Adaptation Set가 포함되는 MPD 파일을 생성한다. 또한, MPD 파일 생성부(33)는, 도 32나 도 33에 도시한 바와 같이 source_id를 포함하는 birdview coverage descriptor를 생성하고, Preselection이나 Adaptation Set에 기술한다.
또한, 추가의 BV 스트림을 취득할 수 있는 경우, 클라이언트 장치(71)는, 도 12를 참조하여 설명한 BV 콘텐츠 재생 처리와 마찬가지의 처리를 행하여 BV 콘텐츠를 재생한다.
단, 스텝 S45에서는, MPD 파일 처리부(93)는 BV 그룹의 Adaptation Set나 Representation뿐만 아니라, birdview coverage descriptor의 source_id에 기초하여, BV 그룹에 대하여 추가 가능한 BV 스트림의 Adaptation Set나 Representation도 식별한다.
또한, 스텝 S46에서는, MPD 파일 처리부(93)는 BV 그룹을 구성하는 Adaptation Set나 Representation, 및 추가의 BV 스트림의 Adaptation Set나 Representation 중에서, 취득할 BV 스트림의 Adaptation Set나 Representation을 선택한다.
이때, MPD 파일 처리부(93)는, 유저의 시점 위치나 전송 대역, birdview coverage descriptor의 value에 포함되어 있는 source_id나 표시 가능 영역을 나타내는 정보(파라미터) 등에 기초하여, Adaptation Set나 Representation을 선택한다.
또한, 이상에 있어서 설명한 제2 실시 형태나 제2 실시 형태의 변형예 1에 있어서도, 제1 실시 형태의 변형예 3에 있어서의 경우와 마찬가지로, 뎁스에 관련지어진 실루엣도 취득할 수 있도록 해도 된다. 그러한 경우, MPD 파일에 실루엣에 관한 Adaptation Set가 기술된다.
또한, 제1 실시 형태나 제2 실시 형태에 있어서, BV 그룹의 그루핑을 Preselection이 아니라 Adaptation Set의 Viewpoint 요소를 사용하여 행해도 된다. 이때, Viewpoint에 있어서 「shcemeIdUri="urn:mpeg:dash:bvgroup:2017"」을 사용한다. 이 경우, Viewpoint의 value가 동일한 값인 Adaptation Set는 동일한 BV 콘텐츠를 구성 가능한 BV 스트림임을 나타내는 것으로 된다.
또한, 제1 실시 형태의 변형예 1이나 제2 실시 형태의 변형 1에서는, Preselection으로 시그널된 BV 그룹에 대하여 추가 가능한 BV 스트림을 birdview coverage descriptor의 value에 있어서의 source_id로 관련짓고 있었다. 그러나, source_id 대신에, 그 BV 스트림이 추가 가능한 BV 그룹의 Preselection의 id를 나타내는 preselection_id에 의해 관련짓도록 해도 된다.
예를 들어 도 15에 도시한 예에서는, Preselection에 있어서의 「bv_base」가 preselection_id로 되어 있고, 이 preselection_id를 birdview coverage descriptor에 포함시킴으로써, BV 그룹의 BV 스트림과, 추가 BV 스트림을 관련지을 수 있다.
또한, 제1 실시 형태나 제1 실시 형태의 변형예 1, 제2 실시 형태, 제2 실시 형태의 변형예 1에 있어서, birdview coverage descriptor와 동등한 정보를, SupplementalProperty나 EssentialProperty가 아니라, Preselection의 Viewpoint 요소나 Adaptation Set의 Viewpoint 요소를 사용하여 시그널해도 된다. 이때, Viewpoint의 schemeIdUri와 Viewpoint의 value의 시맨틱스는, 상술한 birdview coverage descriptor에 있어서의 경우와 마찬가지이다.
그 밖에, BV 콘텐츠에 관한 파일 중 1개의 track에 텍스처와 메쉬, 또는 텍스처와 뎁스가 저장되고, 1개의 Adaptation Set로 BV 콘텐츠를 구성 가능한 경우에는, 그 Adaptation Set에 birdview descriptor를 시그널해도 된다.
이상과 같이, 제1 실시 형태 내지 제2 실시 형태의 변형예 1에 있어서 설명한 본 기술에 따르면, 텍스처나 메쉬, 뎁스 등의 각 종류의 BV 스트림을 DASH MPD 레이어, 즉 MPD 파일에 있어서 그룹화하고, 그 BV 그룹을 시그널할 수 있다. 이에 의해, 클라이언트가 BV 콘텐츠 시청에 필요한 BV 스트림을 용이하게 선택하거나 취득하거나 할 수 있다.
게다가, BV 그룹의 BV 스트림은, 전송 대역에 따라 적응적으로 화질 변경이 가능하여, 전송 대역(대역폭)의 유효 활용이 가능하다.
또한, BV 스트림의 표시 가능 영역 정보를 부가함으로써, 유저의 시야에 따라 필요한 추가 BV 스트림을 취득할 수 있고, BV 그룹의 BV 스트림과 추가 BV 스트림으로, 일부분이 고화질인 3D 모델을 구축할 수 있다.
<제3 실시 형태>
<BV 그룹의 시그널에 대하여>
그런데, 이상에 있어서는 BV 콘텐츠를 구성하는 BV 스트림을, DASH MPD 레이어로 그루핑하는 방법에 대하여 설명하였다. 그러나, 이러한 BV 스트림의 그루핑은, ISOBMFF 레이어에 있어서도 행할 수 있다.
이하에서는, BV 콘텐츠를 ISOBMFF에 저장하고, ISOBMFF 레이어에 있어서 BV 스트림의 그루핑을 행하는 경우를 예로 들어 설명한다.
그러한 경우, BV 콘텐츠가 저장되는 파일은, 예를 들어 도 34에 도시하는 포맷으로 된다.
도 34에서는, 파일 FL11이 BV 콘텐츠를 재생하기 위한 파일로 되어 있고, 예를 들어 파일 FL11은 ISOBMFF에 기초하는 MP4 파일 등으로 된다.
이 예에서는, 파일 FL11에는, 화살표 Q61로 나타내는 Movie Box(무비 박스)와, 화살표 Q62로 나타내는 Media Data Box(미디어 데이터 박스)가 마련되어 있다.
Media Data Box는, BV 콘텐츠를 재생하기 위한 BV 스트림이 저장되는 데이터 영역으로 되어 있고, Media Data Box에는 1개 또는 복수의 track(트랙)으로부터 참조되는 BV 스트림이 저장되어 있다. 그리고, 1개의 track으로부터 1개 또는 복수의 BV 스트림이 참조된다. 이후, track이 Media Data Box에 저장된 BV 스트림을 참조하는 것을, track이 BV 스트림을 저장한다라고도 칭하기로 한다.
또한, 1개의 track에는, 텍스처나 뎁스 등의 복수의 종류 중 1개의 종류의 BV 스트림이 저장되어도 되고, 2 이상의 종류의 BV 스트림이 저장되도록 해도 된다.
또한, Movie Box(moov)는, Media Data Box 내의 각 track에 관한 정보, 즉 여기서는 Media Data Box에 저장되는 BV 콘텐츠에 관한 메타 정보가 저장되는 영역이다. 바꾸어 말하면, Movie Box는 BV 콘텐츠를 관리하기 위한 미디어 표시 관리 정보가 저장되는 관리 영역이다.
보다 상세하게는, Movie Box에는 track에 관한 정보가 저장된 Track Box(trak)가 저장되어 있고, 여기서는 1개의 track에 대하여 1개의 Track Box가 마련되어 있다.
그리고, 이 Track Box에는, 예를 들어 화살표 Q63으로 나타내는 Track Group Box(trgr)와, 화살표 Q64로 나타내는 Media Box(mdia)가 저장되어 있다.
Track Group Box는, 1개 또는 복수의 track을 포함하는 track group(트랙 그룹)에 관한 정보가 저장되는 영역이며, 이 Track Group Box에 의해 track의 그룹화가 행해지고, 그룹에 공통의 정보가 시그널된다.
Track Group Box에는 Track Group Type Box(track_group_type)가 저장되어 있다. Track Group Type Box는, ISOBMFF에서 규정되어 있는 것이며, 동일한 특성을 갖는 복수의 track을 그루핑하기 위한 툴로서 이용된다.
또한, 화살표 Q64로 나타내는 Media Box에는, Media Information Box(minf)가 저장되어 있고, 또한 그 Media Information Box에는, track이 참조할 BV 스트림의 시간이나 어드레스 등의 정보를 관리하기 위한 Sample Table Box(stbl)가 저장되어 있다.
Sample Table Box에는, Sample Description Box(stsd)가 저장되어 있고, 또한 그 Sample Description Box에는 Sample Entry가 저장되어 있다.
이 Sample Entry에는, 화살표 Q65로 나타내는 Restricted Sample Entry(resv)와, 화살표 Q66으로 나타내는 Visual Sample Entry(coding name)가 있다. 바꾸어 말하면, Sample Entry의 종류로서, Restricted Sample Entry나 Visual Sample Entry가 존재한다.
Restricted Sample Entry에는, Restricted Scheme Information Box(rinf)가 저장되어 있고, 이 Restricted Scheme Information Box는 BV 스트림의 디코드(복호) 후의 포스트 프로세스에서 사용되는 정보가 저장되는 영역이다.
여기서는, Restricted Scheme Information Box에는 Scheme Type Box(schm)와 Scheme Information Box(schi)가 저장되어 있고, 특히 Scheme Information Box에 BV 스트림의 디코드 후의 포스트 프로세스에서 사용되는 정보가 저장된다.
또한, 화살표 Q66으로 나타내는 Visual Sample Entry(coding name)는, 비디오 코덱별로 결정되는 정보이며, 예를 들어 HEVC이면 hvc1 등으로 된다. 이 Visual Sample Entry에는, track으로부터 저장되는 비디오 시퀀스의 정보가 저장된다.
여기서, 도 34에 도시한 포맷의 파일에 있어서, BV 그룹을 구성하는 BV 스트림을 시그널하는 것을 고려한다.
본 기술에서는, 도 34에 도시한 포맷의 파일 중에서, track에 저장된 텍스처나 뎁스가 BV 콘텐츠를 구성하는 것을 시그널하기 위해, Track Group Type Box를 확장한 Birdview Group Box를 신규로 정의한다.
도 34에 도시한 예에서는, Track Group Type Box를 확장한 Birdview Group Box는, Track Group Box에 저장되게 된다.
즉, Birdview Group Box는, BV 콘텐츠를 구성하는 BV 스트림이 저장된 track에 대응하는 Track Box에만 저장되어 있다.
따라서, 클라이언트에서는 Track Box 내의 Birdview Group Box를 참조함으로써, BV 콘텐츠의 BV 스트림이 어느 track에 저장되어 있는지를 식별할 수 있다.
또한, 1개의 track에는 텍스처 또는 뎁스만이 저장되도록 해도 되고, 텍스처와 뎁스의 양쪽이 저장되도록 해도 된다.
여기서, Track Group Type Box의 신택스와 시맨틱스를 도 35에 도시한다.
도 35에 있어서 화살표 Q81로 나타내는 부분은 Track Group Type Box의 신택스를 나타내고 있고, 화살표 Q82로 나타내는 부분은 Track Group Type Box의 시맨틱스를 나타내고 있다.
Track Group Type Box는, ISOBMFF에서 규정되어 있는 것이며, 동일한 특성을 가진 복수의 track을 그루핑하기 위한 툴이다. 여기서, track의 특성(particular characteristics)이란, 예를 들어 동시에 재생할 가능성이 있는 track을 포함하는 소정의 그룹(track group)에 속해 있다고 하는 특성 등으로 된다.
Track Group Type Box에는, Track Group Type Box, 보다 상세하게는 그 Track Group Type Box가 저장되어 있는 Track Box에 대응하는 track이 갖는 특성을 나타내는 정보인 track_group_id가 포함되어 있다. 즉, track_group_id는 track이 속하는 track group의 id이다.
따라서, track group의 종별(종류)을 나타내는 track_group_type이 동일하고, 또한 동일한 track_group_id를 갖는 track은, 동일한 track group에 속함을 의미한다.
상술한 바와 같이, 본 기술에서는, 이 Track Group Type Box를 확장한 Birdview Group Box에 의해 BV 그룹을 구성하는 BV 스트림의 그루핑을 행한다.
도 35에 도시한 Track Group Type Box를 확장하여 얻어지는 Birdview Group Box의 신택스를 도 36에 도시한다.
도 36에 도시하는 예에서는, 화살표 Q91로 나타내는 바와 같이 track_group_type이 「"bvgp"」로 되어 있고, 이 track_group_type은, track group의 종별이 BV 그룹을 구성하는 BV 스트림이 저장된 track을 포함하는 track group임을 나타내고 있다.
또한, 도 36에 도시하는 Birdview Group Box에는, 상술한 track_group_id가 저장되어 있다. Birdview Group Box에 속하고, 동일한 track_group_id를 갖는 track이 저장하는 BV 스트림은, 동일한 BV 콘텐츠를 구성함을 의미하고 있다.
따라서, 클라이언트는, Track Box 내의 Birdview Group Box의 유무와, Birdview Group Box에 포함되는 track_group_id로부터, 동일한 BV 콘텐츠를 구성하는 BV 스트림이 저장되어 있는 track을 식별할 수 있다.
바꾸어 말하면, 클라이언트는, Track Box에 Birdview Group Box가 저장되어 있는지 여부와, Birdview Group Box 내의 track_group_id로부터, 동일한 BV 콘텐츠의 BV 스트림, 즉 BV 그룹을 구성할 BV 스트림을 식별할 수 있다. 이 점에서, Birdview Group Box는, 동일한 BV 콘텐츠를 재생하기 위한 BV 스트림이 저장되어 있는 track을 나타내는 정보, 즉 동일한 3D 모델을 구성하기 위한 복수의 BV 스트림을 나타내는 그룹 정보라고 할 수 있다.
이러한 구성의 파일로 함으로써, 예를 들어 HEVC나 AVC와 같은 일반적인, 즉 범용적인 코덱에서의 BV 스트림의 부호화 및 복호를 가능하게 하고, 또한 BV 콘텐츠를 재생 가능한 BV 스트림의 그루핑을 실현할 수 있다. 즉, BV 콘텐츠를 적절하게 재생할 수 있다.
또한, 도 36에 도시하는 Birdview Group Box에는, 임의의 Box를 저장할 수 있다. 그래서, 예를 들어 BV 콘텐츠의 표시 가능 영역 정보로서 도 37과 같은 Birdview Coverage Information Box를 신규로 정의하고, Birdview Group Box에 저장해도 된다.
도 37에 있어서 화살표 Q101로 나타내는 부분은 Birdview Coverage Information Box의 신택스를 나타내고 있고, 화살표 Q102로 나타내는 부분은 Birdview Coverage Information Box의 시맨틱스를 나타내고 있다.
Birdview Coverage Information Box는, BV 콘텐츠의 표시 가능 영역을 나타내는 정보이며, 상술한 birdview coverage descriptor에 상당한다.
여기서는, Birdview Coverage Information Box에는, 표시 가능 영역을 나타내는 정보(파라미터)로서, 「pos_x」, 「pos_y」, 「pos_z」, 「center_yaw」, 「center_pitch」, 「center_roll」, 「hor_range」 및 「ver_range」가 포함되어 있다.
구체적으로는, 파라미터 「pos_x」는, 공간 상에 있어서의 3D 모델의 중심 위치의 x 좌표를 나타내고 있다. 또한, 파라미터 「pos_y」는, 공간 상에 있어서의 3D 모델의 중심 위치의 y 좌표를 나타내고 있고, 파라미터 「pos_z」는, 공간 상에 있어서의 3D 모델의 중심 위치의 z 좌표를 나타내고 있다.
이들 파라미터 pos_x, pos_y 및 pos_z는, 도 7에 도시한 birdview coverage descriptor의 파라미터 x, y 및 z에 대응한다.
또한, 파라미터 「center_yaw」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 요각(yaw각)을 나타내고 있다. 파라미터 「center_pitch」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치를 나타내는 피치각(pitch각)을 나타내고 있고, 파라미터 「center_roll」은, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 중심 위치의 롤각(roll각), 즉 표시 가능 영역의 회전 각도를 나타내고 있다.
또한, 파라미터 「hor_range」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 수평 방향 각도 레인지를 나타내고 있고, 파라미터 「ver_range」는, 3D 모델의 중심 위치에서 보았을 때의 표시 가능 영역의 수직 방향 각도 레인지를 나타내고 있다.
이들 파라미터 center_yaw, center_pitch, center_roll, hor_range 및 ver_range는, 도 7에 도시한 birdview coverage descriptor에 있어서의 경우와 동일하다.
따라서, 클라이언트에서는, Birdview Coverage Information Box로 시그널되어 있는 각 파라미터를 참조함으로써, BV 콘텐츠의 표시 가능 영역을 특정(식별)할 수 있다.
또한, Birdview Group Box에 Birdview Coverage Information Box가 시그널되지 않는 경우, 즉 Birdview Coverage Information Box가 저장되어 있지 않는 경우에는, BV 콘텐츠가 표시 가능한 영역으로서 전체 주위를 커버하고 있음을 나타내고 있는 것으로 되어도 된다.
또한, 예를 들어 파일 내에 서로 표시 가능 영역이 다른 복수의 BV 콘텐츠의 BV 스트림이 저장되어 있는 경우도 있다. 그러한 경우에는, 클라이언트는, Birdview Coverage Information Box를 참조함으로써, 복수의 BV 콘텐츠 중에서, 유저의 시야에 따른 적절한 BV 콘텐츠, 즉 BV 스트림의 그룹을 선택하여 재생할 수 있다.
<파일 생성 장치와 클라이언트 장치의 동작에 대하여>
이상과 같이, BV 스트림의 그루핑이 ISOBMFF 레이어에 있어서 행해지는 경우, 예를 들어 파일 생성 장치(11)는, 도 10을 참조하여 설명한 업로드 처리와 마찬가지의 처리를 행한다.
단, 스텝 S12에서는, 세그먼트 파일 생성부(43)는, 데이터 입력부(31)로부터 공급된 메타데이터 등에 기초하여, 부호화부(42)로부터 공급된 BV 스트림의 부호화 데이터를 파일화함으로써, 도 34에 도시한 포맷의 파일을 생성한다. 이때, 생성된 파일에는, 도 36에 도시한 Birdview Group Box나 도 37에 도시한 Birdview Coverage Information Box가 저장되어 있다.
세그먼트 파일 생성부(43)는, 이러한 파일을 생성하면, 얻어진 파일에 기초하여 세그먼트 파일을 생성하고, 기록부(34)에 공급한다.
또한, 스텝 S13에서는, 제1 실시 형태나 제2 실시 형태 등에서 설명한 MPD 파일이 생성되어도 되고, 일반적인 MPD 파일이 생성되도록 해도 된다.
이와 같이 하여 세그먼트 파일과 MPD 파일이 생성되면, 그 후에는 스텝 S14 및 스텝 S15의 처리가 행해져 세그먼트 파일과 MPD 파일이 업로드되고, 업로드 처리는 종료된다.
또한, 여기서는, BV 콘텐츠의 파일이 MPEG-DASH 배신되는 예에 대하여 설명하지만, 생성된 BV 콘텐츠의 파일은 리무버블 기록 매체 등에 저장되거나 해도 된다.
또한, BV 스트림의 그루핑이 ISOBMFF 레이어에 있어서 행해지는 경우, 예를 들어 클라이언트 장치(71)는, 도 38에 도시하는 BV 콘텐츠 재생 처리를 행한다. 이하, 도 38의 흐름도를 참조하여, 클라이언트 장치(71)에 의해 행해지는 BV 콘텐츠 재생 처리에 대하여 설명한다.
또한, 스텝 S81 내지 스텝 S83의 처리는, 도 12의 스텝 S41 내지 스텝 S43의 처리와 마찬가지이므로, 그 설명은 생략한다.
스텝 S84에 있어서, 세그먼트 파일 취득부(94)는, 도 12의 스텝 S47과 마찬가지의 처리를 행하여, 서버로부터 BV 스트림이 저장된 세그먼트 파일을 취득하고, 세그먼트 파일 처리부(111)에 공급한다.
이때, 예를 들어 MPD 파일 처리부(93)는, MPD 파일 취득부(92)로부터 공급된 MPD 파일이나 전송 대역의 계측 결과 등에 기초하여, 취득할 Representation을 선택하고, 그 선택 결과를 세그먼트 파일 취득부(94)에 공급한다. 여기서는, 예를 들어 기본적으로는, 모든 Adaptation Set가 취득해야 할 Adaptation Set로서 선택되고, Adaptation Set별로, 전송 대역의 계측 결과 등에 따른 비트 레이트의 Representation이 선택된다.
그리고, 세그먼트 파일 취득부(94)는, MPD 파일 처리부(93)로부터 공급된 선택 결과에 기초하여, 그 선택 결과에 따라 세그먼트 파일을 취득한다.
이에 의해, 예를 들어 도 34에 도시한 포맷의 파일에 기초하여 생성된 세그먼트 파일이 취득된다.
또한, 여기서는 BV 콘텐츠의 파일이 MPEG-DASH 배신되는 예에 대하여 설명한다. 그러나, BV 콘텐츠의 파일이, 스트리밍 형식이 아니라, 서버로부터 일괄적으로 다운로드되도록 해도 되고, 하드 디스크나 리무버블 기록 매체 등으로부터 판독되도록 해도 물론 된다.
스텝 S85에 있어서, 세그먼트 파일 처리부(111)는 세그먼트 파일 취득부(94)로부터 공급된 세그먼트 파일, 즉 BV 콘텐츠의 파일에 기초하여, 그 파일에 저장된 BV 스트림에 의해 구성되는 BV 그룹을 선택한다.
예를 들어 세그먼트 파일 처리부(111)는, BV 콘텐츠의 파일에 있어서의 Birdview Group Box를 참조함으로써, 그 파일에 저장되어 있는 BV 스트림을 포함하는 BV 콘텐츠, 즉 BV 그룹을 식별한다.
구체적으로는 세그먼트 파일 처리부(111)는, Birdview Group Box가 시그널되어 있는 track이며, 또한 동일한 track_group_id로 되어 있는 track에 저장되어 있는 BV 스트림을, 1개의 BV 그룹을 구성하고 있는 BV 스트림이라고 식별한다.
세그먼트 파일 처리부(111)는, 식별된 BV 콘텐츠(BV 그룹) 중에서, 재생 대상으로 할 BV 콘텐츠를 선택한다.
이때, 세그먼트 파일 처리부(111)는, 예를 들어 Birdview Group Box에 저장되는 Birdview Coverage Information Box를 참조하여, 유저의 시야에 상당하는 영역을 표시 가능한 BV 그룹, 즉 표시 가능 영역 내에 유저의 시야 영역이 포함되는 BV 그룹을 선택하도록 해도 된다.
스텝 S86에 있어서, 세그먼트 파일 처리부(111)는, 스텝 S85에 있어서 선택한 동일한 BV 그룹을 구성할 track을 식별한다. 즉, 상술한 바와 같이 동일한 track_group_id로 되어 있는 track에 저장되어 있는 BV 스트림이, 1개의 BV 그룹을 구성하고 있는 BV 스트림이라고 식별된다. 이때, 각 track의 종류, 즉 track에 저장되어 있는 BV 스트림의 종류나 각 BV 스트림이 저장되어 있는 영역은, 예를 들어 후술하는 Birdview Information Box로부터 식별 가능하다.
스텝 S87에 있어서, 세그먼트 파일 처리부(111)는, BV 콘텐츠의 재생에 사용할 track을 선택하고, 스텝 S84에서 취득된 BV 콘텐츠의 파일 중 선택한 track으로부터, 부호화된 BV 스트림을 추출하고, 복호부(112)에 공급한다. 이때, 예를 들어 스텝 S85에서 선택된 BV 그룹을 구성하는 1개 또는 복수의 track이 전부 선택된다. 이와 같이 track을 선택한다는 것은, BV 콘텐츠의 재생에 사용할 BV 스트림을 선택하는 것이라고 할 수 있다.
부호화된 BV 스트림이 추출되면, 그 후, 스텝 S88 및 스텝 S89의 처리가 행해져 BV 콘텐츠 재생 처리는 종료되지만, 이들 처리는 도 12의 스텝 S49 및 스텝 S50의 처리와 마찬가지이므로, 그 설명은 생략한다.
이상과 같이 하여, 클라이언트 장치(71)는, 취득한 파일의 Birdview Group Box를 참조하여, 파일 내의 track, 즉 BV 스트림을 포함하는 BV 그룹(BV 콘텐츠)을 식별한다.
이와 같이 함으로써, ISOBMFF의 파일에 있어서도 범용적인 코덱으로 부호화된 BV 스트림을 포함하는 BV 그룹을 간단하게 식별할 수 있다. 이에 의해, BV 콘텐츠를 적절하게 재생할 수 있다.
<제3 실시 형태의 변형예 1>
<track에 저장된 BV 스트림 정보의 시그널에 대하여>
그런데, 제3 실시 형태에서 설명한 포맷(형식)의 파일에서는, 텍스처나 뎁스의 BV 스트림이 track에 저장되는데, 그 저장 방법의 베리에이션으로서, 예를 들어 이하의 3개의 방법이 고려된다.
우선, 제1 방법으로서는, 각 텍스처를 개별적으로 track에 저장하고, 뎁스에 대해서도 개별적으로 track에 저장한다고 하는 방법이다.
또한, 제2 방법은, 복수의 텍스처만을 1개의 화상에 패킹하고, track에 저장함과 함께, 마찬가지로 하여 복수의 뎁스만을 1개의 화상에 패킹하고, track에 저장하는 방법이다.
제3 방법은, 복수의 텍스처와 뎁스를 1개의 화상에 패킹하고, 1개의 track에 저장하는 방법이다.
제2 방법 및 제3 방법은, 기본적으로는 화상 정보인 복수의 BV 스트림을 나란히 배치하고, 그들 배열된 BV 스트림을 합성함으로써 1개의 화상을 구성하고, 얻어진 화상을 1개의 track에 저장한다고 하는 방법으로 되어 있다.
여기서, 제2 방법과 제3 방법의 구체예를 도 39에 도시한다.
도 39에서는, 화살표 Q81로 나타내는 부분에서는 제2 방법이 나타나 있고, 화살표 Q82로 나타내는 부분에서는 제3 방법이 나타나 있다.
즉, 제2 방법에서는, 화살표 Q81로 나타내는 바와 같이 8개의 텍스처 TX111 내지 텍스처 TX118이 배열되어 합성되고, 1개의 화상 PX11로 되어 있다. 바꾸어 말하면, 텍스처 TX111 내지 텍스처 TX118이 1개의 화상 PX11에 패킹되어 있다.
그리고, 이와 같이 하여 얻어진 화상 PX11이 1개의 track에 저장된다.
또한, 4개의 뎁스 DP111 내지 뎁스 DP114가 배열되고 합성되어 1개의 화상 PX12로 되고, 이 화상 PX12이 1개의 track에 저장된다.
이에 비해 제3 방법에서는, 8개의 텍스처 TX111 내지 텍스처 TX118과, 4개의 뎁스 DP111 내지 뎁스 DP114가 배열되고 합성되어 1개의 화상 PX13으로 되고, 이 화상 PX13이 1개의 track에 저장된다.
또한, 이하에서는, 텍스처나 뎁스를 패킹함으로써 얻어진, track에 저장되는 1개의 화상을 저장 화상이라고도 칭하기로 한다. 또한, 저장 화상 상에 있어서의, 1개의 BV 스트림의 영역, 즉 텍스처나 뎁스 등의 1개의 BV 스트림의 화상의 영역을 화상 영역이라고도 칭하기로 한다.
이상과 같이, 텍스처나 뎁스를 배열하여 합성함으로써, 그들 텍스처나 뎁스를 1개의 화상으로서 track에 저장할 수 있다. 보다 상세하게는, BV 스트림의 부호화 시에는, 저장 화상이 소정의 부호화 방식에 의해 부호화되고, 그 결과 얻어진 부호화 데이터가 track에 저장된다. 또한, BV 스트림의 복호 시에는, 저장 화상의 부호화 데이터가 복호되고, 얻어진 저장 화상으로부터 BV 스트림이 추출된다. 이에 의해, 서버나 클라이언트에서는, 저장 화상, 즉 저장 화상을 구성하는 텍스처나 뎁스를 HEVC나 AVC와 같은 범용의 부호화 방식(코덱)에 의해 부호화 및 복호하는 것이 가능하다.
예를 들어 제2 방법이나 제3 방법과 같이, 복수의 텍스처나 뎁스를 통합하여 track에 저장한 경우, 스트림 취득 시의 스케일러빌리티는 상실되지만, 스트림 취득수를 적게 하여, 네트워크 처리 오버헤드를 삭감할 수 있다고 하는 장점이 있다. 즉, 복수의 BV 스트림이 1개의 track에 저장되어 있기 때문에, 몇몇 BV 스트림을 선택적으로 취득할 수는 없지만, 한번의 처리로 복수의 BV 스트림을 취득하는 것이 가능하다.
본 기술에서는, 상술한 제1 방법 내지 제3 방법과 같은 3개의 케이스를 고려하여 track 내에 저장되는 BV 스트림의 정보를 시그널하기 위해, Birdview Information Box가 신규로 정의되어 있다.
이 Birdview Information Box는, BV 스트림의 디코드(복호) 후의 렌더링 시에 사용되는 정보이며, track에 저장되는 스트림에 있어서, 텍스처나 뎁스가 어떻게 패킹되어 있는지를 나타내는 정보를 시그널한다.
예를 들어, Birdview Information Box는 도 34에 도시한 파일에 있어서, ISOBMFF에서 정의되는 Restricted Scheme Information Box('rinf')나, Scheme Information Box('schi')에 저장된다.
여기서 Birdview Information Box의 신택스 예를 도 40에 도시하고, Birdview Information Box의 시맨틱스를 도 41에 도시한다.
도 40에 도시하는 예에서는, Birdview Information Box에는 파라미터로서 stream_num, streams_type, stream_left[i], stream_top[i], stream_width[i], stream_height[i], stream_type[i], IntrinsicCameraParameters(i) 및 ExtrinsicCameraParametersBox(i)가 포함되어 있다.
도 41에 도시하는 바와 같이, stream_num은 track에 포함되는 텍스처나 뎁스의 합계수, 즉 저장 화상에 포함되는 BV 스트림의 합계수를 나타내고 있다.
streams_type은 track에 저장된 저장 화상의 화상 구성 정보를 나타내고 있다.
즉, 여기서는 streams_type의 값이 0인 경우에는, streams_type은 track 내에는 텍스처와 뎁스의 양쪽이 존재함을 나타내고 있다. 즉, track 내에 저장된 저장 화상에는, 예를 들어 도 39의 화살표 Q82로 나타낸 바와 같이 텍스처와 뎁스가 포함되어 있다.
streams_type의 값이 1인 경우에는, streams_type은 track 내에는 텍스처만이 존재함을 나타내고 있고, streams_type의 값이 2인 경우에는, streams_type은 track 내에는 뎁스만이 존재함을 나타내고 있다. 또한, streams_type의 값 「3」은 리저브로 되어 있다.
특히 streams_type의 값이 1 또는 2인 경우, 이 streams_type은, 저장 화상 내의 각 BV 스트림의 종류를 나타내는 정보로 된다.
stream_left[i]는, track 내의 저장 화상에 패킹된 텍스처나 뎁스의 각 화상 영역의 좌측 상단 픽셀의 수평 방향 위치를 나타내고 있다. stream_top[i]는, track 내의 저장 화상에 패킹된 텍스처나 뎁스의 각 화상 영역의 좌측 상단 픽셀의 수직 방향 위치를 나타내고 있다.
stream_width[i]는, track 내의 저장 화상에 패킹된 텍스처나 뎁스의 각 화상 영역의 폭을 나타내고 있다. 또한, stream_height[i]는, track 내의 저장 화상에 패킹된 텍스처나 뎁스의 각 화상 영역의 높이를 나타내고 있다.
이상의 stream_left[i], stream_top[i], stream_width[i] 및 stream_height[i]로부터, 저장 화상 내의 텍스처나 뎁스의 화상 영역의 위치와 크기, 즉 어느 영역이 화상 영역인지를 특정할 수 있다. 따라서, 이들 stream_left[i], stream_top[i], stream_width[i] 및 stream_height[i]는, 저장 화상 상에 있어서의 BV 스트림의 화상 영역을 특정하기 위한 정보라고 할 수 있다.
stream_type[i]는, track 내의 저장 화상에 패킹된 각 화상 영역의 타입, 즉 화상 영역에 배치되는 BV 스트림의 종류를 나타내는 정보이다. 예를 들어 stream_type[i]의 값이 0인 경우, 그 화상 영역은 텍스처의 화상 영역임을 나타내고 있고, stream_type[i]의 값이 1인 경우, 그 화상 영역은 뎁스의 화상 영역임을 나타내고 있다. 또한, 0이나 1 이외의 stream_type[i]의 값은 리저브로 되어 있다.
또한, stream_type[i]는, streams_type의 값이 0인 경우, 즉 저장 화상 상에 텍스처의 화상 영역과 뎁스의 화상 영역이 혼재해 있는 경우에만 Birdview Information Box에 저장되고 있다.
IntrinsicCameraParameters(i)는, track 내의 저장 화상에 패킹된 텍스처나 뎁스에 관한 초점 거리나 주점 정보와 같은 내부 카메라 파라미터를 나타내고 있다. 이 IntrinsicCameraParameters(i)는, 예를 들어 Multiview acquisition information SEI(Supplemental Enhancement Information)의 정보로 된다.
ExtrinsicCameraParametersBox(i)는, track 내의 저장 화상에 패킹된 텍스처나 뎁스에 대한 촬영 시의 카메라의 회전이나 위치 정보와 같은 외부 카메라 파라미터를 나타내고 있다. 이 ExtrinsicCameraParametersBox(i)는, 예를 들어 Multiview acquisition information SEI의 정보 등으로 된다.
이들 IntrinsicCameraParameters(i)와 ExtrinsicCameraParametersBox(i)로부터, 대응하는 텍스처나 뎁스의 표시 가능 영역(커버리지)을 특정하는 것이 가능하다. 바꾸어 말하면, IntrinsicCameraParameters(i)와 ExtrinsicCameraParameters Box(i)는, 텍스처나 뎁스의 표시 가능 영역을 나타내는 표시 가능 영역 정보라고 할 수 있다.
stream_left[i], stream_top[i], stream_width[i], stream_height[i], stream_type[i], IntrinsicCameraParameters(i) 및 ExtrinsicCameraParameters Box(i)는, 저장 화상 내에 있는 화상 영역의 수만큼 저장된다. 즉, 이들 파라미터는 화상 영역마다 저장된다.
또한, stream_left[i], stream_top[i], stream_width[i] 및 stream_height[i]는, 픽셀 단위로의 시그널이 아니라, track 내에 포함되는 저장 화상 전체의 화각에 대한, 각 화상 영역의 위치나 폭, 높이 등을 나타내는 상대값으로 되어도 된다.
여기서, 구체적인 예로서, 도 39에 도시한 화상 PX13이 저장 화상으로서 1개의 track에 저장되는 경우에 있어서의 Birdview Information Box의 시그널 예를 도 42에 도시한다. 또한, 도 42에 있어서, 도 39에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 42에 도시하는 화상 PX13이 저장 화상으로서 1개의 track에 저장되는 경우, 화상 PX13은, 8개의 텍스처와 4개의 뎁스로 구성되고, 또한 화상 PX13을 구성하는 텍스처나 뎁스의 화상 영역의 수는 12로 된다. 따라서, Birdview Information Box에 있어서의 stream_num의 값은 12로 되고, streams_type의 값은 0으로 된다.
또한, 화상 PX13의 도 42 중, 좌측 상단에 위치하는 텍스처 TX111에 주목하는 것으로 하고, 그 텍스처 TX111의 도 42 중, 횡방향의 폭 및 높이가, 각각 480픽셀 및 960픽셀인 것으로 한다.
이 경우, 텍스처 TX111에 대해서는, stream_left[i]의 값이 0으로 되고, stream_top[i]의 값이 0으로 되고, stream_width[i]의 값은 480으로 되고, stream_height[i]의 값은 960으로 되고, stream_type[i]의 값은 0으로 된다.
클라이언트에서는, 이러한 Birdview Information Box를 참조함으로써, 각 track 내의 저장 화상에 있어서의 텍스처나 뎁스의 화상 영역이나, 그 화상 영역의 BV 스트림의 종류를 특정하고, 저장 화상으로부터 정확하게 텍스처나 뎁스를 추출할 수 있다.
이상과 같이, 1개의 track에 텍스처나 뎁스를 통합하여 저장하는 경우, 적어도 특정 시점 위치에서 보았을 때의 3D 모델을 구축할 수 있도록 track에 BV 스트림을 저장할 수도 있다. 그렇게 함으로써, 클라이언트에서는 1개의 track을 선택하고, 그 선택한 track에 저장되어 있는 BV 스트림만을 사용해도 BV 콘텐츠의 재생이 가능하게 된다.
Birdview Information Box가 시그널되는 경우, 파일 생성 장치(11)에서는, 제3 실시 형태에 있어서의 경우와 마찬가지의 업로드 처리가 행해진다.
단, 스텝 S12에서는, 예를 들어 도 40에 도시한 Birdview Information Box를 포함하는 파일이 생성되고, 그 파일에 기초하여 세그먼트 파일이 생성된다.
또한, Birdview Information Box가 시그널되는 경우, 클라이언트 장치(71)에서는, 도 38을 참조하여 설명한 BV 콘텐츠 재생 처리가 행해진다.
이 경우, 예를 들어 스텝 S86에서는, 세그먼트 파일 처리부(111)는 Birdview Information Box를 참조함으로써, track에 저장되어 있는 BV 스트림의 종류를 식별할 수 있다.
또한, 세그먼트 파일 처리부(111)에서는, Birdview Information Box를 참조함으로써 각 BV 스트림의 종류뿐만 아니라, 저장 화상 상에 있어서의 BV 스트림의 영역(화상 영역)을 식별할 수 있다. 따라서, 세그먼트 파일 처리부(111)가 그들 식별 결과를 표시 정보 생성부(113)에 공급함으로써, 표시 정보 생성부(113)는, 복호 후의 저장 화상으로부터, BV 콘텐츠의 재생에 필요한 BV 스트림을 추출할 수 있다.
<quality ranking의 시그널에 대하여>
또한, Birdview Quality Ranking Box를 신규로 정의하고, track에 저장되는 BV 스트림이나, BV 콘텐츠의 퀄러티(품질)를 나타내는 정보인 quality ranking을 시그널하도록 해도 된다.
예를 들어 Birdview Quality Ranking Box가 track에 저장되는 BV 스트림의 quality ranking을 시그널하는 경우에는, Birdview Quality Ranking Box는 Visual Sample Entry에 저장되도록 하면 된다.
이 경우, quality ranking은, 동일한 BV 콘텐츠를 재생하기 위한 BV 스트림이 저장된 track간, 즉 동일한 BV 콘텐츠를 재생하기 위한 복수의 BV 스트림간에 있어서의 각 BV 스트림의 상대적인 퀄러티(품질)를 나타내는 품질 정보로 된다.
또한, 예를 들어 Birdview Quality Ranking Box가 BV 콘텐츠의 quality ranking을 시그널하는 경우에는, Birdview Quality Ranking Box는 Birdview Group Box에 저장되도록 하면 된다.
이 경우, quality ranking은, 복수의 BV 콘텐츠간에 있어서의 각 BV 콘텐츠의 상대적인 퀄러티(품질)를 나타내는 품질 정보로 된다.
이와 같이 함으로써 클라이언트는, quality ranking에 기초하여, 예를 들어 유저의 시야 영역이 고화질의 BV 콘텐츠를 구성하는 track(BV 스트림)을 선택하거나 할 수 있다.
여기서, Birdview Quality Ranking Box의 신택스 및 시맨틱스의 예를 도 43 및 도 44에 도시한다.
도 43은, Birdview Quality Ranking Box의 신택스 예를 도시하고 있다.
이 예에서는, Birdview Quality Ranking Box에는, 파라미터로서 num_regions, remaining_area_flag, stream_type, quality_ranking, center_yaw, center_pitch, center_roll, hor_range 및 ver_range가 포함되어 있다.
여기서 파라미터 quality_ranking은, quality ranking의 값을 나타내고 있고, quality_ranking의 값이 1 이상인 경우, 그 값이 작을수록 높은 퀄러티임을 나타내고 있다.
또한, 다른 파라미터의 시맨틱스는 도 44에 도시하는 바와 같다.
즉, 파라미터 num_regions는, quality ranking이 시그널되는 영역수를 나타내는 정보이다.
파라미터 remaining_area_flag는, quality_ranking에 의해 나타나는 quality ranking의 값의 적용 범위로 되는 영역을 특정하기 위한 플래그 정보이다.
여기서는, 파라미터 remaining_area_flag의 값이 0이면, quality ranking이 시그널되는 각 영역, 즉 quality ranking의 값의 적용 범위로 되는 각 영역은, 파라미터 center_yaw, center_pitch, center_roll, hor_range 및 ver_range에 의해 정해지는 영역으로 된다.
이에 비해, 파라미터 remaining_area_flag의 값이 1이면, Birdview Quality Ranking Box 내에 기술된, quality ranking이 시그널되는 최초의 영역에서부터, 마지막에서 2번째 영역까지의 각 영역은, 파라미터 center_yaw, center_pitch, center_roll, hor_range 및 ver_range에 의해 정해지는 영역으로 된다.
그리고, Birdview Quality Ranking Box 내에 기술된, quality ranking이 시그널되는 마지막 영역은, 대응하는 BV 스트림의 표시 가능 영역 중의, 시그널된 파라미터 center_yaw, center_pitch, center_roll, hor_range 및 ver_range에 의해 정해지는 영역에 포함되지 않는 나머지 영역 부분 전부로 된다. 즉, BV 스트림의 표시 가능 영역 중의, quality ranking이 시그널되는 최초의 영역에서부터, 마지막에서 2번째 영역까지의 각 영역에 포함되어 있지 않은 나머지 영역이, quality ranking이 시그널되는 마지막 영역으로 된다.
또한, 이하에서는, 텍스처 또는 뎁스의 BV 스트림이나, BV 콘텐츠 등의 표시 가능 영역 내에 있어서의, quality ranking의 대상으로 되는 영역을 대상 영역이라고도 칭하기로 한다. 파라미터 remaining_area_flag는, 대상 영역을 나타내는 정보라고 할 수 있다.
stream_type은, quality ranking이 시그널되는 영역의 화상 정보, 즉 대상 영역의 종류를 나타내는 정보이다. 예를 들어 stream_type의 값이 0인 경우, 그 대상 영역은 텍스처의 영역임을 나타내고 있고, stream_type의 값이 1인 경우, 그 대상 영역은 뎁스의 영역임을 나타내고 있다. 또한, stream_type의 값이 2인 경우, 그 대상 영역은 BV 콘텐츠의 영역임을 나타내고 있고, stream_type의 값 「3」은 리저브로 되어 있다.
파라미터 center_yaw는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치를 나타내는 요각(yaw각)을 나타내고 있다. 또한, 파라미터 center_pitch는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치를 나타내는 피치각(pitch각)을 나타내고 있고, 파라미터 center_roll은, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 중심 위치의 롤각(roll각), 즉 대상 영역의 회전 각도를 나타내고 있다.
또한 파라미터 hor_range는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 수평 방향 각도 레인지를 나타내고 있고, 파라미터 ver_range는, 3D 모델의 중심 위치에서 보았을 때의 대상 영역의 수직 방향 각도 레인지를 나타내고 있다.
이들 파라미터 center_yaw, center_pitch, center_roll, hor_range 및 ver_range에 의해 대상 영역이 특정된다. 즉, 대상 영역은, 도 6을 참조하여 설명한 표시 가능 영역에 있어서의 경우와 마찬가지로, 예를 들어 구의 중심과, 그 중심과 중심이 일치하는 구 상의 4개의 원으로 둘러싸인 영역으로 되고, 특히 대상 영역은, 표시 가능 영역과 동일한 영역으로 되거나, 또는 표시 가능 영역의 일부의 영역으로 된다.
이상으로부터, Birdview Quality Ranking Box에서는, BV 콘텐츠나 BV 스트림에 있어서의 표시 가능 영역 내의 1개 또는 복수의 대상 영역별로 quality ranking이 시그널되게 된다.
또한, 여기서는 3D 모델의 내측, 즉 3D 모델의 중심에서 보았을 때의 영역을 대상 영역으로서 시그널하고 있지만, 3D 모델의 외측, 즉 소정의 기준으로 되는 시점 위치에서 보았을 때의 영역을 대상 영역으로서 시그널해도 된다.
이상과 같이 Birdview Quality Ranking Box가 시그널되는 경우, 파일 생성 장치(11)에서는, 제3 실시 형태에 있어서의 경우와 마찬가지의 업로드 처리가 행해진다.
단, 스텝 S12에서는, 예를 들어 도 43에 도시한 Birdview Quality Ranking Box를 포함하는 파일이 생성되고, 그 파일에 기초하여 세그먼트 파일이 생성된다.
또한, Birdview Quality Ranking Box가 시그널되는 경우, 클라이언트 장치(71)에서는, 도 38을 참조하여 설명한 BV 콘텐츠 재생 처리가 행해진다.
이 경우, 스텝 S85에서는, 예를 들어 세그먼트 파일 처리부(111)는 Birdview Group Box에 저장되어 있는 Birdview Quality Ranking Box를 참조하여, 유저의 시야에 상당하는 영역이 고화질인 BV 그룹을 선택하는 것이 가능하다.
마찬가지로, 예를 들어 스텝 S87에 있어서도, 세그먼트 파일 처리부(111)는 Visual Sample Entry에 저장되어 있는 Birdview Quality Ranking Box를 참조하여, 유저의 시야에 상당하는 영역이 고화질로 되는 BV 스트림을 선택하는 것이 가능하다.
또한, 예를 들어 도 37에 도시한 Birdview Coverage Information Box를, 도 34에 도시한 Restricted Scheme Information Box('rinf')나 Scheme Information Box('schi')로 시그널하도록 해도 된다.
이와 같이 함으로써, 예를 들어 각 track에 저장되는 BV 스트림, 즉 텍스처만이나, 뎁스만 등의 각 BV 스트림의 표시 가능 영역을 시그널할 수 있다. 또한, 1개의 track에 BV 콘텐츠를 구성하는 텍스처와 뎁스가 저장되어 있는 경우에는, BV 콘텐츠의 표시 가능 영역을 시그널할 수 있다. 또한, track 내의 저장 화상에 패킹된, 텍스처나 뎁스의 화상 영역의 단위로 표시 가능 영역을 시그널해도 된다.
<제3 실시 형태의 변형예 2>
<실루엣의 저장에 대하여>
또한, 상술한 Birdview Information Box를 확장함으로써, 제1 실시 형태의 변형예 3에서 설명한 실루엣, 즉 실루엣 화상을 도 34를 참조하여 설명한 파일(file format)에 저장하도록 해도 된다. 또한, 실루엣의 유용성에 대해서는 제1 실시 형태의 변형예 3에서 설명한 바와 같다.
텍스처나 뎁스와 마찬가지로, 실루엣도 1개의 track에 통합하여 저장함으로써, 스트림 취득 시의 스케일러빌리티는 상실되지만, 스트림 취득수를 적게 하여, 네트워크 처리 오버헤드를 삭감할 수 있다고 하는 장점이 있다.
track에 실루엣을 저장하는 경우, Birdview Information Box의 신택스는, 도 40에 도시한 것과 동일하지만, 그 시맨틱스는, 예를 들어 도 45에 도시하는 것으로 된다.
도 45에 도시하는 예에서는, stream_num은 track에 포함되는 텍스처나 뎁스, 실루엣의 합계수, 즉 저장 화상에 포함되는 BV 스트림의 합계수를 나타내고 있다.
또한, 여기서는, BV 스트림의 종류로서, 실루엣만의 BV 스트림 외에, 실루엣이 포함되는 뎁스의 BV 스트림도 존재하고 있는 것으로 한다. 이하에서는, 실루엣이 포함되어 있는 뎁스를, 특히 실루엣을 갖는 뎁스라고도 칭하기로 한다.
여기서는 각 track에는, 텍스처, 뎁스, 실루엣을 갖는 뎁스 및 실루엣 중 적어도 어느 하나의 종류의 BV 스트림이 저장되게 된다.
또한, streams_type은 track에 저장된 저장 화상의 화상 구성 정보를 나타내고 있다.
여기서는, 예를 들어 streams_type의 값이 0인 경우에는, streams_type은 track 내에는 텍스처, 뎁스, 실루엣을 갖는 뎁스 및 실루엣 중 적어도 2 이상의 것이 존재함을 나타내고 있다.
또한, streams_type의 값이 1인 경우에는, streams_type은 track 내에는 텍스처만이 존재함을 나타내고 있고, streams_type의 값이 2인 경우에는, streams_type은 track 내에는 뎁스만이 존재함을 나타내고 있다.
streams_type의 값이 3인 경우에는, streams_type은 track 내에는 실루엣을 갖는 뎁스만이 존재함을 나타내고 있고, streams_type의 값이 4인 경우에는, streams_type은 track 내에는 실루엣만이 존재함을 나타내고 있다. 또한, streams_type의 다른 값(0 내지 4 이외의 값)은 리저브로 되어 있다.
또한, 도 45에 도시하는 예에서는, stream_left[i], stream_top[i], stream_width[i] 및 stream_height[i]는 도 41에 도시한 예와 동일하게 되어 있다.
stream_type[i]는, track 내의 저장 화상에 패킹된 각 화상 영역의 타입을 나타내는 정보이다. 예를 들어 stream_type[i]의 값이 0인 경우, 그 화상 영역은 텍스처의 화상 영역임을 나타내고 있고, stream_type[i]의 값이 1인 경우, 그 화상 영역은 뎁스의 화상 영역임을 나타내고 있다.
stream_type[i]의 값이 3인 경우, 그 화상 영역은 실루엣을 갖는 뎁스의 화상 영역임을 나타내고 있고, stream_type[i]의 값이 4인 경우, 그 화상 영역은 실루엣의 화상 영역임을 나타내고 있다. 또한, 0 내지 4 이외의 stream_type[i]의 값은 리저브로 되어 있다.
또한, IntrinsicCameraParameters(i) 및 ExtrinsicCameraParametersBox(i)는, 도 41에 도시한 예와 동일하게 되어 있다.
도 45에 도시하는 예에서는, 뎁스와 실루엣의 ExtrinsicCameraParametersBox(i), 즉 외부 카메라 파라미터가 동일하면, 그들 뎁스와 실루엣은 시점 위치 등이 동일한, 즉 표시 가능 영역이 동일한, 페어로 되는 뎁스와 실루엣으로 된다.
바꾸어 말하면, 소정 뎁스와 동일한 외부 카메라 파라미터를 갖는 실루엣은, 그 소정 뎁스에 대응하는 실루엣이며, 그러한 실루엣을 사용하면, 소정 뎁스로부터 3D 모델(전경) 부분의 정보만을 추출할 수 있다. 따라서, 이 경우, 외부 카메라 파라미터는 뎁스와 실루엣을 관련짓는(대응짓는) 정보라고도 할 수 있다.
또한, 실루엣만을 포함하는 track과, 그 실루엣에 관련지어진 뎁스를 포함하는 track의 관련짓기(대응짓기)는, ISOBMFF에서 규정되어 있는 Track Reference Box를 사용하여 행할 수 있다. 이 경우, Track Reference Box에 저장되는 Track Reference Type Box에 있어서, reference_type="silh"가 신규로 정의되고, 실루엣만을 포함하는 track과 뎁스를 포함하는 track이 관련지어진다.
이상과 같이 실루엣을 갖는 뎁스나, 실루엣도 track에 저장되는 경우, 파일 생성 장치(11)에서는, 제3 실시 형태에 있어서의 경우와 마찬가지의 업로드 처리가 행해진다.
단, 스텝 S12에서는, 예를 들어 도 45에 도시한 시맨틱스에서 도 40에 도시한 Birdview Information Box가 생성된다. 그리고, 얻어진 Birdview Information Box 외에, 실루엣이나 실루엣을 갖는 뎁스 등이 저장된 track 등을 포함하는 파일이 생성되고, 그 파일에 기초하여 세그먼트 파일이 생성된다.
또한, 실루엣을 갖는 뎁스나, 실루엣도 track에 저장되는 경우, 클라이언트 장치(71)에서는, 도 38을 참조하여 설명한 BV 콘텐츠 재생 처리가 행해진다.
이 경우, 스텝 S89에서는, 텍스처나 뎁스 외에, 적절하게 실루엣도 사용되어, BV 콘텐츠를 재생하기 위한 3D 모델의 화상이 생성된다.
<제3 실시 형태의 변형예 3>
<BV 스트림의 패킹 방법에 대하여>
그런데, 제3 실시 형태의 변형예 1에서 설명한 바와 같이, 복수의 BV 스트림을 1개의 스트림(저장 화상)에 패킹하여 track에 저장하는 경우, 특정 패킹을 행함으로써 부호화 효율의 향상이나, 클라이언트(유저)의 시야에 따른 처리를 용이하게 한다고 하는 효과를 얻을 수 있다.
이하에서는, BV 스트림의 효과적인 4개의 패킹 방법과 그 장점에 대하여 설명한다. 또한, 어느 방법에 있어서도, 패킹 정보, 즉 각 BV 스트림에 관한 정보 등은 Birdview Information Box로 시그널할 수 있다.
구체적으로는, BV 스트림의 효과적인 패킹 방법으로서, 이하에 나타내는 제1 패킹 방법 내지 제4 패킹 방법에 대하여 설명한다.
(제1 패킹 방법)
시점 위치가 가까운 텍스처를 인접하여 배치시켜 패킹한다
(제2 패킹 방법)
텍스처나 뎁스의 중요한 영역을 고해상도화하여 패킹한다
(제3 패킹 방법)
대응하는 텍스처와 뎁스가 인접하도록 화상 영역을 배치하여 패킹한다
(제4 패킹 방법)
동일한 방향의 텍스처, 뎁스, 실루엣이 인접하도록 화상 영역을 배치하여 패킹한다
이들 패킹 방법 중, 우선, 제1 패킹 방법에 대하여 설명한다.
예를 들어 도 46의 화살표 Q101로 나타내는 바와 같이, 전경, 즉 3D 모델로 되는 오브젝트 OBJ11의 주위를 둘러싸도록 카메라 CMR11 내지 카메라 CMR18이 배치되어 있는 것으로 하자.
그리고, 이들 서로 다른 위치에 있는 카메라 CMR11 내지 카메라 CMR18에 의해 화상이 촬영되고, 카메라 CMR11 내지 카메라 CMR18의 각각의 시점 위치에 대응하는 텍스처 TX131 내지 텍스처 TX138의 각각이 생성되는 것으로 한다. 여기서는, 예를 들어 카메라 CMR11에 의해 촬영된 화상이, 그대로 텍스처 TX131로 된다.
이 경우, 제1 패킹 방법에서는, 화살표 Q102로 나타내는 바와 같이, 시점 위치가 가까운 텍스처를 인접하여 배치시켜 패킹을 행하여, 1개의 저장 화상으로 한다.
특히, 여기서는 저장 화상 상에 있어서, 저장 화상 상에 배치되는 텍스처 중, 가장 시점 위치가 가까운 텍스처끼리 인접하여 배치되어 있다. 즉, 도면 중, 좌측에서부터 텍스처 TX131 내지 텍스처 TX138의 순번으로 도면 중, 우측 방향으로 그들 텍스처가 배열되어 1개의 저장 화상으로 되어 있다.
여기서, 예를 들어 서로 인접하여 배열된 텍스처 TX131과 텍스처 TX132는, 텍스처 TX131 내지 텍스처 TX138 중에서, 서로 가장 시점 위치가 가까운 텍스처로 되어 있다.
이와 같이, 시점 위치가 가까운 텍스처끼리 인접하도록 패킹을 행하면, 예를 들어 서로 인접하는 텍스처간에 참조 관계를 갖게 하여 부호화(인코드)를 행하도록 함으로써, 부호화 효율을 향상시킬 수 있다.
구체적으로는, 예를 들어 상술한 텍스처 TX131과 텍스처 TX132는, 시점 위치가 가깝기 때문에, 텍스처 TX131과 텍스처 TX132 사이의 화소의 화소값의 차분은 작아진다. 그래서, 예를 들어 저장 화상의 텍스처 TX132의 화상 영역의 부분을 부호화할 때, 텍스처 TX131과 참조 관계를 갖게 하여, 즉 텍스처 TX131과 텍스처 TX132의 차분을 사용하여 부호화를 행하도록 함으로써, 부호화로 얻어지는 데이터의 부호량을 적게 할 수 있다. 이에 의해, 부호화 효율을 향상시킬 수 있다.
또한, 저장 화상의 부호화 시에는, 예를 들어 시점 위치가 가까운 텍스처를 통합하여 HEVC tile로서 부호화함으로써, 클라이언트의 시야, 즉 유저의 시야에 따라, 대응하는 텍스처 및 시야 주위의 텍스처를 독립적으로 복호(디코드)하고, 렌더링을 행하는 것이 가능하게 된다. 여기서, HEVC tile은, 독립적으로 부호화나 복호를 행할 수 있는 처리 단위이다.
또한, 여기서는 텍스처를 예로서 설명을 행하였지만, 뎁스나 실루엣 등에 대해서도 제1 패킹 방법을 적용하는 것이 가능하다.
또한, 실제로 카메라에 의해 촬영된 화상 그 자체가 텍스처로 되어도 되지만, 카메라에 의해 촬영된 복수의 화상 등으로부터 텍스처가 생성되거나 해도 된다. 예를 들어 미리 3D 모델을 구축해 두고, 그 후, 구축한 3D 모델에 기초하여, 가상적인 카메라 위치를 시점 위치로 한 텍스처나 뎁스, 실루엣을 생성하거나 해도 된다.
이어서, 제2 패킹 방법에 대하여 설명한다.
예를 들어 도 47에 도시하는 바와 같이 텍스처 TX131', 텍스처 TX132 내지 텍스처 TX134, 텍스처 TX135' 및 텍스처 TX136 내지 텍스처 TX138이 1개의 저장 화상에 패킹되는 것으로 하자. 또한, 도 47에 있어서 도 46에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 47에서는, 텍스처 TX131' 및 텍스처 TX135'가, 도 46에 도시한 텍스처 TX131 및 텍스처 TX135와 동일한 시점 위치의 텍스처로 되어 있다.
여기서는, 텍스처 TX131' 및 텍스처 TX135'와, 텍스처 TX131 및 텍스처 TX135는, 서로 텍스처 화상의 크기, 즉 해상도만이 다른 화상으로 되어 있다.
특히, 텍스처 TX131'는 오브젝트(3D 모델)의 전방면(정면)의 화상으로 되어 있고, 텍스처 TX135'는 오브젝트의 배면의 화상으로 되어 있다.
이 예에서는, 3D 모델의 정면 및 배면은, 다른 측면 등보다 중요한 것으로 한다.
따라서, 여기서는 텍스처 TX131'나 텍스처 TX135'의 표시 가능 영역은, 다른 텍스처 TX132 내지 텍스처 TX134나, 텍스처 TX136 내지 텍스처 TX138의 표시 가능 영역보다 중요도가 높은 것으로 되어 있다.
그 때문에, 텍스처 TX131'나 텍스처 TX135'의 해상도는, 다른 텍스처 TX132 내지 텍스처 TX134나, 텍스처 TX136 내지 텍스처 TX138의 해상도보다 높은 해상도로 되어 있다. 즉, 텍스처 TX131'나 텍스처 TX135'는 고해상도의 텍스처 화상으로 되어 있고, 텍스처 TX132 내지 텍스처 TX134나, 텍스처 TX136 내지 텍스처 TX138은, 저해상도의 텍스처 화상으로 되어 있다.
그리고, 이들 텍스처 TX131', 텍스처 TX135', 텍스처 TX132 내지 텍스처 TX134, 및 텍스처 TX136 내지 텍스처 TX138이 배열되어 1개의 저장 화상으로 되어 있다.
이와 같이 제2 패킹 방법에서는, 저장 화상 상에는, 서로 해상도(크기)가 다른 텍스처가 배치되어 있다. 이와 같이 함으로써, 중요한 영역을 고해상도로 하여 유저의 시청 체험의 품질을 손상시키지 않고, BV 스트림이 저장되는 파일의 사이즈 삭감을 실현할 수 있다. 이것은, 예를 들어 네트워크 경유로의 파일 전송 시의 장점으로 된다.
또한, 여기서는 텍스처를 예로 들어 설명을 행하였지만, 뎁스나 실루엣 등에 대해서도 제2 패킹 방법을 적용하는 것이 가능하다.
이어서, 제3 패킹 방법에 대하여 설명한다.
제3 패킹 방법에서는, 예를 들어 도 48에 도시하는 바와 같이, 서로 대응하는 텍스처와 뎁스, 즉 시점 위치(표시 가능 영역)가 동일한 텍스처와 뎁스가 인접하여 배치되어, 패킹이 행해진다. 또한, 도 48에 있어서 도 46에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 48에 도시하는 예에서는, 텍스처 TX131, 텍스처 TX133, 텍스처 TX135 및 텍스처 TX137과, 그들 텍스처에 대응하는 뎁스 DP131 내지 뎁스 DP134가 배열되어 1개의 저장 화상으로 되어 있다.
여기서는, 특히 서로 대응하는 텍스처 TX131과 뎁스 DP131, 텍스처 TX133과 뎁스 DP132, 텍스처 TX135와 뎁스 DP133, 및 텍스처 TX137과 뎁스 DP134가 각각 인접하도록 배치되어 있다.
이 경우, 예를 들어 텍스처 TX131과 뎁스 DP131 등, 대응하는 텍스처와 뎁스의 1개의 페어를 HEVC tile로 하여 저장 화상의 부호화가 행해진다.
이와 같이 함으로써, 예를 들어 유저의 시야에 따라 텍스처와 뎁스의 1개의 페어를 독립적으로 복호하였을 때, 복호로 얻어진 텍스처와 뎁스를, 그들 표시 가능 영역만 스테레오 표시하는 등, BV 콘텐츠 재생 이외의 용도로도 사용할 수 있다. 예를 들어 BV 콘텐츠 재생에 비대응인 클라이언트라도, 뎁스를 사용한 스테레오 표시에 대응하고 있다면, 시야에 따른 스테레오 영상 표시를 용이하게 행할 수 있다.
또한, 제4 패킹 방법에 대하여 설명한다.
제4 패킹 방법에서는, 예를 들어 도 49에 도시하는 바와 같이 동일한 방향, 즉 표시 가능 영역이 대략 동일한 텍스처, 뎁스 및 실루엣이 인접하여 배열되어 패킹되어 있다. 여기서, 동일한 방향이란, BV 스트림의 시점 위치에서 본 3D 모델의 방향이 대략 동일한 방향임을 말한다.
또한, 도 49에 있어서 도 46에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 49에 도시하는 예에서는, 텍스처 TX131, 텍스처 TX133, 텍스처 TX135 및 텍스처 TX137과, 그들 텍스처에 대응하는 뎁스 DP141 내지 뎁스 DP144 및 실루엣 SI141 내지 실루엣 SI144가 배열되어 1개의 저장 화상으로 되어 있다.
특히, 예를 들어 서로 대응하는, 즉 방향이 동일한 텍스처 TX131, 뎁스 DP141 및 실루엣 SI141이 인접하도록 배치되어 있다. 마찬가지로, 서로 대응하는 텍스처 TX133, 뎁스 DP142 및 실루엣 SI142와, 텍스처 TX135, 뎁스 DP143 및 실루엣 SI143과, 텍스처 TX137, 뎁스 DP144 및 실루엣 SI144가 각각 인접하도록 배치되어 있다.
이와 같이 제4 패킹 방법에서는, 저장 화상 상에 있어서, 텍스처와, 그 텍스처에 대응하는, 즉 동일한 방향인 뎁스 및 실루엣이 인접하여 배치되도록 이루어져 있다.
또한, 여기서는, 텍스처보다 뎁스나 실루엣이 상대적으로 저해상도인 것으로 되어 있다. 3D 모델 구성 시에 있어서, 3D 모델의 화질에 대한 기여는 텍스처가 지배적이기 때문에, 뎁스나 실루엣을 상대적으로 저화질로 함으로써, 유저 시청 체험의 품질을 손상시키지 않고, BV 스트림이 저장되는 파일의 사이즈 삭감을 실현할 수 있다.
또한, 부호화 시에 대응하는 뎁스와 실루엣에 참조 관계를 갖게 함으로써, 부호화 효율을 향상시킬 수 있다. 이것은, 예를 들어 네트워크 경유로의 파일 전송 시의 장점으로 된다.
<화상 영역의 재배치에 대하여>
또한, 예를 들어 미리 디폴트의 패킹 방법을 결정해 두고, 그것을 바탕으로 영역 재배치를 행하여 다른 패킹을 실현할 수도 있다.
구체적인 예로서, 예를 들어 상술한 제1 패킹 방법을 미리 정해진 패킹 방법, 즉 디폴트의 패킹 방법으로 하고, 적절하게, 영역 재배치가 행해져 제1 패킹 방법이 아니라 제2 패킹 방법으로의 패킹이 행해지도록 할 수도 있다.
이러한 경우, 각 패킹 방법에 있어서의 BV 스트림의 화상 영역의 배치는, 예를 들어 도 50에 도시하는 바와 같이 된다. 또한, 도 50에 있어서 도 46 또는 도 47에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 50에 도시하는 예에서는, 통상은, 도면 중, 좌측에 도시되는 바와 같이 동일한 해상도의 텍스처 TX131 내지 텍스처 TX138이 배열되어 1개의 저장 화상으로 된다. 즉, 상술한 제1 패킹 방법에 의해 패킹이 행해진다. 이하에서는, 제1 패킹 방법에 의해 생성된 1개의 저장 화상을, 특히 프로젝티드 픽처라고도 칭하기로 한다.
이와 같이 기본적으로는, 제1 패킹 방법에 의해 프로젝티드 픽처가 생성되고, 얻어진 프로젝티드 픽처가 track에 저장된다. 그러나, 경우에 따라서는 일부의 텍스처를 고해상도화하고 싶은 경우가 있다.
그러한 경우에는, 각 텍스처의 배치가 변경되어, 즉 영역 재배치가 행해져 도 50 중, 우측에 도시하는 바와 같이 제2 패킹 방법에 의해 패킹이 행해진다. 즉, 텍스처 TX131 및 텍스처 TX135가 고해상도화되어, 보다 해상도가 높은 텍스처 TX131' 및 텍스처 TX135'로 된다.
그리고, 텍스처 TX131', 텍스처 TX132 내지 텍스처 TX134, 텍스처 TX135' 및 텍스처 TX136 내지 텍스처 TX138이 제1 패킹 방법에 있어서의 경우와 다른 배치로 배열되어, 1개의 저장 화상으로 된다. 이하에서는, 제2 패킹 방법에 의해 생성된 1개의 저장 화상을, 특히 팩드 픽처라고도 칭하기로 한다.
이 예에서는, track에 저장되는 저장 화상 상에 있어서의 BV 스트림(텍스처)의 배치는, 미리 정해진 디폴트의 제1 패킹 방법에 의해 정해지는 배치, 또는 제2 패킹 방법에 의해 정해지는 배치 중 어느 것으로 된다. 특히, 영역 재배치가 행해진 경우에는, track에 저장되는 저장 화상은 팩드 픽처로 되고, 그 팩드 픽처 상에 있어서의 텍스처의 배치는, 제2 패킹 방법에 의해 정해지는 배치로 된다.
그런데, 프로젝티드 픽처와 팩드 픽처에서는 각 텍스처의 배치 위치의 관계, 즉 화상 영역의 위치 관계가 다르다.
예를 들어, 프로젝티드 픽처에 있어서의 배치가 디폴트로 되어 있을 때에는, 클라이언트에서는 프로젝티드 픽처 상의 텍스처의 배치는 기지이다. 그 때문에, 클라이언트에서는 프로젝티드 픽처로부터 각 텍스처를 정확하게 추출하여 렌더링을 행할 수 있다.
그러나, 영역 재배치가 행해져 팩드 픽처가 track에 저장되어 있을 때에는, 클라이언트에서는, 렌더링을 행할 때 저장 화상 상의 어느 영역이 어느 텍스처에 대응하는지를 특정할 수 없다면, 정확하게 텍스처를 추출할 수 없다.
그래서, 본 기술에서는, 영역 재배치가 행해질 때에는, 재배치 전후에 있어서의 텍스처의 배치 위치의 관계를 나타내는 정보를 영역 재배치 정보로서 시그널하도록 하였다.
구체적으로는, 예를 들어 영역 재배치 정보의 시그널에는, 도 51에 도시하는 바와 같이 확장된 RegionWisePackingBox를 사용하면 된다.
도 51에 도시하는 RegionWisePackingBox는, 예를 들어 Track Box나, Track Box 내의 임의의 Box 등에 저장된다. RegionWisePackingBox에는, RegionWisePackingStruct가 포함되어 있고, 이 RegionWisePackingStruct의 신택스는 도 52에 도시하는 바와 같이 된다.
도 52에 도시하는 RegionWisePackingStruct에는, 파라미터로서 num_regions, proj_picture_width, proj_picture_height 및 packing_type[i]가 저장되어 있다. 또한, RegionWisePackingStruct에는 RectRegionPacking(i)도 저장되어 있다.
이 RectRegionPacking(i)의 신택스는, 예를 들어 도 53에 도시하는 바와 같이 된다.
도 53에 도시하는 RectRegionPacking(i)에는, 파라미터로서 content_type, stream_type, IntrinsicCameraParameters(i), ExtrinsicCameraParametersBox(i), proj_reg_width[i], proj_reg_height[i], proj_reg_top[i], proj_reg_left[i], packed_reg_width[i], packed_reg_height[i], packed_reg_top[i] 및 packed_reg_left[i]가 저장되어 있다.
RegionWisePackingBox, 특히 RegionWisePackingBox 내의 RegionWisePackingStruct가 영역 재배치 정보로 되어 있고, RegionWisePackingStruct 및 RectRegionPacking(i)의 시맨틱스는 도 54에 도시하는 바와 같다.
즉, 파라미터 num_regions는, 저장 화상 내에 포함되어 있는 화상 영역의 개수, 즉 BV 스트림의 영역의 개수를 나타내고 있다.
파라미터 proj_picture_width는 재배치 전의 프로젝티드 픽처의 폭을 나타내고 있고, 파라미터 proj_picture_height는 재배치 전의 프로젝티드 픽처의 높이를 나타내고 있다.
파라미터 packing_type[i]는, RegionWisePackingStruct에 포함되어 있는 i번째 리전의 region-wise packing, 즉 i번째 RectRegionPacking(i)에 대응하는 BV 스트림의 화상 영역의 종류를 나타내고 있다.
구체적으로는, packing_type[i]의 값이 0인 경우, 화상 영역이 직사각형 영역인 것, 즉 직사각형 영역의 패킹임을 나타내고 있다. 또한, 0 이외의 packing_type[i]의 값은 리저브로 되어 있다.
파라미터 content_type은 콘텐츠의 타입을 나타내고 있다. 예를 들어 content_type의 값이 0인 경우, 콘텐츠가 전천구 영상임을 나타내고 있고, content_type의 값이 1인 경우, 콘텐츠가 Birdview 영상, 즉 BV 콘텐츠임을 나타내고 있다.
파라미터 stream_type은, 화상 영역의 화상 타입을 나타내고 있다.
구체적으로는, stream_type의 값이 0인 경우, 화상 영역은 텍스처(텍스처 화상)임을 나타내고 있고, stream_type의 값이 1인 경우, 화상 영역은 뎁스(뎁스 화상)임을 나타내고 있다.
또한, stream_type의 값이 2인 경우, 화상 영역은 실루엣을 갖는 뎁스(실루엣이 포함되는 뎁스 화상)임을 나타내고 있고, stream_type의 값이 3인 경우, 화상 영역은 실루엣(실루엣 화상)임을 나타내고 있다. 또한, 0 내지 3 이외의 stream_type의 값은 리저브로 되어 있다.
클라이언트에서는, 이 stream_type을 참조함으로써, RegionWisePackingStruct로 시그널되어 있는 i번째 화상 영역이 텍스처나 뎁스 등, 어떠한 종류의 BV 스트림의 영역인지를 특정할 수 있다.
파라미터 IntrinsicCameraParameters(i)는, i번째 화상 영역에 대한 초점 거리나 주점 정보와 같은 내부 카메라 파라미터를 나타내고 있다.
이 IntrinsicCameraParameters(i)는, 예를 들어 Multiview acquisition information SEI의 정보로 된다.
파라미터 ExtrinsicCameraParametersBox(i)는, i번째 화상 영역에 대한 촬영 시의 카메라의 회전이나 위치 정보와 같은 외부 카메라 파라미터를 나타내고 있다.
이 ExtrinsicCameraParametersBox(i)는, 예를 들어 Multiview acquisition information SEI의 정보 등으로 된다.
이들 IntrinsicCameraParameters(i)와 ExtrinsicCameraParametersBox(i)로부터, 대응하는 화상 영역에 저장된 텍스처나 뎁스의 표시 가능 영역(커버리지)을 특정하는 것이 가능하다.
파라미터 proj_reg_width[i]는 프로젝티드 픽처의 i번째 화상 영역의 폭을 나타내고 있고, 파라미터 proj_reg_height[i]는 프로젝티드 픽처의 i번째 화상 영역의 높이를 나타내고 있다.
또한, 파라미터 proj_reg_top[i]는 프로젝티드 픽처의 i번째 화상 영역의 좌측 상단 픽셀의 수직 방향 위치를 나타내고 있고, 파라미터 proj_reg_left[i]는 프로젝티드 픽처의 i번째 화상 영역의 좌측 상단 픽셀의 수평 방향 위치를 나타내고 있다.
이들 파라미터 proj_reg_width[i], proj_reg_height[i], proj_reg_top[i] 및 proj_reg_left[i]로부터, i번째 화상 영역의 프로젝티드 픽처 상에 있어서의 위치 및 크기를 특정할 수 있다. 즉, i번째 화상 영역의 재배치 전의 위치 및 크기를 특정할 수 있다.
따라서, 이들 proj_reg_width[i], proj_reg_height[i], proj_reg_top[i] 및 proj_reg_left[i]는, 디폴트의 제1 패킹 방법에 의해 정해지는 배치로 BV 스트림을 배치하였을 때의 저장 화상(프로젝티드 픽처) 상에 있어서의 BV 스트림의 화상 영역을 특정하기 위한 정보라고 할 수 있다.
파라미터 packed_reg_width[i]는 팩드 픽처의 i번째 화상 영역의 폭을 나타내고 있고, 파라미터 packed_reg_height[i]는 팩드 픽처의 i번째 화상 영역의 높이를 나타내고 있다.
또한, 파라미터 packed_reg_top[i]는 팩드 픽처의 i번째 화상 영역의 좌측 상단 픽셀의 수직 방향 위치를 나타내고 있고, 파라미터 packed_reg_left[i]는 팩드 픽처의 i번째 화상 영역의 좌측 상단 픽셀의 수평 방향 위치를 나타내고 있다.
이들 파라미터 packed_reg_width[i], packed_reg_height[i], packed_reg_top[i] 및 packed_reg_left[i]로부터 i번째 화상 영역의 팩드 픽처 상에 있어서의 위치 및 크기를 특정할 수 있다. 즉, i번째 화상 영역의 재배치 후의 위치 및 크기를 특정할 수 있다.
따라서, 이들 packed_reg_width[i], packed_reg_height[i], packed_reg_top[i] 및 packed_reg_left[i]는, 영역 재배치 시의 제2 패킹 방법에 의해 정해지는 배치로 BV 스트림을 배치하였을 때의 저장 화상(팩드 픽처) 상에 있어서의 BV 스트림의 화상 영역을 특정하기 위한 정보라고 할 수 있다.
여기서, 구체적인 예로서, 도 50에 도시한 팩드 픽처가 저장 화상으로서 1개의 track에 저장되는 경우에 있어서의 RegionWisePackingBox의 시그널 예를 도 55에 도시한다. 또한, 도 55에 있어서, 도 50에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 55에 도시하는 예에서는, 통상이라면 화살표 Q131로 나타내는 바와 같이 텍스처가 배열되어 프로젝티드 픽처로 되는 것이, 텍스처의 화상 영역의 재배치에 의해, 화살표 Q132로 나타내는 바와 같이 텍스처가 재배열되어 팩드 픽처로 된다.
이 경우, 텍스처 등에 의해 구성되는 콘텐츠는 BV 콘텐츠이기 때문에, RegionWisePackingBox에 저장되는 content_type의 값은 BV 콘텐츠를 나타내는 「1」로 된다. 또한, 화상 영역은 텍스처의 BV 스트림의 영역으로 되기 때문에, stream_type의 값은 「0」으로 된다.
또한, 프로젝티드 픽처의 도면 중, 좌측 단부에 위치하는 텍스처 TX131에 주목하는 것으로 하고, 그 텍스처 TX131의 도면 중, 횡방향의 폭 및 높이가, 각각 480픽셀 및 960픽셀인 것으로 한다. 여기서 텍스처 TX131의 좌측 상단 픽셀의 수직 방향 위치가 프로젝티드 픽처의 최상부를 나타내는 「0」이고, 텍스처 TX131의 좌측 상단 픽셀의 수평 방향 위치가 프로젝티드 픽처의 최좌측부를 나타내는 「0」인 것으로 한다.
이 경우, 재배치 전의 텍스처 TX131의 화상 영역에 대해서는, RectRegionPacking(i)에 있어서의 proj_reg_width[i]의 값은 480으로 되고, proj_reg_height[i]의 값은 960으로 되고, proj_reg_top[i]의 값은 0으로 되고, proj_reg_left[i]의 값은 0으로 된다.
또한, 텍스처 TX131의 재배치 후의 텍스처가 텍스처 TX131'이며, 그 텍스처 TX131'의 도면 중, 횡방향의 폭 및 높이가, 각각 960픽셀 및 1920픽셀인 것으로 한다. 또한 텍스처 TX131'의 좌측 상단 픽셀의 수직 방향 위치가 팩드 픽처의 최상부를 나타내는 「0」이고, 텍스처 TX131'의 좌측 상단 픽셀의 수평 방향 위치가 팩드 픽처의 최좌측부를 나타내는 「0」인 것으로 한다.
이 경우, 재배치 후의 텍스처 TX131'의 화상 영역에 대해서는, RectRegionPacking(i)에 있어서의 packed_reg_width[i]의 값은 960으로 되고, packed_reg_height[i]의 값은 1920으로 되고, packed_reg_top[i]의 값은 0으로 되고, packed_reg_left[i]의 값은 0으로 된다.
이와 같이 클라이언트에서는, RegionWisePackingBox를 참조함으로써, 재배치 전의 텍스처 TX131과, 재배치 후의 텍스처 TX131'의 대응 관계나, 재배치 후의 텍스처 TX131'의 팩드 픽처 상의 위치와 크기 등을 특정할 수 있다.
또한, 여기서는 텍스처를 예로 들어 영역 재배치에 대하여 설명하였지만, 뎁스나 실루엣의 화상 영역에 대해서도 텍스처에 있어서의 경우와 마찬가지로 하여 영역 재배치가 가능하다.
본 기술에서는, 이러한 RegionWisePackingBox를 이용함으로써, 콘텐츠의 특징 등에 따라 적절한 패킹 방법을 선택할 수 있다.
이상과 같은 제1 패킹 방법 내지 제4 패킹 방법에 의한 패킹이나, 화상 영역의 영역 재배치를 행하는 경우, 파일 생성 장치(11)에서는, 제3 실시 형태에 있어서의 경우와 마찬가지의 업로드 처리가 행해진다.
단, 스텝 S12에서는, 적절하게, 제1 패킹 방법 내지 제4 패킹 방법이나, 화상 영역의 영역 재배치 시의 패킹 방법에 따라 BV 스트림이 저장 화상에 패킹되고, track에 저장된다.
또한, 영역 재배치가 행해지는 경우에는, RegionWisePackingBox가 저장된 파일이 생성되고, 그 파일에 기초하여 세그먼트 파일이 생성된다.
또한, 제1 패킹 방법 내지 제4 패킹 방법에 의한 패킹이나, 화상 영역의 영역 재배치를 행하는 경우, 클라이언트 장치(71)에서는, 도 38을 참조하여 설명한 BV 콘텐츠 재생 처리가 행해진다.
이 경우, 예를 들어 화상 영역의 영역 재배치가 행해졌을 때에는, 스텝 S86에 있어서 세그먼트 파일 처리부(111)에 의해 RegionWisePackingBox가 참조되어 재배치 전후의 화상 영역의 배치 관계가 특정된다. 그리고, 그 특정 결과에 기초하여 표시 정보 생성부(113)에 의해 track으로부터 텍스처 등의 BV 스트림이 추출된다.
또한, 제1 패킹 방법 내지 제4 패킹 방법에 의한 패킹이 행해지고 있는 경우에는, 세그먼트 파일 처리부(111)는, Birdview Information Box를 참조하여, 각 BV 스트림의 화상 영역을 식별한다.
이상의 제3 실시 형태 내지 제3 실시 형태의 변형예 3에서 설명한 바와 같이, BV 스트림을 ISOBMFF의 파일의 track에 저장할 때에 있어서도 track의 그루핑을 행함으로써, BV 콘텐츠 시청에 필요한 BV 스트림을 저장할 track을 용이하게 선택할 수 있다.
또한, 복수의 BV 스트림을 1개의 스트림, 즉 1개의 저장 화상에 패킹하여 track에 저장함으로써, 스트림 취득수를 적게 하여, 네트워크 처리 오버헤드를 삭감할 수 있다. 또한, 제3 실시 형태의 변형예 3에서 설명한 바와 같은 패킹 방법으로 패킹을 행함으로써, 부호화 효율을 향상시킴과 함께 클라이언트(유저)의 시야에 따른 처리를 용이하게 행할 수 있도록 할 수 있다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 56은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 또한 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통하여, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통하여 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통하여, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여, 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.
여기서, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어, 본 기술은 하나의 기능을 네트워크를 통하여 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.
(1)
3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 취득하는 파일 취득부와,
상기 그룹 정보에 기초하여, 상기 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 상기 스트림을 선택하는 파일 처리부
를 구비하는 화상 처리 장치.
(2)
상기 관리 영역에는, 상기 3D 오브젝트 콘텐츠의 표시 가능 영역을 나타내는 정보가 저장되어 있는
(1)에 기재된 화상 처리 장치.
(3)
상기 관리 영역에는, 복수의 상기 3D 오브젝트 콘텐츠간에 있어서의 상기 3D 오브젝트 콘텐츠의 상대적인 품질을 나타내는 품질 정보가 저장되어 있는
(1) 또는 (2)에 기재된 화상 처리 장치.
(4)
상기 트랙에는, 복수의 상기 스트림을 나란히 배치함으로써 얻어진 1개의 화상이 저장되어 있는
(1) 내지 (3) 중 어느 한 항에 기재된 화상 처리 장치.
(5)
상기 관리 영역에는, 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 저장되어 있는
(4)에 기재된 화상 처리 장치.
(6)
상기 관리 영역에는, 상기 스트림의 종류를 나타내는 정보가 포함되어 있는
(4) 또는 (5)에 기재된 화상 처리 장치.
(7)
상기 스트림의 종류는, 텍스처, 뎁스, 실루엣이 포함되는 뎁스, 또는 실루엣인
(6)에 기재된 화상 처리 장치.
(8)
상기 화상에 있어서, 가장 시점 위치가 가까운 상기 스트림끼리 인접하여 배치되어 있는
(4) 내지 (7) 중 어느 한 항에 기재된 화상 처리 장치.
(9)
상기 화상에는, 서로 다른 해상도의 상기 스트림이 배치되어 있는
(4) 내지 (7) 중 어느 한 항에 기재된 화상 처리 장치.
(10)
상기 화상에 있어서, 텍스처의 상기 스트림과, 그 상기 텍스처에 대응하는 뎁스의 상기 스트림이 인접하여 배치되어 있는
(4) 내지 (7) 중 어느 한 항에 기재된 화상 처리 장치.
(11)
상기 화상에 있어서, 텍스처의 상기 스트림과, 그 상기 텍스처에 대응하는 뎁스의 상기 스트림 및 실루엣의 상기 스트림이 인접하여 배치되어 있는
(4) 내지 (7) 중 어느 한 항에 기재된 화상 처리 장치.
(12)
상기 화상 상에 있어서의 상기 스트림의 배치가, 미리 정해진 제1 배치, 또는 제2 배치로 되어 있고,
상기 화상 상에 있어서의 상기 스트림의 배치가 상기 제2 배치로 되어 있는 경우, 상기 관리 영역에는, 상기 제1 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보와, 상기 제2 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 포함되어 있는
(4) 내지 (7) 중 어느 한 항에 기재된 화상 처리 장치.
(13)
상기 관리 영역에는, 동일한 상기 3D 오브젝트 콘텐츠를 재생하기 위한 복수의 상기 스트림간에 있어서의 상기 스트림의 상대적인 품질을 나타내는 품질 정보가 포함되어 있는
(1) 내지 (12) 중 어느 한 항에 기재된 화상 처리 장치.
(14)
상기 관리 영역에는, 상기 스트림의 표시 가능 영역 내의 1개 또는 복수의 영역별로 상기 품질 정보가 포함되어 있는
(13)에 기재된 화상 처리 장치.
(15)
화상 처리 장치가,
3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 취득하고,
상기 그룹 정보에 기초하여, 상기 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 상기 스트림을 선택하는
화상 처리 방법.
(16)
3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 생성하는 파일 생성부를 구비하는
파일 생성 장치.
(17)
상기 파일을 송신하는 통신부를 더 구비하는
(16)에 기재된 파일 생성 장치.
(18)
상기 관리 영역에는, 상기 3D 오브젝트 콘텐츠의 표시 가능 영역을 나타내는 정보가 저장되어 있는
(16) 또는 (17)에 기재된 파일 생성 장치.
(19)
상기 관리 영역에는, 복수의 상기 3D 오브젝트 콘텐츠간에 있어서의 상기 3D 오브젝트 콘텐츠의 상대적인 품질을 나타내는 품질 정보가 저장되어 있는
(16) 내지 (18) 중 어느 한 항에 기재된 파일 생성 장치.
(20)
상기 트랙에는, 복수의 상기 스트림을 나란히 배치함으로써 얻어진 1개의 화상이 저장되어 있는
(16) 내지 (19) 중 어느 한 항에 기재된 파일 생성 장치.
(21)
상기 관리 영역에는, 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 저장되어 있는
(20)에 기재된 파일 생성 장치.
(22)
상기 관리 영역에는, 상기 스트림의 종류를 나타내는 정보가 포함되어 있는
(20) 또는 (21)에 기재된 파일 생성 장치.
(23)
상기 스트림의 종류는, 텍스처, 뎁스, 실루엣이 포함되는 뎁스, 또는 실루엣인
(22)에 기재된 파일 생성 장치.
(24)
상기 화상에 있어서, 가장 시점 위치가 가까운 상기 스트림끼리 인접하여 배치되어 있는
(20) 내지 (23) 중 어느 한 항에 기재된 파일 생성 장치.
(25)
상기 화상에는, 서로 다른 해상도의 상기 스트림이 배치되어 있는
(20) 내지 (23) 중 어느 한 항에 기재된 파일 생성 장치.
(26)
상기 화상에 있어서, 텍스처의 상기 스트림과, 그 상기 텍스처에 대응하는 뎁스의 상기 스트림이 인접하여 배치되어 있는
(20) 내지 (23) 중 어느 한 항에 기재된 파일 생성 장치.
(27)
상기 화상에 있어서, 텍스처의 상기 스트림과, 그 상기 텍스처에 대응하는 뎁스의 상기 스트림 및 실루엣의 상기 스트림이 인접하여 배치되어 있는
(20) 내지 (23) 중 어느 한 항에 기재된 파일 생성 장치.
(28)
상기 화상 상에 있어서의 상기 스트림의 배치가, 미리 정해진 제1 배치, 또는 제2 배치로 되어 있고,
상기 화상 상에 있어서의 상기 스트림의 배치가 상기 제2 배치로 되어 있는 경우, 상기 관리 영역에는, 상기 제1 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보와, 상기 제2 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 포함되어 있는
(20) 내지 (23) 중 어느 한 항에 기재된 파일 생성 장치.
(29)
상기 관리 영역에는, 동일한 상기 3D 오브젝트 콘텐츠를 재생하기 위한 복수의 상기 스트림간에 있어서의 상기 스트림의 상대적인 품질을 나타내는 품질 정보가 포함되어 있는
(16) 내지 (28) 중 어느 한 항에 기재된 파일 생성 장치.
(30)
상기 관리 영역에는, 상기 스트림의 표시 가능 영역 내의 1개 또는 복수의 영역별로 상기 품질 정보가 포함되어 있는
(29)에 기재된 파일 생성 장치.
(31)
파일 생성 장치가,
3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하기 위한 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 생성하는
파일 생성 방법.
11: 파일 생성 장치
33: MPD 파일 생성부
35: 업로드부
43: 세그먼트 파일 생성부
71: 클라이언트 장치
93: MPD 파일 처리부
94: 세그먼트 파일 취득부
111: 세그먼트 파일 처리부
113: 표시 정보 생성부

Claims (20)

  1. 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 취득하는 파일 취득부와,
    상기 그룹 정보에 기초하여, 상기 3D 오브젝트 콘텐츠의 재생에 사용할 복수의 상기 스트림을 선택하는 파일 처리부
    를 구비하는, 화상 처리 장치.
  2. 제1항에 있어서,
    상기 관리 영역에는, 상기 3D 오브젝트 콘텐츠의 표시 가능 영역을 나타내는 정보가 저장되어 있는,
    화상 처리 장치.
  3. 제1항에 있어서,
    상기 트랙에는, 복수의 상기 스트림을 나란히 배치함으로써 얻어진 1개의 화상이 저장되어 있는,
    화상 처리 장치.
  4. 제3항에 있어서,
    상기 관리 영역에는, 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 저장되어 있는,
    화상 처리 장치.
  5. 제3항에 있어서,
    상기 관리 영역에는, 상기 스트림의 종류를 나타내는 정보가 포함되어 있는,
    화상 처리 장치.
  6. 제5항에 있어서,
    상기 스트림의 종류는, 텍스처, 뎁스, 실루엣이 포함되는 뎁스, 또는 실루엣인,
    화상 처리 장치.
  7. 제3항에 있어서,
    상기 화상에 있어서, 가장 시점 위치가 가까운 상기 스트림끼리 인접하여 배치되어 있는,
    화상 처리 장치.
  8. 제3항에 있어서,
    상기 화상에는, 서로 다른 해상도의 상기 스트림이 배치되어 있는,
    화상 처리 장치.
  9. 제3항에 있어서,
    상기 화상 상에 있어서의 상기 스트림의 배치가, 미리 정해진 제1 배치, 또는 제2 배치로 되어 있고,
    상기 화상 상에 있어서의 상기 스트림의 배치가 상기 제2 배치로 되어 있는 경우, 상기 관리 영역에는, 상기 제1 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보와, 상기 제2 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 포함되어 있는,
    화상 처리 장치.
  10. 제1항에 있어서,
    상기 관리 영역에는, 동일한 상기 3D 오브젝트 콘텐츠를 재생하기 위한 복수의 상기 스트림간에 있어서의 상기 스트림의 상대적인 품질을 나타내는 품질 정보가 포함되어 있는,
    화상 처리 장치.
  11. 3D 오브젝트 콘텐츠를 관리하기 위한 정보가 저장되는 관리 영역과, 상기 3D 오브젝트 콘텐츠를 구성하는 스트림이 저장된 트랙이 저장되는 데이터 영역을 갖고, 상기 관리 영역에 상기 3D 오브젝트 콘텐츠를 구성하는 복수의 상기 스트림 중, 상기 3D 오브젝트 콘텐츠의 재생에 적절한 상기 스트림을 선택하기 위한 그룹 정보가 저장된 파일을 생성하는 파일 생성부를 구비하는,
    파일 생성 장치.
  12. 제11항에 있어서,
    상기 관리 영역에는, 상기 3D 오브젝트 콘텐츠의 표시 가능 영역을 나타내는 정보가 저장되어 있는,
    파일 생성 장치.
  13. 제11항에 있어서,
    상기 트랙에는, 복수의 상기 스트림을 나란히 배치함으로써 얻어진 1개의 화상이 저장되어 있는,
    파일 생성 장치.
  14. 제13항에 있어서,
    상기 관리 영역에는, 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 저장되어 있는,
    파일 생성 장치.
  15. 제13항에 있어서,
    상기 관리 영역에는, 상기 스트림의 종류를 나타내는 정보가 포함되어 있는,
    파일 생성 장치.
  16. 제15항에 있어서,
    상기 스트림의 종류는, 텍스처, 뎁스, 실루엣이 포함되는 뎁스, 또는 실루엣인,
    파일 생성 장치.
  17. 제13항에 있어서,
    상기 화상에 있어서, 가장 시점 위치가 가까운 상기 스트림끼리 인접하여 배치되어 있는,
    파일 생성 장치.
  18. 제13항에 있어서,
    상기 화상에는, 서로 다른 해상도의 상기 스트림이 배치되어 있는,
    파일 생성 장치.
  19. 제13항에 있어서,
    상기 화상 상에 있어서의 상기 스트림의 배치가, 미리 정해진 제1 배치, 또는 제2 배치로 되어 있고,
    상기 화상 상에 있어서의 상기 스트림의 배치가 상기 제2 배치로 되어 있는 경우, 상기 관리 영역에는, 상기 제1 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보와, 상기 제2 배치로 상기 스트림을 배치하였을 때의 상기 화상 상에 있어서의 상기 스트림의 영역을 특정하기 위한 정보가 포함되어 있는,
    파일 생성 장치.
  20. 제11항에 있어서,
    상기 관리 영역에는, 동일한 상기 3D 오브젝트 콘텐츠를 재생하기 위한 복수의 상기 스트림간에 있어서의 상기 스트림의 상대적인 품질을 나타내는 품질 정보가 포함되어 있는,
    파일 생성 장치.
KR1020207005955A 2017-09-15 2018-08-31 화상 처리 장치 및 파일 생성 장치 KR102543309B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017177382A JP2019054417A (ja) 2017-09-15 2017-09-15 画像処理装置およびファイル生成装置
JPJP-P-2017-177382 2017-09-15
PCT/JP2018/032327 WO2019054203A1 (ja) 2017-09-15 2018-08-31 画像処理装置およびファイル生成装置

Publications (2)

Publication Number Publication Date
KR20200051599A true KR20200051599A (ko) 2020-05-13
KR102543309B1 KR102543309B1 (ko) 2023-06-16

Family

ID=65722752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207005955A KR102543309B1 (ko) 2017-09-15 2018-08-31 화상 처리 장치 및 파일 생성 장치

Country Status (7)

Country Link
US (1) US11710274B2 (ko)
EP (2) EP4017017A1 (ko)
JP (1) JP2019054417A (ko)
KR (1) KR102543309B1 (ko)
CN (1) CN111095938B (ko)
TW (1) TW201921918A (ko)
WO (1) WO2019054203A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
US11823421B2 (en) * 2019-03-14 2023-11-21 Nokia Technologies Oy Signalling of metadata for volumetric video
US11831861B2 (en) * 2019-08-12 2023-11-28 Intel Corporation Methods for viewport-dependent adaptive streaming of point cloud content
US11677979B2 (en) * 2020-08-24 2023-06-13 Tencent America LLC Freeview video coding
CN116075805A (zh) * 2020-09-04 2023-05-05 松下电器(美国)知识产权公司 再现装置、发送装置、再现方法以及发送方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128613A1 (en) * 2015-02-10 2016-08-18 Nokia Technologies Oy A method, an apparatus and a computer program product for processing image sequence tracks
WO2017145757A1 (ja) * 2016-02-22 2017-08-31 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1862969A1 (en) * 2006-06-02 2007-12-05 Eidgenössische Technische Hochschule Zürich Method and system for generating a representation of a dynamically changing 3D scene
US8538166B2 (en) 2006-11-21 2013-09-17 Mantisvision Ltd. 3D geometric modeling and 3D video content creation
JP2011142586A (ja) * 2010-01-08 2011-07-21 Sony Corp 画像処理装置、情報記録媒体、および画像処理方法、並びにプログラム
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
US10791315B2 (en) 2013-01-04 2020-09-29 Qualcomm Incorporated Signaling of spatial resolution of depth views in multiview coding file format
US10085034B2 (en) * 2013-07-12 2018-09-25 Sony Corporation Image coding apparatus and method
KR102304687B1 (ko) * 2013-07-22 2021-09-27 소니그룹주식회사 정보 처리 장치 및 방법
KR20150012206A (ko) 2013-07-24 2015-02-03 한국전자통신연구원 3차원 콘텐츠의 부호화 방법 및 장치
CN111223037A (zh) * 2013-09-11 2020-06-02 索尼公司 图像处理设备及方法
KR101953679B1 (ko) * 2014-06-27 2019-03-04 코닌클리즈케 케이피엔 엔.브이. Hevc-타일드 비디오 스트림을 기초로 한 관심영역 결정
EP3177005B1 (en) * 2015-03-30 2023-09-27 Rakuten Group, Inc. Display control system, display control device, display control method, and program
WO2017140948A1 (en) * 2016-02-17 2017-08-24 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
US10511824B2 (en) * 2017-01-17 2019-12-17 2Sens Ltd. System device and methods for assistance in capturing stereoscopic video or images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128613A1 (en) * 2015-02-10 2016-08-18 Nokia Technologies Oy A method, an apparatus and a computer program product for processing image sequence tracks
WO2017145757A1 (ja) * 2016-02-22 2017-08-31 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Carriage of AVC based 3D video excluding MVC *
ISO/IEC 14496-12 Information technology-Coding of audio-visual objects-P art12: ISO base media file format
VR Industry Forum(2017.09.12. )* *

Also Published As

Publication number Publication date
TW201921918A (zh) 2019-06-01
EP4017017A1 (en) 2022-06-22
CN111095938A (zh) 2020-05-01
KR102543309B1 (ko) 2023-06-16
EP3684067B1 (en) 2022-03-16
EP3684067A1 (en) 2020-07-22
WO2019054203A1 (ja) 2019-03-21
CN111095938B (zh) 2024-03-01
US20200286283A1 (en) 2020-09-10
EP3684067A4 (en) 2020-07-22
JP2019054417A (ja) 2019-04-04
US11710274B2 (en) 2023-07-25

Similar Documents

Publication Publication Date Title
KR102545042B1 (ko) 화상 처리 장치 및 파일 생성 장치
KR102543309B1 (ko) 화상 처리 장치 및 파일 생성 장치
KR102307819B1 (ko) 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림
US11272159B2 (en) Method and device for transmitting stereo media content
JP7399224B2 (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
JP7151486B2 (ja) 生成装置、生成方法、再生装置および再生方法
US20220094903A1 (en) Method, apparatus and stream for volumetric video format
WO2018123646A1 (ja) 生成装置、識別情報生成方法、再生装置および画像生成方法
JP7239029B2 (ja) 画像処理装置およびファイル生成装置
KR102413098B1 (ko) 영상 처리 방법 및 이를 이용한 영상 재생 장치
TW202344044A (zh) 多視像視訊彩現和製備多視像視訊快取的方法以及即時多視像視訊轉換的系統

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right