JPWO2016084592A1 - 送信装置、送信方法、受信装置および受信方法 - Google Patents

送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
JPWO2016084592A1
JPWO2016084592A1 JP2016561483A JP2016561483A JPWO2016084592A1 JP WO2016084592 A1 JPWO2016084592 A1 JP WO2016084592A1 JP 2016561483 A JP2016561483 A JP 2016561483A JP 2016561483 A JP2016561483 A JP 2016561483A JP WO2016084592 A1 JPWO2016084592 A1 JP WO2016084592A1
Authority
JP
Japan
Prior art keywords
view
stream
video
information
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016561483A
Other languages
English (en)
Other versions
JP6624068B2 (ja
Inventor
高橋 和幸
和幸 高橋
北里 直久
直久 北里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016084592A1 publication Critical patent/JPWO2016084592A1/ja
Application granted granted Critical
Publication of JP6624068B2 publication Critical patent/JP6624068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Otolaryngology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

受信側でビュー切り替えを行う場合であっても3Dオーディオレンダリングを正しく行い得るようにする。第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第1のビューを基準とする位置情報を持つオーディオストリームを生成する。第1のビデオストリーム、第2のビデオストリームおよびオーディオストリームと、オブジェクト音源の位置情報を第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する。

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオストリームと共にオブジェクト音源のオーディオデータおよび位置情報を持つオーディオストリームを送信する送信装置等に関する。
従来、立体(3D)音響技術として、オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする3Dオーディオレンダリングの技術が提案されている(例えば、特許文献1参照)。
特表2014−520491号公報
上述したオブジェクト音源の位置情報は、一つのビューを基準としている。同じコンテンツに対して複数のビューを撮影する場合、使用するカメラの位置や方向は、カメラごとに異なる。そのため、受信側でビューを切り替える場合、基準としたビュー以外では、3Dオーディオレンダリングを正しく行うことができなくなる。
本技術の目的は、受信側でビュー切り替えを行う場合であっても3Dオーディオレンダリングを正しく行い得るようにすることにある。
本技術の概念は、
第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
送信装置にある。
本技術において、エンコード部により、第1のビューのビデオデータを持つ第1のビデオストリームおよび第2のビューのビデオデータを持つ第2のビデオストリームと共に、オーディオストリームが生成される。このオーディオストリームは、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第1のビューを基準とする位置情報を持つものである。
送信部により、第1のビデオストリーム、第2のビデオストリームおよびオーディオストリームと、オブジェクト音源の位置情報を第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナが送信される。例えば、位置補正情報は、第1のビューと第2のビューの位置および方向の差分成分である、ようにされてもよい。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
例えば、位置補正情報は、オーディオストリームのレイヤに挿入される、ようにされてもよい。この場合、オブジェクト音源のオーディオデータおよび位置情報と位置補正情報との同期が保証される。この場合、例えば、位置補正情報は、位置情報が含まれるメタデータ領域に挿入される、ようにされてもよい。また、この場合、例えば、位置補正情報は、ユーザデータ領域に挿入される、ようにされてもよい。
また、この場合、例えば、第2のビューが複数であるとき、オーディオストリームのレイヤに、複数の第2のビューに対応して複数の位置補正情報が挿入され、コンテナのレイヤに、複数の位置補正情報のそれぞれが対応する第2のビデオストリームを示す情報が挿入される、ようにされてもよい。
また、例えば、位置補正情報は、第2のビデオストリームのレイヤに挿入される、ようにされてもよい。この場合、位置補正情報と第2のビデオストリームとの対応付けが容易となる。この場合、例えば、位置補正情報は、ユーザデータ領域に挿入される、ようにされてもよい。
また、例えば、位置補正情報は、コンテナのレイヤに挿入される、ようにされてもよい。この場合、例えば、位置補正情報は、シグナリング情報として挿入される、ようにされてもよい。この場合、受信側では、システムのレイヤで位置補正情報を得ることが可能となる。
この場合、コンテナは、MPEG2―TSであり、位置補正情報は、プログラムマップテーブルの第2のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される、ようにされてもよい。
また、この場合、位置補正情報を含む情報ストリームが挿入される、ようにされてもよい。この場合、受信側では、オーディオストリームやビデオストリームとは独立した情報ストリームから位置補正情報を容易に取得可能となる。
このように本技術においては、第1のビデオストリーム、第2のビデオストリームおよびオーディオストリームと共に、オブジェクト音源の位置情報を第2のビューを基準とする位置情報に補正するための位置補正情報が送信されるものである。そのため、受信側で第2のビューに切り替えを行う場合、オブジェクト音源の位置情報としてこの位置補正情報で第2のビューを基準とするように補正されたものを用いることができ、3Dオーディオレンダリングを正しく行い得るようになる。
また、本技術の他の概念は、
第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
上記コンテナに含まれる情報を処理する処理部とを備える
受信装置にある。
本技術において、受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第1のビューを基準とする位置情報を持つオーディオストリームと共に、オブジェクト音源の位置情報を第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナが受信される。そして、処理部により、コンテナに含まれる情報が処理される。
例えば、処理部は、第1のビデオストリーム、第2のビデオストリームおよびオーディオストリームから、第1のビューのビデオデータ、第2のビューのビデオデータ、オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、第1のビューのビデオデータまたは第2のビューのビデオデータを選択的に出力するセレクタと、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、レンダリング部は、セレクタで第2のビューのビデオデータが選択されるとき位置補正情報に基づいて第2のビューを基準とするように補正された位置情報を用いる、ようにされてもよい。
このように本技術においては、例えば、第2のビューのビデオデータが選択されるとき、位置補正情報に基づいて第2のビューを基準とするように補正された位置情報が用いられてレンダリングが行われる。そのため、ビュー切り替えが行われる場合であっても、3Dオーディオレンダリングを正しく行い得るようになる。
また、本技術の他の概念は、
第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクタと、
上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
上記レンダリング部は、上記セレクタで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
受信装置にある。
本技術において、受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナが受信される。
取得部により、オブジェクト音源の位置情報を第2のビューを基準とする位置情報に補正するための位置補正情報が取得される。例えば、取得部は、位置補正情報を、オーディオストリームのレイヤ、第2のビデオストリームのレイヤあるいはコンテナのレイヤから取得する、ようにされてもよい。また、例えば、取得部は、位置補正情報を、ネットワーク上のサーバから取得する、ようにされてもよい。
デコード部により、第1のビデオストリーム、第2のビデオストリームおよびオーディオストリームから、第1のビューのビデオデータ、第2のビューのビデオデータ、オブジェクト音源のオーディオデータおよび位置情報が得られる。セレクタにより、第1のビューのビデオデータまたは第2のビューのビデオデータが選択的に出力される。
レンダリング部により、オブジェクト音源のオーディオデータがオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングされる。このレンダリング部では、セレクタで第2のビューのビデオデータが選択されるとき、位置補正情報に基づいて第2のビューを基準とするように補正された位置情報が用いられる。
このように本技術においては、第2のビューのビデオデータが選択されるとき、位置補正情報に基づいて第2のビューを基準とするように補正された位置情報が用いられてレンダリングが行われる。そのため、ビュー切り替えが行われる場合であっても、3Dオーディオレンダリングを正しく行い得るようになる。
本技術によれば、受信側でビュー切り替えを行う場合であっても3Dオーディオレンダリングを正しく行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 カメラによるビュー(映像)撮影とマイクロホンによる音声聴取の想定される状況の一例を示す図である。 ビュー1(View1)とオブジェクト音源の位置関係を示す図である。 ビュー2(View2)とオブジェクト音源の位置関係を示す図である。 オブジェクト音源の位置情報s(r,θ,φ)を補正(変換)するための変換式の一例を示す図である。 送信装置の構成例を示すブロック図である。 MPEG−H 3D Audioのオーディオフレームの構造を説明するための図である。 オブジェクトメタデータ(object_metadata())の構成例などを示す図である。 マルチビュー・ポジション・インフォメーション1(multiview_Position_information1())の構成例(Syntax)を示す図である。 構成情報「userdataConfig()」の構成例を示す図である。 コンポーネント・グループ・デスクリプタ(component_group_descriptor)の構造例を示す図である。 差分成分VP2,VP3がオーディオストリームのレイヤに挿入される場合におけるトランスポートストリームTSの構成例を示す図である。 ビデオシーケンス(Video_sequence)の構成例を示す図である。 ユーザデータの構成例などを示す図である。 マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())の構成例を示す図である。 MPEG4−AVCやHEVCにおけるユーザデータSEIの構成例などを示す図である。 差分成分VP2,VP3がビデオストリームのレイヤに挿入される場合におけるトランスポートストリームTSの構成例を示す図である。 マルチビュー・ポジション・インフォメーション・デスクリプタの構成例を示す図である。 差分成分VP2,VP3がコンテナ(システム)のレイヤにシグナリングとして挿入される場合におけるトランスポートストリームTSの構成例を示す図である。 送信装置の他の構成例を示すブロック図である。 位置補正情報ストリーム(エレメンタリストリーム)の構成例を示す図である。 差分成分VP2,VP3が位置補正情報ストリームとして挿入される場合におけるトランスポートストリームTSの構成例を示す図である。 位置補正情報の伝送方式をまとめて示す図である。 受信装置の構成例を示すブロック図である。 受信装置の他の構成例を示すブロック図である。 受信装置の他の構成例を示すブロック図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[送受信システムの構成例]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、送信装置100と受信装置200により構成されている。送信装置100は、トランスポートストリームTSを、放送波あるいはネットのパケットに載せて送信する。
このトランスポートストリームTSは、複数のビューのビデオデータをそれぞれ持つ複数のビデオストリームと、一つまたは複数のオブジェクト音源のオーディオデータおよび位置情報を持つオーディオストリームを有している。図2は、カメラによるビュー(映像)撮影とマイクロホンによる音声聴取の想定される状況の一例を示している。この実施の形態において、トランスポートストリームTSには、この想定状況に対応したビデオストリームおよびオーディオストリームが含まれるものとする。
すなわち、トランスポートストリームTSには、カメラ11で撮影されて得られたビュー1(View1)のビデオデータSV1を持つビデオストリームと、カメラ12で撮影されて得られたビュー2(View2)のビデオデータSV2を持つビデオストリームと、カメラ13で撮影されて得られたビュー3(View3)のビデオデータSV3を持つビデオストリームが含まれる。
また、トランスポートストリームTSには、1つのオーディオストリームが含まれる。このオーディオストリームには、マイクロホン21で得られたオーディオデータ(オブジェクト音源1(Object1)のオーディオデータ)と、このマイクロホン21のビュー1を基準とする位置情報(オブジェクト音源1の位置情報)が含まれる。また、このオーディオストリームには、マイクロホン22で得られたオーディオデータ(オブジェクト音源2(Object2)のオーディオデータ)と、このマイクロホン22のビュー1を基準とする位置の情報(オブジェクト音源2の位置情報)が含まれる。
また、このトランスポートストリームTSは、ビュー1とビュー2の位置および方向の差分成分を有している。この差分成分は、各オブジェクト音源の位置情報を、ビュー2を基準とする位置情報に補正するための位置補正情報を構成する。また、トランスポートストリームTSは、ビュー1とビュー3の位置および方向の差分成分を有している。この差分成分は、各オブジェクト音源の位置情報を、ビュー3を基準とする位置情報に補正するための位置補正情報を構成する。これらの差分成分は、オーディオストリームのレイヤ、あるいは第2のビューを構成するビュー2、ビュー3のビデオストリームのレイヤ、あるいはコンテナのレイヤに挿入される。
受信装置200は、送信装置100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、上述したように、ビュー1、ビュー2およびビュー3のビデオデータをそれぞれ持つ3つのビデオストリームと、オブジェクト音源1およびオブジェクト音源2のオーディオデータおよび位置情報を持つ1つのオーディオストリームを有している。
また、このトランスポートストリームTSは、各オブジェクト音源の位置情報を、ビュー2を基準とする位置情報に補正するための位置補正情報として、ビュー1とビュー2の位置および方向の差分成分を有している。また、このトランスポートストリームTSは、各オブジェクト音源の位置情報を、ビュー3を基準とする位置情報に補正するための位置補正情報として、ビュー1とビュー3の位置および方向の差分成分を有している。
受信装置200は、ビュー1、ビュー2、ビュー3のビデオデータによる画像を選択的に提示する。また、受信装置200は、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリングを行って、音声再生をする。この際、ビュー2やビュー3が選択される場合には、差分成分により補正された位置情報が用いられ、レンダリングが正しく行い得るようにされる。
すなわち、ビュー2が選択されるとき、ビュー1とビュー2の位置および方向の差分成分に基づいて第2のビューを基準とするように補正された位置情報が用いられる。また、ビュー3が選択されるとき、ビュー1とビュー3の位置および方向の差分成分に基づいて第3のビューを基準とするように補正された位置情報が用いられる。
図3は、ビュー1(View1)とオブジェクト音源の位置の関係を示している。オブジェクト音源の位置は、ビュー1を基準として、極座標s(r,θ,φ)で表記でき、また、直交座標p(x,y,z)で表記できる。ここで、“r”はラジアス(Radius)を示し、“θ”はエレベーション(Elevation)を示し、“φ”はアジマス(Azimuth)を示している。
上述したように、送信装置100は、オブジェクト音源のオーディオデータおよび位置情報を含むオーディオストリームを送信する。このオーディオストリームには、3Dオーディオのメタデータが含まれる。このメタデータとして、オブジェクト音源の極座標s(r,θ,φ)の各座標値やゲイン(Gain)値が挿入される。
図4は、ビュー2(View2)とオブジェクト音源の位置関係を示している。オブジェクト音源の位置は、ビュー2を基準として、極座標s’(r’,θ’,φ’)で表記でき、また、直交座標p’(x’,y’,z’)で表記できる。ここで、ビュー1とビュー2の位置および方向の差分成分は、空間的な位置の差分成分(Δx,Δy,Δz)と、方向の差分成分(Δθ,Δφ)とからなる。
受信装置200は、これらの差分成分を用いて、オブジェクト音源の位置情報s(r,θ,φ)を、ビュー2を基準とする位置情報s’(r’,θ’,φ’)に補正(変換)できる。図5は、その場合における変換式の一例を示している。なお、この変換式において、(x,y,z)はオブジェクト音源の直交座標p(x,y,z)の各座標値に対応し、(x1,y1,z1)は差分成分(Δx,Δy,Δz)に対応する。
なお、詳細説明は省略するが、ビュー3とオブジェクト音源の位置関係についても同様である。
[送信装置の構成例]
図6は、送信装置100の構成例を示している。この送信装置100は、制御部111と、ビデオエンコーダ112,113,114と、3Dオーディオエンコーダ115と、システムエンコーダ116と、送信部117を有している。制御部111は、送信装置100の各部の動作を制御する。
ビデオエンコーダ112,113,114は、それぞれ、ビュー1,2,3のビデオデータSV1,SV2,SV3を入力し、このビデオデータSV1,SV2,SV3に対して、例えば、MPEG2、MPEG4−AVCあるいはHEVCなどの符号化を施し、ビデオストリームを得る。3Dオーディオエンコーダ115は、オブジェクト音源1,2に係るオブジェクトデータを入力し、このオブジェクトデータに対して、例えばMPEG−H 3D Audioの符号化を施し、オーディオストリームを得る。
ここで、オブジェクト音源1に係るオブジェクトデータは、オブジェクトオーディオデータSA1とオブジェクトメタデータMETA1とからなる。このオブジェクトメタデータMETA1には、オブジェクト音源1の極座標s(r,θ,φ)の各座標値やゲイン(Gain)値が含まれている。また、オブジェクト音源2に係るオブジェクトデータは、オブジェクトオーディオデータSA2とオブジェクトメタデータMETA2からなる。このオブジェクトメタデータMETA2には、オブジェクト音源2の極座標s(r,θ,φ)の各座標値やゲイン(Gain)値が含まれている。
システムエンコーダ116は、ビデオエンコーダ112,113,114から出力されるビデオストリームおよび3Dオーディオエンコーダ115から出力されるオーディオストリームを、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。送信部117は、このトランスポートストリームTSを、放送波あるいはネットのパケットに載せて、受信装置200に送信する。
この実施の形態において、送信装置100では、ビュー1とビュー2の位置および方向の差分成分VP2(Δx,Δy,Δz,Δθ,Δφ)と、ビュー1とビュー3の位置および方向の差分成分VP3(Δx,Δy,Δz,Δθ,Δφ)が、(1)オーディオストリームのレイヤ、(2)ビデオストリームのレイヤ、あるいは(3)コンテナのレイヤに挿入される。ここで、差分成分VP2は、オブジェクト音源1,2の位置情報を、ビュー2を基準とする位置情報に補正するための位置補正情報を構成する。また、差分成分VP3は、オブジェクト音源1,2の位置情報を、ビュー3を基準とする位置情報に補正するための位置補正情報を構成する。
「(1)オーディオストリームのレイヤに挿入される場合」
差分成分VP2,VP3がオーディオストリームのレイヤに挿入される場合について説明する。この場合、3Dオーディオエンコーダ115は、オーディオストリームのレイヤに、位置補正情報としての差分成分VP2,VP3を挿入する。この場合、メタデータ領域あるいはユーザデータ領域に挿入される。
図7は、MPEG−H 3D Audioのオーディオフレームの構造を示している。このオーディオフレームは、複数のMPEGオーディオストリームパケット(mpeg Audio Stream Packet)からなっている。各MPEGオーディオストリームパケットは、ヘッダ(Header)とペイロード(Payload)により構成されている。
ヘッダは、パケットタイプ(Packet Type)、パケットラベル(Packet Label)、パケットレングス(Packet Length)などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“SYNC”と、実際のデータである“Frame”と、この“Frame”の構成を示す“Config”が存在する。
オブジェクト音源に係るオブジェクトデータは、上述したように、オブジェクトオーディオデータおよびオブジェクトメタデータとからなる。これらのデータは“Frame”に含まれる。ここで、オブジェクトオーディオデータは、SCE(Single Channel Element)の符号化サンプルデータとして含まれる。また、オブジェクトメタデータは、エクステンションエレメント(Ext_element)として含まれる。また、ユーザデータを含めるエクステンションエレメント(Ext_element)を定義することもできる。
差分成分VP2,VP3がメタデータ領域に挿入される場合、この差分成分VP2,VP3は、オブジェクトメタデータが含まれるエクステンションエレメント(Ext_element)に挿入される。
図8(a)は、オブジェクトメタデータ(object_metadata())の構成例(Syntax)を示している。図8(b)は、このオブジェクトメタデータに含まれる、オブジェクトメタデータ・エフィシェント(object_metadata_efficient())の構成例(Syntax)を示している。このオブジェクト・メタデータ・エフィシェントのイントラコーデド・メタデータ・エフィシェント(intracoded_ object_metadata_efficient())内に、差分成分VP2,VP3を持つマルチビュー・ポジション・インフォメーション1(multiview_Position_information1())が配置される。
図9は、マルチビュー・ポジション・インフォメーション1(multiview_Position_information1())の構成例(Syntax)を示している。「process_multiview」の1ビットフィールドは、マルチビューであることを示すフラグである。マルチビューであるとき、「multiview_count」の8ビットフィールドが存在する。このフィールドは、ビューの総数を示す。図2に示す例では、ビューの総数は「3」である。
そして、“総数−1”だけ、つまりビュー1(View1)以外の各ビューの差分成分のフィールドが存在する。図2に示す例では、ビュー2(View2)、ビュー3(View3)の差分成分VP2,VP3のフィールドが存在することになる。差分成分のフィールドは、「Δx」の8ビットフィールドと、「Δy」の8ビットフィールドと、「Δz」の8ビットフィールドと、「Δθ」の9ビットフィールドと、「Δφ」の7ビットフィールドとからなる。
「Δx」のフィールドには、Δx、つまりビュー1(View1)を原点としたときの対象ビュー(View)のx座標の値を示す。「Δy」のフィールドには、Δy、つまりビュー1(View1)を原点としたときの対象ビュー(View)のy座標の値を示す。「Δz」のフィールドには、Δz、つまりビュー1(View1)を原点としたときの対象ビュー(View)のz座標の値を示す。「Δθ」のフィールドは、Δθ、つまりビュー1(View1)に対するθの差を示す。「Δφ」のフィールドは、Δφ、つまりビュー1(View1)に対するφの差を示す。
差分成分VP2,VP3がユーザデータ領域に挿入される場合、この差分成分VP2,VP3は、ユーザデータを含めるエクステンションエレメント(Ext_element)に挿入される。
この場合、エクステンションエレメント(Ext_element)としてユーザデータ(user_data())が含まれるエレメント(Ext_userdata)が新たに定義される。これに伴って、“Config”に、そのエレメント(Ext_userdata)の構成情報「userdataConfig()」が新たに定義される。
図10(a)は、構成情報「userdataConfig()」の構成例(syntax)を示している。「userdata_identifier」の32ビットフィールドは、予め定義された配列の値がセットされることでユーザデータであることを示す。「userdata_frame_length」の16ビットフィールドは、ユーザデータ(user_data())のバイト数を示す。
図10(b)は、ユーザデータ(user_data())の構成例(syntax)を示している。「user_data_identifier」の32ビットフィールドに“0x47413934”(“GA94”)が挿入されることで、「user_structure()」のフィールドに、「ATSC_user_data()」が含まれる。図10(c)は、「ATSC_user_data()」の構成例(syntax)を示している。
「user_data_type_code」の8ビットフィールドに、マルチビュー・ポジション・インフォメーション1(multiview_Position_information1())を示す、例えば“0x07”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション1(multiview_Position_information1())(図9参照)が含まれる。
なお、このように差分成分VP2,VP3がオーディオストリームのレイヤに挿入される場合、システムエンコーダ116は、コンテナ(システム)のレイヤに、複数の差分成分のそれぞれが対応するビデオストリームを示す情報を挿入する。例えば、システムエンコーダ116は、オーディオストリームに対応したオーディオ・エレメンタリストリームループ内に、コンポーネント・グループ・デスクリプタ(component_group_descriptor)を用いて挿入する。
図11は、コンポーネント・グループ・デスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、コンポーネント・グループ・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
「component_group_type」の4ビットフィールドは、コンポーネント・グループのタイプを示す。ここでは、“0”とされ、3Dオーディオのマルチビューに関連する映像・音声のコンポーネント・グループであることが示される。「num_video」の4ビットフィールドは、ビデオストリーム(ビデオエレメンタリストリーム)の個数を示す。そして、この個数分だけフォーループ(for loop)で、「component_tag」の8ビットフィールドが繰り返えされる。この「component_tag」のフィールドは、関連する映像コンポーネントのコンポーネントタグ(Component_tag)の値を示す。
この実施の形態において、ビュー1(View1)、ビュー2(View2)、ビュー3(View3)のビデオデータを含むビデオストリームのコンポーネントタグの値が順に記述される。因みに、各ビデオストリームに対応したビデオ・エレメンタリストリームループ内には、パケット識別子(PID)、コンポーネントタグ(Component_tag)、ストリームタイプ(Stream_Type)等の情報が配置されている。これにより、ビュー2(View2)、ビュー3(View3)のビデオデータを含むビデオストリームが特定され、従って、オーディオストリームのレイヤに挿入される差分成分VP2,VP3のそれぞれが対応するビデオストリームが特定される。
「num_audio」の8ビットフィールドは、オーディオストリーム(オーディオエレメンタリストリーム)の個数を示す。そして、この個数分だけフォーループ(for loop)で、「component_tag」の8ビットフィールドが繰り返される。この「component_tag」のフィールドは、関連する音声コンポーネントのコンポーネントタグ(Component_tag)の値を示す。
図12は、差分成分VP2,VP3がオーディオストリームのレイヤに挿入される場合における、トランスポートストリームTSの構成例を示している。この場合、トランスポートストリームTSには、ビュー1(View1)のビデオデータを含むビデオストリームのPESパケット「Video PES1」と、ビュー2(View2)のビデオデータを含むビデオストリームのPESパケット「Video PES2」と、ビュー3(View3)のビデオデータを含むビデオストリームのPESパケット「Video PES3」が存在する。
また、トランスポートストリームTSには、オーディオストリームのPESパケット「audio PES」が存在する。このオーディオストリームのPESパケットのPESペイロードには、上述したマルチビュー・ポジション・インフォメーション1(multiview_Position_information1())(図9参照)が挿入されている。
また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ(Program Descriptor)が存在する。
また、このPMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、3つのビデオストリームにそれぞれ対応したビデオ・エレメンタリストリームループ(Video ES loop)が存在すると共に、オーディオストリームに対応したオーディオ・エレメンタリストリームループ(Audio ES loop)が存在する。
各ループには、パケット識別子(PID)、コンポーネントタグ(Component_tag)、ストリームタイプ(Stream_Type)等の情報が配置されている。 また、オーディオ・エレメンタリストリームループには、上述したコンポーネント・グループ・デスクリプタ(component_group_descriptor)(図11参照)が配置されている。
「(2)ビデオストリームのレイヤに挿入される場合」
差分成分VP2,VP3がビデオストリームのレイヤに挿入される場合について説明する。この場合、ビデオエンコーダ113は、ビデオストリームのレイヤに、位置補正情報としての差分成分VP2を挿入する。また、この場合、ビデオエンコーダ114は、ビデオストリームのレイヤに、位置補正情報としての差分成分VP3を挿入する。この場合、ユーザデータ領域に挿入される。
最初にMPEG2の符号化が施される場合について説明する。図13は、ビデオシーケンス(Video_sequence)の構成例(Syntax)を示している。このビデオシーケンス(Video_sequence)にエクステンション・アンド・ユーザデータ(2)(extension_and_user_data(2))のフィールドが存在する。図14(a)は、このエクステンション・アンド・ユーザ・データ(2)の構成例(Syntax)を示している。
このエクステンション・アンド・ユーザデータ(2)にユーザデータ(user_data())のフィールドが存在する。図14(b)は、このユーザデータの構成例(Syntax)を示している。「user_data_identifier」の32ビットフィールドに“0x47413934”(“GA94”)が挿入されることで、「user_structure()」のフィールドに、「ATSC_user_data()」が含まれる。
図14(c)は、「ATSC_user_data()」の構成例(syntax)を示している。「user_data_type_code」の8ビットフィールドに、マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())を示す、例えば“0x07”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())が含まれる。
図15は、マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())の構成例(Syntax)を示している。「process_multiview」の1ビットフィールドは、マルチビューであることを示すフラグである。マルチビューであるとき、差分成分のフィールドが存在する。
ビュー2(View2)のビデオデータを含むビデオストリームのレイヤに挿入されるマルチビュー・ポジション・インフォメーション2には差分成分VP2のフィールドが存在し、ビュー3(View3)のビデオデータを含むビデオストリームのレイヤに挿入されるマルチビュー・ポジション・インフォメーション2には差分成分VP3のフィールドが存在することになる。
差分成分のフィールドは、「Δx」の8ビットフィールドと、「Δy」の8ビットフィールドと、「Δz」の8ビットフィールドと、「Δθ」の9ビットフィールドと、「Δφ」の7ビットフィールドとからなる。
「Δx」のフィールドには、Δx、つまりビュー1(View1)を原点としたときの対象ビュー(View)のx座標の値を示す。「Δy」のフィールドには、Δy、つまりビュー1(View1)を原点としたときの対象ビュー(View)のy座標の値を示す。「Δz」のフィールドには、Δz、つまりビュー1(View1)を原点としたときの対象ビュー(View)のz座標の値を示す。「Δθ」のフィールドは、Δθ、つまりビュー1(View1)に対するθの差を示す。「Δφ」のフィールドは、Δφ、つまりビュー1(View1)に対するφの差を示す。
次に、MPEG4−AVCやHEVCの符号化が施される場合について説明する。図16(a)は、ユーザデータSEIの構成例(syntax)を示している。「USER_identifier」の32ビットフィールドに“0x47413934”(“GA94”)が挿入されることで、「USER_structure()」のフィールドに、「ATSC1_data()」が含まれる。
図16(b)は、「ATSC1_data()」の構成例(syntax)を示している。「user_data_type_code」の8ビットフィールドに、マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())を示す、例えば“0x07”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション2(multiview_Position_information2())が含まれる。
図17は、差分成分VP2,VP3がビデオストリームのレイヤに挿入される場合における、トランスポートストリームTSの構成例を示している。この図17において、図12と対応する部分については、適宜、その説明は省略する。
ビュー2(View2)のビデオデータを含むビデオストリームのPESパケット「Video PES2」には、上述したマルチビュー・ポジション・インフォメーション2(multiview_Position_information2())(図15参照)が挿入される。また、ビュー3(View3)のビデオデータを含むビデオストリームのPESパケット「Video PES3」には、上述したマルチビュー・ポジション・インフォメーション2(multiview_Position_information2())(図15参照)が挿入される。
なお、このように差分成分VP2,VP3がビデオストリームのレイヤに挿入される場合、差分成分とビデオストリームの対応関係は明白となる。そのため、この場合には、コンテナ(システム)のレイヤに、コンポーネント・グループ・デスクリプタ(component_group_descriptor)が挿入される必要はない。
「(3)コンテナ(システム)のレイヤに挿入される場合」
差分成分VP2,VP3がコンテナ(システム)のレイヤに挿入される場合について説明する。この場合、シグナリング情報として挿入されるか、あるいは位置補正情報ストリームとして挿入される。
最初に、差分成分VP2,VP3がシグナリングとして挿入される場合について説明する。この場合、システムエンコーダ116は、ビュー2(View2)、ビュー3(View3)のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、マルチビュー・ポジション・インフォメーション・デスクリプタ(multiview_Position_information_descriptor)を挿入する。
図18は、マルチビュー・ポジション・インフォメーション・デスクリプタの構成例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、マルチビュー・ポジション・インフォメーション・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
「PTS_flag」の1ビットフィールドは、オブジェクト音源の取得位置情報に対応する時刻情報(PTS)があることを示すフラグ情報である。“1”であるとき、33ビットの時刻情報が存在する。また、このデスクリプタには、差分成分のフィールドが存在する。
ビュー2(View2)のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入されるマルチビュー・ポジション・インフォメーション・デスクリプタには差分成分VP2のフィールドが存在する。また、ビュー3(View3)のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入されるマルチビュー・ポジション・インフォメーション・デスクリプタには差分成分VP3のフィールドが存在する。
差分成分のフィールドは、「Δx」の8ビットフィールドと、「Δy」の8ビットフィールドと、「Δz」の8ビットフィールドと、「Δθ」の9ビットフィールドと、「Δφ」の7ビットフィールドとからなる。
「Δx」のフィールドには、Δx、つまりビュー1(View1)を原点としたときの対象ビュー(View)のx座標の値を示す。「Δy」のフィールドには、Δy、つまりビュー1(View1)を原点としたときの対象ビュー(View)のy座標の値を示す。「Δz」のフィールドには、Δz、つまりビュー1(View1)を原点としたときの対象ビュー(View)のz座標の値を示す。「Δθ」のフィールドは、Δθ、つまりビュー1(View1)に対するθの差を示す。「Δφ」のフィールドは、Δφ、つまりビュー1(View1)に対するφの差を示す。
図19は、差分成分VP2,VP3がコンテナ(システム)のレイヤにシグナリングとして挿入される場合における、トランスポートストリームTSの構成例を示している。この図19において、図12と対応する部分については、適宜、その説明は省略する。
ビュー2(View2)のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、上述した差分成分VP2が存在するマルチビュー・ポジション・インフォメーション・デスクリプタが挿入される。また、ビュー3(View3)のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、上述した差分成分VP3が存在するマルチビュー・ポジション・インフォメーション・デスクリプタが挿入される。
次に、差分成分VP2,VP3が位置補正情報ストリームとして挿入される場合について説明する。図20は、その場合における、送信装置100の構成例を示している。この図20において、図6と対応する部分には、同一符号を付し、適宜、その詳細説明は省略する。
この送信装置100は、位置補正情報エンコーダ118,119を有している。位置補正情報エンコーダ118は、差分成分VP2に対して符号化を施し、位置補正情報ストリームを生成する。また、位置補正情報エンコーダ118は、差分成分VP3に対して符号化を施し、位置補正情報ストリームを生成する。
システムエンコーダ116は、ビデオエンコーダ112,113,114から出力されるビデオストリーム、3Dオーディオエンコーダ115から出力されるオーディオストリーム、さらには位置補正情報エンコーダ118,119から出力される位置補正情報ストリームを、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る
図21は、位置補正情報ストリーム(エレメンタリストリーム)の構成例(Syntax)を示している。「data_identifier」の8ビットフィールドは、位置補正情報のPESデータであることを示す値とされる。「PES_data_packet_header_length」の4ビットフィールドは、「PES_Data_private_data_byte」のフィールドの長さを示す。「PES_Data_private_data_byte」のフィールドにサービス依存のプライベートデータが挿入される。
そして、この位置補正情報ストリームには、対応するビューの差分成分のフィールドが存在する。この差分成分のフィールドは、「Δx」の8ビットフィールドと、「Δy」の8ビットフィールドと、「Δz」の8ビットフィールドと、「Δθ」の9ビットフィールドと、「Δφ」の7ビットフィールドとからなる。
「Δx」のフィールドには、Δx、つまりビュー1(View1)を原点としたときの対象ビュー(View)のx座標の値を示す。「Δy」のフィールドには、Δy、つまりビュー1(View1)を原点としたときの対象ビュー(View)のy座標の値を示す。「Δz」のフィールドには、Δz、つまりビュー1(View1)を原点としたときの対象ビュー(View)のz座標の値を示す。「Δθ」のフィールドは、Δθ、つまりビュー1(View1)に対するθの差を示す。「Δφ」のフィールドは、Δφ、つまりビュー1(View1)に対するφの差を示す。
図22は、差分成分VP2,VP3が位置補正情報ストリームとして挿入される場合における、トランスポートストリームTSの構成例を示している。この図22において、図12と対応する部分については、適宜、その説明は省略する。
トランスポートストリームTSには、ビュー2(View2)に係る差分成分VP2を含む位置補正情報ストリームのPESパケット「Position PES1」と、ビュー3(View3)に係る差分成分VP3を含む位置補正情報ストリームのPESパケット「Position PES2」が存在する。また、PMTには、2つの位置補正情報ストリームにそれぞれ対応した位置補正情報・エレメンタリストリームループ(Position ES loop)が存在する。
図23は、上述した位置補正情報の伝送方式をまとめて示したものである。(1)オーディオストリームのレイヤに挿入される場合、例えば、「音声信号に、音声の聴取位置情報と、位置補正情報が付加される。音声信号のみから位置補正演算回路へ情報伝達すればよい。同一の音声信号に包含されているので、これらの信号の同期が保証される。」などの特徴がある。
また、(2)ビデオストリームのレイヤに挿入される場合、例えば、「映像信号ごとに、それぞれの位置補正情報を付加する。それぞれの映像ごとに必要な情報が伝送されるので、余分な情報が伝送されない(伝送する情報が少ない)。再送信で映像を選択する場合、位置補正情報がそのまま伝送されるため、余分な処理が不要となる。」などの特徴がある。
また、(3)コンテナ(システム)のレイヤに挿入される場合、シグナリングとして挿入するときには、例えば、「記述子として伝送することにより、システムレイヤで必要な情報が判別できる。」などの特徴があり、位置補正情報ストリームとして挿入するときには、例えば、「映像信号に対応した独立したストリームとして、タイムラインと共に位置補正情報を伝送する。再送信で映像を選択する場合、対応する位置補正情報を選択して伝送することができる。」などの特徴がある。
図6に示す送信装置100の動作を簡単に説明する。ビュー1,2,3のビデオデータSV1,SV2,SV3はそれぞれビデオエンコーダ112,113,114に供給される。ビデオエンコーダ112,113,114では、それぞれ、ビデオデータSV1,SV2,SV3に対して、例えば、MPEG2、MPEG4−AVCあるいはHEVCなどの符号化が施され、ビデオストリームが得られる。
オブジェクト音源1に係るオブジェクトデータSA1,META1と、オブジェクト音源2に係るオブジェクトデータSA2,META2は、3Dオーディオエンコーダ115に供給される。3Dオーディオエンコーダ115では、オブジェクト音源1,2に係るオブジェクトデータに対して、例えばMPEG−H 3D Audioの符号化が施され、オーディオストリームが得られる。
ビデオエンコーダ112,113,114で得られるビデオストリームは、システムエンコーダ116に供給される。3Dオーディオエンコーダ115で得られるオーディオストリームは、システムエンコーダ116に供給される。システムエンコーダ116では、各エンコーダから供給されるストリームが、PESパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームTSが得られる。
システムエンコーダ116で得られるトランスポートストリームTSは、送信部117に供給される。送信部117では、このトランスポートストリームTSが、放送波あるいはネットのパケットに載せて、受信装置200に送信される。
また、送信装置100では、ビュー1とビュー2の位置および方向の差分成分VP2と、ビュー1とビュー3の位置および方向の差分成分VP3が、(1)オーディオストリームのレイヤ、(2)ビデオストリームのレイヤ、あるいは(3)コンテナのレイヤに挿入されて、受信装置200に送信される。
[受信装置の構成例]
図24は、受信装置200の構成例を示している。この受信装置200は、制御部211と、受信部212と、システムデコーダ213と、セレクタ214と、ビデオデコーダ215と、表示部216と、3Dオーディオデコーダ217と、3Dオーディオレンダラ218と、スピーカシステム219を有している。制御部211は、受信装置200の各部の動作を制御する。
受信部212は、送信装置100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、ビュー1、ビュー2およびビュー3のビデオデータをそれぞれ持つ3つのビデオストリームと、オブジェクト音源1およびオブジェクト音源2のオーディオデータおよび位置情報を持つオーディオストリームを有している(図2参照)。
システムデコーダ213は、トランスポートストリームTSからビュー1、ビュー2およびビュー3のビデオデータをそれぞれ持つ3つのビデオストリームのパケットを抽出し、当該3つのビデオストリームを再構成する。また、システムデコーダ213は、トランスポートストリームTSからオーディオストリームのパケットを抽出し、当該オーディオストリームを再構成する。
システムデコーダ213は、トランスポートストリームTSからデスクリプタ情報などの各種情報を抽出し、制御部211に送る。各種情報には、差分成分VP2,VP3がシグナリングとして挿入されている場合におけるマルチビュー・ポジション・インフォメーション・デスクリプタ(multiview_Position_information_descriptor)(図18参照)の情報も含まれる。また、この各種情報には、オーディオストリームのレイヤに挿入されている場合におけるコンポーネント・グループ・デスクリプタ(component_group_descriptor)(図11参照)の情報も含まれる。
セレクタ214は、ユーザのビュー選択に応じた制御部211の選択制御に基づいて、システムデコーダ213で再構成された3つのビデオストリームのうちのいずれかを選択的に出力する。ビデオデコーダ215は、セレクタ214から出力されるビデオストリームに対して復号化処理を施し、ユーザが選択したビューのビデオデータを得る。
また、ビデオデコーダ215は、ビデオストリームのレイヤに挿入されている各種情報を抽出し、制御部211に送る。各種情報には、差分成分VP2,VP3がビデオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション2(multiview_Position_information2())(図15参照)の情報も含まれる。
表示部216は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などの表示パネルを備えている。表示部216は、ビデオデコーダ215で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って表示用ビデオデータを得、当該表示用ビデオデータによる画像を表示パネルに表示する。
3Dオーディオデコーダ217は、システムデコーダ213で再構成されたオーディオストリームに対して復号化処理を施し、オブジェクト音源1,2に係るオブジェクトデータを得る。
ここで、オブジェクト音源1に係るオブジェクトデータはオブジェクトオーディオデータSA1とオブジェクトメタデータMETA1とからなり、オブジェクトメタデータMETA1にはオブジェクト音源1の極座標s(r,θ,φ)の各座標値やゲイン(Gain)値が含まれている。また、オブジェクト音源2に係るオブジェクトデータはオブジェクトオーディオデータSA2とオブジェクトメタデータMETA2からなり、このオブジェクトメタデータMETA2にはオブジェクト音源2の極座標s(r,θ,φ)の各座標値やゲイン(Gain)値が含まれている。
また、3Dオーディオデコーダ217は、オーディオストリームのレイヤに挿入されている各種情報を抽出し、制御部211に送る。各種情報には、差分成分VP2,VP3がオーディオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション1(multiview_Position_information1())(図9参照)の情報も含まれる。
3Dオーディオレンダラ218は、3Dオーディオデコーダ217で得られるオブジェクト音源1,2に係るオブジェクトデータ(オーディオデータ、位置情報)に基づいて、スピーカシステム219に合わせた所定チャネルのオーディオデータを得る。この場合、3Dオーディオレンダラ218は、スピーカ配置情報を参照して、各オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする。
3Dオーディオレンダラ218は、位置補正演算部218aを備えている。ビュー1が選択される場合、3Dオーディオレンダラ218は、3Dオーディオデコーダ217で得られる音源1,2に係るオブジェクトデータ(オーディオデータ、位置情報)に含まれる位置情報(r,θ,φ)をそのまま使用する。
ビュー2あるいはビュー3が選択される場合、3Dオーディオレンダラ218は、3Dオーディオデコーダ217で得られる音源1,2に係るオブジェクトデータ(オーディオデータ、位置情報)に含まれる位置情報(r,θ,φ)を位置補正演算部218aで、図5に示す変換式を用いて補正した後の位置情報(r’,θ’,φ’)を使用する。
ここで、ビュー2が選択される場合、位置補正演算部218aは、ビュー1とビュー2の位置および方向の差分成分VP2(Δx,Δy,Δz,Δθ,Δφ)を用いて、ビュー1を基準とする位置情報(r,θ,φ)を、ビュー2を基準とする位置情報(r’,θ’,φ’)に補正(変換)する。また、ビュー3が選択される場合、位置補正演算部218aは、ビュー1とビュー3の位置および方向の差分成分VP3(Δx,Δy,Δz,Δθ,Δφ)を用いて、ビュー1を基準とする位置情報(r,θ,φ)を、ビュー3を基準とする位置情報(r’,θ’,φ’)に補正(変換)する。
スピーカシステム219は、3Dオーディオレンダラ218で得られた所定チャネルのオーディオデータに基づいて、表示部216の表示画像に対応した音響出力を得る。
図24に示す受信装置200の動作を簡単に説明する。受信部212では、送信装置100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSが受信される。このトランスポートストリームTSには、ビュー1、ビュー2およびビュー3のビデオデータをそれぞれ持つ3つのビデオストリームと、オブジェクト音源1およびオブジェクト音源2のオーディオデータおよび位置情報を持つオーディオストリームが含まれている。このトランスポートストリームTSは、システムデコーダ213に供給される。
システムデコーダ213では、トランスポートストリームTSからビュー1、ビュー2およびビュー3のビデオデータをそれぞれ持つ3つのビデオストリームのパケットが抽出され、当該3つのビデオストリームが再構成される。また、システムデコーダ213では、トランスポートストリームTSからオーディオストリームのパケットが抽出され、当該オーディオストリームが再構成される。
また、システムデコーダ213では、トランスポートストリームTSからデスクリプタ情報などの各種情報が抽出され、制御部211に送られる。各種情報には、差分成分VP2,VP3がシグナリングとして挿入されている場合におけるマルチビュー・ポジション・インフォメーション・デスクリプタ(図18参照)の情報も含まれる。また、この各種情報には、オーディオストリームのレイヤに挿入されている場合におけるコンポーネント・グループ・デスクリプタ(図11参照)の情報も含まれる。
システムデコーダ213で再構成された3つのビデオストリームは、セレクタ214に供給される。セレクタ214では、ユーザのビュー選択に応じた制御部211の選択制御に基づいて、3つのビデオストリームのうちのいずれかが選択的に出力される。セレクタ214から出力されるビデオストリームは、ビデオデコーダ215に供給される。ビデオデコーダ215では、ビデオストリームに対して復号化処理が施され、ユーザが選択したビューのビデオデータが得られる。
また、ビデオデコーダ215では、ビデオストリームのレイヤに挿入されている各種情報が抽出され、制御部211に送られる。各種情報には、差分成分VP2,VP3がビデオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション2(図15参照)の情報も含まれる。
ビデオデコーダ215で得られるビデオデータは、表示部216に供給される。表示部216では、ビデオデコーダ215で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて表示用ビデオデータが得られ、当該表示用ビデオデータによる画像が表示パネルに表示される。
また、システムデコーダ213で再構成されたオーディオストリームは、3Dオーディオデコーダ217に供給される。3Dオーディオデコーダ217では、システムデコーダ213で再構成されたオーディオストリームに対して復号化処理が施され、オブジェクト音源1,2に係るオブジェクトデータ得られる。
また、3Dオーディオデコーダ217で、オーディオストリームのレイヤに挿入されている各種情報が抽出され、制御部211に送られる。各種情報には、差分成分VP2,VP3がオーディオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション1(図9参照)の情報も含まれる。
3Dオーディオデコーダ217で得られるオブジェクト音源1,2に係るオブジェクトデータは、3Dオーディオレンダラ218に供給される。3Dオーディオレンダラ218では、オブジェクト音源1,2に係るオブジェクトデータ(オーディオデータ、位置情報)に基づいて、スピーカシステム219に合わせた所定チャネルのオーディオデータが得られる。この場合、3Dオーディオレンダラ218では、スピーカ配置情報が参照されて、各オブジェクト音源のオーディオデータがその位置情報に基づいて任意の位置に存在するスピーカにマッピングされる。
この際、3Dオーディオレンダラ218では、ビュー2が選択される場合、3Dオーディオデコーダ217で得られる音源1,2に係るオブジェクトデータ(オーディオデータ、位置情報)に含まれる位置情報(r,θ,φ)が、上述したようにコンテナのレイヤ、ビデオストリームのレイヤ、あるいはオーディオストリームのレイヤから抽出された差分成分(Δx,Δy,Δz,Δθ,Δφ)により補正されて用いられる。詳細説明は省略するが、ビュー3が選択される場合でも同様である。
3Dオーディオレンダラ218から出力される所定チャネルのオーディオデータは、スピーカシステム219に供給される。スピーカシステム219では、この所定チャネルのオーディオデータに基づいて、表示部216の表示画像に対応した音響出力が得られる。
図25は、コンテナのレイヤに差分成分VP2,VP3が位置補正情報ストリームとして挿入されている場合における受信装置200の構成例を示している。この図25において、図24と対応する部分には、同一符号を付し、その詳細説明は省略する。
システムデコーダ213では、トランスポートストリームTSから差分情報VP2,VP3をそれぞれ含む2つの位置補正情報ストリームが得られる。差分情報VP2を含む位置補正情報ストリームは位置補正情報デコーダ221に供給される。位置補正情報デコーダ221では、位置補正情報ストリームに対して復号化が施され、差分成分VP2が得られる。また、差分情報VP3を含む位置補正情報ストリームは位置補正情報デコーダ222に供給される。位置補正情報デコーダ222では、位置補正情報ストリームに対して復号化が施され、差分成分VP3が得られる。
これらの差分成分VP2,VP3は、3Dオーディオレンダラ218に供給される。3Dオーディオレンダラ218では、スピーカ配置情報が参照されて、各オブジェクト音源のオーディオデータがその位置情報(r,θ,φ)に基づいて任意の位置に存在するスピーカにマッピングされる。ここで、ビュー2、ビュー3が選択される場合、それぞれ、差分成分VP2,VP3に基づいて、オブジェクト音源1,2の位置情報(r’,θ’,φ’)が補正(変換)されて用いられる。
上述したように、図1に示す送受信システム10において、送信装置100は、各オブジェクト音源のビュー1を基準とする位置情報(r,θ,φ)を、ビュー2、ビュー3を基準とする位置情報(r’,θ’,φ’)に補正(変換)するための位置補正情報(差分成分VP2,VP3)を、オーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤに挿入して送信するものである。そのため、受信側では、ビュー2やビュー3に切り替えを行う場合、オブジェクト音源の位置情報を補正して用いることができ、3Dオーディオレンダリングを正しく行い得るようになる。
<2.変形例>
なお、上述実施の形態においては、ビュー1の他にビュー2、ビュー3が存在し、またオブジェクト音源1,2が存在する例を示した。本技術において、ビューの数およびオブジェクト音源の数は、この例に限定されない。
また、上述実施の形態においては、位置補正情報が差分成分(Δx,Δy,Δz,Δθ,Δφ)である例を示した。しかし、本技術において、位置補正情報は、差分成分(Δx,Δy,Δz,Δθ,Δφ)に限定されない。
また、上述実施の形態において、受信装置200は、差分成分VP2,VP3を、オーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤから取得する例を示した。しかし、この差分成分を、ネットワークに接続されたサーバから取得する構成も考えられる。この場合、送信装置100から受信装置200にサーバへのアクセス情報がオーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤに挿入されて送られるようにされてもよい。
図26は、その場合における受信装置200の構成例を示している。この図26において、図24と対応する部分には、同一符号を付し、その詳細説明は省略する。通信インタフェース231では、ネットワークに接続されたサーバにアクセスすることで、差分成分VP2,VP3が取得される。
これらの差分成分VP2,VP3は、3Dオーディオレンダラ218に供給される。3Dオーディオレンダラ218では、スピーカ配置情報が参照されて、各オブジェクト音源のオーディオデータがその位置情報(r,θ,φ)に基づいて任意の位置に存在するスピーカにマッピングされる。ここで、ビュー2、ビュー3が選択される場合、それぞれ、差分成分VP2,VP3に基づいて、オブジェクト音源1,2の位置情報(r’,θ’,φ’)が補正(変換)されて用いられる。
また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、MP4やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、MPEG−DASHベースのストリーム配信システム、あるいは、MMT(MPEG Media Transport)構造伝送ストリームを扱う送受信システムなどである。
なお、本技術は、以下のような構成もとることができる。
(1)第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
送信装置。
(2)上記位置補正情報は、上記第1のビューと上記第2のビューの位置および方向の差分成分である
前記(1)に記載の送信装置。
(3)上記位置補正情報は、上記オーディオストリームのレイヤに挿入される
前記(1)または(2)に記載の送信装置。
(4)上記位置補正情報は、上記位置情報が含まれるメタデータ領域に挿入される
前記(3)に記載の送信装置。
(5)上記位置補正情報は、ユーザデータ領域に挿入される
前記(3)に記載の送信装置。
(6)上記第2のビューが複数であるとき、上記オーディオストリームのレイヤに、上記複数の第2のビューに対応して複数の上記位置補正情報が挿入され、
上記コンテナのレイヤに、上記複数の位置補正情報のそれぞれが対応する上記第2のビデオストリームを示す情報が挿入される
前記(3)に記載の送信装置。
(7)上記位置補正情報は、上記第2のビデオストリームのレイヤに挿入される
前記(1)または(2)に記載の送信装置。
(8)上記位置補正情報は、上記コンテナのレイヤに挿入される
前記(1)または(2)に記載の送信装置。
(9)上記位置補正情報は、シグナリング情報として挿入される
前記(8)に記載の送信装置。
(10)上記コンテナは、MPEG2―TSであり、
上記位置補正情報は、プログラムマップテーブルの上記第2のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される
前記(9)に記載の送信装置。
(11)上記位置補正情報を含む情報ストリームが挿入される
前記(8)に記載の送信装置。
(12)第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームを生成するエンコードステップと、
送信部により、上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信ステップとを有する
送信方法。
(13)第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
上記コンテナに含まれる情報を処理する処理部とを備える
受信装置。
(14)上記処理部は、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクタと、
上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、
上記レンダリング部は、上記セレクタで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
前記(13)に記載の受信装置。
(15)受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信ステップと、
上記コンテナに含まれる情報を処理する処理ステップとを有する
受信方法。
(16)第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクタと、
上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
上記レンダリング部は、上記セレクタで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
受信装置。
(17)上記取得部は、上記位置補正情報を、上記オーディオストリームのレイヤ、上記第2のビデオストリームのレイヤあるいは上記コンテナのレイヤから取得する
前記(16)に記載の受信装置。
(18)上記取得部は、上記位置補正情報を、ネットワーク上のサーバから取得する
前記(16)に記載の受信装置。
(19)受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報を取得する取得ステップと、
上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコードステップと、
上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクトステップと、
上記オブジェクト音源のオーディオデータおよび位置情報に基づいて、スピーカシステムに合わせたオーディオデータを得るレンダリングステップとを有し、
上記レンダリングステップでは、上記セレクトステップで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
受信方法。
10・・・送受信システム
100・・・送信装置
111・・・制御部
112,113,114・・・ビデオエンコーダ
115・・・3Dオーディオエンコーダ
116・・・システムエンコーダ
117・・・送信部
118,119・・・位置補正情報エンコーダ
200・・・受信装置
211・・・制御部
212・・・受信部
213・・・システムデコーダ
214・・・セレクタ
215・・・ビデオデコーダ
216・・・表示部
217・・・3Dオーディオデコーダ
218・・・3Dオーディオレンダラ
218a・・・位置補正演算部
219・・・スピーカシステム
221,222・・・位置補正情報デコーダ
231・・・通信インタフェース

Claims (19)

  1. 第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
    上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
    送信装置。
  2. 上記位置補正情報は、上記第1のビューと上記第2のビューの位置および方向の差分成分である
    請求項1に記載の送信装置。
  3. 上記位置補正情報は、上記オーディオストリームのレイヤに挿入される
    請求項1に記載の送信装置。
  4. 上記位置補正情報は、上記位置情報が含まれるメタデータ領域に挿入される
    請求項3に記載の送信装置。
  5. 上記位置補正情報は、ユーザデータ領域に挿入される
    請求項3に記載の送信装置。
  6. 上記第2のビューが複数であるとき、上記オーディオストリームのレイヤに、上記複数の第2のビューに対応して複数の上記位置補正情報が挿入され、
    上記コンテナのレイヤに、上記複数の位置補正情報のそれぞれが対応する上記第2のビデオストリームを示す情報が挿入される
    請求項3に記載の送信装置。
  7. 上記位置補正情報は、上記第2のビデオストリームのレイヤに挿入される
    請求項1に記載の送信装置。
  8. 上記位置補正情報は、上記コンテナのレイヤに挿入される
    請求項1に記載の送信装置。
  9. 上記位置補正情報は、シグナリング情報として挿入される
    請求項8に記載の送信装置。
  10. 上記コンテナは、MPEG2―TSであり、
    上記位置補正情報は、プログラムマップテーブルの上記第2のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される
    請求項9に記載の送信装置。
  11. 上記位置補正情報を含む情報ストリームが挿入される
    請求項8に記載の送信装置。
  12. 第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームを生成するエンコードステップと、
    送信部により、上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信ステップとを有する
    送信方法。
  13. 第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
    上記コンテナに含まれる情報を処理する処理部とを備える
    受信装置。
  14. 上記処理部は、
    上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
    上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクタと、
    上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、
    上記レンダリング部は、上記セレクタで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
    請求項13に記載の受信装置。
  15. 受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信ステップと、
    上記コンテナに含まれる情報を処理する処理ステップとを有する
    受信方法。
  16. 第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
    上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
    上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
    上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクタと、
    上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
    上記レンダリング部は、上記セレクタで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
    受信装置。
  17. 上記取得部は、上記位置補正情報を、上記オーディオストリームのレイヤ、上記第2のビデオストリームのレイヤあるいは上記コンテナのレイヤから取得する
    請求項16に記載の受信装置。
  18. 上記取得部は、上記位置補正情報を、ネットワーク上のサーバから取得する
    請求項16に記載の受信装置。
  19. 受信部により、第1のビューのビデオデータを持つ第1のビデオストリームと、第2のビューのビデオデータを持つ第2のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第1のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
    上記オブジェクト音源の位置情報を上記第2のビューを基準とする位置情報に補正するための位置補正情報を取得する取得ステップと、
    上記第1のビデオストリーム、上記第2のビデオストリームおよび上記オーディオストリームから、上記第1のビューのビデオデータ、上記第2のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコードステップと、
    上記第1のビューのビデオデータまたは上記第2のビューのビデオデータを選択的に出力するセレクトステップと、
    上記オブジェクト音源のオーディオデータおよび位置情報に基づいて、スピーカシステムに合わせたオーディオデータを得るレンダリングステップとを有し、
    上記レンダリングステップでは、上記セレクトステップで上記第2のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第2のビューを基準とするように補正された位置情報を用いる
    受信方法。
JP2016561483A 2014-11-28 2015-11-09 送信装置、送信方法、受信装置および受信方法 Active JP6624068B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014241953 2014-11-28
JP2014241953 2014-11-28
PCT/JP2015/081524 WO2016084592A1 (ja) 2014-11-28 2015-11-09 送信装置、送信方法、受信装置および受信方法

Publications (2)

Publication Number Publication Date
JPWO2016084592A1 true JPWO2016084592A1 (ja) 2017-09-07
JP6624068B2 JP6624068B2 (ja) 2019-12-25

Family

ID=56074162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016561483A Active JP6624068B2 (ja) 2014-11-28 2015-11-09 送信装置、送信方法、受信装置および受信方法

Country Status (8)

Country Link
US (1) US10880597B2 (ja)
EP (1) EP3226241B1 (ja)
JP (1) JP6624068B2 (ja)
KR (1) KR102605480B1 (ja)
CN (1) CN107004419B (ja)
CA (1) CA2967249C (ja)
MX (1) MX2017006581A (ja)
WO (1) WO2016084592A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792957B2 (en) 2014-10-08 2017-10-17 JBF Interlude 2009 LTD Systems and methods for dynamic video bookmarking
US10460765B2 (en) * 2015-08-26 2019-10-29 JBF Interlude 2009 LTD Systems and methods for adaptive and responsive video
US11856271B2 (en) 2016-04-12 2023-12-26 JBF Interlude 2009 LTD Symbiotic interactive video
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US11050809B2 (en) 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
US10820034B2 (en) 2017-05-26 2020-10-27 At&T Intellectual Property I, L.P. Providing streaming video from mobile computing nodes
US10257578B1 (en) 2018-01-05 2019-04-09 JBF Interlude 2009 LTD Dynamic library display for interactive videos
WO2019187434A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2019187430A1 (ja) * 2018-03-29 2021-04-08 ソニー株式会社 情報処理装置、方法、及びプログラム
JP7396267B2 (ja) * 2018-03-29 2023-12-12 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US11601721B2 (en) 2018-06-04 2023-03-07 JBF Interlude 2009 LTD Interactive video dynamic adaptation and user profiling
JP2020005038A (ja) * 2018-06-25 2020-01-09 キヤノン株式会社 送信装置、送信方法、受信装置、受信方法、及び、プログラム
CN110858925B (zh) * 2018-08-22 2021-10-15 华为技术有限公司 一种实现视频流切换的方法、设备、系统和存储介质
JP7415954B2 (ja) 2019-01-25 2024-01-17 ソニーグループ株式会社 情報処理装置及び情報処理方法
US20200296462A1 (en) 2019-03-11 2020-09-17 Wci One, Llc Media content presentation
EP3968643A1 (en) * 2020-09-11 2022-03-16 Nokia Technologies Oy Alignment control information for aligning audio and video playback
US11882337B2 (en) 2021-05-28 2024-01-23 JBF Interlude 2009 LTD Automated platform for generating interactive videos
US11934477B2 (en) 2021-09-24 2024-03-19 JBF Interlude 2009 LTD Video player integration within websites

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005229618A (ja) * 2004-02-13 2005-08-25 Texas Instruments Inc 動的音源とリスナーの位置による音声レンダリング
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040261127A1 (en) * 1991-11-25 2004-12-23 Actv, Inc. Digital interactive system for providing full interactivity with programming events
US7448063B2 (en) * 1991-11-25 2008-11-04 Actv, Inc. Digital interactive system for providing full interactivity with live programming events
US5823786A (en) * 1993-08-24 1998-10-20 Easterbrook; Norman John System for instruction of a pupil
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5714997A (en) * 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
TW436777B (en) * 1995-09-29 2001-05-28 Matsushita Electric Ind Co Ltd A method and an apparatus for reproducing bitstream having non-sequential system clock data seamlessly therebetween
CA2269778A1 (en) * 1996-09-16 1998-03-19 Advanced Research Solutions, Llc Data correlation and analysis tool
US6353461B1 (en) * 1997-06-13 2002-03-05 Panavision, Inc. Multiple camera video assist control system
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6750919B1 (en) * 1998-01-23 2004-06-15 Princeton Video Image, Inc. Event linked insertion of indicia into video
KR100324512B1 (ko) * 1998-07-14 2002-06-26 구자홍 실시간데이터기록및재생장치와그제어방법
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6144375A (en) * 1998-08-14 2000-11-07 Praja Inc. Multi-perspective viewer for content-based interactivity
US6229550B1 (en) * 1998-09-04 2001-05-08 Sportvision, Inc. Blending a graphic
US6266100B1 (en) * 1998-09-04 2001-07-24 Sportvision, Inc. System for enhancing a video presentation of a live event
US6825875B1 (en) * 1999-01-05 2004-11-30 Interval Research Corporation Hybrid recording unit including portable video recorder and auxillary device
US6466275B1 (en) * 1999-04-16 2002-10-15 Sportvision, Inc. Enhancing a video of an event at a remote location using data acquired at the event
EP1275247A2 (en) * 2000-03-31 2003-01-15 United Video Properties, Inc. Personal video recording system with home surveillance feed
US20020115047A1 (en) * 2001-02-16 2002-08-22 Golftec, Inc. Method and system for marking content for physical motion analysis
US6537076B2 (en) * 2001-02-16 2003-03-25 Golftec Enterprises Llc Method and system for presenting information for physical motion analysis
US20020170068A1 (en) * 2001-03-19 2002-11-14 Rafey Richter A. Virtual and condensed television programs
US7203693B2 (en) * 2001-06-12 2007-04-10 Lucent Technologies Inc. Instantly indexed databases for multimedia content analysis and retrieval
US20030033602A1 (en) * 2001-08-08 2003-02-13 Simon Gibbs Method and apparatus for automatic tagging and caching of highlights
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
EP1757087A4 (en) * 2004-04-16 2009-08-19 James A Aman AUTOMATIC VIDEO RECORDING OF EVENTS, PURSUIT AND CONTENT PRODUCTION SYSTEM
DE102005008369A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Simulieren eines Wellenfeldsynthese-Systems
CN101129009B (zh) * 2005-02-25 2011-05-18 京瓷株式会社 通信系统
JP4669340B2 (ja) * 2005-07-28 2011-04-13 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP4683227B2 (ja) * 2006-05-30 2011-05-18 日本電気株式会社 映像音声ファイルシステム
EP2092409B1 (en) * 2006-12-01 2019-01-30 LG Electronics Inc. Apparatus and method for inputting a command, method for displaying user interface of media signal, and apparatus for implementing the same, apparatus for processing mix signal and method thereof
KR101461958B1 (ko) * 2007-06-29 2014-11-14 엘지전자 주식회사 디지털 방송 시스템 및 데이터 처리 방법
JP5593596B2 (ja) * 2008-02-04 2014-09-24 ソニー株式会社 映像信号送信装置および映像信号送信方法
JP4557035B2 (ja) 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
US20110052155A1 (en) * 2009-09-02 2011-03-03 Justin Desmarais Methods for producing low-cost, high-quality video excerpts using an automated sequence of camera switches
US8749609B2 (en) * 2009-09-03 2014-06-10 Samsung Electronics Co., Ltd. Apparatus, system and method for video call
US8370358B2 (en) * 2009-09-18 2013-02-05 Microsoft Corporation Tagging content with metadata pre-filtered by context
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR101090356B1 (ko) * 2009-12-28 2011-12-13 주식회사 더블유코퍼레이션 오디오 신호 및 비디오 신호의 동기화 오차 보정 방법 및 장치
US9699431B2 (en) * 2010-02-10 2017-07-04 Satarii, Inc. Automatic tracking, recording, and teleprompting device using multimedia stream with video and digital slide
US9704393B2 (en) * 2011-01-11 2017-07-11 Videonetics Technology Private Limited Integrated intelligent server based system and method/systems adapted to facilitate fail-safe integration and/or optimized utilization of various sensory inputs
WO2012103649A1 (en) * 2011-01-31 2012-08-09 Cast Group Of Companies Inc. System and method for providing 3d sound
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
TWI701952B (zh) 2011-07-01 2020-08-11 美商杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
US8867886B2 (en) * 2011-08-08 2014-10-21 Roy Feinson Surround video playback
US8917877B2 (en) * 2011-10-12 2014-12-23 Sony Corporation Distance-based rendering of media files
JP2013090016A (ja) * 2011-10-13 2013-05-13 Sony Corp 送信装置、送信方法、受信装置および受信方法
US20130129304A1 (en) * 2011-11-22 2013-05-23 Roy Feinson Variable 3-d surround video playback with virtual panning and smooth transition
CN103460283B (zh) * 2012-04-05 2015-04-29 华为技术有限公司 确定多信道音频信号的编码参数的方法及多信道音频编码器
US20140002580A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
US8929573B2 (en) * 2012-09-14 2015-01-06 Bose Corporation Powered headset accessory devices
KR20140102386A (ko) * 2013-02-13 2014-08-22 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN104023265A (zh) * 2013-03-01 2014-09-03 联想(北京)有限公司 一种音频信息流的切换方法、装置及电子设备
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
WO2015162947A1 (ja) 2014-04-22 2015-10-29 ソニー株式会社 情報再生装置及び情報再生方法、並びに情報記録装置及び情報記録方法
US9693009B2 (en) * 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
US9930405B2 (en) * 2014-09-30 2018-03-27 Rovi Guides, Inc. Systems and methods for presenting user selected scenes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005229618A (ja) * 2004-02-13 2005-08-25 Texas Instruments Inc 動的音源とリスナーの位置による音声レンダリング
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム

Also Published As

Publication number Publication date
KR20170088843A (ko) 2017-08-02
CA2967249A1 (en) 2016-06-02
KR102605480B1 (ko) 2023-11-24
JP6624068B2 (ja) 2019-12-25
EP3226241A1 (en) 2017-10-04
US20180310049A1 (en) 2018-10-25
MX2017006581A (es) 2017-09-01
CN107004419A (zh) 2017-08-01
CA2967249C (en) 2023-03-14
CN107004419B (zh) 2021-02-02
EP3226241A4 (en) 2018-06-20
EP3226241B1 (en) 2022-08-17
US10880597B2 (en) 2020-12-29
WO2016084592A1 (ja) 2016-06-02

Similar Documents

Publication Publication Date Title
JP6624068B2 (ja) 送信装置、送信方法、受信装置および受信方法
US11700388B2 (en) Transmission device, transmitting method, reception device, and receiving method
CN105981391B (zh) 发送装置、发送方法、接收装置、接收方法、显示装置及显示方法
KR102190718B1 (ko) Dash 에서 피쉬아이 가상 현실 비디오에 대한 강화된 하이레벨 시그널링
KR102247404B1 (ko) 어안 가상 현실 비디오에 대한 향상된 고레벨 시그널링
JP6908168B2 (ja) 受信装置、受信方法、送信装置および送信方法
CN110622516B (zh) 用于鱼眼视频数据的高级发信号
JPWO2017006948A1 (ja) 受信装置、受信方法、送信装置および送信方法
JPWO2016185947A1 (ja) 画像処理装置、画像処理方法、受信装置および送信装置
JP2021105735A (ja) 受信装置および受信方法
JP2024015131A (ja) 送信装置、送信方法、受信装置および受信方法
WO2017104519A1 (ja) 送信装置、送信方法、受信装置および受信方法
CA3071560C (en) Transmission apparatus, transmission method, reception apparatus, and reception method
KR20150045869A (ko) 전송 스트림 시스템 타겟 디코더 모델에 기초한 하이브리드 서비스를 제공하는 영상 수신 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191111

R151 Written notification of patent or utility model registration

Ref document number: 6624068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250