JPWO2015008613A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JPWO2015008613A1
JPWO2015008613A1 JP2015527242A JP2015527242A JPWO2015008613A1 JP WO2015008613 A1 JPWO2015008613 A1 JP WO2015008613A1 JP 2015527242 A JP2015527242 A JP 2015527242A JP 2015527242 A JP2015527242 A JP 2015527242A JP WO2015008613 A1 JPWO2015008613 A1 JP WO2015008613A1
Authority
JP
Japan
Prior art keywords
audio
image
information
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015527242A
Other languages
English (en)
Other versions
JP6384480B2 (ja
Inventor
しのぶ 服部
しのぶ 服部
平林 光浩
光浩 平林
央二 中神
央二 中神
徹 知念
徹 知念
潤宇 史
潤宇 史
辻 実
実 辻
優樹 山本
優樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2015008613A1 publication Critical patent/JPWO2015008613A1/ja
Application granted granted Critical
Publication of JP6384480B2 publication Critical patent/JP6384480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本開示は、画像上の音声データの取得位置を認識することができるようにする情報処理装置および情報処理方法に関する。Webサーバは、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する。本開示は、例えば、MPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)に準ずる方式でタイルドストリーミングを行う、ファイル生成装置、Webサーバ、および動画再生端末を含む情報処理システム等に適用することができる。

Description

本開示は、情報処理装置および情報処理方法に関し、特に、画像上の音声データの取得位置を認識することができるようにした情報処理装置および情報処理方法に関する。
近年、インターネット上のストリーミングサービスの主流がOTT-V(Over The Top Video)となっている。この基盤技術として普及し始めているのがMPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)である(例えば、非特許文献1参照)。
MPEG-DASHでは、配信サーバが1本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。
MPEG-DASH(Dynamic Adaptive Streaming over HTTP)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
しかしながら、再生端末が、動画コンテンツ上の音声データの取得位置を認識することは考えられていない。
本開示は、このような状況に鑑みてなされたものであり、画像上の音声データの取得位置を認識することができるようにするものである。
本開示の第1の側面の情報処理装置は、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部を備える情報処理装置である。
本開示の第1の側面の情報処理方法は、本開示の第1の側面の情報処理装置に対応する。
本開示の第1の側面においては、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とが伝送される。
本開示の第2の側面の情報処理装置は、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部とを備える情報処理装置である。
本開示の第2の側面の情報処理方法は、本開示の第2の側面の情報処理装置に対応する。
本開示の第2の側面においては、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とが受け取られ、受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置が決定される。
なお、第1および第2の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。
また、第1および第2の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本開示の第1の側面によれば、画像上の音声データの取得位置を認識させるための情報を伝送することができる。
また、本開示の第2の側面によれば、画像上の音声データの取得位置を認識することができる。
本開示を適用した情報処理システムの第1実施の形態の概要を説明する図である。 タイルの例を示す図である。 オブジェクトを説明する図である。 オブジェクト位置情報を説明する図である。 画枠サイズ情報を説明する図である。 MPDファイルの構造を示す図である。 「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。 MPDファイルの記述例を説明する図である。 ファイル生成装置の構成例を示すブロック図である。 ファイル生成装置のファイル生成処理を説明するフローチャートである。 ストリーミング再生部の構成例を示すブロック図である。 ストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 MPDファイルの他の記述例を説明する図である。 MPDファイルのさらに他の記述例を説明する図である。 オーディオストリームの配置例を示す図である。 gsixの記述例を示す図である。 Sample group entryとオブジェクトIDの対応関係を示す情報の例を示す図である。 AudioObjectSampleGroupEntryの記述例を示す図である。 type assignment boxの記述例を示す図である。 本開示を適用した情報処理システムの第2実施の形態の概要を説明する図である。 本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。 オブジェクトの位置の決定方法を説明する図である。 オブジェクトの位置の決定方法を説明する図である。 オブジェクトの位置の決定方法を説明する図である。 水平角度θAiと水平角度θAi´の関係を表す図である。 垂直角度γv1´と垂直角度γAi´の関係を表す図である。 図23のストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 図29の位置決定処理の詳細を説明するフローチャートである。 図30の水平角度θAi´推定処理の詳細を説明するフローチャートである。 本開示を適用した情報処理システムの第3実施の形態におけるオブジェクトの位置の決定方法を説明する図である。 本開示を適用した情報処理システムの第3実施の形態におけるオブジェクトの位置の決定方法を説明する図である。 本開示を適用した情報処理システムの第3実施の形態におけるオブジェクトの位置の決定方法を説明する図である。 本開示を適用した情報処理システムの第3実施の形態におけるオブジェクトの位置の決定方法を説明する図である。 本開示を適用した情報処理システムの第3実施の形態における位置決定処理の詳細を説明するフローチャートである。 コンピュータのハードウエアの構成例を示すブロック図である。
<第1実施の形態>
(情報処理システムの第1実施の形態の概要)
図1は、本開示を適用した情報処理システムの第1実施の形態の概要を説明する図である。
図1の情報処理システム10は、ファイル生成装置11と接続されるWebサーバ12と動画再生端末14が、インターネット13を介して接続されることにより構成される。
情報処理システム10では、MPEG-DASHに準ずる方式で、Webサーバ12が動画コンテンツの画像データをタイル単位で動画再生端末14に配信(タイルドストリーミング)する。
具体的には、ファイル生成装置11は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置11は、各タイルのビデオストリームを、セグメントと呼ばれる数秒から10秒程度の時間単位ごとにファイル化する。ファイル生成装置11は、その結果得られる各タイルの画像ファイルをWebサーバ12にアップロードする。
また、ファイル生成装置11は、動画コンテンツの音声データをオブジェクト(詳細は後述する)ごとに取得し、オブジェクト単位で符号化してオーディオストリームを生成する。ファイル生成装置11は、各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをWebサーバ12にアップロードする。
なお、オブジェクトとは、音源であり、各オブジェクトの音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。
ファイル生成装置11は、各オブジェクトの位置(音声データの取得位置)を表すオブジェクト位置情報(音声位置情報)、オブジェクトに固有のIDであるオブジェクトID等を含むオーディオメタデータを符号化する。ファイル生成装置11は、オーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをWebサーバ12にアップロードする。
また、ファイル生成装置11は、動画コンテンツの画像の画枠サイズを表す画枠サイズ情報、各タイルの画像上の位置を表すタイル位置情報等を含む、画像ファイルや音声ファイルを管理するMPD(Media Presentation Description)ファイル(制御情報)を生成する。ファイル生成装置11は、MPDファイルをWebサーバ12にアップロードする。
Webサーバ12は、ファイル生成装置11からアップロードされた画像ファイル、音声ファイル、音声メタファイル、およびMPDファイルを格納する。
図1の例では、Webサーバ12には、タイルID「1」のタイルの複数のセグメントの画像ファイルからなるセグメント群と、タイルID「2」のタイルの複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ12には、オブジェクトID「1」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群と、オブジェクトID「2」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群とが格納されている。図示は省略するが、音声メタファイルのセグメント群も同様に格納されている。
なお、以下では、タイルIDがiであるタイルをタイル#iといい、オブジェクトIDがiのオブジェクトをオブジェクト#iという。
Webサーバ12は、伝送部として機能し、動画再生端末14からの要求に応じて、格納している画像ファイル、音声ファイル、音声メタファイル、MPDファイル等を動画再生端末14に送信する。
動画再生端末14は、ストリーミングデータの制御用ソフトウエア(以下、制御用ソフトウエアという)21、動画再生ソフトウエア22、HTTP(HyperText Transfer Protocol)アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)23などを実行する。
制御用ソフトウエア21は、Webサーバ12からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア21は、動画再生端末14にWebサーバ12からMPDファイルを取得させる。
また、制御用ソフトウエア21は、動画再生ソフトウエア22から指示される動画コンテンツの画像内の表示する領域である表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア21は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア23に指令する。
また、制御用ソフトウエア21は、アクセス用ソフトウエア23に音声メタファイルの送信要求を指令する。そして、制御用ソフトウエア21は、表示領域、MPDファイルに含まれる画枠サイズ情報、および音声メタファイルに含まれるオブジェクト位置情報に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア21は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア23に指令する。
動画再生ソフトウエア22は、Webサーバ12から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア22は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア21に指示する。また、動画再生ソフトウエア22は、その指示に応じてWebサーバ12から取得された画像ファイルと音声ファイルを復号し、合成して出力する。
アクセス用ソフトウエア23は、HTTPを用いたインターネット13を介したWebサーバ12との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア23は、制御用ソフトウエア21の指令に応じて、画像ファイル、音声ファイル、および音声メタファイルの送信要求を動画再生端末14に送信させる。また、アクセス用ソフトウエア23は、その送信要求に応じて、Webサーバ12から送信されてくる画像ファイル、音声ファイル、および音声メタファイルを動画再生端末14に受信させる。
(タイルの例)
図2は、タイルの例を示す図である。
図2に示すように、動画コンテンツの画像は、複数のタイルに分割され、各タイルに1から順にタイルIDが付与される。図2の例では、動画コンテンツの画像は、4つのタイル#1乃至タイル#4に分割されている。
(オブジェクトの説明)
図3は、オブジェクトを説明する図である。
図3の例では、動画コンテンツの音声として、画像内の8つのオブジェクトの音声が取得されており、各オブジェクトには1から順にオブジェクトIDが付与されている。オブジェクト#1乃至オブジェクト#5は、それぞれ、動体であり、オブジェクト#6乃至オブジェクト#8は、固定された物体である。また、図3の例では、動画コンテンツの画像は、5(縦)×7(横)のタイルに分割されている。
この場合、図3に示すように、ユーザにより2(縦)×3(横)個のタイルからなる表示領域31が指定されると、表示領域31には、オブジェクト#1、オブジェクト#2、およびオブジェクト#6のみが含まれる。従って、動画再生端末14は、例えば、オブジェクト#1、オブジェクト#2、およびオブジェクト#6の音声ファイルのみをWebサーバ12から取得し、再生する。
表示領域31内のオブジェクトは、以下に説明するように、画枠サイズ情報およびオブジェクト位置情報に基づいて特定することができる。
(オブジェクト位置情報の説明)
図4は、オブジェクト位置情報を説明する図である。
図4に示すように、オブジェクト位置情報は、オブジェクト40の水平角度θA(-180°≦θA≦180°),垂直角度γA(-90°≦γA≦90°)、および距離rA(0<rA)からなる。水平角度θAは、例えば、画像の中心の撮影位置を原点(基点)Oとし、画像の水平方向をX方向、垂直方向をY方向、XY平面に垂直な奥行き方向をZ方向としたときの、オブジェクト40と原点Oを結ぶ直線とYZ平面との水平方向の角度である。垂直角度γAは、オブジェクト40と原点Oを結ぶ直線とXZ平面との垂直方向の角度であり、距離rAは、オブジェクト40と原点Oの距離である。
なお、本明細書では、左回転および上回転の角度を正の角度とし、右回転および下回転の角度を負の角度とする。
(画枠サイズ情報の説明)
図5は、画枠サイズ情報を説明する図である。
図5に示すように、画枠サイズ情報は、画枠の左端の水平角度θv1、右端の水平角度θv2、画枠の上端の垂直角度γv1、下端の垂直角度γv2、および距離rvにより構成される。
水平角度θv1は、例えば、画像の中心の撮影位置を原点Oとし、画像の水平方向をX方向、垂直方向をY方向、XY平面に垂直な奥行き方向をZ方向としたときの、画枠の左端と原点Oを結ぶ直線とYZ平面との水平方向の角度である。水平角度θv2は、画枠の右端と原点Oを結ぶ直線とYZ平面との水平方向の角度である。従って、水平角度θv1と水平角度θv2とを合わせた角度は、水平方向の画角である。
垂直角度γV1,γv2は、それぞれ、画枠の上端、下端と原点Oを結ぶ直線とXZ平面との角度であり、垂直角度γV1と垂直角度γv2とを合わせた角度は、垂直方向の画角である。距離rvは、原点Oと画像の平面との距離である。
以上のように、オブジェクト位置情報と画枠サイズ情報は、それぞれ、オブジェクト40、画枠と、原点Oとの位置関係を表している。従って、オブジェクト位置情報と画枠サイズ情報に基づいて、各オブジェクトの画像上の位置を検出(認識)することができる。その結果、表示領域31内のオブジェクトを特定することができる。
(MPDファイルの構造の説明)
図6は、MPDファイルの構造を示す図である。
MPDファイルの解析(パース)においては、動画再生端末14は、MPDファイル(図6のMedia Presentation)の「Period」に含まれる「Representation」の属性から最適なものを選択する。
動画再生端末14は、選択した「Representation」の先頭の「Initialization Segment」のURL(Uniform Resource Locator)等を参照してファイルを取得し、処理する。続いて、動画再生端末14は、後続の「Media Segment」のURL等を参照してファイルを取得し、再生する。
なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図7のようになる。つまり、1つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。
したがって、MPDファイルは、「Period」以下において、図8に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図9の例のようになる。図9から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。動画再生端末14は、これらのうちのいずれかを適応的に選択することにより、ユーザにより選択された表示領域の画像ファイルと音声ファイルを取得し、再生することができる。
(MPDファイルの記述の説明)
図10は、MPDファイルの記述を説明する図である。
上述したように、情報処理システム10では、動画再生端末14において表示領域内のオブジェクトを特定可能にするため、MPDファイルに画枠サイズ情報が含まれる。この画枠サイズ情報は、図10に示すように、ViewpointのDescriptorType elementを活用して新たに画枠サイズ情報(Viewing Angle)を定義するためのScheme(urn:mpeg:DASH:viewingAngle:2013)を拡張することにより、音声用の「Adaptation Set」と画像用の「Adaptation Set」に配置される。画枠サイズ情報は、画像用の「Adaptation Set」にのみ配置されるようにしてもよい。
また、MPDファイルの音声用の「Adaptation Set」には、音声メタファイル用の「Representation」が記述され、その「Representation」の「Segment」には、音声メタファイル(audionmetadata.mp4)を特定する情報としてのURL等が記述される。このとき、Role elementを活用して、「Segment」で指定されるファイルが音声メタファイルであること(objectaudiometadata)が記述される。
MPDファイルの音声用の「Adaptation Set」にはまた、各オブジェクトの音声ファイル用の「Representation」が記述され、その「Representation」の「Segment」には、各オブジェクトの音声ファイル(audioObje1.mp4, audioObje5.mp4)を特定する情報としてのURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応するオブジェクトのオブジェクトID(1,5)も記述される。
なお、図示は省略するが、タイル位置情報は、画像用の「Adaptation Set」に配置される。
(ファイル生成装置の構成例)
図11は、図1のファイル生成装置11の構成例を示すブロック図である。
図11のファイル生成装置11は、画面分割処理部51、画像符号化処理部52、画像ファイル生成部53、画像情報生成部54、音声符号化処理部55、音声ファイル生成部56、MPD生成部57、およびサーバアップロード処理部58により構成される。
ファイル生成装置11の画面分割処理部51は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部51は、タイル位置情報を画像情報生成部54に供給する。また、画面分割処理部51は、タイル単位の画像データを画像符号化処理部52に供給する。
画像符号化処理部52は、画面分割処理部51から供給されるタイル単位の画像データをタイルごとに符号化し、ビデオストリームを生成する。画像符号化処理部52は、各タイルのビデオストリームを画像ファイル生成部53に供給する。
画像ファイル生成部53は、画像符号化処理部52から供給される各タイルのビデオストリームをセグメント単位でファイル化し、その結果得られる各タイルの画像ファイルをMPD生成部57に供給する。
画像情報生成部54は、画面分割処理部51から供給されるタイル位置情報と外部から入力される画枠サイズ情報とを画像情報としてMPD生成部57に供給する。
音声符号化処理部55は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、オーディオストリームを生成する。また、音声符号化処理部55は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトID等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部55は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部56に供給する。
音声ファイル生成部56は、音声ファイル生成部として機能し、音声符号化処理部55から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをMPD生成部57に供給する。
また、音声ファイル生成部56は、メタファイル生成部として機能し、音声符号化処理部55から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをMPD生成部57に供給する。
MPD生成部57は、画像ファイル生成部53から供給される各タイルの画像ファイルを格納するWebサーバ12のURL等を決定する。また、MPD生成部57は、音声ファイル生成部56から供給される各タイルの音声ファイルと音声メタファイルを格納するWebサーバ12のURL等を決定する。
MPD生成部57は、画像情報生成部54から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部57は、画像情報のうちの画枠サイズ情報をMPDファイルの音声用の「AdaptationSet」に配置する。MPD生成部57は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。
MPD生成部57は、各オブジェクトの画像ファイルのURL等を、そのオブジェクトの音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部57は、情報生成部として機能し、音声メタファイルを特定する情報としてのURL等を音声メタファイル用の「Representation」の「Segment」に配置する。MPD生成部57は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイル、音声ファイル、および音声メタファイルをサーバアップロード処理部58に供給する。
サーバアップロード処理部58は、MPD生成部57から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ12にアップロードする。
(ファイル生成装置の処理の説明)
図12は、図11のファイル生成装置11のファイル生成処理を説明するフローチャートである。
図12のステップS11において、ファイル生成装置11の画面分割処理部51は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部51は、タイル位置情報を画像情報生成部54に供給する。また、画面分割処理部51は、タイル単位の画像データを画像符号化処理部52に供給する。
ステップS12において、画像符号化処理部52は、画面分割処理部51から供給されるタイル単位の画像データをタイルごとに符号化し、各タイルのビデオストリームを生成する。画像符号化処理部52は、各タイルのビデオストリームを画像ファイル生成部53に供給する。
ステップS13において、画像ファイル生成部53は、画像符号化処理部52から供給される各タイルのビデオストリームをセグメント単位でファイル化し、各タイルの画像ファイルを生成する。画像ファイル生成部53は、各タイルの画像ファイルをMPD生成部57に供給する。
ステップS14において、画像情報生成部54は、外部から画枠サイズ情報を取得する。ステップS15において、画像情報生成部54は、画面分割処理部51から供給されるタイル位置情報と画枠サイズ情報とを含む画像情報を生成し、MPD生成部57に供給する。
ステップS16において、音声符号化処理部55は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、各オブジェクトのオーディオストリームを生成する。また、音声符号化処理部55は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトID等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部55は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部56に供給する。
ステップS17において、音声ファイル生成部56は、音声符号化処理部55から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、各オブジェクトの音声ファイルを生成する。また、音声ファイル生成部56は、音声符号化処理部55から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、音声メタファイルを生成する。音声ファイル生成部56は、各オブジェクトの音声ファイルと音声メタファイルをMPD生成部57に供給する。
ステップS18において、MPD生成部57は、画像情報生成部54から供給される画像情報、各ファイルのURL等を含むMPDファイルを生成する。MPD生成部57は、MPDファイル、各タイルの画像ファイル、各オブジェクトの音声ファイル、および音声メタファイルをサーバアップロード処理部58に供給する。
ステップS19において、サーバアップロード処理部58は、MPD生成部57から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ12にアップロードする。そして、処理は終了する。
(動画再生端末の機能的構成例)
図13は、図1の動画再生端末14が制御用ソフトウエア21、動画再生ソフトウエア22、およびアクセス用ソフトウエア23を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
図13のストリーミング再生部90は、MPD取得部91、MPD処理部92、メタファイル取得部93、音声選択部94、音声ファイル取得部95、音声復号処理部96、音声合成処理部97、画像選択部98、画像ファイル取得部99、画像復号処理部100、および画像合成処理部101により構成される。
ストリーミング再生部90のMPD取得部91は、受け取り部として機能し、Webサーバ12からMPDファイルを取得し、MPD処理部92に供給する。
MPD処理部92は、MPD取得部91から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。また、MPD処理部92は、MPDファイルから画像用の「AdaptationSet」に記述される画枠サイズ情報を抽出し、音声選択部94に供給する。MPD処理部92は、MPDファイルから、音声選択部94から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部94に供給する。
MPD処理部92は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部92は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
メタファイル取得部93は、MPD処理部92から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部94に供給する。
音声選択部94は、位置決定部として機能し、MPD処理部92から供給される画枠サイズ情報とメタファイル取得部93から供給されるオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部94は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部94は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部92に要求する。音声選択部94は、その要求に応じてMPD処理部92から供給されるURL等の情報を音声ファイル取得部95に供給する。
音声ファイル取得部95は、受け取り部として機能し、音声選択部94から供給されるURL等の情報に基づいて、そのURLで特定されるオブジェクト単位の音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
音声復号処理部96は、音声ファイル取得部95から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部96は、そのオブジェクト単位の音声データを音声合成処理部97に供給する。
音声合成処理部97は、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。
画像選択部98は、MPD処理部92から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部98は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部92に要求する。画像選択部98は、その要求に応じてMPD処理部92から供給されるURL等の情報を画像ファイル取得部99に供給する。
画像ファイル取得部99は、画像選択部98から供給されるURL等の情報に基づいて、そのURLで特定されるタイル単位の画像ファイルをWebサーバ12に要求し、取得する。画像ファイル取得部99は、取得されたタイル単位の画像ファイルを画像復号処理部100に供給する。
画像復号処理部100は、画像ファイル取得部99から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部100は、そのタイル単位の画像データを画像合成処理部101に供給する。
画像合成処理部101は、画像復号処理部100から供給されるタイル単位の画像データを合成し、出力する。
(動画再生端末の処理の説明)
図14は、動画再生端末14のストリーミング再生部90(図13)のストリーミング再生処理を説明するフローチャートである。
図14のステップS31において、ストリーミング再生部90のMPD取得部91は、Webサーバ12からMPDファイルを取得し、MPD処理部92に供給する。
ステップS32において、MPD処理部92は、MPD取得部91から供給されるMPDファイルから、画像用の「AdaptationSet」に記述される画枠サイズ情報とタイル位置情報を取得する。MPD処理部92は、画枠サイズ情報を音声選択部94に供給し、タイル位置情報を画像選択部98に供給する。また、MPD処理部92は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。
ステップS33において、メタファイル取得部93は、MPD処理部92から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部94に供給する。
ステップS34において、音声選択部94は、MPD処理部92から供給される画枠サイズ情報とメタファイル取得部93から供給されるオブジェクト位置情報とに基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部94は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部92に要求する。
MPD処理部92は、MPDファイルから、音声選択部94から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部94に供給する。音声選択部94は、MPD処理部92から供給されるURL等の情報を音声ファイル取得部95に供給する。
ステップS35において、音声ファイル取得部95は、音声選択部94から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたオブジェクトの音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
ステップS36において、画像選択部98は、MPD処理部92から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部98は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部92に要求する。
MPD処理部92は、MPDファイルから、画像選択部98から要求されるオブジェクトの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。画像選択部98は、MPD処理部92から供給されるURL等の情報を画像ファイル取得部99に供給する。
ステップS37において、画像ファイル取得部99は、画像選択部98から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたタイルの画像ファイルをWebサーバ12に要求し、取得する。画像ファイル取得部99は、取得されたタイル単位の画像ファイルを画像復号処理部100に供給する。
ステップS38において、音声復号処理部96は、音声ファイル取得部95から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部96は、そのオブジェクト単位の音声データを音声合成処理部97に供給する。
ステップS39において、画像復号処理部100は、画像ファイル取得部99から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部100は、そのタイル単位の画像データを画像合成処理部101に供給する。
ステップS40において、音声合成処理部97は、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。ステップS41において、画像合成処理部101は、画像復号処理部100から供給されるタイル単位の画像データを合成し、出力する。そして、処理は終了する。
以上のように、Webサーバ12は画枠サイズ情報とオブジェクト位置情報を伝送する。従って、動画再生端末14は、例えば、表示領域内のオブジェクトを特定し、そのオブジェクトの音声ファイルを、表示領域内の画像に対応する音声ファイルとして選択的に取得することができる。このように、動画再生端末14は必要な音声ファイルのみを取得することができるので、伝送効率は向上する。
なお、図15に示すように、MPDファイルの画像用の「AdaptationSet」には、その画像と同時に再生したい音声に対応するオブジェクトを特定する情報としてのオブジェクトID(オブジェクト特定情報)が、記述されるようにしてもよい。この記述は、例えば、ViewpointのDescriptorType elementを活用して新たにオブジェクトID情報(audioObj)を定義するためのScheme(urn:mpeg:DASH:audioObj:2013)を拡張することにより、行われる。この場合、動画再生端末14は、画像用の「AdaptationSet」に記述されたオブジェクトIDに対応するオブジェクトの音声ファイルを選択し、取得して再生する。
また、オブジェクト単位で音声ファイルが生成されるのではなく、全てのオブジェクトの符号化データが1本のオーディオストリームに多重化され、1つの音声ファイルが生成されるようにしてもよい。
この場合、図16に示すように、MPDファイルの音声用の「AdaptationSet」には、音声ファイル用の「Representation」が1つ設けられ、「Segment」に、全てのオブジェクトの符号化データを含む音声ファイル(audioObje.mp4)のURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応する全てのオブジェクトのオブジェクトID(1,2,3,4,5)も記述される。
また、この場合、図17に示すように、MPDファイルの「Media Segment」を参照して取得される音声ファイル(以下、適宜、音声メディアファイルともいう)のmdat boxには、サブサンプルとして、各オブジェクトの符号化データ(Audio object)が配置される。
具体的には、音声メディアファイルには、セグメントより短い任意の時間であるサブセグメント単位でデータが配置される。このサブセグメント単位のデータの位置は、sidx boxにより指定される。また、サブセグメント単位のデータは、moof boxとmdat boxにより構成される。mdat boxは、複数のサンプルにより構成されるが、そのサンプルの各サブサンプルとして、各オブジェクトの符号化データが配置される。
また、音声メディアファイルのsidx boxの後には、サンプルの情報を記述するgsix boxが配置される。このように、サンプルの情報を記述するgsix boxが、moof boxとは別に設けられるので、動画再生端末14は、サンプルの情報を素早く取得することができる。
gsix boxには、図18に示すように、このgsix boxで管理する1以上のサンプルまたはサブサンプルからなるSample group entryの種別を表すgrouping_typeが記述される。例えば、Sample group entryが、オブジェクト単位の符号化データのサブサンプルである場合、図17に示すように、Sample group entryの種別は「obja」である。音声メディアファイルには、複数のgrouping_typeのgsix boxが配置される。
また、図18に示すように、gsix boxには、各Sample group entryのインデックス(entry_index)と、音声メディアファイル内の位置を表すデータ位置情報としてのバイトレンジ(range_size)とが記述される。なお、インデックス(entry_index)が0である場合、対応するバイトレンジは、moof boxのバイトレンジ(図17の例ではa1)を表している。
MPDファイルの「Initialization Segment」を参照して取得される音声ファイル(以下、適宜、音声初期化ファイルともいう)には、各Sample group entryが、どのオブジェクトの符号化データのサブサンプルであるかを表す情報が記述される。
具体的には、図19に示すように、音声初期化ファイルのsbtl boxのsample group description box(sgpd)のAudioObjectSampleGroupEntryと対応付けられる、mvex boxのtype assignment box(typa)を用いて、その情報が表される。
即ち、図20のAに示すように、AudioObjectSampleGroupEntryには、サンプルに含まれる符号化データに対応するオブジェクトID(audio_object_id)が1つずつ記述される。例えば、図20のBに示すように、4つのAudioObjectSampleGroupEntryのそれぞれに、オブジェクトIDとして、1,2,3,4が記述される。
一方、図21に示すように、type assignment boxには、AudioObjectSampleGroupEntryごとに、そのAudioObjectSampleGroupEntryに対応するSample group entryのパラメータ(grouping_type_parameter)として、インデックスが記述される。
以上のように音声メディアファイルと音声初期化ファイルが構成される。従って、動画再生端末14が、表示領域内のオブジェクトとして選択されたオブジェクトの符号化データを取得する際、音声初期化ファイルのstbl boxから、選択されたオブジェクトのオブジェクトIDが記述されたAudioObjectSampleGroupEntryが検索される。そして、mvex boxから、検索されたAudioObjectSampleGroupEntryに対応するSample group entryのインデックスが読み出される。そして、音声ファイルのsidxからサブセグメント単位のデータの位置が読み出され、gsixから、読み出されたインデックスのSample group entryのバイトレンジが読み出される。そして、サブセグメント単位のデータの位置とバイトレンジとに基づいて、mdat内に配置されている符号化データが取得される。これにより、選択されたオブジェクトの符号化データが取得される。
なお、上述した説明では、Sample group entryのインデックスとAudioObjectSampleGroupEntryのオブジェクトIDが、mvex boxを介して対応付けられたが、直接対応付けられるようにしてもよい。この場合、Sample group entryのインデックスが、AudioObjectSampleGroupEntryに記述される。
また、音声ファイルが複数のtrackから構成される場合、sgpdをmvexに格納すると、track間でsgpdを共用できる。
<第2実施の形態>
(第2実施の形態の概要)
図22は、本開示を適用した情報処理システムの第2実施の形態の概要を説明する図である。
なお、図22において、図3と同一のものには、同一の符号を付してある。
図22の例では、図3の場合と同様に、動画コンテンツの画像は、5(縦)×7(横)のタイルに分割されており、動画コンテンツの音声として、オブジェクト#1乃至#8の音声が取得されている。
この場合に、ユーザにより、2(縦)×3(横)個のタイルからなる表示領域31が指定されると、第2実施の形態では、図22に示すように、その表示領域31が、動画コンテンツの画像のサイズと同一のサイズに変換(拡大)され、表示画像111とされる。そして、表示画像111におけるオブジェクト#1乃至#8の位置に基づいて、オブジェクト#1乃至#8の音声が合成され、表示画像111とともに出力される。即ち、表示領域31内のオブジェクト#1、オブジェクト#2、およびオブジェクト#6だけでなく、表示領域31外のオブジェクト#3乃至#5、オブジェクト#7、およびオブジェクト#8の音声も出力される。
(ストリーミング再生部の構成例)
本開示を適用した情報処理システムの第2実施の形態の構成は、ストリーミング再生部の構成を除いて、図1の情報処理システム10の構成と同一であるので、以下では、ストリーミング再生部についてのみ説明する。
図23は、本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。
図23に示す構成のうち、図13の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図23のストリーミング再生部120の構成は、MPD処理部92、音声合成処理部97、画像合成処理部101の代わりに、MPD処理部121、音声合成処理部123、画像合成処理部124が設けられる点、および、位置決定部122が新たに設けられる点が図13のストリーミング再生部90の構成と異なる。
ストリーミング再生部120のMPD処理部121は、MPD取得部91から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。また、MPD処理部121は、MPDファイルから画像用の「AdaptationSet」に記述される動画コンテンツの画像の画枠サイズ情報(以下、コンテンツ画枠サイズ情報という)を抽出し、位置決定部122に供給する。MPD処理部121は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部95に供給する。
MPD処理部121は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部121は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
位置決定部122は、メタファイル取得部93により取得された音声メタファイルに含まれるオブジェクト位置情報と、MPD処理部121から供給されるコンテンツ画枠サイズ情報を取得する。また、位置決定部122は、ユーザにより指定される表示領域の画枠サイズ情報である表示領域画枠サイズ情報を取得する。位置決定部122は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定(認識)する。位置決定部122は、決定されたオブジェクトの位置を音声合成処理部123に供給する。
音声合成処理部123は、位置決定部122から供給されるオブジェクトの位置に基づいて、音声復号処理部96から供給されるオブジェクト単位の音声データを合成する。具体的には、音声合成処理部123は、オブジェクトの位置と音声を出力する各スピーカの位置とに基づいて、オブジェクトごとに、各スピーカに割り当てる音声データを決定する。そして、音声合成処理部123は、スピーカごとに、各オブジェクトの音声データを合成し、各スピーカの音声データとして出力する。オブジェクトの位置に基づいて各オブジェクトの音声データを合成する方法の詳細は、例えば、Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997に記載されている。
画像合成処理部124は、画像復号処理部100から供給されるタイル単位の画像データを合成する。画像合成処理部124は、変換部として機能し、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換して、表示画像を生成する。画像合成処理部124は、表示画像を出力する。
(オブジェクトの位置の決定方法の説明)
図24乃至図26は、図23の位置決定部122によるオブジェクトの位置の決定方法を説明する図である。
表示画像111は、動画コンテンツ内の表示領域31を抽出し、その表示領域31のサイズを動画コンテンツのサイズに変換することにより生成される。従って、表示画像111は、図24に示すように、表示領域31の中心Cを表示画像111の中心C´に移動させた後、図25に示すように、表示領域31のサイズを動画コンテンツのサイズに変換したものと等価である。
よって、まず、位置決定部122は、以下の式(1)により、表示領域31の中心0を表示画像111の中心0´に移動させるときの水平方向の移動量θshiftを算出する。
Figure 2015008613
式(1)において、θv1´は、表示領域31の表示領域画枠サイズ情報のうちの左端の水平角度であり、θV2´は、右端の水平角度である。また、θv1は、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θv2は、右端の水平角度である。
次に、位置決定部122は、移動量θshiftを用いて、以下の式(2)により、表示領域31の中心0を表示画像111の中心0´に移動させた後の表示領域31の左端の水平角度θv1_shift´と右端の水平角度θv2_shift´を求める。
Figure 2015008613
式(2)によれば、水平角度θv1_shift´と水平角度θv2_shift´は、-180°から180°までの範囲を超えないように求められる。
なお、上述したように、表示画像111は、表示領域31の中心0を表示画像111の中心0´に移動させた後、表示領域31のサイズを動画コンテンツのサイズに変換したものと等価である。従って、水平角度θV1およびθV2については、以下の式(3)が成立する。
Figure 2015008613
位置決定部122は、以上のようにして移動量θshift、水平角度θv1_shift´、および水平角度θv2_shift´を求めた後、表示画像111におけるオブジェクトの水平角度を求める。具体的には、位置決定部122は、以下の式(4)により、移動量θshiftを用いて、表示領域31の中心Cを表示画像111の中心C´に移動させた後のオブジェクト#iの水平角度θAi_shiftを求める。
Figure 2015008613
式(4)において、θAiは、オブジェクト#iのオブジェクト位置情報のうちの水平角度である。また、式(4)によれば、水平角度θAi_shiftは、-180°から180°までの範囲を超えないように求められる。
次に、オブジェクト#iが表示領域31内に存在する場合、即ちθv2_shif´<θAi_shift<θv1_shift´である場合、位置決定部122は、以下の式(5)により、表示画像111におけるオブジェクト#iの水平角度θAi´を求める。
Figure 2015008613
式(5)によれば、表示領域31のサイズと表示画像111のサイズの比に応じて、表示画像111におけるオブジェクト#iの位置と表示画像111の中心C´との距離を拡大することにより、水平角度θAi´が求められる。
一方、オブジェクト#iが表示領域31内に存在しない場合、即ち、-180°≦θAi_shift≦θv2_shift´、または、θv1_shift´≦θAi_shift≦180°である場合、位置決定部122は、以下の式(6)により、表示画像111におけるオブジェクト#iの水平角度θAi´を求める。
Figure 2015008613
式(6)によれば、図26に示すように、オブジェクト#iが表示領域31の右側の位置151に存在する(-180°≦θAi_shift≦θv2_shift´)場合、角度R1と角度R2の比に応じて水平角度θAi_shiftを拡大することにより、水平角度θAi´が求められる。なお、角度R1は、表示画像111の右端から視聴者153の真後ろの位置154までの角度であり、角度R2は、中心の移動後の表示領域31の右端から位置154までの角度である。
また、式(6)によれば、オブジェクト#iが表示領域31の左側の位置155に存在する(θv1_shift´≦θAi_shift≦180°)場合、角度R3と角度R4の比に応じて水平角度θAi_shiftを拡大することにより、水平角度θAi´が求められる。なお、角度R3は、表示画像111の左端から位置154までの角度であり、角度R4は、中心の移動後の表示領域31の左端から位置154までの角度である。
また、位置決定部122は、水平角度θAiと水平角度θAi´に基づいて、表示画像111におけるオブジェクト#iの垂直角度γAi´を求める。具体的には、オブジェクト#iが視聴者の前方にある場合、位置決定部122は、垂直角度γAi´を水平角度θAi´と同様に求める。
一方、オブジェクト#iが視聴者の後方にある場合、表示領域31が拡大されると、水平角度θAiが表すオブジェクト#iの位置は視聴者の真後ろの方向に移動する。従って、垂直角度γAi´が水平角度θAi´と同様に求められると、オブジェクト#iのオブジェクト位置情報のうちの垂直角度γAiが表す位置は、視聴者の真上か真下の方向に移動する。しかしながら、オブジェクト#iが視聴者の後方にある場合、オブジェクト#iが水平角度θAiの変更によって視聴者の前方に移動した場合を除いて、表示領域31が拡大または縮小しても垂直角度γAi´は変化させない、または、水平角度θAiの変化方向と同一の方向に変化させることが望ましい。
よって、水平角度θAiが表すオブジェクト#iの位置と、水平角度θAi´が表すオブジェクト#iの位置が、両方とも視聴者の前方である場合、即ちabs(θAi)<90°かつabs(θAi´)<90°である場合、位置決定部122は、以下の式(7)により垂直角度γAi´を求める。
Figure 2015008613
式(7)において、γv1´は、表示領域31の表示領域画枠サイズ情報のうちの上端の垂直角度であり、γV2´は、下端の垂直角度である。また、γv1は、コンテンツ画枠サイズ情報のうちの上端の垂直角度であり、γv2は、下端の垂直角度である。
また、水平角度θAiが表すオブジェクト#iの位置と、水平角度θAi´が表すオブジェクト#iの位置が、両方とも視聴者の後方である場合、即ちabs(θAi)≧90°かつabs(θAi´≧90°である場合、位置決定部122は、以下の式(8)により垂直角度γAi´を求める。即ち、垂直角度γAiがそのまま垂直角度γAi´にされる。
Figure 2015008613
さらに、水平角度θAiが表すオブジェクト#iの位置と水平角度θAi´が表すオブジェクト#iの位置のいずれか一方が視聴者の前方であり、他方が後方である場合、即ちabs(θAi)<90°かつabs(θAi´)≧90°、または、abs(θAi)≧90°かつabs(θAi´)<90°である場合、位置決定部122は、以下のようにして垂直角度γAi´を求める。
即ち、この場合、オブジェクト#iは視聴者の前方から後方へ、または後方から前方へ移動するため、単純にオブジェクト#iが視聴者の前方または後方に位置すると決め付けることはできない。従って、この場合、オブジェクト#iの水平角度が、視聴者の前方のオブジェクト#iの位置を表す角度と、視聴者の左側を表す角度である90°または右側を表す角度である-90°との間を移動する段階と、90°または-90°と視聴者の後方のオブジェクト#iの位置を表す角度との間を移動する段階に分けて考える必要がある。
具体的には、位置決定部122は、オブジェクト#iの水平角度が、90°または-90°と視聴者の後方のオブジェクト#iの位置を表す角度との間を移動する段階の垂直角度γAiの移動量を0に決定する。そして、位置決定部122は、オブジェクト#iの水平角度が、視聴者の前方のオブジェクト#iの位置を表す角度と、視聴者の左側を表す角度である90°または右側を表す角度である-90°との間を移動する段階の垂直角度γAiの移動量を、式(7)と同様に求める。但し、式(9)に示すように、式(7)の垂直角度γV2´,γV2V1´,γV1は、式(10)で定義される垂直角度γV2f´,γV2fV1f´,γV1fに置換される。
Figure 2015008613
Figure 2015008613
式(10)におけるFsideは、オブジェクト#iの水平角度が90°または-90°である場合の表示領域31の垂直角度と表示画像111の垂直角度との比を表すものであり、以下の式(11)により求められる。
Figure 2015008613
式(11)に示すように、Fsideは、オブジェクト#iの水平角度が90°または-90°である場合の表示領域31の水平角度と表示画像111の水平角度の比にTransForm_Factorを乗じることで求められる。
式(11)におけるTransForm_Factorは、垂直角度γv1、γv2と水平角度θv1、θv2の比を表すファクタであり、以下の式(12)で表される。このファクタTransForm_Factorを用いて、水平角度の変化量に対応する垂直角度の変化量を推定することができる。
Figure 2015008613
以上のように、オブジェクト#iが視聴者の前方から後方へ移動する場合、即ちabs(θAi)<90°かつabs(θAi´)≧90°である場合、オブジェクト#iの垂直角度の変化量は、オブジェクト#iの水平角度が水平角度θAiから90°または-90°まで移動する場合の変化量となる。従って、式(7)のγV1´とγV2´は、abs(θAi´)=90°である場合の画枠サイズ、即ち、Fsideと垂直角度γv1とγv2の積となる。
また、オブジェクト#iが視聴者の後方から前方へ移動する場合、即ちabs(θAi)≧90°かつabs(θAi´)<90°である場合、オブジェクト#iの垂直角度の変化量は、オブジェクト#iの水平角度が90°または-90°から水平角度θAi´まで移動する場合の変化量となる。従って、式(7)のγv1とγv2は、Fsideと垂直角度γv1とγv2の積となる。
ここでは、オブジェクト#iが視聴者の後方にある場合の垂直角度は変化しないものするが、垂直角度は、水平角度と同じ方向に変化してもよい。即ち、水平角度が表す位置が視聴者の真後ろの方向に移動する場合には、垂直角度が表す位置も視聴者の真後ろの方向に移動し、水平角度が表す位置が視聴者の真正面の方向に移動する場合には、垂直角度が表す位置も視聴者の真正面の方向に移動するようにしてもよい。
また、位置決定部122は、表示画像111におけるオブジェクト#iの距離rAi´を、オブジェクト#iのオブジェクト位置情報のうちの距離rAiに決定する。位置決定部122は、以上のようにして求められるオブジェクト#iの水平角度θAi´、垂直角度γAi´、および距離rAiを、オブジェクト#iの位置として、音声合成処理部123に供給する。
図27は、水平角度θAiと水平角度θAi´の関係を表す図である。
図27のグラフにおいて、横軸は、水平角度θAiを表し、縦軸は、水平角度θAi´を表す。
図27に示すように、θV2´<θAi<θV1´である場合、水平角度θAiは、移動量θshiftだけ移動され、拡大されることにより、水平角度θAi´になる。また、-180°≦θAi≦θv2´、または、θv1´≦θAi≦180°である場合、水平角度θAiは、移動量θshiftだけ移動され、縮小されることにより、水平角度θAi´になる。
図28は、垂直角度γv1´と垂直角度γAi´の関係を表す図である。
図28のグラフにおいて、横軸は、垂直角度γv1´を表し、縦軸は、垂直角度γAi´を表す。
図28の例では、水平角度θAiと垂直角度γAiが45°である。また、垂直角度γv1v2は、水平角度θv1v2と同一の比率で変化する。即ち、TransForm_Factor=1である。また、θv1=29°、θv2=-29°、γv1=17.5°、γv2=-17.5である。
この場合、図28に示すように、0°<γv1´<(Fsidev1)である場合、垂直角度γAi´は、表示画像111の垂直方向の画枠サイズが大きいほど、大きくなる。また、(Fsidev1)≦γv1´≦90°である場合、垂直角度γAi´は、表示画像111の垂直方向の画枠サイズの大きさによらず、γv1´=(Fsidev1)のとき、即ちオブジェクト#iの水平角度θAi´が90°のときの垂直角度γAi´のままになる。
(ストリーミング再生部の処理の説明)
図29は、図23のストリーミング再生部120のストリーミング再生処理を説明するフローチャートである。
図29のステップS131において、ストリーミング再生部120のMPD取得部91は、Webサーバ12からMPDファイルを取得し、MPD処理部121に供給する。
ステップS132において、MPD処理部121は、MPD取得部91から供給されるMPDファイルから、画像用の「AdaptationSet」に記述されるコンテンツ画枠サイズ情報とタイル位置情報を取得する。MPD処理部121は、画枠サイズ情報を位置決定部122に供給し、タイル位置情報を画像選択部98に供給する。また、MPD処理部121は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。
ステップS133において、メタファイル取得部93は、MPD処理部121から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を位置決定部122に供給する。
ステップS134において、位置決定部122は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定する位置決定処理を行う。この位置決定処理の詳細は、後述する図30を参照して説明する。
ステップS135において、MPD処理部121は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部95に供給する。
ステップS136において、音声ファイル取得部95は、MPD処理部121から供給されるURL等の情報に基づいて、そのURLで特定される全てのオブジェクトの音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
ステップS137乃至S140の処理は、図14のステップS36乃至S39の処理と同様であるので、説明は省略する。
ステップS141において、音声合成処理部123は、位置決定部122から供給されるオブジェクトの位置に基づいて、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。
ステップS142において、画像合成処理部124は、画像復号処理部100から供給されるタイル単位の画像データを合成する。
ステップS143において、画像合成処理部124は、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換し、表示画像を生成する。そして、画像合成処理部124は、表示画像を出力し、処理を終了する。
図30は、図29のステップS134の位置決定処理の詳細を説明するフローチャートである。この位置決定処理は、例えば、オブジェクトごとに行われる。
図30のステップS151において、位置決定部122は、表示画像における水平角度θAi´を推定する水平角度θAi´推定処理を行う。この水平角度θAi´推定処理の詳細は、後述する図31を参照して説明する。
ステップS152において、位置決定部122は、表示画像における垂直角度γAi´を推定する垂直角度γAi´推定処理を行う。この垂直角度γAi´推定処理の詳細は、水平方向が垂直方向に代わる点を除いて、ステップS151の水平角度θAi´推定処理と同様であるので、詳細な説明は省略する。
ステップS153において、位置決定部122は、表示画像における距離rAi´を、メタファイル取得部93から供給されるオブジェクト位置情報のうちの距離rAiに決定する。
ステップS154において、位置決定部122は、水平角度θAi´、垂直角度γAi´、および距離rAiを、オブジェクト#iの位置として音声合成処理部123に出力する。そして、処理は、図29のステップS134に戻り、ステップS135に進む。
図31は、図30のステップS151の水平角度θAi´推定処理の詳細を説明するフローチャートである。
図31のステップS171において、位置決定部122は、メタファイル取得部93から供給されるオブジェクト位置情報のうちの水平角度θAiを取得する。
ステップS172において、位置決定部122は、MPD処理部121から供給されるコンテンツ画枠サイズ情報と、ユーザにより指定される表示領域画枠サイズ情報を取得する。
ステップS173において、位置決定部122は、コンテンツ画枠サイズ情報と表示領域画枠サイズ情報に基づいて、上述した式(1)により、移動量θshiftを算出する。
ステップS174において、位置決定部122は、移動量θshiftと表示領域画枠サイズを用いて、上述した式(2)により、水平角度θv1_shift´およびθv2_shift´を算出する。
ステップS175において、位置決定部122は、水平角度θAiと移動量θshiftを用いて、上述した式(4)により、水平角度θAi_shiftを求める。
ステップS176において、位置決定部122は、オブジェクト#iが表示領域31内に存在する(オブジェクト#iの水平角度が表示領域31の両端の水平角度の間である)かどうか、即ちθv2_shift´<θAi_shift<θv1_shift´であるかどうかを判定する。
ステップS176でオブジェクト#iが表示領域31内に存在すると判定された場合、即ちθv2_shift´<θAi_shift<θv1_shift´である場合、処理はステップS177に進む。ステップS177において、位置決定部122は、コンテンツ画枠サイズ情報、水平角度θv1_shift´およびθv2_shift´、並びに水平角度θAi_shiftに基づいて、上述した式(5)により水平角度θAi´を算出する。
一方、ステップS176でオブジェクト#iが表示領域31内に存在しないと判定された場合、即ち、-180°≦θAi_shift≦θv2_shift´、または、θv1_shift´≦θAi_shift≦180°である場合、処理はステップS178に進む。ステップS178において、位置決定部122は、コンテンツ画枠サイズ情報、水平角度θv1_shift´またはθv2_shift´、および水平角度θAi_shiftに基づいて、上述した式(6)により水平角度θAi´を算出する。
ステップS177またはステップS178の処理後、処理は、図30のステップS151に戻り、処理はステップS152に進む。
なお、第2実施の形態では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。
また、第2実施の形態において、全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。
<第3実施の形態>
(表示画像におけるオブジェクトの位置の決定方法の説明)
本開示を適用した情報処理システムの第3実施の形態は、図23の位置決定部122による表示画像におけるオブジェクトの位置の決定方法を除いて、第2実施の形態と同一であるため、以下では、図23の位置決定部122による表示画像におけるオブジェクトの位置の決定方法についてのみ説明する。
視聴者が動画コンテンツを試聴する場合、視聴者から画枠への距離が変化すると、視聴者から見る画枠の角度もそれに応じて変化する。例えば、視聴者が画枠に近づくと、画枠は大きく見えるようになり、画枠から遠くなると、画枠は小さく見えるようになる。従って、表示領域や画枠サイズの変化は、視聴者の移動によって表現することができる。そこで、第3実施の形態では、視聴者の移動によって表示領域のサイズ変更が表現される。
図32乃至図35は、本開示を適用した情報処理システムの第3実施の形態における表示画像におけるオブジェクトの位置の決定方法を説明する図である。
図32と図33は、動画コンテンツ内の表示領域31のサイズを変更する前の状態を説明する図である。図32は、視聴者の頭頂部から見た上面図であり、図32は視聴者の右側から見た側面図である。
図34と図35は、視聴者が移動し、視聴者の移動によって視聴者から見る表示領域31のサイズが動画コンテンツのサイズと同じサイズになった場合の状態を説明する図である。図34は視聴者の頭頂部から見た上面図であり、図35は視聴者の右側から見た側面図である。
図32乃至図35に示すように、表示領域31の内部にあるオブジェクト#1、並びに、表示領域31の外部にあるオブジェクト#2およびオブジェクト#3と、視聴者との相対的位置関係は、視聴者の移動によって変化する。よって、位置決定部122は、表示領域31のサイズを動画コンテンツのサイズに変更した場合のオブジェクト位置情報、即ち表示画像におけるオブジェクト位置情報を、視聴者の移動によって変更されたオブジェクトのオブジェクト位置情報を求めることで推定する。
具体的には、まず、位置決定部122は、式(13)により、移動前の表示領域31の横幅ScreenWidth、左端から中央までの幅ScreenLeftWidth、および上端から中央までの高さScreenTopHeightを求める。
Figure 2015008613
式(13)において、rvは、視聴者から画枠までの距離であり、θv1´は、表示領域31の表示領域画枠サイズ情報のうちの左端の水平角度であり、θV2´は、右端の水平角度であり、γv1´は、上端の垂直角度である。
次に、位置決定部122は、式(14)により、視聴者の移動によって視聴者から見る表示領域31のサイズが動画コンテンツのサイズと同じサイズになった場合の、視聴者から画枠までの距離rv´を推定する。
Figure 2015008613
式(14)において、θv1は、移動後の表示領域31の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θv2は、右端の水平角度である。
次に、位置決定部122は、式(15)により、視聴者の移動によって視聴者から見る表示領域31のサイズが動画コンテンツのサイズと同じサイズになった場合の、視聴者の前後方向の移動量Lengthshift、左右方向の移動量Widthshif、および上下方向の移動量Heightshiftを推定する。
Figure 2015008613
式(15)において、γv1は、移動後の表示領域31の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの上端の垂直角度である。また、FAspect_ratioは、移動前と移動後の視聴者から見る表示領域31の垂直方向の幅と水平方向の幅との比の変化量を表すファクタであり、以下の式(16)で表される。このファクタFAspect_ratioを用いて、水平方向の幅の変化量に対応する垂直方向の幅の変化量を推定することができる。
Figure 2015008613
式(16)において、γv2は、移動後の表示領域31の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの下端の垂直角度である。γv2´は、表示領域31の表示領域画枠サイズ情報のうちの下端の垂直角度である。
最後に、以上により求められた情報を用いて、位置決定部122は、表示画像におけるオブジェクトのオブジェクト位置情報を推定する。
具体的には、オブジェクトが表示領域31上に存在する場合、即ち、θv2´≦θAi≦θv1´かつγv2´≦γAi≦γv1´である場合(図32乃至図35の例では、オブジェクト#1である場合)、位置決定部122は、以下の式(17)により、表示画像におけるオブジェクト位置情報を推定する。
Figure 2015008613
式(17)において、θAi´は、移動後のオブジェクト#iの水平角度であり、θAiは、移動前のオブジェクト#iの水平角度である。γA1´は、移動後のオブジェクト#iの垂直角度であり、垂直角度γAiは、移動前のオブジェクト#iの水平角度である。rAi´は、移動後のオブジェクト#iの距離であり、rAiは、移動前のオブジェクト#iの距離である。
一方、オブジェクトが表示領域31上に存在しない場合、即ち、θv2´≦θAi≦θv1´かつγv2´≦γAi≦γv1´ではない場合(図32乃至図35の例では、オブジェクト#2とオブジェクト#3である場合)、位置決定部122は、以下の式(18)により、表示画像におけるオブジェクト位置情報を推定する。
Figure 2015008613
なお、式(18)は、以下の式(19)のように変形してもよい。
Figure 2015008613
式(19)において、xAi´、yv1´、zAi´は、それぞれ、移動後のオブジェクト#iのxyz座標系における前後方向(奥行き方向)の位置、左右方向の位置、上下方向の位置である。式(19)は、式(18)の変形で得られたものであり、式(18)と式(19)は、等価である。
ここでは、視聴者から画枠までの距離rvと移動前のオブジェクト#iの距離rAiを用いて、移動後のオブジェクト位置情報を推定したが、rvとrAiのいずれかが与えられていない場合は、rv=rAiと仮定しても良い。さらに、両方が与えられていない場合は、rv=rAi=1と仮定しても良い。
なお、rvとrAiの少なくとも一方が与えられていない場合には、視聴者の前後方向の移動量がrvを超えないようにするために、式(14)で求められたrv´が2*rvを超えないという制限を設けても良い。即ち、式(14)で求められたrv´を用いて、rv´=min(2*rv,rv´)という式により、最終的なrv´を求めるようにしてもよい。
(ストリーミング再生部の処理の説明)
本開示を適用した情報処理システムの第3実施の形態のストリーミング再生部によるストリーミング再生処理は、ステップS134の位置決定処理を除いて図29のストリーミング再生処理と同一であるため、以下では、位置決定処理についてのみ説明する。
図36は、本開示を適用した情報処理システムの第3実施の形態における位置決定処理の詳細を説明するフローチャートである。
図36のステップS181において、位置決定部122は、移動前の表示領域31の表示領域画枠サイズ情報とコンテンツ画枠サイズ情報を取得する。具体的には、位置決定部122は、移動前の表示領域31の画枠の左端の水平角度θv1´および右端の水平角度θv2´並びに、上端の垂直角度γv1´および下端の垂直角度γv2´を取得する。また、位置決定部122は、動画コンテンツの画枠の左端の水平角度θv1および右端の水平角度θv2、上端の垂直角度γv1および下端の垂直角度γv2´、並びに距離rvを取得する。
ステップS182において、位置決定部122は、水平角度θv1´およびθV2´、垂直角度γv1´、並びに距離rvを用いて、上述した式(13)により、横幅ScreenWidth、幅ScreenLeftWidth、および高さScreenTopHeightを求める。
ステップS183において、位置決定部122は、横幅ScreenWidth並びに水平角度θv1およびθv2を用いて、上述した式(14)により、移動後の距離rv´を推定する。
ステップS184において、位置決定部122は、幅ScreenLeftWidth、高さScreenTopHeigh、距離rvおよびrv´、水平角度θv1v2v1´、およびθv2´、並びに垂直角度γv1v2v1´、およびγv2´を用いて、上述した式(15)および(16)により、視聴者の移動量Lengthshift,Widthshift、およびHeightshiftを推定する。
ステップS185において、位置決定部122は、再生対象の最初のオブジェクト#iを選択する。
ステップS186において、位置決定部122は、選択されたオブジェクト#iの移動前のオブジェクト位置情報である水平角度θAi、垂直角度γAi、および距離rAiを取得する。
ステップS187において、位置決定部122は、オブジェクト#iが表示領域31上に存在するかどうか、即ちθv2´≦θAi≦θv1´かつγv2´≦γAi≦γv1´であるかどうかを判定する。
ステップS187でオブジェクト#iが表示領域31上に存在すると判定された場合、即ちθv2´≦θAi≦θv1´かつγv2´≦γAi≦γv1´である場合、処理はステップS188に進む。
ステップS188において、位置決定部122は、移動量WidthshifおよびHeightshift、距離rvおよびrv´、水平角度θAiおよびθAi´、並びに垂直角度γAiおよびγAi´を用いて、上述した式(17)により、表示画像におけるオブジェクト#iのオブジェクト位置情報を推定する。そして、処理はステップS190に進む。
一方、ステップS187でオブジェクト#iが表示領域31上に存在しないと判定された場合、即ち、θv2´≦θAi≦θv1´かつγv2´≦γAi≦γv1´ではない場合、処理はステップS189に進む。
ステップS189において、位置決定部122は、移動量Lengthshift,Widthshift、およびHeightshift、距離rAi、水平角度θAiおよびθAi´、並びに垂直角度γAiおよびγAi´を用いて、上述した式(18)により、表示画像におけるオブジェクト#iのオブジェクト位置情報を推定する。そして、処理はステップS190に進む。
ステップS190において、位置決定部122は、再生対象のすべてのオブジェクトのオブジェクト位置情報が推定されたかどうかを判定する。ステップS190ですべてのオブジェクトのオブジェクト位置情報が推定されていないと判定された場合、処理はステップS191に進む。
ステップS191において、位置決定部122は、再生対象のオブジェクトのうちの、現在選択されているオブジェクトの次のオブジェクトを選択し、処理をステップS186に戻す。
一方、ステップS190ですべてのオブジェクトのオブジェクト位置情報が推定されたと判定された場合、処理は、S192に進む。
ステップS192において、位置決定部122は、表示画像における再生対象のすべてのオブジェクトのオブジェクト位置情報を音声合成処理部123に出力する。ステップS192の処理後、処理は、図29のステップS134に戻り、ステップS135に進む。
なお、第3実施の形態では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。
また、第3実施の形態において、再生対象の全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。
<第4実施の形態>
(本開示を適用したコンピュータの説明)
上述したWebサーバ12の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図37は、上述したWebサーバ12の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、動画再生端末14のハードウエア構成は、図37のコンピュータと同様の構成にすることができる。この場合、例えば、CPU201が、制御用ソフトウエア21、動画再生ソフトウエア22、およびアクセス用ソフトウエア23を実行する。動画再生端末14の処理は、ハードウエアにより実行することもできる。
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、ファイル生成装置11は、タイル単位で画像ファイルを生成するのではなく、全てのタイルの符号化データを多重化してビデオストリームを生成し、1つの画像ファイルを生成するようにしてもよい。
また、表示領域31に対応する音声は、表示領域31内のオブジェクトの音声だけでなく、表示領域31外の固定されたオブジェクトの音声も含むようにしてもよい。
さらに、音声データには、オブジェクト単位の音声データのほか、チャネルオーディオの音声データ、HOA(Higher−Order Ambisonics)オーディオの音声データ、SAOC(Spatial Audio Object Coding)の音声データ、音声データのメタデータ(scene情報、動的・静的metadata)などが含まれるようにしてもよい。この場合、例えば、サブサンプルとして、各オブジェクトの符号化データだけでなく、これらのデータの符号化データも配置される。
さらに、本開示は、以下のような構成もとることができる。
(1)
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部
を備える情報処理装置。
(2)
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記(1)に記載の情報処理装置。
(3)
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
前記(1)または(2)に記載の情報処理装置。
(4)
前記音声位置情報を含む前記音声データのメタデータファイルを生成するメタファイル生成部と、
前記画枠サイズ情報と前記メタデータファイルを特定する情報を制御情報として生成する情報生成部と、
をさらに備え、
前記伝送部は、前記情報生成部により生成された前記制御情報と前記メタファイル生成部により生成された前記メタデータファイルを伝送する
ように構成された
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記伝送部は、前記画枠サイズ情報と前記音声位置情報に基づいて要求される、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記音声データを伝送する
ように構成された
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記音声データは、オブジェクト単位の音声データであり、
前記伝送部は、前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
前記(5)に記載の情報処理装置。
(7)
複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、前記音声ファイル生成部により生成された前記音声ファイル内の前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
前記(6)に記載の情報処理装置。
(8)
複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、各オブジェクトの前記音声ファイルを特定するファイル特定情報を伝送し、前記画枠サイズ情報、前記音声位置情報、および前記ファイル特定情報に基づいて要求される前記表示領域に対応する前記オブジェクトの音声データを含む前記音声ファイルを伝送する
ように構成された
前記(6)に記載の情報処理装置。
(9)
情報処理装置が、
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送ステップ
を含む情報処理方法。
(10)
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、
前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部と
を備える情報処理装置。
(11)
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記(10)に記載の情報処理装置。
(12)
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
前記(10)または(11)に記載の情報処理装置。
(13)
前記音声データは、オブジェクト単位の音声データであり、
前記位置決定部は、前記画枠サイズ情報と各オブジェクトの前記音声位置情報に基づいて、前記画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
前記(10)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記オブジェクトの音声データを選択する音声選択部
をさらに備え、
前記受け取り部は、前記音声選択部により選択された前記音声データを受け取る
ように構成された
前記(13)に記載の情報処理装置。
(15)
前記受け取り部は、複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイル内の、前記音声選択部により選択された前記オブジェクトの音声データを受け取る
ように構成された
前記(14)に記載の情報処理装置。
(16)
前記受け取り部は、複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルのうちの、前記音声選択部により選択された前記オブジェクトの音声データを含む前記音声ファイルを受け取る
ように構成された
前記(14)に記載の情報処理装置。
(17)
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、複数の前記オブジェクトの音声データを合成する音声合成処理部
をさらに備える
前記(13)に記載の情報処理装置。
(18)
前記画像データに対応する画像のうちの表示する領域である表示領域の画像データのサイズを、前記画像データのサイズに変換する変換部
をさらに備え、
前記位置決定部は、前記画像データの前記画枠サイズ情報、各オブジェクトの前記音声位置情報、および前記表示領域の画枠サイズ情報に基づいて、前記変換部によりサイズが変換された前記表示領域の画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
前記(17)に記載の情報処理装置。
(19)
前記表示領域の画枠サイズ情報は、前記表示領域の水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記(18)に記載の情報処理装置。
(20)
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取りステップと、
前記受け取りステップの処理により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定ステップと
を含む情報処理方法。
11 ファイル生成装置, 12 Webサーバ, 14 動画再生端末, 56 音声ファイル生成部, 57 MPD生成部, 91 MPD取得部, 94 音声選択部, 95 音声ファイル取得部, 122 位置決定部, 123 音声合成処理部, 124 画像合成処理部

Claims (20)

  1. 画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部
    を備える情報処理装置。
  2. 前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
    ように構成された
    請求項1に記載の情報処理装置。
  3. 前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
    ように構成された
    請求項1に記載の情報処理装置。
  4. 前記音声位置情報を含む前記音声データのメタデータファイルを生成するメタファイル生成部と、
    前記画枠サイズ情報と前記メタデータファイルを特定する情報を制御情報として生成する情報生成部と、
    をさらに備え、
    前記伝送部は、前記情報生成部により生成された前記制御情報と前記メタファイル生成部により生成された前記メタデータファイルを伝送する
    ように構成された
    請求項1に記載の情報処理装置。
  5. 前記伝送部は、前記画枠サイズ情報と前記音声位置情報に基づいて要求される、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記音声データを伝送する
    ように構成された
    請求項1に記載の情報処理装置。
  6. 前記音声データは、オブジェクト単位の音声データであり、
    前記伝送部は、前記表示領域に対応する前記オブジェクトの音声データを伝送する
    ように構成された
    請求項5に記載の情報処理装置。
  7. 複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイルを生成する音声ファイル生成部
    をさらに備え、
    前記伝送部は、前記音声ファイル生成部により生成された前記音声ファイル内の前記表示領域に対応する前記オブジェクトの音声データを伝送する
    ように構成された
    請求項6に記載の情報処理装置。
  8. 複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルを生成する音声ファイル生成部
    をさらに備え、
    前記伝送部は、各オブジェクトの前記音声ファイルを特定するファイル特定情報を伝送し、前記画枠サイズ情報、前記音声位置情報、および前記ファイル特定情報に基づいて要求される前記表示領域に対応する前記オブジェクトの音声データを含む前記音声ファイルを伝送する
    ように構成された
    請求項6に記載の情報処理装置。
  9. 情報処理装置が、
    画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送ステップ
    を含む情報処理方法。
  10. 画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、
    前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部と
    を備える情報処理装置。
  11. 前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
    ように構成された
    請求項10に記載の情報処理装置。
  12. 前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
    ように構成された
    請求項10に記載の情報処理装置。
  13. 前記音声データは、オブジェクト単位の音声データであり、
    前記位置決定部は、前記画枠サイズ情報と各オブジェクトの前記音声位置情報に基づいて、前記画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
    ように構成された
    請求項10に記載の情報処理装置。
  14. 前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記オブジェクトの音声データを選択する音声選択部
    をさらに備え、
    前記受け取り部は、前記音声選択部により選択された前記音声データを受け取る
    ように構成された
    請求項13に記載の情報処理装置。
  15. 前記受け取り部は、複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイル内の、前記音声選択部により選択された前記オブジェクトの音声データを受け取る
    ように構成された
    請求項14に記載の情報処理装置。
  16. 前記受け取り部は、複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルのうちの、前記音声選択部により選択された前記オブジェクトの音声データを含む前記音声ファイルを受け取る
    ように構成された
    請求項14に記載の情報処理装置。
  17. 前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、複数の前記オブジェクトの音声データを合成する音声合成処理部
    をさらに備える
    請求項13に記載の情報処理装置。
  18. 前記画像データに対応する画像のうちの表示する領域である表示領域の画像データのサイズを、前記画像データのサイズに変換する変換部
    をさらに備え、
    前記位置決定部は、前記画像データの前記画枠サイズ情報、各オブジェクトの前記音声位置情報、および前記表示領域の画枠サイズ情報に基づいて、前記変換部によりサイズが変換された前記表示領域の画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
    ように構成された
    請求項17に記載の情報処理装置。
  19. 前記表示領域の画枠サイズ情報は、前記表示領域の水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
    ように構成された
    請求項18に記載の情報処理装置。
  20. 画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取りステップと、
    前記受け取りステップの処理により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定ステップと
    を含む情報処理方法。
JP2015527242A 2013-07-19 2014-07-01 情報処理装置および情報処理方法 Active JP6384480B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2013151020 2013-07-19
JP2013151020 2013-07-19
JPPCT/JP2014/063752 2014-05-23
PCT/JP2014/063752 WO2015008538A1 (ja) 2013-07-19 2014-05-23 情報処理装置および情報処理方法
PCT/JP2014/066321 WO2015008576A1 (ja) 2013-07-19 2014-06-19 情報処理装置および情報処理方法
JPPCT/JP2014/066321 2014-06-19
PCT/JP2014/067508 WO2015008613A1 (ja) 2013-07-19 2014-07-01 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2015008613A1 true JPWO2015008613A1 (ja) 2017-03-02
JP6384480B2 JP6384480B2 (ja) 2018-09-05

Family

ID=52346013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015527242A Active JP6384480B2 (ja) 2013-07-19 2014-07-01 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (1) US10523975B2 (ja)
EP (1) EP3024249A4 (ja)
JP (1) JP6384480B2 (ja)
CN (1) CN105379302B (ja)
WO (3) WO2015008538A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108271068B (zh) * 2016-12-30 2020-04-03 华为技术有限公司 一种基于流媒体技术的视频数据的处理方法及装置
JP6843655B2 (ja) * 2017-03-09 2021-03-17 キヤノン株式会社 送信装置、受信装置、情報処理方法及びプログラム
US11024305B2 (en) * 2017-08-07 2021-06-01 Dolbey & Company, Inc. Systems and methods for using image searching with voice recognition commands
FR3074591A1 (fr) * 2017-12-05 2019-06-07 Orange Procede de gestion des connexions d'un dispositif electronique.
CN108156499A (zh) * 2017-12-28 2018-06-12 武汉华星光电半导体显示技术有限公司 一种语音图像采集编码方法及装置
CN111684823B (zh) * 2018-02-07 2022-07-01 索尼公司 发送装置、发送方法、处理装置以及处理方法
JP7237927B2 (ja) 2018-03-15 2023-03-13 ソニーグループ株式会社 情報処理装置、情報処理装置およびプログラム
CN111903136A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法和程序
CN112789656A (zh) * 2018-10-02 2021-05-11 索尼公司 信息处理装置、信息处理方法和程序
JP7236914B2 (ja) * 2019-03-29 2023-03-10 日本放送協会 受信装置、配信サーバ及び受信プログラム
CN117635815A (zh) * 2019-06-28 2024-03-01 上海交通大学 基于三维点云的初始视角控制和呈现方法及系统
JP6882584B1 (ja) * 2020-09-02 2021-06-02 Kddi株式会社 コンテンツ再生装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301390A (ja) * 1993-04-12 1994-10-28 Sanyo Electric Co Ltd 立体音像制御装置
JP2001197598A (ja) * 2000-01-05 2001-07-19 Mitsubishi Electric Corp 映像音声再生装置
JP2004007211A (ja) * 2002-05-31 2004-01-08 Victor Co Of Japan Ltd 臨場感信号の送受信システム、臨場感信号伝送装置、臨場感信号受信装置、及び臨場感信号受信用プログラム
JP2007027846A (ja) * 2005-07-12 2007-02-01 Oki Electric Ind Co Ltd 動画再生システム及び動画再生方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2311817A1 (en) 1998-09-24 2000-03-30 Fourie, Inc. Apparatus and method for presenting sound and image
CN1192606C (zh) * 1999-01-04 2005-03-09 汤姆森特许公司 带画外画显示的电视遥控系统
US6912695B2 (en) * 2001-09-13 2005-06-28 Pixia Corp. Data storage and retrieval system and method
US20030160862A1 (en) * 2002-02-27 2003-08-28 Charlier Michael L. Apparatus having cooperating wide-angle digital camera system and microphone array
JP2004266343A (ja) 2003-02-05 2004-09-24 Matsushita Electric Ind Co Ltd 画像サーバーと画像サーバーシステム、そのプログラム及び記録媒体
CN100442837C (zh) * 2006-07-25 2008-12-10 华为技术有限公司 一种具有声音位置信息的视频通讯系统及其获取方法
JP5230096B2 (ja) 2006-12-27 2013-07-10 キヤノン株式会社 映像音声出力装置及び映像音声出力方法
US20110058683A1 (en) * 2009-09-04 2011-03-10 Glenn Kosteva Method & apparatus for selecting a microphone in a microphone array
JP5992210B2 (ja) * 2012-06-01 2016-09-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301390A (ja) * 1993-04-12 1994-10-28 Sanyo Electric Co Ltd 立体音像制御装置
JP2001197598A (ja) * 2000-01-05 2001-07-19 Mitsubishi Electric Corp 映像音声再生装置
JP2004007211A (ja) * 2002-05-31 2004-01-08 Victor Co Of Japan Ltd 臨場感信号の送受信システム、臨場感信号伝送装置、臨場感信号受信装置、及び臨場感信号受信用プログラム
JP2007027846A (ja) * 2005-07-12 2007-02-01 Oki Electric Ind Co Ltd 動画再生システム及び動画再生方法

Also Published As

Publication number Publication date
JP6384480B2 (ja) 2018-09-05
CN105379302B (zh) 2019-10-18
WO2015008576A1 (ja) 2015-01-22
EP3024249A1 (en) 2016-05-25
CN105379302A (zh) 2016-03-02
US10523975B2 (en) 2019-12-31
WO2015008613A1 (ja) 2015-01-22
EP3024249A4 (en) 2017-03-01
US20160156944A1 (en) 2016-06-02
WO2015008538A1 (ja) 2015-01-22

Similar Documents

Publication Publication Date Title
JP6384480B2 (ja) 情報処理装置および情報処理方法
US20210326378A1 (en) Information processing apparatus and information processing method
JP6697695B2 (ja) 情報処理装置および情報処理方法
WO2015182491A1 (ja) 情報処理装置および情報処理方法
US11252397B2 (en) File generation apparatus and file generation method as well as reproduction apparatus and reproduction method
JP7238948B2 (ja) 情報処理装置および情報処理方法
US10945000B2 (en) File generation apparatus and file generation method as well as reproduction apparatus and reproduction method
WO2019031306A1 (ja) 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
JP6493403B2 (ja) ファイル生成装置および方法、並びにコンテンツ再生装置および方法
KR20240065194A (ko) 정보 처리 장치 및 정보 처리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180723

R151 Written notification of patent or utility model registration

Ref document number: 6384480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151