WO2015182491A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2015182491A1
WO2015182491A1 PCT/JP2015/064673 JP2015064673W WO2015182491A1 WO 2015182491 A1 WO2015182491 A1 WO 2015182491A1 JP 2015064673 W JP2015064673 W JP 2015064673W WO 2015182491 A1 WO2015182491 A1 WO 2015182491A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
file
track
information
audio data
Prior art date
Application number
PCT/JP2015/064673
Other languages
English (en)
French (fr)
Inventor
平林 光浩
徹 知念
優樹 山本
潤宇 史
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201580026931.1A priority Critical patent/CN106415711A/zh
Priority to EP15800260.0A priority patent/EP3151240B1/en
Priority to JP2016523457A priority patent/JPWO2015182491A1/ja
Priority to CA2947549A priority patent/CA2947549C/en
Priority to KR1020167031888A priority patent/KR20170012229A/ko
Priority to CN202111197667.1A priority patent/CN114242082A/zh
Priority to BR112016027506-3A priority patent/BR112016027506B1/pt
Priority to US15/312,305 priority patent/US20170092280A1/en
Priority to CN202111197608.4A priority patent/CN114242081A/zh
Priority to RU2016146015A priority patent/RU2699406C2/ru
Priority to EP22213391.0A priority patent/EP4177886A1/en
Priority to AU2015267864A priority patent/AU2015267864A1/en
Priority to SG11201609855WA priority patent/SG11201609855WA/en
Priority to MX2016015331A priority patent/MX369767B/es
Publication of WO2015182491A1 publication Critical patent/WO2015182491A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • G11B20/1217Formatting, e.g. arrangement of data block or words on the record carriers on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method, and more particularly to an information processing apparatus and an information processing method capable of improving the acquisition efficiency of predetermined types of audio data among a plurality of types of audio data. .
  • a distribution server prepares moving image data groups having different screen sizes and encoding speeds for one moving image content, and a playback terminal has an optimal screen size and encoding speed according to the status of the transmission path. By requesting data groups, adaptive streaming delivery is realized.
  • MPEG-DASH Dynamic Adaptive Streaming over HTTP
  • URL http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam -1)
  • the present disclosure has been made in view of such a situation, and is intended to be able to improve the acquisition efficiency of predetermined types of audio data among a plurality of types of audio data.
  • the information processing apparatus acquires audio data of a predetermined track of a file in which a plurality of types of audio data are divided and arranged according to the types. It is an information processing apparatus provided with a unit.
  • An information processing method corresponds to the information processing apparatus according to the first aspect of the present disclosure.
  • audio data of a predetermined track of a file in which a plurality of types of audio data are divided and arranged according to the types is acquired.
  • An information processing apparatus is an information processing apparatus including a generation unit configured to generate a file in which a plurality of types of audio data are divided into a plurality of tracks according to the types.
  • An information processing method corresponds to the information processing apparatus according to the second aspect of the present disclosure.
  • a file is generated in which a plurality of types of audio data are divided into a plurality of tracks and arranged according to the types.
  • the information processing apparatus can be realized by causing a computer to execute a program.
  • a program to be executed by a computer can be provided by transmitting via a transmission medium or recording on a recording medium .
  • audio data can be acquired. Further, according to the first aspect of the present disclosure, it is possible to efficiently acquire predetermined types of audio data among a plurality of types of audio data.
  • a file can be generated. Further, according to the second aspect of the present disclosure, it is possible to generate a file that improves the acquisition efficiency of predetermined types of audio data among a plurality of types of audio data.
  • Fig. 19 is a diagram illustrating an example of description of AudioObjectSampleGroupEntry. It is a figure which shows the example of a description of type assignment box.
  • generation apparatus of FIG. It is a block diagram which shows the structural example of the streaming reproduction part implement
  • FIG. 1 to 30 Assumptions of the Present Disclosure (FIGS. 1 to 30) 1. First embodiment (FIGS. 31 to 50) 2. Second Embodiment (FIGS. 51 to 55) 3. Third Embodiment (FIG. 56) 4. Fourth Embodiment (FIGS. 57 to 67) 5. Fifth embodiment (FIG. 68) 6. Sixth embodiment (FIG. 69) Description of the hierarchical structure of 7.3D audio (Fig. 70) 8. Description of the First Example of Web Server Processing (FIGS. 71 and 72) 9.
  • FIG. 1 is a diagram for describing an overview of a first example of an information processing system to which the present disclosure is applied.
  • the information processing system 10 of FIG. 1 is configured by connecting a Web server 12 connected to a file generation device 11 and a moving image reproduction terminal 14 via the Internet 13.
  • the Web server 12 distributes (tiled streaming) image data of moving image content to the moving image reproduction terminal 14 in tile units in a method conforming to MPEG-DASH.
  • the file generation device 11 acquires image data of moving image content, and encodes the image data in tile units to generate a video stream.
  • the file generation device 11 files the video stream of each tile in units of time, which is called a segment, for a few seconds to about 10 seconds.
  • the file generation device 11 uploads the image file of each tile obtained as a result to the web server 12.
  • the file generation device 11 acquires audio data of moving image content for each object (details will be described later), and encodes the audio data in object units to generate an audio stream.
  • the file generation device 11 files the audio stream of each object in units of segments, and uploads the audio file of each object obtained as a result to the Web server 12.
  • the object is a sound source, and audio data of each object is acquired by a microphone or the like attached to the object.
  • the object may be an object such as a fixed microphone stand or a moving object such as a person.
  • the file generation device 11 encodes audio metadata including object position information (audio position information) indicating the position of each object (acquisition position of audio data), an object ID which is an ID unique to the object, and the like.
  • the file generation apparatus 11 converts the encoded data of audio metadata into a file in units of segments, and uploads an audio metafile obtained as a result to the Web server 12.
  • the file generation apparatus 11 manages an image file and an audio file including image frame size information indicating the image frame size of the image of the moving image content and tile position information indicating the position on the image of each tile. Presentation Description) Create a file (control information). The file generation device 11 uploads the MPD file to the web server 12.
  • the web server 12 stores the image file, the audio file, the audio metafile, and the MPD file uploaded from the file generation device 11.
  • the Web server 12 includes a segment group consisting of image files of a plurality of segments of tiles with tile ID "1" and a segment group consisting of image files of a plurality of segments with tile ID "2" And are stored. Further, the Web server 12 stores a segment group consisting of audio files of a plurality of segments of an object of object ID "1" and a segment group consisting of audio files of a plurality of segments of an object of object ID "2". ing. Although illustration is omitted, segments of the audio metafile are similarly stored.
  • tile #i a tile whose tile ID is i
  • object #i an object whose object ID is i
  • the Web server 12 functions as a transmission unit, and transmits the stored image file, audio file, audio metafile, MPD file, and the like to the video reproduction terminal 14 in response to a request from the video reproduction terminal 14.
  • the video playback terminal 14 includes streaming data control software (hereinafter referred to as control software) 21, video playback software 22, client software for HTTP (HyperText Transfer Protocol) access (hereinafter referred to as access software). ) And so on.
  • control software streaming data control software
  • video playback software video playback software 22
  • client software for HTTP (HyperText Transfer Protocol) access hereinafter referred to as access software.
  • the control software 21 is software that controls data to be streamed from the web server 12. Specifically, the control software 21 causes the video reproduction terminal 14 to acquire the MPD file from the Web server 12.
  • control software 21 uses the display area, which is an area to be displayed in the image of the moving image content instructed by the moving image reproduction software 22, and the tile position information included in the MPD file. Identify the tile. Then, the control software 21 instructs the access software 23 to transmit an image file of the tile.
  • control software 21 instructs the access software 23 to transmit a voice metafile. Then, the control software 21 specifies an object corresponding to the image in the display area based on the display area, the image frame size information included in the MPD file, and the object position information included in the audio metafile. Then, the control software 21 instructs the access software 23 to transmit an audio file of the object.
  • the moving image reproduction software 22 is software for reproducing an image file and an audio file acquired from the web server 12. Specifically, when the display area is designated by the user, the moving image reproduction software 22 instructs the control software 21 on the display area. Also, the moving image reproduction software 22 decodes, synthesizes and outputs the image file and the sound file acquired from the Web server 12 according to the instruction.
  • the access software 23 is software that controls communication with the Web server 12 via the Internet 13 using HTTP. Specifically, the access software 23 transmits a transmission request for the image file, the audio file, and the audio metafile to the video reproduction terminal 14 in accordance with an instruction from the control software 21. In addition, the access software 23 causes the video reproduction terminal 14 to receive the image file, the audio file, and the audio metafile transmitted from the Web server 12 in response to the transmission request.
  • FIG. 2 is a diagram showing an example of a tile.
  • the image of the moving image content is divided into a plurality of tiles, and tile IDs are assigned to each tile in order from one.
  • the image of the moving image content is divided into four tiles # 1 to # 4.
  • FIG. 3 is a diagram for explaining an object.
  • the audio of eight objects in the image is acquired as the audio of the moving image content, and the object ID is assigned to each object in order from one.
  • the objects # 1 to # 5 are moving bodies, and the objects # 6 to # 8 are fixed objects.
  • the image of the moving image content is divided into tiles of 5 (vertical) ⁇ 7 (horizontal).
  • the display area 31 consisting of 2 (longitudinal) ⁇ 3 (horizontal) tiles is designated by the user
  • the display area 31 includes an object # 1, an object # 2, and Only object # 6 is included. Therefore, for example, the video reproduction terminal 14 acquires only the audio files of the object # 1, the object # 2, and the object # 6 from the Web server 12 and reproduces them.
  • An object in the display area 31 can be identified based on image frame size information and object position information, as described below.
  • FIG. 4 is a diagram for explaining object position information.
  • the object position information includes the horizontal angle ⁇ A ( ⁇ 180 ° ⁇ ⁇ A ⁇ 180 °), the vertical angle ⁇ A ( ⁇ 90 ° ⁇ ⁇ A ⁇ 90 °), and the distance r of the object 40. It consists of A (0 ⁇ r A ).
  • the horizontal angle ⁇ A is, for example, when the shooting position at the center of the image is the origin (base point) O, the horizontal direction of the image is the X direction, the vertical direction is the Y direction, and the depth direction perpendicular to the XY plane is the Z direction.
  • the vertical angle gamma A is the angle in the vertical direction of the straight line and the XZ plane connecting the object 40 and the origin O, the distance r A is the distance of the object 40 and the origin O.
  • angles of left rotation and upper rotation are positive angles, and the angles of right rotation and lower rotation are negative angles.
  • FIG. 5 is a diagram for explaining image frame size information.
  • the image frame size information includes the horizontal angle ⁇ v1 at the left end of the image frame, the horizontal angle ⁇ v2 at the right end, the vertical angle ⁇ v1 at the upper end of the image frame, the vertical angle ⁇ v2 at the lower end, and the distance r It consists of v .
  • the horizontal angle ⁇ v1 is an image frame when, for example, the shooting position at the center of the image is the origin O, the horizontal direction of the image is the X direction, the vertical direction is the Y direction, and the depth direction perpendicular to the XY plane is the Z direction.
  • the horizontal angle ⁇ v2 is the horizontal angle between the straight line connecting the origin O of the right end of the image frame and the YZ plane. Therefore, the combined angle of the horizontal angle ⁇ v1 and the horizontal angle ⁇ v2 is the horizontal angle of view.
  • the vertical angles ⁇ V1 and ⁇ v2 are the angles between the XZ plane and the straight line connecting the origin O at the upper end and the lower end of the frame respectively, and the combined angle of the vertical angle ⁇ V1 and the vertical angle ⁇ v2 is the vertical direction Angle of view.
  • the distance r v is the distance between the origin O and the plane of the image.
  • the object position information and the frame size information indicate the positional relationship between the object 40, the frame and the origin O, respectively. Therefore, the position on the image of each object can be detected (recognized) based on the object position information and the image frame size information. As a result, objects in the display area 31 can be identified.
  • FIG. 6 shows the structure of an MPD file.
  • the moving picture reproduction terminal 14 selects an optimal one from the “Representation” attribute included in the “Period” of the MPD file (Media Presentation in FIG. 6).
  • the video playback terminal 14 acquires and processes the file with reference to the URL (Uniform Resource Locator) of the “Initialization Segment” at the top of the selected “Representation”. Subsequently, the moving image reproduction terminal 14 refers to the URL or the like of the subsequent "Media Segment” to acquire the file and reproduces the file.
  • URL Uniform Resource Locator
  • the MPD file has the hierarchical structure shown in FIG. 8 below “Period”. Further, when the structure of this MPD file is arranged on the time axis, it becomes as shown in the example of FIG. As apparent from FIG. 9, there are multiple "Representations" for the same segment.
  • the video reproduction terminal 14 can acquire and reproduce the image file and the audio file of the display area selected by the user by adaptively selecting any of these.
  • FIG. 10 is a diagram for explaining the description of the MPD file.
  • the image frame size information is included in the MPD file in order to make it possible to specify an object in the display area in the video reproduction terminal 14.
  • This picture frame size information uses Scheme (urn: mpeg: DASH: viewingAngle: 2013) to newly define picture frame size information (Viewing Angle) by utilizing DescriptorType element of Viewpoint. By extension, they are placed in the "Adaptation Set” for audio and the "Adaptation Set” for images.
  • the image frame size information may be arranged only in the "Adaptation Set” for the image.
  • the tile position information is arranged in the "Adaptation Set" for the image.
  • FIG. 11 is a block diagram showing a configuration example of the file generation device 11 of FIG.
  • the file generation apparatus 11 of FIG. 11 includes a screen division processing unit 51, an image coding processing unit 52, an image file generation unit 53, an image information generation unit 54, an audio coding processing unit 55, an audio file generation unit 56, and an MPD generation unit. 57 and a server upload processing unit 58.
  • the screen division processing unit 51 of the file generation device 11 divides image data of moving image content input from the outside into tiles.
  • the screen division processing unit 51 supplies tile position information to the image information generation unit 54. Further, the screen division processing unit 51 supplies tile-based image data to the image coding processing unit 52.
  • the image coding processing unit 52 codes tile-based image data supplied from the screen division processing unit 51 for each tile to generate a video stream.
  • the image coding processing unit 52 supplies the video stream of each tile to the image file generation unit 53.
  • the image file generation unit 53 files the video stream of each tile supplied from the image coding processing unit 52 in units of segments, and supplies the image file of each tile obtained as a result to the MPD generation unit 57.
  • the image information generation unit 54 supplies the tile position information supplied from the screen division processing unit 51 and the image frame size information input from the outside to the MPD generation unit 57 as image information.
  • the audio encoding processing unit 55 encodes audio data of an object unit of moving image content input from the outside for each object to generate an audio stream.
  • the audio encoding processing unit 55 encodes audio metadata including object position information of each object input from the outside, an object ID and the like, and generates encoded data.
  • the audio encoding processing unit 55 supplies the audio file of each object and encoded data of audio metadata to the audio file generation unit 56.
  • the audio file generation unit 56 functions as an audio file generation unit, converts the audio stream of each object supplied from the audio coding processing unit 55 into a file in units of segments, and generates an audio file of each object obtained as a result as an MPD generation unit Supply to 57
  • the audio file generation unit 56 functions as a metafile generation unit, converts the encoded data of the audio metadata supplied from the audio encoding processing unit 55 into a file in units of segments, and obtains the resultant audio metafile as an MPD.
  • the data is supplied to the generation unit 57.
  • the MPD generation unit 57 determines the URL or the like of the web server 12 storing the image file of each tile supplied from the image file generation unit 53. Further, the MPD generation unit 57 determines the URL and the like of the Web server 12 storing the audio file and the audio metafile of each object supplied from the audio file generation unit 56.
  • the MPD generation unit 57 arranges the image information supplied from the image information generation unit 54 in the “AdaptationSet” for the image of the MPD file. Also, the MPD generation unit 57 arranges the image frame size information in the image information in the “AdaptationSet” for audio of the MPD file. The MPD generation unit 57 arranges the URL or the like of the image file of each tile in the “Segment” of “Representation” for the image file of that tile.
  • the MPD generation unit 57 arranges the URL or the like of the audio file of each object in the “Segment” of “Representation” for the audio file of the object. Further, the MPD generation unit 57 functions as an information generation unit, and arranges a URL or the like as information for specifying the audio metafile in the “Segment” of “Representation” for the audio metafile.
  • the MPD generation unit 57 supplies the server upload processing unit 58 with the MPD file in which various types of information are arranged as described above, an image file, an audio file, and an audio metafile.
  • the server upload processing unit 58 uploads the image file of each tile, the audio file of each object, the audio metafile, and the MPD file supplied from the MPD generation unit 57 to the Web server 12.
  • FIG. 12 is a flow chart for explaining the file generation process of the file generation apparatus 11 of FIG.
  • step S11 of FIG. 12 the screen division processing unit 51 of the file generation device 11 divides image data of moving image content input from the outside into tile units.
  • the screen division processing unit 51 supplies tile position information to the image information generation unit 54. Further, the screen division processing unit 51 supplies tile-based image data to the image coding processing unit 52.
  • step S12 the image coding processing unit 52 codes tile-based image data supplied from the screen division processing unit 51 for each tile, and generates a video stream of each tile.
  • the image coding processing unit 52 supplies the video stream of each tile to the image file generation unit 53.
  • step S13 the image file generation unit 53 converts the video stream of each tile supplied from the image coding processing unit 52 into segments and generates an image file of each tile.
  • the image file generation unit 53 supplies the image file of each tile to the MPD generation unit 57.
  • step S14 the image information generation unit 54 acquires image frame size information from the outside.
  • step S15 the image information generation unit 54 generates image information including tile position information and frame size information supplied from the screen division processing unit 51, and supplies the image information to the MPD generation unit 57.
  • step S16 the audio encoding processing unit 55 encodes, for each object, audio data in object units of moving image content input from the outside, and generates an audio stream of each object.
  • the audio encoding processing unit 55 encodes audio metadata including object position information of each object input from the outside, an object ID and the like, and generates encoded data.
  • the audio encoding processing unit 55 supplies the audio file of each object and encoded data of audio metadata to the audio file generation unit 56.
  • step S17 the audio file generation unit 56 converts the audio stream of each object supplied from the audio coding processing unit 55 into a file in units of segments, and generates an audio file of each object. Further, the audio file generation unit 56 converts the encoded data of the audio metadata supplied from the audio encoding processing unit 55 into a file in units of segments to generate an audio metafile. The audio file generation unit 56 supplies the audio file and the audio metafile of each object to the MPD generation unit 57.
  • step S18 the MPD generation unit 57 generates an MPD file including the image information supplied from the image information generation unit 54, the URL of each file, and the like.
  • the MPD generation unit 57 supplies the server upload processing unit 58 with the MPD file, the image file of each tile, the audio file of each object, and the audio metafile.
  • step S19 the server upload processing unit 58 uploads the image file of each tile, the audio file of each object, the audio metafile, and the MPD file supplied from the MPD generation unit 57 to the Web server 12. Then, the process ends.
  • FIG. 13 is a block diagram showing a configuration example of a streaming reproduction unit realized by the moving image reproduction terminal 14 of FIG. 1 executing the control software 21, the moving image reproduction software 22, and the access software 23. .
  • the streaming reproduction unit 90 in FIG. 13 includes an MPD acquisition unit 91, an MPD processing unit 92, a meta file acquisition unit 93, an audio selection unit 94, an audio file acquisition unit 95, an audio decoding processing unit 96, an audio synthesis processing unit 97, and an image selection. It comprises a unit 98, an image file acquisition unit 99, an image decoding processing unit 100, and an image combining processing unit 101.
  • the MPD acquisition unit 91 of the streaming reproduction unit 90 functions as a reception unit, acquires the MPD file from the web server 12, and supplies the MPD file to the MPD processing unit 92.
  • the MPD processing unit 92 extracts information such as a URL described in “Segment” for the audio metafile from the MPD file supplied from the MPD acquisition unit 91, and supplies the information to the metafile acquisition unit 93. Also, the MPD processing unit 92 extracts image frame size information described in “AdaptationSet” for an image from the MPD file, and supplies the image frame size information to the audio selection unit 94. The MPD processing unit 92 extracts information such as a URL described in “Segment” for the audio file of the object requested from the audio selection unit 94 from the MPD file, and supplies the information to the audio selection unit 94.
  • the MPD processing unit 92 extracts tile position information described in the “AdaptationSet” for the image from the MPD file, and supplies the tile position information to the image selection unit 98.
  • the MPD processing unit 92 extracts information such as a URL described in “Segment” for the tile image file requested from the image selection unit 98 from the MPD file, and supplies the information to the image selection unit 98.
  • the meta file acquisition unit 93 Based on the information such as the URL supplied from the MPD processing unit 92, the meta file acquisition unit 93 requests the Web server 12 for an audio meta file specified by the URL, and acquires the audio meta file.
  • the metafile acquisition unit 93 supplies the object selection information contained in the audio metafile to the audio selection unit 94.
  • the voice selection unit 94 functions as a position determination unit, and based on the image frame size information supplied from the MPD processing unit 92 and the object position information supplied from the metafile acquisition unit 93, the position on the image of each object Calculate The voice selection unit 94 selects an object in the display area designated by the user based on the position on the image of each object.
  • the audio selection unit 94 requests the MPD processing unit 92 for information such as the URL of the audio file of the selected object.
  • the voice selection unit 94 supplies information such as a URL supplied from the MPD processing unit 92 to the voice file acquisition unit 95 in response to the request.
  • the audio file acquisition unit 95 functions as a reception unit, and requests the Web server 12 for an audio file in units of objects specified by the URL based on the information such as the URL supplied from the audio selection unit 94 and acquires the audio file. .
  • the audio file acquisition unit 95 supplies the acquired audio file in object units to the audio decoding processing unit 96.
  • the audio decoding processing unit 96 decodes the audio stream included in the object-based audio file supplied from the audio file acquisition unit 95, and generates object-based audio data.
  • the speech decoding processing unit 96 supplies the speech data of the object unit to the speech synthesis processing unit 97.
  • the speech synthesis processing unit 97 synthesizes object-based speech data supplied from the speech decoding processing unit 96 and outputs the synthesized speech data.
  • the image selection unit 98 selects a tile in the display area specified by the user based on the tile position information supplied from the MPD processing unit 92.
  • the image selection unit 98 requests the MPD processing unit 92 for information such as the URL of the image file of the selected tile.
  • the image selection unit 98 supplies information such as a URL supplied from the MPD processing unit 92 to the image file acquisition unit 99 in response to the request.
  • the image file acquisition unit 99 requests the Web server 12 for an image file in units of tiles specified by the URL based on the information such as the URL supplied from the image selection unit 98 and acquires the image file.
  • the image file acquisition unit 99 supplies the acquired image file in tile units to the image decoding processing unit 100.
  • the image decoding processing unit 100 decodes the video stream included in the tile-based image file supplied from the image file acquisition unit 99, and generates tile-based image data.
  • the image decoding processing unit 100 supplies the image data in tile units to the image combining processing unit 101.
  • the image combining processing unit 101 combines and outputs tile-based image data supplied from the image decoding processing unit 100.
  • FIG. 14 is a flow chart for explaining the streaming reproduction process of the streaming reproduction unit 90 (FIG. 13) of the video reproduction terminal 14.
  • step S31 of FIG. 14 the MPD acquisition unit 91 of the streaming reproduction unit 90 acquires the MPD file from the web server 12 and supplies the MPD file to the MPD processing unit 92.
  • step S32 the MPD processing unit 92 acquires, from the MPD file supplied from the MPD acquisition unit 91, the image frame size information and tile position information described in the "AdaptationSet" for the image.
  • the MPD processing unit 92 supplies frame size information to the voice selection unit 94, and supplies tile position information to the image selection unit 98.
  • the MPD processing unit 92 extracts information such as a URL described in “Segment” for audio metafile, and supplies the information to the metafile acquisition unit 93.
  • step S33 based on the information such as the URL supplied from the MPD processing unit 92, the metafile acquisition unit 93 requests the Web server 12 for an audio metafile specified by the URL, and acquires the audio metafile.
  • the metafile acquisition unit 93 supplies the object selection information contained in the audio metafile to the audio selection unit 94.
  • step S34 the audio selection unit 94 selects an object in the display area specified by the user based on the image frame size information supplied from the MPD processing unit 92 and the object position information supplied from the metafile acquisition unit 93. Choose The audio selection unit 94 requests the MPD processing unit 92 for information such as the URL of the audio file of the selected object.
  • the MPD processing unit 92 extracts information such as a URL described in “Segment” for the audio file of the object requested from the audio selection unit 94 from the MPD file, and supplies the information to the audio selection unit 94.
  • the voice selection unit 94 supplies the information such as the URL supplied from the MPD processing unit 92 to the voice file acquisition unit 95.
  • step S35 the audio file acquisition unit 95 requests the Web server 12 for the audio file of the selected object specified by the URL based on the information such as the URL supplied from the audio selection unit 94, and acquires the audio file. Do.
  • the audio file acquisition unit 95 supplies the acquired audio file in object units to the audio decoding processing unit 96.
  • step S36 the image selection unit 98 selects a tile in the display area specified by the user based on the tile position information supplied from the MPD processing unit 92.
  • the image selection unit 98 requests the MPD processing unit 92 for information such as the URL of the image file of the selected tile.
  • the MPD processing unit 92 extracts information such as a URL described in “Segment” for the image file of the object requested from the image selection unit 98 from the MPD file, and supplies the information to the image selection unit 98.
  • the image selection unit 98 supplies the information such as the URL supplied from the MPD processing unit 92 to the image file acquisition unit 99.
  • step S37 the image file acquisition unit 99 requests the Web server 12 for the image file of the selected tile specified by the URL based on the information such as the URL supplied from the image selection unit 98, and acquires the image file Do.
  • the image file acquisition unit 99 supplies the acquired image file in tile units to the image decoding processing unit 100.
  • step S38 the audio decoding processing unit 96 decodes the audio stream included in the object-based audio file supplied from the audio file acquisition unit 95, and generates object-based audio data.
  • the speech decoding processing unit 96 supplies the speech data of the object unit to the speech synthesis processing unit 97.
  • step S39 the image decoding processing unit 100 decodes the video stream included in the tile-based image file supplied from the image file acquisition unit 99, and generates tile-based image data.
  • the image decoding processing unit 100 supplies the image data in tile units to the image combining processing unit 101.
  • step S40 the speech synthesis processing unit 97 synthesizes object-unit speech data supplied from the speech decoding processing unit 96 and outputs the synthesized speech data.
  • step S41 the image combining processing unit 101 combines the tile-based image data supplied from the image decoding processing unit 100 and outputs the combined image data. Then, the process ends.
  • the Web server 12 transmits image frame size information and object position information. Therefore, the moving picture reproduction terminal 14 can specify, for example, an object in the display area, and selectively acquire an audio file of the object as an audio file corresponding to an image in the display area. As described above, the moving image reproduction terminal 14 can acquire only necessary audio files, so that the transmission efficiency is improved.
  • an object ID object specifying information
  • This description is performed, for example, by extending Scheme (urn: mpeg: DASH: audioObj: 2013) for newly defining object ID information (audioObj) by using the DescriptorType element of Viewpoint.
  • the video reproduction terminal 14 selects, acquires, and reproduces an audio file of an object corresponding to the object ID described in the “AdaptationSet” for image.
  • encoded data of all objects may be multiplexed into one audio stream to generate one audio file.
  • the "AdaptationSet” for audio of MPD file is provided with one "Representation” for audio file, and the audio including encoded data of all objects in "Segment”.
  • the URL of the file (audioObje.mp4) is described.
  • object IDs (1, 2, 3, 4, 5) of all objects corresponding to the audio file are also described.
  • the encoded data (Audio object) of the object is placed in the mdat box of the audio file (hereinafter also referred to as audio media file as appropriate) acquired with reference to the “Media Segment” of the MPD file.
  • data is arranged in units of subsegments which is an arbitrary time shorter than the segment.
  • the position of the data in units of subsegments is specified by sidx box.
  • data in units of sub-segments is composed of moof box and mdat box.
  • mdat box is composed of a plurality of samples, encoded data of each object is arranged as each subsample of the samples.
  • a gsix box that describes sample information is arranged. As described above, since the gsix box that describes the sample information is provided separately from the moof box, the video playback terminal 14 can quickly acquire the sample information.
  • grouping_type representing the type of Sample group entry consisting of one or more samples or subsamples managed by this gsix box is described.
  • Sample group entry is a sub-sample of encoded data in object units, as shown in FIG. 17, the type of Sample group entry is “obja”.
  • multiple grouping_type gsix boxes are arranged.
  • an index (entry_index) of each sample group entry and a byte range (range_size) as data position information indicating a position in the audio media file are described.
  • the corresponding byte range represents the byte range of the moof box (a1 in the example of FIG. 17).
  • the audio file acquired by referring to the “Initialization Segment” of the MPD file (hereinafter, also referred to as an audio initialization file as appropriate), it is judged which object each sample group entry is a subsample of the encoded data of Described information is described.
  • AudioObjectSampleGroupEntry one object ID (audio_object_id) corresponding to the encoded data included in the sample is described.
  • audio_object_id one object ID corresponding to the encoded data included in the sample is described.
  • B of FIG. 20 1, 2, 3, 4 are described as object IDs in each of four AudioObjectSampleGroupEntry.
  • an index is described for each AudioObjectSampleGroupEntry as a parameter (grouping_type_parameter) of Sample group entry corresponding to that AudioObjectSampleGroupEntry.
  • the audio media file and the audio initialization file are configured. Therefore, when the video reproduction terminal 14 acquires the encoded data of the object selected as the object in the display area, the AudioObjectSampleGroupEntry in which the object ID of the selected object is described is retrieved from the stbl box of the audio initialization file. Be done. Then, the index of Sample group entry corresponding to the searched AudioObjectSampleGroupEntry is read out from the mvex box. Then, the position of data in units of subsegments is read from sidx of the audio file, and the byte range of Sample group entry of the read index is read from gsix. Then, the encoded data arranged in the mdat is acquired based on the position of the data in the subsegment unit and the byte range. Thereby, encoded data of the selected object is obtained.
  • the index of Sample group entry and the object ID of AudioObjectSampleGroupEntry are associated via mvex box, but may be directly associated. In this case, an index of Sample group entry is described in AudioObjectSampleGroupEntry.
  • FIG. 22 is a diagram for describing an outline of a second example of the information processing system to which the present disclosure is applied.
  • the image of the moving image content is divided into tiles of 5 (vertical) ⁇ 7 (horizontal), and the audio of the moving image content includes objects # 1 to # 8. Audio is being acquired.
  • a display area 31 consisting of 2 (longitudinal) ⁇ 3 (horizontal) tiles is designated by the user, in the second example, as shown in FIG. It is converted (magnified) to the same size as the size of the image of the content, and is made the display image 111. Then, based on the positions of the objects # 1 to # 8 in the display image 111, the sounds of the objects # 1 to # 8 are synthesized and output together with the display image 111. That is, not only the object # 1, the object # 2, and the object # 6 in the display area 31, but also the sound of the objects # 3 to # 5, the object # 7, and the object # 8 outside the display area 31 is output.
  • Example of configuration of streaming playback unit The configuration of the second example of the information processing system to which the present disclosure is applied is the same as the configuration of the information processing system 10 of FIG. 1 except for the configuration of the streaming playback unit, and therefore only the streaming playback unit will be described below. Do.
  • FIG. 23 is a block diagram showing a configuration example of a streaming reproduction unit of the information processing system to which the present disclosure is applied.
  • the configuration of the streaming reproduction unit 120 in FIG. 23 is provided with an MPD processing unit 121, a speech synthesis processing unit 123, and an image synthesis processing unit 124 instead of the MPD processing unit 92, the speech synthesis processing unit 97, and the image synthesis processing unit 101.
  • the point and the point that a position determination unit 122 is newly provided are different from the configuration of the streaming reproduction unit 90 in FIG.
  • the MPD processing unit 121 of the streaming reproduction unit 120 extracts information such as a URL described in “Segment” for the audio metafile from the MPD file supplied from the MPD acquisition unit 91 and supplies the information to the metafile acquisition unit 93 . Further, the MPD processing unit 121 extracts frame size information (hereinafter referred to as content frame size information) of the image of the moving image content described in the “AdaptationSet” for the image from the MPD file, and supplies it to the position determination unit 122 Do. The MPD processing unit 121 extracts information such as a URL described in “Segment” for audio files of all objects from the MPD file, and supplies the information to the audio file acquisition unit 95.
  • content frame size information hereinafter referred to as content frame size information
  • the MPD processing unit 121 extracts tile position information described in the “AdaptationSet” for the image from the MPD file, and supplies the tile position information to the image selection unit 98.
  • the MPD processing unit 121 extracts information such as a URL described in “Segment” for the tile image file requested from the image selection unit 98 from the MPD file, and supplies the information to the image selection unit 98.
  • the position determination unit 122 acquires the object position information included in the audio metafile acquired by the metafile acquisition unit 93 and the content image frame size information supplied from the MPD processing unit 121. In addition, the position determination unit 122 acquires display area image frame size information which is image frame size information of the display area designated by the user. The position determination unit 122 determines (recognizes) the position of the object in the display image based on the object position information, the content image frame size information, and the display area image frame size information. The position determination unit 122 supplies the determined position of the object to the speech synthesis processing unit 123.
  • the speech synthesis processing unit 123 synthesizes object-based speech data supplied from the speech decoding processing unit 96 based on the position of the object supplied from the position determination unit 122. Specifically, the voice synthesis processing unit 123 determines, for each object, voice data to be allocated to each speaker based on the position of the object and the position of each speaker outputting the voice. Then, the speech synthesis processing unit 123 synthesizes speech data of each object for each speaker, and outputs the synthesized speech data as speech data of each speaker. Details of a method of synthesizing speech data of each object based on the position of an object are described in, for example, Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol. 45, no. 6, pp. 456-466, 1997.
  • the image combining processing unit 124 combines the tile-based image data supplied from the image decoding processing unit 100.
  • the image combining processing unit 124 functions as a converting unit, converts the size of the image corresponding to the combined image data into the size of the moving image content, and generates a display image.
  • the image composition processing unit 124 outputs a display image.
  • (Description of how to determine the position of the object) 24 to 26 are diagrams for explaining the method of determining the position of an object by the position determination unit 122 of FIG.
  • the display image 111 is generated by extracting the display area 31 in the moving image content and converting the size of the display area 31 into the size of the moving image content. Therefore, after moving the center C of the display area 31 to the center C ′ of the display image 111 as shown in FIG. 24, the display image 111 is, as shown in FIG. It is equivalent to converted to size.
  • the position determining unit 122 calculates the horizontal movement amount ⁇ shift when moving the center 0 of the display area 31 to the center 0 ′ of the display image 111 according to the following equation (1).
  • ⁇ v1 ′ is the horizontal angle of the left end of the display area image frame size information of the display area 31, and ⁇ V2 ′ is the horizontal angle of the right end. Also, ⁇ v1 is the horizontal angle of the left end of the content image frame size information, and ⁇ v2 is the horizontal angle of the right end.
  • the position determination unit 122 moves the center 0 of the display area 31 to the center 0 ′ of the display image 111 according to the following equation (2) using the movement amount ⁇ shift, and the left end of the display area 31 Request horizontal angle theta V1_shift 'horizontal angle theta V2_shift the right end of' the.
  • the horizontal angle ⁇ v1_shift ′ and the horizontal angle ⁇ v2_shift ′ are determined so as not to exceed the range of ⁇ 180 ° to 180 °.
  • the display image 111 is equivalent to the size of the display area 31 converted to the size of the moving image content . Therefore, the following equation (3) is established for the horizontal angles ⁇ V1 and ⁇ V2 .
  • the position determination unit 122 After determining the movement amount ⁇ shift , the horizontal angle ⁇ v1_shift ', and the horizontal angle ⁇ v2_shift ' as described above, the position determination unit 122 obtains the horizontal angle of the object in the display image 111. Specifically, the position determination unit 122 moves the center C of the display area 31 to the center C ′ of the display image 111 using the movement amount ⁇ shift according to the following equation (4): Find the horizontal angle ⁇ Ai_shift of
  • ⁇ Ai is a horizontal angle among object position information of the object #i. Further, according to equation (4), the horizontal angle ⁇ Ai — shift is determined so as not to exceed the range of ⁇ 180 ° to 180 °.
  • the position determination unit 122 determines an object in the display image 111 according to the following equation (5). Determine the horizontal angle ⁇ A1 'of #i.
  • the distance between the position of the object #i in the display image 111 and the center C ′ of the display image 111 is enlarged according to the ratio of the size of the display area 31 to the size of the display image 111.
  • the horizontal angle ⁇ A1 ' is determined.
  • the position determination unit 122 The horizontal angle ⁇ Ai 'of the object #i in the display image 111 is obtained by the equation (6).
  • the angle R1 and the angle R2 by expanding the horizontal angle theta Ai_shift in accordance with the ratio, it is required horizontal angle theta Ai '.
  • the angle R1 is an angle from the right end of the display image 111 to the position 154 directly behind the viewer 153
  • the angle R2 is an angle from the right end of the display area 31 after the movement of the center to the position 154.
  • the horizontal angle is determined according to the ratio of the angle R3 and the angle R4. by enlarging the ⁇ Ai_shift, it is required horizontal angle theta Ai '.
  • the angle R3 is an angle from the left end of the display image 111 to the position 154
  • the angle R4 is an angle from the left end of the display area 31 after the movement of the center to the position 154.
  • the position determination unit 122 in the same manner as the vertical angle gamma Ai' horizontal angle theta Ai seek. That is, the movement amount ⁇ shift in the vertical direction when moving the center C of the display area 31 to the center C ′ of the display image 111 is calculated by the following equation (7).
  • (gamma) v1 ' is a perpendicular angle of the upper end among display area picture frame size information of the display area 31, and (gamma) V2 ' is a perpendicular angle of a lower end.
  • ⁇ v1 is the vertical angle of the upper end of the content image frame size information
  • ⁇ v2 is the vertical angle of the lower end.
  • the position determination unit 122 moves the center C of the display area 31 to the center C ′ of the display image 111 according to the following equation (8), and then the upper end of the display area 31 Request vertical angle gamma V1_shift 'vertical angle gamma V2_shift the bottom' of the.
  • the vertical angle ⁇ v1_shift 'and the vertical angle ⁇ v2_shift ' are determined so as not to exceed the range of -90 ° to 90 °.
  • the position determining unit 122 After determining the movement amount ⁇ shift , the vertical angle ⁇ v1_shift 'and the vertical angle ⁇ v2_shift ' as described above, the position determining unit 122 obtains the position of the object in the display image 111. More specifically, the position determination unit 122 moves the center C of the display area 31 to the center C ′ of the display image 111 using the movement amount ⁇ shift according to the following equation (9): Find the vertical angle ⁇ Ai_shift of
  • ⁇ Ai is the vertical angle of the object position information of the object #i. Further, according to equation (9), the vertical angle ⁇ Ai — shift is determined so as not to exceed the range of ⁇ 90 ° to 90 °.
  • the position determination unit 122 obtains the vertical angle ⁇ A1 ′ of the object #i in the display image 111 by the following equation (10).
  • the position determination unit 122 determines the distance r A1 of the object position information of the object #i.
  • FIG. 27 is a diagram showing the relationship between the horizontal angle ⁇ Ai and the horizontal angle ⁇ Ai ′.
  • the horizontal axis represents the horizontal angle ⁇ Ai
  • the vertical axis represents the horizontal angle ⁇ Ai ′.
  • the horizontal angle ⁇ Ai is moved by the movement amount ⁇ shift and enlarged to be the horizontal angle ⁇ Ai ′. Also, in the case of ⁇ 180 ° ⁇ ⁇ Ai ⁇ ⁇ v2 ′ or ⁇ v1 ′ ⁇ ⁇ Ai ⁇ 180 °, the horizontal angle ⁇ Ai is moved by the movement amount ⁇ shift and reduced to be a horizontal angle It becomes ⁇ Ai '.
  • FIG. 28 is a flowchart for explaining streaming reproduction processing of the streaming reproduction unit 120 of FIG.
  • step S ⁇ b> 131 of FIG. 28 the MPD acquisition unit 91 of the streaming reproduction unit 120 acquires the MPD file from the web server 12 and supplies the MPD file to the MPD processing unit 121.
  • step S132 the MPD processing unit 121 acquires, from the MPD file supplied from the MPD acquisition unit 91, the content image frame size information and the tile position information described in the "AdaptationSet" for the image.
  • the MPD processing unit 121 supplies image frame size information to the position determination unit 122, and supplies tile position information to the image selection unit 98. Further, the MPD processing unit 121 extracts information such as a URL described in “Segment” for the audio metafile, and supplies the information to the metafile acquisition unit 93.
  • step S133 based on the information such as the URL supplied from the MPD processing unit 121, the metafile acquisition unit 93 requests the Web server 12 for an audio metafile specified by the URL, and acquires the audio metafile.
  • the metafile acquisition unit 93 supplies the object position information included in the audio metafile to the position determination unit 122.
  • step S134 the position determination unit 122 performs the position determination process of determining the position of the object in the display image based on the object position information, the content image frame size information, and the display area image frame size information. Details of this position determination processing will be described with reference to FIG. 29 described later.
  • step S 135 the MPD processing unit 121 extracts information such as a URL described in “Segment” for audio files of all objects from the MPD file, and supplies the information to the audio file acquisition unit 95.
  • step S136 based on the information such as the URL supplied from the MPD processing unit 121, the audio file acquisition unit 95 requests the Web server 12 for audio files of all objects specified by the URL, and acquires the audio files.
  • the audio file acquisition unit 95 supplies the acquired audio file in object units to the audio decoding processing unit 96.
  • steps S137 to S140 are the same as the processes of steps S36 to S39 of FIG.
  • step S141 the speech synthesis processing unit 123 synthesizes object-based speech data supplied from the speech decoding processing unit 96 based on the position of the object supplied from the position determination unit 122, and outputs the synthesized speech data.
  • step S142 the image combining processing unit 124 combines the tile-based image data supplied from the image decoding processing unit 100.
  • step S143 the image combining processing unit 124 converts the size of the image corresponding to the combined image data into the size of the moving image content, and generates a display image. Then, the image combining processing unit 124 outputs the display image, and the process ends.
  • FIG. 29 is a flowchart for describing the details of the position determination process of step S134 of FIG. This position determination process is performed, for example, for each object.
  • step S151 of FIG. 29 the position determining unit 122 performs estimation processing 'horizontal angle theta Ai estimating the' horizontal angle theta Ai in the display image.
  • the details of the horizontal angle ⁇ Ai 'estimation processing will be described with reference to FIG. 30 described later.
  • step S152 the position determining unit 122 performs estimation processing 'vertical angle gamma Ai estimating the' vertical angle gamma Ai in the display image.
  • the details of the vertical angle ⁇ Ai 'estimation processing are the same as the horizontal angle ⁇ Ai ' estimation processing of step S 151 except that the horizontal direction is changed to the vertical direction, and thus the detailed description will be omitted.
  • step S153 the position determination unit 122 determines the distance r Ai 'in the display image, the distance r Ai of the object position information supplied from the metafile acquisition unit 93.
  • step S154 the position determination unit 122 outputs the horizontal angle ⁇ Ai ', the vertical angle ⁇ Ai ', and the distance r Ai to the voice synthesis processing unit 123 as the position of the object #i. Then, the process returns to step S134 in FIG. 28 and proceeds to step S135.
  • FIG. 30 is a flow chart for explaining the details of the horizontal angle ⁇ Ai ′ estimation process of step S151 of FIG.
  • step S171 in FIG. 30 the position determination unit 122 acquires the horizontal angle ⁇ Ai of the object position information supplied from the metafile acquisition unit 93.
  • step S172 the position determination unit 122 acquires the content image frame size information supplied from the MPD processing unit 121 and the display area image frame size information specified by the user.
  • step S173 the position determination unit 122 calculates the movement amount ⁇ shift according to the above-described equation (1) based on the content frame size information and the display area frame size information.
  • step S174 the position determination unit 122 calculates the horizontal angles ⁇ v1_shift 'and ⁇ v2_shift ' according to the above-described equation (2) using the movement amount ⁇ shift and the display area frame size.
  • step S175 the position determination unit 122 uses the amount of movement theta Shift the horizontal angle theta Ai, by the above-mentioned equation (4) determines the horizontal angle ⁇ Ai_shift.
  • step S176 the position determination unit 122 determines whether the object #i exists in the display area 31 (the horizontal angle of the object #i is between the horizontal angles at both ends of the display area 31), that is, ⁇ v2_shift ' ⁇ It is determined whether ⁇ Ai _shift ⁇ v1 _shift ′.
  • step S176 If it is determined in step S176 that the object #i is present in the display area 31, that is, if ⁇ v2_shift ' ⁇ Ai_shift ⁇ v 1_shift ', the process proceeds to step S177.
  • step S177 the position determination unit 122 calculates the horizontal angle ⁇ A1 ′ according to the above-described equation (5) based on the content image frame size information, the horizontal angles ⁇ v1_shift ′ and ⁇ v2_shift ′, and the horizontal angle ⁇ Ai_shift. .
  • step S176 when it is determined in step S176 that the object #i is not present in the display area 31, that is, -180 ° ⁇ ⁇ Ai_shift ⁇ ⁇ v2_shift ′ or ⁇ v1_shift ′ ⁇ ⁇ Ai_shift ⁇ 180 °.
  • the processing proceeds to step S178.
  • step S178 the position determination unit 122 calculates the horizontal angle ⁇ Ai 'according to the above-described equation (6) based on the content frame size information, the horizontal angle ⁇ v1_shift ' or ⁇ v2_shift ', and the horizontal angle ⁇ Ai_shift. .
  • step S177 or step S178 the process returns to step S151 of FIG. 29, and the process proceeds to step S152.
  • the size of the display image is the same as the size of the moving image content, but may be different.
  • audio data of all objects is not synthesized and output, but some objects (for example, objects in the display area, objects in a predetermined range from the display area, etc.) Only voice data may be synthesized and output.
  • the method of selecting an object of audio data to be output may be determined in advance or may be specified by the user.
  • the audio data is only object-based audio data, but audio data includes channel audio audio data, HOA (Higher-Order Audio) audio audio data, SAOC (Spatial Audio Object) Coding) audio data, audio data metadata (scene information, dynamic static metadata), and the like may be included.
  • HOA Higher-Order Audio
  • SAOC Spatial Audio Object
  • audio data metadata scene information, dynamic static metadata
  • Channel audio making up 3D audio is audio data in units of channels
  • Object audio is audio data in units of object
  • HOA audio is spherical audio data
  • metadata is Channel audio / Object audio / HOA It is metadata of audio.
  • Object audio is audio data in units of objects, but may be audio data of SAOC.
  • FIG. 32 is a diagram showing the structure of the moov box of the MP4 file.
  • image data and audio data are recorded as different tracks. Although the details of the track of audio data are not described in FIG. 32, they are the same as the track of image data.
  • the sample entry is included in the sample description placed in the stsd box in the moov box.
  • the Web server side sends out all audio streams, and the video playback terminal (client) side parses all audio streams (streams) while necessary 3D audio audio streams Decode (decode) and output (rendering).
  • client parses all audio streams (streams) while necessary 3D audio audio streams Decode (decode) and output (rendering).
  • bit rate Bit Rate
  • the moving image reproduction terminal (client) side can acquire an audio stream of an encoding speed optimum for the reproduction environment by acquiring only necessary 3D audio encoded data. ing.
  • encoded data of 3D audio is divided into tracks according to types and arranged in an audio file, so that only predetermined types of encoded data can be efficiently obtained.
  • the load on the system can be reduced in broadcast and local storage playback.
  • the highest quality of necessary 3D audio encoded data can be reproduced according to the band.
  • the amount of information of position information compared to the case where encoded data in object units are arranged in subsamples. Can be reduced.
  • FIG. 33 is a diagram for describing an outline of a track in the first embodiment to which the present disclosure is applied.
  • Channel audio / Object audio / HOA audio / metadata constituting 3D audio are respectively different tracks (Channel audio track / Object audio track (s) / HOA audio track / Object metadata track) audio stream.
  • An audio stream of audio metadata is arranged in the object metadata track.
  • a base track (Base Track) is provided as a track for arranging information on the entire 3D audio.
  • Base Track information related to the entire 3D audio is placed in the sample entry, but nothing is placed as a sample.
  • Base track, Channel audio track, Object audio track (s), HOA audio track, and Object metadata track are recorded as the same audio file (3 dauio.mp4).
  • the Track Reference is arranged, for example, in the track box, and indicates the reference relationship between the corresponding track and other tracks. Specifically, the Track Reference indicates an ID unique to the track of another track in a reference relationship (hereinafter referred to as a track ID).
  • the track IDs of Base track, Channel audio track, HOA audio track, Object metadata track, Object audio track (s) are 1, 2, 3, 4, 10, and so on.
  • the Track Reference of Base track is 2, 3, 4, 10, ...
  • the Track Reference of Channel audio track / HOA audio track / Object metadata track / Object audio track (s) is the track ID of Base track. It is one.
  • the Base track and the Channel audio track / HOA audio track / Object metadata track / Object audio track (s) are in a reference relationship. That is, the Base track is referenced at the time of reproduction of Channel audio track / HOA audio track / Object metadata track / Object audio track (s).
  • FIG. 34 is a diagram showing an example of the syntax of the sample entry of the base track of FIG.
  • the configurationVersion, MPEGHAudioProfile, and MPEGHAudioLevel in FIG. 34 respectively represent config information, profile information, and level information of the entire 3D audio audio stream (normal 3D audio audio stream) as information related to the entire 3D audio. Also, width and height in FIG. 34 indicate the number of pixels in the horizontal direction and the number of pixels in the vertical direction of the moving image content, respectively, as information on the entire 3D audio.
  • Theta1, theta2, gamma1 and gamma2 are information on the entire 3D audio, respectively, the horizontal angle ⁇ v1 of the left end of the image frame in the image frame size information of the moving image content, the horizontal angle ⁇ v2 of the right end, the upper end of the image frame Represents the vertical angle ⁇ v1 and the vertical angle ⁇ v2 of the lower end.
  • FIG. 35 is a diagram showing an example of syntax of sample entries of the channel audio track of FIG.
  • the configurationVersion, MPEGHAudioProfile, and MPEGHAudioLevel in FIG. 35 respectively represent Channel Audio config information, profile information, and level information.
  • FIG. 36 is a diagram showing an example of syntax of sample entries of the object audio track (Object audio track) of FIG.
  • ConfigurationVersion, MPEGHAudioProfile, and MPEGHAudioLevel in FIG. 36 respectively represent config information, profile information, and level information of one or more Object audios included in the object audio track.
  • object_is_fixed indicates whether one or more Object audio objects included in the object audio track are fixed. If object_is_fixed is 1, it indicates that the object is fixed, and if it is 0, it indicates that the object moves.
  • mpegh3daConfig represents a config of identification information of one or more Object audio objects included in the object audio track.
  • MaxobjectTheta1, maxobjectTheta2, maxobjectGamma1, maxobjectGamma2 / and maxobjectRength represent the maximum value of object information when one or more Object audio objects included in the object audio track move.
  • FIG. 37 is a diagram showing an example of syntax of sample entries of the HOA audio track (HOA audio track) of FIG.
  • ConfigurationVersion, MPEGHAudioProfile, and MPEGHAudioLevel in FIG. 37 represent HOA audio config information, profile information, and level information.
  • FIG. 38 is a diagram illustrating an example of syntax of sample entries of the object metadata track (Object metadata track) of FIG.
  • ConfigurationVersion in FIG. 38 represents config information of metadata.
  • FIG. 39 is a diagram illustrating a first example of a segment structure of an audio file of 3D audio according to the first embodiment to which the present disclosure is applied.
  • the Initial segment is composed of an ftyp box and a moov box.
  • trak box is arranged for each track included in the audio file.
  • an mvex box including information indicating the correspondence between the track ID of each track and the level used in the ssix box in the media segment is arranged.
  • the media segment is composed of a sidx box, an ssix box, and one or more subsegments.
  • position information indicating the position in the audio file of each subsegment is placed.
  • the ssix box contains positional information of each level audio stream arranged in the mdat box.
  • the levels correspond to the tracks.
  • the position information of the first track is position information of data consisting of the moof box and the audio stream of the first track.
  • the subsegment is provided for each arbitrary length of time, and the subsegment is provided with a pair of moof box and mdat box common to all the tracks.
  • the audio streams of all the tracks are collectively arranged by an arbitrary time length, and in the moof box, management information of the audio stream is arranged.
  • the audio stream of each track arranged in the mdat box is continuous for each track.
  • Track 1 whose track ID is 1 is a base track
  • Track 2 to track N whose track IDs are 2 to N are Channel Audio Track, Object audio track (s), HOA audio track, object It is metadata track.
  • s Object audio track
  • HOA audio track object It is metadata track.
  • FIG. 40 is a diagram illustrating a second example of the segment structure of the 3D audio sound file according to the first embodiment to which the present disclosure is applied.
  • the segment structure of FIG. 40 differs from the segment structure of FIG. 39 in that the moof box and the mdat box are provided for each track.
  • the Initial segment in FIG. 40 is the same as the Initial segment in FIG.
  • the media segment in FIG. 40 is configured by a sidx box, an ssix box, and one or more subsegments, similarly to the media segment in FIG. Similar to the sidx box in FIG. 39, position information of each subsegment is placed in the sidx box.
  • the ssix box contains position information of data of each level consisting of the moof box and the mdat box.
  • the subsegment is provided for an arbitrary length of time, and the subsegment is provided with a pair of moof box and mdat box for each track. That is, in the mdat box of each track, the audio streams of the track are collectively arranged (interleaved) for an arbitrary time length, and the management information of the audio stream is arranged in the moof box.
  • the audio streams of each track are arranged collectively for an arbitrary time length, compared with the case where they are arranged collectively in sample units, the audio stream of HTTP or the like Acquisition efficiency improves.
  • FIG. 41 is a diagram showing an example of description of the level assignment box arranged in the mvex box of FIG. 39 and FIG.
  • the level assignment box is a box that associates the track ID of each track with the level used in the ssix box.
  • a base track whose track ID is 1 is associated with level 0
  • a channel audio track whose track ID is 2 is associated with level 1.
  • the HOA audio track whose track ID is 3 is associated with level 2
  • the object metadata track whose track ID is 4 is associated with level 3.
  • an object audio track whose track ID is 10 is associated with level 4.
  • FIG. 42 is a diagram showing an example of description of the MPD file in the first embodiment to which the present disclosure is applied.
  • the “Representation” and “SubRepresentation” include “codecs” representing the type of codec of the corresponding segment or track by a code defined in 3D audio file format. Also, “Representation” includes “id”, “associationId”, and “assciationType”.
  • Id is an ID of "Representation” including it.
  • Association Id is information representing a reference relationship between the corresponding track and another track, and is “id” of the reference track.
  • AssciationType is a code that represents the meaning of the reference relationship (dependency relationship) with the reference track, and, for example, the same value as the value of the track reference of MP4 is used.
  • “SubRepresentation” includes “level” which is a value set in the level assignment box as a value representing a level corresponding to the corresponding track.
  • the “SubRepresentation” includes “dependencyLevel” which is a value representing a level corresponding to another track (hereinafter referred to as a reference track) having a reference relationship.
  • the ⁇ , ⁇ , r are respectively the horizontal angle, the vertical angle, and the distance in the object position information when the object corresponding to “SubRepresentation” is fixed.
  • these ⁇ , ⁇ , r are respectively the maximum value of the horizontal angle, the maximum value of the vertical angle, and the maximum value of the distance among the maximum values of the object position information.
  • FIG. 43 is a diagram showing the definition of Essential Property of FIG.
  • AudioType represents the type of 3D audio of the corresponding track.
  • AudioType when AudioType is 1, it indicates that the audio data of the corresponding track is Channel audio of 3D audio, and when AudioType is 2, the audio data of the corresponding track is HOA. Indicates that it is audio.
  • AudioType When AudioType is 3, it indicates that the audio data of the corresponding track is Object audio, and when AudioType is 4, it indicates that the audio data of the corresponding track is metadata.
  • contentkind represents the content of the corresponding audio.
  • the contentkind is 3, the corresponding sound is music.
  • Priority is defined in 23008-3, and represents the processing priority of the corresponding Object.
  • a value representing processing priority of Object is described only when it is not changed in the middle of the audio stream, and 0 is described when it is changed.
  • FIG. 44 is a diagram for describing an overview of the information processing system according to the first embodiment to which the present disclosure is applied.
  • the information processing system 140 of FIG. 44 is configured by connecting the Web server 142 connected to the file generation device 141 and the video reproduction terminal 144 via the Internet 13.
  • the Web server 142 distributes (tiled streaming) the video stream of moving image content to the moving image reproduction terminal 144 in tile units in a method conforming to MPEG-DASH. Further, in the information processing system 140, the Web server 142 distributes an audio stream of Object audio, Channel audio, or HOA audio corresponding to the tile to be reproduced to the video reproduction terminal 144.
  • the file generation apparatus 141 of the information processing system 140 generates the audio file in the first embodiment, and the MPD generation unit 57 generates the MPD file in the first embodiment, etc. , It is the same as that of the file generation device 11 of FIG.
  • the file generation device 141 acquires image data of moving image content, and encodes the image data in tile units to generate a video stream.
  • the file generator 141 files the video stream of each tile into segments.
  • the file generation device 141 uploads the image file of each tile obtained as a result to the web server 142.
  • the file generation device 141 acquires 3D audio of moving image content, and encodes the 3D audio type (Channel audio / Object audio / HOA audio / metadata) to generate an audio stream.
  • the file generator 141 assigns a track to the audio stream for each type of 3D audio.
  • the file generator 141 generates an audio file of the segment structure shown in FIG. 39 or 40 in which the audio stream of each track is arranged in units of subsegments, and uploads the file to the Web server 142.
  • the file generation device 141 generates an MPD file including image frame size information, tile position information, object position information, and the like.
  • the file generation device 141 uploads the MPD file to the web server 142.
  • the web server 142 stores the image file, the audio file, and the MPD file uploaded from the file generation device 141.
  • the web server 142 stores a segment group including image files of a plurality of segments of tile # 1 and a segment group including image files of a plurality of segments of tile # 2. Also, the Web server 142 stores a segment group consisting of audio files of 3D audio.
  • the Web server 142 transmits the stored image file, audio file, MPD file, and the like to the moving picture reproduction terminal 144 in response to a request from the moving picture reproduction terminal 144.
  • the video playback terminal 144 executes control software 161, video playback software 162, access software 163, and the like.
  • the control software 161 is software that controls data to be streamed from the web server 142. Specifically, the control software 161 causes the video reproduction terminal 144 to acquire the MPD file from the Web server 142.
  • control software 161 specifies tiles in the display area based on the display area instructed by the moving image reproduction software 162 and the tile position information included in the MPD file. Then, the control software 161 instructs the access software 163 to transmit an image file of the tile.
  • the control software 161 instructs the access software 163 to transmit the image frame size information in the audio file when the object audio is to be reproduced. Also, the control software 161 instructs the access software 163 to transmit an audio stream of metadata.
  • the control software 161 uses the image frame size information transmitted from the Web server 142 according to the command, the object position information included in the audio stream of metadata, and the image in the display area based on the display area. Identify the corresponding object. Then, the control software 161 instructs the access software 163 to transmit an audio stream of the object.
  • control software 161 sets Channel audio or HOA audio as a playback target
  • the control software 161 instructs the access software 163 to transmit an audio stream of the channel audio or HOA audio.
  • the video reproduction software 162 is software for reproducing an image file and an audio file acquired from the web server 142. Specifically, when the display area is designated by the user, the moving image reproduction software 162 instructs the control software 161 on the display area. In addition, the moving image reproduction software 162 decodes the image file and the audio file acquired from the Web server 142 in response to the instruction. The video reproduction software 162 synthesizes and outputs tile-based image data obtained as a result of decoding. Also, the video reproduction software 162 synthesizes and outputs Object audio, Channel audio, or HOA audio obtained as a result of decoding as necessary.
  • the access software 163 is software that controls communication with the web server 142 via the Internet 13 using HTTP. Specifically, the access software 163 transmits the image file, image frame size information in the audio file, and a transmission request for a predetermined audio stream to the moving image reproduction terminal 144 in accordance with an instruction from the control software 161. Let Further, the access software 163 causes the moving image reproduction terminal 144 to receive the image file, image frame size information in the audio file, and a predetermined audio stream transmitted from the Web server 142 in response to the transmission request.
  • FIG. 45 is a block diagram showing a configuration example of the file generation device 141 of FIG.
  • the configuration of the file generation apparatus 141 of FIG. 45 is the same as the configuration of the speech encoding processing unit 55, the speech file generation unit 56, the MPD generation unit 57, and the server upload processing unit 58.
  • An MPD generation unit 173 and a server upload processing unit 174 are different from the configuration of the file generation apparatus 11 of FIG.
  • the audio encoding processing unit 171 of the file generation device 141 encodes 3D audio of moving image content input from the outside for each type (Channel audio / Object audio / HOA audio / metadata), and encodes an audio stream. Generate The audio coding processing unit 171 supplies an audio stream for each type of 3D audio to the audio file generation unit 172.
  • the audio file generation unit 172 allocates a track for each type of 3D audio to the audio stream supplied from the audio encoding processing unit 171.
  • the audio file generator 172 generates an audio file of the segment structure shown in FIG. 39 or 40 in which the audio stream of each track is arranged in units of subsegments.
  • the audio file generation unit 172 stores image frame size information input from the outside in the sample entry.
  • the audio file generation unit 172 supplies the generated audio file to the MPD generation unit 173.
  • the MPD generation unit 173 determines the URL and the like of the Web server 142 storing the image file of each tile supplied from the image file generation unit 53. In addition, the MPD generation unit 173 determines the URL and the like of the Web server 142 storing the audio file supplied from the audio file generation unit 172.
  • the MPD generation unit 173 arranges the image information supplied from the image information generation unit 54 in the “AdaptationSet” for the image of the MPD file. Also, the MPD generation unit 173 arranges the URL and the like of the image file of each tile in “Segment” of “Representation” for the image file of that tile.
  • the MPD generation unit 173 arranges the URL or the like of the audio file in the "Segment” of the "Representation” for the audio file. In addition, the MPD generation unit 173 arranges the object position information and the like of each object input from the outside in “Sub Representation” for the Object metadata track of the object. The MPD generation unit 173 supplies the MPD file in which various types of information are arranged as described above, the image file and the audio file to the server upload processing unit 174.
  • the server upload processing unit 174 uploads the image file, the audio file, and the MPD file of each tile supplied from the MPD generation unit 173 to the Web server 142.
  • FIG. 46 is a flow chart for explaining the file generation processing of the file generation device 141 of FIG.
  • steps S191 to S195 in FIG. 46 are the same as the processes in steps S11 to S15 in FIG.
  • step S196 the audio encoding processing unit 171 encodes 3D audio of moving image content input from the outside for each type (Channel audio / Object audio / HOA audio / metadata) to generate an audio stream.
  • the audio coding processing unit 171 supplies an audio stream for each type of 3D audio to the audio file generation unit 172.
  • step S 197 the audio file generation unit 172 assigns a track to the audio stream supplied from the audio encoding processing unit 171 for each type of 3D audio.
  • step S198 the audio file generator 172 generates the audio file of the segment structure shown in FIG. 39 or 40 in which the audio stream of each track is arranged in units of subsegments.
  • the audio file generation unit 172 stores image frame size information input from the outside in the sample entry.
  • the audio file generation unit 172 supplies the generated audio file to the MPD generation unit 173.
  • step S199 the MPD generation unit 173 generates an MPD file including the image information supplied from the image information generation unit 54, the URL of each file, the object position information, and the like.
  • the MPD generation unit 173 supplies the image file, the audio file, and the MPD file to the server upload processing unit 174.
  • step S200 the server upload processing unit 174 uploads the image file, the audio file, and the MPD file supplied from the MPD generation unit 173 to the Web server 142. Then, the process ends.
  • FIG. 47 is a block diagram showing a configuration example of a streaming reproduction unit realized by the moving image reproduction terminal 144 of FIG. 44 executing the control software 161, the moving image reproduction software 162, and the access software 163. .
  • the configuration of the streaming playback unit 190 in FIG. 47 is the MPD processing unit 191, voice selection unit instead of the MPD processing unit 92, voice selection unit 94, voice file acquisition unit 95, voice decoding processing unit 96, and voice synthesis processing unit 97.
  • the configuration of the streaming playback unit 90 in FIG. 13 is different from the configuration of the streaming playback unit 90 in FIG. 13 in that the voice file acquisition unit 192, the voice decoding processing unit 194, and the voice synthesis processing unit 195 are provided.
  • the streaming playback unit 190 is the same as the streaming playback unit 90 in FIG. 13 except that the method for acquiring audio data to be played back of the selected object is different.
  • the MPD processing unit 191 of the streaming reproduction unit 190 uses information such as the URL of the audio file of the segment to be reproduced described in “Segment” for the audio file from the MPD file supplied from the MPD acquisition unit 91 Are extracted and supplied to the audio file acquisition unit 192.
  • the MPD processing unit 191 extracts tile position information described in “AdaptationSet” for an image from the MPD file, and supplies the tile position information to the image selection unit 98.
  • the MPD processing unit 191 extracts information such as a URL described in “Segment” for the tile image file requested from the image selection unit 98 from the MPD file, and supplies the information to the image selection unit 98.
  • the audio file acquisition unit 192 sets the Initial Segment of the Base track in the audio file specified by the URL to the Web server based on the information such as the URL supplied from the MPD processing unit 191 when the Object audio is to be reproduced. Request 142 to get.
  • the audio file acquisition unit 192 requests the Web server 142 to acquire an audio stream of object metadata track in the audio file specified by the URL based on the information such as the URL of the audio file.
  • the audio file acquisition unit 192 supplies information such as object position information included in the audio stream of object metadata track, image frame size information included in the Initial Segment of the Base track, and URL of an audio file to the audio selection unit 193.
  • the audio file acquisition unit 192 uses the web server 142 to transmit the audio stream of the Channel audio track in the audio file specified by the URL based on the information such as the URL of the audio file. Request and get.
  • the audio file acquisition unit 192 supplies the acquired audio stream of the Channel audio track to the audio decoding processing unit 194.
  • the audio file acquisition unit 192 performs the same process as the case where the Channel audio is to be reproduced. As a result, the audio stream of the HOA audio track is supplied to the audio decoding processing unit 194.
  • the audio selection unit 193 calculates the position on the image of each object based on the image frame size information and the object position information supplied from the audio file acquisition unit 192.
  • the voice selection unit 193 selects an object in the display area designated by the user based on the position on the image of each object.
  • the audio selection unit 193 uses the audio stream of the Object audio track of the selected object in the audio file specified by the URL based on the information such as the URL of the audio file supplied from the audio file acquisition unit 192 as the web. Request the server 142 and acquire it.
  • the audio selection unit 193 supplies the acquired audio stream of the Object audio track to the audio decoding processing unit 194.
  • the audio decoding processing unit 194 decodes the audio stream of the Channel audio track or the HOA audio track supplied from the audio file acquisition unit 192, or the audio stream of the Object audio track from the audio selection unit 193.
  • the speech decoding processing unit 194 supplies, to the speech synthesis processing unit 195, Channel audio, HOA audio, or Object audio obtained as a result of the decoding.
  • the speech synthesis processing unit 195 synthesizes and outputs Object audio, Channel audio, or HOA audio supplied from the speech decoding processing unit 194 as necessary.
  • FIG. 48 is a flowchart for explaining channel audio reproduction processing of the streaming reproduction unit 190 of FIG. This channel audio reproduction processing is performed, for example, when the user selects Channel audio as a reproduction target.
  • step S221 in FIG. 48 the MPD processing unit 191 analyzes the MPD file supplied from the MPD acquisition unit 91, and based on the essential property and codec described in “SubRepresentation”, the channel audio of the segment to be reproduced is Identify SubRepresentation. Further, the MPD processing unit 191 extracts information such as a URL described in “Segment” for the audio file of the segment to be reproduced from the MPD file, and supplies the information to the audio file acquisition unit 192.
  • step S222 the MPD processing unit 191 specifies the level of the Base track that is the reference track based on the dependencyLevel of “SubRepresentation” specified in step S221, and supplies the specified level to the audio file acquisition unit 192.
  • step S 223 the audio file acquisition unit 192 requests the Web server 142 to acquire the Initial Segment of the segment to be reproduced based on the information such as the URL supplied from the MPD processing unit 191.
  • step S224 the audio file acquisition unit 192 acquires a track ID corresponding to the channel audio track and the level of the Base track, which is a reference track, from the Level assignment box in the Initial Segment.
  • step S225 the audio file acquisition unit 192 acquires a sample entry in the trak box corresponding to the track ID of the Initial Segment based on the channel audio track and the track ID of the reference track Base track.
  • the audio file acquisition unit 192 supplies the codec information included in the acquired sample entry to the audio decoding processing unit 194.
  • step S226 the audio file acquisition unit 192 requests the Web server 142 based on the information such as the URL supplied from the MPD processing unit 191, and sets the sidx box and ssix box from the top of the audio file of the segment to be reproduced. get.
  • step S227 the audio file acquisition unit 192 acquires, from the sidx box and the ssix box acquired in step S223, the channel audio track of the subsegment to be reproduced and the position information of the reference track.
  • the Base track which is the reference track, does not include the audio stream, there is no position information of the reference track.
  • step S228, the audio file acquisition unit 192 uses the audio server of the channel audio track arranged in the mdat box based on the position information of the channel audio track and the information such as the URL of the audio file of the segment to be reproduced. Request and get.
  • the audio file acquisition unit 192 supplies the audio stream of the acquired channel audio track to the audio decoding processing unit 194.
  • step S229 the audio decoding processing unit 194 decodes the audio stream of channel audio track based on the codec information supplied from the audio file acquisition unit 192.
  • the audio file acquisition unit 192 supplies the resulting channel audio to the speech synthesis processing unit 195.
  • step S230 the speech synthesis processing unit 195 outputs channel audio, and ends the processing.
  • the HOA audio reproduction process of reproducing the HOA audio by the streaming reproduction unit 190 is performed in the same manner as the channel audio reproduction process of FIG.
  • FIG. 49 is a flow chart for explaining object identification processing of the streaming reproduction unit 190 of FIG. This object identification process is performed, for example, when the user selects Object audio as a playback target and the playback area changes.
  • step S251 of FIG. 49 the voice selection unit 193 acquires the display area designated by the user by the user operation or the like.
  • step S252 the MPD processing unit 191 analyzes the MPD file supplied from the MPD acquisition unit 91, and based on the essential property and codec described in “SubRepresentation”, “SubRepresentation” of the metadata of the segment to be played back. Identify. Further, the MPD processing unit 191 extracts information such as the URL of the audio file of the segment to be reproduced described in “Segment” for the audio file from the MPD file, and supplies the information to the audio file acquisition unit 192.
  • step S253 the MPD processing unit 191 identifies the level of the Base track which is the reference track based on the dependencyLevel of “SubRepresentation” identified in step S252, and supplies the level to the audio file acquisition unit 192.
  • step S 254 the audio file acquisition unit 192 requests the Web server 142 to acquire the Initial Segment of the segment to be reproduced based on the information such as the URL supplied from the MPD processing unit 191.
  • step S255 the audio file acquisition unit 192 acquires a track ID corresponding to the level of the object metadata track and the Base track which is the reference track from the Level assignment box in the Initial Segment.
  • step S256 the audio file acquisition unit 192 acquires a sample entry in the trak box corresponding to the track ID of the initial segment based on the object metadata track and the track ID of the reference track Base track.
  • the audio file acquisition unit 192 supplies, to the audio selection unit 193, image frame size information included in the sample entry of the Base track that is the reference track. Also, the audio file acquisition unit 192 supplies the Initial Segment to the audio selection unit 193.
  • step S 257 the audio file acquisition unit 192 requests the Web server 142 based on the information such as the URL supplied from the MPD processing unit 191, and sets the sidx box and ssix box from the beginning of the audio file of the segment to be reproduced. get.
  • step S258 the audio file acquisition unit 192 acquires, from the sidx box and the ssix box acquired in step S257, the object metadata track of the subsegment to be reproduced and the position information of the reference track.
  • the Base track which is the reference track
  • the audio file acquisition unit 192 supplies the sidx box and the ssix box to the audio selection unit 193.
  • step S259 the audio file acquisition unit 192 uses the audio server of the object metadata track arranged in the mdat box based on the position information of the object metadata track and the information such as the URL of the audio file of the segment to be reproduced. Request and get.
  • step S260 the audio file acquisition unit 192 decodes the audio stream of the object metadata track acquired in step S259 based on the codec information included in the sample entry acquired in step S256.
  • the audio file acquisition unit 192 supplies, to the audio selection unit 193, object position information included in the metadata obtained as a result of the decoding. Also, the audio file acquisition unit 192 supplies the information such as the URL of the audio file supplied from the MPD processing unit 191 to the audio selection unit 193.
  • step S261 the audio selection unit 193 selects an object in the display area based on the image frame size information and the object position information supplied from the audio file acquisition unit 192, and the display area specified by the user. Then, the process ends.
  • FIG. 50 is a flow chart for explaining a specific object audio reproduction process performed by the streaming reproduction unit 190 after the object identification process of FIG.
  • step S 281 in FIG. 50 the MPD processing unit 191 analyzes the MPD file supplied from the MPD acquisition unit 91, and object audio of the selected object based on essential property and codec described in “SubRepresentation”. Identify SubRepresentation.
  • step S 282 the MPD processing unit 191 specifies the level of the Base track that is the reference track based on the dependency Level of “SubRepresentation” specified in step S 281, and supplies the specified level to the audio file acquisition unit 192.
  • step S 283 the audio file acquisition unit 192 acquires a track ID corresponding to the level of the object audio track and the Base track that is the reference track from the Level assignment box in the Initial Segment, and supplies the track ID to the audio selection unit 193.
  • step S284 the audio selection unit 193 acquires a sample entry in the trak box corresponding to the track ID of the Initial Segment based on the object audio track and the track ID of the reference track Base track. This Initial Segment is supplied from the audio file acquisition unit 192 in step S256 of FIG.
  • the voice selection unit 193 supplies the codec information included in the acquired sample entry to the voice decoding processing unit 194.
  • step S285 the audio selection unit 193 uses the sidx box and the ssix box supplied from the audio file acquisition unit 192 in step S258 to select the object audio track of the selected object of the subsegment to be reproduced and the position information of the reference track. get.
  • the Base track which is the reference track, does not include the audio stream, there is no position information of the reference track.
  • step S 286 the audio selection unit 193 selects the audio of the object audio track of the selected object placed in the mdat box based on the position information of the object audio track and the information such as the URL of the audio file of the segment to be reproduced.
  • the stream is requested to the web server 142 and acquired.
  • the audio selection unit 193 supplies the acquired audio stream of the object audio track to the audio decoding processing unit 194.
  • step S287 the audio decoding processing unit 194 decodes the audio stream of the object audio track based on the codec information supplied from the audio selection unit 193.
  • the voice selection unit 193 supplies the object audio obtained as a result of the decoding to the voice synthesis processing unit 195.
  • step S 288 the speech synthesis processing unit 195 synthesizes and outputs the object audio supplied from the speech decoding processing unit 194. Then, the process ends.
  • the file generation device 141 generates an audio file in which 3D audio is divided into a plurality of tracks and arranged according to the type of 3D audio. Then, the video playback terminal 144 acquires an audio stream of a track of a predetermined type of 3D audio among the audio files. Therefore, the video playback terminal 144 can efficiently acquire an audio stream of a predetermined type of 3D audio. Therefore, it can be said that the file generation device 141 generates an audio file that improves the acquisition efficiency of the audio stream of a predetermined type of 3D audio.
  • FIG. 51 is a view for explaining an outline of a track in the second embodiment to which the present disclosure is applied.
  • the second embodiment is different from the first embodiment in that a base sample is recorded as a Base track sample.
  • the base sample is configured by reference information to samples of Channel audio / Object audio / HOA audio / metadata.
  • An audio stream of 3D audio before division into tracks is generated by arranging samples of Channel audio / Object audio / HOA audio / metadata referenced by reference information included in the base sample in the order of arrangement of reference information be able to.
  • FIG. 52 shows an example of the syntax of the sample entry of the base track in FIG.
  • FIG. 53 is a diagram showing an example of the structure of a base sample.
  • the base sample is configured by using an extractor of Channel audio / Object audio / HOA audio / metadata as a sample unit as a sub sample.
  • Extractor of Channel audio / Object audio / HOA audio / metadata is composed of the type of extractor and offset and size of the corresponding sub-sample of Channel audio track / Object audio track (s) / HOA audio track / Object metadata track Ru.
  • This offset is the difference between the position in the file of the subsample of the base sample and the position in the file of the sample of Channel audio track / Object audio track (s) / HOA audio track / Object metadata track. That is, offset is information indicating the position in the file of the sample of the other track corresponding to the subsample of the base sample containing it.
  • FIG. 54 is a diagram illustrating an example of the syntax of a base sample.
  • an SCE element in which object audio is stored in a sample of Object audio track is replaced with an EXT element in which extractor is stored.
  • FIG. 55 is a diagram illustrating an example of extractor data.
  • the type of extractor and the offset and size of the corresponding sub-sample of Channel audio track / Object audio track (s) / HOA audio track / Object metadata track are described in the extractor.
  • NAL Network Abstraction Layer
  • AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • the information processing system according to the second embodiment and the processing performed by the information processing system are the same as those in the first embodiment, and thus the description thereof is omitted.
  • FIG. 56 is a view for explaining an outline of a track in the third embodiment to which the present disclosure is applied.
  • the third embodiment is different from the first embodiment in that a base sample and a metadata sample are recorded as a Base track sample, and an Object metadata track is not provided.
  • the information processing system in the third embodiment and the processing by the information processing system are the same as in the first embodiment except that an audio stream of Base track is acquired instead of Object metadata track in order to acquire object position information.
  • the description is omitted because it is similar to the form.
  • FIG. 57 is a diagram for describing an outline of a track in the fourth embodiment to which the present disclosure is applied.
  • the first embodiment is that each track is recorded as a different file (3da_base.mp4 / 3da_channel.mp4 / 3da_object_1.mp4 / 3da_hoa.mp4 / 3da_meta.mp4). It is different from the form of In this case, by acquiring the file of the desired track via HTTP, it is possible to acquire only the audio data of the desired track. Therefore, acquisition of audio data of a desired track via HTTP can be efficiently performed.
  • FIG. 58 is a diagram showing an example of description of the MPD file in the fourth embodiment to which the present disclosure is applied.
  • FIG. 59 is a diagram for describing an overview of an information processing system according to a fourth embodiment to which the present disclosure is applied.
  • the information processing system 210 of FIG. 59 is configured by connecting the Web server 212 connected to the file generation apparatus 211 and the video playback terminal 214 via the Internet 13.
  • the Web server 212 distributes (tiled streaming) the video stream of moving image content to the moving image reproduction terminal 214 in tile units in a method conforming to MPEG-DASH. Further, in the information processing system 210, the Web server 212 distributes an audio file of Object audio, Channel audio, or HOA audio corresponding to the tile to be reproduced to the video reproduction terminal 214.
  • the file generation device 211 acquires image data of moving image content, and encodes the image data in tile units to generate a video stream.
  • the file generator 211 files the video stream of each tile into segments.
  • the file generation device 211 uploads the image file of each tile obtained as a result to the web server 212.
  • the file generation device 211 acquires 3D audio of moving image content, and encodes the 3D audio type (Channel audio / Object audio / HOA audio / metadata) to generate an audio stream.
  • the file generation device 211 assigns a track to the audio stream for each type of 3D audio.
  • the file generation device 211 generates an audio file in which an audio stream is arranged for each track, and uploads the audio file to the Web server 212.
  • the file generation device 211 generates an MPD file including image frame size information, tile position information, object position information, and the like.
  • the file generation device 211 uploads the MPD file to the web server 212.
  • the web server 212 stores the image file uploaded from the file generation apparatus 211, an audio file for each type of 3D audio, and an MPD file.
  • the Web server 212 stores a segment group including image files of a plurality of segments of tile # 1 and a segment group including image files of a plurality of segments of tile # 2. Also, the Web server 212 stores a segment group consisting of audio files of Channel audio and a segment group consisting of audio files of object # 1.
  • the web server 212 transmits the stored image file, a predetermined type of audio file of 3D audio, an MPD file, and the like to the moving picture reproduction terminal 214 in response to a request from the moving picture reproduction terminal 214.
  • the video playback terminal 214 executes control software 221, video playback software 222, access software 223, and the like.
  • the control software 221 is software for controlling data to be streamed from the web server 212. Specifically, the control software 221 causes the video playback terminal 214 to acquire the MPD file from the Web server 212.
  • control software 221 specifies tiles in the display area based on the display area instructed by the moving image reproduction software 222 and the tile position information included in the MPD file. Then, the control software 221 instructs the access software 223 to transmit an image file of the tile.
  • the control software 221 instructs the access software 223 to transmit an audio file of the Base track when the object audio is to be reproduced. Also, the control software 221 instructs the access software 223 to transmit an audio file of the Object metadata track.
  • the control software 221 acquires the image frame size information in the audio file of Base track transmitted from the Web server 142 according to the command and the object position information included in the audio file of metadata.
  • the control software 221 specifies an object corresponding to the image in the display area based on the image frame size information, the object position information, and the display area. Then, the control software 221 instructs the access software 223 to transmit an audio file of the object.
  • control software 221 sets Channel audio or HOA audio as a playback target
  • control software 221 instructs the access software 223 to transmit an audio file of the channel audio or HOA audio.
  • the video playback software 222 is software for playing back an image file and an audio file acquired from the web server 212. Specifically, when the display area is designated by the user, the moving image reproduction software 222 instructs the control software 221 to display the display area. In addition, the moving image reproduction software 222 decodes the image file and the audio file acquired from the web server 212 according to the instruction. The video reproduction software 222 synthesizes and outputs tile-based image data obtained as a result of decoding. Also, the video playback software 222 synthesizes and outputs Object audio, Channel audio, or HOA audio obtained as a result of decoding as necessary.
  • the access software 223 is software that controls communication with the web server 212 via the Internet 13 using HTTP. Specifically, the access software 223 causes the moving image reproduction terminal 214 to transmit a transmission request for an image file or a predetermined audio file in accordance with an instruction from the control software 221. Also, the access software 223 causes the video reproduction terminal 214 to receive the image file and the predetermined audio file transmitted from the Web server 212 in response to the transmission request.
  • FIG. 60 is a block diagram showing a configuration example of the file generation device 211 of FIG.
  • an audio file generation unit 241, an MPD generation unit 242, and a server upload processing unit 243 are provided instead of the audio file generation unit 172, the MPD generation unit 173, and the server upload processing unit 174.
  • the point is different from the configuration of the file generation device 141 of FIG.
  • the audio file generation unit 241 of the file generation apparatus 211 assigns a track to the audio stream supplied from the audio coding processing unit 171 for each type of 3D audio.
  • the audio file generation unit 241 generates an audio file in which an audio stream is arranged for each track.
  • the audio file generation unit 241 stores image frame size information input from the outside in a sample entry of an audio file of Base track.
  • the audio file generation unit 241 supplies an audio file for each type of 3D audio to the MPD generation unit 242.
  • the MPD generation unit 242 determines the URL and the like of the web server 212 storing the image file of each tile supplied from the image file generation unit 53. Also, the MPD generation unit 242 determines, for each type of 3D audio, the URL or the like of the Web server 212 storing the audio file supplied from the audio file generation unit 241.
  • the MPD generation unit 242 arranges the image information supplied from the image information generation unit 54 in the “AdaptationSet” for the image of the MPD file. In addition, the MPD generation unit 242 arranges the URL and the like of the image file of each tile in the “Segment” of “Representation” for the image file of that tile.
  • the MPD generation unit 242 arranges, for each type of 3D audio, the URL or the like of the audio file in the "Segment" of the "Representation” for the audio file. Further, the MPD generation unit 242 arranges the object position information and the like of each object input from the outside in “Representation” for the Object metadata track of the object.
  • the MPD generation unit 242 supplies the server upload processing unit 243 with the MPD file in which various types of information are arranged as described above, and an audio file for each type of image file and 3D audio.
  • the server upload processing unit 243 uploads the image file of each tile, the audio file for each type of 3D audio, and the MPD file supplied from the MPD generation unit 242 to the Web server 212.
  • FIG. 61 is a flowchart for describing file generation processing of the file generation apparatus 211 of FIG.
  • steps S301 to S307 of FIG. 61 are the same as the processes of steps S191 to S197 of FIG.
  • step S308 the audio file generation unit 241 generates, for each track, an audio file in which an audio stream is arranged.
  • the audio file generation unit 241 stores image frame size information input from the outside in a sample entry in the audio file of Base track.
  • the audio file generation unit 241 supplies the generated audio file for each type of 3D audio to the MPD generation unit 242.
  • the MPD generation unit 242 generates an MPD file including the image information supplied from the image information generation unit 54, the URL of each file, the object position information, and the like.
  • the MPD generation unit 242 supplies an image file, an audio file for each type of 3D audio, and an MPD file to the server upload processing unit 243.
  • step S310 the server upload processing unit 243 uploads the image file, the audio file for each type of 3D audio, and the MPD file supplied from the MPD generation unit 242 to the Web server 212. Then, the process ends.
  • Example of functional configuration of video playback terminal is a block diagram showing a configuration example of a streaming reproduction unit realized by the moving image reproduction terminal 214 of FIG. 59 executing the control software 221, the moving image reproduction software 222, and the access software 223. .
  • FIG. 62 Of the components shown in FIG. 62, the same components as those shown in FIGS. 13 and 47 are designated by the same reference numerals. Duplicate descriptions will be omitted as appropriate.
  • the configuration of the streaming playback unit 260 in FIG. 62 is MPD processing instead of the MPD processing unit 92, meta file acquisition unit 93, audio selection unit 94, audio file acquisition unit 95, audio decoding processing unit 96, and audio synthesis processing unit 97.
  • the configuration differs from the configuration of the streaming reproduction unit 90 in FIG. 13 in that a unit 261, a meta file acquisition unit 262, an audio selection unit 263, an audio file acquisition unit 264, an audio decoding processing unit 194, and an audio synthesis processing unit 195 are provided.
  • the MPD processing unit 261 of the streaming playback unit 260 uses the MPD file supplied from the MPD acquisition unit 91 for the audio file of the object metadata track of the segment for playback. Information such as a URL described in “Segment” is extracted and supplied to the metafile acquisition unit 262. Also, the MPD processing unit 261 extracts information such as a URL described in “Segment” of the audio file of the object audio track of the object requested from the audio selection unit 263 from the MPD file, and supplies the information to the audio selection unit 263. Do. Furthermore, the MPD processing unit 261 extracts information such as a URL described in “Segment” of the audio file of the Base track of the segment to be reproduced from the MPD file, and supplies the information to the metafile acquisition unit 262.
  • the MPD processing unit 261 targets Channel audio or HOA audio as a playback target, a URL or the like described in the “Segment” of the audio file of the channel audio track or the HOA audio track of the segment to be played from the MPD file. Extract information.
  • the MPD processing unit 261 supplies the information such as the URL to the audio file acquisition unit 264 via the audio selection unit 263.
  • the MPD processing unit 261 extracts tile position information described in the “AdaptationSet” for the image from the MPD file, and supplies the tile position information to the image selection unit 98.
  • the MPD processing unit 261 extracts information such as a URL described in “Segment” for the tile image file requested from the image selection unit 98 from the MPD file, and supplies the information to the image selection unit 98.
  • the meta file acquisition unit 262 Based on the information such as the URL supplied from the MPD processing unit 261, the meta file acquisition unit 262 requests the Web server 212 for an audio file of the object metadata track specified by the URL, and acquires the audio file.
  • the metafile acquisition unit 93 supplies the audio selection unit 263 with the object position information included in the audio file of the object metadata track.
  • the meta file acquisition unit 262 requests the Web server 142 for an Initial Segment of the audio file of the Base track identified by the URL based on the information such as the URL of the audio file, and acquires the initial segment.
  • the metafile acquisition unit 262 supplies the image frame size information included in the sample entry of the Initial Segment to the voice selection unit 263.
  • the audio selection unit 263 calculates the position on the image of each object based on the image frame size information and the object position information supplied from the metafile acquisition unit 262.
  • the voice selection unit 263 selects an object in the display area designated by the user based on the position on the image of each object.
  • the audio selection unit 263 requests the MPD processing unit 261 for information such as the URL of the audio file of the object audio track of the selected object.
  • the voice selection unit 263 supplies information such as a URL supplied from the MPD processing unit 261 to the voice file acquisition unit 264 in response to the request.
  • the audio file acquisition unit 264 based on the information such as the URL of the audio file of the object audio track, the channel audio track, or the HOA audio track supplied from the audio selection unit 263, the audio of the audio file specified by the URL Request a stream from the web server 12 and acquire it.
  • the audio file acquisition unit 95 supplies the acquired audio file in object units to the audio decoding processing unit 194.
  • FIG. 63 is a flowchart for explaining channel audio reproduction processing of the streaming reproduction unit 260 in FIG. This channel audio reproduction processing is performed, for example, when the user selects Channel audio as a reproduction target.
  • step S331 in FIG. 63 the MPD processing unit 261 analyzes the MPD file supplied from the MPD acquisition unit 91, and based on the essential property and codec described in "Representation", the channel audio of the segment to be reproduced. Identify “Representation”. In addition, the MPD processing unit 261 extracts information such as the URL of the audio file of the channel audio track of the segment to be reproduced described in “Segment” included in the “Representation”, and the audio via the audio selection unit 263 The file is supplied to the file acquisition unit 264.
  • step S332 the MPD processing unit 261 identifies "Representation" of the reference track Base track, based on the associationId of "Representation” identified in step S331.
  • the MPD processing unit 261 extracts information such as the URL of the audio file of the reference track described in “Segment” included in the “Representation”, and supplies the information to the audio file acquisition unit 264 via the audio selection unit 263.
  • step S 333 the audio file acquisition unit 264 requests the Web server 212 for the Channel audio track of the segment to be reproduced and the Initial Segment of the audio file of the reference track based on the information such as the URL supplied from the audio selection unit 263. To get.
  • step S334 the audio file acquisition unit 264 acquires the sample entry in the trak box of the acquired Initial Segment.
  • the audio file acquisition unit 264 supplies the codec information included in the acquired sample entry to the audio decoding processing unit 194.
  • step S 335 the audio file acquisition unit 264 requests the Web server 142 based on the information such as the URL supplied from the audio selection unit 263, and the sidx box starts from the beginning of the audio file of the Channel audio track of the segment to be reproduced. And get ssix box.
  • step S336 the audio file acquisition unit 264 acquires positional information of the subsegment to be reproduced from the sidx box and ssix box acquired in step S333.
  • step S337 the audio selection unit 263 is arranged in the mdat box in the audio file based on the position information acquired in step S337 and information such as the URL of the audio file of the channel audio track of the segment to be reproduced.
  • the audio stream of the channel audio track is requested to the web server 142 and acquired.
  • the audio selection unit 263 supplies the acquired audio stream of the channel audio track to the audio decoding processing unit 194.
  • step S 338 the audio decoding processing unit 194 decodes the audio stream of the channel audio track supplied from the audio selection unit 263 based on the codec information supplied from the audio file acquisition unit 264.
  • the voice selection unit 263 supplies the resulting channel audio to the voice synthesis processing unit 195.
  • step S339 the speech synthesis processing unit 195 outputs channel audio, and ends the processing.
  • the HOA audio reproduction process of reproducing the HOA audio by the streaming reproduction unit 260 is performed in the same manner as the channel audio reproduction process of FIG.
  • FIG. 64 is a flowchart for explaining object audio reproduction processing of the streaming reproduction unit 260 in FIG. This object audio reproduction process is performed, for example, when the user selects Object audio as an object to be reproduced and the reproduction area changes.
  • step S 351 of FIG. 64 the voice selection unit 263 acquires a display area designated by the user by a user operation or the like.
  • step S352 the MPD processing unit 261 analyzes the MPD file supplied from the MPD acquisition unit 91, and based on the essential property and codec described in “Representation”, “Representation” of the metadata of the segment to be played back. Identify. Also, the MPD processing unit 261 extracts information such as the URL of the audio file of the object metadata track of the segment to be reproduced described in “Segment” included in the “Representation”, and supplies the information to the metafile acquisition unit 262 .
  • step S353 the MPD processing unit 261 identifies "Representation" of the Base track which is the reference track, based on the associationId of "Representation” identified in step S352.
  • the MPD processing unit 261 extracts information such as the URL of the audio file of the reference track described in “Segment” included in the “Representation”, and supplies the information to the metafile acquisition unit 262.
  • step S 354 the metafile acquisition unit 262 requests the Web server 212 for the Initial segment of the object metadata track of the segment to be reproduced and the audio file of the reference track based on the information such as the URL supplied from the MPD processing unit 261. To get.
  • step S355 the metafile acquisition unit 262 acquires a sample entry in the acquired initial segment's trak box.
  • the metafile acquisition unit 262 supplies the image file size information included in the sample entry of the Base track, which is the reference track, to the audio file acquisition unit 264.
  • step S 356 the metafile acquisition unit 262 requests the Web server 142 based on the information such as the URL supplied from the MPD processing unit 261, and the sidx box from the head of the audio file of the object metadata track of the segment to be reproduced. And get ssix box.
  • step S357 the metafile acquisition unit 262 acquires positional information of the subsegment to be reproduced from the sidx box and ssix box acquired in step S356.
  • step S358 the metafile acquisition unit 262 is arranged in the mdat box in the audio file based on the position information acquired in step S357 and the information such as the URL of the audio file of the object metadata track of the segment to be reproduced. Request an audio stream of object metadata track from the Web server 142 and acquire it.
  • step S359 the metafile acquisition unit 262 decodes the audio stream of the object metadata track acquired in step S358 based on the codec information included in the sample entry acquired in step S355.
  • the metafile acquisition unit 262 supplies the audio selection unit 263 with the object position information included in the metadata obtained as a result of the decoding.
  • step S360 the voice selection unit 263 selects an object in the display area based on the image frame size information and the object position information supplied from the metafile acquisition unit 262, and the display area specified by the user.
  • the audio selection unit 263 requests the MPD processing unit 261 for information such as the URL of the audio file of the object audio track of the selected object.
  • step S 361 the MPD processing unit 261 analyzes the MPD file supplied from the MPD acquisition unit 91, and “Representation” of the object audio of the selected object based on the essential property and codec described in “Representation”. Identify Further, the MPD processing unit 261 extracts information such as the URL of the audio file of the object audio track of the selected object of the segment to be reproduced, which is described in “Segment” included in the “Representation”, and selects the audio.
  • the audio file acquisition unit 264 is supplied via the unit 263.
  • step S 362 the MPD processing unit 261 identifies “Representation” of the Base track that is the reference track, based on the associationId of “Representation” identified in step S 361.
  • the MPD processing unit 261 extracts information such as the URL of the audio file of the reference track described in “Segment” included in the “Representation”, and supplies the information to the audio file acquisition unit 264 via the audio selection unit 263.
  • step S 363 the audio file acquisition unit 264 requests the Web server 212 for the object audio track of the segment to be reproduced and the Initial Segment of the audio file of the reference track based on the information such as the URL supplied from the audio selection unit 263. To get.
  • step S364 the audio file acquisition unit 264 acquires the sample entry in the trak box of the acquired Initial Segment.
  • the audio file acquisition unit 264 supplies the codec information included in the sample entry to the audio decoding processing unit 194.
  • step S365 the audio file acquisition unit 264 requests the Web server 142 based on the information supplied from the audio selection unit 263 such as the URL, and the sidx box starts from the beginning of the audio file of the object audio track of the segment to be reproduced. And get ssix box.
  • step S366 the audio file acquisition unit 264 acquires positional information of the subsegment to be reproduced from the sidx box and ssix box acquired in step S365.
  • step S367 the audio file acquisition unit 264 is arranged in the mdat box in the audio file based on the position information acquired in step S366 and information such as the URL of the audio file of the object audio track of the segment to be reproduced. Request the audio stream of the object audio track from the Web server 142 and acquire it. The audio file acquisition unit 264 supplies the acquired audio stream of the object audio track to the audio decoding processing unit 194.
  • steps S368 and S369 are the same as the processes of steps S287 and S288 of FIG.
  • the voice selection unit 263 selects all objects in the display area, but selects only objects with high processing priority among the objects in the display area, or a voice of a predetermined content. It is also possible to select only the object of.
  • FIG. 65 is a flowchart for describing object audio reproduction processing in the case where the audio selection unit 263 selects only objects with high processing priority among objects in the display area.
  • the object audio reproduction process of FIG. 65 is the same as the object audio reproduction process of FIG. 64 except that the process of step S390 of FIG. 65 is performed instead of the step S360 of FIG. That is, the processes of steps S381 to S389 and S391 to S399 of FIG. 65 are the same as the processes of steps S351 to S359 and S361 to S369 of FIG. Therefore, hereinafter, only the process of step S390 will be described.
  • the audio file acquisition unit 264 selects an object with high processing priority in the display area based on the image frame size information, the object position information, the display area, and the priority of each object. Specifically, the audio file acquisition unit 264 specifies an object in the display area based on the image frame size information, the object position information, and the display area. Then, the audio file acquisition unit 264 selects an object whose priority is equal to or greater than a predetermined value, among the characterized objects. The priority is acquired from, for example, “Representation” of object audio of the specified object by the MPD processing unit 261 analyzing the MPD file. The audio selection unit 263 requests the MPD processing unit 261 for information such as the URL of the audio file of the object audio track of the selected object.
  • FIG. 66 is a flowchart for describing object audio reproduction processing in the case where the audio selection unit 263 selects only audio objects of predetermined contents with high processing priority among objects in the display area.
  • the object audio reproduction process of FIG. 66 is similar to the object audio reproduction process of FIG. 64 except that the process of step S420 of FIG. 66 is performed instead of step S360 of FIG. That is, the processes of steps S381 to S389 and S391 to S399 of FIG. 66 are the same as the processes of steps S411 to S419 and S421 to S429 of FIG. Therefore, only the process of step S420 will be described below.
  • the audio file acquisition unit 264 has predetermined content with high processing priority in the display area based on the image frame size information, the object position information, the display area, and the priority and contentkind of each object. Select an audio object. Specifically, the audio file acquisition unit 264 specifies an object in the display area based on the image frame size information, the object position information, and the display area. Then, the audio file acquisition unit 264 selects an object whose priority is equal to or more than a predetermined value and whose contentkind is a predetermined value, among the characterized objects.
  • priority and contentkind are acquired from “Representation” of object audio of the specified object, for example, by the MPD processing unit 261 analyzing the MPD file.
  • the audio selection unit 263 requests the MPD processing unit 261 for information such as the URL of the audio file of the object audio track of the selected object.
  • FIG. 67 is a diagram showing an example of an object selected based on priority.
  • objects # 1 (object 1) to # 4 (object 4) are objects in the display area, and among objects in the display area, an object having a priority of 2 or less is selected. In addition, priority is assumed to be higher in processing priority as the number is smaller. Also, in FIG. 67, circled numbers represent the value of priority of the corresponding object.
  • the Web server 142 (212) and the video playback terminal 144 (214) can efficiently use the bandwidth between them. The same is true for selecting an object based on contentkind.
  • FIG. 68 is a view for explaining an outline of a track in the fifth embodiment to which the present disclosure is applied.
  • each track is recorded as a different file (3da_base.mp4 / 3da_channel.mp4 / 3da_object_1.mp4 / 3da_hoa.mp4 / 3da_meta.mp4). It is different from the form of
  • the information processing system according to the fifth embodiment and the processing performed by the information processing system are the same as those according to the fourth embodiment, and thus the description thereof is omitted.
  • FIG. 69 is a diagram for describing an outline of a track in the sixth embodiment to which the present disclosure is applied.
  • the sixth embodiment is different from the third embodiment in that each track is recorded as different files (3da_basemeta.mp4 / 3da_channel.mp4 / 3da_object_1.mp4 / 3da_hoa.mp4). ing.
  • the information processing system according to the sixth embodiment and the processing by the information processing system are the same as the fourth embodiment except that an audio stream of Base track is acquired instead of Object metadata track in order to acquire object position information.
  • the description is omitted because it is similar to the form.
  • the fifth embodiment, and the sixth embodiment it is possible to select an object in the display area based on priority and contentkind.
  • the streaming reproduction unit acquires an audio stream of an object outside the display area as in the streaming reproduction unit 120 of FIG. 23, synthesizes the object audio of the object, and outputs it. You may do it.
  • the object position information is acquired from the metadata
  • the object position information may be acquired from the MPD file.
  • FIG. 70 is a diagram showing a hierarchical structure of 3D audio.
  • audio data of 3D audio is an audio element (Element) different for each audio data.
  • Types of audio elements include Single Channel Element (SCE) and Channel Pair Element (CPE).
  • SCE Single Channel Element
  • CPE Channel Pair Element
  • the audio element type of audio data of one channel is SCE
  • the type of audio element corresponding to audio data of two channels is CPE.
  • Audio elements form a group with the same sound type (Channel / Object / SAOC Objects / HOA).
  • group type there are Channels, Objects, SAOC Objects, HOA and the like.
  • Two or more groups can form switch Group or group Preset, as needed.
  • the switch Group defines a group to be reproduced exclusively. That is, as shown in FIG. 70, when there is a group of Object audio for English (EN) and a group for Object audio for French (FR), only one of the groups should be reproduced. Therefore, a switch Group is formed from the group of Object audio for English having a group ID of 2 and the group of Object audio for French having a group ID of 3. As a result, Object audio for English and Object audio for French are exclusively reproduced.
  • group Preset defines a combination of groups intended by the content producer.
  • Metadata of 3D audio is considered as an Ext Element which is different for each metadata.
  • Types of Ext elements include Object Metadata, SAOC 3D Metadata, HOA Metadata, DRC Metadata, SpatialFrame, SaocFrame, and the like.
  • the Ext element of Object Metadata is metadata of all Object audio
  • the Ext element of SAOC 3D Metada is metadata of all SAOC audio.
  • the HOA Metadata Ext element is metadata of all HOA audio
  • DRC (Dinamic Range Control) Metadata Ext element is all metadata of Object audio, SAOC audio, and HOA audio.
  • audio data is not divided into tracks for each group type (each object for object audio, as in the first to sixth embodiments), but audio elements, groups, switch groups, or groups. It may be divided for each Preset.
  • the metadata may be divided into audio elements corresponding to the metadata instead of being divided into types of Ext elements as in the first to sixth embodiments.
  • audio data is divided into audio elements
  • metadata is divided into types of Ext elements and arranged as data of different tracks, but in other units The same applies to the case of division.
  • FIG. 71 is a diagram for explaining a first example of the process of the web server 142 (212).
  • 3D audio corresponding to the audio file uploaded from the file generation device 141 is channel audio of five channels, object audio of three objects, and metadata of the object audio (Object (Object). Metadata).
  • channel audio of five channels is divided into the channel audio of the front center (FC) channel, the channel audio of the front left and right (FL, FR) channels, and the channel audio of the rear left and right (RL, RR) channels , Are arranged as data of different tracks, respectively. Also, object audio of each object is arranged as data of different tracks. Furthermore, Object Metadata is arranged as data of one track.
  • each audio stream of 3D audio consists of config information and data in units of frames (samples). Then, in the example of FIG. 71, in the audio stream of audio files, the channel audio of five channels, the object audio of three objects, and the config information of Object Metadata are arranged together, and the data of each frame are grouped together. Be placed.
  • the Web server 142 (212) divides the audio stream of the audio file uploaded from the file generation device 141 (211) into tracks, and generates an audio stream of seven tracks. Do. Specifically, the web server 142 (212) extracts the config information and audio data of each track from the audio stream of the audio file according to the information such as ssix box, and generates an audio stream of each track.
  • the audio stream of each track consists of the track's config information and the audio data of each frame.
  • FIG. 72 is a flowchart for explaining the track division processing of the Web server 142 (212).
  • the track division processing is started, for example, when an audio file is uploaded from the file generation apparatus 141 (211).
  • step S 441 of FIG. 72 the web server 142 (212) stores the audio file uploaded from the file generation device 141.
  • step S 442 the web server 142 (212) divides the audio stream constituting the audio file into tracks in accordance with the information such as the ssix box of the audio file.
  • step S443 the web server 142 (212) holds the audio stream of each track, and ends the processing.
  • This audio stream is transmitted from the Web server 142 (212) to the moving picture reproduction terminal 144 (214) when requested by the audio file acquisition unit 192 (264) of the moving picture reproduction terminal 144 (214).
  • FIG. 73 is a diagram for explaining a first example of the process of the speech decoding unit 194 when the process of the Web server 142 (212) is the process described with reference to FIGS. 71 and 72.
  • the web server 142 holds the audio stream of each track shown in FIG.
  • the tracks to be reproduced are the channel audio of the front left and right channels, the channel audio of the rear left and right channels, the object audio of the first object, and the track of the Object Metadata. The same applies to FIG. 75 described later.
  • the audio file acquisition unit 192 acquires the audio streams of the channel audio of the front left and right channels, the channel audio of the rear left and right channels, the object audio of the first object, and the object metadata.
  • the audio decoding processing unit 194 first extracts an audio stream of object audio metadata of the first object from the audio stream of the track of Object Metadata acquired by the audio file acquisition unit 192 (264).
  • the audio decoding processing unit 194 synthesizes the audio stream of the audio track to be reproduced and the audio stream of the extracted metadata. Specifically, the audio decoding processing unit 194 generates an audio stream in which pieces of Config information included in all audio streams are collectively arranged and data of respective frames are collectively arranged. Then, the audio decoding processing unit 194 decodes the generated audio stream.
  • the audio stream to be reproduced is not only the audio stream of the track of one channel audio, the audio streams of two or more tracks are to be reproduced, so the audio stream is synthesized before decoding.
  • the audio decoding processing unit 194 decodes the audio stream acquired by the audio file acquisition unit 192 (264) as it is.
  • FIG. 74 is a flowchart for describing the details of a first example of the decoding processing of the speech decoding processing unit 194 when the processing of the Web server 142 (212) is the processing described in FIG. 71 and FIG.
  • This decoding process is at least one of the process of step S229 of FIG. 48 and the process of S287 of FIG. 50, which is performed when the track to be reproduced is not only the track of one channel audio.
  • step S461 in FIG. 74 the audio decoding processing unit 194 sets 0 as the total number of elements representing the number of elements included in the audio stream to be generated.
  • step S 462 the audio decoding processing unit 194 initializes (clears) all element type information indicating the type of element included in the audio stream to be generated.
  • step S463 the audio decoding processing unit 194 sets a track not to be processed yet among the tracks to be reproduced as a track to be processed.
  • step S464 the audio decoding processing unit 194 acquires the number and type of elements included in the processing target track from the audio stream or the like of the processing target track.
  • step S465 the speech decoding unit 194 adds the acquired number of elements to the total number of elements.
  • step S466 the speech decoding unit 194 adds the acquired element type to all element type information.
  • step S 467 the audio decoding processing unit 194 determines whether all the tracks to be reproduced have been processed. If it is determined in step S467 that not all tracks to be reproduced are to be processed, the process returns to step S463 and steps S463 to S467 are performed until all tracks to be reproduced are regarded as tracks to be processed. The process is repeated.
  • step S467 if it is determined in step S467 that all tracks to be reproduced are to be processed, the process proceeds to step S468.
  • step S469 the audio decoding processing unit 194 sets a track not to be processed yet among the reproduction target tracks as the processing target track.
  • step S470 the audio decoding processing unit 194 sets an element not yet processed as an element to be processed among elements included in the track to be processed as an element to be processed.
  • step S471 the audio decoding processing unit 194 acquires the Config information of the element to be processed from the audio stream of the track to be processed, and arranges it on the audio stream to be generated. At this time, Config information of all elements of all tracks to be reproduced is arranged to be continuous.
  • step S472 the audio decoding processing unit 194 determines whether all the elements included in the processing target track have been set as the processing target elements. If it is determined in step S472 that all elements have not been processed yet, the process returns to step S470, and the processes in steps S470 to S472 are repeated until all elements are processed.
  • step S472 determines whether all elements are to be processed. If it is determined in step S472 that all elements are to be processed, the process proceeds to step S473.
  • step S 473 the audio decoding processing unit 194 determines whether all the tracks to be reproduced have been processed. If it is determined in step S 473 that all tracks to be reproduced are not to be processed, the process returns to step S 469 and steps S 469 to S 473 are performed until all tracks to be reproduced are set to be processed. The process is repeated.
  • step S473 if it is determined in step S473 that all tracks to be reproduced are to be processed, the process proceeds to step S474.
  • step S474 the speech decoding unit 194 determines a frame to be processed. In the processing of the first step S474, the first frame is determined to be the processing target frame, and in the processing of the second and subsequent steps S474, the frame following the current processing target frame is determined to be the new processing target frame. Be done.
  • step S 475 the audio decoding processing unit 194 sets a track not to be processed yet among the tracks to be reproduced as the track to be processed.
  • step S 476 the audio decoding processing unit 194 sets an element not yet processed as an element to be processed among elements included in the track to be processed as an element to be processed.
  • step S477 the speech decoding unit 194 determines whether the element to be processed is an EXT element. If it is determined in step S477 that the element to be processed is not the EXT element, the process proceeds to step S478.
  • step S4708 the audio decoding processing unit 194 acquires audio data of the frame to be processed of the element to be processed from the audio stream of the track to be processed, and arranges the audio data on the audio stream to be generated. At this time, data of the same frame of all elements of all tracks to be reproduced is arranged to be continuous. After the process of step S478, the process proceeds to step S481.
  • step S477 if it is determined in step S477 that the element to be processed is an EXT element, the process proceeds to step S479.
  • step S479 the audio decoding processing unit 194 acquires metadata of all objects of the frame to be processed of the element to be processed from the audio stream of the track to be processed.
  • step S480 the audio decoding processing unit 194 arranges the metadata of the object to be reproduced among the acquired metadata of all objects on the audio stream to be generated. At this time, data of the same frame of all elements of all tracks to be reproduced is arranged to be continuous. After the process of step S480, the process proceeds to step S481.
  • step S481 the audio decoding processing unit 194 determines whether or not all elements included in the processing target track have been set as processing target elements. If it is determined in step S481 that not all elements are to be processed, the process returns to step S476, and the processes of steps S476 to S481 are repeated until all elements are processed.
  • step S481 determines whether all elements are to be processed. If it is determined in step S481 that all elements are to be processed, the process proceeds to step S482.
  • step S 482 the audio decoding processing unit 194 determines whether all tracks to be reproduced have been processed. If it is determined in step S 482 that not all tracks to be reproduced are to be processed, the process returns to step S 475, and steps S 475 to S 482 are performed until all tracks to be reproduced are regarded as tracks to be processed. The process is repeated.
  • step S482 determines whether all tracks to be reproduced are to be processed. If it is determined in step S482 that all tracks to be reproduced are to be processed, the process proceeds to step S483.
  • step S483 the speech decoding unit 194 determines whether all the frames have been processed. If it is determined in step S483 that not all frames are to be processed yet, the process returns to step S474, and the processes of steps S474 to S483 are repeated until all frames are processed.
  • step S484 the audio decoding processing unit 194 decodes the generated audio stream. That is, the audio decoding processing unit 194 decodes an audio stream in which the total number of elements, all element type information, Config information, audio data, and metadata of an object to be reproduced are arranged.
  • the speech decoding processing unit 194 supplies speech data (Object audio, Channel audio, HOA audio) obtained as a result of the decoding to the speech synthesis processing unit 195, and ends the processing.
  • FIG. 75 is a diagram for explaining a second example of the process of the speech decoding unit 194 when the process of the Web server 142 (212) is the process described with reference to FIGS. 71 and 72.
  • the audio streams of all the tracks are arranged on the audio stream to be generated, and the decoding result of the audio stream of the track not to be reproduced is
  • the point of arranging a stream or flag hereinafter referred to as a zero stream) where Z becomes zero is different from the first example.
  • the audio file acquisition unit 192 is configured to include the Config information included in the audio stream of all the tracks held in the web server 142 (212) and the audio stream included in the audio stream of the track to be reproduced. Get frame data.
  • the audio decoding processing unit 194 arranges the Config information of all the tracks collectively on the audio stream to be generated. Further, the audio decoding processing unit 194 collectively arranges the data of each frame of the track to be reproduced and the zero stream as the data of each frame of the track not to be reproduced on the audio stream to be generated.
  • the audio decoding processing unit 194 since the audio decoding processing unit 194 arranges the zero stream in the audio stream to be generated as the audio stream of the track that is not the reproduction target, the audio stream of the object that is not the reproduction target also exists. Therefore, it is possible to include metadata of an object not to be reproduced in the audio stream to be generated. Therefore, the audio decoding processing unit 194 does not have to extract the audio stream of the metadata of the object to be reproduced from the audio stream of the track of Object Metadata.
  • a zero stream may be arranged as Config information of a track that is not to be reproduced.
  • FIG. 76 is a flowchart for describing the details of a second example of the decoding processing of the speech decoding processing unit 194 when the processing of the Web server 142 (212) is the processing described in FIG. 71 and FIG.
  • This decoding process is at least one of the process of step S229 of FIG. 48 and the process of S287 of FIG. 50, which is performed when the track to be reproduced is not only the track of one channel audio.
  • steps S501 and S502 of FIG. 76 are the same as the processes of steps S461 and S462 of FIG. 74, the description will be omitted.
  • step S 503 the audio decoding processing unit 194 sets a track not yet processed as a track to be processed among the tracks corresponding to the audio stream stored in the web server 142 (212) as a track to be processed. .
  • steps S504 to S506 are the same as the processes of steps S464 to S466, and thus the description thereof is omitted.
  • step S507 the audio decoding processing unit 194 determines whether all the tracks corresponding to the audio stream stored in the web server 142 (212) have been processed. If it is determined in step S507 that not all tracks have been processed yet, the process returns to step S503, and the processes in steps S503 to S507 are repeated until all tracks are processed.
  • step S507 if it is determined in step S507 that all the tracks are to be processed, the process proceeds to step S508.
  • step S508 the audio decoding processing unit 194 arranges the total number of elements and all element type information at a predetermined position on the audio stream to be generated.
  • step S 509 the audio decoding processing unit 194 sets a track not yet processed as a processing target track among the tracks corresponding to the audio stream stored in the web server 142 (212) as the processing target track.
  • step S510 the audio decoding processing unit 194 sets an element not yet processed as an element to be processed among elements included in the track to be processed as an element to be processed.
  • step S511 the audio decoding processing unit 194 acquires the Config information of the element to be processed from the audio stream of the track to be processed, and arranges it on the audio stream to be generated. At this time, Config information of all elements of all the tracks corresponding to the audio stream stored in the web server 142 (212) is arranged to be continuous.
  • step S512 the audio decoding processing unit 194 determines whether all elements included in the processing target track have been set as processing target elements. If it is determined in step S512 that not all elements have been processed yet, the process returns to step S510, and the processes of steps S510 to S512 are repeated until all elements are processed.
  • step S512 determines whether all elements are to be processed. If it is determined in step S512 that all elements are to be processed, the process proceeds to step S513.
  • step S513 the audio decoding processing unit 194 determines whether all the tracks corresponding to the audio stream stored in the web server 142 (212) have been processed. If it is determined in step S513 that not all tracks are to be processed, the process returns to step S509, and the processes in steps S509 to S513 are repeated until all tracks are processed.
  • step S513 if it is determined in step S513 that all the tracks are to be processed, the process proceeds to step S514.
  • step S514 the speech decoding unit 194 determines a frame to be processed. In the processing of the first step S514, the first frame is determined to be the processing target frame, and in the processing of the second and subsequent steps S514, the frame subsequent to the current processing target frame is determined to be the new processing target frame. Be done.
  • step S515 the audio decoding processing unit 194 sets a track not yet processed as a track to be processed among the tracks corresponding to the audio stream stored in the web server 142 (212) as a track to be processed. .
  • step S5166 the audio decoding processing unit 194 determines whether the track to be processed is a track to be reproduced. If it is determined in step S516 that the track to be processed is the track to be reproduced, the process proceeds to step S517.
  • step S517 the audio decoding processing unit 194 sets an element not yet processed as an element to be processed among elements included in the track to be processed as an element to be processed.
  • step S518, the audio decoding processing unit 194 acquires audio data of the frame to be processed of the element to be processed from the audio stream of the track to be processed, and arranges it on the audio stream to be generated. At this time, data of the same frame of all elements of all the tracks corresponding to the audio stream held in the web server 142 (212) is arranged to be continuous.
  • step S519 the audio decoding processing unit 194 determines whether all the elements included in the processing target track have been set as the processing target elements. If it is determined in step S519 that not all elements have been processed yet, the process returns to step S517, and the processes of steps S517 to S519 are repeated until all elements are processed.
  • step S519 if it is determined in step S519 that all elements have been processed, the process proceeds to step S523.
  • step S516 If it is determined in step S516 that the track to be processed is not the track to be reproduced, the process proceeds to step S520.
  • step S520 the audio decoding processing unit 194 sets an element not yet processed as an element to be processed among elements included in the track to be processed as an element to be processed.
  • step S521 the audio decoding processing unit 194 arranges the zero stream as data of the frame to be processed of the element to be processed on the audio stream to be generated. At this time, data of the same frame of all elements of all the tracks corresponding to the audio stream held in the web server 142 (212) is arranged to be continuous.
  • step S522 the audio decoding processing unit 194 determines whether all elements included in the track to be processed have been set as elements to be processed. If it is determined in step S522 that not all elements have been processed yet, the process returns to step S520, and the processes of steps S520 to S522 are repeated until all elements are processed.
  • step S522 determines whether all elements have been processed. If it is determined in step S522 that all elements have been processed, the process proceeds to step S523.
  • step S523 the audio decoding processing unit 194 determines whether all the tracks corresponding to the audio stream stored in the web server 142 (212) have been processed. If it is determined in step S522 that not all tracks are to be processed yet, the process returns to step S515, and the processes of steps S515 to S523 are repeated until all tracks to be reproduced are set as tracks to be processed.
  • step S523 when it is determined in step S523 that all the tracks are to be processed, the process proceeds to step S524.
  • step S524 the speech decoding unit 194 determines whether all the frames have been processed. If it is determined in step S524 that all frames have not been set as processing target frames, the process returns to step S514, and the processing of steps S514 to S524 is repeated until all frames are set as processing target frames.
  • step S524 the audio decoding processing unit 194 decodes the generated audio stream. That is, the audio decoding processing unit 194 is an audio stream in which the total number of elements, all element type information, and the Config information and data of all the tracks corresponding to the audio stream stored in the Web server 142 (212) are arranged. Decrypt.
  • the speech decoding processing unit 194 supplies speech data (Object audio, Channel audio, HOA audio) obtained as a result of the decoding to the speech synthesis processing unit 195, and ends the processing.
  • FIG. 77 is a diagram for explaining a second example of the process of the web server 142 (212).
  • the second example of the process of the web server 142 (212) of FIG. 77 is the same as the first example of FIG. 71 except that Object Metadata of each object is arranged in an audio file as data of different tracks. It is the same.
  • the Web server 142 (212) divides the audio stream of the audio file uploaded from the file generation device 141 (211) into tracks, and generates an audio stream of nine tracks. .
  • the track division processing of the Web server 142 (212) in this case is the same as the track division processing of FIG. 72, so the description will be omitted.
  • FIG. 78 is a diagram for explaining the process of the speech decoding unit 194 when the process of the Web server 142 (212) is the process described in FIG.
  • the web server 142 holds the audio stream of each track shown in FIG. Also, the track to be reproduced is the track of the channel audio of the front left and right channels, the channel audio of the rear left and right channels, the object audio of the first object, and the object metadata of the first object.
  • the audio file acquisition unit 192 (264) is a track of the channel audio of the front left and right channels, the channel audio of the rear left and right channels, the object audio of the first object, and the object metadata of the first object. Get an audio stream.
  • the audio decoding processing unit 194 synthesizes the acquired audio stream of the reproduction target track, and decodes the generated audio stream.
  • the audio decoding processing unit 194 does not have to extract an audio stream of Object Metadata of the object to be reproduced. Therefore, the audio decoding processing unit 194 can easily generate an audio stream to be decoded.
  • FIG. 79 is a flowchart for describing the details of the decoding processing of the speech decoding processing unit 194 when the processing of the Web server 142 (212) is the processing described in FIG.
  • This decoding process is at least one of the process of step S229 of FIG. 48 and the process of S287 of FIG. 50, which is performed when the track to be reproduced is not only the track of one channel audio.
  • the decoding process of FIG. 79 is the same as the decoding process of FIG. 74 except that the processes of steps S477, S479 and S480 are not performed and that not only the audio data but also the metadata are arranged in the process of step S478. It is similar. That is, the processing in steps S541 to S556 in FIG. 79 is the same as steps S461 to S476 in FIG. 74, and in the processing in step S557 in FIG. 79, the processing target element is processed as in the processing in step S478. Frame data is placed. Also, the processes of steps S558 to S561 are the same as the processes of steps S481 to S484 of FIG.
  • the audio stream to be decoded by the video reproduction terminal 144 (214) is generated, but the Web server 142 (212) generates an audio stream of a combination assumed as a combination of tracks to be reproduced. You may In this case, the moving picture reproduction terminal 144 (214) can reproduce the audio of the reproduction target track only by acquiring the audio stream of the combination of the reproduction target tracks from the Web server 142 (212) and decoding.
  • the audio decoding processing unit 194 may decode the audio stream of the reproduction target track acquired from the Web server 142 (212) for each track. In this case, the speech decoding processing unit 194 needs to combine the speech data and metadata obtained as a result of the decoding.
  • FIG. 80 is a diagram illustrating a second example of syntax of Config information arranged in a base sample.
  • the number of elements (numElements) arranged in the base sample is described as Config information. Further, as a type (usacElementType) of each element arranged in the base sample, “ID_USAC_EXT” representing an Ext element is described, and also, Config information (mpegh3daExtElementCongfig) for the Ext element of each element is described.
  • FIG. 81 is a diagram showing an example of syntax of Config information (mpegh3daExtElementCongfig) for the Ext element of FIG. 80.
  • Config information (mpegh3daExtElementCongfig) for the Ext element of FIG.
  • Config information (ExtractorConfig) for the Extractor is described.
  • FIG. 82 is a diagram showing an example of syntax of Config information (ExtractorConfig) for the Extractor of FIG. 81.
  • Config information (ExtractorConfig) for the Extractor of FIG. 81
  • a type (type) (usac Element Type Extractor) of an element to which the Extractor refers is described.
  • type of element (usac Element Type Extractor) is “ID_USAC_EXT” representing an Ext element
  • the type of the Ext element (usacExt Element Type Extractor) is described.
  • size (configLength) and position (configOffset) of the Config information of the element (subsample) to be referenced are described.
  • FIG. 83 is a diagram illustrating a second example of the syntax of frame unit data arranged in a base sample.
  • ID_EXT_ELE_EXTRACTOR representing “Extractor” as a type of an Ext element which is an element of the data is described as the data of the frame unit arranged in the base sample.
  • Extractor data Extractor Metadata
  • FIG. 84 is a diagram illustrating an example of syntax of data (Extractor Metadata) of the Extractor of FIG. 83.
  • FIG. 85 is a diagram illustrating a third example of syntax of Config information arranged in a base sample.
  • the number of elements (numElements) arranged in the base sample is described as Config information.
  • 1 indicating the Extractor is described as an Extractor flag (flag Extractor) indicating whether the sample for arranging the Config information is the Extractor.
  • 1 is described as elementLengthPresent.
  • the type of element to which the element refers is described as the type (usacElementType) of each element arranged in the base sample. If the type of element (usacElementType) is “ID_USAC_EXT” representing an Ext element, the type of Ext element (usacExtElementType) is described. Furthermore, the size (configLength) and position (configOffset) of the Config information of the element to be referenced are described.
  • FIG. 86 is a diagram illustrating a third example of the syntax of frame unit data arranged in a base sample.
  • the size (elementLength) and the position (elementOffset) of data of an element to which the data refers are described as data in units of frames arranged in the base sample.
  • FIG. 87 is a diagram showing a configuration example of an audio stream stored in an audio file in the seventh embodiment of the information processing system to which the present disclosure is applied.
  • encoded data of sample units of 3D audio of each group type is arranged as a subsample in the audio file.
  • An audio stream (3D audio stream) is stored.
  • the audio file stores a hint stream (3D audio hint stream) whose subsample is an extractor including the size, position, and group type of sample data of 3D audio of each group type.
  • a hint stream (3D audio hint stream) whose subsample is an extractor including the size, position, and group type of sample data of 3D audio of each group type.
  • the configuration of the extractor is the same as that described above, and the group type is described as a type of extractor.
  • FIG. 88 is a view for explaining an outline of a track in the seventh embodiment.
  • different tracks are assigned to the audio stream and the hint stream.
  • the track ID “2” of the track of the corresponding hint stream is described as the track reference of the track of the audio stream. Also, as the track reference of the track of the hint stream, the track ID "1" of the track of the corresponding audio stream is described.
  • the syntax of the sample entry of the track of the audio stream is the syntax shown in FIG. 34, and the syntax of the sample entry of the track of the hint stream includes the syntax shown in FIG. 35 to FIG.
  • FIG. 89 is a flowchart for describing file generation processing of the file generation device in the seventh embodiment.
  • the file generation apparatus of the seventh embodiment is the same as the file generation apparatus 141 of FIG. 45 except that the processes of the speech encoding processing unit 171 and the speech file generation unit 172 are different. Therefore, hereinafter, the file generation apparatus, the speech encoding processing unit, and the speech file generation unit in the seventh embodiment will be referred to as a file generation apparatus 301, a speech encoding processing unit 341, and an speech file generation unit 342.
  • steps S601 to S605 in FIG. 89 is the same as the processing in steps S191 to S195 in FIG.
  • step S606 the audio encoding processing unit 341 encodes 3D audio of moving image content input from the outside for each group type, and generates the audio stream of FIG.
  • the audio encoding processing unit 341 supplies the generated audio stream to the audio file generation unit 342.
  • step S 607 the audio file generator 342 acquires sub-sample information from the audio stream supplied from the audio encoding processor 341.
  • the subsample information is the size, position, and group type of encoded data in units of samples of 3D audio of each group type.
  • step S608 the audio file generation unit 342 generates the hint stream of FIG. 87 based on the sub-sample information.
  • step S609 the audio file generator 342 multiplexes the audio stream and the hint stream as different tracks to generate an audio file.
  • the audio file generation unit 342 stores image frame size information input from the outside in the sample entry.
  • the audio file generation unit 342 supplies the generated audio file to the MPD generation unit 173.
  • steps S610 and S611 are the same as the processes of steps S199 and S200 of FIG.
  • FIG. 90 is a flowchart for describing audio reproduction processing of the streaming reproduction unit of the video reproduction terminal in the seventh embodiment.
  • the streaming playback unit in the seventh embodiment is different from that of the MPD processing unit 191, the audio file acquisition unit 192, and the audio decoding processing unit 194 except that the audio selection unit 193 is not provided. 47 are the same as the streaming reproduction unit 190 of FIG. Therefore, in the following, the streaming reproduction unit, the MPD processing unit, the audio file acquisition unit, and the audio decoding processing unit in the seventh embodiment, the streaming reproduction unit 360, the MPD processing unit 381, the audio file acquisition unit 382, and the audio decoding It is called a processing unit 383.
  • step S621 of FIG. 90 the MPD processing unit 381 of the streaming reproduction unit 360 analyzes the MPD file supplied from the MPD acquisition unit 91, acquires information such as the URL of the audio file of the segment to be reproduced, The file acquisition unit 382 is supplied.
  • step S 622 the audio file acquisition unit 382 requests an Initial Segment of the segment to be reproduced from the Web server based on the information such as the URL supplied from the MPD processing unit 381, and acquires the Initial Segment.
  • step S623 the audio file acquisition unit 382 acquires the track ID of the track of the audio stream that is the reference track from the sample entry of the track (hereinafter referred to as a hint track) of the hint stream of the moov box in the Initial Segment.
  • a hint track the sample entry of the track
  • step S 624 the audio file acquisition unit 382 requests the sidx box and ssix box from the head of the media segment of the segment to be reproduced based on the information such as the URL supplied from the MPD processing unit 381 and acquires Do.
  • step S625 the audio file acquisition unit 382 acquires position information of the hint track from the sidx box and ssix box acquired in step S624.
  • step S626 the audio file acquisition unit 382 requests the hint stream from the web server based on the position information of the hint track acquired in step S625, and acquires the hint stream. Then, the audio file acquisition unit 382 acquires an extractor of a group type of 3D audio to be reproduced from the hint stream.
  • the 3D audio to be reproduced is object audio
  • the object to be reproduced is selected based on the image frame size information and the object position information.
  • step S627 the audio file acquisition unit 382 acquires reference track position information from the sidx box and ssix box acquired in step S624.
  • step S628 the audio file acquisition unit 382 generates an audio stream of a 3D audio group type to be reproduced based on the position information of the reference track acquired in step S627 and the subsample information included in the acquired extractor. Determine the location information of
  • step S629 based on the position information determined in step S627, the audio file acquisition unit 382 requests the Web server for an audio stream of the group type of 3D audio to be reproduced, and acquires the audio stream.
  • the audio file acquisition unit 382 supplies the acquired audio stream to the audio decoding processing unit 383.
  • step S630 the speech decoding processing unit 383 decodes the audio stream supplied from the speech file acquisition unit 382, and supplies the speech data obtained as a result to the speech synthesis processing unit 195.
  • step S631 the speech synthesis processing unit 195 outputs the speech data, and the process ends.
  • the track of the audio stream and the hint track are stored in the same audio file, but may be stored in different files.
  • FIG. 91 is a diagram for describing an outline of a track in the eighth embodiment of the information processing system to which the present disclosure is applied.
  • the audio file of the eighth embodiment differs from the audio file of the seventh embodiment in that the stored hint stream is a stream for each group type. That is, the hint stream of the eighth embodiment is generated for each group type, and each hint stream contains an extractor including the size, position, and group type of sample data of 3D audio of each group type. , Placed as a sample. When 3D audio includes object audio of a plurality of objects, the extractor is arranged as a subsample for each object.
  • different tracks are assigned to the audio stream and each hint stream.
  • the track of the audio stream is the same as the track of the audio stream of FIG.
  • a track ID "1" of a track of the corresponding audio stream is described as the track reference of the hint track of the group types "Channels", “Objects”, “HOA” and "metadata”.
  • the syntax of the sample entries of the hint track of the group types "Channels”, “Objects”, “HOA”, and “metadata” is the syntax shown in FIG. 35 to FIG. 38 except for the information indicating the type of the sample entry. Is the same as The information indicating the type of the sample entry of the hint track of the group types “Channels”, “Objects”, “HOA”, and “metadata” is obtained by replacing the numeral 1 in the information of FIGS. This 2 represents that this is a sample entry of the hint track.
  • FIG. 92 shows an example of the structure of an audio file.
  • the audio file stores an audio stream and a hint stream of each group type.
  • the file generation process of the file generation apparatus is the same as the file generation process of FIG. 89 except that a hint stream for each group type is generated instead of the hint stream of FIG.
  • the audio reproduction processing of the streaming reproduction unit of the moving image reproduction terminal in the eighth embodiment is that, in step S623, not only the track ID of the reference track but also the track ID of the hint track of the group type to be reproduced is acquired.
  • the process is the same as the audio reproduction process of FIG. 90 except that the position information of the hint track of the group type to be reproduced is acquired in step S625, and the hint stream of the group type to be reproduced is acquired in step S626.
  • the track of the audio stream and the hint track are stored in the same audio file, but may be stored in different files.
  • a track of an audio stream is stored in one audio file (3D audio stream MP4 File), and a hint track is stored in one audio file (3D audio hint stream MP4 File).
  • the hint track may be divided and stored in a plurality of audio files. In the example of FIG. 94, each hint track is stored in a different audio file.
  • a hint stream is generated for each group type, but if the group type is objects, a hint stream is generated for each object. You may In this case, different tracks are assigned to the hint stream of each object.
  • all 3D audio audio streams are stored as one track. Therefore, the moving picture reproduction terminal can reproduce the audio stream of all 3D audio by acquiring the track.
  • hint streams are stored. Therefore, the video playback terminal does not refer to the moof box in which a table in which subsamples are associated with subsample sizes and positions is described, and a desired group type of all 3D audio audio streams. You can get and play only the audio stream of.
  • the moving image reproduction terminal can acquire an audio stream for each group type only by storing all 3D audio audio streams and hint streams. Therefore, in order to enable acquisition of audio streams for each group type, prepare audio streams for 3D audio for each group type separately from audio streams for all 3D audio generated for broadcast and local storage applications. There is no need.
  • the extractor is generated for each group type, but the generation unit of the extractor may be an audio element, a group, a switch group, and a group Preset.
  • the sample entry of each hint track of the eighth embodiment includes information on the corresponding group.
  • the information on the group is constituted by the ID of the group, the information representing the contents of the data of the elements classified into the group, and the like.
  • the sample entry of the hint track of that group also includes information on the switch Group.
  • the information on the switch group is configured by an ID of the switch group, an ID of a group forming the switch group, and the like.
  • the sample entry of the hint track of the seventh embodiment includes the information contained in the sample entries of all the hint tracks of the eighth embodiment.
  • the segment structure in the seventh and eighth embodiments is the same as the segment structure in FIGS. 39 and 40.
  • the Ninth Embodiment (Description of a computer to which the present disclosure is applied)
  • the series of processes of the Web server described above can be performed by hardware or software.
  • a program that configures the software is installed on a computer.
  • the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 95 is a block diagram showing an example of a hardware configuration of a computer that executes the series of processes of the Web server described above by a program.
  • a central processing unit (CPU) 601, a read only memory (ROM) 602, and a random access memory (RAM) 603 are mutually connected by a bus 604.
  • an input / output interface 605 is connected to the bus 604.
  • An input unit 606, an output unit 607, a storage unit 608, a communication unit 609, and a drive 610 are connected to the input / output interface 605.
  • the input unit 606 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 607 includes a display, a speaker, and the like.
  • the storage unit 608 is formed of a hard disk, a non-volatile memory, or the like.
  • the communication unit 609 is formed of a network interface or the like.
  • the drive 610 drives removable media 611 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 601 loads the program stored in the storage unit 608 into the RAM 603 via the input / output interface 605 and the bus 604 and executes the program. Processing is performed.
  • the program executed by the computer (CPU 601) can be provided by being recorded on, for example, a removable medium 611 as a package medium or the like. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 608 via the input / output interface 605 by attaching the removable media 611 to the drive 610.
  • the program can be received by the communication unit 609 via a wired or wireless transmission medium and installed in the storage unit 608.
  • the program can be installed in advance in the ROM 602 or the storage unit 608.
  • the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
  • the hardware configuration of the above-described moving image reproduction terminal can be the same as that of the computer shown in FIG.
  • the CPU 601 executes the control software 161 (221), the moving image reproduction software 162 (222), and the access software 163 (223).
  • the processing of the video reproduction terminal 144 (214) can also be performed by hardware.
  • a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the file generator 141 (211) multiplexes the encoded data of all the tiles to generate a video stream and generates one image file, instead of generating an image file on a tile basis. It is also good.
  • the present disclosure is applicable not only to MPEG-H 3D audio but also to audio codecs in general that can create a stream for each Object.
  • the present disclosure can also be applied to an information processing system that performs broadcasting or local storage reproduction, not streaming reproduction.
  • An information processing apparatus comprising: an acquisition unit configured to acquire audio data of a predetermined track of a file in which audio data of a plurality of types are divided and arranged in a plurality of tracks according to the types.
  • the information processing apparatus according to (1) wherein the type is an element of the audio data, a type of the element, or a group into which the element is classified.
  • the information processing apparatus according to (1) or (2) further including: a decoding unit that decodes the audio data of the predetermined track acquired by the acquisition unit.
  • the decoding unit synthesizes the audio data of the predetermined track acquired by the acquisition unit and decodes the audio data after synthesis.
  • Information processor as described.
  • audio data of a plurality of object units are divided and arranged in the tracks which are different for each object, and metadata of audio data of all the object units is collected in a track different from the tracks.
  • the acquisition unit acquires the audio data of the track of the object to be reproduced as the audio data of the predetermined track, and acquires the metadata.
  • the decoding unit extracts the metadata of the object to be reproduced from the metadata acquired by the acquisition unit, and combines the metadata with the audio data acquired by the acquisition unit.
  • the information processing apparatus according to (4), which is configured.
  • audio data of a plurality of object units are divided and arranged in the tracks which are different for each object, and metadata of audio data of all the object units is collected in a track different from the tracks.
  • the acquisition unit acquires the audio data of the track of the object to be reproduced as the audio data of the predetermined track, and acquires the metadata.
  • the decoding unit is configured to combine zero data in which a decoding result as the audio data of the track not to be reproduced becomes zero, the audio data acquired by the acquiring unit, and the metadata.
  • the information processing apparatus according to (4). (7)
  • audio data of a plurality of objects are divided and arranged in the tracks different for each object, and metadata of audio data of the objects is arranged in different tracks for the objects.
  • the acquisition unit acquires the audio data of the track of the object to be reproduced as the audio data of the predetermined track, and acquires metadata of the object to be reproduced.
  • the information processing apparatus according to (4), wherein the decoding unit is configured to combine the audio data and the metadata acquired by the acquisition unit.
  • the information processing apparatus according to any one of (1) to (7), wherein the audio data of the plurality of tracks are arranged in one file.
  • the information processing apparatus according to any one of (1) to (7), wherein the audio data of the plurality of tracks is arranged in the file different for each of the tracks.
  • the information processing according to any one of (1) to (9), wherein in the file, information on the plurality of types of audio data is arranged as a track different from the plurality of tracks. apparatus.
  • the information processing apparatus wherein the information related to the plurality of types of audio data includes image frame size information indicating an image frame size of image data corresponding to the audio data.
  • information indicating the position of the audio data of another track corresponding to the audio data is arranged as the audio data of a track different from the plurality of tracks.
  • the information processing apparatus according to any one of (9) to (9).
  • the file includes, as the data of a track different from the plurality of tracks, information indicating the position of the audio data of the other track corresponding to the data, and metadata of the audio data of the other track.
  • the information processing apparatus according to any one of (1) to (9), which is configured to be arranged.
  • the information processing apparatus (14) The information processing apparatus according to (13), wherein the metadata of the audio data is configured to include information indicating an acquisition position of the audio data.
  • the file is configured to include information indicating a reference relationship between the track and the other track.
  • the file is configured to include codec information of the audio data of each track.
  • the predetermined type of audio data is information indicating an acquisition position of another type of audio data.
  • the information processing apparatus An information processing method including an acquiring step of acquiring audio data of a predetermined track of a file in which audio data of a plurality of types are divided and arranged in a plurality of tracks according to the types. (19) An information processing apparatus, comprising: a generation unit configured to generate a file in which plural types of audio data are divided and arranged in plural tracks according to the types. (20) The information processing apparatus An information processing method comprising: generating a file in which a plurality of types of audio data are divided into a plurality of tracks according to the types and arranged.

Abstract

 本開示は、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにする情報処理装置および情報処理方法に関する。 複数の種類の音声データが種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定のトラックの音声データが取得される。本開示は、例えば、ファイルを生成するファイル生成装置、ファイル生成装置により生成されたファイルを記録するWebサーバ、および、ファイルを再生する動画再生端末により構成される情報処理システム等に適用することができる。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関し、特に、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにした情報処理装置および情報処理方法に関する。
 近年、インターネット上のストリーミングサービスの主流がOTT-V(Over The Top Video)となっている。この基盤技術として普及し始めているのがMPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)である(例えば、非特許文献1参照)。
 MPEG-DASHでは、配信サーバが1本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。
MPEG-DASH(Dynamic Adaptive Streaming over HTTP)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
 しかしながら、動画コンテンツの複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることは考えられていない。
 本開示は、このような状況に鑑みてなされたものであり、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにするものである。
 本開示の第1の側面の情報処理装置は、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部を備える情報処理装置である。
 本開示の第1の側面の情報処理方法は、本開示の第1の側面の情報処理装置に対応する。
 本開示の第1の側面においては、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データが取得される。
 本開示の第2の側面の情報処理装置は、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部を備える情報処理装置である。
 本開示の第2の側面の情報処理方法は、本開示の第2の側面の情報処理装置に対応する。
 本開示の第2の側面においては、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルが生成される。
 なお、第1および第2の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。
 また、第1および第2の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 本開示の第1の側面によれば、音声データを取得することができる。また、本開示の第1の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを効率良く取得することができる。
 本開示の第2の側面によれば、ファイルを生成することができる。また、本開示の第2の側面によれば、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させるファイルを生成することができる。
本開示を適用した情報処理システムの第1の例の概要を説明する図である。 タイルの例を示す図である。 オブジェクトを説明する図である。 オブジェクト位置情報を説明する図である。 画枠サイズ情報を説明する図である。 MPDファイルの構造を示す図である。 「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。 MPDファイルの記述例を説明する図である。 ファイル生成装置の構成例を示すブロック図である。 ファイル生成装置のファイル生成処理を説明するフローチャートである。 ストリーミング再生部の構成例を示すブロック図である。 ストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 MPDファイルの他の記述例を説明する図である。 MPDファイルのさらに他の記述例を説明する図である。 オーディオストリームの配置例を示す図である。 gsixの記述例を示す図である。 Sample group entryとオブジェクトIDの対応関係を示す情報の例を示す図である。 AudioObjectSampleGroupEntryの記述例を示す図である。 type assignment boxの記述例を示す図である。 本開示を適用した情報処理システムの第2の例の概要を説明する図である。 本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。 オブジェクトの位置の決定方法を説明する図である。 オブジェクトの位置の決定方法を説明する図である。 オブジェクトの位置の決定方法を説明する図である。 水平角度θAiと水平角度θAi´の関係を表す図である。 図23のストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 図28の位置決定処理の詳細を説明するフローチャートである。 図29の水平角度θAi´推定処理の詳細を説明するフローチャートである。 MP4の3Dオーディオファイルフォーマットのトラックの概要を説明する図である。 moovボックスの構造を示す図である。 本開示を適用した第1実施の形態におけるトラックの概要を説明する図である。 図33のベーストラックのサンプルエントリのシンタクスの例を示す図である。 図33のチャンネルオーディオトラックのサンプルエントリのシンタクスの例を示す図である。 図33のオブジェクトオーディオトラックのサンプルエントリのシンタクスの例を示す図である。 図33のHOAオーディオトラックのサンプルエントリのシンタクスの例を示す図である。 図33のオブジェクトメタデータトラックのサンプルエントリのシンタクスの例を示す図である。 セグメント構造の第1の例を示す図である。 セグメント構造の第2の例を示す図である。 level assignmentボックスの記述例を示す図である。 本開示を適用した第1実施の形態におけるMPDファイルの記述例を示す図である。 essential Propertyの定義を示す図である。 本開示を適用した第1実施の形態における情報処理システムの概要を説明する図である。 図44のファイル生成装置の構成例を示すブロック図である。 図45のファイル生成装置のファイル生成処理を説明するフローチャートである。 図44の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。 図47のストリーミング再生部のチャンネルオーディオ再生処理を説明するフローチャートである。 図47のストリーミング再生部のオブジェクト特定処理を説明するフローチャートである。 図47のストリーミング再生部の特定オブジェクトオーディオ再生処理を説明するフローチャートである。 本開示を適用した第2実施の形態におけるトラックの概要を説明する図である。 図51のベーストラックのサンプルエントリのシンタクスの例を示す図である。 ベースサンプルの構造を示す図である。 ベースのサンプルのシンタクスの例を示す図である。 extractorのデータの例を示す図である。 本開示を適用した第3実施の形態におけるトラックの概要を説明する図である。 本開示を適用した第4実施の形態におけるトラックの概要を説明する図である。 本開示を適用した第4実施の形態におけるMPDファイルの記述例を示す図である。 本開示を適用した第4実施の形態における情報処理システムの概要を説明する図である。 図59のファイル生成装置の構成例を示すブロック図である。 図60のファイル生成装置のファイル生成処理を説明するフローチャートである。 図59の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。 図62のストリーミング再生部のチャンネルオーディオ再生処理の例を説明するフローチャートである。 図62のストリーミング再生部のオブジェクトオーディオ再生処理の第1の例を説明するフローチャートである。 図62のストリーミング再生部のオブジェクトオーディオ再生処理の第2の例を説明するフローチャートである。 図62のストリーミング再生部のオブジェクトオーディオ再生処理の第3の例を説明するフローチャートである。 プライオリティに基づいて選択されたオブジェクトの例を示す図である。 本開示を適用した第5実施の形態におけるトラックの概要を説明する図である。 本開示を適用した第6実施の形態におけるトラックの概要を説明する図である。 3Dオーディオの階層構造を示す図である。 Webサーバの処理の第1の例を説明する図である。 Webサーバのトラック分割処理を説明するフローチャートである。 音声復号処理部の処理の第1の例を説明する図である。 音声復号処理部の復号処理の第1の例の詳細を説明するフローチャートである。 音声復号処理部の処理の第2の例を説明する図である。 音声復号処理部の復号処理の第2の例の詳細を説明するフローチャートである。 Webサーバの処理の第2の例を説明する図である。 音声復号処理部の処理の第3の例を説明する図である。 音声復号処理部の復号処理の第3の例の詳細を説明するフローチャートである。 ベースサンプルに配置されるConfig情報のシンタクスの第2の例を示す図である。 図80のExtエレメント用のConfig情報のシンタクスの例を示す図である。 図81のExtractor用のConfig情報のシンタクスの例を示す図である。 ベースサンプルに配置されるフレーム単位のデータのシンタクスの第2の例を示す図である。 図83のExtractorのデータのシンタクスの例を示す図である。 ベースサンプルに配置されるConfig情報のシンタクスの第3の例を示す図である。 ベースサンプルに配置されるフレーム単位のデータのシンタクスの第3の例を示す図である。 本開示を適用した情報処理システムの第7実施の形態におけるオーディオストリームの構成例を示す図である。 第7実施の形態におけるトラックの概要を説明する図である。 第7実施の形態におけるファイル生成処理を説明するフローチャートである。 第7実施の形態におけるオーディオ再生処理を説明するフローチャートである。 本開示を適用した情報処理システムの第8実施の形態におけるトラックの概要を説明する図である。 音声ファイルの構成例を示す図である。 音声ファイルの他の構成例を示す図である。 音声ファイルのさらに他の構成例を示す図である。 コンピュータのハードウエアの構成例を示すブロック図である。
 以下、本開示の前提および本開示を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
 0.本開示の前提(図1乃至図30)
 1.第1実施の形態(図31乃至図50)
 2.第2実施の形態(図51乃至図55)
 3.第3実施の形態(図56)
 4.第4実施の形態(図57乃至図67)
 5.第5実施の形態(図68)
 6.第6実施の形態(図69)
 7.3Dオーディオの階層構造の説明(図70)
 8.Webサーバの処理の第1の例の説明(図71および図72)
 9.音声復号処理部の処理の第1の例の説明(図73および図74)
 10.音声復号処理部の処理の第2の例の説明(図75および図76)
 11.Webサーバの処理の第2の例の説明(図77)
 12.音声復号処理部の処理の第3の例の説明(図78および図79)
 13.ベースサンプルのシンタクスの第2の例(図80乃至図84)
 14.ベースサンプルのシンタクスの第3の例(図85および図86)
 15.第7実施の形態(図87乃至図90)
 16.第8実施の形態(図91乃至図94)
 17.第9実施の形態(図95)
 <本開示の前提>
 (情報処理システムの第1の例の概要)
 図1は、本開示を適用した情報処理システムの第1の例の概要を説明する図である。
 図1の情報処理システム10は、ファイル生成装置11と接続されるWebサーバ12と動画再生端末14が、インターネット13を介して接続されることにより構成される。
 情報処理システム10では、MPEG-DASHに準ずる方式で、Webサーバ12が動画コンテンツの画像データをタイル単位で動画再生端末14に配信(タイルドストリーミング)する。
 具体的には、ファイル生成装置11は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置11は、各タイルのビデオストリームを、セグメントと呼ばれる数秒から10秒程度の時間単位ごとにファイル化する。ファイル生成装置11は、その結果得られる各タイルの画像ファイルをWebサーバ12にアップロードする。
 また、ファイル生成装置11は、動画コンテンツの音声データをオブジェクト(詳細は後述する)ごとに取得し、オブジェクト単位で符号化してオーディオストリームを生成する。ファイル生成装置11は、各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをWebサーバ12にアップロードする。
 なお、オブジェクトとは、音源であり、各オブジェクトの音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。
 ファイル生成装置11は、各オブジェクトの位置(音声データの取得位置)を表すオブジェクト位置情報(音声位置情報)、オブジェクトに固有のIDであるオブジェクトID等を含むオーディオメタデータを符号化する。ファイル生成装置11は、オーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをWebサーバ12にアップロードする。
 また、ファイル生成装置11は、動画コンテンツの画像の画枠サイズを表す画枠サイズ情報、各タイルの画像上の位置を表すタイル位置情報等を含む、画像ファイルや音声ファイルを管理するMPD(Media Presentation Description)ファイル(制御情報)を生成する。ファイル生成装置11は、MPDファイルをWebサーバ12にアップロードする。
 Webサーバ12は、ファイル生成装置11からアップロードされた画像ファイル、音声ファイル、音声メタファイル、およびMPDファイルを格納する。
 図1の例では、Webサーバ12には、タイルID「1」のタイルの複数のセグメントの画像ファイルからなるセグメント群と、タイルID「2」のタイルの複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ12には、オブジェクトID「1」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群と、オブジェクトID「2」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群とが格納されている。図示は省略するが、音声メタファイルのセグメント群も同様に格納されている。
 なお、以下では、タイルIDがiであるタイルをタイル#iといい、オブジェクトIDがiのオブジェクトをオブジェクト#iという。
 Webサーバ12は、伝送部として機能し、動画再生端末14からの要求に応じて、格納している画像ファイル、音声ファイル、音声メタファイル、MPDファイル等を動画再生端末14に送信する。
 動画再生端末14は、ストリーミングデータの制御用ソフトウエア(以下、制御用ソフトウエアという)21、動画再生ソフトウエア22、HTTP(HyperText Transfer Protocol)アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)23などを実行する。
 制御用ソフトウエア21は、Webサーバ12からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア21は、動画再生端末14にWebサーバ12からMPDファイルを取得させる。
 また、制御用ソフトウエア21は、動画再生ソフトウエア22から指示される動画コンテンツの画像内の表示する領域である表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア21は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア23に指令する。
 また、制御用ソフトウエア21は、アクセス用ソフトウエア23に音声メタファイルの送信要求を指令する。そして、制御用ソフトウエア21は、表示領域、MPDファイルに含まれる画枠サイズ情報、および音声メタファイルに含まれるオブジェクト位置情報に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア21は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア23に指令する。
 動画再生ソフトウエア22は、Webサーバ12から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア22は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア21に指示する。また、動画再生ソフトウエア22は、その指示に応じてWebサーバ12から取得された画像ファイルと音声ファイルを復号し、合成して出力する。
 アクセス用ソフトウエア23は、HTTPを用いたインターネット13を介したWebサーバ12との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア23は、制御用ソフトウエア21の指令に応じて、画像ファイル、音声ファイル、および音声メタファイルの送信要求を動画再生端末14に送信させる。また、アクセス用ソフトウエア23は、その送信要求に応じて、Webサーバ12から送信されてくる画像ファイル、音声ファイル、および音声メタファイルを動画再生端末14に受信させる。
 (タイルの例)
 図2は、タイルの例を示す図である。
 図2に示すように、動画コンテンツの画像は、複数のタイルに分割され、各タイルに1から順にタイルIDが付与される。図2の例では、動画コンテンツの画像は、4つのタイル#1乃至タイル#4に分割されている。
 (オブジェクトの説明)
 図3は、オブジェクトを説明する図である。
 図3の例では、動画コンテンツの音声として、画像内の8つのオブジェクトの音声が取得されており、各オブジェクトには1から順にオブジェクトIDが付与されている。オブジェクト#1乃至オブジェクト#5は、それぞれ、動体であり、オブジェクト#6乃至オブジェクト#8は、固定された物体である。また、図3の例では、動画コンテンツの画像は、5(縦)×7(横)のタイルに分割されている。
 この場合、図3に示すように、ユーザにより2(縦)×3(横)個のタイルからなる表示領域31が指定されると、表示領域31には、オブジェクト#1、オブジェクト#2、およびオブジェクト#6のみが含まれる。従って、動画再生端末14は、例えば、オブジェクト#1、オブジェクト#2、およびオブジェクト#6の音声ファイルのみをWebサーバ12から取得し、再生する。
 表示領域31内のオブジェクトは、以下に説明するように、画枠サイズ情報およびオブジェクト位置情報に基づいて特定することができる。
 (オブジェクト位置情報の説明)
 図4は、オブジェクト位置情報を説明する図である。
 図4に示すように、オブジェクト位置情報は、オブジェクト40の水平角度θA(-180°≦θA≦180°),垂直角度γA(-90°≦γA≦90°)、および距離rA(0<rA)からなる。水平角度θAは、例えば、画像の中心の撮影位置を原点(基点)Oとし、画像の水平方向をX方向、垂直方向をY方向、XY平面に垂直な奥行き方向をZ方向としたときの、オブジェクト40と原点Oを結ぶ直線とYZ平面との水平方向の角度である。垂直角度γAは、オブジェクト40と原点Oを結ぶ直線とXZ平面との垂直方向の角度であり、距離rAは、オブジェクト40と原点Oの距離である。
 なお、本明細書では、左回転および上回転の角度を正の角度とし、右回転および下回転の角度を負の角度とする。
 (画枠サイズ情報の説明)
 図5は、画枠サイズ情報を説明する図である。
 図5に示すように、画枠サイズ情報は、画枠の左端の水平角度θv1、右端の水平角度θv2、画枠の上端の垂直角度γv1、下端の垂直角度γv2、および距離rvにより構成される。
 水平角度θv1は、例えば、画像の中心の撮影位置を原点Oとし、画像の水平方向をX方向、垂直方向をY方向、XY平面に垂直な奥行き方向をZ方向としたときの、画枠の左端と原点Oを結ぶ直線とYZ平面との水平方向の角度である。水平角度θv2は、画枠の右端と原点Oを結ぶ直線とYZ平面との水平方向の角度である。従って、水平角度θv1と水平角度θv2とを合わせた角度は、水平方向の画角である。
 垂直角度γV1,γv2は、それぞれ、画枠の上端、下端と原点Oを結ぶ直線とXZ平面との角度であり、垂直角度γV1と垂直角度γv2とを合わせた角度は、垂直方向の画角である。距離rvは、原点Oと画像の平面との距離である。
 以上のように、オブジェクト位置情報と画枠サイズ情報は、それぞれ、オブジェクト40、画枠と、原点Oとの位置関係を表している。従って、オブジェクト位置情報と画枠サイズ情報に基づいて、各オブジェクトの画像上の位置を検出(認識)することができる。その結果、表示領域31内のオブジェクトを特定することができる。
 (MPDファイルの構造の説明)
 図6は、MPDファイルの構造を示す図である。
 MPDファイルの解析(パース)においては、動画再生端末14は、MPDファイル(図6のMedia Presentation)の「Period」に含まれる「Representation」の属性から最適なものを選択する。
 動画再生端末14は、選択した「Representation」の先頭の「Initialization Segment」のURL(Uniform Resource Locator)等を参照してファイルを取得し、処理する。続いて、動画再生端末14は、後続の「Media Segment」のURL等を参照してファイルを取得し、再生する。
 なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図7のようになる。つまり、1つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。
 したがって、MPDファイルは、「Period」以下において、図8に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図9の例のようになる。図9から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。動画再生端末14は、これらのうちのいずれかを適応的に選択することにより、ユーザにより選択された表示領域の画像ファイルと音声ファイルを取得し、再生することができる。
 (MPDファイルの記述の説明)
 図10は、MPDファイルの記述を説明する図である。
 上述したように、情報処理システム10では、動画再生端末14において表示領域内のオブジェクトを特定可能にするため、MPDファイルに画枠サイズ情報が含まれる。この画枠サイズ情報は、図10に示すように、ViewpointのDescriptorType elementを活用して新たに画枠サイズ情報(Viewing Angle)を定義するためのScheme(urn:mpeg:DASH:viewingAngle:2013)を拡張することにより、音声用の「Adaptation Set」と画像用の「Adaptation Set」に配置される。画枠サイズ情報は、画像用の「Adaptation Set」にのみ配置されるようにしてもよい。
 また、MPDファイルの音声用の「Adaptation Set」には、音声メタファイル用の「Representation」が記述され、その「Representation」の「Segment」には、音声メタファイル(audionmetadata.mp4)を特定する情報としてのURL等が記述される。このとき、Role elementを活用して、「Segment」で指定されるファイルが音声メタファイルであること(objectaudiometadata)が記述される。
 MPDファイルの音声用の「Adaptation Set」にはまた、各オブジェクトの音声ファイル用の「Representation」が記述され、その「Representation」の「Segment」には、各オブジェクトの音声ファイル(audioObje1.mp4, audioObje5.mp4)を特定する情報としてのURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応するオブジェクトのオブジェクトID(1,5)も記述される。
 なお、図示は省略するが、タイル位置情報は、画像用の「Adaptation Set」に配置される。
 (ファイル生成装置の構成例)
 図11は、図1のファイル生成装置11の構成例を示すブロック図である。
 図11のファイル生成装置11は、画面分割処理部51、画像符号化処理部52、画像ファイル生成部53、画像情報生成部54、音声符号化処理部55、音声ファイル生成部56、MPD生成部57、およびサーバアップロード処理部58により構成される。
 ファイル生成装置11の画面分割処理部51は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部51は、タイル位置情報を画像情報生成部54に供給する。また、画面分割処理部51は、タイル単位の画像データを画像符号化処理部52に供給する。
 画像符号化処理部52は、画面分割処理部51から供給されるタイル単位の画像データをタイルごとに符号化し、ビデオストリームを生成する。画像符号化処理部52は、各タイルのビデオストリームを画像ファイル生成部53に供給する。
 画像ファイル生成部53は、画像符号化処理部52から供給される各タイルのビデオストリームをセグメント単位でファイル化し、その結果得られる各タイルの画像ファイルをMPD生成部57に供給する。
 画像情報生成部54は、画面分割処理部51から供給されるタイル位置情報と外部から入力される画枠サイズ情報とを画像情報としてMPD生成部57に供給する。
 音声符号化処理部55は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、オーディオストリームを生成する。また、音声符号化処理部55は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトID等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部55は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部56に供給する。
 音声ファイル生成部56は、音声ファイル生成部として機能し、音声符号化処理部55から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをMPD生成部57に供給する。
 また、音声ファイル生成部56は、メタファイル生成部として機能し、音声符号化処理部55から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをMPD生成部57に供給する。
 MPD生成部57は、画像ファイル生成部53から供給される各タイルの画像ファイルを格納するWebサーバ12のURL等を決定する。また、MPD生成部57は、音声ファイル生成部56から供給される各オブジェクトの音声ファイルと音声メタファイルを格納するWebサーバ12のURL等を決定する。
 MPD生成部57は、画像情報生成部54から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部57は、画像情報のうちの画枠サイズ情報をMPDファイルの音声用の「AdaptationSet」に配置する。MPD生成部57は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。
 MPD生成部57は、各オブジェクトの音声ファイルのURL等を、そのオブジェクトの音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部57は、情報生成部として機能し、音声メタファイルを特定する情報としてのURL等を音声メタファイル用の「Representation」の「Segment」に配置する。MPD生成部57は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイル、音声ファイル、および音声メタファイルをサーバアップロード処理部58に供給する。
 サーバアップロード処理部58は、MPD生成部57から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ12にアップロードする。
 (ファイル生成装置の処理の説明)
 図12は、図11のファイル生成装置11のファイル生成処理を説明するフローチャートである。
 図12のステップS11において、ファイル生成装置11の画面分割処理部51は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部51は、タイル位置情報を画像情報生成部54に供給する。また、画面分割処理部51は、タイル単位の画像データを画像符号化処理部52に供給する。
 ステップS12において、画像符号化処理部52は、画面分割処理部51から供給されるタイル単位の画像データをタイルごとに符号化し、各タイルのビデオストリームを生成する。画像符号化処理部52は、各タイルのビデオストリームを画像ファイル生成部53に供給する。
 ステップS13において、画像ファイル生成部53は、画像符号化処理部52から供給される各タイルのビデオストリームをセグメント単位でファイル化し、各タイルの画像ファイルを生成する。画像ファイル生成部53は、各タイルの画像ファイルをMPD生成部57に供給する。
 ステップS14において、画像情報生成部54は、外部から画枠サイズ情報を取得する。ステップS15において、画像情報生成部54は、画面分割処理部51から供給されるタイル位置情報と画枠サイズ情報とを含む画像情報を生成し、MPD生成部57に供給する。
 ステップS16において、音声符号化処理部55は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、各オブジェクトのオーディオストリームを生成する。また、音声符号化処理部55は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトID等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部55は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部56に供給する。
 ステップS17において、音声ファイル生成部56は、音声符号化処理部55から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、各オブジェクトの音声ファイルを生成する。また、音声ファイル生成部56は、音声符号化処理部55から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、音声メタファイルを生成する。音声ファイル生成部56は、各オブジェクトの音声ファイルと音声メタファイルをMPD生成部57に供給する。
 ステップS18において、MPD生成部57は、画像情報生成部54から供給される画像情報、各ファイルのURL等を含むMPDファイルを生成する。MPD生成部57は、MPDファイル、各タイルの画像ファイル、各オブジェクトの音声ファイル、および音声メタファイルをサーバアップロード処理部58に供給する。
 ステップS19において、サーバアップロード処理部58は、MPD生成部57から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ12にアップロードする。そして、処理は終了する。
 (動画再生端末の機能的構成例)
 図13は、図1の動画再生端末14が制御用ソフトウエア21、動画再生ソフトウエア22、およびアクセス用ソフトウエア23を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
 図13のストリーミング再生部90は、MPD取得部91、MPD処理部92、メタファイル取得部93、音声選択部94、音声ファイル取得部95、音声復号処理部96、音声合成処理部97、画像選択部98、画像ファイル取得部99、画像復号処理部100、および画像合成処理部101により構成される。
 ストリーミング再生部90のMPD取得部91は、受け取り部として機能し、Webサーバ12からMPDファイルを取得し、MPD処理部92に供給する。
 MPD処理部92は、MPD取得部91から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。また、MPD処理部92は、MPDファイルから画像用の「AdaptationSet」に記述される画枠サイズ情報を抽出し、音声選択部94に供給する。MPD処理部92は、MPDファイルから、音声選択部94から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部94に供給する。
 MPD処理部92は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部92は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
 メタファイル取得部93は、MPD処理部92から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部94に供給する。
 音声選択部94は、位置決定部として機能し、MPD処理部92から供給される画枠サイズ情報とメタファイル取得部93から供給されるオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部94は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部94は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部92に要求する。音声選択部94は、その要求に応じてMPD処理部92から供給されるURL等の情報を音声ファイル取得部95に供給する。
 音声ファイル取得部95は、受け取り部として機能し、音声選択部94から供給されるURL等の情報に基づいて、そのURLで特定されるオブジェクト単位の音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
 音声復号処理部96は、音声ファイル取得部95から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部96は、そのオブジェクト単位の音声データを音声合成処理部97に供給する。
 音声合成処理部97は、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。
 画像選択部98は、MPD処理部92から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部98は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部92に要求する。画像選択部98は、その要求に応じてMPD処理部92から供給されるURL等の情報を画像ファイル取得部99に供給する。
 画像ファイル取得部99は、画像選択部98から供給されるURL等の情報に基づいて、そのURLで特定されるタイル単位の画像ファイルをWebサーバ12に要求し、取得する。画像ファイル取得部99は、取得されたタイル単位の画像ファイルを画像復号処理部100に供給する。
 画像復号処理部100は、画像ファイル取得部99から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部100は、そのタイル単位の画像データを画像合成処理部101に供給する。
 画像合成処理部101は、画像復号処理部100から供給されるタイル単位の画像データを合成し、出力する。
 (動画再生端末の処理の説明)
 図14は、動画再生端末14のストリーミング再生部90(図13)のストリーミング再生処理を説明するフローチャートである。
 図14のステップS31において、ストリーミング再生部90のMPD取得部91は、Webサーバ12からMPDファイルを取得し、MPD処理部92に供給する。
 ステップS32において、MPD処理部92は、MPD取得部91から供給されるMPDファイルから、画像用の「AdaptationSet」に記述される画枠サイズ情報とタイル位置情報を取得する。MPD処理部92は、画枠サイズ情報を音声選択部94に供給し、タイル位置情報を画像選択部98に供給する。また、MPD処理部92は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。
 ステップS33において、メタファイル取得部93は、MPD処理部92から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部94に供給する。
 ステップS34において、音声選択部94は、MPD処理部92から供給される画枠サイズ情報とメタファイル取得部93から供給されるオブジェクト位置情報とに基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部94は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部92に要求する。
 MPD処理部92は、MPDファイルから、音声選択部94から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部94に供給する。音声選択部94は、MPD処理部92から供給されるURL等の情報を音声ファイル取得部95に供給する。
 ステップS35において、音声ファイル取得部95は、音声選択部94から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたオブジェクトの音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
 ステップS36において、画像選択部98は、MPD処理部92から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部98は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部92に要求する。
 MPD処理部92は、MPDファイルから、画像選択部98から要求されるオブジェクトの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。画像選択部98は、MPD処理部92から供給されるURL等の情報を画像ファイル取得部99に供給する。
 ステップS37において、画像ファイル取得部99は、画像選択部98から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたタイルの画像ファイルをWebサーバ12に要求し、取得する。画像ファイル取得部99は、取得されたタイル単位の画像ファイルを画像復号処理部100に供給する。
 ステップS38において、音声復号処理部96は、音声ファイル取得部95から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部96は、そのオブジェクト単位の音声データを音声合成処理部97に供給する。
 ステップS39において、画像復号処理部100は、画像ファイル取得部99から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部100は、そのタイル単位の画像データを画像合成処理部101に供給する。
 ステップS40において、音声合成処理部97は、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。ステップS41において、画像合成処理部101は、画像復号処理部100から供給されるタイル単位の画像データを合成し、出力する。そして、処理は終了する。
 以上のように、Webサーバ12は画枠サイズ情報とオブジェクト位置情報を伝送する。従って、動画再生端末14は、例えば、表示領域内のオブジェクトを特定し、そのオブジェクトの音声ファイルを、表示領域内の画像に対応する音声ファイルとして選択的に取得することができる。このように、動画再生端末14は必要な音声ファイルのみを取得することができるので、伝送効率は向上する。
 なお、図15に示すように、MPDファイルの画像用の「AdaptationSet」には、その画像と同時に再生したい音声に対応するオブジェクトを特定する情報としてのオブジェクトID(オブジェクト特定情報)が、記述されるようにしてもよい。この記述は、例えば、ViewpointのDescriptorType elementを活用して新たにオブジェクトID情報(audioObj)を定義するためのScheme(urn:mpeg:DASH:audioObj:2013)を拡張することにより、行われる。この場合、動画再生端末14は、画像用の「AdaptationSet」に記述されたオブジェクトIDに対応するオブジェクトの音声ファイルを選択し、取得して再生する。
 また、オブジェクト単位で音声ファイルが生成されるのではなく、全てのオブジェクトの符号化データが1本のオーディオストリームに多重化され、1つの音声ファイルが生成されるようにしてもよい。
 この場合、図16に示すように、MPDファイルの音声用の「AdaptationSet」には、音声ファイル用の「Representation」が1つ設けられ、「Segment」に、全てのオブジェクトの符号化データを含む音声ファイル(audioObje.mp4)のURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応する全てのオブジェクトのオブジェクトID(1,2,3,4,5)も記述される。
 また、この場合、図17に示すように、MPDファイルの「Media Segment」を参照して取得される音声ファイル(以下、適宜、音声メディアファイルともいう)のmdat boxには、サブサンプルとして、各オブジェクトの符号化データ(Audio object)が配置される。
 具体的には、音声メディアファイルには、セグメントより短い任意の時間であるサブセグメント単位でデータが配置される。このサブセグメント単位のデータの位置は、sidx boxにより指定される。また、サブセグメント単位のデータは、moof boxとmdat boxにより構成される。mdat boxは、複数のサンプルにより構成されるが、そのサンプルの各サブサンプルとして、各オブジェクトの符号化データが配置される。
 また、音声メディアファイルのsidx boxの後には、サンプルの情報を記述するgsix boxが配置される。このように、サンプルの情報を記述するgsix boxが、moof boxとは別に設けられるので、動画再生端末14は、サンプルの情報を素早く取得することができる。
 gsix boxには、図18に示すように、このgsix boxで管理する1以上のサンプルまたはサブサンプルからなるSample group entryの種別を表すgrouping_typeが記述される。例えば、Sample group entryが、オブジェクト単位の符号化データのサブサンプルである場合、図17に示すように、Sample group entryの種別は「obja」である。音声メディアファイルには、複数のgrouping_typeのgsix boxが配置される。
 また、図18に示すように、gsix boxには、各Sample group entryのインデックス(entry_index)と、音声メディアファイル内の位置を表すデータ位置情報としてのバイトレンジ(range_size)とが記述される。なお、インデックス(entry_index)が0である場合、対応するバイトレンジは、moof boxのバイトレンジ(図17の例ではa1)を表している。
 MPDファイルの「Initialization Segment」を参照して取得される音声ファイル(以下、適宜、音声初期化ファイルともいう)には、各Sample group entryが、どのオブジェクトの符号化データのサブサンプルであるかを表す情報が記述される。
 具体的には、図19に示すように、音声初期化ファイルのsbtl boxのsample group description box(sgpd)のAudioObjectSampleGroupEntryと対応付けられる、mvex boxのtype assignment box(typa)を用いて、その情報が表される。
 即ち、図20のAに示すように、AudioObjectSampleGroupEntryには、サンプルに含まれる符号化データに対応するオブジェクトID(audio_object_id)が1つずつ記述される。例えば、図20のBに示すように、4つのAudioObjectSampleGroupEntryのそれぞれに、オブジェクトIDとして、1,2,3,4が記述される。
 一方、図21に示すように、type assignment boxには、AudioObjectSampleGroupEntryごとに、そのAudioObjectSampleGroupEntryに対応するSample group entryのパラメータ(grouping_type_parameter)として、インデックスが記述される。
 以上のように音声メディアファイルと音声初期化ファイルが構成される。従って、動画再生端末14が、表示領域内のオブジェクトとして選択されたオブジェクトの符号化データを取得する際、音声初期化ファイルのstbl boxから、選択されたオブジェクトのオブジェクトIDが記述されたAudioObjectSampleGroupEntryが検索される。そして、mvex boxから、検索されたAudioObjectSampleGroupEntryに対応するSample group entryのインデックスが読み出される。そして、音声ファイルのsidxからサブセグメント単位のデータの位置が読み出され、gsixから、読み出されたインデックスのSample group entryのバイトレンジが読み出される。そして、サブセグメント単位のデータの位置とバイトレンジとに基づいて、mdat内に配置されている符号化データが取得される。これにより、選択されたオブジェクトの符号化データが取得される。
 なお、上述した説明では、Sample group entryのインデックスとAudioObjectSampleGroupEntryのオブジェクトIDが、mvex boxを介して対応付けられたが、直接対応付けられるようにしてもよい。この場合、Sample group entryのインデックスが、AudioObjectSampleGroupEntryに記述される。
 また、音声ファイルが複数のtrackから構成される場合、sgpdをmvexに格納すると、track間でsgpdを共用できる。
 (情報処理システムの第2の例の概要)
 図22は、本開示を適用した情報処理システムの第2の例の概要を説明する図である。
 なお、図22において、図3と同一のものには、同一の符号を付してある。
 図22の例では、図3の場合と同様に、動画コンテンツの画像は、5(縦)×7(横)のタイルに分割されており、動画コンテンツの音声として、オブジェクト#1乃至#8の音声が取得されている。
 この場合に、ユーザにより、2(縦)×3(横)個のタイルからなる表示領域31が指定されると、第2の例では、図22に示すように、その表示領域31が、動画コンテンツの画像のサイズと同一のサイズに変換(拡大)され、表示画像111とされる。そして、表示画像111におけるオブジェクト#1乃至#8の位置に基づいて、オブジェクト#1乃至#8の音声が合成され、表示画像111とともに出力される。即ち、表示領域31内のオブジェクト#1、オブジェクト#2、およびオブジェクト#6だけでなく、表示領域31外のオブジェクト#3乃至#5、オブジェクト#7、およびオブジェクト#8の音声も出力される。
 (ストリーミング再生部の構成例)
 本開示を適用した情報処理システムの第2の例の構成は、ストリーミング再生部の構成を除いて、図1の情報処理システム10の構成と同一であるので、以下では、ストリーミング再生部についてのみ説明する。
 図23は、本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。
 図23に示す構成のうち、図13の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図23のストリーミング再生部120の構成は、MPD処理部92、音声合成処理部97、画像合成処理部101の代わりに、MPD処理部121、音声合成処理部123、画像合成処理部124が設けられる点、および、位置決定部122が新たに設けられる点が図13のストリーミング再生部90の構成と異なる。
 ストリーミング再生部120のMPD処理部121は、MPD取得部91から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。また、MPD処理部121は、MPDファイルから画像用の「AdaptationSet」に記述される動画コンテンツの画像の画枠サイズ情報(以下、コンテンツ画枠サイズ情報という)を抽出し、位置決定部122に供給する。MPD処理部121は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部95に供給する。
 MPD処理部121は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部121は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
 位置決定部122は、メタファイル取得部93により取得された音声メタファイルに含まれるオブジェクト位置情報と、MPD処理部121から供給されるコンテンツ画枠サイズ情報を取得する。また、位置決定部122は、ユーザにより指定される表示領域の画枠サイズ情報である表示領域画枠サイズ情報を取得する。位置決定部122は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定(認識)する。位置決定部122は、決定されたオブジェクトの位置を音声合成処理部123に供給する。
 音声合成処理部123は、位置決定部122から供給されるオブジェクトの位置に基づいて、音声復号処理部96から供給されるオブジェクト単位の音声データを合成する。具体的には、音声合成処理部123は、オブジェクトの位置と音声を出力する各スピーカの位置とに基づいて、オブジェクトごとに、各スピーカに割り当てる音声データを決定する。そして、音声合成処理部123は、スピーカごとに、各オブジェクトの音声データを合成し、各スピーカの音声データとして出力する。オブジェクトの位置に基づいて各オブジェクトの音声データを合成する方法の詳細は、例えば、Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997に記載されている。
 画像合成処理部124は、画像復号処理部100から供給されるタイル単位の画像データを合成する。画像合成処理部124は、変換部として機能し、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換して、表示画像を生成する。画像合成処理部124は、表示画像を出力する。
 (オブジェクトの位置の決定方法の説明)
 図24乃至図26は、図23の位置決定部122によるオブジェクトの位置の決定方法を説明する図である。
 表示画像111は、動画コンテンツ内の表示領域31を抽出し、その表示領域31のサイズを動画コンテンツのサイズに変換することにより生成される。従って、表示画像111は、図24に示すように、表示領域31の中心Cを表示画像111の中心C´に移動させた後、図25に示すように、表示領域31のサイズを動画コンテンツのサイズに変換したものと等価である。
 よって、まず、位置決定部122は、以下の式(1)により、表示領域31の中心0を表示画像111の中心0´に移動させるときの水平方向の移動量θshiftを算出する。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、θv1´は、表示領域31の表示領域画枠サイズ情報のうちの左端の水平角度であり、θV2´は、右端の水平角度である。また、θv1は、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θv2は、右端の水平角度である。
 次に、位置決定部122は、移動量θshiftを用いて、以下の式(2)により、表示領域31の中心0を表示画像111の中心0´に移動させた後の表示領域31の左端の水平角度θv1_shift´と右端の水平角度θv2_shift´を求める。
Figure JPOXMLDOC01-appb-M000002
 式(2)によれば、水平角度θv1_shift´と水平角度θv2_shift´は、-180°から180°までの範囲を超えないように求められる。
 なお、上述したように、表示画像111は、表示領域31の中心0を表示画像111の中心0´に移動させた後、表示領域31のサイズを動画コンテンツのサイズに変換したものと等価である。従って、水平角度θV1およびθV2については、以下の式(3)が成立する。
Figure JPOXMLDOC01-appb-M000003
 位置決定部122は、以上のようにして移動量θshift、水平角度θv1_shift´、および水平角度θv2_shift´を求めた後、表示画像111におけるオブジェクトの水平角度を求める。具体的には、位置決定部122は、以下の式(4)により、移動量θshiftを用いて、表示領域31の中心Cを表示画像111の中心C´に移動させた後のオブジェクト#iの水平角度θAi_shiftを求める。
Figure JPOXMLDOC01-appb-M000004
 式(4)において、θAiは、オブジェクト#iのオブジェクト位置情報のうちの水平角度である。また、式(4)によれば、水平角度θAi_shiftは、-180°から180°までの範囲を超えないように求められる。
 次に、オブジェクト#iが表示領域31内に存在する場合、即ちθv2_shif´<θAi_shift<θv1_shift´である場合、位置決定部122は、以下の式(5)により、表示画像111におけるオブジェクト#iの水平角度θA1´を求める。
Figure JPOXMLDOC01-appb-M000005
 式(5)によれば、表示領域31のサイズと表示画像111のサイズの比に応じて、表示画像111におけるオブジェクト#iの位置と表示画像111の中心C´との距離を拡大することにより、水平角度θA1´が求められる。
 一方、オブジェクト#iが表示領域31内に存在しない場合、即ち、-180°≦θAi_shift≦θv2_shift´、または、θv1_shift´≦θAi_shift≦180°である場合、位置決定部122は、以下の式(6)により、表示画像111におけるオブジェクト#iの水平角度θAi´を求める。
Figure JPOXMLDOC01-appb-M000006
 式(6)によれば、図26に示すように、オブジェクト#iが表示領域31の右側の位置151に存在する(-180°≦θAi_shift≦θv2_shift´)場合、角度R1と角度R2の比に応じて水平角度θAi_shiftを拡大することにより、水平角度θAi´が求められる。なお、角度R1は、表示画像111の右端から視聴者153の真後ろの位置154までの角度であり、角度R2は、中心の移動後の表示領域31の右端から位置154までの角度である。
 また、式(6)によれば、オブジェクト#iが表示領域31の左側の位置155に存在する(θv1_shift´≦θAi_shift≦180°)場合、角度R3と角度R4の比に応じて水平角度θAi_shiftを拡大することにより、水平角度θAi´が求められる。なお、角度R3は、表示画像111の左端から位置154までの角度であり、角度R4は、中心の移動後の表示領域31の左端から位置154までの角度である。
 また、位置決定部122は、水平角度θAi´と同様に、垂直角度γAi´を求める。即ち、以下の式(7)により、表示領域31の中心Cを表示画像111の中心C´に移動させるときの垂直方向の移動量γshiftを算出する。
Figure JPOXMLDOC01-appb-M000007
 式(7)において、γv1´は、表示領域31の表示領域画枠サイズ情報のうちの上端の垂直角度であり、γV2´は、下端の垂直角度である。また、γv1は、コンテンツ画枠サイズ情報のうちの上端の垂直角度であり、γv2は、下端の垂直角度である。
 次に、位置決定部122は、移動量γshiftを用いて、以下の式(8)により、表示領域31の中心Cを表示画像111の中心C´に移動させた後の表示領域31の上端の垂直角度γv1_shift´と下端の垂直角度γv2_shift´を求める。
Figure JPOXMLDOC01-appb-M000008
 式(8)によれば、垂直角度γv1_shift´と垂直角度γv2_shift´は、-90°から90°までの範囲を超えないように求められる。
 位置決定部122は、以上のようにして移動量γshift、垂直角度γv1_shift´、および垂直角度γv2_shift´を求めた後、表示画像111におけるオブジェクトの位置を求める。具体的には、位置決定部122は、以下の式(9)により、移動量γshiftを用いて、表示領域31の中心Cを表示画像111の中心C´に移動させた後のオブジェクト#iの垂直角度γAi_shiftを求める。
Figure JPOXMLDOC01-appb-M000009
 式(9)において、γAiは、オブジェクト#iのオブジェクト位置情報のうちの垂直角度である。また、式(9)によれば、垂直角度γAi_shiftは、-90°から90°までの範囲を超えないように求められる。
 次に、位置決定部122は、以下の式(10)により、表示画像111におけるオブジェクト#iの垂直角度γA1´を求める。
Figure JPOXMLDOC01-appb-M000010
 また、位置決定部122は、表示画像111におけるオブジェクト#iの距離rA1´を、オブジェクト#iのオブジェクト位置情報のうちの距離rA1に決定する。位置決定部122は、以上のようにして求められるオブジェクト#iの水平角度θAi´、垂直角度γA1´、および距離rA1を、オブジェクト#iの位置として、音声合成処理部123に供給する。
 図27は、水平角度θAiと水平角度θAi´の関係を表す図である。
 図27のグラフにおいて、横軸は、水平角度θAiを表し、縦軸は、水平角度θAi´を表す。
 図27に示すように、θV2´<θAi<θV1´である場合、水平角度θAiは、移動量θshiftだけ移動され、拡大されることにより、水平角度θAi´になる。また、-180°≦θAi≦θv2´、または、θv1´≦θAi≦180°である場合、水平角度θAiは、移動量θshiftだけ移動され、縮小されることにより、水平角度θAi´になる。
 (ストリーミング再生部の処理の説明)
 図28は、図23のストリーミング再生部120のストリーミング再生処理を説明するフローチャートである。
 図28のステップS131において、ストリーミング再生部120のMPD取得部91は、Webサーバ12からMPDファイルを取得し、MPD処理部121に供給する。
 ステップS132において、MPD処理部121は、MPD取得部91から供給されるMPDファイルから、画像用の「AdaptationSet」に記述されるコンテンツ画枠サイズ情報とタイル位置情報を取得する。MPD処理部121は、画枠サイズ情報を位置決定部122に供給し、タイル位置情報を画像選択部98に供給する。また、MPD処理部121は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部93に供給する。
 ステップS133において、メタファイル取得部93は、MPD処理部121から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ12に要求し、取得する。メタファイル取得部93は、音声メタファイルに含まれるオブジェクト位置情報を位置決定部122に供給する。
 ステップS134において、位置決定部122は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定する位置決定処理を行う。この位置決定処理の詳細は、後述する図29を参照して説明する。
 ステップS135において、MPD処理部121は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部95に供給する。
 ステップS136において、音声ファイル取得部95は、MPD処理部121から供給されるURL等の情報に基づいて、そのURLで特定される全てのオブジェクトの音声ファイルをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部96に供給する。
 ステップS137乃至S140の処理は、図14のステップS36乃至S39の処理と同様であるので、説明は省略する。
 ステップS141において、音声合成処理部123は、位置決定部122から供給されるオブジェクトの位置に基づいて、音声復号処理部96から供給されるオブジェクト単位の音声データを合成し、出力する。
 ステップS142において、画像合成処理部124は、画像復号処理部100から供給されるタイル単位の画像データを合成する。
 ステップS143において、画像合成処理部124は、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換し、表示画像を生成する。そして、画像合成処理部124は、表示画像を出力し、処理を終了する。
 図29は、図28のステップS134の位置決定処理の詳細を説明するフローチャートである。この位置決定処理は、例えば、オブジェクトごとに行われる。
 図29のステップS151において、位置決定部122は、表示画像における水平角度θAi´を推定する水平角度θAi´推定処理を行う。この水平角度θAi´推定処理の詳細は、後述する図30を参照して説明する。
 ステップS152において、位置決定部122は、表示画像における垂直角度γAi´を推定する垂直角度γAi´推定処理を行う。この垂直角度γAi´推定処理の詳細は、水平方向が垂直方向に代わる点を除いて、ステップS151の水平角度θAi´推定処理と同様であるので、詳細な説明は省略する。
 ステップS153において、位置決定部122は、表示画像における距離rAi´を、メタファイル取得部93から供給されるオブジェクト位置情報のうちの距離rAiに決定する。
 ステップS154において、位置決定部122は、水平角度θAi´、垂直角度γAi´、および距離rAiを、オブジェクト#iの位置として音声合成処理部123に出力する。そして、処理は、図28のステップS134に戻り、ステップS135に進む。
 図30は、図29のステップS151の水平角度θAi´推定処理の詳細を説明するフローチャートである。
 図30のステップS171において、位置決定部122は、メタファイル取得部93から供給されるオブジェクト位置情報のうちの水平角度θAiを取得する。
 ステップS172において、位置決定部122は、MPD処理部121から供給されるコンテンツ画枠サイズ情報と、ユーザにより指定される表示領域画枠サイズ情報を取得する。
 ステップS173において、位置決定部122は、コンテンツ画枠サイズ情報と表示領域画枠サイズ情報に基づいて、上述した式(1)により、移動量θshiftを算出する。
 ステップS174において、位置決定部122は、移動量θshiftと表示領域画枠サイズを用いて、上述した式(2)により、水平角度θv1_shift´およびθv2_shift´を算出する。
 ステップS175において、位置決定部122は、水平角度θAiと移動量θshiftを用いて、上述した式(4)により、水平角度θAi_shiftを求める。
 ステップS176において、位置決定部122は、オブジェクト#iが表示領域31内に存在する(オブジェクト#iの水平角度が表示領域31の両端の水平角度の間である)かどうか、即ちθv2_shift´<θAi_shift<θv1_shift´であるかどうかを判定する。
 ステップS176でオブジェクト#iが表示領域31内に存在すると判定された場合、即ちθv2_shift´<θAi_shift<θv1_shift´である場合、処理はステップS177に進む。ステップS177において、位置決定部122は、コンテンツ画枠サイズ情報、水平角度θv1_shift´およびθv2_shift´、並びに水平角度θAi_shiftに基づいて、上述した式(5)により水平角度θA1´を算出する。
 一方、ステップS176でオブジェクト#iが表示領域31内に存在しないと判定された場合、即ち、-180°≦θAi_shift≦θv2_shift´、または、θv1_shift´≦θAi_shift≦180°である場合、処理はステップS178に進む。ステップS178において、位置決定部122は、コンテンツ画枠サイズ情報、水平角度θv1_shift´またはθv2_shift´、および水平角度θAi_shiftに基づいて、上述した式(6)により水平角度θAi´を算出する。
 ステップS177またはステップS178の処理後、処理は、図29のステップS151に戻り、処理はステップS152に進む。
 なお、第2の例では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。
 また、第2の例において、全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。
 さらに、上述した説明では、音声データは、オブジェクト単位の音声データのみであったが、音声データには、チャンネルオーディオの音声データ、HOA(Higher-Order Ambisonics)オーディオの音声データ、SAOC(Spatial Audio Object Coding)の音声データ、音声データのメタデータ(scene情報、動的・静的metadata)などが含まれるようにしてもよい。この場合、例えば、サブサンプルとして、各オブジェクトの符号化データだけでなく、これらのデータの符号化データも配置される。
 <第1実施の形態>
 (3Dオーディオファイルフォーマットの概要)
 本開示を適用した第1実施の形態を説明する前に、まず、図31を参照して、MP4の3Dオーディオファイルフォーマットのトラックの概要を説明する。
 MP4ファイルでは、トラックごとに、動画コンテンツのコーデック情報やファイル内の位置を示す位置情報を管理することができる。MP4の3Dオーディオファイルフォーマットでは、3Dオーディオ(Channel audio/Object audio/HOA audio/metadata)のオーディオストリーム(ES(Elementary Stream))の全てが、サンプル(フレーム)単位で1つのトラックとして記録される。また、3Dオーディオのコーデック情報(Profile/level/audio configuration)が、サンプルエントリ(sample entry)として格納される。
 3Dオーディオを構成するChannel audioは、チャンネル単位の音声データであり、Object audioは、オブジェクト単位の音声データであり、HOA audioは、球状の音声データであり、metadataは、Channel audio/Object audio/HOA audioのメタデータである。ここでは、Object audioは、オブジェクト単位の音声データであるものとするが、SAOCの音声データであってもよい。
 (moovボックスの構造)
 図32は、MP4ファイルのmoovボックスの構造を示す図である。
 図32に示すように、MP4ファイルでは、画像データと音声データが異なるトラックとして記録される。図32では、音声データのトラックの詳細は記述していないが、画像データのトラックと同様である。sample entryは、moovボックス内のstsdボックスに配置されるsample descriptionに含まれる。
 ところで、放送やローカルストレージ再生では、Webサーバ側が、すべてのオーディオストリームを送出し、動画再生端末(クライアント)側は、すべてのオーディオストリーム(stream)をパースしながら、必要な3Dオーディオのオーディオストリームを復号(decode)し、出力(rendering)する。ビットレート(Bitrate)が高い場合や、ローカルストレージの読み込みのrateに制約がある場合、必要な3Dオーディオのオーディオストリームのみを取得することにより、decode処理の負荷を軽減することが望まれている。
 また、ストリーム再生では、動画再生端末(クライアント)側で、必要な3Dオーディオの符号化データだけを取得することにより、再生環境に最適な符号化速度のオーディオストリームを取得可能にすることが望まれている。
 従って、本開示では、3Dオーディオの符号化データを種類に応じてトラックに分割して音声ファイルに配置することにより、所定の種類の符号化データのみを効率良く取得可能にする。これにより、放送やローカルストレージ再生では、システムの負荷を軽減することができる。また、ストリーム再生では、帯域に応じて、必要な3Dオーディオの符号化データの最も品質の高いものを再生することができる。さらに、音声ファイル内の3Dオーディオのオーディオストリームの位置情報をサブセグメントのトラック単位で記録すれば済むので、オブジェクト単位の符号化データがサブサンプルに配置される場合に比べて、位置情報の情報量を削減することができる。
 (トラックの概要)
 図33は、本開示を適用した第1実施の形態におけるトラックの概要を説明する図である。
 図33に示すように、第1実施の形態では、3Dオーディオを構成するChannel audio/Object audio/HOA audio/metadataが、それぞれ、異なるトラック(Channel audio track/Object audio track(s)/HOA audio track/Object metadata track)のオーディオストリームとされる。object metadata trackには、オーディオメタデータのオーディオストリームが配置される。
 また、3Dオーディオ全体に関する情報を配置するためのトラックとして、ベーストラック(Base Track)が設けられる。図33のベーストラックには、3Dオーディオ全体に関する情報がサンプルエントリに配置されるが、サンプルとしては何も配置されない。また、Base track,Channel audio track,Object audio track(s),HOA audio track、およびObject metadata trackは、同一の音声ファイル(3dauio.mp4)として記録される。
 Track Referenceは、例えばtrackボックスに配置され、対応するトラックの他のトラックとの参照関係を表す。具体的には、Track Referenceは、参照関係にある他のトラックのトラックに固有のID(以下、トラックIDという)を表す。図33の例では、Base track,Channel audio track,HOA audio track,Object metadata track、Object audio track(s)のトラックIDが、1,2,3,4,10...となっている。また、Base trackのTrack Referenceは2,3,4,10...であり、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)のTrack Referenceは、Base trackのトラックIDである1である。
 従って、Base trackと、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)とは、参照関係にある。即ち、Base trackは、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)の再生時に参照される。
 (ベーストラックのサンプルエントリのシンタクスの例)
 図34は、図33のベーストラックのサンプルエントリのシンタクスの例を示す図である。
 図34のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、3Dオーディオ全体に関する情報として、それぞれ、3Dオーディオのオーディオストリーム全体(通常の3Dオーディオのオーディオストリーム)のconfig情報、profile情報、level情報を表す。また、図34のwidthとheightは、3Dオーディオ全体に関する情報として、それぞれ、動画コンテンツの水平方向の画素数、垂直方向の画素数を表す。theta1,theta2,gamma1、およびgamma2は、3Dオーディオ全体に関する情報として、それぞれ、動画コンテンツの画枠サイズ情報のうちの画枠の左端の水平角度θv1、右端の水平角度θv2、画枠の上端の垂直角度γv1、下端の垂直角度γv2を表す。
 (チャンネルオーディオトラックのサンプルエントリのシンタクスの例)
 図35は、図33のチャンネルオーディオトラック(Channel audio track)のサンプルエントリのシンタクスの例を示す図である。
 図35のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、Channel Audioのconfig情報、profile情報、level情報を表す。
 (オブジェクトオーディオトラックのサンプルエントリのシンタクスの例)
 図36は、図33のオブジェクトオーディオトラック(Object audio track)のサンプルエントリのシンタクスの例を示す図である。
 図36のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、オブジェクトオーディオトラックに含まれる1以上のObject audioのconfig情報、profile情報、level情報を表す。object_is_fixedは、オブジェクトオーディオトラックに含まれる1以上のObject audioのオブジェクトが固定されているかどうかを表す。object_is_fixedが1である場合、オブジェクトが固定されていることを表し、0である場合、オブジェクトが移動することを表す。mpegh3daConfigは、オブジェクトオーディオトラックに含まれる1以上のObject audioのオブジェクトの識別情報のconfigを表す。
 また、objectTheta1/objectTheta2/objectGamma1/objectGamma2/objectRengthは、オブジェクトオーディオトラックに含まれる1以上のObject audioのオブジェクト情報を表す。このオブジェクト情報は、Object_is_fixed=1の時に有効な情報である。
 maxobjectTheta1,maxobjectTheta2,maxobjectGamma1,maxobjectGamma2/、およびmaxobjectRengthは、オブジェクトオーディオトラックに含まれる1以上のObject audioのオブジェクトが移動する場合のオブジェクト情報の最大値を表す。
 (HOAオーディオトラックのサンプルエントリのシンタクスの例)
 図37は、図33のHOAオーディオトラック(HOA audio track)のサンプルエントリのシンタクスの例を示す図である。
 図37のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、HOA audioのconfig情報、profile情報、level情報を表す。
 (オブジェクトメタデータトラックのサンプルエントリのシンタクスの例)
 図38は、図33のオブジェクトメタデータトラック(Object metadata track)のサンプルエントリのシンタクスの例を示す図である。
 図38のconfigurationVersionは、metadataのconfig情報を表す。
 (3Dオーディオの音声ファイルのセグメント構造の第1の例)
 図39は、本開示を適用した第1実施の形態における3Dオーディオの音声ファイルのセグメント構造の第1の例を示す図である。
 図39のセグメント構造では、Initial segmentが、ftypボックスとmoovボックスにより構成される。moovボックスには、音声ファイルに含まれるトラックごとにtrak boxが配置される。また、moovボックスには、各トラックのトラックIDと、media segment内のssixボックスで用いられるlevelとの対応関係を表す情報などを含むmvexボックスが配置される。
 また、media segmentは、sidxボックス、ssixボックス、および、1以上のsubsegmentにより構成される。sidxボックスには、各subsegmentの音声ファイル内の位置を示す位置情報が配置される。ssixボックスには、mdatボックスに配置される各レベルのオーディオストリームの位置情報が含まれる。なお、レベルは、トラックに対応するものである。また、最初のトラックの位置情報は、moofボックスと最初のトラックのオーディオストリームからなるデータの位置情報である。
 subsegmentは、任意の時間長ごとに設けられ、subsegmentには、全てのトラックに共通の1組のmoofボックスとmdatボックスのペアが設けられる。mdatボックスには、全てのtrackのオーディオストリームが、任意の時間長分だけまとめて配置され、moofボックスには、そのオーディオストリームの管理情報が配置される。mdatボックスに配置される各trackのオーディオストリームは、track毎に連続している。
 図39の例では、トラックIDが1であるTrack1はbase Trackであり、トラックIDが2乃至NであるTrack2乃至trackNは、それぞれ、Channel Audio Track,Object audio track(s), HOA audio track, object metadata trackである。このことは、後述する図40においても同様である。
 (3Dオーディオの音声ファイルのセグメント構造の第2の例)
 図40は、本開示を適用した第1実施の形態における3Dオーディオの音声ファイルのセグメント構造の第2の例を示す図である。
 図40のセグメント構造は、トラックごとにmoofボックスとmdatボックスが設けられる点が、図39のセグメント構造と異なっている。
 即ち、図40のInitial segmentは、図39のInitial segmentと同様である。また、図40のmedia segmentは、図39のmedia segmentと同様に、sidxボックス、ssixボックス、および、1以上のsubsegmentにより構成される。sidxボックスには、図39のsidxボックスと同様に、各subsegmentの位置情報が配置される。ssixボックスには、moofボックスとmdatボックスからなる各レベルのデータの位置情報が含まれる。
 subsegmentは、任意の時間長ごとに設けられ、subsegmentには、トラックごとにmoofボックスとmdatボックスのペアが設けられる。即ち、各トラックのmdatボックスには、そのトラックのオーディオストリームが、任意の時間長分だけまとめて配置(インターリーブ格納)され、moofボックスには、そのオーディオストリームの管理情報が配置される。
 図39および図40に示すように、各トラックのオーディオストリームは、任意の時間長分まとめて配置されるため、サンプル単位でまとめて配置される場合に比べて、HTTP等を介したオーディオストリームの取得効率が改善する。
 (mvexボックスの記述例)
 図41は、図39および図40のmvexボックスに配置されるlevel assignmentボックスの記述例を示す図である。
 level assignmentボックスは、各トラックのトラックIDとssixボックスで用いられるレベル(level)を対応付けるボックスである。図41の例では、トラックIDが1であるベーストラックがレベル0に対応付けられ、トラックIDが2であるチャンネルオーディオトラックがレベル1に対応付けられている。また、トラックIDが3であるHOAオーディオトラックがレベル2に対応付けられ、トラックIDが4であるオブジェクトメタデータトラックがレベル3に対応付けられている。さらに、トラックIDが10であるオブジェクトオーディオトラックがレベル4に対応付けられている。
 (MPDファイルの記述例)
 図42は、本開示を適用した第1実施の形態におけるMPDファイルの記述例を示す図である。
 図42に示すように、MPDファイルには、3Dオーディオの音声ファイル(3daudio.mp4)のセグメントを管理する「Representation」、そのセグメントに含まれるトラックを管理する「SubRepresentation」等が記述される。
 「Representation」と「SubRepresentation」には、対応するセグメントまたはトラックのcodecの種類を、3D audio file formatで定義されるコードで表す「codecs」が含まれる。また、「Representation」には、「id」、「associationId」、および「assciationType」が含まれる。
 「id」は、それを含む「Representation」のIDである。「associationId」は、対応するトラックと他のトラックとの参照関係を表す情報であり、参照トラックの「id」である。「assciationType」は、参照トラックとの参照関係(依存関係)の意味を表すコードであり、例えばMP4のtrack referenceの値と同じものが用いられる。
 また、「SubRepresentation」には、対応するトラックと対応するレベルを表す値としてlevel assignmentボックスで設定されている値である「level」が含まれる。「SubRepresentation」には、参照関係を有する(依存する)他のトラック(以下、参照トラックという)に対応するレベルを表す値である「dependencyLevel」が含まれる。
 さらに、「SubRepresentation」には、3Dオーディオの選択に必要な情報として、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>が含まれる。
 また、Object audio trackの「SubRepresentation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。このθ,γ,rは、「SubRepresentation」に対応するオブジェクトが固定されている場合、それぞれ、オブジェクト位置情報のうちの水平角度、垂直角度、距離である。一方、オブジェクトが移動する場合、このθ,γ,rは、それぞれ、オブジェクト位置情報の最大値のうちの水平角度の最大値、垂直角度の最大値、距離の最大値である。
 図43は、図42のEssential Propertyの定義を示す図である。
 図43の左上側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のAudioTypeの定義を示している。AudioTypeは、対応するトラックの3Dオーディオの種類を表す。
 図43の例では、AudioTypeが1である場合、対応するトラックの音声データが、3DオーディオのうちのChannel audioであることを表し、AudioTypeが2である場合、対応するトラックの音声データが、HOA audioであることを表す。また、AudioTypeが3である場合、対応するトラックの音声データが、Object audioであることを表し、AudioTypeが4である場合、対応するトラックの音声データが、metadataであることを表す。
 また、図43の右側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のcontentkindの定義を示している。contentkindは、対応する音声の内容を表す。図43の例では、例えば、contentkindが3である場合、対応する音声が音楽(music)である。
 図43の左下に示すように、Priorityは23008-3で定義されているものであり、対応するObjectの処理優先度を表す。Priorityとしては、オーディオストリームの途中で変更されない場合にのみObjectの処理優先度を表す値が記述され、変更される場合には0が記述される。
 (情報処理システムの概要)
 図44は、本開示を適用した第1実施の形態における情報処理システムの概要を説明する図である。
 図44に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図44の情報処理システム140は、ファイル生成装置141と接続されるWebサーバ142と動画再生端末144が、インターネット13を介して接続されることにより構成される。
 情報処理システム140では、MPEG-DASHに準ずる方式で、Webサーバ142が、動画コンテンツのビデオストリームをタイル単位で動画再生端末144に配信(タイルドストリーミング)する。また、情報処理システム140では、Webサーバ142が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioのオーディオストリームを動画再生端末144に配信する。
 情報処理システム140のファイル生成装置141は、音声ファイル生成部56が第1実施の形態における音声ファイルを生成し、MPD生成部57が第1実施の形態におけるMPDファイルを生成する点等を除いて、図11のファイル生成装置11と同様である。
 具体的には、ファイル生成装置141は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置141は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置141は、その結果得られる各タイルの画像ファイルをWebサーバ142にアップロードする。
 また、ファイル生成装置141は、動画コンテンツの3Dオーディオを取得し、3Dオーディオの種類(Channel audio/Object audio/HOA audio/metadata)ごとに符号化してオーディオストリームを生成する。ファイル生成装置141は、オーディオストリームに対して、3Dオーディオの種類ごとにトラックを割り当てる。ファイル生成装置141は、各トラックのオーディオストリームがサブセグメント単位で配置される図39または図40のセグメント構造の音声ファイルを生成し、Webサーバ142にアップロードする。
 ファイル生成装置141は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置141は、MPDファイルをWebサーバ142にアップロードする。
 Webサーバ142は、ファイル生成装置141からアップロードされた画像ファイル、音声ファイル、およびMPDファイルを格納する。
 図44の例では、Webサーバ142には、タイル#1の複数のセグメントの画像ファイルからなるセグメント群と、タイル#2の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ142には、3Dオーディオの音声ファイルからなるセグメント群が格納されている。
 Webサーバ142は、動画再生端末144からの要求に応じて、格納している画像ファイル、音声ファイル、MPDファイル等を動画再生端末144に送信する。
 動画再生端末144は、制御用ソフトウエア161、動画再生ソフトウエア162、アクセス用ソフトウエア163などを実行する。
 制御用ソフトウエア161は、Webサーバ142からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア161は、動画再生端末144にWebサーバ142からMPDファイルを取得させる。
 また、制御用ソフトウエア161は、動画再生ソフトウエア162から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア161は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア163に指令する。
 制御用ソフトウエア161は、Object audioを再生対象とする場合、音声ファイル内の画枠サイズ情報の送信要求をアクセス用ソフトウエア163に指令する。また、制御用ソフトウエア161は、metadataのオーディオストリームの送信要求をアクセス用ソフトウエア163に指令する。制御用ソフトウエア161は、その指令に応じてWebサーバ142から送信されてくる画枠サイズ情報およびmetadataのオーディオストリームに含まれるオブジェクト位置情報、並びに、表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア161は、そのオブジェクトのオーディオストリームの送信要求をアクセス用ソフトウエア163に指令する。
 また、制御用ソフトウエア161は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioのオーディオストリームの送信要求をアクセス用ソフトウエア163に指令する。
 動画再生ソフトウエア162は、Webサーバ142から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア162は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア161に指示する。また、動画再生ソフトウエア162は、その指示に応じてWebサーバ142から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア162は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア162は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。
 アクセス用ソフトウエア163は、HTTPを用いたインターネット13を介したWebサーバ142との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア163は、制御用ソフトウエア161の指令に応じて、画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームの送信要求を、動画再生端末144に送信させる。また、アクセス用ソフトウエア163は、その送信要求に応じて、Webサーバ142から送信されてくる画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームを動画再生端末144に受信させる。
 (ファイル生成装置の構成例)
 図45は、図44のファイル生成装置141の構成例を示すブロック図である。
 図45に示す構成のうち、図11の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図45のファイル生成装置141の構成は、音声符号化処理部55、音声ファイル生成部56、MPD生成部57、サーバアップロード処理部58の代わりに、音声符号化処理部171、音声ファイル生成部172、MPD生成部173、サーバアップロード処理部174が設けられる点が、図11のファイル生成装置11の構成と異なる。
 具体的には、ファイル生成装置141の音声符号化処理部171は、外部から入力される動画コンテンツの3Dオーディオを種類(Channel audio/Object audio/HOA audio/metadata)ごとに符号化し、オーディオストリームを生成する。音声符号化処理部171は、3Dオーディオの種類ごとのオーディオストリームを音声ファイル生成部172に供給する。
 音声ファイル生成部172は、音声符号化処理部171から供給されるオーディオストリームに対して、3Dオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部172は、各トラックのオーディオストリームがサブセグメント単位で配置される図39または図40のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部172は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部172は、生成された音声ファイルをMPD生成部173に供給する。
 MPD生成部173は、画像ファイル生成部53から供給される各タイルの画像ファイルを格納するWebサーバ142のURL等を決定する。また、MPD生成部173は、音声ファイル生成部172から供給される音声ファイルを格納するWebサーバ142のURL等を決定する。
 MPD生成部173は、画像情報生成部54から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部173は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。
 MPD生成部173は、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部173は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Sub Representation」に配置する。MPD生成部173は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび音声ファイルをサーバアップロード処理部174に供給する。
 サーバアップロード処理部174は、MPD生成部173から供給される各タイルの画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ142にアップロードする。
 (ファイル生成装置の処理の説明)
 図46は、図45のファイル生成装置141のファイル生成処理を説明するフローチャートである。
 図46のステップS191乃至S195の処理は、図12のステップS11乃至S15の処理と同様であるので、説明は省略する。
 ステップS196において、音声符号化処理部171は、外部から入力される動画コンテンツの3Dオーディオを種類(Channel audio/Object audio/HOA audio/metadata)ごとに符号化し、オーディオストリームを生成する。音声符号化処理部171は、3Dオーディオの種類ごとのオーディオストリームを音声ファイル生成部172に供給する。
 ステップS197において、音声ファイル生成部172は、音声符号化処理部171から供給されるオーディオストリームに対して、3Dオーディオの種類ごとにトラックを割り当てる。
 ステップS198において、音声ファイル生成部172は、各トラックのオーディオストリームがサブセグメント単位で配置される図39または図40のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部172は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部172は、生成された音声ファイルをMPD生成部173に供給する。
 ステップS199において、MPD生成部173は、画像情報生成部54から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部173は、画像ファイル、音声ファイル、およびMPDファイルをサーバアップロード処理部174に供給する。
 ステップS200において、サーバアップロード処理部174は、MPD生成部173から供給される画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ142にアップロードする。そして、処理は終了する。
 (動画再生端末の機能的構成例)
 図47は、図44の動画再生端末144が制御用ソフトウエア161、動画再生ソフトウエア162、およびアクセス用ソフトウエア163を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
 図47に示す構成のうち、図13の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図47のストリーミング再生部190の構成は、MPD処理部92、音声選択部94、音声ファイル取得部95、音声復号処理部96、音声合成処理部97の代わりに、MPD処理部191、音声選択部193、音声ファイル取得部192、音声復号処理部194、音声合成処理部195が設けられる点、および、メタファイル取得部93が設けられない点が、図13のストリーミング再生部90の構成と異なる。
 ストリーミング再生部190は、選択されたオブジェクトの再生対象の音声データを取得する方法等が異なる点等を除いて、図13のストリーミング再生部90と同様である。
 具体的には、ストリーミング再生部190のMPD処理部191は、MPD取得部91から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部192に供給する。
 MPD処理部191は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部191は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
 音声ファイル取得部192は、Object audioを再生対象とする場合、MPD処理部191から供給されるURL等の情報に基づいて、そのURLで特定される音声ファイル内のBase trackのInitial SegmentをWebサーバ142に要求し、取得する。
 また、音声ファイル取得部192は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のobject metadata trackのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部192は、object metadata trackのオーディオストリームに含まれるオブジェクト位置情報、Base trackのInitial Segmentに含まれる画枠サイズ情報、および音声ファイルのURL等の情報を音声選択部193に供給する。
 また、Channel audioを再生対象とする場合、音声ファイル取得部192は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のChannel audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部192は、取得されたChannel audio trackのオーディオストリームを音声復号処理部194に供給する。
 HOA audioを再生対象とする場合、音声ファイル取得部192は、Channel audioを再生対象とする場合と同様の処理を行う。その結果、HOA audio trackのオーディオストリームが音声復号処理部194に供給される。
 なお、Object audio,Channel audio、およびHOA audioのいずれを再生対象とするかは、例えば、ユーザからの指令により決定される。
 音声選択部193は、音声ファイル取得部192から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部193は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部193は、音声ファイル取得部192から供給される音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内の、選択されたオブジェクトのObject audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声選択部193は、取得されたObject audio trackのオーディオストリームを音声復号処理部194に供給する。
 音声復号処理部194は、音声ファイル取得部192から供給されるChannel audio trackまたはHOA audio trackのオーディオストリーム、もしくは、音声選択部193からObject audio trackのオーディオストリームを復号する。音声復号処理部194は、復号の結果得られるChannel audio,HOA audio、またはObject audioを音声合成処理部195に供給する。
 音声合成処理部195は、音声復号処理部194から供給されるObject audio,Channel audio、またはHOA audioを必要に応じて合成し、出力する。
 (動画再生端末の処理の説明)
 図48は、図47のストリーミング再生部190のチャンネルオーディオ再生処理を説明するフローチャートである。このチャンネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。
 図48のステップS221において、MPD処理部191は、MPD取得部91から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「SubRepresentation」を特定する。また、MPD処理部191は、MPDファイルから、再生対象のセグメントの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部192に供給する。
 ステップS222において、MPD処理部191は、ステップS221で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部192に供給する。
 ステップS223において、音声ファイル取得部192は、MPD処理部191から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ142に要求し、取得する。
 ステップS224において、音声ファイル取得部192は、Initial Segment内のLevel assignmentボックスから、channel audio trackと参照トラックであるBase trackのレベルに対応するトラックIDを取得する。
 ステップS225において、音声ファイル取得部192は、channel audio trackと参照トラックであるBase trackのトラックIDに基づいて、Initial Segmentの、そのトラックIDに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部192は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部194に供給する。
 ステップS226において、音声ファイル取得部192は、MPD処理部191から供給されるURL等の情報に基づいて、Webサーバ142に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。
 ステップS227において、音声ファイル取得部192は、ステップS223で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのchannel audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。
 ステップS228において、音声ファイル取得部192は、channel audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部192は、取得されたchannel audio trackのオーディオストリームを音声復号処理部194に供給する。
 ステップS229において、音声復号処理部194は、音声ファイル取得部192から供給されるコーデック情報に基づいて、channel audio trackのオーディオストリームに対して復号を行う。音声ファイル取得部192は、その結果得られるchannel audioを音声合成処理部195に供給する。
 ステップS230において、音声合成処理部195は、channel audioを出力し、処理を終了する。
 なお、図示は省略するが、ストリーミング再生部190によるHOA audioを再生するHOAオーディオ再生処理は、図48のチャンネルオーディオ再生処理と同様に行われる。
 図49は、図47のストリーミング再生部190のオブジェクト特定処理を説明するフローチャートである。このオブジェクト特定処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。
 図49のステップS251において、音声選択部193は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。
 ステップS252において、MPD処理部191は、MPD取得部91から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「SubRepresentation」を特定する。また、MPD処理部191は、MPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部192に供給する。
 ステップS253において、MPD処理部191は、ステップS252で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部192に供給する。
 ステップS254において、音声ファイル取得部192は、MPD処理部191から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ142に要求し、取得する。
 ステップS255において、音声ファイル取得部192は、Initial Segment内のLevel assignmentボックスから、object metadata trackと参照トラックであるBase trackのレベルに対応するトラックIDを取得する。
 ステップS256において、音声ファイル取得部192は、object metadata trackと参照トラックであるBase trackのトラックIDに基づいて、Initial Segmentの、そのトラックIDに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部192は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声選択部193に供給する。また、音声ファイル取得部192は、Initial Segmentを音声選択部193に供給する。
 ステップS257において、音声ファイル取得部192は、MPD処理部191から供給されるURL等の情報に基づいて、Webサーバ142に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。
 ステップS258において、音声ファイル取得部192は、ステップS257で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのobject metadata trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。音声ファイル取得部192は、sidxボックスとssixボックスを音声選択部193に供給する。
 ステップS259において、音声ファイル取得部192は、object metadata trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ142に要求し、取得する。
 ステップS260において、音声ファイル取得部192は、ステップS256で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップS259で取得されたobject metadata trackのオーディオストリームを復号する。音声ファイル取得部192は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部193に供給する。また、音声ファイル取得部192は、MPD処理部191から供給される音声ファイルのURL等の情報を音声選択部193に供給する。
 ステップS261において、音声選択部193は、音声ファイル取得部192から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。そして、処理は終了する。
 図50は、図49のオブジェクト特定処理後にストリーミング再生部190により行われる特定オブジェクトオーディオ再生処理を説明するフローチャートである。
 図50のステップS281において、MPD処理部191は、MPD取得部91から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「SubRepresentation」を特定する。
 ステップS282において、MPD処理部191は、ステップS281で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部192に供給する。
 ステップS283において、音声ファイル取得部192は、Initial Segment内のLevel assignmentボックスから、object audio trackと参照トラックであるBase trackのレベルに対応するトラックIDを取得し、音声選択部193に供給する。
 ステップS284において、音声選択部193は、object audio trackと参照トラックであるBase trackのトラックIDに基づいて、Initial Segmentの、そのトラックIDに対応するtrakボックス内のサンプルエントリを取得する。このInitial Segmentは、図49のステップS256で音声ファイル取得部192から供給されたものである。音声選択部193は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部194に供給する。
 ステップS285において、音声選択部193は、ステップS258で音声ファイル取得部192から供給されるsidxボックスとssixボックスから、再生対象のサブセグメントの選択されたオブジェクトのobject audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。
 ステップS286において、音声選択部193は、object audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置される、選択されたオブジェクトのobject audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声選択部193は、取得されたobject audio trackのオーディオストリームを音声復号処理部194に供給する。
 ステップS287において、音声復号処理部194は、音声選択部193から供給されるコーデック情報に基づいて、object audio trackのオーディオストリームを復号する。音声選択部193は、復号の結果得られるobject audioを音声合成処理部195に供給する。
 ステップS288において、音声合成処理部195は、音声復号処理部194から供給されるobject audioを合成して出力する。そして、処理は終了する。
 以上のように、情報処理システム140では、ファイル生成装置141が、3Dオーディオが3Dオーディオの種類に応じて複数のトラックに分割されて配置される音声ファイルを生成する。そして、動画再生端末144は、その音声ファイルのうちの所定の種類の3Dオーディオのトラックのオーディオストリームを取得する。従って、動画再生端末144は、所定の種類の3Dオーディオのオーディオストリームを効率良く取得することができる。よって、ファイル生成装置141は、所定の種類の3Dオーディオのオーディオストリームの取得効率を向上させる音声ファイルを生成しているといえる。
 <第2実施の形態>
 (トラックの概要)
 図51は、本開示を適用した第2実施の形態におけるトラックの概要を説明する図である。
 図51に示すように、第2実施の形態では、Base trackのサンプルとして、ベースサンプルが記録される点が、第1実施の形態と異なる。ベースサンプルは、Channel audio/Object audio/HOA audio/metadataのsampleヘの参照情報により構成される。ベースサンプルに含まれる参照情報により参照されるChannel audio/Object audio/HOA audio/metadataのサンプルを、参照情報の配置順に配置することにより、トラックに分割される前の3Dオーディオのオーディオストリームを生成することができる。
 (ベーストラックのサンプルエントリのシンタクスの例)
 図52は、図51のベーストラックのサンプルエントリのシンタクスの例を示す図である。
 図52のシンタクスは、サンプルエントリが、図33のBase trackのサンプルエントリであることを表す「mha1」の代わりに、図51のBase trackのサンプルエントリであることを表す「mha2」が記述される点を除いて、図34のシンタクスと同一である。
 (ベースサンプルの構造例)
 図53は、ベースサンプルの構造例を示す図である。
 図53に示すように、ベースサンプルは、サンプル単位のChannel audio/Object audio/HOA audio/metadataのextractorをサブサンプルとして構成される。 Channel audio/Object audio/HOA audio/metadataのextractorは、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeにより構成される。このoffsetは、ベースサンプルのサブサンプルのファイル内の位置と、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサンプルのファイル内の位置の差分である。即ち、offsetは、それを含むベースサンプルのサブサンプルに対応する他のトラックのサンプルのファイル内の位置を示す情報である。
 図54は、ベースサンプルのシンタクスの例を示す図である。
 図54に示すように、ベースサンプルでは、Object audio trackのサンプルにおいてobject audioが格納されるSCEエレメントが、extractorを格納するEXTエレメントに入れ換えられる。
 図55は、extractorのデータの例を示す図である。
 図55に示すように、extractorには、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeが記述される。
 なお、AVC(Advanced Video Coding)/HEVC(High Efficiency Video Coding)で定義している、NAL(Network Abstraction Layer)の構造を活用して、audio elementaryやconfig情報を格納できるように拡張してもよい。
 第2実施の形態における情報処理システムおよび情報処理システムによる処理は、第1実施の形態と同様であるので、説明は省略する。
 <第3実施の形態>
 (トラックの概要)
 図56は、本開示を適用した第3実施の形態におけるトラックの概要を説明する図である。
 図56に示すように、第3実施の形態では、Base trackのサンプルとして、ベースサンプルとmetadataのサンプルが記録され、Object metadata trackが設けられない点が、第1実施の形態と異なっている。
 第3実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第1実施の形態と同様であるので、説明は省略する。
 <第4実施の形態>
 (トラックの概要)
 図57は、本開示を適用した第4実施の形態におけるトラックの概要を説明する図である。
 図57に示すように、第4実施の形態では、各トラックが異なるファイル(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)として記録される点が、第1実施の形態と異なっている。この場合、所望のトラックのファイルを、HTTPを介して取得することにより、所望のトラックの音声データのみを取得することができる。従って、HTTPを介した所望のトラックの音声データの取得を効率的に行うことができる。
 (MPDファイルの記述例)
 図58は、本開示を適用した第4実施の形態におけるMPDファイルの記述例を示す図である。
 図58に示すように、MPDファイルには、3Dオーディオの各音声ファイル(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)のセグメントを管理する「Representation等が記述される。
 「Representation」には、「codecs」、「id」、「associationId」、および「assciationType」が含まれる。また、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackの「Representation」には、「<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>」も含まれる。さらに、Object audio track(s) の「Representation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。
 (情報処理システムの概要)
 図59は、本開示を適用した第4実施の形態における情報処理システムの概要を説明する図である。
 図59に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図59の情報処理システム210は、ファイル生成装置211と接続されるWebサーバ212と動画再生端末214が、インターネット13を介して接続されることにより構成される。
 情報処理システム210では、MPEG-DASHに準ずる方式で、Webサーバ212が、動画コンテンツのビデオストリームをタイル単位で動画再生端末214に配信(タイルドストリーミング)する。また、情報処理システム210では、Webサーバ212が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioの音声ファイルを動画再生端末214に配信する。
 具体的には、ファイル生成装置211は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置211は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置211は、その結果得られる各タイルの画像ファイルをWebサーバ212にアップロードする。
 また、ファイル生成装置211は、動画コンテンツの3Dオーディオを取得し、3Dオーディオの種類(Channel audio/Object audio/HOA audio/metadata)ごとに符号化してオーディオストリームを生成する。ファイル生成装置211は、オーディオストリームに対して、3Dオーディオの種類ごとにトラックを割り当てる。ファイル生成装置211は、トラックごとに、オーディオストリームを配置した音声ファイルを生成し、Webサーバ212にアップロードする。
 ファイル生成装置211は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置211は、MPDファイルをWebサーバ212にアップロードする。
 Webサーバ212は、ファイル生成装置211からアップロードされた画像ファイル、3Dオーディオの種類ごとの音声ファイル、およびMPDファイルを格納する。
 図59の例では、Webサーバ212には、タイル#1の複数のセグメントの画像ファイルからなるセグメント群と、タイル#2の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ212には、Channel audioの音声ファイルからなるセグメント群と、オブジェクト#1の音声ファイルからなるセグメント群とが格納されている。
 Webサーバ212は、動画再生端末214からの要求に応じて、格納している画像ファイル、3Dオーディオの所定の種類の音声ファイル、MPDファイル等を動画再生端末214に送信する。
 動画再生端末214は、制御用ソフトウエア221、動画再生ソフトウエア222、アクセス用ソフトウエア223などを実行する。
 制御用ソフトウエア221は、Webサーバ212からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア221は、動画再生端末214にWebサーバ212からMPDファイルを取得させる。
 また、制御用ソフトウエア221は、動画再生ソフトウエア222から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア221は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア223に指令する。
 制御用ソフトウエア221は、Object audioを再生対象とする場合、Base trackの音声ファイルの送信要求をアクセス用ソフトウエア223に指令する。また、制御用ソフトウエア221は、Object metadata trackの音声ファイルの送信要求をアクセス用ソフトウエア223に指令する。制御用ソフトウエア221は、その指令に応じてWebサーバ142から送信されてくるBase trackの音声ファイル内の画枠サイズ情報とmetadataの音声ファイルに含まれるオブジェクト位置情報を取得する。制御用ソフトウエア221は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア221は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア223に指令する。
 また、制御用ソフトウエア221は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioの音声ファイルの送信要求をアクセス用ソフトウエア223に指令する。
 動画再生ソフトウエア222は、Webサーバ212から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア222は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア221に指示する。また、動画再生ソフトウエア222は、その指示に応じてWebサーバ212から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア222は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア222は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。
 アクセス用ソフトウエア223は、HTTPを用いたインターネット13を介したWebサーバ212との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア223は、制御用ソフトウエア221の指令に応じて、画像ファイルや所定の音声ファイルの送信要求を、動画再生端末214に送信させる。また、アクセス用ソフトウエア223は、その送信要求に応じて、Webサーバ212から送信されてくる画像ファイルや所定の音声ファイルを動画再生端末214に受信させる。
 (ファイル生成装置の構成例)
 図60は、図59のファイル生成装置211の構成例を示すブロック図である。
 図60に示す構成のうち、図45の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図60のファイル生成装置211の構成は、音声ファイル生成部172、MPD生成部173、サーバアップロード処理部174の代わりに、音声ファイル生成部241、MPD生成部242、サーバアップロード処理部243が設けられる点が、図45のファイル生成装置141の構成と異なる。
 具体的には、ファイル生成装置211の音声ファイル生成部241は、音声符号化処理部171から供給されるオーディオストリームに対して、3Dオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部241は、トラックごとに、オーディオストリームを配置した音声ファイルを生成する。このとき、音声ファイル生成部241は、外部から入力される画枠サイズ情報を、Base trackの音声ファイルのサンプルエントリに格納する。音声ファイル生成部241は、3Dオーディオの種類ごとの音声ファイルをMPD生成部242に供給する。
 MPD生成部242は、画像ファイル生成部53から供給される各タイルの画像ファイルを格納するWebサーバ212のURL等を決定する。また、MPD生成部242は、3Dオーディオの種類ごとに、音声ファイル生成部241から供給される音声ファイルを格納するWebサーバ212のURL等を決定する。
 MPD生成部242は、画像情報生成部54から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部242は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。
 MPD生成部242は、3Dオーディオの種類ごとに、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部242は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Representation」に配置する。MPD生成部242は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび3Dオーディオの種類ごとの音声ファイルを、サーバアップロード処理部243に供給する。
 サーバアップロード処理部243は、MPD生成部242から供給される各タイルの画像ファイル、3Dオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ212にアップロードする。
 (ファイル生成装置の処理の説明)
 図61は、図60のファイル生成装置211のファイル生成処理を説明するフローチャートである。
 図61のステップS301乃至S307の処理は、図46のステップS191乃至S197の処理と同様であるので、説明は省略する。
 ステップS308において、音声ファイル生成部241は、トラックごとに、オーディオストリームが配置された音声ファイルを生成する。このとき、音声ファイル生成部241は、外部から入力される画枠サイズ情報をBase trackの音声ファイル内のサンプルエントリに格納する。音声ファイル生成部241は、生成された3Dオーディオの種類ごとの音声ファイルをMPD生成部242に供給する。
 ステップS309において、MPD生成部242は、画像情報生成部54から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部242は、画像ファイル、3Dオーディオの種類ごとの音声ファイル、およびMPDファイルをサーバアップロード処理部243に供給する。
 ステップS310において、サーバアップロード処理部243は、MPD生成部242から供給される画像ファイル、3Dオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ212にアップロードする。そして、処理は終了する。
 (動画再生端末の機能的構成例)
 図62は、図59の動画再生端末214が制御用ソフトウエア221、動画再生ソフトウエア222、およびアクセス用ソフトウエア223を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
 図62に示す構成のうち、図13や図47の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図62のストリーミング再生部260の構成は、MPD処理部92、メタファイル取得部93、音声選択部94、音声ファイル取得部95、音声復号処理部96、音声合成処理部97の代わりに、MPD処理部261、メタファイル取得部262、音声選択部263、音声ファイル取得部264、音声復号処理部194、音声合成処理部195が設けられる点が、図13のストリーミング再生部90の構成と異なる。
 具体的には、ストリーミング再生部260のMPD処理部261は、Object audioを再生対象とする場合、MPD取得部91から供給されるMPDファイルから、再生対象のセグメントのobject metadata trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部262に供給する。また、MPD処理部261は、MPDファイルから、音声選択部263から要求されるオブジェクトのobject audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、音声選択部263に供給する。さらに、MPD処理部261は、MPDファイルから、再生対象のセグメントのBase trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部262に供給する。
 また、MPD処理部261は、Channel audioまたはHOA audioを再生対象とする場合、MPDファイルから、再生対象のセグメントのChannel audio trackまたはHOA audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出する。MPD処理部261は、そのURL等の情報を、音声選択部263を介して音声ファイル取得部264に供給する。
 なお、Object audio,Channel audio、およびHOA audioのいずれを再生対象とするかは、例えば、ユーザからの指令により決定される。
 MPD処理部261は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部98に供給する。MPD処理部261は、MPDファイルから、画像選択部98から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部98に供給する。
 メタファイル取得部262は、MPD処理部261から供給されるURL等の情報に基づいて、そのURLで特定されるobject metadata trackの音声ファイルをWebサーバ212に要求し、取得する。メタファイル取得部93は、object metadata trackの音声ファイルに含まれるオブジェクト位置情報を音声選択部263に供給する。
 また、メタファイル取得部262は、音声ファイルのURL等の情報に基づいて、そのURLで特定されるBase trackの音声ファイルのInitial SegmentをWebサーバ142に要求し、取得する。メタファイル取得部262は、Initial Segmentのサンプルエントリに含まれる画枠サイズ情報を音声選択部263に供給する。
 音声選択部263は、メタファイル取得部262から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部263は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部263は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部261に要求する。音声選択部263は、その要求に応じてMPD処理部261から供給されるURL等の情報を音声ファイル取得部264に供給する。
 音声ファイル取得部264は、音声選択部263から供給される、object audio track,Channel audio track、またはHOA audio trackの音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイルのオーディオストリームをWebサーバ12に要求し、取得する。音声ファイル取得部95は、取得されたオブジェクト単位の音声ファイルを音声復号処理部194に供給する。
 (動画再生端末の処理の説明)
 図63は、図62のストリーミング再生部260のチャンネルオーディオ再生処理を説明するフローチャートである。このチャンネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。
 図63のステップS331において、MPD処理部261は、MPD取得部91から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「Representation」を特定する。また、MPD処理部261は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのChannel audio trackの音声ファイルのURL等の情報を抽出し、音声選択部263を介して音声ファイル取得部264に供給する。
 ステップS332において、MPD処理部261は、ステップS331で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部261は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部263を介して音声ファイル取得部264に供給する。
 ステップS333において、音声ファイル取得部264は、音声選択部263から供給されるURL等の情報に基づいて、再生対象のセグメントのChannel audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ212に要求し、取得する。
 ステップS334において、音声ファイル取得部264は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部264は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部194に供給する。
 ステップS335において、音声ファイル取得部264は、音声選択部263から供給されるURL等の情報に基づいて、Webサーバ142に要求し、再生対象のセグメントのChannel audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。
 ステップS336において、音声ファイル取得部264は、ステップS333で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。
 ステップS337において、音声選択部263は、ステップS337で取得された位置情報と再生対象のセグメントのchannel audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声選択部263は、取得されたchannel audio trackのオーディオストリームを音声復号処理部194に供給する。
 ステップS338において、音声復号処理部194は、音声ファイル取得部264から供給されるコーデック情報に基づいて、音声選択部263から供給されるchannel audio trackのオーディオストリームに対して復号を行う。音声選択部263は、その結果得られるchannel audioを音声合成処理部195に供給する。
 ステップS339において、音声合成処理部195は、channel audioを出力し、処理を終了する。
 なお、図示は省略するが、ストリーミング再生部260によるHOA audioを再生するHOAオーディオ再生処理は、図63のチャンネルオーディオ再生処理と同様に行われる。
 図64は、図62のストリーミング再生部260のオブジェクトオーディオ再生処理のを説明するフローチャートである。このオブジェクトオーディオ再生処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。
 図64のステップS351において、音声選択部263は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。
 ステップS352において、MPD処理部261は、MPD取得部91から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「Representation」を特定する。また、MPD処理部261は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報を抽出し、メタファイル取得部262に供給する。
 ステップS353において、MPD処理部261は、ステップS352で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部261は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、メタファイル取得部262に供給する。
 ステップS354において、メタファイル取得部262は、MPD処理部261から供給されるURL等の情報に基づいて、再生対象のセグメントのobject metadata trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ212に要求し、取得する。
 ステップS355において、メタファイル取得部262は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。メタファイル取得部262は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声ファイル取得部264に供給する。
 ステップS356において、メタファイル取得部262は、MPD処理部261から供給されるURL等の情報に基づいて、Webサーバ142に要求し、再生対象のセグメントのobject metadata trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。
 ステップS357において、メタファイル取得部262は、ステップS356で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。
 ステップS358において、メタファイル取得部262は、ステップS357で取得された位置情報と再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ142に要求し、取得する。
 ステップS359において、メタファイル取得部262は、ステップS355で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップS358で取得されたobject metadata trackのオーディオストリームを復号する。メタファイル取得部262は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部263に供給する。
 ステップS360において、音声選択部263は、メタファイル取得部262から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。音声選択部263は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部261に要求する。
 ステップS361において、MPD処理部261は、MPD取得部91から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「Representation」を特定する。また、MPD処理部261は、その「Representation」に含まれる「Segment」に記述される、再生対象のセグメントの選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報を抽出し、音声選択部263を介して音声ファイル取得部264に供給する。
 ステップS362において、MPD処理部261は、ステップS361で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部261は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部263を介して音声ファイル取得部264に供給する。
 ステップS363において、音声ファイル取得部264は、音声選択部263から供給されるURL等の情報に基づいて、再生対象のセグメントのobject audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ212に要求し、取得する。
 ステップS364において、音声ファイル取得部264は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部264は、そのサンプルエントリに含まれるコーデック情報を音声復号処理部194に供給する。
 ステップS365において、音声ファイル取得部264は、音声選択部263から供給されるURL等の情報に基づいて、Webサーバ142に要求し、再生対象のセグメントのobject audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。
 ステップS366において、音声ファイル取得部264は、ステップS365で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。
 ステップS367において、音声ファイル取得部264は、ステップS366で取得された位置情報と再生対象のセグメントのobject audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject audio trackのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部264は、取得されたobject audio trackのオーディオストリームを音声復号処理部194に供給する。
 ステップS368およびS369の処理は、図50のステップS287およびS288の処理と同様であるので、説明は省略する。
 なお、上述した説明では、音声選択部263は、表示領域内の全てのオブジェクトを選択したが、表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択したり、所定の内容の音声のオブジェクトのみを選択するようにしてもよい。
 図65は、音声選択部263が表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。
 図65のオブジェクトオーディオ再生処理は、図64のステップS360の代わりに図65のステップS390の処理が行われる点を除いて、図64のオブジェクトオーディオ再生処理と同様である。即ち、図65のステップS381乃至S389およびS391乃至S399の処理は、図64のステップS351乃至S359およびS361乃至S369の処理と同様である。従って、以下では、ステップS390の処理についてのみ説明する。
 図65のステップS390において、音声ファイル取得部264は、画枠サイズ情報、オブジェクト位置情報、表示領域、および、各オブジェクトのpriorityに基づいて、表示領域内の処理優先度が高いオブジェクトを選択する。具体的には、音声ファイル取得部264は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部264は、特性されたオブジェクトのうちの、priorityが所定値以上であるオブジェクトを選択する。なお、priorityは、例えば、MPD処理部261がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部263は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部261に要求する。
 図66は、音声選択部263が表示領域内のオブジェクトのうちの、処理優先度が高い所定の内容の音声のオブジェクトのみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。
 図66のオブジェクトオーディオ再生処理は、図64のステップS360の代わりに図66のステップS420の処理が行われる点を除いて、図64のオブジェクトオーディオ再生処理と同様である。即ち、図66のステップS381乃至S389およびS391乃至S399の処理は、図64のステップS411乃至S419およびS421乃至S429の処理と同様である。従って、以下では、ステップS420の処理についてのみ説明する。
 図66のステップS420において、音声ファイル取得部264は、画枠サイズ情報、オブジェクト位置情報、表示領域、並びに、各オブジェクトのpriorityおよびcontentkindに基づいて、表示領域内の処理優先度が高い所定の内容の音声のオブジェクトを選択する。具体的には、音声ファイル取得部264は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部264は、特性されたオブジェクトのうちの、priorityが所定値以上であり、かつ、contentkindが所定値であるオブジェクトを選択する。
 なお、priorityおよびcontentkindは、例えば、MPD処理部261がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部263は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部261に要求する。
 図67は、priority(プライオリティ)に基づいて選択されたオブジェクトの例を示す図である。
 図67の例では、オブジェクト#1(object1)乃至オブジェクト#4(object4)が、表示領域内のオブジェクトであり、表示領域内のオブジェクトのうちのpriorityが2以下であるオブジェクトが選択される。なお、priorityは、数字が小さいほど、処理優先度が高いものとする。また、図67において、丸付き数字は、対応するオブジェクトのpriorityの値を表している。
 図67の例では、オブジェクト#1乃至オブジェクト#4のpriorityが、それぞれ、1,2,3,4である場合、オブジェクト#1とオブジェクト#2が選択される。また、オブジェクト#1乃至オブジェクト#4のpriorityが、それぞれ、3,2,1,4に変更されると、オブジェクト#2とオブジェクト#3が選択される。さらに、オブジェクト#1乃至オブジェクト#4のpriorityが、それぞれ、3,4,1,2に変更されると、オブジェクト#3とオブジェクト#4が選択される。
 以上のように、表示領域内のオブジェクトのうちの、処理優先度の高いオブジェクトのobject audioのオーディオストリームのみを選択的に取得することで、Webサーバ142(212)と動画再生端末144(214)間の帯域を効率的に利用できる。contentkindに基づいてオブジェクトを選択する場合も同様である。
 <第5実施の形態>
 (トラックの概要)
 図68は、本開示を適用した第5実施の形態におけるトラックの概要を説明する図である。
 図68に示すように、第5実施の形態では、各トラックが異なるファイル(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)として記録される点が、第2実施の形態と異なっている。
 第5実施の形態における情報処理システムおよび情報処理システムによる処理は、第4実施の形態と同様であるので、説明は省略する。
 <第6実施の形態>
 (トラックの概要)
 図69は、本開示を適用した第6実施の形態におけるトラックの概要を説明する図である。
 図69に示すように、第6実施の形態では、各トラックが異なるファイル(3da_basemeta.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4)として記録される点が、第3実施の形態と異なっている。
 第6実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第4実施の形態と同様であるので、説明は省略する。
 なお、第1乃至第3実施の形態、第5実施の形態、および第6実施の形態においても、priorityやcontentkindに基づいて表示領域内のオブジェクトを選択することは可能である。
 また、第1乃至第6実施の形態において、ストリーミング再生部は、図23のストリーミング再生部120のように、表示領域外のオブジェクトのオーディオストリームも取得し、そのオブジェクトのobject audioも合成して出力するようにしてもよい。
 さらに、第1乃至第6実施の形態では、metadataからオブジェクト位置情報を取得したが、MPDファイルからオブジェクト位置情報を取得するようにしてもよい。
 <3Dオーディオの階層構造の説明>
 図70は、3Dオーディオの階層構造を示す図である。
 図70に示すように、3Dオーディオの音声データは、音声データごとに異なるオーディオエレメント(Element)とされる。オーディオエレメントのタイプとしては、SCE(Single Channel Element)とCPE(Channel Pair Element)がある。1チャンネル分の音声データのオーディオエレメントのタイプはSCEであり、2チャンネル分の音声データに対応するオーディオエレメントのタイプはCPEである。
 オーディオエレメントは、同一の音声の種類(Channel/Object/SAOC Objects/HOA)どうしでグループを形成する。グループタイプ(GroupType)としては、Channels,Objects,SAOC Objects,HOAなどがある。2以上のグループは、必要に応じて、switch Groupやgroup Presetを形成することができる。
 switch Groupは、排他的に再生されるグループを定義するものである。即ち、図70に示すように、英語(EN)用のObject audioのグループと、フランス語(FR)用のObject audioのグループが存在する場合、いずれか一方のグループのみが再生されるべきである。従って、グループIDが2である英語用のObject audioのグループと、グループIDが3であるフランス語用のObject audioのグループとから、switch Groupが形成される。これにより、英語用のObject audioとフランス語用のObject audioが排他的に再生される。
 一方、group Presetは、コンテンツ製作者が意図するグループの組み合わせを定義するものである。
 また、3Dオーディオのメタデータは、メタデータごとに異なるExtエレメント(Ext Element)とされる。Extエレメントのタイプとしては、Object Metadata,SAOC 3D Metadata,HOA Metadata,DRC Metadata,SpatialFrame,SaocFrameなどがある。Object MetadataのExtエレメントは、全てのObject audioのメタデータであり、SAOC 3D MetadaのExtエレメントは、全てのSAOC audioのメタデータである。また、HOA MetadataのExtエレメントは、全てのHOA audioのメタデータであり、DRC(Dinamic Range Control) MetadataのExtエレメントは、Object audio, SAOC audio、およびHOA audioの全てのメタデータである。
 以上のように、3Dオーディオのうちの音声データの分割単位としては、オーディオエレメント、グループタイプ、グループ、switch Group、およびgroup Presetがある。従って、音声データは、第1乃至第6実施の形態のようにグループタイプ(但し、object audioについてはオブジェクトごと)ごとにトラックに分割されるのではなく、オーディオエレメント、グループ、switch Group、またはgroup Presetごとに分割されるようにしてもよい。
 また、3Dオーディオのうちのメタデータの分割単位としては、Extエレメントのタイプ(ExtElementType)、または、そのメタデータに対応するオーディオエレメントがある。従って、メタデータは、第1乃至第6実施の形態のようにExtエレメントのタイプごとに分割されるのではなく、そのメタデータに対応するオーディオエレメントごとに分割されるようにしてもよい。
 なお、以下の説明では、音声データがオーディオエレメントごとに分割されるとともに、メタデータがExtエレメントのタイプごとに分割され、それぞれが異なるトラックのデータとして配置されるものとするが、他の単位で分割される場合も同様である。
 <Webサーバの処理の第1の例の説明>
 図71は、Webサーバ142(212)の処理の第1の例を説明する図である。
 図71の例では、ファイル生成装置141(211)からアップロードされる音声ファイルに対応する3Dオーディオが、5つのチャンネルのchannel audio、3つのオブジェクトのobject audio、および、そのobject audioのメタデータ(Object Metadata)からなる。
 そして、5つのチャンネルのchannel audioが、前方中央(FC)のチャンネルのchannel audio、前方左右(FL,FR)のチャンネルのchannel audio、および後方左右(RL,RR)のチャンネルのchannel audioに分割され、それぞれ異なるトラックのデータとして配置されている。また、各オブジェクトのobject audioが、それぞれ異なるトラックのデータとして配置されている。さらに、Object Metadataが、1つのトラックのデータとして配置されている。
 また、図71に示すように、3Dオーディオの各オーディオストリームは、config情報とフレーム(サンプル)単位のデータからなる。そして、図71の例では、音声ファイルのオーディオストリームは、5つのチャンネルのchannel audio、3つのオブジェクトのobject audio、およびObject Metadataのconfig情報がまとめて配置されるとともに、各フレームのデータがまとめて配置される。
 この場合、図71に示すように、Webサーバ142(212)は、ファイル生成装置141(211)からアップロードされた音声ファイルのオーディオストリームを、トラックごとに分割し、7つのトラックのオーディオストリームを生成する。具体的には、Webサーバ142(212)は、ssix boxなどの情報にしたがって、音声ファイルのオーディオストリームから、各トラックのconfig情報と音声データを抽出し、各トラックのオーディオストリームを生成する。各トラックのオーディオストリームは、そのトラックのconfig情報と各フレームの音声データからなる。
 図72は、Webサーバ142(212)のトラック分割処理を説明するフローチャートである。このトラック分割処理は、例えば、ファイル生成装置141(211)から音声ファイルがアップロードされたとき、開始される。
 図72のステップS441において、Webサーバ142(212)は、ファイル生成装置141からアップロードされた音声ファイルを格納する。
 ステップS442において、Webサーバ142(212)は、音声ファイルのssix boxなどの情報にしたがって、音声ファイルを構成するオーディオストリームをトラックごとに分割する。
 ステップS443において、Webサーバ142(212)は、各トラックのオーディオストリームを保持し、処理を終了する。このオーディオストリームは、動画再生端末144(214)の音声ファイル取得部192(264)から要求されたとき、Webサーバ142(212)から動画再生端末144(214)に送信される。
 <音声復号処理部の処理の第1の例の説明>
 図73は、Webサーバ142(212)の処理が図71および図72で説明した処理である場合の音声復号処理部194の処理の第1の例を説明する図である。
 図73の例では、Webサーバ142(212)は、図71に示した各トラックのオーディオストリームを保持している。また、再生対象のトラックが、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、1つ目のオブジェクトのobject audio、およびObject Metadataのトラックである。これらのことは、後述する図75においても同様である。
 この場合、音声ファイル取得部192(264)は、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、1つ目のオブジェクトのobject audio、およびObject Metadataのトラックのオーディオストリームを取得する。
 音声復号処理部194は、まず、音声ファイル取得部192(264)により取得されたObject Metadataのトラックのオーディオストリームから、1つ目のオブジェクトのobject audioのメタデータのオーディオストリームを抽出する。
 次に、図73に示すように、音声復号処理部194は、再生対象の音声のトラックのオーディオストリームと抽出されたメタデータのオーディオストリームとを合成する。具体的には、音声復号処理部194は、全てのオーディオストリームに含まれているConfig情報がまとめて配置されるとともに、各フレームのデータがまとめて配置されたオーディオストリームを生成する。そして、音声復号処理部194は、生成されたオーディオストリームを復号する。
 以上のように、再生対象のオーディオストリームが、1つのchannel audioのトラックのオーディオストリームのみではない場合、2以上のトラックのオーディオストリームが再生対象となるため、復号前にオーディオストリームが合成される。
 一方、再生対象のオーディオストリームが、1つのchannel audioのトラックのオーディオストリームのみである場合、オーディオストリームを合成する必要はない。従って、音声復号処理部194は、音声ファイル取得部192(264)により取得されたオーディオストリームをそのまま復号する。
 図74は、Webサーバ142(212)の処理が図71および図72で説明した処理である場合の音声復号処理部194の復号処理の第1の例の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが1つのchannel audioのトラックのみではない場合に行われる図48のステップS229および図50のS287の処理の少なくとも一方の処理である。
 図74のステップS461において、音声復号処理部194は、生成するオーディオストリームに含まれるエレメントの数を表す全エレメント数に0を設定する。ステップS462において、音声復号処理部194は、生成するオーディオストリームに含まれるエレメントのタイプを表す全エレメント種別情報を初期化(クリア)する。
 ステップS463において、音声復号処理部194は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップS464において、音声復号処理部194は、処理対象のトラックのオーディオストリーム等から、処理対象のトラックに含まれるエレメントの数とタイプを取得する。
 ステップS465において、音声復号処理部194は、取得されたエレメントの数を全エレメント数に加算する。ステップS466において、音声復号処理部194は、取得されたエレメントのタイプを、全エレメント種別情報に追加する。
 ステップS467において、音声復号処理部194は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップS467でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS463に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップS463乃至S467の処理が繰り返される。
 一方、ステップS467で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS468に進む。ステップS468において、音声復号処理部194は、全エレメント数と全エレメント種別情報を、生成するオーディオストリーム上の所定の位置に配置する。
 ステップS469において、音声復号処理部194は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップS470において、音声復号処理部194は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。
 ステップS471において、音声復号処理部194は、処理対象のトラックのオーディオストリームから処理対象のエレメントのConfig情報を取得し、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントのConfig情報は連続するように配置される。
 ステップS472において、音声復号処理部194は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップS472でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップS470に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップS470乃至S472の処理が繰り返される。
 一方、ステップS472で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップS473に進む。ステップS473において、音声復号処理部194は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップS473でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS469に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップS469乃至S473の処理が繰り返される。
 一方、ステップS473で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS474に進む。ステップS474において、音声復号処理部194は、処理対象のフレームを決定する。最初のステップS474の処理では、先頭のフレームが処理対象のフレームに決定され、2回目以降のステップS474の処理では、現在の処理対象のフレームの次のフレームが、新たな処理対象のフレームに決定される。
 ステップS475において、音声復号処理部194は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップS476において、音声復号処理部194は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。
 ステップS477において、音声復号処理部194は、処理対象のエレメントがEXTエレメントであるかどうかを判定する。ステップS477で処理対象のエレメントがEXTエレメントではないと判定された場合、処理はステップS478に進む。
 ステップS478において、音声復号処理部194は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの音声データを取得し、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。ステップS478の処理後、処理はステップS481に進む。
 一方、ステップS477で処理対象のエレメントがEXTエレメントであると判定された場合、処理はステップS479に進む。ステップS479において、音声復号処理部194は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの全てのオブジェクトのメタデータを取得する。
 ステップS480において、音声復号処理部194は、取得された全てのオブジェクトのメタデータのうちの再生対象のオブジェクトのメタデータを、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。ステップS480の処理後、処理はステップS481に進む。
 ステップS481において、音声復号処理部194は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップS481でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップS476に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップS476乃至S481の処理が繰り返される。
 一方、ステップS481で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップS482に進む。ステップS482において、音声復号処理部194は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップS482でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS475に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップS475乃至S482の処理が繰り返される。
 一方、ステップS482で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS483に進む。
 ステップS483において、音声復号処理部194は、全てのフレームを処理対象のフレームとしたかどうかを判定する。ステップS483でまだ全てのフレームを処理対象のフレームとしていないと判定された場合、処理はステップS474に戻り、全てのフレームを処理対象のフレームとするまで、ステップS474乃至S483の処理が繰り返される。
 一方、ステップS483で全てのフレームを処理対象のフレームとしたと判定された場合、処理はステップS484に進む。ステップS484において、音声復号処理部194は、生成されたオーディオストリームを復号する。即ち、音声復号処理部194は、全エレメント数、全エレメント種別情報、Config情報、および、音声データや再生対象のオブジェクトのメタデータが配置されたオーディオストリームを復号する。音声復号処理部194は、復号の結果得られる音声データ(Object audio,Channel audio,HOA audio)を音声合成処理部195に供給し、処理を終了する。
 <音声復号処理部の処理の第2の例の説明>
 図75は、Webサーバ142(212)の処理が図71および図72で説明した処理である場合の音声復号処理部194の処理の第2の例を説明する図である。
 図75に示すように、音声復号処理部194の処理の第2の例は、生成するオーディオストリーム上に、全てのトラックのオーディオストリームを配置し、再生対象ではないトラックのオーディオストリームとしては復号結果がゼロになるストリームまたはフラグ(以下、ゼロストリームという)を配置する点が、第1の例と異なる。
 具体的には、音声ファイル取得部192(264)は、Webサーバ142(212)に保持されている全てのトラックのオーディオストリームに含まれるConfig情報と、再生対象のトラックのオーディオストリームに含まれる各フレームのデータを取得する。
 音声復号処理部194は、図75に示すように、全てのトラックのConfig情報を、生成するオーディオストリーム上にまとめて配置する。また、音声復号処理部194は、再生対象のトラックの各フレームのデータと、再生対象ではないトラックの各フレームのデータとしてのゼロストリームとを、生成するオーディオストリーム上にまとめて配置する。
 以上のように、音声復号処理部194は、生成するオーディオストリームに、再生対象ではないトラックのオーディオストリームとしてゼロストリームを配置するので、再生対象ではないオブジェクトのオーディオストリームも存在する。従って、生成するオーディオストリーム内に再生対象ではないオブジェクトのメタデータを含ませることが可能になる。よって、音声復号処理部194は、Object Metadataのトラックのオーディオストリームから、再生対象のオブジェクトのメタデータのオーディオストリームを抽出する必要がなくなる。
 なお、再生対象ではないトラックのConfig情報としては、ゼロストリームが配置されるようにしてもよい。
 図76は、Webサーバ142(212)の処理が図71および図72で説明した処理である場合の音声復号処理部194の復号処理の第2の例の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが1つのchannel audioのトラックのみではない場合に行われる図48のステップS229および図50のS287の処理の少なくとも一方の処理である。
 図76のステップS501およびS502の処理は、図74のステップS461およびS462の処理と同様であるので、説明は省略する。
 ステップS503において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。
 ステップS504乃至ステップS506の処理は、ステップS464乃至S466の処理と同様であるので、説明は省略する。
 ステップS507において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックを、処理対象のトラックとしたかどうかを判定する。ステップS507でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS503に戻り、全てのトラックを処理対象のトラックとするまで、ステップS503乃至S507の処理が繰り返される。
 一方、ステップS507で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS508に進む。ステップS508において、音声復号処理部194は、全エレメント数と全エレメント種別情報を、生成するオーディオストリーム上の所定の位置に配置する。
 ステップS509において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップS510において、音声復号処理部194は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。
 ステップS511において、音声復号処理部194は、処理対象のトラックのオーディオストリームから処理対象のエレメントのConfig情報を取得し、生成するオーディオストリーム上に配置する。このとき、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントのConfig情報は連続するように配置される。
 ステップS512において、音声復号処理部194は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップS512でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップS510に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップS510乃至S512の処理が繰り返される。
 一方、ステップS512で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップS513に進む。ステップS513において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップS513でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS509に戻り、全てのトラックを処理対象のトラックとするまで、ステップS509乃至S513の処理が繰り返される。
 一方、ステップS513で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS514に進む。ステップS514において、音声復号処理部194は、処理対象のフレームを決定する。最初のステップS514の処理では、先頭のフレームが処理対象のフレームに決定され、2回目以降のステップS514の処理では、現在の処理対象のフレームの次のフレームが、新たな処理対象のフレームに決定される。
 ステップS515において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。
 ステップS516において、音声復号処理部194は、処理対象のトラックが再生対象のトラックであるかどうかを判定する。ステップS516で処理対象のトラックが再生対象のトラックであると判定された場合、ステップS517に進む。
 ステップS517において、音声復号処理部194は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。
 ステップS518において、音声復号処理部194は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの音声データを取得し、生成するオーディオストリーム上に配置する。このとき、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。
 ステップS519において、音声復号処理部194は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップS519でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップS517に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップS517乃至S519の処理が繰り返される。
 一方、ステップS519で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップS523に進む。
 また、ステップS516で処理対象のトラックが再生対象のトラックではないと判定された場合、処理はステップS520に進む。ステップS520において、音声復号処理部194は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。
 ステップS521において、音声復号処理部194は、生成するオーディオストリーム上に、処理対象のエレメントの処理対象のフレームのデータとしてゼロストリームを、配置する。このとき、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。
 ステップS522において、音声復号処理部194は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップS522でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップS520に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップS520乃至S522の処理が繰り返される。
 一方、ステップS522で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップS523に進む。
 ステップS523において、音声復号処理部194は、Webサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップS522でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップS515に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップS515乃至S523の処理が繰り返される。
 一方、ステップS523で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップS524に進む。
 ステップS524において、音声復号処理部194は、全てのフレームを処理対象のフレームとしたかどうかを判定する。ステップS524でまだ全てのフレームを処理対象のフレームとしていないと判定された場合、処理はステップS514に戻り、全てのフレームを処理対象のフレームとするまで、ステップS514乃至S524の処理が繰り返される。
 一方、ステップS524で全てのフレームを処理対象のフレームとしたと判定された場合、処理はステップS525に進む。ステップS525において、音声復号処理部194は、生成されたオーディオストリームを復号する。即ち、音声復号処理部194は、全エレメント数、全エレメント種別情報、並びにWebサーバ142(212)に保持されているオーディオストリームに対応する全てのトラックのConfig情報およびデータが配置されたオーディオストリームを復号する。音声復号処理部194は、復号の結果得られる音声データ(Object audio,Channel audio,HOA audio)を音声合成処理部195に供給し、処理を終了する。
 <Webサーバの処理の第2の例の説明>
 図77は、Webサーバ142(212)の処理の第2の例を説明する図である。
 図77のWebサーバ142(212)の処理の第2の例は、各オブジェクトのObject Metadataが、それぞれ異なるトラックのデータとして音声ファイルに配置される点を除いて、図71の第1の例と同一である。
 従って、図77に示すように、Webサーバ142(212)は、ファイル生成装置141(211)からアップロードされた音声ファイルのオーディオストリームを、トラックごとに分割し、9つのトラックのオーディオストリームを生成する。
 この場合のWebサーバ142(212)のトラック分割処理は、図72のトラック分割処理と同様であるので、説明は省略する。
 <音声復号処理部の処理の第3の例の説明>
 図78は、Webサーバ142(212)の処理が図77で説明した処理である場合の音声復号処理部194の処理を説明する図である。
 図78の例では、Webサーバ142(212)は、図77に示した各トラックのオーディオストリームを保持している。また、再生対象のトラックが、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、1つ目のオブジェクトのobject audio、および1つ目のオブジェクトのObject Metadataのトラックである。
 この場合、音声ファイル取得部192(264)は、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、1つ目のオブジェクトのobject audio、および1つ目のオブジェクトのObject Metadataのトラックのオーディオストリームを取得する。音声復号処理部194は、取得された再生対象のトラックのオーディオストリームを合成し、生成されたオーディオストリームを復号する。
 以上のように、Object Metadataが、オブジェクトごとに異なるトラックのデータとして配置される場合、音声復号処理部194は、再生対象のオブジェクトのObject Metadataのオーディオストリームを抽出する必要がない。従って、音声復号処理部194は、復号するオーディオストリームを容易に生成することができる。
 図79は、Webサーバ142(212)の処理が図77で説明した処理である場合の音声復号処理部194の復号処理の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが1つのchannel audioのトラックのみではない場合に行われる図48のステップS229および図50のS287の処理の少なくとも一方の処理である。
 図79の復号処理は、ステップS477,S479およびS480の処理が行われない点、および、ステップS478の処理で音声データだけでなくメタデータも配置される点を除いて、図74の復号処理と同様である。即ち、図79のステップS541乃至S556の処理は、図74のステップS461乃至S476と同様であり、図79のステップS557の処理では、ステップS478の処理と同様に、処理対象のエレメントの処理対象のフレームのデータが配置される。また、ステップS558乃至S561の処理は、図74のステップS481乃至S484の処理と同様である。
 なお、上述した説明では、動画再生端末144(214)が復号するオーディオストリームを生成したが、Webサーバ142(212)が、再生対象のトラックの組み合わせとして想定される組み合わせのオーディオストリームを生成するようにしてもよい。この場合、動画再生端末144(214)は、再生対象のトラックの組み合わせのオーディオストリームをWebサーバ142(212)から取得し、復号するだけで、再生対象のトラックの音声を再生することができる。
 また、音声復号処理部194は、Webサーバ142(212)から取得された再生対象のトラックのオーディオストリームを、トラックごとに復号するようにしてもよい。この場合、音声復号処理部194は、復号の結果得られる音声データとメタデータを合成する必要がある。
 <ベースサンプルのシンタクスの第2の例>
 (ベースサンプルに配置されるConfig情報のシンタクスの第2の例)
 図80は、ベースサンプルに配置されるConfig情報のシンタクスの第2の例を示す図である。
 図80の例では、Config情報として、ベースサンプルに配置されるエレメントの数(numElements)が記述される。また、ベースサンプルに配置される各エレメントのタイプ(usacElementType)として、Extエレメントを表す「ID_USAC_EXT」が記述されるとともに、各エレメントのExtエレメント用のConfig情報(mpegh3daExtElementCongfig)が記述される。
 図81は、図80のExtエレメント用のConfig情報(mpegh3daExtElementCongfig)のシンタクスの例を示す図である。
 図81に示すように、図80のExtエレメント用のConfig情報(mpegh3daExtElementCongfig)としては、ExtエレメントのタイプとしてExtractorを表す「ID_EXT_ELE_EXTRACTOR」が記述される。また、Extractor用のConfig情報(ExtractorConfig)が記述される。
 図82は、図81のExtractor用のConfig情報(ExtractorConfig)のシンタクスの例を示す図である。
 図82に示すように、図81のExtractor用のConfig情報(ExtractorConfig)としては、そのExtractorが参照するエレメントのタイプ(種別)(usac Element Type Extractor)が記述される。また、エレメントのタイプ(usac Element Type Extractor)がExtエレメントを表す「ID_USAC_EXT」である場合、そのExtエレメントのタイプ(usacExtElementTypeExtractor)が記述される。さらに、参照するエレメント(サブサンプル)のConfig情報のサイズ(size)(configLength)と位置(configOffset)が記述される。
 (ベースサンプルに配置されるフレーム単位のデータのシンタクスの第2の例)
 図83は、ベースサンプルに配置されるフレーム単位のデータのシンタクスの第2の例を示す図である。
 図83に示すように、ベースサンプルに配置されるフレーム単位のデータとしては、そのデータのエレメントであるExtエレメントのタイプとしてExtractorを表す「ID_EXT_ELE_EXTRACTOR」が記述される。また、Extractorのデータ(Extractor Metadata)が記述される。
 図84は、図83のExtractorのデータ(Extractor Metadata)のシンタクスの例を示す図である。
 図84に示すように、図83のExtractorのデータ(Extractor Metadata)としては、そのExtractorが参照するエレメントのデータのサイズ(elementLength)と位置(elementOffset)が記述される。
 <ベースサンプルのシンタクスの第3の例>
 (ベースサンプルに配置されるConfig情報のシンタクスの第3の例)
 図85は、ベースサンプルに配置されるConfig情報のシンタクスの第3の例を示す図である。
 図85の例では、Config情報として、ベースサンプルに配置されるエレメントの数(numElements)が記述される。また、Config情報を配置するサンプルがExtractorであるかどうかを示すExtractorフラグ(flag Extractor)として、Extractorであることを示す1が記述される。また、elementLengthPresentとして1が記述される。
 また、ベースサンプルに配置される各エレメントのタイプ(usacElementType)として、そのエレメントが参照するエレメントのタイプが記述される。エレメントのタイプ(usacElementType)がExtエレメントを表す「ID_USAC_EXT」である場合、Extエレメントのタイプ(usacExtElementType)が記述される。さらに、参照するエレメントのConfig情報のサイズ(size)(configLength)と位置(configOffset)が記述される。
 (ベースサンプルに配置されるフレーム単位のデータのシンタクスの第3の例)
 図86は、ベースサンプルに配置されるフレーム単位のデータのシンタクスの第3の例を示す図である。
 図86に示すように、ベースサンプルに配置されるフレーム単位のデータとしては、そのデータが参照するエレメントのデータのサイズ(elementLength)と位置(elementOffset)が記述される。
 <第7実施の形態>
 (オーディオストリームの構成例)
 図87は、本開示を適用した情報処理システムの第7実施の形態において音声ファイルに格納されるオーディオストリームの構成例を示す図である。
 図87に示すように、第7実施の形態では、音声ファイルには、各グループタイプ(但し、object audioについてはオブジェクトごと)の3Dオーディオのサンプル単位の符号化データが、サブサンプルとして配置されるオーディオストリーム(3D audio stream)が格納される。
 また、音声ファイルには、各グループタイプの3Dオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプを含むextractorを、サブサンプルとするヒントストリーム(3D audio hint stream)が格納される。extractorの構成は、上述した構成と同様であり、グループタイプがextractorの種別として記述される。
 (トラックの概要)
 図88は、第7実施の形態におけるトラックの概要を説明する図である。
 図88に示すように、第7実施の形態では、オーディオストリームとヒントストリームに異なるトラックが割り当てられる。オーディオストリームのトラックのTrack Referenceとしては、対応するヒントストリームのトラックのトラックID「2」が記述される。また、ヒントストリームのトラックのTrack Referenceとしては、対応するオーディオストリームのトラックのトラックID「1」が記述される。
 オーディオストリームのトラックのサンプルエントリのシンタクスは、図34に示したシンタクスであり、ヒントストリームのトラックのサンプルエントリのシンタクスは、図35乃至図38に示したシンタクスを含む。
 (ファイル生成装置の処理の説明)
 図89は、第7実施の形態におけるファイル生成装置のファイル生成処理を説明するフローチャートである。
 なお、第7実施の形態におけるファイル生成装置は、音声符号化処理部171と音声ファイル生成部172の処理が異なる点を除いて、図45のファイル生成装置141と同一である。従って、以下では、第7実施の形態におけるファイル生成装置、音声符号化処理部、音声ファイル生成部を、ファイル生成装置301、音声符号化処理部341、音声ファイル生成部342という。
 図89のステップS601乃至S605の処理は、図46のステップS191乃至S195の処理と同様であるので、説明は省略する。
 ステップS606において、音声符号化処理部341は、外部から入力される動画コンテンツの3Dオーディオをグループタイプごとに符号化し、図87のオーディオストリームを生成する。音声符号化処理部341は、生成されたオーディオストリームを音声ファイル生成部342に供給する。
 ステップS607において、音声ファイル生成部342は、音声符号化処理部341から供給されるオーディオストリームから、サブサンプル情報を取得する。サブサンプル情報とは、各グループタイプの3Dオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプである。
 ステップS608において、音声ファイル生成部342は、サブサンプル情報に基づいて、図87のヒントストリームを生成する。ステップS609において、音声ファイル生成部342は、オーディオストリームとヒントストリームを異なるトラックとして多重化し、音声ファイルを生成する。このとき、音声ファイル生成部342は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部342は、生成された音声ファイルをMPD生成部173に供給する。
 ステップS610およびS611の処理は、図46のステップS199およびS200の処理と同様であるので、説明は省略する。
 (動画再生端末の処理の説明)
 図90は、第7実施の形態における動画再生端末のストリーミング再生部のオーディオ再生処理を説明するフローチャートである。
 なお、第7実施の形態におけるストリーミング再生部は、MPD処理部191、音声ファイル取得部192、および音声復号処理部194の処理が異なる点、並びに、音声選択部193が設けられない点を除いて、図47のストリーミング再生部190と同一である。従って、以下では、第7実施の形態におけるストリーミング再生部、MPD処理部、音声ファイル取得部、および音声復号処理部を、ストリーミング再生部360、MPD処理部381、音声ファイル取得部382、および音声復号処理部383という。
 図90のステップS621において、ストリーミング再生部360のMPD処理部381は、MPD取得部91から供給されるMPDファイルを解析し、再生対象のセグメントの音声ファイルのURL等の情報を取得して、音声ファイル取得部382に供給する。
 ステップS622において、音声ファイル取得部382は、MPD処理部381から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバに要求し、取得する。
 ステップS623において、音声ファイル取得部382は、Initial Segment内のmoovボックスのヒントストリームのトラック(以下では、ヒントトラックという)のサンプルエントリから、参照トラックであるオーディオストリームのトラックのトラックIDを取得する。
 ステップS624において、音声ファイル取得部382は、MPD処理部381から供給されるURL等の情報に基づいて、再生対象のセグメントのmedia segmentの先頭からsidxボックスとssixボックスをWebサーバに要求し、取得する。
 ステップS625において、音声ファイル取得部382は、ステップS624で取得されたsidxボックスとssixボックスから、ヒントトラックの位置情報を取得する。
 ステップS626において、音声ファイル取得部382は、ステップS625で取得されたヒントトラックの位置情報に基づいて、ヒントストリームをWebサーバに要求し、取得する。そして、音声ファイル取得部382は、ヒントストリームから、再生対象の3Dオーディオのグループタイプのextractorを取得する。なお、再生対象の3Dオーディオがobject audioである場合、再生対象とするオブジェクトは、画枠サイズ情報とオブジェクト位置情報とに基づいて選択される。
 ステップS627において、音声ファイル取得部382は、ステップS624で取得されたsidxボックスとssixボックスから、参照トラックの位置情報を取得する。ステップS628において、音声ファイル取得部382は、ステップS627で取得された参照トラックの位置情報と、取得されたextractorに含まれるサブサンプル情報とに基づいて、再生対象の3Dオーディオのグループタイプのオーディオストリームの位置情報を決定する。
 ステップS629において、音声ファイル取得部382は、ステップS627で決定された位置情報に基づいて、再生対象の3DオーディオのグループタイプのオーディオストリームをWebサーバに要求し、取得する。音声ファイル取得部382は、取得されたオーディオストリームを音声復号処理部383に供給する。
 ステップS630において、音声復号処理部383は、音声ファイル取得部382から供給されるオーディオストリームを復号し、その結果得られる音声データを音声合成処理部195に供給する。
 ステップS631において、音声合成処理部195は、音声データを出力し、処理を終了する。
 なお、第7実施の形態では、オーディオストリームのトラックとヒントトラックが同一の音声ファイルに格納されるようにしたが、異なるファイルに格納されるようにしてもよい。
 <第8実施の形態>
 (トラックの概要)
 図91は、本開示を適用した情報処理システムの第8実施の形態におけるトラックの概要を説明する図である。
 第8実施の形態の音声ファイルは、格納されるヒントストリームがグループタイプごとのストリームである点が、第7実施の形態の音声ファイルと異なる。即ち、第8実施の形態のヒントストリームは、グループタイプごとに生成され、各ヒントストリームには、各グループタイプの3Dオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプを含むextractorが、サンプルとして配置される。なお、3Dオーディオに複数のオブジェクトのobject audioが含まれる場合、extractorは、オブジェクトごとにサブサンプルとして配置される。
 また、図91に示すように、第8実施の形態では、オーディオストリームと各ヒントストリームに異なるトラックが割り当てられる。オーディオストリームのトラックは、図88のオーディオストリームのトラックと同一であるため、説明は省略する。
 グループタイプ「Channels」、「Objects」、「HOA」、「metadata」のヒントトラックのTrack Referenceとしては、対応するオーディオストリームのトラックのトラックID「1」が記述される。
 グループタイプ「Channels」、「Objects」、「HOA」、および「metadata」のヒントトラックのサンプルエントリのシンタクスは、それぞれ、サンプルエントリの種別を表す情報を除いて、図35乃至図38に示したシンタクスと同一である。グループタイプ「Channels」、「Objects」、「HOA」、および「metadata」のヒントトラックのサンプルエントリの種別を表す情報は、図35乃至図38の情報の数字の1が2に代わったものであり、この2は、ヒントトラックのサンプルエントリであることを表す。
(音声ファイルの構成例)
 図92は、音声ファイルの構成例を示す図である。
 図92に示すように、音声ファイルには、図91に示した全てのトラックが格納される。即ち、音声ファイルには、オーディオストリームと各グループタイプのヒントストリームが格納される。
 第8実施の形態におけるファイル生成装置のファイル生成処理は、図87のヒントストリームの代わりに、グループタイプごとのヒントストリームが生成される点を除いて、図89のファイル生成処理と同様である。
 また、第8実施の形態における動画再生端末のストリーミング再生部のオーディオ再生処理は、ステップS623において、参照トラックのトラックIDだけでなく、再生対象のグループタイプのヒントトラックのトラックIDを取得する点、ステップS625において再生対象のグループタイプのヒントトラックの位置情報を取得する点、およびステップS626において再生対象のグループタイプのヒントストリームを取得する点を除いて、図90のオーディオ再生処理と同様である。
 なお、第8実施の形態では、オーディオストリームのトラックとヒントトラックが同一の音声ファイルに格納されるようにしたが、異なるファイルに格納されるようにしてもよい。
 例えば、図93に示すように、オーディオストリームのトラックが1つの音声ファイル(3D audio stream MP4 File)に格納され、ヒントトラックが1つの音声ファイル(3D audio hint stream MP4 File)に格納されるようにしてもよい。また、図94に示すように、ヒントトラックは、複数の音声ファイルに分割して格納されるようにしてもよい。図94の例では、各ヒントトラックが異なる音声ファイルに格納されている。
 また、第8実施の形態では、グループタイプがobjectsである場合であってもグループタイプごとにヒントストリームが生成されたが、グループタイプがobjectsである場合、オブジェクトごとにヒントストリームが生成されるようにしてもよい。この場合、各オブジェクトのヒントストリームに対して異なるトラックが割り当てられる。
 以上のように、第7および第8実施の形態の音声ファイルでは、全ての3Dオーディオのオーディオストリームが1つのトラックとして格納される。従って、動画再生端末は、そのトラックを取得することにより、全ての3Dオーディオのオーディオストリームを再生することができる。
 また、第7および第8実施の形態の音声ファイルでは、ヒントストリームが格納される。従って、動画再生端末は、サブサンプルと、サブサンプルのサイズや位置とを対応付けたテーブルが記述されるmoofボックスを参照せずに、全ての3Dオーディオのオーディオストリームのうちの、所望のグループタイプのオーディオストリームのみを取得し、再生することができる。
 さらに、第7および第8実施の形態の音声ファイルでは、全ての3Dオーディオのオーディオストリームとヒントストリームを格納するだけで、動画再生端末にグループタイプごとにオーディオストリームを取得させることができる。従って、グループタイプごとのオーディオストリームの取得を可能にするために、放送やローカルストレージの用途として生成された全ての3Dオーディオのオーディオストリームとは別に、グループタイプごとの3Dオーディオのオーディオストリームを用意する必要がない。
 なお、第7および第8実施の形態では、グループタイプごとにextractorが生成されたが、extractorの生成単位は、オーディオエレメント、グループ、switch Group、およびgroup Presetであってもよい。
 extractorの生成単位がグループである場合、第8実施の形態の各ヒントトラックのサンプルエントリには、対応するグループに関する情報が含まれる。グループに関する情報は、グループのID、グループに分類されるエレメントのデータの内容を表す情報等により構成される。グループがswitch Groupを形成する場合、そのグループのヒントトラックのサンプルエントリには、そのswitch Groupに関する情報も含まれる。switch Groupに関する情報は、switch GroupのID、switch Groupを形成するグループのID等により構成される。第7実施の形態のヒントトラックのサンプルエントリには、第8実施の形態の全てのヒントトラックのサンプルエントリに含まれる情報が含まれる。
 また、第7および第8実施の形態におけるセグメント構造は、図39および図40のセグメント構造と同一である。
 <第9実施の形態>
 (本開示を適用したコンピュータの説明)
 上述したWebサーバの一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図95は、上述したWebサーバの一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
 バス604には、さらに、入出力インタフェース605が接続されている。入出力インタフェース605には、入力部606、出力部607、記憶部608、通信部609、及びドライブ610が接続されている。
 入力部606は、キーボード、マウス、マイクロフォンなどよりなる。出力部607は、ディスプレイ、スピーカなどよりなる。記憶部608は、ハードディスクや不揮発性のメモリなどよりなる。通信部609は、ネットワークインタフェースなどよりなる。ドライブ610は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア611を駆動する。
 以上のように構成されるコンピュータでは、CPU601が、例えば、記憶部608に記憶されているプログラムを、入出力インタフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU601)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア611に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インタフェース605を介して、記憶部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記憶部608にインストールすることができる。その他、プログラムは、ROM602や記憶部608に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、上述した動画再生端末のハードウエア構成は、図95のコンピュータと同様の構成にすることができる。この場合、例えば、CPU601が、制御用ソフトウエア161(221)、動画再生ソフトウエア162(222)、およびアクセス用ソフトウエア163(223)を実行する。動画再生端末144(214)の処理は、ハードウエアにより実行することもできる。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、ファイル生成装置141(211)は、タイル単位で画像ファイルを生成するのではなく、全てのタイルの符号化データを多重化してビデオストリームを生成し、1つの画像ファイルを生成するようにしてもよい。
 本開示は、MPEG-H 3D audioだけでなく、Object毎にstreamを作成することのできるaudio codec全般に適応可能である。
 また、本開示は、ストリーミング再生ではなく、放送やローカルストレージ再生を行う情報処理システムにも適用することができる。
 さらに、本開示は、以下のような構成もとることができる。
 (1)
 複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部
 を備える情報処理装置。
 (2)
 前記種類は、前記音声データのエレメント、前記エレメントのタイプ、または前記エレメントが分類されるグループである
 ように構成された
 前記(1)に記載の情報処理装置。
 (3)
 前記取得部により取得された前記所定のトラックの前記音声データを復号する復号部
 をさらに備える
 前記(1)または(2)に記載の情報処理装置。
 (4)
 前記復号部は、前記所定のトラックの数が複数である場合、前記取得部により取得された前記所定のトラックの前記音声データを合成し、合成後の前記音声データを復号する
 前記(3)に記載の情報処理装置。
 (5)
 前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
 前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
 前記復号部は、前記取得部により取得された前記メタデータから、前記再生対象のオブジェクトの前記メタデータを抽出し、そのメタデータと前記取得部により取得された前記音声データとを合成する
 ように構成された
 前記(4)に記載の情報処理装置。
 (6)
 前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
 前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
 前記復号部は、再生対象ではない前記トラックの前記音声データとしての復号結果がゼロになるゼロデータと、前記取得部により取得された前記音声データおよび前記メタデータとを合成する
 ように構成された
 前記(4)に記載の情報処理装置。
 (7)
 前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、前記オブジェクト単位の音声データのメタデータが前記オブジェクトごとに異なるトラックに配置され、
 前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、再生対象の前記オブジェクトのメタデータを取得し、
 前記復号部は、前記取得部により取得された前記音声データと前記メタデータを合成する
 ように構成された
 前記(4)に記載の情報処理装置。
 (8)
 前記複数のトラックの前記音声データは、1つの前記ファイルに配置される
 ように構成された
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
 (9)
 前記複数のトラックの前記音声データは、前記トラックごとに異なる前記ファイルに配置される
 ように構成された
 前記(1)乃至(7)に記載の情報処理装置。
 (10)
 前記ファイルには、前記複数の種類の前記音声データに関する情報が、前記複数のトラックとは異なるトラックとして配置される
 ように構成された
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
 (11)
 前記複数の種類の前記音声データに関する情報は、前記音声データに対応する画像データの画枠サイズを示す画枠サイズ情報を含む
 ように構成された
 前記(10)に記載の情報処理装置。
 (12)
 前記ファイルには、前記複数のトラックとは異なるトラックの前記音声データとして、その音声データに対応する他の前記トラックの前記音声データの位置を示す情報が配置される
 ように構成された
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
 (13)
 前記ファイルには、前記複数のトラックとは異なるトラックの前記データとして、そのデータに対応する他の前記トラックの前記音声データの位置を示す情報と、他の前記トラックの前記音声データのメタデータが配置される
 ように構成された
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
 (14)
 前記音声データのメタデータは、前記音声データの取得位置を示す情報を含む
 ように構成された
 前記(13)に記載の情報処理装置。
 (15)
 前記ファイルは、前記トラックの他の前記トラックとの参照関係を表す情報を含む
 ように構成された
 前記(1)乃至(14)のいずれかに記載の情報処理装置。
 (16)
 前記ファイルは、各トラックの前記音声データのコーデック情報を含む
 ように構成された
 前記(1)乃至(15)のいずれかに記載の情報処理装置。
 (17)
 所定の前記種類の音声データは、他の前記種類の音声データの取得位置を示す情報である
 ように構成された
 前記(1)乃至(16)のいずれかに記載の情報処理装置。
 (18)
 情報処理装置が、
 複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得ステップ
 を含む情報処理方法。
 (19)
 複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部
 を備える情報処理装置。
 (20)
 情報処理装置が、
 複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成ステップ
 を含む情報処理方法。
 141 ファイル生成装置, 144 動画再生端末, 172 音声ファイル生成部, 192 音声ファイル取得部, 193 音声選択部, 211 ファイル生成装置, 214 動画再生端末, 241 音声ファイル生成部, 264 音声ファイル取得部

Claims (20)

  1.  複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部
     を備える情報処理装置。
  2.  前記種類は、前記音声データのエレメント、前記エレメントのタイプ、または前記エレメントが分類されるグループである
     ように構成された
     請求項1に記載の情報処理装置。
  3.  前記取得部により取得された前記所定のトラックの前記音声データを復号する復号部
     をさらに備える
     請求項1に記載の情報処理装置。
  4.  前記復号部は、前記所定のトラックの数が複数である場合、前記取得部により取得された前記所定のトラックの前記音声データを合成し、合成後の前記音声データを復号する
     請求項3に記載の情報処理装置。
  5.  前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
     前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
     前記復号部は、前記取得部により取得された前記メタデータから、前記再生対象のオブジェクトの前記メタデータを抽出し、そのメタデータと前記取得部により取得された前記音声データとを合成する
     ように構成された
     請求項4に記載の情報処理装置。
  6.  前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
     前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
     前記復号部は、再生対象ではない前記トラックの前記音声データとしての復号結果がゼロになるゼロデータと、前記取得部により取得された前記音声データおよび前記メタデータとを合成する
     ように構成された
     請求項4に記載の情報処理装置。
  7.  前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、前記オブジェクト単位の音声データのメタデータが前記オブジェクトごとに異なるトラックに配置され、
     前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、再生対象の前記オブジェクトのメタデータを取得し、
     前記復号部は、前記取得部により取得された前記音声データと前記メタデータを合成する
     ように構成された
     請求項4に記載の情報処理装置。
  8.  前記複数のトラックの前記音声データは、1つの前記ファイルに配置される
     ように構成された
     請求項1に記載の情報処理装置。
  9.  前記複数のトラックの前記音声データは、前記トラックごとに異なる前記ファイルに配置される
     ように構成された
     請求項1に記載の情報処理装置。
  10.  前記ファイルには、前記複数の種類の前記音声データに関する情報が、前記複数のトラックとは異なるトラックとして配置される
     ように構成された
     請求項1に記載の情報処理装置。
  11.  前記複数の種類の前記音声データに関する情報は、前記音声データに対応する画像データの画枠サイズを示す画枠サイズ情報を含む
     ように構成された
     請求項10に記載の情報処理装置。
  12.  前記ファイルには、前記複数のトラックとは異なるトラックの前記音声データとして、その音声データに対応する他の前記トラックの前記音声データの位置を示す情報が配置される
     ように構成された
     請求項1に記載の情報処理装置。
  13.  前記ファイルには、前記複数のトラックとは異なるトラックの前記データとして、そのデータに対応する他の前記トラックの前記音声データの位置を示す情報と、他の前記トラックの前記音声データのメタデータが配置される
     ように構成された
     請求項1に記載の情報処理装置。
  14.  前記音声データのメタデータは、前記音声データの取得位置を示す情報を含む
     ように構成された
     請求項13に記載の情報処理装置。
  15.  前記ファイルは、前記トラックの他の前記トラックとの参照関係を表す情報を含む
     ように構成された
     請求項1に記載の情報処理装置。
  16.  前記ファイルは、各トラックの前記音声データのコーデック情報を含む
     ように構成された
     請求項1に記載の情報処理装置。
  17.  所定の前記種類の音声データは、他の前記種類の音声データの取得位置を示す情報である
     ように構成された
     請求項1に記載の情報処理装置。
  18.  情報処理装置が、
     複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得ステップ
     を含む情報処理方法。
  19.  複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部
     を備える情報処理装置。
  20.  情報処理装置が、
     複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成ステップ
     を含む情報処理方法。
PCT/JP2015/064673 2014-05-30 2015-05-22 情報処理装置および情報処理方法 WO2015182491A1 (ja)

Priority Applications (14)

Application Number Priority Date Filing Date Title
CN201580026931.1A CN106415711A (zh) 2014-05-30 2015-05-22 信息处理装置和信息处理方法
EP15800260.0A EP3151240B1 (en) 2014-05-30 2015-05-22 Information processing device and information processing method
JP2016523457A JPWO2015182491A1 (ja) 2014-05-30 2015-05-22 情報処理装置および情報処理方法
CA2947549A CA2947549C (en) 2014-05-30 2015-05-22 Information processing apparatus and information processing method
KR1020167031888A KR20170012229A (ko) 2014-05-30 2015-05-22 정보 처리 장치 및 정보 처리 방법
CN202111197667.1A CN114242082A (zh) 2014-05-30 2015-05-22 信息处理装置和信息处理方法
BR112016027506-3A BR112016027506B1 (pt) 2014-05-30 2015-05-22 Aparelho e método de processamento de informação
US15/312,305 US20170092280A1 (en) 2014-05-30 2015-05-22 Information processing apparatus and information processing method
CN202111197608.4A CN114242081A (zh) 2014-05-30 2015-05-22 信息处理装置和信息处理方法
RU2016146015A RU2699406C2 (ru) 2014-05-30 2015-05-22 Устройство обработки информации и способ обработки информации
EP22213391.0A EP4177886A1 (en) 2014-05-30 2015-05-22 Information processing apparatus and information processing method
AU2015267864A AU2015267864A1 (en) 2014-05-30 2015-05-22 Information processing device and information processing method
SG11201609855WA SG11201609855WA (en) 2014-05-30 2015-05-22 Information processing apparatus and information processing method
MX2016015331A MX369767B (es) 2014-05-30 2015-05-22 Dispositivo de procesamiento de informacion y metodo de procesamiento de informacion.

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2014113485 2014-05-30
JP2014-113485 2014-05-30
JP2014-117329 2014-06-06
JP2014117329 2014-06-06
JP2014-133131 2014-06-27
JP2014133131 2014-06-27
JP2014-203517 2014-10-01
JP2014203517 2014-10-01

Publications (1)

Publication Number Publication Date
WO2015182491A1 true WO2015182491A1 (ja) 2015-12-03

Family

ID=54698825

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/064673 WO2015182491A1 (ja) 2014-05-30 2015-05-22 情報処理装置および情報処理方法

Country Status (12)

Country Link
US (1) US20170092280A1 (ja)
EP (2) EP4177886A1 (ja)
JP (1) JPWO2015182491A1 (ja)
KR (1) KR20170012229A (ja)
CN (3) CN106415711A (ja)
AU (1) AU2015267864A1 (ja)
BR (1) BR112016027506B1 (ja)
CA (2) CA2947549C (ja)
MX (2) MX369767B (ja)
RU (2) RU2699406C2 (ja)
SG (1) SG11201609855WA (ja)
WO (1) WO2015182491A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019069710A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2019130763A1 (ja) * 2017-12-28 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2019187442A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、方法、及びプログラム
WO2019187430A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、方法、及びプログラム
WO2019187437A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019187434A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101261212B1 (ko) 2004-10-26 2013-05-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 처리 방법 및 장치
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN104303229B (zh) 2012-05-18 2017-09-12 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
KR102488704B1 (ko) 2013-01-21 2023-01-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 예약된 데이터 공간에 위치된 메타데이터 컨테이너를 갖는 인코딩된 오디오 비트스트림의 디코딩
CN104937844B (zh) 2013-01-21 2018-08-28 杜比实验室特许公司 在不同回放设备之间优化响度和动态范围
EP3582218A1 (en) 2013-02-21 2019-12-18 Dolby International AB Methods for parametric multi-channel encoding
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN105190618B (zh) 2013-04-05 2019-01-25 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
US20180165358A1 (en) * 2014-06-30 2018-06-14 Sony Corporation Information processing apparatus and information processing method
EP3204943B1 (en) 2014-10-10 2018-12-05 Dolby Laboratories Licensing Corp. Transmission-agnostic presentation-based program loudness
WO2018180531A1 (ja) * 2017-03-28 2018-10-04 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9986200B1 (en) * 2017-05-11 2018-05-29 Novatek Microelectronics Corp. Method and video conversion system of updating video setting
JP7035401B2 (ja) * 2017-09-15 2022-03-15 ソニーグループ株式会社 画像処理装置およびファイル生成装置
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012033243A (ja) * 2010-08-02 2012-02-16 Sony Corp データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
WO2012046437A1 (ja) * 2010-10-08 2012-04-12 パナソニック株式会社 記録媒体、及びデータのコピー方法
JP2013545391A (ja) * 2010-11-05 2013-12-19 トムソン ライセンシング 高次アンビソニックス・オーディオ・データ用のデータ構造
JP2014096766A (ja) * 2012-11-12 2014-05-22 Canon Inc 記録装置及び記録方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1508245A1 (en) * 2002-05-28 2005-02-23 Matsushita Electric Industrial Co., Ltd. Moving picture data reproducing device with improved random access
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7519274B2 (en) * 2003-12-08 2009-04-14 Divx, Inc. File format for multiple track digital data
JP4079100B2 (ja) * 2004-02-24 2008-04-23 ソニー株式会社 再生装置および方法
JP4144583B2 (ja) * 2004-10-06 2008-09-03 ソニー株式会社 記録再生装置および編集方法
CN101077008A (zh) * 2004-10-13 2007-11-21 韩国电子通信研究院 扩展多媒体文件结构以及多媒体文件生成方法和多媒体文件执行方法
US20070083380A1 (en) * 2005-10-10 2007-04-12 Yahoo! Inc. Data container and set of metadata for association with a media item and composite media items
JP4379471B2 (ja) * 2006-12-29 2009-12-09 ソニー株式会社 再生装置および再生制御方法
KR20080070471A (ko) * 2007-01-26 2008-07-30 엘지전자 주식회사 파일 포맷을 구성하는 방법과 상기 파일 포맷을 가지는파일을 포함한 디지털 방송 신호를 처리하는 장치 및 방법
BRPI0802614A2 (pt) * 2007-02-14 2011-08-30 Lg Electronics Inc métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto
CN101675472B (zh) * 2007-03-09 2012-06-20 Lg电子株式会社 用于处理音频信号的方法和装置
US20080294691A1 (en) * 2007-05-22 2008-11-27 Sunplus Technology Co., Ltd. Methods for generating and playing multimedia file and recording medium storing multimedia file
KR101530713B1 (ko) * 2008-02-05 2015-06-23 삼성전자주식회사 영상 파일을 생성하고 표시하기 위한 장치 및 방법
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
JP5462259B2 (ja) * 2008-07-16 2014-04-02 シズベル インターナショナル エス.アー. トラックおよびトラックサブセットグループ化の方法および装置
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR20100085555A (ko) * 2009-01-21 2010-07-29 한국전자통신연구원 객체 기반 오디오 서비스를 위한 객체 간 재생 관계와 볼륨정보 저장 및 해석 방법, 그리고 장치
US8719309B2 (en) * 2009-04-14 2014-05-06 Apple Inc. Method and apparatus for media data transmission
US8204755B2 (en) * 2009-05-22 2012-06-19 Universal Music Group, Inc. Advanced encoding of music files
US20110069934A1 (en) * 2009-09-24 2011-03-24 Electronics And Telecommunications Research Institute Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file
KR20110100170A (ko) * 2010-03-03 2011-09-09 삼성전자주식회사 미디어 파일 기록 및 재생 장치 및 방법과 그 기록 매체
KR101802273B1 (ko) * 2010-03-05 2017-11-28 삼성전자주식회사 복수 개의 스트림으로 구성된 컨텐츠 파일 송수신 장치 및 방법
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
KR102115723B1 (ko) * 2011-07-01 2020-05-28 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
JP5856295B2 (ja) * 2011-07-01 2016-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9263060B2 (en) * 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US11310302B2 (en) * 2014-01-09 2022-04-19 Samsung Electronics Co., Ltd. Method and apparatus for streaming dash content over broadcast channels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012033243A (ja) * 2010-08-02 2012-02-16 Sony Corp データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
WO2012046437A1 (ja) * 2010-10-08 2012-04-12 パナソニック株式会社 記録媒体、及びデータのコピー方法
JP2013545391A (ja) * 2010-11-05 2013-12-19 トムソン ライセンシング 高次アンビソニックス・オーディオ・データ用のデータ構造
JP2014096766A (ja) * 2012-11-12 2014-05-22 Canon Inc 記録装置及び記録方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JURGEN HERRE: "MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio", JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, vol. 9, no. 5, 1 August 2015 (2015-08-01), pages 770 - 779, XP055243182, ISSN: 1932-4553 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11595056B2 (en) 2017-10-05 2023-02-28 Sony Corporation Encoding device and method, decoding device and method, and program
JP7358986B2 (ja) 2017-10-05 2023-10-11 ソニーグループ株式会社 復号装置および方法、並びにプログラム
WO2019069710A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN111164679B (zh) * 2017-10-05 2024-04-09 索尼公司 编码装置和方法、解码装置和方法以及程序
JPWO2019069710A1 (ja) * 2017-10-05 2020-11-05 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN111164679A (zh) * 2017-10-05 2020-05-15 索尼公司 编码装置和方法、解码装置和方法以及程序
WO2019130763A1 (ja) * 2017-12-28 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7226335B2 (ja) 2017-12-28 2023-02-21 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
JPWO2019130763A1 (ja) * 2017-12-28 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN111512634A (zh) * 2017-12-28 2020-08-07 索尼公司 信息处理装置、信息处理方法和程序
WO2019187430A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、方法、及びプログラム
JPWO2019187430A1 (ja) * 2018-03-29 2021-04-08 ソニー株式会社 情報処理装置、方法、及びプログラム
US11272224B2 (en) 2018-03-29 2022-03-08 Sony Corporation Information processing device and method
CN111903135A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法以及程序
WO2019187437A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11533348B2 (en) 2018-03-29 2022-12-20 Sony Group Corporation Information processing apparatus, information processing method, and program
US11323757B2 (en) 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
WO2019187434A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019187442A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、方法、及びプログラム
JP7314929B2 (ja) 2018-03-29 2023-07-26 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
US11743520B2 (en) 2018-03-29 2023-08-29 Sony Group Corporation Information processing apparatus, information processing method, and program
JPWO2019187434A1 (ja) * 2018-03-29 2021-04-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP7396267B2 (ja) 2018-03-29 2023-12-12 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2019187437A1 (ja) * 2018-03-29 2021-04-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
MX369767B (es) 2019-11-21
BR112016027506A2 (ja) 2017-08-15
EP3151240A4 (en) 2018-01-24
EP3151240B1 (en) 2022-12-21
BR112016027506B1 (pt) 2023-04-11
CA3210174A1 (en) 2015-12-03
RU2016146015A (ru) 2018-05-23
KR20170012229A (ko) 2017-02-02
SG11201609855WA (en) 2016-12-29
RU2016146015A3 (ja) 2018-11-19
CN114242082A (zh) 2022-03-25
JPWO2015182491A1 (ja) 2017-04-20
MX2019013620A (es) 2020-01-20
CN106415711A (zh) 2017-02-15
MX2016015331A (es) 2017-03-03
CA2947549C (en) 2023-10-03
CA2947549A1 (en) 2015-12-03
EP3151240A1 (en) 2017-04-05
RU2699406C2 (ru) 2019-09-05
US20170092280A1 (en) 2017-03-30
CN114242081A (zh) 2022-03-25
EP4177886A1 (en) 2023-05-10
AU2015267864A1 (en) 2016-12-01
RU2019122989A (ru) 2019-09-16

Similar Documents

Publication Publication Date Title
WO2015182491A1 (ja) 情報処理装置および情報処理方法
JP6697695B2 (ja) 情報処理装置および情報処理方法
JP7424420B2 (ja) 情報処理装置および情報処理方法
JP6908098B2 (ja) 情報処理装置および方法
WO2015008576A1 (ja) 情報処理装置および情報処理方法
JP6508206B2 (ja) 情報処理装置および方法
JPWO2017145756A1 (ja) ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法
KR101944601B1 (ko) 기간들에 걸쳐 오브젝트들을 식별하기 위한 방법 및 이에 대응하는 디바이스
JP6493403B2 (ja) ファイル生成装置および方法、並びにコンテンツ再生装置および方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15800260

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016523457

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2947549

Country of ref document: CA

ENP Entry into the national phase

Ref document number: 20167031888

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015800260

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015800260

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15312305

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2016146015

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2016/015331

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2015267864

Country of ref document: AU

Date of ref document: 20150522

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112016027506

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112016027506

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20161123