WO2018180531A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2018180531A1
WO2018180531A1 PCT/JP2018/010165 JP2018010165W WO2018180531A1 WO 2018180531 A1 WO2018180531 A1 WO 2018180531A1 JP 2018010165 W JP2018010165 W JP 2018010165W WO 2018180531 A1 WO2018180531 A1 WO 2018180531A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
data
objects
viewpoint
information processing
Prior art date
Application number
PCT/JP2018/010165
Other languages
English (en)
French (fr)
Inventor
徹 知念
辻 実
優樹 山本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2019509243A priority Critical patent/JP7230799B2/ja
Priority to US16/488,136 priority patent/US11074921B2/en
Priority to EP18774689.6A priority patent/EP3605531B1/en
Priority to CN201880019499.7A priority patent/CN110447071B/zh
Publication of WO2018180531A1 publication Critical patent/WO2018180531A1/ja
Priority to JP2023007068A priority patent/JP2023040294A/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • Non- Patent Document 1 Free viewpoint video technology is attracting attention as a video technology initiative.
  • the reproduction of the object-based audio data is performed by rendering the waveform data of each audio object based on the metadata to a signal having a desired number of channels according to the reproduction-side system.
  • the present technology has been made in view of such a situation, and is intended to reduce the amount of data to be transmitted when transmitting data of a plurality of audio objects.
  • An information processing apparatus includes an integration unit that integrates audio objects that cannot discriminate sound at the predetermined assumed listening position among a plurality of audio objects corresponding to the predetermined assumed listening position among the plurality of assumed listening positions. And a transmission unit that transmits the data of the integrated audio object obtained by the integration together with the data of another audio object capable of discriminating sound at the predetermined assumed listening position.
  • the integration unit can integrate a plurality of audio objects having a horizontal angle in a range narrower than a predetermined angle with respect to the predetermined assumed listening position.
  • the integration unit can integrate the audio objects so that the number of audio objects to be transmitted becomes a number corresponding to the transmission bit rate.
  • audio objects that cannot discriminate sound at the predetermined assumed listening position are integrated and obtained by integration.
  • the integrated audio object data is transmitted together with the data of other audio objects that can discriminate sounds at the predetermined assumed listening position.
  • 1 is configured by connecting a content generation device 1 and a playback device 2 via the Internet 3.
  • the content generation device 1 is a device managed by the content creator, and is installed in the venue # 1 where music live is being performed.
  • the content generated by the content generation device 1 is transmitted to the playback device 2 via the Internet 3.
  • Content distribution may be performed via a server (not shown).
  • the playback device 2 is a device installed at the home of the user who views the live music content generated by the content generation device 1.
  • the playback device 2 is shown as a playback device that receives content distribution, but in reality, many playback devices are connected to the Internet 3.
  • the content video generated by the content generation device 1 is a video whose viewpoint can be switched.
  • the audio of the content is also an audio that can switch the viewpoint (assumed listening position) so that the listening position is the same position as the position of the video viewpoint, for example.
  • the viewpoint is switched, the sound localization is switched.
  • ⁇ Content audio is prepared as object-based audio.
  • the audio data included in the content includes audio waveform data of each audio object and rendering parameters as metadata for localizing the sound source of each audio object.
  • the audio object is simply referred to as an object as appropriate.
  • the music live performed at the venue # 1 is performed on stage by five persons in charge of bass, drums, guitar 1 (main guitar), guitar 2 (side guitar), and vocals.
  • bass, drum, guitar 1, guitar 2, and vocal as objects, audio waveform data of each object and rendering parameters for each viewpoint are generated in the content generation apparatus 1.
  • the viewpoint 1 when the viewpoint 1 is selected by the user from a plurality of viewpoints, data of five types of objects, that is, bass, drum, guitar 1, guitar 2, and vocal are transmitted as shown in FIG. .
  • the transmitted data includes the audio waveform data of the bass, drum, guitar 1, guitar 2, and vocal objects, and the rendering parameters of each object for viewpoint 1.
  • the guitar 1 and the guitar 2 are grouped as one object, the guitar, and four types of objects: bass, drum, guitar, and vocal.
  • Data is transmitted.
  • the transmitted data includes the audio waveform data of the bass, drum, guitar, and vocal objects, and the rendering parameters of each object for viewpoint 2.
  • the viewpoint 2 is set at a position where, for example, the sound of the guitar 1 and the sound of the guitar 2 cannot be discriminated from the viewpoint of human hearing because they can be heard from the same direction.
  • objects that cannot be discriminated from the viewpoint selected by the user are collected as one object and data is transmitted.
  • N is the time index.
  • I represents the type of the object.
  • the number of objects is L.
  • J represents the type of viewpoint.
  • the number of viewpoints is M.
  • Audio data y (n, j) corresponding to each viewpoint is expressed by the following equation (1).
  • the rendering information r is gain (gain information).
  • the range of the rendering information r is 0 to 1.
  • the audio data of each viewpoint is represented as a result of multiplying the audio waveform data of each object by gain and adding the audio waveform data of all objects.
  • An operation as shown in Expression (1) is performed in the playback device 2.
  • the rendering information of the object corresponding to each viewpoint is defined as follows depending on the type of object, the position of the object, and the position of the viewpoint. r (obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z)
  • Obj_type is information indicating the type of object, for example, the type of musical instrument.
  • Obj_loc_x, obj_loc_y, and obj_loc_z are information indicating the position of the object in the three-dimensional space.
  • Lis_loc_x, lis_loc_y, and lis_loc_z are information indicating the position of the viewpoint in the three-dimensional space.
  • FIG. 3 is a view of the stage # 11 in the venue # 1 as viewed from directly above.
  • FIG. 4 is a diagram of the entire venue # 1 including the stage # 11 and the bleachers as seen from an oblique direction.
  • the origin O is the center position on the stage # 11.
  • Viewpoints 1 and 2 are set for the bleachers.
  • rendering information of each object of the viewpoint 1 is expressed as follows.
  • Base rendering information r (0, -20, 0, 0, 25, 30, -1)
  • Drum rendering information r (1, 0, -10, 0, 25, 30, -1)
  • Guitar 1 rendering information r (2, 20, 0, 0, 25, 30, -1)
  • Rendering information for guitar 2 r (3, 30, 0, 0, 25, 30, -1)
  • Vocal rendering information r (4, 0, 10, 0, 25, 30, -1)
  • obj_type 0
  • obj_type 1
  • obj_type 2
  • obj_type 3
  • Vocal: obj_type 4
  • a rendering parameter including the parameter information and the rendering information expressed as described above is generated in the content generation apparatus 1.
  • FIG. 5A An example of arrangement of each object viewed from viewpoint 1 is shown in FIG. 5A, the lower portion shown with a light color indicates the side surface of the stage # 11. The same applies to the other drawings.
  • FIG. 1 An arrangement example of each object viewed from the viewpoint 2 is shown in FIG.
  • the angle ⁇ 1 which is the horizontal angle between the direction of the guitar 1 and the direction of the guitar 2 when the viewpoint 1 is the reference, and the guitar when the viewpoint 2 is the reference
  • the angle ⁇ 2 which is the horizontal angle between the direction 1 and the direction of the guitar 2, is different.
  • the angle ⁇ 2 is narrower than the angle ⁇ 1.
  • FIG. 6 is a plan view showing the positional relationship between each object and the viewpoint.
  • the angle ⁇ 1 is an angle between a broken line A1-1 connecting the viewpoint 1 and the guitar 1 and a broken line A1-2 connecting the viewpoint 1 and the guitar 2.
  • the angle ⁇ 2 is an angle between a broken line A2-1 connecting the viewpoint 2 and the guitar 1 and a broken line A2-2 connecting the viewpoint 2 and the guitar 2.
  • the angle ⁇ 1 is an angle that can be discriminated from the viewpoint of human hearing, that is, an angle that can be identified as a sound that can be heard from different directions of the sound of the guitar 1 and the sound of the guitar 2.
  • the angle ⁇ 2 is an angle that cannot be discriminated for human hearing.
  • the audio data of the viewpoint 2 can be replaced as in the following equation (4).
  • x (n, 5) is represented by the following formula (5).
  • the expression (5) is obtained by combining the guitar 1 and the guitar 2 as one object, and expressing the audio waveform data of the one object as the sum of the audio waveform data of the guitar 1 and the audio waveform data of the guitar 2. is there.
  • the rendering information of the integrated object is expressed by, for example, the following expression (6) as an average of the rendering information of the guitar 1 and the rendering information of the guitar 2.
  • FIG. 7 shows an example of the arrangement of each object when the guitar 1 and the guitar 2 are combined as one object.
  • FIG. 8 shows an arrangement example of each object including the integrated object viewed from the viewpoint 2. Although the guitar 1 and the guitar 2 are shown in the video at the viewpoint 2, only one guitar is arranged as an audio object.
  • the content generation apparatus 1 can reduce the number of objects that transmit data, and can reduce the amount of data transmission. Further, since the number of objects to be rendered is small, the playback device 2 can reduce the amount of calculation required for rendering.
  • FIG. 9 is a block diagram illustrating a configuration example of the content generation device 1.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 25 is further connected to the bus 24.
  • An input unit 26, an output unit 27, a storage unit 28, a communication unit 29, and a drive 30 are connected to the input / output interface 25.
  • the input unit 26 includes a keyboard, a mouse, and the like.
  • the input unit 26 outputs a signal representing the content of the user operation.
  • the output unit 27 includes a display such as an LCD (Liquid Crystal Display) or an organic EL display, or a speaker.
  • a display such as an LCD (Liquid Crystal Display) or an organic EL display, or a speaker.
  • the storage unit 28 is configured by a hard disk, a non-volatile memory, or the like.
  • the storage unit 28 stores various data such as programs executed by the CPU 21 and contents.
  • the communication unit 29 includes a network interface and the like, and communicates with an external device via the Internet 3.
  • the drive 30 writes data to the mounted removable medium 31 and reads data recorded on the removable medium 31.
  • the playback apparatus 2 also has the same configuration as that shown in FIG. In the following, the configuration shown in FIG.
  • FIG. 10 is a block diagram illustrating a functional configuration example of the content generation device 1.
  • an audio encoder 51 is realized by a predetermined program being executed by the CPU 21 of FIG.
  • a metadata encoder 52 is realized in the content generation device 1
  • an audio generation unit 53 is realized in the content generation device 1
  • a video generation unit 54 is realized in the content generation device 1
  • a transmission control unit 56 is realized in the content generation device 1
  • the audio encoder 51 acquires a sound signal during live music collected by a microphone (not shown), and generates audio waveform data of each object.
  • the metadata encoder 52 generates rendering parameters for each object for each viewpoint in accordance with an operation by the content creator.
  • the rendering parameters for each of a plurality of viewpoints set in the venue # 1 are generated by the metadata encoder 52.
  • the audio generation unit 53 generates object-based audio data for each viewpoint by associating the audio waveform data generated by the audio encoder 51 with the rendering parameters generated by the metadata encoder 52.
  • the audio generation unit 53 outputs the generated audio data for each viewpoint to the content storage unit 55.
  • an integration unit 61 is realized.
  • the integration unit 61 integrates objects as appropriate.
  • the integration unit 61 reads audio data of each viewpoint stored in the content storage unit 55, integrates objects that can be integrated, and stores the integrated audio data in the content storage unit 55.
  • the video generation unit 54 acquires video data shot by a camera installed at each viewpoint position, and generates video data for each viewpoint by encoding with a predetermined encoding method.
  • the video generation unit 54 outputs the generated video data for each viewpoint to the content storage unit 55.
  • the content storage unit 55 stores the audio data of each viewpoint generated by the audio generation unit 53 and the video data of each viewpoint generated by the video generation unit 54 in association with each other.
  • the transmission control unit 56 controls the communication unit 29 to communicate with the playback device 2.
  • the transmission control unit 56 receives selected viewpoint information that is information representing the viewpoint selected by the user of the playback device 2, and transmits content including video data and audio data corresponding to the selected viewpoint to the playback device 2. .
  • FIG. 11 is a block diagram illustrating a functional configuration example of the playback device 2.
  • a content acquisition unit 71 a separation unit 72, an audio playback unit 73, and a video playback unit 74 are realized.
  • the content acquisition unit 71 controls the communication unit 29 and transmits the selected viewpoint information to the content generation device 1.
  • the content acquisition unit 71 receives and acquires the content transmitted from the content generation device 1 in response to transmitting the selected viewpoint information.
  • Content including video data and audio data corresponding to the viewpoint selected by the user is transmitted from the content generation device 1.
  • the content acquisition unit 71 outputs the acquired content to the separation unit 72.
  • the separation unit 72 separates video data and audio data included in the content supplied from the content acquisition unit 71.
  • the separation unit 72 outputs the video data of the content to the video playback unit 74 and outputs the audio data to the audio playback unit 73.
  • the audio playback unit 73 renders the audio waveform data constituting the audio data supplied from the separation unit 72 based on the rendering parameters, and outputs the audio of the content from the speaker constituting the output unit 27.
  • the video playback unit 74 decodes the video data supplied from the separation unit 72, and displays the video of a predetermined viewpoint of the content on the display constituting the output unit 27.
  • Speakers and displays used for content playback may be prepared as external devices connected to the playback device 2.
  • the processing in FIG. 12 is started when, for example, music live is started and video data of each viewpoint and audio signals of each object are input to the content generation device 1.
  • a plurality of cameras are installed in the venue # 1, and images captured by these cameras are input to the content generation apparatus 1.
  • microphones are installed near the respective objects in the venue # 1, and audio signals collected by these microphones are input to the content generation device 1.
  • step S1 the video generation unit 54 acquires video data shot by the camera for each viewpoint, and generates video data for each viewpoint.
  • step S2 the audio encoder 51 acquires the audio signal of each object and generates audio waveform data of each object.
  • audio waveform data of the bass, drum, guitar 1, guitar 2, and vocal objects is generated.
  • step S3 the metadata encoder 52 generates rendering parameters for each object at each viewpoint in accordance with an operation by the content creator.
  • the rendering parameter set of the base, drum, guitar 1, guitar 2, and vocal objects in the viewpoint 1 and the viewpoint 2 A set of rendering parameters for the bass, drum, guitar 1, guitar 2, and vocal objects is generated.
  • step S4 the content storage unit 55 generates and stores content for each viewpoint by associating audio data and video data for each viewpoint.
  • the above processing is repeated while the music live is being performed. For example, when the music live is finished, the process of FIG. 12 is finished.
  • the processing of FIG. 13 is performed at a predetermined timing after the audio waveform data of the bass, drum, guitar 1, guitar 2, and vocal objects and the rendering parameter set of each object at each viewpoint are generated. Done.
  • step S11 the integration unit 61 pays attention to one predetermined viewpoint among the plurality of viewpoints for which the rendering parameters are generated.
  • step S12 the integration unit 61 identifies the position of each object based on the parameter information included in the rendering parameter, and obtains the distance to each object based on the viewpoint of interest.
  • step S13 the integration unit 61 determines whether there are a plurality of objects that are far from the viewpoint of interest. For example, an object located at a position more than a distance set in advance as a threshold is treated as an object with a long distance.
  • the process returns to step S11, and the above process is repeated by switching the viewpoint to be noted.
  • step S13 if it is determined in step S13 that there are a plurality of objects that are far away, the process proceeds to step S14.
  • the viewpoint 2 is selected as the viewpoint of interest, for example, the drum, the guitar 1, and the guitar 2 are determined as objects that are far away.
  • step S14 the integration unit 61 determines whether or not a plurality of objects with a long distance are within a predetermined horizontal angle range.
  • a predetermined horizontal angle range In other words, in this example, an object whose distance from the viewpoint is long and the horizontal angle viewed from the viewpoint is within a predetermined angle range is processed as an object that cannot distinguish sounds.
  • step S15 the integration unit 61 sets all the objects as transmission targets for the viewpoint of interest. .
  • the viewpoint of interest is selected at the time of content transmission, the audio waveform data of all objects and the rendering parameters of each object at that viewpoint are transmitted as in the case of the viewpoint 1 described above. Will be.
  • step S16 when it is determined in step S14 that a plurality of objects with a long distance are within a predetermined horizontal angle range, in step S16, the integration unit 61 has a plurality of objects with a long distance within a predetermined horizontal angle range. And the integrated object is set as a transmission target. In this case, when the viewpoint of interest is selected at the time of content transmission, the audio waveform data and rendering parameters of the integrated object are transmitted together with the audio waveform data and rendering parameters of an independent object that is not integrated. .
  • step S17 the integration unit 61 generates the audio waveform data of the integrated object by obtaining the sum of the audio waveform data of the objects that are far apart and within a predetermined horizontal angle range. This process corresponds to the process of calculating the above equation (5).
  • step S18 the integration unit 61 generates the rendering parameter of the integrated object by obtaining the average of the rendering parameters of the objects that are far away and within a predetermined horizontal angle range. This process corresponds to the process of calculating the above equation (6).
  • the audio waveform data and the rendering parameters of the integrated object are stored in the content storage unit 55 and managed as data to be transmitted when the viewpoint of interest is selected.
  • step S19 the integration unit 61 determines whether or not all viewpoints have been noted. If it is determined in step S19 that there is an unfocused viewpoint, the process returns to step S11, and the above process is repeated by switching the focused viewpoint.
  • step S19 if it is determined in step S19 that all viewpoints have been focused, the processing in FIG. 13 ends.
  • FIG. 13 may be performed in response to the selected viewpoint information being transmitted from the playback device 2. In this case, paying attention to the viewpoint selected by the user, the processing of FIG. 13 is performed, and the objects are appropriately integrated.
  • an object that is far from the viewpoint and the horizontal angle seen from the viewpoint is within the range of the predetermined angle
  • an object that is far from the viewpoint is simply treated as an object that cannot distinguish sounds. Also good.
  • an object whose horizontal angle viewed from the viewpoint is within a predetermined angle range may be processed as an object that cannot distinguish sounds.
  • the distance between the objects may be calculated, and the objects closer than the threshold distance may be collected as an integrated object.
  • the audio waveform data of one object has an amount of components that mask the audio waveform data of the other object larger than a threshold value, these objects may be processed as objects that cannot distinguish sounds. In this way, the method of determining an object that cannot discriminate sound is arbitrary.
  • the processing in FIG. 14 is started when the playback apparatus 2 requests to start content transmission and the selected viewpoint information is transmitted from the playback apparatus 2.
  • step S31 the transmission control unit 56 receives the selected viewpoint information transmitted from the playback device 2.
  • step S32 the transmission control unit 56 reads out the video data of the viewpoint selected by the user of the playback device 2 and the audio waveform data and rendering parameters of each object at the selected viewpoint from the content storage unit 55 and transmits them. .
  • audio waveform data generated as audio data of the integrated object and a rendering parameter are transmitted.
  • step S101 the content acquisition unit 71 transmits information representing the viewpoint selected by the user to the content generation apparatus 1 as selected viewpoint information.
  • a screen used for selecting which viewpoint to view the content from among a plurality of prepared viewpoints is displayed based on the information transmitted from the content generation device 1.
  • the content generating apparatus 1 transmits content including video data and audio data of the viewpoint selected by the user.
  • step S102 the content acquisition unit 71 receives and acquires the content transmitted from the content generation device 1.
  • step S103 the separation unit 72 separates video data and audio data included in the content.
  • step S104 the video reproduction unit 74 decodes the video data supplied from the separation unit 72, and displays a video of a predetermined viewpoint of the content on the display.
  • step S105 the audio reproduction unit 73 renders the audio waveform data of each object included in the audio data supplied from the separation unit 72 based on the rendering parameter of each object, and outputs the sound from the speaker.
  • the number of objects to be transmitted can be reduced, and the data transmission amount can be reduced.
  • FIG. 16 is a diagram illustrating an example of another arrangement of objects.
  • FIG. 16 shows an example of performance by bass, drum, guitar 1, guitar 2, vocals 1-6, piano, trumpet, and saxophone.
  • the viewpoint 3 for viewing the stage # 11 from the front is set.
  • piano, bass, vocal 1 and vocal 2 are the first objects based on the determination based on the angle as described above. It is summarized as. Piano, bass, vocal 1 and vocal 2 are objects within the range of angles between the broken line A11 and the broken line A12 set toward the left of the stage # 11 with the viewpoint 3 as a reference.
  • drum, vocal 3 and vocal 4 are collected as the second object.
  • the drum, vocal 3, and vocal 4 are objects that are set toward the center of the stage # 11 and are within an angle range between the broken line A12 and the broken line A13.
  • trumpet, saxophone, guitar 1, guitar 2, vocal 5, vocal 6 are grouped as the third object.
  • the trumpet, the saxophone, the guitar 1, the guitar 2, the vocal 5, and the vocal 6 are objects that are set toward the right side of the stage # 11 and are within an angle range between the broken line A13 and the broken line A14.
  • audio waveform data and rendering parameters of each object are generated, and audio data of three objects is transmitted.
  • the number of objects that can be collected as an integrated object can be three or more.
  • FIG. 17 is a diagram showing another example of how to organize objects. For example, when the maximum number of objects corresponding to the transmission bit rate is 6 and viewpoint 3 is selected, each object is shown as separated by a broken line in FIG. 17 based on the determination based on the angle and distance as described above. Are summarized.
  • the piano and the bass are grouped as the first object, and the vocal 1 and the vocal 2 are grouped as the second object.
  • the drum is an independent third object, and vocal 3 and vocal are grouped as a fourth object.
  • Trumpet, saxophone, guitar 1 and guitar 2 are grouped as a fifth object, and vocal 5 and vocal 6 are grouped as a sixth object.
  • 16 is a summarization method selected when the transmission bit rate is lower than the summarization method illustrated in FIG.
  • the content can be transmitted with sound quality corresponding to the transmission bit rate.
  • audio data to be transmitted when the viewpoint 3 is selected For example, in the content storage unit 55 of the content generation device 1, as audio data to be transmitted when the viewpoint 3 is selected, audio data of three objects as shown in FIG. 16, and six audio data as shown in FIG. The audio data of the object is stored.
  • the transmission control unit 56 determines the communication environment of the playback device 2 before starting the transmission of the content, and selects one of the audio data of the three objects and the audio data of the six objects according to the transmission bit rate. It will be selected and transmitted.
  • the rendering information is gain, but it is also possible to use reverb information.
  • an important parameter is the amount of reverberation.
  • the amount of reverberation is the amount of spatial reflection components such as walls and floors.
  • the amount of reverberation varies depending on the distance between the object (musical instrument) and the viewer. Generally, when the distance is short, the reverberation amount is small, and when the distance is long, the reverberation amount is large.
  • the objects may be combined according to the distance between the objects.
  • FIG. 18 shows an example in which objects are grouped in consideration of the distance between objects.
  • the objects are grouped as indicated by a broken line, and the objects belonging to each group are collected.
  • the objects belonging to each group are as follows. Group 1 Vocal 1 and Vocal 2 Group 2 Vocal 3 and Vocal 4 Group 3 Vocal 5, Vocal 6 Group 4 Bass Group 5 Piano Group 6 Drum Group 7 Guitar 1, 2 Group 8 Trumpet, Saxophone
  • audio data of eight objects is stored in the content storage unit 55 of the content generation device 1 as audio data to be transmitted when the viewpoint 3 is selected.
  • a group of objects that can be collected can be set in advance. Only objects that satisfy the above-described conditions based on the distance and angle and belong to the same group are collected as an integrated object.
  • a group may be set according to not only the distance between objects but also the type of object, the position of the object, and the like.
  • the rendering information may be equalizer information, compressor information, and reverb information. That is, the rendering information r can be information representing at least one of gain, equalizer information, compressor information, and reverb information.
  • the audio waveform data x (n, 14) is expressed by the following formula (7).
  • the violin 1 and the violin 2 are the same stringed instrument, the correlation between the two audio waveform data is high.
  • the difference component x (n, 15) between the audio waveform data of the violin 1 and the violin 2 expressed by the following equation (8) has a low information entropy and a small bit rate for encoding.
  • audio waveform data x (n, 14) is transmitted from the content generation device 1 to the playback device 2.
  • the difference component x (n, 15) is also transmitted.
  • the playback device 2 that has received the difference component x (n, 15) together with the audio waveform data x (n, 14) performs the calculation shown in the following equations (9) and (10) to obtain the audio waveform of the violin 1.
  • Data x (n, 10) and audio waveform data x (n, 11) of the violin 2 can be reproduced.
  • the content storage unit 55 of the content generation device 1 stores the difference component x (n, 15) together with the audio waveform data x (n, 14) as audio data of the stringed musical instrument object to be transmitted when a predetermined viewpoint is selected. ) Is memorized.
  • the content generation device 1 manages a flag indicating that the difference component data is held.
  • the flag is transmitted from the content generation apparatus 1 to the playback apparatus 2 together with other information, for example, and the playback apparatus 2 specifies that the difference component data is held.
  • the audio waveform data of the object having high correlation can be adjusted in two stages according to the transmission bit rate by holding the difference component on the content generation apparatus 1 side. Become. That is, when the communication environment of the playback device 2 is good (when the transmission bit rate is high), the audio waveform data x (n, 14) and the difference component x (n, 15) are transmitted, and the communication environment is not good. Only the audio waveform data x (n, 14) is transmitted.
  • the data amount of the audio waveform data x (n, 14) and the difference component x (n, 15) is the sum of the audio waveform data x (n, 10) and x (n, 11). Fewer.
  • the audio waveform data x (n, 14) of the collected objects is expressed by the following equation (11).
  • x (n, 10) is the audio waveform data of violin 1
  • x (n, 11) is the audio waveform data of violin 2
  • x (n, 12) is the audio waveform data of violin 3
  • x (n, 13 ) Is audio waveform data of the violin 4.
  • audio waveform data x (n, 14) is transmitted from the content generation device 1 to the playback device 2.
  • the difference components x (n, 15), x (n, 16), and x (n, 17) are also transmitted.
  • the playback apparatus 2 that has received the difference components x (n, 15), x (n, 16), and x (n, 17) together with the audio waveform data x (n, 14) has the following formulas (15) to (18).
  • the audio waveform data x (n, 10) of the violin 1 the audio waveform data x (n, 11) of the violin 2
  • the audio waveform data x (n, 12) of the violin 3 the violin 4 Audio waveform data x (n, 13) can be reproduced.
  • the difference component is combined with the audio waveform data x (n, 14) that summarizes the four objects.
  • x (n, 15), x (n, 16), and x (n, 17) are transmitted from the content generation device 1.
  • the audio waveform data x ( n, 14) and the difference component x (n, 15) are transmitted from the content generation apparatus 1.
  • audio waveform data x (n, 14) including four objects is transmitted from the content generation device 1.
  • hierarchical transmission (encoding) according to the transmission bit rate may be performed by the content generation device 1.
  • Such hierarchical transmission may be performed according to the fee paid by the user of the playback device 2. For example, when the user pays a normal fee, only the audio waveform data x (n, 14) is transmitted, and when the user pays a fee higher than the fee, the audio waveform data x (n, 14) The difference component is transmitted.
  • the video data of the content transmitted by the content generation device 1 is point cloud moving image data.
  • Both the point cloud moving image data and the object audio data have coordinate data in a three-dimensional space, and become color data and audio data at the coordinates.
  • the point cloud moving image data is disclosed in, for example, “Microsoft“ A Voxelized Point Cloud Dataset ”, ⁇ https://jpeg.org/plenodb/pc/microsoft/>”.
  • the content generation device 1 holds, for example, three-dimensional coordinates as vocal position information, and holds point cloud moving image data and audio object data in a form linked to the coordinates.
  • the playback device 2 can easily acquire the point cloud moving image data and audio object data of the desired object.
  • the audio bit stream transmitted by the content generation device 1 includes flag information indicating whether an object transmitted by the stream is an independent object that is not grouped or an integrated object. Also good. An audio bitstream including flag information is shown in FIG.
  • 19 includes, for example, audio waveform data of objects and rendering parameters.
  • the flag information in FIG. 19 may be information indicating whether the object transmitted by the stream is an independent object or information indicating whether the object is an integrated object.
  • the playback device 2 can specify whether the data included in the stream is the data of the integrated object or the data of the independent object by analyzing the stream.
  • Such flag information may be described in a reproduction management file transmitted together with the bit stream as shown in FIG.
  • information such as a stream ID of a stream to be reproduced by the reproduction management file (a stream to be reproduced using the reproduction management file) is also described.
  • This reproduction management file may be configured as an MPEG-DASH MPD (Media Presentation Description) file.
  • the playback device 2 can specify whether the object transmitted by the stream is an integrated object or an independent object by referring to the playback management file.
  • the content played back by the playback device 2 includes video data and object-based audio data, it may be content including object-based audio data without including video data.
  • each audio object is played back using the rendering parameters for the selected listening position.
  • Embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present technology.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the series of processing mentioned above can also be performed by hardware, and can also be performed by software.
  • a program constituting the software is installed in a computer incorporated in dedicated hardware or a general-purpose personal computer.
  • the program to be installed is provided by being recorded on a removable medium 31 shown in FIG. 9 made of an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), semiconductor memory, or the like. Further, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program can be installed in advance in the ROM 22 or the storage unit 28.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • An integration unit that integrates audio objects that cannot discriminate sound at the predetermined assumed listening position among a plurality of audio objects for a predetermined assumed listening position among the plurality of assumed listening positions;
  • An information processing apparatus comprising: a transmission unit that transmits data of an integrated audio object obtained by integration together with data of another audio object capable of discriminating sound at the predetermined assumed listening position.
  • the integration unit generates audio waveform data and rendering parameters of the integrated audio object based on audio waveform data and rendering parameters of a plurality of audio objects to be integrated.
  • the transmission unit transmits the audio waveform data and rendering parameters generated by the integration unit as data of the integrated audio object, and the audio waveform data of each of the other audio objects as data of the other audio object. And the rendering parameter at the predetermined assumed listening position.
  • (4) The information processing apparatus according to any one of (1) to (3), wherein the integration unit integrates a plurality of audio objects that are located at a predetermined distance or more from the predetermined assumed listening position.
  • the transmission unit transmits the audio bitstream including flag information indicating whether an audio object included in the audio bitstream is an unintegrated audio object or the integrated audio object (1) Thru
  • the transmission unit includes a playback management file including flag information indicating whether an audio bitstream file is an audio object that is not integrated or the integrated audio object in an audio bitstream.
  • the information processing apparatus according to any one of (1) to (7).
  • An information processing method including a step of transmitting data of an integrated audio object obtained by integration together with data of another audio object capable of discriminating sound at the predetermined assumed listening position.
  • a program for executing processing including a step of transmitting data of an integrated audio object obtained by integration together with data of another audio object capable of discriminating sound at the predetermined assumed listening position.
  • 1 content generation device 2 playback device, 51 audio encoder, 52 metadata encoder, 53 audio generation unit, 54 video generation unit, 55 content storage unit, 56 transmission control unit, 61 integration unit, 71 content acquisition unit, 72 separation unit 73 audio playback unit, 74 video playback unit 73 audio playback unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本技術は、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 本技術の一側面の情報処理装置は、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、統合して得られた統合オーディオオブジェクトのデータを、所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する。本技術は、オブジェクトベースのオーディオデータの処理が可能な装置に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム
 本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
 映像技術の取り組みとして自由視点映像技術が注目されている。複数のカメラによって撮影された多方向からの画像を組み合わせることによって対象物をポイントクラウド(point cloud)の動画像として保持し、見る方向や距離に応じた映像を生成するような技術がある(非特許文献1)。
 自由視点での映像の視聴が実現すると、音響についても、視点に応じて、あたかもその場所にいるかのような音響を聞きたいという要望が出てくる。そこで、近年、オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースのオーディオデータの再生は、各オーディオオブジェクトの波形データを、再生側のシステムに合わせた所望のチャンネル数の信号にメタデータに基づいてレンダリングするようにして行われる。
筑波大学ホームページ、"HOMETSUKUBA FUTURE-#042:自由視点映像でスポーツ観戦をカスタマイズ"、[平成29年3月22日検索]、<URL: http://www.tsukuba.ac.jp/notes/042/index.html >
 オブジェクトベースのオーディオデータを伝送する場合、伝送すべきオーディオオブジェクトの数が多いほど、データの伝送量も多くなる。
 本技術はこのような状況に鑑みてなされたものであり、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにするものである。
 本技術の一側面の情報処理装置は、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部とを備える。
 前記統合部には、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成させることができる。
 前記伝送部には、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送させ、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送させることができる。
 前記統合部には、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合させることができる。
 前記統合部には、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合させることができる。
 前記統合部には、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合させることができる。
 前記統合部には、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行わせることができる。
 前記伝送部には、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送させることができる。
 前記伝送部には、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送させることができる。
 本技術の一側面においては、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトが統合され、統合して得られた統合オーディオオブジェクトのデータが、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送される。
 本技術によれば、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係る伝送システムの構成例を示す図である。 伝送されるオブジェクトの種類の例を示す図である。 各オブジェクトの配置例を示す平面図である。 会場を斜め方向から見た図である。 各オブジェクトの配置例を示す正面図である。 各オブジェクトの配置例を示す平面図である。 統合オブジェクトを含む各オブジェクトの配置例を示す平面図である。 統合オブジェクトを含む各オブジェクトの配置例を示す正面図である。 コンテンツ生成装置の構成例を示すブロック図である。 コンテンツ生成装置の機能構成例を示すブロック図である。 再生装置の機能構成例を示すブロック図である。 コンテンツ生成装置のコンテンツ生成処理について説明するフローチャートである。 コンテンツ生成装置の統合処理について説明するフローチャートである。 コンテンツ生成装置の伝送処理について説明するフローチャートである。 再生装置の再生処理について説明するフローチャートである。 オブジェクトの他の配置の例を示す図である。 オブジェクトの纏め方の他の例を示す図である。 オブジェクトの纏め方のさらに他の例を示す図である。 フラグ情報の伝送例を示す図である。 フラグ情報の他の伝送例を示す図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.伝送システムの構成
 2.オブジェクトの纏め方
 3.各装置の構成例
 4.各装置の動作
 5.オブジェクトの纏め方の変形例
 6.変形例
<<伝送システムの構成>>
 図1は、本技術の一実施形態に係る伝送システムの構成例を示す図である。
 図1の伝送システムは、コンテンツ生成装置1と再生装置2が、インターネット3を介して接続されることによって構成される。
 コンテンツ生成装置1は、コンテンツの制作者により管理される装置であり、音楽ライブが行われている会場#1に設置される。コンテンツ生成装置1により生成されたコンテンツは、インターネット3を介して再生装置2に伝送される。コンテンツの配信が図示せぬサーバを介して行われるようにしてもよい。
 一方、再生装置2は、コンテンツ生成装置1により生成された音楽ライブのコンテンツを視聴するユーザの自宅に設置される装置である。図1の例においては、コンテンツの配信を受ける再生装置として再生装置2のみが示されているが、実際には多くの再生装置がインターネット3に接続される。
 コンテンツ生成装置1によって生成されるコンテンツの映像は、視点を切り替えることが可能な映像である。また、コンテンツの音声も、例えば映像の視点の位置と同じ位置を聴取位置とするように、視点(想定聴取位置)を切り替えることが可能な音声である。視点が切り替えられた場合、音の定位が切り替わる。
 コンテンツの音声は、オブジェクトベースのオーディオとして用意される。コンテンツに含まれるオーディオデータには、それぞれのオーディオオブジェクトのオーディオ波形データと、各オーディオオブジェクトの音源を定位させるためのメタデータとしてのレンダリングパラメータが含まれる。以下、適宜、オーディオオブジェクトを単にオブジェクトという。
 再生装置2のユーザは、用意された複数の視点の中から任意の視点を選択し、視点に応じた映像と音声でコンテンツを視聴することができる。
 コンテンツ生成装置1から再生装置2に対しては、ユーザが選択した視点から見たときの映像のビデオデータと、ユーザが選択した視点のオブジェクトベースのオーディオデータを含むコンテンツが提供される。例えば、このようなオブジェクトベースのオーディオデータは、MPEG-H 3D Audioなどの所定の方式で圧縮した形で伝送される。
 なお、MPEG-H 3D Audioについては、「ISO/IEC 23008-3:2015“Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio”,< https://www.iso.org/standard/63878.html>」に開示されている。
 以下、オーディオデータに関する処理について主に説明する。図1に示すように、会場#1で行われている音楽ライブは、ベース、ドラム、ギター1(メインギター)、ギター2(サイドギター)、およびボーカルを担当する5人がステージ上で演奏を行うライブであるものとする。ベース、ドラム、ギター1、ギター2、およびボーカルをそれぞれオブジェクトとして、各オブジェクトのオーディオ波形データと、視点毎のレンダリングパラメータがコンテンツ生成装置1において生成される。
 図2は、コンテンツ生成装置1から伝送されるオブジェクトの種類の例を示す図である。
 例えば、複数の視点の中から視点1がユーザにより選択された場合、図2のAに示すように、ベース、ドラム、ギター1、ギター2、およびボーカルの5種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、視点1用の、各オブジェクトのレンダリングパラメータが含まれる。
 また、視点2がユーザにより選択された場合、図2のBに示すように、ギター1とギター2が1つのオブジェクトであるギターとして纏められ、ベース、ドラム、ギター、およびボーカルの4種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター、およびボーカルの各オブジェクトのオーディオ波形データと、視点2用の、各オブジェクトのレンダリングパラメータが含まれる。
 視点2は、例えば同じ方向から聞こえるために、人間の聴覚上、ギター1の音とギター2の音を弁別することができない位置に設定されている。このように、ユーザが選択した視点において弁別することができないオブジェクトについては、1つのオブジェクトとして纏められてデータの伝送が行われる。
 選択された視点に応じて、適宜、オブジェクトを纏めてデータの伝送を行うことにより、データの伝送量を削減することが可能になる。
<<オブジェクトの纏め方>>
 ここで、オブジェクトの纏め方について説明する。
 (1)複数のオブジェクトがあると仮定する。
 オブジェクトのオーディオ波形データは下のように定義される。
  x(n,i) i=0,1,2,…,L-1
 nは時間インデックスである。また、iはオブジェクトの種類を表す。ここでは、オブジェクトの数はLである。
 (2)複数の視点があると仮定する。
 各視点に対応するオブジェクトのレンダリング情報は下のように定義される。
  r(i,j) j=0,1,2,…,M-1
 jは視点の種類を表す。視点の数はMである。
 (3)各視点に対応するオーディオデータy(n,j)は下式(1)により表される。
Figure JPOXMLDOC01-appb-M000001
 ここでは、レンダリング情報rは利得(ゲイン情報)であると仮定する。この場合、レンダリング情報rの値域は0~1である。各視点のオーディオデータは、各オブジェクトのオーディオ波形データに利得をかけ、全オブジェクトのオーディオ波形データを加算したものとして表される。式(1)に示すような演算が、再生装置2において行われる。
 (4)視点において音を弁別できない複数のオブジェクトが纏めて伝送される。例えば、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして選択される。一方、距離が近く、視点において音を弁別可能なオブジェクトについては、纏めることなく、独立したオブジェクトとして伝送される。
 (5)各視点に対応するオブジェクトのレンダリング情報は、オブジェクトの種類、オブジェクトの位置、および視点の位置によって下のように定義される。
 r(obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z)
 obj_typeは、オブジェクトの種類を示す情報であり、例えば楽器の種類を示す。
 obj_loc_x, obj_loc_y, obj_loc_zは、三次元空間上のオブジェクトの位置を示す情報である。
 lis_loc_x, lis_loc_y, lis_loc_zは、三次元空間上の視点の位置を示す情報である。
 独立して伝送するオブジェクトについては、このような、obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_zから構成されるパラメータ情報が、レンダリング情報rとともに伝送される。レンダリングパラメータは、パラメータ情報とレンダリング情報から構成される。
 以下、具体的に説明する。
 (6)例えば、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトが図3に示すように配置されるものとする。図3は、会場#1にあるステージ#11を真上から見た図である。
 (7)会場#1に対して、図4に示すようにXYZの各軸が設定される。図4は、ステージ#11と観覧席を含む会場#1全体を斜め方向から見た図である。原点Oはステージ#11上の中心位置である。観覧席には、視点1と視点2が設定されている。
 各オブジェクトの座標が以下のように表されるものとする。単位はメートルである。
 ベースの座標 :x=-20, y=0, z=0
 ドラムの座標 :x=0, y=-10, z=0
 ギター1の座標:x=20, y=0, z=0
 ギター2の座標:x=30, y=0, z=0
 ボーカルの座標:x=0, y=10, z=0
 (8)各視点の座標が以下のように表されるものとする。
 視点1:x=25, y=30, z=-1
 視点2:x=-35, y=30, z=-1
 なお、図における各オブジェクトおよび各視点の位置は、あくまで位置関係のイメージを表すものであり、上記各数値を正確に反映させた位置ではない。
 (9)このとき、視点1の各オブジェクトのレンダリング情報は、以下のように表される。
 ベースのレンダリング情報
  :r(0, -20, 0, 0, 25, 30, -1)
 ドラムのレンダリング情報
  :r(1, 0, -10, 0, 25, 30, -1)
 ギター1のレンダリング情報
  :r(2, 20, 0, 0, 25, 30, -1)
 ギター2のレンダリング情報
  :r(3, 30, 0, 0, 25, 30, -1)
 ボーカルのレンダリング情報
  :r(4, 0, 10, 0, 25, 30, -1)
 各オブジェクトのobj_typeは以下の値をとるものとする。
 ベース :obj_type=0
 ドラム :obj_type=1
 ギター1:obj_type=2
 ギター2:obj_type=3
 ボーカル:obj_type=4
 視点2についても、以上のようにして表されるパラメータ情報とレンダリング情報を含むレンダリングパラメータがコンテンツ生成装置1において生成される。
 (10)上式(1)から、視点1(j=0)を選択した場合のオーディオデータは下式(2)のように表される。
Figure JPOXMLDOC01-appb-M000002
 ただし、x(n,i)について、iは以下のオブジェクトを表すものとする。
 i=0:ベースのオブジェクト
 i=1:ドラムのオブジェクト
 i=2:ギター1のオブジェクト
 i=3:ギター2のオブジェクト
 i=4:ボーカルのオブジェクト
 視点1から見た各オブジェクトの配置例を図5のAに示す。図5のAにおいて、薄い色をつけて示す下方の部分はステージ#11の側面を示す。他の図においても同様である。
 (11)同様に、視点2(j=1)を選択した場合のオーディオデータは下式(3)のように表される。
Figure JPOXMLDOC01-appb-M000003
 視点2から見た各オブジェクトの配置例を図5のBに示す。
 (12)ここで、図6に示すように、視点1を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ1と、視点2を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ2は異なる。角度θ1に対して、角度θ2は狭い。
 図6は、各オブジェクトと視点の位置関係を示す平面図である。角度θ1は、視点1とギター1を結ぶ破線A1-1と視点1とギター2を結ぶ破線A1-2の間の角度である。また、角度θ2は、視点2とギター1を結ぶ破線A2-1と視点2とギター2を結ぶ破線A2-2の間の角度である。
 (13)角度θ1は、人間の聴覚上、弁別可能、すなわち、ギター1の音とギター2の音が異なる方向から聞こえる音として識別可能な角度であるものとする。一方、角度θ2は、人間の聴覚上、弁別が不可能な角度であるものとする。このとき、視点2のオーディオデータは、下式(4)のようにして置き換えることが可能である。
Figure JPOXMLDOC01-appb-M000004
 式(4)において、x(n,5)は、下式(5)により表される。
Figure JPOXMLDOC01-appb-M000005
 すなわち、式(5)は、ギター1とギター2を1つのオブジェクトとして纏め、その1つのオブジェクトのオーディオ波形データを、ギター1のオーディオ波形データとギター2のオーディオ波形データの和として表したものである。ギター1とギター2を纏めた1つのオブジェクトである統合オブジェクトのobj_typeは、obj_type=5とされている。
 また、統合オブジェクトのレンダリング情報は、ギター1のレンダリング情報とギター2のレンダリング情報の平均として、例えば下式(6)により表される。
Figure JPOXMLDOC01-appb-M000006
 このように、obj_type=5として表される統合オブジェクトについては、オーディオ波形データをx(n,5)とするとともに、レンダリング情報をr(5, 25, 0, 0, -35, 30, -1)として処理が行われる。ギター1とギター2を1つのオブジェクトとして纏めた場合の各オブジェクトの配置の例を図7に示す。
 視点2から見た、統合オブジェクトを含む各オブジェクトの配置例を図8に示す。視点2における映像にはギター1とギター2がそれぞれ映っているが、オーディオオブジェクトとしては、1つのギターのみが配置されることになる。
 (14)このように、選択された視点において聴覚上弁別できないオブジェクトについては、纏められて1つのオブジェクトとしてデータの伝送が行われる。
 これにより、コンテンツ生成装置1は、データを伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。また、レンダリングを行うオブジェクトの数が少ないため、再生装置2は、レンダリングに要する計算量を削減することが可能になる。
 なお、図6の例においては、視点2から見た水平角が角度θ2の範囲内にあるオブジェクトとしてギター1、ギター2の他にボーカルがあるが、ボーカルは、視点2からの距離が近く、ギター1、ギター2とは弁別可能なオブジェクトである。
<<各装置の構成例>>
<コンテンツ生成装置1の構成>
 図9は、コンテンツ生成装置1の構成例を示すブロック図である。
 CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23は、バス24により相互に接続される。バス24には、さらに入出力インタフェース25が接続される。入出力インタフェース25には、入力部26、出力部27、記憶部28、通信部29、およびドライブ30が接続される。
 入力部26は、キーボード、マウスなどにより構成される。入力部26は、ユーザの操作の内容を表す信号を出力する。
 出力部27は、LCD(Liquid Crystal Display)、有機ELディスプレイなどのディスプレイや、スピーカにより構成される。
 記憶部28は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部28は、CPU21により実行されるプログラム、コンテンツなどの各種のデータを記憶する。
 通信部29は、ネットワークインタフェースなどより構成され、インターネット3を介して外部の装置と通信を行う。
 ドライブ30は、装着されたリムーバブルメディア31に対するデータの書き込み、リムーバブルメディア31に記録されたデータの読み出しを行う。
 図9に示すような構成と同じ構成を再生装置2も有している。以下、適宜、図9に示す構成を再生装置2の構成として引用して説明する。
 図10は、コンテンツ生成装置1の機能構成例を示すブロック図である。
 図10に示す構成のうちの少なくとも一部は、図9のCPU21により所定のプログラムが実行されることによって実現される。コンテンツ生成装置1においては、オーディオエンコーダ51、メタデータエンコーダ52、オーディオ生成部53、ビデオ生成部54、コンテンツ記憶部55、および伝送制御部56が実現される。
 オーディオエンコーダ51は、図示せぬマイクロホンにより集音された音楽ライブ中の音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。
 メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各オブジェクトのレンダリングパラメータを視点毎に生成する。会場#1に設定された複数の視点のそれぞれのレンダリングパラメータがメタデータエンコーダ52により生成される。
 オーディオ生成部53は、オーディオエンコーダ51により生成されたオーディオ波形データとメタデータエンコーダ52により生成されたレンダリングパラメータを対応付けることによって、オブジェクトベースの各視点のオーディオデータを生成する。オーディオ生成部53は、生成した各視点のオーディオデータをコンテンツ記憶部55に出力する。
 オーディオ生成部53においては、統合部61が実現される。統合部61は、適宜、オブジェクトの統合を行う。例えば、統合部61は、コンテンツ記憶部55に記憶された各視点のオーディオデータを読み出し、統合可能なオブジェクトを統合して、統合後のオーディオデータをコンテンツ記憶部55に記憶させる。
 ビデオ生成部54は、各視点の位置に設置されたカメラにより撮影されたビデオデータを取得し、所定の符号化方式で符号化することによって各視点のビデオデータを生成する。ビデオ生成部54は、生成した各視点のビデオデータをコンテンツ記憶部55に出力する。
 コンテンツ記憶部55は、オーディオ生成部53により生成された各視点のオーディオデータとビデオ生成部54により生成された各視点のビデオデータを対応付けて記憶する。
 伝送制御部56は、通信部29を制御し、再生装置2と通信を行う。伝送制御部56は、再生装置2のユーザにより選択された視点を表す情報である選択視点情報を受信し、選択された視点に応じたビデオデータとオーディオデータからなるコンテンツを再生装置2に送信する。
<再生装置2の構成>
 図11は、再生装置2の機能構成例を示すブロック図である。
 図11に示す構成のうちの少なくとも一部は、図9のCPU21により所定のプログラムが実行されることによって実現される。再生装置2においては、コンテンツ取得部71、分離部72、オーディオ再生部73、およびビデオ再生部74が実現される。
 コンテンツ取得部71は、ユーザにより視点が選択された場合、通信部29を制御し、選択視点情報をコンテンツ生成装置1に送信する。コンテンツ取得部71は、選択視点情報を送信することに応じてコンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。コンテンツ生成装置1からは、ユーザにより選択された視点に応じたビデオデータとオーディオデータを含むコンテンツが送信されてくる。コンテンツ取得部71は、取得したコンテンツを分離部72に出力する。
 分離部72は、コンテンツ取得部71から供給されたコンテンツに含まれるビデオデータとオーディオデータを分離する。分離部72は、コンテンツのビデオデータをビデオ再生部74に出力し、オーディオデータをオーディオ再生部73に出力する。
 オーディオ再生部73は、分離部72から供給されたオーディオデータを構成するオーディオ波形データをレンダリングパラメータに基づいてレンダリングし、コンテンツの音声を、出力部27を構成するスピーカから出力させる。
 ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像を、出力部27を構成するディスプレイに表示させる。
 コンテンツの再生に用いられるスピーカとディスプレイが、再生装置2に接続された外部の機器として用意されるようにしてもよい。
<<各装置の動作>>
 次に、以上のような構成を有するコンテンツ生成装置1と再生装置2の動作について説明する。
<コンテンツ生成装置1の動作>
・コンテンツ生成処理
 はじめに、図12のフローチャートを参照して、コンテンツを生成するコンテンツ生成装置1の処理について説明する。
 図12の処理は、例えば、音楽ライブが開始され、各視点のビデオデータと、各オブジェクトの音声信号がコンテンツ生成装置1に入力されたときに開始される。
 会場#1には複数のカメラが設置されており、それらのカメラにより撮影された映像がコンテンツ生成装置1に入力される。また、会場#1の各オブジェクトの近くにマイクが設置されており、それらのマイクにより収音された音声信号がコンテンツ生成装置1に入力される。
 ステップS1において、ビデオ生成部54は、各視点用のカメラにより撮影されたビデオデータを取得し、各視点のビデオデータを生成する。
 ステップS2において、オーディオエンコーダ51は、各オブジェクトの音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。上述した例の場合、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データが生成される。
 ステップS3において、メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各視点における、各オブジェクトのレンダリングパラメータを生成する。
 例えば、上述したように視点1と視点2が会場#1に設定されている場合、視点1におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットと、視点2におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットが生成される。
 ステップS4において、コンテンツ記憶部55は、オーディオデータとビデオデータを視点毎に対応付けることによって、各視点用のコンテンツを生成し、記憶する。
 以上の処理が、音楽ライブが行われている間、繰り返し行われる。例えば音楽ライブが終了したとき、図12の処理は終了される。
・オブジェクト統合処理
 次に、図13のフローチャートを参照して、オブジェクトを統合するコンテンツ生成装置1の処理について説明する。
 例えば、図13の処理は、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、各視点における、各オブジェクトのレンダリングパラメータのセットが生成された後の所定のタイミングで行われる。
 ステップS11において、統合部61は、レンダリングパラメータが生成された複数の視点のうちの、所定の1つの視点に注目する。
 ステップS12において、統合部61は、レンダリングパラメータに含まれるパラメータ情報に基づいて各オブジェクトの位置を特定し、注目する視点を基準とした、各オブジェクトまでの距離を求める。
 ステップS13において、統合部61は、注目する視点からの距離が遠いオブジェクトが複数あるか否かを判定する。例えば、閾値として予め設定された距離以上離れた位置にあるオブジェクトが、距離が遠いオブジェクトとして扱われる。距離が遠いオブジェクトが複数ないとステップS13において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
 一方、距離が遠いオブジェクトが複数あるとステップS13において判定された場合、処理はステップS14に進む。注目する視点として視点2が選択されている場合、例えば、ドラム、ギター1、ギター2が、距離が遠いオブジェクトとして判定される。
 ステップS14において、統合部61は、距離が遠い複数のオブジェクトが、所定の水平角の範囲内にあるか否かを判定する。すなわち、この例においては、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして処理されることになる。
 距離が遠い複数のオブジェクトが所定の水平角の範囲内にないとステップS14において判定した場合、ステップS15において、統合部61は、注目している視点については、全てのオブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、上述した視点1が選択された場合と同様に、全てのオブジェクトのオーディオ波形データと、その視点の各オブジェクトのレンダリングパラメータが伝送されることになる。
 一方、距離が遠い複数のオブジェクトが所定の水平角の範囲内にあるとステップS14において判定した場合、ステップS16において、統合部61は、距離が遠く所定の水平角の範囲内にある複数のオブジェクトを纏め、統合オブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、統合オブジェクトのオーディオ波形データとレンダリングパラメータが、統合されていない独立のオブジェクトのオーディオ波形データとレンダリングパラメータとともに伝送されることになる。
 ステップS17において、統合部61は、距離が遠く所定の水平角の範囲内にあるオブジェクトのオーディオ波形データの和を求めることによって、統合オブジェクトのオーディオ波形データを生成する。この処理は、上式(5)を計算する処理に相当する。
 ステップS18において、統合部61は、距離が遠く、所定の水平角の範囲内にあるオブジェクトのレンダリングパラメータの平均を求めることによって、統合オブジェクトのレンダリングパラメータを生成する。この処理は、上式(6)を計算する処理に相当する。
 統合オブジェクトのオーディオ波形データとレンダリングパラメータはコンテンツ記憶部55に記憶され、注目している視点が選択されたときに伝送するデータとして管理される。
 ステップS15において伝送対象が設定された後、または、ステップS18において統合オブジェクトのレンダリングパラメータが生成された後、ステップS19において、統合部61は、全ての視点に注目したか否かを判定する。注目していない視点があるとステップS19において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
 一方、全ての視点に注目したとステップS19において判定された場合、図13の処理は終了となる。
 以上の処理により、ある視点において音を弁別できないオブジェクトについては、統合オブジェクトとして纏められることになる。
 図13の処理が、選択視点情報が再生装置2から送信されてきたことに応じて行われるようにしてもよい。この場合、ユーザにより選択された視点に注目して図13の処理が行われ、適宜、オブジェクトの統合が行われることになる。
 視点からの距離が遠く、かつ、視点から見た水平角が所定の角度の範囲内にあるオブジェクトではなく、単に、視点からの距離が遠いオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。また、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。
 オブジェクト間の距離が算出され、閾値の距離より近くにあるオブジェクトが統合オブジェクトとして纏められるようにしてもよい。
 一方のオブジェクトのオーディオ波形データが、他方のオブジェクトのオーディオ波形データをマスクする成分の量が閾値より多い場合に、それらのオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。このように、音を弁別できないオブジェクトの判定の仕方は任意である。
・コンテンツ伝送処理
 次に、図14のフローチャートを参照して、コンテンツを伝送するコンテンツ生成装置1の処理について説明する。
 例えば、図14の処理は、コンテンツの伝送を開始することが再生装置2から要求され、選択視点情報が再生装置2から送信されてきたときに開始される。
 ステップS31において、伝送制御部56は、再生装置2から送信されてきた選択視点情報を受信する。
 ステップS32において、伝送制御部56は、再生装置2のユーザにより選択された視点のビデオデータ、および、選択された視点における各オブジェクトのオーディオ波形データとレンダリングパラメータをコンテンツ記憶部55から読み出し、伝送する。統合されたオブジェクトについては、統合オブジェクトのオーディオデータとして生成されたオーディオ波形データとレンダリングパラメータが伝送される。
 以上の処理が、コンテンツの伝送が終了するまで繰り返し行われる。コンテンツの伝送が終了したとき、図14の処理は終了される。
<再生装置2の動作>
 次に、図15のフローチャートを参照して、コンテンツを再生する再生装置2の処理について説明する。
 ステップS101において、コンテンツ取得部71は、ユーザにより選択された視点を表す情報を選択視点情報としてコンテンツ生成装置1に送信する。
 例えばコンテンツの視聴開始前、複数用意されている視点のうちのどの視点でコンテンツを視聴するのかの選択に用いられる画面が、コンテンツ生成装置1から送信されてきた情報に基づいて表示される。選択視点情報を送信することに応じて、コンテンツ生成装置1からは、ユーザが選択した視点のビデオデータとオーディオデータを含むコンテンツが送信されてくる。
 ステップS102において、コンテンツ取得部71は、コンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。
 ステップS103において、分離部72は、コンテンツに含まれるビデオデータとオーディオデータを分離する。
 ステップS104において、ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像をディスプレイに表示させる。
 ステップS105において、オーディオ再生部73は、分離部72から供給されたオーディオデータに含まれる各オブジェクトのオーディオ波形データを、各オブジェクトのレンダリングパラメータに基づいてレンダリングし、音声をスピーカから出力させる。
 以上の処理が、コンテンツの再生が終了するまで繰り返し行われる。コンテンツの再生が終了したとき、図15の処理は終了される。
 以上のような一連の処理により、伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。
<<オブジェクトの纏め方の変形例>>
 (1)伝送ビットレートに応じた纏め方
 伝送ビットレートに応じて最大オブジェクト数が決定され、それを超えないようにオブジェクトが纏められるようにしてもよい。
 図16は、オブジェクトの他の配置の例を示す図である。図16は、ベース、ドラム、ギター1、ギター2、ボーカル1~6、ピアノ、トランペット、サックスによる演奏の例を示す。図16の例においては、ステージ#11を正面から見る視点3が設定されている。
 例えば、伝送ビットレートに応じた最大オブジェクト数が3であり、視点3が選択された場合、上述したような角度による判定に基づいて、ピアノ、ベース、ボーカル1、ボーカル2が1つ目のオブジェクトとして纏められる。ピアノ、ベース、ボーカル1、ボーカル2は、視点3を基準としてステージ#11の左方に向けて設定された、破線A11と破線A12の間の角度の範囲内にあるオブジェクトである。
 同様に、ドラム、ボーカル3、ボーカル4が2つ目のオブジェクトとして纏められる。ドラム、ボーカル3、ボーカル4は、ステージ#11の中央に向けて設定された、破線A12と破線A13の間の角度の範囲内にあるオブジェクトである。
 また、トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6が3つ目のオブジェクトとして纏められる。トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6は、ステージ#11の右方に向けて設定された、破線A13と破線A14の間の角度の範囲内にあるオブジェクトである。
 上述したようにして各オブジェクト(統合オブジェクト)のオーディオ波形データとレンダリングパラメータが生成され、3つのオブジェクトのオーディオデータが伝送される。このように、統合オブジェクトとして纏めるオブジェクトの数を3以上とすることも可能である。
 図17は、オブジェクトの纏め方の他の例を示す図である。例えば、伝送ビットレートに応じた最大オブジェクト数が6であり、視点3が選択された場合、上述したような角度と距離による判定に基づいて、図17の破線で区切って示すようにして各オブジェクトが纏められる。
 図17の例においては、ピアノとベースが1つ目のオブジェクトとして纏められ、ボーカル1とボーカル2が2つ目のオブジェクトとして纏められている。また、ドラムが独立の3つ目のオブジェクトとされ、ボーカル3とボーカルが4つ目のオブジェクトとして纏められている。トランペット、サックス、ギター1、ギター2が5つ目のオブジェクトとして纏められ、ボーカル5、ボーカル6が6つ目のオブジェクトとして纏められている。
 図16に示す纏め方は、図17に示す纏め方と比べて、伝送ビットレートが低い場合に選択される纏め方となる。
 伝送するオブジェクトの数を伝送ビットレートに応じて決定することにより、伝送ビットレートが高い場合には高音質での視聴が可能となり、伝送ビットレートが低い場合には低音質での視聴が可能となるといったように、伝送ビットレートに応じた音質でのコンテンツの伝送が可能になる。
 例えば、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、図16に示すように3つのオブジェクトのオーディオデータと、図17に示すように6つのオブジェクトのオーディオデータが記憶される。
 伝送制御部56は、コンテンツの伝送を開始する前、再生装置2の通信環境を判別し、伝送ビットレートに応じて、3つのオブジェクトのオーディオデータ、6つのオブジェクトのオーディオデータのうちのいずれかを選択して伝送を行うことになる。
 (2)オブジェクトのグルーピング
 以上の例においては、レンダリング情報が利得であるものとしたが、リバーブ情報とすることも可能である。リバーブ情報を構成するパラメータの中で、重要なパラメータは残響量である。残響量は、壁や床などの空間反射成分の量である。オブジェクト(楽器)と視聴者の距離に応じて残響量は異なる。一般的に、その距離が短いと残響量は少なく、長いと残響量は多くなる。
 音が弁別可能か否かを距離や角度に基づいて判定し、オブジェクトを纏めること以外に、別の指標として、オブジェクト間の距離に応じてオブジェクトを纏めるようにしてもよい。オブジェクト間の距離をも考慮してオブジェクトを纏める場合の例を図18に示す。
 図18の例においては、破線で区切って示すようにオブジェクトのグループ分けが行われ、各グループに属するオブジェクトが纏められる。各グループに属するオブジェクトは下のようになる。
 グループ1 ボーカル1、ボーカル2
 グループ2 ボーカル3、ボーカル4
 グループ3 ボーカル5、ボーカル6
 グループ4 ベース
 グループ5 ピアノ
 グループ6 ドラム
 グループ7 ギター1、2
 グループ8 トランペット、サックス
 この場合、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、8つのオブジェクトのオーディオデータが記憶される。
 このように、音が弁別できない角度の範囲内にあるオブジェクトであっても、異なるリバーブを適用するオブジェクトとして処理されるようにしてもよい。
 このように、纏めることが可能なオブジェクトからなるグループが予め設定されるようにすることが可能である。距離や角度に基づく上述したような条件を満たすオブジェクトであって、同じグループに属するオブジェクトだけが統合オブジェクトとして纏められることになる。
 オブジェクト間の距離だけでなく、オブジェクトの種類、オブジェクトの位置等に応じてグループが設定されるようにしてもよい。
 なお、利得やリバーブ情報だけでなく、レンダリング情報が、イコライザ情報、コンプレッサー情報、リバーブ情報であってもよい。すなわち、レンダリング情報rについては、利得、イコライザ情報、コンプレッサー情報、リバーブ情報のうちの少なくともいずれかを表す情報とすることが可能である。
 (3)オブジェクトオーディオ符号化の高効率化
 2つの弦楽器のオブジェクトを1つの弦楽器オブジェクトとして纏める場合について説明する。統合オブジェクトとしての1つの弦楽器オブジェクトには新たなオブジェクトタイプ(obj_type)が割り当てられる。
 纏める対象のオブジェクトであるバイオリン1のオーディオ波形データをx(n,10)、バイオリン2のオーディオ波形データをx(n,11)とすると、統合オブジェクトとしての弦楽器オブジェクトのオーディオ波形データx(n,14)は、下式(7)により表される。
Figure JPOXMLDOC01-appb-M000007
 ここで、バイオリン1とバイオリン2は同じ弦楽器であるので、2つのオーディオ波形データの相関は高い。
 下式(8)で示すバイオリン1とバイオリン2のオーディオ波形データの差成分x(n,15)は、情報エントロピーが低く、符号化する場合のビットレートも少なくて済む。
Figure JPOXMLDOC01-appb-M000008
 式(8)で示す差成分x(n,15)を、和成分として表されるオーディオ波形データx(n,14)とともに伝送することにより、以下に説明するように、低いビットレートで高音質を実現することが可能になる。
 通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)も伝送される。
 オーディオ波形データx(n,14)とともに差成分x(n,15)を受信した再生装置2は、以下の式(9)、式(10)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)と、バイオリン2のオーディオ波形データx(n,11)を再現することができる。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 この場合、コンテンツ生成装置1のコンテンツ記憶部55には、所定の視点が選択された場合に伝送する弦楽器オブジェクトのオーディオデータとして、オーディオ波形データx(n,14)とともに差成分x(n,15)が記憶される。
 差成分のデータを保持していることを示すフラグがコンテンツ生成装置1において管理される。そのフラグは、例えば他の情報とともにコンテンツ生成装置1から再生装置2に対して送信され、差成分のデータを保持していることが再生装置2により特定される。
 このように、相関の高いオブジェクトのオーディオ波形データについては、差成分をもコンテンツ生成装置1側に保持させておくことにより、伝送ビットレートに応じた音質の調整を2段階で行うことが可能になる。すなわち、再生装置2の通信環境がよい場合(伝送ビットレートが高い場合)にはオーディオ波形データx(n,14)と差成分x(n,15)が伝送され、通信環境がよくない場合にはオーディオ波形データx(n,14)のみが伝送される。
 なお、オーディオ波形データx(n,14)と差成分x(n,15)を足し合わせたデータ量は、オーディオ波形データx(n,10)とx(n,11)を足し合わせたデータ量より少ない。
 オブジェクトの数が4つである場合も同様にして纏めることが可能である。4つの楽器を纏めると、その纏めたオブジェクトのオーディオ波形データx(n,14)は下式(11)により表される。
Figure JPOXMLDOC01-appb-M000011
 ここで、x(n,10)はバイオリン1のオーディオ波形データ、x(n,11)はバイオリン2のオーディオ波形データ、x(n,12)はバイオリン3のオーディオ波形データ、x(n,13)はバイオリン4のオーディオ波形データである。
 この場合、下式(12)~(14)で表される差成分のデータがコンテンツ生成装置1により保持される。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)、x(n,16)、x(n,17)も伝送される。
 オーディオ波形データx(n,14)とともに差成分x(n,15)、x(n,16)、x(n,17)を受信した再生装置2は、以下の式(15)~(18)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)、バイオリン2のオーディオ波形データx(n,11)、バイオリン3のオーディオ波形データx(n,12)、バイオリン4のオーディオ波形データx(n,13)を再現することができる。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000018
 さらに、下式(19)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン1のオーディオ波形データとバイオリン2のオーディオ波形データの和(x(n,10) + x(n,11))を取得することが可能であることが分かる。また、下式(20)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン3のオーディオ波形データとバイオリン4のオーディオ波形データの和(x(n,12) + x(n,13))を取得することが可能であることが分かる。
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
 例えば、再生装置2が対応可能な伝送ビットレートが第1の閾値より高く、通信環境が3段階のうち最もよい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)、x(n,16)、x(n,17)がコンテンツ生成装置1から伝送される。
 再生装置2においては、式(15)~(18)に示す計算が行われ、バイオリン1、バイオリン2、バイオリン3、バイオリン4の各オブジェクトのオーディオ波形データが取得され、高品質での再生が行われる。
 また、再生装置2が対応可能な伝送ビットレートが上記第1の閾値より未満であるが、第2の閾値より高く、通信環境が比較的よい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)がコンテンツ生成装置1から伝送される。
 再生装置2においては、式(19)、式(20)に示す計算が行われ、バイオリン1とバイオリン2を纏めたオーディオ波形データと、バイオリン3とバイオリン4を纏めたオーディオ波形データが取得され、オーディオ波形データx(n,14)だけを用いた場合より高品質での再生が行われる。
 再生装置2が対応可能な伝送ビットレートが上記第2の閾値未満である場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)がコンテンツ生成装置1から伝送される。
 このように、伝送ビットレートに応じた階層的な伝送(符号化)がコンテンツ生成装置1により行われるようにしてもよい。
 このような階層的な伝送が、再生装置2のユーザが支払った料金に応じて行われるようにしてもよい。例えば、ユーザが通常の料金を支払った場合にはオーディオ波形データx(n,14)のみの伝送が行われ、その料金より高い料金を支払った場合には、オーディオ波形データx(n,14)と差成分の伝送が行われる。
 (4)ポイントクラウド動画像データとの連携
 コンテンツ生成装置1が伝送するコンテンツのビデオデータがポイントクラウド動画像データであるものとする。ポイントクラウド動画像データとオブジェクトオーディオデータは、ともに3次元空間上の座標データを持ち、その座標における色データおよびオーディオデータとなる。
 なお、ポイントクラウド動画像データについては、例えば「Microsoft “A Voxelized Point Cloud Dataset”,<https://jpeg.org/plenodb/pc/microsoft/>」に開示されている。
 コンテンツ生成装置1は、例えば、ボーカルの位置情報として3次元座標を保持し、その座標に紐づける形で、ポイントクラウド動画像データおよびオーディオオブジェクトデータを保持する。これにより、再生装置2は、所望のオブジェクトのポイントクラウド動画像データとオーディオのオブジェクトデータを容易に取得することができる。
<<変形例>>
 コンテンツ生成装置1が伝送するオーディオビットストリーム中に、そのストリームにより伝送されるオブジェクトが、纏められていない独立のオブジェクトであるのか、統合オブジェクトであるのか否かを示すフラグ情報が含まれるようにしてもよい。フラグ情報を含むオーディオビットストリームを図19に示す。
 図19のオーディオビットストリームには、例えば、オブジェクトのオーディオ波形データとレンダリングパラメータも含まれる。
 図19のフラグ情報が、ストリームにより伝送されるオブジェクトが独立のオブジェクトであるのか否かを示す情報、または、統合オブジェクトであるのか否かを示す情報であってもよい。
 これにより、再生装置2は、ストリームを解析することによって、当該ストリームに含まれるデータが、統合オブジェクトのデータであるのか、独立のオブジェクトのデータであるのかを特定することが可能になる。
 このようなフラグ情報が、図20に示すように、ビットストリームとともに伝送される再生管理ファイルに記述されるようにしてもよい。再生管理ファイルには、当該再生管理ファイルが再生対象とするストリーム(当該再生管理ファイルを用いて再生が行われるストリーム)のストリームID等の情報も記述される。この再生管理ファイルは、MPEG-DASHのMPD(Media Presentation Description)fileとして構成されてもよい。
 これにより、再生装置2は、再生管理ファイルを参照することによって、当該ストリームにより伝送されるオブジェクトが、統合オブジェクトであるのか、独立のオブジェクトであるのかを特定することが可能になる。
 再生装置2により再生されるコンテンツが、ビデオデータと、オブジェクトベースのオーディオデータとを含むものであるとしたが、ビデオデータを含まずに、オブジェクトベースのオーディオデータからなるコンテンツであってもよい。レンダリングパラメータが用意されている聴取位置の中から所定の聴取位置が選択された場合、選択された聴取位置に対するレンダリングパラメータを用いて、各オーディオオブジェクトの再生が行われる。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
・プログラムについて
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図9に示されるリムーバブルメディア31に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM22や記憶部28に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
・組み合わせについて
 本技術は、以下のような構成をとることもできる。
(1)
 複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
 統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
 を備える情報処理装置。
(2)
 前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
 前記(1)に記載の情報処理装置。
(3)
 前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
 前記(2)に記載の情報処理装置。
(4)
 前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する
 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
 前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(10)
 複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
 統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
 ステップを含む情報処理方法。
(11)
 コンピュータに、
 複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
 統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
 ステップを含む処理を実行させるためのプログラム。
 1 コンテンツ生成装置, 2 再生装置, 51 オーディオエンコーダ, 52 メタデータエンコーダ, 53 オーディオ生成部, 54 ビデオ生成部, 55 コンテンツ記憶部, 56 伝送制御部, 61 統合部, 71 コンテンツ取得部, 72 分離部, 73 オーディオ再生部, 74 ビデオ再生部 73 オーディオ再生部

Claims (11)

  1.  複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
     統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
     を備える情報処理装置。
  2.  前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
     請求項1に記載の情報処理装置。
  3.  前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
     請求項2に記載の情報処理装置。
  4.  前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
     請求項1に記載の情報処理装置。
  5.  前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
     請求項1に記載の情報処理装置。
  6.  前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する
     請求項1に記載の情報処理装置。
  7.  前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
     請求項1に記載の情報処理装置。
  8.  前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
     請求項1に記載の情報処理装置。
  9.  前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
     請求項1に記載の情報処理装置。
  10.  複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
     統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
     ステップを含む情報処理方法。
  11.  コンピュータに、
     複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
     統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
     ステップを含む処理を実行させるためのプログラム。
PCT/JP2018/010165 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム WO2018180531A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019509243A JP7230799B2 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム
US16/488,136 US11074921B2 (en) 2017-03-28 2018-03-15 Information processing device and information processing method
EP18774689.6A EP3605531B1 (en) 2017-03-28 2018-03-15 Information processing device, information processing method, and program
CN201880019499.7A CN110447071B (zh) 2017-03-28 2018-03-15 信息处理装置、信息处理方法和记录程序的可拆卸介质
JP2023007068A JP2023040294A (ja) 2017-03-28 2023-01-20 再生装置、再生方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017062305 2017-03-28
JP2017-062305 2017-03-28

Publications (1)

Publication Number Publication Date
WO2018180531A1 true WO2018180531A1 (ja) 2018-10-04

Family

ID=63677107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/010165 WO2018180531A1 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US11074921B2 (ja)
EP (1) EP3605531B1 (ja)
JP (2) JP7230799B2 (ja)
CN (1) CN110447071B (ja)
WO (1) WO2018180531A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
JP2021136465A (ja) * 2020-02-21 2021-09-13 日本放送協会 受信装置、コンテンツ伝送システム、及びプログラム
WO2023085140A1 (ja) * 2021-11-12 2023-05-19 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
RU2823537C1 (ru) * 2019-10-14 2024-07-23 Конинклейке Филипс Н.В. Устройство и способ кодирования аудио

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410299B (zh) * 2017-08-15 2022-03-11 腾讯科技(深圳)有限公司 一种信息处理方法、装置和计算机存储介质
JP2020005038A (ja) * 2018-06-25 2020-01-09 キヤノン株式会社 送信装置、送信方法、受信装置、受信方法、及び、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050249367A1 (en) * 2004-05-06 2005-11-10 Valve Corporation Encoding spatial data in a multi-channel sound file for an object in a virtual environment
WO2014015299A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP2016528542A (ja) * 2013-07-22 2016-09-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 拡張空間オーディオオブジェクト符号化の装置及び方法
JP2016530803A (ja) * 2013-07-31 2016-09-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177628A (ja) * 1997-12-15 1999-07-02 Mitsubishi Electric Corp 広域環境用3次元仮想空間共有システム
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
KR101396140B1 (ko) * 2006-09-18 2014-05-20 코닌클리케 필립스 엔.브이. 오디오 객체들의 인코딩과 디코딩
CN101479786B (zh) * 2006-09-29 2012-10-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CA2645863C (en) * 2006-11-24 2013-01-08 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US8644970B2 (en) * 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US9197978B2 (en) * 2009-03-31 2015-11-24 Panasonic Intellectual Property Management Co., Ltd. Sound reproduction apparatus and sound reproduction method
US8892230B2 (en) * 2009-11-18 2014-11-18 Nec Corporation Multicore system, control method of multicore system, and non-transitory readable medium storing program
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
CN104541524B (zh) * 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
CN106104679B (zh) * 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
CA3210174A1 (en) * 2014-05-30 2015-12-03 Sony Corporation Information processing apparatus and information processing method
KR101646867B1 (ko) * 2015-02-23 2016-08-09 서울과학기술대학교 산학협력단 마이크로폰 위치정보를 이용하는 ftv 입체음향 구현 장치 및 그 방법
CN106409301A (zh) * 2015-07-27 2017-02-15 北京音图数码科技有限公司 数字音频信号处理的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050249367A1 (en) * 2004-05-06 2005-11-10 Valve Corporation Encoding spatial data in a multi-channel sound file for an object in a virtual environment
WO2014015299A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP2016528542A (ja) * 2013-07-22 2016-09-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 拡張空間オーディオオブジェクト符号化の装置及び方法
JP2016530803A (ja) * 2013-07-31 2016-09-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
WO2021074007A1 (en) * 2019-10-14 2021-04-22 Koninklijke Philips N.V. Apparatus and method for audio encoding
CN114600188A (zh) * 2019-10-14 2022-06-07 皇家飞利浦有限公司 用于音频编码的装置和方法
US20220383885A1 (en) * 2019-10-14 2022-12-01 Koninklijke Philips N.V. Apparatus and method for audio encoding
RU2823537C1 (ru) * 2019-10-14 2024-07-23 Конинклейке Филипс Н.В. Устройство и способ кодирования аудио
JP2021136465A (ja) * 2020-02-21 2021-09-13 日本放送協会 受信装置、コンテンツ伝送システム、及びプログラム
JP7457525B2 (ja) 2020-02-21 2024-03-28 日本放送協会 受信装置、コンテンツ伝送システム、及びプログラム
WO2023085140A1 (ja) * 2021-11-12 2023-05-19 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2023040294A (ja) 2023-03-22
US11074921B2 (en) 2021-07-27
EP3605531B1 (en) 2024-08-21
US20200043505A1 (en) 2020-02-06
JPWO2018180531A1 (ja) 2020-02-06
JP7230799B2 (ja) 2023-03-01
CN110447071B (zh) 2024-04-26
EP3605531A4 (en) 2020-04-15
CN110447071A (zh) 2019-11-12
EP3605531A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
WO2018180531A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6676801B2 (ja) マルチチャンネル音声コンテンツを表すビットストリームを生成する方法、およびデバイス
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020148120A2 (en) Processing audio signals
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
US20200374645A1 (en) Augmented reality platform for navigable, immersive audio experience
WO2018047667A1 (ja) 音声処理装置および方法
JP2020504384A (ja) バーチャルリアリティ分野における装置および関連する方法
CN111630878B (zh) 用于虚拟现实/增强现实音频播放的装置和方法
KR101381396B1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
CA2765116A1 (en) Method and apparatus for processing audio signals
US11212637B2 (en) Complementary virtual audio generation
EP3777249A1 (en) An apparatus, a method and a computer program for reproducing spatial audio
WO2017022467A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2022083443A (ja) オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
KR20220071867A (ko) 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
JP2021129127A (ja) 受信装置、送信装置、受信方法、送信方法、およびプログラム
WO2021140959A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
CN113632496A (zh) 相关联的空间音频回放
WO2022137606A1 (ja) 管理サーバ
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Lopes INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES
JP2023514121A (ja) ビデオ情報に基づく空間オーディオ拡張

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18774689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019509243

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018774689

Country of ref document: EP

Effective date: 20191028