WO2021065496A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021065496A1
WO2021065496A1 PCT/JP2020/035010 JP2020035010W WO2021065496A1 WO 2021065496 A1 WO2021065496 A1 WO 2021065496A1 JP 2020035010 W JP2020035010 W JP 2020035010W WO 2021065496 A1 WO2021065496 A1 WO 2021065496A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
data
audio data
omnidirectional
sound
Prior art date
Application number
PCT/JP2020/035010
Other languages
English (en)
French (fr)
Inventor
辰志 梨子田
高橋 巨成
山崎 達也
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/754,009 priority Critical patent/US20230413001A1/en
Publication of WO2021065496A1 publication Critical patent/WO2021065496A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • H04N5/06Generation of synchronising signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and particularly to signal processing devices, methods, and programs that enable synchronous reproduction of video and sound.
  • Non-Patent Document 1 an object audio technology (hereinafter, also referred to as omnidirectional object audio) that realizes sound image localization to an arbitrary position for 360-degree omnidirectional objects is known (see, for example, Non-Patent Document 1).
  • omnidirectional content content
  • video and sound of the omnidirectional content will also be referred to as omnidirectional video and omnidirectional audio in particular.
  • playing back omnidirectional content in addition to playing back omnidirectional audio, playing back omnidirectional video must be performed at the same time, which increases the processing load.
  • the device for audio playback and the device for video playback are separated. It may have to be a device of.
  • the data formats of the omnidirectional video data and the omnidirectional audio data are different. Therefore, when the omnidirectional video and the omnidirectional audio are reproduced by different playback devices, the omnidirectional video and the omnidirectional audio are reproduced. could not be played back in sync.
  • This technology was made in view of such a situation, and enables the video and sound to be reproduced in synchronization.
  • the signal processing device of one aspect of the present technology is based on the playback control unit that controls the reproduction of the video based on the video data of the video associated with the sound based on the multi-channel audio data, and the multi-channel audio data.
  • the synchronization signal for reproducing the sound in synchronization with the video is generated based on the audio data for reproducing the sound, which is audio data having a smaller number of channels than the multi-channel audio data. It is provided with a signal generation unit.
  • the signal processing method or program of one aspect of the present technology controls the reproduction of the video based on the video data of the video associated with the sound based on the multi-channel audio data, and the above-mentioned based on the multi-channel audio data.
  • the reproduction of the video is controlled based on the video data of the video associated with the sound based on the multi-channel audio data, and synchronized with the video based on the multi-channel audio data.
  • the synchronization signal for reproducing the sound is audio data having a smaller number of channels than the multi-channel audio data, and is generated based on the audio data for reproducing the sound.
  • This technology produces omnidirectional video and omnidirectional audio by generating a synchronization signal based on audio data with a smaller number of channels, which corresponds to multi-channel audio data of omnidirectional audio when playing back omnidirectional content. It enables synchronous playback.
  • the omnidirectional video and the omnidirectional audio that compose the omnidirectional content may be any kind, but in the following, the omnidirectional audio will be described as a musical piece.
  • a music consists of sounds of a plurality of sound sources such as sounds of musical instruments such as vocals and guitars, but here, each sound source is regarded as one audio object (hereinafter, simply referred to as an object), and those objects (hereinafter, simply referred to as objects). It is assumed that the audio data of the sound of the sound source) is prepared as the audio data of the omnidirectional audio.
  • the audio data of the object is associated with metadata including position information indicating the position of the object.
  • the rendering process is performed based on the audio data and metadata of each object, and multi-channel audio data for playing the music as omnidirectional audio is generated.
  • the sound image of the sound of each object such as the sound of vocals and the sound of musical instruments is localized at the position indicated by the position information.
  • the omnidirectional video associated with such omnidirectional audio includes a music video video corresponding to a music as omnidirectional audio, a video generated based on audio data of omnidirectional audio, and the like. It may be something like.
  • the video data (moving image data) of the omnidirectional video is audio data having fewer channels than the multi-channel audio data of the omnidirectional audio generated from each audio data of the omnidirectional audio, or the omnidirectional audio.
  • the explanation is continued assuming that it is generated based on the multi-channel audio data of.
  • omnidirectional audio materials such as music are commercial materials, so stereo (2 channels) audio data, music videos, etc. for playing the music, etc., generated for distribution to users, etc. Also exists in most cases.
  • a playback system For example, while playing a musical piece, a playback system has been proposed in which an omnidirectional image corresponding to the musical piece is projected and displayed on a dome-shaped screen.
  • an image corresponding to a musical piece is displayed by projecting an omnidirectional image on a dome-shaped, that is, a hemispherical-shaped screen using two projectors.
  • WAV Personal Computer
  • the frequency band, sound pressure level, phase, etc. are analyzed in real time for the audio data of such music. Then, a CG (Computer Graphics) image is generated based on the analysis result, and the obtained CG image is reproduced as an omnidirectional image.
  • CG Computer Graphics
  • a method of performing analysis processing on the audio data of a musical piece and generating a CG image corresponding to the musical piece based on the result of the analysis processing will also be referred to as an analysis generation method.
  • the reproduction of omnidirectional content is realized by combining the object-based omnidirectional object audio technology.
  • a system for reproducing such omnidirectional content will be referred to as an omnidirectional content reproduction system.
  • omnidirectional object audio sound sources such as vocals, choruses, and musical instruments that make up music (music) are used as objects in a multi-channel audio environment, and position information is added to those objects. It is possible to place a sound source (object) in the direction.
  • artists and creators can decide the sound source composition and the arrangement of each sound source based on their own musicality and creativity when creating content.
  • the omnidirectional audio generated in this way cannot be reproduced by a conventional stereo-based playback device that performs stereo reproduction of two channels of L and R. That is, it is not possible to localize the sound image at an arbitrary position in all directions of 360 degrees.
  • the sound image of each sound source (object) can be accurately localized at a position determined by the distance and angle indicated by the position information determined at the time of content creation. In other words, it is possible to accurately reflect the creative intention of the content creator and realize a highly realistic sound field reproduction as if the user can hear the sound from all directions of 360 degrees.
  • binaural playback that realizes omnidirectional object audio with ordinary 2-channel headphones by appropriately processing signals using the head-related transfer function as a model formula for the sound that reaches the left and right ears of the user (listener).
  • head-related transfer function as a model formula for the sound that reaches the left and right ears of the user (listener).
  • the omnidirectional video generated by the analysis generation method and the omnidirectional video are omnidirectional. Plays in sync with the audio.
  • the omnidirectional image is not limited to the one generated by the analysis generation method, but may be generated by an artist or a creator.
  • the audio data and metadata of the object are generated as the omnidirectional audio data.
  • the audio data and metadata of such objects are generated by, for example, artists and creators using authoring tools to edit the audio data and the positions of the objects for each object such as music and vocals.
  • the audio data of each object may be monaural audio data or multi-channel audio data.
  • the authoring tool converts the position information consisting of the distance from the listening position to the object and the direction of the object as seen from the listening position, which indicates the position of each object, as meta information.
  • the character "BN_Song_01_U_180306-2_Insert 13.wav” indicates the audio data of the object corresponding to the metadata, that is, the file name of the sound source file.
  • the position information indicating the position of one object at each playback time is arranged in chronological order, and the part of one line such as the part indicated by the arrow Q11 is a tag indicating the position information at one time. It has become.
  • the attribute name "node offset" in the tag is information that can be converted into time information during playback of the omnidirectional audio content, and this information indicates the playback time of the omnidirectional audio.
  • attribute names "azimuth”, “elevation”, and “radius” in the tag indicate the azimuth, elevation, and radius that indicate the position of the object at the playback time indicated by "node offset”.
  • the position of the listener is set as the origin O, and the origin O is centered in the three-dimensional XYZ space consisting of the X-axis, the Y-axis, and the Z-axis.
  • the object is placed in.
  • the position of the mapping destination (projection destination) of the position P1 on the XY plane is the position P1'
  • the straight line connecting the origin O and the position P1 is the straight line L1
  • the straight line connecting the origin O and the position P1' is the straight line L1.
  • the horizontal angle indicating the position P1 seen from the origin O that is, the angle formed by the X-axis and the straight line L1'is the azimuth
  • the vertical angle indicating the position P1 seen from the origin O that is, The angle between the XY plane and the straight line L1 is the elevation angle elevation.
  • the distance from the origin O to the position P1, that is, the length of the straight line L1 is defined as the radius radius.
  • the position of the object in the three-dimensional space can be determined from the position information as shown by arrow Q22.
  • the three-dimensional spatial coordinates shown can be obtained.
  • polar coordinates consisting of an azimuth, an elevation, and a radius can be obtained, for example, as three-dimensional spatial coordinates.
  • the editing screen shown by arrow Q31 in FIG. 3 is displayed, and the origin O, which is the center position of the three-dimensional space, is set as the listener position, that is, the listening position.
  • Artists and creators place a spherical image representing an object (sound source) at a desired position in a three-dimensional space centered on the origin O on such an editing screen to determine the position of the object at each time. specify.
  • the above-mentioned metadata in XML format can be obtained.
  • the space on the editing screen where the object (sound source) is placed and the space for omnidirectional video expression are directly linked. By doing so, an omnidirectional content playback system can be realized.
  • position information indicating the position of the object is described in an XML tag arranged in chronological order.
  • the position information included in the metadata can be converted into the coordinate information indicating the coordinates (position) in the video space of the omnidirectional video by format conversion such as two-dimensional mapping.
  • format conversion such as two-dimensional mapping.
  • coordinate information indicating the position in the video space corresponding to the placement position of the object determined by the artist or creator can be obtained. Therefore, by using the coordinate information, omnidirectional to realize more accurate video expression. Video data of video can be obtained.
  • a CG image or the like reminiscent of the object can be displayed at a position corresponding to the object in the image space, and the image position and the sound image position of the object can be displayed. Can be matched.
  • FIG. 4 shows a side view of the omnidirectional content playback system 11.
  • the omnidirectional content reproduction system 11 is a speaker array 23 including a dome-shaped screen 21, projectors 22-1 to 22-4 for projecting omnidirectional images, and a plurality of speakers such as 32. have.
  • the projectors 22-1 to 22-4 and the speakers constituting the speaker array 23 are arranged along the screen 21 in the inside of the screen 21, that is, in the space surrounded by the screen 21.
  • the projector 22 when it is not necessary to distinguish the projectors 22-1 to 22-4, they are simply referred to as the projector 22.
  • FIG. 5 when the screen 21 is viewed from diagonally above, for example, as shown in FIG. 5, a space is provided in the central portion of the space surrounded by the screen 21 so that the viewer can view the omnidirectional content. Each viewer can view the omnidirectional content in any direction.
  • the same reference numerals are given to the parts corresponding to the cases in FIG. 4, and the description thereof will be omitted.
  • the speakers of the speaker array 23 are arranged so as to surround the viewer, and by reproducing the omnidirectional audio by these speakers, the sound is produced from the omnidirectional direction toward the viewer. Can be output. That is, the sound image can be localized in any direction that targets all directions when viewed from the viewer.
  • the four projectors 22 project the image on the inner region of the screen 21 without any gap, so that the omnidirectional image is viewed from the viewer in all directions. Is made to be able to be displayed.
  • the projector 22-1 projects an image on the area R11 inside the screen 21
  • the projector 22-2 projects the image on the area R12 inside the screen 21.
  • the projector 22-3 projects an image on the area R13 inside the screen 21, and the projector 22-4 projects the image on the area R14 inside the screen 21.
  • the image is displayed in the area inside the screen 21 without any gap, and the presentation of the omnidirectional image is realized.
  • the number of projectors 22 may be any number.
  • the number of speakers constituting the speaker array 23 may be any number.
  • the omnidirectional audio is reproduced based on the 32-channel multi-channel audio data corresponding to those speakers, so that the processing load becomes large.
  • a dedicated PC or the like is required as a playback device for reproducing omnidirectional audio based on multi-channel audio data.
  • the device on the reproduction side of the omnidirectional video holds the audio data of the omnidirectional audio in association with the video data of the omnidirectional video, and synchronizes based on the audio data. Changed to generate a signal.
  • a moving image file containing video data generally has a structure as shown in FIG. 7.
  • the moving image data, the audio data (audio data) of the audio accompanying the moving image based on the moving image data, and the character data such as subtitles related to the moving image data are stored in the container. It is one moving image file.
  • a moving image file in which video data (moving image data) of omnidirectional video and audio data of omnidirectional audio corresponding to the omnidirectional video are associated and stored is generated in advance. It is saved in the device on the playback side of the omnidirectional video.
  • a moving image file in which such omnidirectional video data and omnidirectional audio audio data are associated and stored will be referred to as an omnidirectional video file.
  • the audio data of the omnidirectional audio stored in the omnidirectional video file will also be referred to as the synchronization audio data.
  • the audio data for synchronization is audio data generated from audio data for each object of omnidirectional audio used for generation of multi-channel audio data for reproduction of omnidirectional audio, that is, rendering. Therefore, for example, if the sound is reproduced based on the synchronization audio data, the same sound as when the sound is reproduced based on the multi-channel audio data of the omnidirectional audio is reproduced.
  • the audio data for synchronization is defined as 2-channel (stereo) audio data having a smaller number of channels than the multi-channel audio data for reproducing omnidirectional audio.
  • the audio data for synchronization may be generated at the time of editing the omnidirectional audio by the authoring tool, or may be generated after the editing.
  • the audio data for synchronization may be generated based on the audio data for each object of the omnidirectional audio.
  • synchronization audio data may be generated based on the audio data of one object.
  • synchronization audio data may be generated by downmixing the multi-channel audio data obtained by performing the rendering process based on the audio data for each object.
  • the audio data may be used as audio data for synchronization. ..
  • the video data of the omnidirectional video stored in the omnidirectional video file can be generated based on, for example, the audio data for synchronization.
  • the omnidirectional video is produced according to the position information of the object (sound source) based on the metadata in XML format obtained by editing.
  • the omnidirectional video in addition to this, it is necessary to consider omnidirectional audio, that is, the timing of sound.
  • an omnidirectional image is generated by performing an analysis process on the audio data for reproducing the omnidirectional audio, and the synchronization audio data is used to generate this omnidirectional image. May be good. That way, an appropriate omnidirectional image can be obtained without the need for artists and creators to do production work.
  • the synchronization audio data used for generating the omnidirectional video is associated with the video data of the omnidirectional video to form one file, the video and sound are completely synchronized as the video content. You can get the omnidirectional video file.
  • control is performed so that the omnidirectional video and the omnidirectional audio reproduced by different devices are synchronized with each other.
  • the omnidirectional video is directly displayed based on the omnidirectional video file in which the video and sound are completely synchronized, and more specifically, the video data contained in the omnidirectional video file. Just play it.
  • the omnidirectional content playback system 11 generates a synchronization signal such as Word Clock based on the synchronization audio data, for example, based on the synchronization audio data.
  • the synchronization signal is not limited to Word Clock, and may be any other signal as long as synchronous playback of omnidirectional video and omnidirectional audio is possible.
  • the synchronization signal is generated in this way, the synchronization signal is output to the device on the playback side of the omnidirectional audio.
  • the device on the reproduction side of the omnidirectional audio reproduces the omnidirectional audio based on the multi-channel audio data while performing control such as pitch control (playback speed adjustment) based on the supplied synchronization signal.
  • control such as pitch control (playback speed adjustment) based on the supplied synchronization signal.
  • the omnidirectional video is a CG video generated by an analysis generation method or the like
  • a music video video superimposed on such a CG video is reproduced as an omnidirectional video. You may do it.
  • the XML format metadata of the omnidirectional audio is parsed, the type of the object of the omnidirectional audio is specified, and the arrangement position (superimposition position) of the music video image in the CG image is determined according to the specific result. You may decide.
  • the music video is arranged with respect to the CG image so that the vocal image in the music video image is arranged at the position indicated by the position information of the object "vocal", that is, the sound image localization position of the object "vocal”. The image is superimposed.
  • the position of the vocal (vocalist) in the video of the music video may be specified by, for example, image recognition, or may be manually specified in advance.
  • the type of object that is, the name of the sound source (object) can be specified from the name of the sound source file included in the metadata in XML format, for example.
  • a sound source file in which characters such as "Voice” and “Vocal” are included is specified as a sound source file related to the object "vocal”.
  • the audio data of the object may be used to specify the type of the object, or the metadata and the audio data of the object may be used in combination.
  • the frequency component and time waveform contained in the sound differ depending on the musical instrument.
  • the name of the musical instrument as a sound source and the time waveform of the sound of each musical instrument are shown.
  • each instrument has its own characteristics, such as the time waveform of the piano has a small amplitude change and the time waveform of the flute has a large amplitude.
  • the type of each object can be discriminated (specified) by performing analysis processing on the audio data of the object.
  • the omnidirectional video and the omnidirectional audio use different devices.
  • the omnidirectional video and the omnidirectional audio can be easily synchronized and played back. Therefore, a general-purpose system such as a PC can be used for reproducing omnidirectional video and omnidirectional audio.
  • omnidirectional audio since the material of omnidirectional audio is generally commercial, there are two channels of audio data that are distributed as audio data of the omnidirectional audio, and it corresponds to omnidirectional audio. In many cases, there are also music videos that are played.
  • FIG. 9 is a diagram showing a functional configuration example of the omnidirectional content playback system 11.
  • the parts corresponding to the case in FIG. 4 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the omnidirectional content playback system 11 shown in FIG. 9 includes a video server 51, projectors 22-1 to 22-4, an audio server 52, and a speaker array 23. Further, although not shown in FIG. 9, the omnidirectional content reproduction system 11 is also provided with a screen 21.
  • the video server 51 is composed of a signal processing device such as a PC, and functions as a playback device that controls playback of omnidirectional video.
  • the audio server 52 is composed of a signal processing device such as a PC, and functions as a playback device that controls playback of omnidirectional audio.
  • the video server 51 and the audio server 52 are made of different devices, and these video server 51 and the audio server 52 are connected by wire or wirelessly.
  • the speaker array 23 is composed of N speakers 53-1 to 53-N, and these speakers 53-1 to 53-N are arranged hemispherically along the screen 21, for example.
  • the speaker 53 is also simply referred to as the speaker 53.
  • the video server 51 has a recording unit 71, a video processing unit 72, a playback control unit 73, and a synchronization signal generation unit 74.
  • the recording unit 71 is composed of, for example, a non-volatile memory, and records the above-mentioned omnidirectional video file, music video data, and each object constituting the omnidirectional audio, that is, metadata in XML format of multi-channel audio data.
  • the data is supplied to the video processing unit 72.
  • the omnidirectional video file recorded in the recording unit 71 is an MP4 format file in which at least the video data of the omnidirectional video and the audio data for synchronization are stored.
  • the music video data is data for playing a music video associated with omnidirectional audio. That is, here, the omnidirectional audio is the music, and the music video data is the music video data of the music.
  • the music video data may be video data or data composed of video data and audio data, but the music video data will be described below assuming that the music video data is composed of video data of the music video.
  • the video processing unit 72 performs video processing for superimposing the music video image on the omnidirectional video based on the omnidirectional video file, music video data, and metadata supplied from the recording unit 71, and finally omnidirectional. Generate video data of video.
  • the video processing unit 72 supplies the video data obtained by the video processing and the synchronization audio data extracted from the omnidirectional video file to the playback control unit 73.
  • the playback control unit 73 controls the projector 22 based on the video data supplied from the video processing unit 72 and the audio data for synchronization, and emits light (output) from the projector 22 toward the screen 21 corresponding to the omnidirectional video. ) To control the playback of omnidirectional video. As a result, the omnidirectional image is projected (displayed) on the screen 21 by the four projectors 22.
  • the reproduction control unit 73 supplies the synchronization audio data supplied from the image processing unit 72 to the synchronization signal generation unit 74 while performing reproduction control of the omnidirectional video.
  • the synchronization audio data may be supplied directly from the video processing unit 72 to the synchronization signal generation unit 74 without going through the playback control unit 73.
  • the synchronization signal generation unit 74 generates a synchronization signal based on the synchronization audio data supplied from the playback control unit 73, and supplies the synchronization signal to the audio server 52.
  • This synchronization signal is a signal indicating the playback timing of the omnidirectional audio for reproducing the omnidirectional audio in synchronization with the omnidirectional video based on the multi-channel audio data.
  • the synchronization signal generation unit 74 converts the synchronization audio data into a synchronization signal by performing a conversion process or the like for converting the format of the synchronization audio data.
  • the audio server 52 has an acquisition unit 81, a recording unit 82, a rendering processing unit 83, and a playback control unit 84.
  • the acquisition unit 81 is connected to the synchronization signal generation unit 74 by wire or wirelessly, and acquires the synchronization signal output from the synchronization signal generation unit 74 and supplies it to the reproduction control unit 84.
  • the recording unit 82 includes, for example, a non-volatile memory, and the audio data of each object of the omnidirectional audio corresponding to the video data of the omnidirectional video in the omnidirectional video file recorded in the recording unit 71, and their audio data. It is recorded in association with the metadata of the object.
  • the metadata recorded in the recording unit 82 is the same as the metadata recorded in the recording unit 71. These metadata are the metadata of the audio data of each object, but can also be said to be the metadata of the multi-channel audio data obtained by the rendering process based on the audio data.
  • the recording unit 82 supplies the recorded audio data and metadata to the rendering processing unit 83.
  • the rendering processing unit 83 performs rendering processing based on the audio data and metadata supplied from the recording unit 82, and supplies the multi-channel audio data for reproducing the omnidirectional audio obtained as a result to the reproduction control unit 84. To do.
  • filter processing for wave field synthesis and VBAP are performed as rendering processing, and multi-channel audio data is generated so that the sound image of the sound of each object is localized at the position indicated by the position information in the metadata. Will be done.
  • N-channel multi-channel audio data is generated in the rendering process.
  • a signal group consisting of speaker drive signals for each of N speakers 53 for reproducing the sound of the object as omnidirectional audio is generated as multi-channel audio data.
  • the multi-channel audio data generated in this way is used to reproduce the omnidirectional audio associated with the omnidirectional video based on the video data in the omnidirectional video file recorded in the recording unit 71 of the video server 51. It is the audio data of.
  • this multi-channel audio data is audio data for reproducing the same sound as the synchronization audio data in the omnidirectional video file recorded in the recording unit 71 of the video server 51, for example.
  • the audio data for synchronization is audio data having a smaller number of channels than the multi-channel audio data.
  • the installation condition information indicating the installation condition of the screen 21 is stored in the rendering processing unit 83 in advance, and the position information included in the metadata of each object is corrected based on the installation condition information at the time of rendering processing. May be good.
  • the rendering processing unit 83 when information indicating the radius of the hemispherical screen 21 is held as installation condition information, in the rendering processing unit 83, the value of the radius indicated by the position information of each object is determined by the installation condition information. Replaced with the radius value shown. When the position information is corrected in this way, the rendering process is performed using the corrected position information.
  • the multi-channel audio data obtained by performing the rendering process in advance may be recorded in the recording unit 82.
  • the multi-channel audio data recorded in the recording unit 82 is supplied from the recording unit 82 to the playback control unit 84.
  • the reproduction control unit 84 drives the speaker 53 based on the multi-channel audio data supplied from the rendering processing unit 83 while performing processing such as pitch control based on the synchronization signal supplied from the acquisition unit 81. As a result, the reproduction of the omnidirectional audio is controlled so as to be synchronized with the reproduction of the omnidirectional video.
  • step S11 the video processing unit 72 reads the omnidirectional video file, music video data, and metadata from the recording unit 71 and performs video processing to generate the final omnidirectional video video data.
  • the video processing unit 72 superimposes a video based on the music video data on the omnidirectional video based on the video data in the omnidirectional video file based on the position information and the like included in the metadata, so that the final total
  • the process of generating the image data of the orientation image is performed as the image process.
  • the video processing unit 72 supplies the video data of the final omnidirectional video obtained in this way and the audio data for synchronization in the omnidirectional video file to the playback control unit 73. Further, the reproduction control unit 73 supplies the synchronization audio data supplied from the video processing unit 72 to the synchronization signal generation unit 74.
  • the omnidirectional video file is not recorded in the recording unit 71, if the recording unit 71 records audio data for synchronization, metadata, or the like, the video data of the omnidirectional video can be obtained. Can be done. Further, the video of the music video may be superimposed on the omnidirectional video based on the video data generated by the analysis generation method.
  • step S12 the synchronization signal generation unit 74 generates a synchronization signal such as a Word Clock based on the synchronization audio data supplied from the playback control unit 73, and outputs the synchronization signal to the acquisition unit 81.
  • a synchronization signal such as a Word Clock
  • step S13 the acquisition unit 81 acquires the synchronization signal output from the synchronization signal generation unit 74 in step S12 and supplies it to the reproduction control unit 84.
  • step S14 the rendering processing unit 83 reads the audio data and metadata of each object of omnidirectional audio from the recording unit 82, performs rendering processing, and generates multi-channel audio data.
  • the rendering processing unit 83 supplies the multi-channel audio data obtained by the rendering processing to the reproduction control unit 84.
  • step S15 the playback control unit 73 reproduces the omnidirectional video by outputting light corresponding to the video data from the projector 22 based on the video data supplied from the video processing unit 72 and the audio data for synchronization. As a result, the omnidirectional image is displayed on the screen 21.
  • step S16 the reproduction control unit 84 drives the speaker 53 based on the multi-channel audio data supplied from the rendering processing unit 83 while performing processing such as pitch control based on the synchronization signal supplied from the acquisition unit 81.
  • the speaker array 23 reproduces the omnidirectional audio.
  • the omnidirectional video and the omnidirectional audio are reproduced in a synchronized state.
  • the omnidirectional content playback system 11 reproduces the omnidirectional video based on the omnidirectional video file, generates a synchronization signal based on the synchronization audio data in the omnidirectional video file, and synchronizes the omnidirectional video file. Play omnidirectional audio using signals.
  • the omnidirectional video and the omnidirectional audio can be easily obtained. It can be played back in synchronization. That is, the video and sound of the omnidirectional content can be reproduced in synchronization.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 11 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM ReadOnly Memory
  • RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a playback control unit that controls the playback of the video based on the video data of the video associated with the sound based on the multi-channel audio data.
  • the synchronization signal for reproducing the sound in synchronization with the video based on the multi-channel audio data is audio data having a smaller number of channels than the multi-channel audio data, and is audio for reproducing the sound.
  • a signal processing device including a synchronization signal generator that generates data based on data.
  • the signal processing device according to (1), wherein the multi-channel audio data is data for reproducing the sound of an audio object.
  • a video processing unit that generates video data of the video based on at least one of the video data of another video associated with the sound, the metadata of the multi-channel audio data, and the audio data.
  • the signal processing apparatus according to (2).
  • (4) The signal according to (3), wherein the video processing unit performs frequency band, sound pressure level, or phase analysis processing on the audio data, and generates video data of the video based on the result of the analysis processing. Processing equipment.
  • the signal processing device according to (3) or (4), wherein the metadata includes position information indicating the position of the audio object.
  • the multi-channel audio data is data for playing a musical piece, and is The signal processing device according to any one of (3) to (5), wherein the other video is a music video of the music.
  • the signal processing unit that generates The signal processing device according to (1) or (2), wherein the reproduction control unit controls reproduction of the new image based on the image data generated by the image processing unit.
  • the multi-channel audio data is data for playing a musical piece, and is The signal processing device according to (7), wherein the other video is a music video of the music.
  • the signal processing device Control the playback of the video based on the video data of the video associated with the sound based on the multi-channel audio data.
  • the synchronization signal for reproducing the sound in synchronization with the video based on the multi-channel audio data is audio data having a smaller number of channels than the multi-channel audio data, and is audio for reproducing the sound.
  • the synchronization signal for reproducing the sound in synchronization with the video based on the multi-channel audio data is audio data having a smaller number of channels than the multi-channel audio data, and is audio for reproducing the sound.
  • a program that causes a computer to perform processing that includes steps that are generated based on the data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、映像と音を同期して再生することができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、映像の再生を制御する再生制御部と、マルチチャンネルオーディオデータに基づいて映像に同期させて音を再生させるための同期信号を、マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、その音を再生するためのオーディオデータに基づいて生成する同期信号生成部とを備える。本技術は全方位コンテンツ再生システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に映像と音を同期して再生することができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、360度の全方位を対象として、任意の位置への音像定位を実現させるオブジェクトオーディオ技術(以下、全方位オブジェクトオーディオとも称する)が知られている(例えば、非特許文献1参照)。
 一方で、例えばドーム形状のスクリーンへと映像を投影することで、360度の全方位に映像を表示させる全方位映像技術も提案されている(例えば、特許文献1参照)。
 このような全方位映像技術と全方位オブジェクトオーディオとを組み合わせてコンテンツを再生すれば、臨場感の高いコンテンツをユーザに提示することができる。
 以下では、このようなコンテンツを全方位コンテンツとも称し、全方位コンテンツの映像および音を、特に全方位映像および全方位オーディオとも称することとする。
ISO/IEC 23008-3 Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio
国際公開第2018/101279号
 ところで、全方位オブジェクトオーディオでは、例えば32チャンネルなどのマルチチャンネルのオーディオデータに基づいてオーディオ再生を行う必要がある。
 全方位コンテンツの再生時には全方位オーディオの再生に加えて、全方位映像の再生も同時に行わなければならないので、処理負荷が高くなってしまう。
 したがって、高価な専用システムなどを使用することなく、パーソナルコンピュータなどの一般的な装置(汎用システム)を再生装置として利用する場合には、オーディオ再生用の装置と、映像再生用の装置とを別々の装置としなければならないことがある。
 そのような場合、全方位コンテンツの再生時には、全方位映像と全方位オーディオの同期をとる必要がある。
 しかしながら、現状では全方位映像のデータと全方位オーディオのデータとではデータ形式が異なるため、それらの全方位映像と全方位オーディオを異なる再生装置で再生する場合には、全方位映像と全方位オーディオを同期して再生させることができなかった。
 本技術は、このような状況に鑑みてなされたものであり、映像と音を同期して再生することができるようにするものである。
 本技術の一側面の信号処理装置は、マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御する再生制御部と、前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する同期信号生成部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御し、前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成するステップを含む。
 本技術の一側面においては、マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生が制御され、前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号が、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成される。
XML形式のメタデータの例を示す図である。 メタデータに含まれる位置情報について説明する図である。 メタデータに基づく全方位映像の生成について説明する図である。 全方位コンテンツ再生システムの外観の構成例を示す図である。 全方位コンテンツ再生システムの構成について説明する図である。 スクリーンへの全方位映像の表示について説明する図である。 全方位映像ファイルの構成について説明する図である。 オブジェクトの種別の特定について説明する図である。 全方位コンテンツ再生システムの機能的な構成例を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、全方位コンテンツの再生時に、全方位オーディオのマルチチャンネルのオーディオデータに対応する、よりチャンネル数の少ないオーディオデータに基づいて同期信号を生成することで、全方位映像と全方位オーディオを同期して再生することができるようにするものである。
 なお、全方位コンテンツを構成する全方位映像と全方位オーディオは、どのようなものであってもよいが、以下では、全方位オーディオは楽曲であるものとして説明を行う。
 一般的に楽曲は、ボーカルやギター等の楽器の音など、複数の音源の音からなるが、ここでは各音源が1つのオーディオオブジェクト(以下、単にオブジェクトと称する)とされて、それらのオブジェクト(音源)の音のオーディオデータが全方位オーディオのオーディオデータとして用意されているものとする。
 また、オブジェクトのオーディオデータには、そのオブジェクトの位置を示す位置情報を含むメタデータが対応付けられているものとする。
 この場合、各オブジェクトのオーディオデータとメタデータとに基づいてレンダリング処理が行われ、全方位オーディオとしての楽曲を再生するためのマルチチャンネルオーディオデータが生成される。
 そして、そのマルチチャンネルオーディオデータに基づいて楽曲が再生されると、ボーカルの音や楽器の音など、各オブジェクト(音源)の音の音像は、位置情報により示される位置に定位する。
 また、このような全方位オーディオに対応付けられた全方位映像は、全方位オーディオとしての楽曲に対応するミュージックビデオの映像や、全方位オーディオのオーディオデータ等に基づいて生成された映像など、どのようなものであってもよい。
 例えば、以下では全方位映像の映像データ(動画像データ)は、全方位オーディオの各オーディオデータから生成された、全方位オーディオのマルチチャンネルオーディオデータよりもチャンネル数の少ないオーディオデータ、または全方位オーディオのマルチチャンネルオーディオデータに基づいて生成されたものであるとして説明を続ける。
 一般的に楽曲等の全方位オーディオの素材は商用のものであるため、ユーザ等への配信用に生成された、その楽曲等を再生するためのステレオ(2チャンネル)のオーディオデータやミュージックビデオなども存在していることが殆どである。
 そのため、そのようなステレオのオーディオデータなどに基づいて、全方位オーディオと同時に再生される全方位映像の映像データを容易に生成することが可能である。
 それでは、以下、本技術について、より詳細に説明する。
 例えば楽曲を再生しながら、その楽曲に対応する全方位映像をドーム型のスクリーンに投影して表示させる再生システムが提案されていた。
 そのような再生システムでは、ドーム型、すなわち半球形状のスクリーンに対して、2台のプロジェクタを利用して全方位映像を投影することにより、楽曲に対応する映像が表示される。
 このような再生システムでは、再生される楽曲のオーディオデータとして、外部から入力されるアナログのオーディオデータや、パーソナルコンピュータ(以下、PC(Personal Computer)とも称する)で再生可能な拡張子が「WAV」であるデジタルのオーディオファイルにも対応している。
 そして再生システムでは、そのような楽曲のオーディオデータに対して周波数帯域や音圧レベル、位相などの解析がリアルタイムで行われる。そして、その解析結果に基づいてCG(Computer Graphics)映像が生成され、得られたCG映像が全方位映像として再生される。
 以下では、楽曲のオーディオデータに対する解析処理を行い、その解析処理の結果に基づいて楽曲に対応するCG映像を生成する手法を解析生成手法とも称することとする。
 本技術では、このような全方位映像の生成および再生に加えて、オブジェクトベースの全方位オブジェクトオーディオ技術を組み合わせることで、全方位コンテンツの再生が実現される。以下では、このような全方位コンテンツを再生するシステムを全方位コンテンツ再生システムと称することとする。
 ここで、全方位オブジェクトオーディオについて、さらに説明する。
 全方位オブジェクトオーディオでは、マルチチャンネルのオーディオ環境に対して、楽曲(音楽)を構成するボーカルやコーラス、各楽器などの音源をオブジェクトとして、それらのオブジェクトに対して位置情報を付加することで、全方位に音源(オブジェクト)を配置することが可能である。
 したがって、全方位オブジェクトオーディオでは、コンテンツ制作時にアーティストやクリエイタは、自身の音楽性や創造性をもとに音源構成や各音源の配置を決定することができる。
 このようにして生成された全方位オーディオは、従来のLとRの2チャンネルのステレオ再生を行うステレオベースの再生装置では再生することができない。すなわち、360度の全方位を対象として任意の位置に音像を定位させることはできない。
 全方位オーディオを再生するには、マルチ化された音源を、その音源の位置を示す距離や角度などの位置情報に従ってレンダリングする必要がある。
 全方位オーディオの再生を実現する方法として、例えば32チャンネルのスピーカシステムを用いて、全方位オーディオの制作時に想定された音場と全く同じ状況を再現する波面合成やVBAP(Vector Base Amplitude Pannning)などがある。
 これらの波面合成やVBAPなどをレンダリング処理として行えば、各音源(オブジェクト)の音像を、コンテンツ制作時に決定された位置情報により示される距離や角度から定まる位置に正確に定位させることができる。換言すれば、コンテンツ制作者の創作意図を正確に反映し、360度の全方位からユーザに音が聞こえてくるかのような臨場感の高い音場再現を実現することができる。
 また、ユーザ(リスナ)の左右の耳元に届く音に対して、頭部伝達関数をモデル式として適切に信号処理を行うことで、通常の2チャンネルのヘッドホンで全方位オブジェクトオーディオを実現するバイノーラル再生技術なども知られている。
 以上のように、本技術を適用した全方位コンテンツ再生システムでは、全方位映像技術と、全方位オブジェクトオーディオ技術とを連携させることで、例えば解析生成手法により生成された全方位映像と、全方位オーディオとが同期して再生される。
 なお、全方位映像は、解析生成手法により生成されたものに限らず、アーティストやクリエイタにより生成されたものであってもよい。
 ところで、上述したように全方位オーディオのデータとして、オブジェクトのオーディオデータとメタデータとが生成される。
 このようなオブジェクトのオーディオデータとメタデータは、例えばアーティストやクリエイタがオーサリングツールを利用して、楽曲やボーカルなどの各オブジェクトについて、オーディオデータやオブジェクトの位置などを編集することにより生成される。
 なお、各オブジェクトのオーディオデータは、モノラルのオーディオデータであってもよいし、マルチチャンネルのオーディオデータであってもよい。
 例えばアーティストやクリエイタが編集を行うと、オーサリングツールにより各オブジェクトの位置を示す、受聴位置からオブジェクトまでの距離と、受聴位置から見たオブジェクトの方向とからなる位置情報がメタ情報化される。
 これにより、例えば図1に示すように、XML(Extensible Markup Language)形式のメタデータが得られる。
 図1では、文字「BN_Song_01_U_180306-2_Insert 13.wav」はメタデータに対応するオブジェクトのオーディオデータ、すなわち音源ファイルのファイル名を示している。
 また、この例では1つのオブジェクトの各再生時刻における位置を示す位置情報が時系列に並べられており、例えば矢印Q11に示す部分など、1つの行の部分が1つの時刻における位置情報を示すタグとなっている。
 例えばタグ内における属性名「node offset」は、コンテンツである全方位オーディオの再生中の時間情報に変換可能な情報であり、この情報は全方位オーディオの再生時刻を示している。
 また、タグ内における属性名「azimuth」、「elevation」、および「radius」は、「node offset」により示される再生時刻におけるオブジェクトの位置を示す方位角、仰角、および半径を示している。
 特に、ここでは図2の矢印Q21に示すように、リスナ(受聴者)の位置を原点Oとして、その原点Oを中心とし、X軸、Y軸、およびZ軸からなる3次元のXYZ空間内にオブジェクトが配置される。
 例えばXYZ空間内の所定の位置P1にオブジェクトが配置されるとする。このとき、位置P1のXY平面上への写像先(投影先)の位置を位置P1’とし、原点Oと位置P1を結ぶ直線を直線L1とし、原点Oと位置P1’を結ぶ直線を直線L1’とする。
 この場合、原点Oから見た位置P1を示す水平方向の角度、つまりX軸と直線L1’とのなす角度が方位角azimuthとされ、原点Oから見た位置P1を示す垂直方向の角度、つまりXY平面と直線L1とのなす角度が仰角elevationとされる。また、原点Oから位置P1までの距離、すなわち直線L1の長さが半径radiusとされる。
 各オブジェクトの位置を示す方位角azimuth、仰角elevation、および半径radiusからなる位置情報をメタデータに記述しておけば、矢印Q22に示すようにそれらの位置情報から3次元空間内におけるオブジェクトの位置を示す3次元空間座標を得ることができる。この例では、例えば3次元空間座標として、方位角、仰角、および半径からなる極座標を得ることができる。
 以上のように、アーティストやクリエイタが専用のオーサリングツールによりオブジェクトの各時刻の位置等の編集を行うと、「node offset」、「azimuth」、「elevation」、および「radius」が含まれるタグからなるXML形式のメタデータが得られる。このメタデータは、拡張子が「3dda」であるXMLファイルとなる。
 オーサリングツールによる編集時には、例えば図3の矢印Q31に示す編集画面が表示され、3次元空間の中心位置である原点Oがリスナの位置、つまり受聴位置とされる。
 アーティストやクリエイタは、このような編集画面上において、原点Oを中心とした3次元空間内の所望の位置にオブジェクト(音源)を表す球状の画像を配置することで、各時刻におけるオブジェクトの位置を指定する。
 これにより、上述のXML形式のメタデータが得られるが、このメタデータに基づいて、オブジェクト(音源)が配置される編集画面上の空間と、全方位の映像表現を行う空間とを直接紐付けすることにより、全方位コンテンツ再生システムを実現できる。
 具体的には、全方位オーディオにおけるオブジェクトのXML形式のメタデータには、オブジェクトの位置を示す位置情報が時系列に並べられたXMLのタグに記述されている。
 そこで、例えばメタデータに含まれる位置情報を、2次元マッピングなどのフォーマット変換により全方位映像の映像空間内の座標(位置)を示す座標情報に変換することができる。これにより、全方位オーディオに同期した、全方位映像の映像空間内における各時刻のオブジェクトの位置を示す座標情報を得ることができる。
 したがって、このようにして得られた座標情報に基づいて、上述の解析生成手法によって全方位映像の映像データを生成することができる。これにより、例えば矢印Q32に示す全方位映像の映像データを得ることができる。
 この場合、アーティストやクリエイタが決定したオブジェクトの配置位置に対応する映像空間内の位置を示す座標情報を得ることができるので、その座標情報を利用すれば、より正確な映像表現を実現する全方位映像の映像データを得ることができる。
 具体的には、例えば座標情報を利用することで、映像空間内のオブジェクトに対応する位置に、そのオブジェクトを想起させるCG映像等を表示させることができ、その映像位置とオブジェクトの音像位置とを一致させることができる。
〈全方位コンテンツ再生システムの構成例〉
 以上のような全方位コンテンツ再生システムの外観の構成は、例えば図4に示すようになる。
 図4は、全方位コンテンツ再生システム11を横から見た様子を示している。
 この例では、全方位コンテンツ再生システム11はドーム形状のスクリーン21と、全方位映像を投影するためのプロジェクタ22-1乃至プロジェクタ22-4、および32台等の複数台のスピーカからなるスピーカアレイ23を有している。
 特に、ここではスクリーン21の内側、つまりスクリーン21により囲まれる空間内に、スクリーン21に沿ってプロジェクタ22-1乃至プロジェクタ22-4と、スピーカアレイ23を構成するスピーカとが配置されている。
 なお、以下、プロジェクタ22-1乃至プロジェクタ22-4を特に区別する必要のない場合、単にプロジェクタ22とも称することとする。
 また、スクリーン21を斜め上方から見ると、例えば図5に示すように、スクリーン21により囲まれる空間の中心部分には視聴者が全方位コンテンツを視聴できるスペースが設けられている。各視聴者は、任意の方向を向いて全方位コンテンツを視聴することができる。なお、図5において図4における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 図4および図5に示した例では、視聴者を囲むようにスピーカアレイ23のスピーカが配置されており、それらのスピーカにより全方位オーディオを再生することで、全方位から視聴者に向けて音を出力することができる。すなわち、視聴者から見て全方位を対象とする任意の方向に音像を定位させることができる。
 さらに、全方位コンテンツ再生システム11では、図6に示すように4個のプロジェクタ22によって、スクリーン21の内側の領域に隙間なく映像を投影することにより、視聴者から見て全方位に全方位映像を表示させることができるようになされている。
 なお、図6において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 ここでは、プロジェクタ22-1がスクリーン21内側における領域R11に映像を投影し、プロジェクタ22-2がスクリーン21内側における領域R12に映像を投影している。
 また、プロジェクタ22-3がスクリーン21内側における領域R13に映像を投影し、プロジェクタ22-4がスクリーン21内側における領域R14に映像を投影している。
 これにより、スクリーン21内側の領域に隙間なく映像が表示され、全方位映像の提示が実現される。
 なお、ここでは全方位コンテンツ再生システム11には4個のプロジェクタ22が設けられる例について説明したが、プロジェクタ22の個数はいくつであってもよい。同様に、スピーカアレイ23を構成するスピーカの個数もいくつであってもよい。
〈全方位映像と全方位オーディオの同期について〉
 ところで、全方位コンテンツ再生システム11では、全方位映像と全方位オーディオが同時に再生されるが、上述したように全方位オーディオの再生は、マルチチャンネルオーディオデータに基づいて行われる。
 例えばスピーカアレイ23が32個のスピーカから構成される場合には、それらのスピーカに対応する32チャンネルのマルチチャンネルオーディオデータに基づいて全方位オーディオが再生されるため、処理負荷が大きくなる。
 そうすると、一般的にはマルチチャンネルオーディオデータに基づいて全方位オーディオを再生するための再生装置として、例えば専用のPC等が必要となる。
 一方で、図6を参照して説明したように、複数のプロジェクタ22により全方位映像を再生する場合、一般的には1台以上の専用のPC等が必要となる。
 このように、全方位オーディオの再生と、全方位映像の再生とでそれぞれ専用のPC等の装置が必要となるため、全方位オーディオの再生と、全方位映像の再生とを同期させる仕組みが必要となる。
 そこで、全方位コンテンツ再生システム11では、全方位映像の再生側の装置において、全方位映像の映像データに対応付けて、全方位オーディオのオーディオデータを保持しておき、そのオーディオデータに基づいて同期信号を生成するようにした。
 具体的には、例えばMP4(Moving Picture Experts Group 4)のような映像フォーマットでは、映像データ(動画像データ)を含む動画像ファイルは、一般的に図7に示すような構造となっている。
 図7の例では、動画像データと、その動画像データに基づく動画像に付随する音声の音声データ(オーディオデータ)と、動画像データに関連する字幕等の文字データとがコンテナに格納されて1つの動画像ファイルとなっている。
 全方位コンテンツ再生システム11では、例えば全方位映像の映像データ(動画像データ)と、その全方位映像に対応する全方位オーディオのオーディオデータとが対応付けられて格納された動画像ファイルが予め生成され、全方位映像の再生側の装置に保存される。
 以下では、このような全方位映像の映像データと全方位オーディオのオーディオデータとが対応付けられて格納された動画像ファイルを、全方位映像ファイルとも称することとする。また、以下、全方位映像ファイルに格納される全方位オーディオのオーディオデータを同期用オーディオデータとも称することとする。
 ここで、同期用オーディオデータは、全方位オーディオの再生のためのマルチチャンネルオーディオデータの生成、すなわちレンダリングに用いられた全方位オーディオのオブジェクトごとのオーディオデータから生成されたオーディオデータである。したがって、例えば同期用オーディオデータに基づいて音を再生すれば、全方位オーディオのマルチチャンネルオーディオデータに基づいて音を再生したときと同じ音が再生される。
 特に、同期用オーディオデータは、全方位オーディオの再生のためのマルチチャンネルオーディオデータよりもチャンネル数が少ない、2チャンネル(ステレオ)のオーディオデータなどとされる。
 例えば同期用オーディオデータは、オーサリングツールによる全方位オーディオの編集時に生成されてもよいし、編集後に生成されてもよい。
 すなわち、例えば同期用オーディオデータは、全方位オーディオのオブジェクトごとのオーディオデータに基づいて生成されてもよい。この場合、1つのオブジェクトのオーディオデータに基づいて同期用オーディオデータが生成されてもよい。
 また、オブジェクトごとのオーディオデータに基づいてレンダリング処理を行うことにより得られたマルチチャンネルオーディオデータをダウンミックスすることにより、同期用オーディオデータを生成するようにしてもよい。
 例えば編集時やレンダリング処理後に生成された、音楽配信用やCD(Compact Disc)用の全方位オーディオのステレオのオーディオデータがある場合には、そのオーディオデータを同期用オーディオデータとして利用してもよい。
 また、全方位映像ファイルに格納される全方位映像の映像データは、例えば同期用オーディオデータに基づいて生成されたものとすることができる。
 例えばアーティストやクリエイタが全方位映像を制作する場合には、編集により得られたXML形式のメタデータをベースに、オブジェクト(音源)の位置情報に則って全方位映像が制作される。しかし、全方位映像の制作時には、これに加えて全方位オーディオ、つまり音のタイミングなども見計らう必要がある。
 そこで、同期用オーディオデータに基づいて、実際に全方位オーディオを再生しながら全方位映像を制作することで、より制作意図が反映された全方位コンテンツを得ることができるようになる。
 また、解析生成手法では、全方位オーディオを再生するためのオーディオデータに対する解析処理を行うことで全方位映像が生成されるが、この全方位映像の生成に同期用オーディオデータを利用するようにしてもよい。そうすれば、アーティストやクリエイタが制作作業をすることなく、適切な全方位映像を得ることができる。
 何れにしても全方位映像の生成に用いられた同期用オーディオデータを、その全方位映像の映像データと対応付けて1つのファイルとすれば、映像コンテンツとして映像と音とが完全に同期している全方位映像ファイルを得ることができる。
 全方位コンテンツ再生システム11では、このようにして生成された全方位映像ファイルに基づいて、互いに異なる装置で再生される全方位映像と全方位オーディオとが同期するように制御が行われる。
 具体的には、例えば全方位映像については、映像と音とが完全に同期している全方位映像ファイル、より詳細には全方位映像ファイルに含まれる映像データに基づいて、そのまま全方位映像を再生すればよい。
 一方で、全方位オーディオについては、全方位オーディオのマルチチャンネルオーディオデータに基づいて全方位映像と同期した再生を行うことができるように、全方位映像ファイルに含まれる同期用オーディオデータに基づいて、同期信号を生成できればよい。
 そこで、全方位コンテンツ再生システム11では、例えば同期用オーディオデータに基づいて、その同期用オーディオデータをベースとしてWord Clockなどの同期信号を生成する。なお、同期信号はWord Clockに限らず、全方位映像と全方位オーディオの同期再生が可能であれば、他のどのような信号であってもよい。
 このようにして同期信号が生成されると、その同期信号が全方位オーディオの再生側の装置へと出力される。
 そして、全方位オーディオの再生側の装置では、供給された同期信号に基づいてピッチコントロール(再生速度調整)などの制御を行いながら、マルチチャンネルオーディオデータに基づいて全方位オーディオを再生する。これにより、全方位映像と全方位オーディオとが完全に同期した状態で再生される。
 なお、ここでは全方位映像が解析生成手法等により生成されたCG映像である例について説明するが、そのようなCG映像にミュージックビデオの映像が重畳されたものが全方位映像として再生されるようにしてもよい。
 しかし、そのような場合、CG映像にミュージックビデオの映像を重畳させて全方位映像を制作する編集作業は手間がかかる。また、編集時に、CG映像内の適切な位置にミュージックビデオの映像を正確に配置することも困難である。
 そこで、例えば全方位オーディオのXML形式のメタデータをパースして、全方位オーディオのオブジェクトの種別を特定し、その特定結果に応じてCG映像内におけるミュージックビデオの映像の配置位置(重畳位置)を決定するようにしてもよい。
 このようにすることで、手間のかかる編集作業を必要とせずに、簡単に適切な位置にミュージックビデオの映像が配置された全方位映像を得ることができる。
 具体的には、例えばオブジェクトの種別の特定結果として「ボーカル」が得られたとする。そのような場合、オブジェクト「ボーカル」の位置情報により示される位置、つまりオブジェクト「ボーカル」の音像定位位置にミュージックビデオの映像におけるボーカルの映像が配置されるように、CG映像に対してミュージックビデオの映像が重畳される。
 なお、ミュージックビデオの映像内におけるボーカル(ボーカリスト)の位置は、例えば画像認識等により特定されてもよいし、予め人手により指定されていてもよい。
 また、オブジェクトの種別、つまり音源(オブジェクト)の名称は、例えばXML形式のメタデータに含まれる音源ファイルの名称から特定することができる。
 具体的には、例えば音源ファイルの名称内に「Voice」や「Vocal」などの文字が含まれているものがオブジェクト「ボーカル」に関する音源ファイルとして特定される。
 その他、オブジェクトの種別の特定に、オブジェクトのオーディオデータも用いるようにしてもよいし、メタデータとオブジェクトのオーディオデータとを組み合わせて用いるようにしてもよい。
 例えばオブジェクトのオーディオデータに対して周波数(スペクトル)や時間波形、音圧レベル、位相などの解析(分析)を行うことで、ボーカルや楽器などといったオブジェクト(音源)の種別を特定することが可能である。
 具体的には、例えば図8に示すように楽器によって、音に含まれる周波数成分や時間波形は異なる。図8では音源としての楽器の名称と、各楽器の音の時間波形が示されている。
 この例では、例えばピアノの時間波形は振幅変化が小さく、フルートの時間波形は振幅が大きいなど、楽器ごとに特徴を有していることが分かる。
 したがって、オブジェクトのオーディオデータに対する解析処理を行うことで、各オブジェクトの種別を判別(特定)することができる。
 以上のように、全方位コンテンツ再生システム11によれば、全方位映像技術と全方位オブジェクトオーディオとを組み合わせてコンテンツ再生を行う場合に、全方位映像と全方位オーディオとで互いに異なる装置を用いても、それらの全方位映像と全方位オーディオを簡単に同期して再生することができる。したがって、全方位映像や全方位オーディオの再生に、例えばPCなどの汎用システムを利用することができる。
 また、一般的に全方位オーディオの素材は商用のものであるため、その全方位オーディオのオーディオデータとして、配信などが行われている2チャンネルのオーディオデータも存在していたり、全方位オーディオに対応するミュージックビデオなども存在していることが多い。
 そこで、例えば全方位オーディオに対して生成(制作)されたCG映像に対してミュージックビデオの映像を重畳するときには、メタデータや2チャンネル(ステレオ)のオーディオデータなどに基づいて映像処理を行うことで、編集等の手間を省き、簡単に全方位映像を得ることができる。
〈全方位コンテンツ再生システムの機能的な構成例〉
 次に、以上において説明した全方位コンテンツ再生システム11の機能的な構成と動作について説明する。
 図9は、全方位コンテンツ再生システム11の機能的な構成例を示す図である。なお、図9において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示す全方位コンテンツ再生システム11は、ビデオサーバ51、プロジェクタ22-1乃至プロジェクタ22-4、オーディオサーバ52、およびスピーカアレイ23を有している。また、図9には図示されていないが、全方位コンテンツ再生システム11にはスクリーン21も設けられている。
 ビデオサーバ51は、例えばPCなどの信号処理装置からなり、全方位映像の再生を制御する再生装置として機能する。
 オーディオサーバ52は、例えばPCなどの信号処理装置からなり、全方位オーディオの再生を制御する再生装置として機能する。
 特に、ここではビデオサーバ51とオーディオサーバ52とは互いに異なる装置からなり、これらのビデオサーバ51とオーディオサーバ52とは有線または無線により接続されている。
 スピーカアレイ23は、N個のスピーカ53-1乃至スピーカ53-Nからなり、これらのスピーカ53-1乃至スピーカ53-Nは、例えばスクリーン21に沿って半球状に並べられている。なお、以下、スピーカ53-1乃至スピーカ53-Nを特に区別する必要のない場合、単にスピーカ53とも称する。
 また、ビデオサーバ51は記録部71、映像処理部72、再生制御部73、および同期信号生成部74を有している。
 記録部71は、例えば不揮発性のメモリなどからなり、上述した全方位映像ファイルや、ミュージックビデオデータ、全方位オーディオを構成する各オブジェクト、すなわちマルチチャンネルオーディオデータのXML形式のメタデータを記録しており、それらのデータを映像処理部72に供給する。
 ここでは、記録部71に記録されている全方位映像ファイルは、少なくとも全方位映像の映像データと、同期用オーディオデータとが格納されたMP4形式のファイルである。
 また、ミュージックビデオデータは、全方位オーディオに対応付けられたミュージックビデオを再生するためのデータである。すなわち、ここでは全方位オーディオが楽曲であり、ミュージックビデオデータは、その楽曲のミュージックビデオのデータである。
 ミュージックビデオデータは、映像データであってもよいし、映像データとオーディオデータとからなるデータであってもよいが、以下ではミュージックビデオデータは、ミュージックビデオの映像データからなるものとして説明する。
 映像処理部72は、記録部71から供給された全方位映像ファイルや、ミュージックビデオデータ、メタデータに基づいて、全方位映像にミュージックビデオの映像を重畳する映像処理を行い、最終的な全方位映像の映像データを生成する。
 また、映像処理部72は、映像処理により得られた映像データと、全方位映像ファイルから抽出した同期用オーディオデータとを再生制御部73に供給する。
 再生制御部73は、映像処理部72から供給された映像データと同期用オーディオデータに基づいてプロジェクタ22を制御し、プロジェクタ22から全方位映像に対応する光をスクリーン21に向けて投光(出力)させることで全方位映像の再生を制御する。これにより、4個のプロジェクタ22によってスクリーン21上に全方位映像が投影(表示)される。
 また、再生制御部73は、全方位映像の再生制御を行いながら、映像処理部72から供給された同期用オーディオデータを同期信号生成部74に供給する。なお、同期用オーディオデータは、再生制御部73を経由せずに、映像処理部72から直接、同期信号生成部74に供給されるようにしてもよい。
 同期信号生成部74は、再生制御部73から供給された同期用オーディオデータに基づいて同期信号を生成し、オーディオサーバ52に供給する。
 この同期信号は、マルチチャンネルオーディオデータに基づいて、全方位映像に同期させて全方位オーディオを再生させるための、全方位オーディオの再生タイミングを示す信号である。例えば同期信号生成部74は、同期用オーディオデータの形式を変換する変換処理等を行うことで、同期用オーディオデータを同期信号に変換する。
 また、オーディオサーバ52は、取得部81、記録部82、レンダリング処理部83、および再生制御部84を有している。
 取得部81は、有線または無線により同期信号生成部74と接続されており、同期信号生成部74から出力された同期信号を取得して再生制御部84に供給する。
 記録部82は、例えば不揮発性のメモリなどからなり、記録部71に記録されている全方位映像ファイル内の全方位映像の映像データに対応する全方位オーディオの各オブジェクトのオーディオデータと、それらのオブジェクトのメタデータとを対応付けて記録している。記録部82に記録されているメタデータは、記録部71に記録されているメタデータと同じものである。これらのメタデータは、各オブジェクトのオーディオデータのメタデータであるが、それらのオーディオデータに基づくレンダリング処理により得られるマルチチャンネルオーディオデータのメタデータであるともいうことができる。
 記録部82は、記録しているオーディオデータとメタデータをレンダリング処理部83に供給する。
 レンダリング処理部83は、記録部82から供給されたオーディオデータおよびメタデータに基づいてレンダリング処理を行い、その結果得られた全方位オーディオを再生するためのマルチチャンネルオーディオデータを再生制御部84に供給する。
 ここでは、例えば、波面合成のためのフィルタ処理やVBAPなどがレンダリング処理として行われ、各オブジェクトの音の音像がメタデータ内の位置情報により示される位置に定位するようにマルチチャンネルオーディオデータが生成される。
 特に、この例ではスピーカアレイ23を構成するスピーカ53の数がN個であるので、レンダリング処理では、Nチャンネルのマルチチャンネルオーディオデータが生成される。
 換言すれば、全方位オーディオとしてのオブジェクトの音を再生するためのN個のスピーカ53ごとのスピーカ駆動信号からなる信号群がマルチチャンネルオーディオデータとして生成される。
 このようにして生成されたマルチチャンネルオーディオデータは、ビデオサーバ51の記録部71に記録されている全方位映像ファイル内の映像データに基づく全方位映像に対応付けられた全方位オーディオを再生するためのオーディオデータである。
 同時に、このマルチチャンネルオーディオデータは、例えばビデオサーバ51の記録部71に記録されている全方位映像ファイル内の同期用オーディオデータと同じ音を再生するためのオーディオデータである。但し、ここでは同期用オーディオデータは、マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータとなっている。
 なお、スクリーン21の設置条件を示す設置条件情報を予めレンダリング処理部83に保持しておき、レンダリング処理時には、設置条件情報に基づいて各オブジェクトのメタデータに含まれる位置情報を補正するようにしてもよい。
 具体的には、例えば半球状のスクリーン21の半径を示す情報が設置条件情報として保持されている場合、レンダリング処理部83では、各オブジェクトの位置情報により示される半径の値が、設置条件情報により示される半径の値に置き換えられる。このようにして位置情報が補正されると、その補正後の位置情報が用いられてレンダリング処理が行われる。
 また、ここではオーディオサーバ52でレンダリング処理が行われる例について説明するが、レンダリング処理が予め行われ、その結果得られたマルチチャンネルオーディオデータが記録部82に記録されているようにしてもよい。
 そのような場合には、記録部82に記録されているマルチチャンネルオーディオデータは、記録部82から再生制御部84に供給される。
 再生制御部84は、取得部81から供給された同期信号に基づいてピッチコントロール等の処理を行いながら、レンダリング処理部83から供給されたマルチチャンネルオーディオデータに基づいてスピーカ53を駆動させる。これにより、全方位映像の再生と同期するように全方位オーディオの再生が制御される。
〈再生処理の説明〉
 続いて、図9に示した全方位コンテンツ再生システム11の動作について説明する。すなわち、以下、図10のフローチャートを参照して、全方位コンテンツ再生システム11により行われる再生処理について説明する。
 ステップS11において映像処理部72は、記録部71から全方位映像ファイル、ミュージックビデオデータ、およびメタデータを読み出して映像処理を行うことで、最終的な全方位映像の映像データを生成する。
 例えば映像処理部72は、メタデータに含まれる位置情報等に基づいて、全方位映像ファイル内の映像データに基づく全方位映像に、ミュージックビデオデータに基づく映像を重畳することで、最終的な全方位映像の映像データを生成する処理を映像処理として行う。
 映像処理部72は、このようにして得られた最終的な全方位映像の映像データと、全方位映像ファイル内の同期用オーディオデータとを再生制御部73に供給する。また、再生制御部73は、映像処理部72から供給された同期用オーディオデータを同期信号生成部74に供給する。
 なお、映像処理部72における映像処理として、同期用オーディオデータ、メタデータ、およびミュージックビデオデータのうちの少なくとも何れか1つに基づいて、解析生成手法等により全方位映像の映像データを生成する処理が行われるようにしてもよい。
 このような場合、記録部71に全方位映像ファイルが記録されていない場合でも、記録部71に、同期用オーディオデータやメタデータなどが記録されていれば、全方位映像の映像データを得ることができる。また、解析生成手法により生成された映像データに基づく全方位映像にミュージックビデオの映像が重畳されるようにしてもよい。
 ステップS12において同期信号生成部74は、再生制御部73から供給された同期用オーディオデータに基づいて、例えばWord Clockなどの同期信号を生成し、取得部81に対して出力する。
 ステップS13において取得部81は、ステップS12で同期信号生成部74から出力された同期信号を取得し、再生制御部84に供給する。
 ステップS14においてレンダリング処理部83は、記録部82から全方位オーディオの各オブジェクトのオーディオデータおよびメタデータを読み出してレンダリング処理を行い、マルチチャンネルオーディオデータを生成する。
 レンダリング処理部83は、レンダリング処理により得られたマルチチャンネルオーディオデータを再生制御部84に供給する。
 ステップS15において再生制御部73は、映像処理部72から供給された映像データと同期用オーディオデータに基づいてプロジェクタ22から映像データに応じた光を出力させることで、全方位映像を再生させる。これにより、スクリーン21上に全方位映像が表示される。
 ステップS16において再生制御部84は、取得部81から供給された同期信号に基づいてピッチコントロール等の処理を行いながら、レンダリング処理部83から供給されたマルチチャンネルオーディオデータに基づいてスピーカ53を駆動させることで、スピーカアレイ23により全方位オーディオを再生させる。
 これらのステップS15およびステップS16の処理が同時に行われることで、全方位映像と全方位オーディオとが同期した状態で再生される。
 このようにして、全方位映像と全方位オーディオとからなる全方位コンテンツが再生されると、再生処理は終了する。
 以上のようにして全方位コンテンツ再生システム11は、全方位映像ファイルに基づいて全方位映像を再生するとともに、その全方位映像ファイル内の同期用オーディオデータに基づいて同期信号を生成し、その同期信号を利用して全方位オーディオを再生する。
 このように同期用オーディオデータに基づいて同期信号を生成することで、ビデオサーバ51とオーディオサーバ52とが別々の装置とされる場合であっても、簡単に全方位映像と全方位オーディオとを同期して再生させることができる。すなわち、全方位コンテンツの映像と音とを同期して再生することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御する再生制御部と、
 前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する同期信号生成部と
 を備える信号処理装置。
(2)
 前記マルチチャンネルオーディオデータは、オーディオオブジェクトの音を再生するためのデータである
 (1)に記載の信号処理装置。
(3)
 前記音に対応付けられた他の映像の映像データ、前記マルチチャンネルオーディオデータのメタデータ、および前記オーディオデータのうちの少なくとも何れか1つに基づいて、前記映像の映像データを生成する映像処理部をさらに備える
 (2)に記載の信号処理装置。
(4)
 前記映像処理部は、前記オーディオデータに対して周波数帯域、音圧レベル、または位相の解析処理を行い、前記解析処理の結果に基づいて前記映像の映像データを生成する
 (3)に記載の信号処理装置。
(5)
 前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
 (3)または(4)に記載の信号処理装置。
(6)
 前記マルチチャンネルオーディオデータは、楽曲を再生するためのデータであり、
 前記他の映像は前記楽曲のミュージックビデオである
 (3)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記音に対応付けられた他の映像の映像データ、前記映像の映像データ、および前記マルチチャンネルオーディオデータのメタデータに基づいて、前記映像に前記他の映像が重畳された新たな映像の映像データを生成する映像処理部をさらに備え、
 前記再生制御部は、前記映像処理部により生成された映像データに基づいて、前記新たな映像の再生を制御する
 (1)または(2)に記載の信号処理装置。
(8)
 前記マルチチャンネルオーディオデータは、楽曲を再生するためのデータであり、
 前記他の映像は前記楽曲のミュージックビデオである
 (7)に記載の信号処理装置。
(9)
 前記オーディオデータは、前記映像の映像データが格納された動画像ファイルに格納されている
 (1)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 信号処理装置が、
 マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御し、
 前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する
 信号処理方法。
(11)
 マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御し、
 前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 全方位コンテンツ再生システム, 21 スクリーン, 22-1乃至22-4,22 プロジェクタ, 23 スピーカアレイ, 51 ビデオサーバ, 52 オーディオサーバ, 72 映像処理部, 73 再生制御部, 74 同期信号生成部, 81 取得部, 83 レンダリング処理, 84 再生制御部

Claims (11)

  1.  マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御する再生制御部と、
     前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する同期信号生成部と
     を備える信号処理装置。
  2.  前記マルチチャンネルオーディオデータは、オーディオオブジェクトの音を再生するためのデータである
     請求項1に記載の信号処理装置。
  3.  前記音に対応付けられた他の映像の映像データ、前記マルチチャンネルオーディオデータのメタデータ、および前記オーディオデータのうちの少なくとも何れか1つに基づいて、前記映像の映像データを生成する映像処理部をさらに備える
     請求項2に記載の信号処理装置。
  4.  前記映像処理部は、前記オーディオデータに対して周波数帯域、音圧レベル、または位相の解析処理を行い、前記解析処理の結果に基づいて前記映像の映像データを生成する
     請求項3に記載の信号処理装置。
  5.  前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
     請求項3に記載の信号処理装置。
  6.  前記マルチチャンネルオーディオデータは、楽曲を再生するためのデータであり、
     前記他の映像は前記楽曲のミュージックビデオである
     請求項3に記載の信号処理装置。
  7.  前記音に対応付けられた他の映像の映像データ、前記映像の映像データ、および前記マルチチャンネルオーディオデータのメタデータに基づいて、前記映像に前記他の映像が重畳された新たな映像の映像データを生成する映像処理部をさらに備え、
     前記再生制御部は、前記映像処理部により生成された映像データに基づいて、前記新たな映像の再生を制御する
     請求項1に記載の信号処理装置。
  8.  前記マルチチャンネルオーディオデータは、楽曲を再生するためのデータであり、
     前記他の映像は前記楽曲のミュージックビデオである
     請求項7に記載の信号処理装置。
  9.  前記オーディオデータは、前記映像の映像データが格納された動画像ファイルに格納されている
     請求項1に記載の信号処理装置。
  10.  信号処理装置が、
     マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御し、
     前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する
     信号処理方法。
  11.  マルチチャンネルオーディオデータに基づく音に対応付けられた映像の映像データに基づいて、前記映像の再生を制御し、
     前記マルチチャンネルオーディオデータに基づいて前記映像に同期させて前記音を再生させるための同期信号を、前記マルチチャンネルオーディオデータよりも少ないチャンネル数のオーディオデータであって、前記音を再生するためのオーディオデータに基づいて生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2020/035010 2019-09-30 2020-09-16 信号処理装置および方法、並びにプログラム WO2021065496A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/754,009 US20230413001A1 (en) 2019-09-30 2020-09-16 Signal processing apparatus, signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-179113 2019-09-30
JP2019179113 2019-09-30

Publications (1)

Publication Number Publication Date
WO2021065496A1 true WO2021065496A1 (ja) 2021-04-08

Family

ID=75337988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/035010 WO2021065496A1 (ja) 2019-09-30 2020-09-16 信号処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20230413001A1 (ja)
WO (1) WO2021065496A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098854A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 音声再生装置、音声再生方法及びプログラム
WO2017208821A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 音響処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098854A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 音声再生装置、音声再生方法及びプログラム
WO2017208821A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 音響処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20230413001A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
JP7014176B2 (ja) 再生装置、再生方法、およびプログラム
JP4263217B2 (ja) オーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置および方法
CN117412237A (zh) 合并音频信号与空间元数据
JP2019533404A (ja) バイノーラルオーディオ信号処理方法及び装置
US20180091919A1 (en) Method and device for processing binaural audio signal
JP7192786B2 (ja) 信号処理装置および方法、並びにプログラム
US20220386062A1 (en) Stereophonic audio rearrangement based on decomposed tracks
JP2023040294A (ja) 再生装置、再生方法、およびプログラム
US7813826B2 (en) Apparatus and method for storing audio files
JP5338053B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
Paterson et al. 3D Audio
Kalliris et al. Media management, sound editing and mixing
WO2021065496A1 (ja) 信号処理装置および方法、並びにプログラム
Wagner et al. Introducing the zirkonium MK2 system for spatial composition
Ellberger et al. Spatialization Symbolic Music Notation at ICST
Pike et al. Delivering object-based 3d audio using the web audio api and the audio definition model
CN114979935A (zh) 一种对象输出渲染项确定方法、装置、设备及存储介质
Bascou Adaptive spatialization and scripting capabilities in the spatial trajectory editor Holo-Edit
JP5743003B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
Pennycook Live electroacoustic music: old problems, new solutions
JP5590169B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
Garrett Bubbles: an object-oriented approach to object-based sound for spatial composition and beyond
JP6670802B2 (ja) 音響信号再生装置
Sone et al. An Ontology for Spatio-Temporal Media Management and an Interactive Application. Future Internet 2023, 15, 225
JP2006279555A (ja) 信号再生装置及び信号再生方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20872235

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20872235

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP