WO2019093155A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2019093155A1
WO2019093155A1 PCT/JP2018/039838 JP2018039838W WO2019093155A1 WO 2019093155 A1 WO2019093155 A1 WO 2019093155A1 JP 2018039838 W JP2018039838 W JP 2018039838W WO 2019093155 A1 WO2019093155 A1 WO 2019093155A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
data
image content
sound data
image
Prior art date
Application number
PCT/JP2018/039838
Other languages
English (en)
French (fr)
Inventor
圭一 青山
鈴木 知
浩司 古澤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/761,106 priority Critical patent/US10998870B2/en
Publication of WO2019093155A1 publication Critical patent/WO2019093155A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program, and in particular, when a zoom instruction is given to an image to be reproduced, the audio at the viewing position corresponding to the image being zoomed is displayed.
  • the present invention relates to an information processing apparatus, an information processing method, and a program that can be performed.
  • the resolution of images to be captured is increased, so that even if a part of the captured image is zoomed and displayed, the image quality is not significantly reduced. .
  • Patent Document 1 there has been proposed a technique for displaying an image of a partial area cut out from a wide-angle image related to a point instructed by a user operation in a bird's-eye view image (see Patent Document 1).
  • the partial region cut out from the wide-angle image is made variable according to the direction instructed by the user operation in the bird's-eye view image, so the user actively views the scenery based on the bird's-eye view image. You can move around.
  • Patent Document 1 Although it is possible to display a zoomed image using a partial range of the high resolution image, the reproduced audio is supported to the zoomed image. Can not play.
  • the present disclosure has been made in view of such a situation, and in particular, when zoom is instructed to a reproduced image, it is possible to output an audio corresponding to the image displayed by zooming. is there.
  • An information processing apparatus includes an image reproduction unit that reproduces an image content that can change a viewing zoom ratio, and the image content for audio data associated with an object in the image content.
  • a gain adjustment unit that adjusts a volume gain according to the viewing zoom magnification during playback and the direction information of the object in the image content, the audio data adjusted by the gain adjustment unit along with the image content
  • An information processing apparatus including an audio reproduction unit to reproduce.
  • the gain adjustment unit may adjust a volume gain of direct sound data and reverberation sound data in the sound data.
  • the gain adjustment unit adjusts the mixing ratio of the direct sound data to the reverberation sound data in the audio data based on the information on the orientation of the object in the image content, the information being associated with the object. To adjust the volume gain.
  • the gain adjustment unit is configured to associate the object based on the information on the orientation of the object in the image content.
  • the sound volume gain can be adjusted by adjusting the mixing ratio of the direct sound data and the reverberation sound data in the sound data.
  • the gain adjustment unit is configured based on the information on the orientation of the object in the image content associated with the object.
  • the sound volume gain can be adjusted by adjusting the mixing ratio of the direct sound data and the reverberation sound data in the sound data to approximately 1: 0.
  • the gain adjustment unit increases the mixing ratio of the direct sound data as the orientation of the object in the image content is closer to the viewer and the mixing ratio of the reverberation sound data.
  • the mixing ratio of the reverberation sound data may be increased. Can.
  • the proximity object determination unit may be further included to determine that a plurality of objects are present in proximity to each other within a predetermined range of the image content, and the gain adjustment unit may include the proximity object determination unit.
  • the volume gain of the audio data associated with the plurality of objects can be adjusted based on the determination result of
  • the gain adjustment unit is configured to adjust the mixing ratio of the direct sound data and the reverberation sound data of the audio data associated with the plurality of objects based on the determination result of the proximity object determination unit, and the direct adjustment
  • the average value of the mixing ratio of sound data and the reverberation data is determined, and the average value of the mixing ratio of the direct sound data and the reverberation data is the direct sound of the audio data associated with one object.
  • the volume gain can be adjusted by setting the mixing ratio between the data and the reverberation data.
  • the direct sound data and the reverberation sound data may be separated at the time of recording of the audio data.
  • a terminal attached to the object at the time of recording includes an audio data detection unit for detecting audio data, a position information detection unit for detecting position information, and an object A direction detection unit for detecting a direction can be provided, and sound data detected by the sound data detection unit can be separated into the direct sound data and the reverberation sound data.
  • the viewpoint position of the image content can be changed.
  • the object may be an object displayed in a display area of image content determined by the viewpoint position.
  • an image reproduction process for reproducing an image content whose view zoom magnification can be changed, and the image content for audio data associated with an object in the image content.
  • Gain adjustment processing for adjusting a volume gain in accordance with the viewing zoom magnification during reproduction and the direction information of the object in the image content, the audio data adjusted by the gain adjustment processing together with the image content
  • a program includes a computer, an image reproduction unit that reproduces an image content that can change a viewing zoom magnification, and the image data for audio data associated with an object in the image content.
  • a gain adjustment unit that adjusts a volume gain according to a viewing zoom magnification during reproduction of content and information of an orientation of the object in the image content; audio data adjusted by the gain adjustment unit along with the image content Is a program that functions as an audio reproduction unit that reproduces
  • image content capable of changing a viewing zoom magnification is reproduced, and viewing zoom magnification during playback of the image content with respect to audio data associated with an object in the image content.
  • the volume gain is adjusted according to the information on the orientation of the object in the image content, and the audio data adjusted with the image content is reproduced.
  • the zoom image is displayed, and an audio corresponding to the displayed zoom image is output.
  • an image content such as a soccer game captured with a voice
  • An audio that is heard when watching a game is output at a viewpoint position (expected viewing position) in which the viewer looks like an image P1 in the game venue.
  • the image P1 when the image P1 is displayed, it can be heard when assuming that the viewer is present at a watching seat that becomes a viewpoint position that looks like the image P1, in the entire game hall, For example, a voice Sd2 "Yayagaya” from the audience seat and a voice Sd1 of an umpire whistle “Pee” heard from a little distant ground are output.
  • the image P2 in which the range Z1 is zoomed is displayed as shown in the right part of FIG. Be done.
  • the voice Sd11 consisting of a conversation such as “progress” emitted by the player present at the upper part of the image P2
  • a voice Sd12 such as "Zu”
  • a voice Sd13 consisting of a conversation such as “here”
  • a voice Sd14 such as a "pass” when kicking a ball are output.
  • the zoom reproduction of the display image is instructed, the zoom image of the instructed area is reproduced and displayed, and the object in the image to be zoom reproduced is viewed as a real object.
  • the audio that can be heard when viewed at the viewpoint position when playing is played back.
  • the viewer can feel as if he / she is viewing at the viewpoint position of the image to be zoom-reproduced, and can enjoy the viewing of the zoom content of the image content with a higher immersive feeling .
  • the information processing system 1 of FIG. 2 records image contents such as sports relays such as soccer and baseball together with voice and stores them as data. Then, the information processing system 1 reads out the stored data, outputs the data to an HMD (Head Mounted Display) mounted on the head of the viewer, and reproduces the image and the sound. At this time, when a zoom instruction is given to the image, the zoom image is displayed, and the sound is heard at the expected viewing position for the zoom image (the viewing position of the user in the space represented by the zoom image). Is output.
  • HMD Head Mounted Display
  • the image content to be recorded may be something other than sports relay such as soccer or baseball, and may be, for example, a live concert or stage theater.
  • the information processing system 1 includes terminals 11-1 to 11-n, a recording unit 12, a data storage unit 13, a reproduction unit 14, a head mounted display (HMD) 15, and an operation unit 16.
  • a recording unit 12 includes recording units 11-1 to 11-n, a recording unit 12, a data storage unit 13, a reproduction unit 14, a head mounted display (HMD) 15, and an operation unit 16.
  • HMD head mounted display
  • the terminals 11-1 to 11-n are attached to athletes H1 to Hn of sports that are image contents to be recorded, such as soccer players and baseball players, and the voices, positions, directions, and postures around the players H1 to Hn Information is detected and transmitted to the recording unit 12 as recorded data.
  • the terminals 11-1 to 11-n are simply referred to as the terminal 11, and the other configurations are also referred to.
  • a detailed configuration example of the terminal 11 will be described later with reference to FIG.
  • the terminal 11 is attached to an artist who is a performer of the live concert or an actor of the stage theater.
  • competitors, artists, actors, etc. can be considered as objects in the image content. Therefore, hereinafter, the athlete, the artist, and the actor who wear the terminal 11 are also referred to as an object.
  • the recording unit 12 includes a camera 12a for photographing a game and the like, and a microphone 12b for recording the sound around the photographing position of the camera 12a and the entire stadium, and an image picked up by the camera 12a and the microphone 12b Corresponds to the voice to be recorded and record it.
  • the recording unit 12 acquires the recorded data transmitted from the terminals 11-1 to 11-n. Then, the recording unit 12 stores the voice data, the position information, the direction, and the posture information included in the recording data in the data storage unit 13 in association with each other.
  • the data storage unit 13 includes a direct sound data storage unit 31, a reverberation sound data storage unit 32, an object metadata storage unit 33, and an image data storage unit 34.
  • the recording unit 12 extracts voice data from the recorded data, separates the extracted voice data into direct sound data and reverberation sound data, and stores the direct sound data in the direct sound data storage unit 31;
  • the reverberation sound data is stored in the reverberation sound data storage unit 32.
  • the recording unit 12 generates object metadata based on the position information and the direction and orientation information, and stores the object metadata in the object metadata storage unit 33.
  • the recording unit 12 causes the direct sound data storage unit 31 to store all-around sound data.
  • the recording unit 12 stores the image data in the image data storage unit 34. A detailed configuration example of the recording unit 12 will be described later with reference to FIG.
  • the reproduction unit 14 reads direct sound data, reverberation sound data, object metadata, and image data of the content for which reproduction is designated from the data storage unit 13, performs predetermined processing, and causes the display unit 22 of the HMD 15 to The sound is displayed as an image and output as a sound from the sound output unit 21.
  • the reproduction unit 14 performs zoom display And an audio that makes it possible to sense even a change in the sense of distance in the zoom image. Then, the playback unit 14 outputs each to the HMD 15 and causes the display unit 22 to display the same as a zoom image, and causes the voice output unit 21 to output the sound at the viewing position of the zoom image.
  • a detailed configuration example of the reproduction unit 14 will be described later with reference to FIG.
  • the HMD 15 is mounted on the head of the user, and includes an audio output unit 21 including a speaker, headphones, and the like, and a display unit 22 including a display such as an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence).
  • the HMD 15 acquires image data and audio data supplied from the reproduction unit 14, causes the display unit 22 to display an image, and causes the audio output unit 21 to output audio.
  • the HMD 15 includes an acceleration sensor, a gyro sensor, and the like, and the user wearing the HMD 15 changes the viewpoint position of the image content and the omnidirectional content by moving the direction and position of the head and displays Display on the part 22. That is, on the display unit 22 of the HMD 15, the area of the image content corresponding to the viewpoint position determined by the position and the direction of the HMD 15 is displayed. Then, the object displayed in the area of the image content corresponding to the viewpoint position becomes an object to be subjected to the process of adjusting the gain of the audio so that the audio corresponding to the viewpoint position is obtained.
  • the terminal 11 is an image content recorded by the recording unit 12.
  • the terminal 11 is attached to each athlete of a sport, and the control unit 51, the voice acquisition unit 52, the GPS 53, the motion sensor 54, and the communication unit It has 55.
  • the control unit 51 controls the entire operation of the terminal 11.
  • the voice acquisition unit 52 includes a microphone or the like, acquires voices of the competitor's voice, breathing sound, footsteps and the like, and outputs the acquired voice data to the control unit 51.
  • a GPS (Global Positioning System) 53 receives a signal from a satellite (not shown), obtains position information including latitude and longitude on the earth, and outputs the position information to the control unit 51 as position information of the competitor.
  • the motion sensor 54 measures the acceleration, detects the player's direction and posture based on the measurement result, and outputs it to the control unit 51 as direction and posture information.
  • the communication unit 55 communicates with the storage unit 12 through a wireless communication line such as Wifi to exchange various data and programs.
  • the control unit 51 controls the communication unit 55 to associate the voice data, the position information, and the direction and orientation information with the unique identifier for identifying the terminal 11 as recording data and the time information indicating the recording time. , Send to the recording unit 12.
  • the recording unit 12 includes a control unit 71, a communication unit 72, a recorded data storage unit 73, a data separation unit 74, a noise removal unit 75, a reverberation separation unit 76, an object metadata generation unit 77, and an image data extraction unit 78. There is.
  • the control unit 71 controls the overall operation of the recording unit 12.
  • the control unit 71 controls the communication unit 72 to receive the recorded data transmitted from the terminal 11 and stores the received data in the recorded data storage unit 73.
  • the control unit 71 stores, in the recorded data storage unit 73, image data of an image captured by the camera 12a and voice data of all-surround sound recorded by the microphone 12b.
  • the recorded data storage unit 73 has respective identifiers of the image data captured by the camera 12a, the audio data recorded by the microphone 12b, and the recorded data supplied from the terminal 11, and time information indicating the acquired timing. Are stored in association with
  • the data separation unit 74 reads the recorded data supplied from the terminal 11 stored in the recorded data storage unit 73, and separates and reads voice data, position information, and orientation / posture information. Then, the data separation unit 74 supplies the audio data to the noise removal unit 75, and supplies the position information and the orientation and orientation information to the object metadata generation unit 77.
  • the noise removal unit 75 performs, for example, a predetermined noise removal filter process on the audio data to remove noise and outputs the result to the reverberation separation unit 76.
  • the reverberation separation unit 76 separates the noise-removed voice data into direct sound data and reverberation sound data, stores the direct sound data in the direct sound data storage unit 31, and outputs the reverberation sound data to the reverberation sound data storage unit Store in 32.
  • a method of separating voice data into direct sound data and reverberation sound data will be described later with reference to FIG.
  • the object metadata generation unit 77 generates object metadata corresponding to each athlete as an object based on the position information and the direction and orientation information, and stores the object metadata in the object metadata storage unit 33. . More specifically, the object metadata generation unit 77 generates object metadata on a frame (audio frame) basis in audio data. Therefore, in audio frame units, position information and orientation and orientation information are stored in object metadata.
  • the data separation unit 74 extracts the voice data of the whole sky sound recorded by the microphone 12 b stored in the recorded data storage unit 73.
  • the data separation unit 74 supplies the voice data of the all-around voice recorded by the microphone 12b to the noise removal unit 75, and removes the noise as in the case of the voice data in the recorded data of the terminal 11 unit.
  • the noise removing unit 75 supplies the reverberation separating unit 76 with the audio data of the all-around sound from which the noise has been removed.
  • the reverberation separation unit 76 does not separate the sound data of all-zenith sound into direct sound data and reverberation sound data, and stores the sound data in the direct sound data storage unit 31 as it is.
  • the image data extraction unit 78 extracts the image data stored in the recorded data storage unit 73 and causes the image data storage unit 34 to store the image data.
  • the stored image data is registered, for example, in frame units, in association with time information indicating the recorded timing and an identifier for identifying the terminal.
  • the sound output from the speaker Ss is recorded by the microphone M in a specific space.
  • a part of the sound Sd output from the speaker Ss is recorded as a direct sound by the microphone M, but the other part of the sound is reflected by a wall in the space and the like, and the reverberation sound Si1 or Si2 is reflected.
  • the audio S1 is output at a first time as the audio Sd output from the speaker Ss, and the audio S2 is output at a second time later than the first time.
  • the waveform of the sound recorded by the microphone M is, for example, a waveform as shown by the display B in FIG.
  • the voice S1 output at the first time is detected at time t1
  • the voice S2 output at the second time is detected at time t2 later than that.
  • the waveform has a waveform whose peak value at the received time is high and which attenuates with the passage of time.
  • the reverberation sound is recorded through various routes before reaching the microphone M from the speaker Ss, it is recorded later than the direct sound, and the power decreases as the route extends. It becomes a waveform where the peak value is attenuated.
  • the waveform in display B in FIG. 5 can be considered to be a waveform in which the direct sound waveforms Sd11 and Sd12 and the reverberation sound waveforms Si11 and Si12 are synthesized. .
  • the reverberation separation unit 76 extracts audio data composed of the waveforms Sd11 and Sd12 as direct sound data. Further, as shown by display E in FIG. 5, the reverberation separation unit 76 extracts audio data composed of the waveforms Si11 and Si12 as reverberation sound data. That is, the reverberation separation unit 76 separates voice data into direct sound data and reverberation sound data according to the principle as shown in FIG.
  • the reproduction unit 14 includes a control unit 90, a metaparser unit 91, an object position and posture specification unit 92, a proximity object determination unit 93, an audio decoding unit 94, an object mixing unit 95, a phase adjustment unit 96, a 3D audio renderer 97, and a UI (user interface ), A gain adjustment unit 99, an image decoding unit 100, and an image renderer 101.
  • the control unit 90 controls the entire operation of the reproduction unit 14.
  • the meta parser unit 91 reads the object metadata of the object requiring processing from the object metadata storage unit 33, supplies the position and orientation information included in the object metadata to the object position and orientation designation unit 92, and brings the position information close.
  • the data is supplied to the object determination unit 93.
  • the object requiring processing is, for example, reflected in a zoom image specified based on the information of the instructed zoom magnification and zoom position when the operation unit 16 is operated and the zoom display is instructed. It is an object corresponding to the competitor who is playing.
  • the object position / posture designation unit 92 designates the position / posture of each object who is the competitor based on the position / posture information included in the object metadata, and outputs the position / posture to the object mixing unit 95.
  • the proximity object determination unit 93 determines the presence / absence of proximity of each object (whether or not it is in proximity) based on the position information of the object data, and outputs the determination result to the object mixing unit 95. More specifically, the proximity object determination unit 93 sets the occupancy range of each competitor who is an object, and based on the respective position information, the presence or absence of proximity is determined based on whether the occupancy ranges overlap or not. judge. In the present embodiment, determination of the presence or absence of proximity, that is, proximity determination is described as determination based on whether or not the occupancy ranges of the athletes who are objects overlap each other, As long as it can be determined whether or not the objects are close, another method may be used. For example, proximity determination may be performed based on whether or not the distance between objects is equal to or less than a predetermined proximity determination distance.
  • the audio decoding unit 94 reads out direct sound data from the direct sound data storage unit 31 and decodes it for an object that needs processing, and reads out and decodes reverberation sound data from the reverberation sound data storage unit 32, The direct sound data and the reverberation sound data are output to the object mixing unit 95.
  • the audio decoding unit 94 is stored in the direct sound data storage unit 31 in a state where the audio data of all-zenith audio is not separated into direct sound data and reverberation sound data, direct sound data storage is performed.
  • the signal is read from the unit 31 and decoded, and the decoded result is output to the phase adjustment unit 96.
  • the UI processing unit 98 outputs information of the received operation content to the control unit 90 based on the operation signal according to the operation content supplied from the operation unit 16.
  • the control unit 90 acquires, via the UI control unit 98, information on the zoom magnification and zoom position related to the zoom operation according to the operation content of the operation unit 16, and the meta parser unit 91, the audio decoding unit 94, the object mixing unit 95,
  • the signal is supplied to the phase adjustment unit 96, the 3D voice renderer 97, the gain adjustment unit 99, and the image renderer 101.
  • the zoom operation may operate the operation unit 16 as long as the operation unit 16 has a stick type or button type configuration.
  • it is possible to detect the line of sight of the user, and when one of the points in the image is gazed for a predetermined time, it may be regarded as a zoom operation for displaying a predetermined range centered on the position.
  • the object mixing unit 95 is a relative position from the assumed viewing position of the object (the expected viewing position of the user in the assumed image space) obtained from the information on the position and orientation of the object, and the information on the zoom magnification and the zoom position. Based on the distance, set the basic gain (audio gain) and spread to be multiplied to the audio data of the object.
  • the object mixing unit 95 mixes the direct sound data and the reverberation sound data for each object according to the direction of the object in the image content, and outputs the mixed sound data to the 3D voice renderer 97.
  • the object mixing unit 95 brings the voice data of a plurality of objects in proximity to each other in the proximity state in the case of the determination result of proximity.
  • the audio data of one object is mixed and output to the 3D audio renderer 97. It is possible to suppress the occurrence of over gain by managing audio data as one object, since the same sound may be output in an object in close proximity and over gain may occur. Can.
  • the phase adjustment unit 96 adjusts the phase of the all-around sound supplied from the sound decoding unit 94 and outputs the adjusted sound to the 3D sound renderer 97.
  • the gain adjustment unit 99 outputs a signal for adjusting the gain to the 3D voice renderer 97 according to the information on the zoom magnification from the control unit 90.
  • the 3D audio renderer 97 renders the audio data for each object supplied from the object mixing unit 95 and the all-sky audio data whose phase is adjusted supplied from the phase adjustment unit 96, and is supplied from the gain adjustment unit 99.
  • the gain is adjusted based on the signal for adjusting the gain, and supplied to the audio output unit 21 to be output as audio.
  • the image decoding unit 100 reads image data from the image data storage unit 34, decodes the image data, and outputs the image data to the image renderer 101.
  • the image renderer 101 renders the image data based on the information of the zoom magnification and the zoom position supplied from the control unit 90, and outputs the rendered image data to the display unit 22 for display.
  • the direct sound emitted from the person H101 is expressed as the direct sound Ss101, and at the listening position L1, the size of the sound image is expressed as the size on the sound image Sp101 in FIG. ing.
  • ⁇ 1 in the sound image Sp101 represents a spread.
  • the spread is an index indicating the spread of the sound image, and is expressed as the left and right angles when the listening position is in front.
  • ⁇ 1 means the size of the sound image set from the distance from the assumed viewing position, and the far sound source is small and the near sound source is large.
  • the spread ⁇ 1 is set in the sound image Sp101 in correspondence to the spread in the forward direction of the direct sound Ss.
  • the object mixing unit 95 mixes the direct sound as almost 100% and the reverberation as 0% to generate audio data of the object.
  • the size of the sound image Sp102 of the direct sound at the listening position L1 is smaller than that of the direct sound Ss102 emitted from the person H102 than the sound image Sp101 at the left portion of FIG.
  • the spread is throttled and set to ⁇ 2 ( ⁇ 1).
  • the wall W is present at a position farther than the person H102 with respect to the listening position L1, and the direct sound is reflected by the wall W, so that the route R1 is obtained. , R2, etc. are heard at the listening position L1.
  • the object mixing unit 95 narrows the spread of the direct sound from ⁇ 1 to ⁇ 2 ( ⁇ 1) as compared with the case of the left portion of FIG.
  • the Sp 102 is reduced and mixed with a high proportion of reverberation to generate audio data of the object.
  • the sound image of the direct sound at the listening position L1 is substantially absent with respect to the direct sound Ss103 emitted from the person H103. Further, in the right part of FIG. 7, the direct sound is reflected by the wall W with respect to the listening position L1, so that reverberation is generated by the routes R11, R12 and the like, and is heard at the listening position L1.
  • the object mixing unit 95 mixes the direct sound to 0% and the reverberation to 100% to generate the audio data of the object.
  • the sound source set as the surface sound source of the spread ⁇ 1 is shown by the person H102 in the center part of FIG.
  • the sound image becomes smaller
  • the person H103 in the right part of FIG. When oriented, the area of the surface sound source becomes 0 (the spread is 0).
  • the object mixer 95 narrows the spread, sets the direct sound to 75%, mixes the reverberation to 25%, and generates audio data of the object.
  • the direct sound is directed since the back is directed to the assumed viewing position (it appears in the opposite direction to the viewer viewing the display unit 22). Since the object mixing unit 95 sets the spread narrow, sets the direct sound to 0%, sets the reverberation to 100%, and generates audio data of the object.
  • the mixing unit 95 sets the spread narrow, sets the direct sound to 50%, mixes the reverberation to 50%, and generates audio data of the object.
  • the direct sound and the reverberation sound are mixed in accordance with the assumed viewing position and the direction or posture of the competitor who is the object.
  • the proximity object determination unit 93 determines that the athletes H151 and H152 are not in proximity to each other. Therefore, in this case, the object mixing unit 95 generates voice data of the athletes H 151 and H 152 for each of the individual objects.
  • the occupation ranges Z51 and Z52 of the athletes H151 and H152 are defined as a circular range of a predetermined radius, but other size and shape ranges may be set.
  • the proximity object determination unit 93 determines that the athletes H161 and H162 are in proximity to each other. Therefore, in this case, the object mixing unit 95 mixes audio data with each other as one object based on the position and posture information of each of the athletes H161 and H162.
  • the audio data of the athletes H161 and H162 is mixed as audio data of one object.
  • the proximity object determination unit 93 determines that the athletes H171 and H172 are in proximity to each other. Therefore, in this case, the object mixing unit 95 mixes audio data with each other as one object, from the relationship between the position with the athletes H171 and H172 and the posture.
  • the audio data of the athletes H171 and H172 is mixed as audio data of one object.
  • the occurrence of excessive gain and the like can be prevented, and the generation of noise can be reduced.
  • each voice data Calculate the sum of the values divided by the number of people, and use it as the average value.
  • the relationship between the respective gains of the omnidirectional audio and the object audio and the zoom magnification of the display image is as shown in FIG. In FIG. 10, the vertical axis is gain, and the horizontal axis is zoom magnification.
  • the gain of all-zenith voice becomes smaller as the zoom factor becomes larger.
  • the object sound increases as the zoom factor increases.
  • the zoom magnification is increased, and for example, when an image in which a person who is a specific object is displayed largely is displayed, the surrounding sound that is all-around sound can hardly be heard, The conversation and footsteps of the person corresponding to the projected object can be heard well.
  • the phase adjustment unit 96 also reduces the gain by inverting the phase.
  • step S11 the sound acquisition unit 52 of the terminal 11 acquires the sound around the athlete wearing the terminal 11, and outputs the sound to the control unit 51 as sound data.
  • step S12 the GPS 52 receives a signal from a satellite (not shown), obtains position information including latitude and longitude on the earth based on the received signal, and obtains position information of an athlete wearing the terminal 11 Output to the control unit 51 as
  • step S 13 the motion sensor 54 measures the acceleration, detects the direction and posture of the athlete wearing the terminal 11, and outputs the detected direction to the control unit 51.
  • step S14 the control unit 51 controls the communication unit 55 as recorded data by correlating the voice data, the position information, and the direction and orientation information with the time information indicating the acquisition time and the identifier for identifying the terminal. And transmit to the recording unit 12.
  • step S31 the control unit 71 of the recording unit 12 controls the communication unit 72 to receive the recorded data transmitted from the terminal 11.
  • step S32 the control unit 71 stores the received recorded data in the recorded data storage unit 73.
  • step S33 the control unit 71 acquires image data of the image captured by the camera 12a, and stores the acquired image data in the recorded data storage unit 73.
  • step S34 the control unit 71 acquires audio data of the all-around sound recorded by the microphone 12b, and stores the acquired audio data in the recorded data storage unit 73.
  • steps S15 and S35 it is determined whether or not the end of the process is instructed. If the end of the process is not instructed, the process returns to the steps S11 and S31. That is, the process of steps S11 to S15 is repeated in the terminal 11 and the process of steps S31 to S35 is repeated in the recording unit 12 until the end is instructed.
  • the recording unit 12 sequentially stores the recorded data transmitted from the terminal 11 in the recorded data storage unit 73.
  • the recording unit 12 also stores the image captured by the camera 12 a and the audio data of the whole zenith sound recorded by the microphone 12 b in the recorded data storage unit 73.
  • the recorded data from the terminal 11, the image data and the audio data of all-around voice are stored in association with an identifier that can identify the terminal 11, and time information indicating time when information or data is acquired. Be done.
  • the data storage process is a process performed in a state where the recorded data supplied from each terminal 11 by the above-described recording process is stored in the recorded data storage unit 73.
  • step S51 the data separation unit 74 sets unprocessed recording data among the recording data stored in the recording data storage unit 73 as the processing target recording data.
  • step S52 the data separation unit 74 separates the processing target recording data into voice data, position information, and direction and orientation information, and the sound data is sent to the noise removing unit 75 as position information and direction and orientation information. Are output to the object metadata generation unit 77.
  • step S53 the noise removing unit 75 removes noise from the voice data and outputs the noise to the reverberation separating unit 76.
  • step S54 the reverberation separation unit 76 separates the voice data into direct sound data and reverberation sound data, stores the direct sound data in the direct sound data storage unit 31, and the reverberation sound data into the reverberation sound data storage unit 32. Store.
  • step S 55 the object metadata generation unit 77 generates object metadata based on the position information and the orientation and orientation information, and stores the object metadata in the object metadata storage unit 33.
  • object metadata is stored chronologically in audio frame units.
  • step S56 the data separation unit 74 determines whether or not there is unprocessed recorded data. If there is unprocessed recorded data, the process returns to step S51. That is, the process of steps S51 to S56 is repeated until the process is performed on all the recorded data. Then, if it is determined in step S56 that there is no unprocessed recorded data, the process proceeds to step S57.
  • step S ⁇ b> 57 the data separation unit 74 extracts the audio data of the whole sky voice stored in the recorded data storage unit 73 and supplies the extracted data to the noise removal unit 75.
  • the noise removing unit 75 removes noise from the audio data of all-zenith voice and supplies the noise to the reverberation separating unit 76.
  • step S58 the reverberation separation unit 76 does not separate the reverberation from the audio data of the all-around sound, and stores the reverberation as the direct sound data in the direct sound data storage unit 31 as it is. That is, since the processing for dividing the direct sound and the reverberation sound is not performed for the all-circumstantial sound, the direct sound and the reverberation sound are not separated, and are directly stored in the direct sound data storage unit 31 as direct sound data. However, if necessary, the audio data of all-zenith voice may be divided into direct sound and reverberant sound and managed.
  • step S 59 the image data extraction unit 78 extracts the image data stored in the recorded data storage unit 73 and stores the image data in the image data storage unit 34.
  • the recorded data storage unit 73 recorded data stored in each of the terminals 11, that is, in each object is sequentially read out and separated into voice data, position information, and direction and posture information. Ru. Then, after noise removal, the audio data is separated into direct sound data and reverberation sound data, and is stored in the direct sound data storage unit 31 and the reverberation sound data storage unit 32, respectively. Further, object metadata is generated based on the position information and the direction and orientation information, and is stored in the object metadata storage unit 33. Furthermore, the voice data of the all-around voice stored in the recorded data storage unit 73 is extracted and noise-removed, and is stored directly in the sound data storage unit 31 without being separated from the reverberation. Further, the image data stored in the recorded data storage unit 73 is extracted and stored in the image data storage unit 34.
  • step S71 the control unit 90 performs the zoom operation based on whether the operation signal indicating that the zoom operation has been performed is supplied, which is supplied via the UI processing unit 98 and the operation unit 16 is operated. Determine the presence or absence of In step S71, when the zoom operation is not performed, the process proceeds to step S88.
  • step S88 the control unit 90 instructs the audio decoding unit 94 to perform normal reproduction.
  • the audio decoding unit 94 reads out and decodes the audio data of the all-around sound stored in the direct sound data storage unit 31 and outputs it to the phase adjustment unit 96.
  • the phase adjustment unit 96 supplies the audio data of the decoded all-around sound as it is, that is, without attenuating the phase and without attenuation, to the 3D sound renderer 97.
  • the 3D audio renderer 97 outputs the decoded audio data of the omnidirectional audio to the audio output unit 21 and outputs the audio data as audio.
  • the gain adjustment unit 99 sets the gain of the audio data of the all-around sound to the maximum because the normal reproduction is performed without the zoom operation.
  • step S 89 the image decoding unit 100 reads the image data from the image data storage unit 34, decodes the image data, and outputs the image data to the image renderer 101.
  • the image renderer 101 renders the whole of the image so as to be displayed without zooming the decoded image data, and outputs the image data to the display unit 22 for display.
  • step S87 in which it is determined whether the end is instructed or not. When the end is not instructed, the process returns to step S71.
  • step S71 when the operation unit 16 is operated and the zoom operation is performed in step S71, the process proceeds to step S72.
  • step S72 the control unit 90 controls the image renderer 101, the metaparser unit 91, the object mixing unit 95, the phase adjustment unit 96, and the gain adjustment unit 99 for the zoom magnification and zoom position information corresponding to the zoom operation by the operation unit 16.
  • step S73 the image renderer 101 renders the decoded image data supplied from the image decoding unit 100 based on the zoom magnification and the zoom position information, generates a zoom image, and outputs it to the display unit 22. Display.
  • a zoom image at a zoom position corresponding to the zoom operation by the operation unit 16 is generated from the image captured by the camera 12a at the time of recording, and is displayed on the display unit 22.
  • step S74 the audio decoding unit 94 identifies an object present in the zoomed image, that is, an athlete to be reflected in the zoomed image, based on the zoom magnification corresponding to the zoom operation and the information on the zoom position. Then, the audio decoding unit 94 reads out and decodes direct sound data and reverberation data of the specified object from the direct sound data storage unit 31 and the reverberation sound data storage unit 32, respectively, and outputs the data to the object mixing unit 95.
  • step S75 the meta-parser unit 91 identifies an object present in the zoom image, that is, an athlete to be reflected in the zoom image, based on the zoom magnification corresponding to the zoom operation and the information on the zoom position. Then, the meta parser unit 91 reads out the object metadata of the specified object from the object metadata storage unit 33, and outputs the object metadata to the object position and posture designation unit 92 and the proximity object determination unit 93.
  • step S76 the phase adjustment unit 96 reverses the phase of the forward reproduction sound of the all-around sound to substantially attenuate the gain.
  • step S77 the gain adjustment unit 99 attenuates the gain of the reproduced sound of all-around sound.
  • step S78 the object mixing unit 95 sets an unprocessed object among objects existing in the zoom area as a processing target object.
  • step S 79 the object position and posture specification unit 92 specifies position information and posture information based on the position information of the processing target object and the direction and posture information, and outputs the specified information to the object mixing unit 95.
  • step S80 the object mixing unit 95 specifies the assumed viewing position based on the position information of the processing target object, and based on the distance to the processing target object, basic spread and gain to be applied to the direct sound data.
  • the basic spread and gain for the object voice are set by the relative distance to the assumed viewing position and the zoom factor according to the method described with reference to FIG.
  • step S81 the object mixing unit 95 determines whether the processing target object faces the assumed viewing position based on the posture information of the processing target object. In step S81, when the processing target object does not face the assumed viewing position, the processing proceeds to step S82.
  • step S82 the object mixing unit 95 executes orientation / posture adjustment processing to adjust the spread and the gain in accordance with the orientation of the processing target object with respect to the assumed viewing position.
  • step S91 the object mixing unit 95 adjusts the direct sound data so as to attenuate the direct sound according to the direction of the processing target object with respect to the assumed viewing position.
  • step S 92 the object mixing unit 95 adjusts the reverberation sound data so as to amplify the reverberation according to the direction of the processing target object with respect to the assumed viewing position.
  • step S93 the object mixing unit 95 adjusts the direct sound data so as to reduce the direct sound spread according to the orientation of the processing target object with respect to the assumed viewing position.
  • the spread of the direct sound is narrowed and attenuated, and the reverberation is amplified.
  • the sound generated by mixing and rendering as described above is adjusted so as to be an appropriate sound for the relationship between the orientation of the object to be processed and the assumed viewing position.
  • step S81 in the case where the processing target object faces the assumed viewing position, the process of step S82 is skipped. That is, in this case, since the processing target object faces the assumed viewing position, it is only necessary to listen to the direct sound, so that the orientation / posture adjustment process of mixing reverberation becomes unnecessary.
  • step S83 the object mixing unit 95 determines whether or not there is an unprocessed object. If there is an unprocessed object, the process returns to step S78. That is, the basic spread and gain corresponding to all objects are adjusted, and if necessary, direct sound and reverberation sound are mixed by the orientation / posture adjustment processing for an object not facing straight. The processing of steps S78 to S83 is repeated. Then, in step S83, the direct sound and the reverberation sound are adjusted for all the objects, and when it is considered that there is no unprocessed object, the process proceeds to step S84.
  • step S84 the proximity object determination unit 93 executes proximity adjustment processing, determines presence / absence of proximity of the occupation range of objects existing within a predetermined distance, and determines proximity if it is considered that proximity is present.
  • the direct sound data and the reverberation sound data of the objects are regarded as one object and mixed.
  • the proximity object determination 93 groups objects existing within a predetermined distance. For example, in the case of soccer or baseball, the proximity object determination 93 divides the ground into small areas of a predetermined size, and based on the position information of each object, a plurality of objects are included in the same small area divided. When grouping, a plurality of objects existing in the same area are grouped into one group. However, the small area shall be wider than the occupation range of the competitor who is the object.
  • step S112 the proximity object determination 93 sets an unprocessed group as a processing target group.
  • step S113 the proximity object determination 93 determines whether or not the proximity is determined based on whether or not the occupation ranges of the objects in the processing target group overlap. .
  • step S113 If it is determined in step S113 that the occupancy ranges of the objects overlap and it is determined that they are close, the process proceeds to step S114.
  • step S114 the proximity object determination unit 93 notifies the object mixing unit 95 of information specifying an object considered to be close.
  • the object mixing unit 95 described the direct sound and the reverberation sound of the objects regarded as being close to each other based on the mutual distance, the direction, and the posture information. Adjust by mixing.
  • step S113 If it is determined in step S113 that they are not in proximity, the process of step S114 is skipped.
  • step S115 the proximity object determination 93 determines whether or not there is an unprocessed group, and when there is an unprocessed group, the processing returns to step S112. That is, the processes of steps S112 to S1115 are repeated until proximity determination is made for all the groups.
  • step S115 when there are no unprocessed groups, the process ends.
  • proximity determination between objects existing in the close range is made, and direct sound data and reverberation sound of each other are obtained in the case where they are close, that is, mutually overlapping ranges overlap.
  • the data are mixed based on the mutual distance, and the relationship with the orientation and attitude, and treated as direct sound data and reverberation data of one object. As a result, it is possible to eliminate the occurrence of over gain and the like, and to reduce the generation of noise.
  • step S84 the process proceeds to step S85.
  • step S85 the object mixing unit 95 outputs the direct sound data and the reverberation sound data of all the objects that have been adjusted according to the position information and the direction and orientation, and have been subjected to the proximity adjustment processing to the 3D sound renderer 97.
  • the 3D sound renderer 97 is adjusted according to the position information and the orientation and attitude, and further, direct sound data and reverberation data of all the objects subjected to the proximity adjustment processing, and all-round sound from the phase adjustment unit 96 Based on audio data and gain information supplied from the gain adjustment unit 99, audio rendering is performed and output to the audio output unit 21 to output as audio.
  • step S87 it is determined whether or not end is instructed, and if the end is not instructed, the process returns to step S71, and if zoom operation is performed until the end is instructed, steps S71 to S87. The process of is repeated. Then, when termination is instructed in step S87, the processing is terminated.
  • the object metadata is configured in time series in audio frame units
  • the series of processes of repeated steps S71 to S87 are repeated in time series in audio frame units.
  • the direct sound and the reverberation sound of the object are adaptively mixed according to the assumed viewing position corresponding to the zoom image, thereby generating a sound suitable for the image being zoomed and displayed. It becomes possible to output. Further, since the assumed viewing position corresponding to the zoom image can realize listening to the sound at a position where it can not enter in reality, it is possible to virtually realize an experience that can not be experienced in reality. Become.
  • Example of execution by software can be executed not only by hardware but also by software.
  • various functions may be executed by installing a computer in which a program constituting the software is incorporated in dedicated hardware or various programs. It can be installed from a recording medium, for example, on a general purpose computer.
  • FIG. 16 shows a configuration example of a general-purpose computer.
  • This personal computer incorporates a CPU (Central Processing Unit) 1001.
  • An input / output interface 1005 is connected to the CPU 1001 via the bus 1004.
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.
  • the input / output interface 1005 includes an input unit 1006 including an input device such as a keyboard and a mouse through which the user inputs an operation command, an output unit 1007 for outputting a processing operation screen and an image of a processing result to a display device, programs and various data.
  • a storage unit 1008 including a hard disk drive to be stored, a LAN (Local Area Network) adapter, and the like are connected to a communication unit 1009 that executes communication processing via a network represented by the Internet.
  • a magnetic disc including a flexible disc
  • an optical disc including a compact disc-read only memory (CD-ROM), a digital versatile disc (DVD)
  • a magneto-optical disc including a mini disc (MD)
  • a semiconductor A drive 1010 for reading and writing data to a removable storage medium 1011 such as a memory is connected.
  • the CPU 1001 is read from a program stored in the ROM 1002 or a removable storage medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 to the RAM 1003. Execute various processing according to the program.
  • the RAM 1003 also stores data necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads the program stored in the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004, and executes the program. Processing is performed.
  • the program executed by the computer (CPU 1001) can be provided by being recorded in, for example, a removable storage medium 1011 as a package medium or the like. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by attaching the removable storage medium 1011 to the drive 1010.
  • the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008.
  • the program can be installed in advance in the ROM 1002 or the storage unit 1008.
  • the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
  • the CPU 1001 in FIG. 16 realizes the function of the control unit 90 in FIG. Also, the storage unit 1008 in FIG. 16 implements the data storage unit 13 in FIG.
  • a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same case. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the present disclosure can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
  • each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
  • the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • the present disclosure can also have the following configurations.
  • An image reproduction unit that reproduces image content whose view zoom magnification can be changed; A gain for adjusting a volume gain of audio data associated with an object in the image content according to a viewing zoom magnification during reproduction of the image content and information on the orientation of the object in the image content Adjustment department, An information processing apparatus, comprising: an audio reproduction unit that reproduces audio data adjusted by the gain adjustment unit together with the image content.
  • the gain adjustment unit adjusts a volume gain of direct sound data and reverberation sound data in the audio data.
  • the gain adjustment unit adjusts a mixing ratio of the direct sound data to the reverberation sound data in the audio data, based on the information on the orientation of the object in the image content associated with the object.
  • the information processing apparatus according to ⁇ 2> which adjusts the volume gain by doing.
  • the gain adjustment unit is configured to use information on the orientation of the object in the image content associated with the object.
  • the information processing apparatus according to ⁇ 3> wherein a volume gain is adjusted by adjusting a mixing ratio of the direct sound data and the reverberation sound data in the sound data.
  • the gain adjustment unit is configured to use information on the orientation of the object in the image content associated with the object.
  • the information processing apparatus according to ⁇ 3>, wherein the volume gain is adjusted by adjusting the mixing ratio of the direct sound data to the reverberation sound data in the sound data to approximately 1: 0.
  • the gain adjustment unit is The mixing ratio of the direct sound data is increased as the orientation of the object in the image content is closer to the viewer in the directly opposite direction, and the mixing ratio of the reverberation sound data is reduced.
  • the mixing ratio of the direct sound data is decreased as the orientation of the object in the image content is closer to the opposite direction to the viewer, and the mixing ratio of the reverberation sound data is increased.
  • Processing unit. ⁇ 7> A proximity object determination unit that determines that a plurality of objects are present in proximity within a predetermined range of the image content is further included, The information processing apparatus according to ⁇ 3>, wherein the gain adjustment unit adjusts a volume gain of audio data associated with the plurality of objects based on the determination result of the proximity object determination unit. ⁇ 8> The gain adjustment unit adjusts the mixing ratio of the direct sound data and the reverberation sound data of the audio data associated with the plurality of objects based on the determination result of the proximity object determination unit.
  • the average value of the mixing ratio of the direct sound data and the reverberation sound data is determined, and the average value of the mixing ratio of the direct sound data and the reverberation sound data is the sound data of the audio data associated with one object.
  • a volume gain is adjusted by setting it as a mixing ratio of direct sound data and the reverberation sound data.
  • ⁇ 10> further including a terminal attached to the object at the time of the recording;
  • the terminal is An audio data detection unit that detects audio data;
  • a position information detection unit that detects position information;
  • an orientation detection unit that detects the orientation of the object;
  • the information processing apparatus according to ⁇ 9>, wherein the audio data detected by the audio data detection unit is separated into the direct sound data and the reverberation sound data.
  • ⁇ 11> The information processing apparatus according to ⁇ 1>, wherein a viewpoint position of the image content can be changed.
  • ⁇ 12> The information processing apparatus according to ⁇ 11>, wherein the object is an object displayed in a display area of image content determined by the viewpoint position.
  • Image reproduction processing for reproducing image content whose viewing zoom magnification can be changed;
  • An information processing method comprising: audio reproduction processing for reproducing audio data adjusted by the gain adjustment processing together with the image content.
  • An image playback unit that plays back image content whose viewing zoom magnification can be changed;

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本開示は、ズーム画像を表示する際、ズーム画像の想定視聴位置における音声を出力することができるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。 スポーツ中継などの画像コンテンツの場合、収録時に、オブジェクトとなる競技者毎に個別の位置情報、並びに向きおよび姿勢情報と、音声データを直接音と残響音とで分けて格納しておき、ズーム再生時には、ズーム画像における想定視聴位置に対するオブジェクトとなる競技者の向きに応じて、直接音と残響音とを混合することで、想定視聴位置において聴取される音声を出力する。コンテンツ再生装置に適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、再生される画像に対してズームが指示されるとき、ズームして表示されている画像に対応する視聴位置の音声を再生できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
 撮像技術の進歩に伴って、撮像される画像が高解像度化されることにより、撮像された画像の一部をズームして表示しても、著しく画質が低下してしまうことがなくなってきている。
 このため、撮像された画像を再生する際、一部をズーム表示して視聴することが可能となっている。
 一方、鳥瞰画像においてユーザ操作で指示された地点に係る広角画像から切り出された一部領域の画像を表示する技術が提案されている(特許文献1参照)。
 特許文献1の技術によれば、広角画像から切り出される一部領域は、鳥瞰画像においてユーザ操作で指示された向きにより可変とされるので、ユーザは、鳥瞰画像をもとに、能動的に風景内を移動できる。
 そこで、この特許文献1の技術を、高解像度化された画像に適用することで、画像内の任意の範囲をズーム表示させて、視聴させることが考えられる。
特開2007-109205号公報
 しかしながら、特許文献1の技術を適用することで、高解像度化された画像の一部の範囲を用いてズームした画像を表示することはできても、再生される音声を、ズームした画像に対応して再生することはできない。
 このため、再生される画像はズームできても、再生される音声は、ズーム前の画像全体が表示されるときの音声がそのまま再生されるので、視覚により視聴する内容と、聴覚により聴取する内容との間に乖離が生じて、違和感を生じさせる恐れがあった。
 本開示は、このような状況に鑑みてなされたものであり、特に、再生画像に対してズームが指示された場合、ズームして表示される画像に対応した音声を出力できるようにするものである。
 本開示の一側面の情報処理装置は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む情報処理装置である。
 前記ゲイン調整部には、前記音声データにおける直接音データと残響音データとの音量ゲインを調整させるようにすることができる。
 前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。
 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。
 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整させるようにすることができる。
 前記ゲイン調整部には、前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくさせるようにすることができる。
 前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含ませるようにすることができ、前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整させるようにすることができる。
 前記ゲイン調整部には、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整させ、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整させるようにすることができる。
 前記直接音データおよび前記残響音データは、前記音声データの収録時に分離されるようにすることができる。
 前記収録時に前記オブジェクトに装着される端末をさらに含ませるようにすることができ、前記端末には、音声データを検出する音声データ検出部と、位置情報を検出する位置情報検出部と、オブジェクトの向きを検出する方向検出部とを設けるようにさせることができ、前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離されるようにすることができる。
 前記画像コンテンツの視点位置は変更することができる。
 前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトとすることができる。
 本開示の一側面の情報処理方法は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む情報処理方法である。
 本開示の一側面のプログラムは、コンピュータを、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させるプログラムである。
 本開示の一側面においては、視聴ズーム倍率を変更することが可能な画像コンテンツが再生され、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインが調整され、前記画像コンテンツと共に調整された音声データが再生される。
 本開示の一側面によれば、特に、再生画像に対するズームが指示された場合、ズームして表示される画像に対応した音声を出力することが可能となる。
本開示の概要を説明する図である。 本開示の情報処理システムの構成例を説明する図である。 図2の端末の構成例を説明するブロック図である。 図2の収録部の構成例を説明するブロック図である。 音声データを直接音データと残響音データに分離する原理を説明する図である。 図2の再生部の構成例を説明するブロック図である。 オブジェクトの姿勢に基づいた直接音と残響音との混合方法を説明する図である。 オブジェクトの姿勢に基づいた直接音と残響音との混合例を説明する図である。 オブジェクトの近接判定に基づいた、直接音と残響音との混合例を説明する図である。 全天周音声とオブジェクト音声のそれぞれのズーム倍率とゲインの関係を説明する図である。 収録処理を説明するフローチャートである。 データ格納処理を説明するフローチャートである。 再生処理を説明するフローチャートである。 向き姿勢調整処理を説明するフローチャートである。 近接調整処理を説明するフローチャートである。 汎用のコンピュータの構成例を説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.本開示の概要
 2.本開示の好適な実施の形態
 3.ソフトウェアにより実行させる例
 <<1.本開示の概要>>
 本開示は、再生画像に対してズームが指示された場合、ズーム画像を表示すると共に、表示されるズーム画像に対応した音声を出力するものである。
 例えば、音声と共に撮像されたサッカーの試合などの画像コンテンツが再生される場合、図1の左部の画像P1で示されるように、サッカーの試合会場全体が映し出されるような画像が表示されるときには、視聴者が、試合会場において、画像P1のように見える視点位置(想定視聴位置)で、試合を観戦する際に聞こえてくるような音声が出力される。
 より詳細には、画像P1が表示される際には、視聴者が、画像P1のように見える視点位置となる観戦席に存在していると仮定したときに聞こえてくる、試合会場全体の、例えば、観客席からの「ガヤガヤ」といった音声Sd2や、少し離れたグランド上から聞こえる「ピー」という審判のホイッスルの音声Sd1が出力される。
 一方、画像P1の状態から、点線で囲まれた範囲Z1をズームして表示するように指示がなされた場合、図1の右部で示されるように、範囲Z1がズームされた画像P2が表示される。
 画像P2が表示される場合、視聴者が、画像P2のように見える視点位置に移動したと仮定したときに聞こえてくるような、選手同士の会話や、芝生の上を走る選手の足音などの音声が出力される。
 すなわち、画像P1の範囲Z1のズーム画像である画像P2が表示される際には、画像P2の上部に存在する選手の発する「進め」といった会話からなる音声Sd11や芝生の上を走る際の「ざっ」といった音声Sd12、並びに、画像P2の下部に存在する選手の発する「こっちだ」といった会話からなる音声Sd13やボールを蹴る際の「パスッ」といった音声Sd14が出力される。
 このように、本開示においては、表示画像のズーム再生が指示されると、指示された領域のズーム画像が再生されて表示されると共に、ズーム再生される画像内の物体を現実の物体として視聴するときの視点位置で視聴した際に聞こえてくるような音声が再生される。
 これにより、視聴者は、ズーム再生される画像の視点位置で視聴しているような感覚を持つことが可能となり、画像コンテンツのズーム再生の視聴を、より高い没入感をもって楽しむことが可能となる。
 <<2.本開示の好適な実施の形態>>
 次に、図2を参照して、本開示の情報処理システムの構成例について説明する。
 図2の情報処理システム1は、例えば、サッカーや野球のようなスポーツ中継などの画像コンテンツを音声と共に収録して、データとして格納する。そして、情報処理システム1は、格納したデータを読み出して、視聴者の頭部に装着されるHMD(Head Mounted Display)に出力し、画像と音声とを再生する。この際、画像に対してズームが指示されると、ズーム画像が表示されると共に、ズーム画像に対する想定視聴位置(ズーム画像により表現される空間内におけるユーザの視聴位置)において聴取されるような音声が出力される。
 尚、収録される画像コンテンツは、サッカーや野球などのスポーツ中継のようなもの以外であってもよく、例えば、ライブコンサートや舞台演劇などでもよい。
 情報処理システム1は、端末11-1乃至11-n、収録部12、データ格納部13、再生部14、HMD(Head Mounted Display)15、および操作部16より構成される。
 端末11-1乃至11-nは、サッカー選手や野球選手といった収録対象となる画像コンテンツであるスポーツの競技者H1乃至Hnに装着され、競技者H1乃至Hnの周辺の音声、位置、向きや姿勢の情報を検出して収録データとして収録部12に送信する。
 尚、端末11-1乃至11-nを特に区別する必要がない場合、単に、端末11と称し、その他の構成についても同様に称する。また、端末11の詳細な構成例については、図3を参照して後述する。また、画像コンテンツが、ライブコンサートや舞台演劇などの場合、端末11は、ライブコンサートの演者であるアーティストや舞台演劇の俳優などに装着される。さらに、競技者、アーティスト、および俳優などは、画像コンテンツにおけるオブジェクトと捉えることができる。そこで、以降においては、端末11を装着する競技者、アーティスト、および俳優については、オブジェクトとも称する。
 収録部12は、試合などを撮影するカメラ12a、およびカメラ12aの撮影位置の周辺や競技場の全体の音声を収録するマイクロフォン12bを備えており、カメラ12aにより撮像される画像と、マイクロフォン12bにより収録される音声とを対応付けて収録する。ここで、マイクロフォン12bにより収録される音声は、カメラ12aに連動した、全体の音声であるので、以降においては、マイクロフォン12bにより聴取される音声を全天周音声と称する。また、収録部12は、端末11-1乃至11-nより送信されてくる収録データを取得する。そして、収録部12は、収録データに含まれる音声データ、位置情報、並びに、向きおよび姿勢情報のそれぞれを対応付けて、データ格納部13に格納する。
 データ格納部13は、直接音データ格納部31、残響音データ格納部32、オブジェクトメタデータ格納部33、および画像データ格納部34を備えている。
 収録部12は、収録データのうち、音声データを抽出し、抽出した音声データを、直接音データと残響音データとに分離して、直接音データを直接音データ格納部31に格納させると共に、残響音データを残響音データ格納部32に格納させる。また、収録部12は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部33に格納する。さらに、収録部12は、全天周音声データを、直接音データ格納部31に格納させる。また、収録部12は、画像データを画像データ格納部34に格納させる。尚、収録部12の詳細な構成例については、図4を参照して後述する。
 再生部14は、再生が指定された、コンテンツの直接音データ、残響音データ、オブジェクトメタデータ、および画像データをデータ格納部13より読み出して、所定の加工を施して、HMD15の表示部22に画像として表示すると共に、音声出力部21より音声として出力させる。
 また、操作部16が、ユーザにより操作されて、操作内容に応じて出力される操作信号に基づいて、ズーム再生が指示される(視聴ズームが指示される)と、再生部14は、ズーム表示する画像を生成すると共に、ズーム画像内の距離感の変化を音声でも感じられるような音声を生成する。そして、再生部14は、それぞれをHMD15に出力して、ズーム画像として表示部22に表示させると共に、ズーム画像の視聴位置における音声を音声出力部21より出力させる。尚、再生部14の詳細な構成例については、図6を参照して後述する。
 HMD15は、ユーザの頭部に装着され、スピーカやヘッドフォンなどからなる音声出力部21、および、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)などのディスプレイからなる表示部22を備えている。HMD15は、再生部14より供給される画像データと音声データを取得して、表示部22に画像を表示させると共に、音声出力部21より音声を出力させる。
 より詳細には、HMD15は、加速度センサおよびジャイロセンサ等を備えており、HMD15を装着したユーザが頭の方向や位置を動かすことにより、画像コンテンツや全天周コンテンツの視点位置を変更して表示部22に表示する。すなわち、HMD15の表示部22には、HMD15の位置や方向によって決まる視点位置に対応した画像コンテンツの領域が表示される。そして、視点位置に対応した画像コンテンツの領域に表示されているオブジェクトが、視点位置に対応した音声となるように、音声のゲインが調整される処理の対象となるオブジェクトとなる。
 <端末の構成例>
 次に、図3のブロック図を参照して、端末11の構成例について説明する。
 端末11は、収録部12により収録される画像コンテンツである、例えば、スポーツの競技者一人一人に装着されるものであり、制御部51、音声取得部52、GPS53、モーションセンサ54、および通信部55を備えている。
 制御部51は、端末11の動作の全体を制御している。
 音声取得部52は、マイクロフォンなどからなり競技者の声、呼吸音、および足音などの音声を取得し、取得した音声データを制御部51に出力する。
 GPS(Global Positioning System)53は、図示せぬ衛星からの信号を受信して、地球上の緯度および経度からなる位置情報を求め、競技者の位置情報として制御部51に出力する。
 モーションセンサ54は、加速度を計測し、計測結果に基づいて、競技者の向きおよび姿勢を検出して、向きおよび姿勢情報として制御部51に出力する。
 通信部55は、Wifiなどの無線通信回線により、収録部12と通信し、各種のデータやプログラムの授受を行う。
 制御部51は、通信部55を制御して、音声データ、位置情報、並びに、向きおよび姿勢情報を、収録データとして、端末11を識別する固有識別子、および収録時刻を示す時刻情報と対応付けて、収録部12に送信させる。
 <収録部の構成例>
 次に、図4のブロック図を参照して、収録部12の構成例について説明する。
 収録部12は、制御部71、通信部72、収録データ格納部73、データ分離部74、ノイズ除去部75、残響分離部76、オブジェクトメタデータ生成部77、および画像データ抽出部78を備えている。
 制御部71は、収録部12の全体の動作を制御する。制御部71は、通信部72を制御して、端末11より送信される収録データを受信して、収録データ格納部73に格納する。また、制御部71は、カメラ12aにより撮像された画像の画像データ、およびマイクロフォン12bにより収録された全天周音声の音声データを収録データ格納部73に格納する。
 すなわち、収録データ格納部73は、カメラ12aにより撮像された画像データ、マイクロフォン12bにより収録された音声データ、および端末11より供給される収録データを、それぞれの識別子と、取得したタイミングを示す時刻情報に対応付けて格納している。
 データ分離部74は、収録データ格納部73に格納されている端末11より供給されてきた収録データを読み出して、音声データ、並びに、位置情報、および向き姿勢情報を分離して読み出す。そして、データ分離部74は、音声データをノイズ除去部75に供給し、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部77に供給する。
 ノイズ除去部75は、音声データに対して、例えば、所定のノイズ除去フィルタ処理を施し、ノイズを除去して残響分離部76に出力する。
 残響分離部76は、ノイズが除去された音声データを直接音データと残響音データとに分離して、直接音データを直接音データ格納部31に格納し、残響音データを残響音データ格納部32に格納する。音声データを直接音データと残響音データとに分離する方法については、図5を参照して後述する。
 オブジェクトメタデータ生成部77は、位置情報、並びに、向きおよび姿勢情報に基づいて、競技者一人一人をオブジェクトとして、それぞれに対応するオブジェクトメタデータを生成して、オブジェクトメタデータ格納部33に格納する。より詳細には、オブジェクトメタデータ生成部77は、音声データにおけるフレーム(オーディオフレーム)単位でオブジェクトメタデータを生成する。従って、オーディオフレーム単位で、オブジェクトメタデータには位置情報、並びに向きおよび姿勢情報が格納される。
 データ分離部74は、収録データ格納部73に格納されているマイクロフォン12bにより収録された全天周音声の音声データを抽出する。
 そして、データ分離部74は、マイクロフォン12bにより収録された全天周音声の音声データをノイズ除去部75に供給し、端末11単位の収録データにおける音声データと同様に、ノイズ時を除去させる。ノイズ除去部75は、ノイズを除去した全天周音声の音声データを、残響分離部76に供給する。この際、残響分離部76は、全天周音声の音声データについては、直接音データおよび残響音データには分離せず、そのままの状態で直接音データ格納部31に格納させる。
 画像データ抽出部78は、収録データ格納部73に格納されている画像データを抽出し、画像データ格納部34に格納させる。
 尚、直接音データ格納部31に格納された直接音データ、残響音データ格納部32に格納された残響音データ、オブジェクトメタデータ格納部33に格納されたオブジェクトメタデータ、画像データ格納部34に格納された画像データは、それぞれ収録されたタイミングを示す時刻情報と、端末を識別する識別子とにより対応付けて、例えば、フレーム単位で登録されている。
 <直接音データと残響音データとの分離について>
 ここで、図5を参照して、音声データの直接音データと残響音データとの分離について説明する。
 図5の表示Aで示されるように、特定の空間内において、スピーカSsから出力される音声がマイクロフォンMにより収録されることを考える。このとき、スピーカSsから出力された音声Sdは、その一部がマイクロフォンMにより直接音として収録されるが、その他の一部の音声は、空間内の壁などにより反射して残響音Si1やSi2として収録される。
 ここで、スピーカSsから出力された音声Sdとして、第1の時刻に音声S1が出力され、第1の時刻よりも遅れた第2の時刻に音声S2が出力されることを考える。
 このとき、マイクロフォンMにおいて収録される音声の波形は、例えば、図5の表示Bで示されるような波形となる。
 すなわち、時刻t1において、第1の時刻に出力された音声S1が検出されて、それより遅れて、時刻t2において、第2の時刻に出力された音声S2が検出される。いずれも波形の形状は、受信された時刻の波高値が高く、時間の経過に伴って減衰する波形となる。
 これは、直接音は、スピーカSsから最も近い経路を経てマイクロフォンMにより収録され、かつ、マイクロフォンMに対して正面から収録されるので、波高値が高く、早いタイミングで検出される。
 これに対して、残響音は、スピーカSsからマイクロフォンMに到達するまでに、様々な経路を経て収録されるので、直接音に比べて遅れて収録され、かつ、経路が伸びるに従ってパワーが低下し波高値が減衰する波形となる。
 結果として、図5の表示Bにおける波形は、図5の表示Cで示されるように、直接音の波形Sd11,Sd12と、残響音の波形Si11,Si12とが合成された波形と考えることができる。
 そこで、残響分離部76は、図5の表示Dで示されるように、波形Sd11,Sd12からなる音声データを、直接音データとして抽出する。また、残響分離部76は、図5の表示Eで示されるように、波形Si11,Si12からなる音声データを、残響音データとして抽出する。すなわち、残響分離部76は、図5で示されるような原理により、音声データを直接音データと残響音データとに分離する。
 <再生部の構成例>
 次に、図6のブロック図を参照して、再生部14の構成例について説明する。
 再生部14は、制御部90、メタパーサ部91、オブジェクト位置姿勢指定部92、近接オブジェクト判定部93、音声デコード部94、オブジェクト混合部95、位相調整部96、3D音声レンダラ97、UI(ユーザインタフェース)処理部98、ゲイン調整部99、画像デコード部100、および画像レンダラ101を備えている。
 制御部90は、再生部14の動作の全体を制御している。
 メタパーサ部91は、オブジェクトメタデータ格納部33より、処理が必要なオブジェクトのオブジェクトメタデータを読み出し、オブジェクトメタデータに含まれる位置および姿勢情報をオブジェクト位置姿勢指定部92に供給し、位置情報を近接オブジェクト判定部93に供給する。ここで、処理が必要なオブジェクトとは、例えば、操作部16が操作されてズーム表示が指示された場合、指示されたズーム倍率とズーム位置の情報に基づいて特定されるズーム画像内に映り込んでいる競技者に対応するオブジェクトである。
 オブジェクト位置姿勢指定部92は、オブジェクトメタデータに含まれる位置および姿勢情報に基づいて、競技者であるオブジェクト一人一人の位置と姿勢とを指定してオブジェクト混合部95に出力する。
 近接オブジェクト判定部93は、オブジェクトデータの位置情報に基づいて、オブジェクト毎の近接の有無(近接して存在しているか否か)を判定し、判定結果をオブジェクト混合部95に出力する。より詳細には、近接オブジェクト判定部93は、オブジェクトである競技者の一人一人の占有範囲を設定し、それぞれの位置情報に基づいて、占有範囲が重なり合っているか否かに基づいて近接の有無を判定する。尚、本実施の形態においては、近接の有無の判定、すなわち、近接判定は、オブジェクトである競技者の一人一人の占有範囲が重なり合っているか否かに基づいて、判定するものとして説明するが、オブジェクトが近接しているか否かが判定できれば他の方法で判定するようにしてもよい。例えば、オブジェクト間の距離が、所定の近接判定距離以下であるか否かに基づいて、近接判定するようにしてもよい。
 音声デコード部94は、処理が必要となるオブジェクトについて、直接音データ格納部31より直接音データを読み出してデコードすると共に、残響音データ格納部32より残響音データを読み出してデコードし、デコード結果となる直接音データと残響音データとをオブジェクト混合部95に出力する。
 また、音声デコード部94は、全天周音声の音声データについて、直接音データと残響音データとに分離されていない状態で、直接音データ格納部31に格納されているので、直接音データ格納部31より読み出して、デコードし、デコード結果を位相調整部96に出力する。
 UI処理部98は、操作部16より供給される操作内容に応じた操作信号に基づいて、受け付けた操作内容の情報を制御部90に出力する。制御部90は、UI制御部98を介して、操作部16の操作内容に応じたズーム操作に関するズーム倍率やズーム位置の情報を取得し、メタパーサ部91、音声デコード部94、オブジェクト混合部95、位相調整部96、3D音声レンダラ97、ゲイン調整部99、および画像レンダラ101に供給する。
 尚、ズーム操作は、操作部16がスティックタイプ、ボタンタイプの構成であれば、操作部16を操作するものであってもよい。また、ユーザの視線を検出し、画像内のいずれか一点を所定時間注視したときにその位置を中心とした所定の範囲をズーム表示させるためのズーム操作であるものとみなすようにしてもよい。
 オブジェクト混合部95は、オブジェクトの位置と姿勢の情報、および、ズーム倍率とズーム位置の情報より求められる、オブジェクトの想定視聴位置(想定される画像空間内におけるユーザの視聴位置)からの相対的な距離に基づいて、オブジェクトの音声データに掛ける基本的なゲイン(音声ゲイン)とスプレッドを設定する。
 また、オブジェクト混合部95は、画像コンテンツ内のオブジェクトの向きに応じて、オブジェクト毎の直接音データと残響音データとを混合して、3D音声レンダラ97に出力する。
 さらに、オブジェクト混合部95は、近接オブジェクト判定部93より供給される近接判定結果に基づいて、近接しているとの判定結果の場合、近接している複数のオブジェクト同士の音声データを近接状態に応じて、1個のオブジェクトの音声データとして混合して3D音声レンダラ97に出力する。これは、近接したオブジェクトでは、同一の音声が出力される可能性があり、過ゲインが生じる恐れがあるので、1個のオブジェクトとして音声データを管理することで、過ゲインの発生を抑制することができる。
 位相調整部96は、音声デコード部94より供給される全天周音声の位相を調整して、3D音声レンダラ97に出力する。
 ゲイン調整部99は、制御部90からのズーム倍率の情報に応じて、ゲインを調整する信号を3D音声レンダラ97に出力する。
 3D音声レンダラ97は、オブジェクト混合部95より供給されるオブジェクト毎の音声データ、および位相調整部96より供給される位相が調整された全天周音声データをレンダリングし、ゲイン調整部99より供給されるゲインを調整する信号に基づいてゲインを調整して、音声出力部21に供給し、音声として出力させる。
 画像デコード部100は、画像データ格納部34より画像データを読み出し、デコードして画像レンダラ101に出力する。
 画像レンダラ101は、制御部90より供給されるズーム倍率やズーム位置の情報に基づいて、画像データをレンダリングして、表示部22に出力し表示させる。
 <オブジェクト混合部による直接音と残響音の混合方法>
 次に、図7を参照して、オブジェクト混合部95における直接音データと残響音データとの混合例について説明する。
 例えば、図7の左部で示されるように、音声の聴取位置(ズーム画像の想定視聴位置に対応する位置)L1に対して正面を向いた姿勢のオブジェクトである人物H101が音声を発する場合、ほぼ直接音のみが聴取されることになり、残響音はほとんど聴取されない。
 尚、図7の左部においては、人物H101より発せられる直接音が、直接音Ss101として表現されており、聴取位置L1において、音像の大きさが音像Sp101の図7上の大きさとして表現されている。また、図7において、音像Sp101におけるθ1は、スプレッドを表現したものである。スプレッドは音像の広がりを示す指標であり、聴取位置を正面としたときの左右の角度として表現されている。換言すれば、θ1は、視聴想定位置からの距離から設定される音像の大きさを意味し、遠い音源は小さく、近い音源は大きく設定される。図7の左部の場合、直接音Ssの前方方向のスプレッドに対応して、音像Sp101ではスプレッドθ1が設定されている。
 このため、図7の左部の場合、オブジェクト混合部95は、直接音をほぼ100%として、残響音を0%として混合し、オブジェクトの音声データを生成する。
 また、図7の中央部で示されるように、音声の聴取位置L1に対して、横を向いた姿勢のオブジェクトである人物H102が音声を発する場合、直接音の聴取は一部になり、残響音を含む状態となる。
 このため、図7の中央部においては、人物H102より発せられる直接音Ss102に対して、聴取位置L1における直接音の音像Sp102の大きさは、図7の左部における音像Sp101よりも小さくなり、スプレッドが絞られて、θ2(<θ1)に設定される。また、図7の中央部においては、聴取位置L1に対して、人物H102よりも遠い位置に壁Wが存在することを仮定しており、この壁Wにより直接音が反射することで、経路R1,R2などにより発生する残響音が、聴取位置L1において聴取される。
 したがって、図7の中央部の場合、オブジェクト混合部95は、図7の左部の場合と比較して、直接音のスプレッドがθ1からθ2(<θ1)にして絞ることにより、直接音の音像Sp102を小さくすると共に、残響音の割合を高くして混合し、オブジェクトの音声データを生成する。
 さらに、図7の右部で示されるように、音声の聴取位置L1に対して、背を向けた姿勢のオブジェクトである人物H103が音声を発する場合、直接音の聴取はほぼない状態となり、ほぼ残響音のみとなる。
 このため、図7の右部においては、人物H103より発せられる直接音Ss103に対して、聴取位置L1における直接音の音像は、ほぼない状態となる。また、図7の右部においては、聴取位置L1に対して、壁Wにより直接音が反射することで、経路R11,R12などにより残響音が発生し、聴取位置L1において聴取される。
 したがって、図7の右部の場合、オブジェクト混合部95は、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。
 すなわち、図7の左部の人物H101で示されるように聴取位置L1に対して正対した場合に、スプレッドθ1の面音源として設定された音源は、図7の中央部の人物H102で示されるように聴取位置L1に対して横を向いた場合、スプレッドθ2の音源に変化し音像が小さくなり、最終的に、図7の右部の人物H103で示されるように、聴取位置L1に背を向けた場合、面音源の面積が0(スプレッドが0)になる。
 <オブジェクト混合部による直接音と残響音の具体的な混合例>
 次に、図8を参照して、オブジェクト混合部95による直接音と残響音の具体的な混合例について説明する。
 例えば、図8で示されるように、サッカーの試合における画像コンテンツの場合、オブジェクトが競技者H131の場合、想定視聴位置に対して、斜め前方を向いている(表示部22を視聴する視聴者に対して斜め方向の状態で映っている)ため、オブジェクト混合部95は、スプレッドを絞り、直接音を75%とし、残響音を25%にして混合し、オブジェクトの音声データを生成する。
 また、図8におけるオブジェクトが競技者H132の場合、想定視聴位置に対して、背を向けている(表示部22を視聴する視聴者に対して反対向きの状態で映っている)ため、直接音は聞こえないので、オブジェクト混合部95は、スプレッドを絞った設定とし、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。
 さらに、図8におけるオブジェクトが競技者H133の場合、想定視聴位置に対して、真横を向いている(表示部22を視聴する視聴者に対して真横を向いた状態で映っている)ため、オブジェクト混合部95は、スプレッドを絞った設定とし、直接音を50%とし、残響音を50%にして混合し、オブジェクトの音声データを生成する。
 このように、想定視聴位置と、オブジェクトである競技者の向きや姿勢に応じて、直接音と残響音とが混合される。
 <近接判定に応じた直接音と残響音との混合方法>
 次に、図9を参照して、近接判定に応じた、直接音と残響音との混合方法について説明する。
 例えば、図9で示されるように、サッカーの試合における画像コンテンツの場合、例えば、点線C1で囲まれる所定距離内に存在する競技者H151,H152について、それぞれの占有範囲Z51,Z52は、重なり合っていない。このため、近接オブジェクト判定部93は、競技者H151,H152が近接していないと判定する。したがって、この場合、オブジェクト混合部95は、競技者H151,H152の音声データを個別のオブジェクトのそれぞれに生成する。
 尚、図9では、競技者H151,H152のそれぞれの占有範囲Z51,Z52は、所定の半径の円形の範囲として定義されているが、その他の大きさや形状の範囲が設定されていてもよい。
 また、例えば、図9の点線C2で囲まれる所定距離内に存在する競技者H161,H162について、それぞれの占有範囲Z61,Z62については、重なり合っている。このため、近接オブジェクト判定部93は、競技者H161,H162が近接していると判定する。したがって、この場合、オブジェクト混合部95は、競技者H161,H162のそれぞれの位置と姿勢情報に基づいて、相互のオブジェクトを1個のオブジェクトとして音声データを混合する。
 より詳細には、例えば、オブジェクト混合部95は、競技者H161は正対している(表示部22を視聴する視聴者に対して正対した状態で映っている)ので、直接音を100%とし、残響音を0%として混合し(=直接音データ×1+残響音データ×0)、競技者H162は斜め前方を向いているので、直接音を75%とし、残響音を25%として混合し(=直接音データ×0.75+残響音データ×0.25)、さらに、競技者H161,H162は、二人であるので、音声データを50%ずつで混合する(=(直接音データ×1+残響音データ×0)/2+(直接音データ×0.75+残響音データ×0.25)/2)。
 結果として、競技者H161,H162の音声データは、1個のオブジェクトの音声データとして混合される。
 さらに、例えば、図9の点線C3で囲まれる所定距離内に存在する競技者H171,H172について、それぞれの占有範囲Z71,Z72については、重なり合っている。このため、近接オブジェクト判定部93は、競技者H171,H172が近接していると判定する。したがって、この場合、オブジェクト混合部95は、競技者H171,H172との位置と姿勢との関係から、相互のオブジェクトを1個のオブジェクトとして音声データを混合する。
 より詳細には、例えば、オブジェクト混合部95は、競技者H171の音声データは背を向けている(表示部22を視聴する視聴者に対して反対方向の状態で映っている)ので、直接音を0%とし、残響音を100%として混合し(=直接音データ×0+残響音データ×1)、競技者H172は真横を向いているので、直接音を50%とし、残響音を50%とし(=直接音データ×0.5+残響音データ×0.5)、さらに、競技者H171,H172は、二人であるので、音声データを50%ずつで混合する(=(直接音データ×1+残響音データ×0)/2+(直接音データ×0.5+残響音データ×0.5)/2)。
 結果として、競技者H171,H172の音声データは、1個のオブジェクトの音声データとして混合される。また、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。
 尚、以上においては、近接状態となっている競技者が二人であった場合であるため、最後に2で割って加算した平均をとっていたが、3人以上の場合、それぞれの音声データの人数分で除した値の和を求めて、平均値とする。
 <全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係>
 次に、図10を参照して、全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係について説明する。
 全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係は、図10で示されるような関係となる。尚、図10においては、縦軸がゲインであり、横軸がズーム倍率である。
 すなわち、全天周音声のゲインは、ズーム倍率が大きくなるにしたがって小さくなる。これに対して、オブジェクト音声は、ズーム倍率が大きくなるにしたがって大きくなる。
 このように制御されることで、ズーム倍率が高くなり、例えば、特定のオブジェクトである人物が大きく映し出されるような画像になると、全天周音声である周囲の音声はほぼ聞こえない状態となり、大きく映し出されたオブジェクトに対応する人物の会話や足音などがよく聞こえる状態となる。
 尚、全天周音声データについては、ゲイン調整部99によるゲインの調整もなされるが、位相調整部96が、位相を反転させることでもゲインを低減させる。
 <収録処理>
 次に、図11のフローチャートを参照して、収録処理について説明する。
 ステップS11において、端末11の音声取得部52は、端末11を装着している競技者の周囲の音声を取得し、音声データとして制御部51に出力する。
 ステップS12において、GPS52は、図示せぬ衛星から信号を受信し、受信した信号に基づいて、地球上の緯度および経度からなる位置情報を求めて、端末11を装着している競技者の位置情報として制御部51に出力する。
 ステップS13において、モーションセンサ54は、加速度を計測し、端末11を装着している競技者の向きと姿勢を検出し、制御部51に出力する。
 ステップS14において、制御部51は、音声データ、位置情報、並びに、向きおよび姿勢情報を、取得時刻を示す時刻情報、および端末を識別する識別子と対応付けて、収録データとして、通信部55を制御して、収録部12に送信する。
 ステップS31において、収録部12の制御部71は、通信部72を制御して、端末11より送信された収録データを受信する。
 ステップS32において、制御部71は、受信した収録データを、収録データ格納部73に格納する。
 ステップS33において、制御部71は、カメラ12aにより撮像された画像の画像データを取得して、収録データ格納部73に格納する。
 ステップS34において、制御部71は、マイクロフォン12bにより収録された全天周音声の音声データを取得し、収録データ格納部73に格納する。
 ステップS15,S35において、処理の終了が指示されたか否かが判定されて、処理の終了が指示されていない場合、処理は、ステップS11,S31に戻る。すなわち、終了が指示されるまで、端末11においては、ステップS11乃至S15の処理が繰り返され、収録部12においては、ステップS31乃至S35の処理が繰り返される。
 そして、ステップS15,S35において、それぞれ処理の終了が指示されると、処理は、終了する。
 以上の処理により、収録部12は、端末11より送信されてくる収録データを、順次、収録データ格納部73に格納する。また、収録部12は、カメラ12aにより撮像された画像、および、マイクロフォン12bにより収録された全天周音声の音声データも収録データ格納部73に格納する。
 尚、端末11からの収録データと、画像データおよび全天周音声の音声データは、いずれも端末11を識別できる識別子と、情報やデータが取得された時刻を示す時刻情報が対応付けられて格納される。
 <データ格納処理>
 次に、図12のフローチャートを参照して、データ格納処理について説明する。データ格納処理は、上述した収録処理により各端末11より供給される収録データが収録データ格納部73に格納された状態でなされる処理である。
 ステップS51において、データ分離部74は、収録データ格納部73に格納されている収録データのうち、未処理の収録データを処理対象収録データに設定する。
 ステップS52において、データ分離部74は、処理対象収録データを、音声データ、位置情報、並びに、向きおよび姿勢情報に分離し、音声データをノイズ除去部75に、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部77に出力する。
 ステップS53において、ノイズ除去部75は、音声データよりノイズを除去して、残響分離部76に出力する。
 ステップS54において、残響分離部76は、音声データを直接音データと残響音データとに分離し、直接音データを直接音データ格納部31に格納し、残響音データを残響音データ格納部32に格納する。
 ステップS55において、オブジェクトメタデータ生成部77は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部33に格納する。ここで、オブジェクトメタデータは、オーディオフレーム単位で、時系列に格納される。
 ステップS56において、データ分離部74は、未処理の収録データが存在するか否かを判定し、未処理の収録データが存在する場合、処理は、ステップS51に戻る。すなわち、全ての収録データに対して処理がなされるまで、ステップS51乃至S56の処理が繰り返される。そして、ステップS56において、未処理の収録データがないとみなされた場合、処理は、ステップS57に進む。
 ステップS57において、データ分離部74は、収録データ格納部73に格納されている全天周音声の音声データを抽出し、ノイズ除去部75に供給する。ノイズ除去部75は、全天周音声の音声データよりノイズを除去して残響分離部76に供給する。
 ステップS58において、残響分離部76は、全天周音声の音声データより残響音の分離を行わず、そのまま直接音データとして直接音データ格納部31に格納する。すなわち、全天周音声については、直接音と残響音とを分けた処理をしないので、分離せず、そのまま直接音データとして直接音データ格納部31に格納する。ただし、必要に応じて、全天周音声の音声データについても、直接音と残響音とに分離して管理するようにしてもよい。
 ステップS59において、画像データ抽出部78は、収録データ格納部73に格納されている画像データを抽出し、画像データ格納部34に格納する。
 以上の処理により、収録データ格納部73において、端末11毎に、すなわち、オブジェクト毎に格納されている収録データが順次読み出されて、音声データ、位置情報、並びに、向きおよび姿勢情報に分離される。そして、音声データが、ノイズ除去された後、直接音データと残響音データとに分離され、それぞれ、直接音データ格納部31、および残響音データ格納部32に格納される。また、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータが生成されて、オブジェクトメタデータ格納部33に格納される。さらに、収録データ格納部73に格納されている全天周音声の音声データが抽出されて、ノイズ除去されると、残響音と分離されずにそのまま直接音データ格納部31に格納される。また、収録データ格納部73に格納されている画像データが抽出されて、画像データ格納部34に格納される。
 <再生処理>
 次に、図13のフローチャートを参照して、再生処理について説明する。尚、再生処理については、上述したデータ格納処理がなされて、データ格納部13に各種のデータが分離されて格納されていることが前提となる。
 ステップS71において、制御部90は、UI処理部98を介して供給される、操作部16が操作されて、ズーム操作がなされたことを示す操作信号が供給されたか否かに基づいて、ズーム操作の有無を判定する。ステップS71において、ズーム操作がなされていない場合、処理は、ステップS88に進む。
 ステップS88において、制御部90は、音声デコード部94に対して通常の再生を指示する。これにより、音声デコード部94は、直接音データ格納部31に格納されている全天周音声の音声データを読み出してデコードし、位相調整部96に出力する。位相調整部96は、デコードされた全天周音声の音声データを、そのまま、すなわち、位相を調整することなく減衰させずに、3D音声レンダラ97に供給する。3D音声レンダラ97は、デコードされた全天周音声の音声データを音声出力部21に出力し、音声として出力させる。また、この場合、ゲイン調整部99は、ズーム操作がなされていない通常の再生であるので、全天周音声の音声データのゲインを最大に設定する。
 ステップS89において、画像デコード部100は、画像データ格納部34より画像データを読み出して、デコードし、画像レンダラ101に出力する。画像レンダラ101は、デコードされた画像データをズームすることなく、画像の全体が表示されるようにレンダリングし、表示部22に出力し、表示させる。
 処理は、ステップS87に進み、終了が指示されたか否かが判定され、終了が指示されていない場合、処理は、ステップS71に戻る。
 すなわち、ズーム処理がなされない通常再生の場合、ステップS71,S88,S89,S87の処理が繰り返されて、収録処理において、カメラ12aにより撮像された画像がそのまま表示部22に表示され、また、全天周音声が音声出力部21より出力され続ける。
 一方、ステップS71において、操作部16が操作されて、ズーム操作がなされた場合、処理は、ステップS72に進む。
 ステップS72において、制御部90は、操作部16によるズーム操作に対応するズーム倍率、およびズーム位置の情報を画像レンダラ101、メタパーサ部91、オブジェクト混合部95、位相調整部96、およびゲイン調整部99に供給する。
 ステップS73において、画像レンダラ101は、ズーム倍率およびズーム位置の情報に基づいて、画像デコード部100より供給されるデコードされた画像データをレンダリングして、ズーム画像を生成し、表示部22に出力して表示させる。この処理により、収録時にカメラ12aにより撮像された画像から、操作部16によるズーム操作に対応するズーム倍率で、かつ、ズーム位置のズーム画像が生成されて、表示部22に表示される。
 ステップS74において、音声デコード部94は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、音声デコード部94は、特定したオブジェクトの直接音データおよび残響音データを、直接音データ格納部31および残響音データ格納部32よりそれぞれ読み出してデコードし、オブジェクト混合部95に出力する。
 ステップS75において、メタパーサ部91は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、メタパーサ部91は、特定したオブジェクトのオブジェクトメタデータを、オブジェクトメタデータ格納部33より読み出してオブジェクト位置姿勢指定部92、および近接オブジェクト判定部93に出力する。
 ステップS76において、位相調整部96は、全天周音声の前方再現音の位相を反転させて、実質的にゲインを減衰させる。
 ステップS77において、ゲイン調整部99は、全天周音声の再現音のゲインを減衰させる。
 すなわち、ステップS76,S77の処理により、図10を参照して説明したように、ズーム倍率に応じて、全天周音声のゲインが低減される。
 ステップS78において、オブジェクト混合部95は、ズーム領域内に存在するオブジェクトのうち、未処理のオブジェクトを処理対象オブジェクトに設定する。
 ステップS79において、オブジェクト位置姿勢指定部92は、処理対象オブジェクトの位置情報、並びに、向きおよび姿勢情報に基づいて、位置情報と姿勢情報を特定してオブジェクト混合部95に出力する。
 ステップS80において、オブジェクト混合部95は、処理対象オブジェクトの位置情報に基づいて、想定視聴位置を特定し、処理対象オブジェクトまでの距離に基づいて、直音声データに掛ける基本的なスプレッドとゲインとを設定する。すなわち、ここでは、想定視聴位置までの相対的な距離と、図10を参照して説明した手法によりズーム倍率によりオブジェクト音声に対しての、基本的なスプレッドとゲインが設定される。
 ステップS81において、オブジェクト混合部95は、処理対象オブジェクトの姿勢情報に基づいて、処理対象オブジェクトが想定視聴位置に対して正対しているか否かを判定する。ステップS81において、処理対象オブジェクトが想定視聴位置に対して正対していない場合、処理は、ステップS82に進む。
 ステップS82において、オブジェクト混合部95は、向き姿勢調整処理を実行して、処理対象オブジェクトの想定視聴位置に対する向きに応じてスプレッドとゲインを調整する。
 <向き姿勢調整処理>
 ここで、図14のフローチャートを参照して、向き姿勢調整処理について説明する。
 ステップS91において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音を減衰させるように直接音データを調整する。
 ステップS92において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて残響音を増幅させるように残響音データを調整する。
 ステップS93において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音のスプレッドを小さくさせるように直接音データを調整する。
 すなわち、処理対象オブジェクトが想定視聴位置に対して正対していないので、例えば、図7,図8を参照して説明したように、直接音のスプレッドが絞られると共に、減衰され、残響音が増幅されるようにして混合し、レンダリングされることにより生成される音声が、処理対象オブジェクトの向きと想定視聴位置との関係に対して適切な音声となるように調整される。
 ここで、図12のフローチャートに戻る。
 一方、ステップS81において、処理対象オブジェクトが想定視聴位置に対して正対している場合については、ステップS82の処理がスキップされる。すなわち、この場合、処理対象オブジェクトが想定視聴位置に対して正対しているので、直接音のみが聴取できればよいので、残響音を混合する向き姿勢調整処理は不要となる。
 ステップS83において、オブジェクト混合部95は、未処理のオブジェクトが存在するか否かを判定し、未処理のオブジェクトが存在する場合、処理は、ステップS78に戻る。すなわち、全てのオブジェクトに対応する基本的なスプレッドとゲインが調整されて、必要に応じて、正対していないオブジェクトに対して、向き姿勢調整処理により、直接音と残響音とが混合されるまで、ステップS78乃至S83の処理が繰り返される。そして、ステップS83において、全てのオブジェクトに対して、直接音と残響音との調整がなされ、未処理のオブジェクトがないとみなされた場合、処理は、ステップS84に進む。
 ステップS84において、近接オブジェクト判定部93は、近接調整処理を実行し、所定の距離内に存在するオブジェクト同士の占有範囲の近接の有無を判定し、近接があるとみなした場合、近接しているオブジェクト同士の直接音データおよび残響音データを、1個のオブジェクトとみなして混合する。
 <近接調整処理>
 ここで、図15のフローチャートを参照して、近接調整処理について説明する。
 ステップS111において、近接オブジェクト判定93は、所定の距離内に存在するオブジェクト同士をグルーピングする。例えば、サッカーや野球の場合、近接オブジェクト判定93は、グランド内を所定のサイズの小領域に分割し、各オブジェクトの位置情報に基づいて、分割された同一の小領域内に複数のオブジェクトが含まれるとき、同一の領域内に存在する複数のオブジェクトを1つのグループにグルーピングする。ただし、小領域は、オブジェクトである競技者の一人分の占有範囲よりも広い範囲とする。
 ステップS112において、近接オブジェクト判定93は、未処理のグループを処理対象グループに設定する。
 ステップS113において、近接オブジェクト判定93は、図9を参照して説明したように、処理対象グループ内の各オブジェクトの占有範囲が重なっているか否かに基づいて、近接しているか否かを判定する。
 ステップS113において、オブジェクトのそれぞれの占有範囲が重なっており、近接していると判定された場合、処理は、ステップS114に進む。
 ステップS114において、近接オブジェクト判定部93は、近接しているとみなされたオブジェクトを特定する情報をオブジェクト混合部95に通知する。オブジェクト混合部95は、近接しているとみなされたオブジェクト同士の直接音と残響音とを相互の距離、並びに、向きおよび姿勢の情報に基づいて、図9を参照して説明したように、混合することで調整する。
 尚、ステップS113において、近接していないとみなされた場合、ステップS114の処理はスキップされる。
 ステップS115において、近接オブジェクト判定93は、未処理のグループが存在するか否かを判定し、未処理のグループがある場合、処理は、ステップS112に戻る。すなわち、全てのグループに対して近接判定がなされるまで、ステップS112乃至S1115の処理が繰り返される。
 そして、ステップS115において、未処理のグループがなくなった場合、処理は、終了する。
 すなわち、以上の処理により、近接する範囲内に存在するオブジェクト間の近接判定がなされて、近接している、すなわち、相互の占有範囲が重なっている場合については、相互の直接音データおよび残響音データが、相互の距離、並びに、向きおよび姿勢との関係に基づいて混合されて、1個のオブジェクトの直接音データおよび残響音データとして扱われる。結果として、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。
 ここで、図13のフローチャートの説明に戻る。
 ステップS84において、近接調整処理が終了すると、処理は、ステップS85に進む。
 ステップS85において、オブジェクト混合部95は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データを3D音声レンダラ97に出力する。3D音声レンダラ97は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データ、位相調整部96からの全天周音声の音声データ、およびゲイン調整部99より供給されるゲインの情報に基づいて、音声レンダリングを施して、音声出力部21に出力して、音声として出力させる。
 ステップS87において、終了が指示されたか否かが判定されて、終了が指示されない場合、処理は、ステップS71に戻り、終了が指示されるまで、ズーム操作がなされているときは、ステップS71乃至S87の処理が繰り返される。そして、ステップS87において、終了が指示されると、処理が終了する。
 ここで、オブジェクトメタデータは、オーディオフレーム単位で時系列に構成されているため、繰り返されるステップS71乃至S87の一連の処理は、オーディオフレーム単位で、時系列に繰り返される。
 以上の処理により、ズーム画像に対応する想定視聴位置に応じて、オブジェクトの直接音と残響音とが適応的に混合されることにより、ズーム表示されている画像に適した音声を生成して、出力することが可能となる。また、ズーム画像に対応する想定視聴位置は、現実には入り込むことができない位置での音声の聴取を実現させることができるので、現実には体験不能な体験を仮想的に実現することが可能となる。
 以上においては、収録部12においては、カメラ12aが1台である例について説明してきたが、複数のカメラ12aにより様々なアングルから撮像するようにしてもよい。この場合、撮像されていないアングルの画像を再生させる場合については、例えば、複数のカメラ12aにより撮像された画像を用いて、補間生成することで実現することができる。また、様々なアングルでの画像を再生できるようにした場合においても、ズーム画像を再生させる際と同様の手法により、アングルに応じた想定視聴位置に応じて、オブジェクト毎の直接音と残響音とを混合することで、表示される画像のアングルに対応した適切な音声を生成して、出力することが可能となる。
 <<3.ソフトウェアにより実行させる例>>
 ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
 図16は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011から読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 尚、図16におけるCPU1001が、図6における制御部90の機能を実現させる。また、図16における記憶部1008が、図6におけるデータ格納部13を実現する。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本開示は、以下のような構成も取ることができる。
<1> 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
 前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
 前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
 情報処理装置。
<2> 前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
 <1>に記載の情報処理装置。
<3> 前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
 <2>に記載の情報処理装置。
<4> 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
 <3>に記載の情報処理装置。
<5> 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整する
 <3>に記載の情報処理装置。
<6> 前記ゲイン調整部は、
  前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
  前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
 <3>に記載の情報処理装置。
<7> 前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
 前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
 <3>に記載の情報処理装置。
<8> 前記ゲイン調整部は、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
 <7>に記載の情報処理装置。
<9> 前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
 <2>に記載の情報処理装置。
<10> 前記収録時に前記オブジェクトに装着される端末をさらに含み、
 前記端末は、
  音声データを検出する音声データ検出部と、
  位置情報を検出する位置情報検出部と、
  オブジェクトの向きを検出する方向検出部とを有し、
 前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
 <9>に記載の情報処理装置。
<11> 前記画像コンテンツの視点位置は変更することが可能である
 <1>に記載の情報処理装置。
<12> 前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
 <11>に記載の情報処理装置。
<13> 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
 前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
 前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
 情報処理方法。
<14> コンピュータを、
 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
 前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
 前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
 プログラム。
 1 情報処理システム, 11,11-1乃至11-n 端末, 12 収録部, 12a カメラ, 12b マイクロフォン, 13 データ格納部, 14 再生部, 15 HMD, 16 操作部, 21 音声出力部, 22 表示部, 31 直接音データ格納部, 32 残響音データ格納部, 33 オブジェクトデータ格納部, 34 画像データ格納部, 51 制御部, 52 音声取得部, 53 GPS, 54 モーションセンサ, 55 通信部, 71 制御部, 72 通信部, 73 収録データ格納部, 74 データ分離部, 75 ノイズ除去部, 76 残響分離部, 77 オブジェクトメタデータ生成部, 78 画像データ抽出部, 90 制御部, 91 メタパーサ部, 92 オブジェクト位置姿勢指定部, 93 近接オブジェクト判定部, 94 音声デコード, 95 オブジェクト混合部, 96 位相調整部, 97 3D音声レンダラ, 98 UI処理部, 99 ゲイン調整部, 100 画像デコード部, 101 画像レンダラ

Claims (14)

  1.  視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
     前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
     前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
     情報処理装置。
  2.  前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
     請求項1に記載の情報処理装置。
  3.  前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
     請求項2に記載の情報処理装置。
  4.  前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
     請求項3に記載の情報処理装置。
  5.  前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記残響音データの混合比を略1:0に調整することで音量ゲインを調整する
     請求項3に記載の情報処理装置。
  6.  前記ゲイン調整部は、
      前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
      前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
     請求項3に記載の情報処理装置。
  7.  前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
     前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
     請求項3に記載の情報処理装置。
  8.  前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
     請求項7に記載の情報処理装置。
  9.  前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
     請求項2に記載の情報処理装置。
  10.  前記収録時に前記オブジェクトに装着される端末をさらに含み、
     前記端末は、
      音声データを検出する音声データ検出部と、
      位置情報を検出する位置情報検出部と、
      オブジェクトの向きを検出する方向検出部とを有し、
     前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
     請求項9に記載の情報処理装置。
  11.  前記画像コンテンツの視点位置は変更することが可能である
     請求項1に記載の情報処理装置。
  12.  前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
     請求項11に記載の情報処理装置。
  13.  視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
     前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
     前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
     情報処理方法。
  14.  コンピュータを、
     視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
     前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
     前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
     プログラム。
PCT/JP2018/039838 2017-11-10 2018-10-26 情報処理装置、および情報処理方法、並びにプログラム WO2019093155A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/761,106 US10998870B2 (en) 2017-11-10 2018-10-26 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-217215 2017-11-10
JP2017217215A JP2019087973A (ja) 2017-11-10 2017-11-10 情報処理装置、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2019093155A1 true WO2019093155A1 (ja) 2019-05-16

Family

ID=66437741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/039838 WO2019093155A1 (ja) 2017-11-10 2018-10-26 情報処理装置、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US10998870B2 (ja)
JP (1) JP2019087973A (ja)
WO (1) WO2019093155A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021020150A1 (ja) * 2019-07-26 2021-02-04

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220097888A (ko) * 2019-11-04 2022-07-08 퀄컴 인코포레이티드 비트스트림에서 오디오 효과 메타데이터의 시그널링
CN114762364A (zh) * 2019-12-13 2022-07-15 索尼集团公司 信号处理装置、信号处理方法及程序
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
KR20230037329A (ko) * 2021-09-09 2023-03-16 네이버 주식회사 이벤트 맞춤형 오디오 콘텐츠를 렌더링하기 위한 컴퓨터 시스템 및 그의 방법
CN114363512B (zh) * 2021-09-30 2023-10-24 北京荣耀终端有限公司 一种视频处理的方法及相关电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000018112A1 (en) * 1998-09-24 2000-03-30 Fourie, Inc. Apparatus and method for presenting sound and image
JP2006109295A (ja) * 2004-10-08 2006-04-20 Sharp Corp オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体
US20100026809A1 (en) * 2008-07-29 2010-02-04 Gerald Curry Camera-based tracking and position determination for sporting events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000018112A1 (en) * 1998-09-24 2000-03-30 Fourie, Inc. Apparatus and method for presenting sound and image
JP2006109295A (ja) * 2004-10-08 2006-04-20 Sharp Corp オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体
US20100026809A1 (en) * 2008-07-29 2010-02-04 Gerald Curry Camera-based tracking and position determination for sporting events

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021020150A1 (ja) * 2019-07-26 2021-02-04
WO2021020150A1 (ja) * 2019-07-26 2021-02-04 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
JP7317119B2 (ja) 2019-07-26 2023-07-28 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
US12058512B2 (en) 2019-07-26 2024-08-06 Fujifilm Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
US20200358415A1 (en) 2020-11-12
US10998870B2 (en) 2021-05-04
JP2019087973A (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
WO2019093155A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US10171769B2 (en) Sound source selection for aural interest
JP6558587B2 (ja) 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
US9906885B2 (en) Methods and systems for inserting virtual sounds into an environment
KR101490725B1 (ko) 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
JP6531760B2 (ja) 情報処理装置及び方法、表示制御装置及び方法、再生装置及び方法、プログラム、並びに情報処理システム
US20020075295A1 (en) Telepresence using panoramic imaging and directional sound
CN107211208A (zh) 基于相机选择的音频处理
JP2013093840A (ja) ポータブル端末における立体データ生成装置及び方法並びに電子装置
US20160070346A1 (en) Multi vantage point player with wearable display
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
CN111492342B (zh) 音频场景处理
WO2012143745A1 (en) Method and system for providing an improved audio experience for viewers of video
WO2017002642A1 (ja) 情報機器及び表示処理方法
JP6646116B2 (ja) 映像音声処理プログラム及びゲーム装置
EP3777248A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
US20200169826A1 (en) Methods and Systems for Extracting Location-Diffused Sound
JP2018026701A (ja) 録音装置、映像音声処理プログラム及びゲーム装置
EP3321795B1 (en) A method and associated apparatuses
US9565503B2 (en) Audio and location arrangements
JP2013187841A (ja) 電子機器及び出力制御方法並びにプログラム
KR20220097888A (ko) 비트스트림에서 오디오 효과 메타데이터의 시그널링
US20240089688A1 (en) Processing of audio data
KR20140011614A (ko) 오디오 스티어링 동영상 시스템 및 그 제공방법
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18876600

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18876600

Country of ref document: EP

Kind code of ref document: A1