WO2021095563A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021095563A1
WO2021095563A1 PCT/JP2020/040798 JP2020040798W WO2021095563A1 WO 2021095563 A1 WO2021095563 A1 WO 2021095563A1 JP 2020040798 W JP2020040798 W JP 2020040798W WO 2021095563 A1 WO2021095563 A1 WO 2021095563A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
information
microphone
generation unit
signal
Prior art date
Application number
PCT/JP2020/040798
Other languages
English (en)
French (fr)
Inventor
隆一 難波
誠 阿久根
芳明 及川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to DE112020005550.7T priority Critical patent/DE112020005550T5/de
Priority to CN202080077410.XA priority patent/CN114651452A/zh
Priority to US17/774,379 priority patent/US20220360930A1/en
Publication of WO2021095563A1 publication Critical patent/WO2021095563A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs that enable a higher sense of presence.
  • This technology was made in view of such a situation, and makes it possible to obtain a higher sense of presence.
  • the signal processing device on one aspect of the present technology includes an audio generation unit that generates a sound source signal for each type of sound source based on a recorded signal obtained by collecting sound by a microphone mounted on a moving body, and the microphone and the above. Based on the correction information generation unit that generates position correction information indicating the distance to the sound source, the microphone position information indicating the position of the microphone in the target space, and the position correction information, the sound source of the sound source in the target space It is provided with a position information generation unit that generates sound source position information indicating a position.
  • the signal processing method or program of one aspect of the present technology generates a sound source signal for each type of sound source based on the recorded signal obtained by collecting sound by a microphone mounted on the moving body, and the microphone and the sound source Position correction information indicating the distance between the microphones is generated, and sound source position information indicating the position of the sound source in the target space is obtained based on the microphone position information indicating the position of the microphone in the target space and the position correction information.
  • steps to generate includes steps to generate.
  • a sound source signal for each type of sound source is generated based on the recorded signal obtained by collecting sound by a microphone mounted on a moving body, and the distance between the microphone and the sound source is determined.
  • the indicated position correction information is generated, and the sound source position information indicating the position of the sound source in the target space is generated based on the microphone position information indicating the position of the microphone in the target space and the position correction information.
  • a recording device is attached to a plurality of three-dimensional objects in a target space, and based on the sound recording signal obtained by the recording device, the actual position and direction of the sound source is not the position and direction of the recording device.
  • a plurality of three-dimensional objects such as stationary objects and moving objects are regarded as objects, and a recording device is attached to the objects to record the sounds constituting the contents.
  • the recording device may be built in the object.
  • the object will be explained below assuming that it is a moving object.
  • the content generated by the recording / transmission / playback system may be content from a free viewpoint or content from a fixed viewpoint.
  • the performer may be stationary or moving.
  • a recording transmission / playback system to which this technology is applied is configured as shown in FIG. 1, for example.
  • the recording transmission / playback system shown in FIG. 1 includes a recording device 11-1 to a recording device 11-N, a server 12, and a terminal device 13.
  • the recording device 11-1 to the recording device 11-N are attached to a moving body which is a plurality of objects in the space (hereinafter, also referred to as the target space) for which the content is to be recorded.
  • the target space a space which is a plurality of objects in the space (hereinafter, also referred to as the target space) for which the content is to be recorded.
  • the recording device 11 when it is not necessary to distinguish between the recording device 11-1 and the recording device 11-N, they are simply referred to as the recording device 11.
  • the recording device 11 is provided with, for example, a microphone, a distance measuring device, and a motion measurement sensor. Then, the recording device 11 obtains recorded data including a recorded audio signal obtained by sound collection (recording) by a microphone, a positioning signal obtained by a distance measuring device, and a sensor signal obtained by a motion measurement sensor.
  • the recorded audio signal obtained by collecting the sound with the microphone is an audio signal for reproducing the sound around the object.
  • the sound based on the recorded audio signal includes, for example, the sound that the object itself is the sound source, that is, the sound emitted from the object and the sound emitted by other objects around the object.
  • the sound emitted from the object is regarded as the sound of the object sound source, and the content composed of the sound of the object sound source is provided to the terminal device 13. That is, the sound of the object sound source is extracted as the target sound.
  • the sound of the object sound source which is the target sound
  • the sound spoken by the person who is the object is from the sound spoken by the person who is the object, the walking sound or running sound of the object, the operating sound such as the clapping sound or ball kick sound of the object, or the instrument played by the object. It is the sound of the instrument that was emitted.
  • the distance measuring device provided in the recording device 11 is composed of, for example, a GPS (Global Positioning System) module or a beacon receiver for indoor distance measurement, and measures the position of an object to which the recording device 11 is attached, and measures the position. Outputs a positioning signal indicating the result.
  • GPS Global Positioning System
  • the motion measurement sensor provided in the recording device 11 is for measuring the motion and orientation of objects such as a 9-axis sensor, a geomagnetic sensor, an acceleration sensor, a gyro sensor, an IMU (Inertial Measurement Unit), and a camera (image sensor). It consists of sensors and outputs a sensor signal indicating the measurement result.
  • the recording device 11 transmits the recorded data to the server 12 by wireless communication or the like.
  • One recording device 11 may be attached to one object in the target space, or a plurality of recording devices 11 may be attached to a plurality of different positions in one object. May be good.
  • the mounting position and mounting method of the recording device 11 on each object may be any position and method.
  • the object is a person such as an athlete
  • the recording device 11 When only one recording device 11 is attached to the object in this way, it is necessary to provide two or more microphones in the recording device 11 in order to estimate the arrival direction of the sound of the object sound source as described later.
  • the recording device 11 is attached to any of the front surface of the trunk, the back surface of the trunk, and the head of a person as an object, and the recording device 11 is attached to some parts of each of these parts. It is also possible.
  • the moving object to be an object is a person such as an athlete
  • the object is a flying object such as a robot, a vehicle, or a drone in which the recording device 11 is mounted or built-in. And so on.
  • the server 12 receives the recorded data transmitted from each recording device 11 and generates object sound source data which is content data based on the received recorded data.
  • the object sound source data consists of an object sound source signal for reproducing the sound of the object sound source and metadata of the object sound source signal.
  • the metadata includes sound source position information indicating the position of the object sound source, sound source orientation information indicating the orientation (direction) of the object sound source, and the like.
  • various signal processing is performed based on the recorded data. That is, for example, the distance from the position of the recording device 11 to the position of the object sound source, the relative direction (direction) of the object sound source as seen from the recording device 11, and the like are estimated, and the object sound source data is generated based on the estimation result. Will be done.
  • the object sound source signal, the sound source position information, and the sound source direction information are appropriately generated or corrected based on the prior information based on the distance and the direction obtained by the estimation.
  • the prior information used for generating the object sound source data is, for example, specification data about each part of the human body as an object to which the recording device 11 is attached, transmission characteristics from the object sound source to the microphone of the recording device 11, and the like. is there.
  • the server 12 transmits the generated object sound source data to the terminal device 13 via a wired or wireless network or the like.
  • the terminal device 13 is composed of an information terminal device such as a smartphone, a tablet, or a personal computer, and receives object sound source data transmitted from the server 12. Further, the terminal device 13 edits the content based on the received object sound source data, or drives a playback device such as headphones (not shown) to reproduce the content.
  • an information terminal device such as a smartphone, a tablet, or a personal computer
  • the terminal device 13 edits the content based on the received object sound source data, or drives a playback device such as headphones (not shown) to reproduce the content.
  • the object sound source data including the sound source position information and the sound source orientation information indicating the accurate position and orientation of the object sound source is generated instead of the position and orientation of the recording device 11. You can get a high sense of presence. Further, by generating a sound at the position of the object sound source, that is, an object sound source signal close to the original sound of the object sound source, a higher sense of presence can be obtained.
  • the sound of the object sound source is picked up at a microphone position different from the position of the object sound source. That is, the sound of the object sound source is picked up at a position different from the actual generation position.
  • the sound generation position of the object sound source in the object differs depending on the type of the object sound source.
  • a soccer player is an object OB11
  • a recording device 11 is attached to a position on the back of the object OB11 to perform recording.
  • the position of the object sound source is the position indicated by the arrow A11, that is, the position of the mouth of the object OB11, and that position is the mounting of the recording device 11. Different from the position.
  • the position of the object sound source is the position indicated by the arrow A12, that is, the position of the foot of the object OB11, and that position is the mounting of the recording device 11. Different from the position.
  • the recording device 11 Since the recording device 11 has a small housing to some extent, it can be said that the positions of the microphone, the distance measuring device, and the motion measurement sensor provided in the recording device 11 are substantially the same.
  • the sound based on the recorded audio signal changes greatly depending on the positional relationship between the object sound source and the recording device 11 (microphone).
  • the recorded audio signal is corrected using prior information according to the positional relationship between the object sound source and the microphone (recording device 11), so that the object sound source signal is close to the original sound of the object sound source. Was made to be obtained.
  • the position information (positioning signal) and the orientation information (sensor signal) obtained at the time of recording by the recording device 11 include information indicating the position and orientation of the recording device 11, more specifically, the distance measuring device and the motion measuring sensor. It has become.
  • the position and orientation of the recording device 11 are different from the actual position and orientation of the object sound source.
  • the content can be played back with a higher sense of presence by doing the above.
  • the server 12 is configured as shown in FIG. 3, for example.
  • the server 12 has an acquisition unit 41, a device position information correction unit 42, a device direction information generation unit 43, a section detection unit 44, a relative arrival direction estimation unit 45, a transmission characteristic database 46, and a correction information generation unit 47.
  • the acquisition unit 41 acquires the recorded data from the recording device 11 by receiving the recording data transmitted from the recording device 11.
  • the acquisition unit 41 supplies the recorded audio signal included in the recorded data to the section detection unit 44, the relative arrival direction estimation unit 45, and the audio generation unit 48.
  • the acquisition unit 41 supplies the positioning signal and the sensor signal included in the recorded data to the device position information correction unit 42, and supplies the sensor signal included in the recorded data to the device orientation information generation unit 43. ..
  • the device position information correction unit 42 corrects the position indicated by the positioning signal supplied from the acquisition unit 41 based on the sensor signal supplied from the acquisition unit 41, thereby correcting the position indicated by the positioning signal, so that the recording device 11 in the target space is absolute.
  • Device position information indicating the position is generated and supplied to the correction position generation unit 49.
  • the device position information correction unit 42 indicates the device position indicating the absolute position of the microphone of the recording device 11 in the target space based on the sensor signal and the positioning signal. It can be said that it functions as a microphone position information generator that generates information.
  • the position indicated by the positioning signal is a position measured by a distance measuring device such as a GPS module, so that there is some error. Therefore, by correcting the position indicated by the positioning signal with the integrated value of the movement of the recording device 11 indicated by the sensor signal, it is possible to obtain device position information indicating a more accurate position of the recording device 11.
  • the device position information is, for example, latitude and longitude indicating an absolute position on the earth's surface, coordinates obtained by converting those latitudes and longitudes into distances, and the like.
  • the device position information may be any information indicating the position of the recording device 11, such as the coordinates of the coordinate system with the predetermined position in the target space for recording the content as the reference position. Good.
  • the coordinates are the coordinates of the polar coordinate system consisting of the azimuth angle, the elevation angle, and the radius, or the coordinates of the xyz coordinate system, that is, the coordinates of the three-dimensional orthogonal coordinate system, 2. It may be the coordinates of any coordinate system, such as the coordinates of the dimensional orthogonal coordinate system.
  • the position measured by the distance measuring device is the position of the microphone.
  • the positioning signal obtained by the distance measuring device can be used to obtain the microphone.
  • Device position information indicating the position can be obtained.
  • the device position information correction unit 42 includes information indicating the absolute position of the recording device 11 (distance measuring device) in the target space obtained from the positioning signal or the sensor signal, that is, information indicating the absolute position of the object, and the object.
  • the device position information is generated based on the information indicating the mounting position of the microphone in the above, that is, the information indicating the relative positional relationship between the microphone and the distance measuring device.
  • the device orientation information generation unit 43 generates device orientation information indicating the recording device 11 (microphone) in the target space, that is, the absolute orientation in which the object is facing, based on the sensor signal supplied from the acquisition unit 41. It is supplied to the correction direction generation unit 50.
  • the device orientation information is angle information indicating the front direction of the object (recording device 11) in the target space.
  • the device orientation information may include not only information indicating the orientation of the recording device 11 (object) but also information indicating the rotation (tilt) of the recording device 11.
  • the device orientation information includes information indicating the orientation of the recording device 11 and information indicating the rotation of the recording device 11.
  • the azimuth angle ⁇ and the elevation angle ⁇ indicating the orientation of the recording device 11 in the coordinate system of the coordinates as the device position information are recorded in the coordinate system of the coordinates as the device position information.
  • An inclination angle ⁇ indicating the rotation (inclination) of the device 11 is included.
  • the device orientation information is information indicating Euler angles consisting of azimuth ⁇ (yaw), elevation angle ⁇ (pitch), and tilt angle ⁇ (roll), which indicate the absolute orientation and rotation of the recording device 11 (object). You can say that.
  • the sound source position information and the sound source orientation information obtained from the device position information and the device orientation information are stored in the metadata for each frame of the object sound source signal or for each discrete unit time such as every predetermined number of frames. Is transmitted to the terminal device 13.
  • the section detection unit 44 Based on the recorded audio signal supplied from the acquisition unit 41, the section detection unit 44 describes the type (type) of the sound of the object sound source included in the recorded audio signal, that is, the type of the object sound source and the object sound source. Detects the time interval in which the sound is included.
  • the section detection unit 44 supplies the relative arrival direction estimation unit 45 with the sound source type ID, which is ID information indicating the type of the detected object sound source, and the section information indicating the time interval including the sound of the object sound source. At the same time, the sound source type ID is supplied to the transmission characteristic database 46.
  • the section detection unit 44 determines the object ID, which is the identification information indicating the object to which the recording device 11 from which the recorded audio signal to be detected is obtained is attached, and the type of the object sound source detected from the recorded audio signal.
  • the indicated sound source type ID is supplied to the object sound source data generation unit 51.
  • object IDs and sound source type IDs are stored in the metadata of the object sound source signal. By doing so, on the terminal device 13 side, it becomes possible to easily perform an editing operation such as moving the sound source position information of a plurality of object sound source signals obtained for the same object together.
  • the relative arrival direction estimation unit 45 is based on the sound source type ID and section information supplied from the section detection unit 44 and the recorded audio signal supplied from the acquisition unit 41, and the time interval indicated by the section information in the recorded audio signal. Relative arrival direction information is generated for each.
  • the relative arrival direction information is information indicating the relative arrival direction (arrival direction) of the sound of the object sound source seen from the microphone provided in the recording device 11, more specifically, the recording device 11.
  • the recording device 11 is provided with a plurality of microphones, and the recorded audio signal is a multi-channel audio signal obtained by collecting sounds from the plurality of microphones.
  • the relative arrival direction of the sound of the object sound source seen from the microphone is determined by the MUSIC (Multiple Signal Classification) method using the phase difference (correlation) between two or more microphones. Estimate and generate relative arrival direction information showing the estimation result.
  • MUSIC Multiple Signal Classification
  • the relative arrival direction estimation unit 45 supplies the generated relative arrival direction information to the transmission characteristic database 46 and the correction information generation unit 47.
  • the transmission characteristic database 46 holds the transmission characteristics of sound from the object sound source to the recording device 11 (microphone) for each sound source type (object sound source type).
  • the transmission characteristics are maintained for each combination of, for example, the relative direction of the recording device 11 (microphone) as seen from the object sound source and the distance from the object sound source to the recording device 11 (microphone). ing.
  • the sound source type ID, the mounting position information, the relative orientation information, and the transmission characteristic are associated with each other, and the transmission characteristic is held in a table format.
  • the transmission characteristic may be held in association with the relative arrival direction information instead of the relative direction information.
  • the mounting position information is information indicating a mounting position of the recording device 11 as viewed from a reference position of the object, for example, a specific site position of the human cervical spine as an object.
  • the mounting position information is three-dimensionally orthogonal. It is used as the coordinate information of the coordinate system.
  • the approximate position of the object sound source in the object can be specified by the sound source type indicated by the sound source type ID
  • the approximate distance from the object sound source to the recording device 11 is determined by the sound source type ID and the mounting position information. ..
  • the relative direction information is information indicating the relative direction of the recording device 11 (microphone) as seen from the object sound source, and can be obtained from the relative arrival direction information.
  • the transmission characteristics are held in a table format
  • the transmission characteristics for each sound source type ID may be held in the form of a function that takes the mounting position information and the relative orientation information as arguments. Good.
  • the transmission characteristic database 46 is supplied from the supplied mounting position information, the sound source type ID supplied from the section detection unit 44, and the relative arrival direction estimation unit 45 among the transmission characteristics for each sound source type ID held in advance.
  • the transmission characteristic determined by the relative arrival direction information is read out and supplied to the correction information generation unit 47.
  • the mounting position information of the known recording device 11 may be recorded in the server 12 in advance, or the mounting position information is included in the recording data. You may do so.
  • the correction information generation unit 47 performs audio correction information and position correction based on the supplied mounting position information, the relative arrival direction information supplied from the relative arrival direction estimation unit 45, and the transmission characteristics supplied from the transmission characteristic database 46. Generate information and orientation correction information.
  • the audio correction information is a correction characteristic for obtaining the object sound source signal of the sound of the object sound source based on the recorded audio signal.
  • the audio correction information is the reverse characteristic of the transmission characteristic (hereinafter, also referred to as the reverse transmission characteristic) supplied from the transmission characteristic database 46 to the correction information generation unit 47.
  • the reverse transmission characteristics may be held for each sound source type ID.
  • the position correction information is offset information of the position of the object sound source as seen from the position of the recording device 11 (microphone).
  • the position correction information is difference information indicating the relative positional relationship between the recording device 11 and the object sound source, which is indicated by the relative direction and distance between the recording device 11 and the object sound source.
  • the orientation correction information is offset information of the direction (direction) of the object sound source seen from the recording device 11 (microphone), that is, difference information indicating the relative direction between the recording device 11 and the object sound source.
  • the correction information generation unit 47 supplies the audio correction information, the position correction information, and the direction correction information obtained by the calculation to the audio generation unit 48, the correction position generation unit 49, and the correction direction generation unit 50.
  • the audio generation unit 48 generates an object sound source signal based on the recorded audio signal supplied from the acquisition unit 41 and the audio correction information supplied from the correction information generation unit 47, and supplies the object sound source signal to the object sound source data generation unit 51. To do. In other words, the audio generation unit 48 extracts the object sound source signal for each object sound source from the recorded audio signal based on the audio correction information for each sound source type ID.
  • the object sound source signal obtained by the audio generation unit 48 is an audio signal for reproducing the sound of the object sound source that will be observed at the position of the object sound source.
  • the correction position generation unit 49 determines the absolute position of the object sound source in the target space based on the device position information supplied from the device position information correction unit 42 and the position correction information supplied from the correction information generation unit 47.
  • the indicated sound source position information is generated and supplied to the object sound source data generation unit 51. That is, the device position information is corrected based on the position correction information, and as a result, the sound source position information is obtained.
  • the correction orientation generation unit 50 determines the absolute orientation of the object sound source in the target space based on the device orientation information supplied from the device orientation information generation unit 43 and the orientation correction information supplied from the correction information generation unit 47.
  • the sound source direction information indicating the direction) is generated and supplied to the object sound source data generation unit 51. That is, the device orientation information is corrected based on the orientation correction information, and as a result, the sound source orientation information is obtained.
  • the object sound source data generation unit 51 includes a sound source type ID and an object ID supplied from the section detection unit 44, an object sound source signal supplied from the audio generation unit 48, and sound source position information supplied from the correction position generation unit 49.
  • Object sound source data is generated from the sound source direction information supplied from the correction direction generation unit 50, and is supplied to the transmission unit 53.
  • the object sound source data includes the object sound source signal and the metadata of the object sound source signal.
  • the metadata includes sound source type ID, object ID, sound source position information, and sound source orientation information.
  • the object sound source data generation unit 51 reads the directional characteristic data from the directional characteristic database 52 as needed and supplies the directional characteristic data to the transmission unit 53.
  • the directional characteristic database 52 holds directional characteristic data indicating the directional characteristic of the object sound source, that is, the transmission characteristic in each direction as seen from the object sound source, for each type of the object sound source indicated by the sound source type ID.
  • the transmission unit 53 transmits the object sound source data and the directivity characteristic data supplied from the object sound source data generation unit 51 to the terminal device 13.
  • each object sound source has a directivity characteristic peculiar to those object sound sources.
  • the whistle as an object sound source has a directivity characteristic in which sound strongly propagates in the front (forward) direction as shown by arrow Q11, that is, a sharp front directivity.
  • the footsteps emitted from spikes as an object sound source have a directivity (omnidirectionality) in which the sound propagates in all directions with the same intensity as shown by arrow Q12.
  • the sound emitted from the player's mouth as an object sound source has a directivity characteristic in which the sound strongly propagates to the front and side as shown by arrow Q13, that is, a certain degree of strong front directivity.
  • Directivity data showing the directivity of such an object sound source can be obtained by acquiring the characteristics (transmission characteristics) of sound propagation to the surroundings for each type of object sound source in an anechoic chamber or the like using a microphone array. Obtainable.
  • the directivity data can also be obtained by performing a simulation on 3D data that simulates the shape of the object sound source.
  • the directional characteristic data is a function of the azimuth angle ⁇ and the elevation angle ⁇ that indicate each direction with respect to the front direction of the object sound source as seen from the object sound source, which is defined for the value i of the sound source type ID. It is a gain function dir (i, ⁇ , ⁇ ) defined as.
  • the gain function dir (i, d, ⁇ , ⁇ ) having the distance d from the discrete object sound source as an argument may be used as the directional characteristic data.
  • This gain value is emitted from an object sound source of the sound source type in which the value of the sound source type ID is i, propagates in the directions of the azimuth angle ⁇ and the elevation angle ⁇ when viewed from the object sound source, and is located at a distance d from the object sound source (hereinafter). , It is called the position P) and shows the characteristics (transmission characteristics) of the sound that reaches it.
  • the object sound source signal of the sound source type whose sound source type ID value is i is gain-corrected based on this gain value, the sound of the object sound source that will actually be heard at the position P is reproduced (reproduced). can do.
  • the directional characteristic data may be Ambisonics format data, that is, data composed of spherical harmonics (spherical harmonics) in each direction.
  • Metadata can be prepared for each frame of a predetermined time length of the object sound source signal, and the metadata and directional characteristic data can be transmitted to the terminal device 13 for each frame by the bitstream syntax shown in FIGS. 5 and 6. Conceivable.
  • uimsbf is unsigned integer MSB first and tcimsbf is two's complement integer MSB first.
  • the metadata includes the object ID "Original_3D_object_index”, the sound source type ID "Object_type_index”, the sound source position information "Object_position [3]”, and the sound source orientation information "Object_direction [3]" for each object constituting the content. "It is included.
  • the sound source position information Object_position [3] is the coordinates (x o , yo , z o ) of the xyz coordinate system (three-dimensional Cartesian coordinate system) whose origin is a predetermined reference position in the target space. There is.
  • These coordinates (x o , yo , z o ) indicate the absolute position of the object sound source in the xyz coordinate system, that is, the target space.
  • the sound source orientation information Object_direction [3] consists of an azimuth angle ⁇ o , an elevation angle ⁇ o , and an inclination angle ⁇ o , which indicate the absolute orientation of the object sound source in the target space.
  • the viewpoint changes with time when the content is played back. Therefore, if the position of the object sound source is expressed by the coordinates indicating the absolute position instead of the relative coordinates based on the listening position, the content is played back. It is advantageous for signal generation.
  • the metadata structure is not limited to the example shown in FIG. 5, and may be any other type. Further, the metadata may be transmitted at predetermined time intervals, and it is not always necessary to transmit the metadata for each frame.
  • the gain function "Object_directivity [distance] [azimuth] [elevation]” is transmitted as the directivity characteristic data corresponding to the value of the predetermined sound source type ID.
  • the distance "distance” from the sound source and the azimuth “azimuth” and the elevation angle “elevation” indicating the direction seen from the sound source are arguments.
  • the azimuth characteristic data may be in a format in which the sampling intervals of the azimuths and elevation angles as arguments are not equiangular intervals, or HOA (Higher Order Ambisonics) format, that is, Ambisonics format data (spherical harmonics). May be.
  • HOA Higher Order Ambisonics
  • the directivity data For example, for general sound source type directivity data, it is preferable to transmit the directivity data to the terminal device 13 in advance.
  • the directional characteristic data of an object sound source having an uncommon directional characteristic such as an object sound source that is not defined in advance
  • the directional characteristic data is included in the metadata shown in FIG. It is also conceivable to transmit it as metadata.
  • the transmission characteristics for each sound source type ID held in the transmission characteristic database 46 can be acquired for each type of object sound source in an anechoic chamber or the like using a microphone array, as in the case of directivity data.
  • the transmission characteristics can also be obtained by performing a simulation on 3D data that simulates the shape of the object sound source.
  • the transmission characteristics corresponding to the sound source type ID obtained in this way are different from the directional specific data regarding the relative direction and distance of the object sound source when viewed from the front direction, and are relative to the object sound source and the recording device 11. It is held for each direction and distance.
  • the section detection unit 44 holds a classifier such as a DNN (Deep Neural Network) obtained in advance by learning.
  • a DNN Deep Neural Network
  • This classifier uses the recorded audio signal as an input, and includes the existence probability of the sound of each object sound source to be detected, such as human voice, kick sound, applause sound, footstep sound, whistle sound, that is, the sound of the object sound source. It is assumed that the output value is the probability of being recorded.
  • the section detection unit 44 substitutes the recorded audio signal supplied from the acquisition unit 41 into the holding classifier to perform the calculation, and the output of the classifier obtained as a result is used as the section information to estimate the relative arrival direction. Supply to 45.
  • the section detection unit 44 not only the recorded audio signal but also the sensor signal included in the recorded data may be used as the input of the discriminator, and only the sensor signal may be used as the input of the discriminator. It may be.
  • the output signals of the acceleration sensor, gyro sensor, geomagnetic sensor, etc. as sensor signals indicate the movement of the object to which the recording device 11 is attached, the sound of the object sound source corresponding to the movement of the object is highly accurate. Can be detected.
  • the section detection unit 44 may obtain the final section information based on the recorded audio signals and the section information obtained for the plurality of recording devices 11 different from each other. At that time, the device position information, the device orientation information, and the like obtained for each recording device 11 may also be used.
  • the section detection unit 44 sets the predetermined recording device 11 as the attention recording device 11, and selects the recording device 11 whose distance from the attention recording device 11 is equal to or less than a predetermined value as the reference recording device 11 based on the device position information. ..
  • the section detection unit 44 has an overlapping section between the time interval indicated by the section information of the attention recording device 11 and the time interval indicated by the section information of the reference recording device 11, for example, the recording audio of the attention recording device 11 Beamforming or the like is performed on the signal according to the device position information and the device orientation information. As a result, the sound from the object equipped with the reference recording device 11 included in the recorded audio signal of the attention recording device 11 is suppressed.
  • the section detection unit 44 obtains the final section information by inputting the recorded audio signal obtained by beamforming or the like into the classifier and performing the calculation. By doing so, it is possible to suppress the sound emitted by another object and obtain more accurate section information.
  • the relative arrival direction of the sound of the object sound source seen from the microphone is estimated by the MUSIC method or the like.
  • the direction (direction) to be the target when estimating the arrival direction can be narrowed down, and the arrival direction can be estimated with higher accuracy.
  • the direction in which the object sound source can exist can be specified for the microphone.
  • the relative arrival direction of the sound of the object sound source is estimated by detecting the relative gain peak obtained in each direction viewed from the microphone. At this time, if the type of the object sound source is specified, the correct peak can be selected and the arrival direction can be estimated with higher accuracy.
  • the correction information generation unit 47 calculates audio correction information, position correction information, and direction correction information based on the mounting position information, the relative arrival direction information, and the transmission characteristic.
  • the audio correction information is a reverse transmission characteristic which is the reverse characteristic of the transmission characteristic supplied from the transmission characteristic database 46 as described above.
  • the position correction information is the coordinates ( ⁇ x, ⁇ y, ⁇ z) indicating the position of the object sound source as seen from the position of the recording device 11 (microphone).
  • the approximate position of the object sound source seen from the mounting position is estimated based on the mounting position of the recording device 11 indicated by the mounting position information and the direction of the object sound source seen from the mounting position indicated by the relative arrival direction information. Then, the position correction information is obtained from the estimation result.
  • the sound source type ID that is, the type of the object sound source may be used, or the height of the person who is the object, the length of each part of the body, and the movement of the neck and joints. Degrees of freedom constraint parameters may also be used.
  • the sound type of the object sound source specified by the sound source type ID is spoken voice
  • the orientation correction information is angle information ( ⁇ , ⁇ ) indicating Euler angles consisting of position angles ⁇ , elevation angles ⁇ , and tilt angles ⁇ indicating the direction (direction) and rotation of the object sound source as seen from the position of the recording device 11 (microphone). , ⁇ ) and so on.
  • orientation correction information can be obtained from the mounting position information and the relative arrival orientation information. Since the relative arrival direction information is obtained from the multi-channel recorded audio signals obtained by the plurality of microphones, the correction information generation unit 47 generates the direction correction information based on the recorded audio signals and the mounting position information. It can also be said that.
  • the constraint parameters of the height of the person who is the object, the length of each part of the body, and the degree of freedom regarding the movement of the neck and joints may be used.
  • the audio generation unit 48 generates an object sound source signal by convolving the recorded audio signal from the acquisition unit 41 and the audio correction information from the correction information generation unit 47.
  • the recorded audio signal observed by the microphone is a signal in which the transmission characteristic between the object sound source and the microphone is added to the sound signal emitted from the object sound source. Therefore, by adding the audio correction information, which is the opposite characteristic of the transmission characteristic, to the recorded audio signal, the original sound of the object sound source that will be observed at the object sound source position is restored.
  • the recording device 11 When the recording device 11 is attached to the back of a person as an object for recording, for example, the recorded audio signal shown on the left side of FIG. 7 can be obtained.
  • the volume of the sound of the object sound source especially the volume of the high frequency range, has deteriorated significantly.
  • the object sound source signal shown on the right side in FIG. 7 can be obtained.
  • the volume of the object sound source signal is generally louder than that of the recorded audio signal, and it can be seen that a signal closer to the original sound is obtained.
  • the audio generation unit 48 may also use the section information obtained by the section detection unit 44 to generate the object sound source signal.
  • the time interval indicated by the section information may be cut out from the recorded audio signal, or the recorded audio signal may be muted for a section other than the time interval indicated by the interval information. By doing so, it is possible to extract only the sound of the object sound source from the recorded audio signal.
  • the position correction information is added (added) to the device position information indicating the position of the recording device 11, and the sound source position information is generated.
  • the position indicated by the device position information is corrected by the position correction information to be the position of the object sound source.
  • the direction correction information is added (added) to the device direction information indicating the direction of the recording device 11, and the sound source direction information is generated.
  • the direction (direction) indicated by the device direction information is corrected by the direction correction information to be the direction of the object sound source.
  • the server 12 When the recorded data is transmitted from the recording device 11, the server 12 performs the object sound source data generation process and transmits the object sound source data to the terminal device 13.
  • step S11 the acquisition unit 41 acquires the recorded data from the recording device 11.
  • the acquisition unit 41 supplies the recorded audio signal included in the recorded data to the section detection unit 44, the relative arrival direction estimation unit 45, and the audio generation unit 48.
  • the acquisition unit 41 supplies the positioning signal and the sensor signal included in the recorded data to the device position information correction unit 42, and supplies the sensor signal included in the recorded data to the device orientation information generation unit 43. ..
  • step S12 the device position information correction unit 42 generates device position information based on the sensor signal and the positioning signal supplied from the acquisition unit 41, and supplies the device position information to the correction position generation unit 49.
  • step S13 the device orientation information generation unit 43 generates device orientation information based on the sensor signal supplied from the acquisition unit 41 and supplies it to the correction orientation generation unit 50.
  • step S14 the section detection unit 44 detects the time section including the sound of the object sound source based on the recorded audio signal supplied from the acquisition unit 41, and estimates the section information indicating the detection result as the relative arrival direction. It is supplied to the unit 45.
  • the section detection unit 44 generates section information indicating the detection result of the time section by substituting the recorded audio signal into the classifier held in advance and performing the calculation.
  • section detection unit 44 supplies the sound source type ID to the relative arrival direction estimation unit 45 and the transmission characteristic database 46 according to the detection result of the time section including the sound of the object sound source, and also supplies the object ID and the sound source type.
  • the ID is supplied to the object sound source data generation unit 51.
  • step S15 the relative arrival direction estimation unit 45 generates and transmits relative arrival direction information based on the sound source type ID and section information supplied from the section detection unit 44 and the recorded audio signal supplied from the acquisition unit 41. It is supplied to the characteristic database 46 and the correction information generation unit 47. For example, in step S15, the relative arrival direction of the sound of the object sound source is estimated by the MUSIC method or the like, and the relative arrival direction information is generated.
  • the transmission characteristic database 46 acquires the mounting position information held by the server 12 and transmits the transmission characteristics. Is read out and supplied to the correction information generation unit 47.
  • the transmission characteristic database 46 reads out the transmission characteristics determined by the supplied sound source type ID, relative arrival direction information, and mounting position information from the retained transmission characteristics, and supplies the transmission characteristics to the correction information generation unit 47. At this time, the relative direction information is generated from the relative arrival direction information as appropriate, and the transmission characteristics are read out.
  • step S16 the correction information generation unit 47 generates audio correction information by calculating the inverse characteristic of the transmission characteristic supplied from the transmission characteristic database 46, and supplies the audio correction information to the audio generation unit 48.
  • step S17 the correction information generation unit 47 generates position correction information based on the supplied mounting position information and the relative arrival direction information supplied from the relative arrival direction estimation unit 45, and supplies the position correction information to the correction position generation unit 49. ..
  • step S18 the correction information generation unit 47 generates orientation correction information based on the supplied mounting position information and the relative arrival direction information supplied from the relative arrival direction estimation unit 45, and supplies the correction information to the correction direction generation unit 50. ..
  • step S19 the audio generation unit 48 generates an object sound source signal by convolving the recorded audio signal supplied from the acquisition unit 41 and the audio correction information supplied from the correction information generation unit 47, and generates an object sound source data generation unit. Supply to 51.
  • step S20 the correction position generation unit 49 generates sound source position information by adding the position correction information supplied from the correction information generation unit 47 to the device position information supplied from the device position information correction unit 42, and creates an object. It is supplied to the sound source data generation unit 51.
  • step S21 the correction direction generation unit 50 generates sound source direction information by adding the direction correction information supplied from the correction information generation unit 47 to the device direction information supplied from the device direction information generation unit 43, and creates an object. It is supplied to the sound source data generation unit 51.
  • step S22 the object sound source data generation unit 51 generates the object sound source data and supplies it to the transmission unit 53.
  • the object sound source data generation unit 51 includes the sound source type ID and object ID supplied from the section detection unit 44, the sound source position information supplied from the correction position generation unit 49, and the sound source supplied from the correction direction generation unit 50. Generate metadata including orientation information.
  • the object sound source data generation unit 51 generates object sound source data including the object sound source signal supplied from the audio generation unit 48 and the generated metadata.
  • step S23 the transmission unit 53 transmits (transmits) the object sound source data supplied from the object sound source data generation unit 51 to the terminal device 13, and the object sound source data generation process ends.
  • the timing of transmitting the object sound source data to the terminal device 13 can be any timing after the object sound source data is generated.
  • the server 12 acquires the recorded data from the recording device 11 and generates the object sound source data.
  • the object is generated by generating position correction information and orientation correction information for each object sound source based on the recorded audio signal, and generating sound source position information and sound source orientation information using the position correction information and orientation correction information.
  • Information indicating a more accurate position and direction of the sound source can be obtained.
  • rendering can be performed using more accurate sound source position information and sound source orientation information, and content reproduction with a higher sense of reality can be realized.
  • an object sound source closer to the original sound is generated. You can get the signal of the sound of. As a result, a higher sense of presence can be obtained on the terminal device 13 side.
  • the terminal device 13 shown in FIG. 1 is configured as shown in FIG. 9, for example.
  • a playback device 81 including, for example, headphones, earphones, a speaker array, or the like is connected to the terminal device 13.
  • the terminal device 13 reproduces the sound of the content (object sound source) at the listening position based on the directional characteristic data acquired in advance from the server 12 or the like or shared in advance and the object sound source data received from the server 12. Generates a playback signal.
  • the terminal device 13 generates a reproduction signal by performing processing for VBAP (Vector Based Amplitude Panning), wave field synthesis, convolution processing of HRTF (Head Related Transfer Function), etc. using the directional characteristic data.
  • VBAP Vector Based Amplitude Panning
  • HRTF Head Related Transfer Function
  • the terminal device 13 supplies the generated reproduction signal to the reproduction device 81 to reproduce the sound of the content.
  • the terminal device 13 includes an acquisition unit 91, a listening position designation unit 92, a directivity characteristic database 93, a sound source offset specification unit 94, a sound source offset application unit 95, a relative distance calculation unit 96, a relative orientation calculation unit 97, and a directivity rendering unit 98. have.
  • the acquisition unit 91 acquires object sound source data and directivity data from the server 12, for example, by receiving data transmitted from the server 12.
  • the acquisition timing of the directivity data and the acquisition timing of the object sound source data may be the same or different.
  • the acquisition unit 91 supplies the acquired directivity data to the directivity database 93 and records it.
  • the acquisition unit 91 When the acquisition unit 91 acquires the object sound source data, the acquisition unit 91 extracts the object ID, the sound source type ID, the sound source position information, the sound source orientation information, and the object sound source signal from the object sound source data.
  • the acquisition unit 91 supplies the sound source type ID to the directional characteristic database 93, supplies the object ID, the sound source type ID, and the object sound source signal to the directional rendering unit 98, and supplies the sound source position information and the sound source orientation information to the sound source offset. It is supplied to the application unit 95.
  • the listening position designation unit 92 designates the listening position in the target space and the orientation of the listener (user) at the listening position according to the user operation or the like, and as a result of the designation, the listening position information indicating the listening position and the listening position information. , Outputs listener orientation information indicating the orientation of the listener.
  • the listening position designation unit 92 supplies the listening position information to the relative distance calculation unit 96, the relative orientation calculation unit 97, and the directional rendering unit 98, and supplies the listener orientation information to the relative orientation calculation unit 97 and the directional rendering unit. Supply to unit 98.
  • the directivity database 93 records the directivity data supplied from the acquisition unit 91.
  • this directivity database 93 for example, the same directivity data as that recorded in the directivity database 52 of the server 12 is recorded.
  • the directivity database 93 directs the directivity characteristic data of the sound source type indicated by the supplied sound source type ID among the plurality of recorded directivity characteristic data. It is supplied to the sex rendering unit 98.
  • the sound quality offset designation unit 94 produces sound quality adjustment target information including an object ID indicating a sound quality adjustment target and a sound source type ID as a directional rendering unit. Supply to 98. At this time, the gain value for sound quality adjustment may be included in the sound quality adjustment target information.
  • the movement or rotation of the position of the object or the object sound source in the target space may be instructed for the specific object or the object sound source by the user's operation or the like.
  • the sound source offset designation unit 94 includes an object ID and a sound source type ID indicating a movement or rotation target, a position offset information indicating an instructed movement amount, and an orientation offset information indicating an instructed rotation amount.
  • the moving rotation target information including the above is supplied to the sound source offset application unit 95.
  • the position offset information is, for example, coordinates ( ⁇ x o , ⁇ y o , ⁇ z o ) indicating an offset amount (movement amount) of the sound source position information.
  • the directional offset information is, for example, angle information ( ⁇ o , ⁇ o , ⁇ o ) indicating an offset amount (rotation amount) of the sound source directional information.
  • the terminal device 13 adjusts the sound quality of the sound of the object sound source, moves the sound image of the object sound source, and rotates the sound image of the object sound source. You can edit the contents such as the object.
  • the terminal device 13 it is possible to collectively adjust the sound quality, the sound image position, the rotation of the sound image, and the like for each object, that is, for all the object sound sources of the object. ..
  • sound quality adjustment, sound image position adjustment, sound image rotation adjustment, and the like can be performed for each object sound source, that is, for only one object sound source.
  • the sound source offset application unit 95 applies an offset based on the moving rotation target information supplied from the sound source offset designation unit 94 to the sound source position information and the sound source orientation information supplied from the acquisition unit 91 to correct the sound source position.
  • Information and correction Generate sound source orientation information.
  • the movement / rotation target information includes the object ID, the position offset information, and the orientation offset information.
  • the sound source offset application unit 95 adds the position offset information to the sound source position information to obtain the corrected sound source position information for all the object sound sources for the object indicated by the object ID, and also obtains the sound source orientation information.
  • the azimuth offset information is added to the corrected sound source azimuth information.
  • the corrected sound source position information and the corrected sound source orientation information obtained in this way are information indicating the position and orientation of the final object sound source whose position and orientation have been corrected.
  • the moving rotation target information includes the sound source type ID, the position offset information, and the orientation offset information.
  • the sound source offset application unit 95 adds the position offset information to the sound source position information to obtain the corrected sound source position information for the object sound source indicated by the sound source type ID, and also makes the direction with respect to the sound source orientation information. Offset information is added to obtain corrected sound source orientation information.
  • the sound source position information is used as the corrected sound source position information as it is.
  • the sound source orientation information is used as the corrected sound source orientation information as it is.
  • the sound source offset application unit 95 supplies the corrected sound source position information thus obtained to the relative distance calculation unit 96 and the relative orientation calculation unit 97, and supplies the corrected sound source orientation information to the relative orientation calculation unit 97.
  • the relative distance calculation unit 96 sets the listening position (listener) and the object sound source based on the corrected sound source position information supplied from the sound source offset applying unit 95 and the listening position information supplied from the listening position designating unit 92. The relative distance between the two is calculated, and the sound source relative distance information indicating the calculation result is supplied to the directional rendering unit 98.
  • the relative orientation calculation unit 97 receives the corrected sound source position information and the corrected sound source orientation information supplied from the sound source offset application unit 95, and the listening position information and the listener orientation information supplied from the listening position designation unit 92. The relative direction between the listener and the object sound source is calculated, and the sound source relative direction information indicating the calculation result is supplied to the directional rendering unit 98.
  • the sound source relative azimuth information includes the sound source azimuth angle, the sound source elevation angle, the sound source rotation azimuth angle, and the sound source rotation elevation angle.
  • the sound source azimuth and sound source elevation are azimuths and elevations that indicate the relative directions of the object sound source as seen by the listener, respectively.
  • the sound source rotation azimuth and sound source rotation elevation are azimuths and elevations indicating the relative directions of the listener (listening position) as seen from the object sound source, respectively.
  • the sound source rotation azimuth and the sound source rotation elevation angle can be said to be information indicating how much the front direction of the object sound source is rotated to the listener.
  • sound source rotation azimuths and sound source rotation elevation angles are the azimuths and elevation angles when the directional characteristic data is referred to during the rendering process.
  • the directional rendering unit 98 includes an object ID, a sound source type ID, an object sound source signal supplied from the acquisition unit 91, directional characteristic data supplied from the directional characteristic database 93, and a sound source relative distance supplied from the relative distance calculation unit 96.
  • the rendering process is performed based on the information, the sound source relative orientation information supplied from the relative orientation calculation unit 97, and the listening position information and the listener orientation information supplied from the listening position designation unit 92.
  • VBAP wave field synthesis processing
  • HRTF convolution processing HRTF convolution processing
  • the listening position information and the listener orientation information may be used in the rendering process as needed, and may not necessarily be used in the rendering process.
  • the directional rendering unit 98 can use the object sound source signal specified by the object ID or sound source type ID included in the sound quality adjustment target information. On the other hand, adjust the sound quality.
  • the directional rendering unit 98 supplies the reproduction signal obtained by the rendering process to the reproduction device 81 to reproduce the sound of the content.
  • the directional rendering unit 98 adjusts the gain of the object sound source signal specified by the object ID and the sound source type ID included in the sound source adjustment target information. Such processing is performed as sound source adjustment.
  • the sound quality of the sound of all object sound sources of the object indicated by the object ID can be adjusted at once, or the sound of a specific object sound source such as a human voice or walking sound as an object can be muted. can do.
  • the directional rendering unit 98 calculates the distance attenuation gain value, which is a gain value for reproducing the distance attenuation, based on the relative distance indicated by the sound source relative distance information.
  • the directivity rendering unit 98 calculates by substituting the sound source rotation azimuth and sound source rotation elevation angle included in the sound source relative orientation information with respect to the directivity characteristic data such as the gain function supplied from the directivity characteristic database 93. Is performed to calculate the directivity gain value, which is the gain value according to the directivity of the object sound source.
  • the directional rendering unit 98 sets the reproduction gain value of the channel corresponding to each speaker of the speaker array constituting the reproduction device 81 by VBAP based on the sound source azimuth and the sound source elevation angle included in the sound source relative orientation information. Ask.
  • the directivity rendering unit 98 adjusts the gain by multiplying the object sound source signal whose sound quality has been adjusted by multiplying the distance attenuation gain value, the directivity characteristic gain value, and the reproduction gain value as appropriate. Generates a playback signal for the channel corresponding to.
  • the terminal device 13 realizes more realistic content reproduction by performing rendering processing based on the sound source position information and sound source orientation information indicating the position and orientation of the object sound source, and the object sound source signal closer to the original sound. can do.
  • the reproduction signal generated by the directional rendering unit 98 may be recorded on a recording medium or the like without being output to the reproduction device 81.
  • step S51 the acquisition unit 91 acquires the object sound source data from the server 12.
  • the acquisition unit 91 extracts the object ID, the sound source type ID, the sound source position information, the sound source orientation information, and the object sound source signal from the object sound source data.
  • the acquisition unit 91 supplies the sound source type ID to the directional characteristic database 93, supplies the object ID, the sound source type ID, and the object sound source signal to the directional rendering unit 998, and supplies the sound source position information and the sound source orientation information to the sound source offset. It is supplied to the application unit 95.
  • the directivity database 93 reads out the directivity data determined by the sound source type ID supplied from the acquisition unit 91 and supplies it to the directivity rendering unit 98.
  • step S52 the sound source offset designation unit 94 generates movement rotation target information indicating the movement amount and rotation amount of the object or the object sound source according to the user's operation or the like, and supplies it to the sound source offset application unit 95.
  • the sound source offset designation unit 94 also generates sound quality adjustment target information according to the user's operation or the like and supplies it to the directional rendering unit 98.
  • step S53 the sound source offset application unit 95 applies an offset based on the moving rotation target information supplied from the sound source offset designation unit 94 to the sound source position information and the sound source direction information supplied from the acquisition unit 91, and corrects the sound source. Generates position information and corrected sound source orientation information.
  • the sound source offset application unit 95 supplies the corrected sound source position information obtained by applying the offset to the relative distance calculation unit 96 and the relative orientation calculation unit 97, and supplies the correction sound source orientation information to the relative orientation calculation unit 97.
  • step S54 the listening position designation unit 92 designates the listening position in the target space and the orientation of the listener at the listening position in response to the user operation or the like, and generates the listening position information and the listener orientation information.
  • the listening position designation unit 92 supplies the listening position information to the relative distance calculation unit 96, the relative orientation calculation unit 97, and the directional rendering unit 98, and supplies the listener orientation information to the relative orientation calculation unit 97 and the directional rendering unit 98. Supply to.
  • step S55 the relative distance calculation unit 96 between the listening position and the object sound source based on the corrected sound source position information supplied from the sound source offset applying unit 95 and the listening position information supplied from the listening position designating unit 92.
  • the relative distance of the sound source is calculated, and the sound source relative distance information indicating the calculation result is supplied to the directional rendering unit 98.
  • step S56 the relative orientation calculation unit 97 is based on the corrected sound source position information and the corrected sound source orientation information supplied from the sound source offset application unit 95, and the listening position information and the listener orientation information supplied from the listening position designation unit 92. Then, the relative direction between the listener and the object sound source is calculated, and the sound source relative direction information indicating the calculation result is supplied to the directional rendering unit 98.
  • step S57 the directional rendering unit 98 performs rendering processing and generates a reproduction signal.
  • the directional rendering unit 98 adjusts the sound quality with respect to the object sound source signal specified by the object ID and the sound source type ID included in the sound source adjustment target information. I do.
  • the directional rendering unit 98 receives an object sound source signal whose sound quality is adjusted as appropriate, directional characteristic data supplied from the directional characteristic database 93, sound source relative distance information supplied from the relative distance calculation unit 96, and relative azimuth calculation unit 97. Rendering processing such as VBAP is performed based on the supplied sound source relative orientation information, the listening position information supplied from the listening position designation unit 92, and the listener orientation information.
  • step S58 the directional rendering unit 98 supplies the reproduction signal obtained in the process of step S57 to the reproduction device 81, and outputs a sound based on the reproduction signal. As a result, the sound of the content, that is, the sound of the object sound source is reproduced.
  • the terminal device 13 acquires the object sound source data from the server 12 and performs the rendering process based on the object sound source signal, the sound source position information, the sound source orientation information, etc. included in the object sound source data.
  • various attachment positions such as trunk and legs, trunk and head, and trunk and arms can be considered as the mounting positions.
  • the object OB21 is a soccer player
  • the recording device 11-1 and the recording device 11-2 are attached to the back and waist of the soccer player, respectively.
  • the direction of the object sound source seen from the recording device 11-1 and the direction of the object sound source seen from the recording device 11-2 Is different.
  • the server 12 when integrating different information obtained about the same object sound source, the server 12 is configured as shown in FIG. 12, for example.
  • the parts corresponding to the case in FIG. 3 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the server 12 shown in FIG. 12 includes an acquisition unit 41, a device position information correction unit 42, a device direction information generation unit 43, a section detection unit 44, a relative arrival direction estimation unit 45, an information integration unit 121, a transmission characteristic database 46, and correction information. It has a generation unit 47, an audio generation unit 48, a correction position generation unit 49, a correction direction generation unit 50, an object sound source data generation unit 51, a direction characteristic database 52, and a transmission unit 53.
  • the configuration of the server 12 shown in FIG. 12 is different from the configuration of the server 12 shown in FIG. 3 in that the information integration unit 121 is newly provided, and is the same as the configuration of the server 12 in FIG. 3 in other respects. There is.
  • the information integration unit 121 obtains relative arrival direction information obtained for the same object sound source (sound source type ID) based on the supplied mounting position information and the relative arrival direction information supplied from the relative arrival direction estimation unit 45. Perform integration processing to integrate. By such integrated processing, one final relative arrival direction information for one object sound source is generated.
  • the information integration unit 121 also generates distance information indicating the distance from the object sound source to the recording device 11, that is, the distance between the object sound source and the microphone, based on the result of the integration process.
  • the information integration unit 121 supplies the final relative arrival direction information and distance information thus obtained to the transmission characteristic database 46 and the correction information generation unit 47.
  • the relative arrival direction information RD1 obtained from the recorded audio signal of a certain recording device 11-1 and the relative arrival direction information RD2 obtained from the recorded audio signal of another recording device 11-2. Is obtained by the relative arrival direction estimation unit 45. It is assumed that the recording device 11-1 and the recording device 11-2 are mounted on the same object.
  • the information integration unit 121 performs triangulation based on the mounting position information and the relative arrival direction information RD1 for the recording device 11-1 and the mounting position information and the relative arrival direction information RD2 for the recording device 11-2. Estimate the position of the object sound source using the principle.
  • the information integration unit 121 selects either the recording device 11-1 or the recording device 11-2.
  • the recording device 11 capable of collecting the sound of the object sound source with a higher SN ratio, such as the recording device 11 closer to the position of the object sound source, is selected.
  • the recording device 11-1 is selected as an example.
  • the information integration unit 121 determines the sound from the position of the object sound source as seen from the recording device 11-1 (microphone) based on the mounting position information about the recording device 11-1 and the obtained position of the object sound source. Information indicating the arrival direction is generated as the final relative arrival direction information. The information integration unit 121 also generates distance information indicating the distance from the recording device 11-1 (microphone) to the position of the object sound source.
  • the information that the recording device 11-1 is selected is supplied from the information integration unit 121 to the audio generation unit 48, the correction position generation unit 49, and the correction direction generation unit 50. Then, the recorded audio signal, the device position information, and the device orientation information obtained for the recording device 11-1 are used to generate the object sound source signal, the sound source position information, and the sound source orientation information. As a result, it is possible to obtain a high-quality object sound source signal having a higher SN ratio, and more accurate sound source position information and sound source direction information.
  • the final relative arrival direction information and distance information may be generated for both the recording device 11-1 and the recording device 11-2.
  • the relative arrival direction information and the distance information supplied from the information integration unit 121 are used for selecting the transmission characteristic.
  • the relative arrival direction information and the distance information can be used as arguments assigned to the function.
  • the relative arrival direction information and the distance information obtained by the information integration unit 121 are also used in the correction information generation unit 47 to generate the position correction information and the direction correction information.
  • more accurate information can be obtained as the final relative arrival direction information by using a plurality of relative arrival direction information obtained for the same object sound source of the same object.
  • the robustness at the time of calculating the relative arrival direction information can be improved.
  • transmission characteristics stored in the transmission characteristic database 46 may be used during the integration processing in the information integration unit 121.
  • the approximate distance between the recording device 11 and the object sound source can be estimated based on the degree of sound attenuation according to the distance from the object sound source, which can be seen from the transmission characteristics, and the recorded audio signal. Therefore, by using the estimation result of the distance between the recording device 11 and the object sound source, the estimation accuracy of the distance and the relative direction (direction) between the object sound source and the recording device 11 can be further improved. Can be done.
  • one microphone array is provided in the recording device 11, and another microphone array is provided for the recording device 11 by wire or wirelessly. May be connected.
  • the recorded data is recorded for each of the microphone arrays. Can be obtained.
  • the above-mentioned integrated processing can also be performed on the recorded data obtained in this way.
  • steps S81 to S85 Since the processing of steps S81 to S85 is the same as the processing of steps S11 to S15 in FIG. 8, the description thereof will be omitted as appropriate.
  • step S85 the relative arrival direction estimation unit 45 supplies the obtained relative arrival direction information to the information integration unit 121.
  • step S86 the information integration unit 121 performs integration processing based on the supplied mounting position information and the relative arrival direction information supplied from the relative arrival direction estimation unit 45. Further, the information integration unit 121 generates distance information indicating the distance from the object sound source to the recording device 11 based on the result of the integration process.
  • the information integration unit 121 supplies the relative arrival direction information and the distance information obtained by the integration process to the transmission characteristic database 46 and the correction information generation unit 47.
  • step S87 and step S94 are performed thereafter to end the object sound source data generation process, but these processes are the same as the processes of steps S16 to S23 of FIG. The description thereof will be omitted.
  • step S88 and step S89 position correction information and direction correction information are generated by using not only the relative arrival direction information and the mounting position information but also the distance information.
  • the server 12 acquires the recorded data from the recording device 11 and generates the object sound source data.
  • the actual object sound source is obtained from the recorded data and prior information such as transmission characteristics. It is possible to obtain sound source position information and sound source orientation information indicating the position and direction of. Further, in the present technology, it is possible to obtain an object sound source signal that is close to the sound (original sound) of the actual object sound source.
  • the object sound source signal corresponding to the absolute sound pressure (frequency characteristic) at the position where the object sound source actually exists, and the metadata including the sound source position information and the sound source orientation information accompanying the object sound source signal Since it can be obtained, the original sound of the object sound source can be restored even if the recording is performed at a mounting position that is not ideal with this technology.
  • playback and editing can be performed in consideration of the directivity characteristics of the object sound source.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 14 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • An audio generator that generates a sound source signal for each type of sound source based on the recorded signal obtained by collecting sound from a microphone attached to the moving body.
  • a correction information generation unit that generates position correction information indicating the distance between the microphone and the sound source, and
  • a signal processing device including a microphone position information indicating the position of the microphone in the target space and a position information generation unit that generates sound source position information indicating the position of the sound source in the target space based on the position correction information.
  • the signal processing device further comprising an object sound source data generation unit that generates object sound source data including the sound source type information indicating the type of the sound source, the metadata including the sound source position information, and the sound source signal.
  • a microphone position information generation unit that generates the microphone position information based on the information indicating the position of the moving body in the target space and the information indicating the position of the microphone in the moving body is further provided (1) or (1) or ( The signal processing device according to 2).
  • the correction information generation unit generates directional correction information indicating a relative direction between the microphone and the sound source based on the recorded signals obtained by the plurality of microphones.
  • a direction information generation unit that generates sound source direction information indicating the direction of the sound source in the target space based on the microphone direction information indicating the direction of the microphone in the target space and the direction correction information is further provided.
  • the signal according to (2) wherein the object sound source data generation unit generates the object sound source data including the metadata including the sound source type information, the sound source position information, and the sound source orientation information, and the sound source signal.
  • the object sound source data generation unit generates the object sound source data including the metadata including the sound source type information, the identification information indicating the moving body, the sound source position information, and the sound source orientation information, and the sound source signal.
  • the correction information generation unit further generates audio correction information for generating the sound source signal based on the transmission characteristics from the sound source to the microphone.
  • the signal processing device according to any one of (1) to (5), wherein the audio generation unit generates the sound source signal based on the audio correction information and the recorded signal.
  • (11) Based on the recorded signal obtained by collecting sound from the microphone attached to the moving body, a sound source signal for each type of sound source is generated.
  • Generates position correction information indicating the distance between the microphone and the sound source A program that causes a computer to execute a process including a step of generating sound source position information indicating the position of the sound source in the target space based on the microphone position information indicating the position of the microphone in the target space and the position correction information.
  • 11-1 to 11-N 11 Recording device, 12 server, 13 terminal device, 41 acquisition unit, 44 section detection unit, 45 relative arrival direction estimation unit, 46 transmission characteristic database, 47 correction information generation unit, 48 audio generation unit , 49 correction position generation unit, 50 correction direction generation unit, 51 object sound source data generation unit, 53 transmission unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より高い臨場感を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成するオーディオ生成部と、マイクロホンと音源との間の距離を示す位置補正情報を生成する補正情報生成部と、対象空間におけるマイクロホンの位置を示すマイクロホン位置情報と、位置補正情報とに基づいて、対象空間における音源の位置を示す音源位置情報を生成する位置情報生成部とを備える。本技術は収録伝送再生システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より高い臨場感を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、オブジェクト音源ベースのオーディオ再生方式は数多く存在するが、実際の収録現場で収録された収録オーディオ信号を用いてオブジェクト音源を再生するには、オブジェクト音源ごとのオーディオ信号と位置情報が必要となる。現状では、収録後に手動でオーディオ信号の音質調整を行ったり、オブジェクト音源ごとの位置情報の手動での入力や補正を行ったりすることが一般的である。
 また、オブジェクト音源ベースのオーディオ再生に関する技術として、ユーザが自由に受聴位置を指定できる場合に、変更後の受聴位置からオブジェクト音源までの距離に応じて、ゲイン補正や周波数特性補正を行う技術が提案されている(例えば、特許文献1参照)。
国際公開第2015/107926号
 しかしながら、上述した技術では十分に高い臨場感を得ることができない場合があった。
 例えばオブジェクト音源ごとの位置情報が手動で入力される場合、必ずしも正確な位置情報が得られるとは限らないため、そのような位置情報を用いても十分な臨場感を得ることができないことがある。
 本技術は、このような状況に鑑みてなされたものであり、より高い臨場感を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成するオーディオ生成部と、前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成する補正情報生成部と、対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する位置情報生成部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成し、前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成し、対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成するステップを含む。
 本技術の一側面においては、移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号が生成され、前記マイクロホンと前記音源との間の距離を示す位置補正情報が生成され、対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報が生成される。
収録伝送再生システムの構成例を示す図である。 オブジェクト音源の位置と収録デバイスの位置について説明する図である。 サーバの構成例を示す図である。 指向特性について説明する図である。 メタデータのシンタックス例を示す図である。 指向特性データのシンタックス例を示す図である。 オブジェクト音源信号の生成について説明する図である。 オブジェクト音源データ生成処理を説明するフローチャートである。 端末装置の構成例を示す図である。 再生処理を説明するフローチャートである。 複数の収録デバイスの装着について説明する図である。 サーバの構成例を示す図である。 オブジェクト音源データ生成処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈収録伝送再生システムの構成例〉
 本技術は、対象空間内において複数の3次元物体に収録デバイスを装着し、その収録デバイスで得られる音の収録信号に基づいて、収録デバイスの位置や方向ではなく、実際の音源の位置や方向を示す情報を生成することで、より高い臨場感を得ることができるようにするものである。
 本技術を適用した収録伝送再生システムでは、静止物体や移動体などの複数の3次元物体がオブジェクトとされ、そのオブジェクトに収録デバイスが装着され、コンテンツを構成する音の収録が行われる。なお、オブジェクトに収録デバイスが内蔵されていてもよい。
 特に、以下ではオブジェクトは移動体であるものとして説明を行う。また、収録伝送再生システムで生成されるコンテンツは、自由視点のコンテンツであってもよいし、固定視点のコンテンツであってもよい。
 例えば本技術を適用するのに適したコンテンツとして、以下のようなものが挙げられる。
 ・チームスポーツが行われるフィールドを再現するコンテンツ
 ・オーケストラやマーチングバンド等の演奏を再生するコンテンツ
 ・ミュージカルやオペラ、演劇などの複数の演者が存在する空間を再現するコンテンツ
 ・運動会やライブ会場、各種のイベント、テーマパークのパレード等における任意の空間を再現するコンテンツ
 なお、例えばマーチングバンド等の演奏のコンテンツでは、演者は静止していてもよいし、動いていてもよい。
 また、本技術を適用した収録伝送再生システムは、例えば図1に示すように構成される。
 図1に示す収録伝送再生システムは、収録デバイス11-1乃至収録デバイス11-N、サーバ12、および端末装置13を有している。
 収録デバイス11-1乃至収録デバイス11-Nは、コンテンツの収録対象となる空間(以下、対象空間とも称する)内にある複数のオブジェクトである移動体に装着されている。以下では、収録デバイス11-1乃至収録デバイス11-Nを特に区別する必要のない場合、単に収録デバイス11と称することとする。
 収録デバイス11には、例えばマイクロホンや測距デバイス、動き計測センサが設けられている。そして、収録デバイス11では、マイクロホンによる収音(収録)で得られた収録オーディオ信号、測距デバイスにより得られた測位信号、および動き計測センサにより得られたセンサ信号からなる収録データが得られる。
 ここで、マイクロホンによる収音で得られる収録オーディオ信号は、オブジェクトの周囲の音声を再生するためのオーディオ信号である。
 収録オーディオ信号に基づく音には、例えばオブジェクト自身が音源である音、つまりオブジェクトから発せられた音や、そのオブジェクトの周囲にいる他のオブジェクトにより発せられた音が含まれている。
 収録伝送再生システムでは、オブジェクトに起因して発せられる音がオブジェクト音源の音とされ、そのオブジェクト音源の音からなるコンテンツが端末装置13に対して提供される。すなわち、オブジェクト音源の音が目的音として抽出される。
 例えば、目的音とされるオブジェクト音源の音とは、オブジェクトである人が発話した音声、オブジェクトの歩行音や走行音、オブジェクトによる拍手音やボールキック音等の動作音、オブジェクトが演奏する楽器から発せられた楽器音などである。
 また、収録デバイス11に設けられた測距デバイスは、例えばGPS(Global Positioning System)モジュールや室内測距用ビーコン受信機などからなり、収録デバイス11が装着されたオブジェクトの位置を計測し、その計測結果を示す測位信号を出力する。
 収録デバイス11に設けられた動き計測センサは、例えば9軸センサや地磁気センサ、加速度センサ、ジャイロセンサ、IMU(Inertial Measurement Unit)、カメラ(イメージセンサ)等のオブジェクトの動きや向きを計測するためのセンサからなり、その計測結果を示すセンサ信号を出力する。
 収録デバイス11は、収録によって収録データが得られると、その収録データを無線通信等によりサーバ12へと送信する。
 なお、対象空間内の1つのオブジェクトに対して1つの収録デバイス11が装着されるようにしてもよいし、1つのオブジェクトにおける互いに異なる複数の位置に複数の収録デバイス11が装着されるようにしてもよい。
 また、各オブジェクトへの収録デバイス11の装着位置や装着方法はどのような位置や方法であってもよい。
 例えばオブジェクトがスポーツ選手等の人である場合、その人の体幹背面に収録デバイス11を装着することが考えられる。このようにオブジェクトに対して収録デバイス11が1つだけ装着されるときには、後述するようにオブジェクト音源の音の到来方位を推定するために2以上のマイクロホンを収録デバイス11に設ける必要がある。
 また、例えばオブジェクトとしての人の体幹前面や体幹背面、頭部の何れかに収録デバイス11を装着したり、それらの各部位のうちのいくつかの部位に収録デバイス11を装着したりすることも考えられる。
 さらに、ここではオブジェクトとされる移動体がスポーツ選手等の人である例について説明するが、オブジェクト(移動体)は、収録デバイス11が装着または内蔵されているロボットや車両、ドローン等の飛行体など、どのようなものであってもよい。
 サーバ12は、各収録デバイス11から送信されてきた収録データを受信し、受信した収録データに基づいて、コンテンツのデータであるオブジェクト音源データを生成する。
 ここで、オブジェクト音源データは、オブジェクト音源の音を再生するためのオブジェクト音源信号と、そのオブジェクト音源信号のメタデータとからなる。メタデータには、オブジェクト音源の位置を示す音源位置情報や、オブジェクト音源の向き(方位)を示す音源方位情報などが含まれている。
 特に、オブジェクト音源データの生成にあたっては、収録データに基づく各種の信号処理が行われる。すなわち、例えば収録デバイス11の位置からオブジェクト音源の位置までの距離や、収録デバイス11から見たオブジェクト音源の相対的な方向(方位)などが推定され、その推定結果に基づいてオブジェクト音源データが生成される。
 特にサーバ12では、推定により得られた距離や方位に基づいて、事前情報によりオブジェクト音源信号や音源位置情報、音源方位情報が適宜、生成されたり補正されたりする。
 これにより、よりSN比(Signal to Noise ratio)の高い高品質なオブジェクト音源信号が得られるとともに、より高精度な、つまりより正確な音源位置情報や音源方位情報を得ることができる。その結果、臨場感の高いコンテンツ再生を実現することができる。
 なお、オブジェクト音源データの生成に用いられる事前情報とは、例えば収録デバイス11を装着するオブジェクトとしての人の体の各部に関する諸元データや、オブジェクト音源から収録デバイス11のマイクロホンまでの伝達特性などである。
 サーバ12は、生成したオブジェクト音源データを、有線または無線のネットワーク等を介して端末装置13に送信する。
 端末装置13は、例えばスマートホンやタブレット、パーソナルコンピュータなどの情報端末装置からなり、サーバ12から送信されてきたオブジェクト音源データを受信する。また、端末装置13は受信したオブジェクト音源データに基づいて、コンテンツの編集を行ったり、図示せぬヘッドホン等の再生装置を駆動させてコンテンツを再生させたりする。
 以上のように、収録伝送再生システムでは、収録デバイス11の位置や方位ではなく、オブジェクト音源の正確な位置や方位を示す音源位置情報や音源方位情報を含むオブジェクト音源データを生成することで、より高い臨場感を得ることができる。また、オブジェクト音源の位置における音、つまりオブジェクト音源の原音に近いオブジェクト音源信号を生成することで、さらに高い臨場感を得ることができる。
 例えばオブジェクトに1または複数の収録デバイス11を装着して、オブジェクト音源の音を収録する場合、オブジェクト音源の音は、そのオブジェクト音源の位置とは異なるマイクロホンの位置で収音される。つまり、オブジェクト音源の音は、実際の発生位置とは異なる位置で収音される。また、オブジェクト音源の種別ごとに、オブジェクトにおけるオブジェクト音源の音の発生位置も異なる。
 具体的には、例えば図2に示すようにサッカー選手がオブジェクトOB11とされ、そのオブジェクトOB11の背中の位置に収録デバイス11が装着されて収録が行われるとする。
 この場合、例えばオブジェクトOB11により発せられた音声がオブジェクト音源の音とされるときには、そのオブジェクト音源の位置は矢印A11に示す位置、つまりオブジェクトOB11の口の位置となり、その位置は収録デバイス11の装着位置とは異なる。
 同様に、例えばオブジェクトOB11によるボールのキック音がオブジェクト音源の音とされるときには、そのオブジェクト音源の位置は矢印A12に示す位置、つまりオブジェクトOB11の足の位置となり、その位置は収録デバイス11の装着位置とは異なる。
 なお、収録デバイス11は、ある程度小さい筐体とされるため、その収録デバイス11内に設けられたマイクロホンや測距デバイス、動き計測センサの位置は略同じであるとすることができる。
 このようにオブジェクト音源の音の発生位置と、収録デバイス11の装着位置とが異なる場合、収録オーディオ信号に基づく音は、オブジェクト音源と収録デバイス11(マイクロホン)との位置関係によって大きく変化する。
 そこで収録伝送再生システムでは、オブジェクト音源とマイクロホン(収録デバイス11)との位置関係に応じて、収録オーディオ信号に対して事前情報を利用した補正を行うことで、オブジェクト音源の原音に近いオブジェクト音源信号が得られるようにした。
 同様に、収録デバイス11での収録時に得られる位置情報(測位信号)や方位情報(センサ信号)は、収録デバイス11、より詳細には測距デバイスや動き計測センサの位置や方位を示す情報となっている。しかし、収録デバイス11の位置や方位は、実際のオブジェクト音源の位置や方位とは異なる。
 そこで、収録伝送再生システムでは、オブジェクト音源と収録デバイス11との位置関係に応じて、収録時に得られる位置情報や方位情報を補正することで、より正確な音源位置情報および音源方位情報が得られるようにした。
 収録伝送再生システムでは、以上のようにすることで、より高い臨場感でコンテンツを再生することができる。
〈サーバの構成例〉
 次に、図1に示したサーバ12の構成例について説明する。
 サーバ12は、例えば図3に示すように構成される。
 図3に示す例では、サーバ12は取得部41、デバイス位置情報補正部42、デバイス方位情報生成部43、区間検出部44、相対到来方位推定部45、伝達特性データベース46、補正情報生成部47、オーディオ生成部48、補正位置生成部49、補正方位生成部50、オブジェクト音源データ生成部51、指向特性データベース52、および伝送部53を有している。
 取得部41は、収録デバイス11から送信された収録データを受信するなどして、収録デバイス11から収録データを取得する。
 取得部41は、収録データに含まれている収録オーディオ信号を区間検出部44、相対到来方位推定部45、およびオーディオ生成部48に供給する。
 また、取得部41は、収録データに含まれている測位信号およびセンサ信号をデバイス位置情報補正部42に供給するとともに、収録データに含まれているセンサ信号をデバイス方位情報生成部43に供給する。
 デバイス位置情報補正部42は、取得部41から供給されたセンサ信号に基づいて、取得部41から供給された測位信号により示される位置を補正することで、対象空間における収録デバイス11の絶対的な位置を示すデバイス位置情報を生成し、補正位置生成部49に供給する。
 ここでは、収録デバイス11内にマイクロホンが設けられているため、デバイス位置情報補正部42は、センサ信号や測位信号に基づいて、対象空間における収録デバイス11のマイクロホンの絶対的な位置を示すデバイス位置情報を生成するマイクロホン位置情報生成部として機能するということができる。
 例えば測位信号により示される位置は、GPSモジュール等の測距デバイスにより計測された位置であるため、多少の誤差を有している。そこで、測位信号により示される位置を、センサ信号により示される収録デバイス11の動きの積分値などで補正することで、収録デバイス11のより正確な位置を示すデバイス位置情報を得ることができる。
 ここで、デバイス位置情報は、例えば地球表面における絶対的な位置を示す緯度および経度や、それらの緯度と経度を距離に変換して得られる座標などとされる。
 その他、デバイス位置情報は、コンテンツの収録対象となる対象空間内の所定の位置を基準位置とする座標系の座標など、収録デバイス11の位置を示す情報であればどのようなものであってもよい。
 また、デバイス位置情報が座標(座標情報)とされる場合には、その座標は方位角、仰角、および半径からなる極座標系の座標や、xyz座標系、つまり3次元直交座標系の座標、2次元直交座標系の座標など、どのような座標系の座標であってもよい。
 なお、ここでは収録デバイス11内にマイクロホンと測距デバイスが設けられているため、測距デバイスにより計測される位置はマイクロホンの位置であるということができる。
 また、仮にマイクロホンと測距デバイスの配置位置が離れていたとしても、それらのマイクロホンと測距デバイスの相対的な位置関係が既知であれば、測距デバイスで得られた測位信号から、マイクロホンの位置を示すデバイス位置情報を得ることができる。
 この場合、デバイス位置情報補正部42は、測位信号やセンサ信号から得られる対象空間内における収録デバイス11(測距デバイス)の絶対的な位置、つまりオブジェクトの絶対的な位置を示す情報と、オブジェクトにおけるマイクロホンの装着位置を示す情報、つまりマイクロホンと測距デバイスの間の相対的な位置関係を示す情報とに基づいて、デバイス位置情報を生成する。
 デバイス方位情報生成部43は、取得部41から供給されたセンサ信号に基づいて、対象空間における収録デバイス11(マイクロホン)、すなわちオブジェクトが向いている絶対的な向きを示すデバイス方位情報を生成し、補正方位生成部50に供給する。例えばデバイス方位情報は、対象空間におけるオブジェクト(収録デバイス11)の正面の方向を示す角度情報などとされる。
 なお、デバイス方位情報には、収録デバイス11(オブジェクト)の向きを示す情報だけでなく、収録デバイス11の回転(傾斜)を示す情報も含まれるようにしてもよい。
 以下ではデバイス方位情報には、収録デバイス11の向きを示す情報と、収録デバイス11の回転を示す情報とが含まれるものとする。
 具体的には、例えばデバイス方位情報には、デバイス位置情報としての座標の座標系内における収録デバイス11の向きを示す方位角ψおよび仰角θと、デバイス位置情報としての座標の座標系内における収録デバイス11の回転(傾斜)を示す傾斜角φとが含まれている。
 換言すれば、デバイス方位情報は収録デバイス11(オブジェクト)の絶対的な向きと回転を示す方位角ψ(yaw)、仰角θ(pitch)、および傾斜角φ(roll)からなるオイラー角を示す情報であるといえる。
 サーバ12では、デバイス位置情報およびデバイス方位情報から得られる音源位置情報および音源方位情報が、オブジェクト音源信号のフレームごとや、所定フレーム数ごとなどの離散化された単位時間ごとにメタデータに格納されて端末装置13に伝送される。
 区間検出部44は、取得部41から供給された収録オーディオ信号に基づいて、その収録オーディオ信号に含まれているオブジェクト音源の音の種別(種類)、すなわちオブジェクト音源の種別と、そのオブジェクト音源の音が含まれている時間区間を検出する。
 区間検出部44は、検出されたオブジェクト音源の種別を示すID情報である音源種別IDと、そのオブジェクト音源の音が含まれている時間区間を示す区間情報を相対到来方位推定部45に供給するとともに、音源種別IDを伝達特性データベース46に供給する。
 また、区間検出部44は、検出対象とされた収録オーディオ信号が得られた収録デバイス11が装着されたオブジェクトを示す識別情報であるオブジェクトIDと、収録オーディオ信号から検出されたオブジェクト音源の種別を示す音源種別IDとをオブジェクト音源データ生成部51に供給する。
 これらのオブジェクトIDと音源種別IDは、オブジェクト音源信号のメタデータに格納される。このようにすることで、端末装置13側においては、同じオブジェクトについて得られた複数のオブジェクト音源信号の音源位置情報などをまとめて移動させるなどの編集操作を容易に行うことができるようになる。
 相対到来方位推定部45は、区間検出部44から供給された音源種別IDおよび区間情報と、取得部41から供給された収録オーディオ信号とに基づいて、収録オーディオ信号における区間情報により示される時間区間ごとに相対到来方位情報を生成する。
 ここで、相対到来方位情報は、収録デバイス11、より詳細には収録デバイス11に設けられたマイクロホンから見たオブジェクト音源の音の相対的な到来方位(到来方向)を示す情報である。
 例えば収録デバイス11には、複数のマイクロホンが設けられており、収録オーディオ信号は、それらの複数のマイクロホンでの収音によって得られたマルチチャネルのオーディオ信号となっている。
 相対到来方位推定部45では、例えば2以上の複数のマイクロホン間の位相差(相関)を利用するMUSIC(Multiple Signal Classification)法などにより、マイクロホンから見たオブジェクト音源の音の相対的な到来方向を推定し、その推定結果を示す相対到来方位情報を生成する。
 相対到来方位推定部45は、生成された相対到来方位情報を伝達特性データベース46および補正情報生成部47に供給する。
 伝達特性データベース46は、音源種別(オブジェクト音源の種別)ごとに、オブジェクト音源から収録デバイス11(マイクロホン)までの音の伝達特性を保持している。
 特に、ここでは各音源種別について、例えばオブジェクト音源から見た収録デバイス11(マイクロホン)の相対的な方向と、オブジェクト音源から収録デバイス11(マイクロホン)までの距離との組み合わせごとに伝達特性が保持されている。
 この場合、例えば伝達特性データベース46では音源種別IDと、装着位置情報と、相対方位情報と、伝達特性とが対応付けられて、テーブル形式で伝達特性が保持されている。なお、伝達特性は相対方位情報ではなく、相対到来方位情報に対応付けられて保持されるようにしてもよい。
 ここで、装着位置情報とは、オブジェクトの基準となる位置、例えばオブジェクトとしての人の頸椎の特定部位位置から見た収録デバイス11の装着位置を示す情報であり、例えば装着位置情報は3次元直交座標系の座標情報などとされる。
 例えばオブジェクトにおけるオブジェクト音源の大よその位置は、音源種別IDにより示される音源種別により特定可能であるので、音源種別IDと装着位置情報によって、オブジェクト音源から収録デバイス11までの大よその距離が定まる。
 また、相対方位情報とは、オブジェクト音源から見た収録デバイス11(マイクロホン)の相対的な方向を示す情報であり、相対到来方位情報から得ることができる。
 なお、以下では伝達特性がテーブル形式で保持される例について説明するが、音源種別IDごとの伝達特性は、装着位置情報と相対方位情報を引数とする関数の形式で保持されるようにしてもよい。
 伝達特性データベース46は、予め保持している音源種別IDごとの伝達特性のうち、供給された装着位置情報、区間検出部44から供給された音源種別ID、および相対到来方位推定部45から供給された相対到来方位情報により定まる伝達特性を読み出して補正情報生成部47に供給する。
 すなわち、音源種別IDにより示されるオブジェクト音源の種別や、装着位置情報により定まるオブジェクト音源からマイクロホンまでの距離、相対方位情報により示されるオブジェクト音源とマイクロホンとの間の相対的な方向に応じた伝達特性が補正情報生成部47に供給される。
 なお、伝達特性データベース46に供給される装着位置情報として、既知である収録デバイス11の装着位置情報が予めサーバ12に記録されているようにしてもよいし、装着位置情報が収録データに含まれているようにしてもよい。
 補正情報生成部47は、供給された装着位置情報、相対到来方位推定部45から供給された相対到来方位情報、および伝達特性データベース46から供給された伝達特性に基づいて、オーディオ補正情報、位置補正情報、および方位補正情報を生成する。
 ここで、オーディオ補正情報は、収録オーディオ信号に基づいて、オブジェクト音源の音のオブジェクト音源信号を得るための補正用特性である。
 具体的には、オーディオ補正情報は、伝達特性データベース46から補正情報生成部47に供給された伝達特性の逆特性(以下、逆伝達特性とも称する)である。
 なお、ここでは伝達特性データベース46に伝達特性が保持されている例について説明するが、音源種別IDごとに逆伝達特性が保持されているようにしてもよい。
 また、位置補正情報は、収録デバイス11(マイクロホン)の位置から見たオブジェクト音源の位置のオフセット情報である。換言すれば、位置補正情報は、収録デバイス11とオブジェクト音源との間の相対的な方向と距離により示される、収録デバイス11とオブジェクト音源の相対的な位置関係を示す差分情報である。
 同様に、方位補正情報は、収録デバイス11(マイクロホン)から見たオブジェクト音源の方向(方位)のオフセット情報、つまり収録デバイス11とオブジェクト音源との間の相対的な方向を示す差分情報である。
 補正情報生成部47は、計算により得られたオーディオ補正情報、位置補正情報、および方位補正情報を、オーディオ生成部48、補正位置生成部49、および補正方位生成部50に供給する。
 オーディオ生成部48は、取得部41から供給された収録オーディオ信号と、補正情報生成部47から供給されたオーディオ補正情報とに基づいて、オブジェクト音源信号を生成し、オブジェクト音源データ生成部51に供給する。換言すれば、オーディオ生成部48は、音源種別IDごとのオーディオ補正情報に基づいて、収録オーディオ信号からオブジェクト音源ごとのオブジェクト音源信号を抽出する。
 オーディオ生成部48で得られるオブジェクト音源信号は、オブジェクト音源の位置で観測されるであろうオブジェクト音源の音を再生するためのオーディオ信号である。
 補正位置生成部49は、デバイス位置情報補正部42から供給されたデバイス位置情報と、補正情報生成部47から供給された位置補正情報とに基づいて、対象空間におけるオブジェクト音源の絶対的な位置を示す音源位置情報を生成し、オブジェクト音源データ生成部51に供給する。すなわち、位置補正情報に基づいてデバイス位置情報が補正され、その結果として音源位置情報が得られる。
 補正方位生成部50は、デバイス方位情報生成部43から供給されたデバイス方位情報と、補正情報生成部47から供給された方位補正情報とに基づいて、対象空間におけるオブジェクト音源の絶対的な向き(方向)を示す音源方位情報を生成し、オブジェクト音源データ生成部51に供給する。すなわち、方位補正情報に基づいてデバイス方位情報が補正され、その結果として音源方位情報が得られる。
 オブジェクト音源データ生成部51は、区間検出部44から供給された音源種別IDおよびオブジェクトIDと、オーディオ生成部48から供給されたオブジェクト音源信号と、補正位置生成部49から供給された音源位置情報と、補正方位生成部50から供給された音源方位情報とからオブジェクト音源データを生成し、伝送部53に供給する。
 ここで、オブジェクト音源データには、オブジェクト音源信号と、そのオブジェクト音源信号のメタデータとが含まれている。
 また、メタデータには、音源種別ID、オブジェクトID、音源位置情報、および音源方位情報が含まれている。
 さらに、オブジェクト音源データ生成部51は、必要に応じて指向特性データベース52から指向特性データを読み出して伝送部53に供給する。
 指向特性データベース52は、音源種別IDにより示されるオブジェクト音源の種別ごとに、オブジェクト音源の指向特性、すなわちオブジェクト音源から見た各方向の伝達特性を示す指向特性データを保持している。
 伝送部53は、オブジェクト音源データ生成部51から供給されたオブジェクト音源データや指向特性データを端末装置13に送信する。
〈サーバの各部について〉
 次に、サーバ12を構成する各部について、より詳細に説明する。
 まず、指向特性データベース52に保持されている指向特性データについて説明する。
 例えば図4に示すように、各オブジェクト音源は、それらのオブジェクト音源に特有の指向特性を有している。
 図4に示す例では、例えばオブジェクト音源としてのホイッスルは、矢印Q11に示すように正面(前方)の方向に強く音が伝搬する指向特性、すなわち鋭い正面指向性を有している。
 また、例えばオブジェクト音源としてのスパイクなどから発せられる足音は、矢印Q12に示すように全方向に同じような強さで音が伝搬する指向特性(無指向性)を有している。
 さらに、例えばオブジェクト音源としての選手の口から発せされる音声は、矢印Q13に示すように正面と側方に強く音が伝搬する指向特性、すなわち、ある程度強い正面指向性を有している。
 このようなオブジェクト音源が有する指向特性を示す指向特性データは、例えば無響室等においてオブジェクト音源の種別ごとに周囲への音の伝搬の特性(伝達特性)をマイクアレイを用いて取得することにより得ることができる。その他、指向特性データは、オブジェクト音源の形状を模擬した3Dデータ上でシミュレーションを行うこと等によっても得ることができる。
 具体的には、指向特性データは、音源種別IDの値iに対して定められた、オブジェクト音源から見た、オブジェクト音源の正面方向を基準とする各方向を示す方位角ψと仰角θの関数として定義されるゲイン関数dir(i,ψ,θ)などとされる。
 また、方位角ψおよび仰角θに加えて、離散化されたオブジェクト音源からの距離dを引数にもつゲイン関数dir(i,d,ψ,θ)を指向特性データとして用いてもよい。
 この場合、各引数をゲイン関数dir(i,d,ψ,θ)に代入すると、そのゲイン関数dir(i,d,ψ,θ)の出力として音の伝達特性を示すゲイン値が得られる。
 このゲイン値は、音源種別IDの値がiである音源種別のオブジェクト音源から発せられ、オブジェクト音源から見て方位角ψおよび仰角θの方向へと伝搬し、オブジェクト音源から距離dの位置(以下、位置Pと称する)に到達する音の特性(伝達特性)を示すものである。
 したがって、このゲイン値に基づいて、音源種別IDの値がiである音源種別のオブジェクト音源信号をゲイン補正すれば、実際に位置Pにおいて聴取されるであろうオブジェクト音源の音を再生(再現)することができる。
 なお、指向特性データは、Ambisonics形式のデータ、すなわち各方向の球面調和係数(球面調和スペクトル)からなるデータなどとされてもよい。
 ここで、オブジェクト音源信号のメタデータと指向特性データの伝送の具体的な例について説明する。
 例えば、メタデータをオブジェクト音源信号の所定時間長のフレームごとに用意し、メタデータや指向特性データをフレームごとに図5および図6に示すビットストリームシンタックスで端末装置13へと伝送することが考えられる。
 なお、図5および図6においてuimsbfはunsigned integer MSB firstでありtcimsbfはtwo’s complement integer MSB firstである。
 図5の例では、メタデータにはコンテンツを構成するオブジェクトごとに、オブジェクトID「Original_3D_object_index」、音源種別ID「Object_type_index」、音源位置情報「Object_position[3]」、および音源方位情報「Object_direction[3]」が含まれている。
 特に、この例では音源位置情報Object_position[3]は、対象空間の所定の基準位置を原点とするxyz座標系(3次元直交座標系)の座標(xo,yo,zo)とされている。この座標(xo,yo,zo)は、xyz座標系、つまり対象空間におけるオブジェクト音源の絶対的な位置を示している。
 また、音源方位情報Object_direction[3]は、対象空間におけるオブジェクト音源の絶対的な向きを示す方位角ψo、仰角θo、および傾斜角φoからなる。
 例えば自由視点のコンテンツでは、コンテンツ再生時には時間とともに視点(受聴位置)が変化するため、受聴位置を基準とする相対座標ではなく、絶対的な位置を示す座標によりオブジェクト音源の位置を表現すると、再生信号の生成に有利である。
 なお、メタデータの構成は、図5に示した例に限らず、他のどのようなものであってもよい。また、メタデータは所定の時間間隔で伝送されればよく、必ずしもフレームごとにメタデータを伝送する必要はない。
 また、図6に示す例では、所定の音源種別IDの値に対応する指向特性データとして、ゲイン関数「Object_directivity[distance][azimuth][elevation]」が伝送される。このゲイン関数では、音源からの距離「distance」、および音源から見た方向を示す方位角「azimuth」と仰角「elevation」が引数となっている。
 なお、指向特性データは、引数となる方位角や仰角のサンプリング間隔が等角度間隔でない形式のものとされてもよいし、HOA(Higher Order Ambisonmics)形式、すなわちAmbisonics形式のデータ(球面調和係数)とされてもよい。
 例えば、一般的な音源種別の指向特性データについては、事前に指向特性データを端末装置13に伝送しておくとよい。
 これに対して、事前に定義されていないオブジェクト音源など、一般的ではない指向特性を有するオブジェクト音源の指向特性データについては、その指向特性データが図5に示したメタデータに含まれるようにし、メタデータとして伝送することも考えられる。
 また、伝達特性データベース46で保持される音源種別IDごとの伝達特性は、指向特性データにおける場合と同様に、マイクアレイを用いて無響室等においてオブジェクト音源の種別ごとに取得することができる。その他、伝達特性は、オブジェクト音源の形状を模擬した3Dデータ上でシミュレーションを行うこと等によっても得ることができる。
 このようにして得られる音源種別IDに対応する伝達特性は、オブジェクト音源の正面方向からみた相対的な方向や距離についての指向特定データとは異なり、オブジェクト音源と収録デバイス11との間の相対的な方位および距離ごとに保持される。
 次に、区間検出部44について説明する。
 例えば区間検出部44には、予め学習により得られたDNN(Deep Neural Network)等の識別器が保持されている。
 この識別器は、収録オーディオ信号を入力とし、例えば人の音声やキック音、拍手音、足音、ホイッスルの音など、検出対象となる各オブジェクト音源の音の存在確率、すなわちオブジェクト音源の音が含まれている確率を出力値とするものなどとされる。
 区間検出部44は、取得部41から供給された収録オーディオ信号を、保持している識別器に代入して演算を行い、その結果得られた識別器の出力を区間情報として相対到来方位推定部45に供給する。
 なお、区間検出部44では、収録オーディオ信号だけでなく、収録データに含まれているセンサ信号も識別器の入力として用いられるようにしてもよし、センサ信号のみが識別器の入力として用いられるようにしてもよい。
 センサ信号としての加速度センサやジャイロセンサ、地磁気センサなどの出力信号は、収録デバイス11が装着されたオブジェクトの動きを示すものであるから、そのオブジェクトの動きに応じたオブジェクト音源の音を高精度に検出することができる。
 また、区間検出部44では、互いに異なる複数の収録デバイス11について得られた収録オーディオ信号や区間情報に基づいて、最終的な区間情報を得るようにしてもよい。その際、各収録デバイス11について得られたデバイス位置情報やデバイス方位情報なども用いられるようにしてもよい。
 例えば区間検出部44は、所定の収録デバイス11を注目収録デバイス11とし、デバイス位置情報に基づいて、注目収録デバイス11からの距離が所定値以下である収録デバイス11を参照収録デバイス11として選択する。
 そして区間検出部44は、例えば注目収録デバイス11の区間情報により示される時間区間と、参照収録デバイス11の区間情報により示される時間区間とに重複する区間があるときには、注目収録デバイス11の収録オーディオ信号に対して、デバイス位置情報やデバイス方位情報に応じたビームフォーミング等を行う。これにより、注目収録デバイス11の収録オーディオ信号に含まれている参照収録デバイス11を装着したオブジェクトからの音が抑圧される。
 区間検出部44は、ビームフォーミング等により得られた収録オーディオ信号を識別器に入力して演算を行うことで、最終的な区間情報を得る。このようにすることで、他のオブジェクトにより発せられた音を抑制し、より高精度な区間情報を得ることができる。
 また、相対到来方位推定部45では、上述したようにMUSIC法などによって、マイクロホンから見たオブジェクト音源の音の相対的な到来方向が推定される。
 このとき、区間検出部44から供給された音源種別IDを用いれば、到来方向の推定時に対象とすべき方位(方向)を絞り込み、より高精度に到来方向を推定することができる。
 例えば音源種別IDにより示されるオブジェクト音源が分かっていれば、マイクロホンに対してそのオブジェクト音源が存在し得る方向を特定することができる。
 MUSIC法では、マイクロホンから見た方向ごとに得られる相対的なゲインのピークを検出することで、オブジェクト音源の音の相対的な到来方向が推定される。このとき、オブジェクト音源の種別が特定されていれば、正しいピークを選択し、より高精度に到来方向を推定することができる。
 補正情報生成部47では、装着位置情報、相対到来方位情報、および伝達特性に基づいて、オーディオ補正情報、位置補正情報、および方位補正情報が計算により求められる。
 例えばオーディオ補正情報は、上述したように伝達特性データベース46から供給された伝達特性の逆特性である逆伝達特性とされる。
 また、位置補正情報は、収録デバイス11(マイクロホン)の位置から見たオブジェクト音源の位置を示す座標(Δx,Δy,Δz)などとされる。
 例えば装着位置情報により示される収録デバイス11の装着位置と、相対到来方位情報により示される装着位置から見たオブジェクト音源の方向とに基づいて、装着位置から見たオブジェクト音源の大よその位置が推定され、その推定結果から位置補正情報が得られる。
 なお、オブジェクト音源の位置の推定にあたっては、音源種別ID、つまりオブジェクト音源の種別が用いられるようにしてもよいし、オブジェクトである人の身長や体の各部の長さ、首や関節の可動に関する自由度の制約パラメータも用いられるようにしてもよい。
 例えば、音源種別IDにより特定されるオブジェクト音源の音の種別が発話音声であれば、オブジェクトとしての人の口と、装着位置情報により示される装着位置との大よその位置関係を特定することが可能である。
 方位補正情報は、収録デバイス11(マイクロホン)の位置から見たオブジェクト音源の方向(方位)や回転を示す位角Δψ、仰角Δθ、および傾斜角Δφからなるオイラー角を示す角度情報(Δψ,Δθ,Δφ)などとされる。
 このような方位補正情報は、装着位置情報および相対到来方位情報から得ることができる。相対到来方位情報は、複数のマイクロホンで得られたマルチチャネルの収録オーディオ信号から得られるものであるので、補正情報生成部47では、収録オーディオ信号および装着位置情報に基づいて方位補正情報が生成されるともいうことができる。
 また、方位補正情報の計算にあたっても、オブジェクトである人の身長や体の各部の長さ、首や関節の可動に関する自由度の制約パラメータが用いられてもよい。
 オーディオ生成部48は、取得部41からの収録オーディオ信号と、補正情報生成部47からのオーディオ補正情報とを畳み込むことでオブジェクト音源信号を生成する。
 マイクロホンで観測される収録オーディオ信号は、オブジェクト音源から発せられた音の信号に対して、オブジェクト音源からマイクロホンまでの間の伝達特性が付加された信号となっている。したがって、その伝達特性の逆特性であるオーディオ補正情報を収録オーディオ信号に付加することで、オブジェクト音源位置で観測されるであろうオブジェクト音源の原音が復元される。
 収録デバイス11をオブジェクトとしての人の背中に装着して収録を行った場合、例えば図7の左側に示す収録オーディオ信号が得られる。
 この例では、収録オーディオ信号においては、オブジェクト音源の音の音量、特に高域の音量が大きく劣化してしまっている。
 このような収録オーディオ信号に対してオーディオ補正情報を畳み込むことで、図7中、右側に示すオブジェクト音源信号が得られる。この例では、オブジェクト音源信号は、収録オーディオ信号と比較して全体的に音量が大きくなっており、より原音に近い信号が得られていることが分かる。
 なお、オーディオ生成部48では、オブジェクト音源信号の生成に区間検出部44で得られた区間情報も用いられるようにしてもよい。
 例えば、音源種別IDにより示される音源種別ごとに、収録オーディオ信号から区間情報により示される時間区間を切り出したり、収録オーディオ信号に対して区間情報により示される時間区間以外の区間のミュート処理を行ったりすることで、収録オーディオ信号からオブジェクト音源の音のみのオーディオ信号を抽出することができる。
 このようにして得られたオブジェクト音源の音のみのオーディオ信号と、オーディオ補正情報とを畳み込めば、よりSN比の高い高品質なオブジェクト音源信号を得ることができる。
 また、補正位置生成部49では、収録デバイス11の位置を示すデバイス位置情報に対して、位置補正情報が付加(加算)されて音源位置情報が生成される。換言すれば、デバイス位置情報により示される位置が、位置補正情報により補正されてオブジェクト音源の位置とされる。
 同様に、補正方位生成部50では、収録デバイス11の方位を示すデバイス方位情報に対して、方位補正情報が付加(加算)されて音源方位情報が生成される。換言すれば、デバイス方位情報により示される方位(方向)が、方位補正情報により補正されてオブジェクト音源の方位とされる。
〈オブジェクト音源データ生成処理の説明〉
 続いて、サーバ12の動作について説明する。
 サーバ12は、収録デバイス11から収録データが送信されてくると、オブジェクト音源データ生成処理を行い、オブジェクト音源データを端末装置13に対して伝送する。
 以下、図8のフローチャートを参照して、サーバ12によるオブジェクト音源データ生成処理について説明する。
 ステップS11において取得部41は、収録デバイス11から収録データを取得する。
 取得部41は、収録データに含まれている収録オーディオ信号を区間検出部44、相対到来方位推定部45、およびオーディオ生成部48に供給する。
 また、取得部41は、収録データに含まれている測位信号およびセンサ信号をデバイス位置情報補正部42に供給するとともに、収録データに含まれているセンサ信号をデバイス方位情報生成部43に供給する。
 ステップS12においてデバイス位置情報補正部42は、取得部41から供給されたセンサ信号および測位信号に基づいてデバイス位置情報を生成し、補正位置生成部49に供給する。
 ステップS13においてデバイス方位情報生成部43は、取得部41から供給されたセンサ信号に基づいてデバイス方位情報を生成し、補正方位生成部50に供給する。
 ステップS14において区間検出部44は、取得部41から供給された収録オーディオ信号に基づいて、オブジェクト音源の音が含まれている時間区間を検出し、その検出結果を示す区間情報を相対到来方位推定部45に供給する。
 例えば区間検出部44は、予め保持している識別器に収録オーディオ信号を代入して演算を行うことで、時間区間の検出結果を示す区間情報を生成する。
 また、区間検出部44は、オブジェクト音源の音が含まれている時間区間の検出結果に応じて音源種別IDを相対到来方位推定部45と伝達特性データベース46に供給するとともに、オブジェクトIDおよび音源種別IDをオブジェクト音源データ生成部51に供給する。
 ステップS15において相対到来方位推定部45は、区間検出部44から供給された音源種別IDおよび区間情報と、取得部41から供給された収録オーディオ信号とに基づいて相対到来方位情報を生成し、伝達特性データベース46および補正情報生成部47に供給する。例えばステップS15では、MUSIC法などによりオブジェクト音源の音の相対的な到来方向が推定され、相対到来方位情報が生成される。
 また、伝達特性データベース46は、区間検出部44および相対到来方位推定部45から音源種別IDおよび相対到来方位情報が供給されると、サーバ12が保持している装着位置情報を取得し、伝達特性を読み出して補正情報生成部47に供給する。
 すなわち、伝達特性データベース46は、保持している伝達特性のうち、供給された音源種別ID、相対到来方位情報、および装着位置情報により定まる伝達特性を読み出して補正情報生成部47に供給する。このとき、適宜、相対到来方位情報から相対方位情報が生成されて伝達特性が読み出される。
 ステップS16において補正情報生成部47は、伝達特性データベース46から供給された伝達特性の逆特性を計算することでオーディオ補正情報を生成し、オーディオ生成部48に供給する。
 ステップS17において補正情報生成部47は、供給された装着位置情報、および相対到来方位推定部45から供給された相対到来方位情報に基づいて位置補正情報を生成し、補正位置生成部49に供給する。
 ステップS18において補正情報生成部47は、供給された装着位置情報、および相対到来方位推定部45から供給された相対到来方位情報に基づいて方位補正情報を生成し、補正方位生成部50に供給する。
 ステップS19においてオーディオ生成部48は、取得部41から供給された収録オーディオ信号と、補正情報生成部47から供給されたオーディオ補正情報とを畳み込んでオブジェクト音源信号を生成し、オブジェクト音源データ生成部51に供給する。
 ステップS20において補正位置生成部49は、デバイス位置情報補正部42から供給されたデバイス位置情報に、補正情報生成部47から供給された位置補正情報を加算することで音源位置情報を生成し、オブジェクト音源データ生成部51に供給する。
 ステップS21において補正方位生成部50は、デバイス方位情報生成部43から供給されたデバイス方位情報に、補正情報生成部47から供給された方位補正情報を加算することで音源方位情報を生成し、オブジェクト音源データ生成部51に供給する。
 ステップS22においてオブジェクト音源データ生成部51は、オブジェクト音源データを生成し、伝送部53に供給する。
 すなわち、オブジェクト音源データ生成部51は、区間検出部44から供給された音源種別IDおよびオブジェクトIDと、補正位置生成部49から供給された音源位置情報と、補正方位生成部50から供給された音源方位情報とを含むメタデータを生成する。
 さらにオブジェクト音源データ生成部51は、オーディオ生成部48から供給されたオブジェクト音源信号と、生成したメタデータとを含むオブジェクト音源データを生成する。
 ステップS23において伝送部53は、オブジェクト音源データ生成部51から供給されたオブジェクト音源データを端末装置13に伝送(送信)し、オブジェクト音源データ生成処理は終了する。なお、オブジェクト音源データの端末装置13への送信のタイミングは、オブジェクト音源データの生成後の任意のタイミングとすることができる。
 以上のようにしてサーバ12は、収録デバイス11から収録データを取得して、オブジェクト音源データを生成する。
 このとき、収録オーディオ信号に基づいてオブジェクト音源ごとに位置補正情報や方位補正情報を生成し、それらの位置補正情報や方位補正情報を用いて音源位置情報や音源方位情報を生成することで、オブジェクト音源のより正確な位置や方向を示す情報を得ることができる。これにより、端末装置13側においては、より正確な音源位置情報や音源方位情報を用いてレンダリングを行い、より臨場感の高いコンテンツ再生を実現することができる。
 また、収録オーディオ信号から得られる情報に基づいて適切な伝達特性を選択し、その選択した伝達特性から得られたオーディオ補正情報に基づいてオブジェクト音源信号を生成することで、より原音に近いオブジェクト音源の音の信号を得ることができる。これにより、端末装置13側において、さらに高い臨場感を得ることができる。
〈端末装置の構成例〉
 また、図1に示した端末装置13は、例えば図9に示すように構成される。
 図9に示す例では、端末装置13には、例えばヘッドホンや、イヤホン、スピーカアレイなどからなる再生装置81が接続されている。
 端末装置13は、サーバ12等から事前に取得したか、または事前に共有された指向特性データと、サーバ12から受信したオブジェクト音源データとに基づいて受聴位置におけるコンテンツ(オブジェクト音源)の音を再生する再生信号を生成する。
 例えば端末装置13は、指向特性データを用いてVBAP(Vector Based Amplitude Panning)や波面合成のための処理、HRTF(Head Related Transfer Function)の畳み込み処理などを行うことで、再生信号を生成する。
 そして、端末装置13は、生成した再生信号を再生装置81に供給し、コンテンツの音を再生させる。
 端末装置13は、取得部91、受聴位置指定部92、指向特性データベース93、音源オフセット指定部94、音源オフセット適用部95、相対距離計算部96、相対方位計算部97、および指向性レンダリング部98を有している。
 取得部91は、例えばサーバ12から送信されたデータを受信するなどして、サーバ12からオブジェクト音源データや指向特性データを取得する。
 なお、指向特性データの取得タイミングと、オブジェクト音源データの取得タイミングは同じであってもよいし、異なっていてもよい。
 取得部91は、取得した指向特性データを指向特性データベース93に供給して記録させる。
 また、取得部91は、オブジェクト音源データを取得すると、そのオブジェクト音源データからオブジェクトID、音源種別ID、音源位置情報、音源方位情報、およびオブジェクト音源信号を抽出する。
 そして、取得部91は音源種別IDを指向特性データベース93に供給するとともに、オブジェクトID、音源種別ID、およびオブジェクト音源信号を指向性レンダリング部98に供給し、音源位置情報および音源方位情報を音源オフセット適用部95に供給する。
 受聴位置指定部92は、ユーザ操作等に応じて、対象空間における受聴位置と、その受聴位置にいる受聴者(ユーザ)の向きとを指定し、その指定結果として受聴位置を示す受聴位置情報と、受聴者の向きを示す受聴者方位情報とを出力する。
 すなわち、受聴位置指定部92は、受聴位置情報を相対距離計算部96、相対方位計算部97、および指向性レンダリング部98に供給し、受聴者方位情報を相対方位計算部97、および指向性レンダリング部98に供給する。
 指向特性データベース93は、取得部91から供給された指向特性データを記録する。この指向特性データベース93には、例えばサーバ12の指向特性データベース52に記録されているものと同じ指向特性データが記録されている。
 また、指向特性データベース93は、取得部91から音源種別IDが供給されると、記録している複数の指向特性データのうち、供給された音源種別IDにより示される音源種別の指向特性データを指向性レンダリング部98に供給する。
 音源オフセット指定部94は、ユーザの操作等により特定のオブジェクトやオブジェクト音源について音質調整が指示された場合、音質調整の対象を示すオブジェクトIDや音源種別IDを含む音質調整対象情報を指向性レンダリング部98に供給する。このとき、音質調整のためのゲイン値なども音質調整対象情報に含まれるようにしてもよい。
 また、例えば音源オフセット指定部94では、ユーザの操作等により、特定のオブジェクトやオブジェクト音源について、対象空間におけるオブジェクトやオブジェクト音源の位置の移動や回転が指示されることもある。
 そのような場合、音源オフセット指定部94は、移動や回転の対象を示すオブジェクトIDや音源種別IDと、指示された移動量を示す位置オフセット情報や、指示された回転量を示す方位オフセット情報とを含む移動回転対象情報を音源オフセット適用部95に供給する。
 ここで、位置オフセット情報は、例えば音源位置情報のオフセット量(移動量)を示す座標(Δxo,Δyo,Δzo)などとされる。また、方位オフセット情報は、例えば音源方位情報のオフセット量(回転量)を示す角度情報(Δψo,Δθo,Δφo)などとされる。
 端末装置13では、このような音質調整対象情報や移動回転対象情報を出力することで、オブジェクト音源の音の音質調整を行ったり、オブジェクト音源の音像を移動させたり、オブジェクト音源の音像を回転させたりといったコンテンツの編集を行うことができる。
 特に端末装置13では、オブジェクト単位で、つまりオブジェクトについての全てのオブジェクト音源を対象として、それらの全オブジェクト音源の音質調整や音像位置の調整、音像の回転の調整などを一括して行うことができる。
 また、端末装置13では、オブジェクト音源単位で、すなわち1つのオブジェクト音源のみを対象として音質調整や音像位置の調整、音像の回転の調整などを行うこともできる。
 音源オフセット適用部95は、取得部91から供給された音源位置情報や音源方位情報に対して、音源オフセット指定部94から供給された移動回転対象情報に基づくオフセットを適用することで、補正音源位置情報および補正音源方位情報を生成する。
 例えば、移動回転対象情報にオブジェクトID、位置オフセット情報、および方位オフセット情報が含まれていたとする。
 そのような場合、音源オフセット適用部95は、オブジェクトIDにより示されるオブジェクトについての全てのオブジェクト音源について、音源位置情報に対して位置オフセット情報を加算して補正音源位置情報とするとともに、音源方位情報に対して方位オフセット情報を加算して補正音源方位情報とする。
 このようにして得られた補正音源位置情報および補正音源方位情報は、位置や向きが補正された、最終的なオブジェクト音源の位置および向きを示す情報である。
 同様に、例えば移動回転対象情報に音源種別ID、位置オフセット情報、および方位オフセット情報が含まれていたとする。
 そのような場合、音源オフセット適用部95は、音源種別IDにより示されるオブジェクト音源について、音源位置情報に対して位置オフセット情報を加算して補正音源位置情報とするとともに、音源方位情報に対して方位オフセット情報を加算して補正音源方位情報とする。
 なお、移動回転対象情報に補正音源位置情報が含まれていない場合、つまりオブジェクト音源の位置の移動が指示されていない場合には、音源位置情報がそのまま補正音源位置情報とされる。
 同様に、移動回転対象情報に補正音源方位情報が含まれていない場合、つまりオブジェクト音源の回転が指示されていない場合には、音源方位情報がそのまま補正音源方位情報とされる。
 音源オフセット適用部95は、このようにして得られた補正音源位置情報を相対距離計算部96および相対方位計算部97に供給するとともに、補正音源方位情報を相対方位計算部97に供給する。
 相対距離計算部96は、音源オフセット適用部95から供給された補正音源位置情報と、受聴位置指定部92から供給された受聴位置情報とに基づいて、受聴位置(受聴者)とオブジェクト音源との間の相対的な距離を計算し、その計算結果を示す音源相対距離情報を指向性レンダリング部98に供給する。
 相対方位計算部97は、音源オフセット適用部95から供給された補正音源位置情報および補正音源方位情報と、受聴位置指定部92から供給された受聴位置情報および受聴者方位情報とに基づいて、受聴者とオブジェクト音源との間の相対的な方向を計算し、その計算結果を示す音源相対方位情報を指向性レンダリング部98に供給する。
 ここで、音源相対方位情報には、音源方位角、音源仰角、音源回転方位角、および音源回転仰角が含まれている。
 音源方位角および音源仰角は、それぞれ受聴者から見たオブジェクト音源の相対的な方向を示す方位角および仰角である。
 また、音源回転方位角および音源回転仰角は、それぞれオブジェクト音源から見た受聴者(受聴位置)の相対的な方向を示す方位角および仰角である。換言すれば、音源回転方位角および音源回転仰角は、受聴者に対してオブジェクト音源の正面方向がどれだけ回転しているかを示す情報であるといえる。
 これらの音源回転方位角および音源回転仰角は、レンダリング処理時において指向特性データを参照する際の方位角および仰角となる。
 指向性レンダリング部98は、取得部91から供給されたオブジェクトID、音源種別ID、およびオブジェクト音源信号、指向特性データベース93から供給された指向特性データ、相対距離計算部96から供給された音源相対距離情報、相対方位計算部97から供給された音源相対方位情報、並びに受聴位置指定部92から供給された受聴位置情報と受聴者方位情報に基づいてレンダリング処理を行う。
 例えば指向性レンダリング部98では、レンダリング処理としてVBAPや波面合成のための処理、HRTFの畳み込み処理などが行われる。なお、受聴位置情報や受聴者方位情報は、必要に応じてレンダリング処理に用いられればよく、必ずしもレンダリング処理に用いられなくてもよい。
 また、例えば指向性レンダリング部98は、音源オフセット指定部94から音質調整対象情報が供給された場合には、その音質調整対象情報に含まれるオブジェクトIDや音源種別IDにより特定されるオブジェクト音源信号に対して音質調整を行う。
 指向性レンダリング部98は、レンダリング処理により得られた再生信号を再生装置81に供給し、コンテンツの音を再生させる。
 ここで、指向性レンダリング部98による再生信号の生成について説明する。特に、ここではレンダリング処理としてVBAPが行われる例について説明する。
 例えば指向性レンダリング部98は、音源オフセット指定部94から音質調整対象情報が供給された場合、音質調整対象情報に含まれるオブジェクトIDや音源種別IDにより特定されるオブジェクト音源信号に対して、ゲイン調整などの処理を音質調整として行う。
 これにより、例えばオブジェクトIDにより示されるオブジェクトの全オブジェクト音源の音の音質調整を一括して行ったり、オブジェクトとしての人の音声や歩行音など、特定のオブジェクト音源の音を消音(ミュート)したりすることができる。
 次に、指向性レンダリング部98は、音源相対距離情報により示される相対距離に基づいて、距離減衰を再現するためのゲイン値である距離減衰ゲイン値を算出する。
 また、指向性レンダリング部98は、指向特性データベース93から供給されたゲイン関数等の指向特性データに対して、音源相対方位情報に含まれている音源回転方位角および音源回転仰角を代入して演算を行い、オブジェクト音源の有する指向特性に応じたゲイン値である指向特性ゲイン値を算出する。
 さらに、指向性レンダリング部98は、音源相対方位情報に含まれている音源方位角および音源仰角に基づいて、VBAPにより再生装置81を構成するスピーカアレイの各スピーカに対応するチャンネルの再生ゲイン値を求める。
 そして、指向性レンダリング部98は、適宜、音質調整が行われたオブジェクト音源信号に対して、距離減衰ゲイン値、指向特性ゲイン値、および再生ゲイン値を乗算してゲイン調整を行うことで、スピーカに対応するチャンネルの再生信号を生成する。
 このように端末装置13では、オブジェクト音源の位置や向きを示す音源位置情報や音源方位情報、より原音に近いオブジェクト音源信号に基づいてレンダリング処理を行うことで、より臨場感の高いコンテンツ再生を実現することができる。
 なお、指向性レンダリング部98で生成された再生信号は、再生装置81に出力されずに、記録媒体等に記録されるなどしてもよい。
〈再生処理の説明〉
 続いて、端末装置13の動作について説明する。すなわち、以下、図10のフローチャートを参照して、端末装置13により行われる再生処理について説明する。
 ステップS51において取得部91は、サーバ12からオブジェクト音源データを取得する。
 また、取得部91は、オブジェクト音源データからオブジェクトID、音源種別ID、音源位置情報、音源方位情報、およびオブジェクト音源信号を抽出する。
 そして、取得部91は音源種別IDを指向特性データベース93に供給するとともに、オブジェクトID、音源種別ID、およびオブジェクト音源信号を指向性レンダリング部998に供給し、音源位置情報および音源方位情報を音源オフセット適用部95に供給する。
 また、指向特性データベース93は、取得部91から供給された音源種別IDにより定まる指向特性データを読み出して指向性レンダリング部98に供給する。
 ステップS52において音源オフセット指定部94は、ユーザの操作等に応じて、オブジェクトやオブジェクト音源の移動量や回転量を示す移動回転対象情報を生成し、音源オフセット適用部95に供給する。
 また音源オフセット指定部94は、音質調整が指示された場合には、ユーザの操作等に応じて音質調整対象情報も生成し、指向性レンダリング部98に供給する。
 ステップS53において音源オフセット適用部95は、取得部91から供給された音源位置情報や音源方位情報に対して、音源オフセット指定部94から供給された移動回転対象情報に基づくオフセットを適用し、補正音源位置情報と補正音源方位情報を生成する。
 音源オフセット適用部95は、オフセットの適用により得られた補正音源位置情報を相対距離計算部96および相対方位計算部97に供給するとともに、補正音源方位情報を相対方位計算部97に供給する。
 ステップS54において受聴位置指定部92は、ユーザ操作等に応じて、対象空間における受聴位置と、その受聴位置にいる受聴者の向きとを指定し、受聴位置情報および受聴者方位情報を生成する。
 受聴位置指定部92は、受聴位置情報を相対距離計算部96、相対方位計算部97、および指向性レンダリング部98に供給し、受聴者方位情報を相対方位計算部97、および指向性レンダリング部98に供給する。
 ステップS55において相対距離計算部96は、音源オフセット適用部95から供給された補正音源位置情報と、受聴位置指定部92から供給された受聴位置情報とに基づいて、受聴位置とオブジェクト音源との間の相対的な距離を計算し、その計算結果を示す音源相対距離情報を指向性レンダリング部98に供給する。
 ステップS56において相対方位計算部97は、音源オフセット適用部95から供給された補正音源位置情報および補正音源方位情報と、受聴位置指定部92から供給された受聴位置情報および受聴者方位情報とに基づいて、受聴者とオブジェクト音源との間の相対的な方向を計算し、その計算結果を示す音源相対方位情報を指向性レンダリング部98に供給する。
 ステップS57において指向性レンダリング部98は、レンダリング処理を行い、再生信号を生成する。
 すなわち、指向性レンダリング部98は、音源オフセット指定部94から音質調整対象情報が供給された場合、音質調整対象情報に含まれるオブジェクトIDや音源種別IDにより特定されるオブジェクト音源信号に対して音質調整を行う。
 そして指向性レンダリング部98は、適宜、音質調整されたオブジェクト音源信号、指向特性データベース93から供給された指向特性データ、相対距離計算部96から供給された音源相対距離情報、相対方位計算部97から供給された音源相対方位情報、および受聴位置指定部92から供給された受聴位置情報と受聴者方位情報に基づいてVBAP等のレンダリング処理を行う。
 ステップS58において指向性レンダリング部98は、ステップS57の処理で得られた再生信号を再生装置81に供給し、再生信号に基づく音を出力させる。これにより、コンテンツの音、すなわちオブジェクト音源の音が再生される。
 コンテンツの音が再生されると、再生処理は終了する。
 以上のようにして端末装置13は、サーバ12からオブジェクト音源データを取得し、オブジェクト音源データに含まれるオブジェクト音源信号や音源位置情報、音源方位情報などに基づいてレンダリング処理を行う。
 このようにすることで、オブジェクト音源の位置や向きを示す音源位置情報や音源方位情報、より原音に近いオブジェクト音源信号を用いて、より臨場感の高いコンテンツ再生を実現することができる。
〈第2の実施の形態〉
〈サーバの構成例〉
 ところで、オブジェクトには複数の収録デバイス11を装着することも可能である。
 例えばオブジェクトが人であり、その人に複数の収録デバイス11が装着されるときには、その装着位置として体幹と足、体幹と頭部、体幹と腕など、様々な装着位置が考えられる。
 ここで、例えば図11に示すようにオブジェクトOB21がサッカー選手であり、そのサッカー選手の背中と腰の部分に、それぞれ収録デバイス11-1および収録デバイス11-2が装着されているとする。
 そのような場合、例えば矢印A21に示す位置がオブジェクト音源の位置となって音が発せられたときには、収録デバイス11-1および収録デバイス11-2の両方で同じオブジェクト音源の音を収録した収録データが得られることになる。
 特に、この例では収録デバイス11-1および収録デバイス11-2の装着位置が異なるので、収録デバイス11-1から見たオブジェクト音源の方向と、収録デバイス11-2から見たオブジェクト音源の方向とは異なる。
 したがって、1つのオブジェクト音源について、より多くの情報を得ることができる。そこで収録デバイス11ごとに得られた、同じオブジェクト音源に関する情報を統合すれば、より精度の高い情報を得ることができるようになる。
 このように、同じオブジェクト音源について得られた異なる情報を統合する場合、サーバ12は、例えば図12に示すように構成される。なお、図12において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示すサーバ12は、取得部41、デバイス位置情報補正部42、デバイス方位情報生成部43、区間検出部44、相対到来方位推定部45、情報統合部121、伝達特性データベース46、補正情報生成部47、オーディオ生成部48、補正位置生成部49、補正方位生成部50、オブジェクト音源データ生成部51、指向特性データベース52、および伝送部53を有している。
 図12に示すサーバ12の構成は、新たに情報統合部121が設けられた点で図3に示したサーバ12の構成と異なり、その他の点では図3のサーバ12の構成と同じとなっている。
 情報統合部121は、供給された装着位置情報と、相対到来方位推定部45から供給された相対到来方位情報とに基づいて、同じオブジェクト音源(音源種別ID)について得られた相対到来方位情報を統合する統合処理を行う。このような統合処理によって、1つのオブジェクト音源についての最終的な1つの相対到来方位情報が生成される。
 また、情報統合部121は、統合処理の結果に基づいて、オブジェクト音源から収録デバイス11までの距離、つまりオブジェクト音源とマイクロホンとの間の距離を示す距離情報も生成する。
 情報統合部121は、このようにして得られた最終的な相対到来方位情報および距離情報を、伝達特性データベース46および補正情報生成部47に供給する。
 ここで、統合処理について説明する。
 例えば1つのオブジェクト音源について、ある収録デバイス11-1についての収録オーディオ信号から得られた相対到来方位情報RD1と、他の収録デバイス11-2についての収録オーディオ信号から得られた相対到来方位情報RD2とが相対到来方位推定部45で得られたとする。なお、収録デバイス11-1および収録デバイス11-2は、同じオブジェクトに装着されているものとする。
 この場合、情報統合部121は収録デバイス11-1についての装着位置情報および相対到来方位情報RD1と、収録デバイス11-2についての装着位置情報および相対到来方位情報RD2とに基づいて、三角測量の原理を利用してオブジェクト音源の位置を推定する。
 そして、情報統合部121は、収録デバイス11-1と収録デバイス11-2のうちの何れか一方を選択する。
 例えば、収録デバイス11-1と収録デバイス11-2のうち、よりオブジェクト音源の位置から近い収録デバイス11など、より高いSN比でオブジェクト音源の音を収音可能な収録デバイス11が選択される。ここでは、例として収録デバイス11-1が選択されたものとする。
 すると情報統合部121は、収録デバイス11-1についての装着位置情報と、求められたオブジェクト音源の位置とに基づいて、収録デバイス11-1(マイクロホン)から見たオブジェクト音源の位置からの音の到来方向を示す情報を、最終的な相対到来方位情報として生成する。また、情報統合部121は、収録デバイス11-1(マイクロホン)からオブジェクト音源の位置までの距離を示す距離情報も生成する。
 なお、より詳細には、この場合、収録デバイス11-1が選択された旨の情報が情報統合部121からオーディオ生成部48や補正位置生成部49、補正方位生成部50に供給される。そして、収録デバイス11-1について得られた収録オーディオ信号やデバイス位置情報、デバイス方位情報が用いられて、オブジェクト音源信号、音源位置情報、音源方位情報が生成される。これにより、よりSN比の高い高品質なオブジェクト音源信号、より正確な音源位置情報や音源方位情報を得ることができる。
 その他、収録デバイス11-1と収録デバイス11-2の両方について、最終的な相対到来方位情報および距離情報が生成されるようにしてもよい。
 また、伝達特性データベース46では、情報統合部121から供給された相対到来方位情報および距離情報が、伝達特性の選択に利用される。例えば伝達特性が関数の形式で保持されている場合には、相対到来方位情報および距離情報が関数に代入される引数として利用されるようにすることができる。
 さらに、情報統合部121で得られた相対到来方位情報および距離情報は、補正情報生成部47において位置補正情報や方位補正情報の生成にも利用される。
 以上のような統合処理では、同じオブジェクトの同じオブジェクト音源について得られた複数の相対到来方位情報を用いることで、最終的な相対到来方位情報として、より高精度な情報を得ることができる。換言すれば、相対到来方位情報の算出時の頑健性を向上させることができる。
 なお、情報統合部121における統合処理時には、伝達特性データベース46に保持されている伝達特性が利用されるようにしてもよい。
 例えば伝達特性から分かるオブジェクト音源からの距離に応じた音の減衰度合いと、収録オーディオ信号とに基づいて、収録デバイス11とオブジェクト音源との間の大よその距離を推定することができる。したがって、このような収録デバイス11とオブジェクト音源との間の距離の推定結果を用いれば、オブジェクト音源と収録デバイス11との間の距離や相対的な方位(方向)の推定精度をさらに向上させることができる。
 また、ここではオブジェクトに複数の収録デバイス11が装着される例について説明したが、収録デバイス11内に1つのマイクアレイが設けられるとともに、その収録デバイス11に対して有線または無線により他のマイクアレイが接続されるようにしてもよい。
 そのような場合においても、1つのオブジェクトにおける互いに異なる複数の位置にマイクアレイが設けられ、また、収録デバイス11に接続されるマイクアレイの位置は既知であるので、それらのマイクアレイごとに収録データを得ることができる。このようにして得られた収録データについても上述した統合処理を行うことが可能である。
〈オブジェクト音源データ生成処理の説明〉
 次に、図12に示したサーバ12の動作について説明する。
 すなわち、以下、図13のフローチャートを参照して、図12に示したサーバ12により行われるオブジェクト音源データ生成処理について説明する。
 なお、ステップS81乃至ステップS85の処理は、図8におけるステップS11乃至ステップS15の処理と同様であるので、その説明は適宜省略する。
 但し、ステップS85では、相対到来方位推定部45は、得られた相対到来方位情報を情報統合部121に供給する。
 ステップS86において情報統合部121は、供給された装着位置情報と、相対到来方位推定部45から供給された相対到来方位情報とに基づいて統合処理を行う。また、情報統合部121は、統合処理の結果に基づいて、オブジェクト音源から収録デバイス11までの距離を示す距離情報を生成する。
 情報統合部121は、統合処理により得られた相対到来方位情報と、距離情報とを伝達特性データベース46および補正情報生成部47に供給する。
 統合処理が行われると、その後、ステップS87およびステップS94の処理が行われてオブジェクト音源データ生成処理は終了するが、これらの処理は図8のステップS16乃至ステップS23の処理と同様であるので、その説明は省略する。
 但し、ステップS88やステップS89では、相対到来方位情報および装着位置情報だけでなく、距離情報も用いられて位置補正情報や方位補正情報が生成される。
 以上のようにしてサーバ12は、収録デバイス11から収録データを取得して、オブジェクト音源データを生成する。
 これにより、端末装置13側において、より臨場感の高いコンテンツ再生を実現することができるようになる。特に統合処理を行うことで、より確からしい相対到来方位情報を得ることができ、その結果、さらに高い臨場感を得ることができる。
 以上のように、本技術によればコンテンツ再生時に、より高い臨場感を得ることができる。
 例えばバードビューやウォークスルーなどの自由視点の音場再現においては、残響や雑音、他の音源の音の混入を最小限に抑えて、人の音声や、スポーツでのボールキック音等の選手の動作音、音楽における楽器音といった目的音をなるべく高いSN比で収録することが重要である。また、それと同時に目的音の音源ごとに正確な定位での音の再生、視点や音源の移動に伴う音像定位等の追従が必要となる。
 ところが、現実世界における収音時には、マイクロホンを配置可能な場所に制約があるのでオブジェクト音源の位置での収音は不可能であり、収録オーディオ信号は、オブジェクト音源とマイクロホンとの間の伝達特性の影響を受けてしまうことになる。
 これに対して、本技術では移動体等のオブジェクトに収録デバイス11を装着して収録を行い、収録データを生成する場合に、その収録データと、伝達特性等の事前情報とから実際のオブジェクト音源の位置や向きを示す音源位置情報や音源方位情報を得ることができる。また、本技術では、実際のオブジェクト音源の音(原音)に近いオブジェクト音源信号を得ることができる。
 このように、実際にオブジェクト音源が存在する位置での絶対音圧(周波数特性)に相当するオブジェクト音源信号と、そのオブジェクト音源信号に付随する音源位置情報や音源方位情報が含まれるメタデータとが得られるので、本技術では理想的ではない装着位置での収録が行われても、オブジェクト音源の原音を復元することができる。
 また、本技術では、自由視点や固定視点のコンテンツの再生側において、オブジェクト音源の指向特性を考慮した再生や編集を行うことができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成するオーディオ生成部と、
 前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成する補正情報生成部と、
 対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する位置情報生成部と
 を備える信号処理装置。
(2)
 前記音源の種別を示す音源種別情報および前記音源位置情報を含むメタデータと、前記音源信号とを含むオブジェクト音源データを生成するオブジェクト音源データ生成部をさらに備える
 (1)に記載の信号処理装置。
(3)
 前記対象空間における前記移動体の位置を示す情報と、前記移動体における前記マイクロホンの位置を示す情報とに基づいて、前記マイクロホン位置情報を生成するマイクロホン位置情報生成部をさらに備える
 (1)または(2)に記載の信号処理装置。
(4)
 前記補正情報生成部は、複数の前記マイクロホンで得られた前記収録信号に基づいて、前記マイクロホンと前記音源との間の相対的な方向を示す方位補正情報を生成し、
 前記対象空間における前記マイクロホンの方向を示すマイクロホン方位情報と、前記方位補正情報とに基づいて、前記対象空間における前記音源の方向を示す音源方位情報を生成する方位情報生成部をさらに備え、
 前記オブジェクト音源データ生成部は、前記音源種別情報、前記音源位置情報、および前記音源方位情報を含む前記メタデータと、前記音源信号とを含む前記オブジェクト音源データを生成する
 (2)に記載の信号処理装置。
(5)
 前記オブジェクト音源データ生成部は、前記音源種別情報、前記移動体を示す識別情報、前記音源位置情報、および前記音源方位情報を含む前記メタデータと、前記音源信号とを含む前記オブジェクト音源データを生成する
 (4)に記載の信号処理装置。
(6)
 前記補正情報生成部は、前記音源から前記マイクロホンまでの伝達特性に基づいて、前記音源信号を生成するためのオーディオ補正情報をさらに生成し、
 前記オーディオ生成部は、前記オーディオ補正情報および前記収録信号に基づいて前記音源信号を生成する
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記補正情報生成部は、前記音源の種別に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
 (6)に記載の信号処理装置。
(8)
 前記補正情報生成部は、前記マイクロホンと前記音源との間の相対的な方向に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
 (6)または(7)に記載の信号処理装置。
(9)
 前記補正情報生成部は、前記マイクロホンと前記音源との間の距離に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
 (6)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 信号処理装置が、
 移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成し、
 前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成し、
 対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する
 信号処理方法。
(11)
 移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成し、
 前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成し、
 対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11-1乃至11-N,11 収録デバイス, 12 サーバ, 13 端末装置, 41 取得部, 44 区間検出部, 45 相対到来方位推定部, 46 伝達特性データベース, 47 補正情報生成部, 48 オーディオ生成部, 49 補正位置生成部, 50 補正方位生成部, 51 オブジェクト音源データ生成部, 53 伝送部

Claims (11)

  1.  移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成するオーディオ生成部と、
     前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成する補正情報生成部と、
     対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する位置情報生成部と
     を備える信号処理装置。
  2.  前記音源の種別を示す音源種別情報および前記音源位置情報を含むメタデータと、前記音源信号とを含むオブジェクト音源データを生成するオブジェクト音源データ生成部をさらに備える
     請求項1に記載の信号処理装置。
  3.  前記対象空間における前記移動体の位置を示す情報と、前記移動体における前記マイクロホンの位置を示す情報とに基づいて、前記マイクロホン位置情報を生成するマイクロホン位置情報生成部をさらに備える
     請求項1に記載の信号処理装置。
  4.  前記補正情報生成部は、複数の前記マイクロホンで得られた前記収録信号に基づいて、前記マイクロホンと前記音源との間の相対的な方向を示す方位補正情報を生成し、
     前記対象空間における前記マイクロホンの方向を示すマイクロホン方位情報と、前記方位補正情報とに基づいて、前記対象空間における前記音源の方向を示す音源方位情報を生成する方位情報生成部をさらに備え、
     前記オブジェクト音源データ生成部は、前記音源種別情報、前記音源位置情報、および前記音源方位情報を含む前記メタデータと、前記音源信号とを含む前記オブジェクト音源データを生成する
     請求項2に記載の信号処理装置。
  5.  前記オブジェクト音源データ生成部は、前記音源種別情報、前記移動体を示す識別情報、前記音源位置情報、および前記音源方位情報を含む前記メタデータと、前記音源信号とを含む前記オブジェクト音源データを生成する
     請求項4に記載の信号処理装置。
  6.  前記補正情報生成部は、前記音源から前記マイクロホンまでの伝達特性に基づいて、前記音源信号を生成するためのオーディオ補正情報をさらに生成し、
     前記オーディオ生成部は、前記オーディオ補正情報および前記収録信号に基づいて前記音源信号を生成する
     請求項1に記載の信号処理装置。
  7.  前記補正情報生成部は、前記音源の種別に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
     請求項6に記載の信号処理装置。
  8.  前記補正情報生成部は、前記マイクロホンと前記音源との間の相対的な方向に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
     請求項6に記載の信号処理装置。
  9.  前記補正情報生成部は、前記マイクロホンと前記音源との間の距離に応じた前記伝達特性に基づいて、前記オーディオ補正情報を生成する
     請求項6に記載の信号処理装置。
  10.  信号処理装置が、
     移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成し、
     前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成し、
     対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する
     信号処理方法。
  11.  移動体に装着されたマイクロホンによる収音によって得られた収録信号に基づいて、音源の種別ごとの音源信号を生成し、
     前記マイクロホンと前記音源との間の距離を示す位置補正情報を生成し、
     対象空間における前記マイクロホンの位置を示すマイクロホン位置情報と、前記位置補正情報とに基づいて、前記対象空間における前記音源の位置を示す音源位置情報を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2020/040798 2019-11-13 2020-10-30 信号処理装置および方法、並びにプログラム WO2021095563A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112020005550.7T DE112020005550T5 (de) 2019-11-13 2020-10-30 Signalverarbeitungsvorrichtung, verfahren und programm
CN202080077410.XA CN114651452A (zh) 2019-11-13 2020-10-30 信号处理装置、方法和程序
US17/774,379 US20220360930A1 (en) 2019-11-13 2020-10-30 Signal processing device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-205113 2019-11-13
JP2019205113 2019-11-13

Publications (1)

Publication Number Publication Date
WO2021095563A1 true WO2021095563A1 (ja) 2021-05-20

Family

ID=75912323

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/040798 WO2021095563A1 (ja) 2019-11-13 2020-10-30 信号処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20220360930A1 (ja)
CN (1) CN114651452A (ja)
DE (1) DE112020005550T5 (ja)
WO (1) WO2021095563A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220232264A1 (en) * 2018-03-29 2022-07-21 Sony Group Corporation Information processing apparatus, information processing method, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
WO2019188394A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 信号処理装置および方法、並びにプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102356246B1 (ko) 2014-01-16 2022-02-08 소니그룹주식회사 음성 처리 장치 및 방법, 그리고 프로그램
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3652735A1 (en) * 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
WO2019188394A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 信号処理装置および方法、並びにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220232264A1 (en) * 2018-03-29 2022-07-21 Sony Group Corporation Information processing apparatus, information processing method, and program
US11743520B2 (en) * 2018-03-29 2023-08-29 Sony Group Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
US20220360930A1 (en) 2022-11-10
DE112020005550T5 (de) 2022-09-01
CN114651452A (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
WO2020255810A1 (ja) 信号処理装置および方法、並びにプログラム
US10645518B2 (en) Distributed audio capture and mixing
US10397722B2 (en) Distributed audio capture and mixing
CN109804559B (zh) 空间音频系统中的增益控制
US20180203663A1 (en) Distributed Audio Capture and Mixing Control
AU2022235566A1 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN117412237A (zh) 合并音频信号与空间元数据
US11644528B2 (en) Sound source distance estimation
CN112005556B (zh) 确定声源的位置的方法、声源定位系统以及存储介质
CN109314832A (zh) 音频信号处理方法和设备
JPWO2018060549A5 (ja)
WO2021095563A1 (ja) 信号処理装置および方法、並びにプログラム
US11159905B2 (en) Signal processing apparatus and method
JP7493412B2 (ja) 音声処理装置、音声処理システムおよびプログラム
NZ795232A (en) Distributed audio capturing techniques for virtual reality (1vr), augmented reality (ar), and mixed reality (mr) systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20888098

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20888098

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP