WO2019188394A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2019188394A1
WO2019188394A1 PCT/JP2019/010763 JP2019010763W WO2019188394A1 WO 2019188394 A1 WO2019188394 A1 WO 2019188394A1 JP 2019010763 W JP2019010763 W JP 2019010763W WO 2019188394 A1 WO2019188394 A1 WO 2019188394A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
unit
recording
priority
moving body
Prior art date
Application number
PCT/JP2019/010763
Other languages
English (en)
French (fr)
Inventor
隆一 難波
真志 藤原
誠 阿久根
越 沖本
徹 知念
宏平 浅田
一敦 大栗
野口 雅義
辻 実
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/040,321 priority Critical patent/US11159905B2/en
Priority to CN201980021290.9A priority patent/CN111903143B/zh
Publication of WO2019188394A1 publication Critical patent/WO2019188394A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • H04R29/006Microphone matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Definitions

  • the present technology relates to a signal processing apparatus, method, and program, and more particularly, to a signal processing apparatus, method, and program that can reproduce sound at an arbitrary listening position with a high sense of reality.
  • surround sound collection is performed by arranging microphones at a plurality of fixed positions in a concert hall, etc., gun microphone sound collection from a distance, microphone array
  • omnidirectional sound collection is performed by disassembling and reconstructing into Ambisonics, and the simplest one collects sound using three microphones provided in a video camera or the like to obtain 5.1ch surround sound. To get.
  • the distance from the sound source to the sound collection position may be far away.
  • the limit of the signal-to-noise ratio performance of the microphone itself Therefore, the sound quality deteriorates, and this reduces the sense of reality.
  • the distance from the sound source to the sound collection position is increased, a decrease in sound clarity due to the effect of reverberation may not be ignored.
  • Reverberation removal technology that removes reverberation components from recorded sound is also known, but even with such reverberation removal technology, there is a limit in removing reverberation components.
  • the sound of the sound source in the distance is recorded due to the limit of the S / N ratio performance of the microphone, as in the case of the above-mentioned technology related to the sound recording for a wide field. It is difficult. Therefore, the sound at any listening position cannot be reproduced with a high sense of reality.
  • the present technology has been made in view of such a situation, and enables a sound at an arbitrary listening position in a space to be reproduced with a high sense of reality.
  • a signal processing device includes a rendering unit that generates reproduction data of sound at an arbitrary listening position in the target space based on recording signals of microphones attached to a plurality of moving objects in the target space. Is provided.
  • a signal processing method or program generates reproduction data of sound at an arbitrary listening position in the target space based on recording signals of microphones attached to a plurality of moving bodies in the target space. Includes steps.
  • reproduction data of sound at an arbitrary listening position in the target space is generated based on recording signals of microphones attached to a plurality of moving objects in the target space.
  • sound at an arbitrary listening position in the space can be reproduced with a high sense of presence.
  • ⁇ First Embodiment> ⁇ Configuration example of sound field reproduction system>
  • microphones and distance measuring devices are attached to a plurality of moving bodies in a target space, information on the sound, position, direction, and movement (movement) of each moving body is acquired, and those on the playback side By combining the acquired information, a sound having an arbitrary position in the space as a listening position is reproduced in a pseudo manner.
  • a virtual listener at an arbitrary listening position is pointing in an arbitrary direction, it is possible to simulate a sound (sound field) that may be heard by the listener. is there.
  • This technology for example, records sounds (sound fields) at each position in the space, and based on these recorded sounds, VR (Virtual Reality) freedom to reproduce the sound at any listening position in the space in a pseudo manner It can be applied to a sound field reproduction system such as a viewpoint service.
  • a single microphone array consisting of a plurality of microphones or microphone arrays arranged in a space to be recorded in a sound field is used, and the space Sounds are recorded at multiple locations.
  • the microphones and microphone arrays for collecting sound are attached to a moving body that moves in the space.
  • a sound (recorded sound) collected by a microphone array mounted on a moving body more specifically, a recorded signal that is a signal of the recorded sound is also referred to as an object.
  • Each mobile unit is equipped with a ranging device such as GPS (Global Positioning System) and 9-axis sensor as well as a microphone array for sound collection. , And sound collection position movement information are also acquired.
  • a ranging device such as GPS (Global Positioning System) and 9-axis sensor as well as a microphone array for sound collection. , And sound collection position movement information are also acquired.
  • the moving body position information is information indicating the position of the moving body in the space
  • the moving body azimuth information is the direction in which the moving body is facing in the space, more specifically, attached to the moving body. This is information indicating the direction in which the microphone array is facing.
  • the moving body azimuth information is an azimuth angle indicating a direction in which the moving body is facing when a predetermined direction in the space is used as a reference.
  • the sound collection position movement information is information relating to the movement (movement) of the moving body, such as the moving speed of the moving body and the acceleration during movement.
  • information including the moving body position information, the moving body orientation information, and the sound collection position moving information is also referred to as moving body related information.
  • object transmission data including the object and the moving body related information is generated and transmitted to the playback side.
  • signal processing and rendering are performed as appropriate based on the received object transmission data to generate playback data.
  • audio data in a predetermined format such as the number of channels specified by the user (listener) is generated as reproduction data.
  • This reproduction data is audio data for reproducing a sound that would be heard by a virtual listener who has an arbitrary position in the space as a listening position and facing the arbitrary listening direction at the listening position.
  • rendering and playback of a recorded signal of a stationary microphone including attachment of a microphone to a stationary object is generally known. It is also generally known to render an object prepared for each sound source type as a process on the playback side.
  • priority can be calculated according to the situation for objects obtained by multiple moving objects during rendering, and playback data can be generated using the one with higher priority.
  • the sound at an arbitrary listening position can be reproduced.
  • reproduction data is generated by selecting a moving object close to the listening position, or reproduction data is selected by selecting a moving object with a small amount of movement. It is conceivable to generate For example, a moving object with a small amount of movement can obtain an object with less noise due to vibrations of the moving object, that is, an object with a high S / N ratio, so that high-quality reproduction data can be obtained.
  • a sports player such as soccer can be considered.
  • a specific target of sound collection that is, content accompanied by sound, for example, the following objects (1) to (4) can be considered.
  • Target (1) Target of team sports (2) Recording target for spaces where performances such as musicals, operas, and theaters are performed (3) Recording target for any space in live venues and theme parks (4) Recording for bands such as orchestra and marching band
  • the player may be a moving body and the player may be equipped with a microphone array or a distance measuring device.
  • a performer or audience may be used as a moving body, and a microphone array or a distance measuring device may be attached to the performer or audience.
  • the object (3) can be recorded at a plurality of locations.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a sound field reproduction system to which the present technology is applied.
  • the sound field reproduction system shown in FIG. 1 records a sound at each position in a target space, and assumes a virtual listening position at an arbitrary position in the listening position with an arbitrary position in the space as a listening position. It reproduces the sound (sound field) that would be heard by the listener.
  • a space for sound recording is also referred to as a recording target space
  • a direction in which a virtual listener is facing at a listening position is also referred to as a listening direction.
  • the sound field reproduction system shown in FIG. 1 includes recording devices 11-1 to 11-5 and a playback device 12.
  • the recording device 11-1 to the recording device 11-5 have a microphone array and a distance measuring device, and are attached to a moving body in the recording target space. Accordingly, the recording devices 11-1 to 11-5 are discretely arranged in the recording target space.
  • the recording device 11-1 to the recording device 11-5 record the object and acquire the moving body related information about the moving body on which the recording apparatus 11-1 is mounted, and send the object transmission data including the object and the moving body related information. Generate.
  • the recording device 11-1 through the recording device 11-5 transmit the generated object transmission data to the playback device 12 by wireless communication.
  • the recording device 11-1 to the recording device 11-5 are also simply referred to as the recording device 11 when it is not necessary to distinguish them. Further, here, an example in which the recording (sound collection) of an object at the position of each moving body is performed by the five recording devices 11 in the recording target space will be described, but the number of the recording devices 11 may be any number. .
  • the playback device 12 receives the object transmission data transmitted from each recording device 11, and generates playback data for the designated listening position and listening direction based on the object and the moving body related information obtained for each moving body. To do. Further, the playback device 12 plays back the sound in the listening direction at the listening position based on the generated playback data. As a result, the content having an arbitrary position and direction in the recording target space as a listening position and a listening direction is reproduced.
  • the sound recording target is a sport
  • the field where the sport is performed is set as a recording target space, and each player is a moving body, and the recording device 11 is attached to those players. become.
  • the recording device 11 is attached to each player.
  • the recording device 11 is provided with a small microphone array, a distance measuring device, and a wireless transmission function.
  • the storage device 11 is provided with a storage, the object transmission data can be read from the storage and supplied to the playback device 12 after the match or competition is over.
  • each player is made a moving object and an object is recorded.
  • the recording device 11 by attaching the recording device 11 to each player, it is possible to record a sound generated by the player, a player's walking sound, a ball kick sound, and the like with a high SN ratio at a short distance of the player.
  • the sound field heard in an arbitrary direction (listening direction) at an arbitrary viewpoint (listening position) in the area where the player exists is artificially (artificially ) Can be reproduced.
  • An object which is a recording sound obtained for one moving body, that is, one player, is not only the voice and motion sound of the player, but also the sound and cheers of nearby players.
  • the positions of the players, the relative distance between the players, and the direction in which the players are facing are constantly changing.
  • time-series data of moving body position information, moving body orientation information, and sound collection position moving information is obtained as moving body related information about the player (moving body).
  • These time series data may be smoothed in the time direction as necessary.
  • the playback device 12 calculates the priority of each object based on the moving body related information and the like of each moving body obtained in this way, and weights and adds a plurality of objects according to the obtained priority. Then, playback data is generated.
  • the reproduction data obtained in this way is audio data that simulates a sound field that would be heard when facing an arbitrary listening direction at an arbitrary listening position.
  • the recording device 11 when the recording device 11 for a player who is a moving body, more specifically, the microphone array of the recording device 11 is mounted, if a microphone is mounted at the position of both ears of the player, binaural sound is collected. However, even when a microphone is attached to a part other than the player's both ears, the recording device 11 makes a sound with a volume balance and a localization feeling that are substantially the same as the volume balance and the localization feeling from each sound source that the player is listening to. It is possible to record the place.
  • a wide space is set as a recording target space, and a sound field is recorded at a plurality of positions. That is, sound field recording is performed by a plurality of recording devices 11 at each position in the recording target space.
  • the recording device 11 that is attached to a player who does not have another contact can obtain it. There is a high possibility that the noise caused by the vibration of contact between the players is not mixed in the object. Therefore, with the recording device 11 attached to a player who does not have contact, it is possible to obtain a high-quality object free from noise noise.
  • reproduction data at an arbitrary listening position and listening direction is generated based on the object obtained by the recording device 11 that is discretely arranged in the recording target space.
  • This reproduction data does not completely reproduce a physically correct sound field.
  • the sound field at any listening position and listening direction should be appropriately reproduced according to various situations. Is possible.
  • reproduction data is generated from objects obtained by the recording devices 11 that are discretely arranged, so that sound field reproduction with a relatively high degree of freedom and high presence can be achieved.
  • the recording device 11 is configured as shown in FIG. 2, for example.
  • the recording apparatus 11 includes a microphone array 41, a recording unit 42, a distance measuring device 43, an encoding unit 44, and an output unit 45.
  • the microphone array 41 collects the sound (sound field) around the moving body on which the recording device 11 is mounted, and supplies the recording signal obtained as a result to the recording unit 42 as an object.
  • the recording unit 42 subjects the object supplied from the microphone array 41 to AD (Analog to Digital) conversion, amplification processing, and the like, and supplies the obtained object to the encoding unit 44.
  • AD Analog to Digital
  • the distance measuring device 43 includes, for example, a position measurement sensor such as GPS, a recording device 11, that is, a moving speed and acceleration of the moving body, a 9-axis sensor for measuring the direction (direction) of the moving body, and the like.
  • a position measurement sensor such as GPS
  • a recording device 11 that is, a moving speed and acceleration of the moving body
  • a 9-axis sensor for measuring the direction (direction) of the moving body, and the like.
  • the distance measuring device 43 includes, for a moving object on which the recording apparatus 11 is mounted, moving object position information indicating the position of the moving object, and a moving object orientation information indicating a direction in which the moving object is directed, that is, an orientation of the moving object.
  • the sound collection position movement information indicating the moving speed of the moving body and the acceleration during movement is measured, and the measurement result is supplied to the encoding unit 44.
  • the distance measuring device 43 may be configured by a camera, an acceleration sensor, or the like.
  • moving body position information, moving body azimuth information, and sound collection position movement information can be obtained from an image (image) captured by the camera.
  • the encoding unit 44 encodes the object supplied from the recording unit 42 and the moving body related information including the moving body position information, the moving body orientation information, and the sound collection position movement information supplied from the distance measuring device 43. Generate object transmission data.
  • the encoding unit 44 performs packing of the object and the moving body related information and generates object transmission data.
  • the object and the moving body related information may be compressed and encoded, or the object and the moving body related information may be stored as they are in a packet of the object transmission data. Good.
  • the encoding unit 44 supplies the object transmission data generated by the encoding to the output unit 45.
  • the output unit 45 outputs the object transmission data supplied from the encoding unit 44.
  • the output unit 45 when the output unit 45 has a wireless transmission function, the output unit 45 transmits object transmission data to the playback device 12 wirelessly.
  • the output unit 45 outputs the object transmission data to the recording unit, and causes the recording unit to record the object transmission data.
  • the object transmission data recorded in the recording unit is read out directly or indirectly by the playback device 12 at an arbitrary timing.
  • the recording apparatus 11 performs beam forming for emphasizing a predetermined desired sound source, that is, target sound or the like, NR (Noise Reduction) processing (noise reduction processing), or the like on the object. May be.
  • the recording device 11 is configured as shown in FIG. 3, for example.
  • the same reference numerals are given to the portions corresponding to those in FIG. 2, and description thereof will be omitted as appropriate.
  • 3 has a microphone array 41, a recording unit 42, a signal processing unit 71, a distance measuring device 43, an encoding unit 44, and an output unit 45.
  • FIG. 3 is a configuration in which a signal processing unit 71 is newly provided between the recording unit 42 and the encoding unit 44 in the recording device 11 shown in FIG.
  • the signal processing unit 71 performs beam forming and NR processing on the object supplied from the recording unit 42 using the moving body related information supplied from the distance measuring device 43 as necessary, and obtains the result.
  • the obtained object is supplied to the encoding unit 44.
  • the signal processing unit 71 is configured as shown in FIG. 4, for example. That is, the signal processing unit 71 illustrated in FIG. 4 includes a section detection unit 101, a beamforming unit 102, and an NR unit 103.
  • the section detection unit 101 performs section detection on the object supplied from the recording unit 42 using the moving body related information supplied from the distance measuring device 43 as necessary, and the detection result is used as the beam forming unit 102. And supplied to the NR unit 103.
  • the section detection unit 101 has a predetermined target sound detector and a predetermined non-target sound detector, and the target sound and the non-target sound in the object are calculated based on these detectors. Is detected.
  • the section detection unit 101 outputs information indicating a section in which each target sound or non-target sound in the object which is a time signal is detected, that is, information indicating a target sound section or a non-target sound section as a result of section detection. To do. As described above, in the section detection, the presence or absence of the target sound and the non-target sound in each time section of the object is detected.
  • the predetermined target sound is, for example, a ball sound such as a kick sound of a soccer ball, an utterance of a player who is a moving body, an action sound such as a footstep (walking sound) or gesture of the player.
  • non-target sounds are unfavorable sounds as content sounds.
  • wind sound wind noise
  • player's clothing sound some vibration sound
  • contact sound between player and other players and objects environmental sound
  • environmental sound such as cheers
  • speech sounds related to competition strategy and privacy Noji Predetermined unfavorable NG word speech sounds
  • other noise sounds noise sounds
  • the section detection unit 101 detects a specific noise sound or assumes a section of a specific noise sound. Conversely, when the moving body is not moving, the section detection unit 101 may not detect a specific noise sound or may not be a specific noise sound section.
  • the section detecting unit 101 detects the time-series moving object position information and the convergence.
  • the movement amount of the moving body is obtained from the sound position movement information and the like, and the calculation based on the detector is performed using the movement amount.
  • the beam forming unit 102 uses the result of the section detection supplied from the section detection unit 101 and the moving body related information supplied from the distance measuring device 43 as necessary, with respect to the object supplied from the recording unit 42. Perform beamforming.
  • the beam forming unit 102 suppresses (reduces) predetermined directional noise by beam forming using a multi-microphone or arrival from a specific direction based on moving body direction information as moving body related information. Emphasize the sound.
  • beam forming with multi-microphone components such as excessive target sounds such as too loud voices of players included in objects and unnecessary non-target sounds such as environmental sounds are reversed based on the result of section detection. You can suppress it. Further, in beam forming with a multi-microphone, for example, it is possible to emphasize by synchronizing a necessary target sound such as a ball kick sound included in an object based on a section detection result.
  • the beam forming unit 102 supplies an object obtained by enhancing or suppressing a predetermined sound source component by beam forming to the NR unit 103.
  • the NR unit 103 Based on the section detection result supplied from the section detection unit 101, the NR unit 103 performs NR processing on the object supplied from the beamforming unit 102, and the resulting object is sent to the encoding unit 44. Supply.
  • components such as wind sounds and clothing rubbing sounds, relatively steady and unnecessary environmental sounds, and non-target sounds such as predetermined noise (noise) are suppressed among the components included in the object.
  • the playback device 12 is configured as shown in FIG.
  • the reproduction device 12 is a signal processing device that generates reproduction data based on the acquired object transmission data.
  • the reproduction device 12 illustrated in FIG. 5 includes an acquisition unit 131, a decoding unit 132, a signal processing unit 133, a reproduction unit 134, And a speaker 135.
  • the acquisition unit 131 acquires the object transmission data output from the recording device 11 and supplies it to the decoding unit 132.
  • the acquisition unit 131 acquires object transmission data from all the recording devices 11 in the recording target space.
  • the acquisition unit 131 acquires the object transmission data by receiving the object transmission data transmitted from the recording device 11.
  • the acquisition unit 131 reads the object transmission data from the recording device 11 to acquire the object transmission data. If the object transmission data is output from the recording device 11 to an external device or the like and held, the object transmission data may be acquired by reading the object transmission data from the device or the like.
  • the decoding unit 132 decodes the object transmission data supplied from the acquisition unit 131 and supplies the object and the moving body related information obtained as a result to the signal processing unit 133. In other words, the decoding unit 132 extracts the object and moving body related information by unpacking the object transmission data, and supplies the extracted information to the signal processing unit 133.
  • the signal processing unit 133 performs beam forming and NR processing based on the moving body related information and the object supplied from the decoding unit 132, generates reproduction data in a predetermined format, and supplies the reproduction data to the reproduction unit 134.
  • the reproduction unit 134 performs DA (Digital-to-Analog) conversion and amplification processing on the reproduction data supplied from the signal processing unit 133, and supplies the reproduction data obtained as a result to the speaker 135.
  • the speaker 135 reproduces a simulated sound in the listening position and listening direction in the recording target space based on the reproduction data supplied from the reproducing unit 134.
  • the speaker 135 may be a single speaker unit or a speaker array including a plurality of speaker units.
  • the acquisition unit 131 to the speaker 135 are provided in one device
  • a part of the blocks constituting the playback device 12 such as the acquisition unit 131 to the signal processing unit 133 is provided in another device. You may be made to do.
  • the acquisition unit 131 to the signal processing unit 133 may be provided in a server on the network, and playback data may be supplied from the server to a playback device having the playback unit 134 and the speaker 135.
  • the speaker 135 may be provided outside the playback device 12.
  • the acquisition unit 131 to the signal processing unit 133 may be provided in a personal computer, a game machine, a portable device, or the like, or the acquisition unit 131 to the signal processing unit 133 may be realized by a cloud on the network. Good.
  • the signal processing unit 133 is configured as shown in FIG. 6, for example.
  • the signal processing unit 133 illustrated in FIG. 6 includes a synchronization calculating unit 161, a section detecting unit 162, a beam forming unit 163, an NR unit 164, and a rendering unit 165.
  • the synchronization calculation unit 161 performs synchronization detection on the plurality of objects supplied from the decoding unit 132, synchronizes the objects of all the moving objects based on the detection result, and sets the synchronized objects of the moving objects to the section detection unit. 162 and the beam forming unit 163.
  • the synchronization calculation unit 161 synchronizes all objects based on the detection results of the offset and clock drift.
  • the recording apparatus 11 since the microphones constituting the microphone array 41 are synchronized, the process of synchronizing the signal of each channel of the object is not necessary.
  • the playback device 12 since the playback device 12 handles objects obtained by a plurality of recording devices 11, it is necessary to synchronize these objects.
  • the section detection unit 162 performs section detection on each object supplied from the synchronization calculation unit 161 based on the moving body related information supplied from the decoding unit 132, and the detection result is used as the beam forming unit 163 and the NR unit. 164 and the rendering unit 165.
  • the section detection unit 162 includes predetermined target sound and non-target sound detectors, and performs the same section detection as in the section detection unit 101 of the recording device 11.
  • the sound of the sound source that is the target sound or the non-target sound in the section detection unit 162 is the same as the sound of the sound source that is the target sound or the non-target sound in the section detection unit 101.
  • the beam forming unit 163 uses the result of the section detection supplied from the section detection unit 162 and the moving body related information supplied from the decoding unit 132 as necessary, to each object supplied from the synchronization calculation unit 161. Beam forming is performed.
  • the beam forming unit 163 corresponds to the beam forming unit 102 of the recording device 11 and performs the same processing as in the beam forming unit 102 to suppress or enhance the sound of a predetermined sound source by beam forming. .
  • the beam forming unit 163 basically the same sound source component as that in the beam forming unit 102 is suppressed or enhanced.
  • the beam forming unit 163 can also use moving body related information of other moving bodies for beam forming with respect to an object of a predetermined moving body.
  • the sound component of the other moving object included in the object of the processing target moving object is suppressed. Also good.
  • the distance from the moving object to be processed to another moving object which is obtained from the moving object position information of each moving object, is equal to or less than a predetermined threshold value, the other moving object viewed from the moving object to be processed It is only necessary to suppress the sound components of other moving bodies, for example, by suppressing the incoming sound from the direction.
  • the beam forming unit 163 supplies an object obtained by enhancing or suppressing a predetermined sound source component to the NR unit 164 by beam forming.
  • the NR unit 164 performs NR processing on the object supplied from the beam forming unit 163 based on the section detection result supplied from the section detection unit 162, and supplies the object obtained as a result to the rendering unit 165. To do.
  • the NR unit 164 corresponds to the NR unit 103 of the recording device 11 and performs NR processing similar to that in the NR unit 103 to suppress components such as non-target sounds included in the object.
  • the rendering unit 165 receives the moving body related information supplied from the decoding unit 132, the listening related information supplied from the higher control unit, and the NR unit 164 as a result of the section detection supplied from the section detecting unit 162. Reproduction data is generated based on the object and supplied to the reproduction unit 134.
  • the listening related information includes, for example, listening position information, listening direction information, listening position movement information, and desired sound source information, and is information specified by, for example, a user operation input.
  • the listening position information is information indicating the listening position in the recording target space
  • the listening direction information is information indicating the listening direction.
  • the listening position movement information includes the listening position in the recording target space, that is, the movement (moving) of the virtual listener in the recording target space, such as the moving speed of the virtual listener at the listening position and the acceleration during the movement. ).
  • the desired sound source information is information indicating the sound source of the component that should be included in the sound to be reproduced by the reproduction data.
  • a player as a moving body is designated as a sound source (hereinafter also referred to as a designated sound source) indicated by desired sound source information.
  • the desired sound source information may be information indicating the position of the designated sound source in the recording target space.
  • the rendering unit 165 includes a priority calculation unit 181.
  • the priority calculation unit 181 calculates the priority of each object.
  • the priority of an object indicates that the higher the priority value is, the more important the object is, and the higher the priority when generating reproduction data.
  • the priority calculation unit 181 includes at least one of the sound pressure of the object supplied from the NR unit 164, the section detection result, the moving body related information, the listening related information, and the type of NR processing performed by the NR unit 164. Based on one of them, the priority of each object is calculated.
  • the priority calculation unit 181 may make the priority of a moving object closer to the listening position higher based on the listening position information and the moving body position information, or based on the moving body position information and the like.
  • the priority of the moving object closer to a predetermined position such as the position of the ball designated by the user or the like or the position of the designated sound source is set higher.
  • the priority calculation unit 181 increases the priority of the object section including the component of the designated sound source indicated by the desired sound source information based on the result of the section detection and the desired sound source information.
  • the priority calculation unit 181 determines, based on the moving body direction information and the listening direction information, the direction indicated by the moving body direction information, that is, the direction in which the moving body is facing, and the listening direction indicated by the listening direction information.
  • the moving objects in the directions facing each other are set to have higher object priority.
  • the priority calculation unit 181 determines the priority of a moving object that approaches a listening position based on time-series moving body position information, sound collection position movement information, listening position information, listening position movement information, and the like. To be higher.
  • the priority calculation unit 181 has a higher priority and a lower acceleration, that is, vibration, for a moving object with a small moving amount and a moving object with a low moving speed based on the sound collection position movement information.
  • the priority is set higher for smaller moving objects. This is because the moving object with less movement such as the moving amount, the moving speed, and the vibration has less noise contained in the recorded object, and the component of the target sound is included at a higher SN ratio.
  • a moving object with little movement has less side effects such as a Doppler effect during mixing (synthesis), so that the quality of reproduced data finally obtained is improved.
  • the priority calculation unit 181 has a high priority for the object section including the target sound based on the result of the section detection, and includes non-target sounds such as an NG word speech sound and a noise sound.
  • the priority of the object section that is not set is made higher.
  • the priority of the object section that includes non-target sounds such as undesired speech sounds and noise sounds is lowered.
  • the priority may be increased for an object section including the target sound when the sound pressure of the object is equal to or higher than a predetermined sound pressure.
  • the object's sound that is estimated to be observed at the listening position at a predetermined sound pressure or higher at the listening position is given higher priority. May be. At this time, the priority of the object that is estimated to be able to observe only a sound lower than the predetermined sound pressure at the listening position may be lowered.
  • the priority calculation unit 181 lowers the priority of an object section that includes a predetermined type of noise sound that is difficult to suppress (reduce) based on the result of section detection or the type of NR processing. Like that. In other words, an object with less noise has a higher priority. This is because object sections that contain noise sounds of types that are difficult to suppress contain noise sounds that could not be removed even after NR processing, or the quality deteriorates due to the effects of noise noise suppression. This is because it can be said that the sound quality is low compared to other sections due to reasons such as trapping.
  • the rendering unit 165 selects an object used for rendering, that is, an object used for generating reproduction data, based on the priority of each object.
  • a predetermined number of objects may be selected as objects to be used for rendering in order from the highest priority.
  • an object having a priority level equal to or higher than a predetermined value may be selected as an object used for rendering.
  • the rendering unit 165 performs rendering based on one or a plurality of objects selected based on the priority, and generates reproduction data of a predetermined number of channels.
  • an object used for rendering selected based on priority is also referred to as a selected object.
  • a signal of each channel of reproduction data (hereinafter also referred to as an object channel signal) is generated for each selected object.
  • an object channel signal is generated by VBAP (Vector Based Amplitude Panning) or the like based on listening related information, moving object related information, or speaker placement information indicating the placement position of a speaker unit constituting the speaker array as the speaker 135 Also good.
  • VBAP Vector Based Amplitude Panning
  • the sound image can be localized at an arbitrary position in the recording target space.
  • the listening position is a position where there is no player as a moving body, for example, the sound field in the listening direction at the listening position can be reproduced in a pseudo manner.
  • the sound field in the listening direction at the listening position can be reproduced in a pseudo manner.
  • the rendering unit 165 when the object channel signal is obtained for each selected object, the rendering unit 165 generates reproduction data by performing mixing processing and synthesizing the object channel signal of each selected object.
  • the object channel signal of the same channel of each selected object is weighted and added by the weight for each selected object to obtain the corresponding channel signal of the reproduction data.
  • Such a mixing process can also provide a sense of distance and direction from each sound source to the listening position.
  • the weight for each selected object used for the mixing process (hereinafter also referred to as composite weight) is, for example, the priority of the selected object, the sound pressure of the object supplied from the NR unit 164, the result of the section detection, and the moving body related information.
  • the rendering unit 165 dynamically determines each section. Note that the composite weight may be determined for each channel for each section of the selected object.
  • the selected object of the moving object that is closer to the listening position has a higher synthetic weight.
  • the composite weight is determined in consideration of the distance attenuation from the position of the moving body to the listening position.
  • the direction of the moving body indicated by the moving body direction information and the listening direction indicated by the listening direction information are directions in which the moving body faces each other.
  • the selected object has a higher synthesis weight.
  • the synthesis weight of the selected object including the component of the designated sound source indicated by the desired sound source information is increased.
  • the synthesized weight may be increased as the selected object is a moving object having a higher sound pressure and a shorter distance to the listening position.
  • the synthesis weight of the selected object including the type of noise sound that is difficult to suppress (reduce) is reduced.
  • the object obtained by the recording device 11 located closest to the designated sound source is the selected object.
  • the synthesis weight is increased in the section in which the sound of the designated sound source in the selected object is included as the target sound, and the synthesis weight is 0 in the section in which the sound of the designated sound source is not included as the target sound. Can be muted.
  • only the object obtained by the recording device 11 located closest to the designated sound source may be selected as the selected object, or other objects may be selected as the selected object.
  • the above object channel signal generation and mixing processing is performed as rendering processing, and reproduction data is generated.
  • the rendering unit 165 supplies the obtained reproduction data to the reproduction unit 134.
  • the playback device 12 may have the configuration shown in FIG. In FIG. 7, parts corresponding to those in FIG. 5 or FIG. 6 are denoted by the same reference numerals, and the description thereof is omitted as appropriate.
  • the playback device 12 includes an acquisition unit 131, a decoding unit 132, a rendering unit 165, a playback unit 134, and a speaker 135.
  • the rendering unit 165 has a priority calculation unit 181.
  • the priority calculation unit 181 of the rendering unit 165 determines the priority of each object based on the moving body related information supplied from the decoding unit 132, the sound pressure of each object, and the listening related information supplied from the higher control unit. Is calculated.
  • the rendering unit 165 selects a selected object based on the priority of each object, and reproduces the selected object using the priority, the sound pressure of the object, the moving body related information, and the listening related information as necessary. Data is generated and supplied to the playback unit 134.
  • the object transmission data output from the recording device 11 includes not only the object and moving body related information, but also the result of section detection in the section detection unit 101 and the type of NR processing performed in the NR unit 103.
  • the information shown may also be included.
  • the priority calculation unit 181 and the rendering unit 165 can use the section detection result and the information indicating the type of NR processing supplied from the decoding unit 132 for calculation of priority and generation of reproduction data. It becomes like this.
  • each recording device 11 arranged in the recording target space will be described with reference to a flowchart of FIG.
  • the recording device 11 is assumed to have the configuration shown in FIG.
  • step S11 the microphone array 41 records a sound field.
  • the microphone array 41 collects ambient sounds, and supplies an object that is a recording signal obtained as a result to the recording unit 42.
  • the recording unit 42 performs AD conversion and amplification processing on the object supplied from the microphone array 41 and supplies the obtained object to the encoding unit 44.
  • the distance measuring device 43 When recording by the microphone array 41 is started, the distance measuring device 43 starts measuring the position of the moving body, and the moving body position information, the moving body direction information, and the sound collection position movement obtained as a result thereof.
  • the mobile body related information including information is sequentially supplied to the encoding unit 44. In other words, the moving body related information is acquired by the distance measuring device 43.
  • step S ⁇ b> 12 the encoding unit 44 encodes the object supplied from the recording unit 42 and the moving body related information supplied from the distance measuring device 43 to generate object transmission data, and supplies it to the output unit 45.
  • step S13 the output unit 45 outputs the object transmission data supplied from the encoding unit 44, and the recording process ends.
  • the output unit 45 outputs the object transmission data by transmitting the object transmission data to the playback device 12 wirelessly or by supplying the object transmission data to the storage for recording.
  • the recording device 11 records the surrounding sound field (sound), acquires the moving body related information, and outputs the object transmission data.
  • recording is performed by the recording devices 11 that are discretely arranged in the recording target space, and object transmission data is output.
  • the playback device 12 can play back the sound at an arbitrary listening position and listening direction with a high sense of presence using the objects obtained by the recording devices 11.
  • the playback device 12 is configured as shown in FIG.
  • step S41 the acquisition unit 131 acquires the object transmission data and supplies it to the decryption unit 132.
  • the acquisition unit 131 acquires the object transmission data by receiving the object transmission data.
  • the acquisition unit 131 reads the object transmission data from the storage, The object transmission data is obtained by receiving the object transmission data from the device.
  • the decoding unit 132 decodes the object transmission data supplied from the acquisition unit 131 and supplies the object and the moving body related information obtained as a result to the signal processing unit 133. As a result, the signal processing unit 133 is supplied with objects and moving body related information obtained by all the recording devices 11 in the recording target space.
  • step S42 the synchronization calculation unit 161 of the signal processing unit 133 performs synchronization processing of each object supplied from the decoding unit 132, and supplies the synchronized objects to the section detection unit 162 and the beam forming unit 163.
  • step S ⁇ b> 43 the section detection unit 162 detects each of the target sound and non-target sound detectors that are stored in advance and the mobile body related information supplied from the decoding unit 132. Section detection is performed on the object, and the detection result is supplied to the beamforming unit 163, the NR unit 164, and the rendering unit 165.
  • step S ⁇ b> 44 the beam forming unit 163 applies each object supplied from the synchronization calculating unit 161 based on the section detection result supplied from the section detecting unit 162 and the moving body related information supplied from the decoding unit 132. Beam forming is performed. Thereby, the component of the specific sound source in the object is emphasized or suppressed.
  • the beam forming unit 163 supplies the object obtained by the beam forming to the NR unit 164.
  • step S45 the NR unit 164 performs NR processing on the object supplied from the beam forming unit 163 based on the result of the section detection supplied from the section detection unit 162, and renders the object obtained as a result To the unit 165.
  • step S ⁇ b> 46 the priority calculation unit 181 of the rendering unit 165 determines the sound pressure of the object supplied from the NR unit 164, the section detection supplied from the section detection unit 162, and the moving object related supplied from the decoding unit 132.
  • the priority of each object is calculated based on the information, the listening related information supplied from the higher-level control unit, and the type of NR processing performed by the NR unit 164.
  • step S47 the rendering unit 165 performs rendering on the object supplied from the NR unit 164.
  • the rendering unit 165 selects some of the objects supplied from the NR unit 164 as selection objects based on the priority calculated by the priority calculation unit 181. In addition, the rendering unit 165 generates an object channel signal by referring to the listening related information and the moving body related information as necessary for each selected object.
  • the rendering unit 165 selects the selected object based on the priority, the sound pressure of the selected object, the section detection result, the moving body related information, the listening related information, the type of the NR process performed by the NR unit 164, and the like.
  • the composite weight is determined (calculated) for each section.
  • the rendering unit 165 generates reproduction data by performing a mixing process in which the object channel signal of each selected object is weighted and added with the obtained synthesis weight, and supplies the reproduction data to the reproduction unit 134.
  • the playback unit 134 performs DA conversion and amplification processing on the playback data supplied from the rendering unit 165, and supplies the playback data obtained as a result to the speaker 135.
  • step S48 the speaker 135 reproduces a pseudo sound in the listening position and listening direction in the recording target space based on the reproduction data supplied from the reproducing unit 134, and the reproduction process ends.
  • the playback device 12 calculates the priority for the object obtained by the recording in each recording device 11, and selects the object used for generating the playback data. Further, the playback device 12 generates playback data based on the selected object, and plays back the sound at the listening position and listening direction in the recording target space.
  • the playback device 12 performs priority calculation and rendering in consideration of the section detection result, the moving body related information, the listening related information, the type of NR processing performed by the NR unit 164, and the like. Thereby, the sound of arbitrary listening positions and listening directions can be reproduced with high presence.
  • the recording device 11 when the recording device 11 has the configuration shown in FIG. 3, the recording device 11 performs beam forming and NR processing. That is, the recording process shown in FIG. 10 is performed.
  • step S71 is the same as the process of step S11 of FIG. 8, the description is abbreviate
  • the processing of step S71 is performed and an object is obtained, the object is supplied from the microphone array 41 to the section detection unit 101 and the beam forming unit 102 of the signal processing unit 71 via the recording unit 42.
  • step S ⁇ b> 72 the section detection unit 101 determines the object supplied from the recording unit 42 based on the target sound and non-target sound detectors stored in advance and the moving body related information supplied from the distance measuring device 43. Is detected, and the detection result is supplied to the beamforming unit 102 and the NR unit 103.
  • step S ⁇ b> 73 the beam forming unit 102 applies the object supplied from the recording unit 42 based on the section detection result supplied from the section detection unit 101 and the moving body related information supplied from the distance measuring device 43. Perform beamforming. Thereby, the component of the specific sound source in the object is emphasized or suppressed.
  • the beam forming unit 102 supplies an object obtained by beam forming to the NR unit 103.
  • step S74 the NR unit 103 performs NR processing on the object supplied from the beamforming unit 102 based on the section detection result supplied from the section detection unit 101, and encodes the object obtained as a result. To the conversion unit 44.
  • the NR-processed object not only the NR-processed object but also information indicating the section detection result obtained by the section detection unit 101 and the type of NR processing performed by the NR unit 103 are also transmitted from the NR unit 103 to the encoding unit. 44 may be supplied.
  • step S75 and step S76 are performed thereafter, and the recording process ends.
  • these processes are the same as the process of step S12 and step S13 of FIG. The description is omitted.
  • step S75 when information indicating the section detection result or the type of NR processing performed in the NR unit 103 is supplied from the NR unit 103 to the encoding unit 44, the encoding unit 44 determines whether the object or Object transmission data including not only the moving body related information but also information indicating the section detection result and the type of NR processing performed by the NR unit 103 is generated.
  • the recording apparatus 11 performs beam forming and NR processing on the object obtained by recording, and generates object transmission data.
  • the playback device 12 is configured as shown in FIG.
  • step S101 When the reproduction process is started, the process of step S101 is performed and the object transmission data is acquired. However, the process of step S101 is the same as the process of step S41 of FIG.
  • step S101 when the object transmission data is acquired by the acquisition unit 131 and the object transmission data is decoded by the decoding unit 132, the object and the moving body related information obtained by the decoding are transmitted from the decoding unit 132 to the rendering unit. 165. Further, when the object transmission data includes information indicating the result of section detection or the type of NR processing performed by the NR unit 103, the information indicating the result of section detection or the type of NR processing is also decoded. The data is supplied from the unit 132 to the rendering unit 165.
  • step S102 the priority calculation unit 181 of the rendering unit 165 determines each object based on the moving body related information supplied from the decoding unit 132, the sound pressure of the object, and the listening related information supplied from the upper control unit. The priority of is calculated.
  • the priority calculation unit 181 When the information indicating the section detection result and the type of NR processing is supplied from the decoding unit 132, the priority calculation unit 181 also uses the information indicating the section detection result and the type of NR processing. Calculate the priority.
  • step S103 the rendering unit 165 performs rendering on the object supplied from the decoding unit 132.
  • step S103 the same processing as in step S47 of FIG. 9 is performed, and reproduction data is generated.
  • information indicating the result of section detection and the type of NR processing is supplied from the decoding unit 132, the information indicating the result of section detection and the type of NR processing is used to determine the synthesis weight as necessary. Used.
  • the rendering unit 165 supplies the obtained reproduction data to the reproduction unit 134.
  • the reproduction unit 134 performs DA conversion and amplification processing on the reproduction data supplied from the rendering unit 165, and supplies the reproduction data obtained as a result to the speaker 135.
  • step S104 When the reproduction data is supplied to the speaker 135, the process of step S104 is performed thereafter, and the reproduction process ends. However, the process of step S104 is the same as the process of step S48 of FIG. To do.
  • the playback device 12 generates playback data based on the object obtained by recording in each recording device 11, and plays back the sound at the listening position and listening direction in the recording target space.
  • the playback device 12 since the playback device 12 does not need to perform section detection, beam forming, and NR processing in particular, it is possible to play back the sound at an arbitrary listening position and listening direction with a high sense of reality with a smaller amount of processing.
  • each recording device 11 individually transmits object transmission data to the playback device 12 has been described as an example. However, some object transmission data is collected and the object transmission data is collected into a playback device. 12 may be transmitted.
  • the sound field reproduction system is configured as shown in FIG. In FIG. 12, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the sound field reproduction system shown in FIG. 12 includes recording devices 11-1 to 11-5, a recording device 211-1, a recording device 211-2, and a playback device 12.
  • the sound field reproduction system shown in FIG. 12 can record and reproduce the sound field of the field where the soccer game is being played.
  • each recording device 11 is attached to a soccer player.
  • the recording device 211-1 and the recording device 211-2 are attached to soccer players, referees, etc., and the recording device 211-1 and the recording device 211-2 are also for sound field recording similar to the recording device 11. It has the function of
  • the recording device 211-1 and the recording device 211-2 are also simply referred to as the recording device 211 unless it is necessary to distinguish between them. Although an example in which there are two recording devices 211 arranged in the recording target space will be described here, any number of recording devices 211 may be used.
  • the recording device 11 and the recording device 211 attached to each player, the referee, and the like are discretely arranged on the soccer field as the recording target space.
  • each recording device 211 acquires object transmission data from the recording device 11 in the vicinity thereof.
  • the recording device 11-1 to the recording device 11-3 transmit object transmission data to the recording device 211-1, and the recording device 11-4 and the recording device 11-5 send an object to the recording device 211-2. Sending transmission data.
  • each recording device 211 receives the object transmission data may be determined in advance or may be determined dynamically. For example, when it is dynamically determined from which recording device 11 the object transmission data is received, the recording device 211 closest to the recording device 11 receives the object transmission data from the recording device 11. It may be.
  • the recording device 211 itself records the sound field to generate object transmission data, selects some of the generated object transmission data and the object transmission data received from the recording device 11, and selects the selected object transmission. Only the data is transmitted to the playback device 12.
  • all the object transmission data among the object transmission data generated by the recording device 211 and the object transmission data received from the one or more recording devices 11 may be transmitted to the playback device 12. Only one or more partial object transmission data may be transmitted to the playback device 12.
  • selection can be performed based on mobile-related information included in each object transmission data.
  • the object transmission data of a moving body with less movement can be selected by referring to the sound collection position movement information of the moving body related information. In this case, it is possible to select object transmission data of a high-quality object with less noise sound.
  • the moving body position information of the moving body related information it is possible to select object transmission data of moving bodies located at positions distant from each other. In other words, when there are a plurality of moving bodies at close positions, only the object transmission data of one of the moving bodies can be selected. Thereby, it is possible to prevent a similar object from being transmitted to the playback apparatus 12, and to reduce the transmission amount.
  • the moving body direction information of the moving body related information it is possible to select object transmission data of moving bodies that are facing different directions. In other words, when there are a plurality of moving bodies facing the same direction, only the object transmission data of one moving body among these moving bodies can be selected. Thereby, it is possible to prevent a similar object from being transmitted to the playback apparatus 12, and to reduce the transmission amount.
  • the playback device 12 receives the object transmission data transmitted from the recording device 211, generates playback data based on the received object transmission data, and plays back a sound at a predetermined listening position and listening direction.
  • the recording device 211 collects the object transmission data obtained by the recording device 11 and selects (from the plurality of object transmission data) what is supplied to the playback device 12 to transmit (transmit) to the playback device 12.
  • the amount of object transmission data transmitted can be reduced.
  • the processing amount in the playback device 12 can also be reduced.
  • Such a structure of the sound field reproduction system is particularly useful when the number of recording devices 11 is large.
  • the recording device 211 may have a recording function similar to that of the recording device 11, or does not have such a recording function, and only the object transmission data collected from the recording device 11 is transferred to the playback device 12. You may make it select the object transmission data to transmit.
  • the recording device 211 when the recording device 211 has a recording function, the recording device 211 is configured as shown in FIG.
  • a microphone array 251 includes a microphone array 251, a recording unit 252, a distance measuring device 253, an encoding unit 254, an acquisition unit 255, a selection unit 256, and an output unit 257.
  • the microphone array 251 to the encoding unit 254 correspond to the microphone array 41 to the encoding unit 44 of the recording device 11 and perform the same operations as those microphone array 41 to the encoding unit 44, and thus description thereof is omitted. To do.
  • the acquisition unit 255 receives (transmits) the object transmission data from the recording device 11 by receiving the object transmission data transmitted from the output unit 45 of the recording device 11 wirelessly, and supplies it to the selection unit 256.
  • the selection unit 256 transmits one or more object transmission data to be transmitted to the playback device 12 from the one or more object transmission data supplied from the acquisition unit 255 and the object transmission data supplied from the encoding unit 254. And the selected object transmission data is supplied to the output unit 257.
  • the output unit 257 outputs the object transmission data supplied from the selection unit 256.
  • the output unit 257 transmits the object transmission data to the playback device 12 wirelessly.
  • the output unit 257 outputs the object transmission data to the storage, and records the object transmission data in the storage.
  • the object transmission data recorded in the storage is read out directly or indirectly by the playback device 12 at an arbitrary timing.
  • the transmission amount of the object transmission data and the processing amount in the reproduction device 12 can be reduced. Can be reduced.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 14 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processes by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a signal processing apparatus comprising: a rendering unit that generates reproduction data of a sound at an arbitrary listening position in the target space based on recording signals of microphones attached to a plurality of moving bodies in the target space.
  • the rendering unit selects one or a plurality of the recording signals from the plurality of recording signals obtained for each of the moving bodies, and the reproduction data is selected based on the selected one or a plurality of the recording signals.
  • the signal processing device according to (1).
  • the signal processing apparatus according to (4) or (5), wherein the priority calculation unit calculates the priority such that the priority of the recorded signal of the moving body with a smaller movement amount is higher. (7) The priority calculation unit calculates the priority based on the result of the section detection or the type of the noise reduction processing so that the recording signal with less noise has a higher priority. The signal processing device according to any one of the above. (8) The priority calculation unit calculates the priority so that the priority of the recorded signal that does not include the non-target sound is high based on the result of the section detection. (4) to (7) The signal processing device according to any one of the above.
  • the signal processing device includes the priority, the sound pressure of the recorded signal, the section detection result, the type of the noise reduction process, the position of the moving body in the target space, the direction in which the moving body is facing, the movement
  • the one or more of the recordings selected based on at least one of information on body movement, the listening position, the listening direction, information on the listener's movement, and information indicating the designated sound source
  • the signal processing device according to any one of (4) to (9), wherein the reproduction data is generated by weighted addition of signals.
  • the signal processing device wherein the rendering unit generates the reproduction data in the listening direction at the listening position.
  • the signal processor A signal processing method for generating reproduction data of a sound at an arbitrary listening position in the target space based on recording signals of microphones attached to a plurality of moving bodies in the target space.
  • a program that causes a computer to execute processing including a step of generating reproduction data of sound at an arbitrary listening position in the target space based on recorded signals of microphones attached to a plurality of moving bodies in the target space.
  • 11-1 to 11-5 11 Recording device, 12 playback device, 133 signal processing unit, 134 playback unit, 162 section detection unit, 163 beamforming unit, 164 NR unit, 165 rendering unit, 181 priority calculation unit

Abstract

本技術は、任意の聴取位置での音を高い臨場感で再生することができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、対象空間内の任意の聴取位置の音の再生データを生成するレンダリング部を備える。本技術は再生装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、任意の聴取位置での音を高い臨場感で再生することができるようにした信号処理装置および方法、並びにプログラムに関する。
 例えばサッカーやコンサートなど、空間に関わるコンテンツの再生時において、その空間内の任意の聴取位置で聞こえる音、すなわち音場を再現することができれば、臨場感の高いコンテンツ再生を実現することが可能である。
 一般的な広いフィールド(空間)を対象とする音声収録に関する技術として、コンサートホール等で複数の固定位置にマイクロホンを配置して収録を行うサラウンド収音や、遠方からのガンマイクロホン収音、マイクアレイでの収録音に対するビームフォーミングの適用などが挙げられる。
 また、空間内に複数の発話者がいる場合に、発話者ごとにマイクロホンで収音を行い、それらの発話者ごとの収録音声と発話者の位置情報とを対応付けて記録しておくことで、空間内における聴取位置に応じた音像定位を実現するシステムが提案されている(例えば、特許文献1参照)。
 さらに全天球、バードビュー、ウォークスルーなどの自由視点における音場再現においては、広い間隔で設置された複数のサラウンドマイクロホンによる収音や、複数のマイクロホンが球状に配置された球状マイクアレイでの全天球収音などが知られている。例えば全天球収音は、Ambisonicsへの分解と再構成を行うものであり、最もシンプルなものが、ビデオカメラ等に設けられた3つのマイクロホンを用いて収音を行い5.1chサラウンドの音声を得るものである。
国際公開第2015/162947号
 しかしながら、上述した技術では、空間内の任意の聴取位置での音を高い臨場感で再生することは困難であった。
 例えば一般的な広いフィールドを対象とする音声収録に関する技術では、音源から収音位置までの距離が離れてしまうことがあり、そのようなときにはマイクロホン自体のSN比(Signal to Noise ratio)性能の限界から音質が低下してしまい、これにより臨場感も低下する。加えて、音源から収音位置までの距離が離れると、残響の影響による音の明瞭度の低下が無視できなくなることもある。収録した音から残響成分を除去する残響除去技術も知られているが、そのような残響除去技術でも残響成分の除去には限界がある。
 また、音源の移動に対して、レコーディングエンジニアが手動でマイクロホンの向きを変える場合、人力でマイクロホンに対する正確な回転操作を行って収音方向を変えることにも限界があり、高い臨場感での音の再生の実現は困難である。
 さらに、マイクアレイで得られた収録音に対してビームフォーミングを適用する場合においても、音源が移動しているときには音源の移動に対する追従性の限界があり、臨場感の高い音の再生を実現することは困難である。
 しかも、この場合、ビームフォーミングにより所定方向の音源を同相化して強調するには低域でマイクロホンの開口部分をできるだけ大きくとる必要があるため、装置が極端に大型化してしまう。また、ビームフォーミングを行う場合、マイクロホン数が増えるとキャリブレーションも煩雑化し、現実には固定方向の音源の強調しか行うことができない。
 また、特許文献1に記載の技術では、発話者が移動することは想定されておらず、音源が移動するコンテンツにおいては、十分に高い臨場感で音の再生を行うことができない。
 さらに、自由視点における音場再現においても、上述した一般的な広いフィールドを対象とする音声収録に関する技術における場合と同様に、マイクロホンのSN比性能の限界により、遠方にある音源の音を収録することは困難である。そのため、任意の聴取位置における音を高い臨場感で再生することはできなかった。
 本技術は、このような状況に鑑みてなされたものであり、空間内の任意の聴取位置での音を高い臨場感で再生することができるようにするものである。
 本技術の一側面の信号処理装置は、対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成するレンダリング部を備える。
 本技術の一側面の信号処理方法またはプログラムは、対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成するステップを含む。
 本技術の一側面においては、対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データが生成される。
 本技術の一側面によれば、空間内の任意の聴取位置での音を高い臨場感で再生することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
音場再現システムの構成例を示す図である。 収録装置の構成例を示す図である。 収録装置の構成例を示す図である。 信号処理部の構成例を示す図である。 再生装置の構成例を示す図である。 信号処理部の構成例を示す図である。 再生装置の構成例を示す図である。 収録処理を説明するフローチャートである。 再生処理を説明するフローチャートである。 収録処理を説明するフローチャートである。 再生処理を説明するフローチャートである。 音場再現システムの構成例を示す図である。 収録装置の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈音場再現システムの構成例〉
 本技術は、対象となる空間内において複数の移動体にマイクロホンおよび測距デバイスを装着し、各移動体についての音声と位置、方向、移動(動き)に関する情報を取得し、再生側においてそれらの取得された情報を組み合わせることで、空間内の任意の位置を聴取位置とした音を疑似的に再現するものである。特に、本技術では、任意の聴取位置にいる仮想の受聴者が任意の方向を向いているときに、その受聴者に聞こえるであろう音(音場)を疑似的に再現することが可能である。
 本技術は、例えば空間内の各位置で音(音場)を収録し、それらの収録した音に基づいて、空間内の任意の聴取位置における音を疑似的に再生するVR(Virtual Reality)自由視点サービス等の音場再現システムに適用することが可能である。
 具体的には、本技術を適用した音場再現システムでは、音場収録の対象となる空間内に分散して配置された複数のマイクロホンまたはマイクアレイからなる1つのマイクアレイが用いられて、空間内の複数の位置での音の収録が行われる。
 ここで、収音のためのマイクロホンやマイクアレイの少なくともいくつかは、空間内を移動する移動体に装着される。
 なお、以下では、説明を簡単にするため、空間内の1つの位置での収音はマイクアレイにより行われるものとし、そのマイクアレイは移動体に装着されているものとして説明を続ける。さらに、以下、移動体に装着されたマイクアレイにより収音された音(収録音)、より詳細には収録音の信号である収録信号をオブジェクトとも称することとする。
 各移動体では音の収音のためのマイクアレイだけでなく、GPS(Global Positioning System)や9軸センサなどの測距デバイスも装着されて、移動体についての移動体位置情報、移動体方位情報、および収音位置移動情報も取得される。
 ここで、移動体位置情報とは、空間内における移動体の位置を示す情報であり、移動体方位情報とは、空間内における移動体が向いている方向、より詳細には移動体に装着されたマイクアレイが向いている方向を示す情報である。例えば移動体方位情報は、空間内の所定の方向を基準としたときの移動体が向いている方向を示す方位角などとされる。
 さらに、収音位置移動情報は、移動体の移動速度や移動時の加速度など、移動体の動き(移動)に関する情報である。以下では、これらの移動体位置情報、移動体方位情報、および収音位置移動情報からなる情報を移動体関連情報とも称することとする。
 各移動体について、オブジェクトと移動体関連情報が取得されると、それらのオブジェクトおよび移動体関連情報が含まれるオブジェクト伝送データが生成され、再生側へと伝送される。そして、再生側では、受信されたオブジェクト伝送データに基づいて、適宜、信号処理やレンダリングが行われ、再生データが生成される。
 レンダリングでは、ユーザ(受聴者)により指定されたチャンネル数等の所定のフォーマットの音声データが再生データとして生成される。この再生データは、空間内の任意の位置を聴取位置とし、その聴取位置において任意の聴取方向を向いている仮想的な受聴者に聞こえるであろう音を再生する音声データである。
 例えば、静止物体へのマイクロホンの装着を含む、静止配置したマイクロホンの収録信号のレンダリングおよび再生は一般的に知られている。また、再生側の処理として、音源種別ごとに用意されたオブジェクトをレンダリングすることも一般的に知られている。
 これらの静止配置したマイクロホンの収録信号のレンダリングおよび再生や、音源種別ごとのレンダリングと、本技術との差異は、特に移動体にマイクアレイを装着してオブジェクトの収音(収録)と移動体関連情報の取得を行う点である。
 このようにすることで、各移動体で得られたオブジェクトと移動体関連情報を組み合わせて音場の合成を行うことができる。
 また、レンダリングの際に複数の移動体で得られたオブジェクトに対して状況に応じた優先度を算出し、優先度の高いものを利用して再生データを生成することができ、より高い臨場感で任意の聴取位置の音を再生することができる。
 なお、優先度に基づく再生データの生成については後述するが、例えば聴取位置に近い移動体のオブジェクトを選択して再生データを生成したり、移動量の少ない移動体のオブジェクトを選択して再生データを生成したりすることなどが考えられる。例えば移動量の少ない移動体では、移動体の振動等に起因するノイズが少ない、つまりSN比が高いオブジェクトが得られるので、高品質な再生データを得ることが可能である。
 さらに、マイクアレイや測距デバイスが装着される移動体の例として、例えばサッカーなどのスポーツの選手が考えられる。また、収音(収録)の具体的なターゲット、すなわち、音声の付随するコンテンツとして、例えば以下のような対象(1)乃至対象(4)などが考えられる。
 対象(1)
 チームスポーツの収録
 対象(2)
 ミュージカルやオペラ、演劇等のパフォーマンスが行われている空間を対象とする収録
 対象(3)
 ライブ会場やテーマパークにおける任意の空間を対象とする収録
 対象(4)
 オーケストラやマーチングバンド等のバンドを対象とする収録
 例えば上記の対象(1)では、選手が移動体とされて、選手にマイクアレイや測距デバイスが装着されるようにすればよい。同様に対象(2)乃至対象(4)においても演者や観客を移動体として、それらの演者や観客にマイクアレイや測距デバイスが装着されるようにすればよい。また、例えば対象(3)では、複数の場所において収録を行うようにすることもできる。
 それでは以下、本技術のより具体的な実施の形態について説明する。
 図1は、本技術を適用した音場再現システムの一実施の形態の構成例を示す図である。
 図1に示す音場再現システムは、対象となる空間における各位置で音を収録し、その空間内における任意の位置を聴取位置として、その聴取位置における任意の方向を向いている仮想的な受聴者に聞こえるであろう音(音場)を再現するものである。
 なお、以下、音の収録の対象となる空間を収録対象空間とも称することとし、聴取位置における仮想的な受聴者が向いている方向を聴取方向とも称することとする。
 図1の音場再現システムは、収録装置11-1乃至収録装置11-5および再生装置12を有している。
 収録装置11-1乃至収録装置11-5は、マイクアレイや測距デバイスを有しており、収録対象空間内の移動体に装着される。したがって、収録対象空間内においては、収録装置11-1乃至収録装置11-5が離散的に配置されていることになる。
 収録装置11-1乃至収録装置11-5は、自身が装着されている移動体について、オブジェクトを収録するとともに移動体関連情報を取得し、それらのオブジェクトおよび移動体関連情報を含むオブジェクト伝送データを生成する。
 収録装置11-1乃至収録装置11-5は、生成したオブジェクト伝送データを、無線通信により再生装置12へと送信する。
 なお、以下、収録装置11-1乃至収録装置11-5を特に区別する必要のない場合、単に収録装置11とも称することとする。また、ここでは収録対象空間内において5つの収録装置11により各移動体の位置でのオブジェクトの収録(収音)が行われる例について説明するが、収録装置11の数はいくつであってもよい。
 再生装置12は、各収録装置11から送信されたオブジェクト伝送データを受信し、各移動体について得られたオブジェクトおよび移動体関連情報に基づいて、指定された聴取位置および聴取方向の再生データを生成する。また、再生装置12は、生成された再生データに基づいて、聴取位置における聴取方向の音を再生する。これにより、収録対象空間内の任意の位置および方向を聴取位置および聴取方向とするコンテンツが再生されることになる。
 例えば音の収録対象がスポーツである場合には、そのスポーツが行われるフィールド等が収録対象空間とされるとともに、各選手が移動体とされて、それらの選手に収録装置11が装着されることになる。
 具体的には、例えばサッカーやアメリカンフットボール、ラグビー、ホッケーなどの広いフィールドで行われるチームスポーツや、マラソンなどの広い環境で行われる競技スポーツにおいて、選手一人一人に収録装置11が装着される。
 この収録装置11には、小型のマイクアレイや測距デバイス、無線伝送機能が設けられている。また、収録装置11にストレージが設けられている場合には、試合や競技の終了後にストレージからオブジェクト伝送データを読み出して再生装置12に供給することができる。
 例えば、広いフィールドの外からのガンマイクロホン収音など、収録対象空間から遠い位置からの収録では、マイクロホンのSN比限界のために選手近傍の音を収音することは困難であり、高い臨場感で音場を再現することはできない。
 これに対して、本技術を適用した音場再現システムでは、各選手が移動体とされてオブジェクトが収録される。特に、各選手に収録装置11を装着することで、その選手が発する音や、選手の歩行音、ボールキック音などを選手の近距離において高いSN比で収録することが可能である。
 したがって、再生データに基づく音の再生によって、選手の存在するエリアにおける任意の視点(聴取位置)で、任意の方向(聴取方向)を向いている状態で受聴される音場を疑似的に(artificially)再現することができる。これにより、受聴者があたかも選手の一人となって、選手と同じフィールド等にいるかのような臨場感の高い音場体験を提供することができる。
 1つの移動体、つまり1人の選手について得られた収録音であるオブジェクトは、その選手の声や動作音だけでなく、近くにいる選手の音や歓声なども混在した音声となる。
 また、時間とともに選手は収録対象空間内を移動するので、選手の位置や選手間の相対的な距離、選手が向いている方向は常に変動している。
 そのため、収録装置11では、選手(移動体)についての移動体関連情報として、移動体位置情報、移動体方位情報、および収音位置移動情報の時系列データが得られる。これらの時系列データは、必要に応じて時間方向に平滑化されるようにしてもよい。
 再生装置12は、このようにして得られた各移動体の移動体関連情報等に基づいて、各オブジェクトの優先度を算出し、得られた優先度に応じて複数のオブジェクトを重み付け加算するなどして再生データを生成する。
 このようにして得られる再生データは、任意の聴取位置において任意の聴取方向を向いたときに聞こえるであろう音場を疑似的に再現する音声データである。
 なお、移動体である選手への収録装置11、より詳細には収録装置11のマイクアレイの装着にあたり、選手の両耳の位置にマイクロホンを装着すればバイノーラル収音となる。しかし、選手の両耳以外の部位にマイクロホンを装着する場合であっても、収録装置11によって、選手が聴取している各音源からの音量バランスや定位感と略同じ音量バランスや定位感で音場を収録することが可能である。
 また、音場再現システムでは、広い空間が収録対象空間とされて複数の各位置で音場の収録が行われる。すなわち、収録対象空間内の各位置にある複数の収録装置11により音場収録が行われる。
 通常、一体型の1つのマイクアレイなどで収録対象空間の音場収録を行うと、マイクアレイと他の物体との接触などがあった場合、マイクアレイを構成する全てのマイクロホンのそれぞれでの収録で得られた収録信号には、接触による信号のノイズが混入してしまう。
 同様に音場再現システムにおいても、例えば選手同士の接触があると、それらの選手に装着された収録装置11で得られたオブジェクトには接触の振動によるノイズが混入してしまう可能性が高い。
 しかし、音場再現システムでは、複数の各収録装置11により音場収録が行われるため、選手同士の接触があったタイミングにおいても、他の接触のない選手に装着された収録装置11で得られたオブジェクトには、選手同士の接触の振動によるノイズが混入していない可能性が高い。したがって、接触のない選手に装着された収録装置11では、ノイズ音の混入のない高品質なオブジェクトを得ることが可能である。
 このように音場再現システムでは、複数の移動体に収録装置11を装着することが、重要な目的音の収録を行う場合におけるノイズ混入のリスク分散となっている。そして、複数の収録装置11で得られたオブジェクトのうち、最も状態のよい、つまり最もよい品質の目的音が含まれているオブジェクトを選別して用いれば、高品質で臨場感の高い音を再現することができる。
 さらに音場再現システムでは、収録対象空間内に離散的に配置された収録装置11で得られたオブジェクトに基づいて、任意の聴取位置および聴取方向の再生データが生成される。この再生データは、完全に物理的に正しい音場を再現するものではない。しかし、音場再現システムでは、優先度や聴取位置、聴取方向、移動体の位置や方向などを考慮し、様々な状況に応じて任意の聴取位置および聴取方向の音場を適切に再現することが可能である。換言すれば、音場再現システムでは、離散的に配置された収録装置11で得られたオブジェクトから再生データを生成するため、比較的高い自由度で臨場感の高い音場再現が可能である。
〈収録装置の構成例〉
 次に、図1に示した収録装置11および再生装置12の具体的な構成例について説明する。まず、収録装置11の構成例について説明する。
 収録装置11は、例えば図2に示すように構成される。
 図2に示す例では、収録装置11はマイクアレイ41、収録部42、測距デバイス43、符号化部44、および出力部45を有している。
 マイクアレイ41は、収録装置11が装着された移動体の周囲の音(音場)を収音し、その結果得られた収録信号をオブジェクトとして収録部42に供給する。
 収録部42は、マイクアレイ41から供給されたオブジェクトに対して、AD(Analog to Digital)変換や増幅処理などを施し、得られたオブジェクトを符号化部44に供給する。
 測距デバイス43は、例えばGPS等の位置計測センサや、収録装置11、つまり移動体の移動速度や加速度、移動体の向いている方向(方位)を計測するための9軸センサなどから構成される。
 測距デバイス43は、収録装置11が装着されている移動体について、その移動体の位置を示す移動体位置情報や、移動体が向いている方向、つまり移動体の方位を示す移動体方位情報、移動体の移動速度や移動時の加速度を示す収音位置移動情報を計測し、その計測結果を符号化部44に供給する。
 なお、測距デバイス43は、カメラや加速度センサなどから構成されるようにしてもよい。例えば測距デバイス43にカメラが設けられている場合、そのカメラにより撮影された映像(画像)からも移動体位置情報や移動体方位情報、収音位置移動情報を得ることができる。
 符号化部44は、収録部42から供給されたオブジェクトと、測距デバイス43から供給された移動体位置情報、移動体方位情報、および収音位置移動情報からなる移動体関連情報とを符号化し、オブジェクト伝送データを生成する。
 換言すれば、符号化部44はオブジェクトおよび移動体関連情報のパッキングを行い、オブジェクト伝送データを生成する。
 なお、オブジェクト伝送データの生成時には、オブジェクトや移動体関連情報が圧縮符号化されるようにしてもよいし、オブジェクトや移動体関連情報がそのままオブジェクト伝送データのパケット等に格納されるようにしてもよい。
 符号化部44は、符号化により生成されたオブジェクト伝送データを出力部45に供給する。
 出力部45は、符号化部44から供給されたオブジェクト伝送データを出力する。
 例えば出力部45が無線伝送機能を有している場合、出力部45はオブジェクト伝送データを無線により再生装置12に送信する。
 また、例えば収録装置11がストレージ、すなわち不揮発性のメモリ等の記録部を有している場合、出力部45はオブジェクト伝送データを記録部に出力し、その記録部にオブジェクト伝送データを記録させる。この場合、任意のタイミングにおいて、記録部に記録されたオブジェクト伝送データが直接または間接的に再生装置12により読み出される。
〈収録装置の他の構成例〉
 また、収録装置11においてオブジェクトに対して、予め定められた所望の音源の音等、つまり目的音等を強調するビームフォーミングや、NR(Noise Reduction)処理(ノイズ低減処理)などが行われるようにしてもよい。
 そのような場合、収録装置11は、例えば図3に示すように構成される。なお、図3において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図3に示す収録装置11は、マイクアレイ41、収録部42、信号処理部71、測距デバイス43、符号化部44、および出力部45を有している。
 図3に示す収録装置11の構成は、図2に示した収録装置11における収録部42と符号化部44との間に新たに信号処理部71を設けた構成となっている。
 信号処理部71は、必要に応じて測距デバイス43から供給された移動体関連情報を用いて、収録部42から供給されたオブジェクトに対して、ビームフォーミングやNR処理を施して、その結果得られたオブジェクトを符号化部44に供給する。
 また、信号処理部71は、例えば図4に示すように構成される。すなわち、図4に示す信号処理部71は、区間検出部101、ビームフォーミング部102、およびNR部103を有している。
 区間検出部101は、必要に応じて測距デバイス43から供給された移動体関連情報を用いて、収録部42から供給されたオブジェクトに対して区間検出を行い、その検出結果をビームフォーミング部102およびNR部103に供給する。
 例えば区間検出部101は、予め定められた目的音の検出器、および予め定められた非目的音の検出器を有しており、それらの検出器に基づく演算によりオブジェクトにおける目的音や非目的音の区間を検出する。
 そして区間検出部101は、時間信号であるオブジェクトにおける各目的音や非目的音が検出された区間を示す情報、すなわち目的音の区間や非目的音の区間を示す情報を区間検出の結果として出力する。このように区間検出では、オブジェクトの各時間区間における目的音や非目的音の有無が検出される。
 ここで、予め定められた目的音とは、例えばサッカーボールのキック音等のボール音や、移動体である選手の発話、選手の足音(歩行音)や身振り等の動作音などである。
 これに対して非目的音とは、コンテンツの音声として好ましくない音などである。具体的には、例えば風の音(風切り音)、選手の衣擦れ音、何らかの振動音、選手と他の選手や物体との接触音、歓声等の環境音、競技の作戦やプライバシに関わる発話音、野次等の予め定められた好ましくないNGワードの発話音、その他のノイズ音(雑音)などが非目的音とされる。
 また、区間検出時には、必要に応じて移動体関連情報が用いられる。
 例えば移動体関連情報に含まれる収音位置移動情報を参照すれば、移動体が動いている(移動している)か、または静止しているかを特定することができる。そこで、例えば区間検出部101は移動体が動いているときには、特定のノイズ音を検出したり、特定のノイズ音の区間であるとしたりする。逆に区間検出部101は移動体が動いていないときには、特定のノイズ音の検出を行わないようにしたり、特定のノイズ音の区間ではないとしたりする。
 また、例えば目的音や非目的音の検出のための検出器のパラメータとして、移動体の移動量等が含まれている場合には、区間検出部101は、時系列の移動体位置情報や収音位置移動情報などから移動体の移動量等を求め、その移動量等を用いて検出器に基づく演算を行う。
 ビームフォーミング部102は、区間検出部101から供給された区間検出の結果、および測距デバイス43から供給された移動体関連情報を必要に応じて用いて、収録部42から供給されたオブジェクトに対してビームフォーミングを行う。
 すなわち、例えばビームフォーミング部102は、移動体関連情報としての移動体方位情報等に基づいて、マルチマイクを使用したビームフォーミングにより所定の方向性ノイズを抑圧(低減)したり、特定方向からの到来音を強調したりする。
 また、マルチマイクによるビームフォーミングでは、例えば区間検出の結果に基づいてオブジェクトに含まれる選手の大きすぎる声等の過大な目的音や、環境音等の不要な非目的音などの成分を逆相化することで抑圧することができる。さらに、マルチマイクによるビームフォーミングでは、例えば区間検出の結果に基づいてオブジェクトに含まれるボールのキック音等の必要な目的音を同相化することで強調することができる。
 ビームフォーミング部102は、ビームフォーミングにより所定の音源成分を強調したり抑圧したりすることで得られたオブジェクトをNR部103に供給する。
 NR部103は、区間検出部101から供給された区間検出の結果に基づいて、ビームフォーミング部102から供給されたオブジェクトに対してNR処理を施し、その結果得られたオブジェクトを符号化部44に供給する。
 例えばNR処理では、オブジェクトに含まれる成分のうち、風の音や衣擦れ音、比較的定常で不要な環境音、所定のノイズ(雑音)といった非目的音等の成分が抑圧される。
〈再生装置の構成例〉
 続いて図1に示した再生装置12の構成例について説明する。
 例えば再生装置12は、図5に示すように構成される。
 再生装置12は、取得したオブジェクト伝送データに基づいて再生データを生成する信号処理装置であり、図5に示す再生装置12は、取得部131、復号部132、信号処理部133、再生部134、およびスピーカ135を有している。
 取得部131は、収録装置11から出力されたオブジェクト伝送データを取得し、復号部132に供給する。取得部131では、収録対象空間内にある全ての収録装置11からオブジェクト伝送データが取得される。
 例えば収録装置11からオブジェクト伝送データが無線により送信された場合には、取得部131は、収録装置11から送信されてきたオブジェクト伝送データを受信することで、オブジェクト伝送データを取得する。
 また、例えば収録装置11のストレージにオブジェクト伝送データが記録されている場合には、取得部131は収録装置11からオブジェクト伝送データを読み出すことで、オブジェクト伝送データを取得する。なお、収録装置11から外部の装置等にオブジェクト伝送データが出力されて保持されている場合には、その装置等からオブジェクト伝送データを読み出すことで、オブジェクト伝送データを取得してもよい。
 復号部132は、取得部131から供給されたオブジェクト伝送データを復号し、その結果得られたオブジェクトおよび移動体関連情報を信号処理部133に供給する。換言すれば、復号部132は、オブジェクト伝送データのアンパッキングを行うことで、オブジェクトおよび移動体関連情報を抽出し、信号処理部133に供給する。
 信号処理部133は、復号部132から供給された移動体関連情報およびオブジェクトに基づいて、ビームフォーミングやNR処理を行って所定のフォーマットの再生データを生成し、再生部134に供給する。
 再生部134は、信号処理部133から供給された再生データに対してDA(Digital to Analog)変換や増幅処理を施し、その結果得られた再生データをスピーカ135に供給する。スピーカ135は、再生部134から供給された再生データに基づいて、収録対象空間内の聴取位置および聴取方向における疑似的な音(simulated sound)を再生する。
 なお、スピーカ135は、1つのスピーカユニットであってもよいし、複数のスピーカユニットからなるスピーカアレイであってもよい。
 また、ここでは取得部131乃至スピーカ135が1つの装置に設けられる場合について説明するが、例えば取得部131乃至信号処理部133など、再生装置12を構成するブロックの一部が他の装置に設けられるようにしてもよい。
 例えば取得部131乃至信号処理部133が、ネットワーク上のサーバに設けられ、そのサーバから、再生部134とスピーカ135を有する再生装置に対して再生データが供給されるようにしてもよい。また、スピーカ135は、再生装置12の外部に設けられていてもよい。
 さらに、取得部131乃至信号処理部133がパーソナルコンピュータやゲーム機、ポータブル機器等に設けられていてもよいし、取得部131乃至信号処理部133がネットワーク上のクラウドにより実現されるようにしてもよい。
 また、信号処理部133は、例えば図6に示すように構成される。
 図6に示す信号処理部133は、同期算出部161、区間検出部162、ビームフォーミング部163、NR部164、およびレンダリング部165を有している。
 同期算出部161は、復号部132から供給された複数のオブジェクトについて、同期検出を行い、その検出結果に基づいて全移動体のオブジェクトを同期させ、同期された各移動体のオブジェクトを区間検出部162およびビームフォーミング部163に供給する。
 例えば同期検出では、各マイクアレイ41間のオフセットの検出や、オブジェクト、すなわちオブジェクト伝送データの送信側と受信側のクロック周期の差であるクロックドリフトが検出される。同期算出部161は、それらのオフセットやクロックドリフトの検出結果に基づいて、全オブジェクトを同期させる。
 例えば収録装置11では、マイクアレイ41を構成するマイクロホン間では同期がとれているためオブジェクトの各チャンネルの信号を同期させる処理は不要である。これに対して、再生装置12では複数の収録装置11で得られたオブジェクトが扱われるため、それらのオブジェクトを同期させる必要がある。
 区間検出部162は、復号部132から供給された移動体関連情報に基づいて、同期算出部161から供給された各オブジェクトに対して区間検出を行い、その検出結果をビームフォーミング部163、NR部164、およびレンダリング部165に供給する。
 区間検出部162は、予め定められた目的音や非目的音の検出器を有しており、収録装置11の区間検出部101における場合と同様の区間検出を行う。特に、区間検出部162において目的音や非目的音とされる音源の音は、区間検出部101において目的音や非目的音とされる音源の音と同じとなっている。
 ビームフォーミング部163は、区間検出部162から供給された区間検出の結果、および復号部132から供給された移動体関連情報を必要に応じて用いて、同期算出部161から供給された各オブジェクトに対してビームフォーミングを行う。
 すなわち、ビームフォーミング部163は、収録装置11のビームフォーミング部102に対応し、ビームフォーミング部102における場合と同様の処理を行って、ビームフォーミングにより所定音源の音等を抑圧したり強調したりする。
 なお、ビームフォーミング部163においては、基本的にはビームフォーミング部102における場合と同様の音源成分が抑圧または強調される。しかし、ビームフォーミング部163では、所定の移動体のオブジェクトに対するビームフォーミングに他の移動体の移動体関連情報を用いることもできる。
 具体的には、例えば処理対象の移動体の近くに他の移動体がある場合には、処理対象の移動体のオブジェクトに含まれる、他の移動体の音の成分が抑圧されるようにしてもよい。この場合、例えば各移動体の移動体位置情報から求まる、処理対象の移動体から他の移動体までの距離が所定の閾値以下であるときに、処理対象の移動体から見た他の移動体の方向からの到来音を抑圧するなどして、他の移動体の音の成分を抑圧すればよい。
 ビームフォーミング部163は、ビームフォーミングにより所定の音源成分を強調したり抑圧したりすることで得られたオブジェクトをNR部164に供給する。
 NR部164は、区間検出部162から供給された区間検出の結果に基づいて、ビームフォーミング部163から供給されたオブジェクトに対してNR処理を施し、その結果得られたオブジェクトをレンダリング部165に供給する。
 例えばNR部164は、収録装置11のNR部103に対応し、NR部103における場合と同様のNR処理を行って、オブジェクトに含まれる非目的音等の成分を抑圧する。
 レンダリング部165は、区間検出部162から供給された区間検出の結果、復号部132から供給された移動体関連情報、上位の制御部から供給された聴取関連情報、およびNR部164から供給されたオブジェクトに基づいて再生データを生成し、再生部134に供給する。
 ここで、聴取関連情報は、例えば聴取位置情報、聴取方位情報、聴取位置移動情報、および所望音源情報からなり、例えばユーザの操作入力等により指定される情報である。
 聴取位置情報は、収録対象空間内の聴取位置を示す情報であり、聴取方位情報は聴取方向を示す情報である。また、聴取位置移動情報は、収録対象空間内における聴取位置、すなわち聴取位置にいる仮想的な受聴者の移動速度や移動時の加速度など、収録対象空間内の仮想的な受聴者の動き(移動)に関する情報である。
 さらに所望音源情報は、再生データにより再生しようとする音に含まれるべき成分の音源を示す情報である。例えば移動体としての選手等が所望音源情報により示される音源(以下、指定音源とも称する)として指定される。なお、所望音源情報は、収録対象空間内における指定音源の位置を示す情報などであってもよい。
 レンダリング部165は、優先度算出部181を有しており、この優先度算出部181が各オブジェクトの優先度を算出する。
 例えばオブジェクトの優先度は、優先度の値が大きいほど、そのオブジェクトが重要であり、再生データ生成の際の優先度が高いことを示している。
 優先度の算出にあたっては、例えば区間検出の結果、移動体関連情報、聴取関連情報、NR部164でのNR処理の種別、オブジェクトの音圧などが考慮される。すなわち、優先度算出部181は、NR部164から供給されたオブジェクトの音圧、区間検出の結果、移動体関連情報、聴取関連情報、およびNR部164で行われたNR処理の種別の少なくとも何れか1つに基づいて、各オブジェクトの優先度を算出する。
 具体例として、例えば優先度算出部181は、聴取位置情報および移動体位置情報に基づいて、聴取位置に近い移動体のオブジェクトほど優先度が高くなるようにしたり、移動体位置情報等に基づいて、ユーザ等により指定されたボールの位置や指定音源の位置等の所定の位置に近い移動体のオブジェクトほど優先度が高くなるようにしたりする。
 また、例えば優先度算出部181は、区間検出の結果や所望音源情報に基づいて、所望音源情報により示される指定音源の成分が含まれるオブジェクト区間の優先度が高くなるようにする。
 さらに、例えば優先度算出部181は、移動体方位情報および聴取方位情報に基づいて、移動体方位情報により示される方向、つまり移動体が向いている方向と、聴取方位情報により示される聴取方向とが互いに向かい合う方向となる移動体ほどオブジェクトの優先度が高くなるようにする。
 その他、例えば優先度算出部181は、時系列の移動体位置情報や収音位置移動情報、聴取位置情報、聴取位置移動情報などに基づいて、聴取位置に近づいてくる移動体のオブジェクトほど優先度が高くなるようにする。
 また、例えば優先度算出部181は、収音位置移動情報に基づいて、移動量が少ない移動体のオブジェクトや移動速度が遅い移動体のオブジェクトほど優先度が高く、また加速度が小さい、すなわち振動が小さい移動体のオブジェクトほど優先度が高くなるようにする。これは、移動量や移動速度、振動といった動きが少ない移動体ほど、収録されたオブジェクトに含まれるノイズは少なく、目的音の成分が高いSN比で含まれているからである。また、動きが少ない移動体のオブジェクトは、ミキシング(合成)時にドップラ効果等の副作用が小さいため、最終的に得られる再生データの音質がよくなる。
 さらに、例えば優先度算出部181は、区間検出の結果に基づいて、目的音が含まれているオブジェクト区間の優先度が高く、また、NGワードの発話音やノイズ音などの非目的音が含まれていないオブジェクト区間の優先度が高くなるようにする。換言すれば、好ましくない発話音やノイズ音といった非目的音が含まれているオブジェクト区間の優先度が低くなるようにされる。なお、目的音が含まれているオブジェクト区間について、オブジェクトの音圧が所定音圧以上である場合に、優先度が高くなるようにしてもよい。その他、距離減衰を考慮し、オブジェクトや移動体位置情報、聴取位置情報に基づいて、オブジェクトの音が聴取位置において所定音圧以上で観測されると推定されるオブジェクトの優先度が高くなるようにしてもよい。このとき、聴取位置において所定音圧よりも小さい音しか観測できないと推定されるオブジェクトの優先度は低くなるようにしてもよい。
 また、例えば優先度算出部181は、区間検出の結果やNR処理の種別に基づいて、予め定められた抑圧(低減)しにくい種別のノイズ音が含まれているオブジェクト区間の優先度が低くなるようにする。換言すれば、ノイズの少ないオブジェクトほど優先度が高くなるようにされる。これは、抑圧が困難な種別のノイズ音が含まれているオブジェクト区間は、NR処理後においても除去しきれなかったノイズ音が含まれていたり、ノイズ音の抑圧の影響により品質が低下してしまったりするなどの理由により、他の区間と比較して音の品質が低い区間であるといえるからである。
 移動体のオブジェクトごとに優先度が算出されると、レンダリング部165は、各オブジェクトの優先度に基づいて、レンダリングに用いるオブジェクト、すなわち再生データの生成に用いるオブジェクトを選択する。
 具体的には、例えば優先度が高い順に予め定められた所定数のオブジェクトがレンダリングに用いられるオブジェクトとして選択されるようにしてもよい。また、例えば優先度が予め定められた値以上であるオブジェクトがレンダリングに用いられるオブジェクトとして選択されるようにしてもよい。
 このようにして優先度に基づいてレンダリングに用いるオブジェクトを選択することで、移動体の動きが少なく、目的音が高いSN比で含まれている高品質なオブジェクトを選択することが可能となる。換言すれば、ノイズが少なく、臨場感の高いオブジェクトを選択することができる。
 レンダリング部165は、優先度に基づき選択した1または複数のオブジェクトに基づいてレンダリングを行い、所定チャンネル数の再生データを生成する。なお、以下、優先度に基づいて選択された、レンダリングに用いられるオブジェクトを選択オブジェクトとも称することとする。
 レンダリングでは、例えば選択オブジェクトごとに、再生データの各チャンネルの信号(以下、オブジェクトチャンネル信号とも称する)が生成される。
 例えば、聴取関連情報や移動体関連情報、スピーカ135としてのスピーカアレイを構成するスピーカユニットの配置位置を示すスピーカ配置情報に基づいて、VBAP(Vector Based Amplitude Panning)などによりオブジェクトチャンネル信号が生成されてもよい。
 VBAP等によりオブジェクトチャンネル信号を生成すれば、収録対象空間内における任意の位置に音像を定位させることができる。これにより、例えば聴取位置が移動体としての選手のいない位置などである場合であっても、その聴取位置での聴取方向の音場を疑似的に再現することができる。特に、優先度の高いオブジェクトのみを用いることで、高品質で安定した、高い臨場感の音場を再現することが可能である。
 例えば一般的な自由視点における音場再現においては、任意位置で実際に聴取される音の再生と、その方向感を同時に得ることは困難である。これに対して、レンダリング時にVBAP等によりオブジェクトチャンネル信号を生成すれば、各音源から聴取位置までの距離感や方向感を得ることができる。
 また、各選択オブジェクトについてオブジェクトチャンネル信号が得られると、レンダリング部165は、ミキシング処理を行って各選択オブジェクトのオブジェクトチャンネル信号を合成することで再生データを生成する。
 すなわち、ミキシング処理では、各選択オブジェクトの同じチャンネルのオブジェクトチャンネル信号が、選択オブジェクトごとの重みにより重み付け加算されて、再生データの対応するチャンネルの信号とされる。このようなミキシング処理によっても、各音源から聴取位置までの距離感や方向感を得ることができる。
 ここで、ミキシング処理に用いる選択オブジェクトごとの重み(以下、合成重みとも称する)は、例えば選択オブジェクトの優先度、NR部164から供給されたオブジェクトの音圧、区間検出の結果、移動体関連情報、聴取関連情報、およびNR部164で行われたNR処理の種別の少なくとも何れか1つに基づいて、レンダリング部165により区間ごとに動的に決定される。なお、合成重みは選択オブジェクトの各区間についてチャンネルごとに決定されるようにしてもよい。
 具体的には、例えば移動体位置情報と聴取位置情報に基づいて、聴取位置から近い移動体の選択オブジェクトほど合成重みが大きくなるようにされる。この場合、移動体の位置から聴取位置までの距離減衰が考慮されて合成重みが決定されることになる。
 また、例えば移動体方位情報および聴取方位情報に基づいて、移動体方位情報により示される、移動体が向いている方向と、聴取方位情報により示される聴取方向とが互いに向かい合う方向となる移動体の選択オブジェクトほど合成重みが大きくなるようにされる。
 さらに、例えば区間検出の結果および所望音源情報に基づいて、所望音源情報により示される指定音源の成分が含まれる選択オブジェクトの合成重みが大きくなるようにされる。このとき音圧が大きく、聴取位置までの距離が短い移動体の選択オブジェクトほど合成重みが大きくなるようにしてもよい。その他、例えば区間検出の結果やNR処理の種別に基づいて、抑圧(低減)しにくい種別のノイズ音が含まれている選択オブジェクトの合成重みが小さくなるようにされる。
 他の例として、例えば指定音源の音が含まれている再生データを得たい場合で、その指定音源に最も近い位置にある収録装置11で得られたオブジェクトが選択オブジェクトとされたとする。そのような場合、その選択オブジェクトにおける指定音源の音が目的音として含まれている区間では合成重みが大きくなるようにし、指定音源の音が目的音として含まれていない区間では合成重みが0とされてミュートされるようにすることができる。
 なお、この場合、指定音源に最も近い位置にある収録装置11で得られたオブジェクトのみが選択オブジェクトとされてもよいし、他のオブジェクトも選択オブジェクトとして選択されるようにしてもよい。
 以上のオブジェクトチャンネル信号の生成とミキシング処理がレンダリングの処理として行われ、再生データが生成される。レンダリング部165は、得られた再生データを再生部134に供給する。
〈再生装置の他の構成例〉
 なお、収録装置11が図2または図3の何れに示した構成とされる場合でも、再生装置12は図5に示した構成とすることができるが、収録装置11が図3に示した構成とされる場合には、再生装置12においてビームフォーミングやNR処理を行う必要がない。
 そのため、収録装置11が図3に示した構成とされる場合には、再生装置12は、例えば図7に示す構成とすることも可能である。なお、図7において図5または図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示す例では、再生装置12は、取得部131、復号部132、レンダリング部165、再生部134、およびスピーカ135を有している。
 図7に示す再生装置12の構成は、図5に示した再生装置12の構成における信号処理部133に代えて、レンダリング部165を設けた構成となっている。
 また、図7に示す再生装置12においては、レンダリング部165は優先度算出部181を有している。
 レンダリング部165の優先度算出部181は、復号部132から供給された移動体関連情報、各オブジェクトの音圧、および上位の制御部から供給された聴取関連情報に基づいて、各オブジェクトの優先度を算出する。
 また、レンダリング部165は、各オブジェクトの優先度に基づいて選択オブジェクトを選択するとともに優先度や、オブジェクトの音圧、移動体関連情報、聴取関連情報を必要に応じて用いて、選択オブジェクトから再生データを生成し、再生部134へと供給する。
 なお、この例では収録装置11から出力されるオブジェクト伝送データには、オブジェクトと移動体関連情報だけでなく、区間検出部101における区間検出の結果やNR部103で行われたNR処理の種別を示す情報なども含まれているようにしてもよい。
 そうすれば、優先度算出部181やレンダリング部165は、復号部132から供給される区間検出の結果やNR処理の種別を示す情報を、優先度の算出や再生データの生成に用いることができるようになる。
〈収録処理の説明〉
 続いて、音場再現システムにおいて行われる処理について説明する。
 まず、図8のフローチャートを参照して、収録対象空間内に配置された各収録装置11により行われる収録処理について説明する。なお、ここでは収録装置11は、図2に示した構成とされるものとする。
 ステップS11において、マイクアレイ41は音場の収録を行う。
 すなわち、マイクアレイ41は周囲の音を収音し、その結果得られた収録信号であるオブジェクトを収録部42に供給する。収録部42は、マイクアレイ41から供給されたオブジェクトに対してAD変換や増幅処理などを施し、得られたオブジェクトを符号化部44に供給する。
 また、マイクアレイ41による収録が開始されると、測距デバイス43は、移動体の位置等の計測を開始し、その結果得られた移動体位置情報、移動体方位情報、および収音位置移動情報からなる移動体関連情報を逐次、符号化部44に供給する。換言すれば、測距デバイス43により移動体関連情報が取得される。
 ステップS12において、符号化部44は、収録部42から供給されたオブジェクト、および測距デバイス43から供給された移動体関連情報を符号化してオブジェクト伝送データを生成し、出力部45に供給する。
 ステップS13において、出力部45は、符号化部44から供給されたオブジェクト伝送データを出力し、収録処理は終了する。
 例えば出力部45は、オブジェクト伝送データを無線により再生装置12に送信したり、オブジェクト伝送データをストレージに供給して記録させたりすることで、オブジェクト伝送データを出力する。
 以上のようにして収録装置11は、自身の周囲の音場(音)を収録するとともに移動体関連情報を取得し、オブジェクト伝送データを出力する。特に、音場再現システムでは、収録対象空間内に離散的に配置された各収録装置11で収録が行われ、オブジェクト伝送データが出力される。これにより、再生装置12では、各収録装置11で得られたオブジェクトを用いて、任意の聴取位置および聴取方向の音を高い臨場感で再生することができるようになる。
〈再生処理の説明〉
 また、各収録装置11において図8を参照して説明した収録処理が行われると、それに応じて再生装置12では、図9に示す再生処理が行われる。
 以下、図9のフローチャートを参照して、再生装置12による再生処理について説明する。なお、この場合、再生装置12は、図5に示す構成とされる。
 ステップS41において、取得部131は、オブジェクト伝送データを取得し、復号部132に供給する。
 例えば収録装置11から無線によりオブジェクト伝送データが送信されてきた場合には、取得部131はオブジェクト伝送データを受信することで、オブジェクト伝送データを取得する。また、例えば収録装置11のストレージやサーバ等の他の装置のストレージにオブジェクト伝送データが記録されている場合には、取得部131は、それらのストレージからオブジェクト伝送データを読み出したり、サーバ等の他の装置からオブジェクト伝送データを受信することで、オブジェクト伝送データを取得する。
 復号部132は、取得部131から供給されたオブジェクト伝送データを復号し、その結果得られたオブジェクトおよび移動体関連情報を信号処理部133に供給する。これにより、信号処理部133には、収録対象空間内にある全ての収録装置11で得られたオブジェクトおよび移動体関連情報が供給される。
 ステップS42において、信号処理部133の同期算出部161は、復号部132から供給された各オブジェクトの同期処理を行い、同期された各オブジェクトを区間検出部162およびビームフォーミング部163に供給する。
 同期処理では、マイクアレイ41間のオフセットやクロックドリフトが検出され、その検出結果に基づいて、各オブジェクトが同期するように、オブジェクトの出力タイミングの調整が行われる。
 ステップS43において、区間検出部162は、予め保持している目的音や非目的音の検出器、および復号部132から供給された移動体関連情報に基づいて、同期算出部161から供給された各オブジェクトに対して区間検出を行い、その検出結果をビームフォーミング部163、NR部164、およびレンダリング部165に供給する。
 ステップS44において、ビームフォーミング部163は、区間検出部162から供給された区間検出の結果、および復号部132から供給された移動体関連情報に基づいて、同期算出部161から供給された各オブジェクトに対してビームフォーミングを行う。これにより、オブジェクトにおける特定の音源の成分が強調されたり抑圧されたりする。
 ビームフォーミング部163は、ビームフォーミングにより得られたオブジェクトをNR部164に供給する。
 ステップS45において、NR部164は、区間検出部162から供給された区間検出の結果に基づいて、ビームフォーミング部163から供給されたオブジェクトに対してNR処理を行い、その結果得られたオブジェクトをレンダリング部165に供給する。
 ステップS46において、レンダリング部165の優先度算出部181は、NR部164から供給されたオブジェクトの音圧、区間検出部162から供給された区間検出の結果、復号部132から供給された移動体関連情報、上位の制御部から供給された聴取関連情報、およびNR部164で行われたNR処理の種別に基づいて、各オブジェクトの優先度を算出する。
 ステップS47において、レンダリング部165は、NR部164から供給されたオブジェクトについて、レンダリングを行う。
 すなわち、レンダリング部165は、優先度算出部181により算出された優先度に基づいて、NR部164から供給されたオブジェクトのうちのいくつかを選択オブジェクトとして選択する。また、レンダリング部165は、各選択オブジェクトについて、必要に応じて聴取関連情報や移動体関連情報を参照し、オブジェクトチャンネル信号を生成する。
 さらに、レンダリング部165は、優先度や、選択オブジェクトの音圧、区間検出の結果、移動体関連情報、聴取関連情報、NR部164で行われたNR処理の種別などに基づいて、選択オブジェクトの区間ごとに合成重みを決定(算出)する。そして、レンダリング部165は、得られた合成重みにより各選択オブジェクトのオブジェクトチャンネル信号を重み付け加算するミキシング処理を行うことで再生データを生成し、再生部134に供給する。
 再生部134は、レンダリング部165から供給された再生データに対してDA変換や増幅処理を施し、その結果得られた再生データをスピーカ135に供給する。
 ステップS48において、スピーカ135は、再生部134から供給された再生データに基づいて、収録対象空間内の聴取位置および聴取方向における疑似的な音を再生し、再生処理は終了する。
 以上のようにして再生装置12は、各収録装置11での収録により得られたオブジェクトについて優先度を算出し、再生データの生成に用いるオブジェクトを選択する。また、再生装置12は、選択したオブジェクトに基づいて再生データを生成し、収録対象空間内の聴取位置および聴取方向における音を再生する。
 特に、再生装置12では、区間検出の結果、移動体関連情報、聴取関連情報、NR部164で行われたNR処理の種別などが考慮されて、優先度の算出やレンダリングが行われる。これにより、任意の聴取位置および聴取方向の音を高い臨場感で再生することができる。
〈収録処理の説明〉
 なお、図8では、収録装置11側ではビームフォーミングやNR処理が行われない場合における収録処理について説明した。
 しかし、収録装置11が図3に示した構成とされる場合には、収録装置11においてビームフォーミングやNR処理が行われる。すなわち、図10に示す収録処理が行われる。
 以下、図10のフローチャートを参照して、図3に示した収録装置11により行われる収録処理について説明する。
 なお、ステップS71の処理は、図8のステップS11の処理と同様であるので、その説明は省略する。ステップS71の処理が行われてオブジェクトが得られると、そのオブジェクトはマイクアレイ41から収録部42を介して信号処理部71の区間検出部101およびビームフォーミング部102へと供給される。
 ステップS72において、区間検出部101は、予め保持している目的音や非目的音の検出器、および測距デバイス43から供給された移動体関連情報に基づいて、収録部42から供給されたオブジェクトに対して区間検出を行い、その検出結果をビームフォーミング部102およびNR部103に供給する。
 ステップS73において、ビームフォーミング部102は、区間検出部101から供給された区間検出の結果、および測距デバイス43から供給された移動体関連情報に基づいて、収録部42から供給されたオブジェクトに対してビームフォーミングを行う。これにより、オブジェクトにおける特定の音源の成分が強調されたり抑圧されたりする。
 ビームフォーミング部102は、ビームフォーミングにより得られたオブジェクトをNR部103に供給する。
 ステップS74において、NR部103は、区間検出部101から供給された区間検出の結果に基づいて、ビームフォーミング部102から供給されたオブジェクトに対してNR処理を行い、その結果得られたオブジェクトを符号化部44に供給する。
 なお、この場合、NR処理されたオブジェクトだけでなく、区間検出部101で得られた区間検出の結果やNR部103で行われたNR処理の種別を示す情報も、NR部103から符号化部44へと供給されるようにしてもよい。
 このようにしてNR処理が行われると、その後、ステップS75およびステップS76の処理が行われて収録処理は終了するが、これらの処理は図8のステップS12およびステップS13の処理と同様であるのでその説明は省略する。
 但し、ステップS75では、NR部103から符号化部44に区間検出の結果やNR部103で行われたNR処理の種別を示す情報が供給された場合には、符号化部44は、オブジェクトや移動体関連情報だけでなく、区間検出の結果やNR部103で行われたNR処理の種別を示す情報も含まれるオブジェクト伝送データを生成する。
 以上のようにして収録装置11は、収録により得られたオブジェクトについてビームフォーミングやNR処理を行い、オブジェクト伝送データを生成する。
 このように各収録装置11でビームフォーミングやNR処理を行うことで、再生装置12において全てのオブジェクトについてビームフォーミングやNR処理を行う必要がなくなる。これにより、再生装置12の処理負荷を軽減させることができる。
〈再生処理の説明〉
 また、各収録装置11において図10を参照して説明した収録処理が行われると、それに応じて再生装置12では、例えば図11に示す再生処理が行われる。
 以下、図11のフローチャートを参照して、再生装置12による再生処理について説明する。この場合、再生装置12は、図7に示す構成とされる。
 再生処理が開始されると、ステップS101の処理が行われ、オブジェクト伝送データが取得されるが、ステップS101の処理は図9のステップS41の処理と同様であるので、その説明は省略する。
 但し、ステップS101では、取得部131でオブジェクト伝送データが取得され、復号部132でオブジェクト伝送データの復号が行われると、復号により得られたオブジェクトおよび移動体関連情報が、復号部132からレンダリング部165に供給される。また、オブジェクト伝送データに区間検出の結果やNR部103で行われたNR処理の種別を示す情報が含まれている場合には、それらの区間検出の結果やNR処理の種別を示す情報も復号部132からレンダリング部165に供給される。
 ステップS102において、レンダリング部165の優先度算出部181は、復号部132から供給された移動体関連情報、オブジェクトの音圧、および上位の制御部から供給された聴取関連情報に基づいて、各オブジェクトの優先度を算出する。
 なお、復号部132から区間検出の結果やNR処理の種別を示す情報が供給された場合には、優先度算出部181は、それらの区間検出の結果やNR処理の種別を示す情報も用いて優先度を算出する。
 ステップS103において、レンダリング部165は、復号部132から供給されたオブジェクトについて、レンダリングを行う。
 すなわち、ステップS103では、図9のステップS47と同様の処理が行われ、再生データが生成される。なお、復号部132から区間検出の結果やNR処理の種別を示す情報が供給された場合には、それらの区間検出の結果やNR処理の種別を示す情報が必要に応じて合成重みの決定に用いられる。
 レンダリングにより再生データが生成されると、レンダリング部165は、得られた再生データを再生部134に供給する。そして再生部134は、レンダリング部165から供給された再生データに対してDA変換や増幅処理を施し、その結果得られた再生データをスピーカ135に供給する。
 スピーカ135に再生データが供給されると、その後、ステップS104の処理が行われて再生処理は終了するが、ステップS104の処理は図9のステップS48の処理と同様であるので、その説明は省略する。
 以上のようにして再生装置12は、各収録装置11での収録により得られたオブジェクトに基づいて再生データを生成し、収録対象空間内の聴取位置および聴取方向における音を再生する。この場合、再生装置12では、特に区間検出やビームフォーミング、NR処理を行う必要がないので、より少ない処理量で、任意の聴取位置および聴取方向の音を高い臨場感で再生することができる。
 なお、収録装置11において図10を参照して説明した収録処理が行われる場合にも、図5に示した再生装置12において、図9を参照して説明した再生処理が行われるようにしても勿論よい。
〈第2の実施の形態〉
〈音場再現システムの構成例〉
 さらに、以上においては各収録装置11が個別にオブジェクト伝送データを再生装置12に送信する場合を例として説明したが、いくつかのオブジェクト伝送データを収集し、それらのオブジェクト伝送データをまとめて再生装置12に送信するようにしてもよい。
 そのような場合、例えば音場再現システムは、図12に示すように構成される。なお、図12において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示す音場再現システムは、収録装置11-1乃至収録装置11-5、収録装置211-1、収録装置211-2、および再生装置12を有している。
 また、ここでは説明を具体的にするため、図12に示す音場再現システムにより、サッカーの試合が行われているフィールドの音場の収録と再現が実現されるものとする。
 この場合、例えば各収録装置11は、サッカーの選手に装着される。また、収録装置211-1および収録装置211-2は、サッカーの選手や審判等に装着され、これらの収録装置211-1および収録装置211-2も収録装置11と同様の音場収録のための機能を有している。
 なお、以下、収録装置211-1および収録装置211-2を特に区別する必要のない場合、単に収録装置211とも称することとする。また、ここでは収録対象空間内に配置される収録装置211が2つである例について説明するが、収録装置211はいくつであってもよい。
 収録対象空間となるサッカーのフィールド上では、各選手や審判等に装着された収録装置11および収録装置211が離散的に配置されている。
 また、各収録装置211は、自身の近傍にいる収録装置11からオブジェクト伝送データを取得する。
 この例では、収録装置11-1乃至収録装置11-3は、収録装置211-1へとオブジェクト伝送データを送信し、収録装置11-4および収録装置11-5が収録装置211-2にオブジェクト伝送データを送信している。
 なお、各収録装置211がどの収録装置11からオブジェクト伝送データを受信するかは、予め定められていてもよいし、動的に定められてもよい。例えばどの収録装置11からのオブジェクト伝送データを受信するかが動的に決定される場合、収録装置11から最も近い位置にある収録装置211が、その収録装置11からのオブジェクト伝送データを受信するようにしてもよい。
 収録装置211は、自身が音場を収録してオブジェクト伝送データを生成するとともに、生成したオブジェクト伝送データ、および収録装置11から受信したオブジェクト伝送データのうちのいくつかを選択し、選択したオブジェクト伝送データのみを再生装置12に送信する。
 なお、収録装置211では、自身が生成したオブジェクト伝送データと、1または複数の収録装置11から受信したオブジェクト伝送データとのうち、全てのオブジェクト伝送データが再生装置12に送信されてもよいし、1以上の一部のオブジェクト伝送データのみが再生装置12に送信されてもよい。
 再生装置12に送信するオブジェクト伝送データの選択にあたっては、例えば各オブジェクト伝送データに含まれる移動体関連情報に基づいて選択が行われるようにすることができる。
 具体的には、例えば移動体関連情報の収音位置移動情報が参照されて、動きが少ない移動体のオブジェクト伝送データが選択されるようにすることができる。この場合、ノイズ音の少ない高品質なオブジェクトのオブジェクト伝送データを選択することができる。
 また、例えば移動体関連情報の移動体位置情報に基づいて、互いに離れた位置にある移動体のオブジェクト伝送データが選択されるようにすることができる。換言すれば、近い位置に複数の移動体がある場合には、それらの移動体のうちの1つの移動体のオブジェクト伝送データのみが選択されるようにすることができる。これにより、同じようなオブジェクトが再生装置12に送信されるのを防止し、伝送量を削減することができる。
 さらに、例えば移動体関連情報の移動体方位情報に基づいて、互いに異なる方向を向いている移動体のオブジェクト伝送データが選択されるようにすることができる。換言すれば、同じ方向を向いている複数の移動体がある場合には、それらの移動体のうちの1つの移動体のオブジェクト伝送データのみが選択されるようにすることができる。これにより、同じようなオブジェクトが再生装置12に送信されるのを防止し、伝送量を削減することができる。
 再生装置12は、収録装置211から送信されてきたオブジェクト伝送データを受信し、受信したオブジェクト伝送データに基づいて再生データを生成して、所定の聴取位置および聴取方向の音を再生する。
 このように収録装置211が収録装置11で得られたオブジェクト伝送データを収集し、複数のオブジェクト伝送データから再生装置12へと供給するものを選択することで、再生装置12へと送信(伝送)されるオブジェクト伝送データの伝送量を削減することができる。また、再生装置12へと伝送されるオブジェクト伝送データの数や、再生装置12による通信の回数も低減されるので、再生装置12における処理量も削減することができる。このような音場再現システムの構成は、特に収録装置11の数が多い場合に有用である。
〈収録装置の構成例〉
 なお、収録装置211は、収録装置11と同様の収録機能を有していてもよいし、そのような収録機能を有さず、収録装置11から収集したオブジェクト伝送データのみから再生装置12へと送信するオブジェクト伝送データを選択するようにしてもよい。
 例えば収録装置211が収録機能を有している場合には、収録装置211は図13に示すように構成される。
 図13に示す収録装置211は、マイクアレイ251、収録部252、測距デバイス253、符号化部254、取得部255、選択部256、および出力部257を有している。
 なお、マイクアレイ251乃至符号化部254は、収録装置11のマイクアレイ41乃至符号化部44に対応し、それらのマイクアレイ41乃至符号化部44と同様の動作を行うため、その説明は省略する。
 取得部255は、無線により収録装置11の出力部45により送信されたオブジェクト伝送データを受信することで、収録装置11からオブジェクト伝送データを取得(収集)し、選択部256に供給する。
 選択部256は、取得部255から供給された1または複数のオブジェクト伝送データ、および符号化部254から供給されたオブジェクト伝送データのなかから、再生装置12へと送信する1または複数のオブジェクト伝送データを選択し、選択したオブジェクト伝送データを出力部257に供給する。
 出力部257は、選択部256から供給されたオブジェクト伝送データを出力する。
 例えば出力部257が無線伝送機能を有している場合、出力部257はオブジェクト伝送データを無線により再生装置12に送信する。
 また、例えば収録装置211がストレージを有している場合、出力部257はオブジェクト伝送データをストレージに出力し、そのストレージにオブジェクト伝送データを記録させる。この場合、任意のタイミングにおいて、ストレージに記録されたオブジェクト伝送データが直接または間接的に再生装置12により読み出される。
 以上のように収録装置11のオブジェクト伝送データを収集し、再生装置12へと伝送するオブジェクト伝送データを選択する収録装置211を設けることで、オブジェクト伝送データの伝送量や再生装置12における処理量を削減することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成するレンダリング部を備える
 信号処理装置。
(2)
 前記レンダリング部は、前記移動体ごとに得られた複数の前記収録信号のうちの1または複数の前記収録信号を選択し、選択した前記1または複数の前記収録信号に基づいて、前記再生データを生成する
 (1)に記載の信号処理装置。
(3)
 前記レンダリング部は、前記収録信号の優先度に基づいて、前記再生データの生成に用いる前記収録信号を選択する
 (2)に記載の信号処理装置。
(4)
 前記収録信号の音圧、前記収録信号に対する目的音または非目的音の区間検出の結果、前記収録信号に対して行われたノイズ低減処理の種別、前記対象空間における前記移動体の位置、前記移動体が向いている方向、前記移動体の動きに関する情報、前記聴取位置、前記聴取位置における仮想的な受聴者が向いている聴取方向、前記受聴者の動きに関する情報、および指定された音源を示す情報の少なくとも何れか1つに基づいて、前記優先度を算出する優先度算出部をさらに備える
 (3)に記載の信号処理装置。
(5)
 前記優先度算出部は、前記聴取位置に近い前記移動体の前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
 (4)に記載の信号処理装置。
(6)
 前記優先度算出部は、移動量が少ない前記移動体の前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
 (4)または(5)に記載の信号処理装置。
(7)
 前記優先度算出部は、前記区間検出の結果または前記ノイズ低減処理の種別に基づいて、ノイズが少ない前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
 (4)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 前記優先度算出部は、前記区間検出の結果に基づいて、前記非目的音が含まれていない前記収録信号の前記優先度が高くなるように前記優先度を算出する
 (4)乃至(7)の何れか一項に記載の信号処理装置。
(9)
 前記非目的音は、予め定められたNGワードの発話音、衣擦れ音、振動音、接触音、風切り音、またはノイズ音である
 (8)に記載の信号処理装置。
(10)
 前記レンダリング部は、前記優先度、前記収録信号の音圧、前記区間検出の結果、前記ノイズ低減処理の種別、前記対象空間における前記移動体の位置、前記移動体が向いている方向、前記移動体の動きに関する情報、前記聴取位置、前記聴取方向、前記受聴者の動きに関する情報、および前記指定された音源を示す情報の少なくとも何れか1つに基づいて、選択した前記1または複数の前記収録信号を重み付け加算することで前記再生データを生成する
 (4)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 前記レンダリング部は、前記聴取位置における前記聴取方向の前記再生データを生成する
 (10)に記載の信号処理装置。
(12)
 信号処理装置が、
 対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成する
 信号処理方法。
(13)
 対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11-1乃至11-5,11 収録装置, 12 再生装置, 133 信号処理部, 134 再生部, 162 区間検出部, 163 ビームフォーミング部, 164 NR部, 165 レンダリング部, 181 優先度算出部

Claims (13)

  1.  対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成するレンダリング部を備える
     信号処理装置。
  2.  前記レンダリング部は、前記移動体ごとに得られた複数の前記収録信号のうちの1または複数の前記収録信号を選択し、選択した前記1または複数の前記収録信号に基づいて、前記再生データを生成する
     請求項1に記載の信号処理装置。
  3.  前記レンダリング部は、前記収録信号の優先度に基づいて、前記再生データの生成に用いる前記収録信号を選択する
     請求項2に記載の信号処理装置。
  4.  前記収録信号の音圧、前記収録信号に対する目的音または非目的音の区間検出の結果、前記収録信号に対して行われたノイズ低減処理の種別、前記対象空間における前記移動体の位置、前記移動体が向いている方向、前記移動体の動きに関する情報、前記聴取位置、前記聴取位置における仮想的な受聴者が向いている聴取方向、前記受聴者の動きに関する情報、および指定された音源を示す情報の少なくとも何れか1つに基づいて、前記優先度を算出する優先度算出部をさらに備える
     請求項3に記載の信号処理装置。
  5.  前記優先度算出部は、前記聴取位置に近い前記移動体の前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
     請求項4に記載の信号処理装置。
  6.  前記優先度算出部は、移動量が少ない前記移動体の前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
     請求項4に記載の信号処理装置。
  7.  前記優先度算出部は、前記区間検出の結果または前記ノイズ低減処理の種別に基づいて、ノイズが少ない前記収録信号ほど前記優先度が高くなるように前記優先度を算出する
     請求項4に記載の信号処理装置。
  8.  前記優先度算出部は、前記区間検出の結果に基づいて、前記非目的音が含まれていない前記収録信号の前記優先度が高くなるように前記優先度を算出する
     請求項4に記載の信号処理装置。
  9.  前記非目的音は、予め定められたNGワードの発話音、衣擦れ音、振動音、接触音、風切り音、またはノイズ音である
     請求項8に記載の信号処理装置。
  10.  前記レンダリング部は、前記優先度、前記収録信号の音圧、前記区間検出の結果、前記ノイズ低減処理の種別、前記対象空間における前記移動体の位置、前記移動体が向いている方向、前記移動体の動きに関する情報、前記聴取位置、前記聴取方向、前記受聴者の動きに関する情報、および前記指定された音源を示す情報の少なくとも何れか1つに基づいて、選択した前記1または複数の前記収録信号を重み付け加算することで前記再生データを生成する
     請求項4に記載の信号処理装置。
  11.  前記レンダリング部は、前記聴取位置における前記聴取方向の前記再生データを生成する
     請求項10に記載の信号処理装置。
  12.  信号処理装置が、
     対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成する
     信号処理方法。
  13.  対象空間内の複数の移動体に装着されたマイクロホンの収録信号に基づいて、前記対象空間内の任意の聴取位置の音の再生データを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2019/010763 2018-03-30 2019-03-15 信号処理装置および方法、並びにプログラム WO2019188394A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/040,321 US11159905B2 (en) 2018-03-30 2019-03-15 Signal processing apparatus and method
CN201980021290.9A CN111903143B (zh) 2018-03-30 2019-03-15 信号处理设备和方法以及计算机可读存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-068490 2018-03-30
JP2018068490 2018-03-30

Publications (1)

Publication Number Publication Date
WO2019188394A1 true WO2019188394A1 (ja) 2019-10-03

Family

ID=68058316

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/010763 WO2019188394A1 (ja) 2018-03-30 2019-03-15 信号処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US11159905B2 (ja)
CN (1) CN111903143B (ja)
WO (1) WO2019188394A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095563A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710740A (zh) 2017-12-12 2022-07-05 索尼公司 信号处理装置和方法以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09182044A (ja) * 1995-12-25 1997-07-11 Matsushita Electric Ind Co Ltd テレビ会議装置
JP2007318373A (ja) * 2006-05-25 2007-12-06 Kobe Steel Ltd 音声入力装置、音源分離装置
JP2014045507A (ja) * 2008-01-29 2014-03-13 Qualcomm Incorporated 複数のマイクからの信号間で知的に選択することによって音質を改善すること

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934461B1 (en) * 1999-01-05 2005-08-23 Interval Research Corporation Low attention recording, with particular application to social recording
KR20050047085A (ko) * 2002-07-31 2005-05-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 처리 시스템
US20050135633A1 (en) * 2003-12-19 2005-06-23 Denmark George T.Jr. Audio system
EP2537350A4 (en) * 2010-02-17 2016-07-13 Nokia Technologies Oy PROCESSING AN AUDIO RECORDING OF MULTIPLE DEVICES
CN104412619B (zh) * 2012-07-13 2017-03-01 索尼公司 信息处理系统
KR102380231B1 (ko) * 2014-03-24 2022-03-29 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
EP3136713A4 (en) 2014-04-22 2017-12-06 Sony Corporation Information reproduction device, information reproduction method, information recording device, and information recording method
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
US10242713B2 (en) * 2015-10-13 2019-03-26 Richard A. ROTHSCHILD System and method for using, processing, and displaying biometric data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09182044A (ja) * 1995-12-25 1997-07-11 Matsushita Electric Ind Co Ltd テレビ会議装置
JP2007318373A (ja) * 2006-05-25 2007-12-06 Kobe Steel Ltd 音声入力装置、音源分離装置
JP2014045507A (ja) * 2008-01-29 2014-03-13 Qualcomm Incorporated 複数のマイクからの信号間で知的に選択することによって音質を改善すること

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095563A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US11159905B2 (en) 2021-10-26
US20210029485A1 (en) 2021-01-28
CN111903143A (zh) 2020-11-06
CN111903143B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
JP5334037B2 (ja) 音源の位置検出方法及びシステム
KR102214205B1 (ko) 공간 오디오 처리를 위한 2-스테이지 오디오 포커스
US10645518B2 (en) Distributed audio capture and mixing
WO2020255810A1 (ja) 信号処理装置および方法、並びにプログラム
CN108370471A (zh) 分布式音频捕获和混合
US11122381B2 (en) Spatial audio signal processing
JP2007266967A (ja) 音像定位装置およびマルチチャンネルオーディオ再生装置
JP2020500480A (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US10979846B2 (en) Audio signal rendering
JPWO2017073324A1 (ja) 信号処理装置、信号処理方法、並びにプログラム
WO2014053875A1 (en) An apparatus and method for reproducing recorded audio with correct spatial directionality
CN109314832A (zh) 音频信号处理方法和设备
WO2019188394A1 (ja) 信号処理装置および方法、並びにプログラム
CN112005556A (zh) 定位声源
CN110890100B (zh) 语音增强、多媒体数据采集、播放方法、装置及监控系统
WO2021095563A1 (ja) 信号処理装置および方法、並びにプログラム
TW202410705A (zh) 虛擬揚聲器集合確定方法和裝置
Baxter The Art and Science of Microphones and Other Transducers
CN115134713A (zh) 音频数据的处理
GB2536203A (en) An apparatus
KR20170135611A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19777892

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19777892

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP