WO2017086030A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2017086030A1
WO2017086030A1 PCT/JP2016/078682 JP2016078682W WO2017086030A1 WO 2017086030 A1 WO2017086030 A1 WO 2017086030A1 JP 2016078682 W JP2016078682 W JP 2016078682W WO 2017086030 A1 WO2017086030 A1 WO 2017086030A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
unit
information processing
sound collection
processing apparatus
Prior art date
Application number
PCT/JP2016/078682
Other languages
English (en)
French (fr)
Inventor
高橋 直也
祐基 光藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/772,700 priority Critical patent/US11067661B2/en
Priority to CN201680065660.5A priority patent/CN108293161A/zh
Priority to EP16866032.2A priority patent/EP3379844A4/en
Priority to JP2017551757A priority patent/JP6747451B2/ja
Publication of WO2017086030A1 publication Critical patent/WO2017086030A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/809Rotating or oscillating beam systems using continuous analysis of received signal for determining direction in the plane of rotation or oscillation or for determining deviation from a predetermined direction in such a plane
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/025Transducer mountings or cabinet supports enabling variable orientation of transducer of cabinet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 discloses an example of a technique for estimating the arrival direction of sound based on the sound collection results of a plurality of microphones (hereinafter also referred to as “sound collection units”).
  • the resolution related to the estimation of the direction of arrival of the sound and the width of the main lobe of beam forming depend on the interval and number of sound collection units, and in order to obtain higher resolution in a wider frequency band, There may be a case where a large number of high-density sound collecting units are required.
  • an increase in the number of sound collecting units may increase various costs such as the cost of the sound collecting unit itself, the wiring cost, the maintenance cost, and the countermeasures against variations in characteristics between the sound collecting units. Further, the weight of the device itself may increase as the number of sound collecting units increases.
  • the present disclosure proposes an information processing apparatus, an information processing method, and a program that can achieve both reduction in the number of sound collecting units and improvement in resolution in estimating the direction of a sound source.
  • an acquisition unit that acquires a sound collection result of sound from each of one or more sound sources by a sound collection unit in which position information indicating at least one of position and orientation changes, and the sound collection unit
  • An information processing apparatus includes an estimation unit that estimates the direction of each of the one or more sound sources based on a change in frequency of sound collected by the sound collection unit in accordance with the change in the position information.
  • the sound collection unit from which the position information indicating at least one of the position and the orientation changes, the sound collection result of the sound from each of the one or more sound sources, and the processor Providing an information processing method comprising: estimating a direction of each of the one or more sound sources based on a change in frequency of sound collected by the sound collecting unit according to a change in the position information of the sound collecting unit. Is done.
  • a program causes the direction of each of the one or more sound sources to be estimated based on a change in frequency of the sound collected by the sound collection unit.
  • an information processing device capable of simultaneously reducing the number of sound collecting units and improving the resolution in estimating the direction of a sound source. Is done.
  • FIG. 1 illustrates an example of a schematic system configuration of an information processing system according to an embodiment of the present disclosure. It is the block diagram which showed an example of the function structure of the information processing system which concerns on the embodiment. It is the figure which showed typically an example of the spatial positional relationship between a sound collection part and a sound in case a sound collection part carries out circular motion. An example of an observation result of sound coming from each of a plurality of sound sources existing at different positions is shown. The example of the spectrum of the sound which arrives from each sound source in case two sound sources are located in a mutually different direction is shown. It is an example of the graph which represented the estimation result of the arrival direction of the sound based on the spectrum shown in FIG. 5 as a histogram.
  • An example of an amplitude spectrum calculated based on a sound collection result of each of a plurality of sound collection units is shown.
  • the other example of the amplitude spectrum calculated based on the sound collection result of each of the plurality of sound collecting units is shown.
  • the example of the detection result of the speed and acceleration of the moving body in which the sound collection unit is installed is shown.
  • FIG. 1 shows an example of a schematic system configuration of the information processing system according to the present embodiment.
  • the description will be made assuming that the directions orthogonal to each other on the horizontal plane are the x direction and the y direction, and the vertical direction is the z direction.
  • the information processing system 1 includes an information processing apparatus 10 and a sound collection unit 30.
  • the sound collection unit 30 includes a sound collection unit 301, a support unit 303, and a drive unit 305. A part of the support portion 303 is connected to the drive unit 305, and the drive unit 305 is driven to rotate along the track L1 (circular track).
  • the sound collection unit 301 is supported by a support unit 303. Based on such a configuration, when the driving unit 305 is driven and the support unit 303 rotates, the sound collecting unit 301 moves along the track L1 (that is, the position of the sound collecting unit 301 and The direction changes along the trajectory L1).
  • the sound collection unit 301 is configured by a sound collection device such as a so-called microphone. Further, the sound collection unit 301 may include a plurality of sound collection devices such as a microphone array, for example.
  • the sound collection unit 301 collects sound coming from the surroundings and outputs an acoustic signal based on the sound collection result to the information processing apparatus 10. For example, in the case of the example illustrated in FIG. 1, sounds collected by the users U11 and U12 are collected by the sound collection unit 301, and an acoustic signal based on the sound collection result of the sounds is output to the information processing apparatus 10.
  • the information processing apparatus 10 acquires an acoustic signal based on a sound collection result of sound or sound (hereinafter, sometimes collectively referred to as “acoustic”) from the sound collection unit 301, and collects the sound based on the change in the acquired sound signal.
  • the direction of the sound source of the sound relative to the sound unit 30 (that is, the sound arrival direction) is estimated. More specifically, when the sound collection unit 301 is moved along a predetermined trajectory (for example, a two-dimensional or three-dimensional trajectory), the information processing apparatus 10 performs an acoustic signal based on the acoustic sound collection result.
  • the direction of the sound source of the sound relative to the sound collection unit 30 is estimated by using the characteristic that the frequency of the sound changes due to the Doppler effect.
  • the sound collection unit 301 moves along a two-dimensional trajectory L1 (that is, a circular trajectory) on a horizontal plane (that is, the xy plane).
  • L1 that is, a circular trajectory
  • horizontal plane that is, the xy plane.
  • the relationship changes, and the distance between the sound collection unit 301 and the user U11 changes.
  • the frequency of the acoustic signal based on the sound collection result by the sound collection unit 301 of the speech uttered by the user U11 changes due to the Doppler effect.
  • the information processing apparatus 10 directly or indirectly recognizes the change in the position of the sound collection unit 3301, and determines the change in the position of the sound collection unit 301 and the sound collection result by the sound collection unit 301.
  • the direction of the sound source (ie, user U11) with respect to the sound collection unit 30 is estimated based on the change in the sound signal based on the sound signal. The same applies to the case of the user U12.
  • the information processing apparatus 10 may control the operation of the sound collection unit 30. Specifically, the information processing apparatus 10 may move the sound collecting unit 301 along a predetermined trajectory (for example, the trajectory L1) at a desired speed by controlling the operation of the driving unit 305. As a result, the information processing apparatus 10 can recognize a change in the position and orientation of the sound collection unit 301 accompanying the drive of the drive unit 305.
  • a predetermined trajectory for example, the trajectory L1
  • the control subject of the sound collecting unit 30 is not necessarily the information processing apparatus 10.
  • the information processing apparatus 10 acquires information indicating the drive state of the drive unit 305 from the sound collection unit 30, thereby changing the position and orientation of the sound collection unit 301 accompanying the drive of the drive unit 305. Should be recognized.
  • the information processing apparatus 10 controls the operation of the sound collection unit 30 (particularly, the drive unit 305).
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of the information processing system 1 according to the present embodiment.
  • the information processing apparatus 10 includes an analysis unit 101, a drive control unit 103, a process execution unit 105, and a storage unit 107.
  • the drive control unit 103 controls the operation of the drive unit 305.
  • the drive control unit 103 outputs information indicating the control result of the drive unit 305 to the analysis unit 101 described later.
  • the analysis unit 101 can recognize the control result of the drive unit 305, and thus can recognize the movement of the sound collection unit 301 (that is, the change in position and orientation) accompanying the drive of the drive unit 305. Become.
  • the analysis unit 101 acquires an acoustic signal based on the sound collection result from the sound collection unit 301.
  • the analysis unit 101 acquires information indicating the control result of the drive unit 305 from the drive control unit 103. Based on the information indicating the control result of the drive unit 305, the analysis unit 101 moves the sound collection unit 301 such as the movement direction, direction change, and movement speed of the sound collection unit 301 (that is, the position and orientation). Change). Then, the analysis unit 101 determines the sound source of the sound collection unit 30 based on the recognized movement of the sound collection unit 301 and the change in the acoustic signal acquired from the sound collection unit 301 (that is, the change in frequency due to the Doppler effect).
  • the direction (that is, the direction of arrival of sound) is estimated.
  • the analysis part 101 outputs the information which shows the estimation result of the direction of a sound source to the process execution part 105 mentioned later.
  • the details of the processing related to the estimation of the direction of the sound source by the analysis unit 101 will be separately described later as “3. Technical features”.
  • the analysis unit 101 corresponds to an example of an “estimation unit”.
  • the storage unit 107 is a storage area for temporarily or permanently storing various data for the information processing apparatus 10 to execute various functions.
  • a process execution unit 105 (to be described later) performs data (for example, a library) for executing various functions (for example, an application), and control information (for example, setting information) for executing the function. Etc.) may be stored.
  • the process execution unit 105 is configured to execute various functions (for example, applications) provided by the information processing apparatus 10.
  • the process execution unit 105 may acquire information indicating the estimation result of the direction of the sound source from the analysis unit 101 and execute various functions based on the estimation result of the direction of the sound source.
  • the process execution unit 105 may emphasize sound coming from the direction of the sound source (that is, sound from the sound source) based on the estimation result of the direction of the sound source. As another example, the process execution unit 105 may suppress sound (that is, noise) coming from another direction based on the estimation result of the direction of the sound source. In this case, for example, the process execution unit 105 may enhance or suppress the sound coming from a desired direction by multiplying the acquired sound signal by a gain value according to the direction.
  • the process execution unit 105 corresponds to an example of an “acoustic control unit”.
  • the process execution unit 105 may control the operation of other configurations based on the estimation result of the direction of the sound source.
  • the process execution unit 105 determines the directivity of a device (a so-called directivity device) such as a speaker or a microphone configured to control directivity based on the estimation result of the direction of the sound source. You may control.
  • the process execution unit 105 determines the directivity of the directional speaker based on the estimation result of the direction of the sound source (that is, the user). You may control so that it may face.
  • the functional configuration of the information processing system 1 described with reference to FIG. 2 is merely an example, and is not necessarily limited to the same configuration.
  • the sound collection unit 30 and the information processing apparatus 10 may be integrally configured.
  • some of the components of the information processing apparatus 10 may be provided in an external device (for example, a server) different from the information processing apparatus 10.
  • other configurations different from the various configurations illustrated in FIG. 2 may be provided according to the functions provided by the information processing apparatus 10.
  • a directional device for example, a speaker or a microphone
  • a non-control target of the process execution unit 105 may be separately provided.
  • the information processing system 1 is configured such that when the position and orientation of the sound collection unit are changed along a predetermined trajectory (for example, a two-dimensional or three-dimensional trajectory)
  • the direction of the sound source (sound arrival direction) is estimated by using the characteristic that the acoustic signal based on the sound collection result changes due to the Doppler effect.
  • the information processing system 1 assumes the following points. (1) The moving speed of the sound collecting unit is known or observable. (2) The sound coming from the sound source for which the direction is to be estimated includes a section in which stationarity and tone characteristics can be assumed.
  • the moving speed of the sound source as viewed from the sound collecting section is sufficiently lower than at least the speed at which the sound collecting section moves along a predetermined trajectory.
  • the change in the speed of the sound source viewed from the sound collection unit is sufficiently gentle compared to at least the speed at which the sound collection unit moves along a predetermined trajectory.
  • Assumption (1) can be realized, for example, by the information processing apparatus 10 controlling the sound collection unit 301 to move along a predetermined trajectory.
  • the information processing apparatus 10 can also be realized by calculating the moving speed of the sound collecting unit 301 based on detection results of various sensors and the like.
  • Assumption (2) means that at least in the observation section of the spectrumgram, the sound property does not change abruptly with time (stationary), and is intended for sound having a so-called long wave structure (tone property). To do. Note that assumption (2) can be widely applied to sound having tone characteristics such as voice, music, animal cry, siren, and the like.
  • Assumptions (3) and (4) vary depending on the moving speed of the sound collection unit 301, but when the sound source is sufficiently away from the sound collection unit 301 (in other words, the sound coming from the sound source is Applicable to the case of plane waves). In addition, even when the position of the sound source is close to the sound collection unit 301, it is applicable when the latitude speed of the sound source is sufficiently slow (including when the sound collection unit 301 is stationary) with respect to the moving speed of the sound collection unit 301. It is.
  • the information processing apparatus 10 uses the Doppler effect generated by the movement of the sound collection unit 301 for estimating the direction of the sound source. Specifically, when the sound collection unit 301 approaches the sound source, the sound collection result of the sound from the sound source is observed with a higher pitch than the sound (that is, the wavelength becomes shorter). On the other hand, when the sound collection unit 301 moves away from the sound source, the sound collection result of the sound from the sound source is observed with a pitch lower than that of the sound (that is, the wavelength becomes longer).
  • the sound coming from the sound source has a section that can be regarded as steady, and the change in pitch (pitch) in that section is based on the assumptions (3) and (4). It depends on the change in moving speed and the direction of arrival of the sound. Since the change in the moving speed of the sound collection unit 301 is known by assumption (1), the information processing apparatus 10 receives the sound based on the change in the pitch of the sound signal based on the sound collection result. The direction (ie, the direction of the sound source) can be estimated. In the following, a more detailed description will be given with specific examples.
  • the sound collection unit performs a circular motion and the sound coming from the sound source can be regarded as a plane wave>
  • the sound source is sufficiently separated from the sound collection unit 301, the sound coming from the sound source can be regarded as a plane wave, and the sound collection unit 301 follows a circular orbit at a constant velocity.
  • An example of a method for estimating the direction of a sound source will be described by paying attention to the case of moving at a point.
  • FIG. 3 is a diagram schematically illustrating an example of a spatial positional relationship between the sound collection unit 301 and sound when the sound collection unit 301 performs a circular motion.
  • FIG. 3 an example of a method of estimating the direction of the sound source will be described assuming that the sound collection unit 301 moves at a predetermined angular velocity ⁇ on the circumference of the radius r.
  • the plane wave is a sine wave whose traveling direction is ⁇ , and its frequency is f 0 .
  • the speed v is expressed by the following calculation formula (Formula 1).
  • e k (cos ⁇ , sin ⁇ )
  • observation signal a signal that is modulated by the Doppler effect and observed by the sound collecting unit 301
  • the frequency f is expressed by the following calculation formula (Formula 2).
  • v ⁇ is represented by the inner product of e k and v.
  • Equation 2 the frequency f 0 of the plane wave is an unknown value, but other values are known, so the direction of the sound source (ie, the plane wave frequency) is determined from the phase of modulation of the frequency f of the observation signal.
  • Direction of arrival can be derived.
  • FIG. 4 shows an example of the observation result of the sound coming from each of a plurality of sound sources existing at different positions.
  • the horizontal axis represents time t
  • the vertical axis represents the frequency f of the observation signal.
  • the plurality of graphs shown in FIG. 4 show examples of observation signals based on sounds arriving from different sound sources.
  • the direction of each of a plurality of sound sources can be estimated by a single sound collection unit 301.
  • the information processing system 1 by extracting only a signal having a specific phase, for example, even in a situation where the frequencies of the signals are overlapped, the signal is positioned in a desired direction. It is possible to extract and separate the sound coming from the sound source.
  • the sound source is sufficiently separated from the sound collection unit 301, the sound arriving from the sound source can be regarded as a plane wave, and the sound collection unit 301 follows a circular trajectory at a constant velocity.
  • An example of a method for estimating the direction of a sound source has been described with a focus on the case of moving with a.
  • the spectrum at the time t of the sound coming from the sound source is A ( ⁇ , t)
  • v ⁇ like the example described above, it is represented by the inner product of e k and v.
  • the angular frequency is represented by ⁇ .
  • the spectrum A 1- ( ⁇ , t) of the signal (that is, the observation signal) observed by the sound collection unit 301 is expressed by the following calculation formula (Formula 3). It should be noted, “A ⁇ " is intended to indicate the character tilde is attached on top of the "A”.
  • FIG. 5 shows an example of a spectrum of sound coming from each sound source when two sound sources are positioned in different directions.
  • the horizontal axis represents time t
  • the vertical axis represents the frequency f of the observation signal. Note that the example shown in FIG. 5 shows an example of the spectrum of the sound coming from each of the sound sources located in different directions e k1 and e k2 .
  • FIG. 6 is an example of a graph representing the estimation result of the direction of arrival of sound based on the spectrum shown in FIG. 5 as a histogram.
  • the horizontal axis represents the acoustic traveling direction ⁇ (in other words, the acoustic arrival direction), and the vertical axis represents the count value N of the acoustic arrival direction ek calculated for a plurality of ( ⁇ , t)).
  • the example shown in FIG. 6 indicates that there is a high possibility that a sound source exists in each direction of ⁇ 1 and ⁇ 2 .
  • the arrival direction ek can be correctly estimated in many cases. Therefore, for example, it is possible to generate a histogram as shown in FIG. 6 and estimate the arrival direction of sound from each sound source (that is, the direction of each sound source) from the peak value of the histogram.
  • the information processing system 1 is configured so that the sound collecting unit is changed if the frequency of the acoustic signal based on the sound collection result by the sound collecting unit 301 changes due to the Doppler effect.
  • a mode of changing at least one of the position and orientation of 301 is not particularly limited.
  • FIG. 7 is a diagram schematically illustrating an example of a spatial positional relationship between the sound collection unit 301 and the sound source when the position of the sound source is close to the sound collection unit 301.
  • the sound coming from the sound source is a single sine wave of frequency f 0
  • the sound collecting unit 301 is the same as the example shown in FIG.
  • it moves on the circular orbit L1 having the radius r at a predetermined angular velocity ⁇ .
  • reference numeral S indicates the position of the sound source.
  • Reference numeral 1 indicates a distance between the rotation center of the trajectory L1 along which the sound collection unit 301 moves and the sound source S.
  • the instantaneous frequency f of the signal that is, the observation signal
  • the Doppler effect is expressed by the following calculation formula (Formula 8).
  • FIG. 8 shows an example of an observation result of sound coming from a nearby sound source.
  • the horizontal axis represents time t
  • the vertical axis represents the frequency f of the observation signal.
  • an example of the observation result when the sound can be regarded as a plane wave is presented as a reference.
  • the signal modulated by the Doppler effect is distorted, but the period and phase are still preserved. I understand. Therefore, it is possible to estimate the direction ⁇ of the sound source from the phase of the signal modulated by the Doppler effect.
  • the direction of the sound source can be estimated as the phase difference ⁇ with respect to ⁇ t + ⁇ 0 ).
  • the distance l between the observation point and the adjacent sound source may be unknown.
  • FIGS. 9 and 10 are explanatory diagrams for explaining an example of a method for calculating a phase difference at the time of modulation by the Doppler effect.
  • the horizontal axis represents time t
  • the vertical axis represents frequency f.
  • the arrival direction of the sound (that is, the direction of the sound source) can be estimated based on (Equation 8) described above. Needless to say.
  • the method of estimating the direction of the sound source when the position of the sound source is close to the sound collection unit that is, when the assumption that the sound coming from the sound source is a plane wave does not hold.
  • An example has been described.
  • the sound obtained in the information processing system 1 according to the present embodiment is a sound that is modulated and distorted by the Doppler effect.
  • the modulation by the Doppler effect is reversely corrected based on (Equation 3) described above.
  • Equation 3 the modulation by the Doppler effect is reversely corrected based on (Equation 3) described above.
  • Modification 1 Example of using a plurality of sound collection units> First, as Modification 1, an example of a mechanism capable of further improving performance (for example, resolution and the like) related to estimation of a sound source direction by using a plurality of sound collecting units 301 will be described.
  • the direction of each of a plurality of sound sources can be estimated by the single sound collection unit 301.
  • the resolution related to the estimation of the direction of the sound source may depend on the moving speed of the sound collection unit 301, the degree of continuity of sound from the sound source, or the like. For example, when the moving speed of the sound collection unit 301 is excessively slow, it is difficult to observe the influence of the Doppler effect, and in particular, it may be difficult to estimate the direction when there are a plurality of sound sources.
  • the moving speed of the sound collecting unit 301 is excessively high, the instantaneous frequency change becomes intense, the spectrum peak is blurred, and it may be difficult to estimate the direction of the sound source with high accuracy.
  • the moving speed of the sound collecting unit 301 is limited by hardware such as the driving unit 305 that moves the sound collecting unit 301, and in particular, it may be difficult to move the sound collecting unit 301 at a higher speed. is there. Therefore, in the information processing system according to the modified example 1, the performance (for example, resolution and the like) related to estimation of the direction of the sound source can be further improved by using the plurality of sound collecting units 301 even under the above-described restrictions. Is possible.
  • FIG. 11 is an explanatory diagram for explaining an overview of the information processing system 1 according to the first modification.
  • a plurality of sound collection units 301 between each sound collection unit 301 and sound. It is the figure which showed an example of the spatial positional relationship typically.
  • FIG. 11 it is assumed that each of the plurality of sound collection units 301 moves on the same circular path L1, and that the sound coming from the sound source can be regarded as a plane wave.
  • FIG. 12 shows an example of acoustic observation results by a plurality of sound collection units 301.
  • the horizontal axis represents time t
  • the vertical axis represents the frequency f of the observation signal.
  • the information processing apparatus 10 estimates the arrival direction of a sound source based on acoustic signals collected for each of the plurality of sound collection units 301. As can be seen from FIG. 12, the observation signals acquired by each of the plurality of sound collection units 301 are out of phase due to the relative positional relationship between the sound collection units 301. For this reason, the information processing apparatus 10 displays the histogram corresponding to the estimation result of the arrival direction of the sound source corresponding to each sound collection unit 301 by the amount corresponding to the phase due to the relative positional relationship between the plurality of sound collection units 301. Add by shifting. By such processing, the information processing apparatus 10 can acquire a sharper histogram as the estimation result of the direction of the sound source, and can estimate the direction of the sound source more accurately based on the peak value of the histogram. It becomes.
  • Another example is a method of calculating an amplitude spectrum from the frequency of an acoustic signal (that is, an observation signal) observed by each sound collection unit 301 and estimating the direction of the sound source based on the amplitude spectrum.
  • an acoustic signal that is, an observation signal
  • estimating the direction of the sound source based on the amplitude spectrum.
  • a ⁇ (f i ) the amplitude spectrum corrected for the influence of the Doppler effect is The sum A ⁇ (f) is expressed by the following calculation formula (Formula 10). “A ⁇ ” indicates a character with a bar on “A”.
  • FIG. 13 shows an example of an amplitude spectrum calculated based on the sound collection results of each of the plurality of sound collection units 301.
  • the horizontal axis indicates the frequency f
  • the vertical axis indicates the amplitude
  • ⁇ ′
  • the frequency when the influence of the Doppler effect is corrected with respect to the observation signal is substantially the same among the plurality of sound collection units 301, and the spectrum peak becomes sharper. Take the maximum value.
  • the sound arrival direction ie, the direction of the sound source
  • ⁇ ′ such that the sum A ⁇ (f) of the amplitude spectrum is the sharpest and has the maximum value.
  • a ⁇ (f) can be used for beam forming, sound source separation, and the like because the sound in the ⁇ direction is more emphasized.
  • FIG. 14 shows another example of the amplitude spectrum calculated based on the sound collection results of each of the plurality of sound collection units 301, assuming an arrival direction different from the original sound arrival direction ⁇ ( That is, it is an example of a spectrum when ⁇ ⁇ ⁇ ′) and the sum A ⁇ (f) of amplitude spectra are obtained.
  • the corrected spectrum of the amplitude spectrum A i (f i ) corresponding to each sound collection unit 301 does not overlap, so that the peak value is higher than that of the example shown in FIG. 13 as shown in FIG.
  • the spectrum is smaller and has a wider base.
  • Modification 2 Combination with other direction estimation techniques>
  • the accuracy related to the estimation of the direction of the sound source is further improved. An example of the technique for improving is demonstrated.
  • the information processing apparatus 10 estimates a sound source position candidate by analyzing a video around the observation point, and uses the estimation result and the observation signal in the sound collection unit 301 described above.
  • the direction of the sound source may be estimated by combining with the estimation result of the direction of arrival of the sound based on.
  • the information processing apparatus 10 acquires a video around an observation point imaged by an imaging device or the like, and performs various analysis processes such as image analysis on the acquired video to obtain a sound source candidate (for example, , People, etc.) are extracted, and sound source direction candidates are estimated based on the extraction results. Then, the information processing apparatus 10 provides a filter that enhances the sound coming from the direction of the sound source estimated based on the video when the sound signal (observation signal) based on the sound collection result of the sound collection unit 301 is analyzed. You may apply. As a more specific example, it is possible to emphasize sound coming from a desired direction by applying a filter that smoothes the spectrum along the method of frequency modulation corresponding to the sound arrival direction.
  • a filter that smoothes the spectrum along the method of frequency modulation corresponding to the sound arrival direction.
  • the example described above is merely an example, and another direction estimation technique combined with processing related to estimation of the direction of a sound source by the information processing system 1 according to the present embodiment can estimate a sound source direction candidate. If possible, the technology is not necessarily limited to a technique based on video analysis.
  • Modification 2 by combining the process related to the estimation of the direction of the sound source by the information processing system 1 according to the present embodiment with the process related to another direction estimation technique, the accuracy related to the estimation of the direction of the sound source is further improved.
  • An example of the technique for improving was demonstrated.
  • FIG. 15 is an explanatory diagram for describing an overview of the information processing system 1 according to the third modification.
  • the sound collection unit 30 is placed on a moving body 50 (for example, an automobile, a train, a bicycle, etc.), and the sound collection unit 30 itself moves as the moving body 50 moves.
  • the sound collection unit 301 is described as moving along a circular path.
  • the moving body 50 is assumed to move on the xy plane.
  • the information processing apparatus 10 recognizes the moving speed of the moving body 50.
  • the information processing apparatus 10 acquires information indicating the moving speed (for example, a speedometer value or information indicating the details of the handle operation) from the moving object 50, and the moving object is determined according to the acquisition result. You may recognize 50 moving speeds.
  • the information processing apparatus 10 may recognize the moving speed of the moving body 50 based on the detection results of various sensors such as an acceleration sensor.
  • the information processing apparatus 10 may calculate the moving speed of the moving body 50 based on a positioning result of the position of the moving body 50 by GPS (Global Positioning System) or the like.
  • GPS Global Positioning System
  • the information processing apparatus 10 may recognize the moving speed of the moving body 50 by combining two or more of the various methods described above.
  • FIG. 16 shows an example of the detection result of the speed and acceleration of the moving body 50 in which the sound collection unit 30 is installed.
  • the horizontal axis of each graph represents time.
  • indicates the absolute value of the speed of the moving object 50 and can be acquired as, for example, a speedometer value.
  • a x represents the acceleration applied to the moving body 50 in the x direction
  • a y represents the acceleration applied to the moving body 50 in the y direction.
  • the accelerations a x and a y can be acquired as detection results of an acceleration sensor, for example.
  • v x represents an x-direction component of the moving speed of the moving body 50
  • v y represents a y-direction component of the moving speed of the moving body 50.
  • the velocity v x in the x direction of the moving body 50 can be calculated as an integral value in the time direction of the acceleration a x applied in the x direction.
  • the velocity v y in the y direction of the moving body 50 can be calculated as an integral value in the time direction of the acceleration a y applied in the y direction.
  • the information processing apparatus 10 adds the speed of the moving body 50 as a bias to the speed of the sound collecting unit 301 that moves relative to the moving body 50 along a circular path.
  • the moving speed of the sound collecting unit 301 accompanying the movement of is calculated.
  • the speed of the moving body 50 is v car and the speed of the sound collecting unit 301 moving along a circular orbit relative to the moving body 50 is v mic , the collection accompanying the movement of the moving body 50.
  • moving velocity v total clef 301 is represented by the formula shown as equation (11) below.
  • the information processing apparatus 10 may estimate the direction of the sound source relative to the sound collection unit 30 (and hence the moving body 50) based on the processing described above with reference to (Expression 3) to (Expression 7). Good.
  • the information processing system 1 for example, by applying the information processing system 1 to an automobile, it is possible to estimate the arrival direction of the siren and the arrival direction of the traveling sound of other automobiles located in the blind spot. It can be applied to grasping and danger detection.
  • the type of the moving body 50 is not necessarily limited, and the movement of the moving body 50 is not limited to a planar movement as shown in FIG.
  • the moving body 50 may be configured as a small unmanned airplane such as a so-called drone.
  • the information processing apparatus 10 installed in the moving body 50 configured as a small unmanned airplane analyzes the speed of the sound collection unit 301 and the traveling direction of the sound three-dimensionally, thereby generating a sound source.
  • the direction of i.e., the direction of arrival of sound
  • the moving body 50 that moves three-dimensionally at a relatively high speed, such as a small unmanned airplane, is applied, even if a rotating mechanism for rotating the sound collecting unit 301 is not provided, the moving body 50
  • the direction of the sound source can be detected by monitoring the movement.
  • the speed of the moving body 50 may be estimated by an acceleration sensor, an ultrasonic sensor, an atmospheric pressure sensor, GPS, or the like, and the speed of the sound source may be estimated by regarding the speed as the moving speed of the sound collection unit 301.
  • the moving body 50 itself makes a sound like a so-called drone, for example, it is possible to grasp each other's position among the plurality of moving bodies 50.
  • one mobile body 50 side may regard the other mobile body 50 as a sound source and estimate the position or direction of the other mobile body 50.
  • Modification 3 an example in which the information processing system 1 according to the present embodiment is applied to a moving body such as an automobile has been described with reference to FIGS. 15 and 16.
  • FIG. 17 is an explanatory diagram for describing an overview of the information processing system 1 according to the modification example 4, and illustrates an example in which the information processing system 1 is applied to a ceiling fan set indoors. Yes.
  • the ceiling fan 30 ′ installed on the ceiling is used as the sound collecting unit 30 (see, for example, FIG. 1), and the rotary blade 303 ′ of the ceiling fan is used. It is used as a support portion 303 that supports the sound collection portion 301.
  • the sound collection unit 301 moves along a circular path by opening the rotary blade 303 ′ of the ceiling fan.
  • the sound emitted from the user U21 or the user U22 is modulated by the influence of the Doppler effect when collected by the sound collection unit 301. That is, in the example shown in FIG. 17, the respective directions of the user U21 and the user U22 with respect to the ceiling fan 30 ′ (that is, the sound collection unit 30) are estimated based on the sound collection results of the sounds from the users U21 and U22. Is possible.
  • the system may be configured such that by combining with an image recognition technique or the like, a user can be identified and a service corresponding to the identification result of the individual can be provided.
  • the space for the sound collection unit 301 is reduced as compared with the case where the sound collection unit is installed on a floor or a table.
  • the position can be fixed.
  • the ceiling fan 30 ′ when the ceiling fan 30 ′ is used as the sound collection unit 30, it is highly possible that the sound collection unit 30 (that is, the ceiling fan 30 ′) can be installed near the center of the room. There is a low possibility that an obstacle is interposed between the sound source (for example, a user). Therefore, as shown in FIG. 17, by using the ceiling fan 30 ′ as the sound collection unit 30, the direction of the sound source (for example, the user) can be estimated with higher accuracy.
  • Modification 4 an example in which the information processing system 1 according to the present embodiment is applied to a device installed indoors has been described with reference to FIG.
  • the fourth modification the case where the ceiling fan is used as the sound collection unit 30 has been described.
  • the device that can be used as the sound collection unit 30 is not necessarily limited to the ceiling fan. More specifically, any device having at least a part of a mechanism that moves at a sufficiently high speed relative to the assumed moving speed of the sound source can be used as the sound collection unit 30.
  • FIG. 18 is a diagram illustrating an example of a hardware configuration of the information processing apparatus 10 according to each embodiment of the present disclosure.
  • the information processing apparatus 10 includes a processor 901, a memory 903, a storage 905, an operation device 907, a notification device 909, a sound collection device 913, and a bus 917. Including. Further, the information processing apparatus 10 may include at least one of the acoustic device 911 and the communication device 915.
  • the processor 901 may be, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a DSP (Digital Signal Processor), or a SoC (System on Chip), and executes various processes of the information processing apparatus 10.
  • the processor 901 can be configured by, for example, an electronic circuit for executing various arithmetic processes. Note that the analysis unit 101, the drive control unit 103, and the process execution unit 105 described above can be realized by the processor 901.
  • the memory 903 includes RAM (Random Access Memory) and ROM (Read Only Memory), and stores programs and data executed by the processor 901.
  • the storage 905 can include a storage medium such as a semiconductor memory or a hard disk.
  • the storage unit 107 described above can be realized by at least one of the memory 903 and the storage 905, or a combination of both.
  • the operation device 907 has a function of generating an input signal for a user to perform a desired operation.
  • the operation device 907 can be configured as a touch panel, for example.
  • the operation device 907 generates an input signal based on an input by the user, such as buttons, switches, and a keyboard, and an input for the user to input information, and supplies the input signal to the processor 901. It may be composed of a control circuit or the like.
  • the notification device 909 is an example of an output device, and may be a device such as a liquid crystal display (LCD) device or an organic EL (OLED: Organic Light Emitting Diode) display, for example. In this case, the notification device 909 can notify the user of predetermined information by displaying the screen.
  • LCD liquid crystal display
  • OLED Organic Light Emitting Diode
  • the notification device 909 described above is merely an example, and the aspect of the notification device 909 is not particularly limited as long as predetermined information can be notified to the user.
  • the notification device 909 may be a device that notifies the user of predetermined information using a lighting or blinking pattern, such as an LED (Light Emitting Diode).
  • the notification device 909 may be a device that notifies a user of predetermined information by vibrating like a so-called vibrator.
  • the acoustic device 911 is a device that notifies a user of predetermined information by outputting a predetermined acoustic signal, such as a speaker.
  • the sound collection device 913 is a device such as a microphone that collects sound emitted from the user and the sound of the surrounding environment and acquires it as acoustic information (acoustic signal).
  • the sound collection device 913 may acquire data indicating an analog sound signal indicating collected sound or sound as sound information, or convert the analog sound signal into a digital sound signal, Data indicating a later digital acoustic signal may be acquired as acoustic information.
  • the sound collection unit 301 described above can be realized by the sound collection device 913.
  • the communication device 915 is a communication unit included in the information processing apparatus 10 and communicates with an external apparatus via a network.
  • the communication device 915 is a wired or wireless communication interface.
  • the communication device 915 may include a communication antenna, an RF (Radio Frequency) circuit, a baseband processor, and the like.
  • the communication device 915 has a function of performing various kinds of signal processing on a signal received from an external device, and can supply a digital signal generated from the received analog signal to the processor 901.
  • the bus 917 connects the processor 901, the memory 903, the storage 905, the operation device 907, the notification device 909, the acoustic device 911, the sound collection device 913, and the communication device 915 to each other.
  • the bus 917 may include a plurality of types of buses.
  • the sound collecting unit 301 collects sound from at least one sound source.
  • the information processing apparatus 10 uses a characteristic in which the frequency of the acoustic signal based on the sound collected by the sound collection unit 301 changes due to the influence of the Doppler effect associated with the change in the position and orientation of the sound collection unit 301. Thus, the direction of the collected sound source is estimated.
  • the information processing system 1 provides the direction of each of the plurality of sound sources by providing at least one sound collecting unit 301 even in a situation where there are a plurality of sound sources around. Can be estimated with higher resolution. That is, according to the information processing system 1 according to the present embodiment, it is possible to achieve both reduction in the number of sound collecting units 301 and improvement in resolution in estimating the direction of the sound source. Further, in the information processing system 1 according to the present embodiment, since the number of the sound collecting units 301 can be further reduced, various costs can be reduced and the weight can be further reduced.
  • An estimation unit that estimates the direction of each of the one or more sound sources based on a change in frequency of sound collected by the sound collection unit in accordance with a change in the position information of the sound collection unit;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), further including a drive control unit that controls an operation of the drive unit that changes the position information of the sound collection unit in the predetermined pattern.
  • the information processing apparatus according to one item. (6)
  • the acquisition unit acquires a sound collection result of each of the plurality of sound collection units,
  • the estimation unit estimates the direction of each of the one or more sound sources based on the frequency change of the sound collected by each of the plurality of sound collection units according to the movement of each of the plurality of sound collection units.
  • the information processing apparatus according to any one of (1) to (5).
  • the sound collection unit is supported by the moving body so that the position information changes in the predetermined pattern relative to the predetermined moving body,
  • the estimation unit is configured to change the acoustic information associated with a change in at least one of the position and orientation of the predetermined moving body and a change in the position information of the sound collecting unit relative to the predetermined moving body.
  • the information processing apparatus according to any one of (1) to (6).
  • the sound collection unit is held by a predetermined drive body, and the position information changes in the predetermined pattern when the drive body is driven. Any one of (1) to (6)
  • the information processing apparatus described in 1. 10
  • the driving body is a rotating body,
  • the sound collection unit changes the position information along a predetermined circular orbit as the rotating body rotates.
  • (11) The information processing apparatus according to (10), wherein the rotating body is a rotating blade of a fan installed on a predetermined ceiling surface or wall surface.
  • the sound source is another moving body that emits sound
  • the estimation unit corrects the obtained estimation result of the position of the other moving body based on the estimation result of the direction of the other moving body based on the frequency change of the sound collected by the sound collection unit.
  • the acquisition unit acquires an image captured by the imaging unit,
  • the estimation unit estimates the direction of each of the one or more sound sources based on the analysis result of the acquired image and the frequency change of the sound collected by the sound collection unit, (1)

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

【課題】集音部の数の低減と、音源の方向の推定における分解能の向上とを両立する。 【解決手段】位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得する取得部と、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定する推定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
 近年では、所謂音声認識技術や音響解析技術の発展に伴い、ユーザから発話された音声や、周囲に存在する音源からの音響を入力情報として利用することで、状態や状況を認識し、認識結果に応じて処理を実行することが可能な情報処理装置が各種提案されている。このような情報処理装置の中には、音声や音響の集音結果に基づき当該音響の到来方向(即ち、音源の方向)を推定し、推定結果を、雑音の抑圧や目的音の認識精度の向上等のような各種処理にフィードバックすることが可能なものも提案されている。例えば、特許文献1には、複数のマイクロフォン(以降では、「集音部」とも称する)それぞれの集音結果に基づき、音響の到来方向を推定する技術の一例が開示されている。
特開2011-61422号公報
 音響の到来方向を推定する仕組みの一例として、特許文献1に開示された技術のように、複数の集音部それぞれによる集音結果を利用する技術が挙げられる。このような技術では、音響の到来方向の推定に係る分解能やビームフォーミングのメインローブの幅は、集音部の間隔や数に依存し、より広い周波数帯域でより高い分解能を得るためには、高密度に多数設置された集音部を要する場合がある。
 一方で、集音部の数の増加は、集音部自体のコスト、配線コスト、メンテナンスコスト、及び、集音部間の特性のばらつきへの対策等の各種コストが増加する場合がある。また、集音部の数の増加に伴い、装置自体の重量が増加する場合もある。
 そこで、本開示では、集音部の数の低減と、音源の方向の推定における分解能の向上とを両立することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。
 本開示によれば、位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得する取得部と、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定する推定部と、を備える、情報処理装置が提供される。
 また、本開示によれば、位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、プロセッサが、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータに、
 位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、を実行させる、プログラムが提供される。
 以上説明したように本開示によれば、集音部の数の低減と、音源の方向の推定における分解能の向上とを両立することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理システムの概略的なシステム構成の一例を示している。 同実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。 集音部が円運動する場合における、集音部と音響との間の空間的な位置関係の一例を模式的に示した図である。 互いに異なる位置に存在する複数の音源それぞれから到来する音響の観測結果の一例を示している。 2つの音源が互いに異なる方向に位置する場合における、各音源から到来する音響のスペクトルの一例を示している。 図5に示したスペクトルに基づく、音響の到来方向の推定結果をヒストグラムとして表したグラフの一例である。 音源の位置が集音部に近い場合における、集音部と当該音源との間の空間的な位置関係の一例を模式的に示した図である。 近接音源から到来する音響の観測結果の一例を示している。 ドップラー効果による変調時の位相差を算出する方法の一例について説明するための説明図である。 ドップラー効果による変調時の位相差を算出する方法の一例について説明するための説明図である。 変形例1に係る情報処理システムの概要について説明するための説明図である。 複数の集音部による音響の観測結果の一例を示している。 複数の集音部それぞれの集音結果に基づき算出される振幅スペクトルの一例を示している。 複数の集音部それぞれの集音結果に基づき算出される振幅スペクトルの他の一例を示している。 変形例3に係る情報処理システムの概要について説明するための説明図である。 集音ユニットが設置された移動体の速度及び加速度の検出結果の一例を示している。 変形例4に係る情報処理システムの概要について説明するための説明図である。 同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.構成
  1.1.システム構成
  1.2.機能構成
 2.技術的特徴
  2.1.基本的な原理
  2.2.集音部が円運動を行い、音源から到来する音響が平面波とみなせる場合
  2.3.音源から音響と集音部の軌道とを一般化した場合
  2.4.音源から観測点に近い場合
  2.5.音源分離、ビームフォーミングへの応用
 3.変形例
  3.1.変形例1:複数の集音部を利用する場合の例
  3.2.変形例2:他の方向推定技術との組み合わせ
  3.3.変形例3:観測点が移動する場合の一例
  3.4.変形例4:屋内における適用例
 4.ハードウェア構成
 5.むすび
 <<1.構成>>
  <1.1.システム構成>
 まず、本開示の一実施形態に係る情報処理システムの概要について説明する。例えば、図1は、本実施形態に係る情報処理システムの概略的なシステム構成の一例を示している。なお、図1に示す例では、水平面上の互いに直交する方向をx方向及びy方向とし、鉛直方向をz方向として説明する。
 図1に示すように、本実施形態に係る情報処理システム1は、情報処理装置10と、集音ユニット30とを含む。また、集音ユニット30は、集音部301と、支持部303、駆動部305とを含む。支持部303は、一部が駆動部305に連結されており、駆動部305が駆動することで、軌道L1(円軌道)に沿って回転する。また、集音部301は、支持部303により支持されている。このような構成に基づき、駆動部305が駆動することにより支持部303が回転することで、集音部301は、軌道L1に沿って移動することとなる(即ち、集音部301の位置や向きが軌道L1に沿って変化する)。
 集音部301は、所謂マイクロフォンのような集音デバイスにより構成される。また、集音部301は、例えば、マイクロフォンアレイのように、複数の集音デバイスを含んでもよい。集音部301は、周囲から到来する音響を集音し、集音結果に基づく音響信号を情報処理装置10に出力する。例えば、図1に示す例の場合には、ユーザU11及びU12が発話した音声が集音部301により集音され、当該音声の集音結果に基づく音響信号が情報処理装置10に出力される。
 情報処理装置10は、集音部301から音声や音響(以降では、総じて「音響」と称する場合がある)の集音結果に基づく音響信号を取得し、取得した音響信号の変化に基づき、集音ユニット30に対する当該音響の音源の方向(即ち、音響の到来方向)を推定する。より具体的には、情報処理装置10は、集音部301を所定の軌道(例えば、2次元または3次元的な軌道)に沿って移動させたときに、音響の集音結果に基づく音響信号の周波数がドップラー効果により変化する特性を利用することで、集音ユニット30に対する当該音響の音源の方向を推定する。
 具体的な一例として、図1に示す例では、集音部301は、水平面(即ち、xy平面)上において、2次元的な軌道L1(即ち、円軌道)に沿って移動する。このとき、集音部301とユーザU11との間の位置関係に着目すると、集音部301が軌道L1に沿って移動することで、集音部301とユーザU11との間の相対的な位置関係が変化し、集音部301とユーザU11との間の距離が変化する。これにより、例えば、ユーザU11により発話された音声の集音部301による集音結果に基づく音響信号は、ドップラー効果により周波数が変化することとなる。このとき、情報処理装置10は、例えば、集音部3301の位置の変化を直接的または間接的に認識し、当該集音部301の位置の変化と、当該集音部301による集音結果に基づく音響信号の変化とに基づき、集音ユニット30に対する音源(即ち、ユーザU11)の方向を推定する。これは、ユーザU12の場合についても同様である。
 また、情報処理装置10は、集音ユニット30の動作を制御してもよい。具体的には、情報処理装置10は、駆動部305の動作を制御することで、集音部301を所望の速度で所定の軌道(例えば、軌道L1)に沿って移動させてもよい。これにより、情報処理装置10は、駆動部305の駆動に伴う集音部301の位置や向きの変化を認識することが可能となる。
 また、集音ユニット30の制御主体は、必ずしも情報処理装置10である必要はない。この場合には、情報処理装置10は、例えば、駆動部305の駆動状態を示す情報を集音ユニット30から取得することで、駆動部305の駆動に伴う集音部301の位置や向きの変化を認識すればよい。なお、以降の説明では、情報処理装置10が、集音ユニット30(特に、駆動部305)の動作を制御するものとして説明する。
 以上、図1を参照して、本実施形態に係る情報処理システムの概要について説明した。
  <1.2.機能構成>
 次いで、図2を参照して、本実施形態に係る情報処理システム1の機能構成の一例について、特に、情報処理装置10の機能構成に着目して説明する。図2は、本実施形態に係る情報処理システム1の機能構成の一例を示したブロック図である。
 図2に示すように、情報処理装置10は、解析部101と、駆動制御部103と、処理実行部105と、記憶部107とを含む。
 駆動制御部103は、駆動部305の動作を制御する。また、駆動制御部103は、駆動部305の制御結果を示す情報を後述する解析部101に出力する。これにより、解析部101は、駆動部305の制御結果を認識し、ひいては、当該駆動部305の駆動に伴う集音部301の動き(即ち、位置及び向きの変化)を認識することが可能となる。
 解析部101は、集音部301から音響の集音結果に基づく音響信号を取得する。また、解析部101は、駆動制御部103から、駆動部305の制御結果を示す情報を取得する。解析部101は、駆動部305の制御結果を示す情報に基づき、集音部301の移動方向、向きの変化、及び移動速度等のような、集音部301の動き(即ち、位置及び向きの変化)を認識する。そして、解析部101は、認識した集音部301の動きと、当該集音部301から取得した音響信号の変化(即ち、ドップラー効果による周波数の変化)とに基づき、集音ユニット30に対する音源の方向(即ち、音響の到来方向)を推定する。そして、解析部101は、音源の方向の推定結果を示す情報を、後述する処理実行部105に出力する。なお、解析部101による、音源の方向の推定に係る処理の詳細については、「3.技術的特徴」として別途後述する。また、解析部101が、「推定部」の一例に相当する。
 記憶部107は、情報処理装置10が各種機能を実行するための各種データを、一時的または恒常的に記憶するための記憶領域である。例えば、記憶部107には、後述する処理実行部105が、各種機能(例えば、アプリケーション)を実行するためのデータ(例えば、ライブラリ)や、当該機能を実行するための制御情報(例えば、設定情報等)が記憶されていてもよい。
 処理実行部105は、情報処理装置10が提供する各種機能(例えば、アプリケーション)を実行するための構成である。処理実行部105は、解析部101から、音源の方向の推定結果を示す情報を取得し、当該音源の方向の推定結果に基づき、各種機能を実行してもよい。
 具体的な一例として、処理実行部105は、音源の方向の推定結果に基づき、当該音源の方向から到来する音響(即ち、当該音源からの音響)を強調してもよい。また、他の一例として、処理実行部105は、音源の方向の推定結果に基づき、他の方向から到来する音響(即ち、雑音)を抑圧してもよい。この場合には、例えば、処理実行部105は、取得した音響信号に対して、方向に応じてゲイン値を乗算することにより、所望の方向から到来する音響を強調または抑圧すればよい。なお、処理実行部105が、「音響制御部」の一例に相当する。
 また、処理実行部105は、音源の方向の推定結果に基づき、他の構成の動作を制御してもよい。具体的な一例として、処理実行部105は、指向性を制御可能に構成されたスピーカーやマイクロフォン等のようなデバイス(所謂、指向性デバイス)の当該指向性を、音源の方向の推定結果に基づき制御してもよい。より具体的な一例として、処理実行部105は、ユーザの音声が集音された場合に、音源(即ち、当該ユーザ)の方向の推定結果に基づき、指向性スピーカーの指向性が当該ユーザの方向に向くように制御してもよい。
 なお、図2を参照して説明した情報処理システム1の機能構成はあくまで一例であり、必ずしも同構成には限定されない。具体的な一例として、集音ユニット30と情報処理装置10とが一体的に構成されていてもよい。また、情報処理装置10の各構成のうち、一部の構成が、情報処理装置10とは異なる外部装置(例えば、サーバ等)に設けられていてもよい。また、情報処理装置10が提供する機能に応じて、図2に示した各種構成とは異なる他の構成が設けられていてもよい。具体的な一例として、処理実行部105の非制御対象となる指向性デバイス(例えば、スピーカーやマイクロフォン等)が別途設けられていてもよい。
 以上、図2を参照して、本実施形態に係る情報処理システム1の機能構成の一例について、特に、情報処理装置10の機能構成に着目して説明した。
 <<2.技術的特徴>>
 次に、本実施形態の技術的特徴として、特に、情報処理装置10(特に、解析部101)による音源の方向の推定に係る処理の詳細について説明する。
  <2.1.基本的な原理>
 前述したように、本実施形態に係る情報処理システム1は、集音部を所定の軌道(例えば、2次元または3次元的な軌道)に沿って位置や向きを変化させたときに、音響の集音結果に基づく音響信号がドップラー効果により変化する特性を利用することで、音源の方向(音響の到来方向)を推定する。この音源の方向の推定にあたり、本実施形態に係る情報処理システム1は、以下の点を仮定する。
 (1)集音部の移動速度は既知または観測可能である。
 (2)方向の推定の対象となる音源から到来する音響は、定常性及びトーン性を仮定することが可能な区間を含む。
 (3)集音部から見た音源の移動速度は、少なくとも、当該集音部が所定の軌道に沿って移動する速度と比較して十分に小さい。
 (4)集音部から見た音源の速度変化は、少なくとも、当該集音部が所定の軌道に沿って移動する速度と比較して十分にゆるやかである。
 仮定(1)については、例えば、情報処理装置10が、あらかじめ決められた軌道に沿って集音部301が移動するように制御することで実現可能である。また、他の一例として、情報処理装置10が、各種センサ等の検知結果に基づき、集音部301の移動速度を算出することでも実現することが可能である。
 仮定(2)は、少なくともスペクトルグラムの観測区間において、時間的に音の性質が急激に変化することがなく(定常性)、所謂長波構造を有する(トーン性)音響を対象としていることを意味する。なお、仮定(2)については、例えば、音声や楽曲、動物の鳴き声、サイレン等のようにトーン性を有する音響に広く適用可能である。
 仮定(3)及び(4)については、集音部301の移動速度に応じてその程度が変わるが、集音部301から音源が十分に離れている場合(換言すると、音源から到来する音響を平面波とみなせる場合)については適用可能である。また、集音部301に対して音源の位置が近い場合においても、集音部301の移動速度に対して音源の緯度速度が十分に遅い場合(静止している場合も含む)については適用可能である。
 また、前述したように、本実施形態に係る情報処理装置10は、集音部301が移動することにより生ずるドップラー効果を、音源の方向の推定に利用する。具体的には、集音部301が音源に対して近づく場合には、当該音源からの音響の集音結果は、当該音響に比べてピッチが高く観測される(即ち、波長が短くなる)。これに対して、集音部301が音源から遠ざかる場合には、当該音源からの音響の集音結果は、当該音響に比べてピッチが低く観測される(即ち、波長が長くなる)。
 前述した仮定(2)により、音源から到来する音響には定常とみなせる区間があり、その区間での音高(ピッチ)の変化は、仮定(3)及び(4)より、集音部301の移動速度の変化と、当該音響の到来方向とに依存する。なお、仮定(1)により、集音部301の移動速度の変化は既知であるため、情報処理装置10は、音響の集音結果に基づく音響信号の音高の変化に基づき、当該音響の到来方向(即ち、音源の方向)を推定することが可能となる。なお、以降では、具合的な例を挙げて、さらに詳しく説明する。
  <2.2.集音部が円運動を行い、音源から到来する音響が平面波とみなせる場合>
 まず、図3及び図4を参照して、音源が集音部301から十分に離れており、当該音源から到来する音響が平面波とみなせ、かつ、集音部301が円状の軌道を等速度で移動する場合に着目して、音源の方向を推定する方法の一例について説明する。
 例えば、図3は、集音部301が円運動する場合における、集音部301と音響との間の空間的な位置関係の一例を模式的に示した図である。なお、本説明では、図3に示すように、集音部301は、半径rの円周上を所定の角速度φで移動するものとして、音源の方向を推定する方法の一例について説明する。なお、平面波は、進行方向がθの正弦波であり、周波数をfとする。ここで、集音部301の時刻tにおける速度をv=(v,v)とすると、当該速度vは、以下に(式1)として示す計算式で表される。
Figure JPOXMLDOC01-appb-M000001
 ・・・(式1)
 なお、上記に示した(式1)において、φは、t=0における角度を示すものとする。ここで、平面波の進行方向を向いた単位ベクトルをe=(cosθ,sinθ)とすると、ドップラー効果により変調されて集音部301に観測される信号(以降では、「観測信号」とも称する)の周波数fは、以下に(式2)として示す計算式で表される。なお、(式2)に示すように、vは、eとvとの内積で表される。
Figure JPOXMLDOC01-appb-M000002
 ・・・(式2)
 上記に示した(式2)において、平面波の周波数fは未知の値であるが、その他の値は既知であるため、観測信号の周波数fの変調の位相から音源の方向(即ち、平面波の到来方向)を導出することが可能となる。
 なお、音源が複数存在する場合には、各音源から到来する音響は、音源の位置に応じてことある位相で変調される。例えば、図4は、互いに異なる位置に存在する複数の音源それぞれから到来する音響の観測結果の一例を示している。図4において、横軸は時間tを示し、縦軸は観測信号の周波数fを示している。なお、図4に示された複数のグラフは、それぞれ異なる音源から到来した音響に基づく観測信号の一例を示している。図4を参照するとわかるように、本実施形態に係る情報処理システム1に依れば、単一の集音部301により複数の音源それぞれの方向を推定することが可能であることがわかる。また、本実施形態に係る情報処理システム1に依れば、特定の位相の信号のみを抽出することで、例えば、信号の周波数が重なっているような状況下においても、所望の方向に位置する音源から到来する音響を抽出及び分離することが可能である。
 以上、図3及び図4を参照して、音源が集音部301から十分に離れており、当該音源から到来する音響が平面波とみなせ、かつ、集音部301が円状の軌道を等速度で移動する場合に着目して、音源の方向を推定する方法の一例について説明した。
  <2.3.音源から音響と集音部の軌道とを一般化した場合>
 次いで、図5及び図6を参照して、音源から音響と集音部の軌道とを一般化した場合、即ち、音源から到来する音響を正弦波に限らず、かつ、集音部301が移動する軌道を円状の軌道に限定しない場合において、音源の方向を推定する方法の一例について説明する。なお、本説明においても、音源が集音部301から十分に離れており、当該音源から到来する音響が平面波とみなせるものとして説明する。
 まず、音源から到来する音響の時刻tにおけるスペクトルをA(ω,t)、集音部301の時刻tにおける速度をv=(v,v)、平面波の進行方向を向いた単位ベクトルをe=(cosθ,sinθ)、速度vの平面波の進行方向の成分をvとする。なお、vは、前述した例と同様に、eとvとの内積で表される。また、角周波数をωで表すものとする。このとき、集音部301で観測される信号(即ち、観測信号)のスペクトルA(ω,t)は、以下に(式3)として示す計算式で表される。なお、「A」は、「A」の上にチルダが付された文字を示すものとする。
Figure JPOXMLDOC01-appb-M000003
 ・・・(式3)
 なお、上記に示した(式3)において、dは、音源から集音部301までの距離を表す。また、ωは、音源から到来する音響の角周波数を示す。また、ωは、ドップラー効果によって変調された(瞬時)角周波数を示している。ここで、前述した仮定(2)により、スペクトルはある短い区間では定常とみなせることから、以下に(式4)として示した関係式が成り立つ。
Figure JPOXMLDOC01-appb-M000004
 ・・・(式4)
 上記に(式4)として示した関係式に基づき、(式3)として前述した観測信号のスペクトルA(ω,t)を時間tで偏微分すると、(式5)として示す計算式が導出される。
Figure JPOXMLDOC01-appb-M000005
 ・・・(式5)
 一方、観測信号のスペクトルA(ω,t)の周波数方向の偏微分は、以下に(式6)として示す計算式で表される。
Figure JPOXMLDOC01-appb-M000006
 ・・・(式6)
 ここで、観測信号のスペクトルA(ω,t)の時間方向の偏微分と、当該スペクトルA(ω,t)の周波数方向の偏微分との比をγとすると、γは以下に(式7)として示す計算式で表される。
Figure JPOXMLDOC01-appb-M000007
 ・・・(式7)
 ここで、γ及びvは観測可能であることから、上記に示した(式7)に基づき、音響の到来方向e(即ち、音源の方向)を推定することが可能となる。なお、実質的には、観測誤差やノイズの影響も想定されるため、複数の(ω,t)においてγを求め、音の到来方向eの推定精度を向上させてもよい。
 なお、音源が複数存在する場合には、ある周波数においてある音源から到来する音響が支配的であれば、推定されるeの値は、当該音源の方向を示すこととなる。したがって、各音源間において、周波数上で重なりがない帯域が存在する場合には、その帯域の情報を用いることで、各音源の方向を推定することが可能となる。例えば、図5は、2つの音源が互いに異なる方向に位置する場合における、各音源から到来する音響のスペクトルの一例を示している。図5において、横軸は時間tを示し、縦軸は観測信号の周波数fを示している。なお、図5に示す例では、互いに異なる方向ek1及びek2に位置する音源それぞれから到来する音響のスペクトルの一例を示している。
 ここで、図5に示したスペクトルに基づき、各時刻及び各周波数(即ち、複数の(ω,t))について音響の到来方向eを算出し、当該eの算出結果を到来方向ごとにカウントしてヒストグラムを生成すると、図6に示すようになる。図6は、図5に示したスペクトルに基づく、音響の到来方向の推定結果をヒストグラムとして表したグラフの一例である。図6において、横軸は音響の進行方向θ(換言すると、音響の到来方向)、縦軸は複数の(ω,t))について算出された音響の到来方向eのカウント値Nを示している。即ち、図6に示す例では、θ及びθのそれぞれの方向に音源が存在する可能性が高いことを示している。
 なお、スペクトルの重なりや、音源から到来する音響に含まれる非定常な部分の影響により、音響の到来方向eの推定結果に歪みが生じる場合がある。しかしながら、前述した仮定(1)~(4)で示した条件を満たす場合においては、多くの場合において到来方向eが正しく推定され得る。そのため、例えば、図6に示すようなヒストグラムを生成し、当該ヒストグラムのピーク値から、各音源からの音響の到来方向(即ち、各音源の方向)を推定することが可能となる。
 以上、図5及び図6を参照して、音源から音響と集音部の軌道とを一般化した場合において、音源の方向を推定する方法の一例について説明した。なお、上記に説明した内容からもわかるように、本実施形態に係る情報処理システム1は、ドップラー効果により、集音部301による集音結果に基づく音響信号の周波数が変化すれば、集音部301の位置及び向きのうち少なくともいずれかを変化させる態様(例えば、集音部301を移動させる軌道)は特に限定されない。
  <2.4.音源から観測点に近い場合>
 次いで、図7~図10を参照して、音源の位置が集音部に近い場合、即ち、音源から到来する音響が平面波であるという仮定が成り立たない場合において、音源の方向を推定する方法の一例について説明する。
 例えば、図7は、音源の位置が集音部301に近い場合における、集音部301と当該音源との間の空間的な位置関係の一例を模式的に示した図である。なお、本説明では、音源の方向の推定方法をよりわかりやすくするために、音源から到来する音響は周波数fの単一正弦波であり、集音部301は、図3に示す例と同様に、半径rの円状の軌道L1上を所定の角速度φで移動するものとする。なお、図7において、参照符号Sは、音源の位置を示している。また、参照符号lは、集音部301が移動する軌道L1の回転中心と音源Sとの間の距離を示している。このとき、ドップラー効果により集音部301に観測される信号(即ち、観測信号)の瞬時周波数fは、以下に(式8)として示す計算式で表される。
Figure JPOXMLDOC01-appb-M000008
 ・・・(式8)
 なお、上記に示した(式8)において、φは、t=0における角度を示すものとする。例えば、図8は、近接音源から到来する音響の観測結果の一例を示している。図8において、横軸は時間tを示し、縦軸は観測信号の周波数fを示している。なお、図8に示す例では、近接音源からの音響の観測結果に加えて、当該音響が平面波とみなせる場合における観測結果の一例を参考として提示している。上記に示した(式8)と、図6とを参照するとわかるように、近接音源の場合には、ドップラー効果により変調された信号に歪みが生じるが、依然として周期及び位相が保存されていることがわかる。そのため、ドップラー効果により変調された信号の位相から、音源の方向θを推定することが可能である。
 具体的には、音源の方向をθとした場合に、定常な周波数は、sin(φt+φ+θ)のかたちで変調されるため(例えば、上述した(式2)を参照)、f=sin(φt+φ)との位相差θとして、音源の方向を推定することが可能となる。より具体的な一例として、相互相関関数を計算し、相関値が最大となる時刻ΔTから、位相差θ=φΔTとして求めればよい。なお、この場合には、観測点と近接音源との間の距離lは未知であってもよい。
 具体的には、上記に示した(式8)において、(f,θ,l)=(f’,θ’,l’)とした、Aref(f,t)及びRと観測信号の相互相関を計算し、相関値が最大となる(f’,θ’,l’)を求めることで、位相差θ=θ’を推定することが可能となる。この場合におけるAref(f,t)及びRは、以下に(式8a)として示すとおりである。なお、この手法では、方向だけでなく音源までの距離l=l’についても推定可能であるが、精度よく求めるためには3変数についての最大化問題を解く必要があり、計算量がより大きくなる場合がある。
Figure JPOXMLDOC01-appb-M000009
 ・・・(式8a)
 また、位相差θを導出する方法の他の一例について、図9及び図10を参照して以下に説明する。図9及び図10は、ドップラー効果による変調時の位相差を算出する方法の一例について説明するための説明図である。図9及び図10において、横軸は時間tを示し、縦軸は周波数fを示している。
 まず、図9に示すように、直線f=fと観測信号との交点の周期が一定となるように、周波数fを導出する。次いで、図10に示すように、f=sin(φt+φ)のゼロ点時刻t=(nπ-φ)/φと、直線f=fと観測信号とが交わる時刻tとを導出する。そして、導出した時刻t及びtに基づき、位相差θ=φ(t-t)を算出すればよい。なお、この場合においても、観測点と近接音源との間の距離lは未知であってもよい。
 また、観測点と近接音源との間の距離lをなんらかの方法で特定することが可能な場合には、前述した(式8)に基づき、音響の到来方向(即ち、音源の方向)を推定できることは言うまでもない。
 以上、図7~図10を参照して、音源の位置が集音部に近い場合、即ち、音源から到来する音響が平面波であるという仮定が成り立たない場合において、音源の方向を推定する方法の一例について説明した。
  <2.5.音源分離、ビームフォーミングへの応用>
 上述したように、本実施形態に係る情報処理システム1に依れば、周波数ビン毎の音響の到来方向(即ち、音源の方向)を推定することが可能である。そのため、前述したように、例えば、取得された観測信号に対して、所望の方向に応じてゲイン値を乗算することで、所望の方向から到来する音響を強調または抑圧することが可能である。
 なお、本実施形態に係る情報処理システム1において得られる音響は、ドップラー効果により変調されて歪んだ音響となるが、例えば、前述した(式3)に基づき、ドップラー効果による変調を逆補正することで、集音部301が静止している場合と同様に歪みの少ない音響を取得することが可能である。
 また、音源の移動や計算誤差等に伴い、当該音源の方向の推定結果が急激に変化することで、フィルタゲインが急激に変化し、ミュージカルノイズが発生する場合が想定され得る。このような場合には、例えば、ミュージカルノイズの発生を避けるために、音源の方向の推定結果やフィルタゲイン値に対して、時間方向に平滑化を施す処理等を加えてもよい。
 以上、本実施形態の技術的特徴として、特に、情報処理装置10による音源の方向の推定に係る処理の詳細について説明した。
 <<3.変形例>>
 次いで、本実施形態に係る情報処理システム1の変形例について説明する。
  <3.1.変形例1:複数の集音部を利用する場合の例>
 まず、変形例1として、複数の集音部301を利用することで、音源の方向の推定に係る性能(例えば、分解能等)をより向上させることが可能な仕組みの一例について説明する。
 前述した通り、本実施形態に係る情報処理システム1では、単一の集音部301により、複数の音源それぞれの方向を推定することが可能である。一方で、音源の方向の推定に係る分解能は、集音部301の移動速度や音源からの音響の定常性の度合い等に依存する場合がある。例えば、集音部301の移動速度が過度に遅い場合には、ドップラー効果の影響を観測しにくくなり、特に、音源が複数存在する場合の方向推定が困難になる場合がある。一方で、集音部301の移動速度が過度に速い場合には、瞬時周波数の変化が激しくなり、スペクトルのピークがぼやけ、音源の方向を高い精度で推定することが困難となる場合がある。また、集音部301の移動速度は、当該集音部301を移動させる駆動部305等のハードウェア的な制約を受け、特に、集音部301をより高速に移動させることが困難な場合もある。そこで、変形例1に係る情報処理システムでは、上述した制約下においても、複数の集音部301を利用することで、音源の方向の推定に係る性能(例えば、分解能等)をより向上させることを可能としている。
 例えば、図11は、変形例1に係る情報処理システム1の概要について説明するための説明図であり、複数の集音部301を利用する場合における、各集音部301と音響との間の空間的な位置関係の一例を模式的に示した図である。なお、本説明では、図11に示すように、複数の集音部301のそれぞれが同一の円状の軌道L1上を移動するものとし、かつ、音源から到来する音響は平面波とみなせるものとして説明する。また、図12は、複数の集音部301による音響の観測結果の一例を示している。図12において、横軸は時間tを示し、縦軸は観測信号の周波数fを示している。
 具体的な一例として、情報処理装置10は、複数の集音部301それぞれについて集音された音響信号に基づき音源の到来方向を推定する。なお、図12を参照するとわかるように、複数の集音部301それぞれにより取得される観測信号は、各集音部301間の相対的な位置関係の違いに起因して位相がずれる。そのため、情報処理装置10は、各集音部301に対応する音源の到来方向の推定結果に応じたヒストグラムを、複数の集音部301間の相対的な位置関係の違いに起因する位相分だけずらして加算する。このような処理により、情報処理装置10は、音源の方向の推定結果として、より鋭いヒストグラムを取得することが可能となり、当該ヒストグラムのピーク値に基づき音源の方向をより精度よく推定することが可能となる。
 また、他の一例として、各集音部301で観測される音響信号(即ち、観測信号)の周波数から振幅スペクトルを算出し、当該振幅スペクトルに基づき、音源の方向を推定する方法が挙げられる。本説明では、音源の方向の推定方法をよりわかりやすくするために、周波数fの単一正弦波の平面波がθ方向から到来する状況に着目して説明する。
 具体的には、同一の円状の軌道L1上に位置するN個の集音部301それぞれの、時刻t=0における角度をφ…φとすると、i番目の集音部301で観測される音響信号(即ち、観測信号)の周波数fは、以下に(式9)として示された計算式で表される。
Figure JPOXMLDOC01-appb-M000010
 ・・・(式9)
 ここで、i番目の集音部301で観測される音響信号の振幅スペクトルをA(f)とし、未知の到来方向をθ’と仮定とすると、ドップラー効果の影響を補正した振幅スペクトルの和A(f)は、以下に(式10)として示す計算式で表される。なお、「A」は、「A」の上にバーが付された文字を示すものとする。
Figure JPOXMLDOC01-appb-M000011
 ・・・(式10)
 例えば、図13は、複数の集音部301それぞれの集音結果に基づき算出される振幅スペクトルの一例を示しており、上述した(式10)において、θ=θ’の場合の振幅スペクトルの一例を示している。図13において、横軸は周波数fを示し、縦軸は振幅|A|を示している。図13を参照するとわかるように、θ=θ’において、観測信号に対してドップラー効果の影響を補正した場合の周波数が複数の集音部301間で略一致し、スペクトルのピークがより鋭くなり最大値を取る。
 このような特性に基づき、振幅スペクトルの和A(f)が最も鋭く最大値を取るようなθ’を求めることで、音響の到来方向(即ち、音源の方向)を推定することが可能となる。なお、この場合には、A(f)は、θ方向の音響がより強調されるため、ビームフォーミングや音源分離等に利用することが可能となる。
 また、(式10)として上記に示した関係式は、任意の周波数fについて成立するため、音源から到来する音響は必ずしも単一正弦波に限らず、任意のスペクトルであってもよい。例えば、図14は、複数の集音部301それぞれの集音結果に基づき算出される振幅スペクトルの他の一例を示しており、本来の音響の到来方向θとは異なる到来方向を仮定して(即ち、θ≠θ’)、振幅スペクトルの和A(f)を求めた場合のスペクトルの一例である。この場合には、各集音部301に対応する振幅スペクトルA(f)の補正後のスペクトルは重ならないため、図14に示すように、図13に示す例に比べて、ピーク値がより小さく、裾野の広がった形状のスペクトルとなる。
 以上、変形例1として、図11~図14を参照して、複数の集音部301を利用することで、音源の方向の推定に係る性能(例えば、分解能等)をより向上させることが可能な仕組みの一例について説明した。
  <3.2.変形例2:他の方向推定技術との組み合わせ>
 次いで、変形例2として、本実施形態に係る情報処理システム1による音源の方向の推定に係る処理を、他の方向推定技術に係る処理と組み合わせることで、音源の方向の推定に係る精度をより向上させるための技術の一例について説明する。
 具体的には、様々な方向から多くの雑音が混入するような状況下においては、雑音の到来方向に応じて、対象とする音源からの音響の到来方向を推定するための、変調後の観測信号の算出が困難となる場合がある。このような場合には、例えば、情報処理装置10は、観測点の周囲の映像を解析することで音源の位置の候補を推定し、当該推定結果と、前述した集音部301における観測信号に基づく音響の到来方向の推定結果とを組み合わせることで、音源の方向を推定してもよい。
 具体的には、情報処理装置10は、撮像装置等により撮像された観測点の周囲の映像を取得し、取得した映像に対して画像解析等の各種解析処理を施すことで音源の候補(例えば、人等)を抽出し、抽出結果に基づき音源の方向の候補を推定する。そして、情報処理装置10は、集音部301の集音結果に基づく音響信号(観測信号)の解析時に、映像に基づき推定された音源の方向から到来する音響がより強調されるようなフィルタを適用してもよい。より具体的な一例として、音響の到来方向に応じた周波数変調のしかたに沿ってスペクトルを平滑化させるようなフィルタをかけることで、所望の方向から到来する音響を強調することも可能である。
 なお、上記に説明した例はあくまで一例であり、本実施形態に係る情報処理システム1による音源の方向の推定に係る処理と組み合わせる他の方向推定技術は、音源の方向の候補を推定することが可能であれば、必ずしも映像の解析に基づく技術には限定されない。
 以上、変形例2として、本実施形態に係る情報処理システム1による音源の方向の推定に係る処理を、他の方向推定技術に係る処理と組み合わせることで、音源の方向の推定に係る精度をより向上させるための技術の一例について説明した。
  <3.3.変形例3:観測点が移動する場合の一例>
 次いで、変形例3として、本実施形態に係る情報処理システム1を、自動車(車両)等の移動体に適用する場合の一例について説明する。例えば、図15は、変形例3に係る情報処理システム1の概要について説明するための説明図である。図15に示す例では、集音ユニット30が移動体50(例えば、自動車、電車、自転車等)に載置されており、移動体50の移動に伴い、集音ユニット30自体も移動する。なお、本説明では、集音部301は、円状の軌道に沿って移動するものとして説明する。また、図15に示す例では、移動体50は、xy平面上を移動するものとする。
 この場合には、例えば、情報処理装置10は、移動体50の移動速度を認識する。具体的な一例として、情報処理装置10は、移動体50から移動速度を示す情報(例えば、速度計の値や、ハンドル操作の内容を示す情報等)を取得し、取得結果に応じて移動体50の移動速度を認識してもよい。また、情報処理装置10は、加速度センサ等の各種センサの検知結果に基づき、移動体50の移動速度を認識してもよい。また、他の一例として、情報処理装置10は、GPS(Global Positioning System)等による移動体50の位置の測位結果に基づき、当該移動体50の移動速度を算出してもよい。もちろん、情報処理装置10は、前述した各種方法のうち2以上の方法を組み合わせることで、移動体50の移動速度を認識してもよい。
 例えば、図16は、集音ユニット30が設置された移動体50の速度及び加速度の検出結果の一例を示している。図16において、各グラフの横軸は時間を示している。また、図16において、|v|は、移動体50の速度の絶対値を示しており、例えば、速度計の値として取得することが可能である。また、aは、移動体50に対してx方向に加わる加速度を示しており、aは、移動体50に対してy方向に加わる加速度を示している。なお、加速度a及びaは、例えば、加速度センサの検知結果として取得することが可能である。また、vは、移動体50の移動速度のx方向成分を示しており、vは、移動体50の移動速度のy方向成分を示している。なお、移動体50のx方向の速度vは、x方向に加わる加速度aの時間方向の積分値として算出することが可能である。同様に、移動体50のy方向の速度vは、y方向に加わる加速度aの時間方向の積分値として算出することが可能である。
 そして、情報処理装置10は、移動体50の速度をバイアスとして、移動体50に対して相対的に円状の軌道に沿って移動する集音部301の速度に加算することで、移動体50の移動に伴う集音部301の移動速度を算出する。ここで、移動体50の速度をvcar、移動体50に対して相対的に円状の軌道に沿って移動する集音部301の速度をvmicとすると、移動体50の移動に伴う集音部301の移動速度vtotalは、以下に(式11)として示す計算式で表される。
Figure JPOXMLDOC01-appb-M000012
 ・・・(式11)
 なお、以降の処理については、前述した実施形態と同様である。具体的な一例として、情報処理装置10は、(式3)~(式7)を参照して前述した処理に基づき、集音ユニット30(ひいては、移動体50)に対する音源の方向を推定すればよい。このような構成により、例えば、情報処理システム1を自動車に適用することで、サイレンの到来方向や、死角に位置する他の自動車の走行音等の到来方向を推定することで、周囲の状況の把握や危険察知に応用することが可能となる。
 なお、移動体50の種別は、必ずしも限定されず、当該移動体50の動きも図15に示すような平面的な動きには限定されない。具体的な一例として、移動体50が、所謂ドローン等のような小型無人飛行機として構成されていてもよい。このような場合には、小型無人飛行機として構成された移動体50に設置された情報処理装置10は、集音部301の速度や、音響の進行方向を3次元的に解析することで、音源の方向(即ち、音響の到来方向)を3次元的に推定するとよい。
 また、小型無人飛行機のように比較的高速に3次元的に移動する移動体50を適用する場合には、集音部301を回転させるための回転機構を設けない場合においても、移動体50の運動を監視することで音源の方向を検知できる場合がある。具体的には、加速度センサ、超音波センサ、気圧センサ、GPS等により移動体50の速度を推定し、当該速度を集音部301の移動速度とみなして、音源の方向を推定すればよい。このような構成の場合には、例えば、移動体50が動き回りながら音響の到来方向を推定し、当該推定結果を集計することで、集計結果に基づき音源の位置を推定することも可能である。
 また、所謂ドローンのように移動体50自身が音を出すような場合には、例えば、複数の移動体50間において互いの位置を把握しあうことも可能である。この場合には、例えば、一方の移動体50側が、他方の移動体50を音源とみなして、当該他方の移動体50の位置または方向を推定すればよい。
 以上、変形例3として、図15及び図16を参照して、本実施形態に係る情報処理システム1を、自動車等の移動体に適用する場合の一例について説明した。
  <3.4.変形例4:屋内における適用例>
 次いで、変形例4として、本実施形態に係る情報処理システム1を、屋内に設置された機器に適用した場合の一例を示す。例えば、図17は、変形例4に係る情報処理システム1の概要について説明するための説明図であり、屋内に設定されたシーリングファンに対して情報処理システム1を適用した場合の一例を示している。
 具体的には、図17に示す例では、天井に対して設置されたシーリングファン30’を前述した集音ユニット30(例えば、図1参照)として利用し、シーリングファンの回転翼303’を、集音部301を支持する支持部303として利用している。このような構成により、シーリングファンの回転翼303’が開店することで、集音部301が円状の軌道に沿って移動することとなる。このとき、例えば、ユーザU21やユーザU22から発せられた音声は、集音部301に集音される際に、ドップラー効果の影響により変調されることとなる。即ち、図17に示す例では、ユーザU21及びユーザU22からの音声の集音結果に基づき、シーリングファン30’(即ち、集音ユニット30)に対する当該ユーザU21及びユーザU22それぞれの方向を推定することが可能となる。
 このような構成により、例えば、音声入力が行われた場合に当該音声を発話したユーザ(即ち、話者)の方向を推定し、当該ユーザに対してサービスを提供することが可能となる。なお、このとき、例えば、画像認識技術等と組み合わせることで、ユーザ個人を特定し、個人の特定結果に応じたサービスを提供できるようにシステムが構成されていてもよい。
 また、図17に示す例のように、シーリングファン30’を集音ユニット30として利用することで、床やテーブル上に集音部を設置する場合に比べて場所をとらず、集音部301の位置を固定化することが可能となる。また、図17に示すように、シーリングファン30’を集音ユニット30として利用する場合には、集音ユニット30(即ち、シーリングファン30’)を部屋の中央付近に設置できる可能性が高く、音源(例えば、ユーザ)との間に障害物が介在する可能性が低い。そのため、図17に示すように、シーリングファン30’を集音ユニット30として利用することで、音源(例えば、ユーザ)の方向をより精度良く推定することが可能となる。
 以上、変形例4として、図17を参照して、本実施形態に係る情報処理システム1を、屋内に設置された機器に適用した場合の一例について説明した。なお、変形例4では、シーリングファンを集音ユニット30として利用する場合について説明したが、集音ユニット30として利用可能な機器は必ずしもシーリングファンのみには限定されないことは言うまでもない。より具体的には、想定される音源の移動速度に対して十分に速い速度で移動する機構を少なくとも一部に有する機器であれば、集音ユニット30として利用することは可能である。
 <<4.ハードウェア構成>>
 次に、図18を参照して、本開示の各実施形態に係る情報処理装置10(即ち、上述した信号処理装置11~14)のハードウェア構成の一例について説明する。図18は、本開示の各実施形態に係る情報処理装置10のハードウェア構成の一例を示した図である。
 図18に示すように、本実施形態に係る情報処理装置10は、プロセッサ901と、メモリ903と、ストレージ905と、操作デバイス907と、報知デバイス909と、集音デバイス913と、バス917とを含む。また、情報処理装置10は、音響デバイス911と、通信デバイス915とのうち少なくともいずれかを含んでもよい。
 プロセッサ901は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)又はSoC(System on Chip)であってよく、情報処理装置10の様々な処理を実行する。プロセッサ901は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した解析部101、駆動制御部103、及び処理実行部105は、プロセッサ901により実現され得る。
 メモリ903は、RAM(Random Access Memory)及びROM(Read Only Memory)を含み、プロセッサ901により実行されるプログラム及びデータを記憶する。ストレージ905は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した記憶部107は、メモリ903及びストレージ905の少なくともいずれか、もしくは、双方の組み合わせにより実現され得る。
 操作デバイス907は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス907は、例えば、タッチパネルとして構成され得る。また、他の一例として、操作デバイス907は、例えばボタン、スイッチ、及びキーボードなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ901に供給する入力制御回路などから構成されてよい。
 報知デバイス909は、出力デバイスの一例であり、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどのデバイスであってよい。この場合には、報知デバイス909は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。
 なお、上記に示した報知デバイス909の例はあくまで一例であり、ユーザに対して所定の情報を報知可能であれば、報知デバイス909の態様は特に限定されない。具体的な一例として、報知デバイス909は、LED(Light Emitting Diode)のように、点灯又は点滅のパターンにより、所定の情報をユーザに報知するデバイスであってもよい。また、報知デバイス909は、所謂バイブレータのように、振動することで、所定の情報をユーザに報知するデバイスであってもよい。
 音響デバイス911は、スピーカー等のように、所定の音響信号を出力することで、所定の情報をユーザに報知するデバイスである。
 集音デバイス913は、マイクロフォン等のような、ユーザから発せられた音声や周囲の環境の音響を集音し、音響情報(音響信号)として取得するためのデバイスである。また、集音デバイス913は、集音された音声や音響を示すアナログの音響信号を示すデータを音響情報として取得してもよいし、当該アナログの音響信号をデジタルの音響信号に変換し、変換後のデジタルの音響信号を示すデータを音響情報として取得してもよい。なお、前述した集音部301は、集音デバイス913により実現され得る。
 通信デバイス915は、情報処理装置10が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス915は、有線または無線用の通信インタフェースである。通信デバイス915を、無線通信インタフェースとして構成する場合には、当該通信デバイス915は、通信アンテナ、RF(Radio Frequency)回路、ベースバンドプロセッサなどを含んでもよい。
 通信デバイス915は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ901に供給することが可能である。
 バス917は、プロセッサ901、メモリ903、ストレージ905、操作デバイス907、報知デバイス909、音響デバイス911、集音デバイス913、及び通信デバイス915を相互に接続する。バス917は、複数の種類のバスを含んでもよい。
 また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置10が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。
 <<5.むすび>>
 以上、説明したように、本実施形態に係る情報処理システム1では、集音部301の位置及び向きのうち少なくともいずれかを所定のパターンで変化させる(例えば、所定の軌道に沿って移動させる)ことで、当該集音部301により少なくとも1以上の音源からの音響を集音する。そして、情報処理装置10は、集音部301により集音された音響に基づく音響信号の周波数が、当該集音部301の位置及び向きの変化に伴うドップラー効果の影響により変化する特性を利用することで、集音された音響の音源の方向を推定する。
 このような構成により、本実施形態に係る情報処理システム1は、周囲に音源が複数存在するような状況下においても、少なくとも1つの集音部301を設けることで、当該複数の音源それぞれの方向を、より高い分解能で推定することが可能となる。即ち、本実施形態に係る情報処理システム1に依れば、集音部301の数の低減と、音源の方向の推定における分解能の向上とを両立することが可能となる。また、本実施形態に係る情報処理システム1では、集音部301の数をより少なくすることが可能なため、各種コストを低減することが可能となり、重量もより軽くすることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 位置及び向きのうち少なくともいずれかを示す位置情報が所定のパターンで変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得する取得部と、
 前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定する推定部と、
 を備える、情報処理装置。
(2)
 前記集音部の前記位置情報を前記所定のパターンで変化させる駆動部の動作を制御する駆動制御部を備える、前記(1)に記載の情報処理装置。
(3)
 前記駆動制御部は、前記集音部の前記位置情報が、略円形状の所定の軌道に沿って変化するように前記駆動部の動作を制御する、前記(2)に記載の情報処理装置。
(4)
 前記推定部は、前記集音部により集音される音響のスペクトルの時間方向の変化と当該スペクトルの周波数方向の変化との比と、前記集音部の前記位置情報の変化と、に基づき、前記1以上の音源それぞれの方向を推定する、前記(1)~(3)のいずれか一項に記載の情報処理装置。
(5)
 前記1以上の音源それぞれの方向の推定結果に基づき、少なくともいずれかの方向から到来し集音される音響の振幅を制御する、音響制御部を備える、前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記取得部は、複数の前記集音部それぞれによる音響の集音結果を取得し、
 前記推定部は、複数の前記集音部それぞれの移動に伴う、当該複数の集音部それぞれにより集音される音響の前記周波数変化に基づき、前記1以上の音源それぞれの方向を推定する、
 前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記集音部は、前記位置情報が所定の移動体に対して相対的に前記所定のパターンで変化するように、当該移動体に支持され、
 前記推定部は、前記所定の移動体の位置及び向きのうち少なくともいずれかの変化と、当該所定の移動体に対する前記集音部の相対的な前記位置情報の変化と、に伴う、前記音響の前記周波数変化に基づき、前記1以上の音源それぞれの方向を推定する、
 前記(1)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記所定の移動体は、車両である、前記(7)に記載の情報処理装置。
(9)
 前記集音部は、所定の駆動体に対して保持され、当該駆動体が駆動することで、前記位置情報が前記所定のパターンで変化する、前記(1)~(6)のいずれか一項に記載の情報処理装置。
(10)
 前記駆動体は、回転体であり、
 前記集音部は、前記回転体が回転することで、前記位置情報が略円形状の所定の軌道に沿って変化する、
 前記(9)に記載の情報処理装置。
(11)
 前記回転体は、所定の天井面または壁面に設置されるファンの回転翼である、前記(10)に記載の情報処理装置。
(12)
 前記音源は、音響を発する他の移動体であり、
 前記推定部は、前記他の移動体の方向を、前記集音部により集音される音響の前記周波数変化に基づき推定する、前記(1)~(6)のいずれか一項に記載の情報処理装置。
(13)
 前記推定部は、取得された前記他の移動体の位置の推定結果を、前記集音部により集音される音響の前記周波数変化に基づく当該他の移動体の方向の推定結果に基づき補正する、前記(12)に記載の情報処理装置。
(14)
 前記取得部は、撮像部により撮像された画像を取得し、
 前記推定部は、取得された前記画像の解析結果と、前記集音部により集音される音響の前記周波数変化と、に基づき、前記1以上の音源それぞれの方向を推定する、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
 位置及び向きのうち少なくともいずれかを示す位置情報が所定のパターンで変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、
 プロセッサが、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、
 を含む、情報処理方法。
(16)
 コンピュータに、
 位置及び向きのうち少なくともいずれかを示す位置情報が所定のパターンで変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、
 前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、
 を実行させる、プログラム。
 1   情報処理システム
 10  情報処理装置
 101 解析部
 103 駆動制御部
 105 処理実行部
 107 記憶部
 30  集音ユニット
 301 集音部
 303 支持部
 305 駆動部

Claims (17)

  1.  位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得する取得部と、
     前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定する推定部と、
     を備える、情報処理装置。
  2.  前記集音部は、前記位置情報が所定のパターンで変化する、請求項1に記載の情報処理装置。
  3.  前記集音部の前記位置情報を前記所定のパターンで変化させる駆動部の動作を制御する駆動制御部を備える、請求項2に記載の情報処理装置。
  4.  前記駆動制御部は、前記集音部の前記位置情報が、略円形状の所定の軌道に沿って変化するように前記駆動部の動作を制御する、請求項3に記載の情報処理装置。
  5.  前記推定部は、前記集音部により集音される音響のスペクトルの時間方向の変化と当該スペクトルの周波数方向の変化との比と、前記集音部の前記位置情報の変化と、に基づき、前記1以上の音源それぞれの方向を推定する、請求項1に記載の情報処理装置。
  6.  前記1以上の音源それぞれの方向の推定結果に基づき、少なくともいずれかの方向から到来し集音される音響の振幅を制御する、音響制御部を備える、請求項1に記載の情報処理装置。
  7.  前記取得部は、複数の前記集音部それぞれによる音響の集音結果を取得し、
     前記推定部は、複数の前記集音部それぞれの移動に伴う、当該複数の集音部それぞれにより集音される音響の前記周波数変化に基づき、前記1以上の音源それぞれの方向を推定する、
     請求項1に記載の情報処理装置。
  8.  前記集音部は、前記位置情報が所定の移動体に対して相対的に前記所定のパターンで変化するように、当該移動体に支持され、
     前記推定部は、前記所定の移動体の位置及び向きのうち少なくともいずれかの変化と、当該所定の移動体に対する前記集音部の相対的な前記位置情報の変化と、に伴う、前記音響の前記周波数変化に基づき、前記1以上の音源それぞれの方向を推定する、
     請求項1に記載の情報処理装置。
  9.  前記所定の移動体は、車両である、請求項8に記載の情報処理装置。
  10.  前記集音部は、所定の駆動体に対して保持され、当該駆動体が駆動することで、前記位置情報が前記所定のパターンで変化する、請求項1に記載の情報処理装置。
  11.  前記駆動体は、回転体であり、
     前記集音部は、前記回転体が回転することで、前記位置情報が略円形状の所定の軌道に沿って変化する、
     請求項10に記載の情報処理装置。
  12.  前記回転体は、所定の天井面または壁面に設置されるファンの回転翼である、請求項11に記載の情報処理装置。
  13.  前記音源は、音響を発する他の移動体であり、
     前記推定部は、前記他の移動体の方向を、前記集音部により集音される音響の前記周波数変化に基づき推定する、請求項1に記載の情報処理装置。
  14.  前記推定部は、取得された前記他の移動体の位置の推定結果を、前記集音部により集音される音響の前記周波数変化に基づく当該他の移動体の方向の推定結果に基づき補正する、請求項13に記載の情報処理装置。
  15.  前記取得部は、撮像部により撮像された画像を取得し、
     前記推定部は、取得された前記画像の解析結果と、前記集音部により集音される音響の前記周波数変化と、に基づき、前記1以上の音源それぞれの方向を推定する、請求項1に記載の情報処理装置。
  16.  位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、
     プロセッサが、前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、
     を含む、情報処理方法。
  17.  コンピュータに、
     位置及び向きのうち少なくともいずれかを示す位置情報が変化する集音部による、1以上の音源それぞれからの音響の集音結果を取得することと、
     前記集音部の前記位置情報の変化に伴う、当該集音部に集音される音響の周波数変化に基づき、前記1以上の音源それぞれの方向を推定することと、
     を実行させる、プログラム。
PCT/JP2016/078682 2015-11-17 2016-09-28 情報処理装置、情報処理方法、及びプログラム WO2017086030A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US15/772,700 US11067661B2 (en) 2015-11-17 2016-09-28 Information processing device and information processing method
CN201680065660.5A CN108293161A (zh) 2015-11-17 2016-09-28 信息处理设备、信息处理方法和程序
EP16866032.2A EP3379844A4 (en) 2015-11-17 2016-09-28 Information processing device, information processing method, and program
JP2017551757A JP6747451B2 (ja) 2015-11-17 2016-09-28 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015224659 2015-11-17
JP2015-224659 2015-11-17

Publications (1)

Publication Number Publication Date
WO2017086030A1 true WO2017086030A1 (ja) 2017-05-26

Family

ID=58718713

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/078682 WO2017086030A1 (ja) 2015-11-17 2016-09-28 情報処理装置、情報処理方法、及びプログラム

Country Status (5)

Country Link
US (1) US11067661B2 (ja)
EP (1) EP3379844A4 (ja)
JP (1) JP6747451B2 (ja)
CN (1) CN108293161A (ja)
WO (1) WO2017086030A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597525A (zh) * 2018-04-25 2018-09-28 四川远鉴科技有限公司 语音声纹建模方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607863B1 (ko) * 2018-12-03 2023-12-01 삼성전자주식회사 음원 분리 장치 및 음원 분리 방법
DE102018222862A1 (de) * 2018-12-21 2020-06-25 Robert Bosch Gmbh Verfahren und System zur Lokalisierung einer Akustikquelle relativ zu einem Fahrzeug
JP7120077B2 (ja) * 2019-02-27 2022-08-17 トヨタ自動車株式会社 運転支援システム
CN110010126B (zh) * 2019-03-11 2021-10-08 百度国际科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN113453980B (zh) * 2019-05-15 2024-03-29 松下知识产权经营株式会社 信息处理方法、无人飞行体以及无人飞行体控制系统
CN110164443B (zh) * 2019-06-28 2021-09-14 联想(北京)有限公司 用于电子设备的语音处理方法、装置以及电子设备
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
CN110567577A (zh) * 2019-10-15 2019-12-13 合肥工业大学 一种消除旋转声源多普勒效应的方法
NL2033911B1 (en) * 2023-01-05 2024-07-16 Stichting Radboud Univ Biomimetic microphone

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277832A (ja) * 2004-03-25 2005-10-06 Matsushita Electric Ind Co Ltd 音声記録装置
WO2006054599A1 (ja) * 2004-11-16 2006-05-26 Nihon University 音源方向判定装置及び方法
JP2012129873A (ja) * 2010-12-16 2012-07-05 Chubu Electric Power Co Inc 指定領域からの伝播音の再生方法とその装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379553B2 (en) * 2002-08-30 2008-05-27 Nittobo Acoustic Engineering Co. Ltd Sound source search system
DE102008029352A1 (de) * 2008-06-20 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Lokalisieren einer Schallquelle
WO2010124274A1 (en) * 2009-04-24 2010-10-28 Wayne State University 3d soundscaping
JP5493611B2 (ja) 2009-09-09 2014-05-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP5702160B2 (ja) * 2011-01-20 2015-04-15 中部電力株式会社 音源推定方法及び音源推定装置
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US9357293B2 (en) * 2012-05-16 2016-05-31 Siemens Aktiengesellschaft Methods and systems for Doppler recognition aided method (DREAM) for source localization and separation
US9197930B2 (en) * 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
CN104376849A (zh) * 2013-08-14 2015-02-25 Abb技术有限公司 区分声音的系统和方法及状态监控系统和移动电话机
CN104360308B (zh) * 2014-11-28 2017-03-01 北京智谷睿拓技术服务有限公司 移动声源信息确定方法及确定装置、用户设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277832A (ja) * 2004-03-25 2005-10-06 Matsushita Electric Ind Co Ltd 音声記録装置
WO2006054599A1 (ja) * 2004-11-16 2006-05-26 Nihon University 音源方向判定装置及び方法
JP2012129873A (ja) * 2010-12-16 2012-07-05 Chubu Electric Power Co Inc 指定領域からの伝播音の再生方法とその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3379844A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597525A (zh) * 2018-04-25 2018-09-28 四川远鉴科技有限公司 语音声纹建模方法及装置

Also Published As

Publication number Publication date
EP3379844A1 (en) 2018-09-26
JP6747451B2 (ja) 2020-08-26
EP3379844A4 (en) 2018-11-14
JPWO2017086030A1 (ja) 2018-09-06
US11067661B2 (en) 2021-07-20
US20180332385A1 (en) 2018-11-15
CN108293161A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
WO2017086030A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN105979442B (zh) 噪声抑制方法、装置和可移动设备
US9360546B2 (en) Systems, methods, and apparatus for indicating direction of arrival
CN106123897B (zh) 基于多特征的室内融合定位方法
JP6620140B2 (ja) 2次元センサーアレイを用いて3次元波動場の3次元波動場表現を構築するための方法、コンピューター可読記憶媒体及び装置
JP6109927B2 (ja) 源信号分離のためのシステム及び方法
CN113281706B (zh) 一种目标定位方法、装置及计算机可读存储介质
US8094833B2 (en) Sound source localization system and sound source localization method
JP2019505047A (ja) ドローン飛行制御
CN103308889A (zh) 复杂环境下被动声源二维doa估计方法
US11454694B2 (en) Wave source direction estimation apparatus, wave source direction estimation system, wave source direction estimation method, and wave source direction estimation program
CN108627801A (zh) 移动体位置估计系统、装置和方法
Liu et al. Vernier: Accurate and fast acoustic motion tracking using mobile devices
JP2017211348A (ja) 軌跡推定装置、軌跡推定方法及びプログラム
Wu et al. HDSpeed: Hybrid detection of vehicle speed via acoustic sensing on smartphones
Zhao et al. Design and evaluation of a prototype system for real-time monitoring of vehicle honking
CN103257338A (zh) 一种室内定位的方法及系统
Ruan et al. Making sense of doppler effect for multi-modal hand motion detection
Mattos et al. Passive sonar applications: target tracking and navigation of an autonomous robot
US20200265215A1 (en) System architecture and method of authenticating a user
Lee et al. Sonicstrument: A Musical Interface with Stereotypical Acoustic Transducers.
Ogiso et al. Infrastructure-less Localization from Indoor Environmental Sounds Based on Spectral Decomposition and Spatial Likelihood Model
Jung et al. APPLICATION OF SOUND SOURCE LOCALIZATION ALGORITHM FOR URBAN NOISE SOURCE MONITORING
Cevher A Bayesian framework for target tracking using acoustic and image measurements
Dahlan et al. Sound source localization for automatic camera steering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16866032

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017551757

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15772700

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE