WO2020031594A1 - 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム - Google Patents

音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム Download PDF

Info

Publication number
WO2020031594A1
WO2020031594A1 PCT/JP2019/027241 JP2019027241W WO2020031594A1 WO 2020031594 A1 WO2020031594 A1 WO 2020031594A1 JP 2019027241 W JP2019027241 W JP 2019027241W WO 2020031594 A1 WO2020031594 A1 WO 2020031594A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
spectrum
microphones
frequency spectrum
Prior art date
Application number
PCT/JP2019/027241
Other languages
English (en)
French (fr)
Inventor
賢司 小澤
Original Assignee
国立大学法人山梨大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人山梨大学 filed Critical 国立大学法人山梨大学
Priority to US17/266,397 priority Critical patent/US11317200B2/en
Priority to JP2020536395A priority patent/JP7286896B2/ja
Publication of WO2020031594A1 publication Critical patent/WO2020031594A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Definitions

  • the present invention relates to a sound source separation system, a sound source position estimation system, a sound source separation method, and a sound source separation program.
  • a microphone array including a plurality of microphones collects sounds output from a plurality of sound sources, and performs image signal processing on a spatiotemporal sound pressure distribution image obtained from a sound pressure waveform to perform image signal processing.
  • the sound source separation system is configured to output from a first sound source located at a first position having an effective distance from a plurality of microphones and a second sound source located at a position other than the first position.
  • Data collection unit that obtains sound collection data obtained by collecting sound from a plurality of microphones, and a circumferential direction of a circle whose first position is the center and the effective distance is a radius based on the sound collection data.
  • a frequency spectrum acquisition unit that acquires a frequency spectrum for two dimensions in the time direction and the time direction; a first sound source spectrum that is a spectrum of a sound output from the first sound source based on the frequency spectrum;
  • a second sound source spectrum which is a spectrum of the sound which is generated.
  • the sound output from the first sound source has the same phase in all of the plurality of microphones. For this reason, when the sound collection data from each microphone is arranged in the circumferential direction of a circle where the first position is the center and the effective distance between the microphone and the first sound source is the radius, and the sound collection data is plotted in the time direction, , The sound pressure changes only in the time direction and does not change in the circumferential direction.
  • the sound output from the second sound source located at a position other than the first position has a phase corresponding to the distance between the first position and each microphone, and the sounds observed at the same time in each microphone have different phases. is there.
  • the sound collection data from each microphone is arranged in the circumferential direction of a circle where the first position is the center and the effective distance between the microphone and the first sound source is the radius, and the sound collection data is plotted in the time direction, .
  • the sound pressure changes in both the circumferential direction and the time direction. Therefore, when Fourier transform is performed on such two-dimensional sound collection data in the circumferential direction and the time direction, a frequency spectrum (second sound source spectrum) that can have a non-zero value in both the circumferential direction and the time direction is obtained.
  • the characteristics of the first sound source spectrum obtained when the sound source exists at the first position having the same effective distance from the plurality of microphones are effectively used to separate the spectra of the plurality of sound sources. can do.
  • expressions such as "equal distances from a plurality of microphones" or "a plurality of microphones existing at an equal distance” are sound collection data of a plurality of microphones even when the actual distances are not equal.
  • the sound source position estimating system collects sounds output from the sound source to be estimated by a plurality of microphones having the same effective distance from the first position, and the first position is centered.
  • An estimation target frequency spectrum acquisition unit that converts an estimation target frequency spectrum that is a two-dimensional frequency spectrum in a circumferential direction and a time direction of a circle whose effective distance is a radius, and a sound output from a reference sound source.
  • a reference data acquisition unit that acquires reference data in which a reference frequency spectrum in a case where the sound is collected by a plurality of microphones and converted into a two-dimensional frequency spectrum and the position of the reference sound source is associated with the estimation target frequency spectrum; ,
  • the estimation target sound source is located at the position of the reference sound source corresponding to the reference frequency spectrum. It includes a position estimation unit for estimating a present, and the position of the reference sound source associated with the reference frequency spectrum, a first position, may be configured to include a position other than the first position.
  • the sound source position estimating system sets a sound collection unit that acquires sound collection data obtained by collecting sound with a plurality of microphones, a plurality of candidate positions, and sets a candidate position from the plurality of microphones.
  • a sound collection data correction unit that performs a process of correcting the sound collection result for each microphone in the time direction so as to be equivalent to a sound collection result when the effective distance to the sound source is equal to a plurality of candidate positions; For each of the positions, a candidate spectrum acquisition unit that acquires a two-dimensional frequency spectrum in a circumferential direction and a time direction of a circle whose center is a candidate position and whose effective distance is a radius; A position estimating unit for estimating that the sound source exists at a candidate position where the frequency spectrum of a certain region is maximized.
  • the frequency spectrum of the sound source located at a position where the effective distances from the plurality of microphones are equal is a spectrum localized only in a region where the frequency in the circumferential direction is 0, and is an extremely characteristic spectrum. Therefore, correction is performed on a plurality of candidate positions so that the effective distances from the plurality of microphones to the candidate positions are equal, and if the characteristic spectrum is obtained in the candidate spectrum, the candidate position corresponding to the candidate spectrum is obtained. It can be estimated that there is a sound source in. With the above configuration, the position of the estimation target sound source is estimated by effectively utilizing the characteristics of the first sound source spectrum obtained when the sound source exists at the first position having the same effective distance from the plurality of microphones. Can be.
  • FIG. 1A and FIG. 1B are diagrams for explaining how a feature appears in a frequency spectrum.
  • 2A and 2C are diagrams illustrating a sound collection result
  • FIGS. 2B and 2D are diagrams illustrating a frequency spectrum.
  • FIG. 3A and FIG. 3B are diagrams illustrating the appearance of features in the frequency spectrum.
  • It is a block diagram of a sound source separation system. It is a flowchart of a sound source separation process.
  • 6A to 6C are views for explaining the processing for separating the sound sources. It is a figure explaining the example of sound source separation. It is a block diagram of a sound source position estimation system.
  • FIG. 9A is a flowchart of a sound source position estimation process
  • FIG. 9B is a diagram illustrating an example of reference data.
  • FIGS. 10A and 10B are diagrams illustrating the calculation of reference data. It is a block diagram of a sound source position estimation system.
  • FIG. 12A is a flowchart of a sound source position estimating process, and
  • FIG. 12B is a diagram illustrating derivation of a local maximum value.
  • FIGS. 1A, 1B, and 2A to 2D are diagrams illustrating a case where eight microphones are used as an example for explaining a principle of obtaining a characteristic sound collection result.
  • FIG. 1A is a diagram illustrating the positions of a plurality of microphones M 0 to M 7 and the position of a first sound source S 1 .
  • a plurality of microphones M 0 to M 7 are arranged at an equal distance from the first sound source S 1 . That is, the plurality of microphones M 0 to M 7 are arranged on the circumference of a circle having a radius R centered on the first sound source S 1 .
  • the distances between the plurality of microphones M 0 to M 7 are equal and are arranged at equal intervals, but are not necessarily equal.
  • the tangent of a circle passing through the center of a plurality of microphones M 0 to M 7 arranged at equal intervals, that is, a point on the circumference of a circle equidistant from the microphones M 3 and M 4 is represented by the x-axis.
  • a coordinate system is defined in which the perpendicular to the tangent of the circle is the y-axis. In this axis, the first sound source S 1 is a point on the y-axis.
  • the sound that is output from the first sound source S 1 is a spherical wave, travels isotropically in all directions. Therefore, when the plurality of microphones M 0 to M 7 are arranged at the same distance from the first sound source S 1 , the sounds collected by the microphones M 0 to M 7 are the same. Thus, a plurality of microphones M 0 ⁇ M 7 is, in the case where the first source S 1 is disposed equidistant, the first position of the sound source S 1 is referred to as a first position.
  • the plurality of microphones M 0 to M 7 are arranged on the circumference of the circle having the radius R centered on the first sound source S 1 as described above, the plurality of microphones M 0 to M 7 are arranged on the circumference of the circle. It can be said that they are arranged in the direction. Therefore, when the sound collection results of the microphones M 0 to M 7 are arranged in the vertical direction as shown in FIG. 2A, it can be said that the vertical direction is the circumferential direction.
  • FIG. 2B shows the result of Fourier transform of the sound collection data that spreads in the circumferential direction and the time direction as shown in FIG. 2A.
  • a frequency spectrum of a sound collection result in each of the circumferential direction and the time direction is obtained.
  • the power of the frequency spectrum is indicated by the luminance, and the power 0 is black, and the higher the power, the higher the luminance.
  • the frequency spectrum has an area where the frequency in the circumferential direction is 0. And has no value in a region where the circumferential frequency is non-zero.
  • the frequency spectrum has a value over the full-angle frequency in the time direction. Therefore, various frequencies may be included in the time direction.
  • the above characteristics are attributable to the fact that the plurality of microphones M 0 to M 7 exist on the circumference of a circle having a radius R centered on the first sound source S 1 . That is, when a plurality of microphones M 0 to M 7 exist on the circumference of a circle having a radius R centered on the first sound source S 1 , the sounds collected by all the microphones M 0 to M 7 are the same. . In this case, the situation where all the microphones M 0 to M 7 have the same sound pressure in the circumferential direction is repeated in all the time directions. As a result, as shown in FIG.
  • FIG. 1B shows a case where a plurality of microphones M 0 to M 7 are arranged at the same position as in FIG. 1A and a second sound source S 2 is arranged at a position on the y-axis different from the first position P 1 .
  • the second sound source S 2 is located closer to the microphone than the first position P 1. Therefore, the distance from the second sound source S 2 to the plurality of microphones M 0 to M 7 is not constant.
  • the sounds collected by the microphones M 0 to M 7 are not the same (however, This is the same for microphones located at positions symmetrical with respect to the y-axis (such as M 0 and M 7 ).
  • FIG. 2C is a diagram showing a sound collection result of each of the microphones M 0 to M 7 , which is shown in the same format as that of FIG. 2A.
  • the distance from the second sound source S 2 differs between the plurality of microphones M 0 to M 7 . Accordingly, when comparing the sound pressures of the plurality of microphones M 0 to M 7 , as shown in FIG. 2C, the temporal positions at which the same sound pressure is obtained are slightly different.
  • FIG. 2D shows the result of Fourier transform of the collected sound data that spreads in the circumferential direction and the time direction as shown in FIG. 2C, and is shown in the same format as that of FIG. 2B.
  • the frequency spectrum are distributed both in the circumferential direction and in the time direction. That is, when the distance from the second sound source S 2 to the plurality of microphones M 0 to M 7 is not constant, the sounds collected by the microphones M 0 to M 7 are slightly different. In this case, the sound pressure changes in the circumferential direction at the same time. Accordingly, the frequency spectrum is not localized in a region where the frequency is 0 in the circumferential direction.
  • the sound collection data as the sound collection results of the microphones located at positions that are line-symmetric with respect to the y axis is the same. Therefore, with the configuration in which one of the same sound collection data is generated from the other, it is also possible to generate sound collection data of a microphone that does not actually exist from sound collection data of a microphone that actually exists.
  • the sound collecting data of the microphones M 7 to M 4 may be generated by copying the sound collecting data of the microphones M 0 to M 3 .
  • a plurality of microphones M 0 ⁇ M 7 is, even if you do not actually arranged on the circumference of a circle of radius R around the first source S 1, a plurality of microphones M 0 ⁇ on the circumference it is possible to correct the sound collecting data so that it can be regarded as M 7 are arranged.
  • FIG. 3A shows an example in which the microphones M 00 to M 03 are arranged at equal distances on the x-axis. Since it is sufficient that M 0 to M 7 can be regarded as being arranged on the circumference, the microphone may be moved in parallel with the y-axis to move on the circle.
  • the distances from the first sound source S 1 to the microphones M 00 to M 03 are not equal.
  • each of the microphones M 00 to M 03 collects spherical waves output from the same sound source. Therefore, if the phases are changed in the time direction, the microphones M 00 to M 03 will be the same as the sound collection result when the microphones M 00 to M 03 are arranged on the circumference of the circle having the radius R centered on the first sound source S 1. Can be corrected.
  • the microphones M 00 For example, on a straight line extending from the microphone M 00 to the first source S 1, if the circumference of a circle of radius R around the first source S 1, the distance between the microphone M 00 is L, the microphones M 00 The sound collection data is delayed from the sound collection data of the microphone M 0 by the phase corresponding to the distance (2 ⁇ f ⁇ L / v: f is the frequency of the sound wave, and v is the speed of the sound wave). Accordingly sound collecting data equivalent data at the microphone M 0 is obtained by correcting the amount of delay.
  • the microphones M 0 to M 03 shown in FIG. when performing the sound collection equivalent collected data M 3 can be obtained.
  • the microphone data of the microphone M 7 - M 4 may be generated copied data microphones M 0 ⁇ M 3 is microphone M with respect to the y-axis 00 a microphone disposed at a position axisymmetric with the M 03, may be generated by correcting the sound collecting data.
  • the second source S 2 is present in the first position P 1 and different positions, which is the first position of the sound source S 1.
  • the correction is performed so as to be equivalent to the sound collection data in a state where the microphone exists on the circumference of a circle whose distance from the first sound source S 1 is R, the second sound source S 2 and each microphone Data equivalent to data when sound is collected on a straight line connecting M 00 to M 03 can be obtained.
  • the frequency spectrum of the second source S 2 is a significantly different spectrum from the first frequency spectrum of the sound source S 1 present in the first position P 1. Therefore, if such characteristics of the frequency spectrum are effectively used, the separation of the sound source and the estimation of the position of the sound source can be performed.
  • FIG. 4 is a block diagram of the sound source separation system 10 according to one embodiment of the present invention.
  • the sound source separation system 10 includes a plurality (M, where M ⁇ 3) of A / D converters C 0 to C M ⁇ 1 , a control unit 20, a recording medium 30, and a distance sensor 40.
  • a plurality of (M) microphones MI 0 to MI M-1 are connected to each of the A / D converters C 0 to C M-1 .
  • the microphones MI 0 to MI M-1 are microphone arrays arranged on a straight line. However, as described above, the microphones are arranged on a circle whose distance from a predetermined sound source position is constant. May be.
  • the microphones MI 0 to MI M-1 are MEMS (Micro Electro Mechanical System) microphones, and each of the microphones has a sound hole for taking sound into the microphone. The distance between the microphones is equal (distance D). In the present embodiment, the distance between the centers of the sound holes is the distance D.
  • the microphones MI 0 to MI M-1 are arranged in an array at equal intervals (distance D).
  • the microphone intervals may be irregular, and the microphone is limited to the MEMS type. Not something.
  • the distance D is set so as to be an interval in which no spatial aliasing occurs in the audio frequency band. For example, if the upper limit of the audible frequency is 20 kHz, D ⁇ 8.5 mm.
  • the microphones MI 0 to MI M-1 output analog signals y 0 (t) to y M-1 (t) indicating the sound pressure of the input sound, respectively.
  • the A / D converters C 0 to C M-1 convert the analog signals y 0 (t) to y M-1 (t) output from the microphones MI 0 to MI M-1 into digital data y 0 (n) to y M-1 (n) and output.
  • the control unit 20 acquires the digital data y 0 (n) to y M ⁇ 1 (n) via an interface (not shown) and can use the digital data y 0 (n) to various processes.
  • the control unit 20 includes a CPU, a RAM, and a ROM (not shown), and can execute various programs stored in the recording medium 30 or the like.
  • the control unit 20, the recording medium 30, the distance sensor 40, and the A / D converters C 0 to C M-1 may be constituted by an integrated computer, or at least a part thereof is another device.
  • the connection may be made by a communication line or the like.
  • the sound source separation system 10 and the microphones MI 0 to MI M-1 are mounted on a portable terminal such as a smartphone.
  • the control unit 20 can function as a control unit that executes various functions in the mobile terminal, and the recording medium 30 can store various data necessary for various functions in the mobile terminal.
  • a portable terminal such as a smartphone having such a configuration can easily execute the sound source separation program 21 according to the present embodiment. That is, a mobile terminal such as a smartphone is equipped with a normal photograph and moving image photographing function, and can execute various image processing.
  • the processing executed by the sound source separation program 21 can be executed by diverting the processing used in the image processing related to a photograph or a moving image, the processing can be easily executed by a mobile terminal such as a smartphone. is there.
  • the desired sound source user e.g., speech to a person or the like that
  • the other sound sources e.g., speech to other persons and various are the noise
  • the second sound source S 2 is not limited to one.
  • the user changes the direction of the mobile terminal or the position of the user himself, or corrects the sound collection data, so that the front of the distance sensor 40 (the measurement target direction). Is adjusted so that the sound source desired by the user is arranged.
  • the microphones MI 0 to MI M-1 arranged on a straight line are arranged on the x-axis shown in FIG. 3A, and a sound source desired by the user exists on the y-axis.
  • the sound source desired by the user is regarded as the first sound source S 1 .
  • the control unit 20 acquires the sound collection data subjected to correction so that the distance R the distance from the first source S 1 to the microphone MI 0 ⁇ MI M-1 was measured (step S105).
  • the position of the microphone MI 0 ⁇ MI M-1 on the x-axis and x-axis the microphone MI 0 ⁇ MI M-1 are aligned, the relationship between the x-axis and y-axis prespecified Have been. Therefore, the control unit 20 corrects the time-direction correction amount based on the distance R and the positions of the microphones MI 0 to MI M-1 for assuming that the microphone exists on the circumference of the distance R from the first sound source S 1. To get.
  • the control unit 20 can acquire the correction amount (phase delay amount) in the time direction by 2 ⁇ f ⁇ L / v: f is the frequency of the sound wave, and v is the speed of the sound wave.
  • sound collection data existing at a position symmetrical with respect to the y axis from a certain microphone can be generated by duplicating sound collection data of the certain microphone. That is, when the sound is collected by the microphones MI 0 to MI M ⁇ 1 existing on the circumference of the circle whose distance from the first sound source S 1 is R, the control unit 20 uses the function of the sound collection data acquisition unit 21a. Is collected by a microphone virtually existing at a position where the positions of the microphones MI 0 to MI M-1 are moved to positions symmetrical with respect to the radius of the circle (y-axis). It may be configured to acquire as sound collection data in the case. According to this configuration, it is possible to collect data from a substantially large number of microphones using a small number of microphones.
  • Frequency spectrum acquisition unit 21b based on the sound collecting data 30a, the function first position P 1 is a center distance R to obtain a frequency spectrum of the two-dimensional the circumferential direction and time direction of a circle the radius This is a program module to be executed by the control unit 20.
  • the control unit 20 acquires a frequency spectrum by FFT (Fast Fourier Transform) by the function of the frequency spectrum acquisition unit 21b (step S110).
  • FFT Fast Fourier Transform
  • the control unit 20 the distance from the first sound source S 1 is referring to the sound collecting data 30a obtained as data when there is the microphone on the circumference of a circle is R, the sound indicated by the respective pressure value Is converted into a brightness value, and is converted into grayscale pixel data having a width of one pixel. Further, the control unit 20 performs the conversion of the data on the time-series data of N points which are continuous, and generates one image data composed of N ⁇ M gray-scale pixel data. Further, the control unit 20 performs Fourier transform on the image data by FFT. Further, the control unit 20 records the frequency spectrum in the circumferential direction and the time direction obtained by the conversion on the recording medium 30 as the frequency spectrum 30b.
  • the control unit 20 uses the function of the sound source separation unit 21c to interpolate the region where the frequency is 0 based on the second sound source spectrum of the region where the circumferential frequency is non-zero (step S115).
  • control unit 20 regards the frequency spectrum of the region where the frequency in the circumferential direction is non-zero as the second sound source spectrum.
  • FIG. 6A is a diagram illustrating a frequency spectrum at a certain time extracted from the frequency spectrum 30b.
  • the frequency spectrum 30b has a large value due to the first source S 1 to the region frequency is 0 is present, due to the second source S 2 to the surrounding There is a frequency spectrum of significant magnitude.
  • FIG. 6B is a diagram in which the frequency spectrum shown in FIG. 6A is separated and superimposed for each sound source, and the solid line is the first sound source spectrum and the broken line is the second sound source spectrum.
  • the second sound source spectrum outside this region is used.
  • the spectrum can be predicted.
  • interpolation is performed by linearly extending the second sound source spectrum in the region where the frequency in the circumferential direction is non-zero from both the positive and negative sides toward the region where the frequency is zero.
  • FIG. 6C the second sound source spectrum estimated by interpolation is indicated by a broken line.
  • the control unit 20 estimates the second sound source spectrum by performing the above processing in all the time directions in the frequency spectrum 30b.
  • the control unit 20 acquires the first sound source spectrum by removing the second sound source spectrum from the frequency spectrum (Step S120). That is, the control unit 20 removes the second sound source spectrum by subtracting the second sound source spectrum estimated in step S115 from the frequency spectrum 30b, and separates the first sound source spectrum.
  • the first sound source spectrum when the first sound source S 1 to the distance equal position from the plurality of microphones are present, the first sound source spectrum by utilizing the fact that the circumferential direction of the frequency localized in the region of 0 Two sound source spectra are specified. Since the second sound source spectrum is also distributed in the region where the frequency in the circumferential direction is non-zero, the spectrum in the region where the frequency is 0 can be accurately estimated from the spectrum in the region where the frequency is non-zero. Therefore, the second sound source spectrum and the first sound source spectrum can be accurately separated based on the estimation of the second sound source spectrum.
  • the control unit 20 converts the first sound source spectrum into sound pressure data by inverse FFT using the function of the sound source separation unit 21c (step S125). That is, the control unit 20 executes a process for restoring the first sound output from the sound source S 1 based on the first sound source spectrum. As a result, the sound pressure data indicating a sound output from the first sound source S 1 is obtained.
  • the sound pressure data may be used for sound reproduction, may be used for sound analysis or storage, or may be transmitted to another device for use by another device.
  • the first sound source spectrum is separated by using a feature that appears when the sound source exists at a position at the same distance from a plurality of microphones. Therefore, it is also possible to separate precisely the sound outputted from the first sound source S 1 in an environment where a plurality of sound sources are present.
  • step S130 If it is determined in step S130 that all sound sources have been processed, the control unit 20 ends the sound source separation processing. On the other hand, if it is not determined in step S130 that all sound sources have been processed, control unit 20 repeats the processing from step S100. However, when the processing after step S100 is repeated, a sound source different from the sound source from which the sound pressure data was obtained in the immediately preceding step S125 is the first sound source. That is, the user changes the orientation of the mobile terminal or the position of the user himself, so that a new sound source is arranged in front of the distance sensor 40 (direction to be measured). As a result, the new sound source becomes the first sound source, and the processing after step S100 is executed.
  • step S105 sound collection may be performed again by the microphones MI 0 to MI M ⁇ 1 , or the sound collection data 30a that has already been recorded may be used. For example, if a sound is continuously output from a new sound source, and if the sound being output is to be separated, the microphones MI 0 to MI M-1 collect sound again. On the other hand, if it is desired to further separate the sound that was output when the already recorded sound collection data 30a was collected, the correction may be performed based on the stored sound collection data 30a. That, after canceling the already performed has been corrected in the sound collecting data 30a, it is sufficient correction performed in accordance with the distance from the first sound source S 1.
  • the control unit 20 may estimate that the sound source exists at each of the candidate positions associated with the candidate spectrum 32b that gives each local maximal value.
  • the correction amount of the sound collection data for example, a configuration in which the user is inquired about which candidate position should be set can be adopted.
  • fine adjustment may be performed after the adjustment. For example, a plurality of candidate positions are set at a coarse density, the candidate positions are provisionally set based on the local maximum value, and then a plurality of candidate positions are set at a higher density within a predetermined range including the provisionally set position. ,
  • the candidate position may be set in detail.
  • the sound collection data may be the teacher data.
  • a configuration may be adopted in which machine learning is performed based on teacher data in which the position of a sound source is associated with sound collection data, and the position of a sound source is estimated using the learning result.
  • the sound source separation system 10 includes the distance sensor 40
  • the sound source separation system 10 in which distance measurement is not performed by the distance sensor 40 may be configured.
  • the distance No sensor 40 is required.
  • the first position only needs to be such that the first sound source spectrum can be clearly distinguished from the second sound source spectrum by the presence of the first sound source. Therefore, the first position may include an error as long as the first sound source spectrum and the second sound source spectrum can be distinguished. Further, as long as the first sound source spectrum and the second sound source spectrum can be distinguished, the distance from the first sound source to each microphone may have an error.
  • the state where the first sound source exists at the first position may be realized by various means, and the state where the first sound source is present at the first position is realized by, for example, artificially moving the sound source separation system.
  • the state where the first sound source exists at the first position may be realized by correcting the sound collection data.
  • the sound collection data only needs to indicate the sound collected by each microphone, and is, for example, data indicating a temporal change in sound pressure.
  • the frequency spectrum acquisition unit only needs to be able to acquire a two-dimensional frequency spectrum in a circumferential direction and a time direction of a circle whose center is the first position and whose distance is a radius, based on the sound collection data. That is, if the frequency spectrum acquisition unit can convert sound collection data into a frequency spectrum in a two-dimensional direction defined by a circumferential direction in which microphones are distributed and a time direction indicating a time change of sound pressure in each microphone. Good.
  • the sound source separation unit separates a first sound source spectrum that is a spectrum of a sound output from the first sound source and a second sound source spectrum that is a spectrum of a sound output from the second sound source, based on the frequency spectrum.
  • a first sound source spectrum that is a spectrum of a sound output from the first sound source
  • a second sound source spectrum that is a spectrum of a sound output from the second sound source, based on the frequency spectrum.
  • the first sound source spectrum and the second sound source spectrum obtained by the separation may be used for various uses. That is, various configurations other than the configuration in which the process of restoring the sound is performed as in the above-described embodiment can be adopted. For example, a configuration or the like for analyzing or evaluating the characteristics of the frequency spectrum of each sound source may be adopted.
  • the process of restoring the sound output from the first sound source based on the first sound source spectrum was performed.
  • the sound output from the second sound source based on the second sound source spectrum was restored.
  • a process of restoring may be performed, or a process of restoring sound for both the first sound source and the second sound source may be performed.
  • the process of restoring the sound output from the second sound source based on the second sound source spectrum can be realized by, for example, a process of performing an inverse Fourier transform on the second sound source spectrum obtained by removing the first sound source spectrum. .
  • the sound collection data acquisition unit may acquire sound collection data collected by a plurality of microphones arranged on a circle around the first position. That is, sound collection data may be acquired in a state where a plurality of microphones are actually arranged on the circumference of a circle centered on the first position.
  • the first position may be changed by changing the positions of the plurality of microphones.
  • various actuators may be employed. For example, when the microphone is a MEMS microphone, a mechanism for driving the microphone by the MEMS may be configured.

Abstract

【課題】複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することが可能な技術の提供。 【解決手段】複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部と、前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部と、前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルと、を分離する、音源分離部と、を備える音源分離システムを構成する。

Description

音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム
 本発明は、音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラムに関する。
 従来、複数の音源から出力された音を音源毎の音に分離する技術が知られている。例えば、特許文献1においては、複数のマイクロホンを備えるマイクロホンアレイによって複数の音源から出力された音を集音し、音圧波形から得られた時空間音圧分布画像を画像信号処理することで音源を分離する技術が開示されている。
特開2018-36359号公報
 特許文献1に開示された技術においては、マイクロホンアレイから見て第1の方向に存在する音源と第1の方向と異なる方向に存在する音源とに関して、集音された音を分離する。一方、複数のマイクロホンにおける集音においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合において特徴的な集音結果が得られるが、従来の技術においては、当該特徴的な集音結果が充分に利用されていなかった。
  本発明は、前記課題にかんがみてなされたもので、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することが可能な技術を提供することを目的とする。
 上述の目的を達成するため、音源分離システムは、複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と第1位置以外の位置に存在する第2音源とから出力された音を複数のマイクロホンで集音した集音データを取得する集音データ取得部と、集音データに基づいて、第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部と、周波数スペクトルに基づいて、第1音源から出力された音のスペクトルである第1音源スペクトルと、第2音源から出力された音のスペクトルである第2音源スペクトルと、を分離する、音源分離部と、を備える。
 すなわち、第1位置に存在する第1音源からの実効的な距離が等しい位置に複数のマイクロホンが存在する場合、第1音源から出力された音は複数のマイクロホンの全てで位相が等しくなる。このため、第1位置が中心であり、マイクロホンと第1音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は時間方向にのみ変化し、周方向に変化しない状態となる。従って、このような周方向と時間方向との2次元に関する集音データをフーリエ変換すると、周方向において周波数が0である領域にのみ値を有し、周方向において他の周波数の領域には値を有さない周波数スペクトル(第1音源スペクトル)が得られる。
 一方、第1位置以外の位置に存在する第2音源から出力された音は、第1位置と各マイクロホンとの距離に応じた位相となり、各マイクロホンにおいて同一時刻に観測される音は異なる位相である。このため、第1位置が中心であり、マイクロホンと第1音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は周方向と時間方向との双方において変化する。従って、このような周方向と時間方向との2次元に関する集音データをフーリエ変換すると、周方向と時間方向との双方において非0の値を有し得る周波数スペクトル(第2音源スペクトル)が得られる。
 このため、第1音源と第2音源とが出力した音の集音データに基づいて周方向と時間方向とにおける周波数スペクトルを取得すると、両音源から出力した音の周波数スペクトルが重なった状態のスペクトルが得られるが、両者を明確に区別することができる。すなわち、第1音源から出力された音のスペクトルは、周方向の周波数が0である領域にのみ局在するため、当該領域のスペクトルに基づいて容易に第1音源スペクトルと第2音源スペクトルとを分離することができる。
 以上の構成によれば、複数のマイクロホンからの実効的な距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、複数の音源のスペクトルを分離することができる。この結果、複数の音源が混在する環境において音源毎のスペクトルを取得することが可能になる。なお、本明細書において「複数のマイクロホンからの距離が等しい」又は「等しい距離に存在する複数のマイクロホン」などの表現は、実際の距離が等しくない場合であっても複数のマイクロホンの集音データを補正することにより距離が等しいことと等価であるとみなせる場合も含み、「実効的な距離が等しい」などとも記載することがある。
 さらに、上述の目的を達成するため、音源位置推定システムは、第1位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、第1位置が中心であり実効的な距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、参照音源から出力された音が複数のマイクロホンで集音され、2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置と、を対応づけた参照データを取得する参照データ取得部と、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する位置推定部と、を備え、参照周波数スペクトルに対応づけられた参照音源の位置には、第1位置と、第1位置以外の位置とが含まれる構成であってもよい。
 すなわち、第1位置に存在する第1音源から出力された音の第1音源スペクトルと、第1位置以外の位置に存在する音源から出力された音の周波数スペクトルとは、明確に異なったスペクトルとなる。従って、複数の位置に存在する音源の周波数スペクトルを参照周波数スペクトルとし、参照周波数スペクトルと音源の位置との関係を対応付け、複数の位置に第1位置と第1位置以外の位置とが含まれるように構成すれば、音源位置を推定するための参照データを生成することができる。
 さらに、参照周波数スペクトルに対応づけられた位置に、第1位置と第1位置以外の位置が含まれることにより、第1位置とそれ以外の位置とで音源の位置が明確に変化するように参照データを定義することができる。従って、推定対象スペクトルに類似する参照周波数スペクトルを特定し、参照周波数スペクトルに対応づけられた位置に推定対象音源が存在すると推定する構成により、正確に推定対象音源の位置を推定することができる。特に、推定対象音源が第1位置に存在するか否かを正確に特定することが可能になる。以上の構成により、複数のマイクロホンからの距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。
 さらに、上述の目的を達成するため、音源位置推定システムは、音を複数のマイクロホンで集音した集音データを取得する集音部と、複数の候補位置を設定し、複数のマイクロホンから候補位置までの実効的な距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う集音データ補正部と、複数の候補位置のそれぞれについて、候補位置が中心であり実効的な距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する候補スペクトル取得部と、周方向の周波数が0である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する位置推定部と、を備える構成であってもよい。
 すなわち、複数のマイクロホンでの集音結果を時間方向に補正すると、マイクロホンと音源との距離が異なる状況で集音された集音データと等価なデータを取得することができる。そして、複数のマイクロホンからの実効的な距離が等しい位置に存在する音源の周波数スペクトルは、周方向の周波数が0である領域にのみ局在するスペクトルとなり、極めて特徴的なスペクトルになる。従って、複数のマイクロホンから候補位置までの実効的な距離が等しくなるような補正を複数の候補位置について実施し、候補スペクトルにおいて当該特徴的なスペクトルが得られれば、当該候補スペクトルに対応する候補位置に音源が存在すると推定することができる。以上の構成により、複数のマイクロホンからの実効的な距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。
図1A、図1Bは、周波数スペクトルに特徴が現れる様子を説明する図である。 図2A,図2Cは集音結果を示す図であり、図2B,図2Dは周波数スペクトルを示す図である。 図3A、図3Bは、周波数スペクトルに特徴が現れる様子を説明する図である。 音源分離システムのブロック図である。 音源分離処理のフローチャートである。 図6A~図6Cは音源を分離するための処理を説明する図である。 音源分離の実例を説明する図である。 音源位置推定システムのブロック図である。 図9Aは音源位置推定処理のフローチャート、図9Bは参照データの例を示す図である。 図10Aおよび図10Bは参照データの算出を説明する図である。 音源位置推定システムのブロック図である。 図12Aは音源位置推定処理のフローチャート、図12Bは極大値の導出を説明する図である。
 ここでは、下記の順序に従って本発明の実施の形態について説明する。
(1)原理:
(2)音源分離システムの構成:
(3)音源位置推定システムの構成:
(4)第2の音源位置推定システムの構成:
(5)他の実施形態:
 (1)原理:
  本発明の実施形態は、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することによって実現されている。図1A,図1B、図2A~図2Dは、特徴的な集音結果が得られる原理を説明するための例として、マイクロホンが8個の場合について示した図である。図1Aは、複数のマイクロホンM0~M7の位置と第1音源S1の位置を例示した図である。図1Aにおいては、第1音源S1から等しい距離に複数のマイクロホンM0~M7が配置されている。すなわち、複数のマイクロホンM0~M7は、第1音源S1を中心とした半径Rの円の周上に並べられている。
 なお、本例において、複数のマイクロホンM0~M7同士の距離は等しく、等間隔に並べられているが、必ずしも等間隔でなくてもよい。本例においては、等間隔に並べられた複数のマイクロホンM0~M7の中央、すなわち、マイクロホンM3,M4から等距離にある円の周上の点を通る円の接線をx軸、円の接線に対する垂線をy軸とした座標系を定義している。当該軸において、第1音源S1は、y軸上の点である。
 第1音源S1から出力された音は球面波として、全方向に向けて等方的に進行する。従って、複数のマイクロホンM0~M7が、第1音源S1から等距離の位置に配置されている場合、各マイクロホンM0~M7で集音される音は同一になる。このように、複数のマイクロホンM0~M7が、第1音源S1から等距離の位置に配置されている場合において、第1音源S1の位置を第1位置と呼ぶ。
 図2Aは、各マイクロホンM0~M7での集音結果を示す図である。同図2Aにおいては、縦方向にマイクロホンM0~M7を並べ、横方向を時間方向として示してある。なお、図2Aにおいては、各マイクロホンM0~M7で集音された音圧を音圧の振幅の高低を画像の輝度の高低に変換しており、各マイクロホンM0~M7の振幅を縦方向に伸ばすことにより、複数のマイクロホンM0~M7の集音結果が縦方向に隙間無く並ぶように示してある。複数のマイクロホンM0~M7は、上述のように第1音源S1を中心とした半径Rの円の周上に並べられているため、複数のマイクロホンM0~M7は当該円の周方向に並んでいると言える。従って、図2Aに示すようにマイクロホンM0~M7の集音結果を縦方向に並べた場合、当該縦方向は周方向であると言える。
 図2Bは、図2Aに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示している。フーリエ変換が行われると、周方向および時間方向のそれぞれにおける集音結果の周波数スペクトルが得られる。図2Bにおいては、周方向および時間方向のそれぞれについて標本化周波数により正規化された角周波数(ω=2πf/fs:ωは正規化角周波数、fは周波数、fsは標本化周波数)を単位として示している。なお、図2Bにおいては、周波数スペクトルのパワーを輝度によって示しており、パワー0が黒でありパワーが大きい程輝度が高くなるように示してある。
 図1Aに示すように、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在する場合、周波数スペクトルは、周方向の周波数が0である領域に局在し、周方向の周波数が非0である領域に値を有していない。一方、周方向において有意な値を有する領域(周波数0)において、時間方向には全角周波数に渡って周波数スペクトルが値を有している。従って、時間方向には種々の周波数が含まれ得る。
 以上の特性は、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在することに起因している。すなわち、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在する場合、全てのマイクロホンM0~M7で集音される音は同一である。この場合、全てのマイクロホンM0~M7の全てにおいて周方向に同一の音圧である状況が時間方向の全てにおいて繰り返される。この結果、図2Aに示すように、周方向および時間方向の音圧は、縦方向に一切変化せず、横方向のみに変化する縦縞を形成する。これは、周方向において音圧が変化しないこと、すなわち、周方向の周波数が0(=角周波数0)であることを示している。
 このような2次元の音圧の特性は、周方向に渡って無限に音圧を繰り返したとしても変化しない。従って、図2Aに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われた場合であっても、その特性に誤差が入る余地は無い。この結果、フーリエ変換後の周波数スペクトルにおいては、周方向の周波数が0の領域に周波数スペクトルが局在し、当該局在した周波数スペクトルのみを抽出すれば、各マイクロホンM0~M7の特性を正確に抽出することができることを意味している。
 一方、音源が第1位置に存在しない場合においては、周波数スペクトルの特性が極めて異なった特性となる。図1Bは、図1Aと同一の位置に複数のマイクロホンM0~M7が配置された状態において、第1位置P1と異なるy軸上の位置に第2音源S2が配置された場合の例を示している。図1Bにおいては、第1位置P1よりもマイクロホンに近い位置に第2音源S2が配置されている。従って、第2音源S2から複数のマイクロホンM0~M7までの距離は一定ではない。
 従って、第2音源S2から出力された音が球面波として全方向に向けて等方的に進行したとしても、各マイクロホンM0~M7で集音される音は同一にならない(ただし、y軸に対して対称の位置(M0とM7等)に存在するマイクロホンにおいては同一になる)。
 図2Cは、各マイクロホンM0~M7での集音結果を示す図であり、図2Aと同一のフォーマットで示してある。図1Bに示す例においては、第2音源S2からの距離が複数のマイクロホンM0~M7で異なる。従って、複数のマイクロホンM0~M7の音圧を比較すると、図2Cに示すように、同一の音圧になる時間的位置が僅かずつ異なっている。
 図2Dは、図2Cに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示しており、図2Bと同一のフォーマットで示してある。
 図1Bに示すように、第2音源S2が第1位置P1と異なる位置に存在し、複数のマイクロホンM0~M7と第2音源S2との距離が一定ではない場合、周波数スペクトルは、周方向および時間方向の双方に分布する。すなわち、第2音源S2から複数のマイクロホンM0~M7までの距離が一定ではない場合、マイクロホンM0~M7で集音される音が少しずつ異なる。この場合、同一時間において周方向に音圧が変化する。従って、周波数スペクトルは周方向において周波数が0の領域に局在しない状態になる。
 さらに、周方向においても音圧の変化が存在する場合、周方向に渡って周期的に音圧を繰り返すことを前提としたフーリエ変換を行うと、その周期の境界において急峻な変化部分が発生する。この結果、図2Cに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われると、主に境界部分の急峻な変化に起因して周波数スペクトルが広がってしまう。
 この結果、第2音源S2の周波数スペクトルは、図2Dにおいて周方向および時間方向の双方において広がりを有する。従って、第2音源S2の周波数スペクトルは、第1位置P1に存在する第1音源S1の周波数スペクトルと著しく異なったスペクトルとなる。このように、複数のマイクロホンからの距離が等しい第1位置P1に音源が存在する場合、他の位置に音源が存在する場合と著しく異なる特徴的な周波数スペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。すなわち、第1音源S1と第2音源S2とが混在する状況において、周波数スペクトルから第1音源S1の周波数スペクトルを容易に分離することができる。また、周方向において周波数が0の領域に局在する周波数スペクトルが得られた場合に、第1位置P1に音源が存在すると推定することができる。
 なお、図1Aおよび図1Bに示す複数のマイクロホンM0~M7において、y軸に対して互いに線対称の位置に存在するマイクロホンでの集音結果である集音データは同一である。従って、同一の集音データの一方を他方から生成する構成により、実際には存在しないマイクロホンの集音データを実際に存在するマイクロホンの集音データから生成することも可能である。例えば、マイクロホンM0~M3の集音データをコピーしてマイクロホンM7~M4の集音データを生成する構成であってもよい。
 さらに、複数のマイクロホンM0~M7が、第1音源S1を中心とした半径Rの円の周上に実際に並んでいない場合であっても、当該周上に複数のマイクロホンM0~M7が並んでいると見なすことができるように集音データを補正することが可能である。図3AはマイクロホンM00~M03がx軸上で等距離に並んでいる例を示している。なお、M0~M7が上記の円周上に並んでいると見なせればよいので、マイクロホンをy軸に並行に移動させて上記の円上に移動させることでもよい。
 この状況において、y軸上に第1音源S1が存在する場合、第1音源S1から各マイクロホンM00~M03までの距離は等しくない。しかし、各マイクロホンM00~M03においては同一の音源から出力された球面波を集音している。従って、時間方向に位相を変化させれば、各マイクロホンM00~M03が第1音源S1を中心とした半径Rの円の周上に並んでいる場合の集音結果と同一になるように補正を行うことができる。
 例えば、マイクロホンM00から第1音源S1まで伸びる直線上で、第1音源S1を中心とした半径Rの円の周と、マイクロホンM00との距離がLである場合、マイクロホンM00の集音データはマイクロホンM0の集音データに対し、当該距離分の位相(2πf×L/v:fは音波の周波数、vは音波の速度)だけ遅延している。従ってその遅延量を補正すればマイクロホンM0での集音データと等価なデータが得られる。このように、第1音源S1を中心とした半径Rの円の周上に存在すると見なすことができるような補正を各マイクロホンM00~M03で実行すると、図3Aに示すマイクロホンM0~M3で集音を行った場合と等価な集音データを得ることができる。
 従って、補正後の集音データを周方向に並べ、時間方向を含む2次元でフーリエ変換を行うことにより、図2Bに示す特徴的な周波数スペクトルが得られる。なお、図3Aに示す例において、マイクロホンM7~M4の集音データは、マイクロホンM0~M3のデータがコピーされて生成されてもよいし、y軸を基準にしてマイクロホンM00~M03から線対称の位置にマイクロホンを配置し、その集音データを補正することで生成されてもよい。
 一方、図3Bに示すように、第1音源S1の位置である第1位置P1と異なる位置に第2音源S2が存在する場合を想定する。この場合において、第1音源S1からの距離がRである円の周上にマイクロホンが存在する状態の集音データと等価になるように補正が行われると、第2音源S2と各マイクロホンM00~M03とを結ぶ直線上において集音が行われた場合のデータと等価なデータを取得することができる。
 しかし、図3Aと同様の位相だけ遅延を与えるような補正を、それぞれのマイクロホンM00~M03での距離によって行われたとしても、図3Bに示すマイクロホンM0~M3の位置での集音データと等価になるように補正が行われるだけである。従って、第2音源S2からマイクロホンM0~M3までの距離は同一にならない。従って、補正後の集音データを周方向に並べ、時間方向を含む2次元でフーリエ変換を行っても、図2Bに示す特徴的な周波数スペクトルにはならず、図2Dのように、周方向および時間方向に値を有する周波数スペクトルが得られる。従って、第2音源S2の周波数スペクトルは、第1位置P1に存在する第1音源S1の周波数スペクトルと著しく異なったスペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。
 (2)音源分離システムの構成:
  図4は、本発明の一実施形態にかかる音源分離システム10のブロック図である。音源分離システム10は、複数(M個、ただしM≧3)のA/DコンバータC0~CM-1と、制御部20と、記録媒体30と、距離センサ40とを備えている。A/DコンバータC0~CM-1のそれぞれには複数(M個)のマイクロホンMI0~MIM-1が接続される。
 本実施形態において、マイクロホンMI0~MIM-1は直線上に配置されたマイクロホンアレイであるが、上述のように、マイクロホンは既定の音源の位置からの距離が一定の円周上に配置されていてもよい。本実施形態において、マイクロホンMI0~MIM-1はMEMS(Micro Electro Mechanical System:微小電気機械システム)マイクロホンであり、それぞれのマイクロホンは、音をマイクロホンに取り入れる音孔を備えている。また、マイクロホン同士の距離は等間隔(距離D)であり、本実施形態においては音孔の中心の間隔が距離Dである。
 なお、ここでは、マイクロホンMI0~MIM-1が等間隔(距離D)にアレイ状に配置された構成としたがマイクロホン間隔は不等間隔であってもよく、またマクロホンはMEMS型に限るものではない。距離Dは可聴周波数帯域において空間折返し歪が発生しない間隔となるように設定されている。例えば、可聴周波数の上限を20kHzとした場合には、D<8.5mmとなる。
 マイクロホンMI0~MIM-1は、入力された音の音圧を示すアナログ信号y0(t)~yM-1(t)のそれぞれを出力する。A/DコンバータC0~CM-1は、マイクロホンMI0~MIM-1のそれぞれが出力したアナログ信号y0(t)~yM-1(t)をデジタルデータy0(n)~yM-1(n)に変換して出力する。制御部20は、図示しないインタフェースを介して当該デジタルデータy0(n)~yM-1(n)を取得し、各種の処理に利用することができる。
 制御部20は、図示しないCPU,RAM,ROMを備えており、記録媒体30等に記憶された各種プログラムを実行することができる。制御部20、記録媒体30、距離センサ40、A/DコンバータC0~CM-1は、一体的なコンピュータで構成されていてもよいし、少なくとも一部が別の装置であり、各種の通信線等によって接続される構成であってもよい。
 本実施形態において、音源分離システム10と、マイクロホンMI0~MIM-1はスマートフォン等の携帯端末に搭載されることが想定されている。制御部20は携帯端末における各種の機能を実行する制御部として機能することが可能であり、記録媒体30は携帯端末における各種の機能に必要な各種のデータを蓄積することが可能である。このような構成を備えるスマートフォン等の携帯端末においては、容易に本実施形態にかかる音源分離プログラム21を実行可能である。すなわち、スマートフォン等の携帯端末においては、通常写真及び動画の撮影機能が搭載されており、各種の画像処理を実行可能である。本実施形態にかかる音源分離プログラム21で実行する処理の少なくとも一部は、写真や動画に関する画像処理で利用する処理を流用して実行可能であるため、スマートフォン等の携帯端末で容易に実行可能である。
 距離センサ40は、携帯端末の外部に存在するオブジェクトと携帯端末との距離を示す情報を出力するセンサであり、制御部20は、図示しないインタフェースを介して当該距離を示す情報を取得し、携帯端末とオブジェクトとの距離を特定することができる。なお、距離センサ40は、種々の態様で実現されてよく、例えば、超音波センサや光学センサなどの各種のセンサを利用可能である。また、携帯端末の写真撮影機能におけるオートフォーカス機能を利用することも可能である。
 本実施形態において、制御部20は、音源分離プログラム21を実行することができる。音源分離プログラム21が実行されると、制御部20は、集音データ取得部21a、周波数スペクトル取得部21b、音源分離部21cとして機能する。集音データ取得部21aは、複数のマイクロホンMI0~MIM-1からの距離が等しい第1位置P1に存在する第1音源S1と第1位置P1以外の位置に存在する第2音源S2とから出力された音を複数のマイクロホンで集音した集音データを取得する機能を制御部20に実行させるプログラムモジュールである。
 本実施形態においては、利用者所望の音源(例えば、発話している人物等)を第1音源S1とし、他の音源(例えば、発話している他の人物や各種のノイズ等)を第2音源S2とすることができる。第2音源S2は、1個とは限らない。音源分離プログラム21を実行する場合、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、または、集音データを補正することにより、距離センサ40の正面(計測対象方向)に利用者所望の音源が配置されるように調整する。この状態において、直線上に並ぶマイクロホンMI0~MIM-1が図3Aに示すx軸上に配列し、利用者所望の音源がy軸上に存在する状態となる。以後、当該利用者所望の音源を第1音源S1とみなす。
 この状態で、制御部20は、図5に示す音源分離処理を実行する。音源分離処理が開始されると、制御部20は、距離センサ40の出力信号に基づいて第1音源S1までの距離Rを測定する(ステップS100)。すなわち、制御部20は、距離センサ40の出力信号に基づいて、携帯端末の正面に存在し、利用者が第1音源S1と見なしている音源までの距離Rを特定する。
 次に、制御部20は、第1音源S1からマイクロホンMI0~MIM-1までの距離が測定された距離Rになるように補正を行った集音データを取得する(ステップS105)。本実施形態にかかる携帯端末においては、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、第1音源S1から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0が図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v:fは音波の周波数、vは音波の速度によって取得することができる。
 そこで制御部20は、集音データ取得部21aの機能により、A/DコンバータC0~CM-1が出力するデジタルデータy0(n)~yM-1(n)を取得する。そして、制御部20は、マイクロホンMI0~MIM-1の位置と、第1音源S1までの距離Rとに基づいて、デジタルデータy0(n)~yM-1(n)を補正し、第1音源S1から各マイクロホンまでの距離が等しい場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体30に、集音データ30aとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。
 なお、上述のように、あるマイクロホンからy軸に対して対称の位置に存在する集音データは当該あるマイクロホンの集音データを複製することによって生成することができる。すなわち、制御部20は、集音データ取得部21aの機能により、第1音源S1からの距離がRである円の周上に存在するマイクロホンMI0~MIM-1で集音された場合の集音データを複製し、マイクロホンMI0~MIM-1の位置を円の半径(y軸)に対して線対称の位置に移動させた位置に仮想的に存在するマイクロホンで集音された場合の集音データとして取得する構成であってもよい。この構成によれば、少ない数のマイクロホンによって実質的に多数のマイクロホンによるデータを集音することができる。
 周波数スペクトル取得部21bは、集音データ30aに基づいて、第1位置P1が中心であり距離Rが半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する機能を制御部20に実行させるプログラムモジュールである。ステップS105において集音データ30aが取得されると、制御部20は、当該周波数スペクトル取得部21bの機能により、FFT(Fast Fourier Transform)によって周波数スペクトルを取得する(ステップS110)。
 すなわち、制御部20は、第1音源S1からの距離がRである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ30aを参照し、それぞれが示す音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを周波数スペクトル30bとして記録媒体30に記録する。
 以上のようなフーリエ変換によれば、例えば、図2Bと図2Dとが重ねられたような周波数スペクトル30bが得られる。すなわち、本実施形態においては、マイクロホンMI0~MIM-1からの距離が等しい第1位置P1に存在する第1音源S1と他の音源である第2音源S2とが混在する状態で集音データ30aが取得される。従って、周波数スペクトル30bにおいては、第1音源S1によって得られ、図2Bに示すように周波数0に局在する周波数スペクトルと、第2音源S2によって得られ、図2Dに示すように周方向と時間方向との双方に値を有する周波数スペクトルとが混在した状態となる。
 音源分離部21cは、周波数スペクトルに基づいて、第1音源S1から出力された音のスペクトルである第1音源スペクトルと、第2音源S2から出力された音のスペクトルである第2音源スペクトルとを分離する機能を制御部20に実行させるプログラムモジュールである。
 本実施形態においては、周方向の周波数が0である領域において第1音源スペクトルと第2音源スペクトルとが重なっており、周波数が非0である領域において第1音源スペクトルは存在しないと見なすことができる。そこで、制御部20は、音源分離部21cの機能により、周方向の周波数が非0の領域の第2音源スペクトルに基づいて周波数が0の領域を補間する(ステップS115)。
 具体的には、制御部20は、周方向の周波数が非0である領域の周波数スペクトルを第2音源スペクトルと見なす。図6Aは、周波数スペクトル30bからある時間における周波数スペクトルを抜き出して例示した図である。このように、周波数スペクトル30bにおいては、周波数が0である領域に第1音源S1に起因して大きい値となっている周波数スペクトルが存在するが、その周囲にも第2音源S2に起因して有意な大きさの周波数スペクトルが存在する。
 図6Bは、図6Aに示す周波数スペクトルを音源毎に分離し、重ねて示した図であり、実線が第1音源スペクトル、破線が第2音源スペクトルである。このように、第1音源スペクトルは周方向の周波数が0(=角周波数が0)の領域に局在するため、この領域外の第2音源スペクトルを利用すれば、この領域内の第2音源スペクトルを予想することができる。本実施形態においては、周方向の周波数が非0の領域における第2音源スペクトルを正負両側から周波数0の領域に向けて直線的に延長することで補間を行う。図6Cにおいては、補間によって推定された第2音源スペクトルを破線によって示している。制御部20は、以上の処理を、周波数スペクトル30bにおける時間方向の全てで実施することで第2音源スペクトルを推定する。
 周方向の周波数が0の領域における第2音源スペクトルが推定されると、制御部20は、周波数スペクトルから第2音源スペクトルを除去することで第1音源スペクトルを取得する(ステップS120)。すなわち、制御部20は、周波数スペクトル30bから、ステップS115で推定された第2音源スペクトルを差し引くことで、第2音源スペクトルを除去し、第1音源スペクトルを分離する。
 以上の処理においては、複数のマイクロホンからの距離が等しい位置に第1音源S1が存在する場合に、第1音源スペクトルは周方向の周波数が0の領域に局在することを利用して第2音源スペクトルを特定している。そして、第2音源スペクトルは周方向の周波数が非0の領域にも分布するため、当該周波数が非0の領域のスペクトルから周波数が0の領域のスペクトルを正確に推定することができる。従って、第2音源スペクトルの推定に基づいて、第2音源スペクトルと第1音源スペクトルとを正確に分離することができる。
 次に、制御部20は、音源分離部21cの機能により、逆FFTによって第1音源スペクトルを音圧データに変換する(ステップS125)。すなわち、制御部20は、第1音源スペクトルに基づいて第1音源S1から出力された音を復元する処理を実行する。この結果、第1音源S1から出力された音を示す音圧データが得られたことになる。当該音圧データは、音の再生に利用されてもよいし、音の解析や保存等によって利用されてもよいし、他の装置での利用のために他の装置に送信されてもよい。いずれにしても、本実施形態においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合に現れる特徴を利用して第1音源スペクトルを分離している。このため、複数の音源が存在する環境においても正確に第1音源S1から出力された音を分離することができる。
 以上のようにして第1音源S1から出力された音が再現されると、制御部20は、全音源について処理済みであるか否か判定する(ステップS130)。すなわち、本実施形態においては、複数の音源の音圧データを分離することが可能であり、制御部20は、音源の分離が終了したか否かを判定する。判定は、種々の要素によって行われてよく、予め決められた数の音源の分離が行われるように構成されていてもよいし、利用者が音源の分離の終了を指示するまで音源の分離が行われるように構成されていてもよく、種々の構成が採用可能である。
 ステップS130において、全音源について処理済みであると判定された場合、制御部20は、音源分離処理を終了する。一方、ステップS130において、全音源について処理済みであると判定されない場合、制御部20は、ステップS100以降の処理を繰り返す。ただし、ステップS100以降の処理が繰り返される場合、直前のステップS125で音圧データが取得された音源と異なる音源が第1音源になる。すなわち、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、距離センサ40の正面(計測対象方向)に新たな音源が配置されるように調整する。この結果、新たな音源が第1音源になってステップS100以降の処理が実行される。
 なお、ステップS105においては、マイクロホンMI0~MIM-1によって再度集音が行われてもよいし、既に記録された集音データ30aが流用されてもよい。例えば、新たな音源から継続して音が出力されており、出力中の音を分離するのであればマイクロホンMI0~MIM-1によって再度集音が行われる。一方、既に記録された集音データ30aが集音された際に出力されていた音をさらに分離したいのであれば、保存済の集音データ30aに基づいて補正を行えばよい。すなわち、集音データ30aにおいて既に実施された補正をキャンセルした上で、第1音源S1からの距離に応じて補正が行われればよい。この場合、新たな第1音源S1までの距離は再測定されることが好ましい。以上の構成によれば、複数の音源が存在する状況において、各音源の音を正確に分離することが可能である。
 図7は、上述の実施形態にかかる音源分離システムを利用した処理結果の例を説明するための図である。本例においては、図3Aに示すマイクロホンM00~M03のように4個のマイクロホンをx軸上に配置し、さらに、各マイクロホンM00~M03からy軸に対して対称の位置に4個のマイクロホンを配置した。隣接するマイクロホン同士の距離は2cmである。
 また、第1音源S1は、女性が"Welcom to Japan"と発音した場合の音声を出力する音源であり、y軸上で原点から2mの位置に配置された。第2音源S2は、男性が"Hello,hello"と発音した場合の音声を出力する音源である。本例においては、y軸上で第2音源S2が移動され、各位置に第2音源S2が配置された状態で第1音源S1と第2音源S2とから音声が出力され、音源分離が行われた。
 図7において、横軸は第2音源S2のy座標である。従って、横軸の値が2(m)である状態で、第1音源S1と第2音源S2の位置は同一である。また、図7において、縦軸は雑音の減衰率である。すなわち、本例では、第2音源S2の各位置においてマイクロホンによる測定を行い、第1音源S1までの距離を2mとしてステップS100~S125を行った。そして、当該処理を行った場合と行っていない場合とのそれぞれに含まれる雑音(第1音源S1からの出力音以外の音)を対比することで雑音の減衰率を計算した。
 図7に示すように、第2音源S2の位置が第1音源S1の位置と同一である状態を除き、他の全ての領域において雑音の減衰率が30dB程度またはそれ以下である。従って、第2音源S2の位置が第1音源S1の位置と同一である状態を除き、非常に広い範囲で正確に第1音源S1を他の音から分離することができたといえる。また、図7に示す破線は同じ条件でビームフォーミング法(遅延和アレイ)による測定及び処理を行った場合の処理結果の例を示している。このように、ビームフォーミング法においては、同一方向に並ぶ2個の音源の出力音を全く分離できていない。従って、本実施形態にかかる音源分離システムは、ビームフォーミング法で従来分離できなかった位置に配置された複数の音源の出力音を正確に分離可能な技術である。
 (3)音源位置推定システムの構成:
  図8は、本発明の一実施形態にかかる音源位置推定システム11のブロック図である。音源位置推定システム11は、上述の音源分離システム10と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図8においては、音源位置推定システム11を実現するために必要なハードウェアを図4から抜き出し、共通のハードウェアを共通の符号によって示している。
 本実施形態において、制御部20は、音源位置推定プログラム22を実行することができる。音源位置推定プログラム22が実行されると、制御部20は、推定対象周波数スペクトル取得部22a、参照データ取得部22b、推定対象音源位置推定部22cとして機能する。本実施形態においては、予め決められた第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1で測定した場合に得られる周波数スペクトルに基づいて、y軸上の任意の位置に配置された推定対象音源の位置を推定する構成が採用されている。なお、第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図3Aと同様にx軸上に等間隔で複数のマイクロホンMI0~MIM-1が並べられた状態であり、補正によって第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しいと見なされる構成を想定する。
 推定対象周波数スペクトル取得部22aは、第1位置P1から等しい距離に存在する複数のマイクロホンMI0~MIM-1によって、推定対象音源から出力された音を集音し、第1位置P1が中心であり距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する機能を制御部20に実行させるプログラムモジュールである。
 すなわち、本実施形態においては、参照データ31cを生成する際に、予めy軸上の特定の位置に第1位置P1が設定されている。この状況で、制御部20は、図9Aに示す音源位置推定処理を実行する。音源位置推定処理において制御部20は、推定対象周波数スペクトル取得部22aの機能により、参照データ31c生成の際に設定された第1位置P1から等しい距離にあるマイクロホンで集音した集音データを取得する(ステップS200)。
 具体的には、制御部20は、推定対象周波数スペクトル取得部22aにおいて推定対象周波数スペクトルを取得するために、第1位置P1に基づいて複数のマイクロホンMI0~MIM-1の仮想的な位置を設定する。複数のマイクロホンMI0~MIM-1は、実際には図3Aに示すようにx軸上で等間隔に配置されており、複数のマイクロホンMI0~MIM-1は、この状態で未知の位置に存在する推定対象音源から出力された音を集音する。この結果、制御部20は、A/DコンバータC0~CM-1による変換後のデジタルデータを取得する。
 制御部20は、当該デジタルデータを補正し、複数のマイクロホンMI0~MIM-1が仮想的な位置に存在する場合の集音データを取得する。本実施形態においては、予め第1位置P1が設定されており、x軸から第1位置P1までの距離Rは予め決められる。そこで、制御部20は、第1音源S1からマイクロホンMI0~MIM-1までの距離がRになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。
 そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、第1音源S1から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0が図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v(fは音波の周波数、vは音波の速度)によって取得することができる。
 そこで制御部20は、マイクロホンMI0~MIM-1の位置と、第1音源S1までの距離Rとに基づいて、デジタルデータy0(n)~yM-1(n)を補正し、第1音源S1から各マイクロホンまでの距離が等しいと見なした場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体30に、集音データ31aとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。
 集音データ31aが取得されると、制御部20は、推定対象周波数スペクトル取得部22aの機能により、FFTによって周波数スペクトルを取得する(ステップS205)。すなわち、制御部20は、第1音源S1からの距離がRである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ31aを参照し、それぞれが示す音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。
 さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを推定対象周波数スペクトル31bとして記録媒体30に記録する。
 参照データ取得部22bは、参照音源から出力された音が複数のマイクロホンで集音され、2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置とを対応づけた参照データを取得する機能を制御部20に実行させるプログラムモジュールである。参照データ31cは、少なくともステップS200が実行される前に生成されていればよく、予め作成されていてもよいし、音源位置推定処理が開始された後に生成されてもよい。
 本実施形態においては、音源位置推定処理が開始された後、ステップS200が実行される前に参照データ31cが生成される。この際、制御部20は、第1位置P1を決定した上で参照データ31cを生成するため、当該生成の際に決定されていた第1位置P1に基づいてステップS200が実行されることになる。
 参照データ31cは、第1位置P1から等距離の位置に複数のマイクロホンMI0~MIM-1を配置し、y軸上の複数の位置に音源を配置した状態のそれぞれにおける集音データを測定し、または計算することによって定義することが可能である。計算によって定義する場合、例えば、以下の計算を行えばよい。
 まず、複数のマイクロホンMI0~MIM-1を第1位置P1からの距離が一定の円周上に配置した状態を想定する。図10Aは、この状態を示す図であり、マイクロホンM0~MM-1(ただしこの例ではM-1=7)が、第1位置P1からの距離Rの円周上に配置された図3Aと同様の状態になっている例である。この場合において、M個のマイクロホンM0~MM-1から得られる時間長Nの集音データが時刻n(nは0~N-1の整数)、マイクロホン番号m(mは0~M-1の整数)の関数f(n,m)で表現されるとする。
 この場合、周波数スペクトルF(kt,ks)は以下の式(1)で与えられる。
Figure JPOXMLDOC01-appb-M000001
なお、tは時間方向、sは周方向を示す添え字であり、Wt=e-2πj/N,Ws=e-2πj/Mである。
 一方、図10Aの座標系に示すy軸上の任意の位置(0,Y0)に音源が配置された状態を想定し、図10Bに示す。この場合、マイクロホン0番を基準にすると、マイクロホンm番から出力される集音データは、マイクロホン0番の集音データがτm=(Dm-D0)/cだけ遅延したものと等価であり、以下の(2)式のように表現できる。
Figure JPOXMLDOC01-appb-M000002
なお、ここで、Dmは音源からマイクロホンMまでの距離であり、cは音速である。Dmは、マイクロホンMの座標を(Xm,Ym)とすれば、次の式(3)で与えられる。
Dm=(Xm 2+(Y0-Ym21/2・・・(3)
 式(2)を利用して与えられる集音データを利用して式(1)の周波数スペクトルを変形すると以下の式(4)のように変形可能である。
Figure JPOXMLDOC01-appb-M000003
ここで、F0(kt)はマイクロホン0番の集音データを周波数変換したスペクトルであり、fsは標本化周波数である。Wt τmfsは遅延τmに対応する位相回転を示している。
 このようにして示された周波数スペクトルF(kt,ks)は、第1位置P1からの距離が距離Rである円周上に配置された複数のマイクロホンMI0~MIM-1によって、y軸上の任意の位置(0,Y0)に音源が配置された場合に取得される音の周波数スペクトルを示している。従って実際の音源の位置を代入すれば各位置に音源が配置された場合に取得される周波数スペクトルを計算することができる。
 図9Bは、マイクロホンMI0~MI7をx軸方向に関して2cmの等間隔に配置した場合について、音源の位置をx軸から0.01、0.1、0.5、1.0、2.0、3.0、4.0mの各距離にあるy軸上の位置として(すなわち、Y0=0.01、0.1、0.5m等)計算した周波数スペクトルを示す図である。なお、ここでは、F0(kt)=1とし、周波数スペクトルF(kt,ks)の絶対値を計算した上で、周方向の周波数が0である場合の値を1とした相対値で示している。
 図9Bに示されるように、音源の位置がx軸から0.01、0.1、0.5、1.0、2.0、3.0、4.0mと変化することに応じて周波数スペクトルの形状が変化する。従って、実際に測定した推定対象周波数スペクトルと類似する周波数スペクトルを特定すれば、推定対象音源の位置を推定することができる。特に、x軸から2.0mの位置である第1位置P1の周囲では周波数スペクトルの形状が劇的に変化する。従って、x軸から2.0mの位置付近に音源が存在する場合には正確に推定対象音源の位置を推定することが可能になる。むろん、参照データ31cとして記録されるデータの数は図9Bに示す数に限定されず、より多くのデータが記録されていることが好ましい。
 以上のように、音源の位置毎の周波数スペクトルは予め計算することが可能であるし、実際に測定して取得することも可能である。いずれにしても、本実施形態においては、y軸上に複数の位置に音源(これを参照音源と呼ぶ)が配置された状態で取得される周波数スペクトルを参照周波数スペクトルとして取得し、参照音源の位置を予め対応付け、参照データ31cとして定義してある。
 なお、本実施形態において、参照音源の位置には、第1位置P1と、第1位置P1以外の位置とが含まれるように構成されている。すなわち、参照周波数スペクトルは、第1位置P1とその周囲で顕著に異なる形状になるため、参照音源の位置には必ず第1位置P1が含まれるように構成されている。さらに、第1位置P1以外の位置が参照音源の位置に含まれるように構成されている。これらの参照音源の位置が参照データ31cに含まれることにより、推定対象周波数スペクトルと比較することで推定対象音源の位置を推定可能な参照データ31cを定義することができる。
 なお、第1位置P1とその周辺の位置において参照周波数スペクトルは大きく変化するため、当該変化に応じた位置の推定を実施できるような分解能で参照音源の位置が設定されていることが好ましい。いずれにしても、予め参照データ31cが定義されている状態において、制御部20は、参照データ取得部22bの機能により、参照データ31cを取得する(ステップS210)。
 推定対象音源位置推定部22cは、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する機能を制御部20に実行させるプログラムモジュールである。すなわち、制御部20は、ステップS205で取得された推定対象周波数スペクトルと、ステップS210で取得された参照データが示す参照周波数スペクトルのそれぞれとを比較する(ステップS215)。
 そして、制御部20は、最も類似する参照データに対応づけられた位置を、推定対象音源の位置として取得する(ステップS220)。なお、周波数スペクトルの類否は、種々の手法で特定されてよく、例えば、推定対象周波数スペクトルと参照周波数スペクトルとの差分を積分した値が小さいほど類似していると判定する構成等を採用可能である。
 以上の構成によれば、音源の位置を推定可能である。特に、音源が第1位置P1付近に存在する場合、僅かな位置の変位で大きくプロファイルが変化するため、正確に音源の位置を推定可能である。なお、音源の位置は、種々の態様で定義されてよい。すなわち、上述の例は、x軸からの距離によって音源の位置が定義されていたが、他の定義、例えば、第1位置P1からの方向及び距離によって音源の位置が定義されてもよく、種々の構成が採用されてよい。
 (4)第2の音源位置推定システムの構成:
  図11は、本発明の一実施形態にかかる音源位置推定システム12のブロック図である。音源位置推定システム12は、上述の音源位置推定システム11と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図11においては、音源位置推定システム12を実現するために必要なハードウェアを図8から抜き出し、共通のハードウェアを共通の符号によって示している。
 本実施形態において、制御部20は、音源位置推定プログラム23を実行することができる。音源位置推定プログラム23が実行されると、制御部20は、集音部23a、集音データ補正部23b、候補スペクトル取得部23c、位置推定部23dとして機能する。本実施形態においては、音源の位置を推定して第1位置P1とし、第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しくなるように設定する構成が採用されている。なお、第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図3Aと同様にx軸上に等間隔で複数のマイクロホンMI0~MIM-1が並べられた状態であり、補正によって第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しいと見なされる構成を想定する。
 集音部23aは、音を複数のマイクロホンで集音した集音データを取得する機能を制御部20に実行させるプログラムモジュールである。すなわち、図12Aに示す音源位置推定処理は、複数のマイクロホンMI0~MIM-1が存在するx軸に垂直なy軸上に音源が存在する状態で開始される。音源位置推定処理が開始されると、複数のマイクロホンMI0~MIM-1の出力信号がA/DコンバータC0~CM-1からデジタルデータが出力される。制御部20は、出力されたデジタルデータに基づいて集音データ32aを取得し、記録媒体30に記録する。
 集音データ補正部23bは、複数の候補位置を設定し、複数のマイクロホンから候補位置までの距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う機能を制御部20に実行させるプログラムモジュールである。具体的には、集音データ32aが取得されると、制御部20は、候補位置に音源が存在する集音データとなるように補正を行う(ステップS305)。
 すなわち、制御部20は、y軸上に複数の候補位置を設定する。候補位置の設定法は種々の手法であってよく、例えば、一定距離毎に候補位置を設定する構成であってもよい。候補位置が設定されると、制御部20は、候補位置から複数のマイクロホンMI0~MIM-1までの距離が一定になるように集音データ32aを補正して候補スペクトルを取得する処理を、各候補位置について実施する。
 例えば、図3Aに示す位置P1が候補位置である場合、制御部20は、位置P1に存在する音源からマイクロホンMI0~MIM-1までの距離がRになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。
 そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、位置P1に存在する音源から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0が図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v(fは音波の周波数、vは音波の速度)によって取得することができる。
 そこで制御部20は、マイクロホンMI0~MIM-1の位置と、位置P1までの距離Rとに基づいて、集音データ32aを補正し、候補位置に存在する音源から各マイクロホンまでの距離が等しいと見なした場合の集音データを取得する。取得された集音データには、音源の位置として想定された位置P1が候補位置として対応づけられる。制御部20は、各候補位置について、補正後の集音データを取得する。
 候補スペクトル取得部23cは、複数の候補位置のそれぞれについて、候補位置が中心であり距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する機能を制御部20に実行させるプログラムモジュールである。すなわち、ステップS305において集音データが補正されると、制御部20は、候補スペクトル取得部23cの機能により、複数の候補位置についての集音データをFFTによって候補スペクトルに変換する(ステップS310)。
 具体的には、制御部20は、ステップS305の補正によって得られた集音データのそれぞれについて、音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルに候補位置を対応付け、候補スペクトル32bとして記録媒体30に記録する。
 位置推定部23dは、周方向の周波数が0である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する機能を制御部20に実行させるプログラムモジュールである。すなわち、ステップS310において候補スペクトルが取得されると、制御部20は、周波数が0の領域のスペクトルが極大となる候補位置を取得する(ステップS315)。
 具体的には、制御部20は、記録媒体30に記録された候補スペクトル32bを参照し、周方向の周波数が0の値を取得する。図12Bは、複数の候補スペクトル32bから、ある時間におけるスペクトルを抜き出し、重ねて示した図である。この図においては、候補位置が異なることに起因して異なる形状のスペクトルが得られることが示されている。また、図12Bにおいては、ある候補位置Pcから各マイクロホンMI0~MIM-1までの距離が同一である。このため、候補位置Pcに対応づけられた候補スペクトルPc32bが他の候補位置のスペクトルと極めて異なる形状となっており、かつ極大値となっている。従って、候補位置Pcに対応づけられた候補スペクトル32bが極大になることを容易に特定することができる。
 なお、極大値は、特定の時刻における候補スペクトルにおいて周方向の周波数が0の領域の値が複数の候補位置について比較されることによって特定されてもよいし、他の手法で特定されてもよい。例えば、複数の時刻における候補スペクトルにおいて周方向の周波数が0の領域の値が取得され、累積値や平均値等の統計値が複数の候補位置について取得され、比較されることによって極大値が特定されてもよい。
 極大値を与える候補スペクトル32bが特定されると、制御部20は、当該極大値を与える候補スペクトル32bに対応づけられている候補位置Pcに音源が存在すると推定する。このように、本実施形態において制御部20は、候補スペクトル32bに基づいて音源の位置を推定することができる。本実施形態においては、各マイクロホンMI0~MIM-1までの距離が同一である候補位置Pcに音源が存在する場合、図12Bに示すように、候補スペクトルの形状が他のスペクトルと明らかに異なり、また、値も大きくなる。従って、候補位置Pcが音源の位置である場合には、特に正確に音源の位置を推定することができる。
 本実施形態において音源の位置が推定された後には、当該位置の音源からの音を集音するための処理が行われる。すなわち、制御部20は、候補位置からの距離が等しくなるように集音データの補正量を設定する(ステップS320)。具体的には、制御部20は、マイクロホンMI0~MIM-1の位置と、候補位置までの距離とされる共通の値(図3Aに示す例であれば例えばR)とに基づいて、時間方向の補正量(位相遅延量:図3AのマイクロホンM00であれば2πf×L/v(fは音波の周波数、vは音波の速度))を取得する。
 以後、制御部20は、例えば、集音データを当該補正量によって補正し、ステップS110~S125と同様の処理を行えば、候補位置に存在する音源からの音のみを抽出することが可能になる。
 なお、本実施形態において極大値が複数個存在する場合、制御部20は、それぞれの極大値を与える候補スペクトル32bに対応づけられた候補位置のそれぞれに音源が存在すると推定してもよい。この場合において、集音データの補正量を設定するのであれば、例えば、どの候補位置に合わせて設定すべきか利用者に問い合わせる構成等を採用可能である。さらに、祖調整を行ってから微調整を行ってもよい。例えば、候補位置を粗い密度で複数箇所設定し、極大値に基づいて候補位置を仮設定した後、仮設定された位置を含む所定範囲でより高密度に候補位置を複数箇所設定し、極大値に基づいて候補位置を詳細に設定してもよい。
 (5)他の実施形態:
  以上の実施形態は本発明を実施するための一例であり、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する限りにおいて、他にも種々の実施形態を採用可能である。上述の実施形態においては、周波数スペクトルに基づいて音源の分離や、音源の位置の推定等を行う構成を説明したが、当該構成は一例である。従って、他の手法、例えば、周波数スペクトルに対して分離後の周波数スペクトルを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。むろん、周波数スペクトルに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。
 さらに、周波数スペクトルではなく、集音データが教師データとなってもよい。例えば、集音データに対して分離後の集音データを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。また、集音データに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。
 さらに、本発明の実施形態は、携帯端末以外の装置で実現されてもよい。例えば、車両内に音源分離システムや音源位置推定システムを配置することにより、車室内で会話や音楽再生等が行われている状態で運転者の音声指示を受け付ける音声インタフェースが実現されてもよい。こうすることにより運転手の音声指示を走行ノイズや車室内の他の音声等から分離することができるので、音声指示の認識率が向上する。
 さらに、携帯端末が備えるカメラと共に音源分離システムや音源位置推定システムが利用されてもよい。例えば、カメラを備える携帯端末によって動画を撮影する際に、特定の音源の音声を動画と共に記録したい場合や、音源毎に音声を分離した状態で動画を記録したい場合等に音源分離システムや音源位置推定システムが利用されてもよい。さらに、複数のマイクロホンにおける集音結果を全て記録しておき、異なる位置に存在する異なる音源からの音を事後的に抽出するような利用態様も実現可能である。
 さらに、上述の音源分離システム10は距離センサ40を備えていたが、距離センサ40による測距が行われない音源分離システム10が構成されてもよい。例えば、車室内における運転者の口など、ある程度の範囲内に存在する音源を対象とする場合、当該範囲に第1位置P1が含まれるように設定した音源分離システム10を構成すれば、距離センサ40は不要である。
 さらに、上述の実施形態においては、音源がy軸上に存在するものとして説明を行ったが、音源がy軸上に存在しない場合であっても一般性は失わない。例えば、複数のマイクロホンの集音結果は、時間方向にシフトさせることによって第1位置を変化させることが可能である。そして、このような時間方向へのシフトを利用すれば、y軸上に存在しない位置を第1位置と見なすことができるように補正を行うことが可能である。また、音源がどのような位置にあっても、音源分離システムや音源位置推定システムを移動させれば、音源がy軸に存在する(またはほぼ存在する)状態を実現することは可能である。
 また、音源分離システムや音源位置推定システムは、複数の装置によって実現されてもよく、フーリエ変換や集音データの補正等がサーバで実施され、分離された音声の提供や推定後の音源の位置の提供等がクライアントで実施されるシステム等であってもよい。むろん、音源分離システムや音源位置推定システムを構成する各要素、例えば、集音データ取得部21a、周波数スペクトル取得部21b、音源分離部21c、推定対象周波数スペクトル取得部22a、参照データ取得部22b、推定対象音源位置推定部22c、集音部23a、集音データ補正部23b、候補スペクトル取得部23c、位置推定部23d等が異なる装置に分散して存在してもよい。さらに、上述の実施形態の一部の構成が省略されてもよいし、処理の順序が変動または省略されてもよい。
 集音データ取得部は、複数のマイクロホンからの距離が等しい第1位置に存在する第1音源と第1位置以外の位置に存在する第2音源とから出力された音を複数のマイクロホンで集音した集音データを取得することができればよい。すなわち、集音データ取得部は、第1音源から出力された音の第1音源スペクトルが第2音源スペクトルと区別できるように各音源が配置された状態で集音することができればよい。
 前記音源分離システムの実施形態において、M個(M≧3)のマイクロホンを用いた場合を説明したが、複数のマイクロホンは2以上であればよく、数は限定されない。また、複数のマイクロホンは、第1音源からの距離が等しければよく、当該距離は、実空間上での実際の距離が等しい状態であってもよいし、仮想的な距離が等しい状態であってもよい。すなわち、集音データを時間方向に補正し、複数のマイクロホンと音源との実効的な距離を変化させた場合、当該実効的な距離によってマイクロホンと第1音源との距離が規定されてもよい。
 さらに、複数のマイクロホンは特性が同一のマイクロホン(例えば、素材、大きさ、構成が同一の複数のマイクロホン等)であることが好ましい。さらに、複数のマイクロホンの態様は限定されず、上述のMEMSマイクロホン以外にも、種々のマイクロホンが利用されてよい。
 第1位置は、第1音源が当該位置に存在することによって第1音源スペクトルが第2音源スペクトルと明確に区別できるようになっていればよい。従って、第1音源スペクトルと第2音源スペクトルとを区別できる限りにおいて、第1位置に誤差が含まれていてもよい。また、第1音源スペクトルと第2音源スペクトルとを区別できる限りにおいて、第1音源から各マイクロホンへの距離が誤差を有していてもよい。
 第1位置に第1音源が存在する状態は、各種の手段で実現されてよく、音源分離システムが人為的に移動されるなどして第1位置に第1音源が存在する状態が実現されてもよいし、集音データが補正されることによって第1位置に第1音源が存在する状態が実現されてもよい。集音データは、各マイクロホンで集音された音を示していればよく、例えば、音圧の時間変化を示すデータである。
 周波数スペクトル取得部は、集音データに基づいて、第1位置が中心であり距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得することができればよい。すなわち、周波数スペクトル取得部は、マイクロホンが分布する周方向と、各マイクロホンにおける音圧の時間変化を示す時間方向とで規定される2次元方向について、集音データを周波数スペクトルに変換することができればよい。
 円の周方向は、第1位置が中心であり、マイクロホンと第1位置との距離が半径である円の周上であればよい。第1位置から複数のマイクロホンまでの距離が一定である状態は、上述のように、集音データの時間方向への補正によっても実現可能である。従って、直線上に並ぶ複数のマイクロホンの集音データが特定の直線方向に並べられ、各集音データの音圧が当該直線に垂直な時間方向に変化するように座標軸を定義した場合であっても、周方向と時間方向との2次元について解析していると解釈可能である。すなわち、集音データの時間方向への補正によって第1位置から複数のマイクロホンまでの距離が一定である状態が実現されるのであれば、周方向と時間方向との2次元について解析が行われているといえる。
 音源分離部は、周波数スペクトルに基づいて、第1音源から出力された音のスペクトルである第1音源スペクトルと、第2音源から出力された音のスペクトルである第2音源スペクトルとを分離することができればよい。すなわち、第1音源スペクトルは、第2音源スペクトルと異なる極めて特徴的なスペクトルとなるため、当該特徴的なスペクトルである第1音源スペクトルを抽出する処理と、当該特徴的なスペクトルを除去して第2音源スペクトルを残す処理と、の少なくとも一方を行えば、音源毎のスペクトルを分離することができる。
 分離によって得られた第1音源スペクトルや第2音源スペクトルは、種々の用途で利用されてよい。すなわち、上述の実施形態のように、音を復元する処理が行われる構成以外にも種々の構成を採用可能である。例えば、各音源における周波数スペクトルの特性を解析したり、評価したりする構成等が採用されてもよい。
 上述の実施形態においては、第1音源スペクトルに基づいて第1音源から出力された音を復元する処理が行われたが、むろん、第2音源スペクトルに基づいて第2音源から出力された音を復元する処理が行われてもよいし、第1音源と第2音源との双方について音を復元する処理が行われてもよい。第2音源スペクトルに基づいて第2音源から出力された音を復元する処理は、第1音源スペクトルが除去されたことで得られた第2音源スペクトルを逆フーリエ変換する処理等によって実現可能である。
 周方向の周波数が0である領域は、複数のマイクロホンからの距離が等しい第1位置に音源が存在することに起因して、周方向において第1音源スペクトルが局在する領域であればよく、当該領域は、例えば、第1音源が第1位置上に正確に一致しているほど狭くなり、複数のマイクロホンから第1位置までの距離が複数のマイクロホンにおいて正確に一致しているほど狭くなる。従って、これらの誤差等に応じて第1音源スペクトルの周波数成分が周方向において広がる度合いに鑑みて、すなわち、第1音源スペクトルを抽出できるように、周波数が0である領域に幅を持たせてもよい。周方向の周波数が非0である領域は、第1音源スペクトルが値を有さない周波数域として設定されればよい。
 周方向の周波数が0である領域の第2音源スペクトルの推定は、各種の補間によって実施されてよい。すなわち、上述の実施形態のように周方向の周波数が非0である領域の第2音源スペクトルを周波数が0の領域まで延長することによる線形補間が利用されてもよいし、他の線形補間やスペクトルを多項式等によって近似することによって補間が行われてもよく、種々の構成を採用可能である。また、周波数が非0である第2音源スペクトルを参照する際に正負両側の周波数の双方が参照されてもよいし、正側のみ、負側のみの周波数が参照されてもよい。
 さらに、集音データ取得部が、第1位置を中心とした円の周上に配置された複数のマイクロホンで集音された集音データを取得する構成であってもよい。すなわち、複数のマイクロホンが、実際に第1位置を中心とした円の周上に配置されている状態で集音データが取得されてもよい。むろん、複数のマイクロホンの位置が可変であることによって第1位置を変化させることが可能であってもよい。マイクロホンの位置を変化させるための構成としては、種々のアクチュエータが採用されてよく、例えば、マイクロホンがMEMSマイクロホンである場合、MEMSによってマイクロホンを駆動する機構が構成されてもよい。
 さらに、本発明のように、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する手法は、プログラムや方法としても適用可能である。また、以上のようなシステム、プログラム、方法は、単独の装置として実現される場合や、複数の装置によって実現される場合が想定可能であり、各種の態様を含むものである。例えば、以上のような手段を備えた携帯端末を提供することが可能である。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、システムを制御するプログラムの記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし半導体メモリであってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。
10…音源分離システム、20…制御部、21…音源分離プログラム、21a…集音データ取得部、21b…周波数スペクトル取得部、21c…音源分離部、30…記録媒体、30a…集音データ、30b…周波数スペクトル、11…音源位置推定システム、22…音源位置推定プログラム、22a…推定対象周波数スペクトル取得部、22b…参照データ取得部、22c…推定対象音源位置推定部、31a…集音データ、31b…推定対象周波数スペクトル、31c…参照データ、12…音源位置推定システム、23…音源位置推定プログラム、23a…集音部、23b…集音データ補正部、23c…候補スペクトル取得部、23d…位置推定部、32a…集音データ、32b…候補スペクトル、40…距離センサ、C0~CM-1…A/Dコンバータ、MI0~MIM-1…マイクロホン

Claims (10)

  1.  複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部と、
     前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部と、
     前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離部と、
    を備える音源分離システム。
  2.  前記音源分離部は、
      前記第1音源スペクトルに基づいて前記第1音源から出力された音を復元する処理と、前記第2音源スペクトルに基づいて前記第2音源から出力された音を復元する処理と、の少なくとも一方を実行する、
    請求項1に記載の音源分離システム。
  3.  前記音源分離部は、
      前記周方向の周波数が非0である領域の前記周波数スペクトルを前記第2音源スペクトルと見なし、当該第2音源スペクトルから補間することによって前記周方向の周波数が0である領域の前記第2音源スペクトルを推定し、推定された前記第2音源スペクトルを前記周波数スペクトルから除去することによって前記第1音源スペクトルを分離する、
    請求項1または請求項2に記載の音源分離システム。
  4.  前記集音データ取得部は、
      前記第1位置から複数の前記マイクロホンまでの実距離が等しくない場合に、前記実距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果に対して時間方向への補正が行われた前記集音データを取得する、
    請求項1~請求項3のいずれかに記載の音源分離システム。
  5.  前記集音データ取得部は、
      前記円の周上に存在する前記マイクロホンで集音された場合の前記集音データを複製し、前記マイクロホンの位置を前記円の半径に対して線対称の位置に移動させた位置に仮想的に存在する前記マイクロホンで集音された場合の前記集音データとして取得する、
    請求項1~請求項4のいずれかに記載の音源分離システム。
  6.  前記集音データ取得部は、
      前記第1位置を中心とした円の周上に配置された複数の前記マイクロホンで集音された前記集音データを取得する、
    請求項1~請求項5のいずれかに記載の音源分離システム。
  7.  第1位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、
     参照音源から出力された音が複数の前記マイクロホンで集音され、前記2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、前記参照音源の位置とを対応づけた参照データを取得する参照データ取得部と、
     前記推定対象周波数スペクトルと、前記参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた前記参照音源の位置に前記推定対象音源が存在すると推定する推定対象音源位置推定部と、を備え、
     前記参照周波数スペクトルに対応づけられた前記参照音源の位置には、
      前記第1位置と、前記第1位置以外の位置とが含まれる、
    音源位置推定システム。
  8.  音を複数のマイクロホンで集音した集音データを取得する集音部と、
     複数の候補位置を設定し、複数の前記マイクロホンから前記候補位置までの実効的な距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果を時間方向に補正する処理を、複数の前記候補位置について行う集音データ補正部と、
     複数の前記候補位置のそれぞれについて、前記候補位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する候補スペクトル取得部と、
     前記周方向の周波数が0である領域の前記周波数スペクトルが極大になる前記候補位置に音源が存在すると推定する位置推定部と、
    を備える音源位置推定システム。
  9.  複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得工程と、
     前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得工程と、
     前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離工程と、
    を含む音源分離方法。
  10.  コンピュータを、
     複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部、
     前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部、
     前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離部、
    として機能させる音源分離プログラム。
PCT/JP2019/027241 2018-08-06 2019-07-10 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム WO2020031594A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/266,397 US11317200B2 (en) 2018-08-06 2019-07-10 Sound source separation system, sound source position estimation system, sound source separation method, and sound source separation program
JP2020536395A JP7286896B2 (ja) 2018-08-06 2019-07-10 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-147470 2018-08-06
JP2018147470 2018-08-06

Publications (1)

Publication Number Publication Date
WO2020031594A1 true WO2020031594A1 (ja) 2020-02-13

Family

ID=69415581

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/027241 WO2020031594A1 (ja) 2018-08-06 2019-07-10 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム

Country Status (3)

Country Link
US (1) US11317200B2 (ja)
JP (1) JP7286896B2 (ja)
WO (1) WO2020031594A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114166334B (zh) * 2021-11-23 2023-06-27 中国直升机设计研究所 一种非消声风洞旋翼噪声测点的声衰减系数校准方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036359A (ja) * 2016-08-30 2018-03-08 国立大学法人山梨大学 音源分離装置、及び音源分離方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6344189A (ja) 1986-08-11 1988-02-25 Toshiba Corp 音源探査装置
ES2670870T3 (es) * 2010-12-21 2018-06-01 Nippon Telegraph And Telephone Corporation Método de realce de sonido, dispositivo, programa y medio de grabación
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
WO2014103066A1 (ja) * 2012-12-28 2014-07-03 共栄エンジニアリング株式会社 音源分離方法、装置、及びプログラム
JP6807029B2 (ja) 2015-03-23 2021-01-06 ソニー株式会社 音源分離装置および方法、並びにプログラム
WO2019187589A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 音源方向推定装置、音源方向推定方法、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036359A (ja) * 2016-08-30 2018-03-08 国立大学法人山梨大学 音源分離装置、及び音源分離方法

Also Published As

Publication number Publication date
JPWO2020031594A1 (ja) 2021-08-12
JP7286896B2 (ja) 2023-06-06
US11317200B2 (en) 2022-04-26
US20210297773A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
EP3320692B1 (en) Spatial audio processing apparatus
US11310617B2 (en) Sound field forming apparatus and method
US9875410B2 (en) Camera system for transmitting and receiving an audio signal and operating method of the same
JP6543844B2 (ja) 音源同定装置および音源同定方法
JP6789690B2 (ja) 信号処理装置、信号処理方法、及びプログラム
US9500739B2 (en) Estimating and tracking multiple attributes of multiple objects from multi-sensor data
KR20160086831A (ko) 음장 재현 장치 및 방법, 그리고 프로그램
JP6604331B2 (ja) 音声処理装置および方法、並びにプログラム
US9549274B2 (en) Sound processing apparatus, sound processing method, and sound processing program
JP6613078B2 (ja) 信号処理装置及びその制御方法
JP7206027B2 (ja) 頭部伝達関数学習装置および頭部伝達関数推論装置
JP5565552B2 (ja) 映像音響処理装置、映像音響処理方法及びプログラム
EP3467818B1 (en) Locally attenuated sound field forming device, corresponding method and computer program
WO2020031594A1 (ja) 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム
WO2017038543A1 (ja) 音声処理装置および方法、並びにプログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
JPWO2018003158A1 (ja) 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
JP5451562B2 (ja) 音響処理システム及びこれを用いた機械
JP5986966B2 (ja) 音場収音再生装置、方法及びプログラム
KR101155610B1 (ko) 음원 위치 표시 장치 및 그 방법
JP5658588B2 (ja) 聴覚臨場感評価装置及び聴覚臨場感評価プログラム
JP6433630B2 (ja) 雑音除去装置、エコーキャンセリング装置、異音検出装置および雑音除去方法
JP4065770B2 (ja) 移動体検出装置
JP6933303B2 (ja) 波源方向推定装置、波源方向推定方法、およびプログラム
JP2004279845A (ja) 信号分離方法およびその装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19848705

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020536395

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19848705

Country of ref document: EP

Kind code of ref document: A1