WO2021124537A1 - 情報処理装置、算出方法、及び算出プログラム - Google Patents

情報処理装置、算出方法、及び算出プログラム Download PDF

Info

Publication number
WO2021124537A1
WO2021124537A1 PCT/JP2019/049975 JP2019049975W WO2021124537A1 WO 2021124537 A1 WO2021124537 A1 WO 2021124537A1 JP 2019049975 W JP2019049975 W JP 2019049975W WO 2021124537 A1 WO2021124537 A1 WO 2021124537A1
Authority
WO
WIPO (PCT)
Prior art keywords
calculated
steering vector
filter
unit
information processing
Prior art date
Application number
PCT/JP2019/049975
Other languages
English (en)
French (fr)
Inventor
智治 粟野
木村 勝
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/049975 priority Critical patent/WO2021124537A1/ja
Priority to JP2021562062A priority patent/JP7004875B2/ja
Publication of WO2021124537A1 publication Critical patent/WO2021124537A1/ja
Priority to US17/830,931 priority patent/US12015901B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Definitions

  • This disclosure relates to an information processing device, a calculation method, and a calculation program.
  • Sound is collected in the microphone (hereinafter referred to as the microphone).
  • sound is voice.
  • the sound that is the target of sound collection is called the target sound.
  • the SN (signal-noise) ratio is important. Beamforming technology is known as a method for improving the SN ratio.
  • a microphone array In beamforming technology, a microphone array is used.
  • a beam is formed in the sound source direction of the target sound (in other words, the arrival direction of the target sound) by utilizing the characteristic difference (for example, phase difference) of the signals of a plurality of sound collections.
  • the characteristic difference for example, phase difference
  • the target sound is emphasized while suppressing unnecessary sounds such as noise and disturbing sounds.
  • beamforming technology is used in voice recognition processing performed in a noisy place, hands-free calling performed in a vehicle, and the like.
  • DS Delay and Sum
  • the difference in arrival time from the sound source to the microphone array is used.
  • a delay is added to the sound collection signal, which is the sound collection signal.
  • a beam is formed in the direction of the sound source of the target sound by the summation based on the sound collection signal with the delay added.
  • the minimum dispersion (MV) method is used.
  • the MV method is described in Non-Patent Document 1.
  • a beam is formed in the target sound direction by using a steering vector (SV: Steering Vector) indicating the direction of the sound source of the target sound from the microphone array (hereinafter, the target sound direction).
  • SV Steering Vector
  • a null beam Null Beam
  • adaptive beamforming is more effective than fixed beamforming.
  • the performance of the MV method depends on the correctness of the SV.
  • the SV in the target sound direction is represented by the impulse response of the sound input to the microphone array from the target sound direction. Further, SV a ( ⁇ ) indicating the target sound direction is expressed by the following equation (1). ⁇ indicates the frequency.
  • the number of microphones in the microphone array is N (N is an integer of 1 or more). “A 1 ( ⁇ ), a 2 ( ⁇ ), ..., a N ( ⁇ )” are impulse responses of sounds input to each microphone from the direction of the target sound. T is a transpose.
  • SV is calculated by measuring the impulse response. Performing the impulse response measurement work by the measurer increases the burden on the measurer.
  • the purpose of this disclosure is to reduce the burden on the measurer.
  • the information processing device includes a sound signal acquisition unit that acquires sound signals output from a plurality of microphones, an analysis unit that analyzes the frequency of the sound signal, and a first direction that is the direction of a target sound source from the plurality of microphones. A second direction different from the first direction based on the information acquisition unit for acquiring preset information indicating the steering vector of the above and the information indicating the frequency and the steering vector in the first direction.
  • the first calculation unit that calculates the filter to be formed in the direction of, and calculates the steering vector in the second direction by using the formula showing the relationship between the calculated filter and the steering vector in the second direction. , Have.
  • the burden on the measurer can be reduced.
  • FIG. 1 It is a figure (the 1) which shows the hardware configuration which the information processing apparatus of Embodiment 1 has. It is a figure (the 2) which shows the hardware configuration which the information processing apparatus of Embodiment 1 has. It is a figure which shows the specific example of the adaptation environment of Embodiment 1.
  • FIG. It is a functional block diagram which the information processing apparatus of Embodiment 1 has. It is a figure which shows the example of the case where the driver's seat direction of Embodiment 1 is a target sound direction. It is a figure which shows the example of the case where the passenger seat direction of Embodiment 1 is a target sound direction. It is a figure which shows the process which the information processing apparatus of Embodiment 1 executes. It is a functional block diagram which the information processing apparatus of Embodiment 2 has. It is a functional block diagram which the information processing apparatus of Embodiment 3 has.
  • FIG. 1 is a diagram (No. 1) showing a hardware configuration of the information processing apparatus of the first embodiment.
  • the information processing device 100 is a device that executes the calculation method.
  • the information processing device 100 connects the microphone array 200 and the output device 300.
  • the microphone array 200 includes a plurality of microphones.
  • the output device 300 is a speaker.
  • the information processing device 100 includes a processing circuit 101, a volatile storage device 102, a non-volatile storage device 103, and an interface unit 104.
  • the processing circuit 101, the volatile storage device 102, the non-volatile storage device 103, and the interface unit 104 are connected by a bus.
  • the processing circuit 101 controls the entire information processing device 100.
  • the processing circuit 101 is a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable GATE Array), an LSI (Large Circuit, etc.), and an LSI (Large Circuit).
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable GATE Array
  • LSI Large Circuit, etc.
  • LSI Large Circuit
  • the volatile storage device 102 is the main storage device of the information processing device 100.
  • the volatile storage device 102 is a RAM (Random Access Memory).
  • the non-volatile storage device 103 is an auxiliary storage device of the information processing device 100.
  • the non-volatile storage device 103 is an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the interface unit 104 connects to the microphone array 200 and the output device 300.
  • the information processing device 100 may have the following hardware configuration.
  • FIG. 2 is a diagram (No. 2) showing a hardware configuration included in the information processing apparatus of the first embodiment.
  • the information processing device 100 includes a processor 105, a volatile storage device 102, a non-volatile storage device 103, and an interface unit 104.
  • the volatile storage device 102, the non-volatile storage device 103, and the interface unit 104 have been described with reference to FIG. Therefore, the description of the volatile storage device 102, the non-volatile storage device 103, and the interface unit 104 will be omitted.
  • the processor 105 controls the entire information processing device 100.
  • the processor 105 is a CPU (Central Processing Unit).
  • FIG. 3 is a diagram showing a specific example of the adaptive environment of the first embodiment.
  • FIG. 3 shows that there are people in the driver's seat and the passenger seat. Further, FIG. 3 shows a microphone array 200.
  • the driver's seat direction is the target sound direction.
  • the direction of the passenger seat is the direction of the disturbing sound.
  • the information processing device 100 can set the voice of a person present in the driver's seat as the target of sound collection.
  • the information processing device 100 can set the voice of a person present in the passenger seat to be excluded from the sound collection target.
  • the case where one or more people are present in the vehicle will be described.
  • FIG. 4 is a functional block diagram of the information processing device of the first embodiment.
  • the information processing device 100 includes a storage unit 110, an information acquisition unit 120, a sound signal acquisition unit 130, an analysis unit 140, an analysis unit 150, a calculation unit 160, and a calculation unit 170.
  • the calculation unit 160 includes a beamforming processing unit 161 and an SV2 calculation unit 162.
  • the calculation unit 170 includes a beamforming processing unit 171 and an SV1 calculation unit 172.
  • the storage unit 110 is realized as a storage area reserved in the volatile storage device 102 or the non-volatile storage device 103.
  • a part or all of the information acquisition unit 120, the sound signal acquisition unit 130, the analysis unit 140, the analysis unit 150, the calculation unit 160, and the calculation unit 170 may be realized by the processing circuit 101.
  • a part or all of the information acquisition unit 120, the sound signal acquisition unit 130, the analysis unit 140, the analysis unit 150, the calculation unit 160, and the calculation unit 170 may be realized as a module of a program executed by the processor 105.
  • the program executed by the processor 105 is also called a calculation program.
  • the calculation program is recorded on a recording medium.
  • FIG. 4 shows microphones 201 and 202.
  • the microphones 201 and 202 are a part of the microphone array 200.
  • the process will be described using two microphones.
  • the number of microphones may be three or more.
  • the storage unit 110 stores preset SV1 which is an initial value and SV2 which is an initial value.
  • the initial value SV1 is also referred to as information indicating a steering vector in the first direction.
  • the initial value SV1 is also called a parameter indicating the steering vector in the first direction.
  • the initial value SV2 is also referred to as information indicating a steering vector in the second direction.
  • the initial value SV2 is also called a parameter indicating the steering vector in the second direction.
  • the information acquisition unit 120 acquires the initial value SV1 and the initial value SV2.
  • the information acquisition unit 120 acquires the initial value SV1 and the initial value SV2 from the storage unit 110.
  • the initial value SV1 and the initial value SV2 may be stored in an external device.
  • the external device is a cloud server.
  • the information acquisition unit 120 acquires the initial value SV1 and the initial value SV2 from the external device.
  • the sound signal acquisition unit 130 acquires the sound signal output from the microphones 201 and 202.
  • the analysis units 140 and 150 analyze the frequency of the sound signal based on the sound signal.
  • the calculation unit 160 is also referred to as a first calculation unit.
  • the detailed processing of the calculation unit 160 is realized by the beamforming processing unit 161 and the SV2 calculation unit 162.
  • the beamforming processing unit 161 forms a beam in the SV1 direction by executing adaptive beamforming using the initial value SV1. Further, in adaptive beamforming, the MV method is used.
  • the SV2 calculation unit 162 calculates the null beam direction based on the filter for suppressing sound and the SV.
  • the calculation unit 170 is also referred to as a second calculation unit.
  • the detailed processing of the calculation unit 170 is realized by the beamforming processing unit 171 and the SV1 calculation unit 172.
  • the beamforming processing unit 171 forms a beam in the SV2 direction by executing adaptive beamforming using the initial value SV2. Further, in adaptive beamforming, the MV method is used.
  • the SV1 calculation unit 172 calculates the null beam direction based on the filter for suppressing sound and the SV.
  • the SV1 direction is the driver's seat direction.
  • the SV2 direction is the passenger seat direction.
  • FIG. 5 is a diagram showing an example in the case where the driver's seat direction of the first embodiment is the target sound direction.
  • the beamforming processing unit 161 can separate the voice of a person present in the driver's seat from the voice of a person present in the passenger seat. That is, the beamforming processing unit 161 can realize sound source separation.
  • the direction indicated by the arrow 11 is the SV1 direction.
  • the direction indicated by the arrow 11 is the target sound direction.
  • the direction indicated by the arrow 11 is also referred to as a first direction. That is, the first direction is the direction from the microphone array 200 to the target sound source (in other words, the sound source of the target sound).
  • the direction indicated by the arrow 12 is the null beam direction (hereinafter referred to as the null beam direction). That is, the direction indicated by the arrow 12 is also referred to as a disturbing sound direction or a second direction.
  • FIG. 6 is a diagram showing an example in the case where the passenger seat direction of the first embodiment is the target sound direction.
  • the beamforming processing unit 171 can separate the voice of a person present in the driver's seat from the voice of a person present in the passenger seat. That is, the beamforming processing unit 171 can realize sound source separation.
  • the direction indicated by the arrow 21 is the null beam direction. That is, the direction indicated by the arrow 21 is the disturbing sound direction.
  • the direction indicated by the arrow 22 is the SV2 direction.
  • the direction indicated by the arrow 22 is the target sound direction.
  • SV1 is expressed as a vector a ( ⁇ ).
  • the vector a ( ⁇ ) is expressed by the equation (2).
  • the vector a ( ⁇ ) is synonymous with SV a ( ⁇ ) represented by the equation (1).
  • SV2 is expressed as a vector b ( ⁇ ).
  • the vector b ( ⁇ ) is represented by the equation (3).
  • FIG. 7 is a diagram showing a process executed by the information processing apparatus of the first embodiment. Steps S11 to S13 may be executed in parallel with steps S21 to S23. First, steps S11 to S13 will be described.
  • the analysis unit 140 analyzes the frequencies of the sound signals output from the microphone 201 and the microphone 202. For example, the analysis unit 140 analyzes the frequency of the sound signal by using the fast Fourier transform.
  • Step S12 The beamforming processing unit 161 calculates a filter w 1 ( ⁇ ) for forming a beam in the SV1 direction (that is, the vector a ( ⁇ )) and forming a null in the disturbing sound direction.
  • the target sound direction is the SV1 direction.
  • the disturbing sound direction is the SV2 direction (that is, the vector b ( ⁇ )).
  • the filter w 1 ( ⁇ ) is a filter formed in the second direction.
  • the filter w 1 ( ⁇ ) is a filter for forming a null in the second direction.
  • w 1 ( ⁇ ) is represented by a vector.
  • the arrow indicating that w 1 ( ⁇ ) is a vector may be omitted.
  • the vector a ( ⁇ ) and the filter w 1 ( ⁇ ) are represented by the following equation (4).
  • w 1 ( ⁇ ) H is a conjugate transpose matrix of the filter w 1 ( ⁇ ).
  • the vector a ( ⁇ ) (that is, the initial value SV1)
  • the vector a ( ⁇ ) is a vector a p ( ⁇ ).
  • the point p is an appropriate point.
  • p can be represented by a two-dimensional vertical vector indicating one point on a plane.
  • M microphones will be used. Let lm and p be the distances from the point p to the m-th microphone. Time t m of the sound wave from point p to reach the m-th microphone, p is expressed by the formula (6). c is the speed of sound.
  • the M-dimensional vector ap ( ⁇ ) facing the point p at the frequency ⁇ is represented by the equation (8). Note that j is an imaginary unit.
  • the positions of the driver's seat and the passenger seat are fixed. Therefore, it is possible to measure the distance between the driver's seat and the microphone 201 and the distance between the driver's seat and the microphone 202.
  • the distance between the driver's seat and the microphone 201 is 50 cm.
  • the distance between the driver's seat and the microphone 201 is 52 cm.
  • the angle between the microphone 201 and the driver's seat is 30 °.
  • the angle between the microphone 201 and the passenger seat is 150 °. In this way, the vector ap ( ⁇ ) can be calculated using the measured value and the equation (8).
  • the beamforming processing unit 161 calculates the filter w 1 ( ⁇ ) by using the MV method. Specifically, the beamforming processing unit 161 calculates the filter w 1 ( ⁇ ) using the equation (9).
  • the frequency ⁇ is a frequency analyzed by the analysis unit 140.
  • R ( ⁇ ) is a cross-correlation matrix.
  • R ( ⁇ ) is expressed using the equation (10). Note that X M ( ⁇ ) is the frequency of the sound signal of the sound input to the m-th microphone. E represents the average.
  • the beamforming processing unit 161 calculates the filter w 1 ( ⁇ ) based on the frequency of the sound signal analyzed by the analysis unit 140 and the initial value SV1.
  • the filter w 1 ( ⁇ ) the only unknown variable in the equations (4) and (5) is the vector b ( ⁇ ).
  • the SV2 calculation unit 162 can calculate the vector b ( ⁇ ) by solving the simultaneous equations of the equations (4) and (5). That is, the SV2 calculation unit 162 can calculate the SV2. Since the filter w 1 ( ⁇ ) is calculated by the SV2 calculation unit 162, the SV2 may be calculated using only the equation (5). The calculated SV2 may be considered as a steering vector in the second direction. It should be noted that the equations (4) and (5) do not include an element that deteriorates the accuracy of the SV2. Therefore, the calculated accuracy of SV2 is high.
  • the information processing device 100 can calculate the SV in the target sound direction.
  • Step S21 The analysis unit 150 analyzes the frequencies of the sound signals output from the microphone 201 and the microphone 202. For example, the analysis unit 150 analyzes the frequency of the sound signal by using the fast Fourier transform.
  • the beamforming processing unit 171 calculates a filter w 2 ( ⁇ ) for forming a beam in the SV2 direction (that is, vector b ( ⁇ )) and forming a null in the disturbing sound direction.
  • the target sound direction is the SV2 direction.
  • the disturbing sound direction is the SV1 direction (that is, the vector a ( ⁇ )).
  • the filter w 2 ( ⁇ ) is a filter formed in the first direction.
  • the filter w 2 ( ⁇ ) is a filter for forming a null in the first direction.
  • w 2 ( ⁇ ) is represented by a vector.
  • the arrow indicating that w 2 ( ⁇ ) is a vector may be omitted.
  • the vector b ( ⁇ ) and the filter w 2 ( ⁇ ) are represented by the following equation (11).
  • w 2 ( ⁇ ) H is a conjugate transpose matrix of the filter w 2 ( ⁇ ).
  • the method of calculating the vector b ( ⁇ ) (that is, the initial value SV2) is the same as the method of calculating the vector a ( ⁇ ).
  • the vector b (omega) is the vector b p ( ⁇ ).
  • M dimensional facing point p vector b p (omega) is expressed by Equation (13).
  • the beamforming processing unit 171 calculates the filter w 2 ( ⁇ ) by using the MV method. Specifically, the beamforming processing unit 171 calculates the filter w 2 ( ⁇ ) using the equation (14).
  • the frequency ⁇ is a frequency analyzed by the analysis unit 150.
  • the beamforming processing unit 171 calculates the filter w 2 ( ⁇ ) based on the frequency of the sound signal analyzed by the analysis unit 150 and the initial value SV2.
  • the filter w 2 ( ⁇ ) the only unknown variable in the equations (11) and (12) is the vector a ( ⁇ ).
  • the SV1 calculation unit 172 can calculate the vector a ( ⁇ ) by solving the simultaneous equations of the equations (11) and (12). That is, the SV1 calculation unit 172 can calculate the SV1. Since the filter w 2 ( ⁇ ) is calculated by the SV1 calculation unit 172, the SV1 may be calculated using only the equation (12). The calculated SV1 may be considered as a steering vector in the first direction. Further, the equations (11) and (12) do not include an element that deteriorates the accuracy of the SV1. Therefore, the calculated accuracy of SV1 is high.
  • the information processing device 100 can calculate the SV in the target sound direction.
  • the initial value SV1 may be a measured value.
  • the initial value SV2 may be a measured value.
  • the information processing apparatus 100 calculates the SV without using the measured value of the impulse response. Therefore, the measurer does not have to perform the impulse response measurement work. Therefore, the information processing device 100 can reduce the burden on the measurer.
  • Embodiment 2 Next, the second embodiment will be described. In the second embodiment, matters different from the first embodiment will be mainly described. Then, in the second embodiment, the description of the matters common to the first embodiment will be omitted. In the description of the second embodiment, FIGS. 1 to 7 are referred to.
  • FIG. 8 is a functional block diagram of the information processing apparatus according to the second embodiment.
  • the configuration of FIG. 8, which is the same as the configuration shown in FIG. 4, has the same reference numerals as those shown in FIG.
  • the information processing device 100a includes an information acquisition unit 120a, a calculation unit 160a, and a calculation unit 170a.
  • the calculation unit 160a includes a beamforming processing unit 161a and an SV2 calculation unit 162a.
  • the calculation unit 170a includes a beamforming processing unit 171a and an SV1 calculation unit 172a.
  • the beamforming processing unit 161a has the function of the beamforming processing unit 161.
  • the SV2 calculation unit 162a has a function of the SV2 calculation unit 162.
  • the beamforming processing unit 171a has the function of the beamforming processing unit 171.
  • the SV1 calculation unit 172a has a function of the SV1 calculation unit 172.
  • the SV2 calculation unit 162a updates the SV2 stored in the storage unit 110 to the calculated SV2.
  • the information acquisition unit 120a transmits the updated SV2 to the beamforming processing unit 171a.
  • the beamforming processing unit 171a executes a process of forming a beam in the passenger seat direction based on the updated SV2. As a result, the information processing device 100a can output a sound signal in which the sound in the passenger seat direction is emphasized.
  • the sound signal acquisition unit 130 acquires the sound signal output from the microphones 201 and 202 after the SV2 is calculated.
  • Beam forming process unit 171a is, SV2 by using the frequency of the acquired sound signal after being calculated, the SV2 that is updated, calculates the filter w 2.
  • the SV1 calculation unit 172a calculates the SV1 using the equation (12), and updates the SV1 stored in the storage unit 110 to the calculated SV1. In this way, the information processing device 100a repeats the update of the SV1.
  • the information processing device 100a can calculate the SV with high accuracy even if the direction of the sound emitted by the person in the driver's seat changes with time.
  • the SV1 calculation unit 172a updates the SV1 stored in the storage unit 110 to the calculated SV1.
  • the information acquisition unit 120a transmits the updated SV1 to the beamforming processing unit 161a.
  • the beamforming processing unit 161a executes a process of forming a beam in the driver's seat direction based on the updated SV1. As a result, the information processing device 100a can output a sound signal in which the sound in the driver's seat direction is emphasized.
  • the sound signal acquisition unit 130 acquires the sound signal output from the microphones 201 and 202 after the SV1 is calculated.
  • Beam forming process unit 161a uses the frequency of the acquired sound signal after SV1 is calculated, the SV1 that is updated, calculates the filter w 1.
  • the SV2 calculation unit 162a calculates the SV2 using the equation (5), and updates the SV2 stored in the storage unit 110 to the calculated SV2. In this way, the information processing device 100a repeats the update of the SV2.
  • the information processing apparatus 100a can calculate the SV with high accuracy even if the direction of the sound emitted by the person in the passenger seat changes with time.
  • Embodiment 3 Next, the third embodiment will be described. In the third embodiment, matters different from the first embodiment will be mainly described. Then, in the third embodiment, the description of the matters common to the first embodiment will be omitted. In the description of the third embodiment, FIGS. 1 to 7 are referred to.
  • FIG. 9 is a functional block diagram of the information processing device of the third embodiment.
  • the information processing device 100b is connected to the camera 400.
  • the configuration of FIG. 9, which is the same as the configuration shown in FIG. 4, has the same reference numerals as those shown in FIG.
  • the information processing device 100b has an utterance determination unit 180.
  • the utterance determination unit 180 determines whether or not there is an utterance in the SV1 direction or the SV2 direction. For example, the utterance determination unit 180 determines the utterance using the sound signals output from the microphones 201 and 202 and the learning model. Further, the utterance determination unit 180 may determine the utterance based on the image obtained by the camera 400 taking a picture of the user. For example, the utterance determination unit 180 analyzes a plurality of images and determines the utterance from the movement of the human mouth.
  • the utterance determination unit 180 has a utterance in the SV1 direction, a utterance in the SV2 direction, a simultaneous utterance in the SV1 direction and the SV2 direction, and no utterance. Which of the above is determined. For example, the direction is specified based on the phase difference of the sound signal.
  • the utterance determination unit 180 transmits an operation instruction to the beamforming processing unit 171.
  • the utterance determination unit 180 transmits an operation instruction to the beamforming processing unit 161. If there is simultaneous utterance in the SV1 direction and the SV2 direction, or if there is no utterance, the utterance determination unit 180 does nothing. In this way, the utterance determination unit 180 transmits an operation instruction when there is an utterance in the direction of the disturbing sound.
  • the calculation units 160 and 170 calculate the filter.
  • the cross-correlation matrix R ( ⁇ ) is used in the calculation of the filter.
  • the cross-correlation matrix R ( ⁇ ) shows the average.
  • the cross-correlation matrix R ( ⁇ ) used in the calculation of the second filter is the average of the matrix showing the frequency component of this time and the cross-correlation matrix R ( ⁇ ) of the previous time.
  • Increasing the number of times the filter is calculated converges on one cross-correlation matrix R ( ⁇ ). Converging on one cross-correlation matrix R ( ⁇ ) can improve the accuracy of the nulls formed. Therefore, the information processing apparatus 100b can improve the accuracy of the formed null by calculating the filter a plurality of times. The process will be described in detail.
  • the calculation unit 160 When the calculation unit 160 receives the operation instruction, the calculation unit 160 performs the following processing. That is, when there is an utterance in the SV2 direction, the calculation unit 160 performs the following processing. Calculating unit 160, every time it is acquired sound signal outputted from the microphone 201 and 202, using the SV1 and cross-correlation matrix and the frequency and the initial value of the acquired sound signal, calculates the filter w 1 ..
  • the cross-correlation matrix is the average of a matrix showing the frequency components of the acquired sound signal, the last, the cross-correlation matrix which is used when calculating the filter w 1.
  • the calculation unit 160 a plurality of times, calculates the filter w 1. Further, the calculation unit 160 may execute the above process even when the operation instruction is not received.
  • the calculation unit 170 When the calculation unit 170 receives the operation instruction, the calculation unit 170 performs the following processing. Calculating unit 170, every time it is acquired sound signal outputted from the microphone 201 and 202, using the SV2 and cross-correlation matrix and the frequency and the initial value of the acquired sound signal, calculates the filter w 2 ..
  • the cross-correlation matrix is the average of a matrix showing the frequency components of the acquired sound signal, the last, the cross-correlation matrix which is used when calculating the filter w 2. In this way, the calculation unit 170 calculates the filter w 2 a plurality of times. Further, the calculation unit 170 may execute the above process even when the operation instruction is not received.
  • Embodiments 1 to 3 illustrate the case where the microphone array 200 installed in the vehicle acquires sound.
  • the first to third embodiments can be applied to the case where the microphone array 200 is installed in the conference room where the video conference is held, the case where the television is equipped with the microphone array 200, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

情報処理装置(100)は、マイクアレイ(200)から出力された音信号を取得する音信号取得部(130)と、音信号の周波数を解析する解析部(140)と、マイクアレイ(200)から対象音源の方向である第1の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部(120)と、周波数と第1の方向のステアリングベクトルを示す情報とに基づいて、第1の方向と異なる方向である第2の方向に形成させるフィルタを算出し、算出されたフィルタと第2の方向のステアリングベクトルとの関係を示す式を用いて、第2の方向のステアリングベクトルを算出する算出部(160)と、を有する。

Description

情報処理装置、算出方法、及び算出プログラム
 本開示は、情報処理装置、算出方法、及び算出プログラムに関する。
 マイクロフォン(以下、マイク)には、音が集音される。例えば、音は、音声である。集音の目的となる音は、目的音と呼ぶ。音に関する技術では、SN(signal-noise)比が重要である。SN比を向上させる方法として、ビームフォーミング(Beam Forming)技術が知られている。
 ビームフォーミング技術では、マイクアレイが用いられる。ビームフォーミング技術では、複数の集音の信号の特性差(例えば、位相差)が利用されることで、目的音の音源方向(言い換えれば、目的音の到来方向)にビームが形成される。これにより、雑音、妨害音などの不要な音が抑圧されながら、目的音が強調される。例えば、ビームフォーミング技術は、雑音が大きい場所で行われる音声認識処理、車内で行われるハンズフリー通話などで用いられる。
 ビームフォーミング技術では、固定ビームフォーミングと適応ビームフォーミングが知られている。
 例えば、固定ビームフォーミングでは、遅延和(DS:Delay and Sum)法が用いられる。DS法では、音源からマイクアレイまでの到達時間の差が利用される。DS法では、集音の信号である集音信号に遅延が付加される。遅延が付加された集音信号に基づく総和により、目的音の音源方向にビームが形成される。
 また、例えば、適応ビームフォーミングでは、最小分散(MV:Minimum Variance)法が用いられる。MV法は、非特許文献1に記載されている。MV法では、マイクアレイから目的音の音源の方向(以下、目的音方向)を示すステアリングベクトル(SV:Steering Vector)を用いて、目的音方向にビームが形成される。また、MV法では、不要な音を抑圧するために、ヌルビーム(Null Beam)が形成される。これにより、SN比が向上される。不要な音の方向(以下、妨害音方向)が変化する環境では、適応ビームフォーミングは、固定ビームフォーミングよりも効果が大きい。
 MV法の性能は、SVの正しさに依存する。目的音方向のSVは、目的音方向からマイクアレイに入力された音のインパルス応答で表される。また、目的音方向を示すSV a(ω)は、次の式(1)で表される。ωは、周波数を示す。マイクアレイのマイクの数は、N(Nは、1以上の整数)個である。“a(ω),a(ω),…,a(ω)”は、目的音方向からマイクそれぞれに入力された音のインパルス応答である。Tは、転置である。
Figure JPOXMLDOC01-appb-M000001
 ところで、目的音方向が時間と共に変化するため、SVを更新する必要がある。しかし、時間の変化と共に、測定者がインパルス応答を測定することは、難しい。そのため、SVを更新することも難しい。そこで、SVの推定値を更新する技術が提案されている(特許文献1を参照)。
特開2010-176105号公報
浅野太「音のアレイ信号処理 音源の定位・追跡と分離」、コロナ社、2011年
 ところで、SVは、インパルス応答の測定によって、算出される。測定者がインパルス応答の測定作業を実行することは、測定者の負担を大きくする。
 本開示の目的は、測定者の負担を軽減することである。
 本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のマイクロフォンから出力された音信号を取得する音信号取得部と、前記音信号の周波数を解析する解析部と、前記複数のマイクロフォンから対象音源の方向である第1の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部と、前記周波数と前記第1の方向のステアリングベクトルを示す情報とに基づいて、前記第1の方向と異なる方向である第2の方向に形成させるフィルタを算出し、算出されたフィルタと前記第2の方向のステアリングベクトルとの関係を示す式を用いて、前記第2の方向のステアリングベクトルを算出する第1の算出部と、を有する。
 本開示によれば、測定者の負担を軽減できる。
実施の形態1の情報処理装置が有するハードウェア構成を示す図(その1)である。 実施の形態1の情報処理装置が有するハードウェア構成を示す図(その2)である。 実施の形態1の適応環境の具体例を示す図である。 実施の形態1の情報処理装置が有する機能ブロック図である。 実施の形態1の運転席方向が目的音方向である場合の例を示す図である。 実施の形態1の助手席方向が目的音方向である場合の例を示す図である。 実施の形態1の情報処理装置が実行する処理を示す図である。 実施の形態2の情報処理装置が有する機能ブロック図である。 実施の形態3の情報処理装置が有する機能ブロック図である。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1の情報処理装置が有するハードウェア構成を示す図(その1)である。情報処理装置100は、算出方法を実行する装置である。情報処理装置100は、マイクアレイ200と出力装置300と接続する。マイクアレイ200は、複数のマイクを含む。例えば、出力装置300は、スピーカである。
 情報処理装置100は、処理回路101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース部104を有する。処理回路101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース部104は、バスで接続されている。
 処理回路101は、情報処理装置100全体を制御する。例えば、処理回路101は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable GATE Array)、LSI(Large Scale Integrated circuit)などである。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。
 不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
 インタフェース部104は、マイクアレイ200及び出力装置300と接続する。
 情報処理装置100は、次のようなハードウェア構成でもよい。
 図2は、実施の形態1の情報処理装置が有するハードウェア構成を示す図(その2)である。情報処理装置100は、プロセッサ105、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース部104を有する。
 揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース部104については、図1で説明した。そのため、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース部104については、説明を省略する。
 プロセッサ105は、情報処理装置100全体を制御する。例えば、プロセッサ105は、CPU(Central Processing Unit)である。
 図3は、実施の形態1の適応環境の具体例を示す図である。図3は、運転席と助手席とに人が存在することを示している。また、図3は、マイクアレイ200を示している。
 例えば、運転席方向が目的音方向とされる。助手席方向が妨害音方向とされる。情報処理装置100は、運転席に存在する人の音声を集音の対象に設定できる。情報処理装置100は、助手席に存在する人の音声を集音の対象外に設定できる。
 以下、車内に1以上の人が存在する場合を用いて、説明する。
 次に、情報処理装置100の機能を説明する。
 図4は、実施の形態1の情報処理装置が有する機能ブロック図である。情報処理装置100は、記憶部110、情報取得部120、音信号取得部130、解析部140、解析部150、算出部160、及び算出部170を有する。算出部160は、ビームフォーミング処理部161及びSV2算出部162を有する。算出部170は、ビームフォーミング処理部171及びSV1算出部172を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現される。
 情報取得部120、音信号取得部130、解析部140、解析部150、算出部160、及び算出部170の一部又は全部は、処理回路101によって実現してもよい。
 情報取得部120、音信号取得部130、解析部140、解析部150、算出部160、及び算出部170の一部又は全部は、プロセッサ105が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ105が実行するプログラムは、算出プログラムとも言う。例えば、算出プログラムは、記録媒体に記録されている。
 ここで、図4は、マイク201,202を示している。マイク201,202は、マイクアレイ200の一部である。以下、2つのマイクを用いて、処理を説明する。しかし、マイクの数は、3つ以上でも構わない。
 記憶部110は、予め設定された、初期値であるSV1と初期値であるSV2を記憶する。例えば、初期値であるSV1は、第1の方向のステアリングベクトルを示す情報とも言う。言い換えれば、初期値であるSV1は、第1の方向のステアリングベクトルを示すパラメータとも言う。また、例えば、初期値であるSV2は、第2の方向のステアリングベクトルを示す情報とも言う。言い換えれば、初期値であるSV2は、第2の方向のステアリングベクトルを示すパラメータとも言う。
 情報取得部120は、初期値であるSV1と初期値であるSV2とを取得する。例えば、情報取得部120は、初期値であるSV1と初期値であるSV2とを記憶部110から取得する。ここで、初期値であるSV1と初期値であるSV2とは、外部装置に格納されてもよい。例えば、外部装置は、クラウドサーバである。初期値であるSV1と初期値であるSV2とが外部装置に格納されている場合、情報取得部120は、初期値であるSV1と初期値であるSV2とを外部装置から取得する。
 音信号取得部130は、マイク201,202から出力された音信号を取得する。解析部140,150は、音信号に基づいて、音信号の周波数を解析する。
 算出部160は、第1の算出部とも言う。算出部160の詳細な処理は、ビームフォーミング処理部161及びSV2算出部162で実現される。
 ビームフォーミング処理部161は、初期値であるSV1を用いて、適応ビームフォーミングを実行することで、SV1方向にビームを形成する。また、適応ビームフォーミングでは、MV法が用いられる。SV2算出部162は、音を抑制するためのフィルタとSVとに基づいてヌルビーム方向を算出する。
 算出部170は、第2の算出部とも言う。算出部170の詳細な処理は、ビームフォーミング処理部171及びSV1算出部172で実現される。
 ビームフォーミング処理部171は、初期値であるSV2を用いて、適応ビームフォーミングを実行することで、SV2方向にビームを形成する。また、適応ビームフォーミングでは、MV法が用いられる。SV1算出部172は、音を抑制するためのフィルタとSVとに基づいてヌルビーム方向を算出する。
 ここで、SV1方向を運転席方向とする。SV2方向を助手席方向とする。
 図5は、実施の形態1の運転席方向が目的音方向である場合の例を示す図である。ビームフォーミング処理部161は、適応ビームフォーミングを用いることで、運転席に存在する人の音声と助手席に存在する人の音声とを分離することができる。すなわち、ビームフォーミング処理部161は、音源分離を実現できる。
 矢印11が示す方向は、SV1方向である。また、矢印11が示す方向は、目的音方向である。矢印11が示す方向は、第1の方向とも言う。すなわち、第1の方向は、マイクアレイ200から対象音源(言い換えれば、目的音の音源)の方向である。
 矢印12が示す方向は、ヌルのビーム方向(以下、ヌルビーム方向)である。すなわち、矢印12が示す方向は、妨害音方向又は第2の方向とも言う。
 図6は、実施の形態1の助手席方向が目的音方向である場合の例を示す図である。ビームフォーミング処理部171は、適応ビームフォーミングを用いることで、運転席に存在する人の音声と助手席に存在する人の音声とを分離することができる。すなわち、ビームフォーミング処理部171は、音源分離を実現できる。
 矢印21が示す方向は、ヌルビーム方向である。すなわち、矢印21が示す方向は、妨害音方向である。
 矢印22が示す方向は、SV2方向である。また、矢印22が示す方向は、目的音方向である。
 ここで、SV1をベクトルa(ω)と表現する。例えば、ベクトルa(ω)は、式(2)で表現される。
Figure JPOXMLDOC01-appb-M000002
 ベクトルa(ω)は、式(1)で表されたSV a(ω)と同義である。
 また、SV2をベクトルb(ω)と表現する。例えば、ベクトルb(ω)は、式(3)で表現される。
Figure JPOXMLDOC01-appb-M000003
 次に、情報処理装置100が実行する処理を詳細に説明する。
 図7は、実施の形態1の情報処理装置が実行する処理を示す図である。
 ステップS11~S13は、ステップS21~S23と並行に実行されてもよい。まず、ステップS11~S13を説明する。
 (ステップS11)解析部140は、マイク201及びマイク202から出力された音信号の周波数を解析する。例えば、解析部140は、高速フーリエ変換を用いて、音信号の周波数を解析する。
 (ステップS12)ビームフォーミング処理部161は、SV1方向(すなわち、ベクトルa(ω))にビームを形成し、妨害音方向にヌルを形成するためのフィルタw(ω)を算出する。なお、目的音方向は、SV1方向である。当該妨害音方向は、SV2方向(すなわち、ベクトルb(ω))である。
 ここで、フィルタw(ω)は、第2の方向に形成させるフィルタである。言い換えれば、フィルタw(ω)は、第2の方向にヌルを形成させるためのフィルタである。また、w(ω)は、ベクトルで表記される。しかし、w(ω)がベクトルであることを示す矢印が、省略される場合がある。
 ベクトルa(ω)、フィルタw(ω)は、次の式(4)で表される。また、w(ω)は、フィルタw(ω)の共役転置行列である。
Figure JPOXMLDOC01-appb-M000004
 また、ベクトルb(ω)、フィルタw(ω)は、次の式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 ここで、ベクトルa(ω)(すなわち、初期値のSV1)を算出する方法を説明する。以下の説明では、点pに音源が存在するものとする。そのため、ベクトルa(ω)は、ベクトルa(ω)とする。なお、点pは、適当な点である。また、pは、平面上の一点を示す2次元の縦ベクトルで表現できる。以下の説明では、M個のマイクが用いられる。
 点pからm番目のマイクまでの距離をlm,pとする。音波が点pからm番目のマイクに到達するまでの時間tm,pは、式(6)で表される。cは、音速である。
Figure JPOXMLDOC01-appb-M000006
 点pに音源が存在する場合、1番目のマイクを基準として、点pから発生された音波がm番目のマイクに到達するまでの遅延時間dm,pは、式(7)で表される。
Figure JPOXMLDOC01-appb-M000007
 周波数ωにおける、点pを向くM次元のベクトルa(ω)は、式(8)で表される。なお、jは、虚数単位である。
Figure JPOXMLDOC01-appb-M000008
 車内空間では、運転席と助手席との位置は、固定されている。そのため、運転席とマイク201との間の距離、及び運転席とマイク202との間の距離を計測することは、可能である。例えば、運転席とマイク201との間の距離は、50cmである。運転席とマイク201との間の距離は、52cmである。また、マイクと運転席との間の角度及びマイクと助手席との間の角度を計測することは、可能である。例えば、マイク201と運転席との間の角度は、30°である。マイク201と助手席との間の角度は、150°である。このように、計測された値と式(8)とを用いて、ベクトルa(ω)が算出可能である。
 ビームフォーミング処理部161は、MV法を用いて、フィルタw(ω)を算出する。具体的には、ビームフォーミング処理部161は、式(9)を用いて、フィルタw(ω)を算出する。なお、周波数ωは、解析部140によって解析された周波数である。
Figure JPOXMLDOC01-appb-M000009
 R(ω)は、相互相関行列である。R(ω)は、式(10)を用いて表現される。なお、X(ω)は、m番目のマイクに入力された音の音信号の周波数である。Eは、平均を示す。
Figure JPOXMLDOC01-appb-M000010
 このように、ビームフォーミング処理部161は、解析部140が解析した音信号の周波数と、初期値のSV1とに基づいて、フィルタw(ω)を算出する。フィルタw(ω)が算出されることで、式(4)、式(5)の中で未知の変数は、ベクトルb(ω)のみとなる。
 (ステップS13)SV2算出部162は、式(4)、式(5)の連立方程式を解くことで、ベクトルb(ω)を算出できる。すなわち、SV2算出部162は、SV2を算出できる。SV2算出部162は、フィルタw(ω)が算出されているため、式(5)のみを用いて、SV2を算出してもよい。算出されたSV2は、第2の方向のステアリングベクトルと考えてもよい。なお、式(4)、式(5)には、SV2の精度を悪くする要素が含まれていない。そのため、算出されたSV2の精度は、高い。
 ここで、ベクトルb(ω)(すなわち、SV2)は、図6における目的音方向のSVである。よって、情報処理装置100は、目的音方向のSVを算出できる。
 次に、ステップS21~S23を説明する。
 (ステップS21)解析部150は、マイク201及びマイク202から出力された音信号の周波数を解析する。例えば、解析部150は、高速フーリエ変換を用いて、音信号の周波数を解析する。
 (ステップS22)ビームフォーミング処理部171は、SV2方向(すなわち、ベクトルb(ω))にビームを形成し、妨害音方向にヌルを形成するためのフィルタw(ω)を算出する。なお、目的音方向は、SV2方向である。当該妨害音方向は、SV1方向(すなわち、ベクトルa(ω))である。
 ここで、フィルタw(ω)は、第1の方向に形成させるフィルタである。言い換えれば、フィルタw(ω)は、第1の方向にヌルを形成させるためのフィルタである。また、w(ω)は、ベクトルで表記される。しかし、w(ω)がベクトルであることを示す矢印が、省略される場合がある。
 ベクトルb(ω)、フィルタw(ω)は、次の式(11)で表される。また、w(ω)は、フィルタw(ω)の共役転置行列である。
Figure JPOXMLDOC01-appb-M000011
 また、ベクトルa(ω)、フィルタw(ω)は、次の式(12)で表される。
Figure JPOXMLDOC01-appb-M000012
 ここで、ベクトルb(ω)(すなわち、初期値のSV2)を算出する方法は、ベクトルa(ω)を算出する方法と同様である。例えば、ベクトルb(ω)は、ベクトルb(ω)とする。
 点pを向くM次元のベクトルb(ω)は、式(13)で表される。
Figure JPOXMLDOC01-appb-M000013
 ビームフォーミング処理部171は、MV法を用いて、フィルタw(ω)を算出する。具体的には、ビームフォーミング処理部171は、式(14)を用いて、フィルタw(ω)を算出する。なお、周波数ωは、解析部150によって解析された周波数である。
Figure JPOXMLDOC01-appb-M000014
 このように、ビームフォーミング処理部171は、解析部150が解析した音信号の周波数と、初期値のSV2とに基づいて、フィルタw(ω)を算出する。フィルタw(ω)が算出されることで、式(11)、式(12)の中で未知の変数は、ベクトルa(ω)のみとなる。
 (ステップS23)SV1算出部172は、式(11)、式(12)の連立方程式を解くことで、ベクトルa(ω)を算出できる。すなわち、SV1算出部172は、SV1を算出できる。SV1算出部172は、フィルタw(ω)が算出されているため、式(12)のみを用いて、SV1を算出してもよい。算出されたSV1は、第1の方向のステアリングベクトルと考えてもよい。また、式(11)、式(12)には、SV1の精度を悪くする要素が含まれていない。そのため、算出されたSV1の精度は、高い。
 ここで、ベクトルa(ω)(すなわち、SV1)は、図5における目的音方向のSVである。よって、情報処理装置100は、目的音方向のSVを算出できる。
 上記では、初期値のSV1が式(8)を用いて算出できる場合を示した。初期値のSV1は、測定された値でもよい。初期値のSV2も、同様に、測定された値でもよい。
 実施の形態1によれば、情報処理装置100は、インパルス応答の測定値を用いずに、SVを算出する。そのため、測定者は、インパルス応答の測定作業を行わなくてよい。よって、情報処理装置100は、測定者の負担を軽減できる。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。実施の形態2の説明では、図1~7を参照する。
 図8は、実施の形態2の情報処理装置が有する機能ブロック図である。図4に示される構成と同じ図8の構成は、図4に示される符号と同じ符号を付している。
 情報処理装置100aは、情報取得部120a、算出部160a、及び算出部170aを有する。算出部160aは、ビームフォーミング処理部161a及びSV2算出部162aを有する。算出部170aは、ビームフォーミング処理部171a及びSV1算出部172aを有する。
 ビームフォーミング処理部161aは、ビームフォーミング処理部161の機能を有する。SV2算出部162aは、SV2算出部162の機能を有する。
 ビームフォーミング処理部171aは、ビームフォーミング処理部171の機能を有する。SV1算出部172aは、SV1算出部172の機能を有する。
 SV2算出部162aは、記憶部110に格納されているSV2を、算出したSV2に更新する。情報取得部120aは、更新されたSV2をビームフォーミング処理部171aに送信する。ビームフォーミング処理部171aは、更新されたSV2に基づいて、助手席方向にビームを形成する処理を実行する。これにより、情報処理装置100aは、助手席方向の音が強調された音信号を出力できる。
 また、音信号取得部130は、SV2が算出された後に、マイク201,202から出力された音信号を取得する。ビームフォーミング処理部171aは、SV2が算出された後に取得された音信号の周波数と、更新されたSV2を用いて、フィルタwを算出する。そして、SV1算出部172aは、式(12)を用いて、SV1を算出し、記憶部110に格納されているSV1を、算出したSV1に更新する。このように、情報処理装置100aは、SV1の更新を繰り返す。これにより、情報処理装置100aは、運転席に存在する人が発する音の方向が時間と共に変化しても、精度の高いSVを算出できる。
 SV1算出部172aは、記憶部110に格納されているSV1を、算出したSV1に更新する。情報取得部120aは、更新されたSV1をビームフォーミング処理部161aに送信する。ビームフォーミング処理部161aは、更新されたSV1に基づいて、運転席方向にビームを形成する処理を実行する。これにより、情報処理装置100aは、運転席方向の音が強調された音信号を出力できる。
 また、音信号取得部130は、SV1が算出された後に、マイク201,202から出力された音信号を取得する。ビームフォーミング処理部161aは、SV1が算出された後に取得された音信号の周波数と、更新されたSV1を用いて、フィルタwを算出する。そして、SV2算出部162aは、式(5)を用いて、SV2を算出し、記憶部110に格納されているSV2を、算出したSV2に更新する。このように、情報処理装置100aは、SV2の更新を繰り返す。これにより、情報処理装置100aは、助手席に存在する人が発する音の方向が時間と共に変化しても、精度の高いSVを算出できる。
実施の形態3.
 次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。実施の形態3の説明では、図1~7を参照する。
 図9は、実施の形態3の情報処理装置が有する機能ブロック図である。情報処理装置100bは、カメラ400と接続する。図4に示される構成と同じ図9の構成は、図4に示される符号と同じ符号を付している。
 情報処理装置100bは、発話判定部180を有する。発話判定部180は、SV1方向又はSV2方向で発話があったか否かを判定する。例えば、発話判定部180は、マイク201,202から出力された音信号と学習モデルとを用いて、発話を判定する。また、発話判定部180は、カメラ400がユーザを撮影することにより得られた画像に基づいて、発話を判定してもよい。例えば、発話判定部180は、複数の画像を解析し、人の口の動きから、発話を判定する。
 具体的には、発話判定部180は、SV1方向で発話があった場合、SV2方向で発話があった場合、SV1方向とSV2方向とで同時発話があった場合、及び発話がない場合のうちの、いずれであるかを判定する。なお、例えば、方向は、音信号の位相差に基づいて、特定される。
 SV1方向で発話があった場合、発話判定部180は、ビームフォーミング処理部171に動作指示を送信する。SV2方向で発話があった場合、発話判定部180は、ビームフォーミング処理部161に動作指示を送信する。SV1方向とSV2方向とで同時発話があった場合、又は発話がない場合、発話判定部180は、何もしない。このように、発話判定部180は、妨害音方向で発話があった場合、動作指示を送信する。
 動作指示を受信した場合、算出部160,170は、フィルタを算出する。ここで、フィルタの算出では、相互相関行列R(ω)が用いられる。相互相関行列R(ω)は、平均を示す。例えば、2回目のフィルタの算出で用いられる相互相関行列R(ω)は、今回の周波数成分を示す行列と前回の相互相関行列R(ω)との平均である。フィルタを算出する回数が増えることは、1つの相互相関行列R(ω)に収束する。1つの相互相関行列R(ω)に収束することは、形成されるヌルの精度を向上できる。よって、情報処理装置100bは、複数回、フィルタを算出することで、形成されるヌルの精度を向上できる。詳細に、処理を説明する。
 算出部160は、動作指示を受信した場合、次の処理を行う。すなわち、算出部160は、SV2方向で発話があった場合、次の処理を行う。算出部160は、マイク201,202から出力された音信号が取得される度に、取得された音信号の周波数と初期値であるSV1と相互相関行列とを用いて、フィルタwを算出する。当該相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタwを算出した際に用いられた相互相関行列との平均である。このように、算出部160は、複数回、フィルタwを算出する。また、算出部160は、動作指示を受信しない場合でも、上記処理を実行してもよい。
 算出部170は、動作指示を受信した場合、次の処理を行う。算出部170は、マイク201,202から出力された音信号が取得される度に、取得された音信号の周波数と初期値であるSV2と相互相関行列とを用いて、フィルタwを算出する。当該相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタwを算出した際に用いられた相互相関行列との平均である。このように、算出部170は、複数回、フィルタwを算出する。また、算出部170は、動作指示を受信しない場合でも、上記処理を実行してもよい。
 実施の形態1~3は、車内に設置されたマイクアレイ200が音を取得する場合を例示した。実施の形態1~3は、テレビ会議が行われている会議室にマイクアレイ200が設置されている場合、テレビがマイクアレイ200を備えている場合などに適用できる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 11,12,21,22…矢印、 100、100a、100b…情報処理装置、 101…処理回路、 102…揮発性記憶装置、 103…不揮発性記憶装置、 104…インタフェース部、 105…プロセッサ、 110…記憶部、 120、120a…情報取得部、 130…音信号取得部、 140,150…解析部、 160,160a,170,170a…算出部、 161,161a…ビームフォーミング処理部、 162、162a…SV2算出部、 171,171a…ビームフォーミング処理部、 172,172a…SV1算出部、 180…発話判定部、 200…マイクアレイ、 201,202…マイク、 300…出力装置、 400…カメラ。

Claims (12)

  1.  複数のマイクロフォンから出力された音信号を取得する音信号取得部と、
     前記音信号の周波数を解析する解析部と、
     前記複数のマイクロフォンから対象音源の方向である第1の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部と、
     前記周波数と前記第1の方向のステアリングベクトルを示す情報とに基づいて、前記第1の方向と異なる方向である第2の方向に形成させるフィルタを算出し、算出されたフィルタと前記第2の方向のステアリングベクトルとの関係を示す式を用いて、前記第2の方向のステアリングベクトルを算出する第1の算出部と、
     を有する情報処理装置。
  2.  第2の算出部をさらに有し、
     前記情報取得部は、前記第2の方向のステアリングベクトルを示す、予め設定された情報を取得し、
     前記第2の算出部は、前記周波数と前記第2の方向のステアリングベクトルを示す情報とに基づいて、前記第1の方向に形成させるフィルタを算出し、算出されたフィルタと前記第1の方向のステアリングベクトルとの関係を示す式を用いて、前記第1の方向のステアリングベクトルを算出する、
     請求項1に記載の情報処理装置。
  3.  前記第2の算出部は、ビームフォーミング処理部を有し、
     前記ビームフォーミング処理部は、算出された前記第2の方向のステアリングベクトルに基づいて、前記第2の方向にビームを形成する処理を実行する、
     請求項2に記載の情報処理装置。
  4.  前記第1の算出部は、ビームフォーミング処理部を有し、
     前記ビームフォーミング処理部は、算出された前記第1の方向のステアリングベクトルに基づいて、前記第1の方向にビームを形成する処理を実行する、
     請求項2に記載の情報処理装置。
  5.  前記音信号取得部は、前記第1の方向のステアリングベクトルが算出された後に、前記複数のマイクロフォンから出力された音信号を取得し、
     前記第1の算出部は、前記第1の方向のステアリングベクトルが算出された後に取得された音信号の周波数と、算出された前記第1の方向のステアリングベクトルとを用いて、前記第2の方向に形成させるフィルタを算出し、算出されたフィルタと前記第2の方向のステアリングベクトルとの関係を示す式を用いて、前記第2の方向のステアリングベクトルを算出する、
     請求項2から4のいずれか1項に記載の情報処理装置。
  6.  前記音信号取得部は、前記第2の方向のステアリングベクトルが算出された後に、前記複数のマイクロフォンから出力された音信号を取得し、
     前記第2の算出部は、前記第2の方向のステアリングベクトルが算出された後に取得された音信号の周波数と、算出された前記第2の方向のステアリングベクトルとを用いて、前記第1の方向に形成させるフィルタを算出し、算出されたフィルタと前記第1の方向のステアリングベクトルとの関係を示す式を用いて、前記第1の方向のステアリングベクトルを算出する、
     請求項2から4のいずれか1項に記載の情報処理装置。
  7.  前記第2の算出部は、前記複数のマイクロフォンから出力された音信号が取得される度に、取得された音信号の周波数と前記第2の方向のステアリングベクトルを示す情報と相互相関行列とを用いて、前記第1の方向に形成させるフィルタを算出し、
     前記相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタを算出した際に用いられた相互相関行列との平均である、
     請求項2に記載の情報処理装置。
  8.  ユーザを撮影することにより得られた画像又は前記複数のマイクロフォンから出力された音信号に基づいて、前記第1の方向又は前記第2の方向で発話があったか否かを判定する発話判定部をさらに有し、
     前記第2の算出部は、前記第1の方向で発話があった場合、前記第1の方向に形成させるフィルタを算出する、
     請求項7に記載の情報処理装置。
  9.  前記第1の算出部は、前記複数のマイクロフォンから出力された音信号が取得される度に、取得された音信号の周波数と前記第1の方向のステアリングベクトルを示す情報と相互相関行列とを用いて、前記第2の方向に形成させるフィルタを算出し、
     前記相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタを算出した際に用いられた相互相関行列との平均である、
     請求項1に記載の情報処理装置。
  10.  ユーザを撮影することにより得られた画像又は前記複数のマイクロフォンから出力された音信号に基づいて、前記第1の方向又は前記第2の方向で発話があったか否かを判定する発話判定部をさらに有し、
     前記第1の算出部は、前記第2の方向で発話があった場合、前記第2の方向に形成させるフィルタを算出する、
     請求項9に記載の情報処理装置。
  11.  情報処理装置が、
     複数のマイクロフォンから出力された音信号を取得し、
     前記音信号の周波数を解析し、
     前記複数のマイクロフォンから対象音源の方向である第1の方向のステアリングベクトルを示す、予め設定された情報を取得し、
     前記周波数と前記第1の方向のステアリングベクトルを示す情報とに基づいて、前記第1の方向と異なる方向である第2の方向に形成させるフィルタを算出し、
     算出されたフィルタと前記第2の方向のステアリングベクトルとの関係を示す式を用いて、前記第2の方向のステアリングベクトルを算出する、
     算出方法。
  12.  情報処理装置に、
     複数のマイクロフォンから出力された音信号を取得し、
     前記音信号の周波数を解析し、
     前記複数のマイクロフォンから対象音源の方向である第1の方向のステアリングベクトルを示す、予め設定された情報を取得し、
     前記周波数と前記第1の方向のステアリングベクトルを示す情報とに基づいて、前記第1の方向と異なる方向である第2の方向に形成させるフィルタを算出し、
     算出されたフィルタと前記第2の方向のステアリングベクトルとの関係を示す式を用いて、前記第2の方向のステアリングベクトルを算出する、
     処理を実行させる算出プログラム。
PCT/JP2019/049975 2019-12-20 2019-12-20 情報処理装置、算出方法、及び算出プログラム WO2021124537A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/049975 WO2021124537A1 (ja) 2019-12-20 2019-12-20 情報処理装置、算出方法、及び算出プログラム
JP2021562062A JP7004875B2 (ja) 2019-12-20 2019-12-20 情報処理装置、算出方法、及び算出プログラム
US17/830,931 US12015901B2 (en) 2019-12-20 2022-06-02 Information processing device, and calculation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/049975 WO2021124537A1 (ja) 2019-12-20 2019-12-20 情報処理装置、算出方法、及び算出プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/830,931 Continuation US12015901B2 (en) 2019-12-20 2022-06-02 Information processing device, and calculation method

Publications (1)

Publication Number Publication Date
WO2021124537A1 true WO2021124537A1 (ja) 2021-06-24

Family

ID=76477398

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/049975 WO2021124537A1 (ja) 2019-12-20 2019-12-20 情報処理装置、算出方法、及び算出プログラム

Country Status (3)

Country Link
US (1) US12015901B2 (ja)
JP (1) JP7004875B2 (ja)
WO (1) WO2021124537A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2013201525A (ja) * 2012-03-23 2013-10-03 Mitsubishi Electric Corp ビームフォーミング処理装置
WO2016167141A1 (ja) * 2015-04-16 2016-10-20 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2017009700A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音源分離装置、および音源分離方法
JP2018136509A (ja) * 2017-02-23 2018-08-30 沖電気工業株式会社 信号処理装置、プログラム及び方法
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
WO2019239667A1 (ja) * 2018-06-12 2019-12-19 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
JP5255467B2 (ja) 2009-02-02 2013-08-07 クラリオン株式会社 雑音抑制装置、雑音抑制方法、及び、プログラム
CN102404672B (zh) * 2011-10-27 2013-12-18 苏州上声电子有限公司 数字化扬声器阵列系统的通道均衡与波束控制方法和装置
JP6652519B2 (ja) 2017-02-28 2020-02-26 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
US11062727B2 (en) * 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
EP3807878B1 (en) * 2018-06-14 2023-12-13 Pindrop Security, Inc. Deep neural network based speech enhancement
WO2020037282A1 (en) * 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal encoder
CN109473123B (zh) * 2018-12-05 2022-05-31 百度在线网络技术(北京)有限公司 语音活动检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2013201525A (ja) * 2012-03-23 2013-10-03 Mitsubishi Electric Corp ビームフォーミング処理装置
WO2016167141A1 (ja) * 2015-04-16 2016-10-20 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2017009700A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音源分離装置、および音源分離方法
JP2018136509A (ja) * 2017-02-23 2018-08-30 沖電気工業株式会社 信号処理装置、プログラム及び方法
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
WO2019239667A1 (ja) * 2018-06-12 2019-12-19 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2021124537A1 (ja) 2021-06-24
US20220295180A1 (en) 2022-09-15
US12015901B2 (en) 2024-06-18
JP7004875B2 (ja) 2022-01-21

Similar Documents

Publication Publication Date Title
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP6644197B2 (ja) 雑音除去装置および雑音除去方法
US9525934B2 (en) Steering vector estimation for minimum variance distortionless response (MVDR) beamforming circuits, systems, and methods
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
US9042573B2 (en) Processing signals
WO2022121184A1 (zh) 声音事件检测与定位方法、装置、设备及可读存储介质
CN105981404B (zh) 使用麦克风阵列的混响声的提取
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
JPWO2017002525A1 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
CN113687305A (zh) 声源方位的定位方法、装置、设备及计算机可读存储介质
JP6182169B2 (ja) 収音装置、その方法及びプログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
JP5635024B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP2016163135A (ja) 収音装置、プログラム及び方法
JP7004875B2 (ja) 情報処理装置、算出方法、及び算出プログラム
CN116106826A (zh) 声源定位方法、相关装置和介质
US20220208206A1 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP2010206449A (ja) 発話向き推定装置、方法及びプログラム
JP5235722B2 (ja) 発話向き推定装置、方法及びプログラム
JP5235723B2 (ja) 発話向き推定装置、方法及びプログラム
JPWO2020183219A5 (ja)
JP6956929B2 (ja) 情報処理装置、制御方法、及び制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19956877

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021562062

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19956877

Country of ref document: EP

Kind code of ref document: A1