WO2021024475A1 - Psd最適化装置、psd最適化方法、プログラム - Google Patents
Psd最適化装置、psd最適化方法、プログラム Download PDFInfo
- Publication number
- WO2021024475A1 WO2021024475A1 PCT/JP2019/031450 JP2019031450W WO2021024475A1 WO 2021024475 A1 WO2021024475 A1 WO 2021024475A1 JP 2019031450 W JP2019031450 W JP 2019031450W WO 2021024475 A1 WO2021024475 A1 WO 2021024475A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- psd
- target sound
- sound
- variable
- arrival
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/25—Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
Definitions
- the present invention is an invention relating to a sound source enhancement technique for clearly extracting the sound of a sound source in a specific direction using a microphone array.
- Non-Patent Document 1 discloses a sound source enhancement method that realizes real-time target sound enhancement.
- This method is a low-computation sound source enhancement method that combines linear filtering by beam forming and non-linear filtering by a Wiener filter.
- a Wiener filter that emphasizes the target sound is constructed by estimating the power spectral density (PSD: Power Spectral Density) of the target sound, interference noise, and background noise using the emphasis signal of the sound source. Therefore, the performance of the sound source enhancement method described in Non-Patent Document 1 depends on the estimation accuracy of PSD.
- PSD Power Spectral Density
- the target sound is a sound emitted by a sound source that has directionality and is desired to be emphasized.
- Interference noise refers to sounds other than the target sound (hereinafter referred to as disturbing sounds) that are emitted by a sound source such as a direct wave or initial reflection whose arrival direction can be specified (for example, in a direction other than the target sound arrival direction).
- the background noise is the sound emitted by a sound source such as reverberation or device noise whose arrival direction cannot be specified, among the disturbing sounds.
- Non-Patent Document 1 As described above, in the method of Non-Patent Document 1, a beam former for suppressing interference noise is used. Therefore, the PSD estimation accuracy based on the interference noise suppression performance in the beam former may cause the quality of the target sound obtained by the sound source emphasis of Non-Patent Document 1 to deteriorate.
- an object of the present invention is to provide a sound enhancement technique capable of improving the sound enhancement performance in a configuration using a beam former for suppressing interference noise.
- u S is a variable representing the target sound PSD
- u IN is a variable representing the interference noise PSD
- u BN is a variable representing the background noise PSD
- Interference noise PSD input value ⁇ ⁇ IN ( ⁇ , ⁇ ) Background noise PSD input value ⁇ ⁇ BN ( ⁇ , ⁇ )
- optimization of cost function for variable u S , variable u IN , and variable u BN PSD updater that generates target sound PSD output value ⁇ S ( ⁇ , ⁇ ), interference noise PSD output value ⁇ IN ( ⁇ , ⁇ ), background noise PSD output value ⁇ BN ( ⁇ , ⁇ ) by solving the problem.
- the problem of optimizing the cost function is that, at least, the sound source enhancement characteristics of the beamformer differ depending on the degree of inclusion of the target sound with respect to the PSD of the signal beam-formed in the direction of arrival of the target sound.
- Convex cost term based on the constraint based on, the PSD of the signal beam-formed in the direction of arrival of the target sound, the convex cost term based on the difference in the sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound, and the PSD of the signal beam-formed in the direction of arrival of the target sound.
- the convex cost term based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction for the PSD of the signal beam-formed in the direction of arrival of the target sound. It is defined using one or the other.
- the present invention it is possible to improve the sound enhancement performance in a configuration using a beam former for suppressing interference noise.
- x y_z means that y z is a superscript for x
- x y_z means that y z is a subscript for x
- the PSD of the target sound, the PSD of the interference noise, and the PSD of the background noise estimated by the method of Non-Patent Document 1 are optimized so as to improve the sound source enhancement performance. .. Therefore, first, the method of Non-Patent Document 1 which is a conventional method will be described.
- FIG. 1 is a block diagram showing a configuration of a sound source enhancement device 900.
- FIG. 2 is a flowchart showing the operation of the sound source enhancement device 900.
- the sound enhancement device 900 includes a microphone array 910, a frequency domain conversion unit 920, a first beam former unit 930, a second beam former unit 940, a PSD generation unit 950, and a sound source enhancement unit 960.
- a time domain conversion unit 970 and a recording unit 990 are included.
- the recording unit 990 is a component unit that appropriately records information necessary for processing of the sound source enhancement device 900.
- the operation of the sound source enhancement device 900 will be described with reference to FIG.
- a discrete Fourier transform can be used for the conversion to the frequency domain.
- the frequency domain observation signal X m ( ⁇ , ⁇ ) is the target sound s ( ⁇ , ⁇ ) ⁇ C, K interference noises ⁇ k ( ⁇ , ⁇ ) ⁇ C (K is an integer of 1 or more), background.
- K is an integer of 1 or more
- ⁇ and ⁇ represent an angular frequency bin and a time frame number, respectively.
- h m S ( ⁇ ) ⁇ C is the transfer function between the sound source of the target sound and the microphone element m
- This model deals with the problem that the direction of arrival (DOA) of the target sound is known, but the information about noise such as the direction and number of interference noise and the noise level of background noise is unknown. be able to.
- DOA direction of arrival
- a linear filter of beamforming that is, a linear filter of beamforming constructed using the arrival time difference of the target sound arrival direction ⁇ S .
- the first emphasis signal Y ⁇ _S is calculated by the following formula.
- ⁇ H represents the complex conjugate transpose.
- X ( ⁇ , ⁇ ) [X 0 ( ⁇ , ⁇ ),..., X M-1 ( ⁇ , ⁇ )] T.
- the second beam former unit 940 calculates the second emphasis signal Y ⁇ _j ( ⁇ , ⁇ ) in the same manner as the first beam former unit 930. That is, the second beamformer unit 940 calculates the second emphasis signal Y ⁇ _j ( ⁇ , ⁇ ) by a beamforming linear filter constructed by using a predetermined arrival time difference in a direction ⁇ j other than the target sound arrival direction. To do.
- FIG. 3 is a block diagram showing the configuration of the PSD generation unit 950.
- FIG. 4 is a flowchart showing the operation of the PSD generation unit 950.
- the PSD generation unit 950 includes a first PSD estimation unit 951 and a second PSD estimation unit 952.
- the local PSD estimation is a method of estimating the target sound PSD and the interference noise PSD by utilizing the gain difference based on the spatial position of the target sound and the interference noise.
- T ⁇ R N is as follows. It can be represented approximately in the form of a linear transformation.
- D j, n ( ⁇ ) ⁇ R L ⁇ N ⁇ ⁇ is the sensitivity to the direction n in the angular frequency bin ⁇ and the beamformer j.
- the beam former 0 is a beam former having a target sound arrival direction ⁇ S
- the beam former j is a beam former having a direction ⁇ j other than the target sound arrival direction.
- ⁇ G ( ⁇ , ⁇ ) ⁇ R N can be obtained. That is, first, the first PSD estimation unit 951 obtains ⁇ G ( ⁇ , ⁇ ) ⁇ R N by solving this equation.
- ⁇ * and [ ⁇ ] + represent operators that make each element of the pseudo-inverse matrix and matrix non-negative, respectively.
- PSD ⁇ ⁇ S ( ⁇ , ⁇ ) and interference noise PSD ⁇ ⁇ IN ( ⁇ , ⁇ ) are estimated by the following equations. That is, next, the first PSD estimation unit 951 estimates the target sound PSD ⁇ ⁇ S ( ⁇ , ⁇ ) and the interference noise PSD ⁇ ⁇ IN ( ⁇ , ⁇ ) by the following equation.
- the second PSD estimation unit 952 receives the target sound PSD ⁇ ⁇ S ( ⁇ , ⁇ ) estimated in S951 and the interference noise PSD ⁇ ⁇ IN ( ⁇ , ⁇ ) as inputs, and the target sound PSD ⁇ ⁇ S ( ⁇ , ⁇ ).
- the estimation method will be described below. It can be assumed that the background noise is stationary.
- the second PSD estimation unit 952 uses PSD ⁇ ⁇ S ( ⁇ , ⁇ ), ⁇ ⁇ IN ( ⁇ , ⁇ ) smoothed by the recursive smoothing operation, and sets 2 as the minimum value in a certain interval ⁇ .
- PSD ⁇ BN_S ( ⁇ , ⁇ ), ⁇ BN_IN ( ⁇ , ⁇ ) is calculated.
- ⁇ S and ⁇ IN are oblivion coefficients, respectively.
- ⁇ S and ⁇ IN are determined in consideration of the temporal energy fluctuations of the target sound, interference noise, and background noise.
- the second PSD estimation unit 952 estimates the target sound PSD ⁇ S ( ⁇ , ⁇ ), the interference noise PSD ⁇ IN ( ⁇ , ⁇ ), and the background noise PSD ⁇ BN ( ⁇ , ⁇ ) by the following equations.
- the sound source emphasis unit 960 includes the first emphasis signal Y ⁇ _S ( ⁇ , ⁇ ) generated in S930, the target sound PSD ⁇ S ( ⁇ , ⁇ ) generated in S950, the interference noise PSD ⁇ IN ( ⁇ , ⁇ ), and the background. noise PSD ⁇ BN ( ⁇ , ⁇ ) as input and, first enhancement signal Y ⁇ _S ( ⁇ , ⁇ ) the objective sound PSD ⁇ S ( ⁇ , ⁇ ), interference noise PSD ⁇ IN ( ⁇ , ⁇ ), background noise PSD ⁇ BN ( Using ⁇ , ⁇ ), the frequency region objective sound signal Z ( ⁇ , ⁇ ) ⁇ C is generated and output.
- the sound source enhancement unit 960 uses a Wiener filter calculated from the target sound PSD ⁇ S ( ⁇ , ⁇ ), the interference noise PSD ⁇ IN ( ⁇ , ⁇ ), and the background noise PSD ⁇ BN ( ⁇ , ⁇ ).
- the frequency domain target sound signal Z ( ⁇ , ⁇ ) is calculated by the equation.
- the time domain conversion unit 970 receives the frequency domain target sound signal Z ( ⁇ , ⁇ ) generated in S960 as an input, and converts the frequency domain target sound signal Z ( ⁇ , ⁇ ) into the time domain to convert the frequency domain target sound signal Z ( ⁇ , ⁇ ) into a time domain. Generates and outputs the target sound frequency domain observation signal z (t) ⁇ R.
- the transformation into the time domain for example, the inverse transform of the discrete Fourier transform can be used.
- This optimization method has the following three features.
- (1) At least one PSD among the target sound PSD, the interference noise PSD, and the background noise PSD is optimized.
- (2) The optimization process of (1) is an optimization problem of a cost function expressed as the sum of one convex cost term or a plurality of convex cost terms for a variable representing PSD under the constraint on PSD. It is formulated.
- (3) The optimization problem of (2) is, for example, the following constraint (a) or convex cost term, (b) constraint, (c) constraint or convex cost term, (d) constraint or convex cost. Defined using terms. However, there may be multiple constraints or convex cost terms in (c) and multiple constraints or convex cost terms in (d). Also, it is not essential to include the constraint or convex cost term of (a), the constraint of (b), and the constraint or convex cost term of (c).
- the structure of the sound source refers to the frequency structure, time structure, and spatial structure (interchannel structure) of the target sound, interference noise, and background noise.
- the constraints related to PSD are expressed by linear equations or inequalities, and the cost function is expressed as a function that combines one or more convex cost terms (cost terms that are closed-true convex functions) related to variables representing PSD.
- the optimization problem is a linearly constrained convex optimization problem. Then, an optimized PSD is obtained as a solution to this optimization problem.
- This linearly constrained convex optimization problem uses one or more convex cost terms and zero or more constraints. Increasing the convex cost term or constraint complicates the optimization problem, but by using Bregman Monotone Operator Splitting (B-MOS), which will be described later, it is possible to enhance the sound source in real time. It can be solved with a low amount of calculation.
- B-MOS Bregman Monotone Operator Splitting
- the target sound PSD ⁇ S ( ⁇ , ⁇ ) estimated by the second PSD estimation unit 952, the interference noise PSD ⁇ IN ( ⁇ , ⁇ ), and the background noise PSD ⁇ BN ( ⁇ , ⁇ ) are respectively ⁇ ⁇ S ( ⁇ , ⁇ ). , ⁇ ⁇ IN ( ⁇ , ⁇ ), ⁇ ⁇ BN ( ⁇ , ⁇ ).
- constraints and convex cost terms (1: Specific examples of constraints and convex cost terms)
- the constraint or convex cost term in (c) can be classified as follows.
- (c-1) Constraint or convex cost term based on sound source frequency structure
- (c-2) Constraint or convex cost term based on the time structure of the sound source
- (c-3) Constraint or convex cost term based on the spatial structure (interchannel structure) of the sound source
- the constraint or convex cost term in (d) is classified as follows, for example.
- (d-1) Constraint or convex cost term based on the difference in the sound enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound for the PSD of the signal beamformed in the direction of arrival of the target sound.
- (d-2) Constraints or convex cost terms based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction for the PSD of the beamformed signal in the direction of arrival of the target sound
- u S, ⁇ , u IN, ⁇ , u BN, ⁇ be the variables representing the target sound PSD, the interference noise PSD, and the background noise PSD in the time frame ⁇ , respectively.
- the target sound PSD input value, interference noise PSD input value, and background noise PSD input value in the time frame ⁇ are set to ⁇ ⁇ S, ⁇ , ⁇ ⁇ IN, ⁇ , ⁇ ⁇ BN, ⁇ , respectively.
- u ⁇ [u S, ⁇ T , u IN, ⁇ T , u BN, ⁇ T ] T
- ⁇ ⁇ ⁇ [ ⁇ ⁇ S, ⁇ T , ⁇ ⁇ IN, ⁇ T , ⁇ ⁇ BN, ⁇ T ] T.
- the first enhancement signal in the time frame tau (i.e., the target sound signal to beamforming arrival direction theta S) against PSD ⁇ Y_ ⁇ _S of Y ⁇ _S ( ⁇ , ⁇ ), defines a c tau ⁇ R Omega by: ..
- c ⁇ is a PSD estimate of the emphasis signal of the sound source in the target sound arrival direction ⁇ S in the time frame ⁇ .
- w i ⁇ R + ( i ⁇ ⁇ S, IN, BN ⁇ ) is a coefficient (weighting coefficient) for adjusting the weight of the convex cost term.
- R + represents a set of positive real numbers.
- convex cost terms may be used in combination.
- a convex cost term such as the following equation can be used.
- PSD is non-negative. Therefore, it is possible to give constraints by the inequality u S ⁇ 0, u IN ⁇ 0, u BN ⁇ 0, that is, u ⁇ 0.
- the target sound PSD input value ⁇ ⁇ S includes interference noise PSD and background noise PSD that are not completely separated as small values.
- the target sound PSD can assume a wave tuning structure, so that it is sparse in the frequency direction, has a harmonic structure in the frequency direction, and has a co-occurrence relationship in the frequency band adjacent to the harmonic.
- Prior knowledge such as being can be used. Therefore, it is expected that the target sound PSD can be separated from the noise PSD (that is, the interference noise PSD and the background noise PSD) by using the constraints and convex cost terms based on these prior knowledge. Therefore, the convex cost term corresponding to the above assumption will be expressed using the L 1 norm.
- the sparse objective sound PSD is estimated in the weighted region using ⁇ ⁇ R ⁇ ⁇ ⁇ so as not to remove the important component in hearing though it is a small value.
- the square error of the target sound PSD input value ⁇ ⁇ S converted by ⁇ is added to the cost term.
- ⁇ and ⁇ ( ⁇ R + ) are weighting coefficients.
- ⁇ ( ⁇ R ⁇ ⁇ ⁇ ) is a predetermined sparse matrix.
- ⁇ ⁇ R ⁇ ⁇ ⁇ are the following ( ⁇ ) and ( ⁇ ), and ( ⁇ ) and ( ⁇ ) may be combined.
- Distortion is expected to be suppressed by assuming that the PSD value changes smoothly in the time frames before and after.
- the convex cost term corresponding to this assumption can be expressed as, for example, a term using a square error as in the following equation.
- ⁇ ⁇ BN and ⁇ -1 are background noise PSD estimates in the time frame ⁇ -1. Also, ⁇ BN ( ⁇ R + ) is a weighting factor.
- the convex cost term By minimizing the convex cost term, it is possible to estimate the background noise PSD that is smooth in the time direction. For example, when the target sound and the interference noise are singing voices and instrument sounds, the target sound and the interference noise are also smooth in the time direction. Therefore, the target sound and the interference noise are also described in the above background noise formula.
- the convex cost term can be used (see equation below).
- ⁇ ⁇ S, ⁇ -1 , ⁇ ⁇ IN, and ⁇ -1 are the target sound PSD estimated value in the time frame ⁇ -1 and the interference noise PSD estimated value in the time frame ⁇ -1, respectively.
- ⁇ S and ⁇ IN ( ⁇ R + ) are weighting coefficients.
- the constraints corresponding to this assumption can be expressed, for example, by the following linear constraints.
- the beam former has a high sound source enhancement performance so that the target sound is predominantly included. That is, in the time frame in which the target sound is dominant, the target sound PSD is the PSD estimated value c of the emphasis signal of the sound source in the target sound arrival direction ⁇ S by the beamformer (also referred to as the PSD of the beamformed signal in the target sound arrival direction). Can be assumed to be close to.
- the convex cost term that brings the value of the variable u S closer to c is effective in improving the PSD estimation accuracy
- the convex cost term corresponding to this assumption is, for example, the following equation. It can be expressed by such a quadratic function.
- ⁇ ( ⁇ R + ) is the weighting factor.
- ⁇ may be set so that the value becomes larger as the target sound is dominant.
- the target sound PSD ⁇ ⁇ S is noise PSD (interference noise PSD ⁇ ⁇ IN or background noise PSD ⁇ . It is conceivable to set a larger value as ⁇ as it is larger than ⁇ BN or the combination of interference noise PSD ⁇ ⁇ IN and background noise PSD ⁇ ⁇ BN ).
- the target sound PSD ⁇ ⁇ S is a PSD estimated value obtained by the beam former based on the signal emphasizing the sound source in the target sound arrival direction ⁇ S. Therefore, the target sound PSD ⁇ ⁇ S may be used instead of the PSD estimated value c of the emphasis signal of the sound source in the target sound arrival direction ⁇ S.
- the convex cost term corresponding to the equation (1) becomes, for example, the following equation.
- the beamformer has the property that the directivity becomes dull in the low frequency band (for example, 500 Hz or less), and in the high frequency band (for example, 4 kHz or more), the focal point is formed in a direction other than the direction of the target sound by spatial aliasing. .. That is, in the low frequency band and the high frequency band, the beam former has a worse performance of suppressing the non-arrival direction sound of the beam former than the medium frequency band which is a band other than the low frequency band and the high frequency band.
- a convex cost term like the following equation using Mid can be considered.
- ⁇ Mid ( ⁇ R + ) is a weighting factor.
- ⁇ L and ⁇ H satisfy 0 ⁇ L ⁇ H ⁇ -1.
- the band from the frequency bin numbers ⁇ L to ⁇ H corresponds to the middle frequency band.
- the target sound PSD ⁇ ⁇ S may be used instead of the PSD estimated value c of the emphasis signal of the sound source in the target sound arrival direction ⁇ S.
- the variable u S-Mid related to the medium frequency band defined for the variable u S representing the target sound PSD and the PSD ⁇ ⁇ S related to the medium frequency band defined for the target sound PSD ⁇ ⁇ S.
- a convex cost term like the following equation using -Mid can be considered.
- ⁇ 'Mid ( ⁇ R +) is a weighting factor
- the beam former has high interference noise suppression performance in the middle frequency band.
- a sound source with a vowel-like wave tuning structure in voice has a correlation between the medium frequency band tuning structure and the low frequency band tuning structure, and the medium frequency band tuning structure and the high frequency band tuning structure. Correlation with is high.
- the PSD estimated value c SBR in which the low frequency band is replaced by duplication of the medium frequency band with respect to the PSD estimated value c of the emphasis signal of the sound source in the target sound arrival direction ⁇ S is given by the following equation.
- ⁇ tilt ( ⁇ R + ) is a coefficient adjusted so that the error between PSD and c Mid in the low frequency band before replacement is minimized.
- ⁇ tilt ( ⁇ R + ) is a coefficient for preventing the magnitude of the PSD estimate c SBR after replacement from being significantly different from the PSD before replacement.
- the convex cost term is, for example,
- ⁇ SBR-c ( ⁇ R + ) is a weighting factor
- the target sound PSD ⁇ ⁇ S may be used instead of the PSD estimated value c of the emphasis signal of the sound source in the target sound arrival direction ⁇ S.
- the PSD estimated value ⁇ ⁇ S-SBR in which the low frequency band is replaced by duplication of the medium frequency band is given by the following equation.
- ⁇ tilt ( ⁇ R + ) is a coefficient adjusted so that the error between PSD and ⁇ ⁇ S -Mid in the low frequency band before replacement is minimized.
- the convex cost term is, for example,
- ⁇ SBR- ⁇ ⁇ ( ⁇ R + ) is a weighting coefficient
- the convex cost terms described in (1-7) to (1-9) are examples of constraints or convex cost terms related to PSD based on the characteristics of the beamformer. Therefore, the optimization problem is the optimization problem of the cost function for the variable u S , the variable u IN , and the variable u BN , and at least, (1) Constraints on the PSD of the beamformed signal in the direction of arrival of the target sound, based on the difference in the sound enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound. (2) Convex cost term for PSD of a signal beamformed in the direction of arrival of the target sound, based on the difference in the sound enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound.
- Constraints on the PSD of the beamformed signal in the direction of arrival of the target sound based on the difference in the sound enhancement characteristics of the beamformer in the frequency direction.
- the PSD of the beamformed signal in the direction of arrival of the target sound is defined by using any one of the convex cost terms based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction.
- the optimization problem is a constraint or convex cost term based on the assumption that the conventional PSD estimation (that is, the output of the PSD estimation unit 950) can be estimated to some extent, the non-negative constraint of PSD, and the structure of the sound source.
- it may be defined by using a constraint based on or a convex cost term together.
- the constraint (2) and the convex cost term may be further based on the sound tuning structure.
- ⁇ and ⁇ ( ⁇ R + ) are weighting coefficients. Further, ⁇ is defined by the following equation.
- ⁇ ( ⁇ R ⁇ ⁇ ⁇ ) is the frequency weighting matrix ⁇ w
- I ( ⁇ R ⁇ ⁇ ⁇ ) is the unit matrix
- ⁇ Mid w S 1/2 for ⁇ Mid used in the definition of the convex cost term in (d-2).
- the cost function F 1 + F 2 of this optimization problem uses the auxiliary variable v of the latent variable u in addition to the latent variable u.
- F 1 * and F 2 * are convex conjugate functions of F 1 and F 2 and are expressed by the following equations.
- I (r? 0) (r) is an indicator function that guarantees the non-negativeness of r.
- the cost function of the dual problem is expressed as the sum of two closed-convex functions G 1 and G 2 .
- Reference Non-Patent Document 1 K. Niwa and W. B. Kleijn, “Bregman monotone operator splitting”, https://arxiv.org/abs/1807.04871, 2018.
- a Bregman-Peaceman-Rachfold (BPR) type optimization solver uses a recursive update equation obtained from a fixed point condition such that 0 ⁇ ⁇ G 1 ( ⁇ ) + ⁇ G 2 ( ⁇ ).
- ⁇ -1 represents the inverse mapping.
- R i and I are D-resolvent operator and identity operator, respectively, and D-resolvent operator R i is given by the following equation.
- ⁇ D p , ⁇ D q , and ⁇ D r are obtained by the following equations, respectively.
- Bregman divergence is used in the regularization term of the proximity operator in the update of the principal variable u in the algorithm of FIG. 3 (see the following equation).
- T is a constant representing the number of iterations, and it is necessary to set it to a small value when processing in real time.
- the cost function F 1 is a convex function.
- the optimization problem is formulated without using the auxiliary variable of u, and it can be solved relatively easily.
- FIG. 6 is a block diagram showing the configuration of the sound source enhancement device 100.
- FIG. 7 is a flowchart showing the operation of the sound source enhancement device 100.
- the sound source enhancement device 100 includes a microphone array 910, a frequency domain conversion unit 920, a first beam former unit 930, a second beam former unit 940, a PSD generation unit 950, and a PSD update unit 150.
- a sound enhancement unit 960, a time domain conversion unit 970, and a recording unit 990 are included.
- the sound enhancement device 100 is different from the sound enhancement device 900 only in that it further includes the PSD update unit 150.
- the operation of the PSD generation unit 950 in S950 uses FIGS. 3 and 4 in ⁇ Technical Background>. It is the same as the one explained in.
- the target sound PSD ⁇ ⁇ S ( ⁇ , ⁇ ), the interference noise PSD ⁇ ⁇ IN ( ⁇ , ⁇ ), and the background noise PSD ⁇ ⁇ BN ( ⁇ , ⁇ ) are the target sound PSD input values ⁇ ⁇ S ( ⁇ ). , ⁇ ), interference noise PSD input value ⁇ ⁇ IN ( ⁇ , ⁇ ), background noise PSD input value ⁇ ⁇ BN ( ⁇ , ⁇ ). Further, a variable representing the background noise PSD variable representing the target sound PSD to u S, variable representing the interference noise PSD to u IN, the u BN.
- the PSD update unit 150 uses the target sound PSD input value ⁇ ⁇ S ( ⁇ , ⁇ ), interference noise PSD input value ⁇ ⁇ IN ( ⁇ , ⁇ ), and background noise PSD input value ⁇ ⁇ BN (generated in S950).
- the target sound PSD output value ⁇ S ( ⁇ , ⁇ ), interference noise PSD output value ⁇ IN ( ⁇ , ⁇ ), background noise PSD output value ⁇ BN ( ⁇ , ⁇ ) is generated and output. That is, the PSD update unit 150 is a component unit that solves the optimization problem described in ⁇ Technical Background>.
- This optimization problem is a cost function optimization problem for the variables u S , u IN , and u BN , at least (1) Constraints on the PSD of the beamformed signal in the direction of arrival of the target sound, based on the difference in the sound enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound. (2) Convex cost term for PSD of a signal beamformed in the direction of arrival of the target sound, based on the difference in the sound enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound. (3) Constraints on the PSD of the beamformed signal in the direction of arrival of the target sound, based on the difference in the sound enhancement characteristics of the beamformer in the frequency direction. (4) The PSD of the beamformed signal in the direction of arrival of the target sound is defined by using any one of the convex cost terms based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction.
- convex cost term based on the difference in the sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound in (2), the more dominant the target sound is, the more the value of the variable u S is the arrival of the target sound by the beamformer.
- the target sound PSD input value ⁇ ⁇ S ( ⁇ , ⁇ ) obtained based on the emphasis of the sound source in the direction of arrival of the target sound by the beamformer.
- a convex cost term derived by assumption can be used. Specifically, it is a convex cost term defined by Eq. (1) and Eq. (1)'.
- the target sound arrival direction by the beam former is the target sound arrival direction ⁇ S.
- the value of the variable u S in the medium frequency band is the emphasis signal of the sound source in the direction of arrival of the target sound by the beamformer. It is derived by assuming that it is close to the PSD estimated value c of, or the target sound PSD input value ⁇ ⁇ S ( ⁇ , ⁇ ) obtained based on the emphasis of the sound source in the direction of arrival of the target sound by the beamformer. It is a convex cost term. Specifically, it is a convex cost term defined by Eq. (2) and Eq. (2)'.
- the value of the variable u S is the PSD estimation value c of the emphasis signal of the sound source in the direction of arrival of the target sound by the beamformer.
- the target sound PSD input value obtained by replacing at least one of the low frequency band and the high frequency band with the PSD estimated value in the middle frequency band, or based on the emphasis of the sound source in the direction of arrival of the target sound by the beamformer ⁇
- a convex cost term derived by assuming that ⁇ S ( ⁇ , ⁇ ) is close to the one in which at least one of the low frequency band and the high frequency band is replaced with the target sound PSD input value in the middle frequency band. is there.
- it is a convex cost term defined by Eq. (3) and Eq. (3)'.
- the linear constraint on the variables u and v is the constraint based on the difference in the sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound for the PSD of the signal beamformed in the direction of arrival of the target sound, or the direction of arrival of the target sound.
- the PSD of the beamformed signal will include constraints based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction, or the cost function F 1 (u) + F 2 (v) will be in the direction of arrival of the target sound.
- Convex cost term based on the difference in sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound for the PSD of the beamformed signal, or the beam in the frequency direction for the PSD of the signal formed in the direction of arrival of the target sound. It includes a convex cost term based on the difference in the sound source emphasis characteristics of the former.
- the above problem may be formulated as a simplified problem.
- the linear constraint on the variable u is the constraint based on the difference in the sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound for the PSD of the signal beamformed in the direction of arrival of the target sound, or the beam in the direction of arrival of the target sound.
- the PSD of the formed signal may include constraints based on the difference in the sound source enhancement characteristics of the beamformer in the frequency direction, or the cost function F 1 (u) may be the PSD of the beamformed signal in the direction of arrival of the target sound.
- the convex cost term based on the difference in the sound source enhancement characteristics of the beamformer depending on the degree of inclusion of the target sound, or the difference in the sound source enhancement characteristics of the beamformer in the frequency direction for the PSD of the beamformed signal in the direction of arrival of the target sound. It will include the convex cost term based on.
- F 1 (u) and F 2 (v) are given by the following equations, respectively.
- ⁇ , ⁇ ( ⁇ R + ) is the weighting factor, 0 ⁇ L ⁇ H ⁇ -1)
- FIG. 8 is a block diagram showing the configuration of the PSD update unit 150.
- FIG. 9 is a flowchart showing the operation of the PSD update unit 150.
- the PSD update unit 150 includes an initialization unit 151, a first variable calculation unit 1521, a first dual variable calculation unit 1522, a second dual variable calculation unit 1523, and a third dual variable calculation unit 1524.
- the second variable calculation unit 1525, the fourth dual variable calculation unit 1526, the fifth dual variable calculation unit 1527, the counter update unit 153, and the end condition determination unit 154 are included.
- the operation of the PSD update unit 150 will be described with reference to FIG.
- the functions D p ⁇ , D q ⁇ , D r ⁇ and the dual variables ⁇ p, ⁇ q, ⁇ r defined by the following equations are used for the dual variables p, q, r.
- the first variable calculation unit 1521 calculates u t + 1 , which is the t + 1th update result of the variable u, by the following equation.
- the first dual variable calculation unit calculates ⁇ p t + 1/2, which is the result of the t + 1th intermediate update of the dual variable ⁇ p, by the following equation.
- the second dual variable calculation unit calculates ⁇ q t + 1 , which is the t + 1th update result of the dual variable ⁇ q, by the following equation.
- the third dual variable calculation unit calculates ⁇ r t + 1/2, which is the result of the t + 1th intermediate update of the dual variable ⁇ r, by the following equation.
- the second variable calculation unit calculates v t + 1 , which is the t + 1th update result of the auxiliary variable v, by the following equation.
- the fourth dual variable calculation unit calculates ⁇ p t + 1 , which is the t + 1th update result of the dual variable ⁇ p, by the following equation.
- the counter update unit 125 increments the counter t by 1. Specifically, t ⁇ t + 1.
- the end condition determination unit 154 reaches the case where the counter t reaches a predetermined number of updates T (T is an integer of 1 or more and is a value set in consideration of real-time performance) (that is, t>.
- T is an integer of 1 or more and is a value set in consideration of real-time performance
- the value u T of the variable u at that time is output and the process ends.
- the process returns to S1521. That is, the PSD update unit 150 repeats the processes of S1521 to S154.
- the sound source enhancement unit 960 has the first emphasis signal Y ⁇ _S ( ⁇ , ⁇ ) generated in S930, the target sound PSD output value ⁇ S ( ⁇ , ⁇ ) generated in S150, and the interference noise PSD output value ⁇ IN ( With ⁇ , ⁇ ) and background noise PSD output value ⁇ BN ( ⁇ , ⁇ ) as inputs, the first emphasis signal Y ⁇ _S ( ⁇ , ⁇ ), target sound PSD output value ⁇ S ( ⁇ , ⁇ ), interference noise PSD Using the output value ⁇ IN ( ⁇ , ⁇ ) and the background noise PSD output value ⁇ BN ( ⁇ , ⁇ ), the frequency region target sound signal Z ( ⁇ , ⁇ ) ⁇ C is generated and output.
- the time domain conversion unit 970 receives the frequency domain target sound signal Z ( ⁇ , ⁇ ) generated in S960 as an input, and converts the frequency domain target sound signal Z ( ⁇ , ⁇ ) into the time domain to convert the frequency domain target sound signal Z ( ⁇ , ⁇ ) into a time domain. Generates and outputs the target sound frequency domain observation signal z (t) ⁇ R.
- the PSD update unit 150 can also be configured as a single device (hereinafter referred to as a PSD optimization device 200).
- FIG. 10 is a block diagram showing the configuration of the PSD optimization device 200. As shown in FIG. 10, the PSD optimization device 200 includes a PSD update unit 150 and a recording unit 990.
- the invention of the present embodiment by considering the characteristics of the beam former, it is possible to efficiently improve the sound enhancement performance in the configuration using the beam former for suppressing the interference noise.
- FIG. 11 is a diagram showing an example of a functional configuration of a computer that realizes each of the above-mentioned devices.
- the processing in each of the above-mentioned devices can be carried out by causing the recording unit 2020 to read a program for making the computer function as each of the above-mentioned devices, and operating the control unit 2010, the input unit 2030, the output unit 2040, and the like.
- the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
- Communication unit CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these , CPU, RAM, ROM, has a connecting bus so that data can be exchanged between external storage devices.
- a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
- a general-purpose computer or the like is a physical entity equipped with such hardware resources.
- the external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
- each program stored in the external storage device (or ROM, etc.) and the data necessary for processing each program are read into the memory as needed, and are appropriately interpreted, executed, and processed by the CPU. ..
- the CPU realizes a predetermined function (each configuration requirement represented by the above, ... Department, ... means, etc.).
- the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually depending on the processing capacity of the device that executes the processes or if necessary. ..
- the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by a computer
- the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on the computer, the processing function in the hardware entity is realized on the computer.
- the program that describes this processing content can be recorded on a computer-readable recording medium.
- the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
- a hard disk device, a flexible disk, a magnetic tape, or the like as a magnetic recording device is used as an optical disk
- a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), or a CD-ROM (Compact Disc Read Only) is used as an optical disk.
- Memory CD-R (Recordable) / RW (ReWritable), etc.
- MO Magnetto-Optical disc
- EP-ROM Electroically Erasable and Programmable-Read Only Memory
- semiconductor memory can be used.
- this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded.
- the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
- the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
- the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることができる音源強調技術を提供する。目的音PSD入力値、干渉雑音PSD入力値、背景雑音PSD入力値を入力とし、目的音PSDを表す変数、干渉雑音PSDを表す変数、背景雑音PSDを表す変数に関するコスト関数の最適化問題を解くことにより、目的音PSD出力値、干渉雑音PSD出力値、背景雑音PSD出力値を生成するPSD更新部を含むPSD最適化装置であって、最適化問題は、少なくとも、目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項のいずれか1つを用いて定義される。
Description
本発明は、マイクロホンアレイを用いて特定方向の音源の音を明瞭に抽出する音源強調技術に関する発明である。
非特許文献1には、リアルタイムでの目的音強調を実現する音源強調手法が開示されている。この手法は、ビームフォーミングによる線形フィルタリングとウィーナーフィルタによる非線形性フィルタリングを併用した低演算量の音源強調手法であり、この手法では、ビームフォーマによる目的音到来方向の音源の強調信号とそれ以外の方向の音源の強調信号とを用いて、目的音、干渉雑音、背景雑音のパワースペクトル密度(PSD: Power Spectral Density)を推定することで、目的音を強調するウィーナーフィルタを構築する。したがって、非特許文献1に記載の音源強調手法の性能は、PSDの推定精度に依存することになる。
ここで、目的音とは、方向性を持つ、強調したい音源が発する音のことである。また、干渉雑音とは、目的音以外の音(以下、妨害音という)のうち、直接波や初期反射のような到来方向が特定できる音源が発する音(例えば、目的音到来方向以外の方向にいる話者の音声)のことであり、背景雑音とは、妨害音のうち、残響やデバイスのノイズなど到来方向が特定できない音源が発する音のことである。
K. Niwa, Y. Hioka, and K. Kobayashi, "Post-filter design for speech enhancement in various noisy environments", 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), IEEE, 2014.
先述の通り、非特許文献1の手法では、干渉雑音を抑圧するためのビームフォーマを用いる。そのため、ビームフォーマにおける干渉雑音の抑圧性能に基づくPSD推定精度が原因となり、非特許文献1の音源強調により得られた目的音の品質が劣化してしまうことがある。
そこで本発明では、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることができる音源強調技術を提供することを目的とする。
本発明の一態様は、uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とし、目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成するPSD更新部を含むPSD最適化装置であって、前記コスト関数の最適化問題は、少なくとも、目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項のいずれか1つを用いて定義される。
本発明によれば、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
各実施形態の説明に先立って、この明細書における表記方法について説明する。
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<技術的背景>
本発明の実施形態は、非特許文献1の手法により推定した目的音のPSD、干渉雑音のPSD、背景雑音のPSDに対して、音源強調性能が向上するように最適化処理を行うものである。そこで、まず、従来手法である非特許文献1の手法について説明する。
本発明の実施形態は、非特許文献1の手法により推定した目的音のPSD、干渉雑音のPSD、背景雑音のPSDに対して、音源強調性能が向上するように最適化処理を行うものである。そこで、まず、従来手法である非特許文献1の手法について説明する。
《従来手法》
以下、図1~図2を参照して音源強調装置900について説明する。音源強調装置900は、ビームフォーミングとPSD推定とに基づく音源強調を実行する。図1は、音源強調装置900の構成を示すブロック図である。図2は、音源強調装置900の動作を示すフローチャートである。図1に示すように音源強調装置900は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、音源強調部960と、時間領域変換部970と、記録部990を含む。記録部990は、音源強調装置900の処理に必要な情報を適宜記録する構成部である。
以下、図1~図2を参照して音源強調装置900について説明する。音源強調装置900は、ビームフォーミングとPSD推定とに基づく音源強調を実行する。図1は、音源強調装置900の構成を示すブロック図である。図2は、音源強調装置900の動作を示すフローチャートである。図1に示すように音源強調装置900は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、音源強調部960と、時間領域変換部970と、記録部990を含む。記録部990は、音源強調装置900の処理に必要な情報を適宜記録する構成部である。
図2に従い音源強調装置900の動作について説明する。
S910において、M個(Mは2以上の整数)のマイクロホン素子によって構成されるマイクロホンアレイ910は、マイクロホン素子mで収音された時間領域観測信号xm(t)(m=0, 1, …, M-1)を生成し、出力する。したがって、mはどのマイクロホン素子で観測した信号であるかを示す番号となる。
S920において、周波数領域変換部920は、S910で生成した時間領域観測信号xm(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号xm(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号Xm(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。周波数領域への変換には、例えば、離散フーリエ変換を用いることができる。
以下、周波数領域観測信号Xm(ω, τ)を、目的音s(ω, τ)∈C、K個(Kは1以上の整数)の干渉雑音νk(ω, τ)∈C、背景雑音εm(ω, τ)∈Cを用いた次式によりモデル化する。
ここで、ω, τは、それぞれ角周波数ビン、時間フレーム番号を表す。また、hm
S(ω)∈Cは目的音の音源とマイクロホン素子mの間の伝達関数、hk,m
IN(ω)∈C(k=1, …, K)は干渉雑音源kそれぞれとマイクロホン素子mの間の伝達関数である。
このモデルでは、目的音の到来方向(DOA:Direction of arrival)は既知である一方、例えば、干渉雑音の到来方向および数、背景雑音のノイズレベルのような雑音に関する情報は未知である問題を扱うことができる。
S930において、第1ビームフォーマ部930は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θSの音源の強調信号Yθ_S(ω, τ)(以下、第1強調信号Yθ_S(ω, τ)という)を生成し、出力する。目的音到来方向θSの到来時間差が既知の場合、ビームフォーミングの線形フィルタ(つまり、目的音到来方向θSの到来時間差を用いて構築したビームフォーミングの線形フィルタ)wθ_S
H∈CMによって、第1強調信号Yθ_Sは、以下の式で算出される。
ここで、・Hは複素共役転置を表す。また、X(ω, τ)=[X0(ω, τ), …, XM-1(ω, τ)]Tである。
S940において、第2ビームフォーマ部940は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個(L-1はK以上の整数)の目的音到来方向以外の方向θjの音源の強調信号Yθ_j(ω, τ) (j=1, …, L-1)(以下、第2強調信号Yθ_j(ω, τ)という)を生成し、出力する。第2ビームフォーマ部940は、第1ビームフォーマ部930と同様の方法で第2強調信号Yθ_j(ω, τ)を算出する。つまり、第2ビームフォーマ部940は、予め定めた、目的音到来方向以外の方向θjの到来時間差を用いて構築したビームフォーミングの線形フィルタによって第2強調信号Yθ_j(ω, τ)を算出する。
S950において、PSD生成部950は、S930で生成した第1強調信号Yθ_S(ω, τ)とS940で生成した第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Yθ_S(ω, τ)と第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)とを用いて、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を生成し、出力する。
以下、図3~図4を参照してPSD生成部950を説明する。図3は、PSD生成部950の構成を示すブロック図である。図4は、PSD生成部950の動作を示すフローチャートである。図3に示すようにPSD生成部950は、第1PSD推定部951と、第2PSD推定部952を含む。
図4に従いPSD推定部950の動作について説明する。
S951において、第1PSD推定部951は、S930で生成した第1強調信号Yθ_S(ω, τ)とS940で生成した第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Yθ_S(ω, τ)と第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)とを用いて局所PSD推定を行うことにより、目的音PSD~φS(ω, τ)、干渉雑音PSD~φIN(ω, τ)を推定し、出力する。局所PSD推定とは、目的音および干渉雑音の空間的な位置に基づくゲイン差を利用した、目的音PSDと干渉雑音PSDの推定手法である。第1強調信号Yθ_S(ω, τ)とL-1個の第2強調信号Yθ_j(ω, τ)のPSDφBF(ω, τ)=[φ0
BF(ω, τ), φ1
BF(ω, τ), …, φL-1
BF(ω, τ)]T∈RLとN個(Nは2以上の整数)の方向でグループ化された目的音および干渉雑音のPSDφG(ω, τ)=[φ0
G(ω, τ), φ1
G(ω, τ), …, φN-1
G(ω, τ)]T∈RNの関係は、次式のような線形変換の形式で近似的に表すことができる。
ただし、φ0
BF(ω, τ)は第1強調信号Yθ_S(ω, τ)のPSDとする。したがって、φ0
BF(ω, τ)=|Yθ_S(ω, τ)|2となる。また、Dj,n(ω)∈RL×N×Ωは、角周波数ビンω、ビームフォーマjにおける方向nに対する感度である。ここで、ビームフォーマ0とは、目的音到来方向θSのビームフォーマ、ビームフォーマjとは、目的音到来方向以外の方向θjのビームフォーマのことである。
この式を解くことにより、φG(ω, τ)∈RNを得ることができる。すなわち、まず、第1PSD推定部951は、この式を解くことにより、φG(ω, τ)∈RNを得る。
ここで、・*, [・]+は、それぞれ擬似逆行列、行列の各要素を非負値にする作用素を表す。
なお、演算量削減のためには、周波数フィルタバンクをいくつかの周波数帯域に統合し、PSD推定を行うのが効果的である。
上の式において、方向0に目的音到来方向θSの音源のPSDが、また、方向1から方向N-1には目的音とは異なる方向のグループのPSDが含まれると仮定すると、目的音PSD~φS(ω, τ)、干渉雑音PSD~φIN(ω, τ)は次式により推定される。すなわち、次に、第1PSD推定部951は、次式により目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)を推定する。
S952において、第2PSD推定部952は、S951で推定した目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)を入力とし、目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)とを用いて、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を推定し、出力する。以下、推定方法について説明する。背景雑音は定常的であると仮定できる。そこで、まず、第2PSD推定部952は、再帰的平滑演算により平滑化したPSD・φS(ω, τ), ・φIN(ω, τ)を用いて、ある区間Γにおける最小値として、2つの背景雑音PSDφBN_S(ω, τ), φBN_IN(ω, τ)を算出する。
ここで、βS, βINはそれぞれ忘却係数である。なお、βS, βINは、目的音、干渉雑音、背景雑音の時間的なエネルギー変動を考慮して決定される。
そして、第2PSD推定部952は、次式により、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を推定する。
S960において、音源強調部960は、S930で生成した第1強調信号Yθ_S(ω, τ)とS950で生成した目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)とを入力とし、第1強調信号Yθ_S(ω, τ)と目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。具体的には、音源強調部960は、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)から計算されるウィーナーフィルタを用いた次式により、周波数領域目的音信号Z(ω, τ)を算出する。
S970において、時間領域変換部970は、S960で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。時間領域への変換には、例えば、離散フーリエ変換の逆変換を用いることができる。
《PSDの最適化》
ここでは、非特許文献1の手法により生成したPSDを、ビームフォーマの特性を考慮して音源強調性能を向上させるように最適化する方法について説明する。
ここでは、非特許文献1の手法により生成したPSDを、ビームフォーマの特性を考慮して音源強調性能を向上させるように最適化する方法について説明する。
この最適化方法には、以下の3つの特徴がある。
(1)目的音PSD、干渉雑音PSD、背景雑音PSDのうち、少なくとも1つのPSDを最適化する。
(2)(1)の最適化処理は、PSDに関する制約の下での、PSDを表す変数に関する、1つの凸コスト項または複数の凸コスト項の和として表されるコスト関数の最適化問題として定式化される。
(3)(2)の最適化問題は、例えば、以下の(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項、(d)の制約または凸コスト項を用いて定義される。ただし、(c)の制約または凸コスト項、(d)の制約または凸コスト項については、それぞれ複数あってもよいものとする。また、(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項を含むことは必須ではない。
(1)目的音PSD、干渉雑音PSD、背景雑音PSDのうち、少なくとも1つのPSDを最適化する。
(2)(1)の最適化処理は、PSDに関する制約の下での、PSDを表す変数に関する、1つの凸コスト項または複数の凸コスト項の和として表されるコスト関数の最適化問題として定式化される。
(3)(2)の最適化問題は、例えば、以下の(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項、(d)の制約または凸コスト項を用いて定義される。ただし、(c)の制約または凸コスト項、(d)の制約または凸コスト項については、それぞれ複数あってもよいものとする。また、(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項を含むことは必須ではない。
(a)従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項
(b)PSDの非負制約
(c)音源の構造に基づく、PSDに関する制約または凸コスト項
(b)PSDの非負制約
(c)音源の構造に基づく、PSDに関する制約または凸コスト項
ここで、音源の構造とは、目的音、干渉雑音、背景雑音の周波数構造、時間構造、空間構造(チャネル間構造)を指す。
(d)ビームフォーマの特性に基づく、PSDに関する制約または凸コスト項
上記最適化問題では、PSDに関する制約は線形の等式または不等式により表現され、コスト関数はPSDを表す変数に関する凸コスト項(閉真凸関数であるコスト項)を1つ以上組み合わせた関数として表現される。つまり、最適化問題は線形制約付き凸最適化問題となる。そして、この最適化問題の解として最適化されたPSDが得られることになる。
この線形制約付き凸最適化問題は、1つ以上の凸コスト項と、0個以上の制約を用いる。凸コスト項または制約を増やすと最適化問題は複雑になるが、後述するブレグマン単調作用素分解(B-MOS:Bregman Monotone Operator Splitting)を用いることで、リアルタイムでの音源強調処理を可能とする程度の低演算量で解くことができる。
以下、第2PSD推定部952が推定した目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を、それぞれ^φS(ω, τ), ^φIN(ω, τ), ^φBN(ω, τ)と表すことにする。
(1:制約、凸コスト項の具体例)
ここでは、(a)~(d)の制約や凸コスト項の具体例について説明する。(c)の制約または凸コスト項は、以下のように分類できる。
(c-1)音源の周波数構造に基づく制約または凸コスト項
(c-2)音源の時間構造に基づく制約または凸コスト項
(c-3)音源の空間構造(チャネル間構造)に基づく制約または凸コスト項
ここでは、(a)~(d)の制約や凸コスト項の具体例について説明する。(c)の制約または凸コスト項は、以下のように分類できる。
(c-1)音源の周波数構造に基づく制約または凸コスト項
(c-2)音源の時間構造に基づく制約または凸コスト項
(c-3)音源の空間構造(チャネル間構造)に基づく制約または凸コスト項
また、(d)の制約または凸コスト項は、例えば、以下のように分類されるものである。
(d-1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
(d-2)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
まず、最適化問題で最適化の対象となる変数について説明する。
(d-1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
(d-2)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
まず、最適化問題で最適化の対象となる変数について説明する。
(1-1:変数の定義)
PSDは任意の周波数バンドにまとめられているものとする。このときの周波数バンド数をΩとする。
PSDは任意の周波数バンドにまとめられているものとする。このときの周波数バンド数をΩとする。
時間フレームτにおける目的音PSDを表す変数、干渉雑音PSDを表す変数、背景雑音PSDを表す変数をそれぞれuS,τ, uIN,τ, uBN,τとする。また、時間フレームτにおける目的音PSD入力値、干渉雑音PSD入力値、背景雑音PSD入力値をそれぞれ^φS,τ, ^φIN,τ, ^φBN,τとする。つまり、
である。また、uτ=[uS,τ
T, uIN,τ
T, uBN,τ
T]T, ^φτ=[^φS,τ
T, ^φIN,τ
T, ^φBN,τ
T]Tとする。
また、時間フレームτにおける第1強調信号(つまり、目的音到来方向θSにビームフォーミングした信号)Yθ_S(ω, τ)のPSDφY_θ_Sに対して、cτ∈RΩを次式で定義する。
したがって、cτは時間フレームτにおける目的音到来方向θSの音源の強調信号のPSD推定値である。
以下、前後の時間フレームに依存しない制約や凸コスト項を記述する場合には、時間フレームインデックスτを省略することとする。
(1-2:従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項)
変数u=[uS T, uIN T, uBN T]Tの値は、PSD入力値^φ=[^φS T, ^φIN T, ^φBN T]Tに近い値であると仮定する。この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
変数u=[uS T, uIN T, uBN T]Tの値は、PSD入力値^φ=[^φS T, ^φIN T, ^φBN T]Tに近い値であると仮定する。この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
ここで、wi∈R+ (i∈{S, IN, BN})は凸コスト項の重みを調整するための係数(重み付け係数)である。なお、R+は、正の実数の集合を表す。
また、これらの凸コスト項を組み合わせて用いてもよい。例えば、目的音、干渉雑音、背景雑音の3つのPSDを最適化する場合は、次式のような凸コスト項を用いることができる。
(1-3:PSDの非負制約)
PSDは非負値となる。そこで、uS≧0,uIN≧0,uBN≧0、すなわち、u≧0という不等式による制約を与えることができる。
PSDは非負値となる。そこで、uS≧0,uIN≧0,uBN≧0、すなわち、u≧0という不等式による制約を与えることができる。
(1-4:音源の周波数構造に基づく制約または凸コスト項)
ここでは、一例として、目的音の周波数構造について説明する。
ここでは、一例として、目的音の周波数構造について説明する。
目的音PSD入力値^φSには、分離しきれていない干渉雑音PSDや背景雑音PSDが小さな値として含まれている。例えば、目的音が音声である場合、目的音PSDは調波構造を仮定できるため、周波数方向にスパースであること、周波数方向の倍音構造があること、倍音に隣接する周波数帯域における共起関係があること、などの事前知識を用いることができる。したがって、これらの事前知識に基づく制約や凸コスト項を用いることで、目的音PSDを雑音のPSD(すなわち、干渉雑音PSDと背景雑音PSD)と分離できることが期待される。そこで、上記仮定に対応する凸コスト項を、L1ノルムを用いて表現することにする。ただし、小さな値であるが聴感上の重要な成分を削らないようにするため、Λ∈RΩ×Ωを用いて重み付けした領域でスパースな目的音PSDを推定する。また、最適化アルゴリズムの安定化のために、目的音PSD入力値^φSをΛで変換した信号との二乗誤差をコスト項に加えることとする。以上をまとめると、目的のコスト項は、次式で表すことができる。
ここで、μ, ρ(∈R+)は重み付け係数である。また、Λ(∈RΩ×Ω)は所定のスパースな行列である。
Λ∈RΩ×Ωの具体例は下記の(α)、(β)であり、(α)と(β)を組み合わせてもよい。
(α)周波数重み付け行列Λw
(α)周波数重み付け行列Λw
(β)隣接周波数帯域との平滑化行列Λnb
左右それぞれ1つの帯域との移動平均をとる場合、行列Λnbは次式のようになる。
左右それぞれ1つの帯域との移動平均をとる場合、行列Λnbは次式のようになる。
(1-5:音源の時間構造に基づく制約または凸コスト項)
ここでは、一例として、直前の時間フレームのPSDとの平滑化について説明する。
ここでは、一例として、直前の時間フレームのPSDとの平滑化について説明する。
前後の時間フレームにおいて、PSDの値は滑らかに変化することを仮定することで、歪みの抑制が期待される。この仮定に対応する凸コスト項は、例えば、次式のような二乗誤差を用いた項として表現できる。
ただし、^φBN,τ-1は、時間フレームτ-1における背景雑音PSD推定値である。また、γBN (∈R+)は重み付け係数である。
当該凸コスト項を最小化することにより、時間方向に滑らかな背景雑音PSDの推定が可能となる。なお、例えば、目的音や干渉雑音が歌声や楽器音などの場合には、目的音や干渉雑音も時間方向に滑らかであるので、目的音や干渉雑音についても上記の背景雑音の式のような凸コスト項を用いることができる(次式参照)。
ただし、^φS,τ-1, ^φIN,τ-1は、それぞれ時間フレームτ-1における目的音PSD推定値、時間フレームτ-1における干渉雑音PSD推定値である。また、γS, γIN (∈R+)は重み付け係数である。
(1-6:音源の空間構造に基づく制約または凸コスト項)
ここでは、一例として、PSDの加法性制約について説明する。
ここでは、一例として、PSDの加法性制約について説明する。
周波数領域においてPSDの加法性を仮定すると、目的音PSD、干渉雑音PSD、背景雑音PSDの和は目的音到来方向θSの音源の強調信号のPSD推定値cと近いものとなる。この仮定に対応する制約は、例えば、以下の線形制約により表現することができる。
この制約を用いると、歪みの低減や、前段の処理で(すなわち、PSD生成部950の出力で)失われた成分の復元がされ、結果的にPSD推定精度が向上することが期待される。
(1-7:目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項)
ビームフォーマは、目的音が支配的に含まれるほど音源強調の性能が高い。すなわち、目的音が支配的な時間フレームでは、目的音PSDはビームフォーマによる目的音到来方向θSの音源の強調信号のPSD推定値c(目的音到来方向にビームフォーミングした信号のPSDともいう)と近いものとなると仮定できる。したがって、目的音が支配的な時間フレームでは、変数uSの値をcに近づける凸コスト項がPSD推定精度の向上に有効であり、この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
ビームフォーマは、目的音が支配的に含まれるほど音源強調の性能が高い。すなわち、目的音が支配的な時間フレームでは、目的音PSDはビームフォーマによる目的音到来方向θSの音源の強調信号のPSD推定値c(目的音到来方向にビームフォーミングした信号のPSDともいう)と近いものとなると仮定できる。したがって、目的音が支配的な時間フレームでは、変数uSの値をcに近づける凸コスト項がPSD推定精度の向上に有効であり、この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
ここで、γ(∈R+)は重み付け係数である。なお、γは、目的音が支配的であるほど大きな値となるように設定すればよく、例えば、目的音PSD^φSが雑音のPSD(干渉雑音PSD^φIN、または、背景雑音PSD^φBN、または、干渉雑音PSD^φINと背景雑音PSD^φBNを合わせたもの)より大きいほど大きな値をγとして設定することが考えられる。または、例えば、目的音PSD^φSから雑音のPSDを減算した値や目的音PSD^φSを雑音のPSDで除算した値が所定の閾値を超える場合または所定の閾値以上である場合には式(1)の凸コスト項を用い、そうでない場合には式(1)の凸コスト項を用いないこと、が考えられる。
また、目的音PSD^φSは、ビームフォーマによって目的音到来方向θSの音源を強調した信号に基づいて得られたPSD推定値である。したがって、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。目的音PSD^φSを用いると、式(1)に対応する凸コスト項は、例えば、次式のようになる。
ここで、γ’(∈R+)は重み付け係数である。
(1-8:目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項)
ビームフォーマには、低周波数帯域(例えば500Hz以下)では指向性が鈍くなり、高周波数帯域(例えば4kHz以上)では空間エイリアシングによって目的音の方向以外にも焦点を形成してしまう、という性質がある。すなわち、ビームフォーマには、低周波数帯域および高周波数帯域では、低周波数帯域と高周波数帯域以外の帯域である中周波数帯域よりも、ビームフォーマの非到来方向音の抑圧性能が悪くなる。したがって、中周波数帯域のみにおいて変数uSの値をcに近づける凸コスト項を用いるのが、低周波数帯域や高周波数帯域のPSD推定精度の向上に有効であるので、例えば、目的音PSDを表す変数uSに対して定義される中周波数帯域に関する変数uS-Midと、目的音到来方向θSの音源の強調信号のPSD推定値cに対して定義される中周波数帯域に関するPSD推定値cMidを用いた、次式のような凸コスト項が考えられる。
ビームフォーマには、低周波数帯域(例えば500Hz以下)では指向性が鈍くなり、高周波数帯域(例えば4kHz以上)では空間エイリアシングによって目的音の方向以外にも焦点を形成してしまう、という性質がある。すなわち、ビームフォーマには、低周波数帯域および高周波数帯域では、低周波数帯域と高周波数帯域以外の帯域である中周波数帯域よりも、ビームフォーマの非到来方向音の抑圧性能が悪くなる。したがって、中周波数帯域のみにおいて変数uSの値をcに近づける凸コスト項を用いるのが、低周波数帯域や高周波数帯域のPSD推定精度の向上に有効であるので、例えば、目的音PSDを表す変数uSに対して定義される中周波数帯域に関する変数uS-Midと、目的音到来方向θSの音源の強調信号のPSD推定値cに対して定義される中周波数帯域に関するPSD推定値cMidを用いた、次式のような凸コスト項が考えられる。
ここで、γMid(∈R+)は重み付け係数である。また、ωL, ωHは0<ωL<ωH<Ω-1を満たす。
したがって、周波数ビン番号ωLからωHまでの帯域が中周波数帯域に相当する。
また、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。この場合、例えば、目的音PSDを表す変数uSに対して定義される中周波数帯域に関する変数uS-Midと、目的音PSD^φSに対して定義される中周波数帯域に関するPSD^φS-Midを用いた、次式のような凸コスト項が考えられる。
ここで、γ’Mid(∈R+)は重み付け係数である。
(1-9:目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づき、更に音の調波構造にも基づく、制約または凸コスト項)
ビームフォーマでは、(1-8)で説明した通り、中周波数帯域での干渉雑音抑圧性能が高い。また、音声における母音のような調波構造を持つ音源は、中周波数帯域の調波構造と低周波数帯域の調波構造との相関、中周波数帯域の調波構造と高周波数帯域の調波構造との相関、が高い。そこで、例えば、目的音PSD^φSや、目的音到来方向θSの音源の強調信号のPSD推定値cに対して、雑音が少ない中周波数帯域の複製により雑音が多く含まれる低周波数帯域および/または高周波数帯域を置換した信号を生成し、当該信号に対して(1-7)と同様の凸コスト項で用いることで、低周波数帯域や高周波数帯域のPSD推定精度を向上させることを考える。
ビームフォーマでは、(1-8)で説明した通り、中周波数帯域での干渉雑音抑圧性能が高い。また、音声における母音のような調波構造を持つ音源は、中周波数帯域の調波構造と低周波数帯域の調波構造との相関、中周波数帯域の調波構造と高周波数帯域の調波構造との相関、が高い。そこで、例えば、目的音PSD^φSや、目的音到来方向θSの音源の強調信号のPSD推定値cに対して、雑音が少ない中周波数帯域の複製により雑音が多く含まれる低周波数帯域および/または高周波数帯域を置換した信号を生成し、当該信号に対して(1-7)と同様の凸コスト項で用いることで、低周波数帯域や高周波数帯域のPSD推定精度を向上させることを考える。
例えば、目的音到来方向θSの音源の強調信号のPSD推定値cに対して、低周波数帯域を中周波数帯域の複製を用いて置換したPSD推定値cSBRは、次式で与えられる。
ここで、αtilt(∈R+)は、置換前の低周波数帯域のPSDとcMidの誤差が最小になるように調整する係数である。言い換えると、αtilt(∈R+)は、置換後のPSD推定値cSBRの大きさが、置換前のPSDと大きく異ならないようにするための係数である。
このPSD推定値cSBRを用いると、凸コスト項は、例えば、次式のようになる。
ここで、γSBR-c(∈R+)は重み付け係数である。
また、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。この場合、目的音PSD^φSに対して、低周波数帯域を中周波数帯域の複製を用いて置換したPSD推定値^φS-SBRは、次式で与えられる。
ここで、βtilt(∈R+)は、置換前の低周波数帯域のPSDと^φS -Midの誤差が最小になるように調整する係数である。
このPSD推定値^φS-SBRを用いると、凸コスト項は、例えば、次式のようになる。
ここで、γSBR-^φ(∈R+)は重み付け係数である。
(1-10:まとめ)
(1-7)から(1-9)で説明した凸コスト項がビームフォーマの特性に基づくPSDに関する制約または凸コスト項の例である。したがって、最適化問題は、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題であり、少なくとも、
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。なお、最適化問題が、従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項や、PSDの非負制約や、音源の構造に基づく制約または凸コスト項をあわせて用いる形で定義されてもよいのはもちろんである。また(2)の制約や凸コスト項は、更に音の調波構造にも基づくものであってもよい。
(1-7)から(1-9)で説明した凸コスト項がビームフォーマの特性に基づくPSDに関する制約または凸コスト項の例である。したがって、最適化問題は、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題であり、少なくとも、
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。なお、最適化問題が、従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項や、PSDの非負制約や、音源の構造に基づく制約または凸コスト項をあわせて用いる形で定義されてもよいのはもちろんである。また(2)の制約や凸コスト項は、更に音の調波構造にも基づくものであってもよい。
(2:適用例)
ここでは、最適化問題の具体例と、当該具体例を解く最適化アルゴリズムについて説明する。
ここでは、最適化問題の具体例と、当該具体例を解く最適化アルゴリズムについて説明する。
最適化問題の具体例として、(b), (c-1), (c-3), (d-2)の制約および凸コスト項を用いて定義される問題を考える。
ここで、μ, ρ(∈R+)は重み付け係数である。また、ζは次式により定義される。
また、Λ(∈RΩ×Ω)を周波数重み付け行列Λw、I(∈RΩ×Ω)を単位行列とし、行列A, B、ベクトルc, ^v^φ_S、行列W, W1/2は次式で与えられる。
ここで、(d-2)の凸コスト項の定義で用いるγMidについては、γMid=wS
1/2としている。
この最適化問題のコスト関数F1+F2は、潜在変数uの他、潜在変数uの補助変数vを用いている。また、この最適化問題の制約は、変数u, vに関する線形制約、つまり、Au=v, Bu=c, u≧0となっている。なお、F1, F2はいずれも凸関数となっている。
上記最適化問題を解く代わりに、その双対問題を解くことを考える。双対問題は次式で表される。
双対変数p, q, rをξ=[p, q, r]Tとまとめると、双対問題は次式のように表すことができる。
ここで、F1
*, F2
*はF1, F2の凸共役関数であり、次式で表される。
また、I(r?0)(r)はrの非負性を保証する指示関数である。
以上からわかるように、双対問題のコスト関数は2つの閉真凸関数G1, G2の和として表されている。
音源強調をリアルタイムで実現するためには、上記の双対問題infξG1(ξ)+G2(ξ)を高速に解くアルゴリズムが必要である。ここでは、参考非特許文献1で開示されているブレグマン単調作用素分解(B-MOS)を用いる。
(参考非特許文献1:K. Niwa and W. B. Kleijn, “Bregman monotone operator splitting”, https://arxiv.org/abs/1807.04871, 2018.)
(参考非特許文献1:K. Niwa and W. B. Kleijn, “Bregman monotone operator splitting”, https://arxiv.org/abs/1807.04871, 2018.)
具体的には、Bregman-Peaceman-Rachfold(B-P-R)型最適化ソルバを用いる。B-P-R型最適化ソルバでは、0∈∂G1(ξ)+∂G2(ξ)となる不動点条件から得られる、再帰的な更新式が利用される。
この式は、以下のD-ケーリー作用素Ciを用いて構成されている。
ここで、・-1は逆写像を表す。また、Dはブレグマンダイバージェンスの定義に用いる関数である。関数Dとして、∇D(0)=0を満たし、∇Dが微分可能な強凸関数となるものを用いるものとする。
また、Ri、IはそれぞれD-リゾルベント作用素と恒等作用素であり、D-リゾルベント作用素Riは次式により与えられる。
上記更新式から、図3に示す最適化アルゴリズムが得られる。図3をみると、(主)変数u、補助変数v、双対変数p, q, rをそれぞれ非線形変換することにより得られる双対変数~p=∇Dp(p), ~q=∇Dq(q), ~r=∇Dr(r)が交互に更新されていることがわかる。なお、強凸関数Dp, Dq, Drは、それぞれ次式により与えられる。
したがって、∇Dp, ∇Dq, ∇Drは、それぞれ次式により得られる。
よって、強凸関数Dp, Dq, Drの零点での勾配は0となる。
また、図3のアルゴリズムにおける主変数uの更新における近接作用素の正則化項では、ブレグマンダイバージェンスを利用している(次式参照)。
ここで、Dp
・=Dp
-1である。
一般に強凸関数Dの微分作用素に対して∇(D-1)=(∇D)-1が成り立つので、∇Dp
・=∇(Dp
-1)=(∇Dp)-1=(AWAT)*となる。∇Dq
・, ∇Dr
・についても同様である。したがって、∇Dp
・, ∇Dq
・, ∇Dr
・は次式で与えられる。
図3のアルゴリズムにおいて、Tは反復回数を表す定数であり、リアルタイムで処理する際には小さい値に設定する必要ある。
以上、(b), (c-1), (c-3), (d-2)の制約及び凸コスト項を用いて定義される最適化問題について考えてきたが、最適化問題の定義に用いる制約や凸コスト項次第では、変数uに関する線形制約のもと、次式により定式化される場合もある。
ここで、コスト関数F1は凸関数である。
この場合、uの補助変数を用いることなく最適化問題が定式化されており、比較的簡単に解くことができる。
<第1実施形態>
以下、図6~図7を参照して音源強調装置100について説明する。図6は、音源強調装置100の構成を示すブロック図である。図7は、音源強調装置100の動作を示すフローチャートである。図6に示すように音源強調装置100は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、PSD更新部150と、音源強調部960と、時間領域変換部970と、記録部990を含む。音源強調装置100は、更にPSD更新部150を含む点においてのみ、音源強調装置900と異なる。
以下、図6~図7を参照して音源強調装置100について説明する。図6は、音源強調装置100の構成を示すブロック図である。図7は、音源強調装置100の動作を示すフローチャートである。図6に示すように音源強調装置100は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、PSD更新部150と、音源強調部960と、時間領域変換部970と、記録部990を含む。音源強調装置100は、更にPSD更新部150を含む点においてのみ、音源強調装置900と異なる。
図7に従い音源強調装置100の動作について説明する。
S910において、M個(Mは2以上の整数)のマイクロホン素子によって構成されるマイクロホンアレイ910は、マイクロホン素子mで収音された時間領域観測信号xm(t)(m=0, 1, …, M-1)を生成し、出力する。
S920において、周波数領域変換部920は、S910で生成した時間領域観測信号xm(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号xm(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号Xm(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。
S930において、第1ビームフォーマ部930は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θSの音源の強調信号Yθ_S(ω, τ)(以下、第1強調信号Yθ_S(ω, τ)という)を生成し、出力する。
S940において、第2ビームフォーマ部940は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個(L-1はK以上の整数)の目的音到来方向以外の方向θjの音源の強調信号Yθ_j(ω, τ) (j=1, …, L-1)(以下、第2強調信号Yθ_j(ω, τ)という)を生成し、出力する。
S950において、PSD生成部950は、S930で生成した第1強調信号Yθ_S(ω, τ)とS940で生成した第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Yθ_S(ω, τ)と第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)とを用いて、目的音PSD^φS(ω, τ)、干渉雑音PSD^φIN(ω, τ)、背景雑音PSD^φBN(ω, τ)を生成し、出力する。なお、ここでは目的音PSD、干渉雑音PSD、背景雑音PSDを表す記号に^を付してあるが、S950におけるPSD生成部950の動作は、<技術的背景>において図3と図4を用いて説明したものと同じである。
以下、目的音PSD^φS(ω, τ)、干渉雑音PSD^φIN(ω, τ)、背景雑音PSD^φBN(ω, τ)のことを目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)という。また、uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とする。
S150において、PSD更新部150は、S950で生成した目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成し、出力する。つまり、PSD更新部150は、<技術的背景>で説明した最適化問題を解く構成部である。この最適化問題は、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題であり、少なくとも、
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。
以下、(1)~(4)の制約および凸コスト項の例について説明する。例えば、(2)の目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項として、目的音が支配的であるほど、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項を用いることができる。具体的には、式(1)や式(1)’で定義される凸コスト項である。なお、ビームフォーマによる目的音到来方向とは、目的音到来方向θSのことである。
また、例えば、(4)の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、中周波数帯域において、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(2)や式(2)’で定義される凸コスト項である。
また、例えば、(4)の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のPSD推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の目的音PSD入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(3)や式(3)’で定義される凸コスト項である。
また、この変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題は、u=[uS
T, uIN
T, uBN
T]T、vを変数uの補助変数とし、変数u, vに関する線形制約のもとでinfu,vF1(u)+F2(v) (ただし、F1, F2はそれぞれコスト関数を構成する凸関数)を解く問題として定式化できる。ここで、変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F1(u)+F2(v)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。
なお、最適化問題の定義に用いる制約や凸コスト項次第では、上記問題を簡略化した問題として定式化される場合もある。具体的には、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題は、u=[uS
T, uIN
T, uBN
T]Tとし、変数uに関する線形制約のもとでinfuF1(u) (ただし、F1は凸なコスト関数)を解く問題として定式化できる。ここで、変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F1(u)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。
以下、変数uの補助変数vも用いて定式化される最適化問題の一例をあげる。
変数u, vに関する線形制約は、以下の式により与えられる。
(ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θSの音源の強調信号のPSD推定値、Λ(∈RΩ×Ω)は周波数重み付け行列Λw、I(∈RΩ×Ω)は単位行列、Ωは周波数バンド数)
また、F1(u), F2(v)は、それぞれ以下の式により与えられる。
(ただし、
、μ, ρ(∈R+)は重み付け係数、0<ωL<ωH<Ω-1)
以下、図8~図9を参照してこの最適化問題を解くPSD更新部150について説明する。図8は、PSD更新部150の構成を示すブロック図である。図9は、PSD更新部150の動作を示すフローチャートである。図8に示すようにPSD更新部150は、初期化部151、第1変数計算部1521と、第1双対変数計算部1522と、第2双対変数計算部1523と、第3双対変数計算部1524と、第2変数計算部1525と、第4双対変数計算部1526と、第5双対変数計算部1527と、カウンタ更新部153と、終了条件判定部154を含む。
図9に従いPSD更新部150の動作について説明する。ここで、双対変数p, q, rに対して次式で定義される、関数Dp
・, Dq
・, Dr
・および双対変数~p, ~q, ~rを用いる。
S151において、初期化部151は、カウンタtを初期化する。具体的には、t=0とする。また、初期化部151は、双対変数~p, ~q, ~rを初期化する。具体的には、双対変数~p, ~q, ~rの初期値(双対変数~p, ~q, ~rの0回目の更新結果)として~p0, ~q0, ~r0を設定する。
S1521において、第1変数計算部1521は、次式により、変数uのt+1回目の更新結果であるut+1を計算する。
S1522において、第1双対変数計算部は、次式により、双対変数~pのt+1回目の中間更新結果である~p t+1/2を計算する。
S1523において、第2双対変数計算部は、次式により、双対変数~qのt+1回目の更新結果である~qt+1を計算する。
S1524において、第3双対変数計算部は、次式により、双対変数~rのt+1回目の中間更新結果である~rt+1/2を計算する。
S1525において、第2変数計算部は、次式により、補助変数vのt+1回目の更新結果であるvt+1を計算する。
S1526において、第4双対変数計算部は、次式により、双対変数~pのt+1回目の更新結果である~p t+1を計算する。
S1527において、第5双対変数計算部は、~r=[~r1
T, ~r2
T, ~r3
T]Tとし、次式により、双対変数~rのt+1回目の更新結果である~rt+1を計算する。
S153において、カウンタ更新部125は、カウンタtを1だけインクリメントする。具体的には、t←t+1とする。
S154において、終了条件判定部154は、カウンタtが所定の更新回数T(Tは1以上の整数であり、リアルタイム性を考慮して設定される値である)に達した場合(つまり、t>T-1となり、終了条件が満たされた場合)は、そのときの変数uの値uTを出力して、処理を終了する。それ以外の場合、S1521の処理に戻る。つまり、PSD更新部150は、S1521~S154の処理を繰り返す。
S960において、音源強調部960は、S930で生成した第1強調信号Yθ_S(ω, τ)とS150で生成した目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)とを入力とし、第1強調信号Yθ_S(ω, τ)と目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。
S970において、時間領域変換部970は、S960で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。
なお、PSD更新部150を単独の装置(以下、PSD最適化装置200という)として構成することもできる。図10は、PSD最適化装置200の構成を示すブロック図である。図10に示すようにPSD最適化装置200は、PSD更新部150と、記録部990を含む。
本実施形態の発明によれば、ビームフォーマの特性を考慮することにより、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を効率的に向上させることが可能となる。
<補記>
図11は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
図11は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
Claims (9)
- uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とし、
目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成するPSD更新部を含むPSD最適化装置であって、
前記コスト関数の最適化問題は、少なくとも、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義される
PSD最適化装置。 - 請求項1に記載のPSD最適化装置であって、
前記目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
目的音が支配的であるほど、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。 - 請求項1に記載のPSD最適化装置であって、
前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
中周波数帯域において、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。 - 請求項1に記載のPSD最適化装置であって、
前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のPSD推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φS(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の前記目的音PSD入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。 - 請求項1に記載のPSD最適化装置であって、
u=[uS T, uIN T, uBN T]T、vを変数uの補助変数とし、
前記コスト関数の最適化問題は、変数u, vに関する線形制約のもとでinfu,vF1(u)+F2(v) (ただし、F1, F2はそれぞれコスト関数を構成する凸関数)を解く問題と定義されるものであり、
前記変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F1(u)+F2(v)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
ことを特徴とするPSD最適化装置。 - 請求項5に記載のPSD最適化装置であって、
前記変数u, vに関する線形制約は、
(ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θSの音源の強調信号のPSD推定値、Λ(∈RΩ×Ω)は周波数重み付け行列Λw、I(∈RΩ×Ω)は単位行列、Ωは周波数バンド数)
であり、
F1(u), F2(v)は、それぞれ
(ただし、
、μ, ρ(∈R+)は重み付け係数、0<ωL<ωH<Ω-1)であり、
双対変数p, q, rに対して、関数Dp ・, Dq ・, Dr ・および双対変数~p, ~q, ~rは、それぞれ次式で定義されるものとし、
前記PSD更新部は、
次式により、変数uのt+1回目の更新結果であるut+1を計算する第1変数計算部と、
次式により、双対変数~pのt+1回目の中間更新結果である~p t+1/2を計算する第1双対変数計算部と、
次式により、双対変数~qのt+1回目の更新結果である~qt+1を計算する第2双対変数計算部と、
次式により、双対変数~rのt+1回目の中間更新結果である~rt+1/2を計算する第3双対変数計算部と、
次式により、補助変数vのt+1回目の更新結果であるvt+1を計算する第2変数計算部と、
次式により、双対変数~pのt+1回目の更新結果である~p t+1を計算する第4双対変数計算部と、
~r=[~r1 T, ~r2 T, ~r3 T]Tとし、
次式により、双対変数~rのt+1回目の更新結果である~rt+1を計算する第5双対変数計算部と、
を含む
ことを特徴とするPSD最適化装置。 - 請求項1に記載のPSD最適化装置であって、
u=[uS T, uIN T, uBN T]Tとし、
前記コスト関数の最適化問題は、変数uに関する線形制約のもとでinfuF1(u) (ただし、F1は凸なコスト関数)を解く問題と定義されるものであり、
前記変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F1(u)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
ことを特徴とするPSD最適化装置。 - uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とし、
PSD最適化装置が、目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成するPSD更新ステップを含むPSD最適化方法であって、
前記コスト関数の最適化問題は、少なくとも、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義される
PSD最適化方法。 - 請求項1ないし7のいずれか1項に記載のPSD最適化装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/031450 WO2021024475A1 (ja) | 2019-08-08 | 2019-08-08 | Psd最適化装置、psd最適化方法、プログラム |
US17/633,190 US11758324B2 (en) | 2019-08-08 | 2019-08-08 | PSD optimization apparatus, PSD optimization method, and program |
JP2021537535A JP7173356B2 (ja) | 2019-08-08 | 2019-08-08 | Psd最適化装置、psd最適化方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/031450 WO2021024475A1 (ja) | 2019-08-08 | 2019-08-08 | Psd最適化装置、psd最適化方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021024475A1 true WO2021024475A1 (ja) | 2021-02-11 |
Family
ID=74503056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/031450 WO2021024475A1 (ja) | 2019-08-08 | 2019-08-08 | Psd最適化装置、psd最適化方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11758324B2 (ja) |
JP (1) | JP7173356B2 (ja) |
WO (1) | WO2021024475A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012523731A (ja) * | 2009-04-09 | 2012-10-04 | エヌティーエヌユー テクノロジー トランスファー エーエス | センサーアレイに最適なモーダルビームフォーマ |
JP2017503388A (ja) * | 2013-12-11 | 2017-01-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マイクロホンアレイを使用した残響音の抽出 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9354310B2 (en) * | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
KR101757461B1 (ko) * | 2011-03-25 | 2017-07-26 | 삼성전자주식회사 | 배경잡음의 스펙트럼 밀도를 추정하는 방법 및 이를 수행하는 프로세서 |
US8712951B2 (en) * | 2011-10-13 | 2014-04-29 | National Instruments Corporation | Determination of statistical upper bound for estimate of noise power spectral density |
EP3373602A1 (en) * | 2017-03-09 | 2018-09-12 | Oticon A/s | A method of localizing a sound source, a hearing device, and a hearing system |
-
2019
- 2019-08-08 WO PCT/JP2019/031450 patent/WO2021024475A1/ja active Application Filing
- 2019-08-08 JP JP2021537535A patent/JP7173356B2/ja active Active
- 2019-08-08 US US17/633,190 patent/US11758324B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012523731A (ja) * | 2009-04-09 | 2012-10-04 | エヌティーエヌユー テクノロジー トランスファー エーエス | センサーアレイに最適なモーダルビームフォーマ |
JP2017503388A (ja) * | 2013-12-11 | 2017-01-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マイクロホンアレイを使用した残響音の抽出 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021024475A1 (ja) | 2021-02-11 |
US20220279274A1 (en) | 2022-09-01 |
US11758324B2 (en) | 2023-09-12 |
JP7173356B2 (ja) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US20220068288A1 (en) | Signal processing apparatus, signal processing method, and program | |
JP6567478B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 | |
WO2021024475A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP5166460B2 (ja) | 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム | |
WO2021024474A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
US20230239616A1 (en) | Target sound signal generation apparatus, target sound signal generation method, and program | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
JP5438629B2 (ja) | ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム | |
JP5889224B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP7375904B2 (ja) | フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム | |
JP7563566B2 (ja) | モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム | |
JP7156064B2 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
JP7444243B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP2020030373A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP2014042108A (ja) | 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム | |
JP7375905B2 (ja) | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム | |
WO2022180741A1 (ja) | 音響信号強調装置、方法及びプログラム | |
WO2024038522A1 (ja) | 信号処理装置、信号処理方法、プログラム | |
JP5325134B2 (ja) | 反響消去方法、反響消去装置、そのプログラムおよび記録媒体 | |
JP6053202B2 (ja) | ウィーナーフィルタ設計装置、音声強調装置、ウィーナーフィルタ設計方法、プログラム | |
JP5596724B2 (ja) | 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19940948 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021537535 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19940948 Country of ref document: EP Kind code of ref document: A1 |