WO2012160602A1 - 目的音強調装置およびカーナビゲーションシステム - Google Patents

目的音強調装置およびカーナビゲーションシステム Download PDF

Info

Publication number
WO2012160602A1
WO2012160602A1 PCT/JP2011/002890 JP2011002890W WO2012160602A1 WO 2012160602 A1 WO2012160602 A1 WO 2012160602A1 JP 2011002890 W JP2011002890 W JP 2011002890W WO 2012160602 A1 WO2012160602 A1 WO 2012160602A1
Authority
WO
WIPO (PCT)
Prior art keywords
beamformer
unit
vehicle environment
frequency band
beam former
Prior art date
Application number
PCT/JP2011/002890
Other languages
English (en)
French (fr)
Inventor
崇志 三上
敦仁 矢野
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2011/002890 priority Critical patent/WO2012160602A1/ja
Priority to US13/992,055 priority patent/US20140064514A1/en
Priority to CN201180065308.9A priority patent/CN103329200B/zh
Priority to DE112011105267.7T priority patent/DE112011105267T5/de
Priority to JP2013516075A priority patent/JP5543023B2/ja
Publication of WO2012160602A1 publication Critical patent/WO2012160602A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the present invention relates to a target sound emphasizing device that generates an audio signal in which a target sound is emphasized from an output signal of a microphone array, and a car navigation system using the target sound emphasizing device.
  • a beamformer emphasizes a signal in a target direction by adding together a plurality of channels of signals acquired by a microphone array, and includes a fixed beamformer and an adaptive beamformer.
  • the simplest fixed beamformer is the delay-and-sum method, and the most suitable beamformer is the maximum likelihood method (ML method), the minimum variance method (MVDR), the generalized side lobe canceller (GSC), etc. (See, for example, Non-Patent Document 1).
  • Delay-and-sum method is a method to direct the directivity of microphone sensitivity in the target direction, and generally there is little calculation amount, but when resources are limited such as in-vehicle purpose, side lobes are large, weak in reverberant environment, low frequency region However, there was a problem that sufficient directivity could not be obtained. In order to improve directivity in the low frequency region, it is necessary to increase the overall array length of the microphone array. For example, in order to obtain directivity of about ⁇ 10 ° in the main lobe for a sound of 1000 Hz, the array length needs to be about 2 m.
  • Non-Patent Document 2 In addition, even if the array length is increased simply by increasing the distance between the microphones, grating lobes are generated in directions other than the target direction, and the directivity is reduced (see, for example, Non-Patent Document 2). Therefore, in order to suppress the grating lobe and maintain the directivity in the low frequency region, it is necessary to closely arrange a large number of microphones, which increases the cost.
  • the adaptive beamformer is a method of forming directivity such that the noise source becomes a dead angle while keeping the sensitivity in the target direction constant, and is effective even in the low frequency region, and reverberation.
  • noise suppression can be performed even under the environment, there are problems such as large computational complexity and weak effects on diffuse noise.
  • Patent Document 1 prepares a plurality of beam formers. According to the result of applying those beam formers for each frequency band, the sound source separation performance is improved and the speech recognition accuracy is improved by adopting and combining the output of the beam former with the largest amplitude.
  • Patent Document 2 proposes a comprehensive beamformer that optimally covers an angular interval range in a specific region using a plurality of beamformers from the beam width of a beamformer for each frequency band and an environmental noise model. There is.
  • Patent Documents 1 and 2 pursue versatility. Therefore, if the signal with the largest amplitude among the signals obtained from a plurality of beamformers is selected as in Patent Document 1 above, the noise source is selected when the noise in the car and the power of the sound are close. There was a problem. Further, since the method of Patent Document 2 does not optimally emphasize the target sound coming from a specific direction, further improvement is required to optimally emphasize the voice of the speaker in the car.
  • the present invention has been made to solve the above-mentioned problems, and a plurality of beamformers are switched for each frequency band in accordance with the in-vehicle environment model to optimally emphasize the speech signal of the in-vehicle speaker. With the goal.
  • the target sound emphasizing device comprises a computing unit for converting output signals from two or more microphones installed in a car into a signal in the frequency domain and a plurality of predetermined frequency signals from the plurality of frequency domain signals converted by the computing unit.
  • a beamformer group having two or more beamformers that generate signals emphasizing a target sound in each band in different systems, and information on noise characteristics for each predetermined frequency band in the in-vehicle environment and directivity characteristics for each beamformer
  • Each of the beamformers is evaluated based on the directional characteristics and noise characteristics held by the in-vehicle environment model storage unit for each of the in-vehicle environment model storage unit and each predetermined frequency band, and the beamformer type determination to select the highest beamformer Block and the signal of the frequency domain converted by the operation unit are selected by the beamformer type determination unit for each predetermined frequency band
  • An output switching section for outputting to Mufoma, in which and a signal coupling section for coupling the signal of a predetermined frequency band beamformer group output.
  • the car navigation system uses the two or more microphones installed in a car and the output signals from the microphones as input to generate the above-mentioned target sound for generating a voice signal emphasizing the speaker's voice in the car It comprises an emphasizing device and a hands-free call control unit for performing hands-free calling using an audio signal generated by the target sound emphasizing device.
  • the beamformer is evaluated for each frequency band based on the acoustic characteristics in the in-vehicle environment, and the target sound is emphasized by the optimum beamformer. Therefore, the speech signal of the speaker in the vehicle is optimally emphasized. can do.
  • FIG. 1 is a block diagram showing a configuration of a car navigation system to which a target sound emphasis device according to a first embodiment of the present invention is applied.
  • 7 is a flowchart showing the operation of the target sound emphasis device according to Embodiment 1;
  • FIG. 6 is a diagram for explaining an in-vehicle environment model possessed by the target sound emphasis device according to the first embodiment.
  • 7 is a graph showing an example of a first beam former directivity characteristic of the target sound emphasis device according to the first embodiment. It is a graph which shows an example of the in-vehicle estimated noise power which the target sound emphasis apparatus which concerns on Embodiment 1 has.
  • FIG. 7 is a flowchart for describing beamformer type determination processing by the target sound emphasis device according to Embodiment 1.
  • FIG. FIG. 8 is a diagram for explaining another example of the in-vehicle environment model possessed by the target sound emphasis device according to the first embodiment. It is a block diagram which shows the structure of the car navigation system to which the target sound emphasis apparatus which concerns on Embodiment 2 of this invention is applied. It is a block diagram which shows the structure of the car navigation system to which the target sound emphasis apparatus which concerns on Embodiment 3 of this invention is applied.
  • FIG. 18 is a view for explaining an in-vehicle environment model possessed by the target sound emphasis device according to the third embodiment.
  • FIG. 16 is a flowchart for describing beamformer type determination processing by the target sound emphasis device according to Embodiment 3.
  • FIG. 18 is a view for explaining an in-vehicle environment model possessed by the target sound emphasis device according to the fifth embodiment.
  • FIG. 18 is a flowchart for describing beamformer type determination processing by the target sound emphasis device according to Embodiment 5.
  • Embodiment 1 The car navigation system 1 shown in FIG. 1 emphasizes a target sound by using a microphone array consisting of microphones 2 and 3 which record audio signals in the car and convert them into electric signals, and output signals of these microphones 2 and 3 as inputs.
  • Target sound emphasizing device 10 a hands-free call control unit 4 for performing hands-free calling using (sending) a voice signal obtained by emphasizing the target sound, and a navigation control unit (not shown) for performing route search and guidance And so on.
  • the microphones 2 and 3 can be attached at intervals of about 10 cm to a rearview mirror or the like in the car.
  • the target voice of the target sound emphasis device 10 is the driver's voice, and thus the target direction is the driver's seat direction.
  • the number of microphones is two in the illustrated example, generally, the beam former can handle inputs of two or more channels, so the number of microphones may be three or more.
  • two microphones 2 and 3 will be described as an example to simplify the description.
  • the target sound emphasizing device 10 includes FFT (Fast Fourier Transform) computing units 11 and 12, an in-vehicle environment model storage unit 13, a beam former type determining unit 14, a BF (Beam Former) selector (output switching unit) 15, and The first beam former 16, the second beam former 17, and the signal combining unit 18 are provided.
  • FFT Fast Fourier Transform
  • BF Beam Former
  • the FFT operation unit 11 converts the output signal of the microphone 2 from the time domain to the frequency domain by FFT and outputs the converted signal to the BF selector 15.
  • the FFT operation unit 12 converts the output signal of the microphone 3 into the frequency domain and outputs the converted signal to the BF selector 15.
  • the conversion method to the frequency domain is not limited to FFT.
  • the number of FFT operation units may be prepared as the same as the number of microphones in the car navigation system 1, and is not limited to two as in the illustrated example.
  • the in-vehicle environment model storage unit 13 is a memory that models and holds noise characteristics of the in-vehicle environment of a specific vehicle type.
  • the beamformer type determination unit 14 determines the beamformer type to be applied to the signal for each predetermined frequency band output from the BF selector 15 according to the in-vehicle environment model held by the in-vehicle environment model storage unit 13.
  • the BF selector 15 divides the signal in the frequency domain output from the FFT operation units 11 and 12 into predetermined frequency bands and outputs the divided signal to the beamformer type determination unit 14 and determines the divided signal as a beamformer type determination. It is a separator which outputs to the beamformer which should be applied based on the judgment result of the part 14.
  • the first beamformer 16 and the second beamformer 17 are beamformers of different types, and perform beamforming processing on the frequency band signal output from the BF selector 15.
  • a fixed delay-sum method is used as the first beam former 16 and a beam former of the adaptive minimum dispersion method is used as the second beam former 17.
  • the delay-sum method and the minimum dispersion method are known techniques, detailed description will be omitted.
  • the signal combining unit 18 combines the signals for each frequency band output from the first beam former 16 and the second beam former 17 and converts the signals into a time domain by inverse FFT or the like to restore an audio signal.
  • the FFT calculators 11 and 12 convert the output signals of the microphones 2 and 3 into signals in the frequency domain and output the signals to the BF selector 15 (step ST1).
  • the BF selector 15 divides the signal of each frequency domain into a predetermined bandwidth, and outputs it to the beamformer type determination unit 14 (for example, in order from a band with a smaller frequency) for each band (step ST2).
  • the beam former type determination unit 14 determines the beam former type to which the signal of the frequency band given from the BF selector 15 is to be applied (step ST3). Details of the beam former type determination method will be described later.
  • the BF selector 15 When the BF selector 15 receives the determination result of the beamformer type to be applied from the beamformer type determination unit 14 for the signal of the frequency band to be processed, either of the first beamformer 16 and the second beamformer 17 according to the determination result. Output the signal of that frequency band to the selected one. Then, the selected beamformer of either the first beamformer 16 or the second beamformer 17 performs beamforming on the input signal of the frequency band to be processed (step ST4). Finally, the signal combining unit 18 combines the signals of the respective frequency bands output from the first beam former 16 and the second beam former 17 to create an enhanced voice signal of the target sound (ie, the driver's voice). And output to the hands-free call control unit 4.
  • FIG. 3 is a diagram for explaining an in-vehicle environment model held by the in-vehicle environment model storage unit 13.
  • the in-vehicle environment model includes information of directivity characteristics of the first beam former 16 (hereinafter, first beam former directivity characteristics) 131, information of directivity characteristics of the second beam former 17 (hereinafter, second beam former directivity characteristics) 132, and The information of the in-vehicle estimated noise power 133 is included.
  • the first beam former directivity characteristic 131 is information indicating the directivity characteristic for each frequency band of the first beam former 16 in the vehicle of the target vehicle. Since the first beam former 16 is a delay-sum method, when the sound in the interior of the target vehicle can be approximated by a plane wave, the directivity characteristic can be obtained as in the following expression (1). Where ⁇ L is the angle in the target direction, d is the distance between the microphones (here 10 cm), M is the number of microphones (here two), f is the frequency, and c is the velocity of sound.
  • the radius from the center at each angle indicates the magnitude of the gain of the beamformer at that angle.
  • the directivity characteristic may be measured in advance by experiment and set in the in-vehicle environment model storage unit 13.
  • a sweep signal such as a TSP (Time Stretched Pulse) signal is transmitted from a predetermined position, and an audio signal recorded by the microphones 2 and 3 is processed by the first beam former 16 and its power May be set in the in-vehicle environment model storage unit 13.
  • the predetermined position at this time is, for example, a position every predetermined angle at a radius of 50 cm of the microphones 2 and 3 or the like.
  • the second beam former 17 is an adaptive minimum dispersion method
  • the directivity characteristic is obtained by the measurement as described above, and if it is set in the in-vehicle environment model storage unit 13 as the second beam former directivity characteristic 132 in advance. Good.
  • the in-vehicle estimated noise power 133 is information representing the average noise power in the vehicle of the target vehicle as a function of frequency.
  • FIG. 5 is a graph showing an example of in-vehicle estimated noise power 133.
  • This estimated in-vehicle noise power 133 can estimate the noise power at a specific frequency for the in-vehicle of the target vehicle.
  • FIG. 6 is a flowchart showing details of the beamformer type determination process (corresponding to step ST3 in FIG. 2) by the beamformer type determination unit 14.
  • the beamformer type determination unit 14 receives the signal of the frequency (or frequency band) f output from the BF selector 15 (step ST31), and the type of beamformer to be applied to this frequency f (the first process)
  • the beam former 16 or the second beam former 17) is determined.
  • the beamformer type determination unit 14 acquires the first beamformer directivity characteristic 131, the second beamformer directivity characteristic 132, and the in-vehicle estimated noise power 133 corresponding to the frequency f from the in-vehicle environment model storage unit 13 (step ST32) ). Then, the first beam former 16 is evaluated by a predetermined evaluation formula using the first beam former directivity characteristic 131 and the in-vehicle estimated noise power 133, and for the second beam former 17, the second beam former directivity characteristic 132 and in-vehicle estimation The noise power 133 is used to evaluate according to a predetermined evaluation formula, and an evaluation value is obtained (step ST33).
  • the evaluation formula is V (BF, f, NP), and is a function of beamformer type BF (the first beamformer 16 is BF_1, the second beamformer 17 is BF_2), the frequency f, and the estimated noise power NP.
  • the evaluation formula of the first beam former 16 is set as the following formula (2)
  • the evaluation formula of the second beam former 17 is set as the following formula (3).
  • the main lobe width is defined as the width of an angle ⁇ centered on the target direction at which the gain value is smaller than a predetermined value with respect to the target direction.
  • the beamformer type determination unit 14 compares the evaluation value of the first beamformer 16 with the evaluation value of the second beamformer 17 (step ST34), and if the evaluation value of the first beamformer 16 is high, the first beamformer 16 Is selected and notified to the BF selector 15 (step ST35). On the other hand, if the evaluation value of the second beam former 17 is high, the second beam former 17 is selected and notified to the BF selector 15 (step ST36).
  • the BF selector 15 receives the notification of step ST36 and outputs a signal of frequency f to the selected beamformer.
  • Step ST37 “YES”) ends the series of beam former type determination processing.
  • the process returns to step ST31 again.
  • the beam former is evaluated using the first beam former directivity characteristic 131, the second beam former directivity characteristic 132, and the in-vehicle estimated noise power 133 of the in-vehicle environment model storage unit 13 shown in FIG. It is not limited to this evaluation method.
  • the in-vehicle environment model storage unit 13a newly holds information (hereinafter, microphone directivity characteristics) 134 indicating the directivity characteristics of the microphones 2 and 3 for each frequency band.
  • the beamformer type determination unit 14 obtains an estimated SN (signal to noise) ratio by the ratio of the microphone directivity characteristic and the beamformer directivity characteristic for each frequency band.
  • the evaluation formula of the first beam former 16 is the following formula (4)
  • the evaluation formula of the second beam former 17 is the following formula (5).
  • G M ( ⁇ ), G BF1 ( ⁇ ), and G BF2 ( ⁇ ) are gain values at frequencies f in the direction of the angle ⁇ of the microphones 2 and 3, the first beam former 16 and the second beam former 17, respectively.
  • ⁇ W is an angular region for performing integration. Although the directivity is obtained at 360 °, there may be cases where the directivity at the rear should not be considered because there is no sound source behind the microphone in practice. Therefore, ⁇ W is determined according to the in-vehicle environment of the target vehicle. This facilitates selection of a beamformer with sharp directivity. Further, as in the above equation (3), the term of the ratio of the estimated noise power to the reference value may be multiplied by the equation (5).
  • the target sound emphasizing device 10 converts the output signals from the microphones 2 and 3 installed in the car into signals in the frequency domain, and an FFT processing unit
  • the in-vehicle environment model storage unit 13 holding the beamformer group having the beamformer 17, the first beamformer directivity characteristic 131, the second beamformer directivity characteristic 132, and the in-vehicle estimated noise power 133, and the FFT operation units 11 and 12 convert The first and second beam formers 16 and 17 are used as the first and second beam former directivity characteristics 13 for each predetermined frequency band for the signal of the different frequency domain.
  • the BF selector 15 outputs to the beam formers 16 and 17, and the signal combining unit 18 combines the signals of each predetermined frequency band output from the beam former group. For this reason, it becomes possible to switch and apply the beamformer most suitable for the in-vehicle environment specific to the target vehicle according to the frequency, to improve the SN ratio, and to optimally emphasize the voice coming from the driver's seat.
  • the in-vehicle environment model held by the in-vehicle environment model storage unit 13 in accordance with the target vehicle, it is possible to easily perform optimum beam former setting.
  • the amount of computation can be reduced.
  • the ratio of the estimated noise power to the reference value is used as in the evaluation formula (3) for beamformer type evaluation. By multiplying the terms, the other delay sum method is more likely to be selected when the noise is small. Therefore, it is possible to compensate for the disadvantages of each type of beamformer.
  • the present invention is not limited to this. Since the in-vehicle environment model storage unit 13 is a static data set, it is determined in advance which beamformer is to be applied for each frequency band according to the flowchart shown in FIG. It is also possible to hold the type as a table.
  • the example which applied the target sound emphasis apparatus 10 with respect to the car navigation system 1 provided with the handsfree telephone call control part 4 was demonstrated in the said Embodiment 1, the application is not limited to this.
  • the voice of the destination uttered by the driver is recorded by the microphones 2 and 3 as pre-processing, and the target sound emphasis device 10 appropriately
  • the voice recognition unit of the car navigation system 1 may use the voice signal subjected to the forming process.
  • the microphone array in which the distance between the microphones 2 and 3 is about 10 cm is used in the above description, this is a value on the assumption that the microphones 2 and 3 are mounted in the vehicle, and the distance is not defined as 10 cm.
  • the delay-and-sum method the first beam former 16
  • FIG. 8 is a block diagram showing the configuration of a car navigation system 1 to which the target sound emphasis device 10 according to the second embodiment is applied.
  • the target sound emphasizing device 10 according to the second embodiment further includes an in-vehicle situation estimation unit 19 that estimates the current in-vehicle situation from signals in the frequency domain input in time series.
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts in FIG.
  • the BF selector 15 divides the signal in the frequency domain output from the FFT operation units 11 and 12 into a signal having a predetermined bandwidth, and sequentially determines the beamformer type determination unit 14 and the in-vehicle condition estimation unit 19 in ascending order of frequency. Output.
  • the in-vehicle situation estimation unit 19 estimates the current in-vehicle situation (estimated noise power for each frequency band) based on the signal for each frequency band output from the BF selector 15, and uses the beamformer type determination unit 14 as a situation parameter. Output.
  • the speech domain and the non-speech segment that is, the noise segment
  • the noise power may be estimated by detecting and calculating the power from the signal of the detected noise section. Further, since the calculation of the estimated noise power is different for each microphone, the in-vehicle situation estimation unit 19 may use the average value of the signals of the microphones 2 and 3 or select and use one of the signals.
  • the beamformer type determination unit 14 uses the estimated noise power for each frequency band output from the in-vehicle situation estimation unit 19 instead of the estimated in-vehicle noise power 133 stored in the in-vehicle environment model storage unit 13 in advance.
  • the beamformer type suitable for the signal for each frequency band output from the selector 15 is determined. Therefore, the in-vehicle environment model storage unit 13 does not have to hold in-vehicle estimated noise power 133 in advance.
  • the target sound emphasis device 10 includes the in-vehicle situation estimation unit 19 that estimates the noise power of the in-vehicle environment using the output signals of the microphones 2 and 3, and the beamformer type determination unit 14
  • the noise power estimated by the in-vehicle condition estimation unit 19 is used. Therefore, noise can be estimated from the current output signal, and a beamformer type more suitable for the situation can be selected.
  • FIG. 9 is a block diagram showing the configuration of a car navigation system 1 to which the target sound emphasis device 10 according to the third embodiment is applied. Parts in FIG. 9 identical or corresponding to parts in FIG. 1 are assigned the same codes as in FIG.
  • FIG. 10 is a diagram for explaining an in-vehicle environment model held by the in-vehicle environment model storage unit 13b.
  • the in-vehicle environment model storage unit 13 b newly holds information on the beamforming avoidance frequency 135 in addition to the first beamformer directivity characteristic 131, the second beamformer directivity characteristic 132, and the in-vehicle estimated noise power 133.
  • the beamforming avoidance frequency 135 is information indicating a frequency band of noise having no difference between the plurality of microphones 2 and 3 such as vibration of a vehicle component (engine, audio, etc.), and this is noise which can not be suppressed by beamforming. .
  • Steps ST31 to ST37 shown in FIG. 11 are the same processes as steps ST31 to ST37 shown in FIG. 2 and thus the description thereof is omitted.
  • the description will be made focusing on steps ST41 and ST42.
  • the beamformer type determination unit 14 determines whether the frequency (or frequency band) f to be processed corresponds to the beamforming avoidance frequency 135 (step ST41). If the frequency f corresponds to the avoidance frequency ("YES" in step ST41), the beamformer type determination unit 14 determines that there is no beamformer to be applied to the frequency f, and notifies the BF selector 15 of that ( Step ST42). On the other hand, if the frequency f does not correspond to the avoidance frequency ("NO" at step ST41), either the first beam former 16 or the second beam former 17 is selected by the processing of the subsequent step ST33. The BF selector 15 outputs the signal of the frequency f to the signal combining unit 18 when the signal of the frequency f is notified from the beamformer type determination unit 14 that the beamforming processing is not performed.
  • the evaluation value of the first beamformer 16 and the second beamformer 17 is obtained by the processing after step ST33, the first beamformer directivity characteristic 131, the second beamformer directivity characteristic 132, and the in-vehicle estimated noise power 133 are used. Needless to say, other than the evaluation method, evaluation may be performed using the microphone directivity characteristic 134 or using estimated noise power obtained by the in-vehicle situation estimation unit 19.
  • the target sound emphasis device 10 causes the in-vehicle environment model storage unit 13b to use the beamforming avoidance frequency 135 indicating a frequency band for avoiding the processing by the first and second beam formers 16 and 17.
  • the beamformer type determination unit 14 does not select the beamformer and does not select the beamformer when the frequency band subject to beamformer evaluation corresponds to the beamforming avoidance frequency 135 held by the in-vehicle environment model storage unit 13b.
  • the configuration 15 is configured to output to the signal combining unit 18 the signal of the frequency band for which the beamformer type determination unit 14 has not selected the beamformer. For this reason, it is possible to perform beamforming processing more suitable for the target vehicle type.
  • the target sound emphasizing device 10 according to the fourth embodiment has the same configuration as that of the target sound emphasizing device 10 shown in FIG. 1 in the drawings, and therefore, will be described below with reference to FIG.
  • the evaluation equation V ′ (BF, f, NP) of the beam former is defined as follows using the evaluation equation V (BF, f, NP) described in the first embodiment. .
  • the beam former type BF includes BF_1 (first beam former 16) and BF_2 (second beam former 17).
  • ⁇ (BF) is a coefficient parameter determined for each beamformer type, and 1 may be uniformly given to all beamformer types.
  • Cost (BF) is a function that returns the calculation cost for the beamformer type. This function can be constructed in advance by using the calculation cost for each beamformer type as a table and storing the in-vehicle environment model storage unit 13 or the like.
  • the magnitude of the calculation amount does not matter when the estimated noise power NP is large, and VC (BF, NP) becomes a value close to 1. Therefore, the evaluation value (6) of the beamformer is determined by the directivity characteristic determined by V (BF, f, NP).
  • the degree to which the calculation cost contributes to the evaluation value increases, and the calculation cost determines the evaluation value of the beamformer.
  • the beamformer type determination unit 14 refers to the in-vehicle estimated noise power 133 of the in-vehicle environment model storage unit 13 (step ST 51), and among the signals in the frequency domain output from the BF selector 15, frequencies for which determination has not been performed yet The estimated noise powers of the bands are compared, and a frequency band (or frequency) f at which the estimated noise power is maximum is selected (step ST52).
  • the beamformer type determination process is performed for each predetermined bandwidth in order from the smaller to the larger frequency band, but in the fourth embodiment, the predetermined band is estimated in descending order of estimated noise power. Beam former type determination processing is performed for each width.
  • the beamformer type determination unit 14 determines from the in-vehicle environment model storage unit 13 the first beamformer directivity characteristic 131 and the in-vehicle estimated noise power 133 and the second beamformer directivity characteristic 132 and the in-vehicle estimated noise from the signal of the selected frequency band f.
  • the evaluation value of each of the first beam former 16 and the second beam former 17 is obtained from the above equation (6) using the power 133 (step ST53). Then, the evaluation values are compared (step ST54), and if the evaluation value of the first beam former 16 is high, the first beam former 16 is selected and notified to the BF selector 15 (step ST55). If the evaluation value is high, the second beam former 17 is selected and notified to the BF selector 15 (step ST56).
  • step ST57 “YES”) End the series of beam former type determination processing.
  • step ST57 “NO” the process returns to step ST51 again.
  • the target sound emphasizing device 10 stores the information on the calculation costs of the first and second beam formers 16 and 17 in the in-vehicle environment model storage unit 13 or the like.
  • the type determination unit 14 is configured to evaluate for each predetermined frequency band based on the first beam former directivity characteristic 131, the second beam former directivity characteristic 132, the in-vehicle estimated noise power 133, and the calculation cost. Furthermore, the beamformer type determination unit 14 is configured to evaluate the beamformer in order from the frequency band with the largest noise power with reference to the in-vehicle estimated noise power 133 held by the in-vehicle environment model storage unit 13.
  • the beamformer type with high appropriateness of directivity is selected without being affected by the amount of calculation, and conversely, in the frequency band where the estimated noise power is small and the directivity of the beamformer does not affect much. Since the type of beamformer with a small amount of calculation is selected, the total amount of calculation can be reduced without significantly reducing the overall performance.
  • the calculation cost is taken into consideration by the ratio to the estimated noise power as in the above equation (7), but another evaluation equation having the calculation cost as a variable may be used.
  • the in-vehicle situation estimation is performed as in the second embodiment instead of the in-vehicle estimated noise power 133 held by the in-vehicle environment model storage unit 13.
  • the noise power estimated in real time using the unit 19 may be used.
  • FIG. 13 is a block diagram showing the configuration of a car navigation system 1 to which a target sound emphasis device 10 according to the fifth embodiment is applied.
  • the target sound emphasizing device 10 according to the fifth embodiment newly includes a calculation amount integrating unit 20 that integrates calculation amounts by the first beam former 16 and the second beam former 17 for each frequency band, and a current CPU. (Central Processing Unit)
  • the same reference numerals as in FIG. 1 denote the same or corresponding parts in FIG.
  • the target sound emphasizing device 10 shown in FIG. 13 is configured by a computer, and the FFT operation units 11 and 12, the beam former type determination unit 14, the BF selector 15, the first beam former 16, the second beam former 17, and the signal.
  • a program that describes the processing contents of the combining unit 18 and the calculation amount integration unit 20 is stored in the memory of the computer, and the CPU of the computer executes the program stored in the memory. Therefore, the FFT operation units 11 and 12, the beam former type determination unit 14, the BF selector 15, the first beam former 16, the second beam former 17, the signal combination unit 18, and the calculation amount integration unit 20 affect the CPU load status. It will affect. Then, the load status acquisition unit 21 acquires the usage rate X [%] of the CPU.
  • the hands-free call control unit 4 or the like also affects the usage rate X of the CPU acquired by the load state acquisition unit 21. It will be.
  • FIG. 14 is a diagram for explaining an in-vehicle environment model held by the in-vehicle environment model storage unit 13c.
  • the in-vehicle environment model storage unit 13c In addition to the first beam former directivity characteristic 131, the second beam former directivity characteristic 132, and the in-vehicle estimated noise power 133, the in-vehicle environment model storage unit 13c newly holds a calculation remaining capacity table 136.
  • the calculation capacity table 136 is information indicating calculation capacity which can be allocated to the beamformer group according to the CPU usage rate.
  • the calculation amount when the beamformer with the lowest calculation cost among the beamformers of the target sound enhancement device 10 is applied to all frequency bands is MinCost, and the calculation cost of this MinCost and the beamformer group Let the difference of be the calculation power.
  • MinCost since the first beam former 16 using the fixed delay sum method has the lowest calculation cost, this is referred to as MinCost. Therefore, the calculation remaining capacity table 136 is equivalent to holding the calculation cost of the second beam former 17 as the calculation remaining capacity. This table may be created in advance as a parameter and set in the in-vehicle environment model storage unit 13c.
  • steps ST51 to ST57 shown in FIG. 15 are the same processes as steps ST51 to ST57 shown in FIG. 12, the description will be omitted, and here, the description will be made focusing on steps ST61 to ST66.
  • the load status acquisition unit 21 acquires the CPU usage rate X (step ST61).
  • the beamformer type determination unit 14 obtains the calculation capacity of the beamformer group corresponding to the CPU usage rate X output from the load status acquisition unit 21 with reference to the calculation capacity table 136 of the in-vehicle environment model storage unit 13c. It is set as the calculation allowance Z (step ST62). Further, the beamformer type determination unit 14 clears the integrated calculation amount stored in the calculation amount integration unit 20 (step ST63).
  • the beamformer type determination unit 14 refers to the calculation amount integration unit 20, acquires the current integrated calculation amount, and sets it as an integrated calculation amount Y (step ST64).
  • the accumulated calculation amount Y is zero because the accumulated calculation amount is just cleared in the previous step ST63.
  • the integrated calculation amount Y is compared with the calculation remaining capacity Z (step ST65), and when the integrated calculation amount Y is larger than the calculation remaining capacity Z (step ST65 "YES"), the first beam former 16 having the minimum calculation cost. Is selected (step ST55). As a result, when the CPU load is high, it is possible to select the beamformer with the lowest calculation cost.
  • the beamformer type determination unit 14 still refers to the in-vehicle environment model storage unit 13c and performs determination as in the fourth embodiment.
  • the type of beamformer to be applied is determined from the above equation (6) for the frequency band where the estimated noise power is maximum (steps ST51 to ST56).
  • the beamformer type determination unit 14 adds the calculation amount obtained from the following equation (8) for the selected beamformer to the integrated calculation amount held by the calculation amount integration unit 20, and the calculation amount integration unit 20 is updated (step ST66).
  • Cost (BF) -MinCost (8)
  • Cost (BF) is the same as the above equation (7), and is a function that returns the calculation cost for the beam former type.
  • MinCost corresponds to the calculation cost Cost (BF_1) of the first beam former 16.
  • step ST57 “YES”) End the series of beam former type determination processing.
  • step ST57 “NO” the process returns to step ST64 again.
  • the beamformer type determination unit 14 integrates the difference from the minimum cost MinCost in the calculation amount integration unit 20 for each frequency band, and only the beamformer with the minimum cost (ie, the first beamformer 16).
  • the first beam former 16 and the second beam former 17 are switched based on how much the amount of calculation has increased from the case of the configuration.
  • the target sound emphasis device 10 integrates the calculation amount by the first or second beam formers 16 and 17 for each predetermined frequency band, and the CPU load
  • the in-vehicle environment model storage unit 13c can be allocated to the beamformer group according to the calculation cost according to the beamformer type and the CPU utilization rate.
  • the information on the calculation capacity is stored, and the beamformer type determination unit 14 acquires the calculation capacity according to the CPU usage rate acquired by the load status acquisition unit 21 from the in-vehicle environment model storage unit 13c, and for each predetermined frequency band If the integration calculation amount of the calculation amount integration unit 20 is smaller than the acquired calculation remaining capacity, the first and second beam formers 16 and 17 are evaluated and selected, and the integration calculation amount It becomes equal to or larger than calculated reserve capacity and configured to select a first beam former 16 small calculation cost of the first and second beam formers 16 and 17. Therefore, it is possible to switch the beam former type according to the load condition of the target sound emphasis device 10 or the car navigation system 1. Therefore, it is suitable to apply to the system with which the load condition is easy to be changed like the car navigation system 1.
  • the delay-and-sum method is used for the first beam former 16, and the minimum dispersion method is used for the second beam former 17.
  • the type of beam former is not limited to these. For example, maximum likelihood method, multi-channel Wiener filter, generalized side lobe canceller, etc. may be used. Also in the case of this configuration, each beamformer may be evaluated and determined based on directivity characteristics, calculation amount, SN performance and the like as the beamformer type determination.
  • the first beam former 16 and the second beam former 17 are provided with two types of beam formers, three or more types of beam formers may be provided.
  • the present invention is free combination of each embodiment, or modification of any component of each embodiment, or omission of any component in each embodiment. It is possible.
  • the target sound emphasizing device switches the beam former type according to the in-vehicle environment model, it is suitable for use in a car navigation system, an on-vehicle hands-free call system, and the like.
  • 1 car navigation system, 2 and 3 microphones, 4 hands-free call control unit 10 target sound enhancement device, 11 FFT operation unit, 12 FFT operation unit, 13, 13a, 13b, 13c in-vehicle environment model storage unit, 14 beam former type Judgment unit, 15 BF selector (output switching unit), 16 first beam former, 17 second beam former, 18 signal combining unit, 19 interior condition estimation unit, 20 calculation amount integration unit, 21 load condition acquisition unit, 131 first Beamformer directivity characteristics, 132 second beamformer directivity characteristics, 133 estimated in-vehicle noise power, 134 microphone directivity characteristics, 135 beamforming avoidance frequency, 136 calculation capacity table.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

 目的音強調装置10は、方式の異なる第1ビームフォーマ16と第2ビームフォーマ17を有する。車内環境モデル記憶部13には、この目的音強調装置10が搭載された車内環境モデルが格納されている。ビームフォーマ種別判定部14は、所定周波数帯域毎に、車内環境モデルに従って最適なビームフォーマを選択し、BFセレクタ15が各周波数帯域の信号を選択されたビームフォーマへ出力する。信号結合部18は、第1ビームフォーマ16または第2ビームフォーマ17から出力される運転者の音声が強調された周波数帯域毎の信号を結合する。

Description

目的音強調装置およびカーナビゲーションシステム
 この発明は、マイクロフォンアレイの出力信号から目的音を強調した音声信号を生成する目的音強調装置、およびこの目的音強調装置を利用したカーナビゲーションシステムに関する。
 例えば自動車の車室のように雑音が大きい環境または複数の信号源が存在する環境の中で、車載ハンズフリーのような通話システムを構築するためには、特定の信号源(話者)の信号のみを分離して抽出する技術が必要である。そのような技術の一つとしてビームフォーマがある。ビームフォーマは、マイクロフォンアレイにより取得した複数チャネルの信号を足し合わせることで目的方向の信号を強調するものであり、固定型のビームフォーマと適応型のビームフォーマがある。最も単純な固定型ビームフォーマは遅延和法(Delay and Sum)であり、適法型のビームフォーマには最尤法(ML法)、最小分散法(MVDR)、一般化サイドローブキャンセラ(GSC)などがある(例えば、非特許文献1参照)。
 遅延和法は、目的方向にマイク感度の指向性を向ける方式であり、一般に計算量が少ないが、車載目的などリソースに制限がある場合はサイドローブが大きい、残響環境に弱い、低周波領域に対して十分な指向性が得られないなどの課題があった。
 低周波領域において指向性を上げるためには、マイクロフォンアレイの全体のアレイ長を長くする必要がある。例えば1000Hzの音に対してメインローブが±10°程度の指向性を得ようとすればアレイ長は約2m必要となる。
 また、単純にマイクロフォンの間隔を長くすることによりアレイ長を長くしても、グレーティングローブが目的方向以外に発生し、指向性が低下する(例えば、非特許文献2参照)。
 従って、グレーティングローブを抑制しつつ低周波領域での指向性を保つためには、多数のマイクロフォンを密に並べる必要があり、コストが増大してしまう。
 一方、適応型のビームフォーマは、目的方向の感度を一定に保った上で雑音音源が死角になるような指向性を形成する方式であり、低周波領域に対しても有効で、かつ、残響環境下でも雑音抑圧を行うことができるが、計算量が大きい、拡散性雑音には効果が弱いなどの課題があった。
 そこで、少ないマイクロフォンでも高い音源分離性能を実現するために、例えば特許文献1では複数のビームフォーマを用意している。周波数帯域毎にそれらのビームフォーマを適用した結果より、最も振幅の大きいビームフォーマの出力を採用して合成することで音源分離性能を高め、音声認識精度を向上させている。
 また例えば、特許文献2では周波数帯域毎のビームフォーマのビーム幅および環境雑音モデルなどから、複数のビームフォーマを用いて特定領域内の角度区間範囲を最適にカバーする包括的ビームフォーマが提案されている。
特許4457221号公報 特開2005-253071号公報
浅野太著、「音のアレイ信号処理―音源の定位・追跡と分離―」、株式会社コロナ社、2011年、p69-106 大賀寿郎、山崎芳男、金田豊共著、「音響システムとディジタル処理」、社団法人電子情報通信学会、1995年、p181-186
 上記特許文献1,2の方式は汎用性を追求したものであった。そのため、上記特許文献1のように複数のビームフォーマから得られる信号のうちの振幅が最大のものを選択すると、車内のようなノイズと音声のパワーが近い場合にノイズ源を選択してしまうという課題があった。また、上記特許文献2の方式は特定方向から到来する目的音を最適に強調するものではないので、車内の話者の音声を最適に強調するためには更なる改良が求められる。
 この発明は、上記のような課題を解決するためになされたもので、複数の方式のビームフォーマを車内環境モデルに従って周波数帯域毎に切り替えて、車内の話者の音声信号を最適に強調することを目的とする。
 この発明の目的音強調装置は、車内に設置された2個以上のマイクロフォンからの出力信号を周波数領域の信号に変換する演算部と、演算部が変換した複数の周波数領域の信号から、所定周波数帯域毎に目的音を強調した信号を生成するビームフォーマを、異なる方式で2つ以上有するビームフォーマ群と、車内環境における所定周波数帯域毎の雑音特性およびビームフォーマそれぞれの指向特性の情報を保持する車内環境モデル記憶部と、所定周波数帯域毎に、ビームフォーマそれぞれを車内環境モデル記憶部が保持する指向特性と雑音特性に基づいて評価し、当該評価の最も高いビームフォーマを選択するビームフォーマ種別判定部と、演算部が変換した周波数領域の信号を所定周波数帯域毎に、ビームフォーマ種別判定部が選択したビームフォーマへ出力する出力切替部と、ビームフォーマ群が出力する所定周波数帯域毎の信号を結合する信号結合部とを備えるものである。
 この発明のカーナビゲーションシステムは、車内に設置される2個以上のマイクロフォンと、各マイクロフォンからの出力信号を入力に用いて、車内の話者の声を強調した音声信号を生成する上述の目的音強調装置と、目的音強調装置が生成した音声信号を利用してハンズフリー通話を行うハンズフリー通話制御部とを備えるものである。
 この発明によれば、車内環境における音響特性に基づいて周波数帯域毎にビームフォーマを評価し、最適なビームフォーマにより目的音を強調するようにしたので、車内の話者の音声信号を最適に強調することができる。
この発明の実施の形態1に係る目的音強調装置を適用したカーナビゲーションシステムの構成を示すブロック図である。 実施の形態1に係る目的音強調装置の動作を示すフローチャートである。 実施の形態1に係る目的音強調装置の有する車内環境モデルを説明する図である。 実施の形態1に係る目的音強調装置の有する第1ビームフォーマ指向特性の一例を示すグラフである。 実施の形態1に係る目的音強調装置の有する車内推定雑音パワーの一例を示すグラフである。 実施の形態1に係る目的音強調装置によるビームフォーマ種別判定処理を説明するフローチャートである。 実施の形態1に係る目的音強調装置の有する車内環境モデルの別の例を説明する図である。 この発明の実施の形態2に係る目的音強調装置を適用したカーナビゲーションシステムの構成を示すブロック図である。 この発明の実施の形態3に係る目的音強調装置を適用したカーナビゲーションシステムの構成を示すブロック図である。 実施の形態3に係る目的音強調装置の有する車内環境モデルを説明する図である。 実施の形態3に係る目的音強調装置によるビームフォーマ種別判定処理を説明するフローチャートである。 この発明の実施の形態4に係る目的音強調装置によるビームフォーマ種別判定処理を説明するフローチャートである。 この発明の実施の形態5に係る目的音強調装置を適用したカーナビゲーションシステムの構成を示すブロック図である。 実施の形態5に係る目的音強調装置の有する車内環境モデルを説明する図である。 実施の形態5に係る目的音強調装置によるビームフォーマ種別判定処理を説明するフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1に示すカーナビゲーションシステム1は、車内の音声信号を収録して電気信号に変換するマイク2,3からなるマイクロフォンアレイと、これらマイク2,3の出力信号を入力に用いて目的音を強調する目的音強調装置10と、目的音を強調処理した音声信号を利用して(送信して)ハンズフリー通話を行うハンズフリー通話制御部4と、経路探索及び案内を行うナビゲーション制御部(不図示)などから構成されている。このカーナビゲーションシステム1において、マイク2,3は10cm程度の間隔とし、車内のバックミラー等に取り付けることができる。また、目的音強調装置10の目的音声は運転者の声であり、従って目的方向は運転席方向である。また、図示例ではマイク数を2個としたが、一般にビームフォーマは2チャネル以上の入力を扱えるため、マイク数を3個以上にしてもよい。ただし、本実施の形態1では説明を簡単にするため2個のマイク2,3を例に用いて説明する。
 目的音強調装置10は、FFT(Fast Fourier Transform)演算部11,12と、車内環境モデル記憶部13と、ビームフォーマ種別判定部14と、BF(BeamFormer)セレクタ(出力切替部)15と、第1ビームフォーマ16と、第2ビームフォーマ17と、信号結合部18とから構成されている。
 FFT演算部11は、FFTにより、マイク2の出力信号を時間領域から周波数領域に変換して、BFセレクタ15へ出力する。同様に、FFT演算部12はマイク3の出力信号を周波数領域に変換してBFセレクタ15へ出力する。なお、周波数領域への変換方式はFFTに限定されるものではない。また、FFT演算部はカーナビゲーションシステム1の有するマイクの数と同数用意すればよく、図示例のように2個に限定されるものではない。
 車内環境モデル記憶部13は、特定車種の車内環境の雑音特性をモデル化して保持するメモリである。ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内環境モデルに従って、BFセレクタ15から出力される所定の周波数帯域毎の信号に適用すべきビームフォーマ種別を判定する。BFセレクタ15は、FFT演算部11,12から出力される周波数領域の信号を所定の周波数帯域毎に分割してビームフォーマ種別判定部14に出力すると共に、その分割した信号を、ビームフォーマ種別判定部14の判定結果に基づいて適用すべきビームフォーマへ出力する分別器である。
 第1ビームフォーマ16および第2ビームフォーマ17は互いに異なる方式のビームフォーマ器であり、BFセレクタ15から出力される周波数帯域の信号に対してビームフォーミング処理を行う。ここでは、第1ビームフォーマ16として固定型の遅延和法、第2ビームフォーマ17として適応型の最小分散法のビームフォーマ器を用いる。なお、遅延和法および最小分散法は公知の技術であるため、詳細な説明は省略する。
 信号結合部18は、第1ビームフォーマ16および第2ビームフォーマ17から出力される周波数帯域毎の信号を結合し、逆FFTなどにより時間領域に変換して音声信号に復元する。
 次に、図2に示すフローチャートを用いて、目的音強調装置10の動作を説明する。
 FFT演算部11,12は、マイク2,3の出力信号をそれぞれ周波数領域の信号に変換して、BFセレクタ15へ出力する(ステップST1)。BFセレクタ15は、各周波数領域の信号を所定の帯域幅に分割し、帯域毎に(例えば周波数の小さい帯域から順に)ビームフォーマ種別判定部14へ出力する(ステップST2)。ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内環境モデルに基づいて、BFセレクタ15から与えられた周波数帯域の信号を適用すべきビームフォーマ種別を判定する(ステップST3)。ビームフォーマ種別判定方法の詳細は後述する。
 BFセレクタ15は、処理対象の周波数帯域の信号についてビームフォーマ種別判定部14から適用すべきビームフォーマ種別の判定結果を受け取ると、その判定結果に従って第1ビームフォーマ16および第2ビームフォーマ17のいずれか選択された方へその周波数帯域の信号を出力する。そして、第1ビームフォーマ16また第2ビームフォーマ17のいずれか選択されたビームフォーマが、入力された処理対象の周波数帯域の信号をビームフォーミング処理する(ステップST4)。
 最後に、信号結合部18が、第1ビームフォーマ16および第2ビームフォーマ17から出力される各周波数帯域の信号を結合して、目的音(即ち、運転者の音声)の強調された音声信号としてハンズフリー通話制御部4に出力する。
 次に、ビームフォーマ種別判定処理の詳細を説明する。
 図3は、車内環境モデル記憶部13が保持する車内環境モデルを説明する図である。車内環境モデルは、第1ビームフォーマ16の指向特性の情報(以下、第1ビームフォーマ指向特性)131、第2ビームフォーマ17の指向特性の情報(以下、第2ビームフォーマ指向特性)132、および車内推定雑音パワー133の情報を含む。
 第1ビームフォーマ指向特性131は、対象車の車内における、第1ビームフォーマ16の周波数帯域毎の指向特性を示す情報である。第1ビームフォーマ16は遅延和法であるので、対象車の車内における音声が平面波で近似できる場合は、指向特性を下式(1)のように求めることができる。
Figure JPOXMLDOC01-appb-I000001
 ただし、θは目的方向の角度、dはマイクの間隔(ここでは10cm)、Mはマイク数(ここでは2個)、fは周波数、cは音速である。
 上式(1)より、θ方向の感度を求め、周波数毎の目的方向θのメインローブ幅を求めて、予め車内環境モデル記憶部13に設定しておけばよい。図4は、周波数f=1500Hzにおける第1ビームフォーマ16の指向特性の例を示すグラフである。グラフにおいて、各角度における中心からの半径は、その角度におけるビームフォーマのゲインの大きさを示す。
 他方、車内形状が複雑で、音声を平面波で近似できない場合は、指向特性を予め実験により測定して、車内環境モデル記憶部13に設定しておけばよい。指向特性を測定するためには、TSP(Time Stretched Pulse)信号などのスイープ信号を所定の位置から発信し、マイク2,3で収録した音声信号を第1ビームフォーマ16により処理して、そのパワーを車内環境モデル記憶部13に設定すればよい。このときの所定の位置は、例えばマイク2,3の半径50cm地点において所定角度毎の位置などとする。
 また、第2ビームフォーマ17は適応型の最小分散法であるので、上述したような測定により指向特性を求め、第2ビームフォーマ指向特性132として車内環境モデル記憶部13に予め設定しておけばよい。
 車内推定雑音パワー133は、対象車の車内における平均的な雑音パワーを周波数の関数として表した情報である。図5は、車内推定雑音パワー133の一例を示すグラフである。この車内推定雑音パワー133により、対象車の車内について、特定の周波数における雑音パワーを推定することができる。
 図6は、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理(図2のステップST3に相当する)の詳細を示すフローチャートである。
 ビームフォーマ種別判定部14は、BFセレクタ15から出力される周波数(または周波数帯域)fの信号を受け取り(ステップST31)、以下の処理により、この周波数fに適用すべきビームフォーマの種別(第1ビームフォーマ16または第2ビームフォーマ17)を判定する。
 ビームフォーマ種別判定部14は、車内環境モデル記憶部13から周波数fに対応する第1ビームフォーマ指向特性131と、第2ビームフォーマ指向特性132と、車内推定雑音パワー133とを取得する(ステップST32)。そして、第1ビームフォーマ16について、第1ビームフォーマ指向特性131と車内推定雑音パワー133を用いて所定の評価式により評価し、第2ビームフォーマ17について、第2ビームフォーマ指向特性132と車内推定雑音パワー133を用いて所定の評価式により評価して、それぞれ評価値を求める(ステップST33)。
 評価式はV(BF,f,NP)の形式とし、ビームフォーマ種別BF(第1ビームフォーマ16をBF_1、第2ビームフォーマ17をBF_2とする)、周波数f、推定雑音パワーNPの関数とする。
 ここでは、例として第1ビームフォーマ16の評価式を下式(2)、第2ビームフォーマ17の評価式を下式(3)とする。
V(BF_1,f,NP)   (2)
 =V_BF_1(f)
 =1/(第1ビームフォーマ16の周波数fでのメインローブ幅)

V(BF_2,f,NP)   (3)
 =V_BF_B(f,NP)
 ={NP/(基準値)}/(第2ビームフォーマ17の周波数fでのメインローブ幅)
 ここで、メインローブ幅は、目的方向を基準としてゲイン値が所定以下になる目的方向を中心とした角度θの幅として定義する。このようにすることで、メインローブ幅が狭い(即ち、目的方向への指向性が高い)特性を有するビームフォーマの評価値が高くなる。また、基準値を適切に設定することにより、雑音が大きいときほど第2ビームフォーマ17の評価値が高くなり、雑音が低いときほど第1ビームフォーマ16の評価値が高くなりやすくなる。これは、第2ビームフォーマ17として用いる最小分散法が、雑音の少ない場合に性能が劣化しやすい性質をもつためである。
 ビームフォーマ種別判定部14は、第1ビームフォーマ16の評価値と第2ビームフォーマ17の評価値を比較して(ステップST34)、第1ビームフォーマ16の評価値が高ければ第1ビームフォーマ16を選択してBFセレクタ15へ通知し(ステップST35)、一方、第2ビームフォーマ17の評価値が高ければ第2ビームフォーマ17を選択してBFセレクタ15へ通知する(ステップST36)。なお、BFセレクタ15はステップST36の通知を受けて、選択されたビームフォーマへ周波数fの信号を出力する。
 そして、ビームフォーマ種別判定部14は、BFセレクタ15から出力される全周波数帯域の信号(即ち、FFT演算部11,12が出力する周波数領域の信号)について、ビームフォーマ種別を判定し終われば(ステップST37“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、まだ判定の終わっていない周波数があれば(ステップST37“NO”)、再びステップST31に戻る。
 なお、上述の説明では、図3に示す車内環境モデル記憶部13の第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を用いてビームフォーマの評価を行ったが、この評価方法に限定されるものではない。
 例えば、図7の例では、車内環境モデル記憶部13aが、新たに、周波数帯域毎のマイク2,3の指向特性を示す情報(以下、マイク指向特性)134を保持している。この構成の場合、ステップST33のビームフォーマ評価処理において、ビームフォーマ種別判定部14が、周波数帯域毎のマイク指向特性とビームフォーマ指向特性の比により、推定SN(信号対雑音)比を求める。
 ここでは、例として第1ビームフォーマ16の評価式を下式(4)、第2ビームフォーマ17の評価式を下式(5)とする。
Figure JPOXMLDOC01-appb-I000002

Figure JPOXMLDOC01-appb-I000003
 ここで、G(θ),GBF1(θ),GBF2(θ)はそれぞれマイク2,3、第1ビームフォーマ16、第2ビームフォーマ17の角度θ方向の周波数fにおけるゲイン値である。θは積分を実行する角度領域である。指向特性は360°で得られるが、実用上マイクの後ろ側などは音源が存在しないため、後ろの指向特性を考慮すべきでない場合がある。そのため、対象車の車内環境に合わせてθを決定する。これにより、鋭い指向特性をもつビームフォーマが選択されやすくなる。また、上式(3)と同様に、推定雑音パワーと基準値の比の項を、式(5)に乗算しても良い。
 以上より、実施の形態1によれば、目的音強調装置10は、車内に設置されたマイク2,3からの出力信号を周波数領域の信号に変換するFFT演算部11,12と、FFT演算部11,12が変換した2つの周波数領域の信号から、所定周波数帯域毎に運転席の方向から到来する音声を強調した信号を生成する遅延和法の第1ビームフォーマ16および最小分散法の第2ビームフォーマ17を有するビームフォーマ群と、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を保持する車内環境モデル記憶部13と、FFT演算部11,12が変換した周波数領域の信号を所定周波数帯域毎に、第1および第2ビームフォーマ16,17を第1および第2ビームフォーマ指向特性131,132と車内推定雑音パワー133に基づいて評価し、評価の高いビームフォーマを選択するビームフォーマ種別判定部14と、所定周波数帯域毎に、ビームフォーマ種別判定部14が選択した第1または第2ビームフォーマ16,17へ出力するBFセレクタ15と、ビームフォーマ群が出力する所定周波数帯域毎の信号を結合する信号結合部18とを備えるように構成した。このため、対象車特有の車内環境に最適なビームフォーマを周波数別に切り替えて適用することができるようになり、SN比が向上し、運転席から到来する音声を最適に強調することができる。また、車内環境モデル記憶部13の保持する車内環境モデルを対象車に合わせて変更することにより、簡易に、最適なビームフォーマ設定を行うことができる。
 また、ビームフォーマ群の1つに計算コストの低い固定ビームフォーマを用いるようにしたので、計算量を抑えることができる。
 また、ビームフォーマ群の1つに雑音が少ない場合に性能が劣化する最小分散法を用いたので、ビームフォーマ種別評価のための評価式(3)のように推定雑音パワーと基準値の比の項を乗算するようにすれば、雑音が少ないときはもう一方の遅延和法が選択されやすくなる。よって、ビームフォーマの種別毎の短所を補完し合うことができる。
 なお、上記実施の形態1では、第1ビームフォーマ16と第2ビームフォーマ17のどちらを適用すべきか動的に判定する構成としたが、これに限定されるものではない。車内環境モデル記憶部13は静的なデータ集合であるので、予め周波数帯域毎にどちらのビームフォーマを適用するかを、図6に示すフローチャートに従って決定しておき、周波数帯域毎に適用するビームフォーマ種別を表にして保持しておくこともできる。
 また、上記実施の形態1では、ハンズフリー通話制御部4を備えたカーナビゲーションシステム1に対して目的音強調装置10を適用した例を説明したが、用途はこれに限定されるものではない。例えば、経路案内を行う際の目的地入力を音声認識によって行う場合、前段処理として運転者が発話した目的地の音声をマイク2,3で収録して、目的音強調装置10にて適切にビームフォーミング処理した音声信号をカーナビゲーションシステム1の音声認識部が使用するなどの構成にしてもよい。
 さらに、上記説明ではマイク2,3の間隔を10cm程度にしたマイクロフォンアレイを用いたが、これは車内への搭載を前提とした値であって、10cm間隔に規定されるものではない。ただし、間隔をある程度長くすれば遅延和法(第1ビームフォーマ16)にて鋭い指向性が得られるという利点があるが、間隔が長くなりすぎるとサイドローブ(グレーティングローブ)が発生するため指向性は失われるため、適度な間隔に設定する必要がある。
実施の形態2.
 図8は、本実施の形態2に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態2に係る目的音強調装置10は、新たに、時系列で入力される周波数領域の信号から現在の車内状況を推定する車内状況推定部19を備える。なお、図8において図1と同一または相当の部分については同一の符号を付し説明を省略する。
 BFセレクタ15は、FFT演算部11,12から出力される周波数領域の信号を所定の帯域幅を持つ信号に分割し、周波数の小さい帯域から順にビームフォーマ種別判定部14および車内状況推定部19に出力する。
 車内状況推定部19は、BFセレクタ15から出力される周波数帯域毎の信号に基づいて、現在の車内状況(周波数帯域毎の推定雑音パワー)を推定し、状況パラメータとしてビームフォーマ種別判定部14に出力する。
 なお、車内状況推定部19の雑音パワーの推定方法としては、公知の技術(例えば、特開平10-171487号公報)により周波数領域の信号から音声区間と無音声区間(即ち、雑音区間)とを検出し、検出した雑音区間の信号からパワーを算出することで雑音パワーを推定すればよい。
 また、推定雑音パワーの計算はマイク毎に異なるため、車内状況推定部19はマイク2,3の信号の平均値を使用したり、どちらか一方の信号を選択して使用したりすればよい。
 ビームフォーマ種別判定部14は、車内環境モデル記憶部13に予め保持されている車内推定雑音パワー133に代えて、車内状況推定部19から出力される周波数帯域毎の推定雑音パワーを用いて、BFセレクタ15から出力される周波数帯域毎の信号に適したビームフォーマ種別を判定する。
 従って、車内環境モデル記憶部13は、車内推定雑音パワー133を予め保持しておく必要はない。
 以上より、実施の形態2によれば、目的音強調装置10はマイク2,3の出力信号を用いて車内環境の雑音パワーを推定する車内状況推定部19を備え、ビームフォーマ種別判定部14は、車内環境モデル記憶部13が保持する車内推定雑音パワー133に代えて、車内状況推定部19が推定する雑音パワーを用いるように構成した。このため、現在の出力信号から雑音を推定でき、より状況に適したビームフォーマ種別を選択することができる。
実施の形態3.
 図9は、本実施の形態3に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。なお、図9において図1と同一または相当の部分については同一の符号を付し説明を省略する。
 図10は、車内環境モデル記憶部13bが保持する車内環境モデルを説明する図である。この車内環境モデル記憶部13bは、第1ビームフォーマ指向特性131と第2ビームフォーマ指向特性132と車内推定雑音パワー133に加え、新たにビームフォーミング回避周波数135の情報を保持している。
 このビームフォーミング回避周波数135は、車両部品(エンジン、オーディオなど)の振動など複数のマイク2,3間で差異のない雑音の周波数帯域を示す情報であり、これはビームフォーミングでは抑圧できない雑音とする。例えばマイク2,3を取り付けるバックミラーが振動する場合などは、マイク2,3の出力信号間に強い相関があり、第1ビームフォーマ16または第2ビームフォーマ17を適用するとかえって雑音が強調されてしまうことが考えられる。このような雑音は対象車の車種に応じた特性として、予め実験により検出しておき、車内環境モデル記憶部13bにビームフォーミング回避周波数135として設定しておくことができる。
 次に、図11に示すフローチャートを用いて、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理の詳細を説明する。なお、図11に示すステップST31~ST37は、図2に示すステップST31~ST37と同一の処理であるため説明を省略し、ここではステップST41,ST42を中心に説明する。
 ビームフォーマ種別判定部14は、ステップST33にてビームフォーマ評価を行う前に、処理対象の周波数(または周波数帯域)fがビームフォーミング回避周波数135に該当するか否かを判定する(ステップST41)。周波数fが回避周波数に該当すれば(ステップST41“YES”)、ビームフォーマ種別判定部14はその周波数fに適用すべきビームフォーマはないと判定して、その旨をBFセレクタ15に通知する(ステップST42)。
 一方、周波数fが回避周波数に該当しなければ(ステップST41“NO”)、続くステップST33以降の処理により第1ビームフォーマ16と第2ビームフォーマ17のどちらかを選択する。
 BFセレクタ15は、周波数fの信号について、ビームフォーマ種別判定部14からビームフォーミング処理なしの通知を受けた場合、その周波数fの信号を信号結合部18へ出力する。
 なお、ステップST33以降の処理により、第1ビームフォーマ16と第2ビームフォーマ17の評価値を求めるに際し、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を用いる評価方法以外にも、マイク指向特性134を用いたり、車内状況推定部19が求める推定雑音パワーを用いたりして評価してもよいことは言うまでもない。
 以上より、実施の形態3によれば、目的音強調装置10は、車内環境モデル記憶部13bに第1および第2ビームフォーマ16,17による処理を回避する周波数帯域を示すビームフォーミング回避周波数135を格納しておき、ビームフォーマ種別判定部14は、ビームフォーマ評価対象の周波数帯域が車内環境モデル記憶部13bの保持するビームフォーミング回避周波数135に該当する場合にビームフォーマの選択を行わず、BFセレクタ15は、ビームフォーマ種別判定部14によるビームフォーマの選択が行われなかった周波数帯域の信号を信号結合部18へ出力するように構成した。このため、より対象車種に適合したビームフォーミング処理を行うことができる。
実施の形態4.
 本実施の形態4に係る目的音強調装置10は、図1に示す目的音強調装置10と図面上では同様の構成であるため、以下では図1を援用して説明する。
 本実施の形態4では、ビームフォーマの評価式V’(BF,f,NP)を、上記実施の形態1で説明した評価式V(BF,f,NP)を用いて以下のように定義する。
Figure JPOXMLDOC01-appb-I000004
 なお、上述したようにビームフォーマ種別BFとしてはBF_1(第1ビームフォーマ16)と、BF_2(第2ビームフォーマ17)とがある。
 また、α(BF)はビームフォーマ種別毎に定められる係数パラメータであり、全てのビームフォーマ種別に対して一律で1を与えても良い。また、Cost(BF)はビームフォーマ種別に対してその計算コストを返す関数とする。この関数は、予めビームフォーマ種別毎の計算コストを表にして、車内環境モデル記憶部13などが保持しておくことで構築できる。
 上式(7)を用いると、推定雑音パワーNPが大きい場合は計算量の大きさが問題とならず、VC(BF,NP)は1に近い値となる。よって、ビームフォーマの評価値(6)は、V(BF,f,NP)により求まる指向特性によって決まる。他方、推定雑音パワーNPが小さい場合は、計算コストが評価値へ寄与する度合いが増し、計算コストによりビームフォーマの評価値が決まる。
 次に、図12に示すフローチャートを用いて、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理の詳細を説明する。なお、この処理は、図2に示すステップST3に相当する。
 ビームフォーマ種別判定部14は、先ず車内環境モデル記憶部13の車内推定雑音パワー133を参照し(ステップST51)、BFセレクタ15から出力された周波数領域の信号のうちのまだ判定を行っていない周波数帯域の推定雑音パワーを比較し、推定雑音パワーが最大となる周波数帯域(または周波数)fを選択する(ステップST52)。即ち、上記実施の形態1~3では周波数帯域が小さい方から大きい方へと順に所定帯域幅毎にビームフォーマ種別判定処理を行ったが、本実施の形態4では推定雑音パワーが大きい順に所定帯域幅毎にビームフォーマ種別判定処理を行うことになる。
 ビームフォーマ種別判定部14は、選択した周波数帯域fの信号について、車内環境モデル記憶部13から第1ビームフォーマ指向特性131と車内推定雑音パワー133、および第2ビームフォーマ指向特性132と車内推定雑音パワー133を用いて、上式(6)より、第1ビームフォーマ16と第2ビームフォーマ17それぞれの評価値を求める(ステップST53)。そして、評価値同士を比較し(ステップST54)、第1ビームフォーマ16の評価値が高ければ第1ビームフォーマ16を選択してBFセレクタ15へ通知し(ステップST55)、第2ビームフォーマ17の評価値が高ければ第2ビームフォーマ17を選択してBFセレクタ15へ通知する(ステップST56)。
 そして、ビームフォーマ種別判定部14は、推定雑音パワーの高い順にビームフォーマ種別判定を行い、BFセレクタ15から出力された全周波数帯域の信号についてビームフォーマ種別を判定し終われば(ステップST57“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、また判定の終わっていない周波数があれば(ステップST57“NO”)、再びステップST51に戻る。
 以上より、実施の形態4によれば、目的音強調装置10は、車内環境モデル記憶部13などに第1および第2ビームフォーマ16,17の各計算コストの情報を格納しておき、ビームフォーマ種別判定部14は、所定周波数帯域毎に、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132、車内推定雑音パワー133および計算コストに基づいて評価するように構成した。さらに、ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内推定雑音パワー133を参照して雑音パワーが大きい周波数帯域から順にビームフォーマの評価を行うように構成した。このため、推定雑音パワーが大きい周波数帯域では計算量に影響されずに指向特性の適正が高いビームフォーマ種別が選択され、反対に推定雑音パワーが小さくビームフォーマの指向特性があまり影響しない周波数帯域では計算量の小さいビームフォーマ種別が選択されるようになり、全体としての性能を大きく下げることなくトータルの計算量を小さくすることができる。
 なお、上記実施の形態4では、上式(7)のように推定雑音パワーとの比により計算コストを考慮したが、計算コストを変数とした別の評価式を用いてもよい。
 また、ビームフォーマ種別判定部14において雑音パワーの大きい順に周波数帯域を選択する際、車内環境モデル記憶部13の保持する車内推定雑音パワー133に代えて、上記実施の形態2のように車内状況推定部19を用いてリアルタイムに推定した雑音パワーを用いてもよい。
実施の形態5.
 図13は、本実施の形態5に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態5に係る目的音強調装置10は、新たに、第1ビームフォーマ16および第2ビームフォーマ17による計算量を周波数帯域毎に積算していく計算量積算部20と、現在のCPU(Central Processing Unit)負荷状況を取得する負荷状況取得部21とを備える。なお、図13において図1と同一または相当の部分については同一の符号を付し説明を省略する。
 なお、図13に示す目的音強調装置10はコンピュータで構成されており、FFT演算部11,12、ビームフォーマ種別判定部14、BFセレクタ15、第1ビームフォーマ16、第2ビームフォーマ17、信号結合部18および計算量積算部20の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するものである。そのため、FFT演算部11,12、ビームフォーマ種別判定部14、BFセレクタ15、第1ビームフォーマ16、第2ビームフォーマ17、信号結合部18および計算量積算部20が、CPU負荷状況に影響を及ぼすことになる。そして、負荷状況取得部21は、このCPUの使用率X[%]を取得する。
 また、目的音強調装置10のCPUをカーナビゲーションシステム1が共有している場合には、負荷状況取得部21が取得するCPUの使用率Xに、例えばハンズフリー通話制御部4なども影響を及ぼすことになる。
 図14は、車内環境モデル記憶部13cが保持する車内環境モデルを説明する図である。この車内環境モデル記憶部13cは、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133に加え、新たに計算余力テーブル136を保持している。
 この計算余力テーブル136は、CPU使用率に応じたビームフォーマ群に割り当て可能な計算余力を示す情報である。
 ここで、計算余力の一例を説明する。本実施の形態4では、目的音強調装置10が有するビームフォーマのうちの最も計算コストの小さいビームフォーマを全周波数帯域に適用した場合の計算量をMinCostとし、このMinCostとビームフォーマ群の計算コストの差分を計算余力とする。
 本実施の形態4では、固定型の遅延和法を用いる第1ビームフォーマ16が最も計算コストが小さいので、これをMinCostとする。よって、計算余力テーブル136は、第2ビームフォーマ17の計算コストを計算余力として保持していることと等価になる。なお、このテーブルは、予めパラメータとして作成して車内環境モデル記憶部13cに設定しておけばよい。
 次に、図15に示すフローチャートを用いて、ビームフォーマ種別判定処理の詳細を説明する。なお、この処理は、図2に示すステップST3に相当する。また、図15に示すステップST51~ST57は、図12に示すステップST51~ST57と同一の処理であるため説明を省略し、ここではステップST61~ST66を中心に説明する。
 先ず、負荷状況取得部21が、CPU使用率Xを取得する(ステップST61)。
 続いてビームフォーマ種別判定部14が、負荷状況取得部21から出力されたCPU使用率Xに対応するビームフォーマ群の計算余力を、車内環境モデル記憶部13cの計算余力テーブル136を参照して取得し、計算余力Zとする(ステップST62)。
 また、ビームフォーマ種別判定部14は、計算量積算部20が記憶している積算計算量をクリアする(ステップST63)。
 ビームフォーマ種別判定部14は、計算量積算部20を参照し、現在の積算計算量を取得し、積算計算量Yとする(ステップST64)。初回のステップST64では、前段のステップST63で積算計算量をクリアしたばかりなので、積算計算量Yは0である。続いて、積算計算量Yと計算余力Zとを比較し(ステップST65)、積算計算量Yが計算余力Zより大きい場合(ステップST65“YES”)、最小の計算コストとなる第1ビームフォーマ16を選択する(ステップST55)。これにより、CPU負荷が高い場合には最も計算コストの小さいビームフォーマを選択できる。
 一方、積算計算量Yが計算余力Z以下の場合(ステップST65“NO”)、ビームフォーマ種別判定部14は車内環境モデル記憶部13cを参照し、上記実施の形態4と同様にまだ判定を行っていない周波数帯域のうち、推定雑音パワーが最大となる周波数帯域について、上式(6)より、適用すべきビームフォーマ種別を判定する(ステップST51~ST56)。これにより、CPUの処理能力に余裕がある場合には、計算コストではなく、指向特性および推定雑音パワーに基づいて最適なビームフォーマを選択できる。
 判定後、ビームフォーマ種別判定部14は、選択したビームフォーマについて下式(8)より求めた計算量を、計算量積算部20の保持している積算計算量に加算して、計算量積算部20を更新する(ステップST66)。
Cost(BF)-MinCost   (8)
 ここで、Cost(BF)は、上式(7)と同じであり、ビームフォーマ種別に対してその計算コストを返す関数である。また、MinCostは第1ビームフォーマ16の計算コストCost(BF_1)に相当する。
 そして、ビームフォーマ種別判定部14は、推定雑音パワーの高い順にビームフォーマ種別判定を行い、BFセレクタ15から出力された全周波数帯域の信号についてビームフォーマ種別を判定し終われば(ステップST57“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、また判定の終わっていない周波数があれば(ステップST57“NO”)、再びステップST64に戻る。
 このようにして、ビームフォーマ種別判定部14は、周波数帯域毎に、最小コストMinCostからの差分を計算量積算部20に積算して、最小コストのビームフォーマ(即ち、第1ビームフォーマ16)のみ有する構成の場合からどのくらい計算量が増えたかを判定基準にして第1ビームフォーマ16と第2ビームフォーマ17とを切り替える。
 以上より、実施の形態5によれば、目的音強調装置10は、所定周波数帯域毎の第1または第2ビームフォーマ16,17による計算量を積算していく計算量積算部20と、CPU負荷の度合いを示すCPU使用率を取得する負荷状況取得部21とを備え、車内環境モデル記憶部13cは、ビームフォーマ種別に応じた計算コストと、CPU使用率に応じてビームフォーマ群に割り当て可能な計算余力の情報を格納しておき、ビームフォーマ種別判定部14は、負荷状況取得部21が取得したCPU使用率に応じた計算余力を車内環境モデル記憶部13cから取得し、所定周波数帯域毎に、計算量積算部20の積算計算量が当該取得した計算余力より小さければ第1および第2ビームフォーマ16,17の評価を行って選択し、積算計算量が計算余力以上になると第1および第2ビームフォーマ16,17のうちの計算コストの小さい第1ビームフォーマ16を選択するように構成した。このため、目的音強調装置10またはカーナビゲーションシステム1の負荷状況に応じてビームフォーマ種別を切り替えることができる。よって、カーナビゲーションシステム1のような負荷状況の変動しやすいシステムに適用して好適である。
 なお、上記実施の形態1~5では、第1ビームフォーマ16に遅延和法、第2ビームフォーマ17に最小分散法を用いたが、ビームフォーマの種別はこれらに限定されるものではなく、その他にも例えば最尤法、多チャンネルWienerフィルタ、一般化サイドローブキャンセラなどを用いてもよい。この構成の場合にも、ビームフォーマ種別判定として指向特性、計算量、SN性能などにより各ビームフォーマを評価して判定すればよい。
 また、第1ビームフォーマ16と第2ビームフォーマ17の2つの方式のビームフォーマを具備する構成にしたが、3つ以上の方式のビームフォーマを具備する構成にしてもよい。
 上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 以上のように、この発明に係る目的音強調装置は、車内環境モデルに応じてビームフォーマ種別を切り替えるようにしたので、カーナビゲーションシステムおよび車載用ハンズフリー通話システムなどに用いるのに適している。
 1 カーナビゲーションシステム、2,3 マイク、4 ハンズフリー通話制御部、10 目的音強調装置、11 FFT演算部、12 FFT演算部、13,13a,13b,13c 車内環境モデル記憶部、14 ビームフォーマ種別判定部、15 BFセレクタ(出力切替部)、16 第1ビームフォーマ、17 第2ビームフォーマ、18 信号結合部、19 車内状況推定部、20 計算量積算部、21 負荷状況取得部、131 第1ビームフォーマ指向特性、132 第2ビームフォーマ指向特性、133 車内推定雑音パワー、134 マイク指向特性、135 ビームフォーミング回避周波数、136 計算余力テーブル。

Claims (11)

  1.  車内に設置された2個以上のマイクロフォンからの出力信号を周波数領域の信号に変換する演算部と、
     前記演算部が変換した複数の周波数領域の信号から、所定周波数帯域毎に目的音を強調した信号を生成するビームフォーマを、異なる方式で2つ以上有するビームフォーマ群と、
     前記車内環境における前記所定周波数帯域毎の雑音特性および前記ビームフォーマそれぞれの指向特性の情報を保持する車内環境モデル記憶部と、
     前記所定周波数帯域毎に、前記ビームフォーマそれぞれを前記車内環境モデル記憶部が保持する指向特性と雑音特性に基づいて評価し、当該評価の最も高いビームフォーマを選択するビームフォーマ種別判定部と、
     前記演算部が変換した周波数領域の信号を前記所定周波数帯域毎に、前記ビームフォーマ種別判定部が選択したビームフォーマへ出力する出力切替部と、
     前記ビームフォーマ群が出力する前記所定周波数帯域毎の信号を結合する信号結合部とを備える目的音強調装置。
  2.  車内環境モデル記憶部は、車内環境における雑音特性として、当該車内環境における所定周波数帯域毎の雑音パワーを保持し、
     ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記車内環境モデル記憶部が保持する当該ビームフォーマの指向特性と前記雑音パワーに基づいて評価することを特徴とする請求項1記載の目的音強調装置。
  3.  車内環境モデル記憶部は、車内環境における雑音特性として、マイクロフォンの指向特性を保持し、
     ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記車内環境モデル記憶部が保持する当該ビームフォーマの指向特性と前記マイクロフォンの指向特性から求まる信号対雑音比に基づいて評価することを特徴とする請求項1記載の目的音強調装置。
  4.  車内環境モデル記憶部は、ビームフォーマの方式に応じた計算コストの情報を保持し、
     ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記車内環境モデル記憶部が保持する当該ビームフォーマの指向特性および計算コストと、雑音特性とに基づいて評価することを特徴とする請求項1記載の目的音強調装置。
  5.  マイクロフォンの出力信号を用いて車内環境の雑音パワーを推定する車内状況推定部を備え、
     ビームフォーマ種別判定部は、車内環境モデル記憶部が保持する雑音パワーに代えて、前記車内状況推定部が推定する雑音パワーを用いることを特徴とする請求項2記載の目的音強調装置。
  6.  車内環境モデル記憶部は、ビームフォーマによる処理を回避する周波数帯域の情報を保持し、
     ビームフォーマ種別判定部は、ビームフォーマ評価対象の周波数帯域が前記車内環境モデル記憶部の保持する周波数帯域に該当する場合にビームフォーマの選択を行わず、
     出力切替部は、前記ビームフォーマ種別判定部によるビームフォーマの選択が行われなかった前記周波数帯域の信号を、ビームフォーマ群へ出力せず信号結合部へ出力することを特徴とする請求項1記載の目的音強調装置。
  7.  所定周波数帯域毎のビームフォーマ群による計算量を積算していく計算量積算部と、
     計算負荷の度合いを示す情報を取得する負荷状況取得部とを備え、
     車内環境モデル記憶部は、ビームフォーマの方式に応じた計算コストと、前記負荷の度合いに応じて前記ビームフォーマ群に割り当て可能な計算余力の情報を保持し、
     ビームフォーマ種別判定部は、前記負荷状況取得部が取得した負荷の度合いに応じた計算余力を前記車内環境モデル記憶部から取得し、前記所定周波数帯域毎に、前記計算量積算部の積算計算量が当該取得した計算余力より小さければ各ビームフォーマの評価を行って選択し、前記積算計算量が前記計算余力以上になると前記ビームフォーマ群のうちの最も計算コストの小さいビームフォーマを選択することを特徴とする請求項1記載の目的音強調装置。
  8.  ビームフォーマ種別判定部は、車内環境モデル記憶部が保持する雑音特性を参照し、車内環境における雑音パワーが大きい周波数帯域から順に、ビームフォーマの評価を行うことを特徴とする請求項4記載の目的音強調装置。
  9.  ビームフォーマ群のうちの少なくとも1つのビームフォーマとして、適応ビームフォーマに比べて計算コストが小さい固定ビームフォーマを用いることを特徴とする請求項1記載の目的音強調装置。
  10.  ビームフォーマ群は、遅延和法によるビームフォーマと、最小分散法によるビームフォーマとからなることを特徴とする請求項1記載の目的音強調装置。
  11.  車内に設置される2個以上のマイクロフォンと、
     前記各マイクロフォンからの出力信号を入力に用いて、前記車内の話者の声を強調した音声信号を生成する請求項1記載の目的音強調装置と、
     前記目的音強調装置が生成した音声信号を利用してハンズフリー通話を行うハンズフリー通話制御部とを備えるカーナビゲーションシステム。
PCT/JP2011/002890 2011-05-24 2011-05-24 目的音強調装置およびカーナビゲーションシステム WO2012160602A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2011/002890 WO2012160602A1 (ja) 2011-05-24 2011-05-24 目的音強調装置およびカーナビゲーションシステム
US13/992,055 US20140064514A1 (en) 2011-05-24 2011-05-24 Target sound enhancement device and car navigation system
CN201180065308.9A CN103329200B (zh) 2011-05-24 2011-05-24 目标音增强装置以及车辆导航系统
DE112011105267.7T DE112011105267T5 (de) 2011-05-24 2011-05-24 Zielton-Verstärkungsvorrichtung und Fahrzeug-Navigationssystem
JP2013516075A JP5543023B2 (ja) 2011-05-24 2011-05-24 目的音強調装置およびカーナビゲーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/002890 WO2012160602A1 (ja) 2011-05-24 2011-05-24 目的音強調装置およびカーナビゲーションシステム

Publications (1)

Publication Number Publication Date
WO2012160602A1 true WO2012160602A1 (ja) 2012-11-29

Family

ID=47216709

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/002890 WO2012160602A1 (ja) 2011-05-24 2011-05-24 目的音強調装置およびカーナビゲーションシステム

Country Status (5)

Country Link
US (1) US20140064514A1 (ja)
JP (1) JP5543023B2 (ja)
CN (1) CN103329200B (ja)
DE (1) DE112011105267T5 (ja)
WO (1) WO2012160602A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9584909B2 (en) * 2012-05-10 2017-02-28 Google Inc. Distributed beamforming based on message passing
US9232310B2 (en) * 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
US9078057B2 (en) * 2012-11-01 2015-07-07 Csr Technology Inc. Adaptive microphone beamforming
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US10013975B2 (en) * 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
US20160127827A1 (en) * 2014-10-29 2016-05-05 GM Global Technology Operations LLC Systems and methods for selecting audio filtering schemes
US10405829B2 (en) 2014-12-01 2019-09-10 Clarius Mobile Health Corp. Ultrasound machine having scalable receive beamformer architecture comprising multiple beamformers with common coefficient generator and related methods
CN104810021B (zh) * 2015-05-11 2017-08-18 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
CN109524016B (zh) * 2018-10-16 2022-06-28 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质
EP3783609A4 (en) * 2019-06-14 2021-09-15 Shenzhen Goodix Technology Co., Ltd. DIFFERENTIAL BEAM FORMATION METHOD AND MODULE, SIGNAL PROCESSING METHOD AND APPARATUS, AND CHIP
GB2602319A (en) * 2020-12-23 2022-06-29 Nokia Technologies Oy Apparatus, methods and computer programs for audio focusing
US11671752B2 (en) 2021-05-10 2023-06-06 Qualcomm Incorporated Audio zoom

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191255A (ja) * 1996-01-09 1997-07-22 Matsushita Electric Ind Co Ltd 帯域分割符号化装置
JPH1141687A (ja) * 1997-07-18 1999-02-12 Toshiba Corp 信号処理装置および信号処理方法
JP2004514317A (ja) * 2000-11-08 2004-05-13 キネテイツク・リミテツド 適応フィルタ
WO2006025106A1 (ja) * 2004-09-01 2006-03-09 Hitachi, Ltd. 音声認識システム、音声認識方法およびそのプログラム
JP2006276522A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 音声合成装置及びその方法
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP2011002704A (ja) * 2009-06-19 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号送信装置、音響信号受信装置、音響信号送信方法及びそのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162838C (zh) * 2002-07-12 2004-08-18 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
JP4891801B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 多信号強調装置、方法、プログラム及びその記録媒体
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP4928382B2 (ja) * 2007-08-10 2012-05-09 日本電信電話株式会社 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191255A (ja) * 1996-01-09 1997-07-22 Matsushita Electric Ind Co Ltd 帯域分割符号化装置
JPH1141687A (ja) * 1997-07-18 1999-02-12 Toshiba Corp 信号処理装置および信号処理方法
JP2004514317A (ja) * 2000-11-08 2004-05-13 キネテイツク・リミテツド 適応フィルタ
WO2006025106A1 (ja) * 2004-09-01 2006-03-09 Hitachi, Ltd. 音声認識システム、音声認識方法およびそのプログラム
JP2006276522A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 音声合成装置及びその方法
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP4649546B2 (ja) * 2009-02-09 2011-03-09 パナソニック株式会社 補聴器
JP2011002704A (ja) * 2009-06-19 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号送信装置、音響信号受信装置、音響信号送信方法及びそのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUTOSHI ASANO ET AL., OTO NO ARRAY SHINGO SHORI -ONGEN NO TEII - TSUISEKI TO BUNRI, 25 February 2011 (2011-02-25), pages 70 - 79 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置
CN104376848B (zh) * 2013-08-12 2018-03-23 展讯通信(上海)有限公司 语音信号处理方法和装置

Also Published As

Publication number Publication date
CN103329200A (zh) 2013-09-25
JPWO2012160602A1 (ja) 2014-07-31
DE112011105267T5 (de) 2014-03-20
JP5543023B2 (ja) 2014-07-09
US20140064514A1 (en) 2014-03-06
CN103329200B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
WO2012160602A1 (ja) 目的音強調装置およびカーナビゲーションシステム
US8120993B2 (en) Acoustic treatment apparatus and method thereof
US7995767B2 (en) Sound signal processing method and apparatus
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US9338547B2 (en) Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment
EP2063419B1 (en) Speaker localization
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP4912036B2 (ja) 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US8891785B2 (en) Processing signals
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP1349419A2 (en) Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
JP6645322B2 (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
US20170339488A1 (en) Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
JPWO2020039597A1 (ja) 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム
JP6956929B2 (ja) 情報処理装置、制御方法、及び制御プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180065308.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11865966

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013516075

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13992055

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120111052677

Country of ref document: DE

Ref document number: 112011105267

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11865966

Country of ref document: EP

Kind code of ref document: A1