WO2013094103A1 - 音響処理装置および音響処理方法 - Google Patents

音響処理装置および音響処理方法 Download PDF

Info

Publication number
WO2013094103A1
WO2013094103A1 PCT/JP2012/006816 JP2012006816W WO2013094103A1 WO 2013094103 A1 WO2013094103 A1 WO 2013094103A1 JP 2012006816 W JP2012006816 W JP 2012006816W WO 2013094103 A1 WO2013094103 A1 WO 2013094103A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound
level
delay
directivity
Prior art date
Application number
PCT/JP2012/006816
Other languages
English (en)
French (fr)
Inventor
番場 裕
丈郎 金森
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2013550081A priority Critical patent/JP6041244B2/ja
Priority to US14/366,702 priority patent/US9326065B2/en
Publication of WO2013094103A1 publication Critical patent/WO2013094103A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups

Definitions

  • the present invention relates to an acoustic processing apparatus and an acoustic processing method for performing directivity synthesis processing on sound collected signals output from at least two sound collectors.
  • a device that enables directional sound collection is, for example, a remote conference system including a sound collection device, a digital video camera, or a digital still camera (DSC: Digital Still Camera).
  • DSC Digital Still Camera
  • a device capable of collecting directional sound (hereinafter, also referred to as “sound collecting device”), a device unit (hereinafter referred to as “acoustic processing device”) that performs directivity synthesis processing uses sound waves for directivity synthesis processing.
  • the phase difference of is used.
  • the sound processing device requires a delay process for the collected sound signal.
  • the delay amount used for the delay process is set based on the distance between the acoustic terminals.
  • the distance between acoustic terminals refers to an acoustic distance between two terminals that collect sound (here, a microphone, hereinafter also referred to as “sound collector”). More specifically, the distance between acoustic terminals refers to the difference between arrival times of sound waves between terminals multiplied by the speed of sound when the sound source exists on a linear axis connecting the terminals.
  • the delay amount needs to be an appropriate value corresponding to the actual distance between the acoustic terminals.
  • the sound processing device sets a delay amount corresponding to the actual distance between the sound terminals, for example, when collecting sound, suppresses sound from a specific direction such as speech sound, ambient noise, and the like. It is possible to pick up sound in the state.
  • the actual distance between the acoustic terminals may deviate from the actually measured distance (mechanical design value) between the terminals due to the influence of the structure around the terminals such as the housing in which the microphone is incorporated.
  • the sound processing apparatus may use an inappropriate delay amount.
  • Patent Document 1 (hereinafter referred to as “conventional technique”) describes a technique for setting an appropriate delay amount.
  • the position of a sound source is estimated based on the known distance between acoustic terminals from the collected sound signals of two microphones whose distance between acoustic terminals is known among the four microphones.
  • the related art estimates the position of the other microphone based on the estimated position of the sound source from the collected sound signal of the other microphone.
  • the prior art reduces the amount of delay between two microphones whose distance between acoustic terminals calculated from the position of the sound source is unknown and the square error between the measured values of the delay amounts.
  • the estimated value of the sound source position and the position of each microphone is adjusted.
  • the sound source is arranged in a predetermined position in one direction in a direction on a straight line connecting the two microphones of the sound collection device (hereinafter referred to as “axial direction”) in the anechoic chamber. Then, by applying the above-described conventional technique, the estimated value of the microphone position is adjusted so that the square error is minimized.
  • the sound processing device to which the conventional technology is applied can accurately estimate the actual distance between the sound terminals from the angle of the sound source direction and the delay amount of the directivity synthesis processing, and can realize an arbitrary directivity pattern with high accuracy. Can do.
  • the sound processing apparatus to which the conventional technology is applied is used for the sound collecting device of the teleconference system, and the sound collecting device is embedded in a large object such as a desk.
  • restricting the microphone mounting structure itself can be a restriction on the structure of the mounting side and the design of the device.
  • the position of the sound source relative to the sound processing device is not always constant, and in situations where the sound source position changes or multiple sound sources exist at the same time, the follow-up capability of the sound source direction search deteriorates and delay estimation is performed. It is difficult to do correctly.
  • the conventional technique has a problem that correct delay estimation cannot be performed when acoustic changes occur in the microphone mounting structure and mounting position, the structure around the microphone, and the like.
  • An object of the present invention is to accurately adjust a delay amount in an actual environment even if an acoustic change occurs in a microphone mounting structure, a mounting position, and a structure around the microphone.
  • the acoustic processing device is directed to the first sound collection signal output from the first sound collector and the second sound collection signal output from the second sound collector.
  • a sound processing device for performing a sex synthesis process wherein a first directional sound pickup signal is generated by delaying the second sound pickup signal with respect to the first sound pickup signal, and the second sound pickup signal is generated.
  • a directivity synthesis processing unit that generates a second directional sound collection signal obtained by delaying and synthesizing the first sound collection signal with respect to the first sound collection signal, the first directional sound collection signal, and the first A directional level signal indicating the level of a signal obtained by adding the two directional sound pickup signals, a first level signal indicating the level of the first directional sound pickup signal, and the second directivity.
  • Comparison signal calculation for generating a directivity level signal obtained by adding the second level signal indicating the level of the characteristic sound pickup signal A level comparison unit that obtains a level difference between the omnidirectional level signal and the directivity level signal, and a delay that adjusts the amount of delay in the directivity synthesis processing unit so that the level difference is reduced And an operation unit.
  • the acoustic processing method is directed to the first sound collection signal output from the first sound collector and the second sound collection signal output from the second sound collector.
  • a sound processing method in a sound processing device that performs sex synthesis processing, wherein a first directional sound pickup signal is generated by delaying and synthesizing the second sound pickup signal with respect to the first sound pickup signal.
  • the first directional sound collection unit generates a second directional sound collection signal that is generated by delaying and synthesizing the first sound collection signal with respect to the second sound collection signal.
  • An omnidirectional signal indicating a level of a signal obtained by adding the signal and the second directional sound collection signal, and the first directional sound collection signal and the second directional sound collection signal.
  • the present invention can accurately determine the distance between the acoustic terminals in the real space even if an acoustic change occurs in the microphone mounting structure and mounting position and the structure around the microphone.
  • the block diagram which shows an example of a structure of the sound processing apparatus which concerns on Embodiment 1 of this invention.
  • the block diagram which shows an example of a structure of the sound collection apparatus containing the sound processing apparatus based on Embodiment 2 of this invention.
  • the figure which shows the definition of the direction in Embodiment 2 of this invention The figure which shows the simulation result of the polar pattern of the 1st directional sound collection signal in case the delay amount of the 2nd delay device in Embodiment 2 of this invention is small.
  • the figure which shows the simulation result of the polar pattern of the 1st directivity sound collection signal in case the delay amount of the 2nd delay device is an appropriate value in Embodiment 2 of this invention.
  • the figure which shows the simulation result of the polar pattern of the 1st directivity sound collection signal in case the delay amount of the 2nd delay device is large in Embodiment 2 of this invention.
  • the figure which shows the simulation result of the polar pattern of a non-directional level signal and the polar pattern of a directivity level signal in case the delay amount of the 2nd delay device is small in Embodiment 2 of this invention.
  • the figure which shows the simulation result of the polar pattern of a non-directional level signal and the polar pattern of a directivity level signal in case the delay amount of a 2nd delay device is an appropriate value in Embodiment 2 of this invention.
  • the figure which shows the simulation result of the polar pattern of a non-directional level signal and the polar pattern of a directivity level signal in case the delay amount of the 2nd delay device is large in Embodiment 2 of this invention.
  • the block diagram which shows an example of a structure of the sound collection apparatus containing the sound processing apparatus which concerns on Embodiment 3 of this invention.
  • the flowchart which shows an example of operation
  • the block diagram which shows an example of a structure of the sound processing apparatus which concerns on Embodiment 4 of this invention.
  • the flowchart which shows an example of operation
  • the block diagram which shows an example of a structure of the sound processing apparatus which concerns on Embodiment 5 of this invention.
  • the figure which shows an example of the relationship between the microphone for obtaining the designated directivity pattern, and the designated direction angle (theta) in Embodiment 5 of this invention.
  • the flowchart which shows an example of operation
  • Embodiment 1 of the present invention is an example of a basic aspect of the present invention.
  • FIG. 1 is a block diagram showing an example of the configuration of the sound processing apparatus according to the present embodiment.
  • the sound processing apparatus 400 includes a first sound collection signal output from a first sound collector (not shown) and a second sound output from a second sound collector (not shown). It is a device that performs directivity synthesis processing on a collected sound signal.
  • the sound processing apparatus 400 includes a directivity synthesis processing unit 410, a comparison signal calculation unit 440, a level comparison unit 451, and a delay operation unit 452.
  • the directivity synthesis processing unit 410 generates a first directional sound collection signal synthesized by delaying the second sound collection signal with respect to the first sound collection signal. That is, the directivity synthesis processing unit 410 synthesizes the first sound pickup signal by delaying the second sound collection signal in the first direction, which is the first sound collector side direction. Try to have directivity.
  • the directivity synthesis processing unit 410 generates a second directional sound collection signal obtained by synthesizing the second sound collection signal by delaying the first sound collection signal. That is, the directivity synthesis processing unit 410 delays and synthesizes the first sound collection signal with respect to the second sound collection signal, thereby causing the second sound collection side to move in the second direction. Try to have directivity.
  • the comparison signal calculation unit 440 generates an omnidirectional level signal indicating the level of the signal obtained by adding the first directional sound collection signal and the second directional sound collection signal. Further, the comparison signal calculation unit 440 adds the first level signal indicating the level of the first directional sound collection signal and the second level signal indicating the level of the second directional sound collection signal. The resulting directivity level signal is generated.
  • the level comparison unit 451 acquires a level difference between the omnidirectional level signal and the directional level signal.
  • the delay operation unit 452 adjusts the amount of delay in the directivity synthesis processing unit 410 so that the level difference becomes small.
  • the sound processing apparatus 400 includes, for example, a CPU (Central Processing Unit), a storage medium such as a ROM (Read Only Memory) storing a control program, and a working memory such as a RAM (Random Access Memory), although not shown.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the sound processing apparatus 400 adjusts the delay amount so that phase inversion does not occur with respect to the directional sound pickup signal having directivity in the direction of at least one sound collector side.
  • the sound processing device 400 can accurately realize an arbitrary directivity pattern by adjusting the amount of delay to the minimum value at which phase inversion does not occur, and obtains necessary sound with high quality. be able to. In other words, the sound processing apparatus 400 according to the present embodiment can correctly calculate the distance between the sound terminals and process the sound collection signal.
  • the sound processing device 400 specifically adjusts the adjustment of the delay amount so that the level difference between the omnidirectional level signal and the directional level signal becomes small. Thereby, the sound processing apparatus 400 can easily adjust the delay amount so that phase inversion does not occur. This adjustment is possible if there is any sound source in the axial direction. Therefore, the acoustic processing device 400 can more easily realize an arbitrary directivity pattern with high accuracy, and can more easily acquire a necessary sound (sound, sound) with high quality.
  • the sound processing device 400 can accurately adjust the delay amount by adjusting the delay amount.
  • the acoustic processing device 400 can easily prevent phase reversal in an actual environment even if an acoustic change occurs in the microphone and the surrounding structures and the distance between the acoustic terminals changes.
  • the delay amount can be adjusted. This adjustment is possible if there is any sound source in the axial direction. Therefore, the acoustic processing device 400 can accurately adjust the delay amount in an actual environment even if an acoustic change occurs in the microphone mounting structure and mounting position, the structure around the microphone, and the like.
  • the second embodiment of the present invention is an example of a specific mode when the present invention is applied to a sound collection device such as a digital camera provided with two microphones.
  • the sound collection device performs stereo sound collection with cardioid directional characteristics extending in both directions (axial direction) on a straight line connecting two microphones.
  • a general stereo microphone is provided with a frequency characteristic correction unit (equalizer) for amplifying a low frequency at the output of the subtraction unit.
  • a frequency characteristic correction unit (equalizer) for amplifying a low frequency at the output of the subtraction unit.
  • circuit noise is superimposed and adversely affects the delay correction process, a configuration in which the frequency characteristic correction unit is omitted will be described here.
  • Each unit of the sound processing device described below includes, for example, hardware including two microphones arranged inside the housing of the sound collection device, a CPU, and a storage medium such as a ROM storing a control program. It is realized by.
  • FIG. 2 is a block diagram showing an example of the configuration of a sound collection device including the sound processing apparatus according to the present embodiment.
  • the sound collection device 100 includes a first microphone 200, a second microphone 300, and the acoustic processing device 400 according to the present embodiment.
  • the first microphone 200, the second microphone 300, and the sound processing device 400 are arranged, for example, inside a housing (not shown) of the sound collection device 100. Further, the first microphone 200 and the second microphone 300 are arranged at different positions at a distance from each other.
  • the first microphone 200 is an omnidirectional microphone (first sound collector).
  • the first microphone 200 collects sound and outputs a sound collection signal.
  • the sound collection signal output by the first microphone 200 is referred to as a “first sound collection signal”.
  • the second microphone 300 is an omnidirectional microphone (second sound collector).
  • the second microphone 300 collects sound and outputs a sound collection signal.
  • the sound collection signal output by the second microphone 300 is referred to as a “second sound collection signal”.
  • the actual distance between the acoustic terminals between the first microphone 200 and the second microphone 300 is 10 mm (millimeters). This is an initially unknown value.
  • the sound processing device 400 inputs the first sound collection signal and the second sound collection signal. Then, the sound processing device 400 performs directivity synthesis processing on the first sound collection signal and the second sound collection signal.
  • the sound processing device 400 includes a directivity synthesis processing unit 410, a first signal output unit 421, a second signal output unit 422, a first band limiting unit 431, and a second band limiting unit 432. , A comparison signal calculation unit 440, a level comparison unit 451, and a delay operation unit 452.
  • the directivity synthesis processing unit 410 delays and synthesizes the second sound collection signal with respect to the first sound collection signal, thereby directing the directivity in the first direction that is the direction of the first sound collector.
  • a first directional sound pickup signal having the above is generated.
  • the directivity synthesis processing unit 410 synthesizes the second sound collection signal by delaying and synthesizing the first sound collection signal in the second direction, which is the direction on the second sound collector side.
  • a second directional sound pickup signal having directivity is generated. That is, the directivity synthesis processing unit 410 generates two directional sound collection signals having directivity characteristics that are paired in the axial direction from the first sound collection signal and the second sound collection signal.
  • the directivity synthesis processing unit 410 includes a first delay unit 411, a second delay unit 412, a first adder 413, and a second adder 414.
  • the first delay unit 411 inputs the first sound pickup signal.
  • the first delay unit 411 outputs a first delayed sound collection signal obtained by delaying the first sound collection signal.
  • the second delay device 412 inputs the second sound collection signal. Then, the second delay unit 412 outputs a second delayed sound collection signal obtained by delaying the second sound collection signal.
  • the delay amount of the first delayed sound pickup signal with respect to the first sound pickup signal and the delay amount of the second delay sound pickup signal with respect to the second sound pickup signal are respectively determined by a delay operation unit 452 described later. It is adjustable.
  • the first adder 413 inputs the first sound collection signal and the second delayed sound collection signal with the polarity reversed. Then, the first adder 413 adds the first sound collection signal and the second delayed sound collection signal whose polarity is inverted, and outputs a first directional sound collection signal as a result of the addition.
  • the second adder 414 inputs the second sound pickup signal and the first delayed sound pickup signal with the polarity reversed. Then, the second adder 414 adds the second sound pickup signal and the first delayed sound pickup signal whose polarity is inverted, and outputs a second directional sound pickup signal as a result of the addition. .
  • the first signal output unit 421 receives the first directional sound pickup signal and outputs it to the outside of the sound processing device 400.
  • the second signal output unit 422 inputs the second directional sound pickup signal and outputs it to the outside of the sound processing device 400.
  • the first band limiting unit 431 inputs the first directional sound pickup signal. Then, the first band limiting unit 431 outputs a signal obtained by performing band limitation on the first directional sound pickup signal to the comparison signal calculating unit 440. That is, the first band limiting unit 431 has a frequency at which spatial aliasing does not occur even if the amount of delay is changed with respect to the first directional sound pickup signal input to the comparison signal calculation unit 440. Limit the bandwidth to the bandwidth.
  • the second band limiting unit 432 inputs the second directional sound pickup signal. Then, the second band limiting unit 432 outputs the signal obtained by performing the band limitation to the comparison signal calculating unit 440. That is, the second band limiting unit 432 converts the second directional sound pickup signal input to the comparison signal calculation unit 440 to a frequency band in which spatial aliasing does not occur even if the amount of delay is changed. Perform bandwidth limitation.
  • Spatial aliasing occurs due to phase interference of incident waves having a relatively high frequency when performing directivity synthesis processing, and is a phenomenon having a directivity gain in an unintended direction.
  • Bandwidth limiting method is not limited to a specific one.
  • Such band limitation can be realized by, for example, a band-pass filter that performs time-domain filtering.
  • windowing is performed while overlapping every certain number of samples, and frequency decomposition is performed by FFT (Fast Fourier Transform).
  • FFT Fast Fourier Transform
  • the band limitation can be realized by extracting a complex spectrum signal corresponding to a desired frequency. Details of the limited frequency bands in the first band limiting unit 431 and the second band limiting unit 432 will be described later.
  • the comparison signal calculation unit 440 includes the first directional sound pickup signal after the band limitation is performed by the first band limitation unit 431 and the first band after the band limitation is performed by the second band limitation unit 432. 2 directional sound pickup signals are input.
  • the first directional sound collection signal after the band restriction is performed by the first band restriction unit 431 is referred to as a “band-limited first directional sound collection signal”.
  • the second directional sound collection signal after the band restriction by the second band restriction unit 432 is referred to as a “band-limited second directional sound collection signal”.
  • the comparison signal calculation unit 440 generates two types of omnidirectional level signals and directivity level signals from the band-limited first directional sound collection signal and the band-limited second directional sound collection signal. Generate and output a level signal.
  • the omnidirectional level signal is a signal indicating the level of a signal obtained by adding the band-limited first directional sound collection signal and the band-limited second directional sound collection signal.
  • the directivity level signal includes a first level signal indicating the level of the band-limited first directional sound collection signal and a second level signal indicating the level of the band-limited second directional sound collection signal. Is a signal obtained by adding.
  • the comparison signal calculation unit 440 includes a third adder 441, a first level signal calculation unit 442, a second level signal calculation unit 443, a third level signal calculation unit 444, and a fourth level signal calculation unit.
  • the adder 445 is included.
  • the third adder 441 inputs the band-limited first directional sound collection signal and the band-limited second directional sound collection signal.
  • the third adder 441 adds the band-limited first directional sound collection signal and the band-limited second directional sound collection signal.
  • the first level signal calculation unit 442 inputs the output signal of the third adder 441. Then, the first level signal calculation unit 442 extracts level information from the output signal of the third adder 441 and converts the output signal of the third adder 441 into an omnidirectional level signal.
  • the second level signal calculation unit 443 inputs the first directional sound pickup signal whose band is limited. Then, the second level signal calculation unit 443 extracts level information from the band-limited first directional sound pickup signal, and the band-limited first directional sound pickup signal is converted into the first level signal. Convert to
  • the third level signal calculation unit 444 inputs the second directional sound pickup signal whose band is limited. Then, the third level signal calculation unit 444 extracts level information from the band-limited second directional sound pickup signal, and converts the band-limited second directional sound pickup signal into the second level signal. Convert to
  • the fourth adder 445 receives the first level signal and the second level signal. Then, the fourth adder 445 adds the first level signal and the second level signal, and outputs a directivity level signal as a result of the addition.
  • the first to third level signal calculation units 442 to 444 extract the absolute value or square value of the input signal as level information, respectively, when the input signal is a waveform signal such as the output of a bandpass filter. .
  • the first to third level signal calculation units 442 to 444 respectively extract the amplitude spectrum of the input signal or the power spectrum of the input signal as level information when the input signal is a complex spectrum signal such as FFT.
  • the first to third level signal calculation units 442 to 444 may extract the amplitude spectrum or power spectrum as level information as it is. Further, when inputting frequency spectrum signals of a plurality of bands, the first to third level signal calculation units 442 to 444 calculate the average value of the amplitude for each frequency bin or the average value of the power spectrum for each frequency bin. What is necessary is just to extract as level information.
  • the level comparison unit 451 inputs the omnidirectional level signal and the directional level signal, and acquires the level difference between them.
  • the level difference is, for example, a level ratio between the omnidirectional level signal and the directional level signal, or a difference between the omnidirectional level signal and the directional level signal.
  • the delay operation unit 452 adjusts the delay amounts of the first delay unit 411 and the second delay unit 412 in the directivity synthesis processing unit 410 so that the level difference becomes small. Specifically, the delay operation unit 452 increases the delay amounts of the first delay device 411 and the second delay device 412 step by step from a sufficiently small value. The delay operation unit 452 fixes the delay amounts of the first delay device 411 and the second delay device 412 with the delay amount when the level difference becomes a predetermined value. Details of the relationship between the delay amount and the first directional sound pickup signal, the level difference, and the predetermined value serving as the reference will be described later.
  • FIG. 3 is a diagram showing a simulation result of the frequency amplitude characteristic of the first directional sound pickup signal.
  • FIG. 4 is a diagram showing a simulation result of frequency amplitude characteristics of the second directional sound pickup signal.
  • the delay amount equivalent to 6 mm is a delay amount corresponding to the distance between acoustic terminals of 6 mm, and is a value smaller than a value corresponding to an actual distance between acoustic terminals (hereinafter referred to as “appropriate value”).
  • the 10 mm delay amount is a delay amount corresponding to a distance of 10 mm between the acoustic terminals, and is an appropriate value.
  • the delay amount equivalent to 14 mm is a delay amount corresponding to the distance between acoustic terminals of 14 mm, and is a value larger than an appropriate value.
  • lines 511 to 514 indicate the frequency amplitude characteristics of the first directional sound pickup signal in order of a delay amount equivalent to 2 mm, a delay amount equivalent to 6 mm, a delay amount equivalent to 10 mm, and a delay amount equivalent to 14 mm, respectively. .
  • lines 521 to 524 indicate the frequency amplitude characteristics of the second directional sound pickup signal in the order of 2 mm equivalent delay amount, 6 mm equivalent delay amount, 10 mm equivalent delay amount, and 14 mm equivalent delay amount, respectively. Indicates.
  • the first microphone 200 and the second microphone 300 are used in a state where the sensitivity is corrected, but it is difficult to avoid the inclusion of residual sensitivity errors in actual use. Therefore, here, the case where the second sound collection signal includes a sensitivity error of the microphone output of ⁇ 0.087 dB (0.99 times) with respect to the first sound collection signal is shown as an example.
  • the output level of the second directional sound pickup signal becomes zero in terms of the amplitude value regardless of the frequency, as shown by a line 523 in FIG. A close value.
  • the logarithmic amplitude is ⁇ 40 dB due to the influence of the sensitivity difference between the microphones.
  • the output level of the second directional sound pickup signal is high frequency band as shown by lines 521, 522, and 524 in FIG. In almost all cases, the value is high.
  • the output level of the first directional sound pickup signal depends on the effect of spatial aliasing in the highest frequency band (7 kHz or higher) among the high frequency bands. Disturbance of characteristics (decrease in output level) occurs. Spatial aliasing involves the distance between microphones and the range of adjustment delay values.
  • the sound processing apparatus 400 limits the signal to be subjected to delay processing to a frequency band in which the polar pattern is not disturbed in the first band limiting unit 431 and the second band limiting unit 432.
  • the example in which the sound source is arranged in the axial direction shown in FIG. 3 and FIG. 4 corresponds to a condition in which the distance between the acoustic terminals is maximum, that is, a condition in which the frequency restriction condition is strictest. Therefore, it is desirable that the limited frequency bands in the first band limiting unit 431 and the second band limiting unit 432 are set so as to reduce the influence of spatial aliasing that occurs when the sound source is arranged in the axial direction. . In other words, it is desirable that the limited frequency band is set in a range in which the subsequent signal comparison is suitably performed. Therefore, the pass band is set in a frequency region where spatial aliasing does not occur in a frequency region where the output level increases as the frequency increases.
  • FIG. 5 is a diagram showing the definition of directions in the following description.
  • the direction is defined by defining the direction on the first microphone 200 side as 0 ° (degrees) in the axial direction that is the direction on the straight line connecting the first microphone 200 and the second microphone 300. ).
  • the angle is defined clockwise in the normal use state as viewed from above.
  • the microphone sensitivity of the first microphone 200 and the microphone sensitivity of the second microphone 300 are equal.
  • 6 to 8 are diagrams showing the simulation results of the polar pattern (directivity pattern) of the first directional sound collection signal when the delay amount of the second delay device 412 is changed.
  • FIG. 6 shows a polar pattern in the case where the delay amount of the second delay device 412 is a delay amount equivalent to 8 mm.
  • FIG. 7 shows a polar pattern when the delay amount of the second delay device 412 is a delay amount equivalent to 10 mm (that is, an appropriate value).
  • FIG. 8 shows a polar pattern when the delay amount of the second delay unit 412 is a delay amount equivalent to 12 mm.
  • lines 561 to 564 indicate polar patterns of the first directional sound collection signal at 500 Hz (Hertz), 1000 Hz, 4000 Hz, and 12000 Hz, respectively.
  • lines 571 to 574 indicate polar patterns of the first directional sound pickup signal at 500 Hz, 1000 Hz, 4000 Hz, and 12000 Hz, respectively.
  • lines 581 to 584 indicate polar patterns of the first directional sound pickup signal at 500 Hz, 1000 Hz, 4000 Hz, and 12000 Hz, respectively.
  • the polar pattern extends in the 180 ° direction in addition to the main lobe 565 extending in the 0 ° direction.
  • side lobe 566 With side lobe 566. That is, the directivity is different from the cardioid characteristics described later.
  • the phase of the side lobe 566 is inverted with respect to the phase of the main lobe 565.
  • Such a side lobe having a negative phase is hereinafter referred to as a “negative lobe”.
  • the polar pattern has only a main lobe without a negative lobe. Further, the value of the main lobe in the 180 ° direction is almost zero in terms of amplitude value ( ⁇ in terms of logarithmic amplitude).
  • the polar pattern has only a main lobe without a negative lobe.
  • the value of the main lobe in the 180 ° direction is not zero in terms of amplitude value ( ⁇ in terms of logarithmic amplitude).
  • delay amount of the first delay unit 411 and the delay amount of the second delay unit 412 are set to the same value, and are simply referred to as “delay amount”.
  • FIG. 9 shows a polar pattern when the delay amount of the second delay device 412 is a delay amount equivalent to 8 mm.
  • FIG. 10 shows a polar pattern when the delay amount of the second delay device 412 is a delay amount equivalent to 10 mm (that is, an appropriate value).
  • FIG. 11 shows a polar pattern when the delay amount of the second delay unit 412 is a delay amount equivalent to 12 mm.
  • lines 611 to 614 indicate the polar pattern of the first directional sound collection signal, the polar pattern of the second directional sound collection signal, the polar pattern of the directional level signal, and the omnidirectional level signal, respectively.
  • a polar pattern is shown.
  • lines 621 to 624 indicate the polar pattern of the first directional sound collection signal, the polar pattern of the second directional sound collection signal, the polar pattern of the directional level signal, and the non-directional level signal. A polar pattern is shown.
  • lines 631 to 634 indicate the polar pattern of the first directional sound collection signal, the polar pattern of the second directional sound collection signal, the polar pattern of the directional level signal, and the omnidirectional level signal. A polar pattern is shown.
  • the first directional sound collection signal and the second directional sound collection signal have no negative lobe. Therefore, as indicated by lines 623 and 624 in FIG. 10, the polar pattern of the directional level signal and the polar pattern of the omnidirectional level signal match in all directions.
  • the first directional sound collection signal and the second directional sound collection signal do not have negative lobes even when the delay amount is larger than the appropriate value. Therefore, as indicated by lines 633 and 634 in FIG. 11, the polar pattern of the directional level signal and the polar pattern of the omnidirectional level signal match in all directions. However, the first directional sound collection signal and the second directional sound collection signal are slightly omnidirectional directional characteristics due to cardioid characteristics.
  • a delay amount equal to or greater than the distance between the acoustic terminals is given to the second delay device 412, a negative lobe is not substantially generated. If a smaller delay amount is given to the second delay device 412, sharper directivity is maintained. Conversely, it can be said that a delay amount having a value as small as possible within a range in which a negative lobe does not occur is an appropriate value for the delay amount of the second delay device 412.
  • Whether or not a negative lobe has occurred can be determined based on whether or not the omnidirectional level signal matches the directional level signal, as is apparent from FIGS. 9 to 11. it can.
  • the acoustic processing device 400 gradually increases the delay amount from a value sufficiently smaller than the value corresponding to the assumed minimum value of the distance between the acoustic terminals in a state where some sound source exists in the axial direction. . Then, the sound processing device 400 fixes the delay amount when the omnidirectional level signal and the directivity level signal match. As a result, the sound processing device 400 can set the delay amount to an appropriate value corresponding to the actual distance between the sound terminals.
  • the level comparison unit 451 when using the level ratio between the nondirectional level signal and the directional level signal, sets the level difference cmp_inf to, for example, the following formula (1 ) To calculate.
  • sum_abs indicates the value of the directional level signal
  • omni_abs indicates the value of the omnidirectional level signal.
  • the delay operation unit 452 fixes the delay amount when the level difference cmp_inf becomes zero.
  • the level comparison part 451 calculates level difference cmp_inf using the following formula
  • the value sum_abs of the directivity level signal and the value omni_abs of the omnidirectional level signal coincide with each other in both the directivity characteristics of the first directivity sound collection signal and the directivity characteristics of the second directivity sound collection signal. It is synonymous with the absence of negative lobes. That is, the fact that the directional level signal value sum_abs and the omnidirectional level signal value omni_abs coincide with each other indicates that for all frequencies ⁇ and all directions (sound incident angles) ⁇ , It is equivalent to satisfying (4).
  • a ( ⁇ , ⁇ ) represents the output characteristic of the first directional sound collection signal
  • B ( ⁇ , ⁇ ) represents the output characteristic B ( ⁇ ) of the second directional sound collection signal.
  • sgn () indicates the sign of the value in parentheses.
  • the configuration of the directivity synthesis processing unit 410 includes an omnidirectional level signal corresponding to the left side of Expression (3) and a directivity level signal corresponding to the right side of Expression (3). It has a configuration to generate.
  • the first microphone 200 and the second microphone 300 actually have a sensitivity error. For this reason, even if the delay amount is an appropriate value, the omnidirectional level signal and the directional level signal often do not completely match.
  • the sensitivity error for example, there is a sensitivity difference between the first microphone 200 and the second microphone 300, or uncorrelated noise existing between the first sound collection signal and the second sound collection signal. Can be mentioned.
  • the uncorrelated noise is, for example, circuit noise, wind noise, vibration noise, or the like.
  • FIG. 12 is a diagram showing the influence of sensitivity error on the relationship between delay amount and level difference.
  • the horizontal axis indicates the delay amount, and the distance between acoustic terminals (electrical distance) [m] corresponding to the delay amount.
  • the vertical axis represents the level difference cmp_inf [dB] calculated by the above equation (1).
  • the relationship between the delay amount at the frequency of 1 kHz and the level difference when the actual distance between the acoustic terminals is 10 mm (0.01 m) and the sound source is positioned in the direction of 0 ° is shown.
  • a line 661 indicates the relationship between the delay amount and the level difference when there is no sensitivity error between the first microphone 200 and the second microphone 300.
  • a line 662 indicates the relationship between the delay amount and the level difference when the second microphone 300 has a sensitivity error of ⁇ 0.087 dB with respect to the first microphone 200.
  • the level difference decreases as the delay amount increases, and decreases to 0 dB when the delay amount reaches a value corresponding to the distance between the acoustic terminals of 10 mm.
  • the level difference is not completely 0 dB even when the delay amount is a value corresponding to the distance between the acoustic terminals of 10 mm.
  • the threshold value serving as a criterion for fixing the delay amount is determined in consideration of the sensitivity error.
  • the second microphone 300 has an amplitude gain that is a times that of the first microphone 200.
  • the output characteristic A ( ⁇ ) of the first directional sound collection signal and the output characteristic B ( ⁇ ) of the second directional sound collection signal are expressed by the following expressions (5) and (6). Can do. Note that ⁇ represents the frequency of the input signal, and ⁇ represents the delay amount [sec] of the first delay device 411 and the second delay device 412.
  • the directivity level signal value sum_abs ( ⁇ ) and the omnidirectional level signal value omni_abs ( ⁇ ) can be expressed by the following equations (7) and (8).
  • FIG. 13 is a diagram illustrating the relationship between the residual gain error and the level difference.
  • the horizontal axis indicates the residual gain error between the first microphone 200 and the second microphone 300 by 20 log 10 (a) [dB] using the amplitude gain a described above.
  • the vertical axis indicates the level difference cmp_inf [dB] calculated by the above equation (1).
  • a line 671 indicates a level difference cmp_inf at 1 kHz when the above formulas (5) to (8) are substituted into the above formula (1).
  • the level difference cmp_inf is 0.2 or less. Therefore, in this case, if the threshold value as a criterion for fixing the delay amount is about 0.2, it is considered that the sensitivity error can be absorbed and the delay amount can be corrected.
  • the delay operation unit 452 adjusts the delay amount using a threshold value (threshold value) set based on the above method. More specifically, the delay operation unit 452 increases the delay amount while, for example, the level difference cmp_info is 0.2 or more. Then, the delay operation unit 452 stops increasing the delay amount when the level difference cmp_info becomes 0.2. Thereby, the delay amount is fixed at an appropriate value. Then, the first signal output unit 421 and the second signal output unit 422 output a first directional sound collection signal and a second directional sound collection signal having cardioid directivity characteristics.
  • a threshold value threshold value
  • dist_term is expressed by, for example, the following equation (9) using the delay amount ⁇ opt [sec] when the delay amount stops increasing.
  • c is the speed of sound [m / sec].
  • FIG. 14 is a flowchart showing an example of the operation of the sound processing apparatus 400.
  • the sound processing device 400 starts the operation illustrated in FIG. 14 when the power switch or the directional sound collection function is turned on. Further, it is assumed that the first microphone 200 and the second microphone 300 are continuously collecting sound while the operation shown in FIG. 14 is being performed.
  • step S1000 the directivity synthesis processing unit 410 acquires the first sound collection signal and the second sound collection signal from the first microphone 200 and the second microphone 300.
  • step S1010 the directivity synthesis processing unit 410 acquires the first directivity sound collection signal and the second directivity sound collection signal by directivity synthesis processing.
  • step S ⁇ b> 1020 the first signal output unit 421 and the second signal output unit 422 output the first directional sound collection signal and the second directional sound collection signal to the outside of the sound processing device 400.
  • the first band limiting unit 431 and the second band limiting unit 432 are input to the frequency band of the first directional sound pickup signal input to the comparison signal calculation unit 440 and the comparison signal calculation unit 440.
  • the frequency band of the second directional sound pickup signal is limited.
  • step S1030 the comparison signal calculation unit 440 calculates the directivity level signal value sum_abs and the omnidirectional level signal value omni_abs.
  • step S1040 the level comparison unit 451 calculates a level difference cmp_inf between the directivity level signal value sum_abs and the non-directional level signal value omni_abs.
  • step S1050 the delay operation unit 452 determines whether or not the level difference cmp_inf is greater than or equal to a predetermined threshold value thr.
  • step S1060 If the level difference cmp_inf is greater than or equal to the predetermined threshold thr (S1050: YES), the delay operation unit 452 proceeds to step S1060. When the level difference cmp_inf is less than the predetermined threshold thr (S1050: NO), the delay operation unit 452 skips step S1060 and proceeds to step S1070 described later.
  • step S1060 the delay operation unit 452 increases the delay amount ⁇ opt that the directivity synthesis processing unit 410 uses for the directivity synthesis processing.
  • the initial value of the delay amount ⁇ opt is a sufficiently small value. Further, increment of the delay tau opt, the time and the processing load until convergence to the proper value of the delay amount tau opt, and is a value determined in relation to the accuracy required for the directivity pattern.
  • step S1070 the directivity synthesis processing unit 410 determines whether or not the end of the directivity synthesis processing is instructed by a user operation or the like. This instruction is, for example, input of a signal indicating that the power switch is turned off or that the directional sound collection function is turned off.
  • the sound processing apparatus 400 can repeat the directivity synthesis process. Then, the sound processing device 400 adjusts the delay amount used for the directivity synthesis processing based on the first directional sound collection signal and the second directional sound collection signal so that phase inversion does not occur in these signals. be able to. Finally, the sound processing apparatus 400 performs directivity synthesis processing with the delay amount set to an appropriate value.
  • the sound processing apparatus 400 can output a first directional sound pickup signal having a directivity characteristic close to a cardioid and a second directivity sound pickup signal having a directivity characteristic close to a cardioid.
  • the sound collection device 100 including the sound processing apparatus 400 according to the present embodiment has a directivity synthesis process so that phase inversion does not occur in a directional sound collection signal having directivity in the axial direction. It is possible to adjust the amount of delay used for.
  • the sound collection device 100 can easily set the delay amount used in the directivity synthesis process so that the cardioid directivity is realized as long as some sound source exists in the axial direction.
  • the sound collection device 100 performs measurement in an anechoic room or the like by an acoustic design engineer every time the casing in which the microphone is installed changes, and directivity synthesis is performed. There is no need to adjust the amount of processing delay.
  • the sound collection device 100 calculates an appropriate value of the delay amount without using a conventional method such as correlation, and thus malfunctions even in an actual environment with reflection and ambient noise. Can be avoided.
  • the sound collection device 100 has a sound source direction search followability even in an acoustic change around the microphone or in a situation where a plurality of sound sources exist simultaneously. It won't get worse.
  • the sound collecting device 100 according to the present embodiment has a microphone mounting structure and mounting position, and a structure around the microphone, even in the real environment, even in the actual environment, as compared with the related art.
  • the amount of delay can be adjusted accurately.
  • the sound collection device 100 according to the present embodiment can realize an arbitrary directivity pattern with high accuracy, and can easily obtain a necessary sound with high quality.
  • the present invention is suitable for such a sound collecting device 100.
  • the method for adjusting the delay amount is not limited to the above example.
  • the delay operation unit 452 may continue adjusting the delay amount without fixing the delay amount even after the level difference cmp_inf becomes less than a predetermined threshold. That is, the delay operation unit 452 may readjust the delay amount. Specifically, for example, the delay operation unit 452 holds the minimum value of the level difference cmp_inf, and when the held minimum value is updated within a certain time, the delay amount is monotonously decreased. Also good.
  • the delay operation unit 452 may adjust the delay amount by limiting to a predetermined range so that the delay amount does not change greatly due to the influence of uncorrelated components between microphones.
  • the sound processing apparatus has a component (hereinafter referred to as “non-correlated component”) having no correlation between the first sound pickup signal and the second sound pickup signal.
  • a function is added to prevent delay amount correction when it is detected.
  • circuit noise has no correlation between the first sound collection signal and the second sound collection signal, but is always present, so that it is distinguished from an uncorrelated component.
  • the vibration source that vibrates the vibration version of the microphone is not a sound wave, such as mechanical vibration during zooming or wind pressure due to wind when shooting outdoors in a digital still camera that can be zoomed during recording. There is a case.
  • the wind is turbulent with different characteristics near the microphone. For this reason, the vibration due to the wind appears as an uncorrelated component on the sound pickup signals of the two microphones.
  • Such a non-correlated component greatly disturbs the polar pattern that should be obtained by sound waves when the directivity synthesis processing is performed while being included in the first and second collected sound signals. For this reason, when the delay amount adjustment described in the second embodiment is performed even though many uncorrelated components are included, there is a possibility that an incorrect value is set or the value converges to an appropriate value. May take longer.
  • the sound processing apparatus is configured not to adjust the delay amount based on the directional sound collection signal when many uncorrelated components are included.
  • FIG. 15 is a block diagram illustrating an example of a configuration of a sound collection device including the sound processing device according to the present embodiment, and corresponds to FIG. 2 of the second embodiment.
  • the same parts as those in FIG. 2 are denoted by the same reference numerals, and description thereof will be omitted.
  • the sound processing device 400a of the sound collection device 100a includes a comparison signal calculation unit 440a and a delay operation unit 452a instead of the comparison signal calculation unit 440 and the delay operation unit 452 illustrated in FIG.
  • the acoustic processing device 400a further includes an uncorrelated level signal output unit 461a, an uncorrelated component detection unit 462a, and an OR circuit 463a.
  • the comparison signal calculation unit 440a outputs a value obtained by subtracting the omnidirectional level signal from the directional level signal as an uncorrelated level signal indicating the level of the uncorrelated component. More specifically, the comparison signal calculation unit 440a includes a fifth adder 446a in addition to the configuration described in the second embodiment.
  • the fifth adder 446a adds the directional level signal and the omnidirectional level signal whose polarity is inverted, and outputs an uncorrelated level signal as a result of the addition.
  • the band-limited first directional sound pickup signal from the first band limiter 431 and the band-limited second directional sound pickup signal from the second band limiter 432 are mechanically transmitted to the device.
  • the signals include vibration components that are uncorrelated with each other.
  • the first directional sound collection signal and the second directional sound collection signal are converted into information having only amplitude without phase information and added to each other, thereby being uncorrelated with a correlated sound wave component.
  • a directivity level signal with enhanced both vibration components is obtained.
  • the uncorrelated level signal output unit 461a receives the uncorrelated level signal from the comparison signal calculation unit 440a and outputs a determination result signal indicating whether or not an uncorrelated component is included.
  • the uncorrelated component detection unit 462a determines whether or not there is an uncorrelated component between the first sound collection signal and the second sound collection signal. More specifically, the uncorrelated component detection unit 462a receives an uncorrelated level signal from the uncorrelated level signal output unit 461a, and includes a large amount of uncorrelated components when the uncorrelated level signal exceeds a predetermined threshold. It is determined that
  • the uncorrelated component detection unit 462a sequentially outputs a determination result signal indicating the determination result to the logical sum circuit 463a.
  • the determination result signal takes a value of 0 when it is determined that there is no uncorrelated component, and takes a value of 1 when it is determined that many uncorrelated components are included.
  • the OR circuit 463a receives the determination result signal output from the uncorrelated component detection unit 462a and the instruction signal input from the outside of the sound processing device 400a.
  • the instruction signal is a signal that specifies whether or not to adjust the delay amount.
  • the instruction signal takes a value of 0 when it is designated to perform delay amount adjustment, and takes a value of 1 when it is designated not to perform delay amount adjustment.
  • the logical sum circuit 463a takes a logical sum of the determination result signal and the instruction signal, and outputs the obtained signal as a control signal. That is, the control signal takes a value of 0 when it is specified to adjust the delay amount and it is determined that there is no uncorrelated component, and takes a value of 1 in other cases.
  • the instruction signal is a signal generated by a user operation, for example.
  • the instruction signal may be a detection signal of a sensor that detects wind noise. In this case, for example, the instruction signal takes a value of 1 while the wind noise is detected, and takes a value of 0 while the wind noise is not detected.
  • the delay operation unit 452a performs the delay amount adjustment described in the second embodiment on the condition that the delay amount adjustment is specified and it is determined that there is no uncorrelated component. That is, the delay operation unit 452a receives the control signal from the OR circuit 463a, and adjusts the delay amount when the control signal is zero. On the other hand, when the input control signal is 1, the delay operation unit 452a does not adjust the delay amount.
  • FIG. 16 is a flowchart showing an example of the operation of the sound processing apparatus 400a, and corresponds to FIG. 14 of the second embodiment.
  • the same parts as those in FIG. 14 are denoted by the same step numbers, and description thereof will be omitted.
  • steps S1000 to S1040 are the same as those in the second embodiment.
  • step S1041a the comparison signal calculation unit 440a subtracts the non-directional level signal value omni_abs from the directional level signal value sum_abs. Then, the comparison signal calculation unit 440a outputs the obtained signal as an uncorrelated level signal (uncorr_fact). Note that step S1041a may be performed after step S1030.
  • step S1051a If the level difference cmp_inf is greater than or equal to the predetermined threshold value thr (S1050: YES), the delay operation unit 452 proceeds to step S1051a.
  • step S1051a the uncorrelated component detection unit 462a compares the uncorrelated level signal value uncorr_fact with a predetermined threshold value thr_uncorr, and outputs a determination result signal in_uncorr_det indicating the comparison result.
  • step S1052a the logical sum circuit 463a calculates the logical sum of the determination result signal in_uncorr_det and the instruction signal ext_uncorr_det, and calculates the control signal uncorr_det that is the result of the logical sum.
  • step S1053a the delay operation unit 452a determines whether or not the value of the control signal uncorr_det is 1.
  • Step S1060 When the value of the control signal uncorr_det is 0 (S1053a: NO), the delay operation unit 452a proceeds to Step S1060.
  • the delay operation unit 452a proceeds to Step S1070.
  • the sound processing apparatus 400a determines whether or not a lot of uncorrelated components are included in the collected sound signal from the difference between the directivity level signal and the omnidirectional level signal. Can do. Then, the sound processing device 400a can be configured not to adjust the delay amount when many uncorrelated components are included in the collected sound signal.
  • the sound processing device 400a can reduce the influence on the delay amount adjustment due to mechanical vibration or noise such as wind pressure, and can easily realize an arbitrary directivity pattern with high accuracy. can do.
  • the method of extracting the uncorrelated component is not limited to the above example.
  • the acoustic processing apparatus 400a may use the uncorrelated component extraction method described in Patent Document 2.
  • the content of the uncorrelated level signal that is the output of the comparison signal calculation unit 440a is synonymous with the content of the expression (2) in the second embodiment. Therefore, the level comparison unit 451 may use an uncorrelated level signal instead of calculating the level difference cmp_inf. Furthermore, the level comparison unit 451 may not be provided, and an uncorrelated level signal may be directly input to the delay operation unit 452a as a level difference.
  • the fourth embodiment of the present invention is an example in which an audio signal having an arbitrary directivity pattern is output using the adjusted delay amount.
  • FIG. 17 is a block diagram showing an example of the configuration of the sound processing apparatus according to the present embodiment, and corresponds to FIG. 15 of the third embodiment.
  • the same parts as those in FIG. 15 are denoted by the same reference numerals, and description thereof will be omitted.
  • the sound processing device 400b of the sound collection device 100b has a configuration in which other functional units are added to the configuration shown in FIG.
  • the acoustic processing device 400b includes a delay calculation unit 470b, an output directivity synthesis processing unit 410b, a first equalizer (EQ) 481b, a second equalizer (EQ) 482b, a first audio signal output unit 491b, A second audio signal output unit 492b is included.
  • the delay calculation unit 470b receives the designation of the directivity direction, and performs directivity synthesis processing in the output directivity synthesis processing unit 410b, which will be described later, based on the distance between the sound terminals corresponding to the delay amount adjusted by the delay operation unit 452a. Control. Specifically, the delay calculation unit 470b calculates the distance between the sound terminals from the delay amount adjusted by the delay operation unit 452a using, for example, the above-described equation (9). Then, the delay calculation unit 470b calculates and outputs an optimum delay amount based on the value of the directivity instruction signal input from the outside of the sound processing device 400b and the calculated distance between the sound terminals.
  • the directivity instruction signal is a signal generated by a user operation, for example.
  • the instruction signal may be a detection signal of a sensor that detects a direction in which the user's conversation partner is located.
  • the output directivity synthesis processing unit 410b has, for example, the same configuration as the directivity synthesis processing unit 410, and includes a first delay unit 411b, a second delay unit 412b, a first adder 413b, and a second adder 413b.
  • Adder 414b correspond to the first delay device 411, the second delay device 412, the first adder 413, and the second adder 414 of the second embodiment. That is, the first adder 413b outputs a first output directional sound collection signal, and the second adder 414b outputs a second output directional sound collection signal.
  • the output directivity synthesis processing unit 410b uses the delay amount output from the delay calculation unit 470b (hereinafter referred to as “output delay amount”) and outputs the first output directivity sound collection signal and the second output directivity sound collection signal. An output directional sound pickup signal is generated.
  • the first equalizer 481b inputs the first output directional sound pickup signal and corrects its frequency characteristic. Then, the first equalizer 481b outputs a first equivalent directional sound pickup signal that is a correction result.
  • the second equalizer 482b receives the second output directional sound pickup signal and corrects its frequency characteristic. Then, the second equalizer 482b outputs a second equivalent directional sound pickup signal that is a correction result.
  • the frequency characteristic is corrected by using the first output directional sound collection signal and the second output directional sound collection signal as shown in FIG. 3 and FIG. Is a correction to make the frequency characteristic opposite.
  • the frequency amplitude characteristic is equivalent to 0 dB.
  • the first audio signal output unit 491b receives the first output directional sound pickup signal. And the 1st audio
  • the second audio signal output unit 492b inputs the second output directional sound collection signal. And the 2nd audio
  • the first audio signal output unit 491b and the second audio signal output unit 492b are arranged, the first signal output unit 421 and the second signal output of the third embodiment.
  • the part 422 is unnecessary, it is not limited to this.
  • FIG. 18 is a diagram illustrating an example of a relationship between a microphone for obtaining a specified directivity pattern and an incident angle ⁇ .
  • the acoustic processing apparatus 400b according to the present embodiment also forms a blind spot in the direction of the angle ⁇ correspondingly.
  • the delay calculation unit 470b first calculates the actual distance between acoustic terminals dist_term from the delay amount ⁇ opt output from the delay operation unit 452a using the above-described equation (9). Then, the delay calculation unit 470b calculates the output delay amount ⁇ act from the specified angle ⁇ and the calculated inter-acoustic terminal distance dist_term using, for example, the following equation (10).
  • the sound processing apparatus 400b uses the output delay amount ⁇ act calculated from the actual distance between acoustic terminals dist_term in this way, thereby accurately generating a sound having a directivity pattern having a blind spot in the ⁇ direction (and ⁇ direction). A signal can be output.
  • FIG. 19 is a flowchart showing an example of the operation of the sound processing apparatus 400b, and corresponds to FIG. 16 of the third embodiment.
  • the same parts as those in FIG. 16 are denoted by the same step numbers, and description thereof will be omitted.
  • steps S1000 to S1041a is the same as that in the third embodiment.
  • step S1042b the output directivity synthesis processing unit 410b outputs the first output directivity sound collection signal and the second output directivity sound collection signal by output directivity synthesis processing. get.
  • step S1043b the first equalizer 481b and the second equalizer 482b perform frequency equivalent processing on the first output directional sound collection signal and the second output directional sound collection signal. Then, the first audio signal output unit 491b and the second audio signal output unit 492b have the first output directional sound collection signal and the second output directional sound collection after the frequency equivalent processing is performed. Output a signal.
  • timing which performs the process of step S1042b and S1043b is not limited to the said timing.
  • step S1050 the delay operation unit 452a determines whether the level difference cmp_inf is greater than or equal to a predetermined threshold value thr and the value of the control signal uncorr_det is 1.
  • the delay operation unit 452a proceeds to step S1061b through steps S1051a to 1060.
  • step S1061b the delay calculation unit 470b calculates the output delay amount ⁇ act from the directivity instruction signal, sets it in the output directivity synthesis processing unit 410b, and proceeds to step S1070.
  • the acoustic processing device 400b generates an arbitrary directivity pattern from the delay amount corresponding to the actual distance between the acoustic terminals calculated in response to the acoustic change around the microphone. Can be realized accurately. As a result, the acoustic processing device 400b can accurately adjust the delay amount in the actual environment even if acoustic changes occur in the microphone mounting structure and mounting position, the structure around the microphone, and the like. As a result, the sound processing device 400b can easily and accurately realize directional sound collection having an arbitrary directional pattern, and can acquire necessary sound with high quality.
  • the output directivity synthesis processing forms a blind spot by subtraction, but is not limited to this.
  • the output directivity synthesis process may be based on an addition type (Delay_And_Sum). Even in this case, since the actual distance between the acoustic terminals is required, it is possible to obtain desired directivity with high accuracy.
  • the delay amount of the first sound pickup signal and the delay amount of the second sound pickup signal are adjusted and set to the same value.
  • the acoustic path may be significantly different due to the difference in the surrounding environment where the two microphones are installed.
  • the delay amount of the first sound pickup signal and the delay amount of the second sound pickup signal may be adjusted and set to different values.
  • the present invention is not limited to this.
  • the delay amount correction according to the present invention is performed for each pair of two microphones, and when there are three or more microphones, they may be performed for each pair. Therefore, the present invention can also be applied to the case where directivity synthesis processing is performed on the collected sound signals output from a plurality of three or more microphones.
  • the target of sound output to the user may be the first directional sound collection signal and the second directional sound collection signal output from the directivity synthesis processing unit 410.
  • the low frequency level is insufficient in the frequency characteristics compared to the high frequency level (see FIGS. 3 and 4).
  • the equivalents of the first equalizer 481b and the second equalizer 482b are added, and correction is performed to amplify the low band or attenuate the high band. desirable.
  • Embodiment 5 of the present invention is an example of a specific mode when the present invention is applied to a sound collecting device in a remote conference system or the like that includes four microphones.
  • the sound collection device performs delay-and-sum addition (Delay And Sum) on the sound pickup signals of the four microphones, and performs directional sound collection for the speaker in the designated direction.
  • Delay And Sum delay-and-sum addition
  • FIG. 20 is a block diagram showing an example of a processing configuration in the microphone array according to the present embodiment, and corresponds to FIG. 2 of the second embodiment.
  • the same parts as those in FIG. 2 are denoted by the same reference numerals, and description thereof will be omitted.
  • a hyphen and a serial number are added.
  • the sound collection device 100c includes a third microphone 301 and a fourth microphone 302 in addition to the extended sound processing device 400c, the first microphone 200, and the second microphone 300 shown in FIG.
  • the first microphone 200, the second microphone 300, the third microphone 301, and the fourth microphone 302 are arranged at different positions at a distance from each other. Here, for the sake of simplicity, it is assumed that the microphones are aligned.
  • the first microphone 200, the second microphone 300, the third microphone 301, the fourth microphone 302, and the extended sound processing device 400c are, for example, inside the housing (not shown) of the sound collection device 100c. Is arranged.
  • the third microphone 301 is an omnidirectional microphone (third sound collector).
  • the third microphone 301 collects sound and outputs a sound collection signal.
  • the sound collection signal output by the third microphone 301 is referred to as a “third sound collection signal”.
  • the fourth microphone 302 is an omnidirectional microphone (fourth sound collector).
  • the fourth microphone 302 collects sound and outputs a sound collection signal.
  • the sound collection signal output by the fourth microphone 302 is referred to as a “fourth sound collection signal”.
  • the extended sound processing device 400c inputs the first sound collection signal, the second sound collection signal, the third sound collection signal, and the fourth sound collection signal. Then, the extended sound processing device 400c performs directional sound collection in the direction indicated by the directivity instruction signal that is an external signal of the extended sound processing device 400c.
  • the extended sound processing device 400c includes first to third sound processing devices (400-1, 400-2, 400-3), a delay calculation unit 470c, and an output device.
  • a directivity synthesis unit 410c and an audio signal output unit 491c are included.
  • the first sound processing device 400-1 inputs the first sound collection signal and the second sound collection signal. Then, the first acoustic processing device 400-1 has an amount of delay corresponding to the distance between the acoustic terminals between the first microphone 200 and the second microphone 300 (hereinafter referred to as “first delay amount”). Then, the first sound processing device 400-1 outputs the calculated first delay amount to the delay calculation unit 470c.
  • the second sound processing device 400-2 inputs the second sound collection signal and the third sound collection signal. Then, the second acoustic processing device 400-2 has a delay amount corresponding to the distance between the acoustic terminals between the second microphone 300 and the third microphone 301 (hereinafter referred to as “second acoustic terminal distance”). (Hereinafter referred to as “second delay amount”). Then, the second sound processing device 400-2 outputs the calculated second delay amount to the delay calculation unit 470c.
  • the third sound processing device 400-3 inputs the third sound collection signal and the fourth sound collection signal. Then, the third acoustic processing device 400-3 has an amount of delay corresponding to the distance between the acoustic terminals between the third microphone 301 and the fourth microphone 302 (hereinafter referred to as “third delay amount”). Then, the third sound processing device 400-3 outputs the calculated third delay amount to the delay calculation unit 470c.
  • the delay calculation unit 470c multiplies each of the first to third delay amounts output from the first to third acoustic processing devices 400-1 to 400-3 by the speed of sound to obtain first to third acoustic terminals. Calculate the distance.
  • the delay calculation unit 470c uses the first to third output directivity synthesis units 410c based on the sound collection direction angle ⁇ specified by the directivity instruction signal and the calculated first to third distances between the sound terminals.
  • the delay amounts of the four delay units 411c to 414c are calculated. Then, the delay calculation unit 470c outputs the first output delay amount to the first delay unit 411c, and outputs the second output delay amount to the second delay unit 412c.
  • the delay calculation unit 470c outputs the third output delay amount to the third delay unit 413c, and outputs the fourth output delay amount to the fourth delay unit 414c.
  • the directivity instruction signal is a signal generated by a user operation, for example, and is a signal indicating an operation angle when directivity synthesis is performed.
  • the operation angle is, for example, an angle between the front direction of the sound processing apparatus of the conference system and the direction with respect to the position of the speaker.
  • the directivity direction of the sound collection designated by the directivity instruction signal may be automatically calculated.
  • the direction specified by the directivity instruction signal may be a speaker direction that is automatically specified based on a detection signal of a sensor that detects the speaker direction.
  • the audio signal output unit 491c receives the output directivity synthesis signal output from the output directivity synthesis unit 410, and outputs the output directivity synthesis signal to the outside of the extended sound processing apparatus 400c as a target of sound output to the user. More specifically, the sound is output as sound input by the sound collection device 100c (here, the conference system main body (not shown)).
  • the output directivity synthesis unit 410c includes a first delay unit 411c, a second delay unit 412c, a third delay unit 413c, a fourth delay unit 414c, and an adder 415c.
  • the first delay unit 411c performs a delay operation on the first sound collection signal output from the first microphone 200 based on the first output delay amount output from the delay calculation unit 470c. Then, the first delay unit 411c outputs a first delayed sound collection signal obtained by delaying the first sound collection signal by the first output delay amount to the adder 415c.
  • the second delay unit 412c performs a delay operation on the second sound collection signal output from the second microphone 300 based on the second output delay amount output from the delay calculation unit 470c. Then, the second delay device 412c outputs the second delayed sound pickup signal obtained by delaying the second sound pickup signal by the second output delay amount to the adder 415c.
  • the third delay unit 413c performs a delay operation on the third sound collection signal output from the third microphone 301 based on the third output delay amount output from the delay calculation unit 470c. Then, the third delay device 413c outputs a third delayed sound pickup signal obtained by delaying the third sound pickup signal by the third output delay amount to the adder 415c.
  • the fourth delay unit 414c performs a delay operation on the fourth sound collection signal output from the fourth microphone 302 based on the fourth output delay amount output from the delay calculation unit 470c. Then, the fourth delay unit 414c outputs a fourth delayed sound collection signal obtained by delaying the fourth sound collection signal by the fourth output delay amount to the adder 415c.
  • the adder 415c adds the first delayed sound pickup signal, the second delay sound pickup signal, the third delay sound pickup signal, and the fourth delay sound pickup signal to generate an output directivity composite signal,
  • the audio signal is output to the audio signal output unit 491c.
  • FIG. 21 is a diagram illustrating an example of a relationship between a microphone for obtaining a designated directivity pattern and a designated direction angle ⁇ .
  • a directivity pattern having a directivity angle in the direction of the designated angle ⁇ is formed by the directivity instruction signal with the positional relationship as shown in FIG. Note that when the pointing angle is set in the direction of angle ⁇ , extended sound processing apparatus 400c according to the present embodiment forms a pointing angle in the direction of angle ⁇ 180 + ⁇ correspondingly.
  • ⁇ opt [i] indicates the i-th delay amount described above.
  • the delay calculation unit 470c calculates the i-th output delay amount ⁇ act [i], for example, It calculates using the following formula
  • the delay calculation unit 470c calculates the fourth output delay amount ⁇ act [4] using, for example, the following equation (13).
  • the delay calculation unit 470c sets the i-th output delay amount ⁇ act [i] as follows: For example, it calculates using the following formula
  • the delay calculation unit 470c calculates the fourth output delay amount ⁇ act [1] using, for example, the following equation (15).
  • the extended sound processing device 400c thus calculates the actual distance between the sound terminals for each pair of microphones, and gives the output delay amount for each delay device. Thereby, the extended sound processing apparatus 400c can output a sound signal having a directivity pattern having a directivity angle in the ⁇ direction (and in the ⁇ 180 + ⁇ direction) accurately.
  • FIG. 22 is a flowchart showing an example of the operation of the extended sound processing apparatus 400c, and corresponds to FIG. 14 of the second embodiment.
  • the same parts as those in FIG. 14 are denoted by the same step numbers, and description thereof will be omitted.
  • the extended sound processing apparatus 400c performs the same processing as FIG. 14 in a loop three times. Therefore, in this embodiment, for convenience, “i” used in the above description is used as an index of the number of loops.
  • step S1001c the delay calculation unit 470c initializes the index i to 1.
  • step S1002c the directivity synthesis processing unit 410-i (not shown) of the i-th acoustic processing device 400-i performs directivity synthesis processing.
  • the directivity synthesis processing unit 410- (i + 1) (not shown) of the (i + 1) th acoustic processing device 400- (i + 1) performs directivity synthesis processing.
  • the extended sound processing apparatus 400c acquires the i-th directional sound collection signal and the (i + 1) -th directional sound collection signal.
  • steps S1010 to S1040 is the same as that in the second embodiment, and is executed for each index i.
  • step S1061c the delay operation unit 452-i (not shown) of the i-th acoustic processing device 400-i determines whether or not the level difference cmp_inf is greater than or equal to a predetermined threshold value thr.
  • step S1062c If the level difference cmp_inf is greater than or equal to the predetermined threshold value thr (S1061c: YES), the delay operation unit 452 proceeds to step S1062c. If the level difference cmp_inf is less than the predetermined threshold thr (S1061c: NO), the delay operation unit 452 skips step S1062c and proceeds to step S1063c described later.
  • step S1062c for each index i, the delay operation unit 452-i (not shown) of the i-th acoustic processing device 400-i is used by the directivity synthesis processing unit 410-i (not shown). Increase the delay amount ⁇ opt [i].
  • the initial value of the i-th delay amount ⁇ opt [i] is a sufficiently small value. Further, increment of the delay tau opt [i] of the i-th time and the processing load until convergence to delay tau opt proper value of [i] of the i, as well as the accuracy required for the directivity pattern This value is determined based on the relationship.
  • step S1063c the delay calculation unit 470c increments the loop count index i by one in order to perform processing for the next microphone pair.
  • step S1064c the delay calculation unit 470c checks whether the index i has exceeded a predetermined number, that is, whether the loop has been rotated a predetermined number of times. In the present embodiment, since there are four microphones and three adjacent microphone pairs exist, the upper limit value of the index i is 3. Therefore, the delay calculation unit 470c determines whether the index i is greater than 3.
  • the delay calculation unit 470c When the index i is 3 or less (S1064c: NO), the delay calculation unit 470c returns to step S1002c. If the index i is greater than 3 (S1064c: YES), the delay calculation unit 470c proceeds to step S1064c.
  • step S1065c the delay calculation unit 470c transmits the directivity instruction signal indicating the directivity angle designated from the outside, the first delay amount ⁇ opt [1], the second ⁇ opt [2], and the third ⁇ opt.
  • the output delay amount is calculated using [3]. That is, the delay calculation unit 470c includes the first to fourth output delay amounts ⁇ act [1] and ⁇ act [2] ⁇ act [, which are the delay amounts used by the first to fourth delay units 411c to 414c. 3] Calculate ⁇ act [4].
  • the directivity synthesis processing unit 410c performs output directivity synthesis processing to obtain an output directivity synthesis signal, and the process proceeds to step S1070.
  • the extended sound processing apparatus 400c has an arbitrary directivity from the delay amount corresponding to the actual distance between the acoustic terminals calculated each time in response to the acoustic change around the actual microphone. Sex patterns can be realized accurately.
  • the acoustic processing device 400b can accurately adjust the delay amount in the actual environment even if an acoustic change occurs in the microphone mounting structure and mounting position, the structure around the microphone, and the like. That is, the acoustic processing device 400b can easily and accurately realize directional sound collection having an arbitrary directional pattern even in a real environment, and can acquire necessary sound with high quality. it can.
  • the output directivity synthesis processing forms the directivity angle by addition, but is not limited to this.
  • the output directivity synthesis processing may be based on a sound pressure gradient type (Sound Pressure Gradient) by subtraction processing. Even in this case, since the actual distance between the acoustic terminals is required, it is possible to obtain desired directivity with high accuracy.
  • the microphone array is linear, but the present invention is not limited to this. If the distance between the acoustic terminals of the pair related to the directivity synthesis is obtained in a square shape, accurate directivity sound collection is possible as well.
  • the number of microphones is four, it is not limited to this as long as two or more microphones can be paired.
  • an arbitrary directivity pattern can be obtained by accurately adjusting a delay amount in a real environment even if an acoustic change occurs in a microphone mounting structure, a mounting position, and a structure around the microphone. It can be realized with high accuracy. That is, the present invention is useful as a sound processing apparatus and a sound processing method that can more easily acquire a required sound with high quality.
  • the present invention is suitable for a digital still camera having a video shooting function, a digital video camera, a sound collector, a sound collecting device in a remote conference system, or various stereo recording devices.

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 より簡単に、任意の指向性パターンを精度良く実現して必要とする音を高品質で取得することができる音響処理装置。この装置(400)は、第1の収音信号に対し第2の収音信号を遅延させて合成した第1の指向性収音信号を生成し、第2の収音信号に対し第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する指向性合成処理部(410)と、第1の指向性収音信号と第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号と、第1の指向性収音信号のレベルを示す第1のレベル信号と第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号とを生成する比較信号算出部(440)と、無指向性レベル信号と指向性レベル信号とのレベル差異を取得するレベル比較部(451)と、レベル差異が小さくなるように遅延の量を調整する遅延操作部(452)とを有する。

Description

音響処理装置および音響処理方法
 本発明は、少なくとも2つの収音器から出力される収音信号に対して指向性合成処理を行う、音響処理装置および音響処理方法に関する。
 従来、複数のマイクロホンからの収音信号に対して指向性合成処理を行うことにより、指向性収音を可能にした機器が存在する。指向性収音を可能にした機器は、例えば、収音機器を備えた遠隔会議システム、デジタルビデオカメラ、あるいはデジタルスチルカメラ(DSC:Digital Still Camera)等である。
 このような指向性収音が可能な機器(以下、「収音機器」ともいう)において、指向性合成処理を行う装置部(以下、「音響処理装置」という)は、指向性合成処理に音波の位相差を利用する。このため、音響処理装置は、収音信号に対する遅延処理を必要とする。その遅延処理に用いられる遅延量は、音響端子間距離に基づいて設定される。音響端子間距離とは、収音を行う2つの端子(ここではマイクロホン、以下「収音器」ともいう)間の音響的な距離を指す。より具体的には、音響端子間距離は、音源が端子間を結ぶ直線軸上に存在する場合に、端子間の音波の到達時間差に音速を乗じたものを指す。
 誤った遅延量を用いて遅延処理が行われた場合は、意図した指向性パターン(以下、適宜、「指向特性」あるいは「ポーラパターン」という)を得られないことがある。したがって、遅延量は、実際の音響端子間距離に相当する適正値である必要がある。音響処理装置は、実際の音響端子間距離に相当する遅延量を設定することにより、例えば、音声収音の際に、発話音声などの特定の方向からの音声を、周囲の騒音などを抑圧した状態で収音することを可能にする。
 ところが、実際の音響端子間距離は、マイクロホンが組み込まれる筐体など端子周辺の構造物による影響により、端子間の実測距離(機構的な設計値)からずれることがある。この場合、音響処理装置は、不適切な遅延量を用いてしまうおそれがある。
 そこで、例えば、特許文献1に記載の技術(以下「従来技術」という)には、適切な遅延量を設定するための技術が記載されている。
 従来技術は、まず、4つのマイクロホンのうち、音響端子間距離が既知である2つのマイクロホンの収音信号から、当該既知の音響端子間距離に基づいて、音源の位置を推定する。そして、従来技術は、他のマイクロホンの収音信号から、推定した音源の位置に基づいて、当該他のマイクロホンの位置を推定する。具体的には、従来技術は、音源の位置から計算される音響端子間距離が未知である2つのマイクロホン間の遅延量と、かかる遅延量の実測値との間の2乗誤差とが減少するように、音源位置および各マイクロホンの位置の推定値を調整する。
 例えば、音源は、無響室において、収音機器の2つのマイクロホンを結ぶ直線上の方向(以下「軸方向」という)のうちの1方向の所定の位置に、配置される。そして、上述の従来技術を適用して、2乗誤差が最小となるようにマイクロホンの位置の推定値が、調整される。これにより、従来技術を適用した音響処理装置は、音源方向の角度および指向性合成処理の遅延量から、実際の音響端子間距離を精度良く推定し、任意の指向性パターンを精度良く実現することができる。
特開2007-81455号公報 国際公開第09/044562号
 ここで、従来技術を適用した音響処理装置が、遠隔会議システムの収音機器に使用され、当該収音機器が、机などの大きな個体物に埋め込まれることを想定する。
 このような場合、音響端子間距離を正確に求める、すなわち、遅延量推定を正しく行うためには、個体物を無響室に運んで測定する必要があり、測定が煩雑となる。
 また、マイクロホンアレイの性能を維持するために、マイクの取り付け構造自体を制限することは、取り付け側の構造物や機器のデザイン等に対して制約となりうる。
 また、マイクロホンの周辺に、物を置いたり手をかざしたりするだけでも、音響的な環境が変化し、指向特性が安定しない傾向がある。
 また、遅延量の適正値を、例えば特許文献1から算出しようとすると、音源の方向を推定する必要があるが、相関などの従来手法を用いた場合、会議室のような音響的反射や周囲雑音がある実環境では、誤動作が発生する。
 また、音響処理装置に対する音源の位置は、常に一定とは限らず、音源位置が変化したり、複数音源が同時に存在するような状況下では、音源方向探査の追従性が悪くなり、遅延推定を正しく行うことが困難である。つまり、従来技術では、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じると、正しい遅延推定ができなくなるという課題がある。
 したがって、このような音響処理装置では、音響的な変化が生じた場合でも、任意の指向性パターンを精度良く実現し、より簡単に必要とする音を高品質で取得できることが望まれる。すなわち、実環境において、遅延量の調整を正確に行うことが可能な技術が望まれる。
 本発明の目的は、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量の調整を正確に行うことである。
 本発明の一態様に係る音響処理装置は、第1の収音器から出力される第1の収音信号および第2の収音器から出力される第2の収音信号に対して、指向性合成処理を行う音響処理装置であって、前記第1の収音信号に対して前記第2の収音信号を遅延させて合成した第1の指向性収音信号を生成し、前記第2の収音信号に対して前記第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する指向性合成処理部と、前記第1の指向性収音信号と前記第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号と、前記第1の指向性収音信号のレベルを示す第1のレベル信号と前記第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号と、を生成する比較信号算出部と、前記無指向性レベル信号と前記指向性レベル信号とのレベル差異を取得するレベル比較部と、前記レベル差異が小さくなるように、前記指向性合成処理部における前記遅延の量を調整する遅延操作部とを有する。
 本発明の一態様に係る音響処理方法は、第1の収音器から出力される第1の収音信号および第2の収音器から出力される第2の収音信号に対して、指向性合成処理を行う音響処理装置における音響処理方法であって、前記第1の収音信号に対して前記第2の収音信号を遅延させて合成した第1の指向性収音信号を生成し、前記第2の収音信号に対して前記第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する指向性合成処理部から、前記第1の指向性収音信号および前記第2の指向性収音信号を取得するステップと、前記第1の指向性収音信号と前記第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号を生成するステップと、前記第1の指向性収音信号のレベルを示す第1のレベル信号と前記第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号を生成するステップと、前記無指向性レベル信号と前記指向性レベル信号とのレベル差異を取得するステップと、前記レベル差異が小さくなるように、前記指向性合成処理部における前記遅延の量を調整するステップとを有する。
 本発明は、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実空間で、音響端子間距離を正確に求めることができる。
本発明の実施の形態1に係る音響処理装置の構成の一例を示すブロック図 本発明の実施の形態2に係る、音響処理装置を含む収音機器の構成の一例を示すブロック図 本発明の実施の形態2における、第1の指向性収音信号の周波数振幅特性のシミュレーション結果を示す図 本発明の実施の形態2における、第2の指向性収音信号の周波数振幅特性のシミュレーション結果を示す図 本発明の実施の形態2における、方向の定義を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が小さい場合の第1の指向性収音信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が適正値である場合の第1の指向性収音信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が大きい場合の第1の指向性収音信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が小さい場合の無指向性レベル信号のポーラパターンおよび指向性レベル信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が適正値である場合の無指向性レベル信号のポーラパターンおよび指向性レベル信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、第2の遅延器の遅延量が大きい場合の無指向性レベル信号のポーラパターンおよび指向性レベル信号のポーラパターンのシミュレーション結果を示す図 本発明の実施の形態2における、遅延量とレベル差異との関係に対する感度誤差の影響を示す図 本発明の実施の形態2における、残留ゲイン誤差とレベル差異との関係を示す図 本発明の実施の形態2に係る音響処理装置の動作の一例を示すフローチャート 本発明の実施の形態3に係る音響処理装置を含む収音機器の構成の一例を示すブロック図 本発明の実施の形態3に係る音響処理装置の動作の一例を示すフローチャート 本発明の実施の形態4に係る音響処理装置の構成の一例を示すブロック図 本発明の実施の形態4における、指定された指向性パターンを得るためのマイクロホンと入射角度θの関係の一例を示す図 本発明の実施の形態4に係る音響処理装置の動作の一例を示すフローチャート 本発明の実施の形態5に係る音響処理装置の構成の一例を示すブロック図 本発明の実施の形態5における、指定された指向性パターンを得るためのマイクロホンと指定された方向角度θの関係の一例を示す図 本発明の実施の形態5に係る音響処理装置の動作の一例を示すフローチャート
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本発明の実施の形態1は、本発明の基本的態様の一例である。
 図1は、本実施の形態に係る音響処理装置の構成の一例を示すブロック図である。
 図1において、音響処理装置400は、第1の収音器(図示せず)から出力される第1の収音信号および第2の収音器(図示せず)から出力される第2の収音信号に対して、指向性合成処理を行う装置である。音響処理装置400は、指向性合成処理部410、比較信号算出部440、レベル比較部451、および遅延操作部452を有する。
 指向性合成処理部410は、第1の収音信号に対して第2の収音信号を遅延させて合成した第1の指向性収音信号を生成する。すなわち、指向性合成処理部410は、第1の収音信号に対して第2の収音信号を遅延させて合成することにより、第1の収音器側の方向である第1の方向に指向性を持たせるようにする。
 また、指向性合成処理部410は、第2の収音信号に対して第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する。すなわち、指向性合成処理部410は、第2の収音信号に対して第1の収音信号を遅延させて合成することにより、第2の収音器側の方向である第2の方向に指向性を持たせるようにする。
 比較信号算出部440は、第1の指向性収音信号と第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号を生成する。また、比較信号算出部440は、第1の指向性収音信号のレベルを示す第1のレベル信号と、第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号を生成する。
 レベル比較部451は、無指向性レベル信号と指向性レベル信号とのレベル差異を取得する。
 遅延操作部452は、レベル差異が小さくなるように、指向性合成処理部410における遅延の量を調整する。
 音響処理装置400は、図示しないが、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリを有する。この場合、上記した各部の機能は、例えば、CPUが制御プログラムを実行することにより実現される。
 このように音響処理装置400は、少なくとも一方の収音器側の方向に指向性を持たせた指向性収音信号に対して、位相反転が生じなくなるように遅延量を調整する。
 このような指向性収音信号に位相反転が生じていないということは、遅延量に対応する音響端子間距離が、実際の音響端子間距離よりも短すぎないということである。したがって、音響処理装置400は、位相反転が生じない最小値に遅延の量を調整することにより、任意の指向性パターンを精度良く実現することが可能となり、必要とする音を高品質で取得することができる。言い換えると、本実施の形態に係る音響処理装置400は、音響端子間距離を正しく算出して、収音信号の処理を行うことができる。
 また、音響処理装置400は、具体的には、無指向性レベル信号と指向性レベル信号とのレベル差異が小さくなるように、遅延量の調整を調整する。これにより、音響処理装置400は、簡単に、位相反転が生じなくなるように遅延量を調整することができる。また、この調整は、軸方向になんらかの音源が存在すれば可能である。したがって、音響処理装置400は、より簡単に、任意の指向性パターンを精度良く実現することができ、より簡単に、必要とする音(音声、音響)を高品質で取得することができる。
 また、音響処理装置400は、上記遅延量の調整により、遅延量の調整を正確に行うことができる。これにより、音響処理装置400は、マイクロホンおよびその周囲の構造物等の、音響的な変化が生じて、音響端子間距離が変化しても、実環境において、簡単に、位相反転が生じなくなるように遅延量を調整することができる。また、この調整は、軸方向になんらかの音源が存在すれば可能である。したがって、音響処理装置400は、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量の調整を正確に行うことができる。
 (実施の形態2)
 本発明の実施の形態2は、本発明を、2個のマイクロホンを備えたデジタルカメラなどの収音機器に適用した場合の具体的態様の一例である。
 本実施の形態において、収音機器は、2つのマイクロホンを結ぶ直線上の両側方向(軸方向)に伸びるカーディオイド(cardioid)の指向特性で、ステレオ収音を行うものである。
 なお、一般のステレオマイクは、減算部出力に、低域を増幅するための周波数特性補正部(等価器)を設ける。しかし、回路ノイズが重畳して遅延補正処理に悪影響を及ぼすことから、ここでは、周波数特性補正部を省略した構成について説明する。また、以下に説明する音響処理装置の各部は、例えば、収音機器の筐体の内部に配置された2つのマイクロホンと、CPUと、制御プログラムを格納したROMなどの記憶媒体とを含むハードウェアにより実現される。
 <収音機器の構成>
 まず、本実施の形態に係る音響処理装置を含む収音機器の構成について説明する。
 図2は、本実施の形態に係る音響処理装置を含む収音機器の構成の一例を示すブロック図である。
 図2において、収音機器100は、第1のマイクロホン200、第2のマイクロホン300、および、本実施の形態に係る音響処理装置400を有する。第1のマイクロホン200、第2のマイクロホン300、および音響処理装置400は、例えば、収音機器100の筐体(図示せず)の内部に配置されている。また、第1のマイクロホン200と第2のマイクロホン300とは、異なる位置に、互いに距離を置いて配置されている。
 第1のマイクロホン200は、無指向性マイクロホン(第1の収音器)である。第1のマイクロホン200は、収音を行い、収音信号を出力する。以下、第1のマイクロホン200が出力する収音信号は、「第1の収音信号」という。
 第2のマイクロホン300は、無指向性マイクロホン(第2の収音器)である。第2のマイクロホン300は、収音を行い、収音信号を出力する。以下、第2のマイクロホン300が出力する収音信号は、「第2の収音信号」という。
 なお、本実施の形態において、第1のマイクロホン200と第2のマイクロホン300との間の実際の音響端子間距離は、10mm(ミリメートル)であるものとする。これは、初期において未知の値である。
 音響処理装置400は、第1の収音信号および第2の収音信号を入力する。そして、音響処理装置400は、第1の収音信号および第2の収音信号に対して指向性合成処理を行う。
 より具体的には、音響処理装置400は、指向性合成処理部410、第1の信号出力部421、第2の信号出力部422、第1の帯域制限部431、第2の帯域制限部432、比較信号算出部440、レベル比較部451、および遅延操作部452を有する。
 指向性合成処理部410は、第1の収音信号に対して第2の収音信号を遅延させて合成することにより、第1の収音器側の方向である第1の方向に指向性を持たせた第1の指向性収音信号を生成する。また、指向性合成処理部410は、第2の収音信号に対して第1の収音信号を遅延させて合成することにより、第2の収音器側の方向である第2の方向に指向性を持たせた第2の指向性収音信号を生成する。すなわち、指向性合成処理部410は、第1の収音信号および第2の収音信号から、軸方向に対になるような指向特性となる、2つの指向性収音信号を生成する。
 より具体的には、指向性合成処理部410は、第1の遅延器411、第2の遅延器412、第1の加算器413、および第2の加算器414を有する。
 第1の遅延器411は、第1の収音信号を入力する。そして、第1の遅延器411は、第1の収音信号を遅延させた第1の遅延収音信号を出力する。
 第2の遅延器412は、第2の収音信号を入力する。そして、第2の遅延器412は、第2の収音信号を遅延させた第2の遅延収音信号を出力する。
 なお、第1の遅延収音信号の第1の収音信号に対する遅延量、および、第2の遅延収音信号の第2の収音信号に対する遅延量は、それぞれ、後述の遅延操作部452により調整可能となっている。
 第1の加算器413は、第1の収音信号および極性を反転させた第2の遅延収音信号を入力する。そして、第1の加算器413は、第1の収音信号と極性を反転させた第2の遅延収音信号とを加算し、加算結果である第1の指向性収音信号を出力する。
 第2の加算器414は、第2の収音信号および極性を反転させた第1の遅延収音信号を入力する。そして、第2の加算器414は、第2の収音信号と極性を反転させた第1の遅延収音信号とを加算して、加算結果である第2の指向性収音信号を出力する。
 第1の信号出力部421は、第1の指向性収音信号を入力し、音響処理装置400の外部へ出力する。
 第2の信号出力部422は、第2の指向性収音信号を入力し、音響処理装置400の外部へ出力する。
 第1の帯域制限部431は、第1の指向性収音信号を入力する。そして、第1の帯域制限部431は、第1の指向性収音信号に対して帯域制限を行って得られた信号を、比較信号算出部440へ出力する。すなわち、第1の帯域制限部431は、比較信号算出部440に入力される第1の指向性収音信号に対して、遅延の量を変化させても空間エイリアジング(aliasing)が生じない周波数帯域への帯域制限を行う。
 第2の帯域制限部432は、第2の指向性収音信号を入力する。そして、第2の帯域制限部432は、帯域制限を行って得られた信号を、比較信号算出部440へ出力する。すなわち、第2の帯域制限部432は、比較信号算出部440に入力される第2の指向性収音信号に対して、遅延の量を変化させても空間エイリアジングが生じない周波数帯域への帯域制限を行う。
 なお、これらの帯域制限は、空間エイリアジング現象が遅延量調整に悪影響を及ぼすのを防ぐために行われる。空間エイリアジングは、指向性合成処理を行う際に、比較的高い周波数の入射波の位相干渉によって発生するものであり、意図しない方向に指向性ゲインを持つ現象である。
 帯域制限の手法は、特定のものに限定されない。かかる帯域制限は、例えば、時間領域のフィルタリングを行うバンドパスフィルタにより実現することができる。あるいは、かかる帯域制限では、一定のサンプル数ごとにオーバーラップさせながら窓掛けを行い、FFT(Fast Fourier Transform)による周波数分解を行う。更に、帯域制限は、所望の周波数に対応した複素スペクトル信号を抽出することにより実現することができる。第1の帯域制限部431および第2の帯域制限部432における制限周波数帯域の詳細については、後述する。
 比較信号算出部440は、第1の帯域制限部431により帯域制限が行われた後の第1の指向性収音信号と、第2の帯域制限部432により帯域制限が行われた後の第2の指向性収音信号とを入力する。
 以下、第1の帯域制限部431により帯域制限が行われた後の第1の指向性収音信号は、「帯域制限された第1の指向性収音信号」という。また、第2の帯域制限部432により帯域制限が行われた後の第2の指向性収音信号は、「帯域制限された第2の指向性収音信号」という。
 そして、比較信号算出部440は、帯域制限された第1の指向性収音信号および帯域制限された第2の指向性収音信号から、無指向性レベル信号と指向性レベル信号という2種類のレベル信号を生成して出力する。
 無指向性レベル信号は、帯域制限された第1の指向性収音信号と帯域制限された第2の指向性収音信号とを加算して得られる信号のレベルを示す信号である。指向性レベル信号は、帯域制限された第1の指向性収音信号のレベルを示す第1のレベル信号と、帯域制限された第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる信号である。
 より具体的には、比較信号算出部440は、第3の加算器441、第1のレベル信号算出部442、第2のレベル信号算出部443、第3のレベル信号算出部444、および第4の加算器445を有する。
 第3の加算器441は、帯域制限された第1の指向性収音信号および帯域制限された第2の指向性収音信号を入力する。そして、第3の加算器441は、帯域制限された第1の指向性収音信号と帯域制限された第2の指向性収音信号とを加算する。
 第1のレベル信号算出部442は、第3の加算器441の出力信号を入力する。そして、第1のレベル信号算出部442は、第3の加算器441の出力信号からレベル情報を抽出して、第3の加算器441の出力信号を無指向性レベル信号に変換する。
 第2のレベル信号算出部443は、帯域制限された第1の指向性収音信号を入力する。そして、第2のレベル信号算出部443は、帯域制限された第1の指向性収音信号からレベル情報を抽出して、帯域制限された第1の指向性収音信号を第1のレベル信号に変換する。
 第3のレベル信号算出部444は、帯域制限された第2の指向性収音信号を入力する。そして、第3のレベル信号算出部444は、帯域制限された第2の指向性収音信号からレベル情報を抽出して、帯域制限された第2の指向性収音信号を第2のレベル信号に変換する。
 第4の加算器445は、第1のレベル信号および第2のレベル信号を入力する。そして、第4の加算器445は、第1のレベル信号と第2のレベル信号とを加算して、加算結果である指向性レベル信号を出力する。
 なお、第1~第3のレベル信号算出部442~444は、入力する信号がバンドパスフィルタの出力のような波形信号の場合、入力信号の絶対値あるいは二乗値を、レベル情報としてそれぞれ抽出する。
 また、第1~第3のレベル信号算出部442~444は、入力する信号がFFTなどによる複素スペクトル信号の場合、入力信号の振幅スペクトルあるいは入力信号のパワスペクトルを、レベル情報としてそれぞれ抽出する。
 1つの周波数ビンの複素スペクトル信号を入力する場合、第1~第3のレベル信号算出部442~444は、振幅スペクトルやパワスペクトルをそのままレベル情報として抽出すればよい。また、複数帯域の周波数スペクトル信号を入力する場合、第1~第3のレベル信号算出部442~444は、周波数ビンごとの振幅の平均値、あるいは、周波数ビンごとのパワスペクトルの平均値を、レベル情報として抽出すればよい。
 レベル比較部451は、無指向性レベル信号および指向性レベル信号を入力し、これらの間のレベル差異を取得する。レベル差異は、例えば、無指向性レベル信号と指向性レベル信号とのレベル比、あるいは、無指向性レベル信号と指向性レベル信号との差である。
 遅延操作部452は、レベル差異が小さくなるように、指向性合成処理部410における第1の遅延器411および第2の遅延器412の遅延量を調整する。具体的には、遅延操作部452は、第1の遅延器411および第2の遅延器412の遅延量を、それぞれ、十分に小さい値から段階的に増大させていく。そして、遅延操作部452は、レベル差異が所定の値となったときの遅延量で、第1の遅延器411および第2の遅延器412の遅延量を固定する。遅延量と第1の指向性収音信号との関係、並びに、レベル差異およびその基準となる所定の値の詳細については、後述する。
 以上で、収音機器100の構成についての説明を終える。
 <指向性収音信号の周波数振幅特性>
 次に、第1の帯域制限部431および第2の帯域制限部432における制限周波数帯域の詳細について説明する。かかる帯域制限は、上述の通り、エイリアジング現象の遅延量調整への影響を低減するために行われるものである。
 図3は、第1の指向性収音信号の周波数振幅特性のシミュレーション結果を示す図である。また、図4は、第2の指向性収音信号の周波数振幅特性のシミュレーション結果を示す図である。
 ここでは、軸方向のうち第1のマイクロホン200側の方向に音源を配置した状態で、遅延量を6mm相当遅延量、10mm相当遅延量、および14mm相当遅延量に変化させた場合の、各周波数における出力レベルを示す。
 6mm相当遅延量は、音響端子間距離6mmに対応する遅延量であり、実際の音響端子間距離に相当する値(以下「適正値」という)よりも小さい値である。10mm遅延量は、音響端子間距離10mmに対応する遅延量であり、適正値である。14mm相当遅延量は、音響端子間距離14mmに対応する遅延量であり、適正値よりも大きい値である。
 図3において、線511~514は、順に、2mm相当遅延量、6mm相当遅延量、10mm相当遅延量、および14mm相当遅延量のそれぞれにおける、第1の指向性収音信号の周波数振幅特性を示す。
 また、図4において、線521~524は、順に、2mm相当遅延量、6mm相当遅延量、10mm相当遅延量、および14mm相当遅延量のそれぞれにおける、第2の指向性収音信号の周波数振幅特性を示す。
 なお、第1のマイクロホン200および第2のマイクロホン300は、感度補正された状態で使用されるが、実使用では、残留感度誤差の含有を避けることは困難である。したがって、ここでは、第2の収音信号が、第1の収音信号に対して、-0.087dB(0.99倍)のマイクロホン出力の感度誤差を含む場合を例として示している。
 この場合、音は、軸方向のうち第1のマイクロホン200側の方向から到来する。したがって、適正値である第2の遅延量が設定された場合、図4の線523に示すように、第2の指向性収音信号の出力レベルは、周波数によらず振幅値換算でゼロに近い値となる。ここでは、マイク間の感度差の影響で、対数振幅が-40dBを示している。一方、適正値ではない第1あるいは第3の遅延量が設定された場合、図4の線521、522、524に示すように、第2の指向性収音信号の出力レベルは、高周波数帯域のほとんど全てにおいて、高い値となる。
 ところが、第1の指向性収音信号の出力レベルには、図3の線511~514に示すように、高周波数帯域のうち最も高域の帯域(7kHz以上)において、空間エイリアジングの影響による特性の乱れ(出力レベルの落ち込み)が発生する。空間エイリアジングは、マイクロホン間距離や調整遅延値の範囲などが関係する。
 軸方向のうち第2のマイクロホン300側に音源を配置した場合には、第2の指向性収音信号の出力レベルにも同様のことが発生し得る。
 このため、音響処理装置400は、遅延処理の対象となる信号を、第1の帯域制限部431および第2の帯域制限部432において、ポーラパターンに乱れが生じない周波数帯域に制限する。
 図3および図4に示した、軸方向に音源を配置した例は、音響端子間距離が最大となる条件、つまり、周波数制限の条件が最も厳しくなる条件に相当する。したがって、第1の帯域制限部431および第2の帯域制限部432における制限周波数帯域は、軸方向に音源を配置したときに生じる空間エイリアジングの影響が低減されるように設定されることが望ましい。言い換えると、制限周波数帯域は、後段の信号比較が好適に行われるような範囲に、設定されることが望ましい。したがって、通過帯域は、周波数が上昇するにつれて出力レベルが上昇する周波数領域のうち、空間的エイリアジングが生じない周波数領域に設定される。
 以上で、第1の帯域制限部431および第2の帯域制限部432における制限周波数帯域の詳細についての説明を終える。
 <遅延量と指向性パターン特性との関係>
 次に、遅延量と第1の指向性収音信号(および第2の指向性収音信号)との関係について説明する。
 図5は、以降の説明における方向の定義を示す図である。
 方向の定義は、図5に示すように、第1のマイクロホン200と第2のマイクロホン300とを結ぶ直線上の方向である軸方向のうち、第1のマイクロホン200側の方向を0°(度)として行う。そして、角度の定義は、通常使用状態において上からみて時計回りで行う。
 なお、第1のマイクロホン200のマイク感度と第2のマイクロホン300のマイク感度は、等しいものとする。
 図6~図8は、第2の遅延器412の遅延量を変化させた場合の、第1の指向性収音信号のポーラパターン(指向性パターン)のシミュレーション結果を示す図である。
 図6は、第2の遅延器412の遅延量が8mm相当遅延量である場合のポーラパターンを示す。図7は、第2の遅延器412の遅延量が10mm相当遅延量(つまり適正値)である場合のポーラパターンを示す。図8は、第2の遅延器412の遅延量が12mm相当遅延量ある場合のポーラパターンを示す。
 図6において、線561~564は、順に、500Hz(ヘルツ)、1000Hz、4000Hz、12000Hzのそれぞれにおける、第1の指向性収音信号のポーラパターンを示す。
 図7において、線571~574は、順に、500Hz、1000Hz、4000Hz、12000Hzのそれぞれにおける、第1の指向性収音信号のポーラパターンを示す。 
 図8において、線581~584は、順に、500Hz、1000Hz、4000Hz、12000Hzのそれぞれにおける、第1の指向性収音信号のポーラパターンを示す。
 図6の線561~564に示すように、第2の遅延器412の遅延量が適正値よりも小さい場合、ポーラパターンは、0°方向に伸びるメインローブ565の他に、180°方向に伸びるサイドローブ566を伴う。すなわち、指向特性は、後述のカーディオイド特性とは異なったものとなる。なお、サイドローブ566の位相は、メインローブ565の位相に対して反転した状態となる。このような負の位相を持つサイドローブは、以下、「負のローブ」という。
 図7の線571~574に示すように、第2の遅延器412の遅延量が適正値である場合、ポーラパターンは、負のローブがなくメインローブのみとなる。そして、なおかつ、メインローブの180°方向の値は、振幅値換算でほぼゼロ(対数振幅換算で-∞)となる。
 図8の線581~584に示すように、第2の遅延器412の遅延量が適正値よりも大きい場合、ポーラパターンは、負のローブがなくメインローブのみとなる。しかし、メインローブの180°方向の値は、振幅値換算でゼロ(対数振幅換算で-∞)とはならない。
 図9~図11は、第1の遅延器411の遅延量および第2の遅延器412の遅延量を変化させた場合における、1kHzについての無指向性レベル信号のポーラパターンおよび指向性レベル信号のポーラパターンのシミュレーション結果を示す。
 なお、ここでは、第1の遅延器411の遅延量と第2の遅延器412の遅延量とは、同一の値が設定されるものとし、単に「遅延量」という。
 図9は、第2の遅延器412の遅延量が、8mm相当遅延量である場合のポーラパターンを示す。図10は、第2の遅延器412の遅延量が、10mm相当遅延量(つまり適正値)である場合のポーラパターンを示す。図11は、第2の遅延器412の遅延量が、12mm相当遅延量ある場合のポーラパターンを示す。
 図9において、線611~614は、順に、第1の指向性収音信号のポーラパターン、第2の指向性収音信号のポーラパターン、指向性レベル信号のポーラパターン、無指向性レベル信号のポーラパターンを示す。
図10において、線621~624は、順に、第1の指向性収音信号のポーラパターン、第2の指向性収音信号のポーラパターン、指向性レベル信号のポーラパターン、無指向性レベル信号のポーラパターンを示す。
 図11において、線631~634は、順に、第1の指向性収音信号のポーラパターン、第2の指向性収音信号のポーラパターン、指向性レベル信号のポーラパターン、無指向性レベル信号のポーラパターンを示す。
 図9の線611、612に示すように、遅延量が適正値よりも小さい場合、第1の指向性収音信号および第2の指向性収音信号には、負のローブが存在する。したがって、図9の線613、614に示すように、指向性レベル信号のポーラパターンと、無指向性レベル信号のポーラパターンとの間には、乖離が発生し、その乖離は軸方向(0°および180°)で最大となる。
 図10の線621、622に示すように、遅延量が適正値である場合、第1の指向性収音信号および第2の指向性収音信号には、負のローブが存在しない。したがって、図10の線623、624に示すように、指向性レベル信号のポーラパターンと、無指向性レベル信号のポーラパターンとは、全方向に亘って一致する。
 図11の線631、632に示すように、遅延量が適正値よりも大きい場合も第1の指向性収音信号および第2の指向性収音信号には、負のローブが存在しない。したがって、図11の線633、634に示すように、指向性レベル信号のポーラパターンと、無指向性レベル信号のポーラパターンとは、全方向に亘って一致する。但し、第1の指向性収音信号および第2の指向性収音信号は、カーディオイド特性から、若干、無指向寄りの指向特性となる。
 以上で、遅延量と第1の指向性収音信号(および第2の指向性収音信号)との関係についての説明を終える。
 <遅延量とレベル差異との関係>
 次に、レベル差異およびその基準となる所定の値について説明する。
 上述の図6~図8から明らかなように、音響端子間距離相当以上の遅延量を第2の遅延器412に与えれば、実質的に、負のローブは、発生しないことになる。また、より小さい遅延量を第2の遅延器412に与えれば、より鋭い指向性が維持されることになる。逆にいえば、負のローブが発生しない範囲内で、できるだけ小さい値の遅延量が、第2の遅延器412の遅延量の適正値といえる。
 そして、負のローブが発生しているか否かは、図9~図11から明らかなように、無指向性レベル信号と指向性レベル信号とが一致するか否かに基づいて、判断することができる。
 そこで、音響処理装置400は、軸方向になんらかの音源が存在する状態で、遅延量を、想定される音響端子間距離の最小値に対応する値よりも十分に小さい値から段階的に増大させてく。そして、音響処理装置400は、無指向性レベル信号と指向性レベル信号とが一致した時点で、遅延量を固定する。これにより、音響処理装置400は、遅延量を、実際の音響端子間距離に相当する適正値に設定することができる。
 具体的には、遅延量が増加する各段階において、レベル比較部451は、無指向性レベル信号と指向性レベル信号とのレベル比を用いる場合、レベル差異cmp_infを、例えば、以下の式(1)を用いて算出する。ここで、sum_absは、指向性レベル信号の値を示し、omni_absは、無指向性レベル信号の値を示す。そして、遅延操作部452は、レベル差異cmp_infがゼロとなったとき、遅延量を固定する。
Figure JPOXMLDOC01-appb-M000001
 なお、レベル比較部451は、無指向性レベル信号と指向性レベル信号とのレベル差を用いる場合、レベル差異cmp_infを、例えば、以下の式(2)を用いて算出する。
Figure JPOXMLDOC01-appb-M000002
 指向性レベル信号の値sum_absと無指向性レベル信号の値omni_absとが一致することは、第1の指向性収音信号の指向特性および第2の指向性収音信号の指向特性の両方に、負のローブが存在しないことと同義である。すなわち、指向性レベル信号の値sum_absと無指向性レベル信号の値omni_absとが一致することは、全ての周波数ωおよび全ての方向(音の入射角)θについて、以下の式(3)および式(4)が満たされることと等価である。ここで、A(ω,θ)は、第1の指向性収音信号の出力特性を示し、B(ω,θ)は、第2の指向性収音信号の出力特性B(ω)を示す。また、sgn()は、括弧内の値の符号を示す。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 既に図2に示したように、指向性合成処理部410の構成は、式(3)の左辺に相当する無指向性レベル信号と、式(3)の右辺に相当する指向性レベル信号とを生成する構成となっている。
 一方で、第1のマイクロホン200および第2のマイクロホン300には、実際には感度誤差がある。このため、遅延量が適正値であっても、無指向性レベル信号と指向性レベル信号とが完全には一致しないことが多い。感度誤差の要因としては、例えば、第1のマイクロホン200と第2のマイクロホン300との間の感度差や、第1の収音信号と第2の収音信号と間に存在する無相関ノイズが挙げられる。無相関ノイズは、例えば、回路ノイズ、風雑音、あるいは振動雑音などである。
 図12は、遅延量とレベル差異との関係に対する感度誤差の影響を示す図である。図12において、横軸は、遅延量を、その遅延量に相当する音響端子間距離(electrical distance)[m]を示す。図12において、縦軸は、上述の式(1)によって算出されるレベル差異cmp_inf[dB]を示す。また、ここでは、実際の音響端子間距離が10mm(0.01m)であり、0°の方向に音源が位置する場合の、周波数1kHzにおける遅延量とレベル差異との関係を示す。
 図12において、線661は、第1のマイクロホン200と第2のマイクロホン300との間に感度誤差がない場合の、遅延量とレベル差異との関係を示す。そして、線662は、第1のマイクロホン200に対し、第2のマイクロホン300が-0.087dBの感度誤差を有する場合の、遅延量とレベル差異との関係を示す。
 感度誤差がない場合、図12に示すように、レベル差異は、遅延量が増大するに従って減少し、遅延量が音響端子間距離10mmに相当する値になったときに0dBまで減少する。
 ところが、感度誤差がある場合、図12に示すように、レベル差異は、遅延量が音響端子間距離10mmに相当する値になっても、完全に0dBとはならない。すなわち、遅延量は、遅延量の固定の判断基準をレベル差異=0としてしまうと、適正値よりも大きくなってしまうおそれがある。
 したがって、感度誤差が予め分かっている場合、遅延量の固定の判断基準となる閾値は、当該感度誤差を考慮して決定されることが望ましい。
 ここで、遅延量の固定の判断基準となる閾値の決定手法の一例について説明する。なお、音源は、0°の方向(図5参照)に固定して配置されているものとする。
 第1のマイクロホン200に対し、第2のマイクロホン300は、a倍の振幅ゲインを持つものとする。この場合、第1の指向性収音信号の出力特性A(ω)および第2の指向性収音信号の出力特性B(ω)は、以下の式(5)および式(6)で表すことができる。なお、ωは、入力信号の周波数を示し、τは、第1の遅延器411および第2の遅延器412の遅延量[sec]を示す。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 また、指向性レベル信号の値sum_abs(ω)および無指向性レベル信号の値omni_abs(ω)は、以下の式(7)および式(8)で表すことができる。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 図13は、残留ゲイン誤差とレベル差異との関係を示す図である。図13において、横軸は、第1のマイクロホン200と第2のマイクロホン300との間の残留ゲイン誤差を、上述の振幅ゲインaを用いて、20log10(a)[dB]で示す。図13において、縦軸は、上述の式(1)によって算出されるレベル差異cmp_inf[dB]を示す。
 図13において、線671は、上述の式(5)~式(8)を上述の式(1)に代入したときの、1kHzにおけるレベル差異cmp_infを示す。図13に示すように、例えば、残留ゲイン誤差が±0.1dB内で振れる場合、レベル差異cmp_infは、0.2以下となる。したがって、この場合、遅延量の固定の判断基準となる閾値は、0.2程度とすれば、感度誤差を吸収し、遅延量の補正が可能と考えられる。
 遅延操作部452は、以上のような手法に基づいて設定された閾値(スレッショルド値)を用いて、遅延量を調整する。より具体的には、遅延操作部452は、例えば、レベル差異cmp_infoが、0.2以上である間は、遅延量を増加していく。そして、遅延操作部452は、レベル差異cmp_infoが、0.2となった時点で、遅延量増加を止める。これにより、遅延量は、適正値で固定される。そして、第1の信号出力部421および第2の信号出力部422からは、指向特性がカーディオイドの第1の指向性収音信号および第2の指向性収音信号が出力される。
 なお、実際の音響端子間距離dist_atermは、遅延量増加が止まった時点における遅延量τopt[sec]を用いて、例えば、以下の式(9)で表される。但し、cは、音速[m/sec]である。
Figure JPOXMLDOC01-appb-M000009
 以上でレベル差異およびその基準となる所定の値についての説明を終える。
 <音響処理装置400の動作説明>
 次に、音響処理装置400の動作について説明する。
 図14は、音響処理装置400の動作の一例を示すフローチャートである。音響処理装置400は、例えば、図14に示す動作を、電源スイッチあるいは指向性収音機能がオンになったときに開始する。また、図14に示す動作が行われている間、第1のマイクロホン200および第2のマイクロホン300は、継続的に収音を行っているものとする。
 まず、ステップS1000において、指向性合成処理部410は、第1のマイクロホン200および第2のマイクロホン300から、第1の収音信号および第2の収音信号を取得する。
 そして、ステップS1010において、指向性合成処理部410は、指向性合成処理により、第1の指向性収音信号および第2の指向性収音信号を取得する。
 そして、ステップS1020において、第1の信号出力部421および第2の信号出力部422は、第1の指向性収音信号および第2の指向性収音信号を、音響処理装置400の外部に出力する。また、第1の帯域制限部431および第2の帯域制限部432は、比較信号算出部440に入力される第1の指向性収音信号の周波数帯域、および、比較信号算出部440に入力される第2の指向性収音信号の周波数帯域を、制限する。
 そして、ステップS1030において、比較信号算出部440は、指向性レベル信号の値sum_absおよび無指向性レベル信号の値omni_absを算出する。
 そして、ステップS1040において、レベル比較部451は、指向性レベル信号の値sum_abs無指向性レベル信号の値omni_absとの間のレベル差異cmp_infを算出する。
 そして、ステップS1050において、遅延操作部452は、レベル差異cmp_infが、所定の閾値thr以上であるか否かを判断する。
 遅延操作部452は、レベル差異cmp_infが所定の閾値thr以上である場合(S1050:YES)、ステップS1060へ進む。遅延操作部452は、レベル差異cmp_infが所定の閾値thr未満である場合(S1050:NO)、ステップS1060をスキップして、後述のステップS1070へ進む。
 ステップS1060において、遅延操作部452は、指向性合成処理部410が指向性合成処理に用いる遅延量τoptを増加させる。遅延量τoptの初期値は、十分に小さい値である。また、遅延量τoptの増加幅は、遅延量τoptの適正値への収束までの時間および処理負荷、並びに、指向性パターンに求められる精度との関係で定められる値である。
 そして、ステップS1070において、指向性合成処理部410は、ユーザ操作などにより指向性合成処理の終了を指示されたか否かを判断する。かかる指示は、例えば、電源スイッチのオフあるいは指向性収音機能がオフを示す信号の入力である。
 指向性合成処理部410は、指向性合成処理の終了を指示されていない場合(S1070:NO)、ステップS1000へ戻る。また、指向性合成処理部410は、指向性合成処理の終了を指示された場合(S1070:YES)、一連の処理を終了する。
 このような動作により、音響処理装置400は、指向性合成処理を繰り返すことができる。そして、音響処理装置400は、第1の指向性収音信号および第2の指向性収音信号に基づいて、これらに位相反転が生じなくなるように、指向性合成処理に用いる遅延量を調整することができる。そして最終的に、音響処理装置400は、遅延量を適正値に設定した状態で指向性合成処理を行う。そして、音響処理装置400は、カーディオイドに近い指向特性を有する第1の指向性収音信号、および、カーディオイドに近い指向特性を有する第2の指向性収音信号を出力することができる。
 以上で、音響処理装置400の動作についての説明を終える。
 以上のように、本実施の形態に係る音響処理装置400を含む収音機器100は、軸方向に指向性を持たせた指向性収音信号に位相反転が生じなくなるように、指向性合成処理に用いられる遅延量を調整することができる。
 これにより、収音機器100は、軸方向になんらかの音源が存在しさえすれば、カーディオイドの指向特性が実現されるように、指向性合成処理に用いられる遅延量を簡単に設定することができる。
 したがって、収音機器100は、上述の特許文献1を適用した場合のように、マイクロホンが設置される筐体が変わるごとに音響設計技術者が無響室などで測定を実施し、指向性合成処理の遅延量を調整するといった必要がない。
 また、収音機器100は、上述の特許文献1から算出する場合とは異なり、相関などの従来手法を用いずに遅延量の適正値を算出するので、反射や周囲雑音がある実環境でも誤動作を回避することができる。
 また、収音機器100は、上述の特許文献1を適用した場合とは異なり、マイク周囲の音響的な変化、あるいは、複数音源が同時に存在するような状況下でも、音源方向探査の追従性が悪くなることはない。
 すなわち、本実施の形態に係る収音機器100は、従来技術に比べて、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量を正確に調整することができる。これにより、本実施の形態に係る収音機器100は、任意の指向性パターンを精度良く実現することができ、より簡単に、必要とする音を高品質で取得することができる。
 また、収音機器100は、量産されるものである場合、上述の通り、指向特性が安定しない傾向がある。したがって、本発明は、このような収音機器100に好適である。
 なお、遅延量の調整の手法は、上述の例に限定されない。
 例えば、遅延操作部452は、レベル差異cmp_infが所定の閾値未満となった後も、遅延量を固定せず、遅延量の調整を継続してもよい。すなわち、遅延操作部452は、遅延量の再調整を行うようにしてもよい。具体的には、遅延操作部452は、例えば、レベル差異cmp_infの最小値をホールドし、ホールドした最小値の更新が一定時間内に行われた場合には、遅延量を単調減少させるようにしてもよい。
 また、遅延操作部452は、予め定められた範囲に制限して遅延量の調整を行い、マイク間で無相関な成分の影響などを受けて、遅延量が大きく変化しないようにしてもよい。
 (実施の形態3)
 本発明の実施の形態3は、実施の形態2の音響処理装置に、第1の収音信号と第2の収音信号との間で相関の無い成分(以下「無相関成分」という)が検出された場合に、遅延量補正を行わないようにする機能を追加したものである。なお、回路ノイズは、第1の収音信号と第2の収音信号との間で相関がないが、常に存在することから、無相関成分とは区別される。
 <無相関成分の影響について>
 まず、無相関成分の発生原因と、無相関成分が遅延量の調整に与える影響について説明する。
 マイクロホンの振動版を振動させる振動源は、例えば、録画中にズーム動作が可能なデジタルスチルカメラなどでは、ズーム時の機械的な振動あるいは屋外などで撮影したときの風による風圧など、音波ではない場合がある。
 機械的な振動は、筐体内で複雑に異なる経路の伝達経路を経て、マイクロホンの振動板を直接振動させる。このため、異なる経路を通過した振動は、各マイクロホンを駆動し、2つのマイクロホンの収音信号上に無相関成分となって表れる。
 風は、気流の乱れがマイクロホン付近で異なる特性で発生する。このため、風による振動は、同様に、2つのマイクロホンの収音信号上に無相関成分となって表れる。
 このような無相関成分は、第1の収音信号および第2の収音信号に含まれたまま指向性合成処理を行うと、音波で得られるはずのポーラパターンを大きく乱してしまう。このため、無相関成分が多く含まれているにもかかわらず実施の形態2で説明した遅延量の調整を行った場合は、誤った値が設定される可能性、あるいは、適正値に収束するまでの時間が長くなる可能性がある。
 そこで、本実施の形態に係る音響処理装置は、無相関成分が多く含まれている場合には指向性収音信号に基づいた遅延量の調整を行わないようにするものである。
 <実施の形態3に係る収音機器の構成>
 図15は、本実施の形態に係る音響処理装置を含む収音機器の構成の一例を示すブロック図であり、実施の形態2の図2に対応するものである。図2と同一部分には、同一符号を付し、これについての説明を省略する。
 図15において、収音機器100aの音響処理装置400aは、図2に示す比較信号算出部440および遅延操作部452に代えて、比較信号算出部440aおよび遅延操作部452aを有する。また、音響処理装置400aは、更に、無相関レベル信号出力部461a、無相関成分検出部462a、および論理和回路463aを有する。
 比較信号算出部440aは、指向性レベル信号から無指向性レベル信号を減算して得られる値を、無相関成分のレベルを示す無相関レベル信号として出力する。より具体的には、比較信号算出部440aは、実施の形態2で説明した構成に加え、第5の加算器446aを有する。
 第5の加算器446aは、指向性レベル信号と極性を反転させた無指向性レベル信号とを加算して、加算結果である無相関レベル信号を出力する。
 ここで、無相関レベル信号の抽出原理について説明する。
 第1の帯域制限部431からの帯域制限された第1の指向性収音信号と、第2の帯域制限部432からの帯域制限された第2の指向性収音信号は、機器に機械的な振動等が加わると、それぞれ信号同士で互いに無相関な振動成分を含む。
 これらの信号を、位相情報を含むそのままの信号波形で加算し、レベル情報に変換することで、同期加算の性質により、相関のある音波成分は強めあい、一方で無相関な振動成分は弱めあうという性質を持つ、無指向性レベル信号を得る。
 一方で、第1の指向性収音信号および第2の指向性収音信号は、それぞれを、位相情報のない振幅のみの情報に変換し、加算することで、相関のある音波成分と無相関な振動成分との両方を強めあった指向性レベル信号を得る。
 この指向性レベル信号から、前述の無指向性レベル信号を引くことにより、相関のある音響成分は相殺されるが、無相関な振動成分が残るため、無相関レベル信号を抽出することができる。
 無相関レベル信号出力部461aは、比較信号算出部440aから無相関レベル信号を入力し、無相関成分が含まれるか否かを示す判定結果信号を出力する。
 無相関成分検出部462aは、第1の収音信号と第2の収音信号との間の無相関成分の有無を判定する。より具体的には、無相関成分検出部462aは、無相関レベル信号出力部461aから無相関レベル信号を入力し、無相関レベル信号が所定の閾値を超えているとき、無相関成分が多く含まれていると判定する。
 そして、無相関成分検出部462aは、判定結果を示す判定結果信号を、逐次、論理和回路463aへ出力する。ここでは、判定結果信号は、無相関成分がないと判定されたとき、0の値をとり、無相関成分が多く含まれていると判定されたとき、1の値をとるものとする。
 論理和回路463aは、無相関成分検出部462aから出力される判定結果信号と、音響処理装置400aの外部から入力される指示信号とを入力する。指示信号は、遅延量調整を行うか否かを指定する信号である。ここでは、指示信号は、遅延量調整を行うことが指定されたとき、0の値をとり、遅延量調整を行わないことが指定されたとき、1の値をとるものとする。
 そして、論理和回路463aは、判定結果信号と指示信号との論理和をとり、得られた信号を、制御信号として出力する。すなわち、制御信号は、遅延量調整を行うことが指定され、かつ、無相関成分がないと判定されている場合、0の値をとり、その他の場合、1の値をとる。
 指示信号は、例えば、ユーザ操作により生成される信号である。また、指示信号は、風雑音を検出するセンサの検出信号であってもよい。この場合、指示信号は、例えば、風雑音を検出している間は、1の値をとり、風雑音を検出していない間は、0の値をとる。
 遅延操作部452aは、遅延量調整を行うことが指定され、かつ、無相関成分がないと判定されていることを条件として、実施の形態2で説明した遅延量調整を行う。すなわち、遅延操作部452aは、論理和回路463aから制御信号を入力し、制御信号が0である場合、遅延量調整を行う。一方、遅延操作部452aは、入力した制御信号が1である場合、遅延量調整を行わない。
 <実施の形態3における音響処理装置の動作説明>
 図16は、音響処理装置400aの動作の一例を示すフローチャートであり、実施の形態2の図14に対応するものである。図14と同一部分には同一ステップ番号を付し、これについての説明を省略する。
 ステップS1000~S1040の処理は、実施の形態2と同様である。
 ステップS1040の後、ステップS1041aにおいて、比較信号算出部440aは、指向性レベル信号の値sum_absから無指向性レベル信号の値omni_absを減算する。そして、比較信号算出部440aは、得られた信号を、無相関レベル信号(uncorr_fact)として出力する。なお、ステップS1041aは、ステップS1030の後に行ってもよい。
 そして、遅延操作部452は、レベル差異cmp_infが所定の閾値thr以上である場合(S1050:YES)、ステップS1051aへ進む。
 そして、ステップS1051aにおいて、無相関成分検出部462aは、無相関レベル信号の値uncorr_factを所定の閾値thr_uncorrと比較し、比較結果を示す判定結果信号in_uncorr_detを出力する。
 そして、ステップS1052aにおいて、論理和回路463aは、判定結果信号in_uncorr_detと指示信号ext_uncorr_detとの論理和をとり、論理和の結果である制御信号uncorr_detを算出する。
 そして、ステップS1053aにおいて、遅延操作部452aは、制御信号uncorr_detの値が1であるか否かを判断する。
 遅延操作部452aは、制御信号uncorr_detの値が0である場合(S1053a:NO)、ステップS1060へ進む。遅延操作部452aは、制御信号uncorr_detの値が1ではない場合(S1053a:YES)、ステップS1070へ進む。
 このように、本実施の形態に係る音響処理装置400aは、指向性レベル信号と無指向性レベル信号との差から、収音信号に無相関成分が多く含まれているか否かを判定することができる。そして、音響処理装置400aは、収音信号に無相関成分が多く含まれている場合、遅延量調整を行わないようにすることができる。
 これにより、音響処理装置400aは、機械的な振動あるいは風圧などの雑音がある環境においても、これによる遅延量調整への影響を低減することができ、簡単に任意の指向性パターンを精度良く実現することができる。
 なお、無相関成分の抽出手法は、上述の例に限定されない。例えば、音響処理装置400aは、特許文献2に記載された無相関成分の抽出手法を用いてもよい。
 また、比較信号算出部440aの出力である無相関レベル信号の内容は、実施の形態2の式(2)の内容と同義である。したがって、レベル比較部451は、レベル差異cmp_infを算出する代わりに、無相関レベル信号を用いてもよい。更には、レベル比較部451を設けず、無相関レベル信号が、そのままレベル差異として遅延操作部452aに入力されるようにしてもよい。
 (実施の形態4)
 本発明の実施の形態4は、調整された遅延量を用いて、任意の指向性パターンの音声信号を出力するようにした例である。
 <実施の形態4における音響処理装置の構成>
 図17は、本実施の形態に係る音響処理装置の構成の一例を示すブロック図であり、実施の形態3の図15に対応するものである。図15と同一部分には同一符号を付し、これについての説明を省略する。
 図17において、収音機器100bの音響処理装置400bは、図2に示す構成に加えて、更に他の機能部を追加した構成を有する。音響処理装置400bは、遅延算出部470b、出力用指向性合成処理部410b、第1の等価器(EQ)481b、第2の等価器(EQ)482b、第1の音声信号出力部491b、および第2の音声信号出力部492bを有する。
 遅延算出部470bは、指向方向の指定を受け付け、遅延操作部452aにより調整された遅延量に相当する音響端子間距離に基づいて、後述の出力用指向性合成処理部410bにおける指向性合成処理を制御する。具体的には、遅延算出部470bは、遅延操作部452aにより調整された遅延量から、例えば上述の式(9)を用いて音響端子間距離を算出する。そして、遅延算出部470bは、音響処理装置400bの外部から入力される指向性指示信号の値と、算出した音響端子間距離とに基づいて、最適な遅延量を算出して出力する。
 指向性指示信号は、例えば、ユーザ操作により生成される信号である。また、指示信号は、ユーザの対話相手が位置する方向を検出するセンサの検出信号であってもよい。
 出力用指向性合成処理部410bは、例えば、指向性合成処理部410と同一の構成を有し、第1の遅延器411b、第2の遅延器412b、第1の加算器413b、および第2の加算器414bを有する。これらは、実施の形態2の、第1の遅延器411、第2の遅延器412、第1の加算器413、および第2の加算器414に対応する。すなわち、第1の加算器413bは、第1の出力用指向性収音信号を出力し、第2の加算器414bは、第2の出力用指向性収音信号を出力する。
 但し、出力用指向性合成処理部410bは、遅延算出部470bから出力される遅延量(以下「出力用遅延量」という)を用いて、第1の出力用指向性収音信号および第2の出力用指向性収音信号を生成する。
 第1の等価器481bは、第1の出力用指向性収音信号を入力し、その周波数特性を補正する。そして、第1の等価器481bは、補正結果である第1の等価指向性収音信号を出力する。
 第2の等価器482bは、第2の出力用指向性収音信号を入力し、その周波数特性を補正する。そして、第2の等価器482bは、補正結果である第2の等価指向性収音信号を出力する。
 周波数特性の補正は、例えば、音響端子間距離が10mmの場合、第1の出力用指向性収音信号および第2の出力用指向性収音信号を、図3および図4に示す周波数特性とは逆の周波数特性にする補正である。このような補正により、周波数振幅特性は、0dBに等価される。
 第1の音声信号出力部491bは、第1の出力指向性収音信号を入力する。そして、第1の音声信号出力部491bは、第1の出力指向性収音信号を、ユーザに対する音響出力の対象として、音響処理装置400bの外部へ出力する。
 第2の音声信号出力部492bは、第2の出力指向性収音信号を入力する。そして、第2の音声信号出力部492bは、第2の出力指向性収音信号を、ユーザに対する音響出力の対象として、音響処理装置400bの外部へ出力する。
 なお、本実施の形態では、第1の音声信号出力部491bおよび第2の音声信号出力部492bを配置しているため、実施の形態3の第1の信号出力部421および第2の信号出力部422を不要としているが、これに限定されない。
 <任意の指向性パターンを得るための出力用遅延量の演算手法>
 ここで、任意の指向性パターンを得るための出力用遅延量の演算手法について説明する。
 図18は、指定された指向性パターンを得るためのマイクロホンと入射角度θの関係の一例を示す図である。
 本実施の形態では、図18に示すような位置関係で、指向性指示信号により指定された角度θの方向に死角を持つような指向性パターンを形成するものとする。なお、本実施の形態に係る音響処理装置400bは、角度θの方向に死角を設定すると、これに対応して、角度-θの方向にも死角が形成されることになる。
 この場合、遅延算出部470bは、まず、遅延操作部452aから出力される遅延量τoptから、上述の式(9)を用いて、実際の音響端子間距離dist_atermを算出する。そして、遅延算出部470bは、指定された角度θと、算出した音響端子間距離dist_atermから、例えば、以下の式(10)を用いて、出力用遅延量τactを算出する。
Figure JPOXMLDOC01-appb-M000010
 音響処理装置400bは、このようにして実際の音響端子間距離dist_atermから算出した出力用遅延量τactを用いることにより、正確にθ方向(および-θ方向)に死角を持つ指向性パターンの音響信号を出力することができる。
 <実施の形態4における音響処理装置の動作説明>
 図19は、音響処理装置400bの動作の一例を示すフローチャートであり、実施の形態3の図16に対応するものである。図16と同一部分には同一ステップ番号を付し、これについての説明を省略する。
 ステップS1000~S1041aの処理は、実施の形態3と同様である。
 ステップS1041aの後、ステップS1042bにおいて、出力用指向性合成処理部410bは、出力用の指向性合成処理により、第1の出力用指向性収音信号および第2の出力用指向性収音信号を取得する。
 そして、ステップS1043bにおいて、第1の等価器481bおよび第2の等価器482bは、第1の出力用指向性収音信号および第2の出力用指向性収音信号に対する周波数等価処理を実施する。そして、第1の音声信号出力部491bおよび第2の音声信号出力部492bは、周波数等価処理が行われた後の第1の出力用指向性収音信号および第2の出力用指向性収音信号を出力する。
 なお、ステップS1042b、S1043bの処理を行うタイミングは、上記タイミングに限定されない。
 そして、ステップS1050において、遅延操作部452aは、レベル差異cmp_infが所定の閾値thr以上であって、制御信号uncorr_detの値が1であるか否かを判定する。
 遅延操作部452aは、レベル差異cmp_infが所定の閾値thr以上で、制御信号uncorr_detの値が1である場合(S1050:YES、S1053a:YES)、ステップS1051a~1060を経てステップS1061bへ進む。
 ステップS1061bにおいて、遅延算出部470bは、指向性指示信号より、出力用遅延量τactを算出し、出力用指向性合成処理部410bに設定して、ステップS1070へ進む。
 このように、本実施の形態に係る音響処理装置400bは、マイクロホン周囲の音響的変化に対応して、都度算出される実際の音響端子間距離に相当する遅延量から、任意の指向性パターンを正確に実現することができる。これにより、音響処理装置400bは、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量を正確に調整することができる。これにより、音響処理装置400bは、任意の指向性パターンを有する指向性収音を、高精度にかつ簡単に実現することができ、必要とする音を高品質で取得することができる。
 なお、本実施の形態において、出力用指向性合成処理は、減算により死角を形成するものとしたが、これに限定されない。出力用指向性合成処理は、加算型(Delay_And_Sum)によるものであってもよい。この場合においても、実際の音響端子間距離が求められているので、高精度に所望の指向特性を得ることが可能となる。
 また、以上説明した実施の形態1~実施の形態4では、第1の収音信号の遅延量と第2の収音信号の遅延量とを同一値に調整・設定するものとした。しかし、2つのマイクロホンにおいて、それぞれ設置された周囲環境の違いにより、音響的な経路が著しく異なる場合もある。このような場合には、第1の収音信号の遅延量と第2の収音信号の遅延量遅延量とは、異なる値に調整・設定されてもよい。
 また、マイクロホンは、2個であるものとしたが、これに限定されない。本発明に係る遅延量補正は、2つのマイクロホンのペアごとに行われるものであり、3個以上の複数のマイクロホンが存在する場合には、それぞれのペアごとに行えばよい。したがって、本発明は、3個以上の複数のマイクロホンから出力される収音信号に対して指向性合成処理を行う場合にも、適用することができる。
 また、ユーザに対する音響出力の対象は、指向性合成処理部410から出力される第1の指向性収音信号および第2の指向性収音信号としてもよい。但し、この場合は、周波数特性において、高域のレベルと比較して低域のレベルが不足する(図3および図4参照)。このため、本実施の形態では、第1の等価器481bおよび第2の等価器482bに相当するものを追加し、低域を増幅させる、あるいは、高域を減衰させるような補正を行うことが望ましい。
 (実施の形態5)
 本発明の実施の形態5は、本発明を、4個のマイクロホンを備えた、遠隔会議システムなどにおける収音機器に適用した場合の、具体的様態の一例である。
 本実施の形態において、収音機器は、4つのマイクロホンの収音信号を遅延和加算(Delay And Sum)し、指定された方向の話者に対して指向性収音を行うものである。
 図20は、本実施の形態に係るマイクロホンアレイにおける処理構成の一例を示すブロック図であり、実施の形態2の図2に対応するものである。図2と同一部分には同一符号を付し、これについての説明を省略する。また、同一の構成を有する部分が複数存在する場合には、同一の符号に対して、[-1,-2....]のように、ハイフンと連番の番号とを付加する。
 <収音機器の構成>
 まず、本実施の形態に係る音響処理装置を含む収音機器の構成について説明する。
 図20において、収音機器100cは、拡張音響処理装置400c、図2に示す第1のマイクロホン200、および第2のマイクロホン300に加え、第3のマイクロホン301、第4のマイクロホン302を有する。
 第1のマイクロホン200、第2のマイクロホン300、第3のマイクロホン301、および第4のマイクロホン302は、それぞれ異なる位置に、互いに距離を置いて配置されている。ここでは、簡単のため、それぞれのマイクロホンは、一直線に並んでいるものとする。また、第1のマイクロホン200、第2のマイクロホン300、第3のマイクロホン301、第4のマイクロホン302、および拡張音響処理装置400cは、例えば、収音機器100cの筐体(図示せず)の内部に配置されている。
 第3のマイクロホン301は、無指向性マイクロホン(第3の収音器)である。第3のマイクロホン301は、収音を行い、収音信号を出力する。以下、第3のマイクロホン301が出力する収音信号は、「第3の収音信号」という。
 第4のマイクロホン302は、無指向性マイクロホン(第4の収音器)である。第4のマイクロホン302は、収音を行い、収音信号を出力する。以下、第4のマイクロホン302が出力する収音信号は、「第4の収音信号」という。
 拡張音響処理装置400cは、第1の収音信号、第2の収音信号、第3の収音信号、および第4の収音信号を入力する。そして、拡張音響処理装置400cは、拡張音響処理装置400cの外部信号である指向性指示信号により指示される方向に対して、指向性収音を行う。
 より具体的には、拡張音響処理装置400cは、図2に示すように、第1~第3の音響処理装置(400-1、400-2、400-3)、遅延算出部470c、出力用指向性合成部410c、および音声信号出力部491cを有する。
 第1の音響処理装置400-1は、第1の収音信号および第2の収音信号を入力する。そして、第1の音響処理装置400-1は、第1のマイクロホン200と第2のマイクロホン300との間の音響端子間距離(以下「第1の音響端子間距離」という)に相当する遅延量(以下「第1の遅延量」という)を算出する。そして、第1の音響処理装置400-1は、算出した第1の遅延量を、遅延算出部470cへ出力する。
 第2の音響処理装置400-2は、第2の収音信号および第3の収音信号を入力する。そして、第2の音響処理装置400-2は、第2のマイクロホン300と第3のマイクロホン301との間の音響端子間距離(以下「第2の音響端子間距離」という)に相当する遅延量(以下「第2の遅延量」という)を算出する。そして、第2の音響処理装置400-2は、算出した第2の遅延量を、遅延算出部470cへ出力する。
 第3の音響処理装置400-3は、第3の収音信号および第4の収音信号を入力する。そして、第3の音響処理装置400-3は、第3のマイクロホン301と第4のマイクロホン302との間の音響端子間距離(以下「第3の音響端子間距離」という)に相当する遅延量(以下「第3の遅延量」という)を算出する。そして、第3の音響処理装置400-3は、算出した第3の遅延量を、遅延算出部470cへ出力する。
 遅延算出部470cは、第1~第3の音響処理装置400-1~400-3から出力される第1~第3の遅延量のそれぞれに音速を乗じて、第1~第3の音響端子間距離を算出する。遅延算出部470cは、指向性指示信号が指定する収音方向の角度θと、算出した第1~第3の音響端子間距離とに基づいて、出力用指向性合成部410cにおける第1~第4の遅延器411c~414cのそれぞれの遅延量を算出する。そして、遅延算出部470cは、第1の遅延器411cに対して、第1の出力用遅延量を出力し、第2の遅延器412cに対して、第2の出力用遅延量を出力する。また、遅延算出部470cは、第3の遅延器413cに対して、第3の出力用遅延量を出力し、第4の遅延器414cに対して、第4の出力用遅延量を出力する。
 指向性指示信号は、例えば、ユーザ操作により生成される信号であり、指向性合成を行う場合の操作角を示す信号である。会議システムにおいては、かかる操作角は、例えば、会議システムの音響処理装置の正面方向と、発話者の位置に対する方向とのとの間の角度である。また、指向性指示信号が指定する収音の指向方向は、自動で算出されたものであってもよい。例えば、指向性指示信号が指定する方向は、話者方向を検出するセンサの検出信号に基づいて自動で特定された、話者の方向であってもよい。
 音声信号出力部491cは、出力用指向性合成部410から出力される出力指向性合成信号を入力し、ユーザーに対する音響出力の対象として、拡張音響処理装置400cの外部へ出力する。より具体的には、収音機器100c(ここでは会議システム本体(図示せず))が入力した音声として、出力される。
 出力用指向性合成部410cは、第1の遅延器411c、第2の遅延器412c、第3の遅延器413c、第4の遅延器414c、および加算器415cを有している。
 第1の遅延器411cは、遅延算出部470cから出力される第1の出力用遅延量に基づいて、第1のマイクロホン200から出力される第1の収音信号に対して遅延操作を行う。そして、第1の遅延器411cは、第1の収音信号を第1の出力用遅延量で遅延させた第1の遅延収音信号を、加算器415cへ出力する。
 第2の遅延器412cは、遅延算出部470cから出力される第2の出力用遅延量に基づいて、第2のマイクロホン300から出力される第2の収音信号に対して遅延操作を行う。そして、第2の遅延器412cは、第2の収音信号を第2の出力用遅延量で遅延させた第2の遅延収音信号を、加算器415cへ出力する。
 第3の遅延器413cは、遅延算出部470cから出力される第3の出力用遅延量に基づいて、第3のマイクロホン301から出力される第3の収音信号に対して遅延操作を行う。そして、第3の遅延器413cは、第3の収音信号を第3の出力用遅延量で遅延させた第3の遅延収音信号を、加算器415cへ出力する。
 第4の遅延器414cは、遅延算出部470cから出力される第4の出力用遅延量に基づいて、第4のマイクロホン302から出力される第4の収音信号に対して遅延操作を行う。そして、第4の遅延器414cは、第4の収音信号を第4の出力用遅延量で遅延させた第4の遅延収音信号を、加算器415cへ出力する。
 加算器415cは、第1の遅延収音信号、第2の遅延収音信号、第3の遅延収音信号、および第4の遅延収音信号を加算して出力指向性合成信号を生成し、音声信号出力部491cへ出力する。
 <任意の指向性パターンを得るための出力用遅延量の演算方法>
 ここで、指向性合成部410cにおいて、任意の方向に対して指向性合成処理を行うための、第1~第4の出力用遅延量の算出方法について説明する。
 図21は、指定された指向性パターンを得るためのマイクロホンと指定された方向角度θの関係の一例を示す図である。
 本実施の形態では、図21に示すような位置関係で、指向性指示信号により、指定された角度θの方向に指向角を持つような指向性パターンを形成するものとする。なお、本実施の形態に係る拡張音響処理装置400cは、角度θの方向に指向角が設定されると、これに対応して、角度-180+θの方向にも、指向角を形成する。
 この場合、遅延算出部470cは、第iの音響端子間距離dist_aterm[i](i={1,2,3})を、例えば、以下の式(11)を用いて算出する。ここで、τopt[i]は、上述の第iの遅延量を示す。
Figure JPOXMLDOC01-appb-M000011
 そして、遅延算出部470cは、指定された角度θが0°≦θ≦90°または-90°≧θ≧-180°の場合、第iの出力用遅延量τact[i]を、例えば、以下の式(12)を用いて算出する。
Figure JPOXMLDOC01-appb-M000012
 但し、遅延算出部470cは、第4の出力用遅延量τact[4]については、例えば、以下の式(13)を用いて算出する。
Figure JPOXMLDOC01-appb-M000013
 また、遅延算出部470cは、指定された角度θが90°≦θ≦180°または0°≧θ≧-90°である場合、場合、第iの出力用遅延量τact[i]を、例えば、以下の式(14)を用いて算出する。
Figure JPOXMLDOC01-appb-M000014
 但し、遅延算出部470cは、第4の出力用遅延量τact[1]については、例えば、以下の式(15)を用いて算出する。
Figure JPOXMLDOC01-appb-M000015
 拡張音響処理装置400cは、このようにして、実際の音響端子間距離をマイクロホンのペアごとに算出し、出力用遅延量を遅延器ごとに与える。これにより、拡張音響処理装置400cは、正確にθ方向に(および-180+θ方向)に指向角を持つ指向性パターンの音響信号を出力することができる。
 <実施の形態5における音響処理装置の動作説明>
 図22は、拡張音響処理装置400cの動作の一例を示すフローチャートであり、実施の形態2の図14に対応する。図14と同一部分には、同一ステップ番号を付し、これについての説明を省略する。
 本実施の形態では、4つのマイクロホンによる構成のため、隣あうマイクロホンのペアが3つ存在する。このため、拡張音響処理装置400cは、図14と同様の処理を、3回ループして行う。そのため、本実施の形態では、便宜的に、このループ回数のインデックスとして、上述の説明で用いた「i」を用いる。
 処理開始後、まず、ステップS1001cにおいて、遅延算出部470cは、インデックスiを1に初期化する。
 そして、ステップS1002cにおいて、第iの音響処理装置400-iの指向性合成処理部410-i(図示せず)は、指向性合成処理を行う。同様に、第i+1の音響処理装置400-(i+1)の指向性合成処理部410-(i+1)(図示せず)は、指向性合成処理を行う。これにより、拡張音響処理装置400cは、第iの指向性収音信号および第i+1の指向性収音信号を取得する。
 ステップS1010~S1040の処理は、実施の形態2と同様であり、インデックスiごとに実行される。
 そして、ステップS1061cにおいて、第iの音響処理装置400-iの遅延操作部452-i(図示せず)は、レベル差異cmp_infが、所定の閾値thr以上であるか否かを判断する。
 遅延操作部452は、レベル差異cmp_infが所定の閾値thr以上である場合(S1061c:YES)、ステップS1062cへ進む。また、遅延操作部452は、レベル差異cmp_infが所定の閾値thr未満である場合(S1061c:NO)、ステップS1062cをスキップして、後述のステップS1063cへ進む。
 ステップS1062cにおいて、インデックスiごとに、第iの音響処理装置400-iの遅延操作部452-i(図示せず)は、指向性合成処理部410-i(図示せず)が用いる第iの遅延量τopt[i]を増加させる。第iの遅延量τopt[i]の初期値は、十分に小さい値である。また、第iの遅延量τopt[i]の増加幅は、第iの遅延量τopt[i]の適正値への収束までの時間および処理負荷、並びに、指向性パターンに求められる精度との関係に基づいて定められる値である。
 そして、ステップS1063cにおいて、遅延算出部470cは、次のマイクロホンペアの処理を行うために、ループ回数のインデックスiを、1つインクリメントする。
 そして、ステップS1064cにおいて、遅延算出部470cは、インデックスiが所定数を超えたか、つまり、ループが所定の回数回ったか否かをチェックする。本実施の形態では、マイクロホンが4個であり、隣合うマイクロホンペアが3つ存在するため、インデックスiの上限値は3となる。従って、遅延算出部470cは、インデックスiが3よりも大きいか否かを判断する。
 遅延算出部470cは、インデックスiが3以下である場合(S1064c:NO)、ステップS1002cへ戻る。また、遅延算出部470cは、インデックスiが3よりも大きい場合(S1064c:YES)、ステップS1064cへ進む。
 ステップS1065cにおいて、遅延算出部470cは、外部より指定された指向角を示す指向性指示信号と、第1の遅延量τopt[1]、第2のτopt[2]、第3のτopt[3]を用いて、出力用遅延量を算出する。すなわち、遅延算出部470cは、第1~第4の遅延器411c~414cが用いる遅延量である、第1~第4の出力用遅延量τact[1]、τact[2]τact[3]τact[4]を算出する。そして、指向性合成処理部410cは、出力用の指向性合成処理を行い、出力用指向性合成信号を得て、ステップS1070へ進む。
 このように、本実施の形態に係る拡張音響処理装置400cは、実際のマイクロホン周囲の音響的変化に対応して、都度算出される実際の音響端子間距離に相当する遅延量から、任意の指向性パターンを正確に実現することができる。これにより、音響処理装置400bは、マイクロホンの取り付け構造や取り付け位置、および、マイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量を正確に調整することできる。すなわち、音響処理装置400bは、実環境においても、任意の指向性パターンを有する指向性収音を、高精度にかつ簡単に実現することができ、必要とする音を高品質で取得することができる。
 なお、本実施の形態において、出力用指向性合成処理は、加算により指向角を形成するものとしたが、これに限定されない。出力用指向性合成処理は、減算処理による音圧傾度型(Sound Pressure Gradient)によるものであってもよい。この場合においても、実際の音響端子間距離が求められているので、高精度に所望の指向特性を得ることが可能となる。
 また、本実施の形態において、説明の便宜上、マイクロホンのアレイ形状を直線状としたが、これに限定されない。正方形の形状にして、指向性合成に関係するペア同士の音響端子間距離を求めれば、同様に正確な指向性収音が可能である。
 また、マイクロホンは4個のものとしたが、2個以上で、マイクロホンのペアが組むことができれば、これに限定されない。
 2011年12月20日出願の特願2011-278242の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、マイクロホンの取り付け構造や取り付け位置、およびマイクロホン周囲の構造物等に、音響的な変化が生じても、実環境において、遅延量を正確に調整することで、任意の指向性パターンを精度良く実現することができる。つまり、本発明は、より簡単に、必要とする音を高品質で取得することができる、音響処理装置および音響処理方法として有用である。例えば、本発明は、映像撮影機能を有するデジタルスチルカメラ、デジタルビデオカメラ、集音器、遠隔会議システムにおける収音機器、あるいは各種ステレオ録音装置などに好適である。
 100、100a、100b、100c 収音機器
 200 第1のマイクロホン
 300 第2のマイクロホン
 301 第3のマイクロホン
 302 第4のマイクロホン
 400、400a、400b 音響処理装置
 400-1 第1の音響処理装置
 400-2 第2の音響処理装置
 400-3 第3の音響処理装置
 400c 拡張音響処理装置
 410 指向性合成処理部
 410b、410c 出力用指向性合成処理部
 411、411b、411c 第1の遅延器
 412、412b、412c 第2の遅延器
 413c 第3の遅延器
 414c 第4の遅延器
 413、413b 第1の加算器
 414、414b 第2の加算器
 415c 加算器
 421 第1の信号出力部
 422 第2の信号出力部
 431 第1の帯域制限部
 432 第2の帯域制限部
 440、440a 比較信号算出部
 441 第3の加算器
 442 第1のレベル信号算出部
 443 第2のレベル信号算出部
 444 第3のレベル信号算出部
 445 第4の加算器
 446a 第5の加算器
 451 レベル比較部
 452、452a 遅延操作部
 461a 無相関レベル信号出力部
 462a 無相関成分検出部
 463a 論理和回路
 470b、470c 遅延算出部
 481b 第1の等価器
 482b 第2の等価器
 491b 第1の音声信号出力部
 491c 音声信号出力部
 492b 第2の音声信号出力部

Claims (10)

  1.  第1の収音器から出力される第1の収音信号および第2の収音器から出力される第2の収音信号に対して、指向性合成処理を行う音響処理装置であって、
     前記第1の収音信号に対して前記第2の収音信号を遅延させて合成した第1の指向性収音信号を生成し、前記第2の収音信号に対して前記第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する指向性合成処理部と、
     前記第1の指向性収音信号と前記第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号と、前記第1の指向性収音信号のレベルを示す第1のレベル信号と前記第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号と、を生成する比較信号算出部と、
     前記無指向性レベル信号と前記指向性レベル信号とのレベル差異を取得するレベル比較部と、
     前記レベル差異が小さくなるように、前記指向性合成処理部における前記遅延の量を調整する遅延操作部と、を有する、
     音響処理装置。
  2.  前記比較信号算出部は、
     前記第1の指向性収音信号と前記第2の指向性収音信号とを加算する第3の加算器と、
     前記第3の加算器の出力信号からレベル情報を抽出して前記無指向性レベル信号に変換する第1のレベル信号算出部と、
     前記第1の指向性収音信号からレベル情報を抽出して前記第1のレベル信号に変換する第2のレベル信号算出部と、
     前記第2の指向性収音信号からレベル情報を抽出して前記第2のレベル信号に変換する第3のレベル信号算出部と、
     前記第1のレベル信号と前記第2のレベル信号とを加算して前記指向性レベル信号を出力する第4の加算器と、を有する、
     請求項1記載の音響処理装置。
  3.  前記比較信号算出部に入力される前記第1の指向性収音信号に対して、前記遅延の量を変化させても空間エイリアジングが生じない周波数帯域への帯域制限を行う第1の帯域制限部と、
     前記比較信号算出部に入力される前記第2の指向性収音信号に対して、前記遅延の量を変化させても空間エイリアジングが生じない周波数帯域への帯域制限を行う第2の帯域制限部と、を更に有する、
     請求項1記載の音響処理装置。
  4.  前記遅延操作部は、
     前記遅延の量を十分に小さい値から段階的に増大させていき、前記レベル差異が所定の値となったときに前記遅延の量を固定する、
     請求項1記載の音響処理装置。
  5.  前記遅延操作部は、
     前記レベル差異の最小値をホールドし、ホールドした最小値の更新が一定時間内に行われた場合には、遅延量を単調減少させる、
     請求項4記載の音響処理装置。
  6.  前記遅延操作部は、
     予め定められた範囲に制限して、前記遅延量の調整を行う、
     請求項1記載の音響処理装置。
  7.  前記第1の収音信号と前記第2の収音信号との間に無相関成分が多く含まれているか否かを判定する無相関成分検出部、を更に有し、
     前記遅延操作部は、
     前記無相関成分が多く含まれていると判定されたとき、前記第1の指向性収音信号に基づいて前記遅延の量を調整しない、
     請求項1記載の音響処理装置。
  8.  前記比較信号算出部は、
     前記指向性レベル信号から前記無指向性レベル信号を減算して得られる値を、無相関レベル信号として出力し、
     前記無相関レベル信号成分が所定の閾値を超えているとき、前記無相関成分が多く含まれていると判定する、
     請求項7記載の音響処理装置。
  9.  指向方向の指定を受け付け、前記遅延操作部により調整された前記遅延の量に相当する音響端子間距離に基づいて、前記指向性合成処理を制御する遅延算出部、を更に有する、
     請求項1記載の音響処理装置。
  10.  第1の収音器から出力される第1の収音信号および第2の収音器から出力される第2の収音信号に対して、指向性合成処理を行う音響処理装置における音響処理方法であって、
     前記第1の収音信号に対して前記第2の収音信号を遅延させて合成した第1の指向性収音信号を生成し、前記第2の収音信号に対して前記第1の収音信号を遅延させて合成した第2の指向性収音信号を生成する指向性合成処理部から、前記第1の指向性収音信号および前記第2の指向性収音信号を取得するステップと、
     前記第1の指向性収音信号と前記第2の指向性収音信号とを加算して得られる信号のレベルを示す無指向性レベル信号を生成するステップと、
     前記第1の指向性収音信号のレベルを示す第1のレベル信号と前記第2の指向性収音信号のレベルを示す第2のレベル信号とを加算して得られる指向性レベル信号を生成するステップと、
     前記無指向性レベル信号と前記指向性レベル信号とのレベル差異を取得するステップと、
     前記レベル差異が小さくなるように、前記指向性合成処理部における前記遅延の量を調整するステップと、を有する、
     音響処理方法。
PCT/JP2012/006816 2011-12-20 2012-10-24 音響処理装置および音響処理方法 WO2013094103A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013550081A JP6041244B2 (ja) 2011-12-20 2012-10-24 音響処理装置および音響処理方法
US14/366,702 US9326065B2 (en) 2011-12-20 2012-10-24 Sound processing device, and sound processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-278242 2011-12-20
JP2011278242 2011-12-20

Publications (1)

Publication Number Publication Date
WO2013094103A1 true WO2013094103A1 (ja) 2013-06-27

Family

ID=48668023

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2012/006814 WO2013094102A1 (ja) 2011-12-20 2012-10-24 音響処理装置および音響処理方法
PCT/JP2012/006816 WO2013094103A1 (ja) 2011-12-20 2012-10-24 音響処理装置および音響処理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/006814 WO2013094102A1 (ja) 2011-12-20 2012-10-24 音響処理装置および音響処理方法

Country Status (3)

Country Link
US (2) US9326065B2 (ja)
JP (2) JP6041244B2 (ja)
WO (2) WO2013094102A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013094102A1 (ja) * 2011-12-20 2013-06-27 パナソニック株式会社 音響処理装置および音響処理方法
US9800981B2 (en) * 2014-09-05 2017-10-24 Bernafon Ag Hearing device comprising a directional system
US11209985B2 (en) * 2019-04-23 2021-12-28 Macronix International Co., Ltd. Input/output delay optimization method, electronic system and memory device using the same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153372A (ja) * 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2005136628A (ja) * 2003-10-29 2005-05-26 Sharp Corp ステレオマイクロホン装置
JP2007005849A (ja) * 2005-06-21 2007-01-11 Sony Corp 記録装置、記録方法、再生装置、再生方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3132529B2 (ja) 1992-09-07 2001-02-05 ソニー株式会社 音声入力装置
US7577262B2 (en) 2002-11-18 2009-08-18 Panasonic Corporation Microphone device and audio player
JP4422662B2 (ja) 2005-09-09 2010-02-24 日本電信電話株式会社 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
US20070255816A1 (en) 2006-05-01 2007-11-01 Schuyler Quackenbush System and method for processing data signals
US9473850B2 (en) * 2007-07-19 2016-10-18 Alon Konchitsky Voice signals improvements in compressed wireless communications systems
US8340316B2 (en) * 2007-08-22 2012-12-25 Panasonic Corporation Directional microphone device
CN101569209B (zh) 2007-10-04 2013-08-21 松下电器产业株式会社 噪声抽取装置和方法、麦克风装置、集成电路以及摄像机
WO2013094102A1 (ja) * 2011-12-20 2013-06-27 パナソニック株式会社 音響処理装置および音響処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153372A (ja) * 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2005136628A (ja) * 2003-10-29 2005-05-26 Sharp Corp ステレオマイクロホン装置
JP2007005849A (ja) * 2005-06-21 2007-01-11 Sony Corp 記録装置、記録方法、再生装置、再生方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP6025068B2 (ja) 2016-11-16
US20150124997A1 (en) 2015-05-07
JPWO2013094102A1 (ja) 2015-04-27
JP6041244B2 (ja) 2016-12-07
US9326065B2 (en) 2016-04-26
JPWO2013094103A1 (ja) 2015-04-27
WO2013094102A1 (ja) 2013-06-27
US9319788B2 (en) 2016-04-19
US20140321665A1 (en) 2014-10-30

Similar Documents

Publication Publication Date Title
US8098844B2 (en) Dual-microphone spatial noise suppression
US11245976B2 (en) Earphone signal processing method and system, and earphone
KR101415026B1 (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US8675890B2 (en) Speaker localization
CA2407855C (en) Interference suppression techniques
EP2633699B1 (en) Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US20140003635A1 (en) Audio signal processing device calibration
CN110140359B (zh) 使用波束形成的音频捕获
EP2882170A1 (en) Audio information processing method and apparatus
RU2759715C2 (ru) Звукозапись с использованием формирования диаграммы направленности
EP3384684A2 (en) Conference system with a microphone array system and a method of speech acquisition in a conference system
EP3704873B1 (en) Method of operating a hearing aid system and a hearing aid system
JP2013543987A (ja) 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体
JP2004289762A (ja) 音声信号処理方法と装置及びプログラム
US9781509B2 (en) Signal processing apparatus and signal processing method
EP2868117A1 (en) Systems and methods for surround sound echo reduction
KR20140089580A (ko) 근거리 널 및 빔 형성
WO2007123052A1 (ja) 適応アレイ制御装置、方法、プログラム、及び適応アレイ処理装置、方法、プログラム
CN112492445B (zh) 利用罩耳式耳机实现信号均衡的方法及处理器
WO2007059255A1 (en) Dual-microphone spatial noise suppression
JP6041244B2 (ja) 音響処理装置および音響処理方法
CN108735228B (zh) 语音波束形成方法及系统
CN115932733A (zh) 声源定位及语音增强方法、装置
WO2022047606A1 (en) Method and system for authentication and compensation
TWI700004B (zh) 減少干擾音影響之方法及聲音播放裝置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12860643

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013550081

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14366702

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12860643

Country of ref document: EP

Kind code of ref document: A1