WO2023214571A1 - Beamforming method and beamforming system - Google Patents

Beamforming method and beamforming system Download PDF

Info

Publication number
WO2023214571A1
WO2023214571A1 PCT/JP2023/017083 JP2023017083W WO2023214571A1 WO 2023214571 A1 WO2023214571 A1 WO 2023214571A1 JP 2023017083 W JP2023017083 W JP 2023017083W WO 2023214571 A1 WO2023214571 A1 WO 2023214571A1
Authority
WO
WIPO (PCT)
Prior art keywords
filter
mvdr
beamforming
signal
input
Prior art date
Application number
PCT/JP2023/017083
Other languages
French (fr)
Japanese (ja)
Inventor
信彦 昼間
洋一 藤坂
Original Assignee
リオン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リオン株式会社 filed Critical リオン株式会社
Publication of WO2023214571A1 publication Critical patent/WO2023214571A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • Binaural beamforming using MVDR is an algorithm that is guaranteed to preserve the desired audio spatial information.
  • this algorithm it is known that when this algorithm is used, the spatial information of the noise is distorted, and the noise is perceived as coming from the same direction as the desired voice (see, for example, Non-Patent Document 1).
  • the present invention employs the following beamforming method and a beamforming system (beamforming device) to which this method is applied. Note that the following words in parentheses are merely examples, and the present invention is not limited thereto.
  • the beamforming method of the fifth aspect various gain calculations are performed for each frequency band in the frequency domain on the second signal path branched from the first signal path, and in this process, the MVDR Gain is also applied. Since coefficients based on the results are calculated on the second signal path and supplied to the FIR filter on the first signal path, according to the beamforming method of the fifth aspect, there is no delay due to analysis and synthesis. , the filtering can be accomplished by an FIR filter on the first signal path. As a result, beamforming with lower delay and more natural hearing can be achieved.
  • FIG. 1 is a block diagram schematically showing a configuration example of a binaural hearing device 100 including a binaural beamformer 1 according to an embodiment.
  • FIG. 2 is a diagram showing an example of a basic configuration of binaural beamforming.
  • FIG. 3 is a diagram more specifically illustrating a basic configuration example of binaural beamforming.
  • FIG. 2 is a block diagram showing in detail a configuration example of a binaural hearing device 100 with two input channels. It is a figure showing an example of the flow of processing in a filter bank of an embodiment.
  • FIG. 7 is a diagram (1/3) showing an example of the flow of processing in a filter bank of a comparative example.
  • the sound input section 10 is a microphone, and converts the sound input into the plurality of microphones into an electrical signal (hereinafter, this signal is referred to as an "input signal"), and sends it to the signal processing section 20.
  • the binaural beamformer 1 performs various signal processing including beamforming using MVDR on the input signal of each microphone, and outputs the processed signal to the sound output section 30.
  • the MVDR-IC algorithm is applied to the binaural beamformer 1. Note that details of the MVDR filter will be described in detail later.
  • the sound output section 30 is a microphone or a speaker, and converts the signals for the left and right channels output from the binaural beamformer 1 into sound and outputs the sound to the outside.
  • the signal processing unit 20 can be implemented, for example, by signal processing by a processor such as a DSP (digital signal processor).
  • N indicates the number of input channels.
  • MVDR is an optimal filter for minimizing distortion of the audio signal
  • the problem is that noise signals are also perceived as coming from the same direction as the audio signal.
  • the above-mentioned non-patent document 4 states that in a diffuse noisy environment, when the desired speech component and the noise component both arrive from the same direction, the SRT corresponding to 50% speech intelligibility does not improve. It has been reported that Therefore, the binaural beamformer 1 employs an MVDR-IC that holds an IC in order to spatially separate the output audio component and the residual noise component.
  • the cost function J of MVDR- IC can be expressed by the following formula.

Abstract

In a binaural beamformer 1 to which an algorithm for MVDR-IC is applied, a parameter for controlling a trade-off between IC preservation of a noise component caused by this algorithm and noise suppression can be adjusted from outside, and thus it is possible to adjust the parameter by a user himself or herself or automatically depending on a hearing environment, and achieve appropriate beamforming.

Description

ビームフォーミング方法、ビームフォーミングシステムBeamforming method, beamforming system
 本発明は、ビームフォーミング、特に、最小分散無歪応答法(minimum variance disto rtionless response;以下、「MVDR」と称する。)を用いた両耳ビームフォーミングの方法及びその方法を適用した装置やシステムに関する。 The present invention relates to beamforming, particularly to a binaural beamforming method using minimum variance distortionless response (hereinafter referred to as "MVDR"), and to devices and systems applying the method. .
 MVDRを用いた両耳ビームフォーミングは、所望の音声の空間情報を保持することが保証されているアルゴリズムである。しかしこのアルゴリズム使用時には、雑音の空間情報が歪み、雑音も所望の音声と同一方向から到来するように知覚されてしまうことが知られている(例えば、非特許文献1を参照。)。 Binaural beamforming using MVDR is an algorithm that is guaranteed to preserve the desired audio spatial information. However, it is known that when this algorithm is used, the spatial information of the noise is distorted, and the noise is perceived as coming from the same direction as the desired voice (see, for example, Non-Patent Document 1).
 また、両耳間相互相関度(interaural coherence;以下、「IC」と称する。)と、両耳間レベル差及び両耳間時間差等のバイノーラルキューは、音源の定位の幅や拡散性を決定し、空間知覚に大きな役割を果たすことが知られている。これは、所望の音声と雑音が空間的に分離することが、音声受信閾値(speech reception threshold;以下、「SRT」と称する。)の改善に役立つためである(例えば、非特許文献2-4を参照。)。 In addition, interaural coherence (hereinafter referred to as "IC"), binaural cues such as interaural level difference and interaural time difference determine the localization width and diffusivity of the sound source. , is known to play a major role in spatial perception. This is because spatial separation of desired speech and noise helps improve the speech reception threshold (hereinafter referred to as "SRT") (for example, Non-Patent Documents 2-4 ).
 上述したような背景の下で、ICを保持したMVDR-ICが提案されている。MVDR-ICを用いることにより、所望の音声のバイノーラルキューと、拡散性雑音のICを保持した処理が可能とされている。しかしながら、MVDR-ICのアルゴリズムにおいては、雑音抑圧とIC保持との間でトレードオフが生じるという問題がある。 Under the above-mentioned background, an MVDR-IC holding an IC has been proposed. By using the MVDR-IC, it is possible to process a desired audio binaural cue and a diffuse noise IC while maintaining it. However, the MVDR-IC algorithm has a problem in that there is a trade-off between noise suppression and IC preservation.
 そこで、本発明では、適切なビームフォーミングを実現する技術の提供を目的とする。 Therefore, the present invention aims to provide a technology that realizes appropriate beamforming.
 上記の課題を解決するため、本発明は以下のビームフォーミング方法及びこの方法が適用されたビームフォーミングシステム(ビームフォーミング装置)を採用する。なお、以下の括弧書中の文言はあくまで例示であり、本発明はこれに限定されるものではない。 In order to solve the above problems, the present invention employs the following beamforming method and a beamforming system (beamforming device) to which this method is applied. Note that the following words in parentheses are merely examples, and the present invention is not limited thereto.
 すなわち、本発明の第1態様のビームフォーミング方法は、複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミング方法であって、所定の設計がなされたMVDRフィルタに入力信号を通した結果に基づいて係数を算出し、係数を用いてFIRフィルタを切り替えるフィルタ更新工程と、入力信号をFIRフィルタで畳み込む畳み込み工程とを含んでいる。 That is, the beamforming method of the first aspect of the present invention is a beamforming method in which input signals corresponding to sounds input to a plurality of microphones are beamformed using MVDR, and a predetermined design is made. The method includes a filter updating step in which coefficients are calculated based on the result of passing an input signal through an MVDR filter and the FIR filter is switched using the coefficients, and a convolution step in which the input signal is convolved with the FIR filter.
 好ましくは、第1態様のビームフォーミング方法において、MVDRフィルタは、入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されている(第2態様)。 Preferably, in the beamforming method of the first aspect, the MVDR filter is designed based on the degree to which the degree of interaural cross-correlation of noise components included in the input signal is maintained (second aspect).
 より好ましくは、第2態様のビームフォーミング方法において、度合いを変更可能とする調整工程をさらに含んでいる(第3態様)。 More preferably, the beamforming method of the second aspect further includes an adjustment step that allows the degree to be changed (third aspect).
 さらに好ましくは、第3態様のビームフォーミング方法において、MVDRフィルタは、そのコスト関数が度合いを制御するパラメータを含んだ式で表され、調整工程では、パラメータの値を変更可能とする(第4態様)。 More preferably, in the beamforming method of the third aspect, the cost function of the MVDR filter is expressed by an equation including a parameter that controls the degree, and in the adjustment step, the value of the parameter can be changed (the fourth aspect ).
 一般に、MVDRフィルタを用いて拡散性雑音成分のICを保持したビームフォーミングを行う場合、すなわちMVDR-ICのアルゴリズムによりビームフォーミングを行う場合には、雑音抑圧性能とIC保持性能との間でトレードオフが生じる。 Generally, when beamforming is performed using an MVDR filter to preserve the IC of the diffuse noise component, that is, when beamforming is performed using the MVDR-IC algorithm, there is a trade-off between noise suppression performance and IC retention performance. occurs.
 これに対し、上述したいずれかの態様のビームフォーミング方法においては、MVDRフィルタに所定の設計、より具体的には入力信号に含まれる雑音成分のIC保持の度合い(ひいてはトレードオフの度合い)を踏まえた設計がなされている。また、その度合い、より具体的には、度合いを制御するパラメータの値は変更可能とされている。したがって、上述したいずれかの態様のビームフォーミング方法によれば、畳み込み工程を経て外部に出力された音をユーザが確認しながらパラメータを適宜調整したり、或いは、環境に応じてパラメータを自動的に調整したりすることで、聴取環境に応じた適切なビームフォーミングが実現できる。 On the other hand, in any of the above-mentioned beamforming methods, the MVDR filter has a predetermined design, more specifically, the degree of IC retention of the noise component contained in the input signal (and therefore the degree of trade-off). The design has been made. Moreover, the degree, more specifically, the value of the parameter that controls the degree, can be changed. Therefore, according to any of the beamforming methods described above, the user can adjust the parameters as appropriate while checking the sound output to the outside through the convolution process, or the parameters can be automatically adjusted according to the environment. By making adjustments, it is possible to achieve appropriate beamforming according to the listening environment.
 また、好ましくは、上述した態様のビームフォーミング方法において、畳み込み工程では、第1の信号経路上で入力信号が畳み込まれる。また、フィルタ更新工程では、第1の信号経路から分岐した第2の信号経路上で、入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、フィルタ係数が算出される(第5態様)。 Preferably, in the beamforming method according to the aspect described above, in the convolution step, the input signal is convolved on the first signal path. In addition, in the filter updating process, on a second signal path branched from the first signal path, a predetermined calculation is performed for each frequency band on a frequency domain signal corresponding to the input signal. A filter coefficient is calculated based on the result of multiplying by the gain (fifth aspect).
 入力信号に対する周波数領域での各種のフィルタリングが第1の信号経路上で実行された場合には、周波数分析を行うまでの入力バッファリングにおいて生じる遅延、及びフィルタリング後に周波数領域の信号を時間領域に合成する際に生じる遅延が周波数分解能に応じて大きくなることが問題となる。 When various types of filtering in the frequency domain on the input signal is performed on the first signal path, the delay caused by input buffering until frequency analysis is performed, and the synthesis of the frequency domain signal into the time domain after filtering. The problem is that the delay that occurs when doing so increases depending on the frequency resolution.
 これに対し、第5態様のビームフォーミング方法では、第1の信号経路上から分岐した第2の信号経路上において周波数領域での周波数帯域毎に各種のゲイン演算が実行され、この過程でMVDRのゲインも適用される。
その結果を踏まえた係数が第2の信号経路上で算出され、第1の信号経路上のFIRフィルタに供給されるため、第5態様のビームフォーミング方法によれば、分析および合成による遅延がなく、第1の信号経路上のFIRフィルタによってフィルタリングが達成可能となる。この結果、より低遅延のビームフォーミング及び、より自然な聞こえが実現できる。
On the other hand, in the beamforming method of the fifth aspect, various gain calculations are performed for each frequency band in the frequency domain on the second signal path branched from the first signal path, and in this process, the MVDR Gain is also applied.
Since coefficients based on the results are calculated on the second signal path and supplied to the FIR filter on the first signal path, according to the beamforming method of the fifth aspect, there is no delay due to analysis and synthesis. , the filtering can be accomplished by an FIR filter on the first signal path. As a result, beamforming with lower delay and more natural hearing can be achieved.
 以上のように、本発明によれば、適切なビームフォーミングが実現できる。 As described above, according to the present invention, appropriate beamforming can be achieved.
一実施形態の両耳ビームフォーマ1を備えた両耳聴取装置100の構成例を簡略的に示すブロック図である。FIG. 1 is a block diagram schematically showing a configuration example of a binaural hearing device 100 including a binaural beamformer 1 according to an embodiment. 両耳ビームフォーミングの基本構成例を示す図である。FIG. 2 is a diagram showing an example of a basic configuration of binaural beamforming. 両耳ビームフォーミングの基本構成例をより具体的に示す図である。FIG. 3 is a diagram more specifically illustrating a basic configuration example of binaural beamforming. 入力を2チャンネルとした両耳聴取装置100の構成例を詳細に示すブロック図である。FIG. 2 is a block diagram showing in detail a configuration example of a binaural hearing device 100 with two input channels. 実施形態のフィルタバンクにおける処理の流れの一例を示す図である。It is a figure showing an example of the flow of processing in a filter bank of an embodiment. 比較例のフィルタバンクにおける処理の流れの一例を示す図(1/3)である。FIG. 7 is a diagram (1/3) showing an example of the flow of processing in a filter bank of a comparative example. 比較例のフィルタバンクにおける処理の流れの一例を示す図(2/3)である。FIG. 3 is a diagram (2/3) showing an example of the flow of processing in a filter bank of a comparative example. 比較例のフィルタバンクにおける処理の流れの一例を示す図(3/3)である。FIG. 3 is a diagram (3/3) illustrating an example of the flow of processing in a filter bank of a comparative example. 入力チャンネル数を増やした場合における両耳ビームフォーミングの基本構成例を示す図である。FIG. 3 is a diagram showing an example of the basic configuration of binaural beamforming when the number of input channels is increased.
 以下、本発明の実施の形態について、図面を参照しながら説明する。なお、以下の実施形態は好ましい例示であり、本発明はこの例示に限定されるものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the following embodiments are preferred examples, and the present invention is not limited to these examples.
 図1は、一実施形態の両耳ビームフォーマ(両耳ビームフォーミング装置、両耳ビームフォーミングシステム)1を備えた両耳聴取装置100の構成例を簡略的に示すブロック図である。 FIG. 1 is a block diagram schematically showing a configuration example of a binaural hearing device 100 including a binaural beamformer (binaural beam forming device, binaural beam forming system) 1 according to an embodiment.
 両耳ビームフォーマ1は、周波数帯域毎にゲインを適用可能とした様々な両耳聴取装置(例えば、補聴器等)に搭載することができる。両耳聴取装置100は、例えば、複数チャンネルを有する音入力部10と、両耳ビームフォーマ1及びパラメータ調整部2を有する信号処理部20と、左右の2チャンネルを有する音出力部30と、ユーザの操作を受け付ける操作入力部40とで構成される。 The binaural beamformer 1 can be installed in various binaural hearing devices (for example, hearing aids, etc.) that can apply gain to each frequency band. The binaural listening device 100 includes, for example, a sound input section 10 having a plurality of channels, a signal processing section 20 having a binaural beamformer 1 and a parameter adjustment section 2, a sound output section 30 having two left and right channels, and a user interface. and an operation input section 40 that accepts operations.
 音入力部10は、マイクロホンであり、複数のマイクロホンに入力した音を電気信号に変換して(以下、この信号を「入力信号」と称する。)、信号処理部20に送る。これを受けて、両耳ビームフォーマ1は、各マイクロホンの入力信号に対し、MVDRを用いたビームフォーミングを含む各種の信号処理を行って、処理後の信号を音出力部30に出力する。両耳ビームフォーマ1には、MVDR-ICのアルゴリズムが適用されている。なお、MVDRフィルタの詳細については、詳しく後述する。音出力部30はマイクロホンやスピーカであり、両耳ビームフォーマ1から出力された左右の各チャンネル向けの信号を音に変換して外部に出力する。信号処理部20は、例えば、DSP(digital signal  processor)等のプロセッサによる信号処理によって実装可能である。 The sound input section 10 is a microphone, and converts the sound input into the plurality of microphones into an electrical signal (hereinafter, this signal is referred to as an "input signal"), and sends it to the signal processing section 20. In response to this, the binaural beamformer 1 performs various signal processing including beamforming using MVDR on the input signal of each microphone, and outputs the processed signal to the sound output section 30. The MVDR-IC algorithm is applied to the binaural beamformer 1. Note that details of the MVDR filter will be described in detail later. The sound output section 30 is a microphone or a speaker, and converts the signals for the left and right channels output from the binaural beamformer 1 into sound and outputs the sound to the outside. The signal processing unit 20 can be implemented, for example, by signal processing by a processor such as a DSP (digital signal processor).
 両耳ビームフォーマ1での処理においては、上述したようにIC保持と雑音抑圧との間でトレードオフが生じる。そこで、両耳聴取装置100には、両耳ビームフォーマ1に対してトレードオフを外部から制御するための構成が設けられている。具体的には、雑音成分のIC保持の度合いを制御するためのパラメータ(以下、「トレードオフパラメータ」と称する。)に関しては、例えば、プリセットされた複数種類の設定値がユーザの選択に応じて聴取環境に適したトレードオフパラメータとなるように調整可能である。 In the processing by the binaural beamformer 1, as described above, a trade-off occurs between IC retention and noise suppression. Therefore, the binaural listening device 100 is provided with a configuration for externally controlling the trade-off with respect to the binaural beamformer 1. Specifically, regarding parameters for controlling the degree of IC retention of noise components (hereinafter referred to as "trade-off parameters"), for example, multiple types of preset setting values can be set according to the user's selection. The trade-off parameters can be adjusted to suit the listening environment.
 操作入力部40は、例えば、操作ボタンやタッチパネル等である。操作入力部40は、ユーザの操作に応じて、トレードオフパラメータの設定値の変更を受け付けてパラメータ調整部2に通知する。この通知を受けて、パタメータ調整部2は、両耳ビームフォーマ1が処理の過程で使用するトレードオフパラメータの設定値をユーザにより選択された設定値に変更する。これにより、両耳ビームフォーマ1は、変更後のトレードオフパラメータを用いて、より正確には、トレードオフパラメータを用いた式をMVDRフィルタのコスト関数として用いて、信号処理を行う。 The operation input unit 40 is, for example, an operation button or a touch panel. The operation input unit 40 receives changes in the set values of the trade-off parameters in response to user operations, and notifies the parameter adjustment unit 2 of the changes. Upon receiving this notification, the parameter adjustment unit 2 changes the set value of the trade-off parameter used by the binaural beamformer 1 in the process of processing to the set value selected by the user. Thereby, the binaural beamformer 1 performs signal processing using the changed trade-off parameter, more precisely, using an equation using the trade-off parameter as the cost function of the MVDR filter.
 なお、両耳ビームフォーマ1は、パラメータ調整部2を介して調整されうるトレードオフパラメータを用いて信号処理を行うため、パラメータ調整部2は両耳ビームフォーマ1の一部として捉える(すなわち、信号処理部20全体を両耳ビームフォーマ1として捉える)ことも可能である。 Note that since the binaural beamformer 1 performs signal processing using trade-off parameters that can be adjusted via the parameter adjustment unit 2, the parameter adjustment unit 2 is regarded as a part of the binaural beamformer 1 (i.e., the signal It is also possible to consider the entire processing section 20 as a binaural beamformer 1).
 また、上述したトレードオフパラメータの調整態様は、あくまで一例として挙げたものであり、これに限定されない。例えば、トレードオフパラメータに関して複数種類の設定値をプリセットするのに代えて、環境に応じたトレードオフパラメータを自動的に調整しても良く、その調整は適応アルゴリズム等を適用して自動化することも可能である。また、トレードオフパラメータの値を自動的に徐々に変更していき、変更後のトレードオフパラメータが反映された音をユーザがイヤホンで確認し、聞こえが最も良好であるとユーザが感じた時点で操作入力部40を操作することにより、その時点でのトレードオフパラメータの値を保存し、学習するように構成することも可能である。 Furthermore, the manner of adjusting the trade-off parameters described above is merely an example, and the present invention is not limited thereto. For example, instead of presetting multiple types of setting values for trade-off parameters, the trade-off parameters may be automatically adjusted according to the environment, and the adjustment may be automated by applying an adaptive algorithm or the like. It is possible. In addition, the value of the trade-off parameter is automatically changed gradually, and when the user uses the earphones to check the sound that reflects the changed trade-off parameter, and the user feels that the sound is the best, By operating the operation input unit 40, it is also possible to store and learn the value of the trade-off parameter at that time.
 図2は、両耳ビームフォーマ1におけるビームフォーミングの基本構成例を示す図である。図2中の「w」は、左チャンネル出力用のMVDRフィルタであり、「w」は、右チャンネル出力用のMVDRフィルタである。 FIG. 2 is a diagram showing an example of the basic configuration of beam forming in the binaural beam former 1. "w L " in FIG. 2 is an MVDR filter for left channel output, and "w R " is an MVDR filter for right channel output.
 入力を2チャンネルとする場合には、図2に示されるように、フィルタw及びフィルタwのそれぞれに、入力2チャンネルの入力信号y,yが入力される。各フィルタwL,wにおいて入力信号の指向性を分析した結果として、フィルタwからは信号zが出力され、フィルタwからは信号zが出力される。 In the case of two input channels, the input signals y L and y R of the two input channels are input to the filter w L and the filter w R , respectively, as shown in FIG. As a result of analyzing the directivity of the input signal in each of the filters wL and wR , the filter wL outputs a signal zL , and the filter wR outputs a signal zR .
 図中の各信号は、以下の数式により定義される。なお、説明の便宜のため、定義の表現においては、左チャンネルに対応する信号を添え字が「L」の変数で表し、右チャンネルに対応する信号を添え字が「R」の変数で表している。また、左右両チャンネルの信号が重ねられた信号については、各チャンネルの信号と同じ変数を用いつつ書体を異ならせて表している。 Each signal in the figure is defined by the following formula. For convenience of explanation, in the expression of the definition, the signal corresponding to the left channel is represented by a variable with the subscript "L", and the signal corresponding to the right channel is represented by a variable with the subscript "R". There is. Furthermore, a signal in which left and right channel signals are superimposed is expressed using the same variables as the signals of each channel but in a different font.
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
 上記の数式において、「y」は入力信号を示し、「x」は入力信号に含まれる所望の音声信号(以下、単に「音声信号」と称する。)を示し、「n」は入力信号に含まれる雑音信号を示している。雑音信号に関して、「n」は指向性雑音信号を示し、「n」は拡散性雑音信号を示している。また、「s」はドライソースの音声信号を示し、「a」は音響伝達関数(acoustic transfer function;以下、「ATF」と称する。)、すなわち所望の音声が音源からマイクロホンに到達するまでの伝達関数を示している。「T」は転置を示している。これらの定義を踏まえ、MVDRフィルタのコスト関数JMVDRは、次の数式で表すことができる。 In the above formula, "y" indicates the input signal, "x" indicates the desired audio signal included in the input signal (hereinafter simply referred to as "audio signal"), and "n" indicates the desired audio signal included in the input signal. This shows the noise signal that is generated. Regarding the noise signal, " ni " indicates a directional noise signal and " nv " indicates a diffuse noise signal. In addition, "s" indicates the dry source audio signal, and "a" indicates the acoustic transfer function (hereinafter referred to as "ATF"), that is, the transmission of the desired sound from the sound source to the microphone. It shows the function. "T" indicates transposition. Based on these definitions, the cost function J MVDR of the MVDR filter can be expressed by the following formula.
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 上記の数式から分かるように、コスト関数JMVDRによれば、音声信号の保存が保証される。そして、このコスト関数JMVDRを最小化する解w,wは、それぞれ以下の数式により求められる。 As can be seen from the above formula, the cost function J MVDR guarantees the preservation of the audio signal. Then, solutions w L and w R that minimize this cost function J MVDR are obtained by the following formulas, respectively.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
 なお、上記の数式において、「*」及び「H」はいずれも共役転置を示し、「E」は期待値を示している。 Note that in the above formula, both "*" and "H" indicate conjugate transposition, and "E" indicates the expected value.
 上述したように「a」は所望の音声のATFを表しているが、これを実際の環境で直接的に推定することは困難である。そこで、フィルタ係数は、事前に音声区間及び雑音区間が既知であることを前提として、次の数式により算出される。 As mentioned above, "a" represents the ATF of the desired voice, but it is difficult to directly estimate this in an actual environment. Therefore, the filter coefficients are calculated using the following formula on the premise that the voice section and the noise section are known in advance.
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 なお、上記の数式において、「N」は入力チャンネル数を示している。 Note that in the above formula, "N" indicates the number of input channels.
 MVDRは、音声信号の歪みを最小化する上では最適なフィルタとなるが、その一方で、雑音信号も音声信号と同一方向から到来するように知覚されることが問題となる。この点に関し、拡散した雑音環境で所望の音声成分及び雑音成分がいずれも同一方向から到来する場合では、50%の音声明瞭度に相当するSRTは改善しないことが、上記の非特許文献4にて報告されている。そこで、両耳ビームフォーマ1においては、出力音声成分と残留雑音成分との空間的分離のために、ICを保持するMVDR-ICを採用している。MVDR-ICのコスト関数JMVDR-ICは、次の数式で表すことができる。 Although MVDR is an optimal filter for minimizing distortion of the audio signal, the problem is that noise signals are also perceived as coming from the same direction as the audio signal. Regarding this point, the above-mentioned non-patent document 4 states that in a diffuse noisy environment, when the desired speech component and the noise component both arrive from the same direction, the SRT corresponding to 50% speech intelligibility does not improve. It has been reported that Therefore, the binaural beamformer 1 employs an MVDR-IC that holds an IC in order to spatially separate the output audio component and the residual noise component. The cost function J of MVDR- IC can be expressed by the following formula.
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
 上記の数式において、「λ」はトレードオフパラメータを示している。また、拡散性雑音成分の入力側及び出力側のIC(IC in,IC out)は、それぞれ以下の数式により求められる。 In the above formula, "λ" indicates a trade-off parameter. Further, the input side and output side ICs (IC v in , IC V out ) of the diffuse noise component are respectively determined by the following formulas.
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000006
 拡散性雑音成分のICを保持することは、雑音を抑圧することとトレードオフになることが知られている。この点に関して、外部からトレードオフパラメータλを調整可能に構成されている両耳ビームフォーマ1は、聴取環境に応じてユーザ自ら、或いは自動的にトレードオフパラメータλを調整することができるため、ビームフォーミングをより適切に実現することができる。 It is known that preserving the IC of the diffuse noise component is a trade-off with suppressing the noise. In this regard, the binaural beamformer 1, which is configured to be able to adjust the trade-off parameter λ from the outside, allows the user to adjust the trade-off parameter λ by himself or herself or automatically according to the listening environment. Forming can be realized more appropriately.
 図3は、図2に示した基本構成例をより具体的に示す図である。図3に示されるように、入力を2チャンネルとする場合には、これに対応して4つのMVDRフィルタが設けられる。 FIG. 3 is a diagram more specifically showing the basic configuration example shown in FIG. 2. As shown in FIG. 3, when there are two input channels, four MVDR filters are provided correspondingly.
 4つのMVDRフィルタのうち、図3中の「wLL」及び「wLR」は、図2中に示した左チャンネル出力用のMVDRフィルタwに相当し、図3中の「wRL」及び「wR」は、図2中に示した右チャンネル出力用のMVDRフィルタwに相当する。言い換えると、左チャンネル出力用のMVDRフィルタwは、フィルタwLL,wLRを要素に持つ行列として表されており、右チャンネル出力用のMVDRフィルタwは、フィルタwRL,wRRを要素に持つ行列として表されている。説明の便宜のため、以下の説明においては、フィルタwLLを「第1MVDRフィルタ」、フィルタwRLを「第2MVDRフィルタ」、フィルタwLRを「第3MVDRフィルタ」、フィルタwRRを「第4
MVDRフィルタ」と称する。
Among the four MVDR filters, “w LL ” and “w LR” in FIG. 3 correspond to the MVDR filter w L for left channel output shown in FIG. 2, and “w RL ” and “w LR ” in FIG. “w RR ” corresponds to the MVDR filter w R for right channel output shown in FIG. In other words, the MVDR filter w L for left channel output is expressed as a matrix having filters w LL and w LR as elements, and the MVDR filter w R for right channel output has filters w RL and w RR as elements. It is represented as a matrix with . For convenience of explanation, in the following explanation, filter w LL is referred to as "first MVDR filter", filter w RL is referred to as "second MVDR filter", filter w LR is referred to as "third MVDR filter", and filter w RR is referred to as "fourth MVDR filter".
MVDR filter.
 左入力チャンネルの入力信号yは、第1MVDRフィルタwLL及び第2MVDRフィルタwRLに入力され、右入力チャンネルの入力信号yは、第3MVDRフィルタwR及び第4MVDRフィルタwRRに入力され、各MVDRフィルタからは入力信号の指向性を踏まえた結果が出力される。そして、第1MVDRフィルタwLLを経た信号と第3MVDRフィルタwLRを経た信号とが加算されて左チャンネルに出力され、第2MVDRフィルタwRLを経た信号と第4MVDRフィルタwRRを経た信号とが加算されて右チャンネルに出力される。 The input signal y L of the left input channel is input to the first MVDR filter w LL and the second MVDR filter w RL , and the input signal y R of the right input channel is input to the third MVDR filter w LR and the fourth MVDR filter w RR . , each MVDR filter outputs a result based on the directivity of the input signal. Then, the signal that has passed through the first MVDR filter w LL and the signal that has passed through the third MVDR filter w LR are added together and output to the left channel, and the signal that has passed through the second MVDR filter w RL and the signal that has passed through the fourth MVDR filter w RR are added together. output to the right channel.
 図4は、入力を2チャンネルとした両耳聴取装置100の構成例を詳細に示すブロック図である。なお、両耳ビームフォーマ1の理解を促進するため、図4においては、パラメータ調整部2及び操作入力部40の図示を省略している。 FIG. 4 is a block diagram showing in detail a configuration example of a binaural listening device 100 with two input channels. Note that in order to facilitate understanding of the binaural beamformer 1, illustration of the parameter adjustment section 2 and the operation input section 40 is omitted in FIG.
 両耳聴取装置100は、2つのマイクロホン10と、両耳ビームフォーマ1と、2つのイヤホン30とを備えており、両耳ビームフォーマ1は、例えば、2つの入力バッファ21と、2つの変換部22と、2つの補聴処理部23と、4つのMVDRフィルタ24と、4つの乗算部25と、4つの逆変換部26と、4つのFIRフィルタ27と、2つの加算部28とを含む。 The binaural listening device 100 includes two microphones 10, a binaural beamformer 1, and two earphones 30, and the binaural beamformer 1 includes, for example, two input buffers 21 and two converters. 22, two hearing aid processing units 23, four MVDR filters 24, four multiplication units 25, four inverse transformation units 26, four FIR filters 27, and two addition units 28.
 音がマイクロホン10に入力すると、入力信号が周波数分析のために入力バッファ21にバッファされたのち、変換部22が、所望のタイミングで入力信号(時間領域の信号)に対し高速フーリエ変換(以下、「FFT」と称する。)を行って周波数領域の信号を生成する。周波数領域の信号に対しては、補聴処理部23が、WDRC(wide dynamic range compression)による圧縮利得等を周波数帯域毎に計算して補聴処理を行い、乗算部25が、補聴処理後の信号に対してMVDRフィルタ24を適用し、逆変換部26が、MVDRフィルタ適用後の信号に対して逆高速フーリエ変換(以下、「IFFT」と称する。)を行う。IFFTにより、補聴処理ゲイン及びMVDRフィルタを加味した時間領域のインパルス応答、すなわちFIRフィルタ27の係数が得られる。IFFTにより得られた係数はFIRフィルタ27に供給され、FIRフィルタ27はこれを係数として入力信号の畳み込みを行う。 When sound is input to the microphone 10, the input signal is buffered in the input buffer 21 for frequency analysis, and then the transform unit 22 performs fast Fourier transform (hereinafter referred to as "fast Fourier transform") on the input signal (time domain signal) at a desired timing. (referred to as "FFT") to generate a frequency domain signal. For the signal in the frequency domain, the hearing aid processing unit 23 performs hearing aid processing by calculating the compression gain by WDRC (wide dynamic range compression) for each frequency band, and the multiplier 25 applies the hearing aid processing to the signal after the hearing aid processing. The MVDR filter 24 is applied to the signal, and the inverse transform unit 26 performs inverse fast Fourier transform (hereinafter referred to as "IFFT") on the signal after applying the MVDR filter. The IFFT provides a time domain impulse response that takes into account the hearing aid processing gain and the MVDR filter, that is, the coefficients of the FIR filter 27. The coefficients obtained by IFFT are supplied to the FIR filter 27, and the FIR filter 27 convolves the input signal using the coefficients as coefficients.
 このようにして、周波数領域でなされる処理の結果としてビームフォーミングの係数が得られ、この係数がFIRフィルタ27に供給されることでFIRフィルタ27が切り替えられ、結果としてビームフォーミングの係数が切り替えられる。ビームフォーミングの係数を更新してFIRフィルタ27を切り替える「フィルタ更新部」には、局所的に捉えれば、係数を算出してFIRフィルタ27に供給する逆変換部26が該当し、広く捉えれば、周波数分析がなされてから係数が供給されるまでの処理に関わる構成、すなわち周波数分析に関わる変換部22、補聴処理部23、MVDRフィルタ24、乗算部25及びこれらを経た結果に基づき係数を算出してFIRフィルタ27に供給する逆変換部26が該当する。 In this way, beamforming coefficients are obtained as a result of processing performed in the frequency domain, and these coefficients are supplied to the FIR filter 27 to switch the FIR filter 27, and as a result, the beamforming coefficients are switched. . If viewed locally, the "filter update unit" that updates beamforming coefficients and switches the FIR filter 27 corresponds to the inverse transform unit 26 that calculates coefficients and supplies them to the FIR filter 27, and if viewed broadly, The components involved in the processing from frequency analysis to the supply of coefficients, that is, the conversion unit 22 related to frequency analysis, the hearing aid processing unit 23, the MVDR filter 24, the multiplication unit 25, and the coefficients are calculated based on the results of these processes. This corresponds to the inverse transformer 26 that supplies the FIR filter 27 with the FIR filter 27.
 図5は、実施形態のフィルタバンクの一例を示す図であり、実施形態において入力信号が入力バッファ21に入ってからFIRフィルタ27で処理されるまでの流れを示している。図5に示されるように、実施形態においては、周波数領域のライン(ステップSF1~SF4の信号経路)が入力信号のライン(ステップSS1~SS2の信号経路)から分岐して分離された、いわゆるサイドブランチ構成のフィルタバンクを採用している。サイドブランチ構成のフィルタバンクにおいては、周波数領域のライン上で実行される周波数領域の信号処理と入力信号のライン上で実行される時間領域の信号処理とが並行して実行される。 FIG. 5 is a diagram showing an example of the filter bank of the embodiment, and shows the flow from when an input signal enters the input buffer 21 to being processed by the FIR filter 27 in the embodiment. As shown in FIG. 5, in the embodiment, the frequency domain line (signal path of steps SF1 to SF4) is branched and separated from the input signal line (signal path of steps SS1 to SS2), so-called side It uses a filter bank with a branch structure. In a filter bank with a side branch configuration, frequency domain signal processing performed on a frequency domain line and time domain signal processing performed on an input signal line are performed in parallel.
 周波数領域のラインでは、FFTがなされた上で(ステップSF1)、周波数帯域毎に補聴処理がなされ(ステップSF2)、MVDRのゲインが適用されて(ステップSF3)、逆フーリエ変換がなされる(ステップSF4)。これにより、周波数分析の結果に基づいて決定された補聴処理ゲインとMVDRのゲインが加味されたFIRフィルタの係数が得られる。一般に時間領域での畳み込み(FIRフィルタ)は周波数領域では乗算で表現される。この構成では周波数帯域毎に補聴処理が加えられるため、補聴処理が加えられたゲインにMVDRのゲインを掛けることによりビームフォーミングが実現される。一方、入力信号のラインでは、バッファされた入力信号と(ステップSS1)、有限インパルス応答(FIR)の畳み込みを行い、信号が出力される(ステップSS2)。 On the frequency domain line, FFT is performed (step SF1), hearing aid processing is performed for each frequency band (step SF2), MVDR gain is applied (step SF3), and inverse Fourier transform is performed (step SF3). SF4). As a result, coefficients of the FIR filter are obtained in which the hearing aid processing gain determined based on the frequency analysis result and the MVDR gain are taken into account. Generally, convolution (FIR filter) in the time domain is expressed by multiplication in the frequency domain. In this configuration, since hearing aid processing is added to each frequency band, beamforming is realized by multiplying the gain to which the hearing aid processing has been added by the MVDR gain. On the other hand, on the input signal line, the buffered input signal (step SS1) is convolved with a finite impulse response (FIR), and a signal is output (step SS2).
 このように、フィルタバンクをサイドブランチ構成とすることにより、ビームフォーミングは、周波数領域の補聴処理が加えられたゲインにMVDRのゲインを乗算し、並行して、入力される時間領域信号にFIRフィルタを畳み込むという単純な構成で実現できる。したがって、ビームフォーミングを実現するための追加の遅延が生じないため、信号処理の過程で生じうる遅延時間を短くすることができる。 In this way, by configuring the filter bank in a side branch configuration, beamforming multiplies the gain to which frequency domain hearing aid processing has been applied by the MVDR gain, and in parallel, applies the FIR filter to the input time domain signal. This can be achieved with a simple configuration of convolving. Therefore, since no additional delay is required to implement beamforming, the delay time that may occur during signal processing can be reduced.
 図6、図7A及び図7Bは、比較例として、3つのフィルタバンクの例を示す図である。このうち、比較例1及び比較例2は、サイドブランチ構成でない、いわば分析・再構築系のフィルタバンクの一例を示している。比較例3は、比較だけを目的として、実施形態の一部を敢えて変形させたサイドブランチ構成のフィルタバンクの一例を示している。 FIGS. 6, 7A, and 7B are diagrams showing examples of three filter banks as comparative examples. Of these, Comparative Example 1 and Comparative Example 2 are examples of analysis/reconstruction type filter banks that do not have a side branch configuration. Comparative Example 3 shows an example of a filter bank with a side branch configuration in which a part of the embodiment is intentionally modified for the purpose of comparison only.
 比較例1は、周波数領域のライン(ステップS3´~S5´の信号経路)が入力信号のライン(ステップS1´~S6´の信号経路)上に直列的に構成されており、入力信号のラインから分離されていない点、また、MVDRフィルタが入力信号に対して直接適用される点(ステップS1´)において、実施形態のフィルタバンクと異なっている。 In Comparative Example 1, the frequency domain line (signal path from steps S3' to S5') is configured in series on the input signal line (signal path from steps S1' to S6'). This differs from the filter bank of the embodiment in that the MVDR filter is not separated from the input signal and that the MVDR filter is directly applied to the input signal (step S1').
 一般的に、複数のマイクロホンを用いたアレイ信号処理を行う際には、システムの入力段でなされることが多く、その場合には入力段で処理の遅延が生じる(第1の遅延)。比較例1のフィルタバンクにおいては、時間領域の信号に対して直接MVDRフィルタが適用されるため(ステップS1´)、ここで第1の遅延が生じ、バッファされたサンプル数が多いほど遅延は大きくなる。 Generally, when performing array signal processing using a plurality of microphones, it is often performed at the input stage of the system, in which case a processing delay occurs at the input stage (first delay). In the filter bank of Comparative Example 1, since the MVDR filter is applied directly to the time domain signal (step S1'), the first delay occurs here, and the larger the number of buffered samples, the larger the delay. Become.
 また、分析・再合成系のフィルタバンクでビームフォーミングを実現する場合には、入力信号をバッファし(ステップS2´)周波数分析して周波数領域で処理を加えた後に、その信号を時間領域に変換する必要があるため、分析から合成までの間にも遅延が生じる(第2の遅延)。比較例1のフィルタバンクにおいては、MVDRフィルタ適用後の信号に対し、入力信号のライン上で周波数分析がなされて時間領域の信号に変換された上で(ステップS3´~S5´)、信号の合成がなされるため(ステップS6´)、ここで第2の遅延が生じる。一般に、周波数分解能が高いほど遅延は大きくなる。 In addition, when beamforming is implemented using a filter bank in the analysis/resynthesis system, the input signal is buffered (step S2'), frequency analyzed and processed in the frequency domain, and then the signal is converted to the time domain. Therefore, there is also a delay between analysis and synthesis (second delay). In the filter bank of Comparative Example 1, the signal after applying the MVDR filter is subjected to frequency analysis on the input signal line and converted to a time domain signal (steps S3' to S5'), and then the signal is converted into a time domain signal. Since composition is performed (step S6'), a second delay occurs here. Generally, the higher the frequency resolution, the greater the delay.
 また、比較例2においては、MVDRフィルタが入力信号に対して直接適用されずに、周波数領域でなされる補聴処理のフィルタに対して適用されるため(S13´~S14´)、第1の遅延は生じない。しかし、サイドブランチ構成でないことから周波数領域の信号を時間領域に変換して合成する必要があるため、第2の遅延は避けられない。 In addition, in Comparative Example 2, the MVDR filter is not applied directly to the input signal, but is applied to the filter for hearing aid processing performed in the frequency domain (S13' to S14'), so the first delay does not occur. However, since it does not have a side branch configuration, it is necessary to transform the frequency domain signal into the time domain and synthesize it, so the second delay is unavoidable.
 そして、比較例3においては、サイドブランチ構成が採られているため、第2の遅延は周波数分析そのものに起因して生じうる範囲内に抑えられるものの、MVDRフィルタが入力信号に対して直接適用されるため(SS1´)、第1の遅延は避けられない。 In Comparative Example 3, since the side branch configuration is adopted, the second delay is suppressed within the range that can occur due to frequency analysis itself, but the MVDR filter is not directly applied to the input signal. (SS1'), the first delay is unavoidable.
 このように、比較例のフィルタバンクにおいては、上記の2つの要因による大きな遅延の発生が避けられない。 As described above, in the filter bank of the comparative example, occurrence of a large delay due to the above two factors is unavoidable.
 これに対し、実施形態のフィルタバンクにおいては、MVDRフィルタが周波数領域のライン上で適用されるため、第1の遅延は発生しない。また、第2の遅延のうち、周波数分析そのものに起因して生じる僅かな遅延以外は発生しない。これは、実施形態のフィルタバンクにおいては、周波数領域のラインが信号入力のラインから分離されていることから、周波数分析の結果に基づいて得られる係数をFIRフィルタ部に供給し反映させることができ、比較例のように周波数領域から時間領域に信号を変換する処理が不要となるためである。 On the other hand, in the filter bank of the embodiment, the MVDR filter is applied on the line in the frequency domain, so the first delay does not occur. Further, among the second delays, only a slight delay caused by the frequency analysis itself does not occur. This is because in the filter bank of the embodiment, the frequency domain line is separated from the signal input line, so the coefficients obtained based on the frequency analysis results can be supplied to the FIR filter section and reflected. This is because the process of converting a signal from the frequency domain to the time domain as in the comparative example is not necessary.
 したがって、実施形態のフィルタバンクによれば、比較例のフィルタバンクと比較して、遅延時間を大幅に短縮することができるため自然な聞こえが実現できる。また、処理に要する演算量が少なくなり、消費電力を低減することができる。 Therefore, according to the filter bank of the embodiment, the delay time can be significantly shortened compared to the filter bank of the comparative example, so that natural hearing can be achieved. Furthermore, the amount of calculation required for processing is reduced, and power consumption can be reduced.
〔図4:MVDRフィルタ24を参照〕
 また、図4に示されるように、両耳ビームフォーマ1は、入力2チャンネル(左マイクロホン10-1、右マイクロホン10-2)に対応して、4つのMVDRフィルタ24を有している。具体的には、第1MVDRフィルタ24-1(wLL)に左チャンネルの入力信号yが入力され、第2MVDRフィルタ24-2(wRL)及び第3MVDRフィルタ24-3(wLR)のそれぞれに左チャンネル及び右チャンネルの入力信号y,yが入力され、第4MVDRフィルタ24-4(wRR)に右チャンネルの入力信号yが入力される。
[See Figure 4: MVDR filter 24]
Further, as shown in FIG. 4, the binaural beamformer 1 has four MVDR filters 24 corresponding to two input channels (left microphone 10-1, right microphone 10-2). Specifically, the left channel input signal y L is input to the first MVDR filter 24-1 (w LL ), and the input signal y L of the left channel is input to the second MVDR filter 24-2 (w RL ) and the third MVDR filter 24-3 (w LR ), respectively. The left channel and right channel input signals y L and y R are input to the fourth MVDR filter 24-4 (w RR ), and the right channel input signal y R is input to the fourth MVDR filter 24-4 (w RR ).
 そして、左入力チャンネル用の第1補聴処理部23-1での補聴処理と第1MVDRフィルタ24-1の係数が加味された第1FIRフィルタ27-1と左チャンネルの入力信号yが畳み込まれ、左チャンネル用の第1補聴処理部23-1での補聴処理と第2MVDRフィルタ24-2の係数が加味された第2FIRフィルタ27-2と左チャンネルの入力信号yが畳み込まれ、右チャンネル用の第2補聴処理部23-2での補聴処理と第3MVDRフィルタ24-3の係数が加味された第3FIRフィルタ27-3と右チャンネルの入力信号yが畳み込まれ、右入力チャンネル用の第2補聴処理部23-2での補聴処理と第4MVDRフィルタ24-4の係数が加味された第4FIRフィルタ27-4と右チャンネルの入力信号yが畳み込まれる。 Then, the input signal yL of the left channel is convoluted with the hearing aid processing in the first hearing aid processing unit 23-1 for the left input channel and the first FIR filter 27-1 in which the coefficients of the first MVDR filter 24-1 are added. , the input signal yL of the left channel is convoluted with the hearing aid processing in the first hearing aid processing unit 23-1 for the left channel and the second FIR filter 27-2, which takes into account the coefficients of the second MVDR filter 24-2. The input signal yR of the right channel is convoluted with the third FIR filter 27-3 in which the hearing aid processing in the second hearing aid processing unit 23-2 for the channel and the coefficients of the third MVDR filter 24-3 are added, and the input signal yR of the right channel is convoluted. The input signal yR of the right channel is convolved with the fourth FIR filter 27-4, which takes into account the hearing aid processing performed by the second hearing aid processing unit 23-2 and the coefficients of the fourth MVDR filter 24-4.
 その上で、第1FIRフィルタ27-1及び第3FIRフィルタ27-3で畳み込まれた各信号が第1加算部28-1で加算されて、左イヤホン30-1に出力される。これにより、左チャンネルで音が出力される。また、第2FIRフィルタ27-2及び第4FIRフィルタ27-4で畳み込まれた各信号が第2加算部28-2で加算されて、右イヤホン30-2に出力される。これにより、右チャンネルで音が出力される。 Then, the signals convoluted by the first FIR filter 27-1 and the third FIR filter 27-3 are added by the first adder 28-1 and output to the left earphone 30-1. This will output sound on the left channel. Furthermore, the signals convoluted by the second FIR filter 27-2 and the fourth FIR filter 27-4 are added by the second adder 28-2 and output to the right earphone 30-2. This will output sound on the right channel.
 以上のような構成を採ることにより、両耳ビームフォーマ1は、入力信号の指向性を踏まえて、入力信号に含まれる雑音信号を適度に抑制しながら所望の音声信号を際立たせることができ、結果として所望の音声信号が強調されたような状態を得られることから、所望の音声をより自然に、より聞こえ易くすることができる。 By adopting the above configuration, the binaural beamformer 1 can highlight the desired audio signal while appropriately suppressing the noise signal included in the input signal, taking into account the directivity of the input signal. As a result, a state in which the desired audio signal appears to be emphasized can be obtained, making it possible to make the desired audio sound more natural and easier to hear.
〔本発明の優位性〕
 以上のように、上述した実施形態によれば、以下のような効果が得られる。
[Advantages of the present invention]
As described above, according to the embodiment described above, the following effects can be obtained.
両耳ビームフォーマ1において、トレードオフパラメータが外部から調整可能に構成されているため、環境に応じたトレードオフパラメータを外部から選択して、IC保持性能と雑音抑圧性能とのトレードオフを外部から調整することができる。例えば、両耳ビームフォーマ1のユーザが自ら、左右のイヤホン30-1,30-2から出力される音を確認しながら、トレードオフパラメータを適宜調整することができる。結果として、聴取環境に応じたより適切なビームフォーミングを実現することができる。 In the binaural beamformer 1, the trade-off parameters are configured to be adjustable from the outside, so the trade-off parameters can be selected externally according to the environment and the trade-off between IC retention performance and noise suppression performance can be adjusted externally. Can be adjusted. For example, the user of the binaural beamformer 1 can adjust the trade-off parameter as appropriate while checking the sound output from the left and right earphones 30-1 and 30-2. As a result, more appropriate beamforming can be achieved depending on the listening environment.
サイドブランチ構成のフィルタバンクが用いられ、周波数領域での処理が時間領域での処理と並行して実行されるとともに、周波数領域のゲインにMVDRのゲインを掛けることによりビームフォーミングがなされるため、分析・再構築を行うフィルタバンクを用いる場合と比較して、処理の過程で発生する演算量が少なく済み、遅延を大幅に短縮することができる。結果として、ビームフォーミングを低遅延で実現することができ、より自然な聞こえを実現することができる。 A filter bank with a side branch configuration is used, and processing in the frequency domain is performed in parallel with processing in the time domain, and beamforming is performed by multiplying the gain in the frequency domain by the gain of the MVDR, so the analysis・Compared to the case of using a filter bank that performs reconstruction, the amount of calculations that occur during the processing process is smaller, and the delay can be significantly reduced. As a result, beamforming can be achieved with low delay, and more natural hearing can be achieved.
 本発明は、上述した実施形態に制約されることなく、種々に変形して実施することが可能である。 The present invention is not limited to the embodiments described above, and can be implemented with various modifications.
 上述した実施形態においては、入力が2チャンネルの構成としているが、入力チャンネル数は任意の数Nに増やすことが可能である。 In the embodiment described above, the input is configured with two channels, but the number of input channels can be increased to an arbitrary number N.
 図8は、入力チャンネルをN個とした場合における両耳ビームフォーミングの基本構成例を示す図である。この場合には、以下示す構成となるように、乗算部、逆変換部、FIRフィルタ等を入力チャンネル数に応じて必要な個数設ければよい。左チャンネル出力用のMVDRフィルタw及び右ャンネル出力用のMVDRフィルタwのそれぞれに、2M=N個(M,Nは自然数)のマイクロホンの入力信号yL1,yL2,・・・,yLMが入力される。各フィルタw,wで入力信号の指向性を分析した結果として、フィルタwから信号zが出力される。フィルタwから信号zが出力されるように、MVDRフィルタw,wの各行列の要素となるMVDRフィルタ(図3及び図4に示される複数のMVDRフィルタに相当)を設ける。 FIG. 8 is a diagram showing an example of the basic configuration of binaural beamforming when the number of input channels is N. In this case, a necessary number of multipliers, inverse transformers, FIR filters, etc. may be provided according to the number of input channels so as to have the configuration shown below. 2M=N (M, N are natural numbers) microphone input signals y L1 , y L2 , . . . , y to each of the MVDR filter w L for left channel output and the MVDR filter w R for right channel output LM is input. As a result of analyzing the directivity of the input signal in each of the filters w L and w R , a signal z L is output from the filter w L. MVDR filters (corresponding to the plurality of MVDR filters shown in FIGS. 3 and 4) are provided as elements of each matrix of the MVDR filters w L and w R so that the signal z R is output from the filter w R.
 その他、両耳ビームフォーマ1及び両耳聴取装置100に関する説明の過程で挙げた構成や数値等はあくまで例示であり、本発明の実施に際して適宜に変形が可能であることは言うまでもない。 In addition, the configurations, numerical values, etc. mentioned in the process of explanation regarding the binaural beamformer 1 and the binaural listening device 100 are merely examples, and it goes without saying that they can be modified as appropriate when implementing the present invention.
 本出願は、2022年5月6日出願の日本国特許出願2022-076676号に基づくものであり、その内容はここに参照として取り込まれる。 This application is based on Japanese Patent Application No. 2022-076676 filed on May 6, 2022, the contents of which are incorporated herein by reference.
1 両耳ビームフォーマ
2 パラメータ調整部 (調整工程、調整部)
10 マイクロホン
20 信号処理部
21 入力バッファ
22 変換部      (フィルタ更新工程、フィルタ更新部)
23 補聴処理部    (フィルタ更新工程、フィルタ更新部)
24 MVDRフィルタ (フィルタ更新工程、フィルタ更新部)
25 乗算部      (フィルタ更新工程、フィルタ更新部)
26 逆変換部     (フィルタ更新工程、フィルタ更新部)
27 FIRフィルタ  (畳み込み工程、畳み込み部)
28 加算部
30 イヤホン
100 両耳聴取装置
1 Binaural beamformer 2 Parameter adjustment section (adjustment process, adjustment section)
10 Microphone 20 Signal processing unit 21 Input buffer 22 Conversion unit (filter update process, filter update unit)
23 Hearing aid processing unit (filter update process, filter update unit)
24 MVDR filter (filter update process, filter update section)
25 Multiplication unit (filter update process, filter update unit)
26 Inverse transformation unit (filter update process, filter update unit)
27 FIR filter (convolution process, convolution section)
28 Addition unit 30 Earphone 100 Binaural listening device

Claims (10)

  1.  複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミング方法であって、
     所定の設計がなされたMVDRフィルタに前記入力信号を通した結果に基づいて係数を算出し、前記係数を用いてFIRフィルタを切り替えるフィルタ更新工程と、
     前記入力信号を前記FIRフィルタで畳み込む畳み込み工程と
     を備える。
    A beamforming method that performs beamforming using MVDR on input signals corresponding to sounds input to multiple microphones, the method comprising:
    a filter updating step of calculating coefficients based on the result of passing the input signal through an MVDR filter having a predetermined design, and switching an FIR filter using the coefficients;
    and a convolution step of convolving the input signal with the FIR filter.
  2.  請求項1に記載のビームフォーミング方法において、
     前記MVDRフィルタは、
     前記入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されていることを特徴とする。
    The beamforming method according to claim 1,
    The MVDR filter is
    It is characterized in that it is designed based on the degree to which interaural cross-correlation of noise components included in the input signal is maintained.
  3.  請求項2に記載のビームフォーミング方法において、
     前記度合いを変更可能とする調整工程をさらに含むことを特徴とする。
    The beamforming method according to claim 2,
    The method is characterized in that it further includes an adjustment step that allows the degree to be changed.
  4.  請求項3に記載のビームフォーミング方法において、
     前記MVDRフィルタは、
     そのコスト関数が前記度合いを制御するパラメータを含んだ式で表され、
     前記調整工程では、
     前記パラメータの値を変更可能とすることを特徴とする。
    The beamforming method according to claim 3,
    The MVDR filter is
    The cost function is expressed by an expression including a parameter that controls the degree,
    In the adjustment step,
    The method is characterized in that the value of the parameter can be changed.
  5.  請求項1から4のいずれかに記載のビームフォーミング方法において、
     前記畳み込み工程では、
     第1の信号経路上で、前記入力信号を畳み込み、
     前記フィルタ更新工程では、
     前記第1の信号経路から分岐した第2の信号経路上で、前記入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、前記係数を算出することを特徴とする。
    The beamforming method according to any one of claims 1 to 4,
    In the convolution process,
    convolving the input signal on a first signal path;
    In the filter updating step,
    On a second signal path branched from the first signal path, a predetermined calculation is performed for each frequency band on a frequency domain signal corresponding to the input signal, and the frequency domain gain is multiplied by the MVDR gain. The method is characterized in that the coefficients are calculated based on the results.
  6.  複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミングシステムであって、
     所定の設計がなされたMVDRフィルタに前記入力信号を通した結果に基づいて係数を算出し、前記係数を用いてFIRフィルタを切り替えるフィルタ更新部と、
     前記入力信号を前記FIRフィルタで畳み込む畳み込み部と
     を備えることを特徴とする。
    A beamforming system that uses MVDR to perform beamforming on input signals corresponding to sounds input to multiple microphones, the system comprising:
    a filter updating unit that calculates coefficients based on the result of passing the input signal through an MVDR filter having a predetermined design, and switches an FIR filter using the coefficients;
    and a convolution unit that convolves the input signal with the FIR filter.
  7.  請求項6に記載のビームフォーミングシステムにおいて、
     前記MVDRフィルタは、
     前記入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されていることを特徴とする。
    The beamforming system according to claim 6,
    The MVDR filter is
    It is characterized in that it is designed based on the degree to which interaural cross-correlation of noise components included in the input signal is maintained.
  8.  請求項7に記載のビームフォーミングシステムにおいて、
     前記度合いを変更可能とする調整部をさらに備えたことを特徴とする。
    The beamforming system according to claim 7,
    The invention is characterized in that it further includes an adjustment section that allows the degree to be changed.
  9.  請求項8に記載のビームフォーミングシステムにおいて、
     前記MVDRフィルタは、
     そのコスト関数が前記度合いを制御するパラメータを含んだ式で表され、
     前記調整部は、
     前記パラメータの値を変更可能とすることを特徴とする。
    The beamforming system according to claim 8,
    The MVDR filter is
    The cost function is expressed by an expression including a parameter that controls the degree,
    The adjustment section is
    The method is characterized in that the value of the parameter can be changed.
  10.  請求項6から9のいずれかに記載のビームフォーミングシステムにおいて、
     前記畳み込み部は、
     第1の信号経路上で、前記入力信号を畳み込み、
     前記フィルタ更新部は、
     前記第1の信号経路から分岐した第2の信号経路上で、前記入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、前記係数を算出することを特徴とする。
    The beamforming system according to any one of claims 6 to 9,
    The convolution part is
    convolving the input signal on a first signal path;
    The filter updating unit includes:
    On a second signal path branched from the first signal path, a predetermined calculation is performed for each frequency band on a frequency domain signal corresponding to the input signal, and the frequency domain gain is multiplied by the MVDR gain. The method is characterized in that the coefficients are calculated based on the results.
PCT/JP2023/017083 2022-05-06 2023-05-01 Beamforming method and beamforming system WO2023214571A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022076676A JP2023165528A (en) 2022-05-06 2022-05-06 Beamforming method and beamforming system
JP2022-076676 2022-05-06

Publications (1)

Publication Number Publication Date
WO2023214571A1 true WO2023214571A1 (en) 2023-11-09

Family

ID=88646530

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017083 WO2023214571A1 (en) 2022-05-06 2023-05-01 Beamforming method and beamforming system

Country Status (2)

Country Link
JP (1) JP2023165528A (en)
WO (1) WO2023214571A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007123052A1 (en) * 2006-04-20 2007-11-01 Nec Corporation Adaptive array control device, method, program, adaptive array processing device, method, program
US20180330726A1 (en) * 2017-05-15 2018-11-15 Baidu Online Network Technology (Beijing) Co., Ltd Speech recognition method and device based on artificial intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007123052A1 (en) * 2006-04-20 2007-11-01 Nec Corporation Adaptive array control device, method, program, adaptive array processing device, method, program
US20180330726A1 (en) * 2017-05-15 2018-11-15 Baidu Online Network Technology (Beijing) Co., Ltd Speech recognition method and device based on artificial intelligence

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DANIEL MARQUARDT ; SIMON DOCLO: "Interaural Coherence Preservation for Binaural Noise Reduction Using Partial Noise Estimation and Spectral Postfiltering", ARXIV:1806.04885V2, vol. 26, no. 7, 1 July 2018 (2018-07-01), pages 1257 - 1270, XP058403498, DOI: 10.1109/TASLP.2018.2823081 *
HIRUMA NOBUHIKO, FUJISAKA YOH-ICHI, MURAYAMA YOSHITAKA, CO RION, JAPAN TOKYO, CEAR ), JAPAN INC TOKYO: "Low-Latency Real-Time Binaural MVDR-IC for Hearing Assistive Device", CONFERENCE: 2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), SHOW & TELL DEMONSTRATIONS, 11 May 2022 (2022-05-11), XP093105739, Retrieved from the Internet <URL: https://www.researchgate.net/profile/Nobuhiko-Hiruma/publication/360514499_Low-latency_real-time_binaural_MVDR-IC_for_hearing_assistive_device> [retrieved on 20231127] *
KATES JAMES M., AREHART KATHRYN HOBERG: "Multichannel Dynamic-Range Compression Using Digital Frequency Warping", EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, vol. 2005, no. 18, 1 November 2005 (2005-11-01), pages 3003 - 3014, XP093105735, DOI: 10.1155/ASP.2005.3003 *

Also Published As

Publication number Publication date
JP2023165528A (en) 2023-11-16

Similar Documents

Publication Publication Date Title
DK2916321T3 (en) Processing a noisy audio signal to estimate target and noise spectral variations
EP2207168B1 (en) Robust two microphone noise suppression system
US7054451B2 (en) Sound reinforcement system having an echo suppressor and loudspeaker beamformer
EP1417756B1 (en) Sub-band adaptive signal processing in an oversampled filterbank
EP2238592B1 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
US20030026437A1 (en) Sound reinforcement system having an multi microphone echo suppressor as post processor
US8892432B2 (en) Signal processing system, apparatus and method used on the system, and program thereof
DK3008924T3 (en) METHOD OF SIGNAL PROCESSING IN A HEARING SYSTEM AND HEARING SYSTEM
WO2009104252A1 (en) Sound processor, sound processing method and sound processing program
EP2466914B1 (en) Speaker array for virtual surround sound rendering
US10979100B2 (en) Audio signal processing with acoustic echo cancellation
Marquardt et al. Interaural coherence preservation for binaural noise reduction using partial noise estimation and spectral postfiltering
CN107113484B (en) The method and hearing aid device system of operating hearing aid system
DK180745B1 (en) Procedure by a hearing aid
US11373668B2 (en) Enhancement of audio from remote audio sources
WO2023214571A1 (en) Beamforming method and beamforming system
Puder Adaptive signal processing for interference cancellation in hearing aids
Corey et al. Binaural audio source remixing with microphone array listening devices
CN111128210B (en) Method and system for audio signal processing with acoustic echo cancellation
EP3886463A1 (en) Method at a hearing device
Xiao et al. Effect of target signals and delays on spatially selective active noise control for open-fitting hearables
Puder Acoustic noise control: An overview of several methods based on applications in hearing aids
CA2397084C (en) Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
CN113286227A (en) Method for suppressing intrinsic noise of microphone arrangement
Hongo et al. Two-input two-output speech enhancement with binaural spatial information using a soft decision mask filter

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23799500

Country of ref document: EP

Kind code of ref document: A1