JPWO2011048813A1

JPWO2011048813A1 - 音響処理装置、音響処理方法及び補聴器

Info

Publication number: JPWO2011048813A1
Application number: JP2011537143A
Authority: JP
Inventors: 寺田　泰宏; 泰宏寺田; 麻紀山田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-10-21
Filing date: 2010-10-20
Publication date: 2013-03-07
Anticipated expiration: 2030-10-20
Also published as: CN102549661A; WO2011048813A1; CN102549661B; US20120189147A1; EP2492912A1; EP2492912B1; US8755546B2; JP5519689B2; EP2492912A4

Abstract

マイクロホンの配置間隔に拠らず、ユーザの近傍の発話者による音声を効率的に強調する音響処理装置、音響処理方法及び補聴器を提供する。音響処理装置は、複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の主軸を形成した第１の指向性信号を出力し、発話者方向に指向性の死角を形成した第２の指向性信号を出力する。音響処理装置は、第１の指向性信号のレベル、第２の指向性信号のレベルをそれぞれ算出し、当該第１の指向性信号のレベル及び第２の指向性信号のレベルに基づいて、発話者との遠近を判定する。音響処理装置は、当該判定結果に応じて、第１の指向性信号に与えるゲインを導出し、当該ゲインを用いて、第１の指向性信号のレベルを制御する。

Description

本発明は、ユーザから遠くにいる発話者の音声より、ユーザの近くにいる発話者の音声を相対的に強調することによって、近くの発話者の音声を聞き取りやすくする音響処理装置、音響処理方法及び補聴器に関するものである。

ユーザの近くにいる発話者の音声のみを強調する音響処理装置の一例として、特許文献１が挙げられる。この特許文献１では、５０［ｃｍ］〜１［ｍ］の程度離れて配置された２つのマイクロホンに入力される音声の振幅比を用いて、この振幅比に対応付けて予め計算された重み関数に基づいて近傍場音の強調を行う。図３０は、特許文献１に示す音響処理装置の内部構成を示すブロック図である。

図３０において、除算器１６１４は、第１の振幅抽出器１６１３Ａで算出されたマイクロホン１６０１Ａの振幅値と、第２の振幅抽出器１６１３Ｂで算出されたマイクロホン１６０１Ｂの振幅値とを入力する。次に、除算器１６１４は、マイクロホン１６０１Ａの振幅値と、マイクロホン１６０１Ｂの振幅値とに基づいて、マイクロホンＡ、Ｂ間の振幅比を得る。係数計算器１６１５は、除算器１６１４で算出された振幅比に応じた重み付け係数を算出する。近傍場音源分離装置１６０２は、係数計算器１６１５により算出された振幅比の値に応じて、予め計算された重み関数を用いて、近傍場の音声の強調処理を行うようにしたものである。

日本国特開２００９−３６８１０号公報

しかし、上記した近傍場音源分離装置１６０２を用いて、ユーザの近くにいる音源又は発話者の音声を強調したい場合、マイクロホン１６０１Ａ、１６０１Ｂの間で大きな振幅比を得る必要がある。このため、２つのマイクロホン１６０１Ａ、１６０２Ｂは、相当の間隔を離して配置されることが必要となる。従って、特にマイクロホンの間隔が、数［ｍｍ］（ミリメートル）から数［ｃｍ］（センチメートル）の範囲で、配置される小型な音響処理装置に適用することが困難になる。

特に低周波数帯域において、２つのマイクロホンの間における振幅比が小さくなるため、ユーザの近くにいる音源又は発話者と、ユーザから遠く離れたところにいる音源又は発話者とを適切に判別することが困難である。

本発明は、上記従来の事情に鑑みてなされたもので、マイクロホンの配置間隔に拠らず、ユーザの近傍の発話者による音声を効率的に強調する音響処理装置、音響処理方法及び補聴器を提供することを目的とする。

本発明の音響処理装置は、複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の主軸を形成した第１の指向性信号を出力する第１の指向性形成部と、前記複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の死角を形成した第２の指向性信号を出力する第２の指向性形成部と、前記第１の指向性形成部により出力された第１の指向性信号のレベルを算出する第１のレベル算出部と、前記第２の指向性形成部により出力された第２の指向性信号のレベルを算出する第２のレベル算出部と、前記第１及び第２のレベル算出部により算出された前記第１の指向性信号のレベル及び前記第２の指向性信号のレベルに基づいて、前記発話者との遠近を判定する発話者遠近判定部と、前記発話者遠近判定部の結果に応じて、前記第１の指向性信号に与えるゲインを導出するゲイン導出部と、前記ゲイン導出部により導出されたゲインを用いて、前記第１の指向性信号のレベルを制御するレベル制御部を有する。

さらに、本発明の音響処理方法は、複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の主軸を形成した第１の指向性信号を出力するステップと、前記複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の死角を形成した第２の指向性信号を出力するステップと、前記出力された第１の指向性信号のレベルを算出するステップと、前記出力された第２の指向性信号のレベルを算出するステップと、前記算出された前記第１の指向性信号のレベル及び前記第２の指向性信号のレベルに基づいて、前記発話者との遠近を判定するステップと、前記判定された前記発話者との遠近に応じて、前記第１の指向性信号に与えるゲインを導出するステップと、前記導出されたゲインを用いて、前記第１の指向性信号のレベルを制御するステップと、を有する。

さらに、本発明の補聴器は、上記音響処理装置を備える。

本発明の音響処理装置、音響処理方法及び補聴器によれば、マイクロホンの配置間隔に拠らず、ユーザの近くにいる発話者による音声を効率的に強調することができる。

第１の実施形態における音響処理装置の内部構成を示すブロック図第１の指向性マイクロホンにより出力された音声波形及び第１のレベル算出部により算出されたレベルの時間変化の一例を示す図、（ａ）第１の指向性マイクロホンにより出力された音声波形の時間変化を示す図、（ｂ）第１のレベル算出部により算出されたレベルの時間変化を示す図第２の指向性マイクロホンにより出力された音声波形及び第２のレベル算出部により算出されたレベルの時間変化の一例を示す図、（ａ）第２の指向性マイクロホンにより出力された音声波形の時間変化を示す図、（ｂ）第２のレベル算出部により算出されたレベルの時間変化を示す図算出されたレベル差と瞬時ゲインとの関係の一例を示す図第１の実施形態における音響処理装置の動作を説明するフローチャート第１の実施形態における音響処理装置のゲイン導出部によるゲイン導出の処理を説明するフローチャート第２の実施形態における音響処理装置の内部構成を示すブロック図第１及び第２の指向性形成部の内部構成を示したブロック図第１の指向性形成部により出力された音声波形及び第１のレベル算出部により算出されたレベルの時間変化の一例を示す図、（ａ）第１の指向性形成部により出力された音声波形の時間変化を示す図、（ｂ）第１のレベル算出部により算出されたレベルの時間変化を示す図第２の指向性形成部により出力された音声波形及び第２のレベル算出部により算出されたレベルの時間変化の一例を示す図、（ａ）第２の指向性形成部により出力された音声波形の時間変化を示す図、（ｂ）第２のレベル算出部により算出されたレベルの時間変化を示す図発話者との距離と第１のレベル算出部により算出されたレベルと第２のレベル算出部により算出されたレベルとのレベル差との関係の一例を示す図第１の実施形態における音響処理装置の動作を説明するフローチャート第２の実施形態における音響処理装置の内部構成を示すブロック図第２の実施形態における音響処理装置の音声区間検出部の内部構成を示すブロック図第１の指向性形成部により出力された音声信号の波形、音声区間検出部による検出結果、及び第３のレベル算出部により算出されたレベルと推定騒音レベルとの比較結果の時間変化を示した図、（ａ）第１の指向性形成部により出力された音声信号の波形の時間変化を示す図、（ｂ）音声区間検出部により検出された音声区間検出結果の時間変化を示す図、（ｃ）音声区間検出部により、第１の指向性形成部により出力された音声信号の波形に対するレベルと、音声区間検出部により算出された推定騒音レベルとの比較を示す図第２の実施形態における音響処理装置の動作を説明するフローチャート第３の実施形態における音響処理装置の内部構成を示すブロック図第３の実施形態における音響処理装置の遠近判定閾値設定部の内部構成を示したブロック図第３の実施形態における音響処理装置の動作を説明するフローチャート第４の実施形態における音響処理装置の内部構成を示すブロック図遠近判定結果情報と自発話音声判定結果情報とが同一の時間軸で表した一例を示す図遠近判定結果情報と自発話音声判定結果情報とが同一の時間軸で表した別の一例を示す図第４の実施形態における音響処理装置の動作を説明するフローチャート第５の実施形態における音響処理装置の内部構成を示すブロック図第５の実施形態における音響処理装置の非線形増幅部の内部構成を示すブロック図ユーザの聴覚特性を補償するレベルの入出力特性第５の実施形態における音響処理装置の動作を説明するフローチャート第５の実施形態における音響処理装置の非線形増幅部の動作を説明するフローチャート第５の実施形態における音響処理装置の非線形増幅部の帯域ゲイン設定部の動作を説明するフローチャート従来の音響処理装置の内部構成の一例を示すブロック図

以下、本発明の各実施形態について、図面を参照して説明する。各実施形態では、本発明の音響処理装置を補聴器に適用した例について説明する。よって、音響処理装置は、ユーザの耳に装着されており、発話者はユーザのほぼ正面前方にいるものとする。

（第１の実施形態）
図１は、第１の実施形態における音響処理装置１０の内部構成を示すブロック図である。図１に示すように、音響処理装置１０は、第１の指向性マイクロホン１０１、第２の指向性マイクロホン１０２、第１のレベル算出部１０３、第２のレベル算出部１０４、発話者遠近判定部１０５、ゲイン導出部１０６、及びレベル制御部１０７を有する。

（第１の実施形態の音響処理装置１０の内部構成）
第１の指向性マイクロホン１０１は、発話者方向に指向性の主軸を有する単一指向性マイクロホンであり、主に発話者の音声の直接音を収音する。第１の指向性マイクロホン１０１は、この収音された音声信号ｘ１（ｔ）を、第１のレベル算出部１０３及びレベル制御部１０７にそれぞれ出力する。

第２の指向性マイクロホン１０２は、発話者方向に指向性の死角を有する単一指向性マイクロホン又は双指向性マイクロホンであり、発話者の音声の直接音を収音せず、主に部屋の壁面等の反射により生じる発話者の音声の残響音を収音する。第２の指向性マイクロホン１０２は、この収音された音声信号ｘ２（ｔ）を第２のレベル算出部１０４に出力する。また、第１の指向性マイクロホン１０１と第２の指向性マイクロホン１０２との配置間隔は、数［ｍｍ］から数［ｃｍ］程度の距離である。

第１のレベル算出部１０３は、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）を取得し、この取得された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）［ｄＢ］を算出する。第１のレベル算出部１０３は、この算出された音声信号ｘ１（ｔ）のレベルＬｘ１(ｔ)を発話者遠近判定部１０５に出力する。数式（１）は、第１のレベル算出部１０３により算出されるレベルＬｘ１（ｔ）の算出式の一例を示す。

数式（１）において、Ｎは、レベル算出のために必要なサンプル数である。例えば、サンプル数Nは、サンプリング周波数を８［ｋＨｚ］、レベル算出のための分析時間を２０［ｍ秒］とした場合、Ｎ＝１６０となる。また、τは、時定数を示し、０＜τ≦１の値をとるもので、予め定められている。時定数τは、音声の立ち上がりには早く追従するように、下記数式（２）に示すように、

の関係が成立する場合には小さい時定数が用いられる。一方、上記数式（２）に示す関係が成立しない場合（数式（３））には、音声の子音区間又は文節間において、レベルの低下を軽減するために大きい時定数が用いられる。

図２は、第１の指向性マイクロホン１０１により出力された音声波形と、第１のレベル算出部１０３が算出したときのレベルＬｘ１（ｔ）を示す。なお、レベルＬｘ１（ｔ）は、第１のレベル算出部１０３が数式（２）の場合における時定数を１００［ｍ秒］、数式（３）の場合における時定数を４００［ｍ秒］として、算出した例である。

図２（ａ）は、第１の指向性マイクロホン１０１により出力された音声波形の時間変化を示す図面であり、図２（ｂ）は第１のレベル算出部１０３により算出されたレベルの時間変化を示す図面である。図２（ａ）において、縦軸は振幅を示し、横軸は時間［秒］を示す。図２（ｂ）において、縦軸はレベルを示し、横軸は時間［秒］を示す。

第２のレベル算出部１０４は、第２の指向性マイクロホン１０２により出力された音声信号ｘ２（ｔ）を取得し、この取得された音声信号ｘ２のレベルＬｘ２（ｔ）を算出する。第２のレベル算出部１０４は、この算出された音声信号ｘ２（ｔ）のレベルＬｘ２(ｔ)を発話者遠近判定部１０５に出力する。第２のレベル算出部１０４により算出されたレベルＬｘ２（ｔ）の算出式は、レベルＬｘ１（ｔ）が算出される数式（１）と同一である。

図３は、第２の指向性マイクロホン１０２により出力された音声波形と、第２のレベル算出部１０４が算出されたときのレベルＬｘ２（ｔ）を示す。なお、レベルＬｘ２（ｔ）は、第２のレベル算出部１０４が数式（２）の場合における時定数を１００［ｍ秒］、数式（３）の場合における時定数を４００［ｍ秒］として、算出した例である。

図３（ａ）は、第２の指向性マイクロホン１０２により出力された音声波形の時間変化を示す図面である。また、図３（ｂ）は、第２のレベル算出部１０４により算出されたレベルの時間変化を示す図面である。図３（ａ）において、縦軸は振幅を示し、横軸は時間［秒］を示す。図３（ｂ）において、縦軸はレベルを示し、横軸は時間［秒］を示す。

発話者遠近判定部１０５は、第１のレベル算出部１０３により算出された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）、及び第２のレベル算出部１０３により算出された音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）を取得する。発話者遠近判定部１０５は、これらの取得されたレベルＬｘ１（ｔ）及びレベルＬｘ２（ｔ）に基づいて、発話者がユーザから近いところにいるか否かを判定する。発話者遠近判定部１０５は、この判定した結果である遠近判定結果情報をゲイン導出部１０６に出力する。

具体的には、発話者遠近判定部１０５は、第１のレベル算出部１０３により算出された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）と、第２のレベル算出部１０４により算出された音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）とを入力する。次に、発話者遠近判定部１０５は、音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）と、音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）との差分であるレベル差ΔＬｘ（ｔ）＝Ｌｘ１（ｔ）−Ｌｘ２（ｔ）を算出する。

発話者遠近判定部１０５は、この算出されたレベル差ΔＬｘ（ｔ）に基づいて、発話者がユーザの近くにいるか否かを判定する。発話者がユーザから近いところにいることを表す距離としては、例えば、発話者とユーザとの距離が２［ｍ］以内の場合が該当する。しかし、発話者がユーザから近いところにいることを表す距離は、２［ｍ］以内に限定されない。

レベル差ΔＬｘ（ｔ）が予め設定された第１の閾値β１以上である場合には、発話者遠近判定部１０５は、発話者がユーザから近いところにいると判定する。第１の閾値β１は、例えば、１２［ｄＢ］である。また、レベル差ΔＬｘ（ｔ）が予め設定された第２の閾値β２未満である場合には、発話者遠近判定部１０５は、発話者がユーザから遠く離れたところにいると判定する。

第２の閾値β２は、例えば、８［ｄＢ］である。また、レベル差ΔＬｘ（ｔ）が第２の閾値β２以上で、且つ第１の閾値β１未満である場合には、発話者遠近判定部１０５は、発話者がユーザから少し離れた位置にいると判定する。

発話者遠近判定部１０５は、ΔＬｘ（ｔ）≧β１の場合は、発話者がユーザから近いところにいることを示す遠近判定結果情報「１」をゲイン導出部１０６に出力する。遠近判定結果情報「１」は、第１の指向性マイクロホン１０１で収音された直接音が多く、第２の指向性マイクロホン１０２で収音された残響音が少ないことを表す。

発話者遠近判定部１０５は、ΔＬｘ（ｔ）＜β２の場合は、発話者がユーザから遠く離れたところにいることを示す遠近判定結果情報「−１」を出力する。遠近判定結果情報「−１」は、第１の指向性マイクロホン１０１で収音された直接音が少なく、第２の指向性マイクロホン１０２で収音された残響音が多いことを表す。

発話者遠近判定部１０５は、β２≦ΔＬｘ（ｔ）＜β１の場合は、発話者がユーザから少し離れた位置にいることを示す遠近判定結果情報「０」を出力する。

ここで、第１のレベル算出部１０３により算出されたレベルＬｘ１（ｔ）の大きさだけで発話者の遠近を判定することは、当該判定の精度が効率的ではない。第１の指向性マイクロホン１０１の特性上、レベルＬｘ１（ｔ）の大きさだけでは、ユーザから遠く離れたところにいる人が大きな音量で話した場合と、当該ユーザから近くにいる人が通常の音量で話した場合とのいずれかが判定されにくい。

第１及び第２の指向性マイクロホン１０１、１０２の特性は、次のとおりである。発話者がユーザの近くにいる場合には、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）は、第２の指向性マイクロホン１０２により出力された音声信号ｘ２（ｔ）に比べて相対的に大きい。

さらに、発話者がユーザの遠くにいる場合には、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）は、第２の指向性マイクロホン１０２により出力された音声信号ｘ２（ｔ）とほぼ変わらない。特に、残響の多い部屋で用いる場合は、この傾向が顕著になる。

このため、発話者遠近判定部１０５は、第１のレベル算出部１０３により算出されたレベルＬｘ１（ｔ）の大きさだけで、発話者がユーザの近くにいるか遠くにいるかを判定しない。従って、発話者遠近判定部１０５は、直接音が主体的に収音された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）と、残響音が主体的に収音された音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）との差に基づいて、発話者の遠近を判定する。

ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）に対するゲインα（ｔ）を導出する。ゲイン導出部１０６は、この導出されたゲインα（ｔ）をレベル制御部１０７に出力する。

ゲインα（ｔ）は、遠近判定結果情報又はレベル差ΔＬｘ（ｔ）に基づいて定められる。図４は、発話者遠近判定部１０５により算出されたレベル差ΔＬｘ（ｔ）とゲインα（ｔ）との関係の一例を示す図面である。

図４に示すように、遠近判定結果情報が「１」である場合には、発話者がユーザから近いところにいて当該ユーザの会話相手である可能性が高いため、音声信号ｘ１（ｔ）に対するゲインα（ｔ）としてゲインα１が付与される。ゲインα１には、例えば「２．０」が設定されることにより、音声信号ｘ１（ｔ）が相対的に強調される。

また、遠近判定結果情報が「−１」である場合には、発話者がユーザから遠く離れたところにいて当該ユーザの会話相手である可能性が低いため、音声信号ｘ１（ｔ）に対するゲインα（ｔ）としてゲインα２が付与される。ゲインα２には、例えば「０．５」が設定されることにより、音声信号ｘ１（ｔ）が相対的に減衰される。

また、遠近判定結果情報が「０」である場合には、音声信号ｘ１（ｔ）は、特に強調も減衰も行われないため、ゲインα（ｔ）として「１．０」が付与される。

ここで、ゲインα（ｔ）が急激に変化することにより音声信号ｘ１（ｔ）に発生する歪みを軽減するため、上記した説明でゲインα（ｔ）として導出された値は、瞬時的ゲインα’（ｔ）として付与される。ゲイン導出部１０６は、下記数式（４）に従ってゲインα（ｔ）の算出を最終的に行う。また、数式（４）において、τ_αは、時定数を表し、０＜τ_α≦１の値をとるもので、予め定められている。

レベル制御部１０７は、ゲイン導出部１０６により上記数式（４）に従って導出されたゲインα（ｔ）、及び第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）を取得する。レベル制御部１０７は、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）に対して、ゲイン導出部１０６で導出されたゲインα（ｔ）を乗じた出力信号ｙ（ｔ）を生成する。

（第１の実施形態の音響処理装置１０の動作）
次に、第１の実施形態の音響処理装置１０の動作について図５を参照して説明する。図５は、第１の実施形態の音響処理装置１０の動作を説明するフローチャートである。

第１の指向性マイクロホン１０１は、発話者の音声の直接音を収音する（Ｓ１０１）。並行的に、第２の指向性マイクロホン１０２は、発話者の音声の残響音を収音する（Ｓ１０２）。第１の指向性マイクロホン１０１及び第２の指向性マイクロホン１０２によるそれぞれの音声の収音処理は、同一のタイミングにて行われる。

第１の指向性マイクロホン１０１は、この収音された音声信号ｘ１（ｔ）を、第１のレベル算出部１０３及びレベル制御部１０７にそれぞれ出力する。また、第２の指向性マイクロホン１０２は、この収音された音声信号ｘ２（ｔ）を第２のレベル算出部１０４に出力する。

第１のレベル算出部１０３は、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）を取得し、この取得された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）を算出する（Ｓ１０３）。並行的に、第２のレベル算出部１０４は、第２の指向性マイクロホン１０２により出力された音声信号ｘ２（ｔ）を取得し、この取得された音声信号ｘ２のレベルＬｘ２（ｔ）を算出する（Ｓ１０４）。

第１のレベル算出部１０３は、この算出されたレベルＬｘ１(ｔ)を発話者遠近判定部１０５に出力する。また、第２のレベル算出部１０４は、この算出されたレベルＬｘ２(ｔ)を発話者遠近判定部１０５に出力する。

発話者遠近判定部１０５は、第１のレベル算出部１０３により算出されたレベルＬｘ１（ｔ）、及び第２のレベル算出部１０４により算出されたレベルＬｘ２（ｔ）を取得する。

発話者遠近判定部１０５は、これらの取得されたレベルＬｘ１（ｔ）及びレベルＬｘ２（ｔ）のレベル差ΔＬｘ（ｔ）に基づいて、発話者がユーザから近いところにいるか否かを判定する（Ｓ１０５）。発話者遠近判定部１０５は、この判定された結果である遠近判定結果情報をゲイン導出部１０６に出力する。

ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報を取得する。ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）に対するゲインα（ｔ）を導出する（Ｓ１０６）。

このゲインα（ｔ）の導出の詳細は後述する。ゲイン導出部１０６は、この導出されたゲインα（ｔ）をレベル制御部１０７に出力する。

レベル制御部１０７は、ゲイン導出部１０６により導出されたゲインα（ｔ）、及び第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）を取得する。レベル制御部１０７は、第１の指向性マイクロホン１０１により出力された音声信号ｘ１（ｔ）に対して、ゲイン導出部１０６で導出されたゲインα（ｔ）を乗じた出力信号ｙ（ｔ）を生成する（Ｓ１０７）。

（ゲイン導出処理の詳細）
ゲイン導出部１０６が、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、音声信号ｘ１（ｔ）に対するゲインα（ｔ）を導出する処理の詳細について、図６を参照して説明する。図６は、ゲイン導出部１０６の動作の詳細を説明したフローチャートである。

遠近判定結果情報が「１」、すなわち、レベル差ΔＬｘ（ｔ）≧β１である場合には（Ｓ１０６１、ＹＥＳ）、音声信号ｘ１（ｔ）に対する瞬時ゲインα’（ｔ）として「２．０」が導出される（Ｓ１０６２）。遠近判定結果情報が「−１」、すなわち、レベル差ΔＬｘ（ｔ）＜β２である場合には（Ｓ１０６３、ＹＥＳ）、音声信号ｘ１（ｔ）に対する瞬時ゲインα’（ｔ）として「０．５」が導出される（Ｓ１０６４）。

遠近判定結果情報が「０」、すなわち、β２≦レベル差ΔＬｘ（ｔ）＜β１である場合には（Ｓ１０６３、ＮＯ）、瞬時ゲインα’（ｔ）として「１．０」が導出される（Ｓ１０６５）。瞬時ゲインα’（ｔ）が導出された後、ゲイン導出部１０６は、上記数式（４）に従ってゲインα（ｔ）の算出を行う（Ｓ１０６６）。

以上のように、第１の実施形態の音響処理装置では、配置間隔が数［ｍｍ］から数［ｃｍ］程度の第１及び第２の指向性マイクロホンを用いた場合でも、発話者がユーザから近いところにいるのか遠いところにいるかが判定される。具体的には、本実施形態は、配置間隔が数［ｍｍ］から数［ｃｍ］程度の第１及び第２の指向性マイクロホンから、それぞれ収音された音声信号ｘ１（ｔ）及びｘ２（ｔ）のレベル差ΔＬｘ（ｔ）の大きさによって、発話者の距離を判定する。

この判定結果に応じて算出されたゲインが、発話者の直接音を収音する第１の指向性マイクロホンに出力された音声信号に乗じて、レベルの制御がなされる。

従って、会話相手等のようにユーザから近いところにいる発話者の音声は強調され、反対に、ユーザから遠いところにいる発話者の音声は減衰又は抑圧される。結果的に、マイクロホンの配置間隔に拠らずに、ユーザの近くにいる会話相手の音声のみを明瞭かつ効率的に聞き取るために強調することができる。

（第２の実施形態）
図７は、第１の実施形態における音響処理装置１１の内部構成を示すブロック図である。図７において、図１と同じ構成要素については同じ符号を用い、当該構成要素の説明を省略する。図７に示すように、音響処理装置１１は、指向性収音部１１０１、第１のレベル算出部１０３、第２のレベル算出部１０４、発話者遠近判定部１０５、ゲイン導出部１０６、及びレベル制御部１０７を有する。

（第２の実施形態の音響処理装置１１の内部構成）

図７に示すように、指向性収音部１１０１は、マイクロホンアレイ１１０２、第１の指向性形成部１１０３及び第２の指向性形成部１１０４を有する。

マイクロホンアレイ１１０２は、複数の無指向性マイクロホンが配置されたアレイである。図７の構成は、２つの無指向性マイクロホンによりアレイを構成した場合の一例である。２つの無指向性マイクロホンの間隔Ｄは、必要とする周波数帯域や設置スペースの制約によって決定される任意の値である。ここでは、周波数帯域の観点からＤ＝５ｍｍ〜３０ｍｍ程度の範囲を考える。

第１の指向性形成部１１０３は、マイクロホンアレイ１１０２の２つの無指向性マイクロホンにより出力された音声信号を用いて、発話者方向に指向性の主軸を有する指向性を形成し、主に発話者の音声の直接音を収音する。第１の指向性形成部１１０３は、指向性の形成がなされた音声信号ｘ１（ｔ）を、第１のレベル算出部１０３及びレベル制御部１０７にそれぞれ出力する。

第２の指向性形成部１１０４は、マイクロホンアレイ１１０２の２つの無指向性マイクロホンにより出力された音声信号を用いて、発話者方向に指向性の死角を有する指向性を形成する。次に、第２の指向性形成部１１０４は、発話者の音声の直接音を収音せずに、主に部屋の壁面等の反射によって生じる発話者の音声の残響音を収音する。第２の指向性形成部１１０４は、指向性の形成がなされた音声信号ｘ２（ｔ）を第２のレベル算出部１０４に出力する。

指向性の形成の方法としては、一般的に、音圧傾度型や加算型が用いられる。ここでは、指向性の形成の一例について、図８を参照して説明する。図８は、図７に示した指向性収音部１１０１の内部構成を示したブロック図であり、音圧傾度型の指向性の形成法を説明する図面である。図８に示すように、マイクロホンアレイ１１０２には、２つの無指向性マイクロホン１２０１−１、１２０１−２が用いられている。

第１の指向性形成部１１０３は、遅延器１２０２、演算器１２０３及びＥＱ１２０４により構成される。

遅延器１２０２は、無指向性マイクロホン１２０１−２により出力された音声信号を取得し、この取得された音声信号を所定量遅延する。この遅延器１２０２による遅延量は、マイクロホン間隔をＤ［ｍ］、音速をｃ［ｍ／ｓ］とした場合、例えば、遅延時間Ｄ／ｃ［ｓ］に相当する値となる。遅延器１２０２は、所定量遅延された音声信号を演算器１２０３に出力する。

演算器１２０３は、無指向性マイクロホン１２０１−１により出力された音声信号と、遅延器１２０２により遅延された音声信号とをそれぞれ取得する。演算器１２０３は、無指向性マイクロホン１２０１−１により出力された音声信号から、遅延器１２０２により遅延された音声信号を減算した差を算出し、この算出された音声信号をＥＱ１２０４に出力する。

イコライザＥＱ１２０４は、演算器１２０３により出力された音声信号の主に低周波数帯域を補償する。演算器１２０３により、無指向性マイクロホン１２０１−１により出力された音声信号と、遅延器１２０２により遅延された音声信号との差は低周波数帯域の信号が小さくなっている。このため、ＥＱ１２０４は、発話者方向の周波数特性を平坦化するために挿入される。

第２の指向性形成部１１０４は、遅延器１２０５、演算器１２０６及びＥＱ１２０７により構成される。第２の指向性形成部１１０４は、第１の指向性形成部１１０３と入力信号が反対となる。

遅延器１２０５は、無指向性マイクロホン１２０１−１により出力された音声信号を取得し、この取得された音声信号を所定量遅延する。この遅延器１２０５による遅延量は、マイクロホン間隔をＤ［ｍ］、音速をｃ［ｍ／ｓ］とした場合、例えば、遅延時間Ｄ／ｃ［ｓ］に相当する値となる。遅延器１２０５は、所定量遅延された音声信号を演算器１２０６に出力する。

演算器１２０６は、無指向性マイクロホン１２０１−２により出力された音声信号と、遅延器１２０５により遅延された音声信号とをそれぞれ取得する。演算器１２０６は、無指向性マイクロホン１２０１−２により出力された音声信号と、遅延器１２０５により遅延された音声信号との差分を算出し、この算出された音声信号をＥＱ１２０７に出力する。

イコライザＥＱ１２０７は、演算器１２０６により出力された音声信号の主に低周波数帯域を補償する。演算器１２０６により、無指向性マイクロホン１２０１−２により出力された音声信号と、遅延器１２０５により遅延された音声信号との差分は、低周波数帯域の信号が小さくなっている。このため、ＥＱ１２０７は、発話者方向の周波数特性を平坦化するために挿入される。

第１のレベル算出部１０３は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得し、この取得された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）［ｄＢ］を上記した数式（１）に従って算出する。第１のレベル算出部１０３は、この算出された音声信号ｘ１（ｔ）のレベルＬｘ１(ｔ)を発話者遠近判定部１０５に出力する。

上記数式（１）において、Ｎは、レベル算出のために必要なサンプル数である。例えば、サンプル数Nは、サンプリング周波数を８［ｋＨｚ］、レベル算出のための分析時間を２０［ｍ秒］とした場合、Ｎ＝１６０となる。

また、τは、時定数を示し、０＜τ≦１の値をとるもので、予め定められている。時定数τは、音声の立ち上がりには早く追従するように、上記数式（２）に示す関係が成立する場合には、小さい時定数が用いられる。
一方、数式（２）に示す関係が成立しない場合（上記数式（３））には、音声の子音区間や文節間において、レベルの低下を軽減するために大きい時定数が用いられる。

図９は、第１の指向性形成部１１０３により出力された音声波形と、第１のレベル算出部１０３が算出したときのレベルＬｘ１（ｔ）を示す。なお、算出したレベルＬｘ１（ｔ）は、第１のレベル算出部１０３が、上記数式（２）において時定数を１００［ｍ秒］、上記数式（３）において時定数を４００［ｍ秒］とした例である。

図９（ａ）は、第１の指向性形成部１１０３により出力された音声波形の時間変化を示す図面であり、図９（ｂ）は、第１のレベル算出部１０３により算出されたレベルの時間変化を示す図面である。図９（ａ）において、縦軸は振幅を示し、横軸は時間［秒］を示す。図９（ｂ）において、縦軸はレベルを示し、横軸は時間［秒］を示す。

第２のレベル算出部１０４は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）を取得し、この取得された音声信号ｘ２のレベルＬｘ２（ｔ）を算出する。第２のレベル算出部１０４は、この算出された音声信号ｘ２（ｔ）のレベルＬｘ２(ｔ)を発話者遠近判定部１０５に出力する。第２のレベル算出部１０４により算出されたレベルＬｘ２（ｔ）の算出式は、レベルＬｘ１（ｔ）が算出される数式（１）と同一である。

図１０は、第２の指向性形成部１１０４により出力された音声波形と、第２のレベル算出部１０４が算出されたときのレベルＬｘ２（ｔ）を示す。なお、算出したレベルＬｘ２（ｔ）は、第２のレベル算出部１０４が、上記数式（２）において時定数を１００［ｍ秒］、上記数式（３）において時定数を４００［ｍ秒］とした例である。

図１０（ａ）は、第２の指向性形成部１１０４により出力された音声波形の時間変化を示す図面である。また、図１０（ｂ）は、第２のレベル算出部１０４により算出されたレベルの時間変化を示す図面である。図１０（ａ）において、縦軸は振幅を示し、横軸は時間［秒］を示す。図１０（ｂ）において、縦軸はレベルを示し、横軸は時間［秒］を示す。

具体的には、発話者遠近判定部１０５は、第１のレベル算出部１０３により算出された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）と、第２のレベル算出部１０４により算出された音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）とを入力する。次に、発話者遠近判定部１０５は、音声信号ｘ１のレベルＬｘ１（ｔ）と、音声信号ｘ２のレベルＬｘ２（ｔ）との差分であるレベル差ΔＬｘ（ｔ）＝Ｌｘ１（ｔ）−Ｌｘ２（ｔ）を算出する。

第２の閾値β２は、例えば、８［ｄＢ］である。また、レベル差ΔＬｘ（ｔ）が第２の閾値β２以上で、且つ第１の閾値β１未満である場合には、発話者遠近判定部１０５は、発話者はユーザから少し離れた位置にいると判定する。

一例として、図１１は、実際の２つの無指向性マイクロホンにより収録したデータを用いて、上記の方法により算出したレベル差ΔＬｘ（ｔ）と、ユーザと発話者との間の距離との関係をグラフで示したものである。図１１より、発話者がユーザから遠くなるにつれてレベル差ΔＬｘ（ｔ）が、低下することが確認できる。また、第１の閾値β１、第２のβ２をそれぞれ上記の値（β１＝１２［ｄＢ］、β２＝８［ｄＢ］）に設定した場合、約２［ｍ］以内の発話者の音声は強調でき、約４［ｍ］以上の発話者の音声は減衰できる。

発話者遠近判定部１０５は、ΔＬｘ（ｔ）≧β１の場合は、発話者がユーザから近いところにいることを示す遠近判定結果情報「１」をゲイン導出部１０６に出力する。遠近判定結果情報「１」は、第１の指向性形成部１１０３で収音された直接音が多く、第２の指向性形成部１１０４で収音された残響音が少ないことを表す。

発話者遠近判定部１０５は、ΔＬｘ（ｔ）＜β２の場合は、発話者がユーザから遠く離れたところにいることを示す遠近判定結果情報「−１」を出力する。遠近判定結果情報「−１」は、第１の指向性形成部１１０３で収音された直接音が少なく、第２の指向性形成部１１０４で収音された残響音が多いことを表す。

ここで、第１実施形態と同様に、第１のレベル算出部１０３により算出されたレベルＬｘ１（ｔ）の大きさだけで発話者の遠近を判定することは、当該判定の精度が効率的でない。第１の指向性形成部１１０３の特性上、レベルＬｘ１（ｔ）の大きさだけでは、ユーザから遠く離れたところにいる人が大きな音量で話した場合と、当該ユーザから近くにいる人が通常の音量で話した場合とのいずれかが判定されにくい。

第１及び第２の指向性形成部１１０３、１１０４の特性は、次のとおりである。発話者がユーザの近くにいる場合には、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）に比べて相対的に大きい。

さらに、発話者がユーザの遠くにいる場合には、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）とほぼ変わらない。特に、残響の多い部屋で用いる場合は、この傾向が顕著になる。

このため、発話者遠近判定部１０５は、第１のレベル算出部１０３により算出されたレベルＬｘ１（ｔ）の大きさだけで、発話者がユーザの近くにいるか遠くにいるかを判定しない。従って、発話者遠近判定部１０５は、直接音が主体的に収音された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）と、残響音が主体的に収音された音声信号ｘ２（ｔ）のレベルＬｘ２（ｔ）との差分に基づいて、発話者の遠近を判定する。

ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に対するゲインα（ｔ）を導出する。ゲイン導出部１０６は、この導出されたゲインα（ｔ）をレベル制御部１０７に出力する。

ゲインα（ｔ）は、遠近判定結果情報又はレベル差ΔＬｘ（ｔ）に基づいて定められる。発話者遠近判定部１０５により算出されたレベル差ΔＬｘ（ｔ）とゲインα（ｔ）との関係は、第１実施形態において図４に図示した関係と同一である。

ここで、ゲインα（ｔ）が急激に変化することにより音声信号ｘ１（ｔ）に発生する歪みを軽減するため、上記した説明でゲインα（ｔ）として導出された値は、瞬時的ゲインα’（ｔ）として付与される。ゲイン導出部１０６は、上記数式（４）に従ってゲインα（ｔ）の算出を行う。また、数式（４）において、ταは、時定数を表し、０＜τ_α≦１の値をとるもので、予め定められている。

レベル制御部１０７は、ゲイン導出部１０６により上記数式（４）に従って導出されたゲインα（ｔ）、及び第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得する。レベル制御部１０７は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に対して、ゲイン導出部１０６で導出されたゲインα（ｔ）を乗じた出力信号ｙ（ｔ）を生成する。

（第２の実施形態の音響処理装置１１の動作）
次に、第２の実施形態の音響処理装置１１の動作について図１２を参照して説明する。図１２は、第２の実施形態の音響処理装置１１の動作を説明するフローチャートである。

指向性収音部１１０１のマイクロホンアレイ１１０２により各々出力された音声信号に対し、第１の指向性形成部１１０３は、発話者からの直接音成分に関する指向性を形成する（Ｓ６５１）。第１の指向性形成部１１０３は、当該指向性が形成された音声信号を第１のレベル算出部１０３及びレベル制御部１０７にそれぞれ出力する。

並行的に、指向性収音部１１０１のマイクロホンアレイ１１０２により各々出力された音声信号に対し、第２の指向性形成部１１０４は、発話者からの残響音成分に関する指向性を形成する（Ｓ６５２）。第２の指向性形成部１１０４は、当該指向性が形成された音声信号を第２のレベル算出部１０４に出力する。

第１のレベル算出部１０３は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得し、この取得された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）を算出する（Ｓ１０３）。並行的に、第２のレベル算出部１０４は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）を取得し、この取得された音声信号ｘ２のレベルＬｘ２（ｔ）を算出する（Ｓ１０４）。

ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報を取得する。ゲイン導出部１０６は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に対するゲインα（ｔ）を導出する（Ｓ１０６）。

このゲインα（ｔ）の導出の詳細は、第１実施形態において図６を参照して説明したため、当該説明は省略する。ゲイン導出部１０６は、この導出されたゲインα（ｔ）をレベル制御部１０７に出力する。

レベル制御部１０７は、ゲイン導出部１０６により導出されたゲインα（ｔ）、及び第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得する。レベル制御部１０７は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に対して、ゲイン導出部１０６で導出されたゲインα（ｔ）を乗じた出力信号ｙ（ｔ）を生成する（Ｓ１０７）。

以上のように、第２の実施形態の音響処理装置では、複数の無指向性マイクロホンの配置間隔が数［ｍｍ］から数［ｃｍ］程度のマイクロホンアレイにより収音される。次に、同装置は、第１及び第２の指向性形成部によりそれぞれ指向性が形成された音声信号ｘ１（ｔ）と、ｘ２（ｔ）のレベル差ΔＬｘ（ｔ）の大きさによって、発話者がユーザから近いところにいるのか遠いところにいるかが判定される。

この判定結果に応じて算出されたゲインが、発話者の直接音を収音する第１の指向性形成部に出力された音声信号に乗じて、レベルの制御がなされる。

従って、第２実施形態では、会話相手等のようにユーザから近いところにいる発話者の音声は強調され、反対に、ユーザから遠いところにいる発話者の音声は減衰又は抑圧される。結果的に、マイクロホンの配置間隔に拠らずに、ユーザの近くにいる会話相手の音声のみを明瞭かつ効率的に聞き取るために強調することができる。

さらに、第２実施形態では、マイクロホンアレイを構成する無指向性マイクロホンの個数の増加により発話者方向に鋭い指向性の形成が可能となり、発話者の遠近を高精度に判定することができる。

（第３の実施形態）
図１３は、第３の実施形態の音響処理装置１２の内部構成を示すブロック図である。第３の実施形態の音響処理装置１２が第２の実施形態の音響処理装置１１と異なる点は、図１３に示すように、音声区間検出部５０１なる構成要素を更に有する点である。図１３において、図７と同じ構成要素については同じ符号を用い、当該構成要素の説明を省略する。

（第３の実施形態の音響処理装置１２の内部構成）
音声区間検出部５０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得する。音声区間検出部５０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を用いて、音響処理装置１２のユーザを含まない発話者が音声を発声している区間を検出する。音声区間検出部５０１は、この検出された音声区間検出結果情報を発話者遠近判定部１０５に出力する。

図１４は、音声区間検出部５０１の内部構成の一例を示すブロック図である。図１４に示すように、音声区間検出部５０１は、第３のレベル算出部６０１、推定騒音レベル算出部６０２、レベル比較部６０３及び音声区間判定部６０４を有する。

第３のレベル算出部６０１は、上記した数式（１）に従って、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）のレベルＬｘ３（ｔ）を算出する。なお、推定騒音レベル算出部６０２及びレベル比較部６０３は、レベルＬｘ３（ｔ）の代わりに、第１のレベル算出部１０３により算出された音声信号ｘ１（ｔ）のレベルＬｘ１（ｔ）を、それぞれ入力しても構わない。

この場合には、音声区間検出部５０１は第３のレベル算出部６０１を有する必要はなく、Ｌｘ３（ｔ）＝Ｌｘ１（ｔ）とすればよい。第３のレベル算出部６０１は、この算出されたレベルＬｘ３（ｔ）を推定騒音レベル算出部６０２及びレベル比較部６０３にそれぞれ出力する。

推定騒音レベル算出部６０２は、第３のレベル算出部６０１により出力されたレベルＬｘ３（ｔ）を取得する。推定騒音レベル算出部６０２は、この取得されたレベルＬｘ３（ｔ）に対する推定騒音レベルＮｘ（ｔ）［ｄＢ］を算出する。数式（５）は、推定騒音レベル算出部６０２により算出される推定騒音レベルＮｘ（ｔ）の算出式の一例を示す。

数式（５）において、τ_Ｎは、時定数であり、０＜τ_Ｎ≦１の値をとるもので、予め定められている。時定数τ_Ｎは、音声区間において、推定騒音レベルＮｘ（t）が上昇しないように、Ｌｘ３（ｔ）＞Ｎｘ（ｔ−１）の時は大きい時定数が用いられる。推定騒音レベル算出部６０２は、この算出された推定騒音レベルＮｘ（ｔ）をレベル比較部６０３に出力する。

レベル比較部６０３は、推定騒音レベル算出部６０２により算出された推定騒音レベルＮｘ（ｔ）、及び第３のレベル算出部６０１により算出されたレベルＬｘ３（ｔ）をそれぞれ取得する。レベル比較部６０３は、レベルＬｘ３（ｔ）と前記騒音レベルＮｘ（t)とを比較し、この比較された比較結果情報を音声区間判定部６０４に出力する。

音声区間判定部６０４は、レベル比較部６０３により出力された比較結果情報を取得する。音声区間判定部６０４は、この取得された比較結果情報に基づいて、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に対して、発話者が音声を発声している区間を判定する。音声区間判定部６０４は、音声区間と判定された音声区間検出結果である音声区間検出結果情報を発話者遠近判定部１０５に出力する。

レベルＬｘ３（ｔ）と推定騒音レベルＮｘ（ｔ）との比較において、レベル比較部６０３は、レベルＬｘ３（ｔ）と、推定騒音レベルＮｘ（ｔ）との差が第３の閾値βＮ以上である区間を「音声区間」として音声区間判定部６０４に出力する。

第３の閾値βＮは、例えば、６［ｄＢ］である。また、レベル比較部６０３は、レベルＬｘ３（ｔ）と推定騒音レベルＮｘ（ｔ）とを比較し、その差が第３の閾値βＮ未満である区間を「非音声区間」として音声区間判定部６０４に出力する。

音声区間検出部５０１による音声区間の検出結果について、図１５を参照して説明する。図１５は、第１の指向性形成部１１０３により出力された音声信号の波形、音声区間判定部６０４による検出結果、及び第３のレベル算出部６０１により算出されたレベルと騒音推定レベルとの比較結果の時間変化を示した図面である。

図１５（ａ）は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）の波形の時間変化を示す図である。図１５（ａ）において、縦軸は振幅を示し、横軸は時間［秒］を示す。

図１５（ｂ）は、音声区間判定部６０４により検出された音声区間検出結果の時間変化を示す図である。図１５（ｂ）において、縦軸は音声区間検出結果を示し、横軸は時間［秒］を示す。

図１５（ｃ）は、音声区間判定部６０４において、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）の波形に対するレベルＬｘ３（ｔ）と、推定騒音レベルＮｘ（ｔ）との比較を示す図である。図１５（ｃ）において、縦軸はレベルを示し、横軸は時間［秒］を示す。

図１５（ｃ）では、Ｌｘ３（ｔ）≦Ｎｘ（ｔ−１）における時定数は１［秒］、Ｌｘ３（ｔ）＞Ｎｘ（ｔ−１）における時定数は１２０［秒］とした例である。図１５（ｂ）及び図１５（ｃ）には、レベルＬｘ３（ｔ）と騒音レベルＮｘ（ｔ）、及び第３の閾値βＮを６［ｄＢ］である場合の（Ｎｘ（ｔ)＋βＮ）と音声検出結果が示されている。

発話者遠近判定部１０５は、音声区間検出部５０１の音声区間判定部６０４により出力された音声区間検出結果情報を取得する。発話者遠近判定部１０５は、この取得された音声区間検出結果情報に基づいて、音声区間検出部５０１により検出された音声区間のみ、発話者がユーザから近いところにいるか否かを判定する。発話者遠近判定部１０５は、この判定された遠近判定結果情報をゲイン導出部１０６に出力する。

（第３の実施形態の音響処理装置１２の動作）
次に、第３の実施形態の音響処理装置１２の動作について図１６を参照して説明する。図１６は、第３の実施形態の音響処理装置１２の動作を説明するフローチャートである。図１６において、図１２に示す第２の実施形態の音響処理装置１１の動作と同一の動作についての説明は省略し、上記した構成要素に関連する処理を主に説明する。

第１の指向性形成部１１０３は、ステップＳ６５１で形成された音声信号ｘ１（ｔ）を、音声区間検出部５０１及びレベル制御部１０７にそれぞれ出力する。音声区間検出部５０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得する。

音声区間検出部５０１は、ステップＳ６５１で第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を用いて、発話者が音声を発声している区間を検出する（Ｓ３２１）。音声区間検出部５０１は、この検出された音声区間検出結果情報を発話者遠近判定部１０５に出力する。

この音声区間検出の処理において、第３のレベル算出部６０１は、上記した数式（１）に従って、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）のレベルＬｘ３（ｔ）を算出する。第３のレベル算出部６０１は、この算出されたレベルＬｘ３（ｔ）を推定騒音レベル算出部６０２及びレベル比較部６０３にそれぞれ出力する。

推定騒音レベル算出部６０２は、第３のレベル算出部６０１により出力されたレベルＬｘ３（ｔ）を取得する。推定騒音レベル算出部６０２は、この取得されたレベルＬｘ３（ｔ）に対する推定騒音レベルＮｘ（ｔ）を算出する。推定騒音レベル算出部６０２は、この算出された推定騒音レベルＮｘ（ｔ）をレベル比較部６０３に出力する。

レベル比較部６０３は、推定騒音レベル算出部６０２により算出された推定騒音レベルＮｘ（ｔ）、及び第３のレベル算出部６０１により算出されたレベルＬｘ３（ｔ）をそれぞれ取得する。レベル比較部６０３は、レベルＬｘ３（ｔ）と前記騒音レベルＮｘ（ｔ)とを比較し、この比較された比較結果情報を音声区間判定部６０４に出力する。

発話者遠近判定部１０５は、音声区間検出部５０１の音声区間判定部６０４により出力された音声区間検出結果情報を取得する。発話者遠近判定部１０５は、この取得された音声区間検出結果情報に基づいて、音声区間検出部５０１により検出された音声区間のみ、発話者がユーザから近いところにいるか否かを判定する（Ｓ１０５）。これらの処理以降の内容は、第２の実施形態（図１２参照）と同一であるため省略する。

以上のように、第３の実施形態の音響処理装置では、第２の実施形態の音響処理装置の内部構成に付加した音声区間検出部５０１により、第１の指向性形成部により形成された音声信号の音声区間が検出される。この検出された音声区間に限って、発話者がユーザから近いところにいるのか遠いところにいるかが判定される。この判定結果に応じて算出されたゲインが、発話者の直接音を収音する第１の指向性形成部に出力された音声信号に乗じて、レベルの制御がなされる。

従って、会話相手等のようにユーザから近いところにいる発話者の音声は強調され、反対に、ユーザから遠いところにいる発話者の音声は減衰又は抑圧される。結果的に、マイクロホンの配置間隔に拠らずに、ユーザの近くにいる会話相手の音声のみを明瞭かつ効率的に聞き取るために強調することができる。さらに、第１の指向性形成部により出力された音声信号ｘ１（ｔ）の音声区間に限って発話者との遠近を判定するため、発話者との遠近を高精度に判定することができる。

（第４の実施形態）
図１７は、第４の実施形態の音響処理装置１３の内部構成を示すブロック図である。第４の実施形態の音響処理装置１３が第３の実施形態の音響処理装置１２と異なる点は、図１７に示すように、自発話音声判定部８０１及び遠近判定閾値設定部８０２なる構成要素を更に有する点である。

図１７において、図１３と同じ構成要素については同じ符号を用い、説明を省略する。また、以下の説明において、自発話音声とは、第４の実施形態の音響処理装置１３を搭載している補聴器を装着しているユーザの発声した音声を表す。

（第４の実施形態の音響処理装置１３の内部構成）
音声区間検出部５０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を取得する。音声区間検出部５０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を用いて、音響処理装置１３のユーザ或いは発話者が音声を発声している区間を検出する。

音声区間検出部５０１は、この検出された音声区間検出結果情報を発話者遠近判定部１０５及び自発話音声判定部８０１にそれぞれ出力する。音声区間検出部５０１の具体的な構成要素は、図１４に示す構成要素と同一である。

自発話音声判定部８０１は、音声区間検出部５０１から出力された音声区間検出結果情報を取得する。自発話音声判定部８０１は、この取得された音声区間検出結果情報に基づく音声区間において、レベルＬｘ３（ｔ）の絶対音圧レベルを用いて、音声区間検出部５０１により検出された音声が自発話音声であるか否かを判定する。

自発話音声の音源であるユーザの口元は、第１の指向性形成部１１０３が配置されているユーザの耳位置と近い位置にあるため、第１の指向性形成部１１０３で収音される自発話音声の絶対音圧レベルは大きい。自発話音声判定部８０１は、レベルＬｘ３（ｔ）が第４の閾値β４以上である場合には、当該レベルＬｘ３（ｔ）に対応する音声は自発話音声であると判定する。

第４の閾値β４は、例えば、７４［ｄＢ（ＳＰＬ）］である。自発話音声判定部８０１は、この判定された結果に対応する自発話音声判定結果情報を遠近判定閾値設定部８０２及び発話者遠近判定部１０５にそれぞれ出力する。

発話者遠近判定部１０５による発話者遠近の判定の際、自発話音声が必要以上のレベルでユーザの耳に入力される場合があり、ユーザの耳を保護する観点においては好ましくない。従って、自発話音声判定部８０１は、レベルＬｘ３(ｔ)に対応する音声が自発話音声と判定された場合に、当該自発話音声判定結果情報として「０」又は「−１」を出力する。

すなわち、自発話音声そのものは、レベル制御部１０７によりレベル制御されないようにすることがユーザの耳を保護する観点で好ましい。

遠近判定閾値設定部８０２は、自発話音声判定部８０１により出力された自発話音声判定結果情報を取得する。遠近判定閾値設定部８０２は、自発話音声判定部８０１により自発話音声と判定された音声区間の音声信号ｘ１（ｔ）及びｘ２（ｔ）を用いて、音声信号ｘ２（ｔ）に含まれる直接音成分を除去する。

遠近判定閾値設定部８０２は、音声信号ｘ２（ｔ）に含まれる残響レベルを算出する。遠近判定閾値設定部８０２は、この算出された残響レベルに応じて、第１の閾値β１及び第２の閾値β２を設定する。図１８は、適応フィルタを用いた遠近判定閾値設定部８０２の内部構成の一例を示す。

図１８は、遠近判定閾値設定部８０２の内部構成を示したブロック図である。遠近判定閾値設定部８０２は、適応フィルタ９０１、遅延器９０２、差信号算出部９０３及び判定閾値設定部９０４により構成される。

適応フィルタ９０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）に、当該適応フィルタ９０１の係数を畳み込む。次に、適応フィルタ９０１は、この畳み込まれた音声信号ｙｈ（ｔ）を差信号算出部９０３及び判定閾値設定部９０４にそれぞれ出力する。

遅延器９０２は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）を所定量遅延し、この遅延された音声信号ｘ２（ｔ−Ｄ）を差信号算出部９０３に出力する。パラメータＤは、遅延器９０２により遅延されるサンプル数を表す。

差信号算出部９０３は、適応フィルタ９０１により出力された音声信号ｙｈ（ｔ）及び遅延器９０２により遅延された音声信号ｘ２（ｔ−Ｄ）を取得する。差信号算出部９０３は、これらの音声信号ｘ２（ｔ−Ｄ）と音声信号ｙｈ（ｔ）との差である差信号ｅ（ｔ）を算出する。

差信号算出部９０３は、この算出された差信号ｅ（ｔ）を判定閾値設定部９０４に出力する。適応フィルタ９０１は、差信号算出部９０３により算出された差信号ｅ（ｔ）を用いてフィルタ係数を更新する。なお、フィルタ係数は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）に含まれる直接音成分が除去されるように調整される。

また、適応フィルタ９０１の係数を更新するアルゴリズムとしては、学習同定法、アフィン射影法、再帰最小二乗法等が用いられる。さらに、適応フィルタ９０１のタップ長は、第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）の直接音成分のみが除去され、当該音声信号ｘ２（ｔ）の残響音成分が差信号として出力されるために、比較的短いものとされる。例えば、適応フィルタ９０１のタップ長は、数［ｍ秒］〜数十［ｍ秒］程度に相当する長さとする。

第２の指向性形成部１１０４により出力された音声信号ｘ２（ｔ）を遅延する遅延器９０２は、第１の指向性形成部１１０３との因果律を満たすために挿入される。第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）は、適応フィルタ９０１を通すと必ず所定量の遅延が発生するためである。

遅延させるサンプル数は、適応フィルタ９０１のタップ長の半分程度の値に設定される。

判定閾値設定部９０４は、差信号算出部９０３により出力された差信号ｅ（ｔ）、及び適応フィルタ９０１により出力された音声信号ｙｈ（ｔ）をそれぞれ取得する。判定閾値設定部９０４は、この取得された差信号ｅ（ｔ）及び音声信号ｙｈ（ｔ）を用いてレベルＬｅ（ｔ）を算出し、第１の閾値β１及び前記第２の閾値β２を設定する。

レベルＬｅ（ｔ）［ｄＢ］は数式（６）に従って算出される。パラメータＬは、レベル算出のためのサンプル数である。サンプル数Ｌは、一文節や一単語の長さ程度の値であり、例えばこの長さを２［秒］及びサンプリング周波数８［ｋＨｚ］の場合には、Ｌ＝１６０００である。数式（６）では、差信号ｅ（ｔ）の絶対レベルへの依存を低減するため、直接音の推定信号にあたる適応フィルタ９０１により出力された音声信号ｙｈ（ｔ）のレベルで正規化が行われている。

数式（６）において、レベルＬｅ（ｔ）は、残響音成分が多い場合は値が大きくなり、残響音成分が少ない場合は値が小さくなる。例えば、極端な例として、残響がない無響室では、数式（６）において分子が小さくなるため、Ｌｅ（ｔ）は、−∞［ｄＢ］に近い値となる。一方、残響が多く拡散音場に近い残響室では、数式（６）において分母と分子が同レベルとなるため、０［ｄＢ］に近い値となる。

従って、レベルＬｅ（ｔ）が所定値より大きい場合には、発話者がユーザの近くにいる場合でも第２の指向性形成部１１０４で残響音が多く収音される。所定量とは、例えば、−１０［ｄＢ］である。

この場合、第１及び第２のレベル算出部１０３、１０４によりそれぞれ算出されたレベルＬｘ１(ｔ)と、レベルＬｘ２(ｔ)とのレベル差ΔＬｘ（ｔ）が小さくなるため、第１の閾値β１及び第２の閾値β２はそれぞれ小さい値が設定される。

反対に、レベルＬｅ（ｔ）が所定値より小さい場合には、第２の指向性形成部１１０４で残響音はあまり多く収音されない。所定量とは、例えば、−１０［ｄＢ］である。この場合、第１及び第２のレベル算出部１０３、１０４によりそれぞれ算出されたレベルＬｘ１（ｔ）と、レベルＬｘ２（ｔ）とのレベル差ΔＬｘ（ｔ）が大きくなるため、第１の閾値β１及び第２の閾値β２はそれぞれ大きい値が設定される。

発話者遠近判定部１０５は、音声区間検出部５０１による音声区間検出結果情報、自発話音声判定部８０１による自発話音声判定結果情報、及び遠近判定閾値設定部８０２により設定された第１及び第２の閾値β１、β２を入力する。次に、発話者遠近判定部１０５は、入力した音声区間検出結果情報、自発話音声判定結果情報、及び設定された第１及び第２の閾値β１、β２に基づき、発話者がユーザから近いところにいるか否かを判定する。発話者遠近判定部１０５は、この判定された遠近判定結果情報をゲイン導出部１０６に出力する。

（第４の実施形態の音響処理装置１３の動作）
次に、第４の実施形態の音響処理装置１３の動作について図１９を参照して説明する。図１９は、第４の実施形態の音響処理装置１３の動作を説明するフローチャートである。図１９において、図１６に示す第３の実施形態の音響処理装置１３の動作と同一の動作についての説明は省略し、上記した構成要素に関連する処理を主に説明する。

音声区間検出部５０１は、検出された音声区間検出結果情報を発話者遠近判定部１０５及び自発話音声判定部８０１にそれぞれ出力する。自発話音声判定部８０１は、音声区間検出部５０１から出力された音声区間検出結果情報を取得する。

自発話音声判定部８０１は、この取得された音声区間検出結果情報に基づく音声区間において、レベルＬｘ３（ｔ）の絶対音圧レベルを用いて、音声区間検出部５０１により検出された音声が自発話音声であるか否かを判定する（Ｓ４３１）。自発話音声判定部８０１は、この判定された結果に対応する自発話音声判定結果情報を遠近判定閾値設定部８０２及び発話者遠近判定部１０５にそれぞれ出力する。

遠近判定閾値設定部８０２は、自発話音声判定部８０１により出力された自発話音声判定結果情報を取得する。遠近判定閾値設定部８０２は、自発話音声判定部８０１により自発話音声と判定された音声区間の音声信号ｘ１（ｔ）、及びｘ２（ｔ）を用いて、音声信号ｘ２（ｔ）に含まれる残響レベルを算出する。遠近判定閾値設定部８０２は、この算出された残響レベルに応じて、第１の閾値β１及び第２の閾値β２を設定する（Ｓ４３２）。

発話者遠近判定部１０５は、音声区間検出部５０１による音声区間検出結果情報、自発話音声判定部８０１による自発話音声判定結果情報、及び遠近判定閾値設定部８０２により設定された第１、第２の閾値β１、β２を入力する。次に、発話者遠近判定部１０５は、入力された音声区間検出結果情報、自発話音声判定結果情報、及び設定された第１、第２の閾値β１、β２に基づき、発話者がユーザから近いところにいるか否かを判定する（Ｓ１０５）。

発話者遠近判定部１０５は、この判定された遠近判定結果情報をゲイン導出部１０６に出力する。これらの処理以降の内容は、第１の実施形態（図５参照）と同一であるため省略する。

以上のように、第４の実施形態の音響処理装置では、第３の実施形態の音響処理装置の内部構成に付加した自発話音声判定部により、第１の指向性形成部により収音された音声信号ｘ１（ｔ）に自発話音声が含まれているか否かが判定される。

さらに、第３の実施形態の音響処理装置の内部構成に付加した遠近判定閾値設定部により、自発話音声と判定された音声区間において、第２指向性形成部によりそれぞれ収音された音声信号に含まれる残響レベルが算出される。また、遠近判定閾値設定部により、この算出された残響のレベルに応じて、第１の閾値β１及び第２の閾値β２が設定される。

本実施形態では、この設定された第１の閾値β１及び第２の閾値β２、音声区間検出結果情報及び自発話音声判定結果情報に基づいて、発話者がユーザから近いところにいるのか遠いところにいるかが判定される。この判定結果に応じて算出されたゲインが、発話者の直接音を収音する第１の指向性形成部１１０３に出力された音声信号に乗じて、レベルの制御がなされる。

従って、本実施形態では、会話相手等のようにユーザから近いところにいる発話者の音声は強調され、反対に、ユーザから遠いところにいる発話者の音声は減衰又は抑圧される。結果的に、マイクロホンの配置間隔に拠らずに、ユーザの近くにいる会話相手の音声のみを明瞭かつ効率的に聞き取るために強調することができる。

さらに、本実施形態では、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）の音声区間に限って発話者の遠近を判定するため、発話者の遠近を高精度に判定することができる。

さらに、本実施形態では、検出された音声区間における自発話音声を用いて音声信号の残響レベルを算出することにより、当該残響レベルの程度に応じて、遠近を判定するための閾値を動的に設定することが可能になる。従って、本実施形態では、ユーザと発話者との遠近を高精度に判定することができる。

（第５の実施形態）
図２０は、第５の実施形態の音響処理装置１４の内部構成を示すブロック図である。第５の実施形態の音響処理装置１４が第３の実施形態の音響処理装置１２と異なる点は、図２０に示すように、自発話音声判定部８０１及び会話相手判定部１００１なる構成要素を更に有する点である。図２０において、図７と同じ構成要素については同じ符号を用い、説明を省略する。

（第５の実施形態の音響処理装置１４の内部構成）
自発話音声判定部８０１は、音声区間検出部５０１から出力された音声区間検出結果情報を取得する。自発話音声判定部８０１は、この取得された音声区間検出結果情報に基づく音声区間において、レベルＬｘ３（ｔ）の絶対音圧レベルを用いて、音声区間検出部５０１により検出された音声が自発話音声であるか否かを判定する。

第４の閾値β４は、例えば、７４［ｄＢ（ＳＰＬ）］である。自発話音声判定部８０１は、この判定された結果に対応する自発話音声判定結果情報を会話相手判定部１００１に出力する。また、自発話音声判定部８０１は、自発話音声判定結果情報を発話者遠近判定部１０５及び会話相手判定部１００１にそれぞれ出力しても構わない。

発話者遠近判定部１０５は、音声区間検出部５０１による音声区間検出結果情報に基づき、発話者がユーザから近いところにいるか否かを判定する。また、発話者遠近判定部１０５は、自発話音声判定部８０１により出力された自発話音声判定結果情報を取得しても構わない。

この場合には、発話者遠近判定部１０５は、音声区間と検出された区間のうち自発話音声と判定された音声区間を除いて、発話者との遠近を判定する。発話者遠近判定部１０５は、音声区間検出結果情報に基づいて、判定された遠近判定結果情報を会話相手判定部１００１に出力する。

また、発話者遠近判定部１０５は、音声区間検出結果情報及び自発話音声判定結果情報に基づいて、判定された遠近判定結果情報を会話相手判定部１００１に出力しても構わない。

会話相手判定部１００１は、自発話音声判定部８０１による自発話音声判定結果情報、及び発話者遠近判定部１０５による遠近判定結果情報をそれぞれ取得する。

会話相手判定部１００１は、発話者がユーザの近くにいると判定された場合、ユーザの近くにいる発話者の音声と、自発話音声判定部８０１により判定された自発話音声とを用いて、発話者がユーザの会話相手か否かを判定する。

発話者遠近判定部１０５にて発話者が近くにいると判定された場合とは、遠近判定結果情報が「１」を示す場合である。

会話相手判定部１００１は、当該発話者がユーザの会話相手であると判定された場合には、会話相手判定結果情報を「１」として、ゲイン導出部１０６に出力する。一方、会話相手判定部１００１は、当該発話者がユーザの会話相手ではないと判定された場合には、会話相手判定結果情報を「０」又は「−１」として、ゲイン導出部１０６に出力する。

会話相手判定部１００１が自発話音声判定結果情報及び遠近判定結果情報に基づいて、発話者がユーザの会話相手であるか否かを判定する一例について、図２１及び図２２を参照して説明する。

図２１は、遠近判定結果情報と自発話音声判定結果情報とが同一の時間軸で表された一例を示す図である。図２２は、遠近判定結果情報と自発話音声判定結果情報とが同一の時間軸で表された別の一例を示す図である。図２１及び図２２に示す遠近判定結果情報と、自発話音声判定結果情報とは、会話相手判定部１００１により参照される。

図２１は、自発話音声判定結果情報が発話者遠近判定部１０５に出力されないときの図であり、この場合には自発話音声判定結果情報は会話相手判定部１００１に出力される。図２１に示すように、自発話音声判定結果情報が「１」のときに遠近判定結果情報も「１」となる。このとき、会話相手判定部１００１は、遠近判定結果情報を「０」として扱う。遠近判定結果情報が「１」の状態と、自発話音声判定結果情報が「１」の状態とが時間的にほぼ連続的に交互に発生している場合には、会話相手判定部１００１は、発話者がユーザの会話相手であると判定する。

また、図２２は、自発話音声判定結果情報が発話者遠近判定部１０５に出力されるときの図である。図２２に示すように、遠近判定結果情報が「１」の状態と、自発話音声判定結果情報が「１」の状態とが時間的にほぼ連続的に交互に発生している場合には、会話相手判定部１００１は、発話者がユーザの会話相手であると判定する。

ゲイン導出部１０６は、会話相手判定部１００１による会話相手判定結果情報を用いて、ゲインα（ｔ）を導出する。具体的には、会話相手判定結果情報が「１」である場合には、ゲイン導出部１０６は、発話者がユーザの会話相手であると判定されているため、瞬時ゲインα’（ｔ）を「２．０」と設定する。

また、会話相手判定結果情報が「０」又は「−１」である場合には、発話者がユーザの会話相手ではないと判定されているため、瞬時ゲインα’（ｔ）を「０．５」又は「１．０」のいずれかに設定する。なお、「０．５」又は「１．０」は、どちらに設定されても構わない。

ゲイン導出部１０６は、導出された瞬時ゲインα’（ｔ）を用いて、上記数式（４）に従ってゲインα（ｔ）を導出し、この導出されたゲインα（ｔ）をレベル制御部１０７に出力する。

（第５の実施形態の音響処理装置１４の動作）
次に、第５の実施形態の音響処理装置１４の動作について図２３を参照して説明する。図２３は、第５の実施形態の音響処理装置１４の動作を説明するフローチャートである。図２３において、図１６に示す第３の実施形態の音響処理装置１２の動作と同一の動作についての説明は省略し、上記した構成要素に関連する処理を主に説明する。

自発話音声判定部８０１は、音声区間検出結果情報に基づく音声区間において、レベルＬｘ３（ｔ）の絶対音圧レベルを用いて、音声区間検出部５０１により検出された音声が自発話音声であるか否かを判定する（Ｓ４３１）。

自発話音声判定部８０１は、この判定された結果に対応する自発話音声判定結果情報を会話相手判定部１００１に出力する。また、自発話音声判定部８０１は、自発話音声判定結果情報を会話相手判定部１００１及び発話者遠近判定部１０５に出力しても構わない。

発話者遠近判定部１０５は、音声区間検出部５０１による音声区間検出結果情報に基づき、発話者がユーザから近いところにいるか否かを判定する（Ｓ１０５）。発話者遠近判定部１０５にて発話者が近くにいると判定された場合（Ｓ５４１、ＹＥＳ）、会話相手判定部１００１は、発話者がユーザの会話相手か否かを判定する（Ｓ５４２）。具体的には、会話相手判定部１００１は、ユーザの近くにいる発話者の音声と、自発話音声判定部８０１により判定された自発話音声とを用いて、発話者がユーザの会話相手か否かを判定する。

発話者遠近判定部１０５にて発話者が近くにいないと判定された場合、すなわち、遠近判定結果情報が「０」である場合には（Ｓ５４１、ＮＯ）、ゲイン導出部１０６によるゲイン導出の処理がなされる（Ｓ１０６）。

ゲイン導出部１０６は、会話相手判定部１００１による会話相手判定結果情報を用いて、ゲインα（ｔ）を導出する（Ｓ１０６）。これらの処理以降の内容は、第１の実施形態（図５参照）と同一であるため省略する。

以上のように、第５の実施形態の音響処理装置では、第３の実施形態の音響処理装置の内部構成に付加した自発話音声判定部により、第１の指向性形成部により収音された音声信号ｘ１（ｔ）に自発話音声が含まれているか否かが判定される。

さらに、本実施形態は、会話相手判定部により、発話者がユーザの近くにいると判定された音声区間において、自発話音声判定結果情報と遠近判定結果情報との時間的な発生順序に基づいて、当該発話者がユーザの会話相手か否かが判定される。

この判定された会話相手判定結果情報に基づいて算出されたゲインが、発話者の直接音を収音する第１の指向性形成部に出力された音声信号に乗じて、レベルの制御がなされる。

さらに、本実施形態では、第１の指向性形成部により出力された音声信号ｘ１（ｔ）の音声区間に限って発話者の遠近を判定するため、発話者との遠近を高精度に判定することができる。

さらに、本実施形態では、ユーザの近くにいる発話者が会話相手である場合のみ当該発話者の音声を強調することができ、ユーザの会話相手のみの音声が明瞭に聞き取ることができる。

（第６の実施形態）
図２４は、第６の実施形態の音響処理装置１５の内部構成を示すブロック図である。第６の実施形態の音響処理装置１５は、第２の実施形態の音響処理装置１１を補聴器に適用したものである。第２の実施形態の音響処理装置１１と異なる点は、図２４に示すように、図７に示すゲイン導出部１０６とレベル制御部１０７とを非線形増幅部３１０１に統合し、更に音声出力部としてスピーカ３１０２なる構成要素を更に有する点である。第６実施形態においては、図７と同じ構成要素については同じ符号を用い、当該構成要素の説明を省略する。

（第６の実施形態の音響処理装置１５の内部構成）
非線形増幅部３１０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）、及び発話者遠近判定部１０５により出力された遠近判定結果情報を取得する。非線形増幅部３１０１は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を増幅し、スピーカ３１０２に出力する。

図２５は、非線形増幅部３１０１の内部構成の一例を示すブロック図である。図２５に示すように、非線形増幅部３１０１は、帯域分割部３２０１、複数の帯域信号制御部（＃１〜＃Ｎ）３２０２、及び帯域合成部３２０３を有する。

帯域分割部３２０１は、第１の指向性形成部１１０３からの音声信号ｘ１（ｔ）を、フィルタ等により、Ｎバンドの周波数帯域の信号ｘ１ｎ（ｔ）に分割する。ただし、パラメータｎは、ｎ＝１〜Ｎである。なお、フィルタは、ＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）フィルタバンクやバンドパスフィルタ等を用いる。

各帯域信号制御部（＃１〜＃Ｎ）３２０２は、発話者遠近判定部１０５からの遠近判定結果情報、及び帯域分割部３２０１からの各周波数帯域の信号ｘ１ｎ（ｔ）のレベルに基づいて、各周波数帯域信号ｘ１ｎ（ｔ）に乗ずるゲインを設定する。次に、各帯域信号制御部（＃１〜＃Ｎ）３２０２は、設定されたゲインを用いて、当該各周波数帯域の信号ｘ１ｎ（ｔ）のレベルを制御する。

図２５には、帯域信号制御部（＃１〜＃Ｎ）３２０２のうち周波数帯域＃ｎにおける帯域信号制御部（＃ｎ）３２０２について、その内部構成を示したものである。当該帯域信号制御部（＃ｎ）３２０２は、帯域レベル算出部３２０２−１、帯域ゲイン設定部３２０２−２、及び帯域ゲイン制御部３２０２−３を有する。他の周波数帯域における帯域信号制御部３２０２は、同様の内部構成を有する。

帯域レベル算出部３２０２−１は、周波数帯域信号ｘ１ｎ（ｔ）のレベルＬｘ１ｎ（ｔ）［ｄＢ］を算出する。レベル算出式は、例えば上記数式（１）の方法で算出される。

帯域ゲイン設定部３２０２−２は、帯域レベル算出部３２０２−１で算出された帯域レベルＬｘ１ｎ（ｔ）、及び発話者遠近判定部１０５により出力された遠近判定結果情報を入力する。次に、帯域ゲイン設定部３２０２−２は、帯域レベルＬｘ１ｎ（ｔ）、及び遠近判定結果情報に基づいて、当該帯域信号制御部３２０２の制御対象である帯域信号ｘ１ｎ（ｔ）に乗ずる帯域ゲインαｎ（ｔ）を設定する。

具体的には、遠近判定結果情報が「１」である場合、発話者は、ユーザから近いところにおり、当該ユーザの会話相手である可能性が高い。このため、帯域ゲイン設定部３２０２−２は、当該信号の帯域レベルＬｘ１ｎ（ｔ）を用いて、図２６に示すような当該ユーザの聴覚特性を補償する帯域ゲインαｎ（ｔ）を設定する。図２６は、ユーザの聴覚特性を補償するレベルの入出力特性を示す説明図である。

帯域ゲイン設定部３２０２−２は、例えば、帯域レベルＬｘ１ｎ（ｔ）＝６０［ｄＢ］の場合、出力帯域レベルを８０［ｄＢ］とするため、帯域ゲインを２０［ｄＢ］上昇させるゲイン値αｎ（ｔ）＝１０［倍］（＝１０＾（２０／２０））を設定する。

また、遠近判定結果情報が「０」或いは「−１」である場合には、発話者がユーザから近いところにおらず、当該ユーザの会話相手である可能性が低い。このため、帯域ゲイン設定部３２０２−２は、当該制御対象である帯域信号ｘ１ｎ（ｔ）に対する帯域ゲインαｎ（ｔ）として「１．０」を設定する。

帯域ゲイン制御部３２０２−３は、当該帯域ゲインαｎ（ｔ）を、当該制御対象である帯域信号ｘ１ｎ（ｔ）に乗じ、帯域信号制御部３２０２による制御後の帯域信号ｙｎ（ｔ）を算出する。

帯域合成部３２０３は、帯域分割部３２０１に対応する方法により各帯域信号ｙｎ（ｔ）を合成し、帯域合成後の信号ｙ（ｔ）を算出する。

スピーカ３１０２は、非線形増幅部３１０１により帯域ゲインが設定された帯域合成後の信号ｙ（ｔ）を出力する。

（第６の実施形態の音響処理装置１５の動作）
次に、第６の実施形態の音響処理装置１５の動作について図２７を参照して説明する。図２７は、第６の実施形態の音響処理装置１５の動作を説明するフローチャートである。図２７において、図１２に示す第２の実施形態の音響処理装置１１の動作と同一の動作についての説明は省略し、上記した構成要素に関連する処理を主に説明する。

非線形増幅部３１０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）、及び発話者遠近判定部１０５により出力された遠近判定結果情報を取得する。次に、非線形増幅部３１０１は、発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を増幅し、スピーカ３１０２に出力する（Ｓ３４０１）。

非線形増幅部３１０１の処理の詳細について、図２８を参照して説明する。図２８は、非線形増幅部３１０１の動作の詳細を説明したフローチャートである。

帯域分割部３２０１は、第１の指向性形成部１１０３により出力された音声信号ｘ１（ｔ）を、Ｎ個のバンドの周波数帯域の信号ｘ１ｎ（ｔ）に分割する（Ｓ３５０１）。

帯域レベル算出部３２０２−１は、各周波数帯域の信号ｘ１ｎ（ｔ）のレベルＬｘ１ｎ（ｔ）を算出する（Ｓ３５０２）。

帯域ゲイン設定部３２０２−２は、帯域レベルＬｘ１ｎ（ｔ）、及び発話者遠近判定部１０５により出力された遠近判定結果情報に基づいて、帯域信号ｘ１ｎ（ｔ）に乗ずる帯域ゲインαｎ（ｔ）を設定する（Ｓ３５０３）。

図２９は、帯域ゲイン設定部３２０２−２の動作の詳細を説明したフローチャートである。

帯域ゲイン設定部３２０２−２は、遠近判定結果情報が「１」である場合には（Ｓ３６０６１、ＹＥＳ）、発話者がユーザから近いところにおり、当該ユーザの会話相手である可能性が高い。このため、帯域ゲイン設定部３２０２−２は、帯域レベルＬｘ１ｎ（ｔ）を用いて、図２６に示すような当該ユーザの聴覚特性を補償する帯域ゲインαｎ（ｔ）を設定する（Ｓ３６０２）。

また、遠近判定結果情報が「０」或いは「−１」である場合には（Ｓ３６０１、ＮＯ）、発話者がユーザから近いところにおらず当該ユーザの会話相手である可能性が低い。このため、帯域ゲイン設定部３２０２−２は、帯域信号ｘ１ｎ（ｔ）に対する帯域ゲインαｎ（ｔ）として「１．０」を設定する（Ｓ３６０３）。

帯域ゲイン制御部３２０２−３は、帯域ゲインαｎ（ｔ）を、帯域信号ｘ１ｎ（ｔ）に乗じ、帯域信号制御部３２０２による制御後の帯域信号ｙｎ（ｔ）を算出する（Ｓ３５０４）。

帯域合成部３２０３は、帯域分割部３２０１に対応する方法により各帯域信号ｙｎ（ｔ）を合成し、帯域合成後の信号ｙ（ｔ）を算出する（Ｓ３５０５）。

スピーカ３１０２は、ゲインが調整された帯域合成後の信号ｙ（ｔ）を出力する（Ｓ３４０２）。

以上のように、第６の実施形態の音響処理装置１５では、第２の実施形態の音響処理装置１１の内部構成のゲイン導出部１０６とレベル制御部１０７とを非線形増幅部３１０１に統合した。また、第６実施形態の音響処理装置１５では、音声出力部にスピーカ３１０２なる構成要素を更に有することにより、会話相手の音声のみを増幅することができ、ユーザの会話相手のみの音声が明瞭に聞き取ることができる。

以上、添付図面を参照しながら各種の実施形態について説明したが、本発明の音響処理装置はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。例えば、上記した各実施形態１〜６は、適宜、組み合わせて構成することにより、より精度の高い発話者のレベル制御が可能となる。

上記した瞬時ゲインα’（ｔ）の値は、「２．０」又は「０．５」と具体的に記載されたものであるが、この数字に限定されない。例えば、本発明の音響処理装置は、補聴器として用いるユーザの難聴度合い等に応じて、当該瞬時ゲインα’（ｔ）の値は個別に予め設定することも可能である。

上記した第５の実施形態の会話相手判定部は、発話者遠近判定部にて発話者がユーザの近くにいると判定された場合、その発話者の音声と、自発話音声判定部で判定された自発話音声とを用いて、発話者がユーザの会話相手か否かを判定する。

この他、会話相手判定部１００１は、発話者遠近判定部１０５にて発話者がユーザの近くにいると判定された場合、発話者と自発話とのそれぞれの音声を認識する。このとき、会話相手判定部１００１は、この認識された音声の中に所定のキーワードを抽出し、同じ分野のキーワードであると判定した場合には、当該発話者はユーザの会話相手と判定するようにしても構わない。

所定のキーワードとは、例えば、「旅行」の話題であれば、「飛行機」、「車」、「北海道」、「九州」等のキーワードで、同一の分野に関連する。

また、会話相手判定部１００１は、ユーザの近くにいる発話者について特定話者認識を行う。この認識された結果の人物が、予め事前登録されている特定の話者又は当該ユーザの周囲に一人しか話者がいない場合には、当該人物はユーザの会話相手と判定する。

また、図１６に示した第３の実施形態では、第１のレベル算出の処理が音声区間検出の処理の後に行われるように示されている。しかし、第１のレベル算出の処理は、音声区間検出の処理の前に行われても構わない。

また、図１９に示した第４の実施形態では、第１のレベル算出の処理が音声区間検出及び自発話音声判定の各処理の後で、且つ、遠近判定閾値設定の処理の前に行われるように示されている。

なお、音声区間検出の処理、自発話音声判定の処理及び遠近判定閾値設定の処理の順番が満たされれば、第１のレベル算出の処理は、音声検出の処理若しくは自発話音声判定の処理の前、又は遠近判定閾値設定の後に行われても構わない。

同様に、第２のレベル算出の処理が遠近判定閾値設定の処理の前に行われるように示されている。しかし、第２のレベル算出の処理は、遠近判定閾値設定の後に行われても構わない。

また、図２３に示した第５の実施形態では、第１のレベル算出の処理が音声区間検出及び自発話音声判定の各処理の後に行われるように示されている。しかし、音声区間検出の処理の後に自発話音声判定の処理が行われる条件が満たされれば、第１のレベル算出の処理は、音声区間検出の処理又は自発話音声判定の処理の前に行われても構わない。

上記したマイクロホンアレイ１１０２を除く各処理部は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等から構成されるコンピュータシステムとして実装される。各処理部には、第１及び第２の指向性形成部１１０３、１１０４、第１及び第２のレベル算出部１０３、１０４、発話者遠近判定部１０５、ゲイン導出部１０６、レベル制御部１０７、音声区間検出部５０１、自発話音声判定部８０１、遠近判定閾値設定部８０２、会話相手判定部１００１等が含まれる。

このＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

上記した各処理部を構成する構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されても構わない。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。

ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

上記した各処理部を構成する構成要素の一部又は全部は、音響処理装置１０〜６０のいずれかの音響処理装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。

当該ＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。また、ＩＣカード又はモジュールは、上記した超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカード又はモジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

また、本発明の実施形態は、上記した音響処理装置が行う音響処理方法であるとしてもよい。また、本発明は、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本発明は、コンピュータプログラム又はデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリ等に記録したものとしてもよい。

また、本発明は、これらの記録媒体に記録されているデジタル信号であるとしてもよい。また、本発明は、コンピュータプログラム又はデジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、当該メモリは、上記したコンピュータプログラムを記憶しており、当該マイクロプロセッサは、当該コンピュータプログラムに従って動作してもよい。

また、本発明は、プログラム又はデジタル信号を記録媒体に記録して移送することにより、又は、プログラム又はデジタル信号を、ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本出願は、２００９年１０月２１日出願の日本特許出願（特願２００９−２４２６０２）に基づくものであり、その内容はここに参照として取り込まれる。

本発明にかかる音響処理装置は、２つの指向性マイクロホンのレベル差に応じた発話者遠近判定部を有し、近くにいる会話相手のみの声を聞きたい補聴器等として有用である。

１０音響処理装置
２０音響処理装置
３０音響処理装置
４０音響処理装置
５０音響処理装置
１１０１指向性収音部
１１０２マイクロホンアレイ
１１０３第１の指向性形成部
１１０４第２の指向性形成部
１０３第１のレベル算出部
１０４第２のレベル算出部
１０５発話者遠近判定部
１０６ゲイン導出部
１０７レベル制御部
１２０１−１無指向性マイクロホン
１２０１−２無指向性マイクロホン
１２０２遅延器
１２０３演算器
１２０４ＥＱ
５０１音声区間検出部
６０１第３のレベル算出部
６０２推定騒音レベル算出部
６０３レベル比較部
６０４音声区間判定部
８０１自発話音声判定部
８０２遠近判定閾値設定部
９０１適応フィルタ
９０２遅延器
９０３差信号算出部
９０４判定閾値設定部
１００１会話相手判定部
３１０１非線形増幅部
３２０１帯域分割部
３２０２帯域信号制御部
３２０２−１帯域レベル算出部
３２０２−２帯域ゲイン設定部
３２０２−３帯域ゲイン制御部
３２０３帯域合成部

Claims

複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の主軸を形成した第１の指向性信号を出力する第１の指向性形成部と、
前記複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の死角を形成した第２の指向性信号を出力する第２の指向性形成部と、
前記第１の指向性形成部により出力された第１の指向性信号のレベルを算出する第１のレベル算出部と、
前記第２の指向性形成部により出力された第２の指向性信号のレベルを算出する第２のレベル算出部と、
前記第１及び第２のレベル算出部により算出された前記第１の指向性信号のレベル及び前記第２の指向性信号のレベルに基づいて、前記発話者との遠近を判定する発話者遠近判定部と、
前記発話者遠近判定部の結果に応じて、前記第１の指向性信号に与えるゲインを導出するゲイン導出部と、
前記ゲイン導出部により導出されたゲインを用いて、前記第１の指向性信号のレベルを制御するレベル制御部と、
を有することを特徴とする音響処理装置。
請求項１に記載の音響処理装置であって、
前記第１の指向性信号の音声区間を検出する音声区間検出部と、を更に有し、
前記発話者遠近判定部は、前記音声区間検出部により検出された音声区間における音声信号に基づいて、前記発話者の遠近を判定することを特徴とする音響処理装置。
請求項１又は２に記載の音響処理装置であって、
前記音声区間検出部にて検出された音声区間における前記第１の指向性信号のレベルに基づいて、自発話音声か否かを判定する自発話音声判定部と、
前記自発話音声判定部により判定された自発話音声に含まれる残響音を推定し、この推定された残響音に基づいて、前記発話者遠近判定部が前記発話者との遠近を判定する際に用いられる判定閾値を設定する遠近判定閾値設定部と、を更に有し、
前記発話者遠近判定部は、前記遠近判定閾値設定部により設定された前記判定閾値を用いて前記発話者との遠近を判定することを特徴とする音響処理装置。
請求項３に記載の音響処理装置であって、
前記発話者遠近判定部の結果と、前記自発話音声判定部の結果とに基づいて、前記発話者遠近判定部により判定された前記発話者音声が会話相手により発声されたか否かを判定する会話相手判定部と、を更に有し、
前記ゲイン導出部は、前記会話相手判定部の結果に応じて、前記第１の指向性信号に与えるゲインを導出することを特徴とする音響処理装置。
複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の主軸を形成した第１の指向性信号を出力するステップと、
前記複数の無指向性マイクロホンによる各々の出力信号を用いて、発話者方向に指向性の死角を形成した第２の指向性信号を出力するステップと、
前記出力された第１の指向性信号のレベルを算出するステップと、
前記出力された第２の指向性信号のレベルを算出するステップと、
前記算出された前記第１の指向性信号のレベル及び前記第２の指向性信号のレベルに基づいて、前記発話者との遠近を判定するステップと、
前記判定された前記発話者との遠近に応じて、前記第１の指向性信号に与えるゲインを導出するステップと、
前記導出されたゲインを用いて、前記第１の指向性信号のレベルを制御するステップと、
を有することを特徴とする音響処理方法。
請求項１〜請求項４のいずれか一項に記載の音響処理装置を備えることを特徴とする補聴器。