WO2011158506A1

WO2011158506A1 - 補聴器、信号処理方法及びプログラム

Info

Publication number: WO2011158506A1
Application number: PCT/JP2011/003426
Authority: WO
Inventors: 麻紀山田; 遠藤　充; 考一郎水島
Original assignee: パナソニック株式会社
Priority date: 2010-06-18
Filing date: 2011-06-16
Publication date: 2011-12-22
Also published as: JPWO2011158506A1; EP2536170A1; EP2536170B1; JP5740572B2; US20120128187A1; US9124984B2; CN102474697B; CN102474697A; EP2536170A4

Abstract

　補聴器ユーザがＴＶを見たいときにはＴＶの音を、人と話をしたいときにはその人の声を聞きやすくする補聴器、信号処理方法及びプログラムを提供とすること。補聴器（１００）は、検出された音源方向情報と自発話検出結果とＴＶ音検出結果を用いて装着者以外の話者の発話を検出する他者発話検出部（１５０）と、自発話検出結果とＴＶ音検出結果と他話者発話検出結果と、音源方向情報を用いて音源毎の頻度を計算する音源別頻度計算部（１６０）とを備える。シーン判別部（１７０）は、音源方向情報と前記音源毎頻度とを用いて「会話シーン」、「ＴＶ視聴シーン」、「ながらＴＶ視聴シーン」を判別し、出力音制御部（１８０）は、判定されたシーンに応じて補聴器（１００）の聞こえを制御する。

Description

補聴器、信号処理方法及びプログラム

　本発明は、補聴器ユーザにとって聞きたい音を聞きやすくする補聴器、信号処理方法及びプログラムに関する。

　一般に聴力が低下すると、小さい音が聞こえづらくなる。補聴器は、このような小さい音を増幅して、聴力が低下した人でも聞き取りやすくする装置である。しかし、補聴器は、聞きたい音だけでなく騒音も大きくなってしまうため、うるさい環境下で会話相手の声やＴＶの音を聞き取ることは困難である。

　うるさい環境下で、特定の音だけを聞きやすくする方法としては、聞きたい音源のある方向にマイクの指向性を向ける方法がある。補聴器は、マイクの指向性を聞きたい音の方向に向けることにより、周囲の騒音が抑圧されてＳＮＲ（Signal to Noise ratio）が向上するため、その方向にある特定の音だけを聞きやすくすることができる。

　特許文献１には、２対以上の指向性を有するマイクロホンにより音源方向を検出し、検出した方向に指向性を切り替えるマイクロホンが記載されている。特許文献１記載のマイクロホンは、音源方向に指向性を向けることで、音源が一つの場合にはその音源の音を聞きやすくすることができる。しかし、複数の方向に音源がある場合は、どの方向に聞きたい音源があるかは補聴器ユーザが指定する必要がある。

　特許文献２には、補聴器ユーザが操作により聞きたい音の方向を指定するのではなく、自動的に指向性を制御する補聴器が記載されている。特許文献２記載の補聴器は、補聴器ユーザの視線を検出してその視線方向に指向性を向ける。

　一方、うるさい環境下で特定の音だけを聞きやすくする別の方法として、ＴＶの音を直接補聴器に取り込み、補聴器のスピーカから出力するという方法がある。この方法は、ユーザの操作により、ブルートゥースワイヤレス通信を用いて、ＴＶ、オーディオ、携帯電話の音を補聴器に取り込み、取り込んだＴＶなどの音を直接補聴器で聴くことができる。このような方法を用いた商品としては、例えば、SIEMENSの商品テックマルチナビゲーターとして、http://www.siemens-hi.co.jp/catalogue/tek.php#がある。しかし、この方法は、特許文献２と同様に、補聴器ユーザがＴＶなどを見るときに手動で切り替え操作をする必要があった。

実願昭６２－１５０４６４号公報特開平９－３２７０９７号公報特開昭５８－８８９９６号公報

　しかしながら、日常の家庭内には、複数の音源があり、どの音を補聴器ユーザが聴きたいかはその時々によって変化する。特に、家庭内で日常的に存在する音源として、ＴＶがある。ＴＶは、見ていないのに電源がＯＮで音が出ていることも多いため、会話とＴＶ音という複数の音源が存在するケースは多い。

　このように会話とＴＶ音という複数の音源が同時に存在するようなケースでは、家族と会話するときには会話相手の声を、ＴＶを見たいときにはＴＶの音を聞きやすことが望まれる。しかし、上記従来の技術では、補聴器ユーザがどの音を聞きたいかを手動で操作する必要があり、わずらわしいという課題があった。

　また、特許文献２記載の装置では、視線検出によって自動的に視線方向に指向性を制御する。ところが、家族でＴＶを見ながらＴＶの内容について会話をするような場合には、視線方向であるＴＶに指向性が向けられるため、家族の声が聞きづらくなり会話ができ難くなるという課題を有していた。

　本発明の目的は、補聴器ユーザがＴＶを見たいときにはＴＶの音を、人と話をしたいときにはその人の声を聞きやすくする補聴器、信号処理方法及びプログラムを提供とすることである。

　本発明の補聴器は、マイクロホンアレイを設置した両耳に装着する補聴器であって、前記マイクロホンアレイから入力された音信号から音源方向を検出する音源方向推定部と、前記音信号から補聴器装着者の声を検出する自発話検出部と、前記音信号からＴＶ音を検出するＴＶ音検出部と、前記検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果に基づいて装着者以外の話者の発話を検出する他話者発話検出部と、前記自発話検出結果と前記ＴＶ音検出結果と前記他話者発話検出結果と、前記音源方向情報に基づいて音源毎の頻度を計算する音源毎頻度計算部と、前記音源方向情報と前記音源毎頻度とを用いてシーンを判別するシーン判別部と、前記判定されたシーンに応じて補聴器の聞こえを制御する出力音制御部と、を備える構成を採る。

　本発明の信号処理方法は、マイクロホンアレイを設置した両耳に装着する補聴器の信号処理方法であって、前記マイクロホンアレイから入力された音信号から音源方向を検出するステップと、前記音信号から補聴器装着者の声を検出するステップと、前記音信号からＴＶ音を検出するステップと、前記検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果に基づいて装着者以外の話者の発話を検出するステップと、前記自発話検出結果と前記ＴＶ音検出結果と前記他話者発話検出結果と、前記音源方向情報を用いて音源毎の頻度を計算するステップと、前記音源方向情報と前記音源毎頻度とに基づいてシーンを判別するステップと、前記判定したシーンに応じて補聴器の聞こえを制御するステップとを有する。

　また他の観点から、本発明は、上記信号処理方法の各ステップをコンピュータに実行させるためのプログラムである。

　本発明は、ＴＶと会話という複数の音源があるときに、補聴器ユーザがシーンに応じて聞きたい音を聞きやすくすることができる。例えば、補聴器ユーザがＴＶを見たいときにはＴＶの音が、人と話をしたいときにはその人の声が聞きやすくなり、しかも、ＴＶを見ながら会話をするというシチュエーションでは、どちらか一方ではなく両方の音が聞こえるようになる。

本発明の実施の形態に係る補聴器の構成を示す図上記実施の形態に係る補聴器の要部構成を示すブロック図上記実施の形態に係る補聴器を耳に装着した補聴器ユーザと、ＴＶ、会話をしている人の位置関係を示す図上記実施の形態に係る補聴器の処理の流れを表すフロー図上記実施の形態に係る補聴器の音源方向推定実験結果を示す図上記実施の形態に係る補聴器のＴＶ音検出実験結果を示す図上記実施の形態に係る補聴器のフレーム毎の音源方向推定結果に対して、自発話、ＴＶ単独音、他者発話の判別を行った結果をプロットした図上記実施の形態に係る補聴器の「会話シーン」での音源別頻度を示す図上記実施の形態に係る補聴器の「ＴＶシーン」での音源別頻度を示す図上記実施の形態に係る補聴器の「ながら視聴シーン」での音源別頻度を示す図上記実施の形態に係る補聴器のシーンの特徴を現した表を示す図上記実施の形態に係る補聴器の加点方式によるシーン判別の例を表す図上記実施の形態に係る補聴器のルールによるシーン判別の例を表す図上記実施の形態に係るＴＶの音量を制御する補聴器の構成を示す図

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　（実施の形態）
　図１は、本発明の一実施の形態に係る補聴器の構成を示す図である。本実施の形態は、補聴器本体とイヤホンとが分離した形態のリモコン型補聴器（以下、「補聴器」と略記する）に適用した例である。

　図１に示すように、補聴器１００は、外耳にかける補聴器筐体１０１と、補聴器筐体１０１に有線で接続されるリモコン装置１０５とを備える。

　補聴器筐体１０１は、左耳用と右耳用の同じ構成の２つの筐体からなる。左右の補聴器筐体１０１の上部には、周囲の音を拾うマイクがそれぞれ前後に並べて設置されており、左右２個ずつあわせて４個からなるマイクロホンアレイ１０２を構成している。

　補聴器筐体１０１には、補聴した音又はＴＶ音を出力するスピーカ１０３が内蔵され、スピーカ１０３は、内耳にはめるイヤーチップ１０４にチューブでつながっている。補聴器ユーザは、スピーカ１０３から出力される音をイヤーチップ１０４から聞くことができる。

　リモコン装置１０５は、補聴器１００の制御及び演算を行うＣＰＵ１０６と、オーディオ送信機１０８から送られてくる電波を受信する送受信部１０７とを備える。

　オーディオ送信機１０８は、ＴＶ１０９に接続されており、ＴＶの音信号をブルートゥースなどの無線通信により送信する。

　送受信部１０７は、オーディオ送信機１０８から送られてくる電波を受信し、受信したＴＶ音をＣＰＵ１０６に送る。

　また、マイクロホンアレイ１０２により収音された音は、リモコン装置１０５内のＣＰＵ１０６に送られてくる。

　ＣＰＵ１０６は、マイクロホンアレイ１０２から入力された音に対し、補聴器ユーザが聞きやすいように指向性制御、あるいは、聴力の低下した周波数帯域のゲインを増幅するなどの補聴処理を行い、スピーカ１０３から出力する。また、ＣＰＵ１０６は、状況に応じて、受信したＴＶ音をスピーカ１０３から出力する。ＣＰＵ１０６での信号処理方法については、図４乃至図１３により詳述する。

　通常、リモコン装置１０５は、補聴器ユーザの胸ポケット等に置かれ、補聴器筐体１０１内部のマイクロホンアレイ１０２が収音した音を加工して、イヤーチップ１０４を装着したユーザに聞かせる。

　補聴器１００は、ＴＶ１０９につながれたオーディオ送信機１０８から送信された電波信号を、補聴器１００のリモコン装置１０５に内蔵された送受信部１０７で受信する。補聴器ユーザは、補聴器１００が取得する周囲の実際の音とＴＶ１０９の音とを、切り替えて聞くことができる。補聴器１００は、補聴器ユーザの操作により切り替えができるだけでなく、自動的に状況を判断し、補聴器ユーザにとって聞きたい音を最適に聞かせることができる。

　本実施の形態では、補聴器筐体１０１とリモコン装置１０５は有線で結合されているが、無線であってもよい。また、リモコン装置１０５内のＣＰＵ１０６で全ての補聴処理を行うのではなく、左右の補聴器筐体１０１に、一部の信号処理を行うＤＳＰ（Digital Signal Processor）を設けるようにしてもよい。

　図２は、本実施の形態に係る補聴器１００の要部構成を示すブロック図である。

　図２に示すように、補聴器１００は、マイクロホンアレイ１０２、Ａ／Ｄ（Analog to Digital）変換部１１０、音源方向推定部１２０、自発話検出部１３０、ＴＶ音検出部１４０、他者発話検出部１５０、音源別頻度計算部１６０、シーン判別部１７０、及び出力音制御部１８０を備える。

　ＴＶ音検出部１４０は、マイク入力短時間パワー算出部１４１、ＴＶ音短時間パワー算出部１４２、及びＴＶ単独区間検出部１４３から構成される。

　マイクロホンアレイ１０２は、複数のマイクを配置した収音装置である。補聴器１００は、マイクロホンアレイ１０２を設置した両耳に装着する。

　Ａ／Ｄ変換部１１０は、マイクロホンアレイ１０２から入力された音信号をデジタル信号に変換する。

　音源方向推定部１２０は、Ａ／Ｄ変換された音信号から音源方向を検出する。

　自発話検出部１３０は、Ａ／Ｄ変換された音信号から補聴器ユーザの声を検出する。

　ＴＶ音検出部１４０は、Ａ／Ｄ変換された音信号からＴＶ音を検出する。ここで、本実施の形態では、家庭内で日常的に存在する音源として、ＴＶを例に採り説明している。ＴＶ音検出部１４０が検出する信号は、ＴＶ音は勿論のこと、ＴＶ音以外の、各種ＡＶ機器の音信号であってもよい。各種ＡＶ機器は、例えば、ＴＶに接続されたＢＤ（Blu-ray Disc）／ＤＶＤ（Digital Versatile Disk）装置、あるいはブロードバンドにより送信されるストリーミングデータ再生装置である。以下、本明細書においてＴＶ音とは、ＴＶ音を含む各種ＡＶ機器から受信した音を総称していう。

　マイク入力短時間パワー算出部１４１は、Ａ／Ｄ変換部１１０で変換された音信号の短時間パワーを計算する。

　ＴＶ音短時間パワー算出部１４２は、受信したＴＶ音の短時間パワーを計算する。

　ＴＶ単独区間検出部１４３は、受信したＴＶ音とＡ／Ｄ変換部１１０で変換された音信号とを利用してＴＶ単独の区間を決定する。詳細には、ＴＶ単独区間検出部１４３は、ＴＶ音短時間パワーとマイク入力短時間パワーとを比較し、その差が所定範囲となる区間をＴＶ単独区間として検出する。

　他者発話検出部１５０は、検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果を用いて装着者以外の話者の発話を検出する。

　音源別頻度計算部１６０は、自発話検出結果とＴＶ音検出結果と他話者発話検出結果と、音源方向情報を用いて音源毎の頻度を計算する。

　シーン判別部１７０は、音源方向情報と前記音源毎頻度とを用いてシーンを判別する。シーン分類には、装着者が会話をしている「会話シーン」、装着者がＴＶを視聴している「ＴＶ視聴シーン」、装着者が会話もＴＶ視聴も同時に行う「ながらＴＶ視聴シーン」が含まれる。

　出力音制御部１８０は、シーン判別部１７０により判定されたシーンに応じて、マイクから入力された音をユーザにとって聞きやすいように加工し、補聴器１００の聞こえを制御する。出力音制御部１８０は、指向性制御により補聴器１００の聞こえを制御する。例えば、「会話シーン」では、出力音制御部１８０が正面方向に指向性のビームを向ける。また、「ＴＶ視聴シーン」では、出力音制御部１８０が正面方向に指向性のビームを向ける。さらに、「ＴＶ視聴シーン」では、出力音制御部１８０がＴＶ音受信部で受信したＴＶ音を出力する。また、「ながらＴＶ視聴シーン」では、出力音制御部１８０が広指向性の制御をする。この場合、「ながらＴＶ視聴シーン」では、出力音制御部１８０が片耳にＴＶ音受信部で受信したＴＶ音を出力し、もう片耳に広指向性とした音を出力する。

　以下、上述のように構成された補聴器１００の動作について説明する。

　図３は、本補聴器１００の使用例を示す。

　図３は、補聴器を耳に装着した補聴器ユーザと、ＴＶ、会話をしている人の位置関係を示す図である。

　図３（ａ）において、ＴＶは付いているが補聴器ユーザは、特にＴＶを見ておらず、家族と話をしている。このシーンを、「会話シーン」と呼ぶことにする。補聴器ユーザの右側にあるＴＶのスピーカからＴＶ音が流れており、補聴器ユーザは、正面及び左斜め前にいる人と会話をしている。この「会話シーン」では、ＴＶ音が会話の邪魔になり会話をしづらいため、ＴＶ音を抑圧し、前方に指向性を向ける制御を行うことが望ましい。

　図３（ｂ）において、図３（ａ）と人及びＴＶの位置は同じであるが、補聴器ユーザは、ＴＶを見ており、その左方向で家族が話をしている。このシーンを、「ＴＶシーン」と呼ぶことにする。この「ＴＶシーン」では、家族の会話が邪魔になりＴＶ音をそのまま聞くのは聞き取りづらいため、補聴器ユーザが手動でＴＶ音を直接補聴器から出力するように操作して切り替える必要がある。この「ＴＶシーン」では、これを自動的に切り替える、もしくはＴＶのある前方に指向性を向けることが望ましい。

　図３（ｃ）において、図３（ａ）（ｂ）と人及びＴＶの位置は同じであるが、補聴器ユーザは、ＴＶを見ながら横にいる家族とＴＶの内容について話をしている。このシーンを、「ながら視聴シーン」と呼ぶことにする。この「ながら視聴シーン」では、ＴＶ音と会話の声のどちらか一方の音を聞かせるのではなく、どちらの音も聞こえるようにする必要がある。通常、このようなＴＶ内容に関する会話は、ＴＶの音が途切れたときに行われることが多いため、無指向性又は広指向性の音を聞かせることで、ＴＶの音も会話の声も聞くことができるようになる。

　図４は、補聴器１００の処理の流れを表すフローチャートである。本フローは、ＣＰＵ１０６により所定タイミング毎に実行される。

　マイクロホンアレイ１０２で収音された音は、Ａ／Ｄ変換部１１０でデジタル信号に変換され、ＣＰＵ１０６に出力される。ＣＰＵ１０６は、短時間単位であるフレーム（＝１秒）ごとに、ステップＳ１～ステップＳ７の処理を実行する。

　[音源方向推定]
　ステップＳ１において、音源方向推定部１２０は、Ａ／Ｄ変換された音信号から、各マイクに到来する音の到来時間の差を利用して信号処理することにより、音源方向を推定し出力する。音源方向推定部１２０は、まず最初に、サンプリング周波数４８ｋＨｚでサンプリングした音信号について、５１２ポイントごとに音源のある方向を２２．５°の分解能で求める。次に、音源方向推定部１２０は、１秒間のフレーム内で最も高い頻度で表れる方向をそのフレームの推定方向として出力する。音源方向推定部１２０は、１秒ごとに音源方向推定結果を得ることができる。

　次は、図３（ｃ）の補聴器ユーザが横にいる人と会話をしながらＴＶを見ているシーンについて、実際に両耳に装着した補聴器マイクロホンアレイ１０２にて周囲の音を収音し、音源方向推定実験を行った結果について説明する。

　図５は、このときの音源方向推定部１２０にて出力された結果を示す。

　図５は、音源方向推定実験結果を示す図であり、横軸は時間（秒）、縦軸は方向を表す。方向は補聴器ユーザの正面を０°とし、左方向をマイナス、右方向をプラスとして、－１８０°から＋１８０°まで２２．５°刻みに出力される。

　図５に示すように、音源方向推定実験結果は、補聴器ユーザの正面にあるＴＶのスピーカから出力される音、補聴器ユーザの左手にいる会話相手の声が入り混じっている上に、推定エラーを含む。このため、この情報だけでは、どの方向にどのような音源があるのかはわからない。

　[自発話検出]
　ステップＳ２において、自発話検出部１３０は、Ａ／Ｄ変換された音信号から、フレームｔにおける音信号が自発話区間であるか否かを判定し、出力する。自発話検出の方法としては、公知の技術として、例えば特許文献３のように骨伝導による音声振動を検出することにより自発話を検出する方法がある。自発話検出部１３０は、このような方法を用いて、フレーム毎に振動成分が所定の閾値以上となる区間を自発話発声区間とする。

　[ＴＶ音検出]
　ステップＳ３において、ＴＶ音検出部１４０は、Ａ／Ｄ変換された音信号と、送受信部１０７（図１）で受信した外部ＴＶ音信号を利用して、フレームｔにおいて周囲の音環境がＴＶの音だけが鳴っている状態か否かを判断し出力する。

　ＴＶ音検出部１４０は、マイク入力短時間パワー算出部１４１、ＴＶ音短時間パワー算出部１４２、及び、ＴＶ単独区間検出部１４３とから構成される。マイク入力短時間パワー算出部１４１は、マイクロホンアレイ１０２で収音された音信号の短時間のパワーを計算する。また、ＴＶ音短時間パワー算出部１４２は、受信したＴＶ音の短時間のパワーを計算する。また、ＴＶ単独区間検出部１４３は、これら２つの出力を比較し、その差が一定の範囲内となる区間をＴＶ単独区間として検出する。

　ＴＶ音検出方法について説明する。

　通常、ＴＶのスピーカから出力される音は、補聴器のマイクまで空間を伝わる間に、遅延が生ずると共に反射音などが混入するため、元々のＴＶ音とは同じにはならない。電波で送信されるＴＶ音にも遅延が生じるため、マイクで収音された音と元々のＴＶ音との相関をとる場合は、未知の遅延を考慮しなくてはならず計算量が増えてしまうという問題が生ずる。

　そこで、本実施の形態では、遅延を無視できる１秒程度の短時間パワーを用いてマイクで収音された音と元々のＴＶ音とを比較する。これにより、本実施の形態では、ＴＶとの距離や部屋の環境、無線通信の状況に依存せず少ない計算量でＴＶ音検出が可能となる。

　マイク入力短時間パワー算出部１４１では、マイクロホンアレイ１０２のうちの少なくとも１つの無指向性マイクロホンの音信号について、次式（１）によりフレームｔの１秒間の区間におけるパワーＰｍ（ｔ）を計算する。式（１）では、Ｘｉは音信号を表し、Ｎは１秒間のサンプル数を表す。サンプリング周波数４８ｋＨｚのときは、Ｎ＝４８０００である。

　同様に、ＴＶ音短時間パワー算出部１４２では、送受信部１０７にて受信した外部ＴＶ音信号について、同様に次式（２）により１秒間の区間におけるパワーＰｔ（ｔ）を計算する。ｙｉは、ＴＶ音信号を表す。

　そして、フレームｔにおけるマイク入力音とＴＶ音のレベル差Ｌｄ（ｔ）は、次式（３）により求める。

　　Ｌｄ（ｔ）＝ｌｏｇ（Ｐｍ）－ｌｏｇ（Ｐｔ）　…（３）
　次は、図３（ｃ）の補聴器ユーザが横にいる人と会話をしながらＴＶを見ているシーンについて、ＴＶ音検出実験を行った結果について説明する。具体的には、図３（ｃ）のシーンにおいて、実際に両耳に装着した補聴器マイクロホンアレイ１０２にて周囲の音を収音するとともに、ＴＶのソース音も同時に記録し、ＴＶ音検出実験を行った。

　図６は、ＴＶ音検出実験結果を示す図であり、横軸が時間（秒）、縦軸がパワーレベル差（ｄＢ）を表す。

　図６は、補聴器マイクロホンアレイ１０２で収音された音とＴＶ音との１秒ごとのパワー差Ｌｄを示している。図６中の四角で囲った網掛け区間は、聴取により人がＴＶ単独の区間とラベル付けた区間を示している。ＴＶ音以外の非定常な音、すなわち会話相手の声や自分の声がしている区間おいて、パワーレベル差Ｌｄ（ｔ）は、まちまちである。しかし、ＴＶ音以外の音源がないＴＶ単独区間おいて、このパワーレベル差は、－２０ｄＢ付近の値になっていることがわかる。このことから、ＴＶ単独区間は、１秒ごとのパワーレベル差を特徴量とすることで、ＴＶ音のみが鳴っている区間を識別できることがわかる。そこで、ＴＶ音検出部１４０は、パワーレベル差Ｌｄ（ｔ）が－２０±θｄＢの値にある区間をＴＶ単独区間として検出する。

　この－２０ｄＢという値は、環境によって異なるため、長時間のパワーレベル差を観測することにより自動的に学習することが望ましい。なお、ＴＶ音検出部１４０は、ファンの音など定常騒音が周囲にあったとしても、定常騒音はパワーの時間変化がないため、パワーレベル差は一定値付近を示すことになり、ＴＶ音単独区間検出は可能である。

　ＴＶ音には、人の声も含まれるため、騒音や音楽ではない、人の声らしさを示す音声性だけでは生の人の声と区別ができない。しかし、本実施の形態では、このようにＴＶソース音を利用して短時間パワーの比較をすることにより、ＴＶとの距離や部屋の環境に依存せずに少ない計算量でＴＶ音のみの区間を検出することができる。

　[他者発話検出]
　ステップＳ４において、他者発話検出部１５０は、音源方向推定部１２０で出力された方向ごとの出力結果から、自発話検出部１３０で検出された自発話区間、ＴＶ単独区間検出部１４３で検出された区間を除く。さらに、他者発話検出部１５０は、自発話区間及びＴＶ単独区間を除いた区間から、少なくとも１つの無指向マイクの音声帯域パワーが所定の閾値以上となる区間を、他者発話区間として出力する。他者発話区間は、音声帯域のパワーが大きいところに限定することにより、人の声以外の騒音を除去することができる。なお、ここでは、音声性の検出を音声帯域パワーによるものとしたが、他の方法を用いてもよい。

　図７は、図５に示したフレーム毎の音源方向推定結果に対して、自発話、ＴＶ単独音、他者発話の判別を行った結果をプロットした図である。

　図７に示すように、自発話は主に０°付近に検出されており、ＴＶ音は補聴器ユーザの右２２．５°～左２２．５°に検出されていることが多いことなどがわかる。ＴＶ音の大きさ、スピーカの配置、補聴器ユーザとＴＶの位置関係にもよるが、この実験では、左右両側にステレオスピーカがついている４２インチのＴＶを補聴器ユーザが、１～２ｍ離れて見ているときの音を収音したものである。本実験は、実際の家庭内の環境を模擬している。

　通常、正面にいる話者及び補聴器ユーザの口は、両耳のマイクから等距離のところにあるため、音源方向推定結果は０°方向に検出される。

　本実施の形態では、自発話検出と組み合わせることにより、正面方向の音が、自発話であるか他者発話であるかを区別することが可能となる。さらに、本実施の形態では、ＴＶ音検出と組み合わせることにより、正面に自発話以外の音声があった場合、それがＴＶの中の人の声なのか、実際の人の生の声なのかを区別することができる。

　[音源毎頻度計算]
　ステップＳ５において、音源別頻度計算部１６０は、自発話検出部１３０、ＴＶ単独区間検出部１４３、他者発話検出部１５０の出力結果を用いて、それぞれの音源について、長時間の頻度を計算し出力する。

　図８乃至図１０は、図３（ａ）（ｂ）（ｃ）のそれぞれのシーンについて、実際に両耳に装着した補聴器マイクアレイにて収音した周囲音と、同時に記録したＴＶのソース音とを用いて、自発話検出、ＴＶ単独区間検出、他者発話検出を行い、音源別に１０分間の出現頻度を求めた図である。

　図８は、「会話シーン」での音源別頻度グラフ、図９は、「ＴＶシーン」での音源別頻度グラフ、図１０は、「ながら視聴シーン」での音源別頻度グラフである。

　図８乃至図１０に示すように、「会話シーン」、「ＴＶシーン」、「ながら視聴シーン」のそれぞれの特徴は、以下に示すような特徴が見られる。

　[シーンの特徴]
　「会話シーン」では、補聴器ユーザ自身会話に参加しているため、正面方向に自発話が多く検出されると共に、補聴器ユーザは会話相手の方を見ながらしゃべるため、正面方向付近に会話相手の声も検出される。ただし、正面方向に自発話も検出されるため、相対的に会話相手の声は、それほど多くは検出されない。また、会話は、ＴＶの内容とは無関係に進められるため、ＴＶを見るために黙り込むことがなく、そのためＴＶ単独の区間は短いという特徴が見られる。

　「ＴＶシーン」では、補聴器ユーザは会話に参加しないため、自発話はほとんど検出されない。補聴器ユーザはＴＶの画面を見るためにＴＶの方を向いているため、ＴＶ音は正面近くの方向に検出される。他者発話は、正面以外に検出され、しかもその発話量は多い。「会話シーン」では、正面方向に自発話と他者発話があるため、相対的に他者発話が少なかったが、「ＴＶシーン」では自発話と異なる方向に話者がいるため、「会話シーン」よりも多く他者発話が検出される。また、横でなされる会話は、ＴＶの内容とは無関係に行われるため、ＴＶを見るために黙り込むことがなく、ＴＶを見ているシーンであってもＴＶ単独の区間は短いという特徴がある。

　「ながら視聴シーン」では、補聴器ユーザ自身会話に参加しているため、正面方向に自発話が多く検出される。補聴器ユーザは、ＴＶの画面を見るためにＴＶの方を向いているため、ＴＶ音は正面近くの方向に検出され、他者発話は正面以外の方向に検出される。しかも、ながら視聴の場合には、補聴器ユーザと他者は一緒に黙ってＴＶを見ている時間がある程度長くあり、ＴＶの音が途切れたところでその内容について会話するという傾向が見られる。そのため、ＴＶ単独の時間は、長くなるという特徴がある。

　図１１は、これらの特徴をまとめて示したものである。

　図１１は、シーンの特徴を現した表を示す図である。

　音源別頻度計算部１６０は、図１１の表に示す特徴を利用して、音環境からシーンの判別を行うことができる。表の網掛け部分は、特にそのシーンに特徴的なパラメータを現している。

　ここでは、シーンの特徴の傾向をつかむために、フレームｔから過去１０分間における頻度を求めたが、実際にはリアルな動きに追従するようもっと短い区間にしてもよい。

　[シーン判別]
　ステップＳ６において、シーン判別部１７０は、前記音源別頻度情報と各音源の方向情報を用いてシーンの判別を行う。

　ＴＶの電源が付いているかどうかは、ＴＶ音が受信されているかどうかで判断できる。ただし、シーン判別部１７０は、そのときに補聴器ユーザがＴＶを見ているのか、ＴＶを見ずに会話している状態なのか、ＴＶを見ながら家族と会話しているのかを、自動的に判断する必要がある。

　シーン判別は、例えば、次のような加点方式によるスコアリングで行う。

　図１２は、加点方式によるシーン判別の例を表す図である。

　図１２に示すように、Ｆｓはフレームｔから過去一定時間内の０°方向に検出された自発話の頻度、ＤｔはＴＶ単独音の頻度が最も高い方向をＴＶ方向、Ｆｔはそのときの頻度を示す。また、他者発話の頻度が最も高い方向を他者発話方向とＤｐとし、Ｆｐはそのときの頻度を示す。また、頻度判定の閾値は、θとする。図１２を一例とした場合、加点方式によるシーン判別のスコアは、以下の通りである。

　Ｆｓ≧θのとき、「会話シーン」スコアと「ながら視聴シーン」スコアに１０点ずつ加点。

　Ｆｓ＜θのとき、「ＴＶシーン」スコアに１０点加点。

　|Ｄｐ|≦２２．５°のとき「会話シーン」スコアに５点加点。

　|Ｄｐ|＞２２．５°のとき「ＴＶシーン」スコアと「ながら視聴シーン」スコアに５点ずつ加点。

　|Ｄｐ|＞２２．５°かつＦｐ≧θのとき、「ＴＶシーン」スコアにさらに５点加点。

　|Ｄｔ|＞２２．５°のとき「会話シーン」スコアに５点加点。

　|Ｄｔ|≦２２．５°のとき、「ＴＶシーン」スコアと「ながら視聴シーン」スコアに５点ずつ加点。

　|Ｄｔ|≦２２．５°かつＦｔ≧θのとき、「ながら視聴シーン」スコアにさらに５点加点。

　以上のようにして、「会話シーン」スコア、「ＴＶシーン」スコア、「ながら視聴シーン」スコアをそれぞれ求め、最も大きい値となり、かつスコアが所定の閾値λ以上であるシーンを判定結果とする。スコアがλに満たない場合は、どのシーンでもないと出力する。

　ここでは、シーンの特徴をよく現すパラメータについては大きな加点になるようなスコアリングとした。また、全ての特徴量が正しく検出されなくてもシーンを検出できるように、誤検出されても減点されることはないようにした。

　過去１０分間における頻度の閾値θ＝４０、スコアの閾値λ＝１５とするとき、
　図８のような音源別頻度分布が得られていれば、各シーンのスコアは、以下のようになる。
　　「会話シーン」スコア＝１０＋５＋５＝２０
　　「ＴＶシーン」スコア＝０
　　「ながら視聴シーン」スコア＝０
　このため、シーン判別部１７０は、最もスコアの高い「会話シーン」スコア２０が、所定の閾値λ以上であるため、「会話シーン」であると出力する。

　また、図９のような音源別頻度分布が得られていれば、各シーンのスコアは、以下のようになる。
　　「会話シーン」スコア＝０
　　「ＴＶシーン」スコア＝１０＋５＋５＋５＝２５
　　「ながら視聴シーン」スコア＝５＋５＝１０
　このため、シーン判別部１７０は、最もスコアの高い「ＴＶシーン」スコア２５が所定の閾値λ以上であるため、「ＴＶシーン」であると出力する。

　また、図１０のような音源別頻度分布が得られていれば、各シーンのスコアは、以下のようになる。
　　「会話シーン」スコア＝１０
　　「ＴＶシーン」スコア＝５＋５＝１０
　　「ながら視聴シーン」スコア＝１０＋５＋５＋５＝２５
　このため、シーン判別部１７０は、最もスコアの高い「ながら視聴シーン」スコア２５が所定の閾値λ以上であるため、「ながら視聴シーン」であると出力する。

　なお、シーン判別のスコアリングは、上記のような加点方法に限定するものではない。閾値は、それぞれの特徴量によって変えてもよいし、閾値を数段階に分けて加点してもよい。

　また、シーン判別部１７０は、閾値によりスコアに加点するのではなく、頻度に依存した関数を設計してスコア付けしたり、ルールによる判定にしたりしてもよい。図１３には、ルールによる判定方法の例を示す。

　図１３は、ルールによるシーン判別の例を表す図である。

　[出力音制御]
　ステップＳ７において、出力音制御部１８０は、シーン判別部１７０により判定されたシーンに応じて出力音を制御する。

　「会話シーン」と判別された場合には、正面に指向性を向ける処理を行なう。

　「ＴＶシーン」と判別された場合には、補聴器のスピーカの出力を外部入力ＴＶ音に切り替える。あるいは、正面に指向性制御してもよい。

　「ながら視聴シーン」と判別された場合には、広指向性となるよう制御する。

　いずれのシーンにも判別されなかった場合には、広指向性又は無指向性とする。

　さらに、出力音制御部１８０は、補聴器ユーザの難聴の度合いに応じて聞こえづらい周波数帯域の音圧を増幅するなどの補聴処理を行い、スピーカから出力する。

　以上詳細に説明したように、本実施の形態の補聴器１００は、マイクロホンアレイ１０２から入力された音信号をデジタル信号に変換するＡ／Ｄ変換部１１０と、前記音信号から音源方向を検出する音源方向推定部１２０と、前記音信号から補聴器ユーザの声を検出する自発話検出部１３０と、前記音信号からＴＶ音を検出するＴＶ音検出部１４０と、を備える。また、補聴器１００は、検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果を用いて装着者以外の話者の発話を検出する他者発話検出部１５０と、自発話検出結果とＴＶ音検出結果と他話者発話検出結果と、音源方向情報を用いて音源毎の頻度を計算する音源別頻度計算部１６０と、を備える。シーン判別部１７０は、音源方向情報と前記音源毎頻度とを用いて、「会話シーン」、「ＴＶ視聴シーン」、「ながらＴＶ視聴シーン」を判別する。さらに、出力音制御部１８０は、判定されたシーンに応じて補聴器１００の聞こえを制御する。

　これにより、本実施の形態は、ＴＶを見ずに会話をしているときには周囲のＴＶ音を抑圧し、正面に指向性を絞るため、正面にいる人と会話しやすくなる。また、補聴器ユーザがＴＶに集中しているときには、自動的に補聴器の出力がＴＶ音に切り替わるため、わずらわしい操作をする必要なくＴＶ音が聞き取りやすくなる。また、会話をしながらＴＶを見ているときは、広指向性となる。このため、全員黙っているときには、ＴＶの音が聞こえ、誰かがしゃべったときにはどちらの音も抑圧されずに聞くことができる。

　このように、本実施の形態は、音源の方向だけでなく、音源の種類（ＴＶ音か自発話か他の人の声か）と頻度情報、時間情報を用いることにより、適切にシーンを判別することができるようになる。特に、本実施の形態は、「ながらＴＶ視聴シーン」を判別することにより、ＴＶ音と会話とどちらも聞きたい場合に対応することができる。

　以上の説明は、本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。

　例えば、本発明は、ＴＶの音量を制御する補聴器に応用することも可能である。

　図１４は、ＴＶの音量を制御する補聴器の構成を示す図である。図２と同一構成部分には同一符号を付している。

　図１４に示すように、ＴＶの音量を制御する補聴器１００Ａは、マイクロホンアレイ１０２、Ａ／Ｄ変換部１１０、音源方向推定部１２０、自発話検出部１３０、ＴＶ音検出部１４０、他者発話検出部１５０、音源別頻度計算部１６０、シーン判別部１７０、及び出力音制御部１８０Ａを備える。

　出力音制御部１８０Ａは、シーン判別部１７０において判別されたシーン判別結果に基づいて、ＴＶの音量を制御するＴＶ音制御信号を生成する。

　送受信部１０７は、出力音制御部１８０Ａにより生成されたＴＶ音制御信号をＴＶに送信する。

　なお、ＴＶ音制御信号は、ブルートゥースなどの無線通信によって送信されることが望ましいが、赤外線によって送信されてもよい。

　これにより、本発明のＴＶは、補聴器１００Ａが判定したシーンに合わせた音量出力を行うことができるという効果がある。

　なお、本発明は、ＴＶ以外の機器に応用することも可能である。例えば、ＴＶ以外の機器は、ラジオやオーディオ、パソコンなどがある。本発明は、ＴＶ以外の機器から送信された音情報を受信して、ユーザがその機器から発される音を聞いているシーンなのか、会話しているシーンなのか、会話しながら聞いているシーンなのかを判定する。さらに、本発明は、判定されたそのシーンに応じて出力音を制御するようにしてもよい。

　また、本発明は、携帯機器のアプリソフトウェアとして実現することもできる。例えば、本発明は、高機能携帯電話に搭載されたマイクロホンアレイから入力された音と、ＴＶから送信された音情報からシーンを判別し、そのシーンに応じて出力音を制御しユーザに聞かせることができる。

　また、本実施の形態では、補聴器及び信号処理方法という名称を用いたが、これは説明の便宜上であり、装置は補聴装置、音声信号処理装置、方法はシーン判別方法等であってもよい。

　以上説明した信号処理方法は、この信号処理方法を機能させるためのプログラムでも実現される。このプログラムは、コンピュータで読み取り可能な記録媒体に格納されている。

　２０１０年６月１８日出願の特願２０１０－１３９７２６の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

　本発明に係る補聴器及び信号処理方法は、補聴器ユーザにとって聞きたい音を聞きやすくする補聴器に有用である。また、本発明は、高機能携帯電話など携帯機器のアプリソフトとしても有用である。

　１００，１００Ａ　補聴器
　１０１　補聴器筐体
　１０２　マイクロホンアレイ
　１０３　スピーカ
　１０４　イヤーチップ
　１０５　リモコン装置
　１０６　ＣＰＵ
　１０７　送受信部
　１０８　オーディオ送信機
　１０９　ＴＶ
　１１０　Ａ／Ｄ変換部
　１２０　音源方向推定部
　１３０　自発話検出部
　１４０　ＴＶ音検出部
　１４１　マイク入力短時間パワー算出部
　１４２　ＴＶ音短時間パワー算出部
　１４３　ＴＶ単独区間検出部
　１５０　他者発話検出部
　１６０　音源別頻度計算部
　１７０　シーン判別部
　１８０，１８０Ａ　出力音制御部

Claims

　マイクロホンアレイを設置した両耳に装着する補聴器であって、
　前記マイクロホンアレイから入力された音信号から音源方向を検出する音源方向推定部と、
　前記音信号から補聴器装着者の声を検出する自発話検出部と、
　前記音信号からＴＶ音を検出するＴＶ音検出部と、
　前記検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果に基づいて装着者以外の話者の発話を検出する他話者発話検出部と、
　前記自発話検出結果と前記ＴＶ音検出結果と前記他話者発話検出結果と、前記音源方向情報に基づいて音源毎の頻度を計算する音源毎頻度計算部と、
　前記音源方向情報と前記音源毎頻度とを用いてシーンを判別するシーン判別部と、
　前記判定されたシーンに応じて補聴器の聞こえを制御する出力音制御部と、
　を備える補聴器。
　前記ＴＶ音検出部は、前記ＴＶから送信されたＴＶの音情報を受信するＴＶ音受信部と、
　受信したＴＶ音と前記音信号に基づいてＴＶ単独区間を検出するＴＶ単独区間検出部と、を備える請求項１記載の補聴器。
　前記ＴＶ音検出部は、前記ＴＶから送信されたＴＶの音情報を受信するＴＶ音受信部と、
　受信したＴＶ音の短時間パワーを計算するＴＶ音短時間パワー算出部と、
　前記音信号の短時間パワーを計算するマイク入力短時間パワー算出部と、
　前記ＴＶ音短時間パワーと前記マイク入力短時間パワーとを比較し、その差が所定範囲となる区間をＴＶ単独区間として検出するＴＶ単独区間検出部と、を備える請求項１記載の補聴器。
　前記シーン判別部は、装着者が会話をしている「会話シーン」、装着者がＴＶを視聴している「ＴＶ視聴シーン」、装着者が会話もＴＶ視聴も同時に行う「ながらＴＶ視聴シーン」の、各シーンに分類する請求項１記載の補聴器。
　前記出力音制御部は、指向性制御を行う請求項１記載の補聴器
　前記出力音制御部は、「会話シーン」では正面方向に指向性のビームを向ける請求項４記載の補聴器。
　前記出力音制御は、「ＴＶ視聴シーン」では正面方向に指向性のビームを向ける請求項４記載の補聴器。
　前記出力音制御部は、「ＴＶ視聴シーン」では前記ＴＶ音受信部で受信したＴＶ音を出力する請求項４記載の補聴器。
　前記出力音制御部は、「ながらＴＶ視聴シーン」では広指向性とする請求項４記載の補聴器。
　前記出力音制御部は、「ながらＴＶ視聴シーン」では一方の耳にＴＶ音受信部で受信したＴＶ音を出力し、他方の耳に広指向性とした音を出力する請求項４記載の補聴器。
　送受信部をさらに有し、
　前記出力音制御部は、前記シーン判別部における分類結果に基づいて、ＴＶ音を制御するＴＶ音制御信号を生成し、
　前記送受信部は、前記ＴＶ音制御信号を出力する請求項４記載の補聴器。
　マイクロホンアレイを設置した両耳に装着する補聴器の信号処理方法であって、
　前記マイクロホンアレイから入力された音信号から音源方向を検出するステップと、
　前記音信号から補聴器装着者の声を検出するステップと、
　前記音信号からＴＶ音を検出するステップと、
　前記検出された音源方向情報と前記自発話検出結果と前記ＴＶ音検出結果に基づいて装着者以外の話者の発話を検出するステップと、
　前記自発話検出結果と前記ＴＶ音検出結果と前記他話者発話検出結果と、前記音源方向情報を用いて音源毎の頻度を計算するステップと、
　前記音源方向情報と前記音源毎頻度とに基づいてシーンを判別するステップと、
　前記判定したシーンに応じて補聴器の聞こえを制御するステップと
　を有する補聴器の信号処理方法。
　請求項１２記載の補聴器の信号処理方法の各ステップをコンピュータに実行させるためのプログラム。