WO2020137585A1

WO2020137585A1 - 特定音検出器および方法、並びにプログラム

Info

Publication number: WO2020137585A1
Application number: PCT/JP2019/048706
Authority: WO
Inventors: 優樹山本; 佑司床爪; 徹知念
Original assignee: ソニー株式会社
Priority date: 2018-12-25
Filing date: 2019-12-12
Publication date: 2020-07-02
Also published as: DE112019006400T5; US11990151B2; KR20210109526A; US20240274151A1; JPWO2020137585A1; US20220059120A1; CN113196792A

Abstract

本技術は、特定音の検出性能を向上させることができるようにする特定音検出器および方法、並びにプログラムに関する。特定音検出器は、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備える。また、複数のマイクロフォンは、少なくとも特定音の音源からの距離が等しい２個のマイクロフォンと、所定位置に配置された１個のマイクロフォンとからなる。本技術はヘッドフォンに適用することができる。

Description

特定音検出器および方法、並びにプログラム

　本技術は、特定音検出器および方法、並びにプログラムに関し、特に、特定音の検出性能を向上させることができるようにした特定音検出器および方法、並びにプログラムに関する。

　従来、マイクロフォンにより取得されるオーディオ信号に基づいて、そのオーディオ信号に基づく音に、人の声や車両の走行音などの特定の音（以下、特定音と称する）が含まれているかを検出する特定音検出の技術が知られている。

　例えば、そのような技術として、ヘッドフォンに設けられたマイクロフォンを用いて、そのヘッドフォンの装着者の会話を検出し、会話が検出されると会話モードへと遷移する技術が提案されている（例えば、特許文献１参照）。

特開２０１１－９７２６８号公報

　ところが、特定音を検出しようとするときに、マイクロフォンの配置等によっては十分な検出性能を得ることができないことがあった。

　本技術は、このような状況に鑑みてなされたものであり、特定音の検出性能を向上させることができるようにするものである。

　本技術の一側面の特定音検出器は、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる。

　本技術の一側面の特定音検出方法またはプログラムは、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含み、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる。

　本技術の一側面においては、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音が検出される。また、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる。

マイクロフォンを用いた特定音の検出について説明する図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。マイクロフォンを用いた特定音の検出について説明する図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。マイクロフォンを用いた特定音の検出について説明する図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。ヘッドフォンにおけるマイクロフォン配置例を示す図である。ヘッドフォンの機能的な構成例を示す図である。特定音検出処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈特定音検出時の誤検出について〉
　本技術は、複数のマイクロフォンのそれぞれにより取得される複数のオーディオ信号のそれぞれに基づいて特定音を検出することで、特定音の検出性能を向上させることができるようにするものである。

　なお、検出対象となる特定の音である特定音は、どのようなものであってもよい。また、特定音の検出に用いるマイクロフォンは、例えばユーザに装着されるウェアラブルデバイスに設けられているものを用いるようにすることができる。

　ウェアラブルデバイスは、例えばオーバーヘッド型のヘッドフォンや、左右の耳に装着する部分が物理的に接続されていないトゥルーワイヤレス型のヘッドフォン、ヘッドマウントディスプレイ等、ユーザに装着可能なものであれば、どのようなものであってもよい。

　以下では、ヘッドフォンに設けられた複数のマイクロフォンにより、ヘッドフォンの装着者の声、ヘッドフォンの装着者以外の人の声、アナウンス音、車両の走行音、および車両等により発せられた警笛音の少なくとも何れかを特定音として検出する例について説明する。

　特定音の検出を行う場合、１つのマイクロフォンを用いると、十分な検出性能を得ることは困難である。

　例えば図１に示すように、１つのマイクロフォンMK11が設けられたオーバーヘッド型のヘッドフォンHD11を装着する、ヘッドフォン装着者であるユーザU11がおり、そのユーザU11の近くに他のユーザU12がいるとする。

　このような場合に、マイクロフォンMK11が収音することで得られるオーディオ信号に基づいて、ヘッドフォン装着者であるユーザU11の声を特定音として検出するときに、ヘッドフォン装着者ではないユーザU12の声が誤って特定音として検出されてしまうことがある。すなわち、誤検出が生じることがある。

　ユーザU11の声を特定音として検出するにあたり、ユーザU11が任意の人である場合と、ユーザU11が予め定められた特定の人である場合とで、特定音を検出するための方法が異なるが、それらの何れの場合であっても誤検出が生じてしまう。

　ここで、ユーザU11が任意の人である場合と、ユーザU11が予め定められた特定の人である場合とについてさらに説明する。

　まず、ユーザU11が任意の人である場合、任意の人の声を検出するニューラルネットワーク等により構成される検出器を機械学習により生成し、得られた検出器を用いて、ヘッドフォン装着者であるユーザU11の声を特定音として検出する方法がある。

　このような方法を採用する場合、図１に示す例では誤検出が発生する。

　すなわち、図１に示す例では、任意のヘッドフォン装着者であるユーザU11の口からマイクロフォンMK11までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK11までの距離とが略同じ（等距離）となっている。

　そのため、マイクロフォンMK11により取得されるオーディオ信号の音圧は、ユーザU11の声とユーザU12の声とで略等しく、かつ、ともに同じ「人の声」である。

　したがって、この例では任意のヘッドフォン装着者であるユーザU11の声と、ヘッドフォン装着者ではないユーザU12の声とを検出器により判別することは困難である。その結果、ヘッドフォン装着者であるユーザU11以外のユーザ（人）の声、すなわちここではユーザU12の声が特定音として検出されるという誤検出が発生してしまうことになる。

　また、予め定められた特定の人の声、すなわちここではヘッドフォン装着者である特定のユーザU11の声を検出する検出器を機械学習により生成し、その検出器を用いてヘッドフォン装着者であるユーザU11の声を特定音として検出する方法がある。

　このような方法を採用して、図１の例で予め定められた特定のユーザU11の声を特定音として検出するものとする。

　図１に示す例では、特定のヘッドフォン装着者であるユーザU11の口からマイクロフォンMK11までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK11までの距離とが略同じとなっている。

　したがって、ユーザU11が任意の人である場合と同様に、マイクロフォンMK11により取得されるオーディオ信号の音圧は、ユーザU11の声とユーザU12の声とで略等しくなるが、ユーザU11の声とユーザU12の声とは異なるため、上述のユーザU11が任意の人である場合と比較すると特定音の誤検出は生じにくくなる。

　しかしながら、このような場合でもユーザU11の声とユーザU12の声とが似ているときには、ユーザU11ではない他のユーザU12の声が特定音として検出されるという誤検出が発生してしまうことがある。

　そこで、本技術では、複数のマイクロフォンのそれぞれにより取得されるオーディオ信号のそれぞれに基づいて特定音を検出することで、誤検出の発生を抑制できるようにした。

　特に、本技術では複数のマイクロフォンを用いるだけでなく、それらのマイクロフォンの配置、特に特定音の音源からマイクロフォンまでの距離についても工夫することで、特定音の検出性能を向上させることができるようにした。

　これは、複数のマイクロフォンを用いて特定音検出を行う場合、特定音検出に用いるマイクロフォンの数や、それらのマイクロフォンの配置によって、誤検出が解決される程度が異なるからである。以下では、いくつかの例について具体的に説明する。

〈２つのマイクロフォンをLとRに配置する例について〉
　まず、特定音検出に２つのマイクロフォンを用い、それらの２つのマイクロフォンをL位置とR位置、つまりヘッドフォン装着者から見て左右の位置に配置することで、誤検出が生じにくくなる例について説明する。

　この場合、例えば図２に示すようにオーバーヘッド型のヘッドフォンHD21にはマイクロフォンMK21-1と、マイクロフォンMK21-2とが設けられている。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、ヘッドフォン装着者であるユーザU11がヘッドフォンHD21を装着しており、そのユーザU11の近くにヘッドフォン装着者ではないユーザU12がいる。

　また、ユーザU11の左耳に装着される、ヘッドフォンHD21における左側のハウジング部HW21-1にはマイクロフォンMK21-1が設けられている。さらにユーザU11の右耳に装着される、ヘッドフォンHD21の右側のハウジング部HW21-2にはマイクロフォンMK21-2が設けられている。

　換言すれば、ユーザU11から見て左側にマイクロフォンMK21-1が配置されており、ユーザU11から見て右側にマイクロフォンMK21-2が配置されている。

　なお、以下、マイクロフォンMK21-1およびマイクロフォンMK21-2を特に区別する必要のない場合、単にマイクロフォンMK21とも称することとする。また、以下、ハウジング部HW21-1およびハウジング部HW21-2を特に区別する必要のない場合、単にハウジング部HW21とも称することとする。

　ここでは、マイクロフォンMK21はヘッドフォンHD21におけるハウジング部HW21の外周の外側に設けられている。すなわち、マイクロフォンMK21は収音のためのセンサ部分が筐体により覆われておらず、外部に露出するように設けられている。

　また、マイクロフォンMK21は、例えばノイズキャンセリング機能を実現するためのフィードフォワードマイクロフォンなどとされる。

　フィードフォワードマイクロフォンは、ノイズキャンセリングのフィードフォワード制御のためのマイクロフォンであり、このフィードフォワードマイクロフォンがノイズキャンセリングだけでなく、特定音の検出にも利用される。

　さらに、２個のマイクロフォンMK21は、ユーザU11がヘッドフォンHD21を装着した状態では、特定音の音源位置となるユーザU11の口からの距離が略等しくなるように配置されている。

　図２に示す例では、ヘッドフォン装着者であるユーザU11の口からマイクロフォンMK21-2までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK21-2までの距離とは略同じ距離となっている。しかし、ユーザU11の口からマイクロフォンMK21-1までの距離と、ユーザU12の口からマイクロフォンMK21-1までの距離とは異なる距離となる。

　換言すれば、マイクロフォンMK21-1とマイクロフォンMK21-2は、特定音の音源であるユーザU11の口からは略等距離の位置に配置されているが、それらのマイクロフォンMK21の位置は、ユーザU12の口から等距離の位置とはなっていない。

　したがって、マイクロフォンMK21-1とマイクロフォンMK21-2とでヘッドフォン装着者であるユーザU11の声が取得（収音）された場合、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となる。

　これに対して、マイクロフォンMK21-1とマイクロフォンMK21-2とでヘッドフォン装着者ではないユーザU12の声が取得（収音）された場合、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は異なる音圧となる。

　このように、２つのマイクロフォンMK21を左右のL位置とR位置に配置する場合、それらの２つのマイクロフォンMK21で取得されるオーディオ信号を用いて検出器の機械学習を行えば、上述の誤検出の発生を抑制することができる。

　すなわち、機械学習により得られる検出器を用いれば、互いに異なる位置であって、特定音の音源からの距離が略等しい位置に配置されるマイクロフォンMK21により取得されたオーディオ信号における音圧の差異を利用した特定音の検出を行うことができる。これにより検出性能を向上させることができる。

　しかしながら、例えば図３に示すように、ヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上にいる場合には、誤検出が発生し得る。なお、図３において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３に示す例では、ユーザU12がユーザU11の正中面上にいるため、ユーザU12の口からマイクロフォンMK21-1までの距離と、ユーザU12の口からマイクロフォンMK21-2までの距離とが略等しい状態となっている。

　例えば電車内や踏切の近く等においてユーザU11の後ろにユーザU12がいる場合などに、このようなケースが発生し得る。また、電車内等においては、ユーザU11の上方でアナウンス音等の人の音声が再生されることもあり、そのような場合においてもアナウンス音等の音源がユーザU11の正中面上に位置するケースが発生し得る。

　このような場合には、マイクロフォンMK21-1とマイクロフォンMK21-2とでユーザU12の声が取得されたときには、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となるため、上述の誤検出が生じてしまうおそれがある。

〈３個のマイクロフォンをLとRとBTMに配置する例について〉
　そこで、例えば図４に示すように、オーバーヘッド型のヘッドフォンHD31に３個のマイクロフォンMK21-1、マイクロフォンMK21-2、およびマイクロフォンMK31を設けるようにしてもよい。なお、図４において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図４に示す例では、ヘッドフォンHD31における左側のハウジング部HW21-1にマイクロフォンMK21-1が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。

　特に、この例ではユーザU11が頭部にヘッドフォンHD31を装着した状態では、ユーザU11から見て同じ高さの位置にマイクロフォンMK21-1およびマイクロフォンMK21-2が配置されている。

　また、左側のハウジング部HW21-1における図中、マイクロフォンMK21-1よりも下側の位置、つまりBTM位置（ボトム位置）には、マイクロフォンMK31が設けられている。

　このマイクロフォンMK31は、例えばハウジング部HW21-1の外周の外側に設けられた、電話等の通話のための通話用マイクロフォンなどとされる。

　また、マイクロフォンMK31は、ユーザU11が頭部にヘッドフォンHD31を装着した状態において、マイクロフォンMK21よりもユーザU11の口により近い位置に配置されている。すなわちマイクロフォンMK31は、ユーザU11の口からの距離が、マイクロフォンMK21からユーザU11の口までの距離よりも短くなる位置に配置されている。

　したがって、２つのマイクロフォンMK21と、１つのマイクロフォンMK31でヘッドフォン装着者であるユーザU11の声が取得された場合、２つのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となる。

　しかし、この場合、マイクロフォンMK31で得られたオーディオ信号の音圧は、２つの各マイクロフォンMK21で得られたオーディオ信号の音圧よりも大きくなる。

　すなわち、ヘッドフォン装着者であるユーザU11の声は、２つのマイクロフォンMK21には同程度の音圧で入力されるが、マイクロフォンMK31にはマイクロフォンMK21における場合よりも大きい音圧で入力されることになる。

　これは、上述したようにユーザU11が頭部にヘッドフォンHD31を装着した状態では、マイクロフォンMK21よりもマイクロフォンMK31の方がユーザU11の口からより近い位置に配置されているからである。

　そのため、ヘッドフォンHD31では、図３に示した例のように、ヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上にいる場合でも、上述の誤検出が発生しにくくなる。すなわち、３個のマイクロフォンが設けられたヘッドフォンHD31では、２個のマイクロフォンが設けられたヘッドフォンHD21と比較して、より高い検出性能を得ることができる。

　ところが、例えば図５に示すようにヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上における下方にいる場合には、誤検出が発生し得る。なお、図５において図３または図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図５に示す例では、ユーザU12がユーザU11の正中面上における、ユーザU11から見て下側に位置している。このようなユーザU12とユーザU11の位置関係は、電車内等において座席に座っているユーザU12の正面にユーザU11が立っている場合などに発生し得る。

　この例では、マイクロフォンMK31がマイクロフォンMK21よりもユーザU12の口により近い位置にあり、かつ２つのマイクロフォンMK21はユーザU12の口から略等距離の位置に配置されている。

　したがって、このような場合には、マイクロフォンMK21とマイクロフォンMK31でユーザU12の声が取得された場合、２つのマイクロフォンMK21で得られたオーディオ信号のそれぞれの音圧は同程度となる。

　また、マイクロフォンMK31で得られたオーディオ信号の音圧は、マイクロフォンMK21で得られたオーディオ信号の音圧よりも大きくなる。その結果、図３に示した例と同様に誤検出が生じてしまうおそれがある。

〈４個のマイクロフォンをLとRとBTMとTOPに配置する例について〉
　そこで、例えば図６に示すように、オーバーヘッド型のヘッドフォンHD41に４個のマイクロフォンMK21-1、マイクロフォンMK21-2、マイクロフォンMK31、およびマイクロフォンMK41を設けるようにしてもよい。

　なお、図６において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図６に示す例では、ヘッドフォンHD41における左側のハウジング部HW21-1にマイクロフォンMK21-1およびマイクロフォンMK31が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。これらのマイクロフォンMK21およびマイクロフォンMK31の配置は図４における場合と同様となっている。

　また、ヘッドフォンHD41では、ユーザU11がヘッドフォンHD41を装着した状態において、ユーザU11から見てマイクロフォンMK21およびマイクロフォンMK31よりもマイクロフォンMK41が上側に位置するように配置される。

　特に、この例ではマイクロフォンMK41は、ユーザU11がヘッドフォンHD41を装着した状態において、ユーザU11の頭頂部付近（頭頂部近傍）、つまりTOP位置（トップ位置）に配置されるようになされている。

　具体的には、ヘッドフォンHD41では、２つのハウジング部HW21同士を連結（接続）するバンド部BD41における２つのマイクロフォンMK21から略等距離となる位置にマイクロフォンMK41が設けられている。このマイクロフォンMK41は、例えばバンド部BD41の外側に設けられた特定音検出用のマイクロフォンとされる。

　また、ヘッドフォン装着者であるユーザU11が頭部にヘッドフォンHD41を装着した状態では、ユーザU11の口からマイクロフォンMK21までの距離と、ユーザU11の口からマイクロフォンMK41までの距離とが略等しくなるようになっている。換言すれば、２つの各マイクロフォンMK21とマイクロフォンMK41は、特定音の音源であるユーザU11の口から略等距離の位置に配置されている。

　このようなマイクロフォン配置とすることで、各マイクロフォンでヘッドフォン装着者であるユーザU11の声が取得された場合、２つのマイクロフォンMK21およびマイクロフォンMK41の合計３個の各マイクロフォンで得られたオーディオ信号のそれぞれの音圧は同程度となる。

　また、マイクロフォンMK31で得られたオーディオ信号の音圧は、マイクロフォンMK21やマイクロフォンMK41で得られたオーディオ信号の音圧よりも大きくなる。

　一方で、ヘッドフォン装着者ではないユーザU12の声について、各マイクロフォンで得られるオーディオ信号の音圧の相対的な関係として、ユーザU11の声における場合と同様の関係が得られるようにするには、ユーザU12は、自身の口の位置がユーザU11の口に極めて近い位置にある状態で発声しなければならない。

　しかし、そのような状態でヘッドフォン装着者ではないユーザU12が声を発する確率（発生確率）は一般的な実生活において低いので、ヘッドフォンHD41においては誤検出が発生することは殆どない。すなわち、４個のマイクロフォンが設けられたヘッドフォンHD41では、３個のマイクロフォンが設けられたヘッドフォンHD31と比較して、さらに高い検出性能を得ることができる。

〈４個のマイクロフォンをLとRとFBLとFBRに配置する例について〉
　ところで、ヘッドフォンのなかにはノイズキャンセリング用に、ヘッドフォンの筐体の内側にフィードバックマイクロフォンが配置されているものがある。

　そこで、例えば図７に示すようにオーバーヘッド型のヘッドフォンHD51に２個のマイクロフォンMK21と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-1およびマイクロフォンMK51-2とを設けるようにしてもよい。なお、図７において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示す例では、ヘッドフォンHD51における左側のハウジング部HW21-1にマイクロフォンMK21-1が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。これらのマイクロフォンMK21の配置は図４における場合と同様となっている。

　さらにヘッドフォンHD51では、左側のハウジング部HW21-1の内側、すなわちハウジング部HW21-1を形成する筐体の内側の位置（FBL位置）にフィードバックマイクロフォンであるマイクロフォンMK51-1が配置されている。換言すれば、マイクロフォンMK51-1はハウジング部HW21-1を形成する筐体に覆われている。

　より詳細には、例えばマイクロフォンMK51-1は、ハウジング部HW21-1内部に設けられた図示せぬスピーカの振動板と、その振動板を覆うことで振動板を保護するメッシュ状の保護部材との間の位置などに配置される。ここでは保護部材が筐体としても機能する。

　フィードバックマイクロフォンは、ノイズキャンセリングのフィードバック制御のためのマイクロフォンであり、この例ではフィードバックマイクロフォンがノイズキャンセリングだけでなく、特定音の検出にも利用される。

　同様に右側のハウジング部HW21-2を形成する筐体の内側の位置（FBR位置）にフィードバックマイクロフォンであるマイクロフォンMK51-2が配置されている。

　なお、以下、マイクロフォンMK51-1およびマイクロフォンMK51-2を特に区別する必要のない場合、単にマイクロフォンMK51とも称することとする。

　マイクロフォンMK51は、ヘッドフォンHD51の筐体に覆われているため、これらのマイクロフォンMK51ではヘッドフォン装着者であるユーザU11以外の人の声を含む外音は殆ど入力（収音）されない。すなわち、マイクロフォンMK51では、ハウジング部HW21の外側から空気中を伝搬してきた音は殆ど収音されない。

　一方で、ヘッドフォン装着者であるユーザU11が声を発すると、マイクロフォンMK51ではヘッドフォン装着者であるユーザU11の発声に起因する、ユーザU11の個体振動音が入力（収音）される。つまり、マイクロフォンMK51では、ユーザU11の発声によって発生した振動音が収音される。

　したがって、マイクロフォンMK21およびマイクロフォンMK51で得られたオーディオ信号に基づいて、ユーザU11の声、より詳細にはユーザU11の発話により発生した振動音と、それ以外のユーザU12等の声とを区別することができるようになる。

　これにより、例えばユーザU12の口の位置がユーザU11の口に極めて近い位置にある状態でユーザU12が発声した場合などにおいても、特定音の誤検出が発生することは殆どなく、高い検出性能を得ることができる。

　なお、ここでは主にユーザU11の個体振動音を収音するためのマイクロフォンとして、フィードバックマイクロフォンを用いる例について説明したが、その他、骨伝導マイクロフォンなどを用いてユーザU11の個体振動音を収音するようにしてもよい。すなわち、例えばマイクロフォンMK51として骨伝導マイクロフォンなどを用いてもよい。

〈２個のマイクロフォンをLとFBLまたはRとFBRに配置する例について〉
　また、図７を参照して説明したように２つのマイクロフォンMK21と、２つのマイクロフォンMK51との合計４個のマイクロフォンを用いれば、特定音の誤検出を発生しにくくし、高い特定音の検出性能を得ることができる。

　しかし、ヘッドフォンに設けるマイクロフォンの数が多くなるほど、その分だけ消費電力や特定音の検出で必要となるメモリ量が多くなってしまう。

　そこで、例えば１つのフィードフォワードマイクロフォンと、１つのフィードバックマイクロフォンとの合計２個のマイクロフォンを用いて特定音の検出を行うようにすることで、消費電力やメモリ量を少なく抑え、かつ誤検出の発生を抑制するようにしてもよい。

　具体的には、左側のハウジング部HW21-1に設けられた、フィードフォワードマイクロフォンであるマイクロフォンMK21-1と、フィードバックマイクロフォンであるマイクロフォンMK51-1とを特定音検出に用いるようにしてもよい。

　この場合、特にマイクロフォンMK21-2やマイクロフォンMK51-2などの他のマイクロフォンはヘッドフォンに設けられていなくてもよい。

　逆に、右側のハウジング部HW21-2に設けられた、フィードフォワードマイクロフォンであるマイクロフォンMK21-2と、フィードバックマイクロフォンであるマイクロフォンMK51-2とを特定音検出に用いるようにしてもよい。この場合においても他のマイクロフォンはヘッドフォンに設けられていなくてもよい。

　このように１つのフィードフォワードマイクロフォンと、１つのフィードバックマイクロフォンとを特定音の検出に用いるようにすれば、特定音の検出性能と、消費電力やメモリ量の抑制とのバランス（費用対効果）をよりよくすることができる。すなわち、消費電力やメモリ量を、図２を参照して説明した例と同程度とし、かつ十分に高い検出性能を得ることができる。

〈トゥルーワイヤレス型のヘッドフォンへの適用例〉
　その他、例えば図８に示すようにウェアラブルデバイスとして、トゥルーワイヤレス型のヘッドフォンHD61を特定音の検出に用いる場合においても消費電力やメモリ量を少なく抑えつつ十分に高い検出性能を得ることができる。なお、図８において図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図８に示す例では、トゥルーワイヤレス型のヘッドフォンHD61はユーザ、すなわち上述したユーザU11の左耳に装着される左側のヘッドセットHS61-1と、ユーザの右耳に装着される右側のヘッドセットHS61-2とからなる。

　なお、以下、ヘッドセットHS61-1およびヘッドセットHS61-2を特に区別する必要のない場合、単にヘッドセットHS61とも称することとする。

　ここでは、左側のヘッドセットHS61-1にはノイズキャンセリング用のフィードフォワードマイクロフォンであるマイクロフォンMK21-1と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-1とが設けられている。

　同様に、右側のヘッドセットHS61-2にはノイズキャンセリング用のフィードフォワードマイクロフォンであるマイクロフォンMK21-2と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-2とが設けられている。

　これらのマイクロフォンMK21とマイクロフォンMK51の配置位置は、図７における場合と略同様である。すなわち、マイクロフォンMK21はヘッドセットHS61の外側に設けられており、マイクロフォンMK51はヘッドセットHS61の内側に設けられている。

　例えば１つのマイクロフォンMK21、および１つのマイクロフォンMK51を特定音の検出に用いる例について考える。

　そのような場合、例えば同じ左側のヘッドセットHS61-1に設けられたマイクロフォンMK21-1とマイクロフォンMK51-1とを特定音の検出に用いるようにすることができる。なお、このとき右側のヘッドセットHS61-2にマイクロフォンMK21-2やマイクロフォンMK51-2が設けられていないようにしてもよい。

　同様に、例えば右側のヘッドセットHS61-2に設けられたマイクロフォンMK21-2とマイクロフォンMK51-2を特定音の検出に用いるようにしてもよい。

　このように特定音検出のための２個のマイクロフォンを片側のヘッドセットHS61に配置することで、トゥルーワイヤレス型のヘッドフォンHD61のように、左右のマイクロフォン、すなわち左右のヘッドセットが独立したヘッドフォンにおいても特定音の誤検出を抑制し、高い検出性能を得ることができる。

　特に、トゥルーワイヤレス型のヘッドフォンHD61では、左右のマイクロフォン、例えばマイクロフォンMK21-1とマイクロフォンMK21-2は独立している。換言すれば、左側のヘッドセットHS61-1と右側のヘッドセットHS61-2とは無線により接続されるが、有線によっては接続されていない。

　そのため、例えばマイクロフォンMK21-1とマイクロフォンMK21-2を特定音の検出に用いる場合には、一方のマイクロフォンMK21で得られたオーディオ信号を、他方のマイクロフォンMK21が設けられたヘッドセットHS61へと無線通信により伝送しなければならないが、無線通信による伝送は消費電力が大きい。

　これに対して、ヘッドフォンHD61の片側のヘッドセットHS61にマイクロフォンMK21とマイクロフォンMK51を配置し、それらのマイクロフォンを特定音の検出に用いるようにすれば、上述の無線通信による伝送は不要となるので、消費電力を抑えつつ高い検出性能を得ることができる。

　なお、以上においては図２や図４、図６、図７、図８を参照して、マイクロフォンの数や配置の例として主に５つの例を挙げて説明を行ったが、本技術はこれらの例に限られるものではない。

　すなわち、ヘッドフォン装着者の声と、ヘッドフォン装着者以外の人の声とで複数のマイクロフォンで得られるオーディオ信号の音圧等の特徴が異なるようにすることができれば、特定音の検出に用いるマイクロフォンの数は何個であってもよく、それらのマイクロフォンの配置もどのような配置であってもよい。

　したがって、例えば図９や図１０に示すようなマイクロフォン配置とされてもよい。

　例えば図９に示す例では、オーバーヘッド型のヘッドフォンHD71には８個のマイクロフォンが設けられており、これらの８個のマイクロフォンのうちの任意の２以上のものを特定音の検出に用いるようにすることができる。なお、図９において図６または図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、ヘッドフォンHD71には、２つのマイクロフォンMK21、マイクロフォンMK31、およびマイクロフォンMK41が図６における場合と同じ配置で設けられており、また、２つのマイクロフォンMK51が図７における場合と同じ配置で設けられている。

　さらに、この例では左側のハウジング部HW21-1におけるマイクロフォンMK21-1とマイクロフォンMK31の間の高さの位置に通話用のマイクロフォンMK71-1およびマイクロフォンMK71-2が設けられている。

　具体的には、マイクロフォンMK71-1は、ハウジング部HW21-1の外周の外側におけるFRT位置、つまりヘッドフォン装着者であるユーザU11の顔（口）側の位置に設けられている。

　これに対してマイクロフォンMK71-2は、ハウジング部HW21-1の外周の外側におけるREA位置、つまりヘッドフォン装着者であるユーザU11の後頭部側の位置に設けられている。

　なお、以下、マイクロフォンMK71-1およびマイクロフォンMK71-2を特に区別する必要のない場合、単にマイクロフォンMK71とも称することとする。

　また、図１０に示す例では、トゥルーワイヤレス型のヘッドフォンHD81には６個のマイクロフォンが設けられており、これらの６個のマイクロフォンのうちの任意の２以上のものを特定音の検出に用いるようにすることができる。なお、図１０において図８または図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、ヘッドフォンHD81の左側のヘッドセットHS61-1には、マイクロフォンMK21-1、マイクロフォンMK51-1、マイクロフォンMK31、およびマイクロフォンMK71-1が設けられている。また、ヘッドフォンHD81の右側のヘッドセットHS61-2には、マイクロフォンMK21-2およびマイクロフォンMK51-2が設けられている。

　さらに、以上においてはヘッドフォンにおいて、ヘッドフォン装着者の声を特定音として検出する例について説明したが、検出対象となる特定音はヘッドフォン装着者の声に限らず、他のどのような音であってもよい。

　例えばヘッドフォン装着者ではない人の声やアナウンス音声を特定音として検出してもよいし、ヘッドフォン装着者の周囲を走行する車両の走行音や、車両（自動車や自転車）等により発せられる警笛音などといった移動音を特定音として検出するようにしてもよい。

　検出対象とする特定音をどのような音とするかによって、特定音以外の音を誤って検出しないようにするために適したマイクロフォン配置は異なる。以下、特定音ごとにマイクロフォン配置の具体的な例について説明する。

（ヘッドフォン装着者以外の人の声を検出する場合）
　まず、ヘッドフォン装着者以外の人の声を特定音として検出する例について説明する。

　そのような場合、特定音の検出には、例えば上述したL位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、FBL位置に配置されたフィードバックマイクロフォンであるマイクロフォンMK51-1、BTM位置に配置された通話用のマイクロフォンMK31、およびTOP位置に配置された特定音検出用のマイクロフォンMK41を用いると効果的である。

　ヘッドフォン装着者以外の人の声を特定音として検出する場合、例えば図２を参照して説明したマイクロフォン配置で誤って特定音であると検出されることが多いのは、主にヘッドフォン装着者の声と、電車内や駅のホーム、街頭などでのアナウンス音である。

　これらのヘッドフォン装着者の声やアナウンス音の各マイクロフォンへの入力の音圧（以下、入力音圧とも称する）には、以下のような特徴がある。

　すなわち、ヘッドフォン装着者の声については、BTM位置のマイクロフォンMK31とFBL位置のマイクロフォンMK51-1の入力音圧は大きく、L位置のマイクロフォンMK21-1の入力音圧とTOP位置のマイクロフォンMK41の入力音圧は同程度でともにBTM位置のマイクロフォンMK31の入力音圧よりも小さくなる。

　一方、特定音であるヘッドフォン装着者以外の人の声については、BTM位置のマイクロフォンMK31とL位置のマイクロフォンMK21-1とTOP位置のマイクロフォンMK41との入力音圧が同程度となり、かつFBL位置のマイクロフォンMK51-1の入力音圧は極めて小さくなる。

　また、アナウンス音については、TOP位置のマイクロフォンMK41の入力音圧は大きく、L位置のマイクロフォンMK21-1やBTM位置のマイクロフォンMK31の入力音圧はTOP位置のマイクロフォンMK41の入力音圧よりも小さくなり、かつFBL位置のマイクロフォンMK51-1の入力音圧は極めて小さくなる。

　このように、特定音であるヘッドフォン装着者以外の人の声と、特定音ではないヘッドフォン装着者の声やアナウンス音とで、各マイクロフォンでの入力音圧の大小関係が異なる。したがって、以上のようなマイクロフォン配置でヘッドフォン装着者以外の人の声を特定音として検出すれば、誤りなく高い検出性能で特定音を検出することができる。

（アナウンス音を検出する場合）
　次に、ヘッドフォン装着者の近くで再生されたアナウンス音を特定音として検出する例について説明する。

　そのような場合においても、例えば上述したヘッドフォン装着者以外の人の声を検出する場合と同様に、L位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、FBL位置に配置されたフィードバックマイクロフォンであるマイクロフォンMK51-1、BTM位置に配置された通話用のマイクロフォンMK31、およびTOP位置に配置された特定音検出用のマイクロフォンMK41を用いると効果的である。

　これは、上述したようにアナウンス音と、ヘッドフォン装着者以外の人の声やヘッドフォン装着者の声とでは、各マイクロフォンでの入力音圧の大小関係が異なるからである。

（移動音を検出する場合）
　さらに、移動音を特定音として検出する例について説明する。

　そのような場合、例えばL位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、R位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-2、FRT位置に配置された通話用のマイクロフォンMK71-1、およびREA位置に配置された通話用のマイクロフォンMK71-2を用いると効果的である。

　このようにヘッドフォンの前後左右に配置されたマイクロフォンを用いることで、特定音である移動音の音源が近傍または遠方にあるかや、音源が遠ざかっていくのか、または音源が近づいてくるのかといった移動音の音源の移動方向を判別することが可能である。

　例えばヘッドフォンから見て遠方にある音源の移動音と近傍にある音源の移動音の各マイクロフォンの入力音圧には、以下のような特徴がある。

　すなわち、ヘッドフォンから見て遠方にある音源の移動音については、音源がヘッドフォンから遠い位置にあるほど、L位置のマイクロフォンMK21-1、R位置のマイクロフォンMK21-2、FRT位置のマイクロフォンMK71-1、およびREA位置のマイクロフォンMK71-2での各入力音圧は同程度となり、それらの各マイクロフォンでの入力音圧の時間変化も同程度となる。

　これに対してヘッドフォン近傍にある音源の移動音については、音源がヘッドフォンから近い位置にあるほど、L位置のマイクロフォンMK21-1、R位置のマイクロフォンMK21-2、FRT位置のマイクロフォンMK71-1、およびREA位置のマイクロフォンMK71-2のうちのいくつかのマイクロフォン間での入力音圧の差（音圧差）は大きくなり、全マイクロフォンでの入力音圧の時間変化は同程度となる。

　また、移動音の音源がヘッドフォンから遠ざかる場合には、各マイクロフォンでの入力音圧の時間変化は、入力音圧が時間とともに小さくなっていく変化となる。逆に、移動音の音源がヘッドフォンへと近づいてくる場合には、各マイクロフォンでの入力音圧の時間変化は、入力音圧が時間とともに大きくなっていく変化となる。

　以上のような入力音圧の違い、つまり入力音圧の特徴により、移動音の音源がヘッドフォンの遠方または近傍にあるかや、音源が遠ざかっていくのか、または音源が近づいてくるのかといった判別が可能となる。

　なお、以上においてはヘッドフォン装着者の声や、ヘッドフォン装着者以外の人の声、アナウンス音、移動音を特定音として検出する例について説明した。しかし、これらの各音を検出するための検出器を並列に動作させるようにしてもよい。そのような場合、検出器ごと、つまり検出対象となる特定音ごとに、検出器に入力されるオーディオ信号を得るためのマイクロフォンの組み合わせが異なるようにすることができる。

　さらに、以上においては機械学習により得られたニューラルネットワーク等の検出器を用いて特定音を検出する例について説明したが、特定音の検出方法は複数のマイクロフォンを用いるものであれば、どのような方法であってもよい。

〈ヘッドフォンの機能的な構成例〉
　次に、以上において説明した本技術を、通話機能付きノイズキャンセリングヘッドフォンに適用した場合における具体的な実施の形態について説明する。

　本技術を適用した通話機能付きノイズキャンセリングヘッドフォン（以下、単にヘッドフォンとも称する）は、例えば図１１に示すように構成される。

　図１１に示すヘッドフォン１１は、オーバーヘッド型の通話機能付きノイズキャンセリングヘッドフォンである。

　ヘッドフォン１１は、Lマイクロフォン２１、Rマイクロフォン２２、FBLマイクロフォン２３、FBRマイクロフォン２４、BTMマイクロフォン２５、FRTマイクロフォン２６、REAマイクロフォン２７、TOPマイクロフォン２８、特定音検出部２９、外音部３０、記録部３１、ノイズキャンセル部３２、通話部３３、受信部３４、モード切替部３５、制御部３６、およびスピーカ３７を有している。

　特にヘッドフォン１１では、少なくとも特定音検出部２９を含むブロック部分が、特定音を検出する特定音検出器として機能する。したがって、例えば特定音検出器には制御部３６等が含まれていてもよい。なお、特定音検出器がヘッドフォン１１の外部に設けられ、ヘッドフォン１１から、収音により得られたオーディオ信号を取得して特定音の検出を行ってもよい。

　Lマイクロフォン２１、Rマイクロフォン２２、FBLマイクロフォン２３、およびFBRマイクロフォン２４は、それぞれ図９に示したマイクロフォンMK21-1、マイクロフォンMK21-2、マイクロフォンMK51-1、およびマイクロフォンMK51-2に対応する。

　すなわち、Lマイクロフォン２１およびRマイクロフォン２２は、それぞれL位置およびR位置に設けられたフィードフォワードマイクロフォンである。Lマイクロフォン２１およびRマイクロフォン２２は周囲の音を収音し、その結果得られたオーディオ信号を外音部３０、ノイズキャンセル部３２、および特定音検出部２９に供給する。

　また、FBLマイクロフォン２３およびFBRマイクロフォン２４は、それぞれFBL位置およびFBR位置に配置されたフィードバックマイクロフォンである。FBLマイクロフォン２３およびFBRマイクロフォン２４は周囲の音を収音し、その結果得られたオーディオ信号をノイズキャンセル部３２および特定音検出部２９に供給する。

　BTMマイクロフォン２５、FRTマイクロフォン２６、およびREAマイクロフォン２７は、それぞれBTM位置、FRT位置、およびREA位置に配置された通話用マイクロフォンであり、図９に示したマイクロフォンMK31、マイクロフォンMK71-1、およびマイクロフォンMK71-2に対応する。これらのBTMマイクロフォン２５乃至REAマイクロフォン２７は周囲の音を収音し、その結果得られたオーディオ信号を通話部３３および特定音検出部２９に供給する。

　TOPマイクロフォン２８は、TOP位置に配置された特定音検出用のマイクロフォンであり、図９に示したマイクロフォンMK41に対応する。TOPマイクロフォン２８は周囲の音を収音し、その結果得られたオーディオ信号を特定音検出部２９に供給する。

　特定音検出部２９は、Lマイクロフォン２１乃至TOPマイクロフォン２８から供給されたオーディオ信号に基づいて特定音を検出し、その検出結果を制御部３６に供給する。

　特定音検出部２９は分配部５１、装着者音声検出部５２、他者音声検出部５３、および移動音検出部５４を有している。

　分配部５１は、Lマイクロフォン２１乃至TOPマイクロフォン２８から供給されたオーディオ信号を装着者音声検出部５２、他者音声検出部５３、および移動音検出部５４へと分配する。すなわち、各マイクロフォンで得られたオーディオ信号が装着者音声検出部５２、他者音声検出部５３、および移動音検出部５４へと振り分けられる。

　例えば分配部５１はLマイクロフォン２１、Rマイクロフォン２２、およびBTMマイクロフォン２５から供給された各オーディオ信号を装着者音声検出部５２に供給する。

　また、例えば分配部５１はLマイクロフォン２１、FBLマイクロフォン２３、BTMマイクロフォン２５、およびTOPマイクロフォン２８から供給された各オーディオ信号を他者音声検出部５３に供給する。

　さらに、例えば分配部５１はLマイクロフォン２１、Rマイクロフォン２２、FRTマイクロフォン２６、およびREAマイクロフォン２７から供給された各オーディオ信号を移動音検出部５４に供給する。

　装着者音声検出部５２は、例えば機械学習等により得られたニューラルネットワーク等により構成される検出器、すなわちニューラルネットワーク構造の検出器などにより構成される。

　装着者音声検出部５２は、分配部５１から供給されたオーディオ信号に基づいて、ヘッドフォン１１の装着者の声を特定音として検出し、その検出結果を制御部３６に供給する。

　例えば装着者音声検出部５２を構成する検出器は、L位置、R位置、およびBTM位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音であるヘッドフォン１１の装着者の声が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。

　他者音声検出部５３は、例えば機械学習等により得られたニューラルネットワーク構造の検出器などからなり、分配部５１から供給されたオーディオ信号に基づいて、ヘッドフォン１１の装着者以外の人の声を特定音として検出し、その検出結果を制御部３６に供給する。

　例えば他者音声検出部５３を構成する検出器は、L位置、FBL位置、BTM位置、およびTOP位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音であるヘッドフォン１１の装着者以外の人の声が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。

　さらに移動音検出部５４は、例えば機械学習等により得られたニューラルネットワーク構造の検出器などからなり、分配部５１から供給されたオーディオ信号に基づいて、車両の走行音や警笛音などの特定の移動音を特定音として検出し、その検出結果を制御部３６に供給する。

　例えば移動音検出部５４を構成する検出器は、L位置、R位置、FRT位置、およびREA位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音である移動音が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。

　なお、装着者音声検出部５２乃至移動音検出部５４から出力される各特定音の検出結果を示す情報は、例えば0％から100％までの間の確率の値を示す情報とされる。しかし、これに限らず、特定音の検出結果を示す情報は、収音された音から特定音が検出されたか否かを示すフラグ情報などであってもよい。

　また、ここでは互いに異なる３つの特定音が検出される例について説明するが、特定音検出部２９で検出対象とされる特定音は１つであってもよいし、複数であってもよい。

　外音部３０は、Lマイクロフォン２１およびRマイクロフォン２２から供給されたオーディオ信号を、ヘッドフォン１１周囲の外音（外部音）である外音信号とし、それらの外音信号を制御部３６に供給する。

　記録部３１は、音楽を再生するための音楽信号を保持（記録）しており、保持している音楽信号を必要に応じてノイズキャンセル部３２および制御部３６に供給する。

　ノイズキャンセル部３２は、Lマイクロフォン２１、Rマイクロフォン２２、FBLマイクロフォン２３、およびFBRマイクロフォン２４から供給されたオーディオ信号と、記録部３１から供給された音楽信号とに基づいて、ヘッドフォン１１周囲の音（外音）をキャンセルするためのノイズキャンセル信号を生成し、制御部３６に供給する。

　具体的には、例えばノイズキャンセル部３２は、Lマイクロフォン２１およびRマイクロフォン２２から供給されたオーディオ信号の正負を反転させた信号を反転信号として生成する。また、ノイズキャンセル部３２は、FBLマイクロフォン２３およびFBRマイクロフォン２４から供給されたオーディオ信号から音楽信号を減算し、その結果得られた信号の正負を反転させることで減算反転信号を生成する。そしてノイズキャンセル部３２は、このようにして得られた反転信号と減算反転信号を加算し、ノイズキャンセル信号とする。

　通話部３３はBTMマイクロフォン２５、FRTマイクロフォン２６、およびREAマイクロフォン２７からのオーディオ信号と、受信部３４から供給されたヘッドフォン１１の装着者の通話相手の音声信号とを加算して通話信号を生成し、制御部３６に供給する。

　受信部３４は、ヘッドフォン１１の装着者の通話相手が操作する携帯電話機等の機器から無線通信により送信されてきた通話相手の音声の音声信号を受信し、通話部３３に供給する。

　モード切替部３５は、ヘッドフォン１１の動作モードを、音楽再生モードまたは通話モードの何れかに切り替えて、切り替え後の動作モードを示す識別情報を制御部３６に供給する。

　例えば音楽再生モードは、ヘッドフォン１１において記録部３１に保持されている音楽信号に基づいて音楽を再生する動作モードである。これに対して、通話モードはヘッドフォン１１の装着者と通話相手との間の音声通話を実現する動作モードである。

　制御部３６は、ヘッドフォン１１全体の動作を制御する。

　例えば制御部３６は、装着者音声検出部５２乃至移動音検出部５４からの検出結果と、モード切替部３５からの識別情報とに基づいて、外音部３０からの外音信号、記録部３１からの音楽信号、ノイズキャンセル部３２からのノイズキャンセル信号、および通話部３３からの通話信号を重み付き加算することで、重み付き加算信号を生成する。また、制御部３６は、得られた重み付き加算信号をスピーカ３７に供給する。

　スピーカ３７は、制御部３６から供給された重み付き加算信号に基づいて音を出力する。これにより、例えば音楽や通話相手との間の通話音声などが再生される。

　例えば制御部３６において行われる外音信号、音楽信号、ノイズキャンセル信号、および通話信号の重み付き加算では、次式（１）の計算が行われて重み付き加算信号sig_w[i]が算出（生成）される。

　なお、式（１）においてiは各信号の時間サンプルインデックスを示している。また、式（１）においてsig_ambient[i]、sig_music[i]、sig_noise[i]、およびsig_tel[i]は、それぞれ外音信号、音楽信号、ノイズキャンセル信号、および通話信号を示している。

　さらに、式（１）においてA、M、N、およびTは重み係数を示している。例えばこれらの重み係数A、M、N、およびTは、動作モードを示す識別情報と、装着者音声検出部５２乃至移動音検出部５４からの各特定音の検出結果とに基づいて決定される。

　具体的には、例えば識別情報により示される動作モードが音楽再生モードであり、かつ装着者音声検出部５２乃至移動音検出部５４から供給された各特定音の検出結果を示す確率が全て90％未満であったとする。ここでは、制御部３６においては特定音の検出結果を示す確率が所定の閾値である「90％」以上であったときに、特定音が検出されたとされる。

　このような場合、制御部３６は重み係数A＝0.0、M＝1.0、N＝1.0、およびT＝0.0として式（１）の計算を行う。

　この例では、動作モードが音楽再生モードであり、かつヘッドフォン１１の周囲からはヘッドフォン１１の装着者の声も、それ以外の人の声も、移動音も検出されていない状態である。そこで、制御部３６は音楽信号sig_music[i]とノイズキャンセル信号sig_noise[i]のみを同じ重みで加算して重み付き加算信号sig_w[i]とする。

　このようにすることで、スピーカ３７が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリングが実現されて、ヘッドフォン１１の装着者には音楽のみが聞こえるようになり、装着者（ユーザ）は再生中の音楽に集中することができる。すなわち、この場合、ノイズキャンセル信号sig_noise[i]に基づく音によりノイズである外音がキャンセルされ、音楽信号sig_music[i]により音楽が再生される。

　また、例えば装着者音声検出部５２からの検出結果、または他者音声検出部５３からの検出結果により示される確率が90％以上であり、かつ識別情報により示される動作モードが音楽再生モードであるとする。

　すなわち、音楽再生モードであるときに特定音としてヘッドフォン１１の装着者の声、またはヘッドフォン１１の装着者以外の人の声が検出されたとする。

　そのような場合、制御部３６は重み係数A＝0.5、M＝0.5、N＝0.0、およびT＝0.0として式（１）の計算を行う。したがって、この場合、外音信号sig_ambient[i]と音楽信号sig_music[i]のみが同じ重みで加算されて重み付き加算信号sig_w[i]とされる。

　このようにすることで、スピーカ３７が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリング機能は一時的に停止されて音楽とともに外音、つまりヘッドフォン１１の装着者や装着者以外の人の声も同時に再生されるようになる。これにより、ヘッドフォン１１の装着者に音楽だけでなく外音もはっきりと聞こえるようにし、他者との会話をしやすくすることができる。

　さらに、例えば識別情報により示される動作モードが音楽再生モードであり、かつ移動音検出部５４から供給された特定音（移動音）の検出結果を示す確率が90％以上であるとする。つまり、ヘッドフォン１１の周囲で移動音が検出されたとする。

　そのような場合、制御部３６は重み係数A＝1.0、M＝0.0、N＝0.0、およびT＝0.0として式（１）の計算を行う。したがって、この場合、外音信号sig_ambient[i]がそのまま重み付き加算信号sig_w[i]とされる。

　このようにすることで、スピーカ３７が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ヘッドフォン１１の装着者には外音、つまり移動音のみが聞こえるようになる。これにより、ヘッドフォン１１の装着者は、はっきりと外音である車両の走行音や警笛音等の移動音を聞き取ることができ、容易に危険を察知することができるようになる。

　また、例えば識別情報により示される動作モードが通話モードであり、かつ移動音検出部５４から供給された特定音（移動音）の検出結果を示す確率が90％未満であるとする。つまり、ヘッドフォン１１の周囲で移動音が検出されておらず、ヘッドフォン１１の装着者の周囲は安全な状態であるとする。

　そのような場合、制御部３６は重み係数A＝0.0、M＝0.0、N＝1.0、およびT＝1.0として式（１）の計算を行う。したがって、この場合、ノイズキャンセル信号sig_noise[i]と通話信号sig_tel[i]のみが同じ重みで加算されて重み付き加算信号sig_w[i]とされる。

　このようにすることで、スピーカ３７が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリングが実現されて、ヘッドフォン１１の装着者には通話相手との通話音声のみが聞こえるようになる。これにより、ヘッドフォン１１の装着者は、通話相手との音声通話に集中することができる。

　その他、例えば識別情報により示される動作モードが通話モードであり、かつ移動音検出部５４から供給された特定音（移動音）の検出結果を示す確率が90％以上であるとする。つまり、ヘッドフォン１１の周囲で移動音が検出されたとする。

　このようにすることで、スピーカ３７が重み付き加算信号sig_w[i]に基づいて音を再生すれば、通話相手との音声通話は中断され、ヘッドフォン１１の装着者には外音、つまり移動音のみが聞こえるようになる。これにより、ヘッドフォン１１の装着者は、はっきりと外音である車両の走行音や警笛音等の移動音を聞き取ることができ、容易に危険を察知することができるようになる。

　以上のように、制御部３６は各動作モードで動作しているときに、１または複数の各特定音の検出結果に応じて、実行する処理を切り替える。このようにすることで、周囲の状況に応じて適切に安全を確保したり、会話をしやすくしたりすることができ、ヘッドフォン１１の使い勝手を向上させることができる。

〈特定音検出処理の説明〉
　続いて、ヘッドフォン１１が特定音を検出する処理である特定音検出処理について説明する。すなわち、以下、図１２のフローチャートを参照して、ヘッドフォン１１による特定音検出処理について説明する。

　ステップＳ１１においてLマイクロフォン２１乃至TOPマイクロフォン２８は、周囲の音を収音し、その結果得られたオーディオ信号を出力する。

　ここでは、Lマイクロフォン２１乃至TOPマイクロフォン２８で得られたオーディオ信号が分配部５１等へと供給される。すると、分配部５１はLマイクロフォン２１乃至TOPマイクロフォン２８から供給されたオーディオ信号を装着者音声検出部５２、他者音声検出部５３、および移動音検出部５４へと分配する。

　ステップＳ１２において装着者音声検出部５２乃至移動音検出部５４は、分配部５１から供給されたオーディオ信号に基づいて特定音を検出し、その検出結果を制御部３６に供給する。

　例えば装着者音声検出部５２は、分配部５１から供給されたオーディオ信号、すなわちLマイクロフォン２１、Rマイクロフォン２２、およびBTMマイクロフォン２５で得られた各オーディオ信号を検出器に代入して演算を行うことで、特定音としてのヘッドフォン１１の装着者の声の検出結果を示す確率を算出する。

　同様に、他者音声検出部５３や移動音検出部５４も分配部５１から供給されたオーディオ信号を検出器に代入して演算を行い、特定音としてのヘッドフォン１１の装着者以外の人の声や移動音の検出結果を示す確率を得る。

　ステップＳ１３において制御部３６は、モード切替部３５から供給された識別情報と、装着者音声検出部５２乃至移動音検出部５４から供給された検出結果とに基づいて、特定音の検出結果に応じた処理を行い、特定音検出処理は終了する。換言すれば、制御部３６は、特定音の検出結果に応じて、実行する処理を切り替える。

　例えば制御部３６は、上述したように識別情報と検出結果とに基づいて決定された重み係数に基づいて式（１）の計算を行い、その結果得られた重み付き加算信号をスピーカ３７に供給して音を出力させる。

　以上のようにしてヘッドフォン１１は、適切に配置された複数のマイクロフォンにより周囲の音を収音し、その結果得られたオーディオ信号に基づいて特定音を検出する。このように、適切な配置位置の複数のマイクロフォンを用いることで誤検出の発生を抑制し、特定音の検出性能を向上させることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　特定音検出器。
（２）
　前記特定音検出部は、ニューラルネットワーク構造の検出器により構成される
　（１）に記載の特定音検出器。
（３）
　前記特定音は、前記ウェアラブルデバイスの装着者の声である
　（１）または（２）に記載の特定音検出器。
（４）
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、ノイズキャンセリング用のフィードバックマイクロフォンである
　（１）乃至（３）の何れか一項に記載の特定音検出器。
（５）
　前記所定位置に配置された前記１個の前記マイクロフォンは前記フィードバックマイクロフォンである
　（４）に記載の特定音検出器。
（６）
　前記フィードバックマイクロフォンは、前記ウェアラブルデバイスの筐体の内側に配置されている
　（４）または（５）に記載の特定音検出器。
（７）
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、骨伝導マイクロフォンである
　（１）乃至（３）の何れか一項に記載の特定音検出器。
（８）
　前記所定位置に配置された前記１個の前記マイクロフォンは前記骨伝導マイクロフォンである
　（７）に記載の特定音検出器。
（９）
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、通話用マイクロフォンである
　（１）乃至（３）の何れか一項に記載の特定音検出器。
（１０）
　前記所定位置に配置された前記１個の前記マイクロフォンは前記通話用マイクロフォンである
　（９）に記載の特定音検出器。
（１１）
　前記所定位置は、前記ウェアラブルデバイスの装着者の口からの距離が、前記２個の前記マイクロフォンから前記装着者の口までの距離よりも短くなる位置である
　（１０）に記載の特定音検出器。
（１２）
　前記２個の前記マイクロフォンは、ノイズキャンセリング用のフィードフォワードマイクロフォンである
　（１）乃至（１１）の何れか一項に記載の特定音検出器。
（１３）
　前記複数の前記マイクロフォンには、前記２個の前記マイクロフォンおよび前記所定位置に配置された前記１個の前記マイクロフォンとは異なり、装着者が前記ウェアラブルデバイスを装着している状態で前記装着者の頭頂部近傍に配置される１個の前記マイクロフォンが含まれている
　（１）乃至（１２）の何れか一項に記載の特定音検出器。
（１４）
　前記特定音の検出結果に応じて、実行する処理を切り替える制御部をさらに備える
　（１）乃至（１３）の何れか一項に記載の特定音検出器。
（１５）
　特定音検出器が、
　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出し、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　特定音検出方法。
（１６）
　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含む処理をコンピュータに実行させ、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　プログラム。

　１１　ヘッドフォン，　２１　Lマイクロフォン，　２２　Rマイクロフォン，　２３　FBLマイクロフォン，　２４　FBRマイクロフォン，　２５　BTMマイクロフォン，　２６　FRTマイクロフォン，　２７　REAマイクロフォン，　２８　TOPマイクロフォン，　２９　特定音検出部，　３６　制御部，　５２　装着者音声検出部，　５３　他者音声検出部，　５４　移動音検出部

Claims

　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　特定音検出器。
　前記特定音検出部は、ニューラルネットワーク構造の検出器により構成される
　請求項１に記載の特定音検出器。
　前記特定音は、前記ウェアラブルデバイスの装着者の声である
　請求項１に記載の特定音検出器。
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、ノイズキャンセリング用のフィードバックマイクロフォンである
　請求項１に記載の特定音検出器。
　前記所定位置に配置された前記１個の前記マイクロフォンは前記フィードバックマイクロフォンである
　請求項４に記載の特定音検出器。
　前記フィードバックマイクロフォンは、前記ウェアラブルデバイスの筐体の内側に配置されている
　請求項４に記載の特定音検出器。
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、骨伝導マイクロフォンである
　請求項１に記載の特定音検出器。
　前記所定位置に配置された前記１個の前記マイクロフォンは前記骨伝導マイクロフォンである
　請求項７に記載の特定音検出器。
　前記複数の前記マイクロフォンのうちの少なくとも１つの前記マイクロフォンは、通話用マイクロフォンである
　請求項１に記載の特定音検出器。
　前記所定位置に配置された前記１個の前記マイクロフォンは前記通話用マイクロフォンである
　請求項９に記載の特定音検出器。
　前記所定位置は、前記ウェアラブルデバイスの装着者の口からの距離が、前記２個の前記マイクロフォンから前記装着者の口までの距離よりも短くなる位置である
　請求項１０に記載の特定音検出器。
　前記２個の前記マイクロフォンは、ノイズキャンセリング用のフィードフォワードマイクロフォンである
　請求項１に記載の特定音検出器。
　前記複数の前記マイクロフォンには、前記２個の前記マイクロフォンおよび前記所定位置に配置された前記１個の前記マイクロフォンとは異なり、装着者が前記ウェアラブルデバイスを装着している状態で前記装着者の頭頂部近傍に配置される１個の前記マイクロフォンが含まれている
　請求項１に記載の特定音検出器。
　前記特定音の検出結果に応じて、実行する処理を切り替える制御部をさらに備える
　請求項１に記載の特定音検出器。
　特定音検出器が、
　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出し、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　特定音検出方法。
　ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含む処理をコンピュータに実行させ、
　前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい２個の前記マイクロフォンと、所定位置に配置された１個の前記マイクロフォンとからなる
　プログラム。