WO2023053559A1

WO2023053559A1 - 音声処理装置、音声処理プログラム、音声処理方法及び装着体

Info

Publication number: WO2023053559A1
Application number: PCT/JP2022/020062
Authority: WO
Inventors: 高詩石黒; 大藤枝; 宗大原; 悠介 ▲高▼橋
Original assignee: 沖電気工業株式会社
Priority date: 2021-09-30
Filing date: 2022-05-12
Publication date: 2023-04-06
Also published as: JP2023050963A

Abstract

【課題】装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音する。【解決手段】本発明は、音声処理装置に関する。本発明の音声処理装置は、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、それぞれのマイクロホンアレイから供給される入力信号に基づいて、それぞれのマイクロホンアレイからユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれのマイクロホンアレイの指向性が、目的エリアを含む１つの領域でのみ重複することを特徴とする。

Description

音声処理装置、音声処理プログラム、音声処理方法及び装着体

　本発明は、音声処理装置、音声処理プログラム、音声処理方法及び装着体に関し、例えば、装着体を装着したユーザ（装着者）の発話する音声を収音する収音処理に適用し得る。

　従来、イヤホン（スピーカ）及びマイクを備える装着体（例えば、ヘッドセット型、ヘッドホン型、ネックバンド型等の形状の装着体）を用いて、当該装着体を装着するユーザ（装着者）の発話する音声を収音する技術として特許文献１、２の記載技術が存在する。

　特許文献１では、ネックバンド型の装着体を用いてユーザの発話する音声を収音する装置について記載されている。特許文献１の記載技術では、ネックバンド型の装着体において２つのマイクロホンが直線的に配置されており、第１のマイクロホンがユーザの口側を向くように配置され、第２のマイクロホンがユーザの足側を向くように配置されている。そして、特許文献１の記載技術では、上記の２つのマイクロホンで捕捉した音響信号にビーム形成処理を施すことにより、ユーザの口の方向から到来するユーザの発話音声を強調すると共に、ユーザの足側から到来する雑音成分を抑圧している。

　特許文献２では、ヘッドホン型の装着体を用いて、ユーザの発話する音声を収音する装置について記載されている。特許文献２に記載されたヘッドホンでは、左右のイヤーカップのそれぞれにマイクロホンアレイが搭載されている。そして、特許文献２の記載技術では、左右２つのマイクロホンアレイから供給される音響信号に対してユーザの口の方向における音響応答を増強するビーム形成処理を施し、それぞれのビーム形成処理の出力を帯域ごとに加算することによりユーザの発話音声の成分を強調した信号を取得する。さらに、特許文献２の記載技術では、装着体に付けられた１以上のマイクロホンを用いて背景雑音ノイズ（基準信号）を取得し、適用フィルタを用いてユーザの発話音声の成分を強調した音声強調信号から音声成分を推定（背景雑音ノイズの成分を抑制）する。

国際公開第２０１６／０６３５８７号特開２０２１－０８９４４１号公報

　特許文献１、２の記載技術では、いずれもマイクロホンアレイ（複数のマイクロホン）から供給される音響信号に対してビーム形成処理を施すことで、装着体のユーザの発話音声を強調している。しかしながら、特許文献１、２に記載されたビーム形成処理で強調されるのは、マイクロホンアレイからユーザの口元への方向から到来する音響の成分であるため、その延長線上から到来する雑音についても強調されることになる。例えば、特許文献２の記載技術のように、左右２つのマイクロホンアレイから供給される音響信号に対してビーム形成処理を施した信号をサブ帯域ごとに加算するたけでは、ユーザの口元だけでなく、ビーム形成の範囲にある雑音や周囲の話し声（ユーザの周囲に存在する他人の話し声）も強調してしまうことになる。

　また、特許文献２の記載技術では、適応フィルタを用いて、音声強調信号の音声成分を推定しているが、一般的に適応フィルタを用いて音声成分を推定するには信号処理が複雑であり多くの演算リソースを必要とする。したがって、特許文献２の記載技術のように、適応フィルタを用いて音声成分を推定する際に、十分な演算リソースが確保できない場合、適応フィルタが最適解に収束せず、学習結果が発散し、出力信号の品質（推定精度）が劣化する（例えば、音声推定値において、目的音が減衰してしまったり、雑音が大きくなってしまう）おそれがある。

　以上のような問題に鑑みて、装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音することができる音声処理装置、音声処理プログラム、音声処理方法及び装着体が望まれている。

　第１の本発明の音声処理装置は、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　第２の本発明の音声処理プログラムは、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体を備える音声処理装置に搭載されたコンピュータを、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　第３の本発明は、音声処理装置が行う音声処理方法において、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、エリア収音手段とを備え、前記エリア収音手段は、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　第４の本発明は、ユーザの身体に装着される装着体において、複数のマイクロホンアレイを備え、それぞれの前記マイクロホンアレイの入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へビームフォーマ出力の指向性を形成する場合に、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複するように、それぞれの前記マイクロホンアレイが配置されていることを特徴とする。

　第５の本発明の音声処理装置は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　第６の本発明の音声処理プログラムは、コンピュータを、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　第７の本発明は、音声処理装置が行う音声処理方法において、エリア収音手段を備え、前記エリア収音手段は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複することを特徴とする。

　本発明によれば、装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音することができる。

　さらに、複数のマイクロホンアレイの指向性が重複する目的エリア、すなわち、ユーザの口元周辺だけを強調するので、ユーザの周囲の雑音や話し声（ユーザの周囲に存在する他人の話し声）を収音するのを防止することが出来る。

　従って、在宅勤務テレワーク及びオフィス内のWeb会議向けマイクや、騒々しい環境に設置される案内端末のマイクとして利用でき、在宅勤務でのプライバシー保護や、オフィスでの機密情報保護や、案内端末でのハンズフリー通話・非対面の接客実現に寄与する。

　在宅勤務テレワークのWeb会議向けマイクに適用すると、家族の声、ペットの声、防災無線、救急車のサイレンなどのプライバシーに関わる情報が会議相手に伝わってしまう課題を解決できる。

　オフィス内のWeb会議向けマイクに適用すると、周囲で話している機密情報や雑談が会議相手に伝わってしまう課題を解決できる。

　騒々しい環境下にある案内端末等のマイクとして適用すると、周囲の騒音を抑圧できるので、端末利用者と遠隔地にいるオペレータとのスムースな会話が可能になる。さらに、音声認識も支障なく利用することが可能となる。

第１の実施形態に係る音声処理装置の機能的構成を示すブロック図である。第１の実施形態に係る装着体（その１）を装着したユーザを正面方向から見た図である。第１の実施形態に係る装着体（その１）を装着したユーザを上方向（頭上）から見た図である。第１の実施形態に係る減算型ビームフォーマに係る構成を示すブロック図である。第１の実施形態に係る減算型ビームフォーマにより形成される指向性について示した図である。第１の実施形態に係る減算型ビームフォーマにより形成される指向性について示した図である。第１の実施形態に係るマイクロホンアレイの構成例について示した図である。第１の実施形態に係るマイクロホンアレイのビームフォーマ出力について周波数領域で示したグラフ（イメージ図）である。第１の実施形態に係るマイクロホンアレイのビームフォーマ出力について周波数領域で示したグラフ（イメージ図）である。第１の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図（イメージを図）である。第１の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図（イメージを図）である。第１の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図（イメージを図）である。第１の実施形態に係る装着体（その２）を装着したユーザを正面方向から見た図である。第１の実施形態に係る装着体（その２）を装着したユーザを上方向（頭上）から見た図である。複数の領域で装着体に付けられたマイクロホンアレイの指向性が重複する例について示した図である。第２の実施形態に係る音声処理装置の機能的構成を示すブロック図である。第２の実施形態に係る装着体をユーザが装着した状態について示した図である。第３の実施形態に係る音声処理装置の機能的構成を示すブロック図である。第３の実施形態に係る装着体をユーザが装着した状態について示した図である。第４の実施形態に係る装着体（その１）をユーザが装着した状態について示した図である。第４の実施形態に係る装着体（その２）をユーザが装着した状態について示した図である。第４の実施形態に係る装着体（その３）をユーザが装着した状態について示した図である。実施形態の変形実施例に係るマイクロホンアレイの構成（その１）について示した図である。実施形態の変形実施例に係るマイクロホンアレイの構成（その１）について示した図である。実施形態の変形実施例に係るマイクロホンアレイの構成（その２）について示した図である。第１の実施形態に係る装着体の変形実施例（その１）について示した図である。第１の実施形態に係る装着体の変形実施例（その２）について示した図である。

　（Ａ）第１の実施形態
　以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第１の実施形態を、図面を参照しながら詳述する。

　（Ａ－１）実施形態の構成
　図１は、この実施形態に係る音声処理装置１の機能的構成を示すブロック図である。

　音声処理装置１は、収音処理部１０、装着体２０、及び再生処理部３０を有している。

　装着体２０は、ユーザＵＳの頭部に装着可能なデバイスである。

　次に、図１～図３を用いて、装着体２０の構成概要について説明する。

　図２、図３は、ユーザＵＳに装着体２０を装着させた状態で示した図である。

　図２はユーザＵＳを正面方向から見た図となっており、図３はユーザＵＳを上側から見た図となっている。図２、図３に示すように、装着体２０は、ヘッドホン機能及びマイク機能を備えるデバイス（いわゆるヘッドセット型のデバイス）となっている。

　装着体２０は、ユーザＵＳの発話する音声（以下、「発話音声」とよぶ）を捕捉するためのマイクロホンアレイ部２１と、供給された音響信号に基づく音響をユーザＵＳへ向けて放出するスピーカ部２２とを有している。マイクロホンアレイ部２１は複数のマイクロホンＭにより構成されるマイクロホンアレイＭＡを複数備えている。この実施形態では、マイクロホンアレイ部２１は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を備えているものとする。マイクロホンアレイＭＡ１、ＭＡ２は、それぞれ２つのマイクロホンＭ（Ｍ１、Ｍ２）を備えているものとする。言い換えると、マイクロホンアレイ部２１は、計４つのマイクロホンＭを備えている。なお、各マイクロホンアレイＭＡが備えるマイクロホンＭの数は３以上であってもよい。マイクロホンアレイ部２１を構成する各マイクロホンＭが捕捉した音響に基づく音響信号は、収音処理部１０に供給されることになる。各マイクロホンＭ（Ｍ１、Ｍ２）については、例えば、指向性を持たない全指向性マイク（例えば、全指向性のＭＥＭＳ（Ｍｉｃｒｏ　Ｅｌｅｒｃｔｒｏｎｉｃｓ　Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍ）マイク）を適用することができる。

　スピーカ部２２は、ユーザＵＳの右耳用の右スピーカＳＰ＿Ｒと左耳用の左スピーカＳＰ＿Ｌを備えている。この実施形態では、スピーカ部２２は２つのスピーカを備える構成としているが、スピーカの数や構成については限定されないものである。例えば、スピーカ部２２は、右スピーカＳＰ＿Ｒ又は左スピーカＳＰ＿Ｌの一方のみを備える構成としてもよい。

　図２、図３に示すように、装着体２０ではマイクロホンアレイ部２１及びスピーカ部２２が取り付けされている。

　図２、図３に示すように、装着体２０は、ユーザＵＳの右耳に被せる右イヤーカップ２０１、ユーザＵＳの左耳に被せる左イヤーカップ２０２、及びヘッドバンド部２０３を有している。ヘッドバンド部２０３の両端部には、それぞれ右イヤーカップ２０１と左イヤーカップ２０２とが付けられている。右イヤーカップ２０１、左イヤーカップ２０２の内側には、それぞれ右スピーカＳＰ＿Ｒ、左スピーカＳＰ＿Ｌが取付されている。

　右イヤーカップ２０１には、マイクロホンアレイＭＡ１、ＭＡ２を支持する支持部材２０５が取り付けされている。支持部材２０５は湾曲した形状を保持可能なワイヤ形状の部材であり、一端が右イヤーカップ２０１に固定され、他端にマイクロホンアレイＭＡ１を収容した筐体２０７が取り付けられている。右イヤーカップ２０１の外側（ユーザＵＳから見て外側）の表面には、支持部材２０５の一端を取り付けするための突起形状の支持部２０４が形成されている。支持部２０４は、右イヤーカップ２０１に回動自在に取り付けされていてもよい。また、支持部材２０５は、ユーザＵＳの口部分ＵＭの周囲に沿って湾曲した形状のワイヤ（湾曲した形状を保持し得るワイヤ）である。例えば、支持部材２０５は、金属製でもよいし、弾力性のある樹脂製としてもよい。筐体２０７には、連結部２０６を介してマイクロホンアレイＭＡ２を収容した筐体２０８が連結されている。連結部２０６は、支持部材２０５と同様のワイヤで構成するようにしてもよい。

　図２、図３に示すように、筐体２０７、２０８（マイクロホンアレイＭＡ１、ＭＡ２）は、ユーザＵＳの口部分ＵＭの周囲に沿った位置に並べて配置されるように、支持部２０４、支持部材２０５及び連結部２０６により支持されている。マイクロホンアレイＭＡ１、ＭＡ２の配置設計の詳細については後述する。

　次に、収音処理部１０の構成概要について説明する。

　収音処理部１０は、データ入力部１１、エリア収音処理部１２、及び出力部１３を有している。

　収音処理部１０は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。音声処理装置１は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の音声処理プログラムを含む）をインストールすることにより構成するようにしてもよい。

　データ入力部１１は、マイクロホンアレイ部２１（この実施形態ではマイクロホンアレイＭＡ１、ＭＡ２）で捕捉した音響信号をアナログ信号からディジタル信号に変換してエリア収音処理部１２に供給する。以下では、データ入力部１１から、エリア収音処理部１２に供給される信号（ディジタル信号）を「入力信号」と呼ぶものとする。

　エリア収音処理部１２は、各マイクロホンアレイＭＡの入力信号から、目的エリア内の音源からの音（以下、「目的エリア音」と呼ぶ）を収音する処理（以下、「エリア音収音処理」と呼ぶ）により目的エリア音を抽出した信号（以下、「目的エリア音抽出信号」と呼ぶ）を取得し、出力部１３に供給する。

　ここでは、エリア収音処理部１２がエリア収音処理を行う際の目的エリアはユーザＵＳの口部分ＵＭの周辺であるものとする。図３では、口部分ＵＭの周辺の領域を目的エリアＴＡとして図示している。図３では、目的エリアＴＡの領域を点線で囲って図示している。したがって、この実施形態では、目的エリアＴＡの周囲を囲うようにマイクロホンアレイＭＡ１、ＭＡ２を並べて配置することになる。エリア収音処理部１２が行うエリア収音処理の詳細については後述する。

　出力部１３は、供給された目的エリア音抽出信号を所定の方式／形式で出力する。出力部１３が出力する信号（以下、「出力信号」とも呼ぶものとする）の形式は限定されないものであり、種々の形式を適用することができる。例えば、出力部１３は、出力信号を所定の形式のディジタル音響信号（例えば、ＰＣＭ形式の信号）や所定のコーデックにより符号化して出力（出力する方式については限定されない）するようにしてもよい。また、出力部１３は、出力信号を、アナログ音響信号として出力（例えば、図示しないスピーカに出力）するようにしてもよい。さらに、出力部１３は、出力信号を周波数領域の形式で出力するようにしてもよいし時間領域の形式で出力するようにしてもよい。

　次に、再生処理部３０の構成について説明する。

　再生処理部３０は、外部から供給された再生用の音響信号（例えば、外部のコンピュータ等から供給されたディジタル信号）をアナログ信号（右スピーカＳＰ＿Ｒ用のアナログ信号、及び左スピーカＳＰ＿Ｌ用アナログ信号）に変換し、スピーカ部２２（右スピーカＳＰ＿Ｒ、左スピーカＳＰ＿Ｌ）に供給する。再生処理部３０は、例えば、単独のハードウェア（例えば、単独の半導体チップ）で構成するようにしてもよいし、収音処理部１０と同じコンピュータ上に搭載するようにしてもよい。

　収音処理部１０及び再生処理部３０は、装着体２０に内蔵させるようにしてもよいし、装着体２０とは別のコンピュータ（例えば、スマートホン、タブレット、ＰＣ等のコンピュータ）に搭載させるようにしてもよい。

　次に、エリア収音処理部１２が行うエリア収音処理の方式について説明する。

　エリア収音処理部１２では、種々のエリア収音処理を適用することができる。例えば、エリア収音処理部１２では、特開２０１７－１８１７６１号公報（以下、「参考文献１」と呼ぶ）等に記載されたエリア収音処理を適用することができる。

　以下、エリア収音処理部１２に適用されるエリア収音処理の具体例について説明する。

　複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（Ｂｅａｍ　Ｆｏｒｍｅｒ；以下「ＢＦ」と表す）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。

　ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で鋭い指向性を形成できるという利点がある。

　図４は、減算型ＢＦに係る構成を示すブロック図である。

　図４では、マイクロホン数が２個（マイクロホンＭ１、Ｍ２）のマイクロホンアレイＭＡからの入力信号を処理する減算型ＢＦの構成例について示している。

　減算型ＢＦは、まず遅延器により目的とする方向に存在する音（以下、「目的音」とも呼ぶ）が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。減算型ＢＦの遅延器では、時間差は下記（１）式により算出される。

　下記の（１）式において、ｄはマイクロホン間の距離、ｃは音速、τ_Lは遅延量である。また、下記の（１）式において、θ_Ｌは、マイクロホンＭ１、Ｍ２間を結んだ直線に対する垂直方向から目的方向（目的エリアＴＡ）への角度である。
　τ_Ｌ＝（ｄｓｉｎθ_Ｌ）／ｃ…（１）

　ここで、死角が第１のマイクロホンＭ１と第２のマイクロホンＭ２の中心に対し、第１のマイクロホンの方向に存在する場合、減算型ＢＦにおける遅延器は、第１のマイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、遅延処理された入力信号ｘ_１（ｔ）は、（２）式に従い減算処理される。
　Ａ（ｔ）＝ｘ_２（ｔ）－ｘ_１（ｔ－τ_Ｌ）…（２）

　減算処理は周波数領域でも同様に行うことができ、その場合（２）式は以下の（３）式のように変更される。

　図５Ａおよび図５Ｂは、図４に示す減算型ＢＦにより形成される指向性について示した図である。

　図５Ａはθ_Ｌ＝±π／２とした場合における減算型ＢＦの指向性について示しており、図５Ｂはθ_Ｌ＝０，πとした場合における減算型ＢＦの指向性について示している。図５では、減算型ＢＦにおける各方向の指向性（マイクロホンＭ１、Ｍ２の周囲における指向性）の分布を破線で図示している。

　ここでθ_Ｌ＝±π／２の場合、形成される指向性は図５Ａに示すように、カージオイド型の単一指向性となり、θ_Ｌ＝０，πの場合は、図５Ｂのような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。

　またスペクトル減算法（Ｓｐｅｃｔｒａｌ　Ｓｕｂｔｒａｃｔｉｏｎ；以下、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性の形成は、（４）式に従う。（４）式では、第１のマイクロホンＭ１の入力信号Ｘ_１を用いているが、第２のマイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。（４）式において、βはＳＳの強度を調節するための係数である。減算時に値がマイナスとなった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行うようにしてもよい。この方式は、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」とも呼ぶ）を抽出し、抽出した非目的音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的エリアＴＡを音源とする目的エリア音を強調することができる。
　｜Ｙ_１（ω）｜＝｜Ｘ_１（ω）｜－β｜Ａ_１（ω）｜…（４）

　目的エリアＴＡを音源とする目的エリア音だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源の音（以下、「非目的エリア音」とも呼ぶ）も収音してしまう可能性がある。そこで、上記の参考文献１等のエリア収音処理では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアＴＡへ指向性を向け、指向性を目的エリアＴＡで重複させることで目的エリア音を収音する。

　図６は、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリアＴＡの音源からの目的エリア音を収音する場合における各マイクロホンアレイＭＡ１、ＭＡ２の構成例について示した説明図である。

　図７Ａおよび図７Ｂは、図６に示すマイクロホンアレイＭＡ１、ＭＡ２のそれぞれのＢＦ出力について周波数領域で示した説明図（グラフ）である。図７Ａ、図７Ｂは、それぞれマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力について周波数領域で示したグラフ（イメージ図）である。

　ここでは、まず各マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例えば、２つのマイクロホンアレイＭＡ１、ＭＡ２を使用する場合、目的エリア音パワーの補正係数は、（５）式または（６）式により算出される。

　ここで｜Ｙ_１ｋ｜，｜Ｙ_２ｋ｜はマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の周波数ｋのパワー、Ｎは周波数ビンの総数、αはＢＦ出力に対するパワー補正係数である。また、ｍｏｄｅは最頻値、ｍｅｄｉａｎは中央値を表している。その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

　図８Ａ、図８Ｂおよび図８Ｃは、図６に示すマイクロホンアレイＭＡ１、ＭＡ２を用いて取得したＢＦ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図（イメージ図）である。

　まず、マイクロホンアレイＭＡ１の入力信号Ｘ１から、非目的エリア音Ｎ２を抑圧したＢＦ出力Ｙ１を得る（図８Ａ参照）。

　マイクロホンアレイＭＡ１からみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出するには、（７）式に示すように、マイクロホンアレイＭＡ１のＢＦ出力Ｙ_２（ｎ）からマイクロホンアレイＭＡ２のＢＦ出力Ｙ_２（ｎ）にパワー補正係数αを掛けたものをＳＳする（図８Ｂ参照）。その後、（８）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出することができる（図８Ｃ参照）。γ（ｎ）はＳＳ時の強度を変更するための係数である。
　Ｎ_１＝Ｙ_１－αＹ_２…（７）
　Ｚ_１＝Ｙ_１－γＮ_１…（８）

　以上のように、エリア収音処理部１２では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に基づいて、目的エリアＴＡに対するエリア収音処理を行うことができる。

　次に、マイクロホンアレイ部２１（マイクロホンアレイＭＡ１、ＭＡ２）の配置設計方針について図３を用いて説明する。

　上記の通り、エリア収音処理部１２は、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力について指向性（収音指向性）の重なる領域を音源とする音を収音する。したがって、収音エリアを目的エリアＴＡに設定するためには、図３に示すように、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性が目的エリアＴＡで重なるようにすることが望ましい。

　図３では、マイクロホンアレイＭＡ１、ＭＡ２において、マイクロホンＭ１とマイクロホンＭ２の位置を結んだ線の中点をそれぞれＰ１０１、Ｐ１０２として図示している。マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性は、それぞれＰ１０１、Ｐ１０２を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。ここでは、マイクロホンアレイＭＡ１の指向性を一点鎖線で示すと共に符号Ｄ１０１を付記するものとする。また、ここでは、マイクロホンアレイＭＡ２の指向性を二点鎖線で示すと共に符号Ｄ１０２を付記するものとする。この実施形態では、図３に示すように、指向性Ｄ１０１、Ｄ１０２が、目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）を含む１つの領域でのみ重複するように設定することで、ユーザＵＳが口部分ＵＭから発する発話音声だけを収音（目的エリア音だけを収音）することができる。

　従って、この実施形態において、装着体２０を、図９、図１０に示すような装着体２０Ａに置き換えるようにしてもよい。

　図９、図１０は、装着体２０Ａの構成について示した図である。

　図９、図１０は、ユーザＵＳに装着体２０Ａを装着させた状態で示した図である。

　図９はユーザＵＳを正面方向から見た図となっており、図１０はユーザＵＳを上側（頭上）から見た図となっている。

　装着体２０では、右イヤーカップ２０１に取り付けられた支持部材２０５に筐体２０７、２０８（マイクロホンアレイＭＡ１、ＭＡ２）が両方連結された構成になっていた。これに対して、装着体２０Ａでは、右イヤーカップ２０１に取り付けられた支持部材２０５には、筐体２０７（マイクロホンアレイＭＡ１）のみが取り付けられており、筐体２０８（マイクロホンアレイＭＡ２）は、左イヤーカップ２０２に取り付けられた支持部材２１０に支持されている。

　左イヤーカップ２０２には、右側の構成（支持部２０４、支持部材２０５及び筐体２０７）と左右対称（ユーザＵＳ（口部分ＵＭ；目的エリアＴＡ）から見て左右対称）となるように、支持部２０９、支持部材２１０及び筐体２０８（マイクロホンアレイＭＡ２）が取り付けされている。支持部２０９及び支持部材２１０は、左右対称であること以外支持部２０４及び支持部材２０５と同様の構成とする。この場合、図９に示すように、マイクロホンアレイＭＡ１、ＭＡ２（筐体２０７、２０８）は、ユーザＵＳの口部分ＵＭ（目的エリアＴＡ）の周囲に沿って配置（周囲を囲うように配置）されており、マイクロホンアレイＭＡ１、ＭＡ２の指向性Ｄ１０１、Ｄ１０２が、いずれもユーザＵＳの口部分ＵＭ（目的エリアＴＡ）に向くように配置されている。したがって、装着体２０Ａのように構成しても、指向性Ｄ１０１、Ｄ１０２（すなわちマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性）が目的エリアＴＡを含む１つの領域でのみ重複する状態とすることができる。

　以上のように、この実施形態では、マイクロホンアレイＭＡ１、ＭＡ２が、目的エリアＴＡの周囲に沿って配置され、マイクロホンアレイＭＡ１、ＭＡ２の指向性は、いずれ目的エリアＴＡに向くように配置されている。これにより、この実施形態では、指向性Ｄ１０１、Ｄ１０２が目的エリアＴＡを含む１つの領域でのみ重複する状態とし、ユーザＵＳの目的エリアＴＡの音声を収音することができる。

　ただし、マイクロホンアレイＭＡ１、ＭＡ２の指向性（Ｄ１０１、Ｄ１０２）が並行又は略並行となる場合には、マイクロホンアレイＭＡ１、ＭＡ２の指向性（Ｄ１０１、Ｄ１０２）が目的エリアＴＡを含む１つの領域でのみ重複する状態にならない（ユーザＵＳの顔の左右にも重複する領域が発生する）ため、そのような状態は避ける必要がある。

　図１１は、マイクロホンアレイＭＡ１、ＭＡ２の指向性（Ｄ１０１、Ｄ１０２）が略並行となった装着体２０Ｂの構成について示している。

　装着体２０Ｂは、装着体２０Ａと比較して、マイクロホンアレイＭＡ１、ＭＡ２の指向性（Ｄ１０１、Ｄ１０２）が略並行となるように取り付けされている点で異なっている。装着体２０Ｂの状態では、マイクロホンアレイＭＡ１、ＭＡ２の指向性（Ｄ１０１、Ｄ１０２）が目的エリアＴＡを含む１つの領域でのみ重複する状態にならないため、エリア収音処理部１２において、目的エリアＴＡ以外の領域の音も収音されてしまうことになる。例えば、１方のマイクロホンアレイから見た場合において、他方のマイクロホンアレイＭＡの目的エリアＴＡの反対側の領域でも指向性が重複する領域が形成される。したがって、装着体２０Ｂの状態では、ユーザＵＳの口部分ＵＭだけでなく、ユーザＵＳの頭部の左右方向にも収音エリアが形成されてしまうことになる。

　以上のように、全てのマイクロホンアレイＭＡの指向性が並行する状態又は略並行する状態となると、目的エリアＴＡ以外でマイクロホンアレイＭＡ１、ＭＡ２の指向性が重なる領域が発生し、エリア収音処理部１２において、目的エリアＴＡ以外の音が収音されてしまうことになるため避けることが望ましい。

　（Ａ－２）実施形態の動作
　次に、以上のような構成を有するこの実施形態の音声処理装置１の動作（実施形態の音声処理方法）を説明する。

　まず、収音処理部１０の動作を中心に説明する。

　データ入力部１１は、各マイクロホンアレイＭＡ１、ＭＡ２で収音した音響信号をアナログ信号からディジタル信号に変換する。

　エリア収音処理部１２は、マイクロホンアレイＭＡ１、ＭＡ２の入力信号から、目的エリアＴＡを収音するエリア収音処理を行って目的エリア音抽出信号を取得し、出力部１３に供給する。エリア収音処理部１２は、マイクロホンアレイＭＡ１、ＭＡ２が目的方向（目的エリアＴＡへの方向）に指向性を向けたＢＦ出力を取得し、取得したＢＦ出力に基づいて目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）の目的エリア音（ユーザＵＳの発話する音声）を収音した目的エリア音抽出信号を取得する。エリア収音処理部１２は、例えば、上記の図４～図８Ｃに示すようなエリア収音処理を行うようにしてもよい。

　出力部１３は、供給された目的エリア音抽出信号を所定の方式／形式で出力信号として出力する。

　次に、再生処理部３０の動作について説明する。

　再生処理部３０は、外部から供給された再生用の音響信号をアナログ信号に変換し、スピーカ部２２（右スピーカＳＰ＿Ｒ、左スピーカＳＰ＿Ｌ）に供給する。

　（Ａ－３）実施形態の効果
　第１の実施形態では、以下のような効果を奏することができる。

　第１の実施形態の音声処理装置１では、マイクロホンアレイＭＡ１、ＭＡ２が、目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）の周囲に沿って配置され、マイクロホンアレイＭＡ１、ＭＡ２の指向性（収音処理部１０のエリア収音処理におけるＢＦ出力の指向性）は、いずれもユーザＵＳの口部分ＵＭ（目的エリアＴＡ）に向くように配置されている。これにより、この実施形態では、指向性Ｄ１０１、Ｄ１０２（すなわちマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性）が目的エリアＴＡを含む１つの領域でのみ重複する状態とし、ユーザＵＳの口部分ＵＭ（目的エリアＴＡ）を音源とする音声（ユーザＵＳの発話音声）を収音することができる。

　（Ｂ）第２の実施形態
　以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第２の実施形態を、図面を参照しながら詳述する。

　図１２は、第２の実施形態に係る音声処理装置１Ａの機能的構成について示したブロック図である。図１２では、上述の図１と同一部分又は対応部分には同一符号又は対応符号を付している。

　以下では、第２の実施形態の音声処理装置１Ａの構成について第１の実施形態との差異を中心に説明する。

　第１の実施形態では、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて目的エリアＴＡの目的エリア音を収音する構成となっているが、３以上のマイクロホンアレイを用いたエリア収音処理を行ってもよい。第２の実施形態の音声処理装置１Ａでは、例として、３つのマイクロホンアレイの指向性（ＢＦ出力の指向性）を目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）を含む１つの領域でのみ重複するように設定されているものとする。

　第２の実施形態の音声処理装置１Ａでは、装着体２０、収音処理部１０が、それぞれ装着体４０、収音処理部１０Ａに置き換わっている点で第１の実施形態と異なっている。第２の実施形態の装着体４０は、マイクロホンアレイ部２１がマイクロホンアレイ部２１Ａに置き換わっている点で第１の実施形態と異なっている。マイクロホンアレイ部２１Ａは、３つ目のマイクロホンアレイＭＡ３が追加されている点で第１の実施形態と異なっている。また、収音処理部１０Ａでは、エリア収音処理部１２がエリア収音処理部１２Ａに置き換わっている点で第１の実施形態と異なっている。

　図１３は、ユーザＵＳが装着体４０を装着した状態で示す図である。

　図１３では、ユーザＵＳの頭部を上方向（頭上）から見た図となっている。装着体４０は、上述の図１０に示す装着体２０Ａに、３つ目のマイクロホンアレイＭＡ３を追加した構成となっている。図１３では、上述の図１０と同一部分又は対応部分には同一符号又は対応符号を付している。図１３に示すように、第２の実施形態の装着体４０では、３つ目のマイクロホンアレイＭＡ３がユーザＵＳの頭部の後ろ側に配置されている。マイクロホンアレイＭＡ３は、ユーザＵＳの頭部の後ろ側（後頭部側）から、目的エリアＴＡ（口部分ＵＭの周辺）にＢＦ出力の指向性を向けることが可能となるように配置されている。

　図１３では、マイクロホンアレイＭＡ３において、マイクロホンＭ１とマイクロホンＭ２の位置を結んだ線の中点をＰ１０３として図示している。マイクロホンアレイＭＡ３の指向性は、Ｐ１０３を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。ここでは、マイクロホンアレイＭＡ３の指向性を破線で示すと共に符号Ｄ１０３を付記するものとする。

　３つ目のマイクロホンアレイＭＡ３を装着体４０に取り付ける構成については限定されないものであるが、例えば、図１３のように取り付けてもよい。

　図１３では、マイクロホンアレイＭＡ３を収容した筐体２１１が、ワイヤ形状の支持部材２１２、２１３を用いて装着体４０本体（右イヤーカップ２０１、左イヤーカップ２０２）に取り付けされている。支持部材２１２、２１３は、いずれも他の支持部材と同様のワイヤとしてもよい。

　図１３では、支持部材２１２の一端が右イヤーカップ２０１の支持部２０４に固定されており、他端が筐体２１１に固定されている。また、図１３では、支持部材２１３の一端が左イヤーカップ２０２の支持部２０９に固定されており、他端が筐体２１１に固定されている。

　この実施形態では、図１３に示すように、指向性Ｄ１０１、Ｄ１０２、Ｄ１０３が、目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）を含む１つの領域でのみ重複するように設定することで、ユーザＵＳが口部分ＵＭから発する発話音声を収音することができる。

　なお、図１３の例では、指向性Ｄ１０１、Ｄ１０２は略並行な状態となっているが、３つの指向性Ｄ１０１～Ｄ１０３が全て重複する領域は、目的エリアＴＡを含む１つの領域のみとなるため目的エリアＴＡを目的エリアとするエリア収音処理に支障はない。

　次に、エリア収音処理部１２Ａの処理について第１の実施形態との差異を説明する。

　上記の通り、第２の実施形態では、マイクロホンアレイが３つ配置されている。エリア収音処理部１２Ａは、この３つのマイクロホンアレイＭＡ１、ＭＡ２、ＭＡ３の指向性Ｄ１０１、Ｄ１０２、Ｄ１０３が全て重複するエリアの音をエリア収音処理する点で、第１の実施形態と異なっている。

　３以上のマイクロホンアレイのＢＦ出力を用いてエリア収音する処理については、例えば、特開２０１８－１７０７１７号公報（以下、「参考文献２」と呼ぶ）の処理を適用することができるので詳しい説明を省略する。

　第２の実施形態では、３以上のマイクロホンアレイを用いてエリア収音処理を行うので、第１の実施形態のように２つのマイクロホンアレイを用いてエリア収音処理を行う場合と比較して、目的エリアをより狭い範囲に限定（極限）することができるので、より高品質な収音処理を行うことができる。

　特に、図１３に示す装着体４０を用いることで、この実施形態の装着体４０では、ユーザＵＳの後頭部側にマイクロホンアレイＭＡ３を追加することにより、ユーザＵＳの顔の左右方向に収音エリアが形成されることを防止することができる。

　（Ｃ）第３の実施形態
　以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第３の実施形態を、図面を参照しながら詳述する。

　図１４は、第３の実施形態に係る音声処理装置１Ｂの機能的構成について示したブロック図である。図１４では、上述の図１と同一部分又は対応部分には同一符号又は対応符号を付している。

　以下では、第３の実施形態の音声処理装置１Ｂの構成について第１の実施形態との差異を中心に説明する。

　第１の実施形態では、計４つのマイクロホンを用いて２つのマイクロホンアレイＭＡ１、ＭＡ２を構成しているが、一部のマイクロホンをマイクロホンアレイ間で共有してマイクロホンの総数を減らすようにしてもよい。第３の実施形態の例では、３つのマイクロホンＭ１～Ｍ３を用いて２つのマイクロホンアレイＭＡ１、ＭＡ２を構成している。

　第３の実施形態の音声処理装置１Ｂでは、装着体２０、収音処理部１０が、それぞれ装着体５０、収音処理部１０Ｂに置き換わっている点で第１の実施形態と異なっている。第３の実施形態の装着体５０は、マイクロホンアレイ部２１がマイクロホンアレイ部２１Ｂに置き換わっている点で第１の実施形態と異なっている。マイクロホンアレイ部２１Ｂでは、上記の通り３つのマイクロホンＭ１～Ｍ３で、２つの２チャンネルマイクロホンアレイＭＡ１、ＭＡ２が構成されている。この実施形態では、マイクロホンＭ１、Ｍ２でマイクロホンアレイＭＡ１が構成されており、マイクロホンＭ２、Ｍ３でマイクロホンアレイＭＡ２が構成されている。すなわち、この実施形態では、マイクロホンＭ２が２つのマイクロホンアレイＭＡ１、ＭＡ２の間で共有されている。

　図１５は、ユーザＵＳが装着体５０を装着した状態で示す図である。

　装着体５０では、筐体２０７、２０８が、３つのマイクロホンＭ１～Ｍ３が収容された筐体２１４に置き換えられている点で第１の実施形態の装着体２０と異なる。

　図１５に示すように、筐体２１４は、目的エリアＴＡ（口部分ＵＭの周辺）の周囲に沿って湾曲した形状となっており、目的エリアＴＡ（口部分ＵＭの周辺）の周囲に沿ってマイクロホンＭ１～Ｍ３が並べて配置されている。言い換えると、装着体５０では、マイクロホンＭ１～Ｍ３を目的エリアＴＡ（口部分ＵＭの周辺）の周囲に沿って並べて配置できる構成となっている。なお、マイクロホンＭ１～Ｍ３を目的エリアＴＡ（口部分ＵＭの周辺）の周囲に沿って並べて配置できれば、装着体５０の具体的な構成は限定されないものである。例えば、マイクロホンＭ１～Ｍ３を１つの筐体ではなく図示しないワイヤ等により連結した構成としてもよい。

　図１５では、マイクロホンアレイＭＡ１を構成するマイクロホンＭ１とマイクロホンＭ２の位置を結んだ線の中点をＰ１０１として図示している。また、図１５では、マイクロホンアレイＭＡ２を構成するマイクロホンＭ２とマイクロホンＭ３の位置を結んだ線の中点をＰ１０２として図示している。また、ここでは、マイクロホンアレイＭＡ１の指向性は、Ｐ１０１を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。さらに、ここでは、マイクロホンアレイＭＡ２の指向性は、Ｐ１０２を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。さらにまた、ここでは、マイクロホンアレイＭＡ１の指向性を一点鎖線で示すと共に符号Ｄ１０１を付記し、マイクロホンアレイＭＡ２の指向性を二点鎖線で示すと共に符号Ｄ１０２を付記するものとする。

　次に、エリア収音処理部１２Ｂの処理について第１の実施形態との差異を説明する。

　上記の通り、第３の実施形態では、３つのマイクロホンＭ１～Ｍ３で２つのマイクロホンアレイＭＡ１、ＭＡ３が構成されているので、エリア収音処理部１２Ｂは、この３つのマイクロホンＭ１～Ｍ３の入力信号に基づいて２つのマイクロホンアレイのＢＦ出力を取得してエリア収音処理を行う。エリア収音処理部１２Ｂが行う処理は、ＢＦ出力の算出に使用する入力信号の組合せが異なるだけであるため詳しい説明を省略する。

　これにより、第３の実施形態では、第１の実施形態と同様に、指向性Ｄ１０１、Ｄ１０２が、目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）を含む１つの領域でのみ重複するように設定することができるので、ユーザＵＳが口部分ＵＭから発する発話音声を収音することができる。すなわち、第３の実施形態では、複数のマイクロホンアレイの間で一部のマイクロホンを共有しているので、使用するマイクロホンの総数を低減することができる。

（Ｄ）第４の実施形態
　以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第４の実施形態を、図面を参照しながら詳述する。

　第１、第２の実施形態では、装着体をヘッドセット型のデバイス（ユーザＵＳの頭部に装着するデバイス）として説明したが、いわゆるネックバンド型のデバイス（ユーザＵＳの首部分に装着するデバイス）としてもよい。第４の実施形態では、第１、第２の実施形態において装着体をネックバンド型に変更した例について説明する。

　例えば、第１の実施形態において装着体２０を、図１６に示すような第４の実施形態に係るネックバンド型の装着体６０に置き換えるようにしてもよい。

　図１６は、装着体６０をユーザＵＳが装着した状態について示した図である。

　図１６では、装着体６０を装着したユーザＵＳを上方向（頭上）から見た図となっている。

　装着体６０は、図１６に示すような略Ｕ字型のネックバンド本体６０１（ユーザＵＳの首にかけることが可能なネックバンド型の筐体）に、マイクロホンアレイＭＡ１、ＭＡ２、右スピーカＳＰ＿Ｒ及び左スピーカＳＰ＿Ｌが搭載された構成となっている。図１６に示すように、マイクロホンアレイＭＡ１、ＭＡ２はネックバンド本体６０１自体に取り付けられている。また、図１６に示すように、装着体６０は、ユーザＵＳの右耳に付ける右耳用イヤホン６０２と左耳に付ける左耳用イヤホン６０３とを有している。右耳用イヤホン６０２、左耳用イヤホン６０３は、それぞれリード線６０２ａ、６０３ａでネックバンド本体６０１に接続されている。右耳用イヤホン６０２／左耳用イヤホン６０３には、それぞれ右スピーカＳＰ＿Ｒ／左スピーカＳＰ＿Ｌが搭載されている。右スピーカＳＰ＿Ｒ及び左スピーカＳＰ＿Ｌは、リード線６０２ａ、６０３ａを介して供給される音響信号に基づく音響をユーザＵＳの耳（外耳）に向けて放出する。なお、装着体６０においてイヤホン（右スピーカＳＰ＿Ｒ、左スピーカＳＰ＿Ｌ）に関する構成は限定されないものであり、種々の構成を適用することができる。また、ネックバンド本体６０１の形状も図１６の例に限定されないものであり、種々の形状を適用することができる。

　図１６に示すように、Ｕ字型のネックバンド本体６０１は、ユーザＵＳ頭部の周囲に配置されるので、必然的に目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）を囲うような位置関係となる。図１６の例では、ネックバンド本体６０１の両端部の位置（ユーザＵＳから見て斜め前の位置）に、マイクロホンアレイＭＡ１、ＭＡ２を配置している。図１６の例では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性が目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）に向けるように配置されていることになる。

　以上のように、第１の実施形態の音声処理装置１において、ヘッドセット型の装着体２０を、ネックバンド型の装着体６０に置き換えた場合でも指向性Ｄ１０１、Ｄ１０２（すなわちマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性）が目的エリアＴＡを含む１つの領域でのみ重複する状態とすることができる。なお、ネックバンド型の装着体６０において、マイクロホンアレイＭＡ１、ＭＡ２の配置は、図１６の例に限定されず、図１７に示すような配置としてもよい。

　図１７は、装着体６０においてマイクロホンアレイＭＡ１、ＭＡ２配置を変形した場合の例について示した図である。

　図１７に示す装着体６０では、マイクロホンアレイＭＡ１、ＭＡ２をユーザＵＳの耳よりもやや後ろとなる位置に配置し、ユーザＵＳの頭部越しにＢＦ出力の指向性を目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）に向けている。このように配置した場合でも、指向性Ｄ１０１、Ｄ１０２（マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性）が目的エリアＴＡを含む１つの領域でのみ重複する状態とすることができる。

　したがって、第１の実施形態の音声処理装置１において、ネックバンド型の装着体６０（図１６、図１７のような構成）を用いる場合でも、エリア収音処理部１２では、マイクロホンアレイＭＡ１、ＭＡ２の入力信号から、目的エリアＴＡの音をエリア収音処理することができる。

　また、第２の実施形態の音声処理装置１Ａにおける装着体４０についても同様にネックバンド型の構成としてもよい。

　例えば、第２の実施形態において装着体４０を、図１８に示すような第４の実施形態に係る装着体７０に置き換えるようにしてもよい。

　図１８は、装着体７０をユーザＵＳが装着した状態について示した図である。

　図１８に示す装着体７０では、ネックバンド本体６０１に第３のマイクロホンアレイＭＡ３が追加されている点で、図１５に示す装着体５０と異なっている。また、装着体７０では、マイクロホンアレイＭＡ１、ＭＡ２の配置位置も、図１５に示す装着体５０と異なり、ユーザＵＳの口部分ＵＭ（目的エリアＴＡ）の左右方向に配置されている。

　図１８の装着体７０では、ユーザＵＳの頭部の後方部分にマイクロホンアレイＭＡ３が追加され、マイクロホンアレイＭＡ３の指向性Ｄ１０３は、目的エリアＴＡ（ユーザＵＳの口部分ＵＭを含む領域）に向けられている。つまり、図１８に示すマイクロホンアレイＭＡ１～ＭＡ３の位置及び収音指向性Ｄ１０１～Ｄ１０３は、第２の実施形態の装着体４０（図１３）と同様の位置関係となっている。

　したがって、第２の実施形態の音声処理装置１Ａにおいて、ネックバンド型の装着体７０（図１８のような構成）を用いる場合でも、エリア収音処理部１２Ａでは、マイクロホンアレイＭＡ１～ＭＡ３の入力信号から、目的エリアＴＡの音をエリア収音処理することができる。

　第４の実施形態では、装着体をネックバンド型としているため、より多様なニーズ（例えば、ユーザが頭部に装着体を装着しないというニーズ）に適応する（利便性を向上させる）ことができる。

（Ｅ）他の実施形態
　本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

　（Ｅ－１）上記の各実施形態において、音声処理装置を構成するマイクロホンアレイＭＡは、２チャンネルの構成であるものとして説明したが、３チャンネル以上の構成に置き換えてもよい。

　図１９Ａおよび図１９Ｂは、３チャンネル以上のマイクロホンアレイＭＡを用いて目的方向（目的エリアＴＡへの方向）に指向性を向けて収音する処理の例について示した図である。

　図１９Ａは３チャンネルのマイクロホンアレイＭＡを用いて目的方向（目的エリアＴＡへの方向）に指向性を向ける構成の例について示した図であり、図１９Ｂは４チャンネルのマイクロホンアレイＭＡを用いて目的方向に指向性を向ける構成の例について示した図である。

　３チャンネル以上のマイクロホンアレイＭＡを用いて、目的方向（目的エリアＴＡへの方向）に指向性を向けて収音する処理については、例えば、上記の参考文献１や特開２０１５－０５０５５８号公報（以下、「参考文献３」と呼ぶ）の記載技術を適用するようにしてもよい。

　ここで、参考文献１、３の記載技術を用いて、図１９Ａに示す３チャンネルのマイクロホンアレイＭＡを用いて、目的方向（目的エリアＴＡへの方向）の音を収音する場合を想定する。この場合、例えば、マイクロホンＭ１、Ｍ２の入力信号に基づくＢＦ出力と、マイクロホンＭ１、Ｍ３の入力信号に基づくＢＦ出力を組み合わせることで、マイクロホンアレイＭＡから目的方向（目的エリアＴＡへの方向）へのみ指向性を向け、目的方向と反対方向（図１９Ａからみて下方向）の音源の音を収音しないようにすることができる。

　次に、参考文献１、３の記載技術を用いて、図１９Ｂに示す４チャンネルのマイクロホンアレイＭＡを用いて、目的方向（目的エリアＴＡへの方向）の音を収音する場合を想定する。この場合、例えば、マイクロホンＭ１、Ｍ２の入力信号に基づくＢＦ出力と、マイクロホンＭ１、Ｍ３の入力信号に基づくＢＦ出力と、マイクロホンＭ２、Ｍ４の入力信号に基づくＢＦ出力とを組み合わせることで、マイクロホンアレイＭＡから目的方向（目的エリアＴＡへの方向）へのみ指向性を向け、目的方向と反対方向（図１９Ｂからみて下方向）の音源の音を収音しないようにすることができる。

　以上のように、３チャンネル以上のマイクロホンアレイを用いる場合、図１１の装着体２０ＢのようにマイクロホンアレイＭＡ１、ＭＡ２を配置しても、マイクロホンアレイＭＡ１、ＭＡ２による収音指向性を、目的エリアＴＡを含む１つの領域でのみ重複する状態とすることができる。また、３チャンネル以上のマイクロホンアレイを用いて、目的方向の音を収音する場合、２チャンネルのマイクロホンアレイを用いて収音する場合と比較して収音する音声の品質を向上させることができる。

　また、４チャンネルのマイクロホンアレイＭＡを用いて目的方向の音を収音する場合は、図２０に示すように、３次元的に円錐型の指向性を形成することで目的方向の音を収音するようにしてもよい。

　図２０は、４チャンネルのマイクロホンアレイＭＡを用いて、目的方向へ三次元的に円錐型（コーン型）の指向性を形成する処理の例について示した図である。

　図２０に示すような円錐型（コーン型）の指向性を形成するには、例えば、特開２００６－１９７５５２号公報（以下、「参考文献４」と呼ぶ）の記載技術を適用するようにしてもよい。これにより、上記の各実施形態において、マイクロホンアレイＭＡから見て左右方向だけでなく、上下方向についても目的エリアを絞り込んだ処理を行うことができるので、さらに収音精度を向上させることができる。なお、図２０のように三次元的に指向性を形成する場合、収音方向に垂直方向や水平方向に対する角度（例えば、仰角や俯角）を付けるようにしてもよい。

　（Ｅ－２）第１の実施形態において、装着体２０を構成するマイクロホンアレイＭＡ１、ＭＡ２（筐体２０７、２０８）を支持する構成については上記の例に限定されないものである。

　例えば、上記の図９に示す装着体２０Ａにおいて、筐体２０７、２０８の間をワイヤ形状の連結部材で連結するようにしてもよい。

　図２１は、装着体２０Ａ（図９）の構成に筐体２０７、２０８の間を連結する連結部材２１５を追加した構成例（装着体２０Ａ２）について示した図である。連結部材２１５については、他の連結部材と同様のワイヤを適用するようにしてもよい。筐体２０７、２０８の間を連結することで、筐体２０７、２０８を安定的に保持して位置のずれ（特に筐体２０７、２０８の高さ（垂直方向）のずれ）を抑制することができるため、安定的な収音処理に寄与することができる。

　また、例えば、上記の図９に示す装着体２０Ａにおいて、筐体２０７、２０８を１つの支持部材２１６で支持するようにしてもよい。

　図２２は、装着体２０Ａ（図９）の構成において、筐体２０７、２０８を支持する部材を１本のワイヤ形状の支持部材２１６で支持するように変更した構成例（装着体２０Ａ３）について示した図である。支持部材２１６については、他の連結部材と同様のワイヤを適用するようにしてもよい。

　図２２に示すように支持部材２１６は、一端が筐体２０７に固定され、ユーザＵＳの頭部後方を回って他端が筐体２０８に固定されている。支持部材２１６は、支持部２０４、２０９で支持されている。支持部材２１６は、支持部２０４、２０９の突起を貫通するように配置されている。

　このように、１つ（一体）の支持部材２１６で筐体２０７、２０８を支持することで、筐体２０７、２０８を安定的に保持して位置のずれ（特に筐体２０７、２０８の高さ（垂直方向）のずれ）を抑制することができるため、安定的な収音処理に寄与することができる。

　（Ｅ－３）上記の各実施形態では、音声処理装置に再生処理部及びスピーカ部が搭載された構成としているが、再生処理部及びスピーカ部を除外して、ユーザＵＳの発話する音声を収音するのみの構成（収音処理に必要な構成のみの装置）としてもよい。この場合、装着体からはスピーカ部を除外するようにしてもよい。

　（Ｅ－４）上記の各実施形態において、データ入力部１１は、各マイクロホンアレイで収音した音響信号をアナログ信号からディジタル信号に変換するものとしたが、アナログＭＥＭＳマイクの代わりにディジタルＭＥＭＳマイクを用いるようにして、ディジタルＭＥＭＳマイクからのディジタル信号を入力するようにしても良い。その場合、データ入力部１１にはインタフェース変換やデシメーションフィルタの機能を具備するようにしても良い。デシメーションフィルタはサンプリング周波数を間引くとともに、音声帯域のみを通過させる低域透過フィルタである。

　１…音声処理装置、１Ａ、１Ｂ…音声処理装置、１０、１０Ａ、１０Ｂ…収音処理部、１１、１１Ｂ…データ入力部、１２、１２Ａ、１２Ｂ…エリア収音処理部、１３…出力部、２０、２０Ａ、２０Ａ２、２０Ａ３、２０Ｂ、４０、５０、６０、７０…装着体、２１、２１Ａ、２１Ｂ…マイクロホンアレイ部、２２…スピーカ部、３０…再生処理部、２０１…右イヤーカップ、２０２…左イヤーカップ、２０３…ヘッドバンド部、２０４…支持部、２０５…支持部材、２０６…連結部、２０７、２０８…筐体、２０９…支持部、２１０…支持部材、２１１…筐体、２１２、２１３…支持部材、２１４…筐体、連結部材…２１５、２１６…支持部材、６０１…ネックバンド本体、６０２…右耳用イヤホン、６０２ａ…リード線、６０３…左耳用イヤホン、６０３ａ…リード線、Ｍ、Ｍ１～Ｍ４…マイクロホン、ＭＡ、ＭＡ１～ＭＡ３…マイクロホンアレイ。

Claims

　ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、
　それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理装置。
　前記目的エリアは、前記ユーザの口部分を含む領域であり、それぞれの前記マイクロホンアレイは、前記目的エリアの周囲に配置されていることを特徴とする請求項１に記載の音声処理装置。
　前記装着体は、前記ユーザの頭部又は首部分に装着されることを特徴とする請求項２に記載の音声処理装置。
　ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体を備える音声処理装置に搭載されたコンピュータを、
　それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理プログラム。
　音声処理装置が行う音声処理方法において、
　ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、エリア収音手段とを備え、
　前記エリア収音手段は、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理方法。
　ユーザの身体に装着される装着体において、
　複数のマイクロホンアレイを備え、
　それぞれの前記マイクロホンアレイの入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へビームフォーマ出力の指向性を形成する場合に、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複するように、それぞれの前記マイクロホンアレイが配置されていること
　を特徴とする装着体。
　ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理装置。
　コンピュータを、
　ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理プログラム。
　音声処理装置が行う音声処理方法において、
　エリア収音手段を備え、
　前記エリア収音手段は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、
　それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む１つの領域でのみ重複する
　ことを特徴とする音声処理方法。