WO2023054047A1

WO2023054047A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2023054047A1
Application number: PCT/JP2022/034914
Authority: WO
Inventors: 裕高瀬; 哲哉皆川
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-01
Filing date: 2022-09-20
Publication date: 2023-04-06
Also published as: JP2023053670A

Abstract

本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、集音システム等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　近年、音源を分離して集音を行う技術が開発されている。例えば、特定の方向から発せられた音を選択的に集音することで、様々な音の中から目的とする音を分離することができる。方向を指定して集音を行う方法としては、例えばアレイ状に配意された複数のマイクの出力を処理して特定の方向の音源を分離するビームフォーミング技術が知られている。

　特許文献１には、ビームフォーミング技術を用いた音声認識システムについて記載されている。このシステムでは、アレイマイク周辺を撮影した画像から人体が検出される。アレイマイクから見て人体がある方向は集音方向に設定され、人体がない方向はノイズ方向に設定される。またビームフォーミング処理が実行され、アレイマイクの出力から集音方向の音源（目的音）とノイズ方向の音源（ノイズ音）とが分離される。この目的音からノイズ音をキャンセルすることで、高精度なノイズキャンセルが可能となっている（特許文献１の明細書段落［００１７］［００１８］［００２３］［００２４］図３等）。

特開２０２０－３７２４号公報

　特許文献１のように、目的音からノイズ音をキャンセルできたとしても、目的音が発せられる方向によっては、所望の音質が得られないこともあり得る。このため、目的とする音そのものをより高い品質で集音する技術が求められている。

　以上のような事情に鑑み、本技術の目的は、音源が発する音を高品質に集音することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。
　前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。
　前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する。

　この情報処理装置では、音源の周辺に配置された複数の集音装置から、音源の音を集音するための対象装置が少なくとも１つ選択される。各集音装置は、集音方向を設定できる装置であり、対象装置の選択には、音源の位置及び音源が音を発する方向を示す音源情報が用いられる。これにより、例えば音源の位置や音の出る方向に適応した集音装置を用いることが可能となり、音源が発する音を高品質に集音することが可能となる。

　前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定してもよい。

　前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定してもよい。

　前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択してもよい。

　前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成されてもよい。この場合、前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択してもよい。

　前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択してもよい。

　前記情報取得部は、複数の音源ごとに前記音源情報を取得してもよい。この場合、前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択してもよい。

　前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択してもよい。

　前記情報処理装置は、さらに、前記少なくとも１つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備してもよい。

　前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含んでもよい。この場合、前記集音制御部は、前記複数の候補装置から前記対象装置を選択してもよい。また、前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させてもよい。

　前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択してもよい。

　前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成してもよい。

　前記音源は、発話者であってもよい。この場合、前記音源が音を発する方向は、前記発話者の発話方向であってもよい。

　前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定してもよい。

　前記情報取得部は、前記発話者のジェスチャーを検出してもよい。
　前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御してもよい。

　前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止してもよい。

　前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離してもよい。

　前記集音装置は、複数のマイクが配置されたマイクアレイであってもよい。この場合、前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向であってもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、音源の位置と前記音源が音を発する方向とを示す音源情報を取得することを含む。
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置が選択される。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップ。
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択するステップ。

本技術の一実施形態に係る集音システムの構成例を示すブロック図である。ＢＦマイクの構成例を示す模式図である。ＢＦマイクに設定されるビームの一例を示す模式図である。集音システムの基本的な集音動作を示す模式図である。集音システムの動作例を示すフローチャートである。ＢＦマイクの配置例を示す模式図である。発話者の発話方向の一例を示す模式図である。複数の発話者に対する集音動作について説明するための模式図である。複数のＢＦマイクを用いた集音動作の一例を示す模式図である。発話者が移動する際の集音動作の一例を示す模式図である。音声の合成処理について説明するための模式図である。複数の発話者が移動する際の集音動作の一例を示す模式図である。発話者の発話方向を想定した集音動作の一例を示す模式図である。ジャスチャーに応じた集音動作の一例を示す模式図である。音声と動作音とを集音する集音動作の一例を示す模式図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［集音システムの構成］
　図１は、本技術の一実施形態に係る集音システムの構成例を示すブロック図である。集音システム１００は、集音対象となる空間内にいる発話者１の音声５を集音して、発話者１の音声データ６を生成するシステムである。本実施形態では、発話者１は音源の一例であり、発話者１の音声５が集音対象となる音（目的音）となる。
　図１に示すように、集音システム１００は、複数のＢＦマイクＭと、検出カメラ１０と、記憶部１１と、コントローラ２０とを有する。

　複数のＢＦマイクＭは、各々がビームフォーミング（ＢＦ）技術を用いて特定方向に対する集音を行うことが可能な集音装置である。
　図１には、複数のＢＦマイクＭとして、４つのＢＦマイクＭ１～Ｍ４が模式的に図示されている。なおＢＦマイクＭの個数は限定されない。
　ここでビームフォーミング技術は、ＢＦマイクＭから特定の方向に伸びるビームを設定し、そのビームに沿って到来する音波を高感度に集音する技術である。この場合、ビームが設定される方向は、ＢＦマイクＭの集音方向となる。
　各ＢＦマイクＭは、発話者１がいる空間に設定された所定の位置にそれぞれ配置される。集音システム１００におけるＢＦマイクＭの配置例については、後に詳しく説明する。
　このように、各ＢＦマイクＭは、音源である発話者１の周辺に配置され集音方向を設定可能な装置である。本実施形態では、ＢＦマイクＭは、集音装置に相当する。

　図２は、ＢＦマイクＭの構成例を示す模式図である。図３は、ＢＦマイクＭに設定されるビーム７の一例を示す模式図である。
　図２に示すＢＦマイクＭは、平板状の基板１５と、基板１５に配置された複数のマイク１６とを有する。すなわち、ＢＦマイクＭは、複数のマイク１６が配置されたマイクアレイである。
　図２Ａは、基板１５と直交する方向から見たＢＦマイクＭの平面図であり、図２Ｂは、基板１５と平行な方向から見たＢＦマイクＭの側面図である。

　基板１５は、平面形状が円形の板状部材であり、第１の面１７ａと、第１の面１７ａとは反対側の第２の面１７ｂとを有する。第１の面１７ａは、複数のマイク１６が配置される面である。図２Ａは、ＢＦマイクＭの第１の面１７ａを見た平面図である。また図２Ｂでは、基板１５の図中上側の表面が第１の面１７ａであり、基板１５の図中下側の表面が第２の面１７ｂである。
　複数のマイク１６は、音波に応じた電気信号（音信号）を発生させる素子である。各マイク１６は、無指向性マイクとして構成され、音波の到来方向によらず略一定の感度で音波を検出する。マイク１６としては、例えばダイナミック型のマイクロフォンや、コンデンサ型のマイクロフォン等が用いられる。

　図２Ｂに示す例では、各マイク１６は、音波を受ける受音部分を基板１５とは反対側に向けて配置される。この場合、第１の面１７ａ側がＢＦマイクＭの受音側となる。この構成では、例えば第１の面１７ａ側に各マイク１６を保護するカバー等が設けられてもよい。
　これに限定されず、第２の面１７ａ側がＢＦマイクＭの受音側となるようにＢＦマイクＭを構成してもよい。この場合、基板１５上の各マイク１６の配置位置には、第１の面１７ａから第２の面１７ｂに貫通するマイク孔が設けられる。また各マイク１６は、受音部分をマイク孔に向けて配置される。

　図２Ａに示すように、ＢＦマイクＭには、８つのマイク１６ａ～１６ｈが設けられる。各マイク１６ａ～１６ｈは、第１の面１７ａにおける基板１５の中心（基板中心Ｃ）を基準として回転対称となるように配置される。従って、基板中心Ｃと、互いに隣接する２つのマイク１６とを結ぶ２つの線分のなす角度（角度間隔）は４５°となる。
　以下では、基板中心Ｃから見たマイク１６ａの方位角φを０°とする。また図２Ａにおいて時計回りの方向（基板中心Ｃを右側に見ながら回転する右回りの方向）に方位角φが増えるものとする。従ってマイク１６ａ～１６ｈが配置される方位角は０°、４５°、９０°、１３５°、１８０°、２２５°、２７０°、及び３１５°となる。

　ＢＦマイクＭは、典型的には、基板１５（第１の面１７ａ又は第２の面１７ｂ）が水平となるように配置して用いられる。従って、マイク１６ａ～１６ｈの方位角は水平面における方位角として扱うことができる。なお、ＢＦマイクＭの姿勢は限定されない。例えばＢＦマイクＭを水平面に対して傾けて配置することも可能である。

　ＢＦマイクＭからは、マイク１６ａ～１６ｈが生成した各音信号が出力される。すなわち、複数のマイク１６ａ～１６ｈが生成する多チャンネルの音信号が、ＢＦマイクＭの出力となる。
これらの音信号に対して、後述するコントローラ２０（集音処理部２３）によりビームフォーミング処理が実行される。
　ビームフォーミング処理では、特定の方向を向いたビーム７が設定され、ビーム７に沿って到来する音波を集音する処理が行われる。例えば、ビーム７に沿って到来する音波の各マイク１６ａ～１６ｈへの伝搬遅延（到達時間のずれ）が補正される。また伝搬遅延が補正された信号が適宜加算され、ビーム７に沿って到来する音波を強調した信号が生成される。これにより、ビーム７に沿って到来する音波を選択的に集音することが可能となる。
　このように、ＢＦマイクＭの集音方向３は、ＢＦマイクＭに関するビームフォーミング処理で設定されるビーム７の方向である。

　図３には、ＢＦマイクＭに設定されるビーム７の範囲が灰色の領域を用いて模式的に図示されている。ＢＦマイクＭでは、基板中心Ｃから集音方向３を中心に扇状に広がる範囲が、ビーム７の範囲となる。このビーム７の範囲は、集音方位角Ａ及びビーム幅βで規定される。

　集音方位角Ａは、集音方向３の中心角を表す方位角度である。例えばＢＦマイクＭを集音方向３に指向性をもつマイクと見做した場合に、集音方位角Ａは、指向性をもつマイクの向きに相当する。
　ＢＦマイクＭでは、８つのマイク１６ａ～１６ｈを回転対象に配置することで、集音方位角Ａを３６０°の全方位にわたって設定すること、すなわち３６０°の全方位に向けてビームを張ることが可能となっている。従って、図２に示すＢＦマイクＭは、音源方位３６０°対応のビームフォーミングマイクアレイであると言える。

　ビーム幅βは、集音方位角Ａに対するＢＦマイクＭの指向性を表す角度である。ビーム幅βが小さいほど、指向性が高くなる。またビーム幅βが大きいほど、集音可能な範囲が広くなる。本実施形態では、ビーム幅βは一定の値に設定されるものとする。
　なお、マイク１６の個数やマイクアレイの直径等のＢＦマイクＭの装置規模を拡大することで、ビーム幅βを可変にすることも可能である。この場合、例えば発話者１の状況やシーンに応じてビーム幅βを変更するといった処理が行われてもよい。

　本実施形態では、集音方位角Ａは、外部のセンサ（検出カメラ１０）を用いて検出された発話者１の位置の情報をもとに、発話者１を逐次追従するように設定される。集音対象となる発話者１に対して、ビーム７の方位角度の範囲をＡ±βに制御することで、目的音である発話者１の音声５の高品位な集音を実現することが可能となる。
　集音方位角Ａを設定する方法については、後に詳しく説明する。

　図１に戻り、検出カメラ１０は、音源である発話者１を撮影するカメラである。検出カメラ１０は、例えば発話者１がいる空間に向けて配置され、集音システム１００の動作中に発話者１を撮影する。
　検出カメラ１０としては、ＣＭＯＳやＣＣＤ等のイメージセンサを備えたデジタルカメラが用いられる。また検出カメラ１０として、例えばステレオカメラやＴｏＦカメラ等の奥行きを測定可能な測距カメラが用いられてもよい。
　なお検出カメラ１０は、１台でもよいし、複数の検出カメラ１０が用いられてもよい。

　記憶部１１は、不揮発性の記憶デバイスであり、例えばＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等が用いられる。その他、コンピュータが読み取り可能な非一過性の任意の記録媒体が用いられてよい。
　図１に示すように記憶部１１には、制御プログラム１２と、マイク情報１３と、音声データベース（音声ＤＢ１４）とが記憶される。

　制御プログラム１２は、集音システム１００全体の動作を制御するプログラムである。
　マイク情報１３は、複数のＢＦマイクＭに関する情報である。例えば各ＢＦマイクＭが配置された位置の３次元座標や、各ＢＦマイクＭの姿勢等がマイク情報として格納される。これらのマイク情報は、ビームフォーミング処理を実行する際に適宜参照される。この他、ＢＦマイクＭの種類や型番等がマイク情報１３として格納されてもよい。
　音声ＤＢ１４は、発話者１の音声データ６を記録したデータベースである。例えばコントローラ２０で生成された音声データ６が、発話者１のラベルとともに逐次記録される。また例えば、複数の発話者１がいる場合には、各発話者１ごとに音声データ６が記録される。

　コントローラ２０は、集音システム１００が有する各ブロックの動作を制御する。コントローラ２０は、例えばＣＰＵやメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。ＣＰＵが記憶部１１に記憶されている制御プログラム１２をＲＡＭにロードして実行することにより、種々の処理が実行される。

　コントローラ２０は、例えばＰＣ等のコンピュータを用いて構成される。またコントローラ２０として、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、コントローラ２０のＣＰＵが本実施形態に係る制御プログラム１２を実行することで、機能ブロックとして、画像処理部２１、集音制御部２２、及び集音処理部２３が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　画像処理部２１は、検出カメラ１０が撮影した画像に対して各種の画像処理を実行して音源情報を生成する。ここで音源情報とは、集音システム１００の集音対象となる音源に関する情報である。
　音源情報には、音源を識別する情報が含まれる。例えば複数の音源が集音対象となっている場合には、各音源を識別するＩＤ等が音源情報として生成される。
　また音源情報には、音源の位置を示す情報、音源が音を発する方向を示す情報が含まれる。すなわち、音源が音を発する位置及び方向を示す情報が音源情報として生成される。
　このように、画像処理部２１は、音源の位置と音源が音を発する方向とを示す音源情報を取得する。本実施形態では、画像処理部２１は、音源情報を取得する情報取得部に相当する。

　本実施形態では、音源である発話者１を対象とした音源情報が生成される。
　このため、音源を識別する情報は、発話者１を識別する情報（発話者１の名称やＩＤ等）となる。画像処理部２１では、検出カメラ１０を用いて発話者１を撮影した画像データから発話者１が識別される。発話者１の識別には、例えば画像認識技術を利用した個人識別等の処理が用いられる。

　また音源の位置を示す情報は、発話者１の位置を示す情報となる。
　画像処理部２１では、検出カメラ１０を用いて発話者１を撮影した画像データから発話者１の位置が算出される。発話者１の位置を示す情報は、発話者１がいる床面における２次元座標でもよいし、発話者１の頭部の３次元座標でもよい。
　発話者１の位置を算出する方法は限定されない。

　また音源が音を発する方向は、発話者１の発話方向である。発話方向は、例えば発話者１の頭部正面が向けられた方向である。音源情報には、このような発話者１の発話方向を示す情報（例えば発話者１の頭部の向き等を示す情報）が含まれる。
　画像処理部２１では、検出カメラ１０を用いて発話者１を撮影した画像データに基づいて、発話者１に関するボーン検出（骨格推定）が実行され発話者１の発話方向が推定される。ボーン検出を用いることで、発話方向を精度よく推定することが可能である。また複数の発話者１が存在する場合であっても、各発話者１の発話方向を容易に推定可能である。
　なお発話方向を検出する方法は、ボーン検出を用いた方法に限定されず、例えば頭部の向き等を推定可能な任意の方法が用いられてよい。

　例えば、発話者１が特定できている場合には、その発話者１の位置や発話方向が逐次算出される。また、複数の発話者１が存在する場合には、各発話者１が個別に識別され、発話者１ごとに音源情報（位置や発話方向）が算出される。
　このように、集音システム１００では、検出カメラ１０と、画像処理部２１とにより、集音対象となる発話者１を識別し、発話者１の位置及び発話方向を検出する検出装置が構成される。

　集音制御部２２は、集音システム１００による集音動作を制御する。
　本実施形態では、集音制御部２２は、上記した音源情報に基づいて、音源（発話者１）の周辺に配置され集音方向３を設定可能な複数のＢＦマイクＭから、音源が発する音（発話者１の音声５）の集音に用いる少なくとも１つの対象マイク２５を選択する。
　ここで対象マイク２５とは、集音対象となる発話者１の音声データ６の生成に使用されるＢＦマイクＭである。すなわち、対象マイク２５として選択されたＢＦマイクＭの出力が、音声データ６の元データとして用いられる。

　対象マイク２５は、音源情報が示す発話者１の位置や発話方向をもとに選択される。
　この処理では、例えば発話者１の音声５を十分な感度で検出することができるＢＦマイクＭが、対象マイク２５として選択される。選択されるＢＦマイクＭは１つでもよいし、複数でもよい。これにより、発話者１の状態にあった適切なＢＦマイクＭを対象マイク２５として選択することが可能となる。
　図１に示す例では、ＢＦマイクＭ１が対象マイク２５に選択されている。

　また本実施形態では、集音制御部２２は、音源情報に基づいて、対象マイク２５の集音方向３を設定する。すなわち、音源情報が示す発話者１の位置や発話方向をもとに、対象マイク２５のビーム７の方向が設定される。
　この処理では、例えば発話者１の発話方向に沿った集音が可能となるように、集音方向３（ビーム７の方向）が設定される。これにより、発話方向２にあった適切な集音方向を設定することが可能となる。

　なお、複数の発話者１が集音対象となる場合には、各発話者１の音源情報をもとに、各発話者１ごとに対象マイク２５が選択されその集音方向３が設定される。

　図１に示すように、集音制御部２２では、複数のＢＦマイクＭのうち対象マイク２５を指定する信号（音声選択信号）と、対象マイク２５に関する集音方向３を指定する信号（集音方向信号）とが生成される。
　音声選択信号は、集音処理部２３に出力される。また対象マイク２５として選択されたＢＦマイクＭについては、集音方向信号が指定する方向にその集音方向３が設定される。
　なお図１では、各ＢＦマイクＭに対して集音方向信号が出力される様子が模式的に図示されている。実際には、集音方向信号は、集音処理部２３に出力され、集音処理部２３により実行される対象マイク２５に関するビームフォーミング処理に用いられる。

　集音処理部２３は、少なくとも１つの対象マイク２５の出力に基づいて、発話者１が発する音声５を表す音声データ６を生成する。
　上記したように対象マイク２５の出力は、対象マイク２５を構成する複数のマイク１６ａ～１６ｈが生成する音信号である。これらの音信号に対して、ビームフォーミング処理が実行され、発話者１の音声５を集音した音声データ６が生成される。本実施形態では、音声データ６は、音源が発する音を表す音データに相当する。
　図１に示すように、集音処理部２３は、マイク切替部２７と、音声データ生成部２８とを有する。

　マイク切替部２７は、音声選択信号に基づいて、複数のＢＦマイクＭから対象マイク２５を選択する。マイク切替部２７は、全てのＢＦマイクＭの出力を読み込むことが可能である。このうち、音声選択信号により対象マイク２５に指定されたＢＦマイクＭの出力が読み込まれる。従ってマイク切替部２７は、複数のＢＦマイクＭの出力のうち対象マイク２５の出力を読み込むことで、対象マイク２５を選択するとも言える。

　なお図１に示すマイク切替部２７は、４つのＢＦマイクＭ１～Ｍ４のうち、単一のＢＦマイクＭを対象マイク２５として選択する切替スイッチとして模式的に図示されている。これに限定されず、マイク切替部２７は、４つのＢＦマイクＭ１～Ｍ４のうち、複数のＢＦマイクＭを対象マイク２５として選択することも可能である。

　音声データ生成部２８は、マイク切替部２７により読み込まれた対象マイク２５の出力（マイク１６ａ～１６ｈの音信号）にビームフォーミング処理を実行し音声データ６を生成する。
　ビームフォーミング処理では、集音方向信号が指定する集音方向３にビーム７が設定される。そして設定されたビーム７に沿って到来する音波について、伝搬遅延を補正する処理や、補正後の音信号を加算する処理等が実行される。
　またビームフォーミング処理の他にも、各音信号の強度を調整する処理や、ノイズを除去する処理等が実行されてもよい。

　音声データ生成部２８により生成された音声データ６は、所定の再生装置２９に出力される。あるいは、音声データ６は、記憶部１１に構成された音声ＤＢ１４に格納される。
　なお、複数の発話者１が集音対象となる場合には、各発話者１ごとに選択された対象マイク２５の出力をもとに、各発話者１ごとに音声データ６が生成される。

　図４は、集音システム１００の基本的な集音動作を示す模式図である。図４には、発話者１と、２つのＢＦマイクＭ１及びＭ２と、検出カメラ１０とが模式的に図示されている。
　以下では、発話者１の位置をＱと記載し、ＢＦマイクＭ１及びＭ２の位置をそれぞれＰ１及びＰ２と記載する。また発話者１の発話方向２やＢＦマイクＭの集音方向３が水平面内の方向であるものとして説明を行う。図４には発話方向２及び集音方向３が、それぞれ白抜きの実線の矢印及び黒抜きの実線の矢印を用いて模式的に図示されている。
　また、発話者１の発話方向２と、発話者１から見たＢＦマイクＭの方向とのなす角度を、ＢＦマイクＭの集音角度と記載する。

　図４では、発話者１は、図中の右側を向いている。従って、発話者１の発話方向２は、図中の右側に向かう方向となる。
　また発話者１の正面から左側にずれた位置には、ＢＦマイクＭ１が配置されており、発話者１から見て右側にはＢＦマイクＭ２が配置されている。従って、ＢＦマイクＭ１の集音角度は、ＢＦマイクＭ２の集音角度よりも小さい。なお、発話者１から見て、ＢＦマイクＭ１の位置は、ＢＦマイクＭ２の位置よりも離れている。

　例えば検出カメラ１０により検出された発話者１の位置情報だけを用いて、発話者１の音声５を集音するためのＢＦマイクＭを選択する場合を考える。位置情報だけを参照した場合、例えば発話者１に最も近い位置にあるＢＦマイクＭ２が選択される。

　ところで、図４に示すシーンでは、発話者１は、ＢＦマイクＭ２の方向を向いておらず、発話者１の発話方向２と、発話者１から見たＢＦマイクＭ２の方向（点Ｑから点Ｐ２に向かう方向）とのなす集音角度が９０°を超えている。
　例えば、発話位置(発話者１の口元)で発話された音声５を点音源とすると、発話者１自身が障害物となる。このため、ＢＦマイクＭ２は、口元で発せられた直接音ではなく回折音を集音することになる。

　ここで、直接音とは、障害物等によって遮られることなく、音源からＢＦマイクＭに到達する音声５である。
　一方で、障害物によって遮られ障害物を回り込んで伝搬された音声５（障害物による回折を受けた音声５）は、回折音となる。例えば、集音角度が十分に大きくなると音声５の回折数が多くなり、その分だけ音声５の減衰量も大きくなる。

　また図４に示すように、ＢＦマイクＭ２では、発話者１の左側から到来する環境雑音３０が直接集音される。従って、ＢＦマイクＭ２を用いて発話者１の音声５を集音する場合、目的音である音声５に比べ環境雑音３０の音量レベルが高くなる。

　これに対し、図４に示すシーンでは、ＢＦマイクＭ１は、発話者１の正面近くに配置される。このため、発話方向２に対するＢＦマイクＭ１の集音角度は９０°未満となる。従って、ＢＦマイクＭ１を用いた場合、発話者１が発した直接音を集音可能となり、回折音を集音する場合に比べて音声５の減衰量を十分に抑制することができる。
　またＢＦマイクＭ１は、環境雑音３０を直接集音することはない。これにより、発話者１の音声５の雑音レベルを十分に抑制することが可能である。

　そこで、集音システム１００では、検出カメラ１０で撮影した映像信号（画像データ）をもとに、画像処理部２１により発話者１の位置検出と同時に、発話者１のボーン検出が実行されその発話方向２が検出される。
　このようにして得られた発話者１の位置Ｑ及び発話方向２の情報（音源情報）から、集音制御部２２により発話者１の音声５を集音するＢＦマイクＭ（対象マイク２５）が選択される。また集音制御部２２により対象マイク２５の集音方向３が設定される。

　対象マイク２５を選択する処理では、音源である発話者１が音声５を発する発話方向２を基準として発話者１が発する直接音を集音可能なＢＦマイクＭが判定され、当該ＢＦマイクＭが対象マイク２５として選択される。
　例えば発話方向２を中心とする所定の範囲に集音方向３を設定可能であるか否かを判定することで、直接音を集音可能であるか否かが判定される。例えば音源が発話者１である場合、発話方向２を中心として±９０°の範囲が、所定の範囲として設定される。
　直接音を集音可能であるか否かを判定する方法は限定されず、例えば障害物の有無等に応じて判定されてもよい。
　図４に示す例では、発話方向２から左側にずれて配置されたＢＦマイクＭ１が、直接音を集音可能であるとして、対象マイク２５として選択される。

　また集音方向３を設定する処理では、対象マイク２５から発話者１に向かう方向が対象マイク２５の集音方向３に設定される。これにより、発話者１が発する直接音を最も効率的に集音することが可能となる。
　図４に示す例では、対象マイク２５であるＢＦマイクＭ１の位置Ｐ１から、発話者１の位置Ｑに向かう方向が、ＢＦマイクＭ１の集音方向３に設定される。またＢＦマイクＭ１のビーム７の範囲は、発話者１に向かう集音方向３を中心として±βの角度で広がる扇状の領域となる。

　このように、集音システム１００には、特定方向からの音を集音可能な複数の集音装置（ＢＦマイクＭ）と、集音対象となる発話者１の位置Ｑ及び発話方向２を検出する機構（検出カメラ１０及び画像処理部２１）が設けられる。そして、集音制御部２２により発話者１の位置Ｑ及び発話方向２にあったＢＦマイクＭが選択され、集音処理部２３により発話者１の音声データ６が生成される。これにより、発話者１の音声５を品質よく集音することが可能となる。

　例えば、発話者１の近くにある集音マイクを用いて集音を行うような会議システムでは、発話者１が集音マイクに背を向けていた場合、発話方向２とは反対の方向から集音を行うことになり、音量や音質が大幅に低下する可能性があった。例えばビームフォーミング技術を備えたマイクアレイを用いる場合でも同様の問題が発生する。

　これに対して、本実施形態に係る集音システム１００では、複数のＢＦマイクＭから、発話者１の位置Ｑ及び発話方向２にあったＢＦマイクＭを選択して集音動作が実行される。
　例えば映像コンテンツの制作現場等では、演者の正面から集音するようにマイクの位置を移動させている。また演者の正面から集音する場合に、その背後からくる雑音の混入が想定される場合には、マイクの指向範囲にノイズ源が入らないようにマイクの位置や姿勢を変化させて高音質な集音を実現している。
　集音システム１００で行われる集音動作は、発話者１を正面から集音を出来るＢＦマイクＭを選択することで、上記した制作現場での集音方法と同様の効果を発揮するものである。

　また集音システム１００では、集音動作が行われている間に、上記した画像処理部２１により所定のフレームレートで発話者１の音源情報（位置Ｑ及び発話方向２）を算出する処理が繰り返し実行される。従って画像処理部２１は、音源情報をモニタリングするともいえる。
　また、集音制御部２２により、音源情報のモニタリング結果に応じて、対象マイク２５と対象マイク２５の集音方向とを指定する信号（音声選択信号及び集音方向信号）を動的に算出される。そして、集音処理部２３により、音声選択信号及び集音方向信号に基づいて、音声データ６が生成される。
　これにより、各タイミングでの発話者１の位置や発話方向に応じて、動的に集音動作を行うことが可能となり、発話者１の音声５を常時高感度で集音することが可能となる。

　図５は、集音システムの動作例を示すフローチャートである。図６は、ＢＦマイクＭの配置例を示す模式図である。
　図５に示す処理は、図６に示すように配置された４つのＢＦマイクＭ１～Ｍ４から集音に用いる対象マイク２５を選択する処理である。なお対象マイク２５についての集音方向を設定する処理や、対象マイク２５の出力から音声データ６を生成する処理等は、対象マイク２５を選択した後に適宜実行される。
　また図５に示す処理は、集音動作が行われている間に所定のフレームレートで繰り返し実行されるループ処理である。

　まず、図６に示すＢＦマイクＭの配置について説明する。ここでは、４つのＢＦマイクＭ１～Ｍ４が、正方形状の領域の４つの頂点にそれぞれ配置される。この正方形状の領域が、集音システム１００の集音対象領域４０である。ここでは、集音対象領域４０内の各点において、図中上方向の方位角を０°とし、時計回りの方向に方位角が増えるものとする。
　ＢＦマイクＭ１は図中右上の頂点に配置され、ＢＦマイクＭ２は図中右下の頂点に配置され、ＢＦマイクＭ３は図中左下の頂点に配置され、ＢＦマイクＭ４は図中左上の頂点に配置される。

　また本実施形態では、複数のＢＦマイクＭは、各々の配置に応じて割り当てられた割当範囲４１に集音方向３を設定可能なように構成される。
　割当範囲４１は、例えば各ＢＦマイクＭが集音を担当する角度範囲であり、典型的には水平面における方位角度の範囲である。割当範囲４１は、各ＢＦマイクＭの位置や、集音対象領域４０の形状に合わせて適宜設定される。

　図６には、円弧状の矢印を用いてＢＦマイクＭ１の割当範囲４１が模式的に図示されている。ＢＦマイクＭ１の割当範囲４１は、ＢＦマイクＭ１を基準として１８０°から２７０°の範囲である。同様に、ＢＦマイクＭ２の割当範囲４１は、２７０°から３６０°の範囲であり、ＢＦマイクＭ３の割当範囲４１は、０°から９０°の範囲であり、ＢＦマイクＭ４の割当範囲４１は、９０°から１８０°の範囲である。
　各ＢＦマイクＭは、少なくとも上記した割当範囲４１内に集音方向３を設定可能である。

　図５に示すように、まず画像処理部２１により、検出カメラ１０が撮影した画像データから発話者１が検出される（ステップ１０１）。発話者１の検出には、例えば人物を検出する任意の画像処理が用いられる。この時、発話者１の識別が行われてもよい。

　またステップ１０１では、発話者１が検出された場合、発話者１の位置座標が検出される。ここでは、集音対象領域４０における発話者１の位置Ｑの２次元座標（ｘｙ座標）が検出される。
　またステップ１０１では、発話者１に対してボーン検出が実行され、発話者１の発話方向２が検出される。ここでは、集音対象領域４０における発話方向２の方位角度（正面角度）が検出される。

　図７は、発話者１の発話方向２の一例を示す模式図である。
　図７に示すように、発話者１の位置Ｑを基準に算出される。ここでは、発話者１の位置Ｑから見て、図中上方向の方位角を０°とする。また図中右方向の方位角を９０°とし、図中下方向の方位角を１８０°とし、図中左方向の方位角を２７０°とする。
　発話者１の発話方向２、すなわち発話者１の正面角度θは、０°～３６０°の方位角度として算出される。例えば図７に示す発話方向２の角度θは、およそ１２０°である。

　なお、発話者１の位置Ｑや発話方向２が検出できない場合には、各パラメータの検出ができない旨の情報が記録されてもよい。

　次に、発話方向２が検出可能であるか否かが判定される（ステップ１０２）。
　例えば画像処理部２１により発話方向２が検出されない場合、発話方向２が検出できない状態であると判定され（ステップ１０２のＮｏ）、発話者１の位置Ｑ（ｘｙ座標）が取得可能であるか否かが判定される（ステップ１０３）。
　例えば画像処理部２１により発話者１の位置Ｑが検出されない場合、発話者１の位置Ｑが検出できない状態であると判定され（ステップ１０３のＮｏ）、再度ステップ１０１が実行される。

　一方で、発話者１の位置Ｑが検出された場合、発話者１の位置Ｑが検出可能な状態であると判定され（ステップ１０３のＹｅｓ）、発話者１の位置Ｑに最寄りのＢＦマイクＭが、対象マイク２５として選択される（ステップ１０４）。
　このように、発話方向２が不明であるが、発話者１の位置Ｑがわかっている場合には、発話者１に直近にあるＢＦマイクＭ（図５ではＢＦマイク（Ｎ）と記載している）が選択される。なおＮはＢＦマイクＭを表すインデックスであり、Ｎ＝１、２、３、４である。
　ステップ１０４で、対象マイク２５が選択されると、次のループ処理が実行される。

　ステップ１０２に戻り、画像処理部２１により発話方向２が検出された場合、発話方向２が検出可能な状態であると判定され（ステップ１０２のＹｅｓ）、発話方向２に最も適したＢＦマイクＭの有無が判定される（ステップ１０５）。

　ここで、発話方向２に最も適したＢＦマイクＭとは、発話方向２と割当範囲４１の中心方向とが対応しているＢＦマイクＭである。
　このようなＢＦマイクＭを用いることで、割当範囲４１の中心に沿って到来する音声５を集音することが可能となる。この結果、効果的に音声５を強調することや、他のノイズを抑制するといった処理が可能となり、高品質な音声データ６を生成可能となる。
　具体的には発話方向２の角度θが、以下の関係を満たすか否かが判定される。
　θ＝９０°×Ｎ－４５°　　　　・・・（１）

　（１）式より、Ｎ＝１の場合、θ＝４５°となる。このθ＝４５°の発話方向２は、ＢＦマイクＭ１の割当範囲４１（１８０°から２７０°）の中心方向（２２５°）を１８０°回転させた方向であり、中心方向に沿ってＢＦマイクＭ１に進行する方向である。すなわち、θ＝４５°の発話方向２は、ＢＦマイクＭ１の割当範囲４１の中心方向と対応している。この場合、ＢＦマイクＭ１が、発話方向２に最も適したＢＦマイクＭとなる。
　同様に、Ｎ＝２、３、４について、（１）式が満たされる場合には、ＢＦマイクＭ２、Ｍ３、及びＭ４が、それぞれ発話方向２に最も適したＢＦマイクＭとなる。

　なおステップ１０５では、（１）式によるθの判定に一定の幅αを持たせた処理が実行されてもよい。例えば、発話方向２の角度θが（９０°×Ｎ－４５°－α）≦θ≦（９０°×Ｎ－４５°＋α）を満たすか否かが、各Ｎについて判定される。このように、発話方向２と割当範囲４１の中心方向とが多少ずれていた場合であっても、高品質な音声データ６を生成可能である。

　（１）式を満たすＮが存在した場合（ステップ１０５のＹｅｓ）、（１）式を満たすＢＦマイク（Ｎ）が、発話方向２に最も適したＢＦマイクＭとして対象マイク２５に選択される（ステップ１０６）。
　このように、本実施形態では、割当範囲４１の中心方向が発話方向２と対応しているＢＦマイクＭが対象マイク２５として選択される。これにより、発話者１の音声５を十分高い音質で集音するといったことが可能となる。
　ステップ１０６で、対象マイク２５が選択されると、次のループ処理が実行される。

　ステップ１０５に戻り、（１）式を満たすＮが存在しない場合（ステップ１０５のＮｏ）、発話者１の位置Ｑのｘｙ座標から、発話者１に最寄りのＢＦマイクＭが検出される（ステップ１０７）。
　例えば図６に示す例では、発話者１の発話方向２について（１）式を満たすＮは存在しないと判定され、発話者１に最も近いＢＦマイクＭ４（Ｎ＝４）が検出される。

　ステップ１０７で検出されたＢＦマイクＭについて、発話方向２に沿った集音が可能であるか否かが判定される（ステップ１０８）。ここで、発話方向２に沿った集音とは、発話方向２がビーム７の方向範囲に含まれた状態で行われる集音動作である。
　図６を参照して説明したように、ここでは各ＢＦマイクＭが、９０°の割当範囲４１内で集音方向３を設定可能である。従って、Ｎ番目のＢＦマイクＭが設定可能な方位角の範囲は、９０°×（Ｎ－１）－βから、９０°×Ｎ＋βまでの範囲となる。
　ステップ１０８では、発話者１に最も近いＢＦマイク（Ｎ）について、発話方向２の角度θが上記したビーム７を設定可能な範囲に収まるか否かが判定される。これは、以下の関係を満たすか否かを判定する処理である。
　９０×（Ｎ－１）－β≦θ≦９０°×Ｎ＋β　　　　・・・（２）

　図６を参照して（２）式の判定について説明する。ここでは、ＢＦマイクＭ４（Ｎ＝４）が最寄りのＢＦマイクＭとして検出されているため、（２）式は、２７０－β≦θ≦３６０°＋βとなる。これは、ＢＦマイクＭ４の割当範囲４１に集音方向３を設定するという条件のもとで設定可能なビーム７の範囲に対応する。この範囲に、発話方向２の角度θが含まれているかどうかが判定される。
　これにより、発話者１に最も近いＢＦマイクＭにおいて、発話方向２に沿った集音が可能であるかどうかがわかる。

　（２）式が満たされる場合（ステップ１０８のＹｅｓ）、ステップ１０７で検出された最寄りのＢＦマイク（Ｎ）が対象マイク２５に選択される（ステップ１０９）。これにより、発話者１に最も近い位置から十分な感度で音声５を集音することが可能となる。
　ステップ１０９で、対象マイク２５が選択されると、次のループ処理が実行される。

　また（２）式が満たされない場合（ステップ１０８のＮｏ）、ステップ１０７で検出された最寄りのＢＦマイク（Ｎ）は対象マイク２５としては選択されない。この場合、次のＢＦマイク（Ｎ＋１）について、発話方向２に沿った集音が可能であるか否かが判定される（ステップ１１０）。
　この処理では、発話方向２の角度θが以下の関係を満たすか否かが判定される。
　９０×Ｎ＋β＜θ≦９０×（Ｎ＋１）＋β　　　　・・・（３）

　（３）式は、発話者１の最寄りのＢＦマイク（Ｎ）に隣接するＢＦマイク（Ｎ＋１）が、設定可能なビーム７の範囲のうち、ＢＦマイク（Ｎ）と重複しない範囲に発話方向２の角度θが含まれているかどうかを判定する条件式である。
　図６に示す例では、最寄りのＢＦマイクＭ４であった。この場合ステップ１１０では、その次のＢＦマイクＭ１（Ｎ＝１）がＢＦマイクＭ４とは別に設定可能なビーム７の範囲を対象として判定処理が実行される。

　（３）式が満たされる場合（ステップ１１０のＹｅｓ）、最寄りのＢＦマイク（Ｎ）に隣接するＢＦマイク（Ｎ＋１）が対象マイク２５に選択される（ステップ１１１）。これにより、発話者１に２番目（又は３番目）に近い位置から十分な感度で音声５を集音することが可能となる。
　ステップ１１１で、対象マイク２５が選択されると、次のループ処理が実行される。

　また（３）式が満たされない場合（ステップ１１０のＮｏ）、最寄りのＢＦマイク（Ｎ）にＢＦマイク（Ｎ＋１）とは反対側で隣接するＢＦマイク（Ｎ－１）が対象マイク２５に選択される（ステップ１１２）。これにより、ＢＦマイク（Ｎ＋１）が選択された場合と同様に、発話者１に十分近い位置から十分な感度で音声５を集音することが可能となる。
　ステップ１１２で、対象マイク２５が選択されると、次のループ処理が実行される。

　ステップ１０７～ステップ１１２で行われる処理は、発話方向２に沿った集音が可能なＢＦマイクＭを近い順番に検索して対象マイク２５に設定する処理である。このように、本実施形態では、発話方向２が割当範囲４１の中心方向に対応するＢＦマイクＭが存在しない場合、発話方向２に沿った集音が可能であり、音源との距離が最も近いＢＦマイクＭが対象マイクとして選択される。
　これにより、可能な限り高い感度で音声５を集音することが可能なＢＦマイクＭを対象マイク２５に設定することが可能となる。この結果、音声データ６の音質を十分に向上することが可能となる。

　図８は、複数の発話者１に対する集音動作について説明するための模式図である。以下では、集音対象領域４０に複数の発話者１が居る場合の集音動作について説明する。
　ここでは、正方形状の集音対象領域４０の中心に置かれた机４３の周りに座っている４人の発話者１Ａ、１Ｂ、１Ｃ、及び１Ｄを対象として集音動作が行われものとする。発話者１Ａ、１Ｂ、１Ｃ、及び１Ｄは、集音対象領域４０の中心から見て図中の左上、右上、右下、及び左下に位置し、互いに向かい合うようにして会話をしている。
　また集音対象領域４０の４つの頂点には、図６と同様にＢＦマイクＭ１～Ｍ４がそれぞれ配置される。

　複数の発話者１が集音対象となる場合、画像処理部２１は、複数の発話者１（音源）ごとに音源情報を取得する。
　具体的には、集音対象領域４０を図示しない検出カメラ１０で撮影した画像データから、発話者１Ａ、１Ｂ、１Ｃ、及び１Ｄの各々について、各発話者１の位置と発話方向２とがそれぞれ検出される。

　各発話者１の音源情報が取得されると、集音制御部２２は、複数の発話者１ごとの音源情報に基づいて、複数の発話者１ごとに対象マイク２５をそれぞれ選択する。また集音制御部２２は、複数の発話者１ごとに選択された各対象マイク２５について、集音方向３をそれぞれ設定する。
　図８に示す例では、発話者１Ａの対象マイク２５として、集音対象領域４０の右上に配置されたＢＦマイクＭ１が選択される。また、発話者１Ｂの対象マイク２５として、集音対象領域４０の左上に配置されたＢＦマイクＭ４が選択される。また、発話者１Ｃの対象マイク２５として、集音対象領域４０の左下に配置されたＢＦマイクＭ３が選択される。また、発話者１Ｄの対象マイク２５として、集音対象領域４０の右下に配置されたＢＦマイクＭ２が選択される。

　例えば、発話者１Ａの音声５の集音に、発話者１Ａの直近に配置されたＢＦマイクＭ４を用いるとする。ここでは、発話者１Ａは、机を挟んで対峙している発話者１Ｂ及び発話者１Ｃのほうを向いて会話をしている。このため、発話者１Ａの発話方向２に対するＢＦマイクＭ４の集音角度は、９０°以上である。さらにＢＦマイクＭ４を用いて発話者１Ａの音声５を集音する場合、発話者１Ｂ及び１Ｃの発話方向２の９０°以内にビームフォーミングの集音方向３を設定することになる。
　この結果、ＢＦマイクＭ４では、発話者１Ａの回折音と、発話者１Ｂ及び１Ｃの直接音とを集音することになり、発話者１Ａの音声５を選択的に集音することが難しくなる。

　これに対し、例えば図５を参照して説明した処理のように、発話方向２の情報を加味することで、発話者１Ａの音声を集音する対象マイク２５として、ＢＦマイクＭ１を選択することが可能である。ＢＦマイクＭ１を用いることで、発話者１Ａの直接音を集音することが可能となる。またＢＦマイクＭ１から発話者１Ａに向けて設定される集音方向３は、発話者１Ｂ及び１Ｃの音声５をほとんど集音しない。このように、発話者１Ｂ及び１Ｃをビームフォーミングの集音範囲外にすることが可能となるので、集音対象でない発話者１の影響を十分に抑えることが可能となる。

　発話者１Ｂ～１Ｄに対して設定される対象マイク２５についても、上記と同様の効果を発揮することが可能である。これにより、複数の発話者１が居る場合であっても、各発話者１の音声５を個別にかつ良好な音質で集音することが可能となる。

　図９は、複数のＢＦマイクＭを用いた集音動作の一例を示す模式図である。
　図９では、複数のＢＦマイクＭを使って一人の発話者１の音声を集音する例について説明する。この場合、集音制御部２２では、単一の音源（一人の発話者１）について、複数のＢＦマイクＭから複数の対象マイク２５が選択される。
　ここでは、図６や図８と同様に４つのＢＦマイクＭ１～Ｍ４が正方形状の集音対象領域４０に配置される。

　図９に示す発話者１は、集音対象領域４０の中心よりも図中上側に位置した状態で、図中下側を向いて音声５を発している。このため、発話者１に近接するＢＦマイクＭ１やＭ４では、発話者１の直接音の集音が難しい。
　このような場合、集音制御部２２により、集音対象領域４０において発話者１の正面側（発話方向２が向けられた側）にあるＢＦマイクＭ２及びＭ３がともに発話者１の対象マイクとして選択される。また集音処理部２３により、ＢＦマイクＭ２及びＭ３使って、発話者１の音声５が同時に集音され、各集音結果を加算（合成）して音声データ６が生成される。
　このように２つのＢＦマイクＭ２及びＭ３を用いることで、遠距離集音時の集音レベルを向上することが可能となり、品質を低下させることなく発話者１の音声５を集音することが可能となる。

　図１０は、発話者１が移動する際の集音動作の一例を示す模式図である。図１１は、音声５の合成処理について説明するための模式図である。ここでは、図１０及び図１１を参照して、集音対象領域４０内を発話者１が移動する場合の対象マイク２５の選択動作について説明する。
　発話者１は、集音対象領域４０の左上から中央右側を通って左下に向けて移動するものとする。図１０には、時刻Ｔ１、Ｔ２、Ｔ３、及びＴ４における発話者１の位置及び発話方向２が模式的に図示されている。またビーム７の範囲を表すグレーの色は各時刻に対応しており、色が濃いほど後の時刻に設定されたビーム７を表している。

　例えば時刻Ｔ１では、発話者１は、集音対象領域４０の左上に位置し発話方向２は図中右側に向けられている。この場合、ＢＦマイクＭ１が対象マイク２５となり、発話者１に向けてビーム７が設定される。
　時刻Ｔ２では、発話者１は、ＢＦマイクＭ１に接近しており発話方向２は図中右下に向けられている。この場合、ＢＦマイクＭ１とともに、ＢＦマイクＭ２が対象マイク２５として選択される。
　時刻Ｔ３では、発話者１は、集音対象領域４０の中央右側に位置し発話方向２は図中下側に向けられている。この場合、ＢＦマイクＭ１は対象マイク２５から外されており、ＢＦマイクＭ２が対象マイク２５として選択される。
　時刻Ｔ４では、発話者１は、ＢＦマイクＭ２に接近しており発話方向２は図中左下のＢＦマイクＭ３に向けられている。この場合、ＢＦマイクＭ２とともに、ＢＦマイクＭ３が対象マイク２５として選択される。

　このように、本実施形態では、発話者１の移動に伴い、複数のＢＦマイクＭを適宜切り替えて対象マイク２５が設定される。
　また時刻Ｔ２やＴ４のように、２つのＢＦマイクＭで集音が可能な場合には、両方のＢＦマイクＭが対象マイク２５として設定され、そのデータを用いて音声データ６が合成される。すなわち、集音処理部２３では、複数の対象マイク２５により集音されたデータを合成して、発話者１の音声データ６が生成される。
　以下では、時刻Ｔ２の場合を例に挙げて、対象マイク２５として選択された２つのＢＦマイクＭ１及びＭ２を用いて音声データ６を合成する方法について説明する。

　図１１には、時刻Ｔ２における発話者１とＢＦマイクＭ１及びＭ２との配置関係が模式的に図示されている。
　発話者１からＢＦマイクＭ１に向かう方向（ＱからＰ１に向かう方向）と発話方向２とのなす角度をγ₁と記載し、発話者１からＢＦマイクＭ２に向かう方向（ＱからＰ２に向かう方向）と発話方向２とのなす角度をγ₂と記載する。また、発話者１とＢＦマイクＭ１との距離（ＱとＰ１との距離）をＬ₁と記載し、発話者１とＢＦマイクＭ２との距離（ＱとＰ２との距離）をＬ₂と記載する。
　（γ₁、γ₂、Ｌ₁、Ｌ₂）は、例えば画像処理部２１によるボーン検出及び人位置検出の各処理を用いてそれぞれ算出される。

　ここで、発話者１の正面で集音を行った場合に、必要な発話レベルＡを集音可能な距離を、基準集音距離Ｌと記載する。
　例えば、基準集音距離Ｌに対して、発話者１から距離Ｌ₁だけ離れた位置で集音するＢＦマイクＭ１の集音レベルＡ１は、以下の式で表される。
　Ａ１＝Ａ×(Ｌ／Ｌ₁)²　　　　・・・（４）
　同様に、基準集音距離Ｌに対して、発話者１から距離Ｌ₂だけ離れた位置で集音するＢＦマイクＭ２の集音レベルＡ２は、以下の式で表される。
　Ａ２＝Ａ×(Ｌ／Ｌ₂)²　　　　・・・（５）

　また、ＢＦマイクＭ１及びＭ２の各出力を以下の式に従って合成する。
　Ａ_mix＝sqrt｛(Ａ１×(Ｌ₁／Ｌ)²×cosγ)²＋(Ａ１×(Ｌ₁／Ｌ)²×cosγ)²｝
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（６）
　ここでＡ_mixは、ＢＦマイクＭ１及びＭ２の各出力を合成した合成レベルである。
　またsqrt｛｝は、｛｝内の値に対する平方根を意味する。
　またγは、上記した（γ₁、γ₂）のどちらか一方である。

　（４）及び（５）式より、必要な発話レベルＡは、以下のように表される。
　Ａ＝Ａ１×(Ｌ₁／Ｌ)²＝Ａ２×(Ｌ₂／Ｌ)²　　　　・・・（７）
　従って、（６）式に従って合成される合成レベルＡ_mixは、Ａ_mix＝Ａとなる。
　このように、（６）式を用いることで、合成レベルＡ_mixを常に発話レベルＡと同等のレベルとすることが可能となる。

　また、（６）式のγは、例えば２つのＢＦマイクＭ（ここではＭ１及びＭ２）のうち、メインに集音を行うＢＦマイクＭ（主マイクアレイ）の発話方向２に対する集音角度である。
　例えば、発話者１の位置Ｑ及び発話方向２をもとに、集音角度γが－９０°≦γ≦９０°となり、発話者１に近接する２つのＢＦマイクＭが対象マイク２５として選択される。また、選択された２つのＢＦマイクＭのうち、発話者１に近いほうが、メインに集音を行うＢＦマイクＭに設定され、その集音角度が（６）式のγとして用いられる。

　例えば、図１１に示す状況では、発話者１に近いＢＦマイクＭ１がメインに集音を行うＢＦマイクＭに設定され、その集音角度γ₁が（６）式のγとして用いられる。
　また時刻Ｔ２以降に発話者１が移動して、γ₁＝９０°（またはγ₁＝－９０°）となった場合、メインに集音を行うＢＦマイクＭは、ＢＦマイクＭ２に切り替えられ、（６）式のγが集音角度γ₁に切り替えられる。
　これにより、隣接するＢＦマイクＭの連続的な切替えを実現することが可能となる。この結果、不自然な音切れ等を発生させることなく、集音レベルの高い高品質な集音を継続して行うことが可能となる。

　図１２は、複数の発話者１が移動する際の集音動作の一例を示す模式図である。
　図１２では、複数の発話者１が移動し、かつ各発話者１に対する集音動作が干渉する場合について説明する。
　ここでは、集音対象領域４０内を２人の発話者１Ａ及び１Ｂが、図中の太い矢印に沿ってそれぞれ移動するものとする。図１２Ａ及び図１２Ｂには、時刻Ｔ１及び時刻Ｔ２での発話者１Ａ及び１Ｂの配置が模式的に図示されている。
　また発話者１Ａの対象マイク２５のビーム７の範囲が薄いグレーの領域で示されており、発話者１Ｂの対象マイク２５のビーム７の範囲が濃いグレーの領域で示されている。また、ドットの領域は、比較のために示した仮想的なビーム７の範囲を表している。

　図１２Ａでは、発話者１Ａは集音対象領域４０の左上の外周近くに位置し、発話者１Ａの発話方向２は図中右側を向いている。また発話者１Ｂは集音対象領域４０の中央下側の外周近くに位置し、発話者１Ｂの発話方向２は図中左上を向いている。

　図１２Ａに示す状況では、発話者１Ａの正面側にある直近のＢＦマイクＭ１で、発話者１Ａの音声５を集音してもその集音方向３（ビーム７ａの方向）に他者（発話者１Ｂ）が重ならない。このため、ＢＦマイクＭ１が発話者１Ａの対象マイク２５として選択され、発話者１Ａに向けてビーム７ａが設定される。
　同様に、発話者１Ｂの正面側にある直近のＢＦマイクＭ３で、発話者１Ｂの音声５を集音してもその集音方向３（ビーム７ｃの方向）に他者（発話者１Ａ）が重ならない。このため、ＢＦマイクＭ３が発話者１Ｂの対象マイク２５として選択され、発話者１Ｂに向けてビーム７ｂが設定される。

　なお、発話者１Ａに最も近い位置にあるＢＦマイクＭ４では、発話者１Ａにビーム７ｄを向けたとしても、発話者１Ａを背後から集音することになる。同様に、発話者１Ｂに最も近い位置にあるＢＦマイクＭ２では、発話者１Ｂにビーム７ｂを向けたとしても、発話者１Ｂを背後から集音することになる。従ってＢＦマイクＭ４のビーム７ｄや、ＢＦマイクＭ２のビーム７ｂでは、発話者１の直接音が集音できないため、音質が低下する可能性がある。

　図１２Ｂでは、発話者１Ａは集音対象領域４０の中心の右上に位置し、発話者１Ａの発話方向２は図中右下を向いている。また発話者１Ｂは集音対象領域４０の中心の左下に位置し、発話者１Ｂの発話方向２は図中上側を向いている。

　図１２Ｂに示す状況では、図１２Ａと同様にＢＦマイクＭ１を用いて発話者１Ａを集音した場合、ＢＦマイクＭ１のビーム７ａ'上に、他者（発話者１Ｂ）が重なっている。また発話者１Ｂの発話方向２に対するＢＦマイクＭ１の集音角度が９０°以下であるため、ビーム７ａ'を用いた場合、発話者１Ｂが発する直接音が集音される可能性がある。
　一方で、発話者１Ａの正面側にあるもう一方のＢＦマイクＭ２を用いて発話者１Ａを集音した場合、ＢＦマイクＭ２のビーム７ｂ'上に、他者（発話者１Ｂ）が重ならない。このため、図１２Ｂでは、ＢＦマイクＭ２が発話者１Ａの対象マイク２５として選択され、発話者１Ａに向けてビーム７ｂ'が設定される。これにより、発話者１Ａの音声５だけを高品質に集音することが可能である。

　図１２Ｂに示す発話者１Ｂについても同様に対象マイク２５が切り替えられる。例えば、
図１２Ａと同様にＢＦマイクＭ３を用いて発話者１Ｂを集音した場合、ＢＦマイクＭ３のビーム７ｃ'には、他者（発話者１Ａ）が重なっており、発話者１Ａが発する直接音が集音される可能性がある。
　一方で、発話者１Ｂの正面側にあるＢＦマイクＭ４を用いて発話者１Ｂを集音した場合、ＢＦマイクＭ４のビーム７ｄ'上に、他者（発話者１Ａ）が重ならない。このため、図１２Ｂでは、ＢＦマイクＭ４が発話者１Ｂの対象マイク２５として選択され、発話者１Ｂに向けてビーム７ｄ'が設定される。これにより、発話者１Ｂの音声５だけを高品質に集音することが可能である。

　このように本実施形態では、処理対象（集音対象）の発話者１が発する直接音を集音し処理対象とは異なる他の発話者１が発する直接音を集音しないように集音方向３を設定可能なＢＦマイクＭが対象マイク２５として選択される。
　これにより、例えば処理対象の発話者１が発した音声５を選択的に集音した音声データ６を生成することが可能となる。

　図１３は、発話者１の発話方向２を想定した集音動作の一例を示す模式図である。
　図１３では、複数の発話方向２にむけた発話が想定可能であり、発話方向２が比較的頻繁に切り替わるような状況での集音動作について説明する。
　ここでは、一例としてリモート会議が行われている状況を想定する。集音対象領域４０には、発話者１Ａ及び１Ｂが左右に分かれて座っている。また集音対象領域４０の中央上側に設けられたモニター４４には、リモート会議の参加者である発話者１Ｃが映し出されている。

　複数の発話方向２が想定される場合には、対応するＢＦマイクＭに対して、想定される発話方向２に応じた集音方向３が予め設定される。集音方向３が予め設定されたＢＦマイクＭは、対象マイク２５の候補となる候補マイク２６となる。
　このように、複数のＢＦマイクＭには、予め集音方向３が設定された複数の候補マイク２６が含まれる。本実施形態では、候補マイク２６は、候補装置に相当する。

　発話者１Ａに着目すると、図１３に示す状況では、発話者１Ａが発話者１Ｃに向かって発話する場合（発話方向２が上側に向けられる場合）と、発話者１Ａが発話者１Ｂに向かって発話する場合（発話方向２が右側に向けられる場合）とが想定される。
　この場合、ＢＦマイクＭ４及びＭ１が、発話者１Ａの音声５を集音する候補マイク２６として設定される。
　例えば、発話者１Ａが発話者１Ｃに向かって発話する際の上側に向けられる発話方向２ａに対応して、ＢＦマイクＭ４に集音方向３ａが設定される。同様に、発話者１Ａが発話者１Ｂに向かって発話する際の右側に向けられる発話方向２ｂに対応して、ＢＦマイクＭ１に集音方向３ｂが設定される。

　このように、候補マイク２６が設定された状態で、発話者１に対する集音動作が実行される。具体的には、集音制御部２２により、複数の候補マイク２６から対象マイク２５が選択される。例えば、発話者１の実際の発話方向２がモニタリングされ、そのモニタリング結果に応じて、各候補マイク２６から対象マイク２５が選択される。
　図１３では、発話者１Ａが発話者１Ｃに向かって発話しているとする。この場合、発話方向２ａに対応する集音方向３ａが設定されたＢＦマイクＭ４が対象マイク２５として選択される。そして、ＢＦマイクＭ４により集音方向３ａに沿って発話者１Ａの音声５が集音される。

　また、集音処理部２３は、対象マイク２５として選択されない候補マイク２６を集音状態で待機させる。ここで集音状態での待機とは、例えば対象マイク２５による集音動作のバックグラウンドで集音処理（ビームフォーミング処理）を継続する処理である。なお待機中に生成された音声データ６は適宜削除される。
　図１３では、ＢＦマイクＭ４が対象マイク２５として選択されるため、もう一方の候補マイク２６であるＢＦマイクＭ１が集音状態で待機することになる。このときＢＦマイクＭ１は集音方向３ｂに対する集音動作を継続している。
　これにより、発話方向２が急に変化した場合であっても、待機させた候補マイク２６での集音に切り替えることで、高品質な集音を継続して行うことが可能となる。

　例えば図１３では、発話者１Ａの隣席に発話者１Ｂが居るため、発話者１Ａがメインの方向（発話方向２ａ）を向いて発話者１Ｃと話していたとしても、急に発話者１Ｂとの会話が始まる可能性がある。そこで、上記したように予め隣席方向（発話方向２ｂ）に対してもＢＦマイクＭ１を集音状態で待機すれば、発話者１Ａが頻繁に且つ早急に向きを変えて隣席の発話者１Ｂと会話を始めても、頭切れをせずに発話者１Ａの音声５を集音することが可能となる。

　図１４は、ジャスチャーに応じた集音動作の一例を示す模式図である。
　図１４では、発話者１のジェスチャー（特定動作）に応じて発話者１に対する集音処理を制御する方法について説明する。
　ここでは、画像処理部２１により、発話者１のジェスチャーが検出される。本実施形態では、発話者１の発話方向２を検出するボーン検出機能を利用して、発話者１の骨格の情報から発話者１のジェスチャーが検出される。発話者１のジェスチャーは、静的なジェスチャー（ポーズ）であってもよいし、動的なジェスチャー（動作）であってもよい。

　図１４（ａ）～（ｃ）には、発話者１の骨格を用いて、発話者１の姿勢が模式的に図示されている。発話者１の骨格は、複数の座標点４５で表されており、例えば発話者１の頭部は、頭座標点４５ａと、首座標点４５ｂとで表されている。また発話者１の右手は、右手首及び右手のひらを表す座標点４５のペア４６Ｒで表されており、発話者１の左手は、左手首及び左手のひらを表す座標点４５のペア４６Ｌで表されている。
　これに限定されず、例えば、目、鼻、耳等の他の部分を表す座標点４５が用いられてもよい。

　本実施形態では、集音処理部２３により、発話者１のジェスチャーに応じて、発話者１の音声５を集音する集音処理が制御される。
　ここで集音処理とは、例えば発話者１の音声５を集音するために必要となる一連の処理である。集音処理には、音声データ６を生成するビームフォーミング処理の他、画像処理部２１による発話者１の位置Ｑ及び発話方向２の検出処理や、集音制御部２２による対象マイク２５を選択する処理や集音方向３を設定する処理が含まれる。
　これらの処理が、発話者１のジェスチャーに応じて制御される。

　図１４（ａ）には、発話者１の一般姿勢が示されている。一般姿勢は、例えば発話者１の通常の姿勢であり、左右の手を下におろして直立した状態である。なお、左右の手（ペア４６Ｌ及び４６Ｒ）の位置が例えば肩の座標点４５よりも低い位置にある場合を一般姿勢に設定してもよい。
　一般姿勢が検出された場合、発話者１に対して通常の集音処理が実行される。

　図１４（ｂ）には、集音を停止する停止ジェスチャーが示されている。停止ジェスチャーは、口前に手をかざす姿勢である。このように、発話者１が手で口を遮る停止ジェスチャーが検出された場合、発話者に対する集音処理が停止される。
　ここでは、発話者１の右手（ペア４６Ｒ）が、頭座標点４５ａ及び首座標点４５ｂの間と重なる位置で検出される。このようなジェスチャーが検出された場合には、発話者１が口を塞いだとみなして、発話者１を対象とする集音処理が停止される。これにより、例えば発話者１が集音したくない会話等が集音される事態を回避することが可能となる。
　なお、他の発話者１に対して実行されている集音処理はそのまま継続される。

　図１４（ｃ）には、集音を優先する優先ジェスチャーが示されている。優先ジェスチャーは、左右どちらかの手を頭部より上にかざす姿勢である。このように、発話者１が手を挙げる優先ジェスチャーが検出された場合、発話者１に対する集音処理が優先して実行される。
　ここでは、発話者１の左手（ペア４６Ｌ）が、頭座標点４５ａよりも高い位置で検出される。このようなジェスチャーが検出された場合には、発話者１が発言のために挙手をしたとみなして、発話者１を優先的に集音する集音処理（優先集音）が実行される。
　優先集音では、例えば発話者１の音声を集音するためのビームフォーミング処理の精度が引き上げられる。あるいは、発話者１の発話方向２等の検出精度が引き上げられる。逆に、他の発話者１に対して実行されている集音処理の精度が引き下げられてもよい。また、発話者１の音声５を単独で集音するといった処理が実行されてもよい。これにより、例えば発言を希望する発話者１の音声を高品質に集音することが可能となる。

　図１５は、音声と動作音とを集音する集音動作の一例を示す模式図である。
　図１５では、発話者１の移動等の動作に伴う所作音８を分離して集音する方法について説明する。以下では所作音の一例として、発話者１が移動した際に発生する足音を例に挙げて説明する。この処理は、例えばボーン検出や位置検出により、発話者１の移動が検出された場合に実行される。なお、発話者１の移動の有無に関わらず、所作音８（足音）を分離する処理が実行されてもよい。

　図１５Ａは、対象マイク２５（ＢＦマイクＭ）から発話者１に向けられたビーム７の垂直方向の広がりを示す模式図である。例えば対象マイク２５に設定されたビーム７は、図１５Ａに示すように上下方向に広がる。このため、対象マイク２５は、発話者１の音声５とともに、発話者１の足元で発生する足音（所作音８）も集音することが可能である。
　従って、対象マイク２５の出力をもとに生成された音声データ６には、発話者１の音声５と所作音８が含まれている。

　本実施形態では、集音処理部２３により、対象マイク２５により集音された音声データ６から、発話者１の音声５と、発話者１の所作音８とが分離される。
　例えば音声データ６から発話成分を分離することで、発話者１の所作音８(足音)を集音した所作音データ等を生成することが可能である。

　図１５Ｂは、所作音８を分離する集音処理部２３の構成例を示すブロック図である。この集音処理部２３には、図１を参照して説明した音声データ生成部２８の後段に、音源分離部３５が設けられる。
　音源分離部３５は、対象マイク２５を用いて生成された音声データ６から発話者１の音声５を除去して、所作音８を抽出する。所作音８の抽出には、データの内容や集音環境等に応じて分離周波数等のパラメータを変化させる適応型の音源分離処理が用いられる。あるいは、所作音８の特徴に合わせて固定型の帯域通過フィルタ（ＢＰＦ）等が用いられてもよい。

　図１５Ｃは、音声５及び所作音８に関する集音レベルの周波数分布を示す模式的なグラフである。グラフの横軸は、周波数であり、縦軸は、集音レベルである。音声５及び所作音８の集音レベルは、実線のグラフ及び一点鎖線のグラフを用いてそれぞれ示されている。
　例えば音声５は、１ｋＨｚを中心として比較的急峻なピーク状に分布しており、１ｋＨｚよりも十分に周波数が高い領域（または低い領域）には周波数成分を持たない。一方で、所作音８は、音声５よりも広い周波数範囲に分布した比較的ブロードな分布を示す。すなわち音声５が周波数成分を持たない領域にも、所作音８の周波数成分が分布している。

　このように、音声５の周波数成分は１ｋＨｚ近辺に集中している。そこで、音源分離部３５では、音声データ６から１ｋＨｚ近辺の周波数成分を除去する処理が実行される。このように、音源分離部３５は、１ｋＨｚ近辺の周波数成分を除去したデータを所作音８(足音)とみなして集音する。
　図１５Ｃには、１ｋＨｚ近辺の周波数成分を除去するＢＰＦの周波数特性が、破線のグラフを用いて示されている。このようなＢＰＦを音声データ６に作用させることで、音声５が除去されて所作音８が抽出された所作音データが生成される。
　この他、所作音８を抽出する方法は限定されず、例えば機械学習等を用いた音源分離技術等が適宜用いられてもよい。

　音声５と分離された所作音８（所作音データ）は、例えば音声５とは別のトラックの音データとして、再生装置２９や記憶部１１に出力される。
　例えば、発話者１の挙動を遠隔地で再生するようなアプリケーション（リモート会議やリモートプレゼンテーション等）では、音声５と所作音８とを分けて再生することで、臨場感の向上をはかることが可能である。
　また例えば、映像コンテンツの収録を行う際に、所作音８を音声５とは別トラックで記録することが可能となり、コンテンツの品質を向上することが可能となる。

　以上、本実施形態に係るコントローラ２０では、音源である発話者１の周辺に配置された複数のＢＦマイクＭから、発話者１の音声５を集音するための対象マイク２５が少なくとも１つ選択される。各ＢＦマイクＭは、集音方向３を設定できる装置であり、対象マイク２５の選択には、発話者１の位置Ｑ及び発話者１が音声を発する発話方向２を示す音源情報が用いられる。これにより、例えば発話者１の位置や音声５の出る方向に適応したＢＦマイクＭを用いることが可能となり、発話者１が発する音声５を高品質に集音することが可能となる。

　音源の音を集音する方法として、例えば目的音以外の音を除去するノイズキャンセルを用いる方法が考えられる。例えば特許文献１では、一つのマイクアレイを用いたビームフォーミング技術によるノイズキャンセルの方法が記載されている。この方法では、マイクアレイとは別の画像処理装置を用いて集音対象となる人物の配置が検出され、集音対象の配置に基づいてノイズ方向が設定される。そして集音対象が存在する方向の音からノイズ方向の音を差し引くことで、ノイズがキャンセルされる。

　しかしながら、例えば集音対象となる人物がマイクアレイに背を向けた場合には、発話方向とは反対側から人物の音声を集音することになり、そもそも集音対象の音を高品質で集音することが難しい。また集音対象とノイズ源との配置関係によっては、目的音より雑音が大きく集音されることになる。この場合、目的音となる発話情報を雑音情報の中から抜き出すことになるので、音声の品質が劣化する可能性がある。

　本実施形態では、集音対象となる音源（発話者１）の位置Ｑ及び発話方向２が音源情報として検出される。この音源情報をもとに、任意の方向に集音方向３を設定可能な複数の集音装置を制御して発話者１の音声５が集音される。これにより、様々な方向を向いている複数の発話者１から発せられる音声５を個別かつ同時に集音することが可能となる。
　また複数の発話者１が同時に発話しても、各発話者１の音声データ６を別々のオブジェクトとして発話数分だけ集音することが可能である。これにより、音声データ６の取り扱いが容易になる。

　また、複数のＢＦマイクＭから、対象マイク２５を選択しその集音方向３を設定する方法は、発話者１の音声５を良い音質で集音可能な状況を作り出すことを目的としている。これは、ノイズをキャンセルする前の段階で、おおもとのデータにおける音質を向上させる方法であると言える。
　このように、集音システム１００で行われる集音方法は、ノイズ除去ではないので、再生した場合に明瞭に聞くことが可能な音声データ６を提供することが可能となる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記では、各ＢＦマイクＭに対して、１つのビーム７を設定して集音を行う方法について説明した。これに限定されず、例えば１つのＢＦマイクＭに対して、複数のビーム７（集音方向３）を設定することも可能である。これにより、例えばＢＦマイクＭの数よりも発話者１が多いような場合であっても、発話者１ごとの高品質な集音を実現することが可能となる。

　図１を参照して説明した構成では、集音処理部２３によりビームフォーミング処理が実行された。例えば、各ＢＦマイクＭがそれぞれビームフォーミング処理を実行可能なように構成されてもよい。この場合、各ＢＦマイクＭでは、集音方向信号が指定する集音方向３の音波を集音するビームフォーミング処理が実行され、各ＢＦマイクＭからは、集音方向３の音声データ６が出力される。このような構成であっても、発話者１の音声５を高品質に集音することが可能である。

　集音方向３を設定可能な集音装置として、ＢＦマイクＭに代えて、単一指向性マイク等が用いられてもよい。この場合、例えば多数の単一指向性マイクが発話者１の周辺に配置される。そして発話者１の発話方向２にあった集音方向３をもつ単一指向性マイクが選択され、対象マイク２５として用いられる。このような構成であっても、発話者１の音声５を高品質に集音することが可能である。

　上記では集音システムのコンピュータ（コントローラ）により、本技術に係る情報処理方法が実行される場合を説明した。しかしながら集音システムのコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば音源情報を取得する処理及び対象マイクを選択する処理が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

　なお、本技術は以下のような構成も採ることができる。
（１）音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する集音制御部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
　情報処理装置。
（３）（２）に記載の情報処理装置であって、
　前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
　情報処理装置。
（５）（４）に記載の情報処理装置であって、
　前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
　前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
　情報処理装置。
（７）（１）から（６）のうちいずれか１つに記載の情報処理装置であって、
　前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
　前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
　情報処理装置。
（８）（７）に記載の情報処理装置であって、
　前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
　情報処理装置。
（９）（１）から（８）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記少なくとも１つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
　情報処理装置。
（１０）（９）に記載の情報処理装置であって、
　前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
　前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
　前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
　情報処理装置。
（１１）（９）又は（１０）に記載の情報処理装置であって、
　前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
　情報処理装置。
（１２）（１１）に記載の情報処理装置であって、
　前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
　情報処理装置。
（１３）（９）から（１２）のうちいずれか１つに記載の情報処理装置であって、
　前記音源は、発話者であり、
　前記音源が音を発する方向は、前記発話者の発話方向である
　情報処理装置。
（１４）（１３）に記載の情報処理装置であって、
　前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
　情報処理装置。
（１５）（１３）又は（１４）に記載の情報処理装置であって、
　前記情報取得部は、前記発話者のジェスチャーを検出し、
　前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
　情報処理装置。
（１６）（１５）に記載の情報処理装置であって、
　前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
　情報処理装置。
（１７）（１３）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
　情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記集音装置は、複数のマイクが配置されたマイクアレイであり、
　前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
　情報処理装置。
（１９）音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択するステップと
　をコンピュータシステムに実行させるプログラム。

　Ｍ、Ｍ１～Ｍ４…ＢＦマイク
　１、１Ａ～１Ｄ…発話者
　２…発話方向
　３…集音方向
　５…音声
　１０…検出カメラ
　１１…記憶部
　１２…制御プログラム
　１６…マイク
　２０…コントローラ
　２１…画像処理部
　２２…集音制御部
　２３…集音処理部
　２５…対象マイク
　２６…候補マイク
　３５…音源分離部
　４１…割当範囲
　１００…集音システム

Claims

　音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する集音制御部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
　前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
　前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　前記少なくとも１つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
　前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
　前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記音源は、発話者であり、
　前記音源が音を発する方向は、前記発話者の発話方向である
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記情報取得部は、前記発話者のジェスチャーを検出し、
　前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
　情報処理装置。
　請求項１５に記載の情報処理装置であって、
　前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記集音装置は、複数のマイクが配置されたマイクアレイであり、
　前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
　情報処理装置。
　音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択する
　ことをコンピュータシステムが実行する情報処理方法。
　音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
　前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも１つの対象装置を選択するステップと
　をコンピュータシステムに実行させるプログラム。