WO2022239650A1

WO2022239650A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2022239650A1
Application number: PCT/JP2022/018998
Authority: WO
Inventors: 晴輝西村; 愛実田畑; 彰遠藤
Original assignee: ピクシーダストテクノロジーズ株式会社
Priority date: 2021-05-11
Filing date: 2022-04-27
Publication date: 2022-11-17
Also published as: JPWO2022239650A1

Abstract

情報処理装置は、波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第１方向を設定し、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第２方向を設定し、設定された前記第１方向に応じたビームフォーミング処理と、設定された前記第２方向に応じたビームフォーミング処理とを行う。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　特定の方向に電波又は音波を送信したり、特定の方向から到来する電波又は音波を受信したりするために、電波又は音波の送信又は受信に係る指向性を制御するビームフォーミング技術が考えられている。特許文献１には、複数の指向性アンテナを備える送信装置と、１又は複数の指向性アンテナを備える受信装置との間で、指向性ビームを使用して無線通信を行うことが開示されている。特許文献２には、集音したい音源からの音の到来方向を推定し、推定された到来方向の音を強調した集音を行うことが開示されている。

特開２０１７－１５２８３０号公報特開２０２０－１８０１５号公報

　特定の発信源又は音源から到来する電波又は音波を抽出して受信するために、受信に係るビームフォーミングの指向方向を発信源又は音源が存在する方向に向けることが考えられる。ここで、指向方向を特定の方向に固定することとすると、発信源又は音源が移動した場合に、発信源又は音源から到来する電波又は音波を受信できなくなってしまう。一方、発信源又は音源が存在する方向を常時推定し、推定された方向に指向方向を向けることとすると、ビームフォーミングのパラメータが頻繁に変更されることにより受信の品質が不安定になる虞がある。特に、発信源又は音源の方向の推定精度が十分に高くない場合には、発信源又は音源が移動を停止していても指向方向が細かく変化してしまい、受信の品質の安定性が低下することが考えられる。

　同様の課題は、特定の目標物に向けて電波又は音波を送信するために、送信に係るビームフォーミングの指向方向を目標物が存在する方向に向けようとする場合にも生じうる。

　本開示は上記課題に鑑みてなされたものであり、電波又は音波（つまり、波動）の発信源又は目標物が存在する方向に基づいて波動の送信又は受信に係る指向性を制御する場合の、送信又は受信の品質の安定性を向上させることを目的とする。

　本開示の一態様の情報処理装置は、波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第１方向を設定し、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第２方向を設定し、設定された前記第１方向に応じたビームフォーミング処理と、設定された前記第２方向に応じたビームフォーミング処理とを行う。

　本開示によれば、波動の発信源又は目標物が存在する方向に基づいて波動の送信又は受信に係る指向性を制御する場合の、送信又は受信の品質の安定性を向上させることができる。

本実施形態の情報処理システムの構成を示すブロック図である。本実施形態のクライアント装置およびサーバの構成を示す図である。指向性設定の方位角および角度幅の説明図である。本実施形態の概要の説明図である。本実施形態の指向性設定データベースのデータ構造を示す図である。本実施形態のビームフォーミング準備処理のフローチャートである。本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。図６のステップＳ１３０の詳細を示すフローチャートである。本実施形態のビームフォーミング運用処理のフローチャートである。本実施形態のビームフォーミング運用処理において表示される画面例を示す図である。

　以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。本実施形態におけるビームフォーミング処理は、複数の素子から波動を送信するための送信信号と、複数の素子が波動を受信することで得られる受信信号との、少なくとも何れかに対して指向性を持たせる処理である。

（１）情報処理システムの構成
　情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

　情報処理システム１は、例えば、遠隔通話（例えばＷｅｂ会議）システム、発言記録（例えば、議事録）の自動作成システム、発言記録の閲覧システム、音声収録システムである。
　図１に示すように、情報処理システム１は、クライアント装置１０と、サーバ３０とを備える。
　クライアント装置１０及びサーバ３０は、ネットワーク（例えば、インターネット又はイントラネット）ＮＷを介して接続される。

　クライアント装置１０は、サーバ３０にリクエストを送信する情報処理装置の一例である。クライアント装置１０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。

　サーバ３０は、クライアント装置１０から送信されたリクエストに応じたレスポンスをクライアント装置１０に提供する情報処理装置の一例である。サーバ３０は、例えば、ウェブサーバである。

（１－１）クライアント装置の構成
　本実施形態のクライアント装置の構成について説明する。図２は、本実施形態のクライアント装置およびサーバの構成を示す図である。

　図２に示すように、クライアント装置１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４とを備える。クライアント装置１０は、マイクロホンアレイ１５に接続される。

　記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理（例えば、音源トラッキング処理及びビームフォーミング処理）を実行するアプリケーションのプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータ及びデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

　プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動してデータを処理することによって、クライアント装置１０の機能を実現するように構成される。プロセッサ１２は、コンピュータの一例である。記憶装置１１により記憶されるプログラム及びデータは、ネットワークを介して提供されてもよいし、コンピュータにより読み取り可能な記録媒体に記録して提供されてもよい。なお、クライアント装置１０の機能の少なくとも一部が、１又は複数の専用のハードウェアにより実現されていてもよい。

　入出力インタフェース１３は、クライアント装置１０に接続される入力デバイスから信号（例えば、音響信号、またはユーザの指示）を取得し、かつ、クライアント装置１０に接続される出力デバイスに信号（例えば、画像信号、または制御信号）を出力するように構成される。
　入力デバイスは、例えば、マイクロホンアレイ１５（「アレイユニット」の一例）、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
　出力デバイスは、例えば、ディスプレイ、スピーカ、又はそれらの組み合わせである。

　マイクロホンアレイ１５は、複数のマイクロホン（「素子」の一例）を含む。複数のマイクロホンは、例えば環状に配置される。各マイクロホンは、音波を受信し、音響信号を生成する。マイクロホンアレイ１５は、各マイクロホンによって生成された音響信号を、クライアント装置１０へ出力する。

　通信インタフェース１４は、クライアント装置１０と外部装置（例えばサーバ３０）との間の通信を制御するように構成される。

（１－２）サーバの構成
　本実施形態のサーバの構成について説明する。

　図２に示すように、サーバ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

　記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理（例えば音声認識処理）を実行するアプリケーションのプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果

　プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、サーバ３０の機能を実現するように構成される。プロセッサ３２は、コンピュータの一例である。

　入出力インタフェース３３は、サーバ３０に接続される入力デバイスから信号（例えばユーザの指示）を取得し、かつ、サーバ３０に接続される出力デバイスに信号（例えば画像信号）を出力するように構成される。
　入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
　出力デバイスは、例えば、ディスプレイ、スピーカ、又はそれらの組み合わせである。

　通信インタフェース３４は、サーバ３０とクライアント装置１０との間の通信を制御するように構成される。

（２）実施形態の概要
　本実施形態の概要について説明する。図３は、指向性設定の方位角および角度幅の説明図である。図４は、本実施形態の概要の説明図である。

　クライアント装置１０は、マイクロホンアレイ１５によって生成された複数チャネルの音響信号を参照し、当該マイクロホンアレイ１５に対する音波の到来方向を推定する。さらに、クライアント装置１０は、音波の到来方向の推定結果を参照し、マイクロホンアレイ１５の周囲に存在する１以上の音源（つまり、音波の発信源）を特定する。クライアント装置１０は、特定した音源の全部または一部について、音源分離のための指向性設定（ビームフォーミングにおけるビームに相当）を個別に割り当てる。

　図３に示すように、指向性設定ＤＳは、原点Ｏを中心として略扇形状に広がる角度領域である。原点Ｏの位置は、マイクロホンアレイ１５の位置（例えば中心位置）によって決まる。角度幅θｗは、指向性設定ＤＳに対応する扇形の中心角を表す。方位角θａは、基準線ＲＥＦと、指向性設定ＤＳに対応する扇形の中心角の二等分線ＢＩＳとがなす角を表す。基準線ＲＥＦは、マイクロホンアレイ１５の位置および姿勢によって決まる。

　クライアント装置１０は、割り当てた指向性設定ごとに、複数のトラッキングモードのうちいずれかを選択する。トラッキングモードは、固定モードおよび可変モードを含む。
　固定モードにおいて、指向性設定の方位角が固定される。固定モードにおいて、指向性設定の角度幅は、固定されてもよいし、可変であってもよい。
　可変モードにおいて、指向性設定の方位角が可変（つまり、ユーザの指示を必要とすることなくプロセッサ１２が方位角を自動的に変更可能）である。可変モードにおいて、指向性設定の角度幅は、可変であってもよいし、固定されてもよい。

　クライアント装置１０は、例えば図４に示すように、音源ＳＳ１に対応する指向性設定ＤＳ１について固定モードを選択し、音源ＳＳ２に対応する指向性設定ＤＳ２について可変モードを選択し、音源ＳＳ３に対応する指向性設定ＤＳ３について固定モードを選択する。
　クライアント装置１０は、動きの小さい音源ＳＳ１および音源ＳＳ３に関して固定モードを選択することによって、可変モードの場合よりも音源分離に必要な各種パラメータの計算を簡略化し、正確な音源分離を少ない計算量で行うことができる。
　クライアント装置１０は、音源ＳＳ２の位置の変化に追従して指向性設定ＤＳ２の方位角を変更することで、動きのある音源ＳＳ２を対象とする音源分離を行うことができる。

　クライアント装置１０は、割り当てた指向性設定ごとに、複数の音響効果モードのうちいずれかを選択する。音響効果モードは、強調モードおよび抑圧モードを含む。
　強調モードでは、対象となる指向性設定についての音源分離によって得られた音響が強調される。例えば、プレゼンの発表者、講演者、または会議の参加者に対応する指向性設定について強調モードを選択することで、プレゼン、講演または会議のはっきりした音声を得ることができる。また、例えば、Ｗｅｂ会議のような遠隔通話時に、クライアント装置１０を操作するユーザに対応する指向性設定について強調モードを選択することで、ユーザの通話相手はユーザの発言をはっきりと聴くことができる。
　抑圧モードでは、対象となる指向性設定についての音源分離によって得られた音響が抑圧される。例えば、聴衆、周囲で喋っている人、または環境騒音に対応する指向性設定について抑圧モードを選択することで、ノイズを目立たなくすることができる。また、例えば、Ｗｅｂ会議のような遠隔通話時に、クライアント装置１０を操作するユーザの周囲で喋っている人に対応する指向性設定について抑圧モードを選択することで、ユーザの通話相手にはユーザの周囲の人の話し声が聞こえにくくなる。

（３）データベース
　本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置１１又は記憶装置３１に記憶される。

（３－１）指向性設定データベース
　本実施形態の指向性設定データベースについて説明する。図５は、本実施形態の指向性設定データベースのデータ構造を示す図である。

　指向性設定データベースには、指向性設定情報が格納される。指向性設定情報は、音源に割り当てられた指向性設定に関する情報である。

　図５に示すように、指向性設定データベースは、「音源ＩＤ」フィールドと、「音源名」フィールドと、「トラッキング」フィールドと、「方位角」フィールドと、「角度幅」フィールドと、「音源名」フィールドとを含む。各フィールドは、互いに関連付けられている。

　「音源ＩＤ」フィールドには、音源ＩＤが格納される。音源ＩＤは、指向性設定が割り当てられた音源を識別する情報である。

　「音源名」フィールドには、音源名情報が格納される。音源ＩＤは、指向性設定が割り当てられた音源の名称に関する情報である。音源名情報は、ユーザの指示に応じて編集可能に定義されてもよい。或いは、音源名情報は、例えば話者認識処理の結果に応じて決定されてもよい。

　「トラッキング」フィールドには、トラッキングモード情報が格納される。トラッキングモード情報は、指向性設定について選択されたトラッキングモードに関する情報である。指向性設定について固定モードが選択された場合に、トラッキングモード情報の値は「固定」となる。指向性設定について可変モードが選択された場合に、トラッキングモード情報の値は「可変」となる。クライアント装置１０は、後述するアルゴリズムに従ってトラッキングモードを選択してもよいし、ユーザの指示に応じてトラッキングモードを選択してもよい。

　「方位角」フィールドには、方位角情報が格納される。方位角情報は、指向性設定の方位角に関する情報である。指向性設定について固定モードが選択された場合に、方位角情報の値は当該指向性設定の方位角となる。指向性設定について可変モードが選択された場合に、方位角情報の値は「ＡＵＴＯ」となる。

　「角度幅」フィールドには、角度幅情報が格納される。角度幅情報は、指向性設定の角度幅に関する情報である。角度幅情報の値が「ＡＵＴＯ」である場合に、クライアント装置１０はアルゴリズムに従って角度幅を決定する。角度幅を決定するアルゴリズムとしては、後述するように対象音源の特定結果（例えば、音源からの音の到来方向の共分散などのトラッキング属性）に基づいて角度幅を決定する方法を採用できるが、他のアルゴリズムを採用してもよい。角度幅情報の値が「ＡＵＴＯ」以外である場合に、クライアント装置１０は当該値（例えば、デフォルトで設定された値、又はユーザ操作により指定された値）の示す角度幅を使用する。

　「音響効果」フィールドには、音響効果モード情報が格納される。音響効果モード情報は、指向性設定について選択された音響効果モードに関する情報である。音響効果モード情報は、ユーザの指示に応じて編集可能に定義されてもよい。
　なお、本実施形態では各指向性設定について方位角と水平方向の角度幅が設定されるものとするが、これに限らず、各指向性設定に係る指向方向及び指向範囲が設定されればよい。例えば、各指向性設定について仰角と垂直方向の角度幅が設定されてもよいし、方位角及び仰角の両方とそれぞれの角度幅とが設定されてもよい。

（４）情報処理
　本実施形態の情報処理について説明する。

（４－１）ビームフォーミング準備処理
　本実施形態のビームフォーミング準備処理について説明する。図６は、本実施形態のビームフォーミング準備処理のフローチャートである。図７は、本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。図８は、本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。図９は、図６のステップＳ１３０の詳細を示すフローチャートである。

　図６のビームフォーミング準備処理は、開始条件が成立したことに応じて開始する。開始条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・クライアント装置１０においてアプリケーションが起動されたこと
・ビームフォーミング準備処理を呼び出すためのユーザ指示がクライアント装置１０に与えられたこと
・マイクロホンアレイ１５に電源投入されたこと
・所定の日時が到来したこと

　図６に示すように、クライアント装置１０は、集音（Ｓ１００）を実行する。
　具体的には、マイクロホンアレイ１５が音波を受信する。マイクロホンアレイ１５に含まれる複数のマイクロホンが、音波の受信結果に応じて複数チャネルの音響信号を生成する。プロセッサ１２は、マイクロホンアレイ１５から複数チャネルの音響信号を取得する。
　ここで、クライアント装置１０は、集音（Ｓ１００）において得られた音響信号を記憶装置１１に保存しておき、ビームフォーミング準備処理（図６）の終了後に、後述するビームフォーミング運用処理（図１０）において当該音響信号に対するビームフォーミング処理（Ｓ２４０）を行ってもよい。これにより、ビームフォーミング準備処理（図６）の間に得られた音響信号についても音源分離を行うことが可能となる。

　ステップＳ１００の後に、クライアント装置１０は、到来方向の推定（Ｓ１１０）を実行する。
　具体的には、プロセッサ１２は、ステップＳ１００において取得した複数チャネルの音響信号に基づいて、マイクロホンアレイ１５に対する音波の到来方向を推定する。

　クライアント装置１０は、集音（Ｓ１００）および到来方向の推定（Ｓ１１０）を所定期間に亘って繰り返すことで、複数時点における音波の到来方向の推定結果を得る。

　ステップＳ１１０の後に、クライアント装置１０は、音源の特定（Ｓ１２０）を実行する。
　具体的には、プロセッサ１２は、複数時点における音波の到来方向の推定結果を参照し、マイクロホンアレイ１５の周囲に存在する音源を特定する。一例として、プロセッサ１２は、ある時点においてマイクロホンアレイ１５に到来した音と、別の時点においてマイクロホンアレイ１５に到来した音とが、同じ音源から発された音であるか否かを判断する。そしてプロセッサ１２は、所定期間において集音された音に対応する１以上の想定音源それぞれについて、以下の少なくとも１つを含むトラッキング属性を算出する。
・角度（音源の方向を示す値）
・角速度（音源の方向の変化を示す値）
・到来方向の共分散（音源の方向のばらつきを示す値）
・存在確率（音源がある方向に存在する確からしさを示す値）
　プロセッサ１２は、算出されたトラッキング属性値に基づいて、当該トラッキング属性に対応する音源の存在有無を判定する。

　ステップＳ１２０の後に、クライアント装置１０は、指向性設定の割り当て（Ｓ１３０）を実行する。
　具体的には、プロセッサ１２は、ステップＳ１２０において特定した音源に指向性設定を割り当てる。
　指向性設定の割り当て（Ｓ１３０）の第１の例では、プロセッサ１２は、ユーザの指示に応じて、ステップＳ１２０において特定した音源の少なくとも１つに指向性設定を割り当てる。
　指向性設定の割り当て（Ｓ１３０）の第２の例では、プロセッサ１２は、アルゴリズムに従って、ステップＳ１２０において特定した音源の少なくとも１つに指向性設定を割り当てる。一例として、プロセッサ１２は、ステップＳ１２０における音源の特定結果（特に、トラッキング属性）を参照して、当該音源に指向性設定を割り当てる。
　指向性設定の割り当て（Ｓ１３０）の第３の例は、上記第１の例および第２の例の組み合わせである。
　なお、プロセッサ１２は、必ずしも特定された全ての音源に指向性設定を割り当てなくともよく、限られた音源にのみ指向性を割り当ててもよい。また、プロセッサ１２は、音源に割り当てられる指向性設定とは別に、ユーザの指示に応じた指向性設定（例えばユーザにより指定された固定の方位角及び角度幅を有する指向性設定）を生成してもよい。

　指向性設定の割り当て（Ｓ１３０）の第１の例または第３の例では、プロセッサ１２は、画面Ｐ１０（図７）をディスプレイに表示する。
　画面Ｐ１０は、表示オブジェクトＡ１０ａ～Ａ１０ｂと、操作オブジェクトＢ１０とを含む。

　表示オブジェクトＡ１０ａは、音源マップを表示するためのオブジェクトである。音源マップは、マイクロホンアレイ１５を基準とする音源の相対位置（例えば方位）を示す画像である。表示オブジェクトＡ１０は、オブジェクトＯＢＪ１０ａ～ＯＢＪ１０ｃを含む。オブジェクトＯＢＪ１０ａ～ＯＢＪ１０ｃは、マイクロホンアレイ１５に対する音源の方向を提示する。
　オブジェクトＯＢＪ１０ａは、マイクロホンアレイ１５に対応するオブジェクトである。
　オブジェクトＯＢＪ１０ｂは、指向性設定が未だ割り当てられていない音源に対応するオブジェクトである。
　オブジェクトＯＢＪ１０ｃは、指向性設定が既に割り当てられている音源に対応するオブジェクトである。
　オブジェクトＯＢＪ１０ｂ、およびオブジェクトＯＢＪ１０ｃに対する操作を受け付けると、プロセッサ１２は、対応する音源の指向性設定を編集するための画面Ｐ１１（図８）を表示する。オブジェクトＯＢＪ１０ｂ、およびオブジェクトＯＢＪ１０ｃは、対応する音源の相対位置に基づいて配置される。これにより、ユーザは、自らの認識している音源と、音源マップに表示されているオブジェクトＯＢＪ１０ｂ、またはオブジェクトＯＢＪ１０ｃに対応する音源とを容易に対応付けることができる。つまり、ユーザは、指向性設定を割り当てる対象の音源（以下、「対象音源」と称する）を意図したとおりに指定することができる

　表示オブジェクトＡ１０ｂは、メッセージを表示するためのオブジェクトである。メッセージは、ユーザに対する要求の内容を含むことができる。

　操作オブジェクトＢ１０は、ビームフォーミング準備処理（図６）を終了させるためのユーザ指示を受け付けるオブジェクトである。

　一例として、クライアント装置１０は、図９のフローチャートに従って、指向性設定の割り当て（Ｓ１３０）を実行する。

　図９に示すように、クライアント装置１０は、トラッキングモードの選択（Ｓ１３１）を実行する。
　具体的には、プロセッサ１２は、複数のトラッキングモードから、対象音源に対応する指向性設定（以下、「対象設定」と称する）のトラッキングモードを選択する。複数のトラッキングモードは、固定モードおよび可変モードを含む。固定モードが選択された場合、対応する指向性設定の角度パラメータが固定される。可変モードが選択された場合、対応する指向性設定の角度パラメータは音源方向に基づいて更新される。
　トラッキングモードの選択（Ｓ１３１）の第１の例では、プロセッサ１２は、ユーザの指示（例えば、後述する画面Ｐ１１（図８）のフィールドオブジェクトＦ１１ｂに対する入力）に応じて、対象設定のトラッキングモードを選択する。
　トラッキングモードの選択（Ｓ１３１）の第２の例では、プロセッサ１２は、アルゴリズムに従って、対象設定のトラッキングモードを選択する。具体的には、プロセッサ１２は、ステップＳ１２０における対象音源の特定結果を参照して、トラッキングモードを選択する。
　例えば、プロセッサ１２は、角速度又は到来方向の共分散が閾値以上である（つまり、対象音源の動きが激しい）場合に、対象設定に対して可変モードを選択し、角速度又は到来方向の共分散が閾値未満である（つまり、対象音源の動きが緩やかである）場合に、対象設定に対して固定モードを選択してもよい。或いは、プロセッサ１２は、存在確率が閾値以上である（つまり、トラッキングが安定している）場合に、対象設定に対して固定モードを選択し、存在確率が閾値未満である（つまり、トラッキングが不安定である）場合に、対象設定に対して可変モードを選択してもよい。
　トラッキングモードの選択（Ｓ１３１）の第３の例は、上記第１の例および第２の例の組み合わせである。

　トラッキングモードの選択（Ｓ１３１）の第１の例または第３の例では、プロセッサ１２は、画面Ｐ１１（図８）をディスプレイに表示する。
　画面Ｐ１１は、フィールドオブジェクトＦ１１ａ～Ｆ１１ｅと、操作オブジェクトＢ１１とを含む。
　フィールドオブジェクトＦ１１ａは、対象音源の音源名を指定するためのオブジェクトである。
　フィールドオブジェクトＦ１１ｂは、対象設定のトラッキングモードを指定するためのオブジェクトである。
　フィールドオブジェクトＦ１１ｃは、対象設定の方位角を指定するためのオブジェクトである。
　フィールドオブジェクトＦ１１ｄは、対象設定の角度幅を指定するためのオブジェクトである。
　フィールドオブジェクトＦ１１ｅは、対象設定の音響効果モードを指定するためのオブジェクトである。
　操作オブジェクトＢ１１は、フィールドオブジェクトＦ１１ａ～Ｆ１１ｅに指定された情報に基づいて指向性設定情報を登録する（例えば、クライアント装置１０に指向性設定情報の登録（Ｓ１３４）を実行させる）ためのユーザ指示を受け付けるオブジェクトである。

　ステップＳ１３１の後に、クライアント装置１０は、角度パラメータの決定（Ｓ１３２）を実行する。
　具体的には、プロセッサ１２は、対象設定の角度パラメータを決定する。角度パラメータは、方位角および角度幅を含む。
　角度パラメータの決定（Ｓ１３２）の第１の例では、プロセッサ１２は、ユーザの指示に応じて、対象設定の角度パラメータを決定する。例えば、プロセッサ１２は、固定モードを選択されている指向性設定に対し、ユーザの指示（例えば、フィールドオブジェクトＦ１１ｃまたはＦ１１ｄの少なくとも１つに対する入力）に応じて方位角を決定してもよい。
　角度パラメータの決定（Ｓ１３２）の第２の例では、プロセッサ１２は、アルゴリズムに従って、対象設定の角度パラメータを決定する。一例として、プロセッサ１２は、ステップＳ１２０における対象音源の特定結果を参照して、対象設定の角度パラメータを決定する。プロセッサ１２は、可変モードを選択されている指向性設定に対し、推定された音源の方向に応じて方位角を決定してもよい。
　角度パラメータの決定（Ｓ１３２）の第３の例は、上記第１の例および第２の例の組み合わせである。

　角度パラメータの決定（Ｓ１３２）の第１の例または第３の例では、プロセッサ１２は、ディスプレイによる画面Ｐ１１（図８）の表示を継続する。

　ステップＳ１３２の後に、クライアント装置１０は、音響効果モードの選択（Ｓ１３３）を実行する。
　具体的には、プロセッサ１２は、対象設定の音響効果モードを選択する。音響効果モードは、例えば強調モードと抑圧モードとを含む。
　音響効果モードの選択（Ｓ１３３）の第１の例では、プロセッサ１２は、ユーザの指示に応じて、対象設定の音響効果モードを選択する。例えば、プロセッサ１２は、ユーザの指示（例えば、フィールドオブジェクトＦ１１ｅに対する入力）に応じて音響効果モードを選択してもよい。
　音響効果モードの選択（Ｓ１３３）の第２の例では、プロセッサ１２は、アルゴリズムに従って、対象設定の音響効果モードを選択する。一例として、プロセッサ１２は、ステップＳ１２０における対象音源の特定結果を参照して、対象設定の音響効果モードを選択する。
　音響効果モードの選択（Ｓ１３３）の第３の例は、上記第１の例および第２の例の組み合わせである。

　音響効果モードの選択（Ｓ１３３）の第１の例または第３の例では、プロセッサ１２は、ディスプレイによる画面Ｐ１１（図８）の表示を継続する。

　ステップＳ１３３の後に、クライアント装置１０は、指向性設定情報の登録（Ｓ１３４）を実行する。
　具体的には、プロセッサ１２は、ステップＳ１３１～ステップＳ１３３の実行結果を参照して、指向性設定データベース（図５）に新たなレコードを追加する。一例として、プロセッサ１２は、以下の情報の少なくとも１つが対象音源を識別する音源識別情報と関連付けられたレコードを指向性設定データベースに追加する。
・フィールドオブジェクトＦ１１ａに入力された音源名情報
・フィールドオブジェクトＦ１１ｂに入力されたトラッキングモード情報
・フィールドオブジェクトＦ１１ｃに入力された方位角情報
・フィールドオブジェクトＦ１１ｄに入力された角度幅情報
・フィールドオブジェクトＦ１１ｅに入力された音響効果モード情報

　クライアント装置１０は、終了条件が成立するまで、指向性設定の割り当て（Ｓ１３０）を繰り返し実行する。終了条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・全ての音源に指向性設定が割り当てられたこと
・所定数の音源に指向性設定が割り当てられたこと
・ビームフォーミング準備処理を終了するためのユーザ指示がクライアント装置１０に与えられたこと
　なお、クライアント装置１０は、上述した設定方法と同様の方法で、すでに指向性設定が割り当てられている音源に対応する指向性設定情報の更新（少なくとも一部の変更）を行ってもよい。

（４－２）ビームフォーミング運用処理
　本実施形態のビームフォーミング運用処理について説明する。図１０は、本実施形態のビームフォーミング運用処理のフローチャートである。図１１は、本実施形態のビームフォーミング運用処理において表示される画面例を示す図である。

　図１０のビームフォーミング運用処理は、開始条件が成立したことに応じて開始する。開始条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・ビームフォーミング準備処理（図６）が終了したこと
・クライアント装置１０においてアプリケーションが起動されたこと
・ビームフォーミング運用処理を呼び出すためのユーザ指示がクライアント装置１０に与えられたこと
・所定の日時が到来したこと
　本実施形態では、ビームフォーミング準備処理が終了した後にビームフォーミング運用処理が行われる場合を中心に説明するが、ビームフォーミング準備処理とビームフォーミング運用処理は少なくとも一部が並行して行われてもよい。

　図１０に示すように、クライアント装置１０は、集音（Ｓ２００）を実行する。
　具体的には、マイクロホンアレイ１５が音波を受信する。マイクロホンアレイ１５に含まれる複数のマイクロホンが、音波の受信結果に応じて複数チャネルの音響信号を生成する。プロセッサ１２は、マイクロホンアレイ１５から複数チャネルの音響信号を取得する。

　ステップＳ２００の後に、クライアント装置１０は、到来方向の推定（Ｓ２１０）を実行する。
　具体的には、プロセッサ１２は、ステップＳ２００において取得した複数チャネルの音響信号に基づいて、マイクロホンアレイ１５に対する音波の到来方向を推定する。

　クライアント装置１０は、集音（Ｓ２００）および到来方向の推定（Ｓ２１０）を所定期間に亘って繰り返すことで、複数時点における音波の到来方向の推定結果を得る。

　ステップＳ２１０の後に、クライアント装置１０は、音源の特定（Ｓ２２０）を実行する。
　具体的には、プロセッサ１２は、複数時点における音波の到来方向の推定結果を参照し、マイクロホンアレイ１５の周囲に存在する音源を特定する。一例として、プロセッサ１２は、前述のトラッキング属性を算出する。

　ステップＳ２２０の後に、クライアント装置１０は、指向性設定の更新（Ｓ２３０）を実行する。
　具体的には、プロセッサ１２は、指向性設定データベース（図５）を参照し、可変モードが選択されている指向性設定を特定する。プロセッサ１２は、可変モードが選択されている指向性設定ごとに、ステップＳ２２０における音源の特定結果を参照し、当該指向性設定の角度パラメータ（少なくとも方位角）を更新する。これにより、可変モードを選択されている指向性設定の角度パラメータを適正化することができる。つまり、音源の変化（例えば、音源の位置の変化、または音源の動きの激しさの変化）に指向性設定を適応させることができる。なお、固定モードが選択されている指向性設定は、角度パラメータが固定されており、Ｓ２３０において更新されない。

　ステップＳ２３０の後に、クライアント装置１０は、ビームフォーミング処理（Ｓ２４０）を実行する。
　具体的には、プロセッサ１２は、ステップＳ２００において取得した複数チャネルの音響信号に対して、指向性設定ごとに個別のビームフォーミング処理を行うことにより、各指向性設定に対応する音響データを生成する。
　一例として、プロセッサ１２は、角度パラメータを参照して複数チャネルの音響信号を合成する。プロセッサ１２は、合成結果に対して音響効果モードに応じた振幅調整（例えば、強調または抑圧）を施すことにより、音響データを生成する。

　ステップＳ２４０の後に、クライアント装置１０は、音声認識（Ｓ２５０）を実行する。
　まず、クライアント装置１０は、音声認識リクエストを実行する。具体的には、プロセッサ１２は、音声認識リクエストデータをサーバ３０へ送信する。音声認識リクエストデータは、タイムスタンプと、各指向性設定に対応する音響データ（つまり、ステップＳ２４０におけるビームフォーミング処理の結果）および音源名情報を含む。
　タイムスタンプは、音響データに対応する時刻に関する情報である。プロセッサ１２は、例えば集音（Ｓ２００）の実行時刻に基づいてタイムスタンプを発生する。

　音声認識リクエストの後に、サーバ３０は、音声認識レスポンスを実行する。
　具体的には、プロセッサ３２は、音声認識リクエストデータを取得する。プロセッサ３２は、音声認識リクエストデータを参照し、各指向性設定に対応する音響データに対して音声認識を行う。プロセッサ３２は、音声認識レスポンスデータをクライアント装置１０へ送信する。音声認識レスポンスデータは、各指向性設定に対応する音響データの音声認識結果を含む。音声認識結果は、例えば、音源ごとの時系列の発言テキストである。

　音声認識レスポンスの後に、クライアント装置１０は、音声認識結果の提示を実行する。
　具体的には、プロセッサ１２は、音声認識レスポンスデータを参照し、出力デバイスに音声認識結果を出力させる。一例として、プロセッサ１２は、画面Ｐ２０（図１１）をディスプレイに表示させる。
　画面Ｐ２０は、表示オブジェクトＡ２０ａを含む。表示オブジェクトＡ２０ａは、音声認識結果を表示するためのオブジェクトである。音声認識結果は、図１１に例示されるように、タイムスタンプに対応する時刻と、音源名と、音声認識結果とを含む発言情報が時系列に配列された形式で表示されてよい。これにより、ユーザは、自動作成された発言記録（例えば、議事録）を閲覧することができる。

　図１０のビームフォーミング運用処理は、終了条件が成立したことに応じて終了する。終了条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・ビームフォーミング準備処理（図６）が開始したこと
・クライアント装置１０においてアプリケーションが停止されたこと
・マイクロホンアレイ１５が閾値以上の期間に亘って音響信号を検出しなかったこと
・マイクロホンアレイ１５の電源が切断されたこと
・ビームフォーミング準備処理を呼び出すためのユーザ指示がクライアント装置１０に与えられたこと
・所定の日時が到来したこと

（５）小括
　以上説明したように、クライアント装置１０は、マイクロホンアレイ１５の周囲に存在する音源を特定し、特定した音源に対して１つ以上の指向性設定を割り当てる。指向性設定を割り当てることは、少なくとも当該指向性設定のトラッキングモードを選択することを含む。クライアント装置１０は、マイクロホンアレイ１５によって音波を受信することで得られた音響信号に対して、指向性設定ごとに個別のビームフォーミング処理を行う。これにより、マイクロホンアレイ１５の周囲に存在する音源に対して固定モードの指向性設定または可変モードの指向性設定を切り替えて使用することができる。つまり、音源ごとに、固定モードを選択して音源分離に要する計算量を削減するか、または可変モードを選択して音源の変化に適応可能にするかを柔軟に選択することが可能となる。クライアント装置１０によれば、音波の受信品質の安定性と、音源分離に要する計算量とをバランスさせることができる。

　クライアント装置１０は、ユーザの指示に応じて音源のうち少なくとも１つに指向性設定を割り当ててもよい。これにより、音源の指向性設定の割り当てにユーザのニーズを反映することができる。クライアント装置１０は、音源の特定結果を参照して、音源のうち少なくとも１つに指向性設定を割り当ててもよい。これにより、音源の指向性設定の割り当てに関するユーザの負担を軽減することができる。

　クライアント装置１０は、ユーザの指示に応じて少なくとも１つの指向性設定のトラッキングモードを選択してもよい。これにより、指向性設定のトラッキングモードの選択にユーザのニーズを反映することができる。クライアント装置１０は、音源の特定結果を参照して、少なくとも１つの指向性設定のトラッキングモードを選択してもよい。これにより、指向性設定のトラッキングモードの選択に関するユーザの負担を軽減することができる。

　クライアント装置１０は、ユーザの指示に応じて少なくとも１つの指向性設定の角度パラメータを決定してもよい。これにより、指向性設定の角度パラメータの決定にユーザのニーズを反映することができる。クライアント装置１０は、音源の特定結果を参照して、少なくとも１つの指向性設定の角度パラメータを決定してもよい。これにより、指向性設定の角度パラメータの決定に関するユーザの負担を軽減することができる。

　クライアント装置１０は、可変モードを選択されている指向性設定に対応する音源の特定結果に応じて、当該指向性設定の方位角を変更する。これにより、可変モードを選択されている指向性設定の方位角を、当該指向性設定に対応する音源の変化に適応させて高品質な音響データを得ることができる。

　クライアント装置１０は、複数の音響効果モードから指向性設定の音響効果モードを選択し、音響信号に対して、指向性設定ごとに当該指向性設定の音響効果モードに従って信号処理を行うことで当該指向性設定に対応する音響データを生成してもよい。これにより、各指向性設定についての音源分離によって得られた音響ごとに付加する音響効果を柔軟に切り替えることができる。クライアント装置１０は、ユーザの指示に応じて少なくとも１つの指向性設定の音響効果モードを選択してもよい。これにより、指向性設定の音響効果モードの選択にユーザのニーズを反映することができる。

　クライアント装置１０は、指向性設定ごとのビームフォーミング処理の結果である音響データの音声認識結果を提示してもよい。これにより、ユーザに、各音源（話者）による発言内容を視覚的に把握させることができる。

（６）変形例
　本実施形態の変形例について説明する。

　記憶装置１１は、ネットワークＮＷを介して、クライアント装置１０と接続されてもよい。記憶装置３１は、ネットワークＮＷを介して、サーバ３０と接続されてもよい。

　上記の情報処理の各ステップは、クライアント装置１０及びサーバ３０の何れでも実行可能である。また、上記の情報処理のステップの一部が、マイクロホンアレイ１５に内蔵されたプロセッサ、または専用ハードウェアによって実行されてもよい。
　上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。

　上記説明において、プロセッサ１２が、対象音源の特定結果を参照して、対象設定の角度幅を決定する例を説明した。しかしながら、プロセッサ１２は、他の情報を参照して対象設定の角度幅を決定してもよい。
　具体的には、プロセッサ１２は、ビームフォーミング準備処理（図６）、またはビームフォーミング運用処理（図１０）において、マイクロホンアレイ１５の使用状況を特定し、当該使用状況の特定結果を参照して、少なくとも１つの指向性設定の角度パラメータ（例えば角度幅）を決定する。これにより、指向性設定の角度幅を、マイクロホンアレイ１５の使用状況に適応させて高品質な音響データを得ることができる。
　プロセッサ１２は、ユーザの指示、図示しないセンサ（例えば、カメラ・ＬｉＤＡＲ・ミリ波センサなど、物体を検出可能なセンサ）によるセンシング結果、ユーザのスケジュール情報、またはマイクロホンアレイ１５が設置される場所（例えば、会議室、または講演会場）のスケジュール情報の少なくとも１つを参照してマイクロホンアレイ１５の使用状況を推定してもよい。或いは、ユーザは、マイクロホンアレイ１５の使用状況を指定するユーザ指示をクライアント装置１０に与えてもよい。
　一例として、マイクロホンアレイ１５がプレゼンにおいて使用されている場合に、プロセッサ１２は、発表者以外の音源に対応する指向性設定（固定モード）の角度幅をデフォルト値またはユーザの指定した値に、発表者に対応する指向性設定（固定モード）の角度幅をデフォルト値よりも大きな値に決定してもよい。これにより、発表者が壇上を激しく動き回ったとしても、発言を漏らさず捉えることができる。また別の例として、マイクロホンアレイ１５が会議室でのミーティングにおいて使用されている場合に、プロセッサ１２は、音源に対応する指向性設定の角度幅をデフォルト値又はそれより小さい値に決定してもよい。これにより、発言者があまり激しく動き回らないような状況において、各発言者の発言を明確に識別して抽出することができる。
　上記説明において、プロセッサ１２は、マイクロホンアレイ１５に含まれるマイクロホンによる音波の受信結果に基づいて、マイクロホンアレイ１５に対する音波の到来方向（すなわちマイクロホンアレイ１５に対する音源の方向）を推定するものとした。ただしこれに限らず、プロセッサ１２は、物体を検出可能なセンサ（例えば、カメラ・ＬｉＤＡＲ・ミリ波センサ、ＴｏＦセンサなど）によるセンシング結果に基づいて、マイクロホンアレイ１５に対する音源の方向を推定してもよい。

　上記説明において、ビームフォーミング準備処理（図６）において、指向性設定のトラッキングモードを選択する例を説明した。しかしながら、ビームフォーミング運用処理（図１０）の間に、指向性設定のトラッキングモードを変更することもできる。一例として、プロセッサ１２は、ステップＳ２２０における音源の特定結果（特に、トラッキング属性）を参照して、指向性設定を固定モードから可変モードへ、または可変モードから固定モードへ変更してもよい。これにより、例えば音源の動きのトレンドが変化した場合であっても、ユーザの手を煩わせることなく適切なトラッキングモードを選択することができる。
　上記説明において、トラッキングモードが「可変」に設定されている場合、クライアント装置１０は音源の方向を推定し、推定された方向に追従するようにビームフォーミングに係る指向方向を制御するものとした。ここで、クライアント装置１０は、指向方向を追従させる角度範囲を制限してもよい。例えば、クライアント装置１０は、トラッキングモードが「固定」に設定されている指向性設定の角度範囲に含まれない方向に音源の推定方向が存在する場合にのみ、その推定方向に追従させるようにトラッキングモードが「可変」である指向性設定の方位角を決定してもよい。すなわち、クライアント装置１０は、特定の範囲内に存在する音源の音をトラッキングモードが「固定」のビームフォーミングにより抽出し、その範囲の外に存在する音源の音をトラッキングモードが「可変」のビームフォーミングにより抽出してもよい。これにより、例えば、特定の範囲内でほぼ静止している音源の音を「固定」ビームフォーミングにより安定的に抽出しつつ、その範囲の外で動き回る他の音源の音を「可変」ビームフォーミングにより抽出することができる。

　上記説明では、発言記録を閲覧可能とする例を示した。発言記録の閲覧に関して、例えばユーザの指示に応じて、各音源の表示モードが選択されてよい。クライアント装置１０は、各音源の表示モードに従って、発言記録において当該音源に対応する発言の表示／非表示、または表示形態（文字の色、フォント、または他の装飾）を切り替える。各音源の表示モードは、当該音源に対応する指向性設定の音響効果モードに依存してもよいし、当該音響効果モードとは独立に選択されてもよい。
　また、クライアント装置１０によるビームフォーミング処理の結果の提示方法は、テキストによる発言記録の提示に限定されない。例えば、クライアント装置１０は、ビームフォーミング処理により抽出した複数の音源それぞれに対応する音響データを用いて、特定の音源に対応する音が強調された再生音をスピーカから出力させたり、特定の音源に対応する音が抑圧された再生音をスピーカから出力させたりしてもよい。また例えば、クライアント装置１０は、ビームフォーミング処理により抽出した複数の音源それぞれに対応する音響データを用いて、特定の音源に対応する音が強調された再生音を再生するための録音データを生成したり、特定の音源に対する音が抑圧された再生音を再生するための録音データを生成したりしてもよい。

　上記説明において、音声認識（Ｓ２５０）を逐次実行する例を示した。しかしながら、音声認識（Ｓ２５０）は、バッチ処理として行われてもよい。つまり、一連の音響データ（例えば、１つのプレゼン、講演、または会議の音響データ、または所定時間分の音響データ）の収集が終了した後に、当該音響データに対して音声認識（Ｓ２５０）が行われてもよい。

　上記説明において、音波を受信可能な複数のマイクロホンを含むマイクロホンアレイ１５について説明した。しかしながら、マイクロホンアレイ１５は、音波を送信可能な複数のスピーカ（「素子」の一例）を含むスピーカアレイ（「アレイユニット」の一例）に置き換えられてもよい。この場合に、上記説明における「音源」は、（音波の）「目標物」として読み替え可能である。また、上記説明における「音響信号」は、「音波を送信するための送信信号」として読み替え可能である。
　例えば、クライアント装置１０は、指向性を制御可能なスピーカアレイから音波を届けるべき目標物の方向を推定する。また、クライアント装置１０は、推定された方向に基づいて各目標物に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ（例えば方位角、角度幅及びトラッキングモード）を指定する。そして、クライアント装置１０は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、スピーカアレイから音波を送信するための送信信号を生成し、送信信号をスピーカアレイに出力する。これにより、各目標物に安定的に音波を届けることができる。
　或いは、マイクロホンアレイ１５は、電波（「波動」の一例）を送信、または受信可能な複数のアンテナ（「素子」の一例）を含むアンテナアレイ（「アレイユニット」の一例）に置き換えられてもよい。この場合に、上記説明における「音源」は、（電波の）「目標物」、または（電波の）「発信源」として読み替え可能である。また、上記説明における「音響信号」は、「電波を送信するための送信信号」、または「電波を受信することで得られた受信信号」として読み替え可能である。
　例えば、クライアント装置１０は、指向性を制御可能なアンテナアレイから電波を届けるべき目標物の方向を推定する。また、クライアント装置１０は、推定された方向に基づいて各目標物に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ（例えば方位角、角度幅及びトラッキングモード）を指定する。そして、クライアント装置１０は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、アンテナアレイから電波を送信するための送信信号を生成し、送信信号をアンテナアレイに出力する。これにより、各目標物に安定的に電波を届けることができる。
　また例えば、クライアント装置１０は、指向性を制御可能なアンテナアレイに発信源から到来する電波の到来方向を推定する。また、クライアント装置１０は、推定された到来方向に基づいて各発信源に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ（例えば方位角、角度幅及びトラッキングモード）を指定する。そして、クライアント装置１０は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、アンテナアレイにより電波を受信することで得られた受信信号から各発信源に対応する信号を抽出する。これにより、各発信源から送信された信号を安定的に識別して受信することができる。

　以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１　　　　　　：情報処理システム
１０　　　　　：クライアント装置
１１　　　　　：記憶装置
１２　　　　　：プロセッサ
１３　　　　　：入出力インタフェース
１４　　　　　：通信インタフェース
１５　　　　　：マイクロホンアレイ
３０　　　　　：サーバ
３１　　　　　：記憶装置
３２　　　　　：プロセッサ
３３　　　　　：入出力インタフェース
３４　　　　　：通信インタフェース

Claims

　波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第１方向を設定する第１方向設定手段と、
　前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第２方向を設定する第２方向設定手段と、
　前記第１方向設定手段により設定された前記第１方向に応じたビームフォーミング処理と、前記第２方向設定手段により設定された前記第２方向に応じたビームフォーミング処理とを行う処理手段と、
　を有する情報処理装置。
　前記アレイユニットに対する波動の発信源又は目標物の方向を特定する特定手段と、
　前記特定手段により特定された方向に応じて、前記第１方向は更新せず前記第２方向を更新する更新手段と、
　を有する請求項１に記載の情報処理装置。
　前記第１方向設定手段は、ユーザ操作に基づいて前記第１方向を設定する、請求項１に記載の情報処理装置。
　前記ユーザ操作は、前記アレイユニットに対する方向を指定する操作と、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて提示された方向を固定する操作との少なくとも何れかを含む、請求項３に記載の情報処理装置。
　前記第１方向設定手段により設定された第１方向を基準とする角度幅を設定する角度幅設定手段を有し、
　前記処理手段は、前記第１方向と前記角度幅設定手段により設定された前記角度幅とに応じたビームフォーミング処理と、前記第２方向に応じたビームフォーミング処理とを行う、
　請求項１に記載の情報処理装置。
　前記角度幅設定手段は、前記アレイユニットの使用状況に基づいて前記角度幅を設定する、請求項５に記載の情報処理装置。
　前記第２方向設定手段は、前記第１方向を基準とする前記角度幅に含まれない方向を前記第２方向として設定する、請求項５に記載の情報処理装置。
　前記ビームフォーミング処理は、前記アレイユニットから波動を送信するための送信信号と、前記アレイユニットが波動を受信することで得られる受信信号との、少なくとも何れかに対して指向性を持たせる処理である、請求項１に記載の情報処理装置。
　前記波動は音波と電波との少なくとも何れかを含む、請求項１に記載の情報処理装置。
　前記複数の素子はそれぞれ、波動を受信可能な素子であり、
　前記情報処理装置は、複数の前記素子による波動の受信結果に基づいて、前記アレイユニットに対する波動の発信源の方向を特定する特定手段を有し、
　前記第２方向設定手段は、前記特定手段により特定された波動の発信源の方向を前記第２方向として設定する、
　請求項１に記載の情報処理装置。
　前記複数の素子はそれぞれ、音波を受信可能なマイクロホンであり、
　前記処理手段は、複数の前記マイクロホンにより収音された音響信号から前記第１方向に対応する音響信号を抽出するビームフォーミング処理と、複数の前記マイクロホンにより収音された音響信号から前記第２方向に対応する音響信号を抽出するビームフォーミング処理とを行う、
　請求項１に記載の情報処理装置。
　設定された前記第１方向と前記第２方向それぞれに対して、音響が強調される強調モードと音響が抑圧される抑圧モードとを含む複数の音響効果モードの何れかを割り当てる割当手段を有し、
　前記処理手段は、前記第１方向に応じたビームフォーミング処理と前記第２方向に応じたビームフォーミング処理とを、前記割当手段により割り当てられた前記音響効果モードに応じて行う、
　請求項１１に記載の情報処理装置。
　前記複数の素子はそれぞれ、波動を送信可能な素子であり、
　前記情報処理装置は、物体を検出可能なセンサによるセンシング結果に基づいて、波動を送信すべき目標物の前記アレイユニットに対する方向を特定する特定手段を有し、
　前記第２方向設定手段は、前記特定手段により特定された前記目標物の方向を前記第２方向として設定する、
　請求項１に記載の情報処理装置。
　波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第１方向を設定し、
　前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第２方向を設定し、
　設定された前記第１方向に応じたビームフォーミング処理と、設定された前記第２方向に応じたビームフォーミング処理とを行う、
　情報処理方法。
　前記アレイユニットに対する波動の発信源又は目標物の方向を特定し、
　特定された波動の発信源又は目標物の方向に応じて、前記第１方向は更新せず前記第２方向を更新する、
　請求項１４に記載の情報処理方法。
　前記第１方向はユーザ操作に基づいて設定される、請求項１４に記載の情報処理方法。
　コンピュータに、請求項１４から請求項１６の何れか１項に記載の情報処理方法を実行させるためのプログラム。