WO2023157963A1

WO2023157963A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2023157963A1
Application number: PCT/JP2023/005887
Authority: WO
Inventors: 晴輝西村; 愛実田畑; 彰遠藤; 恭寛羽原; 蔵酒五味; 優大平良; 尚平岡; 和希高澤
Original assignee: ピクシーダストテクノロジーズ株式会社; 住友ファーマ株式会社
Priority date: 2022-02-21
Filing date: 2023-02-20
Publication date: 2023-08-24
Also published as: JPWO2023157963A1; JP2024027122A; JP7399413B1

Abstract

本開示の一態様の情報処理装置は、少なくとも１つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、ディスプレイデバイスの表示部に前記マップ画像を表示する手段とを具備する。

Description

情報処理装置、情報処理方法、及びプログラム

　本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

　難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。

　特許文献１には、複数の使用者それぞれに対応する表示領域を表示部の画像表示領域に設定し、ある使用者の音声に対する音声認識結果であるテキストを、他の使用者に設定された画像表示領域に表示する会話支援装置が開示されている。

特開２０１７－１２９８７３号公報

　特許文献１に記載の会話支援装置では、ある使用者に設定された画像表示領域に、他の使用者の発言が集約された状態で表示される。故に、特に会話の参加者が３名以上である場合に、どの発言が誰によるものなのか、また誰がどんな発言をしたのか、を即座に把握することが困難である。

　本開示の目的は、ユーザが視覚情報に基づいて話者と発言内容とを直感的に関連付けられるようにすることである。

本実施形態の情報処理システムの構成を示すブロック図である。本実施形態のコントローラの構成を示すブロック図である。本実施形態のマルチマイクデバイスの外観を示す図である。本実施形態の一態様を示す図である。本実施形態の音源データベースのデータ構造を示す図である。本実施形態の音声処理のフローチャートである。マイクロホンによる集音を説明するための図である。基準座標系における音源の方向を説明するための図である。マップ画像の一例を示す図である。本実施形態の音源設定処理のフローチャートである。本実施形態の音源設定処理において表示される画面例を示す図である。変形例１の一態様を示す図である。変形例１の発言データベースのデータ構造を示す図である。変形例１の音声処理のフローチャートである。変形例２のマップ画像の一例を示す図である。変形例２のマップ画像の別の例を示す図である。変形例３のマップ画像の例を示す図である。変形例１の画像表示の一例を示す図である。

　以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

　以降の説明において、マルチマイクデバイスの位置及び向きを基準とする座標系（マイク座標系）を用いることがある。マイク座標系は、マルチマイクデバイスの位置（例えばマルチマイクデバイスの重心位置）を原点とし、当該原点においてｘ軸およびｙ軸が直交する。マイク座標系において、ｘ＋方向をマルチマイクデバイスの前方としたとき、ｘ－方向をマルチマイクデバイスの後方、ｙ＋方向をマルチマイクデバイスの左方向、ｙ－方向をマルチマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。

（１）情報処理システムの構成
　情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

　図１に示すように、情報処理システム１は、ディスプレイデバイス１０と、コントローラ３０と、マルチマイクデバイス５０とを備える。
　情報処理システム１は、複数のユーザによって使用される。ユーザの少なくとも１人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい（つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい）。

　ディスプレイデバイス１０およびコントローラ３０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetooth（登録商標）チャネル）を介して接続される。
　同様に、コントローラ３０およびマルチマイクデバイス５０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetoothチャネル）を介して接続される。

　ディスプレイデバイス１０は、１以上のディスプレイ１１（「表示部」の一例）を備える。ディスプレイデバイス１０は、コントローラ３０から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス１０は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置である。ディスプレイデバイス１０は、ユーザの指示を取得するための入力デバイスまたは操作部を備えていてもよい。

　コントローラ３０は、ディスプレイデバイス１０およびマルチマイクデバイス５０を制御する。コントローラ３０は、情報処理装置の一例である。コントローラ３０は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータである。

　マルチマイクデバイス５０は、ディスプレイデバイス１０から独立して設置可能である。つまり、マルチマイクデバイス５０の位置および向きは、ディスプレイデバイス１０の位置および向きから独立して決定することができる。

（１－１）コントローラの構成
　コントローラの構成について説明する。図２は、本実施形態のコントローラの構成を示すブロック図である。

　図２に示すように、コントローラ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

　記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーションのプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

　プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、コントローラ３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
　・ＣＰＵ（Central Processing Unit）
　・ＧＰＵ（Graphic Processing Unit）
　・ＡＳＩＣ（Application Specific Integrated Circuit）
　・ＦＰＧＡ（Field Programmable Array）

　入出力インタフェース３３は、コントローラ３０に接続される入力デバイスから情報（例えば、ユーザの指示）を取得し、かつ、コントローラ３０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。
　入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
　出力デバイスは、例えば、ディスプレイである。

　通信インタフェース３４は、コントローラ３０と外部装置（例えば、ディスプレイデバイス１０、およびマルチマイクデバイス５０）との間の通信を制御するように構成される。

（１－２）マルチマイクデバイスの構成
　マルチマイクデバイスの構成について説明する。図３は、本実施形態のマルチマイクデバイスの外観を示す図である。

　マルチマイクデバイス５０は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス５０は、５つのマイクロホン５１－１，・・・，５１－５（以下、特に区別しない場合は単にマイクロホン５１と表記する）を備えることとする。マルチマイクデバイス５０は、マイクロホン５１－１，・・・、５１－５を用いて、音源から発せられた音を受信（集音）することで音声信号を生成する。また、マルチマイクデバイス５０は、マイク座標系における音の到来方向（つまり、音源の方向）を推定する。また、マルチマイクデバイス５０は、後述するビームフォーミング処理を行う。

　マイクロホン５１は、例えば、マルチマイクデバイス５０の周辺の音を集音する。マイクロホン５１により集音される音には、例えば以下の少なくとも１つの音が含まれる。
　・人物による発話音
　・マルチマイクデバイス５０が使用される環境の音

　マルチマイクデバイス５０には、例えば筐体の表面にマルチマイクデバイス５０の基準方向（例えば、前方（つまり、ｘ＋方向）であるが、その他の所定の方向であってもよい）を示す目印５０ａが付されている。これにより、ユーザは、マルチマイクデバイス５０の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス５０の向きを認識するための手段はこれに限られない。目印５０ａは、マルチマイクデバイス５０の筐体と一体化されていてもよい。

　マルチマイクデバイス５０は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マルチマイクデバイス５０は、当該マルチマイクデバイス５０の動き及び状態を検出するためにＩＭＵ（Inertial Measurement Unit）を備えることができる。

（２）実施形態の一態様
　本実施形態の一態様について説明する。図４は、本実施形態の一態様を示す図である。

　コントローラ３０は、複数の参加者（つまり、情報処理システム１のユーザ）による会話（例えば、会議）が行われている間、マップ画像を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。マップ画像は、マルチマイクデバイス５０の周囲の音源（話者）環境を俯瞰した図に相当し、マルチマイクデバイス５０に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキスト（「音声の内容に関する情報」の一例）が配置される。コントローラ３０は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容（特に、誰が何を話しているか）を視覚的にリアルタイムに把握するためのＵＩ（User Interface）の役割を果たす。

　具体的には、図４に示すように、マップ画像は、マイクアイコンＭＩ３１と、円周ＣＩ３１と、音源アイコンＳＩ３１，ＳＩ３２，ＳＩ３３，ＳＩ３４と、テキスト画像ＴＩ３２，ＴＩ３４とを含む。

　マイクアイコンＭＩ３１は、マルチマイクデバイス５０を表す。マイクアイコンＭＩ３１は、当該マイクアイコンＭＩ３１の向きを示す目印ＭＲ３１を備える。マップ画像の観者は、目印ＭＲ３１を確認することで、マップ画像においてマイクアイコンＭＩ３１がどこを向いているかを認識することができる。マイクアイコンＭＩ３１および目印ＭＲ３１の外観をマルチマイクデバイス５０および目印５０ａの外観に似せることで、マップ画像の観者は、現実世界における参加者と、マップ画像における音源アイコンとの対応付けを容易に行うことができる。ただし、マイクアイコンＭＩ３１および目印ＭＲ３１の外観をマルチマイクデバイス５０および目印５０ａの外観と類似させることは、必須ではない。

　円周ＣＩ３１は、マイクアイコンＭＩ３１を中心とする円周に相当する。図４の例では、コントローラ３０は、会話の参加者に相当する音源アイコンＳＩ３１，ＳＩ３２，ＳＩ３３，ＳＩ３４を、円周ＣＩ３１上に配置する。具体的には、コントローラ３０は、音源アイコンＳＩ３１，ＳＩ３２，ＳＩ３３，ＳＩ３４の各々を、円周ＣＩ３１上のうち、マルチマイクデバイス５０に対する当該音源アイコンの表す音源の方向に応じた位置に配置する。一例として、コントローラ３０は、マイク座標系をマップ画像の座標系（以下、「マップ座標系」）に変換する。そして、コントローラ３０は、マイクアイコンＭＩ３１の表示位置（「マップ座標系の原点」の一例）からマップ座標系で表現される音源の（推定）方向に延びる直線と円周ＣＩ３１との交点に当該音源を表現する音源アイコンを配置する。

　音源アイコンＳＩ３１は、複数の参加者のうち特定の一人（例えば、難聴者であり、他の参加者に比べてマップ画像を見る機会の多い者。以下、「あなた」ということもある）を表す。コントローラ３０は、「あなた」を表す音源アイコンＳＩ３１に、例えば他の音源を表す音源アイコンとは異なる特定の書式（例えば、色、テクスチャ、光学的効果、形状、大きさ、など）を設定してよい。

　音源アイコンＳＩ３２は、複数の参加者のうちＤさんを表す。図４の例では、Ｄさんは発言中である。コントローラ３０は、発言中の話者（音源）を表す音源アイコンＳＩ３２に、他の状態の話者（音源）を表す音源アイコンとは異なる書式を設定してよい。つまり、コントローラ３０は、音源アイコンの書式を、当該音源アイコンの表す音源の状態に依存して動的に変更可能である。

　テキスト画像ＴＩ３２は、Ｄさんの直近の発言内容（Ｄさんから発せられた音声に対する音声認識結果）を表す。コントローラ３０は、マップ画像の観者がテキスト画像ＴＩ３２と音源アイコンＳＩ３２とが対応することを認識しやすい形態でテキスト画像ＴＩ３２をマップ画像上に配置する。一例として、コントローラ３０は、テキスト画像ＴＩ３２を、音源アイコンＳＩ３２に対して所定の位置（例えば右下）に配置する。また、コントローラ３０は、テキスト画像ＴＩ３２を、音源アイコンＳＩ３２と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ３０は、音源アイコンＳＩ３２とテキスト画像ＴＩ３２の背景または文字とを同系色に揃えてよい。

　音源アイコンＳＩ３３は、複数の参加者のうちＴさんを表す。図４の例では、Ｔさんは発言していない。コントローラ３０は、発言していない話者（音源）を表す音源アイコンＳＩ３３に、他の状態の話者（音源）を表す音源アイコンとは異なる書式を設定してよい。

　音源アイコンＳＩ３４は、複数の参加者のうちＨさんを表す。図４の例では、Ｈさんは、発言を終えた直後である。コントローラ３０は、発言を終えた直後の話者（音源）を表す音源アイコンＳＩ３４に、他の状態の話者（音源）を表す音源アイコンとは異なる書式を設定してよい。

　テキスト画像ＴＩ３４は、Ｈさんの直近の発言内容を表す。コントローラ３０は、マップ画像の観者がテキスト画像ＴＩ３４と音源アイコンＳＩ３４とが対応することを認識しやすい形態でテキスト画像ＴＩ３４をマップ画像上に配置する。一例として、コントローラ３０は、テキスト画像ＴＩ３４を、音源アイコンＳＩ３４に対して所定の位置（例えば右下）に配置する。また、コントローラ３０は、テキスト画像ＴＩ３４を、音源アイコンＳＩ３４と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ３０は、音源アイコンＳＩ３４とテキスト画像ＴＩ３４の背景または文字とを同系色に揃えてよい。

　このように、コントローラ３０は、話者から発せられた音声に対応するテキストを、マルチマイクデバイス５０に対する話者の方向の推定結果に応じた位置に配置することでマップ画像を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。これにより、マップ画像の観者は、話者と発言内容とを直感的に関連付けることができる。

（３）データベース
　本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

（３－１）音源データベース
　本実施形態の音源データベースについて説明する。図５は、本実施形態の音源データベースのデータ構造を示す図である。

　音源データベースには、音源情報が格納される。音源情報は、コントローラ３０によって識別された、マルチマイクデバイス５０の周囲の音源（典型的には、話者）に関する情報である。

　図５に示すように、音源データベースは、「ＩＤ」フィールドと、「名称」フィールドと、「アイコン」フィールドと、「方向」フィールドと、「認識言語」フィールドと、「翻訳言語」フィールドとを含む。各フィールドは、互いに関連付けられている。

　「ＩＤ」フィールドには、音源ＩＤが格納される。音源ＩＤは、音源を識別する情報である。コントローラ３０は、新たな音源を検出すると、新規の音源ＩＤを発行し、当該音源ＩＤを当該音源に割り当てる。

　「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ３０は、音源名情報を、自動的に決定してもよいし、後述するようにユーザ指示に応じて設定してもよい。コントローラ３０は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。

　「アイコン」フィールドには、アイコン情報が格納される。アイコン情報は、音源のアイコンに関する情報である。一例として、アイコン情報は、アイコン画像（例えば、プリセットアイコン画像のいずれか、またはユーザによって提供された写真、もしくは絵）、またはアイコンの書式（例えば、色、テクスチャ、光学的効果、形状、など）を特定可能な情報を含むことができる。コントローラ３０は、アイコン情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ３０は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期アイコンを割り当てることができる。
　ただし、後述する変形例２のようにマップ画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。

　「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マルチマイクデバイス５０に対する音源の方向に関する情報である。一例として、音源の方向は、マイク座標系においてマイクロホン５１－１～５１－５を基準として定められた基準方向（本実施形態においては、マルチマイクデバイス５０の前方（ｘ＋方向））を０度とする軸からの偏角として表現される。

　「認識言語」フィールドには、認識言語情報が格納される。認識言語情報は、音源（話者）の使用言語に関する情報である。音源の認識言語情報に基づいて、当該音源から発生される音声に適用される音声認識エンジンが選択される。前記認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。

　「翻訳言語」フィールドには、翻訳言語情報が格納される。翻訳言語情報は、音源から発せられる音声に対する音声認識結果（テキスト）に機械翻訳を適用する場合における目的言語に関する情報である。音源の翻訳言語情報に基づいて、当該音源から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の音源ではなく全音源に対して一括で設定されてもよいし、ディスプレイデバイス１０毎に設定されてもよい。

　その他、音源情報は、音源距離情報を含んでもよい。音源距離情報は、マルチマイクデバイス５０から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マルチマイクデバイス５０に対する音源の相対位置（つまり、マルチマイクデバイス５０の座標系における音源の座標）に関する情報である。

（４）情報処理
　本実施形態の情報処理について説明する。

（４－１）音声処理
　本実施形態の音声処理について説明する。図６は、本実施形態の音声処理のフローチャートである。図７は、マイクロホンによる集音を説明するための図である。図８は、基準座標系における音源の方向を説明するための図である。図９は、マップ画像の一例を示す図である。

　図６に示す音声処理は、ディスプレイデバイス１０、コントローラ３０、およびマルチマイクデバイス５０の電源がＯＮになり、かつ初期設定が完了した後に開始される。ただし、図６に示す処理の開始タイミングはこれに限定されない。図６に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム１のユーザはリアルタイムに更新されるマップ画像を閲覧することができる。

　マルチマイクデバイス５０は、マイクロホン５１を介して音声信号の取得（Ｓ１５０）を実行する。
　具体的には、マルチマイクデバイス５０の備える複数のマイクロホン５１－１，・・・、５１－５は、話者から発せられる発話音をそれぞれ集音する。マイクロホン５１－１～５１－５は、図７に示される複数のパスを介して到来した発話音を集音する。マイクロホン５１－１～５１－５は、集音した発話音を音声信号へ変換する。

　マルチマイクデバイス５０が備えるプロセッサは、マイクロホン５１－１～５１－５から、話者ＰＲ３，ＰＲ４，及びＰＲ５の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン５１－１～５１－５から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報（例えば遅延や位相変化）が含まれている。

　ステップＳ１５０の後、マルチマイクデバイス５０は、到来方向の推定（Ｓ１５１）を実行する。
　マルチマイクデバイス５０の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

　到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

　マルチマイクデバイス５０は、到来方向推定モデルに、マイクロホン５１－１～５１－５から受信した音声信号を入力することで、マイクロホン５１－１～５１－５により集音された発話音の到来方向（つまり、マルチマイクデバイス５０に対する発話音の音源の方向）を推定する。このとき、マルチマイクデバイス５０は、例えば、マイク座標系において、マイクロホン５１－１～５１－５を基準として定められた基準方向（本実施形態においては、マルチマイクデバイス５０の前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する。図８に示される例では、マルチマイクデバイス５０は、話者ＰＲ３から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ２ずれた方向と推定する。マルチマイクデバイス５０は、話者ＰＲ４から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ３ずれた方向と推定する。マルチマイクデバイス５０は、話者ＰＲ５から発せられた発話音の到来方向を、ｘ軸から右方向に角度Ａ１ずれた方向と推定する。

　ステップＳ１５１の後、マルチマイクデバイス５０は、音声信号の抽出（Ｓ１５２）を実行する。
　マルチマイクデバイス５０が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

　マルチマイクデバイス５０は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

　図８に示される例では、マルチマイクデバイス５０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。

　マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　マルチマイクデバイス５０は、抽出した音声信号を、ステップＳ１５１において推定した当該音声信号に対応する音源の方向を示す情報（つまり、マルチマイクデバイス５０に対する音源の方向の推定結果）とともに、コントローラ３０へ送信する。

　ステップＳ１５２の後、コントローラ３０は、音源の識別（Ｓ１３０）を実行する。
　具体的には、コントローラ３０は、ステップ１５１において取得した音源の方向（以下、「対象方向」という）の推定結果に基づいて、マルチマイクデバイス５０の周囲に存在する音源を識別する。

　一例として、コントローラ３０は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定し、当該対象方向に対応する音源が識別済みの音源でない場合に、新たな音源ＩＤ（図５）を割り当てる。具体的には、コントローラ３０は、対象方向を、識別済みの音源についての音源方向情報（図５）と比較する。そして、コントローラ３０は、対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、当該対象方向に対応する音源を、適合した音源方向情報を持つ（識別済みの）音源として扱う。他方、コントローラ３０は、対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出し、当該新たな音源に新規の音源ＩＤを付与する。ここで、対象方向が音源方向情報に適合することとは、少なくとも対象方向が音源方向情報の示す方向に一致することを含み、さらに対象方向の音源方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。

　ステップＳ１３０の後、コントローラ３０は、音声認識処理（Ｓ１３１）を実行する。
　記憶装置３１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置３１の代わりに、コントローラ３０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

　コントローラ３０は、音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。コントローラ３０は、音声信号に対応する音源の認識言語情報に基づいて音声認識エンジンを選択してもよい。

　図８に示される例では、コントローラ３０は、角度Ａ１～Ａ３について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。

　ステップＳ１３１の後、コントローラ３０は、機械翻訳（Ｓ１３２）を実行する。
　具体的には、コントローラ３０は、ステップＳ１３１において生成したテキストに対応する音声の音源に翻訳言語情報（図５）が設定されている場合に、当該テキストの機械翻訳を行う。これにより、コントローラ３０は、翻訳言語情報によって指定された言語のテキストを得る。コントローラ３０は、音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。他方、コントローラ３０は、ステップＳ１３１において生成したテキストに対応する音声の音源に翻訳言語情報（図５）が設定されていない場合（すなわち、音声を翻訳せずにテキストに変換する場合）に、本ステップを省略可能である。

　ステップＳ１３２の後、コントローラ３０は、マップ画像の生成（Ｓ１３３）を実行する。
　具体的には、コントローラ３０は、ステップＳ１３１における音声認識処理の結果、またはステップＳ１３２における機械翻訳処理の結果に基づくテキストを表すテキスト画像を生成する。コントローラ３０は、識別済みの音源を表す音源アイコンを、当該音源のマルチマイクデバイス５０に対する方向（つまり、ステップＳ１５１の推定結果）に基づいて、マイクアイコンの周囲（一例として、マイクアイコンを中心とする円周上）に配置する。コントローラ３０は、前述のテキスト画像を、対応する音声の音源を表す音源アイコンに対して所定の位置に配置する。

　一例として、コントローラ３０は、図９に示すマップ画像を生成する。図９のマップ画像では、マイクアイコンＭＩ３１の前方（ｘ＋方向）がマップ画像の上方向を向くように、マイク座標系がマップ座標系に変換されている。しかしながら、コントローラ３０は、マイク座標系とマップ座標系との対応関係を変更可能である。一例として、コントローラ３０は、ユーザ指示に応じて、特定の音源アイコンがマップ座標系の所定の方向（例えば、下方向）に位置するようにマイクアイコンＭＩ３１の表示位置を中心に各音源アイコンの表示位置を回転してもよい。例えば図４のマップ画像は、音源アイコンＳＩ３１がマップ画像の下方向に位置するように、図９のマップ画像においてマイクアイコンＭＩ３１の表示位置を中心に各音源アイコンＳＩ３１～ＳＩ３４の表示位置を左回りに９０度回転し、テキスト画像ＴＩ３２，ＴＩ３４を回転後の音源アイコンＳＩ３２，ＳＩ３４に対して所定の位置（例えば「右下」）に移動させることで生成可能である。

　また、コントローラ３０は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声に関するテキストを強調するようにマップ画像を生成してもよい。コントローラ３０は、例えば以下の少なくとも１つにより音源アイコンまたはテキストを強調してもよい。
・アニメーションの付加
・拡大表示
・色、テクスチャ、光学的効果、または形状の変更

　ステップＳ１３３の後、コントローラ３０は、情報表示（Ｓ１３４）を実行する。
　具体的には、コントローラ３０は、ステップＳ１３３において生成したマップ画像を、ディスプレイデバイス１０のディスプレイ１１に表示する。

（４－２）音源設定処理
　本実施形態の音源設定処理について説明する。図１０は、本実施形態の音源設定処理のフローチャートである。図１１は、本実施形態の音源設定処理において表示される画面例を示す図である。

　図１０に示す音源設定処理は、図６に示す音声処理の開始後に、情報処理システム１のユーザによる指示に応じて開始する。ただし、図１０に示す音源設定処理の開始タイミングはこれに限定されない。例えば、図１０の処理は、図６に示す音声処理の開始前の初期設定処理として実行されてもよい。

　図１０に示すように、コントローラ３０は、音源の選択（Ｓ２３０）を実行する。
　具体的には、コントローラ３０は、ユーザが音源情報を設定するための音源設定ＵＩをディスプレイデバイス１０のディスプレイ１１に表示する。一例として、コントローラ３０は、図１１の画面をディスプレイデバイス１０のディスプレイ１１に表示する。図１１の画面は、マップ画像ＭＰ４０と、音源設定ＵＩ（画像）ＣＵ４０とを含む。

　音源設定ＵＩ　ＣＵ４０は、表示オブジェクトＡ４１，Ａ４２と、操作オブジェクトＢ４３とを含む。
　表示オブジェクトＡ４１は、登録済み参加者の情報（例えば、音源アイコンおよび登録された音源名称）を表示する。ここで、登録済み参加者とは、図６の音源の識別（Ｓ１３０）において識別された音源（話者）のうち、図１０に示す音源設定処理によって音源名情報が登録された音源を意味する。

　表示オブジェクトＡ４２は、未登録の参加者の情報（例えば、音源アイコンおよび初期音源名称）を表示する。ここで、未登録の参加者とは、図６の音源の識別（Ｓ１３０）において識別された音源（話者）のうち、音源名情報が登録されていない音源（つまり、コントローラ３０によって決定された初期音源名称を使用する音源）を意味する。

　操作オブジェクトＢ４３は、参加者を追加する操作を受け付ける。具体的には、情報処理システム１のユーザは、操作オブジェクトＢ４３を選択し、さらに未登録の参加者のいずれかを指定する。コントローラ３０は、未登録の参加者の指定を受け付けるために、入力フォーム（例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ）をディスプレイデバイス１０に提示してもよい。

　コントローラ３０は、ユーザ指示に応じて、音源情報の設定対象となる音源（未登録の参加者）を選択する。

　ステップＳ２３０の後に、コントローラ３０は、音源情報の取得（Ｓ２３１）を実行する。
　具体的には、コントローラ３０は、ステップＳ２３０において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ３０は、選択した音源についての音源名情報を取得する。さらに、コントローラ３０は、選択した音源についてのアイコン情報、認識言語情報、翻訳言語情報、またはそれらの組み合わせを取得してもよい。コントローラ３０は、音源情報を取得するために、入力フォーム（例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ）をディスプレイデバイス１０のディスプレイ１１に表示してもよい。コントローラ３０は、会話の参加者情報を取得し、当該参加者情報に基づいて入力フォーム（メニュー、ラジオボタン、またはチェックボックス）の要素を生成してもよい。会話の参加者情報は、会話の開始前に手動で設定されてもよいし、情報処理システム１、または連携する会議システムにログインしているアカウント名から取得されてもよい。

　ステップＳ２３１の後に、コントローラ３０は、音源情報の更新（Ｓ２３２）を実行する。
　具体的には、コントローラ３０は、ステップＳ２３１において取得した音源情報を、ステップＳ２３０において選択した音源を識別する音源ＩＤに関連付けて音源データベース（図５）に登録することで、音源情報を更新する。

　ステップＳ２３２を以て、コントローラ３０は、図１０に示す音源設定処理を終了してもよい。或いは、コントローラ３０は、ユーザが音源設定処理の終了を指示するか、または未登録の参加者の全てに音源情報が設定されるまで、音源設定処理を繰り返し実行してもよい。

（５）小括
　以上説明したように、本実施形態のコントローラ３０は、マルチマイクデバイス５０に対する音源の方向を示す推定結果を取得し、当該音源から発せられ、マルチマイクデバイス５０によって集音された音声の内容に関する情報を取得する。コントローラ３０は、テキストを、マルチマイクデバイス５０に対する当該テキストに対応する音源の方向に応じた位置に配置したマップ画像を生成し、当該マップ画像をディスプレイデバイス１０のディスプレイ１１に表示する。これにより、マップ画像の観者は、音源（例えば話者）と当該音源から発せられる音声（例えば発言）の内容との関連付けを直感的に認識することができる。

　コントローラ３０は、音源の方向の推定結果に基づいて、マルチマイクデバイス５０の周囲に存在する個々の音源を識別し、識別された音源に関する音源情報を例えばユーザ指示に応じて設定してもよい。これにより、マップ画像において表示されるテキストに対応する音源について音源情報を適切に設定することができる。コントローラ３０は、識別された音源についての音源名情報、認識言語情報、または翻訳言語情報の少なくとも１つを設定してもよい。これにより、マップ画像において表示されるテキストが誰の発言によるものかを明確化したり、正確な、またはユーザにとって理解しやすいテキストを生成したりすることができる。

　コントローラ３０は、マルチマイクデバイス５０を表すマイクアイコンと、音源を表す音源アイコンとを含み、音源アイコンがマイクアイコンを中心とする円周上のうちマルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるようにマップ画像を生成してもよい。これにより、マップ画像の観者は、マップ画像に表示されるテキストが、マルチマイクデバイス５０に対してどの方向に位置する音源から発せられた音声に対応するかを直感的に認識することができる。また、マップ画像の観者は、マップ画像に表示される音源アイコンが、現実空間におけるどの音源に対応するかを直感的に認識することができる。また、コントローラ３０は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声の内容に関する情報を強調するようにマップ画像を表示してもよい。これにより、マップ画像に複数の音源アイコンおよび複数のテキストが表示されている場合であっても、観者は注目すべき音源およびテキスト（例えば、発言中の話者およびその発言内容）を容易に判別することができる。また、コントローラ３０は、特定の音源アイコンがマップ画像上で特定の方向（例えば下方向）に位置するように、各音源アイコンおよび各テキストの表示位置をマイクアイコンの表示位置を中心に回転してもよい。これにより、特定の音源アイコンに対応する話者（例えば難聴者）は、他の話者（音源）と、マップ画像における音源アイコンとの対応を容易に把握することができる。

（６）変形例
　本実施形態の変形例について説明する。

（６－１）変形例１
　変形例１について説明する。変形例１は、マップ画像に加えて議事録を生成する例である。

（６－１－１）変形例１の一態様
　変形例１の一態様について説明する。図１２は、変形例１の一態様を示す図である。

　コントローラ３０は、複数の参加者による会話が行われている間、マップ画像および議事録を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。議事録は、マルチマイクデバイス５０の周囲の音源（話者）による発言内容を時系列順に配置した発言履歴に相当する。コントローラ３０は、参加者の発言に応じて、マップ画像および議事録を更新する。これにより、議事録は、これまでの会話の流れ（特に、誰が何を話してきたか）を視覚的にリアルタイムに把握するためのＵＩの役割を果たす。

　具体的には、図１２に示すように、コントローラ３０は、マップ画像ＭＰ５０および議事録（画像）ＭＮ５０を例えば一画面に並べてディスプレイデバイス１０のディスプレイ１１に表示する。議事録ＭＮ５０は、表示オブジェクトＡ５１を含む。なお、コントローラ３０は、マップ画像ＭＰ５０および議事録ＭＮ５０を一画面に並べる代わりに、マップ画像ＭＰ５０および議事録ＭＮ５０のうちユーザによって選択された一方のみをディスプレイデバイス１０のディスプレイ１１に表示してもよい。

　表示オブジェクトＡ５１は、話者の発言の情報（例えば、話者（音源）のアイコンもしくは名称、発言時間、発言内容、またはそれらの組み合わせ）を表示する。情報処理システム１のユーザ（例えば、発言者であるが、他のユーザであってもよい）は、議事録ＭＮ５０に配置された発言内容に誤り（例えば、音声認識の誤り、または機械翻訳の誤り）を発見した場合に、当該発言内容を表示する表示オブジェクトＡ５１を選択し、当該発言内容を編集することができる。コントローラ３０は、編集後の発言内容を例えば入力フォームを介してユーザから取得し、当該発言内容に基づいて表示オブジェクトＡ５１を更新する。さらに、コントローラ３０は、編集後の発言内容に対応するテキストがマップ画像ＭＰ５０に含まれる場合に、当該テキストを更新してもよい。また、コントローラ３０は、図１２に示す画面の代わりに、図１８に示す画面をディスプレイ１１に表示させてもよい。図１８の例では、話者のアイコンに円弧上の印を表示することで、マルチマイクデバイス５０に対する話者の方向を表している。これによりユーザは、マップ画像ＭＰ５０を確認しなくても、議事録ＭＮ５０を確認するだけで、各発言の発言者がマルチマイクデバイス５０に対してどの方向に存在するかを把握することができる。

　このように、コントローラ３０は、マルチマイクデバイス５０の周囲に存在する話者による発言内容の履歴に相当する議事録を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。これにより、議事録の観者は、会話の流れを容易に振り返ることができる。

（６－１－２）データベース
　変形例１のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

（６－１－２－１）発言データベース
　変形例１の音源データベースについて説明する。図１３は、変形例１の発言データベースのデータ構造を示す図である。

　発言データベースには、発言情報が格納される。発言情報は、マルチマイクデバイス５０によって集音された音声（発言）に関する情報である。

　図１３に示すように、発言データベースは、「発言ＩＤ」フィールドと、「音源ＩＤフィールド」と、「発言日時」フィールドと、「発言内容」フィールドとを含む。
各フィールドは、互いに関連付けられている。

　「発言ＩＤ」フィールドには、発言ＩＤが格納される。発言ＩＤは、発言を識別する情報である。コントローラ３０は、音声認識結果または機械翻訳結果から新たな発言を検出すると、新規の発言ＩＤを発行し、当該発言ＩＤを当該発言に割り当てる。コントローラ３０は、発言を、話者の交代に応じて区切る。また、コントローラ３０は、同一の話者による一連の発言であっても、音声上の境界（例えば無音区間）またはテキストの意味上の境界に応じて区切ることができる。

　「音源ＩＤ」フィールドには、音源ＩＤが格納される。音源ＩＤは、発言を行った話者（音源）を識別する情報である。音源ＩＤは、図５の音源データベースを親テーブルとして参照するための外部キーに相当する。

　「発言日時」フィールドには、発言日時情報が格納される。発言日時情報は、発言が行われた日時に関する情報である。発言日時情報は、絶対的な日時を示す情報であってもよいし、会話の開始からの経過時間を示す情報であってもよい。

　「発言内容」フィールドには、発言内容情報が格納される。発言内容情報は、発言の内容に関する情報である。発言内容情報は、例えば、発言に対する音声認識結果、もしくは当該音声認識結果に対する機械翻訳結果、またはこれらに対するユーザによる編集結果である。

　なお、発言データベースは、本実施形態において、特定の時点におけるマップ画像を再生するために用いることもできる。

（６－１－３）情報処理
　変形例１の情報処理について説明する。

（６－１－３－１）音声処理
　変形例１の音声処理について説明する。図１４は、変形例１の音声処理のフローチャートである。

　図１４に示す音声処理は、ディスプレイデバイス１０、コントローラ３０、およびマルチマイクデバイス５０の電源がＯＮになり、かつ初期設定が完了した後に開始される。ただし、図１４に示す処理の開始タイミングはこれに限定されない。図１４に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム１のユーザはリアルタイムに更新されるマップ画像および議事録を閲覧することができる。

　図１４に示すように、マルチマイクデバイス５０は図６と同様に、音声信号の取得（Ｓ１５０）、到来方向の推定（Ｓ１５１）、および音声信号の抽出（Ｓ１５２）を実行する。

　ステップＳ１５２の後、コントローラ３０は図６と同様に、音源の識別（Ｓ１３０）、音声認識処理（Ｓ１３１）、機械翻訳（Ｓ１３２）、およびマップ画像の生成（Ｓ１３３）を実行する。なお、コントローラ３０は、ステップＳ１３０～ステップＳ１３２の間に、発言情報を発言データベース（図１３）に登録する。

　ステップＳ１３３の後、コントローラ３０は、議事録生成（Ｓ３３４）を実行する。
　具体的には、コントローラ３０は、発言データベース（図１３）を参照し、議事録を生成する。一例として、コントローラ３０は、ステップＳ１３０～ステップＳ１３２の間に発言データベースに登録した発言情報（つまり、新規の発言情報）に基づいて、前回のステップＳ３３４の実行時に生成した議事録（以下、「前回議事録」という）を更新してもよい。

　ステップＳ３３４の後、コントローラ３０は、情報表示（Ｓ３３５）を実行する。
　具体的には、コントローラ３０は、ステップＳ１３３において生成したマップ画像およびステップＳ３３４において生成した議事録を、ディスプレイデバイス１０のディスプレイ１１に表示する。

（６－１－４）小括
　以上説明したように、変形例１のコントローラ３０は、マルチマイクデバイス５０の周囲に存在する音源（話者）による発言に関するテキスト（つまり、音声認識結果、または機械翻訳結果）に基づいて議事録を生成し、当該議事録をマップ画像と並べてディスプレイデバイス１０のディスプレイ１１に表示する。これにより、マップ画像および議事録の観者は、マップ画像を閲覧することで話者と当該話者による発言の内容との関連付けを直感的に認識することができるとともに、議事録を閲覧することでそれまでの会話の流れを容易に振り返ることができる。また、コントローラ３０は、発言に関するテキストを発言日時の時系列順に配置することで議事録を生成してもよい。これにより、議事録の観者は、それまでの会話の流れを直感的に認識することができる。また、コントローラ３０は、議事録に配置されたテキストをユーザ指示に応じて編集してもよい。これにより、音声認識または機械翻訳の誤りによりユーザ（特に難聴者）が発言内容を誤解した場合であっても、発言した本人または周りのユーザが誤りを速やかに訂正できるので、円滑なコミュニケーションを促進することができる。また、会議終了後に会議中の発言内容を確認するための正確な議事録を残すことができる。

（６－２）変形例２
　変形例２について説明する。変形例２は、本実施形態とは異なるマップ画像を生成する例である。図１５は、変形例２のマップ画像の一例を示す図である。図１６は、変形例２のマップ画像の別の例を示す図である。

　コントローラ３０は、複数の参加者による会話が行われている間、マップ画像を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。マップ画像は、マルチマイクデバイス５０の周囲の音源（話者）環境を俯瞰した図に相当し、マルチマイクデバイス５０に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ３０は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容（特に、誰が何を話しているか）を視覚的にリアルタイムに把握するためのＵＩの役割を果たす。

　具体的には、図１５に示すマップ画像は、マイクアイコンＭＩ６１と、円周ＣＩ６１と、表示オブジェクトＡ６１，Ａ６２と、テキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６２とを含む。

　マイクアイコンＭＩ６１は、マイクアイコンＭＩ３１（図４）と同様に、マルチマイクデバイス５０を表す。マイクアイコンＭＩ６１は、当該マイクアイコンＭＩ６１の向きを示す目印ＭＲ６１を備える。
　円周ＣＩ６１は、円周ＣＩ３１（図４）と同様に、マイクアイコンＭＩ６１を中心とする円周に相当する。

　テキスト画像ＴＩ６１ａは、第１話者による発言であって、図１５に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６２のうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像ＴＩ６１ａは、マルチマイクデバイス５０に対する第１話者の方向に応じた位置に配置される。具体的には、テキスト画像ＴＩ６１ａは、マイクアイコンＭＩ６１の表示位置（「マップ座標系の原点」の一例）から第１話者の（推定）方向へ延びる直線に沿って配置される。

　テキスト画像ＴＩ６１ｂは、第１話者による発言であって、図１５に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６２のうち発言日時が最も新しい発言内容に対応する。テキスト画像ＴＩ６１ｂは、マルチマイクデバイス５０に対する第１話者の方向に応じた位置に配置される。具体的には、テキスト画像ＴＩ６１ｂは、マイクアイコンＭＩ６１の表示位置から第１話者の（推定）方向へ延びる直線に沿って配置される。ただし、テキスト画像ＴＩ６１ｂは、より古い発言日時に対応するテキスト画像ＴＩ６１ａに比べてマイクアイコンＭＩ６１の表示位置に近い位置に配置される。

　表示オブジェクトＡ６１は、マルチマイクデバイス５０に対する第１話者（音源）の（推定）方向を表示する。表示オブジェクトＡ６１は、マイクアイコンＭＩ６１の表示位置から第１話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ３０は、表示オブジェクトＡ６１に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ３０は、表示オブジェクトＡ６１を、テキスト画像ＴＩ６１ａ，ＴＩ６１ｂと少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ３０は、表示オブジェクトＡ６１をテキスト画像ＴＩ６１ａ，ＴＩ６１ｂの背景または文字と同系色に揃えてよい。

　テキスト画像ＴＩ６２は、第２話者による発言であって、図１５に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６２のうち発言日時が最も古い発言内容に対応する。テキスト画像ＴＩ６２は、マルチマイクデバイス５０に対する第２話者の方向に応じた位置に配置される。具体的には、テキスト画像ＴＩ６２は、マイクアイコンＭＩ６１の表示位置から第２話者の（推定）方向へ延びる直線に沿って配置される。

　表示オブジェクトＡ６２は、マルチマイクデバイス５０に対する第２話者（音源）の（推定）方向を表示する。表示オブジェクトＡ６２は、マイクアイコンＭＩ６１の表示位置から第２話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ３０は、表示オブジェクトＡ６２に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ３０は、表示オブジェクトＡ６２を、テキスト画像ＴＩ６２と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ３０は、表示オブジェクトＡ６２をテキスト画像ＴＩ６２の背景または文字と同系色に揃えてよい。

　コントローラ３０は、参加者による新たな発言に応じて、図１５に示すマップ画像を図１６に示すマップ画像へと更新する。

　具体的には、図１６に示すマップ画像は、マイクアイコンＭＩ６１と、円周ＣＩ６１と、表示オブジェクトＡ６１と、テキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６１ｃとを含む。

　テキスト画像ＴＩ６１ａは、第１話者による発言であって、図１６に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６１ｃのうち発言日時が最も古い発言内容に対応する。テキスト画像ＴＩ６１ａは図１５と同様に、マイクアイコンＭＩ６１の表示位置から第１話者の（推定）方向へ延びる直線に沿って配置される。ただし、コントローラ３０は、図１５に示すマップ画像に比べて、テキスト画像ＴＩ６１ａの表示位置を、マイクアイコンＭ６１の表示位置から遠ざかる方向に移動させる。

　テキスト画像ＴＩ６１ｂは、第１話者による発言であって、図１６に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６１ｃのうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像ＴＩ６１ｂは、図１５と同様に、マイクアイコンＭＩ６１の表示位置から第１話者の（推定）方向へ延びる直線に沿って配置される。ただし、コントローラ３０は、図１５に示すマップ画像に比べて、テキスト画像ＴＩ６１ｂの表示位置を、マイクアイコンＭ６１の表示位置から遠ざかる方向に移動させる。これにより、テキスト画像ＴＩ６１ｂは、より古い発言日時に対応するテキスト画像ＴＩ６１ａに比べてマイクアイコンＭＩ６１の表示位置に近い位置、かつより新しい発言日時に対応するテキスト画像ＴＩ６１ｃに比べてマイクアイコンＭＩ６１の表示位置から遠い位置、に配置される。

　テキスト画像ＴＩ６１ｃは、第１話者による発言であって、図１６に表示されるテキスト画像ＴＩ６１ａ，ＴＩ６１ｂ，ＴＩ６１ｃのうち発言日時が最も新しい発言内容に対応する。テキスト画像ＴＩ６１ｃは、マイクアイコンＭＩ６１の表示位置から第１話者の（推定）方向へ延びる直線に沿って配置される。ただし、テキスト画像ＴＩ６１ｃは、より古い発言日時に対応するテキスト画像ＴＩ６１ａ，ＴＩ６１ｂに比べてマイクアイコンＭＩ６１の表示位置に近い位置に配置される。

　なお、図１６の例では、コントローラ３０は、テキスト画像ＴＩ６１ａに比べてより古い発言位置に対応するテキスト画像ＴＩ６２をマップ画像上に配置せず、かつ表示オブジェクトＡ６２をマップ画像上に配置しない。これにより、マップ画像の観者は、直近の発言の内容と話者に意識を向けやすくなる。

　このように、コントローラ３０は、同一の話者から発せられた音声に対応するテキストを、対応する発生日時が古い順にマップ座標系の原点（例えばマイクアイコンＭＩ６１の表示位置）から遠ざかるように、マルチマイクデバイス５０に対する話者の（推定）方向に沿って配置することでマップ画像を生成する。これにより、マップ画像の観者は、話者と発言内容との関連付けを直感的に認識することができるとともに、発言の時間的順序を、当該発言に対応するテキストの表示位置とマップ座標系の原点との間の距離を元に把握することができる。なお、図１５及び図１６の例では各テキスト画像が音源の方向に対応する向きに回転して表示されるものとしたが、これに限らず、各テキスト画像が音源の方向にかかわらず直立していてもよい。

（６－３）変形例３
　変形例３について説明する。変形例３は、異なる場所に設置された複数のマルチマイクデバイスのそれぞれについてマップ画像を生成する例である。図１７は、変形例３のマップ画像の例を示す図である。

　コントローラ３０は、異なる場所（例えば、異なる会議室、異なる事業所、または異なる会社）に存在する複数の参加者による会話が行われている間、それぞれの場所についてマップ画像を生成し、ディスプレイデバイス１０のディスプレイ１１に表示する。各マップ画像は、それぞれの場所に設置されたマルチマイクデバイス５０の周囲の音源（話者）環境を俯瞰した図に相当し、各マルチマイクデバイス５０に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ３０は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、それぞれの場所での直近の会話の内容（特に、どの場所で誰が何を話しているか）を視覚的にリアルタイムに把握するためのＵＩの役割を果たす。

　具体的には、図１７に示すように、コントローラ３０は、第１の場所のマップ画像ＭＰ７１と、第２の場所のマップ画像ＭＰ７２とを例えば一画面に並べてディスプレイデバイス１０のディスプレイ１１に表示する。なお、コントローラ３０は、マップ画像ＭＰ７１，ＭＰ７２を一画面に並べる代わりに、マップ画像ＭＰ７１，ＭＰ７２のうちユーザによって選択された一方のみをディスプレイデバイス１０のディスプレイ１１に表示してもよい。

　このように、コントローラ３０は、異なる場所に設置された複数のマルチマイクデバイス５０のそれぞれについてマップ画像を生成する。これにより、例えば、異なる場所に居る複数の参加者がリモート会議を行う場合であっても、マップ画像の観者は、場所と話者と発言内容との関連付けを直感的に認識することができる。特に、第１の場所に居る参加者は、第２の場所に居る参加者に比べて当該第２の場所において誰が発言しているかを正確に把握しづらいが、第２の場所のマップ画像を閲覧することで、第２の場所における発言者を容易に特定できる。つまり、リモート会議による臨場感の低下を補うことができる。

（７）その他の変形例
　記憶装置３１は、ネットワークを介して、コントローラ３０と接続されてもよい。

　上記の情報処理の各ステップは、ディスプレイデバイス１０、コントローラ３０及びマルチマイクデバイス５０の何れでも実行可能である。例えば、コントローラ３０は、マルチマイクデバイス５０によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定（Ｓ１５１）、および音声信号の抽出（Ｓ１５２）を行ってもよい。

　上記説明では、ディスプレイデバイス１０およびコントローラ３０が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス１０およびコントローラ３０は一体化されてもよい。例えば、ディスプレイデバイス１０およびコントローラ３０が１台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マルチマイクデバイス５０とディスプレイデバイス１０またはコントローラ３０とが一体化されてもよい。また例えば、コントローラ３０がクラウドサーバ内に存在してもよい。

　上記説明では、ディスプレイデバイス１０が、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス１０は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス１０は、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス１０は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス１０の形式はこれに限定されない。例えば、ディスプレイデバイス１０はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１０はカメラを備えてもよい。そしてディスプレイデバイス１０は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ１１に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス１０は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよい。

　また、１台のコントローラ３０に複数のディスプレイデバイス１０が接続されてよい。この場合に、例えば、マップ画像のレイアウト（例えば、マイク座標系とマップ座標系との対応関係）、および翻訳言語情報は、ディスプレイデバイス１０毎に変更可能に構成されてよい。

　ディスプレイ１１は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ１１は、例えば、以下の実現方法により実現可能である。
　・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
　・液晶ディスプレイ
　・網膜投影ディスプレイ
　・ＬＥＤ（Light Emitting Diode）ディスプレイ
　・有機ＥＬ（Electro Luminescence）ディスプレイ
　・レーザディスプレイ
　・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
　特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

　ディスプレイ１１には、前述のマップ画像の一部（例えば上半分）のみが表示されてもよい。これにより、ディスプレイ１１の表示領域が小さい場合であっても、テキスト画像等の視認性を保つことができる。ディスプレイ１１に表示されるマップ画像の一部は、ユーザ指示に応じてまたは自動的に切り替えられてよい。

　上述した実施形態では、コントローラ３０の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス１０の備える操作部からユーザの指示が入力されてもよい。

　マルチマイクデバイス５０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マルチマイクデバイス５０は、例えば、以下の方法により音声信号を抽出してもよい。
　・Ｆｒｏｓｔビームフォーマ
　・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
　・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

　本実施形態または各変形例において、複数の参加者による発言に関するテキスト（画像）をマップ画像上に配置する例を示した。コントローラ３０は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキスト（画像）をマップ画像上に配置してもよい。また、コントローラ３０は、音源アイコンと同様に、チャット参加者を表す投稿者アイコンをマップ画像上に配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなる。この場合に、チャット参加者によって投稿されたテキスト（以下、「投稿テキスト」という）または投稿者アイコンの表示位置は、様々な技法により決定することができる。
　第１例として、コントローラ３０は、投稿者アイコンまたは投稿テキストを、例えば円周ＣＩ３１またはＣＩ６１の外側に表示することで、音源アイコンまたは発言に関するテキストと区別してもよい。第２例として、コントローラ３０は、チャット参加者がいずれかの話者と同一人物であることを検出した場合に、当該話者による発言に関するテキストと同一のルールで当該話者による投稿テキストを表示することで、同一人物による発言内容および投稿内容を集約してもよい。第３例として、コントローラ３０は、ユーザ指示に応じて、マルチマイクデバイス５０に対するチャット参加者の方向を決定し、決定された方向に基づいて投稿者アイコンまたは投稿テキストを配置（例えば円周ＣＩ３１上に配置）してもよい。つまり、コントローラ３０は、ユーザ指示に応じて、マップ画像における投稿者アイコンまたは投稿テキストの表示位置を移動してもよい。これにより、チャット参加者が全く発言せずマルチマイクデバイス５０に対するチャット参加者の方向を推定することができない場合であっても、投稿者アイコンまたは投稿テキストの表示位置を適正化（例えば、発言者の音源アイコン及びテキスト画像と同様に表示）することができる。

　変形例１では、議事録を生成し、当該議事録に配置された発言内容をユーザが編集可能に構成する例を説明した。ユーザは、発言内容そのものの修正に限らず、発言に関する補足説明を追加してもよい。これにより、議事録の観者に、発言の趣旨が伝わらなかったり、誤って伝わったりするのを防止することができる。

　変形例１では、複数の参加者による会話における発言内容を示すテキストを時系列順に配置した議事録を生成する例を示した。コントローラ３０は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキストにさらに基づいて議事録を生成してもよい。この場合に、コントローラ３０は、投稿日時または発言日時の時系列順に、投稿されたテキストまたは発言内容を示すテキストを配置することで議事録を生成する。例えば、投稿されたテキストと発言内容を示すテキストとを同じウインドウ内に時系列順に並べて配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなるとともに、議論の流れを振り返る場合にチャット参加者の投稿内容の見落としを防ぐことができる。

　変形例２では、発生日時が新しい順に３つの発言内容に対応するテキスト画像をマップ画像上に配置する例を示した。しかしながら、マップ画像上に配置されるテキスト画像の数は２以下であってもよいし、４以上であってもよい。また、マップ画像上に配置されるテキスト画像の数は、固定であってもよいし、種々の条件（例えば、マップ画像のサイズ、発言内容に含まれる文字数）などに応じて可変であってもよい。また、マップ画像上に配置されるテキスト画像は、当該テキスト画像に対応する発言日時からの経過時間が閾値以内であるか否かによって決定されてもよい。

　本実施形態で説明したマップ画像と、変形例２で説明したマップ画像とは組み合わせることができる。一例として、変形例２で説明したマップ画像において、マルチマイクデバイス５０に対する話者の（推定）方向を示す表示オブジェクトＡ６１，Ａ６２の代わりに、またはこれらに加えて、本実施形態で説明した音源アイコンが表示されてもよい。

　変形例３では、２つの場所についてのマップ画像を生成する例を示した。しかしながら、コントローラ３０は、３以上の場所についてのマップ画像を生成してもよい。また、変形例１，３を組み合わせることも可能である。一例として、コントローラ３０は、複数の場所における参加者の発言内容を時系列順に並べて議事録を生成してもよい。この場合に、コントローラ３０は、参加者がどの場所に居るかに関わらず各参加者の発言を同一の議事録に集約してもよい。

　以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１　　　　　：情報処理システム
１０　　　　：ディスプレイデバイス
１１　　　　：ディスプレイ
３０　　　　：コントローラ
３１　　　　：記憶装置
３２　　　　：プロセッサ
３３　　　　：入出力インタフェース
３４　　　　：通信インタフェース
５０　　　　：マルチマイクデバイス

Claims

　少なくとも１つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
　前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
　前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
　ディスプレイデバイスの表示部に前記マップ画像を表示する手段と
　を具備する、情報処理装置。
　前記音源の方向を示す情報に基づいて、前記マルチマイクデバイスの周囲に存在する音源を識別する手段と、
　識別された前記音源に関する音源情報をユーザ指示に応じて設定する手段とをさらに具備する、
　請求項１に記載の情報処理装置。
　前記設定する手段は、前記識別された音源の名称、当該音源の使用言語、または当該音源から発せられた音声の内容に関するテキストに適用される機械翻訳の目的言語の少なくとも１つを設定する、
　請求項２に記載の情報処理装置。
　前記音声の内容に関する情報に基づいて議事録を生成する手段と、
　前記議事録を前記マップ画像とともに前記ディスプレイデバイスの表示部に表示する手段とをさらに具備する、
　請求項１乃至請求項３のいずれかに記載の情報処理装置。
　前記議事録を生成する手段は、取得された前記音声の内容に関する情報を時系列順に配置することで前記議事録を生成する、
　請求項４に記載の情報処理装置。
　前記議事録に配置されたテキストをユーザ指示に応じて編集する手段をさらに具備する、
　請求項４または請求項５に記載の情報処理装置。
　チャット参加者によって投稿されたテキストを取得する手段をさらに具備し、
　前記議事録を生成する手段は、前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで前記議事録を生成する、
　請求項４乃至請求項６のいずれかに記載の情報処理装置。
　前記マップ画像を生成する手段は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるように前記マップ画像を生成する、
　請求項１乃至請求項７のいずれかに記載の情報処理装置。
　前記マップ画像を生成する手段は、前記音源が音声を発している間、当該音源を表すアイコンまたは当該音声の内容に関する情報を強調するように前記マップ画像を生成する、
　請求項８に記載の情報処理装置。
　チャット参加者によって投稿されたテキストを取得する手段を具備し、
　前記マップ画像を生成する手段は、前記チャット参加者を表す投稿者アイコンと、当該チャット参加者によって投稿されたテキストを含むように前記マップ画像を生成する、
　請求項８または請求項９に記載の情報処理装置。
　前記マップ画像における前記投稿者アイコンの表示位置をユーザ指示に応じて移動する手段をさらに具備する、
　請求項１０に記載の情報処理装置。
　前記マップ画像を生成する手段は、前記音源アイコンの１つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転する、
　請求項８乃至請求項１１のいずれかに記載の情報処理装置。
　前記マップ画像を生成する手段は、同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する、
　請求項１乃至請求項１２のいずれかに記載の情報処理装置。
　前記少なくとも１つのマルチマイクデバイスは、異なる場所に設置された第１マルチマイクデバイスおよび第２マルチマイクデバイスを含み、
　前記音源の方向を示す情報を取得する手段は、前記第１マルチマイクデバイスに対する音源の方向を示す情報と前記第２マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
　前記音声の内容に関する情報を取得する手段は、前記第１マルチマイクデバイスによって集音された第１音声に関する第１テキストと、前記第２マルチマイクデバイスによって集音された第２音声に関する第２テキストとを取得し、
　前記マップ画像を生成する手段は、前記第１テキストを、当該第１テキストに対応する第１音声の音源の前記第１マルチマイクデバイスに対する方向に応じた位置に配置した第１マップ画像と、前記第２テキストを、当該第２テキストに対応する第２音声の音源の前記第２マルチマイクデバイスに対する方向に応じた位置に配置した第２マップ画像とを生成し、
　前記マップ画像を表示する手段は、前記ディスプレイデバイスの表示部に前記第１マップ画像および前記第２マップ画像を表示する、
　請求項１乃至請求項１３のいずれかに記載の情報処理装置。
　少なくとも１つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
　前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
　前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
　ディスプレイデバイスの表示部に前記マップ画像を表示するステップと
　を具備する、情報処理方法。
　コンピュータに、請求項１～請求項１４の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。