WO2023209898A1

WO2023209898A1 - 音声分析装置、音声分析方法及び音声分析プログラム

Info

Publication number: WO2023209898A1
Application number: PCT/JP2022/019170
Authority: WO
Inventors: 武志水本; 直希安良岡; 浩平柳楽
Original assignee: ハイラブル株式会社
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-11-02
Also published as: WO2023210052A1; JPWO2023210052A1

Abstract

本発明の一実施形態に係る音声分析装置１は、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部１２２と、音声を用いて、領域内の各位置における単位時間あたりの発話の長さを特定する特定部１２３と、領域内の各位置と、単位時間あたりの発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部１２５と、を有する。特定部１２３は、複数の集音装置に対する複数の音声の到来方向に基づいて、発話が行われた位置を特定する。

Description

音声分析装置、音声分析方法及び音声分析プログラム

　本発明は、音声を分析するための音声分析装置、音声分析方法及び音声分析プログラムに関する。

　特許文献１には、空間における音響を表すスペクトログラムから所定の条件を満たす音を抽出し、抽出した音が存在する方向ごとの音圧を表示するシステムが開示されている。

特開２０２１－１５２５７３号公報

　会社や学校において、人間同士のコミュニケーションが活発に行われているかどうかを分析することが求められている。人間が発する声の大きさには個人差があり、また場所や状況によって声の大きさが変わるため、分析者は音圧や音量を参照してもコミュニケーションが活発に行われているかどうかを分析することが難しい場合がある。

　本発明はこれらの点に鑑みてなされたものであり、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることを目的とする。

　本発明の第１の態様の音声分析装置は、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部と、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定する特定部と、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部と、を有する。

　前記音声取得部は、前記複数の集音装置それぞれに対する前記音声の到来方向を取得し、前記特定部は、前記複数の集音装置に対する複数の前記到来方向に基づいて、前記発話が行われた位置を特定してもよい。

　前記音声分析装置は、前記領域内において物体が位置する物体領域の設定を受け付ける受付部をさらに有し、前記特定部は、前記到来方向に沿った直線が前記物体領域と交わる場合に、前記到来方向の中で前記集音装置の位置を基準として前記物体領域よりも遠い部分を除外して、前記発話が行われた位置を特定してもよい。

　前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報を重畳した情報であってもよい。

　前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報と、前記領域に配置された一又は複数の通話端末の位置を示す情報と、を重畳した情報であり、前記音声分析装置は、前記情報端末に表示された前記マップ情報において前記一又は複数の通話端末のいずれかが選択されたことに応じて、選択された前記通話端末と前記情報端末との間で音声の授受を開始させる通話制御部をさらに有してもよい。

　前記出力制御部は、前記領域内の位置における前記活性度が所定の条件を満たしたことに応じて、前記条件に関連付けられた介入情報を前記情報端末に出力してもよい。

　前記音声分析装置は、前記情報端末から、前記条件、及び当該条件と関連付けられた前記介入情報の設定を受け付ける受付部をさらに有してもよい。

　前記特定部は、前記発話が行われた位置の時間変化を、前記発話が行われた位置の移動の軌跡として特定し、前記出力制御部は、前記移動の軌跡を含む情報を前記情報端末に表示させてもよい。

　前記出力制御部は、前記領域の少なくとも一部であるサブ領域における第１期間の前記活性度と、前記サブ領域における第２期間の前記活性度と、を関連付けて前記情報端末に表示させてもよい。

　前記特定部は、前記複数の集音装置から取得した複数の前記音声それぞれを発した一又は複数の話者を認識することによって、前記領域内の各位置における前記発話を行った人物の人数を推定し、前記音声分析装置は、前記単位時間あたりの前記発話の長さを用いて暫定活性度を算出し、前記人数に応じて前記暫定活性度を補正することによって前記活性度を決定する活性度決定部をさらに有してもよい。

　前記活性度決定部は、前記人数が複数人である場合の前記活性度を、前記人数が１人である場合の前記活性度よりも大きくしてもよい。

　前記出力制御部は、所定の時間間隔で決定された前記活性度を含む前記マップ情報を繰り返し前記情報端末に表示させてもよい。

　本発明の第２の態様の音声分析方法は、プロセッサが実行する、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、を有する。

　本発明の第３の態様の音声分析プログラムは、プロセッサに、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、を実行させる。

　本発明によれば、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができるという効果を奏する。

実施形態に係る音声分析システムの模式図である。実施形態に係る音声分析システムのブロック図である。分析対象領域、集音装置及び現地端末の関係を説明するための模式図である。音声取得部が音声の到来方向を取得する方法及び特定部が発話位置を特定する方法を説明するための模式図である。到来方向と物体領域との関係を説明するための模式図である。マップ情報及び介入情報を出力している現地端末の模式図である。比較情報を表示している外部端末の模式図である。移動情報を表示している外部端末の模式図である。実施形態に係る音声分析装置が実行する例示的な音声分析方法のフローチャートを示す図である。

［音声分析システムＳの概要］
　図１は、本実施形態に係る音声分析システムＳの模式図である。音声分析システムＳは、音声分析装置１と、集音装置２と、現地端末３と、外部端末４と、を含む。音声分析システムＳは、複数の集音装置２、複数の現地端末３及び複数の外部端末４を含んでもよい。音声分析システムＳは、その他のサーバ、端末等の機器を含んでもよい。

　音声分析装置１は、所定の分析対象領域Ｒにおいてユーザによって発せられた音声を分析し、分析結果をユーザ又は外部ユーザに提供するコンピュータである。分析対象領域Ｒは、例えば、会社や公共施設の部屋、図書館や図書室、学校や塾の教室、イベント会場、公園等の領域である。ユーザは、分析対象領域Ｒに滞在し、会話等を目的として音声を発する人間である。外部ユーザは、分析対象領域Ｒ外にいる人間であり、例えば分析者である。音声分析装置１は、集音装置２が取得した音声を分析し、分析結果を現地端末３又は外部端末４に出力する。音声分析装置１は、ローカルエリアネットワーク、インターネット等のネットワークを介して、集音装置２、現地端末３及び外部端末４に有線又は無線で接続される。

　集音装置２は、分析対象領域Ｒに配置され、ユーザによって発せられた音声を取得する装置である。集音装置２は、例えば、異なる向きに配置された複数のマイクロフォン等の集音部を含むマイクロフォンアレイを備える。マイクロフォンアレイは、例えば、地面に対する水平面において、同一円周上に等間隔で配置された複数個（例えば、８個）のマイクロフォンを含む。音声分析装置１は、マイクロフォンアレイを用いて集音した音声に基づいて複数の集音装置２それぞれへの音声の到来方向を推定することにより、発話が行われた位置を特定する。集音装置２は、マイクロフォンアレイを用いて取得した音声を音声データとして音声分析装置１へ送信する。

　また、集音装置２は、マイクロフォンアレイに代えて、単一のマイクロフォンを備えてもよい。この場合に、分析対象領域Ｒには、複数の集音装置２が所定間隔で配置される。音声分析装置１は、複数の集音装置２それぞれが取得した音声の強度を比較することにより、発話が行われた位置を特定する。

　現地端末３は、分析対象領域Ｒに設置され、情報を出力する情報端末である。現地端末３は、例えば、タブレット端末、パーソナルコンピュータ又はデジタルサイネージである。現地端末３は、例えば、液晶ディスプレイ等の表示部と、スピーカ等の音声出力部と、マイクロフォン等の集音部と、を有する。現地端末３は、音声分析装置１から受信した情報を、表示部に表示させ、又は音声出力部から出力する。現地端末３は、外部端末４との間で通話を行うための通話端末として機能してもよい。

　外部端末４は、分析に関する設定を受け付けるとともに、情報を出力する情報端末である。外部端末４は、例えば、スマートフォン、タブレット端末又はパーソナルコンピュータである。外部端末４は、例えば、液晶ディスプレイ等の表示部と、スピーカ等の音声出力部と、マイクロフォン等の集音部と、を有する。外部端末４は、音声分析装置１から受信した情報を、表示部に表示させる。

　本実施形態に係る音声分析システムＳが音声を分析する処理の概要を以下に説明する。音声分析装置１は、分析対象領域Ｒに配置された複数の集音装置２それぞれが集音した音声を取得する。音声分析装置１は、取得した音声を用いて、発話が行われた位置を特定する。音声分析装置１は、時間ごとに発話が行われた位置が分析対象領域Ｒのどこにあるかを集計することによって、分析対象領域Ｒ内の各位置における単位時間あたりの発話の長さを特定する。

　音声分析装置１は、特定した単位時間あたりの発話の長さに対応する活性度を算出する。活性度は、例えば、単位時間あたりの発話の長さが長いほど大きく、単位時間あたりの発話の長さが短いほど小さい値である。音声分析装置１は、分析対象領域Ｒ内の各位置と、活性度と、を関連付けたマップ情報を、現地端末３又は外部端末４の少なくとも一方に表示させる。

　このように、音声分析システムＳは、分析対象領域Ｒに配置された集音装置２が取得した音声に基づいて、分析対象領域Ｒ内の各位置における単位時間あたりの発話の長さを特定し、発話の長さに対応する活性度を分析対象領域Ｒ内の各位置と関連付けて出力する。これにより、音声分析システムＳは、音声の大きさではなく、分析対象領域Ｒ内の各位置における発話の長さを可視化できるため、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。

［音声分析システムＳの構成］
　図２は、本実施形態に係る音声分析システムＳのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示したもの以外のデータの流れがあってもよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

　音声分析装置１は、記憶部１１と、制御部１２と、を有する。音声分析装置１は、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。また、音声分析装置１は、コンピュータ資源の集合であるクラウドによって構成されてもよい。

　記憶部１１は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１１は、制御部１２が実行するプログラムを予め記憶している。記憶部１１は、音声分析装置１の外部に設けられてもよく、その場合にネットワークを介して制御部１２との間でデータの授受を行ってもよい。

　制御部１２は、受付部１２１と、音声取得部１２２と、特定部１２３と、活性度決定部１２４と、出力制御部１２５と、通話制御部１２６と、を有する。制御部１２は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１１に記憶されたプログラムを実行することにより、受付部１２１、音声取得部１２２、特定部１２３、活性度決定部１２４、出力制御部１２５及び通話制御部１２６として機能する。また、制御部１２の機能の少なくとも一部は、制御部１２がネットワーク経由で実行されるプログラムを実行することによって実現されてもよい。

　以下、音声分析システムＳが実行する処理について詳細に説明する。図３は、分析対象領域Ｒ、集音装置２及び現地端末３の関係を説明するための模式図である。分析対象領域Ｒには、複数の集音装置２と、一又は複数の現地端末３と、が配置されている。

　受付部１２１は、分析対象領域Ｒと、分析対象領域Ｒ内における集音装置２及び現地端末３の位置と、分析対象領域Ｒ内において壁等の物体（障害物）が位置する物体領域と、の設定を受け付ける。外部端末４は、例えば、分析対象領域Ｒと、集音装置２及び現地端末３の位置と、物体領域と、を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置１に送信する。音声分析装置１において、受付部１２１は、外部端末４から受信した情報に基づいて、分析対象領域Ｒと、集音装置２及び現地端末３の位置と、物体領域と、を関連付けた情報を記憶部１１に記憶させる。

　また、受付部１２１は、分析対象領域Ｒが含むサブ領域の設定を受け付けてもよい。サブ領域は、分析時に着目する分析対象領域Ｒの少なくとも一部である領域である。図３の例では、コーヒーマシンを含む領域であるコーヒーエリア、デスクを含む領域であるデスクエリア、ソファを含む領域であるソファエリア等がサブ領域として設定され得る。外部端末４は、例えば、分析対象領域Ｒ内のサブ領域と、サブ領域の名称と、を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置１に送信する。音声分析装置１において、受付部１２１は、外部端末４から受信した情報に基づいて、サブ領域と、サブ領域の名称と、を関連付けた情報を記憶部１１に記憶させる。

　また、受付部１２１は、介入情報を出力するか否かの判定に用いられる介入条件の設定を受け付けてもよい。介入条件は、例えば、活性度決定部１２４によって決定される、単位時間あたりの発話の長さに対応する活性度が、所定の閾値以上であることである。介入情報は、例えば、介入条件を満たしたサブ領域の名称を含むメッセージである。外部端末４は、例えば、介入条件及び介入情報を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置１に送信する。音声分析装置１において、受付部１２１は、外部端末４から受信した情報に基づいて、介入条件及び介入情報を関連付けた情報を記憶部１１に記憶させる。

　音声取得部１２２は、分析対象領域Ｒに配置された複数の集音装置２それぞれが集音した音声を取得する。集音装置２は、例えば、マイクロフォンアレイを用いて集音した音声を示す音声データを、音声分析装置１に送信する。集音装置２は、音声データを音声分析装置１に常時送信し、又は所定期間（１時間、１日等）の音声データをまとめて音声分析装置１に送信する。音声分析装置１において、音声取得部１２２は、集音装置２から受信した音声データを記憶部１１に記憶させ、音声データが示す音声を取得する。

　音声取得部１２２は、取得した音声に対して、所定のフィルタリング処理を行ってもよい。音声取得部１２２は、例えば、取得した音声から、分析対象領域Ｒに予め関連付けられた期間（会社や公共施設の業務時間等）とは異なる期間に集音された音声を除去してもよい。また、音声取得部１２２は、例えば、取得した音声から、人間が発する音声（人間の声に対応する周波数帯の音等）とは異なる音を除去してもよい。これにより、音声分析装置１は、分析に重要でない音声を除外して分析を行い、分析結果の精度を向上できる。

　音声取得部１２２は、複数の集音装置２それぞれが集音した音声の時間ごと（例えば、１０ミリ秒～１０００ミリ秒ごと）の到来方向を取得する。音声取得部１２２は、例えば、集音装置２が備えるマイクロフォンアレイが集音した複数チャネルの音声に対して既知の音源定位処理を行う。音源定位処理は、音声取得部１２２が取得した音声に含まれる音源の位置を推定する処理である。音声取得部１２２は、音源定位処理によって、集音装置２の位置を基準とした音源が存在する信頼度の分布を示す信頼度分布を取得する。信頼度は、その位置に音源が存在する尤もらしさに対応する値であり、例えば確率であってもよい。信頼度分布は、集音装置２に対する音声の到来方向を表している。

　図４（ａ）は、音声取得部１２２が音声の到来方向を取得する方法を説明するための模式図である。図４（ａ）の例は、音声取得部１２２が３つの集音装置２それぞれが集音した音声に基づいて取得した信頼度分布Ｐを表している。

　信頼度分布Ｐの縦軸及び横軸は、分析対象領域Ｒ内の座標に対応している。信頼度分布Ｐは、各位置（座標）の色が明るいほど（白色に近いほど）音源が存在する信頼度が高く、各位置の色が暗いほど（黒色に近いほど）音源が存在する信頼度が低いことを表している。

　マイクロフォンアレイでは集音装置２から音源までの距離を特定できないため、信頼度分布Ｐにおいて集音装置２を基準として直線状（放射線状）に同じ信頼度の領域が分布する。集音装置２と音源とを結ぶ直線上で音源が存在する信頼度が高くなるため、信頼度分布Ｐにおいて信頼度が所定値以上である直線状の領域が、集音装置２に対する音声の到来方向Ｄを示している。到来方向Ｄは、集音装置２の位置を含む直線に限られず、集音装置２の位置を基準とした所定の角度又は長さの幅を有する領域として表されてもよい。

　本実施形態では音声分析装置１が到来方向Ｄを推定しているが、複数の集音装置２それぞれがマイクロフォンアレイを用いて取得した音声に基づいて到来方向Ｄを推定してもよい。この場合に、音声分析装置１において、音声取得部１２２は、複数の集音装置２それぞれから、当該集音装置２が推定した到来方向Ｄを示す情報を受信する。

　特定部１２３は、複数の集音装置２に対する複数の到来方向Ｄに基づいて、時間ごと（例えば１０ミリ秒～１０００ミリ秒ごと）に、分析対象領域Ｒ内で発話が行われた位置である発話位置を特定する。図４（ｂ）は、特定部１２３が発話位置を特定する方法を説明するための模式図である。

　特定部１２３は、複数の集音装置２が集音した音声から生成した複数の信頼度分布Ｐを重ね合わせる。特定部１２３は、例えば、分析対象領域Ｒ内の各位置において複数の信頼度分布Ｐが示す信頼度の和又は積を算出することにより、複数の信頼度分布Ｐを重ね合わせる。図４（ｂ）は、図４（ａ）に例示した３つの信頼度分布Ｐを重ね合わせることによって生成した信頼度分布Ｐ１を表している。

　特定部１２３は、複数の信頼度分布Ｐを重ね合わせた信頼度分布Ｐ１を用いて、発話位置を特定する。発話位置は、分析対象領域Ｒ内の１点で表されてもよく、分析対象領域Ｒ内の領域で表されてもよい。特定部１２３は、例えば、信頼度分布Ｐ１において信頼度が所定値以上である位置又は領域を、発話位置として特定する。

　複数の信頼度分布Ｐが示す複数の到来方向Ｄが交差する位置は、複数の信頼度分布Ｐを重ね合わせた信頼度分布Ｐ１において信頼度が高い位置となる。そのため、特定部１２３は、複数の到来方向Ｄに沿った複数の直線が交差する交差位置Ｄ１を、発話位置として特定してもよい。到来方向Ｄが幅を有する領域である場合に、交差位置Ｄ１は、複数の到来方向Ｄに沿って延在する複数の領域が交差する領域であってもよい。

　このように、音声分析装置１は、複数の集音装置２に対する音声の到来方向Ｄに基づいて発話位置を特定するため、１つの集音装置２から音源までの距離を特定できない場合であっても、高い精度で発話位置を特定できる。

　特定部１２３は、受付部１２１が受け付けた分析対象領域Ｒ内において物体が位置する物体領域を考慮して、発話位置を特定してもよい。図５は、到来方向Ｄと物体領域Ｒ２との関係を説明するための模式図である。図５の例では、到来方向Ｄの途中に物体領域Ｒ２が存在している状態を表している。

　特定部１２３は、到来方向Ｄに沿った直線が物体領域Ｒ２と交わる場合に、到来方向Ｄの中で集音装置２の位置を基準として物体領域Ｒ２よりも遠い部分を除外して、発話位置を特定する。特定部１２３は、例えば、複数の到来方向Ｄのうち第１の到来方向に沿った集音装置２と物体領域Ｒ２との間の線分と、複数の到来方向Ｄのうち第２の到来方向又は第２の到来方向に沿った集音装置２と物体領域Ｒ２との間の線分と、が交差する交差位置Ｄ１を、発話位置として特定する。これにより、音声分析装置１は、壁等の障害物の先に音源があると誤認識することを抑制し、発話位置の精度を向上できる。

　特定部１２３は、発話位置を特定することに加えて、発話位置において発話を行ったユーザの人数を推定してもよい。特定部１２３は、音声取得部１２２が複数の集音装置２から取得した複数の音声それぞれに対して、到来方向Ｄの音声を強調する処理を行う。特定部１２３は、例えば、集音装置２が備えるマイクロフォンアレイに対して到来方向Ｄとは異なる方向から入力された音声を抑圧することにより、到来方向Ｄの音声を強調する。

　特定部１２３は、到来方向Ｄの音声が強調された複数の音声それぞれに対して既知の話者認識処理を行うことにより、複数の音声それぞれを発した一又は複数の話者を認識する。特定部１２３は、例えば、所定期間ごとに分割した音声を深層学習によってクラスタリングすることで、生成した一又は複数のクラスタに対応する一又は複数の話者を認識する。

　そして特定部１２３は、複数の音声それぞれを発した一又は複数の話者のうち、全ての音声に共通する一又は複数の話者を、発話位置において発話を行ったユーザとして推定する。特定部１２３は、時間ごとに、発話位置と、当該発話位置において発話を行ったユーザと、を関連付けた情報を記憶部１１に記憶させる。これにより、音声分析装置１は、発話位置とは異なる位置で発話を行った話者を除外し、発話位置において発話を行ったユーザを高い精度で推定できる。

　特定部１２３は、マイクロフォンアレイを備える複数の集音装置２が集音した音声に代えて、単一のマイクロフォンを備える複数の集音装置２が集音した音声を用いて、発話位置を特定してもよい。この場合に、分析対象領域Ｒには、複数の集音装置２が所定間隔で配置されている。ユーザが分析対象領域Ｒ内で音声を発すると、各集音装置２は、ユーザに近いほど高い強度の音声を取得し、ユーザから遠いほど低い強度の音声を取得する。

　特定部１２３は、複数の集音装置２それぞれが同時期に取得した音声の強度を比較し、取得した音声の強度が最も高い集音装置２、又は取得した音声の強度が閾値以上である複数の集音装置２の位置に基づいて、発話位置を特定する。これにより、音声分析装置１は、マイクロフォンアレイを備えない集音装置２を用いる場合であっても、発話位置を特定できる。

　特定部１２３は、特定部１２３が特定した時間ごとの発話位置に基づいて、分析対象領域Ｒ内の各位置における単位時間あたりの発話の長さを特定する。特定部１２３は、例えば、分析対象領域Ｒ内の各位置（例えば、分析対象領域Ｒを分割した矩形領域）において、単位時間（例えば、１分間）に当該位置に発話位置が存在した時間を集計する。例えばある位置に現在時刻から遡って１分間のうち３０秒間にわたって発話位置が存在した場合に、当該位置における単位時間あたりの発話の長さは３０秒である。

　活性度決定部１２４は、分析対象領域Ｒ内の各位置において、特定部１２３が特定した単位時間あたりの発話の長さに対応する活性度を決定する。活性度決定部１２４は、例えば、特定部１２３が特定した単位時間あたりの発話の長さが長いほど大きく、特定部１２３が特定した単位時間あたりの発話の長さが短いほど小さい値を、活性度として決定する。活性度決定部１２４は、例えば、単位時間あたりの発話の長さの値自体を活性度として決定してもよく、単位時間あたりの発話の長さの値を所定の規則に従って変換した値を活性度として決定してもよい。

　また、活性度決定部１２４は、発話位置において発話を行ったユーザの人数を考慮して、活性度を決定してもよい。この場合に、活性度決定部１２４は、例えば、特定部１２３が特定した単位時間あたりの発話の長さが長いほど大きく、特定部１２３が特定した単位時間あたりの発話の長さが短いほど小さい値である暫定活性度を算出する。

　活性度決定部１２４は、特定部１２３が特定した人数に応じて暫定活性度を補正することによって、活性度を算出する。活性度決定部１２４は、例えば、人数が複数人である場合の活性度を、人数が１人である場合の活性度よりも大きくするように、暫定活性度を補正する。これにより、音声分析装置１は、音声から推定した人数を活性度に反映することができる。

　出力制御部１２５は、分析対象領域Ｒ内の各位置と、活性度決定部１２４が決定した活性度と、を関連付けたマップ情報を、現地端末３又は外部端末４の少なくとも一方に表示させる。出力制御部１２５は、例えば、分析対象領域Ｒを表す地図上に、分析対象領域Ｒ内の各位置の活性度に対応する情報（色、模様等）を重畳したヒートマップを、マップ情報として生成する。また、出力制御部１２５は、分析対象領域Ｒ内の各位置の活性度に加えて、分析対象領域Ｒに配置された複数の集音装置２それぞれの位置を示すマップ情報を生成してもよい。出力制御部１２５は、生成したマップ情報を、現地端末３又は外部端末４の少なくとも一方に送信する。

　出力制御部１２５は、活性度決定部１２４が所定の時間間隔で決定した活性度を示すマップ情報を、現地端末３又は外部端末４の少なくとも一方に繰り返し表示させることが望ましい。これにより、音声分析システムＳは、分析対象領域Ｒにおける最新のコミュニケーションの状況を、ユーザ又は外部ユーザに通知することができる。

　なお、活性度が大きい状況を肯定的な要素として捉えるか、若しくは、否定的な要素として捉えるか、又は、活性度が小さい状況を肯定的な要素として捉えるか、若しくは、否定的な要素として捉えるかは、分析対象領域Ｒの種類による。例えば、静かな方が望ましい分析対象領域Ｒ（図書館や図書室の場合や、学校や塾の教室で授業中やテスト中のように生徒が静かにしている方が望ましい場合など）では、活性度が大きい状況を否定的な要素とし、又は、活性度が小さい状況を肯定的な要素として、捉えてもよい。

　また、出力制御部１２５は、活性度決定部１２４が決定した活性度が所定の介入条件を満たしたことに応じて、当該介入条件に関連付けられた介入情報を、現地端末３又は外部端末４の少なくとも一方から出力させてもよい。出力制御部１２５は、例えば、受付部１２１が受け付けた介入条件及び介入情報を記憶部１１から取得する。出力制御部１２５は、分析対象領域Ｒ内の各位置における活性度が、介入条件を満たすか否か（例えば、介入条件が示す閾値以上か否か）を判定する。

　出力制御部１２５は、分析対象領域Ｒ内のいずれかの位置における活性度が介入条件を満たしたことに応じて、当該介入条件に関連付けられた介入情報を生成する。出力制御部１２５は、例えば、活性度が介入条件を満たした位置を含むサブ領域の名称を含むメッセージ（「コーヒーエリアが盛り上がっています」、「図書室では静かにしてください」等）を介入情報として生成する。この場合、活性度が大きい場合の介入情報として、肯定的な内容の介入情報（例えば、コミュニケーションを促進するための情報）を生成するか、否定的な内容の介入情報（例えば、コミュニケーションを抑制するための情報）を生成するかは、分析対象領域Ｒの種類により定めればよい。上述したように、例えば、静かな方が望ましい分析対象領域Ｒでは、活性度が大きい状況を否定的な要素として捉え、否定的な内容の介入情報を生成してもよい。

　また、介入条件としては、活性度が所定の閾値以上になった場合に限らず、これに代えて又はこれとともに、活性度が所定の閾値以下になった場合を用いることも可能である。この場合も、活性度が小さい場合の介入情報として、肯定的な内容の介入情報（例えば、静かにできていることをほめる情報）を生成するか、否定的な内容の介入情報（例えば、静かにできていないことに注意を促す情報）を生成するかは、分析対象領域Ｒの種類により定めることができる。そして、出力制御部１２５は、生成した介入情報を、現地端末３又は外部端末４の少なくとも一方に送信する。

　出力制御部１２５は、全ての現地端末３から、介入情報を出力させてもよい。また、出力制御部１２５は、複数の現地端末３のうち、介入条件を満たした位置を含むサブ領域内に配置された現地端末３のみから、介入情報を出力させてもよい。これにより、音声分析システムＳは、活性度が介入条件を満たした位置の周辺にいるユーザに向けて介入情報を通知することができる。

　図６（ａ）は、マップ情報及び介入情報を表示している現地端末３の模式図である。現地端末３は、音声分析装置１から受信したマップ情報及び介入情報を表示部上に表示する。図６（ａ）の例では、現地端末３は、マップ情報であるヒートマップＨと、介入情報を表すメッセージＭと、を表示部上に表示している。外部端末４は、同様にヒートマップＨ及びメッセージＭを表示部上に表示してもよい。

　図６（ｂ）は、介入情報を音声により出力している現地端末３の模式図である。現地端末３は、音声分析装置１から受信した介入情報を表示す音声Ｖを、音声出力部から出力している。音声Ｖは、音声分析装置の出力制御部１２５によって生成されてもよく、現地端末３によって生成されてもよい。

　このように、音声分析システムＳは、分析対象領域Ｒ内の各位置における発話の長さをマップ情報として可視化することにより、分析対象領域Ｒ内で音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。また、音声分析システムＳは、活性度が所定条件を満たしたことに応じて介入情報を出力することにより、コミュニケーションを促進又は抑制するように、分析対象領域Ｒ内のコミュニケーションを調整することができる。

　出力制御部１２５は、分析対象領域Ｒ内にいる人物に応じて、介入情報の内容を変更してもよい。この場合に、介入情報は、例えば、人物又は人物の属性（年齢、性別、服装等）に予め関連付けられている。出力制御部１２５は、例えば、現地端末３が備えるカメラによって取得された現地端末３周辺の撮像画像に対して既知の人物認識処理を行うことにより、分析対象領域Ｒ内にいる人物を認識する。出力制御部１２５は、分析対象領域Ｒのどこかにいる人物を認識してもよく、特定のサブ領域にいる人物のみを認識してもよい。そして出力制御部１２５は、介入条件が満たされたことに応じて、認識した人物又は人物の属性に関連付けられた介入情報を、現地端末３又は外部端末４の少なくとも一方から出力させる。これにより、音声分析システムＳは、分析対象領域Ｒ内にいる人物に合った介入情報を出力することができる。

　出力制御部１２５は、分析対象領域Ｒ内において異なる期間の活性度を比較するための比較情報を、外部端末４に表示させてもよい。この場合に、受付部１２１は、外部端末４から、比較対象とするサブ領域の指定を受け付ける。また、受付部１２１は、外部端末４から、比較対象とする期間の指定を受け付けてもよい。出力制御部１２５は、指定されたサブ領域における第１期間の活性度と、当該サブ領域における第２期間の活性度と、を関連付けた比較情報を生成する。出力制御部１２５は、生成した比較情報を、現地端末３又は外部端末４の少なくとも一方に送信する。

　図７（ａ）、図７（ｂ）は、比較情報を表示している外部端末４の模式図である。外部端末４は、音声分析装置１から受信した比較情報を表示する。図７（ａ）の例では、外部端末４は、第１期間及び第２期間それぞれのヒートマップＨと、指定されたサブ領域における第１期間及び第２期間の活性度の比較結果を表すメッセージＭと、を比較情報として表示している。ヒートマップＨにおいて、分析対象領域Ｒ全体の中で、指定されたサブ領域が強調表示されている。メッセージＭは、例えば、サブ領域における第１期間及び第２期間の間の活性度の増減の量又は割合を表すメッセージである。

　図７（ｂ）の例では、外部端末４は、指定されたサブ領域又は分析対象領域Ｒ全体におけるヒートマップＨ１と、指定されたサブ領域又は分析対象領域Ｒ全体における複数期間の活性度の比較結果を表すメッセージＭと、を比較情報として表示している。

　ヒートマップＨ１は、図６（ａ）、図７（ａ）に例示した地図上で活性度を表すヒートマップＨとは異なり、時間帯ごとに、サブ領域又は分析対象領域Ｒ全体の活性度に対応する情報（色、模様等）を表したヒートマップである。そのため、ヒートマップＨ１は、同じ領域における複数の時間帯の間の活性度の違いを可視化している。メッセージＭは、例えば、サブ領域又は分析対象領域Ｒ全体において活性度が大きい又は小さい時間帯を表すメッセージである。

　このように、音声分析システムＳは、異なる期間の活性度を関連付けて可視化することにより、活性度の増減や、時間帯ごとの活性度の傾向を分析しやすくすることができる。

　出力制御部１２５は、指定された位置における過去の音声を外部端末４から出力させてもよい。この場合に、受付部１２１は、マップ情報又は比較情報を表示している外部端末４において、分析対象領域Ｒ内の位置及び過去の期間の指定を受け付ける。出力制御部１２５は、音声取得部１２２が取得した音声のうち、指定された位置及び期間の音声を記憶部１１から取得し、外部端末４の音声出力部から出力させる。これにより、音声分析システムＳは、活性度と実際の音声内容との関係を分析しやすくすることができる。

　出力制御部１２５は、発話位置の移動の軌跡を含む移動情報を、現地端末３又は外部端末４の少なくとも一方に表示させてもよい。この場合に、特定部１２３は、例えば、特定した時間ごとの発話位置の時間変化を、発話位置の移動の軌跡として特定する。特定部１２３は、上述の話者認識処理によって生成した、発話位置と、当該発話位置において発話を行ったユーザと、を時間ごとに関連付けた情報を、記憶部１１から取得する。そして特定部１２３は、取得した情報に基づいて、特定のユーザ（話者）に対応する発話位置の移動の軌跡を特定する。出力制御部１２５は、特定部１２３が特定した移動の軌跡を含む移動情報を、現地端末３又は外部端末４の少なくとも一方に送信する。

　図８は、移動情報を表示している外部端末４の模式図である。外部端末４は、音声分析装置１から受信した移動情報を表示部上に表示する。図８の例では、外部端末４は、移動情報が示す移動の軌跡Ｔを表示部上に表示している。現地端末３は、同様に移動の軌跡Ｔを表示部上に表示してもよい。これにより、音声分析システムＳは、話者が分析対象領域Ｒ内でどのように移動してコミュニケーションをとるかを分析しやすくすることができる。

　通話制御部１２６は、出力制御部１２５が外部端末４にマップ情報を表示させた後に、マップ情報上で選択された現地端末３と外部端末４との間で通話を開始させてもよい。この場合に、出力制御部１２５は、例えば。分析対象領域Ｒを表す地図上に、分析対象領域Ｒ内の各位置の活性度に対応する情報（色、模様等）と、分析対象領域Ｒに配置された一又は複数の現地端末３の位置を示す情報（アイコン等）と、を重畳したヒートマップを、マップ情報として外部端末４に表示させる。

　受付部１２１は、外部端末４に表示されたマップ情報において、一又は複数の現地端末３のうち、通話先とするいずれかの現地端末３の選択を受け付ける。外部ユーザは、例えば、分析対象領域Ｒ外から分析対象領域Ｒにおけるコミュニケーションを支援するために、マップ情報において活性度が小さい場所に配置された現地端末３を選択する。通話制御部１２６は、一又は複数の現地端末３のいずれかが選択されたことに応じて、選択された現地端末３と外部端末４との間で音声の授受を開始させる。現地端末３は、外部端末４との間で通話を行うための通話端末として機能し、外部端末４から受信した音声をスピーカ等の音声出力部から出力するとともに、現地端末３のマイクロフォン等の集音部に入力された音声を外部端末４に送信する。通話制御部１２６は、選択された現地端末３と外部端末４との間で双方向に音声を授受させてもよく、外部端末４から現地端末３へ一方向に音声を出力させてもよい。

　これにより、音声分析システムＳは、現地端末３との通話を希望する外部ユーザが、活性度に基づいて通話先の現地端末３を選択しやすくすることができる。外部ユーザは、外部から分析対象領域Ｒ内の現地端末３に音声によって介入することにより、分析対象領域Ｒにおけるコミュニケーションの活発化を支援することができる。

［音声分析方法のフローチャート］
　図９は、本実施形態に係る音声分析装置１が実行する例示的な音声分析方法のフローチャートを示す図である。受付部１２１は、外部端末４から、分析対象領域Ｒと、分析対象領域Ｒ内における集音装置２及び現地端末３の位置と、分析対象領域Ｒ内において壁等の物体が位置する物体領域と、の設定を受け付ける（Ｓ１１）。

　音声取得部１２２は、分析対象領域Ｒに配置された複数の集音装置２それぞれが集音した音声を取得する（Ｓ１２）。音声取得部１２２は、複数の集音装置２それぞれが集音した音声の時間ごとの到来方向Ｄを取得する（Ｓ１３）。到来方向Ｄは、音声分析装置１によって推定されてもよく、複数の集音装置２それぞれによって推定されてもよい。

　特定部１２３は、複数の集音装置２に対する複数の到来方向Ｄに基づいて、時間ごとに、分析対象領域Ｒ内で発話が行われた位置である発話位置を特定する（Ｓ１４）。ここで特定部１２３は、受付部１２１が受け付けた分析対象領域Ｒ内において物体が位置する物体領域を考慮して、発話位置を特定してもよい。

　特定部１２３は、特定部１２３が特定した時間ごとの発話位置に基づいて、分析対象領域Ｒ内の各位置における単位時間あたりの発話の長さを特定する（Ｓ１５）。活性度決定部１２４は、分析対象領域Ｒ内の各位置において、特定部１２３が特定した単位時間あたりの発話の長さに対応する活性度を決定する（Ｓ１６）。活性度は、例えば、特定部１２３が特定した単位時間あたりの発話の長さが長いほど大きく、特定部１２３が特定した単位時間あたりの発話の長さが短いほど小さい値である。

　出力制御部１２５は、分析対象領域Ｒ内の各位置と、活性度決定部１２４が決定した活性度と、を関連付けたマップ情報を、現地端末３又は外部端末４の少なくとも一方に出力させる（Ｓ１７）。また、出力制御部１２５は、分析対象領域Ｒ内において異なる期間の活性度を比較するための比較情報を、外部端末４に表示させてもよい。

　出力制御部１２５は、活性度決定部１２４が決定した活性度が所定の介入条件を満たした場合に（Ｓ１８のＹＥＳ）、当該介入条件に関連付けられた介入情報を、現地端末３又は外部端末４の少なくとも一方から出力させる（Ｓ１９）。音声分析装置１は、活性度決定部１２４が決定した活性度が所定の介入条件を満たさない場合に（Ｓ１８のＮＯ）、処理を終了する。

［本実施形態の効果］
　本実施形態に係る音声分析システムＳは、分析対象領域Ｒに配置された集音装置２が取得した音声に基づいて、分析対象領域Ｒ内の各位置における単位時間あたりの発話の長さを特定し、発話の長さに対応する活性度を分析対象領域Ｒ内の各位置と関連付けて出力する。これにより、音声分析システムＳは、音声の大きさではなく、分析対象領域Ｒ内の各位置における発話の長さを可視化できるため、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。

　また、音声分析システムＳは、活性度が所定条件を満たしたことに応じて介入情報を出力することにより、コミュニケーションを促進又は抑制するように、分析対象領域Ｒ内のコミュニケーションを調整することができる。また、音声分析システムＳは、異なる期間の活性度を関連付けて可視化することにより、活性度の増減や、時間帯ごとの活性度の傾向を分析しやすくすることができる。

［変形例］
　上述の実施形態では、音声分析システムＳが会社や公共施設等の閉鎖空間において人間によって発せられた音声を分析する例を説明したが、音声分析システムＳは、公園等の開放空間において人間に限らない猿や鳥等の動物によって発せられた音声を分析してもよい。

　この場合に、音声分析装置１において、受付部１２１は、開放空間を分析対象領域Ｒとする設定を受け付ける。音声取得部１２２は、開放空間である分析対象領域Ｒに配置された複数の集音装置２それぞれが集音した、動物によって発せられた音声を取得する。そして音声分析装置１は、上述の実施形態と同様に各位置の発話の長さを特定し、発話の長さに対応する活性度に対応する情報を出力する。

　このように、音声分析システムＳは、開放空間における、人間に限らない動物のコミュニケーションが活発に行われているかどうかも分析しやすくすることができる。

　以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

　音声分析装置１のプロセッサは、図９に示す音声分析方法に含まれる各ステップ（工程）を実行する。すなわち、音声分析装置１のプロセッサは、図９に示す音声分析方法を実行するためのプログラムを実行することによって図９に示す音声分析方法を実行する。図９に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ　音声分析システム
１　音声分析装置
１１　記憶部
１２　制御部
１２１　受付部
１２２　音声取得部
１２３　特定部
１２４　活性度決定部
１２５　出力制御部
１２６　通話制御部
２　集音装置
３　現地端末
４　外部端末

Claims

　所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部と、
　前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定する特定部と、
　前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部と、
　を有する、音声分析装置。
　前記音声取得部は、前記複数の集音装置それぞれに対する前記音声の到来方向を取得し、
　前記特定部は、前記複数の集音装置に対する複数の前記到来方向に基づいて、前記発話が行われた位置を特定する、
　請求項１に記載の音声分析装置。
　前記領域内において物体が位置する物体領域の設定を受け付ける受付部をさらに有し、
　前記特定部は、前記到来方向に沿った直線が前記物体領域と交わる場合に、前記到来方向の中で前記集音装置の位置を基準として前記物体領域よりも遠い部分を除外して、前記発話が行われた位置を特定する、
　請求項２に記載の音声分析装置。
　前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報を重畳した情報である、
　請求項１から３のいずれか一項に記載の音声分析装置。
　前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報と、前記領域に配置された一又は複数の通話端末の位置を示す情報と、を重畳した情報であり、
　前記情報端末に表示された前記マップ情報において前記一又は複数の通話端末のいずれかが選択されたことに応じて、選択された前記通話端末と前記情報端末との間で音声の授受を開始させる通話制御部をさらに有する、
　請求項４に記載の音声分析装置。
　前記出力制御部は、前記領域内の位置における前記活性度が所定の条件を満たしたことに応じて、前記条件に関連付けられた介入情報を前記情報端末に出力する、
　請求項１又は２に記載の音声分析装置。
　前記情報端末から、前記条件、及び当該条件と関連付けられた前記介入情報の設定を受け付ける受付部をさらに有する、
　請求項６に記載の音声分析装置。
　前記特定部は、前記発話が行われた位置の時間変化を、前記発話が行われた位置の移動の軌跡として特定し、
　前記出力制御部は、前記移動の軌跡を含む情報を前記情報端末に表示させる、
　請求項１から３のいずれか一項に記載の音声分析装置。
　前記出力制御部は、前記領域の少なくとも一部であるサブ領域における第１期間の前記活性度と、前記サブ領域における第２期間の前記活性度と、を関連付けて前記情報端末に表示させる、
　請求項１から３のいずれか一項に記載の音声分析装置。
　前記特定部は、前記複数の集音装置から取得した複数の前記音声それぞれを発した一又は複数の話者を認識することによって、前記領域内の各位置における前記発話を行った人物の人数を推定し、
　前記単位時間あたりの前記発話の長さを用いて暫定活性度を算出し、前記人数に応じて前記暫定活性度を補正することによって前記活性度を決定する活性度決定部をさらに有する、
　請求項１から３のいずれか一項に記載の音声分析装置。
　前記活性度決定部は、前記人数が複数人である場合の前記活性度を、前記人数が１人である場合の前記活性度よりも大きくする、
　請求項１０に記載の音声分析装置。
　前記出力制御部は、所定の時間間隔で決定された前記活性度を含む前記マップ情報を繰り返し前記情報端末に表示させる、
　請求項１から３のいずれか一項に記載の音声分析装置。
　プロセッサが実行する、
　所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、
　前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、
　前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、
　を有する、音声分析方法。
　プロセッサに、
　所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、
　前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、
　前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、
　を実行させる、音声分析プログラム。