WO2024095550A1

WO2024095550A1 - 状況表示装置、方法及びプログラム

Info

Publication number: WO2024095550A1
Application number: PCT/JP2023/028072
Authority: WO
Inventors: 博子武藤; 隆朗福冨; 健一森本; 太一浅見; 宏佐藤; 崇史森谷; 昇宮崎
Original assignee: 日本電信電話株式会社
Priority date: 2022-11-02
Filing date: 2023-08-01
Publication date: 2024-05-10
Also published as: WO2024095384A1

Abstract

状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示する表示部５を備えている。

Description

状況表示装置、方法及びプログラム

　開示の技術は、対象者の状況を表示する技術に関する。

　対象者の発話量と時間軸の二次元グラフを表示する技術は、特許文献１の例えば図７に記載されている。特許文献１の技術は、会議における詳細な状況を把握するためのものである。特許文献１の図７は、会議の各参加者の発話量を把握するためのものである。

　複数人の発話の内容に基づいて会話のテーマやその内容を推定して表示する技術は、特許文献２に記載されている。特許文献２の技術は、特許文献１の技術と同様に会議における詳細な状況を把握するためのものである。特許文献２に具体的に記載されている技術は、複数人による会話の部分区間ごとのテーマを推定する技術である。

特開２００４－３５０１３４号公報特開２０１７－００９８２５号公報

　特許文献１も特許文献２も会議における詳細な状況を把握するためのものであることから、特許文献１や特許文献２において対象者が置かれている状況は、当然ながら「会議中」である。特許文献１及び特許文献２では、会議における詳細な状況を把握することはできるものの、発話をした対象者が置かれている状況を推定したり可視化したりすることは想定されていない。

　特許文献２には、複数人の発話の内容に基づいて会話のテーマやその内容を推定して表示する技術は記載されている。しかしながら、発話したある一人の人が置かれている状況を推定したり可視化したりすることは、特許文献２では想定されていない。

　開示の技術の目的は、ある一人の対象者が置かれている状況を分かり易く表示することである。

　開示の技術の一態様である状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す図を、部分時間区間に対応付けて表示する表示部を備えている。

　開示の技術の一態様である状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の音声から得られる人間の活動の状況を示す可視化された集計結果の近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況、状態及び行動の少なくも１つを示す視覚表現を、部分時間区間に対応付けて表示する表示部を備えている。

　開示の技術によれば、ある一人の対象者が置かれている状況を分かり易く表示することができる。

図１は、状況表示装置の機能構成の例を示す図である。図２は、状況表示方法の処理手続きの例を示す図である。図３は、状況表示装置が実現される装置の機能構成例を示す図である。図４は、モデル生成装置の機能構成の例を示す図である。図５は、表示の例を示す図である。図６は、表示の例を示す図である。図７は、コンピュータの機能構成例を示す図である。

　以下、図面を参照して開示の技術の実施形態を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　[状況表示装置及び方法]
　状況表示装置は、図１に示すように、音声認識部１、発話量取得部２、状況推定部３、表示情報生成部４及び表示部５を例えば備えている。

　状況表示方法は、状況表示装置の各構成部が、図２に示すステップＳ１からＳ５の処理を行うことにより例えば実現される。

　状況表示装置は、例えば、スマートフォン、ファブレット、タブレット、スマートウォッチ、携帯電話機、PDA、携帯ゲーム機等に構成された装置である。状況表示装置が構成される装置は、特に、図３に例示する移動装置１００のように、状況表示の対象者（以下、「対象者」という。）と共に移動可能であり、かつ、音や位置情報だけではなく対象者の生体情報も取得するセンサを備えた装置であるとよい。移動装置１００の例は、スマートウォッチである。例えば、対象者が移動装置１００を装着することで、移動装置１００は対象者と共に移動可能となる。

　移動装置１００は、図３に例示するように、音取得部１０１、位置情報取得部１０２、生体情報取得部１０３、信号処理部１０４、記憶部１０５、表示部１０６及び入力部１０７を備えている。

　音取得部１０１は、例えばマイクロホン及びAD変換器で構成される。音取得部１０１は、周囲の空間で発生した音をマイクロホンで収音し、収音された音をAD変換器でAD変換して得られたディジタルの音信号を信号処理部１０４に出力する。

　位置情報取得部１０２は、例えばGPSアンテナとGPSモジュールで構成される。位置情報取得部１０２は、移動装置１００の位置を特定する位置情報を信号処理部１０４に出力する。

　生体情報取得部１０３は、例えば生体情報センサと生体情報出力モジュールで構成される。生体情報取得部１０３は、移動装置１００を装着した対象者の生体に関する情報を特定する生体情報を信号処理部１０４に出力する。生体情報は、心拍数、血圧、体温、心電情報、発汗量等の対象者の生理学的情報又は解剖学的情報である。なお、加速度センサを生体情報取得部１０３として機能させてもよい。すなわち、生体情報には、加速度センサでもある生体情報取得部１０３で計測される加速度、その加速度から推定される対象者の活動量、などが含まれていてもよい。

　音信号、位置情報及び生体情報は、移動装置１００に備えられたセンサ（音取得部１０１、位置情報取得部１０２及び生体情報取得部１０３）で取得されたセンサ情報である。

　信号処理部１０４は、例えば中央演算処理装置（CPU: Central Processing Unit）である。信号処理部１０４は、入力された音信号、位置情報及び生体情報から、表示情報を生成して表示部１０６に出力する。

　記憶部１０５は、例えばRAM（Random Access Memory）等の主記憶装置である。

　表示部１０６は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。表示部１０６は、入力された表示情報に基づく表示を行う。表示部１０６は、後述する表示部５でもある。

　なお、図３に破線で示す表示装置２００が移動装置１００の外部に備えられていてもよい。表示装置２００は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。この場合、信号処理部１０４は表示情報を表示装置２００に出力してよい。この場合、表示装置２００は、入力された表示情報に基づく表示を行う。

　入力部１０７は、タッチパネル、マウス及びトラックボール等のポインティングデバイス等の入力装置である。ユーザが入力部１０７を用いた入力操作をすることで、後述する選択情報が生成される。生成された選択情報は、信号処理部１０４に入力される。

　なお、表示部１０６及び入力部１０７は、タッチスクリーン等の同じハードウェアであってもよい。

　なお、移動装置１００の構成要素の一部が、Bluetooth（登録商標）等の通信により接続され、移動装置１００と物理的に離れた別装置に設けられている場合であっても、その移動装置１００の構成要素の一部は移動装置１００に含まれるとする。

　音取得部１０１が出力した音信号と、位置情報取得部１０２が出力した位置情報と、生体情報取得部１０３が出力した生体情報と、を入力として信号処理部１０４、表示部１０６及び入力部１０７等に状況表示装置の各構成部（音声認識部１、発話量取得部２、状況推定部３、表示情報生成部４及び表示部５）の処理を行わせることにより、状況表示装置が移動装置１００上で実現される。

　以下、状況表示装置の各構成部の処理について説明する。

　<音声認識部１>
　音声認識部１には、対象者の状況の表示の対象となる時間区間である所定時間区間の音信号が入力される。例えば、図５のように対象者の一日の状況を表示する場合であれば、所定時間区間は、当該一日の０時から２４時までの２４時間である。

　音声認識部１は、入力された音信号に対して音声認識処理を行うことにより、音声認識結果を得る。

　得られた音声認識結果は、発話量取得部２に出力される。得られた音声認識結果は、必要に応じて、状況推定部３及び表示情報生成部４に出力されてもよい。

　発話量取得部２に出力される音声認識結果は、後述するように対象者の発話量を発話量取得部２が取得するために用いられるものであるので、対象者の音声認識結果であり、例えば、対象者の音声を文字や音素等の列で表したものである。音声認識部１に入力される音信号にはマイクロホンの周囲の空間で発生した音が含まれることから、音声認識部１に入力される音信号には対象者以外の人が発話した音声信号が含まれることもある。したがって、音声認識部１は、特定話者の音声認識結果を得る認識技術を用いて、入力された音信号に含まれる対象者の音声信号に対する音声認識結果を得る（ステップＳ１）。

　発話量取得部２が取得するのは単位時間当たりの発話量であるので、音声認識結果は、当該音声認識結果の元となる音声が発せられた時刻と対応付けられて、すなわち、音取得部１０１が音を取得した時刻と対応付けられて発話量取得部２に入力されるとよい。このためには、例えば、移動装置１００が図示しない内蔵時計を備えるか、位置情報取得部１０２のGPSモジュールが時刻を取得するようにして、音取得部１０１が出力する音信号が時刻と対応付けられるようにして、当該時刻を用いて、音声認識部１が出力した音声認識結果と時刻とを対応付けておくとよい。なお、後述する各構成部で用いる時刻についても、同様に、例えば内蔵時計やGPSモジュールから取得すればよい。

　<発話量取得部２>
　発話量取得部２には、音声認識部１が得た所定時間区間の対象者の音声認識結果が入力される。

　発話量取得部２は、所定時間区間の対象者の音声認識結果を用いて、所定時間区間における各単位時間当たりの対象者の発話量を取得する（ステップＳ２）。

　取得された各単位時間当たりの対象者の発話量は、各単位時間の代表時刻と対応付けられて、表示情報生成部４に出力される。取得された各単位時間当たりの対象者の発話量とその各単位時間の代表時刻は、必要に応じて、状況推定部３に出力されてもよい。

　単位時間の代表時刻の例は、単位時間の中央の時刻、単位時間の始端の時刻、単位時間の終端の時刻等の単位時間に含まれる所定の位置の時刻である。

　発話量の例は、単語数、特定の品詞の単語数、文字数、音素数等である。特定の品詞は、助詞、助動詞以外の、例えば名詞、動詞、形容詞、副詞等の品詞である。

　単語数、特定の品詞の単語数等を発話量とする場合には、発話量取得部２は、例えば、音声認識結果に対して形態素解析等の処理を行い、この形態素解析処理の結果を用いて、発話量の取得の処理を行う。

　単位時間は、後述する二次元グラフの表示のさせ方に応じて予め定めた時間である。

　<状況推定部３>
　状況推定部３は、対象者が置かれている状況を推定する。対象者が置かれている状況は、例えば、対象者の声、対象者の発話、対象者の位置、対象者の生体状態、対象者の周囲で発せられた音、対象者の対話相手の声、対象者の対話相手の発話などの、対象者からセンシングされた情報、および／または、対象者の周囲からセンシングされた情報、から推定できる。そこで、状況推定部３は、対象者からセンシングされた情報、および／または、対象者の周囲からセンシングされた情報、から、対象者が置かれている状況を推定する。

　例えば、対象者の声、対象者の発話、対象者の周囲で発せられた音、対象者の対話相手の声、対象者の対話相手の発話であれば、移動装置１００に備えられたセンサの１つである音取得部１０１によって取得されたセンサ情報である音信号に含まれる。したがって、状況推定部３には、移動装置１００の音取得部１０１によって取得されて状況推定装置に入力された音信号が入力されればよい。なお、音声認識部１で得られた音声認識結果及び発話量取得部２で取得された発話量は、対象者の発話の情報の一部である。したがって、図１に二点鎖線で示すように、音声認識部１で得られた音声認識結果及び発話量取得部２で取得された発話量の少なくとも１つが、状況推定部３に入力されてもよい。状況推定部３においては、音声認識部１で得られた音声認識結果及び発話量取得部２で取得された発話量も、他のセンサ情報と同様に、センサ情報として扱われる。

　例えば、対象者の位置は、対象者と共に移動する移動装置１００の位置である。したがって、状況推定部３には、移動装置１００の位置情報取得部１０２によって取得されて状況推定装置に入力された位置情報が入力されればよい。

　例えば、対象者の生体状態は、対象者が装着した移動装置１００で取得可能である。したがって、状況推定部３には、移動装置１００の生体情報取得部１０３によって取得されて状況推定装置に入力された生体情報が入力されればよい。

　すなわち、状況推定部３には、対象者の発話量の取得元である音信号を取得した移動装置１００に備えられた少なくとも１つのセンサによって取得されて状況推定装置に入力されたセンサ情報が入力されればよい。

　状況推定部３は、対象者からセンシングされた情報、および／または、対象者の周囲からセンシングされた情報、具体的には、対象者が装着した移動装置１００で取得されたセンサ情報、を用いて、所定時間区間において対象者が同じ状況にある時間区間である部分時間区間のそれぞれについての対象者の状況を表す情報を取得する（ステップＳ３）。

　各部分時間区間における対象者の状況を表す情報は、各部分時間区間の代表時刻と対応付けられて、表示情報生成部４に出力される。

　対象者の状況を表す情報は、対象者の状況を示す絵である。ただし、対象者の状況を表す情報には、絵以外の情報も含まれていてもよい。すなわち、対象者の状況を表す情報には、対象者の状況を示す絵に加えて、対象者の状況を示す記号、対象者の状況を示す数字、対象者の状況を示す文字列、対象者の状況を示す識別子なども含まれていてもよい。

　部分時間区間の代表時刻の例は、部分時間区間の中央の時刻、部分時間区間の始端の時刻、部分時間区間の終端の時刻等の部分時間区間に含まれる所定の位置の時刻である。

　例えば、状況推定部３は、所定時間区間について、状況の推定の対象とする単位時間区間（以下、「推定単位時間区間」という。）それぞれの対象者の状況を表す情報を推定し（ステップＳ３－１）、対象者の状況を表す情報が同じ連続する時間区間を対象者が同じ状況にある時間区間である部分時間区間として特定し（ステップＳ３－２）、各部分時間区間における対象者の状況を表す情報を取得し（ステップＳ３－３）、各部分時間区間の代表時刻を取得する（ステップＳ３－４）ようにすればよい。

　例えば、状況推定部３は、ステップＳ３－１の処理として、状況推定部３に備えられた推定モデル記憶部３１から読み込んだ推定モデルを用いて、センサ情報を入力として、人の状況を表す情報の予め定められた複数個の候補の中から最も可能性が高い候補を対象者の状況を表す情報として推定する処理を行う。

　推定モデル記憶部３１に記憶された推定モデルは、状況表示装置及び方法による処理を行う前に例えば図４に示すモデル学習装置３００により予め学習された推定モデルである。

　モデル学習装置３００は図４に示すように学習部３０１を備えている。学習部３０１には学習データが入力される。Jを正の整数とし、j=1,…,Jとし、学習時の対象者（以下、「学習対象者」という。）からセンシングされた情報、および／または、学習対象者の周囲からセンシングされた情報、具体的には、学習対象者が装着した移動装置１００で取得されたセンサ情報A(j)と、センサ情報A(j)に対応する学習対象者の状況を表す情報B(j)との組(A(j), B(j))をS(j)として、学習データはS(1), …, S(J)である。センサ情報は、例えば、学習対象者が装着した移動装置１００の音取得部１０１で取得された音信号、学習対象者が装着した移動装置１００の位置情報取得部１０２で取得された位置情報、学習対象者が装着した移動装置１００の生体情報取得部１０３で取得された学習対象者の生体情報、の少なくとも何れかである。

　学習部３０１は、入力された学習データを用いて、入力されたセンサ情報に対応する人の状況として最も適切な状況を表す情報を、入力されたセンサ情報に対応する人の状況を表す情報として得る推定モデルを学習する。学習された推定モデルは、図１に破線で示す推定モデル記憶部３１に記憶される。推定モデルの学習には、周知の学習技術を用いればよい。学習データの量は、推定モデルを学習するために十分な量とすればよい。なお、多くの人を学習対象者とした学習データで推定モデルを学習すれば、様々な対象者に対してある程度の精度での推定が可能となり、特定の人を学習対象者とした学習データで推定モデルを学習すれば、当該特定の人を対象者としたときの推定精度を非常に高くすることができることから、学習データは状況表示装置及び方法の想定される利用状況に応じて適宜用意すればよい。

　なお、学習段階で用いるセンサ情報に含まれる情報の種類と、推定段階で用いるセンサ情報に含まれる情報の種類とは、同じであることが好ましい。例えば、学習部３０１が、学習対象者が装着したセンサで取得された音信号、学習対象者の位置情報、学習対象者の生体情報のすべてから成る学習対象者に関するセンサ情報を用いて学習を行った場合には、状況推定部３は、推定の対象者が装着したセンサで取得された音信号、推定の対象者の位置情報、推定の対象者の生体情報のすべてから成る推定の対象者にセンサ情報を用いる。

　例えば、センサ情報に含まれる音信号から取得される対象者の発話量が所定の発話量よりも小さく、対象者が就寝中である傾向をセンサ情報に含まれる生体情報が示し、対象者が自宅に長時間いることをセンサ情報に含まれる位置情報が示している場合であれば、対象者は睡眠中である可能性が高い。

　また、例えば、対象者が運動中である傾向をセンサ情報に含まれる生体情報が示し、スポーツジム等の対象者が普段運動を行う所定の場所に対象者がいることをセンサ情報に含まれる位置情報が示し、インストラクター等の対象者が運動時に関わりのある所定の人と運動に関する内容を対象者が話しているとセンサ情報に含まれる音信号から判断することができる場合には、対象者の状況は運動中である可能性が高い。対象者が運動中である傾向を示しているかどうかは、例えば、センサ情報に含まれる生体情報のうちの加速度、心拍数、発汗量等から推定できる。

　また、例えば、対象者が会議中に関わりのある所定の人と対話をしており会議で話し合われる所定の内容を対象者が話しているとセンサ情報に含まれる音信号から判断することができ、対象者が会社にいることをセンサ情報に含まれる音信号位置情報が示している場合には、対象者の状況は会議中である可能性が高い。

　また、例えば、センサ情報に含まれる音信号の大きさが所定の大きさ以上であり。対象者が屋外で移動していることをセンサ情報に含まれる位置情報が示している場合には、対象者の状況は移動中である可能性が高い。

　また、例えば、食事を行う所定の場所に対象者が一定時間いることをセンサ情報に含まれる位置情報が示していて、センサ情報に含まれる発話量が対象者が食事中である傾向を示している場合には、対象者の状況は食事中である可能性が高い。対象者が食事中である傾向を示しているかどうかは、例えば、センサ情報に含まれる音信号から得られる発話内容、発話相手などから推定できる。

　また、センサ情報に含まれる音信号から、対象者が発話しているものの対象者に対話相手がいない場合には、対象者の状況は独り言中である可能性が高い。

　以上の例からも分かる通り、状況推定部３は、学習対象者が装着したセンサで取得された音信号、学習対象者の位置情報、学習対象者の生体情報のすべてから成る学習対象者に関するセンサ情報と学習対象者の状況との組を学習データとして用いて学習した推定モデルを用いれば、状況の推定の対象者が装着したセンサで取得された音信号、対象者の位置情報、対象者の生体情報のすべてから成る対象者に関するセンサ情報入力として、予め定められた人の状況を表す情報の候補の中から最も可能性が高い候補を対象者の状況を表す情報として推定することができる。

　なお、上述した各状況の具体例からも分かる通り、対象者が移動装置１００を装着している場合であれば、発話量取得部２における対象者の発話量の取得元となる音信号が取得される音取得部１０１が備えられた移動装置１００に備えられた別のセンサで取得されたセンサ情報を用いれば、具体的には、移動装置１００に備えられた位置情報取得部１０２や生体情報取得部１０３で取得されたセンサ情報を用いれば、状況推定部３では対象者の状況を高精度に推定できる。したがって、状況表示装置及び方法においては、対象者に装着された移動装置１００に備えられたマイクロホンで取得された音を音声認識して対象者の発話量を得るとともに、対象者に装着された移動装置１００に備えられたマイクロホン以外の１個以上のセンサで取得したセンサ情報から、対象者の状況を得るとよい。

　また、上述した各状況の具体例からも分かる通り、対象者の位置情報を用いることができれば、状況推定部３では対象者の状況を高精度に推定できる。したがって、対象者の状況に用いるセンサには、対象者に装着された移動装置１００に備えられた位置情報を取得するセンサが含まれているとよい。

　状況推定部３は、ステップＳ３－１の処理とステップＳ３－２の処理の間で、所定時間区間に含まれる推定単位時間区間それぞれについて、近接する推定単位時間区間のステップＳ３－１で得られた対象者の状況を表す情報を用いて、ステップＳ３－１で得られた対象者の状況を表す情報を補正する処理を行ってもよい（ステップＳ３－１．１）。例えば、状況推定部３は、所定時間区間に含まれる推定単位時間区間それぞれを「処理対象区間」とし、対象者の状況を表す情報を便宜的に「対象者状況情報」とし、Kを正の整数とし、Lを正の整数とし、Mを正の整数として、Nを正の整数として、下記のステップＳ３－１．１Ａの処理またはステップＳ３－１．１Ｂの処理をステップＳ３－１．１の処理として行えばよい。

　ステップＳ３－１．１Ａ：　状況推定部３は、各処理対象区間について、処理対象区間のステップＳ３－１で得られた対象者状況情報と、処理対象区間の直前の連続するK個の推定単位時間区間のステップＳ３－１で得られた対象者状況情報と、処理対象区間の直後の連続するL個の推定単位時間区間のステップＳ３－１で得られた対象者状況情報と、の中で最も頻度が高い対象者状況情報を、処理対象区間の対象者状況情報とする。なお、KとLは同じ値とするのがよいが、ステップＳ３－１．１Ａの処理が所定時間区間内の情報だけで完結するように、処理対象区間が所定時間区間の始端付近である場合にはKをLより小さい値にしたり、処理対象区間が所定時間区間の終端付近である場合にはLをKより小さい値にしたり、処理対象区間が所定時間区間の始端である場合には例外的にKを0にしたり、処理対象区間が所定時間区間の終端である場合には例外的にLを0にしたりしてもよい。

　ステップＳ３－１．１Ｂ：　状況推定部３は、各処理対象区間について、処理対象区間の直前の連続するM個の推定単位時間区間のステップＳ３－１で得られた対象者状況情報と、処理対象区間の直後の連続するN個の推定単位時間区間のステップＳ３－１で得られた対象者状況情報と、のすべてが同じである場合には、その同じである対象状況情報（すなわち、処理対象区間の直前の連続するM個の推定単位時間区間と処理対象区間の直後の連続するN個の推定単位時間区間のステップＳ３－１で得られた対象者状況情報）を、処理対象区間の対象者状況情報とする。なお、MとNは同じ値とするのがよいが、ステップＳ３－１．１Ｂの処理が所定時間区間内の情報だけで完結するように、処理対象区間が所定時間区間の始端付近である場合にはMをNより小さい値にしたり、処理対象区間が所定時間区間の終端付近である場合にはNをMより小さい値にしたり、処理対象区間が所定時間区間の始端である場合には例外的にMを0にしたり、処理対象区間が所定時間区間の終端である場合には例外的にNを0にしたりしてもよい。

　状況推定部３がステップＳ３－１の処理として推定モデルを用いて対象者状況情報を推定する処理を行えば、各推定単位時間区間の対象者状況情報を精度良く推定することができるものの、低い頻度では推定誤りが発生する可能性がある。この推定誤りを、人の状況が短時間で様々な状況に変わることが少ないことを利用して補正するのがステップＳ３－１．１の処理である。

　<表示情報生成部４>
　表示情報生成部４には、発話量取得部２で取得された各単位時間当たりの対象者の発話量とその各単位時間の代表時刻とが入力される。また、表示情報生成部４には、状況推定部３で推定された各部分時間区間における対象者の状況を表す情報とその各部分時間区間の代表時刻とが入力される。

　表示情報生成部４は、各単位時間当たりの対象者の発話量とその各単位時間の代表時刻と、各部分時間区間における対象者の状況についての情報とその各部分時間区間の代表時刻とを用いて、表示部５に表示する情報である表示情報を生成する（ステップＳ４）。

　生成された表示情報は、表示部５に出力される。後述するように、表示部５は、表示情報に基づく表示を行う。

　［表示情報生成部４の第１例］
　表示情報生成部４は、各単位時間当たりの対象者の発話量とその各単位時間の代表時刻とを用いて、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフを生成し、各部分時間区間における対象者の状況を表す情報とその各部分時間区間の代表時刻とを用いて、生成した二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示部５に表示するための画像である表示情報を生成する。

　以下、図５を参照して、表示情報生成部４により生成される表示情報の第１例に基づいて表示される表示部５の画面の例を説明する。

　図５の例では、表示部５の画面の上部に、所定時間区間内の各単位時間当たりの対象者の発話量を示す二次元グラフGが示されている。図５の例では、所定時間区間は、０時から２４時までの２４時間である。二次元グラフGの横軸は時間軸であり、二次元グラフGの縦軸は各単位時間当たりの対象者の発話量を示す。また、図５の例では、二次元グラフGの下に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵が示されている。ただし、対象者の状況を示す絵の位置は、二次元グラフGの下にあるのは必須ではない。

　すなわち、表示部５に表示するための画像である表示情報においては、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフは、横軸が時間軸であり、縦軸が発話量の軸であり、各単位時間当たりの対象者の発話量を直線または曲線で繋いだグラフである。そして、表示部５に表示するための画像である表示情報においては、対象者の状況を示す絵は、二次元グラフの時間軸の上または下、または、二次元グラフの発話量を表す直線または曲線の上または下の、二次元グラフの時間軸の代表時刻の位置に、配置されている。

　このように、状況表示の対象となる対象者の発話量を示す二次元グラフの近傍に、各部分時間区間のそれぞれにおける対象者の状況を示す絵を表示することで、状況表示の対象となるある一人の対象者が置かれている状況を分かり易く表示することができる。

　［表示情報生成部４の第２例］
　表示情報生成部４は、第１例と同様の表示情報を生成するものの、表示部５の画面の表示領域が小さいほど少ない個数の絵を表示する表示情報を生成してもよい。すなわち、表示情報生成部４は、入力された対象者の状況を示す絵のすべてを表示するのではなく、入力された対象者の状況を示す絵のうちの一部の絵を選択して表示情報に含めるようにしてもよい。例えば、表示情報生成部４は、入力された対象者の状況を示す絵のうちの、表示部５の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して表示情報に含めるようにしてもよいし、表示部５の画面の表示領域の大きさに対応させて予め定めた選択基準によって選択することによって表示情報に含めるようにしてもよい。

　例えば、表示情報生成部４は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間が長い絵を優先的に表示情報に含めるようにしてもよい。具体的には、表示情報生成部４は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間が長いものから順に、表示部５の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して、選択された絵を表示情報に含めるようにしてもよい。

　また、例えば、表示情報生成部４は、入力された対象者の状況を示す絵のうちの、発話量が多い時間区間を優先的に表示情報に含めるようにしてもよい。具体的には、表示情報生成部４は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間における発話量が多いものから順に、表示部５の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して、選択された絵を表示情報に含めるようにしてもよい。

　［表示情報生成部４の第３例］
　図５の例のように、表示部５の画面の上部に第１例または第２例の表示がされて、表示部５の画面の下部に、所定時間区間における対象者の状況の統計情報が表示されてもよい。図５の例では、＜今日のアクティビティ＞というタイトルが付された欄に、二次元グラフGに対応する所定時間区間である２４時間における対象者の状況の統計情報として、発話状況、発話場所、頻出ワード、対話相手が表示されている。

　発話状況とは、対象者の状況のことである。図５の例では、発話状況は、円グラフにより表されている。発話状況についての表示情報の例は、対象者が発話を行った各状況を表す絵や文字、各状況の時間、及び、対象者が発話を行った全状況に占める各状況の割合（例えば、会議中：８２分（４７％）、運動中：５５分（３１％）、食事中：３５分（２０％））である。なお、所定時間区間に占める対象者の状況の割合を発話状況についての表示情報としてもよい。

　発話場所とは、対象者が発話を行った場所のことである。図５の例では、発話場所は、円グラフにより表されている。発話場所についての表示情報の例は、対象者が発話を行った場所、対象者が発話を行った場所に対象者がいた時間、及び、対象者が発話を行った時間に占める対象者が発話を行った各場所の割合（例えば、会社：１２５分（５２％）、自宅：６３分（２６％）、渋谷周辺：４３分（１８％））である。なお、所定時間区間に占める対象者が発話を行った場所や対象者がいた場所の割合を発話場所についての表示情報としてもよい。

　なお、発話場所を表示する場合には、例えば、状況推定部３において、対象者の状況を表す情報とともに、対象者の発話場所も推定して、推定結果が表示情報生成部４に入力されるようにして、表示情報生成部４は入力された発話場所を用いるようにすればよい。

　頻出ワードとは、所定時間区間において対象者が使った頻度が高い単語のことである。図５の例では、頻出ワードとして、所定時間区間において対象者が使った頻度が高い上位３個の単語が表示されている。

　対話相手は、対象者と対話を行った者である。図５の例では、対話相手として、対象者が対話を行った回数が多い上位３人の者が表示されている。

　なお、頻出ワード及び対話相手は、例えば、音声認識部１が発話内容及び話者を特定する音声認識処理を行って、図１に点線で示すように、当該音声認識処理の結果が表示情報生成部４に入力されるようにして、表示情報生成部４が入力された音声認識結果から判断するようにすればよい。なお、状況表示装置が通話可能な移動装置１００である場合には、表示情報生成部４は、移動装置１００に記憶された過去の通話履歴も用いて対話相手の情報を取得してもよい。

　図５の例のように、対象者の状況の統計情報は、円グラフ等の割合を表示するグラフで示されてもよい。また、対象者の状況の統計情報は、順位を付けて示されてもよい。これにより、対象者が置かれている状況をより分かり易く表示することができる。

　［表示情報生成部４の第４例］
　対象者の状況を示す絵又は対象者の状況の統計情報が選択可能とされており、対象者の状況を表す示す絵又は対象者の状況の統計情報が選択されると、選択された絵又は統計情報に対応する対象者の状況に関する情報の表示に切り替わってもよい。

　例えば、図５の対象者の状況を示す絵（より詳細には図５の対象者の状況を示す絵の中の朝食を食べている状況を示す絵）、又は、図５の対象者の状況の統計情報（より詳細には図５の対象者の状況の統計情報の中の円グラフにおける朝食を食べている状況の部分）が選択されると、図６に例示する、選択された絵又は統計情報に対応する対象者の状況である朝食を食べている状況に関する情報の表示に切り替わる。

　図６では、朝食を食べている状況に対応する対象者の状況に関する情報として、朝食を食べている状況に対応する部分時間区間における対象者の各単位時間当たりの対象者の発話量、朝食を食べている状況における発話状況、朝食を食べている状況における頻出ワードが表示されている。

　図６の例は、朝食を食べている状況に対応する部分時間区間が６時から７時までである例であり、６時から７時までの部分時間区間における対象者の各単位時間当たりの対象者の発話量が表示されている。また、図６の例では、朝食を食べている状況における発話状況として、「朝食時の会話＠自宅」という表示がされている。なお、「朝食時の会話＠自宅」は、朝食を食べている状況における発話は自宅で行われた朝食時の会話であることを意味する。また、図６の例では、朝食を食べている状況における頻出ワードとして、朝食を食べている状況において対象者が使った頻度が高い上位３個の単語が表示されている。

　すなわち、複数個表示されている対象者の状況を示す絵が選択可能とされており、複数個の絵のうちの何れか１つが選択されると、選択された絵に対応する部分時間区間における対象者の状況と発話に関する情報を少なくとも含む表示に切り替わる。また、対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示する場合には、当該割合表示グラフに含まれる各割合の領域が選択可能とされており、複数個の領域のうちの何れか１つが選択されると、選択された領域に対応する状況における対象者の対象者の発話に関する情報を少なくとも含む表示に切り替わる。また、対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示する場合には、当該割合表示グラフに含まれる各割合の領域が選択可能とされており、複数個の領域の何れか１つが選択されると、選択された領域に対応する位置における対象者の発話に関する情報を少なくとも含む表示に切り替わる。

　対象者の状況を示す絵又は対象者の状況の統計情報をユーザが選択する選択操作をすると、入力部１０７が当該選択操作を受け付けて、当該選択操作を表す選択情報を出力する。入力部１０７が出力した選択情報は、図１に一点鎖線で示すように、表示情報生成部４に入力される。表示情報生成部４は、入力された選択情報に基づいて、選択された絵又は統計情報に対応する対象者の状況に関する情報を表示するための表示情報を新たに生成して、新たに生成された表示情報を表示部５に出力し、表示部５は、新たに生成された表示情報に基づく表示を行う。

　このように、選択された対象者の状況を示す絵又は対象者の状況の統計情報に対応するより詳細な情報を示すことで、対象者が置かれている状況がより分かり易くなる。

　［表示情報生成部４の第５例］
　状況推定部３によって推定された対象者の状況が誤っている場合には、第１例と第２例で説明した二次元グラフの近傍に表示される対象者の状況を示す絵に誤りが発生して、表示部５の表示を見たユーザが誤りに気付くことがある。表示されている対象者の状況を示す絵の誤りにユーザが気付いた場合には、ユーザが表示部５に表示された対象者の状況を示す絵を選択することにより、対象者の正しい状況を示す絵に修正可能であってもよい。この場合には、状況推定部３は、対象者の状況を示す正しい絵及び当該絵に対応する部分時間区間のセンサ情報を用いてモデル学習装置３００を動作させることで新たな推定モデルを生成して、推定モデル記憶部３１に記憶されている推定モデルを新たに生成した推定モデルに更新してもよい。このように、正しい対応関係を学習することで、更に精度高く対象者の状況を推定できるようになる。

　<表示部５>
　表示部５には、表示情報生成部４が生成した表示情報が入力される。

　表示部５は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。

　表示部５は、表示情報に基づく表示を行う。これにより、表示部５は、少なくとも、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示する（ステップＳ５）。

　表示部５による表示の例は、表示情報生成部４の処理で説明したので、ここでは重複説明を省略する。

　このように、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示することで、ある一人の対象者が置かれている状況を分かり易く表示することができる。

　[変形例]
　表示情報生成部４が生成する表示情報における「対象者の発話量」は、「対象者の音声から得られる人間の活動の状況」であってもよい。

　人間の活動の状況は、発話量を上位概念化したものである。人間の活動の状況の例は、発話量、声の大きさ、感情、抑揚の上げ下げ、速度、トーンの変化、中断されない話す時間の長さ、中断の数、言い回しである。感情は、例えば、喜び、怒り、悲しみ、驚き、信頼、期待、不安等の様々な種類の感情の度合いや、それらの感情をポジティブ又はネガティブの2種類に丸めて分類される感情の度合い等によって表される。なお、対話相手の音声が更に得られる場合には、人間の活動の状況には、対話相手の発話量、声の大きさ、感情が含まれてもよい。また、感情は、うつ兆候を示すスコアを含んでいてもよい。

　うつ兆候を示すスコアは、例えば参考文献１から３に記載された技術により求めることができる。例えば、音声認識のタスクにおける深層学習モデルの一部を転用することで、潜在的に言語的な情報に基づいたうつ兆候を示すスコアを求めることができる（例えば、参考文献３参照。）。

　〔参考文献１〕S. Alghowinem, R. Goecke, M. Wagner, J. Epps, M. Breakspear and G. Parker, "Detecting depression: A comparison between spontaneous and read speech," Proc. ICASSP 2013, pp. 7547-7551.
　〔参考文献２〕Huang, Z., Epps, J., Joachim, D., Stasak, B., Williamson, J.R., Quatieri, T.F., "Domain Adaptation for Enhancing Speech-Based Depression Detection in Natural Environmental Conditions Using Dilated CNNs, " Proc. Interspeech 2020, 4561-4565.
　〔参考文献３〕A. Harati, E. Shriberg, T. Rutowski, P. Chlebek, Y. Lu and R. Oliveira, "Speech-Based Depression Prediction Using Encoder-Weight-Only Transfer Learning and a Large Corpus," Proc. ICASSP 2021, 7273-7277.
　表示情報生成部４が生成する表示情報における「二次元グラフ」は、「可視化された集計結果」であってもよい。

　可視化された集計結果は、二次元グラフを上位概念化したものである。可視化された集計結果の例は、二次元グラフ、三次元グラフ、ランキング、割合グラフ、円グラフである。

　表示情報生成部４が生成する表示情報における「対象者の状況を示す絵」は、「対象者の状況、状態及び行動の少なくも１つを示す視覚表現」であってもよい。

　対象者の状況、状態及び行動の少なくも１つを示す視覚表現は、対象者の状況を示す絵を上位概念化したものである。視覚表現の例は、絵、イラスト、写真、画像、映像、記号、アイコンである。

　[プログラム、記録媒体など]
　上述した状況表示装置の各部の処理をコンピュータにより実現してもよく、この場合は状況表示装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図７に示すコンピュータ１０００の記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０、表示部１０６０などに動作させることにより、状況表示装置における各種の処理機能がコンピュータ上で実現される。

　上述した状況表示装置は、例えば単一のハードウェアエンティティとして、ハードウェアエンティティの外部から信号を入力可能な入力部、ハードウェアエンティティの外部に信号を出力可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、演算処理部であるCPU（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはROMなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行、処理される。その結果、CPUが所定の機能（上記、…部などと表した各構成部）を実現する。つまり、本発明の実施形態の各構成部は、処理回路(Processing Circuitry)により構成されてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（上述した各装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部１０２０に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の発話量を示す二次元グラフの近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況を示す絵を、前記部分時間区間に対応付けて表示する表示部を含む、
　状況表示装置。
　請求項１の状況表示装置であって、
　移動装置に備えられたマイクロホンで取得された音を音声認識して前記対象者の前記発話量を得るとともに、前記移動装置に備えられたマイクロホン以外の１個以上のセンサで取得したセンサ情報を少なくとも用いて、前記対象者の状況を得る、
　状況表示装置。
　請求項２の状況表示装置であって、
　前記１個以上のセンサには前記移動装置に備えられた位置情報を取得する位置情報センサが含まれ、
　前記位置情報センサで取得したセンサ情報を少なくとも用いて、前記対象者の状況を得る、
　状況表示装置。
　請求項１の状況表示装置であって、
　前記絵が選択可能とされており、前記絵の何れかが選択されると、前記選択された絵に対応する部分時間区間における前記対象者の状況と発話に関する情報の表示に切り替わる、
　状況表示装置。
　請求項１の状況表示装置であって、
　前記表示部は、前記対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示し、
　前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する状況における前記対象者の発話に関する情報の表示に切り替わる、
　状況表示装置。
　請求項１の状況表示装置であって、
　前記表示部は、前記対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示し、
　前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する位置における前記対象者の発話に関する情報の表示に切り替わる、
　状況表示装置。
　表示部が、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の発話量を示す二次元グラフの近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況を示す絵を、前記部分時間区間に対応付けて表示する表示ステップを含む、
　状況表示方法。
　状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の音声から得られる人間の活動の状況を示す可視化された集計結果の近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況、状態及び行動の少なくも１つを示す視覚表現を、前記部分時間区間に対応付けて表示する表示部を含む、
　状況表示装置。
　請求項８の状況表示装置であって、
　前記表示部は、前記対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示し、
　前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する状況における前記対象者の発話に関する情報の表示に切り替わる、
　状況表示装置。
　請求項８の状況表示装置であって、
　前記表示部は、前記対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示し、
　前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する位置における前記対象者の発話に関する情報の表示に切り替わる、
　状況表示装置。
　請求項１，８の状況表示装置の各部としてコンピュータを機能させるためのプログラム。