WO2020240795A1

WO2020240795A1 - 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

Info

Publication number: WO2020240795A1
Application number: PCT/JP2019/021621
Authority: WO
Inventors: 卓矢合田; 真一郎永徳; 昭宏千葉
Original assignee: 日本電信電話株式会社
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-03
Also published as: JPWO2020240795A1; US11972172B2; JP7327475B2; US20220222038A1

Abstract

表示情報生成装置は、重要度算出部（１１１）と、表示情報生成部（１１２）とを備える。重要度算出部は、少なくとも一人のユーザ（Ｕ）に関する少なくとも一つユーザオブジェクト及び前記一人のユーザと会話する複数の発話者（Ｓ１，Ｓ２）に関する複数の発話者オブジェクトと、少なくとも一つのユーザオブジェクト及び複数の発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、少なくとも一人のユーザに対する複数の発話者それぞれの会話の重要度を算出する。表示情報生成部は、会話の重要度に基づいて、複数の発話者オブジェクトに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。

Description

表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

　本発明は、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムに関する。

　非特許文献１は、単一のオブジェクトに対して、対応するアノテーションをヘッドマウントディスプレイ上に表示する技術を開示している。アノテーションは、異なる性質のオブジェクトであっても、同じレベル、例えば、同じ大きさや同じ色など、で提示される。

岸下直弘ら，「広視野シースルーＨＭＤを用いた情報提示における周辺視野の影響の調査」，日本バーチャルリアリティ学会論文誌，Vol. 19，No. 2，pp. 121-130，2014

　非特許文献１では、複数のオブジェクトに対して、対応する複数のアノテーションを提示することを開示していない。

　アノテーションが複数提示された場合、ユーザは、どのアノテーションが重要であるのか分かりにくい。

　本発明は、上記実情に鑑みてなされたものであり、複数のアノテーションの内の何れが重要であるのかをユーザに分かり易く提示することができる、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムを提供することを目的とする。

　本発明の第１の態様によれば、少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出する重要度算出部と、前記重要度算出部が算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部と、を具備する表示情報生成装置が提供される。

　本発明の第２の態様によれば、少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、コンピュータにより、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出し、前記コンピュータにより、前記算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する、表示情報生成方法が提供される。

　本発明の第３の態様によれば、表示情報生成装置のコンピュータを、少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出する重要度算出部、前記算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部、として機能させるためのコンピュータ読み取り可能な表示情報生成プログラムが提供される。

　本発明によれば、複数のアノテーションの内の何れが重要であるのかをユーザに分かり易く提示することができる、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムを提供することができる。

図１は、第１実施形態に係る表示情報生成装置を含む情報提示システムの使用形態を示す概略図である。図２Ａは、表示端末の正面図である。図２Ｂは、表示端末の背面図である。図３は、表示端末のブロック構成図である。図４は、ユーザ端末のブロック構成図である。図５は、情報提示システムの機能構成図である。図６は、顔認識ＤＢの内容例を示す図である。図７Ａは、第１の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第１の部分を示す図である。図７Ｂは、第１の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第２の部分を示す図である。図８Ａは、カメラデータ幅と人物幅の関係の一例を説明するための図である。図８Ｂは、カメラデータ幅と人物幅の関係の別の例を説明するための図である。図９は、スコアテーブルの内容例を示す図である。図１０Ａは、会話の重要度に基づく表示エリアの割合の一例を説明するための図である。図１０Ｂは、会話の重要度に基づく表示エリアの割合の別の例を説明するための図である。図１１Ａは、表示端末の背面ディスプレイの表示例を示す図である。図１１Ｂは、表示端末の前面ディスプレイの表示例を示す図である。図１２は、第２の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。図１３は、第３の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。図１４Ａは、第４の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第１の部分を示す図である。図１４Ｂは、第４の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第２の部分を示す図である。図１４Ｃは、第４の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第３の部分を示す図である。図１５は、第４の重要度算出手法を実施する場合のスコアテーブルの内容例を示す図である。図１６は、図１５の例に対応する会話の重要度に基づく表示エリアの割合の例を説明するための図である。図１７は、第１実施形態の変形例における情報提示システムの使用形態を示す概略図である。図１８は、表示端末のブロック構成図である。図１９は、第２実施形態に係る表示情報生成装置を含む情報提示装置の使用形態を示す概略図である。図２０Ａは、情報提示装置の正面図である。図２０Ｂは、情報提示装置の背面図である。図２１は、情報提示装置のブロック構成図である。図２２は、情報提示装置の機能構成図である。図２３は、第３実施形態に係る表示情報生成装置を含む情報提示装置の使用形態を示す概略図である。図２４Ａは、情報提示装置の正面図である。図２４Ｂは、情報提示装置の背面図である。図２５は、情報提示装置のブロック構成図である。図２６は、情報提示装置の機能構成図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。　
　［第１実施形態］
　図１は、第１実施形態に係る表示情報生成装置を含む情報提示システムの使用形態を示す概略図である。これは、一人のユーザＵと、該ユーザＵの会話相手である二人の発話者Ｓ１，Ｓ２とが、向かい合っている状況である。本実施形態は、一人対複数人で会話を行う際の例である。発話者は二人に限定するものではなく、三人以上で有っても良いことは勿論である。

　情報提示システムは、表示情報生成装置が組み込まれたユーザ端末１と、該ユーザ端末１と通信して、情報を表示する表示端末２と、を含む。ユーザ端末１は、スマートフォンやタブレット端末などの携帯型の情報処理端末であって良い。

　図２Ａは、表示端末２の正面図である。表示端末２の正面である前面には、前面ディスプレイ２０１、前面ステレオマイク２０２及びキーボード２０３が配置されている。前面ディスプレイ２０１は、ユーザＵに対して提示されるべき情報を表示する。前面ステレオマイク２０２は、表示端末２の前面側の音、特には、ユーザＵの音声を取得する。キーボード２０３は、ユーザＵが当該表示端末２を操作するための複数の操作キーが纏めて配置されたものである。複数の操作キーは、キーボード２０３として纏めて配置される代わりに、表示端末２の前面、側面、上面などに分散配置されても良い。

　図２Ｂは、表示端末２の背面図である。表示端末２の背面には、背面ディスプレイ２０４、背面ステレオマイク２０５及び背面カメラ２０６が配置されている。背面ディスプレイ２０４は、発話者Ｓ１，Ｓ２に対して提示されるべき情報を表示する。背面ステレオマイク２０５は、表示端末２の背面側の音、特には、発話者Ｓ１，Ｓ２の音声を取得する。背面カメラ２０６は、表示端末２の背面側、特には、発話者Ｓ１，Ｓ２の画像を取得する。表示端末２の使用に当たっては、ユーザＵは、背面カメラ２０６の画角内に少なくとも発話者Ｓ１，Ｓ２の内の一人の顔が入るように、表示端末２を構える。

　図２Ａに示すように、表示端末２の前面には、更に、前面サブディスプレイ２０７が設けられて良い。前面サブディスプレイ２０７は、背面カメラ２０６が撮像している画像を表示する。ユーザＵは、この前面サブディスプレイ２０７の表示により、背面カメラ２０６の画角内に発話者Ｓ１，Ｓ２の顔が入っているか否か確認できる。背面カメラ２０６で取得した画像を、前面ディスプレイ２０１に切り替え表示、または、ピクチャ・イン・ピクチャとして重畳表示できるようにすれば、前面サブディスプレイ２０７を省略することも可能である。

　表示端末２の前面には、更に、前面カメラ２０８が設けられて良い。前面カメラ２０８は、表示端末２の正面側の画像を取得する。前面カメラ２０８が撮像している画像は、操作キーの操作により、前面ディスプレイ２０１または前面サブディスプレイ２０７に、背面カメラ２０６が撮像している画像から切り替え表示されるようにしても良い。

　前面ディスプレイ２０１と背面ディスプレイ２０４は、一つの透過型ディスプレイとして構成されても良い。この場合、発話者Ｓ１，Ｓ２に対して提示する情報は、発話者Ｓ１，Ｓ２が判読可能となるように、表裏が反転された画像として、透過型ディスプレイに表示される。

　図３は、表示端末２のブロック構成図である。表示端末２は、上記の構成加えて、プロセッサ２０９、ＲＯＭ（Read Only Memory）２１０、ＲＡＭ（Random Access Memory）２１１及び通信ＩＦ（Interface）２１２などを有する。プロセッサ２０９は、例えば、ＣＰＵ（Central Processing Unit）である。プロセッサ２０９は、ＲＯＭ２１０に記憶されている制御プログラムを実行することにより様々な処理機能を実現する。ＲＯＭ２１０は、表示端末２の動作を司る制御プログラム及び制御データなどを記憶する。制御プログラムは、後述する表示制御アプリケーションプログラム（以下、アプリケーションプログラムをアプリと略記する。）の一部を含む。ＲＡＭ２１１は、ワーキングメモリとして機能するメインメモリである。通信ＩＦ２１２は、Bluetooth（登録商標）などの小電力無線データ通信規格を採用したインターフェースユニットであり、ユーザ端末１とのデータ通信を行う。

　前面ステレオマイク２０２または背面ステレオマイク２０５で取得した音声は、プロセッサ２０９によりＣＥＬＰ（Code Excited Linear Prediction Coder）など任意の音声圧縮フォーマットで圧縮されて、音声データとして通信ＩＦ２１２によりユーザ端末１に送信される。前面カメラ２０８または背面カメラ２０６で一定時間おきに取得した画像は、プロセッサ２０９によりＪＰＥＧ（Joint Photographic Experts Group）など任意の画像圧縮フォーマットで圧縮されて、カメラデータとして通信ＩＦ２１２によりユーザ端末１に送信される。音声と画像とをＭＰＥＧ（Moving Picture Experts Group）など任意の動画圧縮フォーマットで圧縮することで、ビデオデータとしてユーザ端末１に送信するようにしても良い。音声、画像、動画の圧縮フォーマットは、これに限定するものではない。圧縮せずに送信しても良い。

　通信ＩＦ２１２によりユーザ端末１から受信した表示結果グラフィックデータは、プロセッサ２０９により、前面ディスプレイ２０１または背面ディスプレイ２０４に振り分けられて、そこに表示される。

　図４は、ユーザ端末１のブロック構成図である。ユーザ端末１は、プロセッサ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＮＶＭ（Nonvolatile Memory）１０４、ディスプレイ１０５、タッチパネル１０６、通信ＩＦ１０７、カメラ１０８、などを有する。

　プロセッサ１０１は、例えば、ＣＰＵである。プロセッサ１０１は、ＲＯＭ１０２またはＮＶＭ１０４に記憶されている制御プログラムを実行することにより様々な処理機能を実現する。ＲＯＭ１０２は、ユーザ端末１の動作を司る制御プログラム及び制御データなどを記憶する。ＲＡＭ１０３は、ワーキングメモリとして機能するメインメモリである。ＮＶＭ１０４は、ＳＲＡＭやフラッシュメモリなどの、書換え可能な不揮発性の記憶装置である。ＮＶＭ１０４は、各種の処理機能を実現するためのアプリ及びデータなどを記憶する。ＮＶＭ１０４に記憶されるアプリは、プロセッサ１０１を、後述する表示情報生成プログラム、表示制御プログラムの一部、などを含む。ディスプレイ１０５は、液晶ディスプレイなどの表示装置である。タッチパネル１０６は、ディスプレイ１０５の表示面に配置されたタッチ入力装置である。ユーザ端末１は、タッチパネル１０６以外の操作キーを有することができる。通信ＩＦ１０７は、Bluetoothなどの小電力無線データ通信規格を採用したインターフェースユニットであり、表示端末２とのデータ通信を行う。通信ＩＦ１０７は、更に、４Ｇまたは５Ｇなどの携帯電話通信システム、無線ＬＡＮ、などの、無線通信インタフェースユニットを含むことができる。カメラ１０８は、画像を取得するためのものであり、ユーザ端末１の前面及び背面の両面にそれぞれ設けられることができる。

　通信ＩＦ１０７により表示端末２から受信した音声データ及びカメラデータ（またはビデオデータ）は、表示情報生成装置として機能するプロセッサ１０１により、元の音声及び画像に復元されて処理される。その処理の結果としてプロセッサ１０１によって生成される表示結果グラフィックデータは、通信ＩＦ１０７により表示端末２に送信される。

　図５は、情報提示システムの機能構成図である。情報提示システムは、機能的には、ユーザ端末１と表示端末２との間に、Bluetoothアクセスポイント仮想基盤３を有する。このBluetoothアクセスポイント仮想基盤３は、ユーザ端末１の通信ＩＦ１０７及び表示端末２の通信ＩＦ２１２と、ユーザ端末１のプロセッサ１０１と表示端末２のプロセッサ２０９とにより、構成される。すなわち、プロセッサ１０１及び２０９は、表示制御アプリ３００に従った処理を実行することで、通信ＩＦ１０７及び２１２を制御して、ユーザ端末１と表示端末２との間でデータを送受信する。表示制御アプリ３００の内、プロセッサ１０１用の部分がユーザ端末１のＮＶＭ１０４に記憶され、プロセッサ２０９用の部分が表示端末２のＲＯＭ２１０に記憶される。プロセッサ１０１及び２０９が表示制御アプリ３００を実行することで、プロセッサ１０１及び２０９は、音声及びカメラデータ送信部３０１及びグラフィック返却部３０２として機能することができる。

　音声及びカメラデータ送信部３０１は、少なくとも、表示端末２の背面ステレオマイク２０５で取得した音声と背面カメラ２０６で取得したカメラデータ（画像）とを、発話者に関する発話者オブジェクトとしてユーザ端末１に送信する。音声及びカメラデータ送信部３０１は、更に、表示端末２の前面ステレオマイク２０２で取得した音声と前面カメラ２０８で取得したカメラデータとの内の少なくとも前者をユーザに関するユーザオブジェクトとして、ユーザ端末１に送信する。

　グラフィック返却部３０２は、少なくとも、ユーザ端末１で生成した表示端末２の前面ディスプレイ２０１で表示するべき表示画像である表示結果グラフィックデータを、ユーザ端末１から表示端末２に送信する。グラフィック返却部３０２は、更に、ユーザ端末１で生成した表示端末２の背面ディスプレイ２０４で表示するべき表示結果グラフィックデータを、ユーザ端末１から表示端末２に送信することもできる。ユーザ端末１で生成する表示結果グラフィックデータについては、後述する。

　ユーザ端末１は、機能的には、表示情報生成アプリ１０１Ａ、音声認識エンジン１０１Ｂ、文字翻訳エンジン１０１Ｃ、スコアテーブル１０３Ａ、顔認識ＤＢ（Database）１０４Ａ、などを有する。表示情報生成アプリ１０１Ａは、プロセッサ１０１を実施形態に係る表示情報生成装置として機能させるための表示情報生成プログラムであり、ＮＶＭ１０４に記憶されている。プロセッサ１０１は、この表示情報生成アプリ１０１Ａを実行することで、重要度算出部１１１及びグラフィック作成部１１２として機能することができる。スコアテーブル１０３Ａは、プロセッサ１０１が表示情報生成アプリ１０１Ａを実行中にＲＡＭ１０３に構成するテーブルである。スコアテーブル１０３Ａは、後述するように、プロセッサ１０１が表示情報生成アプリ１０１Ａを実行中に、発話者Ｓ１，Ｓ２との会話の重要度を示すデータ、あるいは発話者Ｓ１，Ｓ２のスコアデータを記憶することができる。顔認識ＤＢ１０４Ａは、ＮＶＭ１０４に記憶されることができる、カメラ１０８によって事前に取得したユーザＵ及び発話者Ｓ１，Ｓ２の顔画像を蓄積するデータベースである。

　音声認識エンジン１０１Ｂは、入力された音声について音声認識を実施して、入力音声に対応する文字列を生成する。すなわち、音声認識エンジン１０１Ｂは、入力された音声オブジェクトに対し、対応する音声認識結果文字列を、アノテーションとして生成する。本実施形態では、表示端末２から送信されてきたユーザＵの音声オブジェクト及び複数の発話者Ｓ１，Ｓ２の音声オブジェクトが、重要度算出部１１１から音声認識エンジン１０１Ｂに入力される。音声認識エンジン１０１Ｂは、音声認識結果文字列を重要度算出部１１１に出力する。音声認識エンジン１０１Ｂは、二カ国語以上に対応しており、各言語での音声認識結果文字列を出力することができる。音声認識エンジン１０１Ｂは、各種ベンダーから様々なものが提供されており、その一つを利用することができる。音声認識エンジン１０１Ｂは、ユーザ端末１が有さず、通信ＩＦ１０７によりネットワーク上に提供されたものを利用する形態としても良い。

　文字翻訳エンジン１０１Ｃは、入力された文字列について既知の翻訳エンジンにより翻訳を実施して、入力文字列に対応する翻訳結果文字列を生成する。文字翻訳エンジン１０１Ｃは、二カ国語以上に対応しており、各言語間での双方向翻訳が可能となっている。文字翻訳エンジン１０１Ｃは、ユーザＵの母国語が何れの言語であるのかが既知情報として事前に登録されおり、何れの言語との間で翻訳を行うかが指定可能となっている。文字翻訳エンジン１０１Ｃは、入力された文字列オブジェクトに対し、対応する翻訳結果文字列を、アノテーションとして生成する。本実施形態では、音声認識エンジン１０１Ｂから出力された音声認識結果文字列が、重要度算出部１１１から文字列オブジェクトとして、文字翻訳エンジン１０１Ｃに入力される。文字翻訳エンジン１０１Ｃは、各種ベンダーから様々なものが提供されており、その一つを利用することができる。文字翻訳エンジン１０１Ｃは、ユーザ端末１が有さず、通信ＩＦ１０７によりネットワーク上に提供されたものを利用する形態としても良い。

　重要度算出部１１１は、ユーザＵと発話者Ｓ１，Ｓ２それぞれとの間の会話の重要度を算出する。例えば、重要度算出部１１１は、発話者Ｓ１，Ｓ２に関する発話者オブジェクトである、表示端末２からのカメラデータ（画像）オブジェクトに基づいて、会話の重要度を算出することができる。例えば、重要度算出部１１１は、音声認識エンジン１０１Ｂからのアノテーションである音声認識結果文字列に基づいて、または、その音声認識結果文字列と文字翻訳エンジン１０１Ｃからのアノテーションである翻訳結果文字列とに基づいて、会話の重要度を算出することができる。重要度算出部１１１は、音声認識エンジン１０１Ｂ及び文字翻訳エンジン１０１Ｃからのアノテーションである結果文字列とそれに対応する会話の重要度とをグラフィック作成部１１２に出力する。

　なお、重要度算出部１１１は、会話において、どの音声認識結果文字列がまたは翻訳結果文字列がどの人物の音声に対応するかは、表示端末２から取得したカメラデータオブジェクトに基づいて判別することができる。例えば、重要度算出部１１１は、表示端末２から音声オブジェクトが送信されてきているとき、背面カメラ２０６及び前面カメラ２０８で取得している一連のカメラデータ中の各顔画像において、どの人物の口が動いているかにより、発話中の人物が誰であるのか判別することができる。あるいは、重要度算出部１１１は、表示端末２から取得した音声オブジェクトに基づいて人物を判別することも可能である。すなわち、重要度算出部１１１は、当該文字列の元となった音声オブジェクトが前面ステレオマイク２０２で取得した音声であれば、当該文字列はユーザＵの音声に対応するものであると判定することができる。これに対して、音声オブジェクトが背面ステレオマイク２０５で取得した音声である場合には、発話者はＳ１またはＳ２である。このような場合には、重要度算出部１１１は、例えば、声紋を検出したり、背面ステレオマイク２０５の左マイクと右マイクとの間での入力音声の音量や位相などに基づいて発話者の方向及び距離を検出したりすることで、発話している人物を判別することができる。

　重要度算出部１１１が実施する会話の重要度算出手法としては、例えば、以下の３つの手法の何れか、あるいはその組み合わせを採用することができる。もちろん、重要度算出部１１１は、その他の手法を採用しても良いことは言うまでもない。重要度算出部１１１は、重要度算出手法の少なくとも一つを利用可能であれば良く、複数の算出手法を実装する必要は無い。複数の重要度算出手法を搭載し、何れを採用するかをユーザＵが任意に指定できるようにしても良い。

　　（第１の重要度算出手法）
　第１の重要度算出手法においては、会話の重要度は、複数の発話者Ｓ１，Ｓ２を撮像したカメラデータに占める各発話者の画像、例えば顔画像の割合に基づいて算出される。多くの場合、ユーザＵが重要と思われる人物に背面カメラ２０６を向ける。よって、重要度算出部１１１は、複数の発話者に関する発話者オブジェクトとして、表示端末２の背面カメラ２０６からのカメラデータを取得する。そして、重要度算出部１１１は、重要度として、この取得したカメラデータに占める顔画像の割合が多い発話者との会話は高い値を算出し、カメラデータに占める顔画像の割合が少ない発話者との会話は低い値を算出する。

　　（第２の重要度算出手法）
　第２の重要度算出手法においては、会話の重要度は、対話のつながりに基づいて算出される。対話のつながりは、対話の破綻度合いを利用して判定することができる。対話の破綻度合いの検出方法は、例えば、稲葉通将ら，「Long Short-Term Memory Recurrent Neural Networkを用いた対話破綻検出」，人工知能学会研究会資料，SIG-SLUD-B502-13，pp. 57-60, 2015に開示されているような方法を採用すれば良い。重要度算出部１１１は、ユーザＵの音声オブジェクトに対応する音声認識結果文字列と、複数の発話者Ｓ１，Ｓ２それぞれの音声オブジェクトに対応する音声認識結果または音声翻訳結果との文字列とから、対話の破綻度合いを検出する。そして、重要度算出部１１１は、重要度として、この検出した対話の破綻度合いが小さい発話者との会話は高い値を算出し、対話の破綻度合いが大きい発話者との会話は低い値を算出する。

　　（第３の重要度算出手法）
　第３の重要度算出手法においては、会話の重要度は、顔認識を用いて事前にスコア付けした複数の発話者Ｓ１，Ｓ２のスコアに基づいて算出される。顔認識ＤＢ１０４Ａに、ユーザＵ及び発話者Ｓ１，Ｓ２の顔画像を蓄積させた際に、ユーザＵは、各人物の画像を重要度に応じてスコア付けし、その人物スコアも顔認識ＤＢ１０４Ａに登録しておく。図６は、顔認識ＤＢの内容例を示す図である。重要度算出部１１１は、複数の発話者に関する発話者オブジェクトとして、表示端末２の背面カメラ２０６からのカメラデータを取得する。重要度算出部１１１は、顔認識ＤＢ１０４Ａを参照して、この取得したカメラデータに写っている人物の顔認証を行う。重要度算出部１１１は、重要度として、認証した人物の顔認識ＤＢ１０４Ａに登録された人物スコアが高い認証人物との会話は高い値を算出し、人物スコアが低い認証人物との会話は低い値を算出する。

　グラフィック作成部１１２は、重要度算出部１１１が出力した結果文字列（アノテーション）とそれに対応する会話の重要度に基づいて、結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像（表示結果グラフィックデータ）を生成する。表示形態は、表示画像における文字列画像の表示位置であって良いし、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾であっても良い。グラフィック作成部１１２は、生成した表示結果グラフィックデータをグラフィック返却部３０２に出力する。上述したように、グラフィック返却部３０２は、この表示結果グラフィックデータを表示端末２に送信して、前面ディスプレイ２０１または背面ディスプレイ２０４に表示させる。これにより、前面ディスプレイ２０１の表示画面には、発話者Ｓ１，Ｓ２との会話の重要度に応じた表示形態で、発話者Ｓ１，Ｓ２が発話した音声に対応する音声認識結果文字列または翻訳結果文字列が表示されることとなる。

　以下、上記のような構成の情報提示システムの動作を詳細に説明する。ここでは、表示端末２が翻訳結果文字列をユーザＵに提示する場合を例にとって説明する。

　　（第１の重要度算出手法による動作）
　図７Ａ及び図７Ｂは、第１の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図である。

　例えば、表示端末２の背面ステレオマイク２０５で発話者Ｓ１，Ｓ２の内の少なくとも一人の音声が取得されると、音声及びカメラデータ送信部３０１は、背面カメラ２０６で取得したカメラデータ（画像）と共に、その音声を表示端末２からユーザ端末１の重要度算出部１１１に送信する。

　重要度算出部１１１は、受信した音声オブジェクトを音声認識エンジン１０１Ｂに出力する。音声認識エンジン１０１Ｂは、入力された音声オブジェクトに対して音声認識を実施する（ステップＳＴ１１）。音声認識エンジン１０１Ｂは、認識した音声認識結果文字列を、アノテーションとして重要度算出部１１１に出力する。重要度算出部１１１は、この音声認識結果文字列を、ＲＡＭ１０３またはＮＶＭ１０４に確保した、図示しない人物毎音声認識結果文字列記憶エリアに、現在時刻と共に記憶させる。

　重要度算出部１１１は、音声認識結果文字列を、翻訳対象の文字列オブジェクトとして、文字翻訳エンジン１０１Ｃに出力する。文字翻訳エンジン１０１Ｃは、入力された文字列オブジェクトに対し、ユーザＵの母国語または指定されている言語への翻訳を実施する（ステップＳＴ１２）。文字翻訳エンジン１０１Ｃは、翻訳した翻訳結果文字列を、アノテーションとして重要度算出部１１１に出力する。重要度算出部１１１は、この翻訳結果文字列を、ＲＡＭ１０３またはＮＶＭ１０４に確保した、図示しない人物毎翻訳結果文字列記憶エリアに、現在時刻と共に記憶させる。

　重要度算出部１１１は、ユーザＵと発話者Ｓ１，Ｓ２それぞれとの間の会話の重要度を、複数の発話者Ｓ１，Ｓ２を撮像したカメラデータに占める各発話者の顔画像の割合に基づいて算出する。すなわち、重要度算出部１１１は、まず、表示端末２の背面カメラ２０６で取得したカメラデータから人物認識することで、人物が占めるエリアを特定する（ステップＳＴ１３）。この人物認識は、カメラにおいて人物の顔にピント合わせするために利用されている一般的な技術である。次に、重要度算出部１１１は、上記カメラデータから、カメラデータ幅と各人物の幅を取得する（ステップＳＴ１４）。図８Ａは、カメラデータ２０６Ａにおけるカメラデータ幅と人物幅の関係の一例を説明するための図である。この例では、カメラデータ幅ＣＷは、カメラデータ２０６Ａの横方向の画素数であり、人物幅Ｗ１，Ｗ２は、隣接する人物間の中点からカメラデータ２０６Ａの端部までの横方向の画素数である。図８Ｂは、カメラデータ２０６Ａにおけるカメラデータ幅と人物幅の関係の別の例を説明するための図である。この例では、人物幅Ｗ１，Ｗ２は、各人物の横方向の最大画素数であり、カメラデータ幅ＣＷは、人物幅の画素数の合計値（Ｗ１＋Ｗ２）とすることができる。重要度算出部１１１は、カメラデータ幅に対する人物幅割合に基づいて、会話の重要度を計算し、その計算結果をスコアテーブル１０３Ａに記憶する（ステップＳＴ１５）。図９は、スコアテーブル１０３Ａの記憶内容例を示す図であり、都度更新されるものとなっている。会話の重要度は、「当該人物の人物幅（Ｗ１またはＷ２）／カメラデータ幅（ＣＷ）」により計算される。すなわち、「１．０≧会話の重要度≧０．０」であり、会話の重要度は「１．０」に近いほど重要度が高い。

　重要度算出部１１１は、計算した会話の重要度が「０．５」であるか否か判断する（ステップＳＴ１６）。会話の重要度が「０．５」である、つまり、会話の重要度が二人の発話者Ｓ１，Ｓ２で同じである場合には、重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部１１２に出力する。

　これに対して、会話の重要度が「０．５」でない、つまり、どちらかの発話者との会話の重要度が高い場合には、重要度算出部１１１は、時間閾値ｔを超えて重要度が低いつまり重要度「０．５」未満の人物からの発話が無いかを判断する。すなわち、現在時刻をｔ_ｎ、前回の当該人物の発話時刻をｔ_ｎ－１とし、その差分の時間（ｔ_ｎ－ｔ_ｎ－１）が時間閾値ｔ以下か否か判断する（ステップＳＴ１７）。前回の発話時刻ｔ_ｎ－１は、ＲＡＭ１０３またはＮＶＭ１０４に記憶されている当該人物の人物毎翻訳結果文字列記憶エリアより取得することができる。重要度「０．５」未満のｔ_ｎ－ｔ_ｎ－１が時間閾値ｔ以下である、つまり、重要度「０．５」未満の人物と会話してからの時間が時間閾値ｔを超えていない場合には、重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部１１２に出力する。

　一方、重要度「０．５」未満のｔ_ｎ－ｔ_ｎ－１が時間閾値ｔ以下でない、つまり、重要度「０．５」未満の人物との会話が時間閾値ｔを超えている場合には、重要度算出部１１１は、当該人物との会話の重要度は低いものであると判断する。そこで、重要度算出部１１１は、スコアテーブル１０３Ａに記憶されている重要度から、一定時間毎に重要度の低い方の人物の重要度を減衰させ、一番高い人物、ここでは発話者が二人であるので高い方の人物、の重要度に、その減衰分を足し込む（ステップＳＴ１８）。そして、重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と更新した会話の重要度とをグラフィック作成部１１２に出力する。

　グラフィック作成部１１２は、重要度算出部１１１が出力した翻訳結果文字列と会話の重要度を利用して、翻訳結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像（表示結果グラフィックデータ）を生成する（ステップＳＴ１９）。例えば、表示形態が文字列画像の表示位置とした場合、グラフィック作成部１１２は、表示端末２の前面ディスプレイ２０１または背面ディスプレイ２０４に表示される表示画像における翻訳結果文字列の配置位置を、会話の重要度に基づいて決定する。すなわち、グラフィック作成部１１２は、表示端末２の前面ディスプレイ２０１に表示される表示画像において、発話者Ｓ１の翻訳結果文字列を表示するエリアと、発話者Ｓ２の翻訳結果文字列を表示するエリアとの割合を、会話の重要度に基づいて決定する。図１０Ａは、図９に示したスコアテーブル１０３Ａの記憶内容に対応する、会話の重要度に基づく表示エリアの割合の一例を説明するための図である。図９に示すように、会話の重要度が０．７対０．３であったとすると、グラフィック作成部１１２は、図１０Ａに示すように、表示画像２０１Ａにおける表示エリアを、人物１（例えば発話者Ｓ１）用と人物２（例えば発話者Ｓ２）用に、上下方向に０．７対０．３に分割使用すると決定する。図１０Ｂは、会話の重要度に基づく表示エリアの割合の別の例を説明するための図である。この例は、グラフィック作成部１１２が、表示画像２０１Ａの表示エリアを左右方向に０．７対０．３に分割使用すると決定した場合を示している。このように、各発話者に関する翻訳結果文字列の表示位置は、カメラデータにおける発話者間の位置関係とは無関係に決定される。

　グラフィック作成部１１２は、こうして決定した位置に各翻訳結果文字列を配置した表示画像である表示結果グラフィックデータを生成する。この際、各発話者の翻訳結果文字列における文字に対し、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾を施したものとしても良い。装飾は、文字列を囲む窓枠、重要度に応じたアイコン、などを付加することを含む。

　また、表示形態は、文字列画像の表示位置でなく、文字修飾のみとしても良い。すなわち、翻訳結果文字列の配置は発話順として、文字修飾により会話の重要度を識別可能にしても良い。

　グラフィック作成部１１２は、生成した表示結果グラフィックデータをグラフィック返却部３０２に出力する。

　グラフィック返却部３０２は、この表示結果グラフィックデータを表示端末２に送信して、前面ディスプレイ２０１に表示させる。これにより、前面ディスプレイ２０１には、発話者Ｓ１，Ｓ２との会話の重要度に応じた表示形態で、発話者Ｓ１，Ｓ２が発話した音声に対応する翻訳結果文字列が表示される。

　また、表示端末２の前面ステレオマイク２０２でユーザＵの音声が取得されると、音声及びカメラデータ送信部３０１は、その音声を表示端末２からユーザ端末１の重要度算出部１１１に送信する。このとき、音声及びカメラデータ送信部３０１は、前面カメラ２０８で取得したカメラデータ（画像）も、表示端末２からユーザ端末１の重要度算出部１１１に送信しても良い。

　重要度算出部１１１は、受信した音声オブジェクトを音声認識エンジン１０１Ｂに出力し、音声認識エンジン１０１Ｂからアノテーションとして音声認識結果文字列を取得し、それをＲＡＭ１０３またはＮＶＭ１０４に確保した人物毎音声認識結果文字列記憶エリアに現在時刻と共に記憶させる。

　重要度算出部１１１は、この音声認識結果文字列を文字翻訳エンジン１０１Ｃに出力し、文字翻訳エンジン１０１Ｃからアノテーションとして翻訳結果文字列を取得し、それをＲＡＭ１０３またはＮＶＭ１０４に確保した人物毎翻訳結果文字列記憶エリアに現在時刻と共に記憶させる。

　ユーザＵの発話に関しては、重要度算出部１１１は、ステップＳＴ１４乃至ステップＳＴ１８の処理をスキップし、会話の重要度を「１．０」として、翻訳結果文字列と「１．０」の会話の重要度とをグラフィック作成部１１２に出力する。

　グラフィック作成部１１２は、重要度算出部１１１が出力した翻訳結果文字列と会話の重要度を利用して、翻訳結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像（表示結果グラフィックデータ）を生成する（ステップＳＴ１９）。重要度が「１．０」の場合、つまり翻訳結果文字列がユーザＵに対応するものであった場合には、グラフィック作成部１１２は、表示画像の全ての表示エリアを分割することなく使用すると決定する。グラフィック作成部１１２は、こうして決定した位置に各翻訳結果文字列を配置した表示画像である表示結果グラフィックデータを生成する。この際、各発話者の翻訳結果文字列におけるも文字に対し、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾を施したものとしても良い。グラフィック作成部１１２は、生成した表示結果グラフィックデータをグラフィック返却部３０２に出力する。

　グラフィック返却部３０２は、この表示結果グラフィックデータを表示端末２に送信して、背面ディスプレイ２０４に表示させる。これにより、背面ディスプレイ２０４には、ユーザＵが発話した音声に対応する翻訳結果文字列が表示される。

　図１１Ａは、表示端末２の背面ディスプレイ２０４の表示例を示す図であり、図１１Ｂは、表示端末２の前面ディスプレイ２０１の表示例を示す図である。ユーザＵが表示端末２を図１に示すように二人の発話者Ｓ１，Ｓ２に向けて、日本語で「何かお困りですか」と発話すると、表示端末２の背面ディスプレイ２０４には、図１１Ａに示すように、その英語翻訳結果である「May I help you with something?」が表示される。これに対して、カメラデータに占める幅が多く会話の優先度が高いと判定される発話者Ｓ１が「Thank you.　Where is the restroom?」と発話し、優先度が低いと判定される発話者Ｓ２がたまたま知り合いだったらしく「Oh, Mr.xx!」と大きな声で叫んだとする。このような場合でも、図１１Ｂに示すように、表示端末２の前面ディスプレイ２０１には、重要度に応じた表示形態で、その日本語の翻訳結果文字列が表示される。すなわち、前面ディスプレイ２０１の表示画面の上方に大きな文字で「ありがとうございます。トイレはどこですか？」と表示され、下方に小さな文字で「あれ、○○さん！」と表示される。なお、図１１Ｂでは、表示エリアの区別を分かり易く示すために、破線で区切っているが、実際には破線は表示されなくても良い。前面ディスプレイ２０１には、発話者Ｓ１，Ｓ２の発話内容に対応する翻訳結果文字列が表示されるまでの間、ユーザＵが発話した内容を示す音声認識結果文字列を表示しても良い。

　上記ステップＳＴ１７及びステップＳＴ１８で説明したように、重要度算出部１１１は、時間閾値ｔを超える間、重要度が低い人物からの発話が無い場合に、一定時間毎に重要度の低い方の人物の重要度を減衰させ、その減衰分を重要度の高い方の人物の重要度に足し込むようにしている。これにより、複数の相手と対話している際に、重要度が低い発話者の発話に関するアノテーション、ここでは翻訳結果文字列は、前面ディスプレイ２０１の画面上に表示されなくなっていく。

　発話者が三名以上いる場合、「重要度が低い方の人物」は、最も重要度が低い人物としても良いし、最も高い人物以外の全人物としても良い。前者の場合は、三名以上の発話者の内の重要度の低い人物から順に、その発話に関するアノテーションが画面上に表示される割合が減っていき、最終的には表示されなくなる。こうして最も重要度が低い人物のアノテーションが表示されなくなると、次に重要度が低かった発話者が最も重要度の低い人物となる。

　　（第２の重要度算出手法による動作）
　図１２は、第２の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。

　第１の重要度算出手法を実施した場合と同様にして、ユーザ端末１の重要度算出部１１１は、音声認識エンジン１０１Ｂからのアノテーションとして音声認識結果文字列を取得し、文字翻訳エンジン１０１Ｃからのアノテーションとして翻訳結果文字列を取得する。ユーザＵ及び発話者Ｓ１，Ｓ２のそれぞれの音声認識結果文字列及び翻訳結果文字列が、ＲＡＭ１０３またはＮＶＭ１０４にそれぞれ確保した、人物毎音声認識結果文字列記憶エリア及び人物毎翻訳結果文字列記憶エリアに蓄積されていく。

　重要度算出部１１１は、こうして蓄積されたユーザＵの音声認識結果文字列と発話者Ｓ１，Ｓ２それぞれの翻訳結果文字列とから、会話の破綻度を検出する（ステップＳＴ２１）。重要度算出部１１１は、この検出した会話の破綻度に基づいて、会話の重要度を計算し、その計算結果をスコアテーブル１０３Ａに記憶する（ステップＳＴ２２）。会話の重要度は、「１－対話の破綻度」により計算される。「１．０≧会話の重要度≧０．０」であり、会話の重要度は「１．０」に近いほど重要度が高い。重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部１１２に出力する。ユーザＵの発話に関しては、重要度算出部１１１は、ステップＳＴ２１及びステップＳＴ２２の処理をスキップし、会話の重要度を「１．０」として、翻訳結果文字列と「１．０」の会話の重要度とをグラフィック作成部１１２に出力する。

　グラフィック作成部１１２は、第１の重要度算出手法を実施した場合と同様にして、表示画像（表示結果グラフィックデータ）を生成し、生成した表示結果グラフィックデータをグラフィック返却部３０２に出力する。グラフィック返却部３０２は、この表示結果グラフィックデータを表示端末２に送信して、発話者Ｓ１，Ｓ２が発話した音声に対応する翻訳結果文字列を前面ディスプレイ２０１に表示させ、ユーザＵが発話した音声に対応する翻訳結果文字列を背面ディスプレイ２０４に表示させる。

　　（第３の重要度算出手法による動作）
　図１３は、第３の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。

　重要度算出部１１１は、カメラデータについて顔認識ＤＢ１０４Ａを検索して顔認証を行い、カメラデータに写っている各発話者を特定し、それらの人物の人物スコアを取得する（ステップＳＴ３１）。重要度算出部１１１は、この取得した人物スコアに基づいて、会話の重要度を計算し、その計算結果をスコアテーブル１０３Ａに記憶する（ステップＳＴ３２）。会話の重要度は、「カメラデータに写っている当該人物の人物スコア／カメラデータに写っている全員の人物スコアのトータル」により計算される。例えば、図６に示した例において、人物Ａと人物Ｂがカメラデータに写っている場合、人物Ａの重要度は、「３０／（３０＋５０）＝０．３７５」と計算される。「１．０≧会話の重要度≧０．０」であり、会話の重要度は「１．０」に近いほど重要度が高い。重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部１１２に出力する。ユーザＵの発話に関しては、ユーザＵの顔画像に対し人物スコア「１００」を登録しておくことで、「１００／１００＝１．０」となる。あるいは、ユーザＵの発話に関しては、重要度算出部１１１は、ステップＳＴ３１及びステップＳＴ３２の処理をスキップし、会話の重要度を規定値「１．０」とするものとしても良い。

　　（第４の重要度算出手法による動作）
　上述した第１、第２及び第３の重要度算出手法は、単独で利用するだけでなく、組み合わせて利用しても良い。すなわち、第１の重要度算出手法と第２重要度算出手法の組み合わせ、第１の重要度算出手法と第３重要度算出手法の組み合わせ、第２の重要度算出手法と第３重要度算出手法の組み合わせ、及び、第１、第２及び第３の重要度算出手法の組み合わせ、を利用することができる。ここでは、代表して、第４の重要度算出手法として、第１、第２及び第３の重要度算出手法を組み合わせた手法を説明する。

　図１４Ａ、図１４Ｂ及び図１４Ｃは、第４の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図である。

　重要度算出部１１１は、第１の重要度算出手法を実施した場合と同様にして、カメラデータから、人物認識により人物が占めるエリアを特定し（ステップＳＴ１３）、カメラデータ幅と各人物の幅を取得する（ステップＳＴ１４）。その後、重要度算出部１１１は、カメラデータ幅に対する人物幅割合に基づいて、スコア１を計算し、その計算結果をスコアテーブル１０３Ａに記憶する（ステップＳＴ４１）。このスコア１の計算は、第１の重要度算出手法を利用した場合における、カメラデータに写っている割合に基づく会話の重要度の計算と同様である。換言すれば、ステップＳＴ４１の処理は、第１の重要度算出手法において計算した会話の重要度を、スコア１としてスコアテーブル１０３Ａに記憶する処理である。図１５は、スコアテーブル１０３Ａの記憶内容例を示す図である。スコア１は、「当該人物の人物幅（Ｗ１またはＷ２）／カメラデータ幅（ＣＷ）」により計算される。すなわち、「１．０≧スコア１≧０．０」である。

　その後、重要度算出部１１１は、第１の重要度算出手法を利用した場合におけるステップＳＴ１６乃至ステップＳＴ１８の処理を、会話の重要度ではなくスコア１を対象として実施する。すなわち、重要度算出部１１１は、計算したスコア１が「０．５」であるか否か判断する（ステップＳＴ４２）。スコア１が「０．５」であれば、重要度算出部１１１は、処理を後述するステップＳＴ２１に進める。スコア１が「０．５」でない場合には、重要度算出部１１１は、時間閾値ｔを超えてスコア１が「０．５」未満の人物からの発話が無いかを判断する。すなわち、現在時刻をｔ_ｎ、前回の当該人物の発話時刻をｔ_ｎ－１とし、その差分の時間（ｔ_ｎ－ｔ_ｎ－１）が時間閾値ｔ以下か否か判断する（ステップＳＴ４３）。スコア１が「０．５」未満の人物と会話してからの時間が時間閾値ｔを超えていない場合には、重要度算出部１１１は、処理を後述するステップＳＴ２１に進める。スコア１が「０．５」未満の人物との会話が時間閾値ｔを超えている場合には、重要度算出部１１１は、スコアテーブル１０３Ａに記憶されているスコア１から、一定時間毎にスコア１の低い方の人物のスコアを減衰させ、一番高い人物のスコア１に、その減衰分を足し込む（ステップＳＴ４４）。その後、重要度算出部１１１は、処理をステップＳＴ２１に進める。

　ステップＳＴ２１において、重要度算出部１１１は、第２の重要度算出手法を実施した場合と同様に、蓄積されたユーザＵの音声認識結果文字列と発話者Ｓ１，Ｓ２それぞれの翻訳結果文字列とから、会話の破綻度を検出する。その後、重要度算出部１１１は、この検出した会話の破綻度に基づいて、スコア２を計算し、その計算結果を、図１５に示すように、スコアテーブル１０３Ａに記憶する（ステップＳＴ４５）。このスコア２の計算は、第２の重要度算出手法を利用した場合における、対話の破綻度を利用した対話のつながりによる会話の重要度の計算と同様である。換言すれば、ステップＳＴ４５の処理は、第２の重要度算出手法において計算した会話の重要度を、スコア２としてスコアテーブル１０３Ａに記憶する処理である。スコア２は、「１－対話の破綻度」により計算される。「１．０≧スコア２≧０．０」である。

　次に、重要度算出部１１１は、第２の重要度算出手法を実施した場合と同様に、カメラデータについて顔認識ＤＢ１０４Ａを検索して顔認証を行い、カメラデータに写っている各発話者を特定し、それらの人物の人物スコアを取得する（ステップＳＴ３１）。その後、重要度算出部１１１は、この取得したスコアに基づいて、スコア３を計算し、その計算結果を、図１５に示すように、スコアテーブル１０３Ａに記憶する（ステップＳＴ４６）。このスコア３の計算は、第３の重要度算出手法を利用した場合における、顔認証を用いた人物スコアによる会話の重要度の計算と同様である。換言すれば、ステップＳＴ４６の処理は、第３の重要度算出手法において計算した会話の重要度を、スコア３としてスコアテーブル１０３Ａに記憶する処理である。スコア３は、「カメラデータに写っている当該人物の人物スコア／カメラデータに写っている全員の人物スコアのトータル」により計算される。

　重要度算出部１１１は、スコアテーブル１０３Ａに記憶されたスコア１、スコア２及びスコア３に基づいて、会話の重要度を計算する（ステップＳＴ４７）。会話の重要度は、「各人物のスコアのトータル／全人物のスコアのトータル」により計算される。例えば、図１５に示すようなスコアがスコアテーブル１０３Ａに記憶されている場合、人物１のスコアのトータルは「０．８＋０．７＋０．３７５＝１．８７５」、人物２のスコアのトータルは「０．２＋０．３＋０．６２５＝１．１２５」であるので、人物１の会話の重要度は「１．８７５／（１．８７５＋１．１２５）＝０．６２５」と計算される。人物２の会話の重要度は「１．１２５／（１．８７５＋１．１２５）＝０．３７５」と計算される。

　重要度算出部１１１は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部１１２に出力する。ユーザＵの発話に関しては、重要度算出部１１１は、ステップＳＴ１３乃至ステップＳＴ４７の処理をスキップし、会話の重要度を規定値「１．０」としてグラフィック作成部１１２に出力する。

　グラフィック作成部１１２は、第１の重要度算出手法を実施した場合と同様にして、表示画像（表示結果グラフィックデータ）を生成し、生成した表示結果グラフィックデータをグラフィック返却部３０２に出力する。グラフィック返却部３０２は、この表示結果グラフィックデータを表示端末２に送信して、発話者Ｓ１，Ｓ２が発話した音声に対応する翻訳結果文字列を前面ディスプレイ２０１に表示させ、ユーザＵが発話した音声に対応する翻訳結果文字列を背面ディスプレイ２０４に表示させる。図１６は、図１５の例に対応する会話の重要度に基づく表示エリアの割合の例を説明するための図である。重要度を割合として表示画面を分割することで、重要度が高い人物の翻訳結果文字列を大きく表示することかできる。

　以上説明したような第１実施形態によれば、重要度算出部１１１は、一人のユーザＵに関するユーザオブジェクト及び当該一人のユーザＵと会話する複数の発話者Ｓ１，Ｓ２に関する複数の発話者オブジェクトと、それらオブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受ける。そして、重要度算出部１１１は、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、ユーザＵに対する複数の発話者Ｓ１，Ｓ２それぞれとの会話の重要度を算出する。グラフィック作成部１１２は、この重要度算出部１１１が算出した会話の重要度に基づいて、複数の発話者オブジェクトに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。これにより、グラフィック作成部１１２が生成した複数アノテーションの表示情報を表示する表示端末２は、複数アノテーションを会話の重要度に応じた表示形態で表示することができる。よって、第１実施形態に係る表示情報生成装置を含む情報提示システムは、複数のアノテーションの内の何れが重要であるのかを、ユーザに分かり易く提示することができる。

　会話の重要度の算出及び複数アノテーションの表示情報の生成をユーザ端末１で行う構成であるため、表示端末２は複雑な処理を行う必要がない。よって、表示端末２を安価に提供することができる。

　ここで、重要度算出部１１１が受ける複数の発話者オブジェクトのそれぞれは、表示端末２から送信される各発話者が発話した音声に関する音声オブジェクトを含み、重要度算出部１１１が受ける複数アノテーションは、音声認識エンジン１０１Ｂによる音声オブジェクトからの音声認識結果の文字列を文字翻訳エンジン１０１Ｃにより翻訳した音声翻訳結果の文字列を含む。グラフィック作成部１１２が生成する表示情報は、表示端末２の表示画面に表示される文字列画像であり、表示形態は、表示画面における文字列画像の表示位置と文字列画像における文字の修飾との少なくとも一方を含む。よって、第１実施形態に係る表示情報生成装置を含む情報提示システムによれば、発話者Ｓ１，Ｓ２の発話内容を翻訳してユーザＵに提示する音声翻訳装置を提供することができる。

　また、重要度算出部１１１が受けるユーザオブジェクトは、ユーザＵが発話した音声に関する音声オブジェクトを含み、重要度算出部１１１が受ける複数の発話者オブジェクトは、各発話者が発話した音声に関する音声オブジェクトと、各発話者が発話した音声に関する音声オブジェクト及び複数の発話者Ｓ１，Ｓ２を撮像したカメラデータオブジェクトと、の少なくとも一方を含むことができる。重要度算出部１１１は、第１乃至第３の重要度算出手法、または、それらを組み合わせた第４の重要度算出手法により、会話の重要度を算出することができる。

　第１の重要度算出手法は、カメラデータオブジェクトに占める各発話者の画像の割合を利用する。この手法では、会話の内容を判別する必要が無いため、第１または第３の重要度算出手法を利用する場合に比べて、重要度算出部１１１として機能するユーザ端末１のプロセッサ１０１として、それ程能力が高いものを要求せず、安価なユーザ端末１を利用することができる。

　第２の重要度算出手法は、ユーザオブジェクトに対応する前記音声認識結果の文字列と、複数の発話者オブジェクトそれぞれに対応する前記音声認識結果と前記音声翻訳結果との少なくとも一方の文字列とから検出される、対話の破綻度合いを利用した対話のつながりを利用する。この場合は、会話の内容を判別して重要度を算出するため、第１または第３の重要度算出手法を利用する場合に比べて、より正確に重要度を算出することができる。

　第３の重要度算出手法は、顔認識を用いて事前にスコア付けした発話者Ｓ１，Ｓ２のスコアを利用する。この場合は、ユーザＵが事前に重要人物を指定するので、ユーザＵの意図を反映した会話の重要度を算出することができる。

　第４の重要度算出手法は、第１乃至第３の重要度算出手法の少なくとも二つを組み合わせて利用する。これにより、重要度の算出の正確性を向上することができる。

　また、重要度算出部１１１及びグラフィック作成部１１２は、ユーザ端末１のプロセッサ１０１が表示情報生成アプリ１０１Ａを実行することにより実現されるため、重要度算出手法のチューンナップ、バージョンアップが可能であり、重要度算出の正確性を適宜向上させることが可能となる。更に、新たな重要度の算出手法を追加することも可能である。

　第２の重要度算出手法における対話の破綻度合いは、通信ＩＦ１０７によりネットワーク上に提供された図示しないサーバによって検出するようにしても良い。そのような構成とすれば、第２の重要度算出手法を利用した場合であっても、重要度算出部１１１として機能するユーザ端末１のプロセッサ１０１として、それ程能力が高いものを要求せず、安価なユーザ端末１を利用することが可能となる。

　［変形例］
　図１７は、第１実施形態の変形例における情報提示システムの使用形態を示す概略図である。表示端末４は、ユーザの片目前面に配置される透過型ディスプレイ４０１を有するＨＭＤ（Head Mount Display）の形態で提供される。透過型ディスプレイ４０１の周囲のユーザＵの視界を妨げない位置に、複数の発話者Ｓ１，Ｓ２の音声を取得するためのステレオマイク４０５を構成する左右マイクと、発話者Ｓ１，Ｓ２の画像を取得するためのカメラ４０６とが配置される。

　図１８は、表示端末４のブロック構成図である。表示端末４は、上記の構成加えて、プロセッサ４０９、ＲＯＭ４１０、ＲＡＭ４１１及び通信ＩＦ４１２などを有する。本変形例における情報提示システムは、聴覚に問題を有するユーザに、発話者Ｓ１，Ｓ２が発音した会話の音声認識結果文字列を、表示端末４の透過型ディスプレイ４０１によって提示するシステムである。そのため、表示端末４は、上述した表示端末２の構成から、ユーザＵの音声や画像を取得する構成、並びに、発話者Ｓ１，Ｓ２にユーザＵの発話内容を提示する構成を省略している。

　ユーザ端末１の構成は、図４に示した通りである。機能的には、図５に示した構成から、文字翻訳エンジン１０１Ｃを省略して良い。

　この変形例における情報提示システムでは、重要度算出部１１１は、第１の重要度算出手法、第３の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての音声認識結果文字列をグラフィック作成部１１２に出力する。したがって、発話者Ｓ１，Ｓ２の発話内容の音声認識結果文字列が、会話の重要度に応じた表示形態で透過型ディスプレイ４０１に表示されることができる。

　なお、ユーザ端末１が通常備える図示しないマイクを利用してユーザＵの音声を取得することで、対話の破綻度を利用する第２の重要度算出手法を実施することも可能である。

　このような変形例における情報提示システムによれば、重要度算出部１１１が受ける複数の発話者オブジェクトのそれぞれは、表示端末２から送信される各発話者が発話した音声に関する音声オブジェクトを含み、重要度算出部１１１が受ける複数アノテーションは、音声認識エンジン１０１Ｂによる音声オブジェクトからの音声認識結果の文字列を含む。よって、変形例における情報提示システムによれば、発話者Ｓ１，Ｓ２の発話内容を文字列としてユーザＵに提示する聴覚補助装置を提供することができる。

　［第２実施形態］
　第１実施形態及び変形例は、ユーザ端末１と表示端末２とを含む情報提示システムとして説明したが、それらの機能を一つの筐体に収めた情報提示装置として構成することができる。

　図１９は、第２実施形態に係る表示情報生成装置を含む情報提示装置５の使用形態を示す概略図である。図２０Ａは、情報提示装置５の正面図であり、図２０Ｂは、情報提示装置５の背面図である。この情報提示装置５は、第１実施形態の変形例に対応するものである。情報提示装置５の正面である前面には、ディスプレイ５０１及びキーボード５０２が配置されている。情報提示装置５の背面には、ステレオマイク５０３及びカメラ５０４が配置されている。

　図２１は、情報提示装置５のブロック構成図である。情報提示装置５は、上記の構成加えて、プロセッサ５０５、ＲＯＭ５０６、ＲＡＭ５０７、ＮＶＭ５０８、などを有する。情報提示装置５は、一体型であるため、通信ＩＦを有さなくて良い。

　図２２は、情報提示装置５の機能構成図である。表示情報生成アプリ５０５Ａは第１実施形態の表示情報生成アプリ１０１Ａに対応し、それと同様の重要度算出部１１１及びグラフィック作成部１１２の機能を提供する。ステレオマイク５０３からの音声オブジェクト及びカメラ５０４からのカメラデータオブジェクトは、直接、重要度算出部１１１に出力される。グラフィック作成部１１２は、生成した表示結果グラフィックデータをディスプレイ５０１に出力して表示させる。音声認識エンジン５０５Ｂ、スコアテーブル５０７Ａ及び顔認識ＤＢ５０８Ａは、第１実施形態の音声認識エンジン１０１Ｂ、スコアテーブル１０３Ａ及び顔認識ＤＢ１０４Ａと同様のものである。

　情報提示装置５は、一体型であるため、通信ＩＦを有していないが、それを有しても良い。通信ＩＦを有することで、外部の音声認識エンジンを利用することが可能になる。

　このような構成の情報提示装置５では、重要度算出部１１１は、第１の重要度算出手法、第２の重要度算出手法、第３の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての音声認識結果文字列をグラフィック作成部１１２に出力する。したがって、発話者Ｓ１，Ｓ２の発話内容の音声認識結果文字列が、会話の重要度に応じた表示形態でディスプレイ５０１に表示されることができる。

　ここでは、第１実施形態の変形例に対応する情報提示装置５を説明したが、ユーザＵと発話者Ｓ１，Ｓ２に対して情報を提示する第１実施形態に対応する一体型の情報提示装置も、同様に構成可能なことは勿論である。

　このような第２実施形態に係る表示情報生成装置を含む情報提示装置５によれば、ユーザ端末１を有さないユーザＵに対して、複数のアノテーションの内の何れが重要であるのかを分かり易く提示することができる。

　［第３実施形態］
　第１実施形態とその変形例及び第２実施形態は、一人対複数人で会話を行う場合に対応する表示情報生成装置を説明したが、表示情報生成装置は、複数人対複数人で会話を行う場合にも対応可能である。

　図２３は、第３実施形態に係る表示情報生成装置を含む情報提示装置６の使用形態を示す概略図である。これは、二人のユーザＵ１，Ｕ２と、該ユーザＵ１，Ｕ２の会話相手である二人の発話者Ｓ１，Ｓ２とが、向かい合っている状況である。情報提示装置６は、ユーザＵ１，Ｕ２と発話者Ｓ１，Ｓ２との間に配置される。ユーザ及び発話者はそれぞれ二人に限定するものではなく、三人以上で有って良いことは勿論である。

　図２４Ａは、情報提示装置６正面図であり、図２４Ｂは、情報提示装置６の背面図である。情報提示装置６は、外観的には、第１実施形態で説明した表示端末２と同様の構成を有している。すなわち、情報提示装置６の正面である前面には、前面ディスプレイ６０１、前面ステレオマイク６０２、キーボード６０３、前面サブディスプレイ６０７及び前面カメラが配置されている。但し、前面カメラは、その撮像方向が上下左右方向に調整可能な方向調整可能前面カメラ６０８として形成されている。情報提示装置６の背面についても同様に、背面ディスプレイ２０４、背面ステレオマイク２０５及び背面カメラが配置され、背面カメラは、その撮像方向が上下左右方向に調整可能な方向調整可能背面カメラ６０６として形成されている。情報提示装置６の使用に当たっては、ユーザＵ１またはＵ２は、方向調整可能前面カメラ６０８の画角内にユーザＵ１，Ｕ２の内の少なくとも一人の顔が入るように方向調整可能前面カメラ６０８の撮像方向を調整し、方向調整可能背面カメラ６０６の画角内に発話者Ｓ１，Ｓ２の内の少なくとも一人の顔が入るように、方向調整可能背面カメラ６０６の撮像方向を調整する。

　図２５は、情報提示装置６のブロック構成図である。情報提示装置６は、上記の構成に加えて、プロセッサ６０９、ＲＯＭ６１０、ＲＡＭ６１１、ＮＶＭ６１２、などを有する。情報提示装置６は、一体型であるため、通信ＩＦを有さなくて良い。

　図２６は、情報提示装置の機能構成図である。表示情報生成アプリ６０９Ａは第１実施形態の表示情報生成アプリ１０１Ａに対応し、それと同様の重要度算出部１１１及びグラフィック作成部１１２の機能を提供する。前面ステレオマイク６０２及び背面ステレオマイク６０５からの音声オブジェクト、及び、方向調整可能前面カメラ６０８及び方向調整可能背面カメラ６０６からのカメラデータオブジェクトは、直接、重要度算出部１１１に出力される。グラフィック作成部１１２は、生成した表示結果グラフィックデータを前面ディスプレイ６０１及び背面ディスプレイ６０４に出力して表示させる。音声認識エンジン６０９Ｂ、文字翻訳エンジン６０９Ｃ、スコアテーブル６１１Ａ及び顔認識ＤＢ６１２Ａは、第１実施形態の音声認識エンジン１０１Ｂ、文字翻訳エンジン１０１Ｃ、スコアテーブル１０３Ａ及び顔認識ＤＢ１０４Ａと同様のものである。

　情報提示装置６は、一体型であるため、通信ＩＦを有していないが、それを有しても良い。通信ＩＦを有することで、外部の音声認識エンジン及び文字翻訳エンジンを利用することが可能になる。

　このような構成の情報提示装置６では、重要度算出部１１１は、第１の重要度算出手法、第２の重要度算出手法、第３の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての翻訳結果文字列をグラフィック作成部１１２に出力する。本実施形態では、重要度算出部１１１は、ユーザに関する会話の重要度を第１実施形態のように一律に「１．０」にするのではなく、ユーザＵ１，Ｕ２それぞれについて、発話者Ｓ１，Ｓ２に対してと同様に、第１の重要度算出手法、第２の重要度算出手法、第３の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出する。したがって、発話者Ｓ１，Ｓ２の発話内容の翻訳結果文字列が、会話の重要度に応じた表示形態で前面ディスプレイ６０１に表示され、ユーザＵ１，Ｕ２の発話内容の翻訳結果文字列が、会話の重要度に応じた表示形態で背面ディスプレイ６０４に表示されることができる。

　ここでは、第１実施形態に対応する翻訳機能を有する情報提示装置６を説明したが、翻訳機能を持たない、発話内容の音声認識結果文字列をユーザＵ１，Ｕ２及び発話者Ｓ１，Ｓ２に提示する情報提示装置も、同様に構成可能なことは勿論である。

　このような第３実施形態に係る表示情報生成装置を含む情報提示装置６によれば、重要度算出部１１１は、複数のユーザＵ１，Ｕ２に関する複数のユーザオブジェクト及び当該複数のユーザＵ１，Ｕ２と会話する複数の発話者Ｓ１，Ｓ２に関する複数の発話者オブジェクトと、それらオブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受ける。そして、重要度算出部１１１は、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、複数のユーザＵ１，Ｕ２に対する複数の発話者Ｓ１，Ｓ２それぞれとの会話の重要度、及び、複数の発話者Ｓ１，Ｓ２に対する複数のユーザＵ１，Ｕ２それぞれとの会話の重要度をそれぞれ算出する。グラフィック作成部１１２は、この重要度算出部１１１が算出した各会話の重要度に基づいて、複数のユーザオブジェクト及び複数の発話者オブジェクトそれぞれに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。これにより、グラフィック作成部１１２が生成した複数アノテーションの表示情報を表示する表示端末２は、複数アノテーションを会話の重要度に応じた表示形態で表示することができる。よって、第３実施形態に係る表示情報生成装置を含む情報提示装置６は、複数の発話者Ｓ１，Ｓ２に関する複数のアノテーションの内の何れが重要であるのかを、ユーザＵ１，Ｕ２に分かり易く提示することができ、また、複数のユーザＵ１，Ｕ２に関する複数のアノテーションの内の何れが重要であるのかを、発話者Ｓ１，Ｓ２に分かり易く提示することができる。

　なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。

　　　１…ユーザ端末
　　　２、４…表示端末
　　　３…アクセスポイント仮想基盤
　　　５、６…情報提示装置
　１０１、２０９、４０９、５０５、６０９…プロセッサ
　１０１Ａ、５０５Ａ、６０９Ａ…表示情報生成アプリ
　１０１Ｂ、５０５Ｂ、６０９Ｂ…音声認識エンジン
　１０１Ｃ、６０９Ｃ…文字翻訳エンジン
　１０２、２１０、４１０、５０６、６１０…ＲＯＭ
　１０３、２１１、４１１、５０７、６１１…ＲＡＭ
　１０３Ａ、５０７Ａ、６１１Ａ…スコアテーブル
　１０４Ａ、５０８Ａ、６１２Ａ…顔認識ＤＢ
　１０５、５０１…ディスプレイ
　１０６…タッチパネル
　１０７、２１２、４１２…通信ＩＦ
　１０８、４０６、５０４…カメラ
　１１１…重要度算出部
　１１２…グラフィック作成部
　２０１、６０１…前面ディスプレイ
　２０１Ａ…表示画像
　２０２、６０２…前面ステレオマイク
　２０３、５０２、６０３…キーボード
　２０４、６０４…背面ディスプレイ
　２０５、６０５…背面ステレオマイク
　２０６…背面カメラ
　２０６Ａ…カメラデータ
　２０７、６０７…前面サブディスプレイ
　２０８…前面カメラ
　３００…表示制御アプリ
　３０１…カメラデータ送信部
　３０２…グラフィック返却部
　４０１…透過型ディスプレイ
　４０５、５０３…ステレオマイク
　６０６…方向調整可能背面カメラ
　６０８…方向調整可能前面カメラ

Claims

　少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出する重要度算出部と、
　前記重要度算出部が算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部と、
　を具備する表示情報生成装置。
　前記複数の第２発話者オブジェクトのそれぞれは、各第２発話者が発話した音声に関する音声オブジェクトを含み、
　前記複数アノテーションは、前記音声オブジェクトからの音声認識結果と前記音声認識結果を翻訳した音声翻訳結果との少なくとも一方の文字列を含み、
　前記表示情報は表示画面に表示される文字列画像であり、
　前記表示形態は、前記表示画面における前記文字列画像の表示位置と前記文字列画像における文字の修飾との少なくとも一方を含む、
請求項１に記載の表示情報生成装置。
　前記少なくとも一つの第１発話者オブジェクトは、前記少なくとも一人の第１発話者が発話した音声に関する音声オブジェクトを含み、
　前記複数の第２発話者オブジェクトは、各第２発話者が発話した音声に関する音声オブジェクトと、前記各第２発話者が発話した音声に関する音声オブジェクト及び前記複数の第２発話者を撮像したカメラデータオブジェクトと、の少なくとも一方を含み、
　前記複数アノテーションはそれぞれ、前記音声オブジェクトからの音声認識結果と前記音声認識結果を翻訳した音声翻訳結果との少なくとも一方の文字列を含み、
　前記重要度算出部は、前記会話の重要度を、
　　前記カメラデータオブジェクトに占める各第２発話者の画像の割合、
　　前記少なくとも一つの第１発話者オブジェクトに対応する前記音声認識結果の文字列と、前記複数の第２発話者オブジェクトそれぞれに対応する前記音声認識結果と前記音声翻訳結果との少なくとも一方の文字列とから検出される、対話の破綻度合いを利用した対話のつながり、及び
　　顔認識を用いて事前にスコア付けした前記第２発話者のスコア、
の少なくとも一つに基づいて算出する、
請求項１に記載の表示情報生成装置。
　少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、コンピュータにより、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出し、
　前記コンピュータにより、前記算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する、
　表示情報生成方法。
　表示情報生成装置のコンピュータを、
　　少なくとも一人の第１発話者に関する少なくとも一つの第１発話者オブジェクト及び前記少なくとも一人の第１発話者と会話する複数の第２発話者に関する複数の第２発話者オブジェクトと、前記少なくとも一つの第１発話者オブジェクト及び前記複数の第２発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第２発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第１発話者に対する前記複数の第２発話者それぞれの会話の重要度を算出する重要度算出部、
　前記算出した前記会話の重要度に基づいて、前記複数の第２発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部、
　として機能させるためのコンピュータ読み取り可能な表示情報生成プログラム。