WO2016163028A1

WO2016163028A1 - 発言提示装置、発言提示方法およびプログラム

Info

Publication number: WO2016163028A1
Application number: PCT/JP2015/061269
Authority: WO
Inventors: 長　健太; 敏行加納
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2016-10-13
Also published as: CN107430851B; US10347250B2; US20170365258A1; CN107430851A; JPWO2016163028A1; JP6618992B2

Abstract

　実施形態の発言提示装置（１）は、発言記録部（２）と、音声認識部（３）と、関連度算出部（５）と、ＵＩ制御部（４）と、を備える。発言記録部（２）は、音声による発言を記録する。音声認識部（３）は、記録された発言を音声認識する。関連度算出部（５）は、音声認識された各発言に対し、第１表示領域と第２表示領域とを有するＵＩ画面の前記第２表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する。ＵＩ制御部（４）は、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記ＵＩ画面の前記第１表示領域に表示させる。

Description

発言提示装置、発言提示方法およびプログラム

　本発明の実施形態は、発言提示装置、発言提示方法およびプログラムに関する。

　会議中に記述したメモが会議中のどの発言に対応するかの対応付けを行うことは、例えば会議の議事録作成などの作業を効率化する上で有効である。このような対応付けを行う技術として、会議中の音声および映像の記録に合わせて、テキストとして入力したメモの入力時間を記録し、記録された音声や映像の再生時に対応するメモ部分を表示したり、メモに対応する音声や映像を再生したりする技術が知られている。

　しかし、会議中の発言との対応付けが望まれる情報は、会議中にテキストとして入力されたメモに限らない。例えば、会議中に紙に書かれた手書きのメモや会議前に作成されたアジェンダなど、会議中に入力されない情報についても、会議中の発言との対応付けが望まれる場合もある。また、会議中の発言に限らず、音声による発言を記録する仕組みを持つ様々なシステムにおいて、任意の情報に対応する発言をユーザに分かり易く提示できるようにしたいというニーズがある。

特開２００８－１７２５８２号公報

　本発明が解決しようとする課題は、任意の情報に対応する発言をユーザに分かり易く提示できる発言提示装置、発言提示方法およびプログラムを提供することである。

　実施形態の発言提示装置は、発言記録部と、音声認識部と、関連度算出部と、ＵＩ制御部と、を備える。発言記録部は、音声による発言を記録する。音声認識部は、記録された発言を音声認識する。関連度算出部は、音声認識された各発言に対し、第１表示領域と第２表示領域とを有するＵＩ画面の前記第２表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する。ＵＩ制御部は、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記ＵＩ画面の前記第１表示領域に表示させる。

図１は、第１実施形態の発言提示装置の構成例を示すブロック図である。図２は、実施形態の発言提示装置の動作概要を示すフローチャートである。図３は、会議中の発言を収録するシーンの具体例を説明する図である。図４は、ユーザデータの具体例を示す図である。図５は、会議データの具体例を示す図である。図６は、会議中の発言の具体例を示す図である。図７は、発言データの具体例を示す図である。図８は、発言認識データの具体例を示す図である。図９は、ＵＩ画面の一例を示す図である。図１０は、「議事メモ」領域に議事メモが記入されたＵＩ画面を示す図である。図１１は、入力テキストデータの具体例を示す図である。図１２は、第２実施形態の発言提示装置の構成例を示すブロック図である。図１３は、第３実施形態におけるＵＩ画面の一例を示す図である。図１４は、第４実施形態の発言提示装置の構成例を示すブロック図である。図１５は、録音環境データの具体例を示す図である。図１６は、会議設定画面の一例を示す図である。図１７は、発言提示装置のハードウェア構成の一例を概略的に示すブロック図である。

　以下、実施形態の発言提示装置、発言提示方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態では、会議中の音声による発言を記録し、会議後の議事メモ作成時に、指定されたメモ部分に関連する会議中の発言を提示する構成の発言提示装置を例示する。この発言提示装置は、例えば、ネットワークを利用したサーバ・クライアントシステムのサーバ装置として実現され、クライアント端末に後述のＵＩ画面を表示させてこのＵＩ画面を用いた操作に基づく処理を行うなどのサービスを提供する。なお、発言提示装置は、クラウドシステム上で動作する仮想マシンであってもよい。また、発言提示装置は、ユーザが直接利用する独立の装置として構成されていてもよい。

＜第１実施形態＞
　図１は、本実施形態の発言提示装置１の構成例を示すブロック図である。この発言提示装置１は、図１に示すように、発言記録部２、音声認識部３、ＵＩ制御部４、関連度算出部５、およびデータ蓄積部１０を備える。

　発言記録部２は、会議中に発生する音声による発言を記録する。発言は、その発言を行った発言ユーザが装着するピンマイクもしくはヘッドセットのマイクなどの個別マイク、または集音マイクに入力される。個別マイクまたは集音マイクに入力された発言は、例えば、発言の発生日時、発言ユーザを識別するユーザＩＤ（identification）とともに、発言提示装置１に送信される。発言記録部２は、受信した音声を音声ファイルとして記録する。

　発言記録部２により記録された発言の音声ファイルは、発言を識別する発言ＩＤ、発言の発生日時、発言ユーザのユーザＩＤ、発言の収録に用いたマイク種別（収録マイク種別）、発言が行われた会議を識別する会議ＩＤなどとともに、発言データ１３としてデータ蓄積部１０に蓄積される。収録マイク種別は、例えば、会議開催前のユーザによる登録操作に応じてデータ蓄積部１０に格納されたユーザデータ１１を参照することにより特定される。また、会議ＩＤは、例えば、会議開催前のユーザによる登録操作に応じてデータ蓄積部１０に格納された会議データ１２を参照することにより特定される。

　音声認識部３は、発言記録部２が記録した発言に対する音声認識を行う。音声認識の方法は公知の技術をそのまま利用できるため、ここでは詳細な説明を省略する。音声認識部３は、例えば、入力された発言の音声に対する認識結果の候補のうち、尤度が最大となる候補を音声認識結果として出力するとともに、各候補に含まれる単語すべてを認識キーワードとして出力する。

　音声認識部３が出力する発言の音声認識結果および認識キーワードは、発言を識別する発言ＩＤ、想定される音声認識の精度を表す想定認識精度などとともに、発言認識データ１４としてデータ蓄積部１０に蓄積される。想定認識精度は、例えば、発言の音声の入力方式（具体的には収録マイク種別）などに応じて設定される。

　ＵＩ制御部４は、ユーザの議事メモ作成を支援するＵＩ画面を生成してクライアント端末に提供する。ＵＩ画面は、会議中の発言の音声認識結果を表示する「発言一覧」領域（第１表示領域）と、議事メモの入力を受け付ける「議事メモ」領域（第２表示領域）とを有する。ＵＩ画面の「発言一覧」領域には、会議中に収録された発言の音声認識結果が表示される。ＵＩ画面の「議事メモ」領域は、ユーザが会議の議事メモを入力するために利用される。ユーザが入力した議事メモは「議事メモ」領域にテキストとして表示される。また、「議事メモ」領域は、議事メモのほかにも、会議前に登録されたアジェンダなどの会議に関連する他のテキストが表示される構成であってもよい。ユーザが「議事メモ」領域に入力した議事メモは、例えば行単位で管理され、各行のメモ部分を識別するメモＩＤ、入力された行、議事メモに対応する会議を識別する会議ＩＤなどとともに、入力テキストデータ１５としてデータ蓄積部１０に蓄積される。

　また、ＵＩ制御部４は、ユーザがＵＩ画面の「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと、対応する会議中に収録されて音声認識部３による音声認識が行われた発言のうち、指定された文字列との関連度の高さに基づいて選択された発言の音声認識結果をＵＩ画面の「発言一覧」領域に表示させる。「議事メモ」領域で指定された文字列との関連度は、後述の関連度算出部５により算出される。さらにＵＩ制御部４は、ユーザがＵＩ画面の「発言一覧」領域に音声認識結果が表示されている発言の中から任意の発言を指定する操作を行うと、その発言の音声を再生させる制御を行う。

　ＵＩ制御部４は、例えば、ウェブベースでＵＩ画面を生成してクライアント端末に提供するウェブサーバとして実装される。この場合、クライアント端末は、ＵＩ制御部４が生成したＵＩ画面を、ウェブブラウザを用いてネットワーク越しに利用する。なお、ＵＩ画面の具体的な構成例については詳細を後述する。

　関連度算出部５は、ユーザがＵＩ画面の「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと、対応する会議中に収録され、音声認識部３により音声認識が行われた会議中の各発言に対し、指定された文字列との関連度を各々算出する。この関連度算出部５により算出された関連度の高さに基づいて、ＵＩ画面の「議事メモ」領域で指定された文字列に対応する発言として、ＵＩ画面の「発言一覧」領域に音声認識結果が表示される発言が選択される。なお、関連度の算出方法の具体例については詳細を後述する。

　次に、本実施形態の発言提示装置１による動作の流れを簡単に説明する。図２は、本実施形態の発言提示装置１の動作概要を示すフローチャートであり、（ａ）は会議が行われるたびに実施される発言提示装置１の動作を示し、（ｂ）は会議後にクライアント端末においてＵＩ画面が開かれたときの発言提示装置１の動作を示している。

　なお、会議中に個別マイクにより発言を行うユーザ（会議参加者）の情報や、開催される会議の情報は、会議の開始前にクライアント端末から発言提示装置１にアクセスして登録されるものとする。登録された会議参加者の情報は、ユーザデータ１１としてデータ蓄積部１０に格納され、登録された会議の情報は、会議データ１２としてデータ蓄積部１０に格納される。

　会議が開始されると、会議中の音声による発言が、個別マイクまたは集音マイクに入力されてクライアント端末から発言提示装置１に送信される。発言提示装置１の発言記録部２は、個別マイクまたは集音マイクに入力された発言を、音声ファイルとして記録する（ステップＳ１０１）。発言記録部２により記録された発言の音声ファイルは、発言データ１３としてデータ蓄積部１０に格納される。

　発言記録部２による発言の記録および発言データ１３の格納は、会議が終了するまで継続される。すなわち、会議終了を示すユーザの明示的な操作の有無などにより会議が終了したか否かが判定され（ステップＳ１０２）、会議が終了していなければ（ステップＳ１０２：Ｎｏ）、個別マイクまたは集音マイクに会議中の発言が入力されるたびに、発言記録部２によるステップＳ１０１の処理が繰り返される。そして、会議が終了すると（ステップＳ１０２：Ｙｅｓ）、音声認識部３が、発言データ１３としてデータ蓄積部１０に蓄積された会議中の各発言に対して音声認識を行う（ステップＳ１０３）。音声認識部３による音声認識によって得られる各発言の音声認識結果および認識キーワードは、発言認識データ１４としてデータ蓄積部１０に格納される。なお、音声認識部３による会議中の発言に対する音声認識は、会議中に行われてもよい。

　会議の終了後、クライアント端末から議事メモ作成の要求があると、発言提示装置１のＵＩ制御部４が、ＵＩ画面をクライアント端末に表示させる。そして、ユーザがこのＵＩ画面の「議事メモ」領域に議事メモを記入する操作を行うと（ステップＳ２０１）、そのテキストが「議事メモ」領域に表示されるとともに、記入された議事メモが、入力テキストデータ１５としてデータ蓄積部１０に格納される。

　その後、ユーザが「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと（ステップＳ２０２）、関連度算出部５が、会議中に収録された各発言に対し、指定された文字列との関連度を算出する（ステップＳ２０３）。そして、ＵＩ制御部４が、関連度算出部５により算出された関連度が高い発言を表示対象の発言として選択し、選択した発言の音声認識結果を、ＵＩ画面の「発言一覧」領域に表示させる（ステップＳ２０４）。議事メモを作成するユーザは、「発言一覧」領域に表示された発言の音声認識結果を参照することで、「議事メモ」領域で指定した文字列に対応する会議中の発言を、視覚を通じて確認することができる。また、議事メモを作成するユーザは、必要に応じて「発言一覧」領域に音声認識結果が表示されたいずれかの発言を指定し、その発言の音声を再生することにより、「議事メモ」領域で指定した文字列に対応する会議中の発言を、聴覚を通じて確認することもできる。

　その後、議事メモ作成の終了を示すユーザの明示的な操作の有無などにより議事メモ作成が終了したか否かが判定され（ステップＳ２０５）、議事メモ作成が終了していなければ（ステップＳ２０５：Ｎｏ）、ステップＳ２０１からステップＳ２０４までの処理が繰り返される。そして、議事メモ作成が終了すると（ステップＳ２０５：Ｙｅｓ）、発言提示装置１による一連の動作が終了する。

　次に、具体的な会議の事例を例示しながら、本実施形態の発言提示装置１の動作について、さらに詳しく説明する。

　図３は、会議中の発言を収録するシーンの具体例を説明する図である。図３では、会議室内で“池田”、“山本”、“田中”の３名により会議が行われている様子を例示している。会議室の卓上には、本実施形態の発言提示装置１とネットワークを介して接続されるクライアントＰＣ（パーソナルコンピュータ）２０が設置されている。会議参加者のうち、“池田”と“山本”はそれぞれヘッドセット３０を装着しており、“池田”の発言と“山本”の発言は、それぞれヘッドセット３０の個別マイクに入力される。また、会議の卓上には集音マイク４０が設置されており、ヘッドセット３０を装着していない“田中”の発言は、この集音マイク４０に入力される。なお、集音マイク４０は、ヘッドセット３０を装着していない“田中”の発言だけでなく、ヘッドセット３０を装着している“池田”や“山本”の発言も含めて、会議中に発生した音声をすべて入力している。

　“池田”と“山本”が装着しているヘッドセット３０や卓上に設置された集音マイク４０は、クライアントＰＣ２０に接続されている。これらヘッドセット３０や集音マイク４０に入力された会議中の発言は、クライアントＰＣ２０からネットワークを介して発言提示装置１に送信される。なお、ここではクライアント端末の一例としてクライアントＰＣ２０を例示しているが、これに限らず、例えばタブレット端末やテレビ会議用の端末などの他の端末をクライアント端末として用いてもよい。

　また、ここではすべての会議参加者が１つの会議室に集まって会議を行うシーンを想定しているが、地理的に離れた拠点間で遠隔会議を行う場合にも、本実施形態の発言提示装置１は有効に動作する。この場合、遠隔会議を行う各拠点に、本実施形態の発言提示装置１とネットワークを介して接続されるクライアントＰＣ２０のような端末をそれぞれ配置し、各拠点の会議参加者が装着するヘッドセット３０や集音マイク４０を各拠点の端末に接続すればよい。

　本実施形態の発言提示装置１を用いて会議中の発言を記録する場合、会議参加者のうち、少なくとも個別マイクを用いて発言を収録するユーザの登録と、開催される会議の登録が会議の開催前に行われる。ユーザの登録は、例えば、ユーザがクライアントＰＣ２０を用いて発言提示装置１にアクセスし、発言提示装置１からクライアントＰＣ２０に提供されるユーザ登録画面に名前を入力するといった簡単な方法で実現できる。登録されたユーザには固有のユーザＩＤが付与され、入力された名前とともに、ユーザデータ１１としてデータ蓄積部１０に格納される。

　図４は、データ蓄積部１０に格納されたユーザデータ１１の具体例を示す図である。ユーザデータ１１は、例えば図４に示すように、登録されたユーザのユーザＩＤと名前とを対応付けた形式でデータ蓄積部１０に格納される。また、ユーザデータ１１には、集音マイク４０を用いて収録された発言を区別するために設けた特殊なユーザとして、“集音マイク”ユーザが含まれる。図４に示したユーザデータ１１の例では、“集音マイク”ユーザのユーザＩＤは“－１＿ｕ”である。なお、図４の形式は一例であり、ユーザデータ１１として、各ユーザが発言提示装置１にログインする際に用いるアカウント名およびパスワード、メールアドレスなどといった他の情報を含んでいてもよい。

　会議の登録は、例えば、会議参加者のうちの１人がクライアントＰＣ２０を用いて発言提示装置１にアクセスし、発言提示装置１からクライアントＰＣ２０に提供される会議設定画面に会議参加者の名前と会議のタイトルを入力するといった簡単な方法で実現できる。ヘッドセット３０を装着しない会議参加者（図３の例では“田中”）の名前は、“集音マイク”が入力される。会議設定画面に入力された会議参加者の名前は、上述のユーザデータ１１を用いてユーザＩＤに変換される。登録された会議には固有の会議ＩＤが付与され、会議参加者のユーザＩＤおよび入力された会議のタイトルとともに、会議データ１２としてデータ蓄積部１０に格納される。

　図５は、データ蓄積部１０に格納された会議データ１２の具体例を示す図である。この図５の会議データ１２の例では、２つの会議が登録されていることが示されており、会議参加者はユーザデータ１１内のユーザＩＤで管理されている。このうち、会議ＩＤが“１＿ｃ”の会議が図３の例に対応しており、会議参加者のユーザＩＤが“１＿ｕ”、“３＿ｕ”、“－１＿ｕ”であるので、会議には“池田”と“山本”が参加するほか、集音マイク４０を用いた音声の収録も行われることが示されている。なお、図５の形式は一例であり、会議データ１２として、会議のアジェンダや関連キーワード、開催日時などといった他の情報を含んでいてもよい。

　会議の登録後、実際に会議が開始されると、会議中の音声による発言が個別マイクや集音マイクに入力される。図６は、会議中の発言の具体例を示す図であり、図３に例示した環境で収録される発言例を示している。“池田”の発言と“山本”の発言は、各々が装着しているヘッドセット３０の個別マイクに入力される。クライアントＰＣ２０では、予めそれぞれのヘッドセット３０をどのユーザが利用するかが登録されており、ヘッドセット３０の個別マイクに入力された発言は、そのヘッドセット３０を利用するユーザのユーザＩＤとともに発言提示装置１に送信されるものとする。また、“田中”を含む３人の発言は集音マイク４０に入力され、“集音マイク”ユーザのユーザＩＤとともに発言提示装置１に送信される。発言提示装置１では、クライアントＰＣ２０から受信した発言が発言記録部２により音声ファイルとして記録され、発言データ１３としてデータ蓄積部１０に格納される。

　図７は、データ蓄積部１０に蓄積される発言データ１３の具体例を示す図であり、図６の発言例に対応する発言データ１３を示している。発言データ１３は、例えば図７に示すように、各発言に付与された固有の発言ＩＤと、その発言の発生日時と、発言ユーザのユーザＩＤと、発言を記録した音声ファイルのファイル名と、収録マイク種別と、発言が行われた会議の会議ＩＤとを対応付けた形式でデータ蓄積部１０に格納される。

　発言の発生日時は、発言に付加されてクライアントＰＣ２０から送信される情報であってもよいし、発言提示装置１において発言を受信した際に付与する情報であってもよい。収録マイク種別は、発言に付加されてクライアントＰＣ２０から送信されるユーザＩＤをもとに、例えばユーザデータ１１を参照することで取得できる。また、会議ＩＤは、登録された会議データ１２から取得できる。

　なお、収録マイク種別が“個別マイク”の発言は、無音区間やユーザからの明示的な発言開始、終了の入力操作などを元に、一文の発言ごとに分けて記録される。一方、収録マイク種別が“集音マイク”の発言は、例えば１分間といった予め定めた記録単位ごとにまとめて記録される。例えば図７に示す発言ＩＤ“６＿ｓ”の発言は、１０：０５：００から１０：０６：００の間に集音マイク４０を用いて収録された発言である。なお、図７の形式は一例であり、発言データ１３として他の情報を含んでいてもよい。

　会議の終了後、例えば会議参加者の操作に応じてクライアントＰＣ２０から発言提示装置１に会議の終了が通知されると、発言提示装置１の音声認識部３により発言の音声認識が行われる。そして音声認識部３が出力する各発言の音声認識結果および認識キーワードが、発言認識データ１４としてデータ蓄積部１０に格納される。なお、音声認識部３による発言の音声認識は、発言記録部２による発言の記録と合せて会議中に行われてもよい。

　図８は、発言認識データ１４の具体例を示す図であり、図６の発言例に対応する発言認識データ１４を示している。発言認識データ１４は、例えば図８に示すように、各発言の発言ＩＤと、その発言に対する音声認識結果のテキスト（認識結果）と、認識キーワードと、想定される音声認識の精度を表す想定認識精度とを対応付けた形式でデータ蓄積部１０に格納される。

　認識結果は、認識結果の候補のうちで尤度が最大となる候補のテキストである。説明を簡単にするため、図８に例示する認識結果はすべて音声認識が正しく行われた例を示している。しかし実際には、発言を収録する環境やユーザの話し方の影響などを受けて、認識結果に誤りが含まれている場合もある。なお、後述の想定認識精度が５０％を下回る発言については、認識結果は保存されず、認識キーワードのみが保存される。例えば図８に示す発言ＩＤ“６＿ｓ”の発言と発言ＩＤ“１２＿ｓ”の発言は、想定認識精度が５０％を下回る３０％であるため、認識結果は保存されず、認識キーワードのみが保存されている。

　認識キーワードは、認識結果の候補に含まれる単語を抽出したものである。認識キーワードの抽出方式としては、認識結果の候補に含まれる形態素情報から名詞のみを抽出するなどの方法がある。また、頻出する一般的な名詞を認識キーワードに含めないなどの方法を用いてもよい。なお、認識結果の候補から抽出された各認識キーワードは、対応する発言の開始時刻から何秒経過した後にその認識キーワードが発言されたかを表す発言中出現時間と併せて格納されることが望ましい。

　想定認識精度は、音声認識部３による音声認識の精度を表す想定値である。音声認識の精度は音声の収録環境に依存するため、例えば収録マイク種別を用いて、ユーザの口元から個別に音声を入力する個別マイクには８０％といった高い値を設定し、口元から離れた位置で複数のユーザの発言が同時に入力される可能性がある集音マイクには３０％といった低い値を設定することができる。なお、想定認識精度を設定する方法はこれに限らず、音声認識の精度に関わる他の情報も加味して想定認識精度を設定してもよい。また、図８の形式は一例であり、発言認識データ１４として他の情報を含んでいてもよい。また、発言認識データ１４を発言データ１３と併せてデータ蓄積部１０に蓄積する構成であってもよい。

　会議の終了後、会議の議事メモを作成するユーザがクライアントＰＣ２０を用いて発言提示装置１にアクセスし、会議を指定して議事メモ作成を要求すると、発言提示装置１のＵＩ制御部４が、指定された会議に関連するデータをデータ蓄積部１０から収集し、ＵＩ画面を生成してクライアントＰＣ２０に提供する。発言提示装置１のＵＩ制御部４が提供するＵＩ画面は、クライアントＰＣ２０に表示される。

　図９は、クライアントＰＣ２０が表示するＵＩ画面の一例を示す図である。この図９に示すＵＩ画面１００は、画面左側に「発言一覧」領域１１０を有し、画面右側に「議事メモ」領域１２０を有する画面構成となっている。「発言一覧」領域１１０には、発言認識データ１４の認識結果１１１が、発言の発生順に時系列で上から下方向に表示される。「発言一覧」領域１１０の左端に配置されたバー１１２は、集音マイク４０を用いて収録された会議全体の音声を表し、その右側に配置された色分けされたバー１１３は、ヘッドセット３０の個別マイクを用いて収録された各ユーザの発言を表している。これらのバー１１２，１１３をクリックすることで、クリックした場所に対応する時間から音声が再生される構成となっている。

　また、「議事メモ」領域１２０は、議事メモを作成するユーザが任意のテキストを入力する領域である。「議事メモ」領域１２０には、テキスト入力用のカーソル１２１が配置されている。ユーザの要求に応じて最初に表示されるＵＩ画面１００では、図９に示すように、「議事メモ」領域１２０には何も表示されていない。ただし、会議データ１２として会議のアジェンダが登録されている場合には、そのアジェンダの内容が初期テキストとして「議事メモ」領域１２０に表示されていてもよい。議事メモを作成するユーザは、例えば会議中にメモ帳などに記載した手書きのメモなどを参照して、任意の文字列をこの「議事メモ」領域１２０に議事メモとして記入することができる。「議事メモ」領域１２０に記入された議事メモは、この「議事メモ」領域１２０にテキストとして表示される。なお、「議事メモ」領域１２０への議事メモの記入は、会議中に行われてもよい。すなわち、会議中にクライアントＰＣ２０にＵＩ画面１００を表示させ、会議を行いながらキーボードなどを用いて「議事メモ」領域１２０に議事メモを直接入力することもできる。

　ＵＩ画面１００の「議事メモ」領域１２０に記入された議事メモは、例えば、行単位の入力テキストデータ１５として、データ蓄積部１０に格納される。図１０は、「議事メモ」領域１２０に議事メモが記入されたＵＩ画面１００を示す図である。また、図１１は、データ蓄積部１０に格納される入力テキストデータ１５の具体例を示す図であり、図１０の議事メモに対応する入力テキストデータ１５を示している。入力テキストデータ１５は、例えば図１１に示すように、固有のメモＩＤと、そのテキストが記入された行と、テキストの内容と、議事メモ作成の対象となる会議の会議ＩＤとを対応付けた形式でデータ蓄積部１０に格納される。なお、図１１の形式は一例であり、入力テキストデータ１５として他の情報を含んでいてもよい。

　ＵＩ画面１００の「議事メモ」領域１２０に議事メモを記入した後、ユーザがカーソル１２１を移動させるなどの操作を行って「議事メモ」領域１２０に表示されている任意の文字列を指定する操作を行うと、発言提示装置１の関連度算出部５が、会議中に記録された発言のうち、発言認識データ１４に認識結果が含まれる各発言に対し、指定された文字列との関連度を各々算出する。そして、ＵＩ制御部４が、例えば、関連度算出部５により算出された関連度が高い順に所定数の発言を表示対象の発言として選択し、選択した発言の音声認識結果をＵＩ画面１００の「発言一覧」領域１１０に表示させる制御を行う。

　図１０のＵＩ画面１００の例では、「議事メモ」領域１２０に記入された議事メモのうち、“音声合成は？関連技術？”というメモ部分が記入された行にカーソル１２１が合っており、この行をテキスト解析することで得られる名詞である“音声合成”および“関連技術”が、指定された文字列となる。この場合、関連度算出部５は、発言認識データ１４に認識結果が含まれる各発言に対し、“音声合成”や“関連技術”との関連度を各々算出する。そして、ＵＩ制御部４は、図１０に示すように、会議中の発言のうち、“音声合成”や“関連技術”との関連度が高い発言の音声認識結果を「発言一覧」領域１１０に表示させる。

　なお、「議事メモ」領域１２０上で文字列を指定する操作方法は、カーソル１２１を合せる方法に限らない。例えば、マウスのドラッグ操作による範囲指定といった他の操作方法による文字列の指定を受け付ける構成であってもよい。

　また、ＵＩ制御部４は、想定認識精度が５０％を下回るために発言認識データ１４に認識結果が含まれていない発言について、認識キーワードとして保存されている単語のうちで、指定された文字列の少なくとも一部を含む単語を、表示対象として選択した発言の音声認識結果とともに、「発言一覧」領域１１０に表示させる。この単語の表示位置は、会議中における音声の発生時刻に基づいて決定される。すなわち、ＵＩ制御部４は、想定認識精度が５０％を下回る発言の発言認識データ１４に含まれる認識キーワードのうち、指定された文字列の少なくとも一部を含む認識キーワードを、上述した発言中出現時間を用いて、その認識キーワードが発言された時間に相当する「発言一覧」領域１１０上の位置に表示させる。ただし、その位置に関連度が高い発言の音声認識結果が表示される場合は、認識キーワードの表示は行われない。

　図１０のＵＩ画面１００の例は、図３に示した集音マイク４０を用いて収録される“田中”の発言の音声認識結果は「発言一覧」領域１１０に表示されないが、“田中”の発言に含まれる“音声合成”や“関連技術”といった認識キーワード１１４が表示されていることを示している。これは、図８に示した発言認識データ１４の例において、発言ＩＤ“１２＿ｓ”の認識キーワードのうち、ユーザが「議事メモ」領域１２０上で指定した“音声合成”や“関連技術”と一致するものを抽出し、その認識キーワードの発言中出現時間を元に「発言一覧」領域１１０に表示させたものである。なお、このような認識キーワードが存在しておらず、かつ、個別マイクによる発言がない時間については、図１０のように「・・・」などを表示することで、発言は記録されているが音声認識結果は表示していないことを示すことが望ましい。

　また、図１０のＵＩ画面１００の例では、発言認識データ１４に認識結果が含まれる発言のうち、関連度算出部５により算出された関連度が低い発言の音声認識結果は表示されないようにしているが、関連度が低い発言についても、その発言の音声認識結果の先頭部分のみを「発言一覧」領域１１０に表示させるようにしてもよい。

　ここで、関連度算出部５による関連度の算出方法の具体例について説明する。関連度算出部５は、例えば以下の手順で、指定された文字列に対する各発言の関連度を算出する。まず、発言認識データ１４に含まれる各発言の認識結果のテキスト、および「議事メモ」領域１２０上で指定された文字列を、形態素解析を用いて単語に分割する。その後、分割された各単語に対して、発言認識データ１４に含まれる各発言の認識結果のテキスト全体をコーパスとし、各発言の認識結果のテキストをドキュメントとしたｔｆ（Term　Frequency）－ｉｄｆ（Inverse　Document　Frequency）を用いて重みを設定する。そして、各発言の認識結果のテキストと、「議事メモ」領域１２０上で指定された文字列それぞれに対して、ｔｆ－ｉｄｆの重みを付加した単語の出現ベクトルを生成し、各発言について生成した単語の出現ベクトルと、「議事メモ」領域１２０上で指定された文字列について生成した単語の出現ベクトルとのコサイン類似度を算出する。その後、各発言のコサイン類似度に対し、その発言の前後の一定数の発言のコサイン類似度を加算したものを、「議事メモ」領域１２０上で指定された文字列に対するその発言の関連度として算出する。なお、前後の発言のコサイン類似度を加算せずに、各発言のコサイン類似度を関連度として算出するようにしてもよい。また、各発言の単語の出現ベクトルは、その発言の認識結果に含まれる単語だけでなく、認識結果の候補に含まれる単語（認識キーワード）も含めて生成してもよい。

　関連度を以上の方法で算出する場合、ＵＩ制御部４は、発言認識データ１４に認識結果が含まれる各発言を、関連度算出部５により算出された関連度が高い順にソートして、上位の所定数の発言を表示対象として選択する。そして、ＵＩ制御部４は、表示対象として選択した発言の音声認識結果を、その発言の発生順に応じた時系列で、ＵＩ画面１００の「発言一覧」領域１１０に表示させる。

　また、関連度算出部５は、以上のように単語に対するｔｆ－ｉｄｆの重み付けを行わず、単純に、「議事メモ」領域１２０上で指定された文字列が認識結果のテキストに含まれるか否かにより、各発言の関連度を算出するようにしてもよい。この場合、関連度算出部５により算出される関連度は、「議事メモ」領域１２０上で指定された文字列が認識結果のテキストに含まれることを示す“１”、含まれないことを示す“０”といった２値の値となる。ＵＩ制御部４は、関連度算出部５により算出される関連度が“１”となった発言を表示対象として選択し、その発言の音声認識結果を、その発言の発生順に応じた時系列で、ＵＩ画面１００の「発言一覧」領域１１０に表示させる。

　議事メモを作成するユーザは、ＵＩ画面１００の「発言一覧」領域１１０に表示された発言の音声認識結果を参照し、必要に応じて、その音声認識結果に対応する発言の音声を再生させることにより、「議事メモ」領域１１０に記入した議事メモに関連する発言の内容を確認することができ、不足する情報を新たに追加するといった議事メモの拡充などを効率よく行うことができる。

　以上、具体的な例を挙げながら詳細に説明したように、本実施形態の発言提示装置１では、会議中に収録された発言を発言記録部２が記録し、音声認識部３がその発言の音声認識を行う。そして、ＵＩ制御部４が「発言一覧」領域１１０と「議事メモ」領域１２０とを含むＵＩ画面１００をクライアント端末に表示させ、「議事メモ」領域１２０上で文字列が指定されると、関連度算出部５が、音声認識された各発言に対して「議事メモ」領域１２０上で指定された文字列との関連度を算出する。そして、ＵＩ制御部４が、関連度算出部５により算出された関連度の高い発言を表示対象として選択し、選択した発言の音声認識結果をＵＩ画面１００の「発言一覧」領域１１０に表示させる。したがって、この発言提示装置１によれば、「議事メモ」領域１２０に入力された任意の情報に対応する発言をユーザに分かり易く提示して確認させることができ、議事メモ作成などのユーザの作業を適切に支援することができる。

＜第２実施形態＞
　次に、第２実施形態について説明する。本実施形態は、関連度算出部５による関連度の算出方法が上述した第１実施形態と異なる。発言提示装置１の基本的な構成や動作は第１実施形態と同様であるため、以下では第１実施形態と共通部分については重複した説明を省略し、第１実施形態との相違点のみを説明する。

　本実施形態の関連度算出部５は、認識結果のテキストのみを用いて各発言の関連度を算出するのではなく、その会議に関連する様々な文書を用いてテキストのトピックを算出し、算出したトピックを用いて関連度を算出する。ここでトピックとは、そのテキストの大まかな意味合いを示し、例えばＬＤＡ（Latent　Dirichlet　Allocation）などのトピック解析手法を用いて算出される。

　図１２は、本実施形態の発言提示装置１の構成例を示すブロック図である。図１に示した第１実施形態の発言提示装置１の構成との違いは、データ蓄積部１０に蓄積されるデータとして会議関連文書データ１６が追加され、関連度算出部５が、この会議関連文書データ１６を用いて各発言の関連度を算出する点である。会議関連文書データ１６は、例えば、ある会議について、データ蓄積部１０に蓄積されている他の関連する会議の発言認識データ１４や入力テキストデータ１５を集約したデータである。なお、会議関連文書データ１６として、例えば、インターネット上からクロールした、会議に関連する話題の文書を用いてもよい。

　本実施形態の関連度算出部５は、例えば以下の手順で、指定された文字列に対する各発言の関連度を算出する。まず、発言認識データ１４に含まれる各発言の認識結果のテキスト、および「議事メモ」領域１２０上で指定された文字列を、形態素解析を用いて単語に分割する。その後、各発言の認識結果のテキストと、「議事メモ」領域１２０上で指定された文字列それぞれに対して、発言認識データ１４に含まれる各発言の認識結果のテキスト全体と会議関連文書データ１６とをコーパスとして、ＬＤＡなどを用いてトピックを表す単語とその重みの列からなるベクトルを生成し、各発言について生成したベクトルと、「議事メモ」領域１２０上で指定された文字列について生成したベクトルとのコサイン類似度を算出する。その後、各発言のコサイン類似度に対し、その発言の前後の一定数の発言のコサイン類似度を加算したものを、「議事メモ」領域１２０上で指定された文字列に対するその発言の関連度として算出する。なお、前後の発言のコサイン類似度を加算せずに、各発言のコサイン類似度を関連度として算出するようにしてもよい。また、トピックの算出には、ＬＤＡ以外の手法、例えばＬＳＩ（Latent　Semantic　Indexing）などを用いてもよい。

　以上説明したように、本実施形態では、関連度算出部５が、各発言のトピックと指定された文字列のトピックとの類似度を用いて、指定された文字列に対する各発言の関連度を算出する。このため、上述した第１実施形態と比べて、指定された文字列に対する各発言の関連度をより精度よく算出することができる。

＜第３実施形態＞
　次に、第３実施形態について説明する。本実施形態は、ＵＩ画面１００の「議事メモ」領域１２０上で指定された文字列に対応する発言の音声認識結果だけでなく、「議事メモ」領域１２０に表示されている文字列の構造に基づいて選択された文字列に対応する発言の音声認識結果も併せてＵＩ画面１００の「発言一覧」領域１１０に表示させる例である。発言提示装置１の基本的な構成や動作は第１実施形態と同様であるため、以下では第１実施形態と共通部分については重複した説明を省略し、第１実施形態との相違点のみを説明する。

　例えば、「議事メモ」領域１２０の任意の行にカーソル１２１を合せるといった方法で文字列を指定する場合、第１実施形態では、「議事メモ」領域１２０中に表示されている文字列のうち、カーソル１２１の合っている行の文字列に対応する発言の音声認識結果を「発言一覧」画面１１０に表示させるようにしている。これに対し、本実施形態では、「議事メモ」領域１２０のインデントを用いてテキスト構造を把握し、カーソル１２１の合っている行の話題の上位レベルの見出し語についても、対応する発言の音声認識結果を「発言一覧」領域１１０に表示させる。

　図１３は、本実施形態においてクライアントＰＣ２０に表示されるＵＩ画面１００の一例を示す図である。図１３のＵＩ画面１００の例では、「議事メモ」領域１２０に記入された議事メモのうち、“保守業務”というメモ部分が記入された行にカーソル１２１が合っており、この“保守業務”が指定された文字列となる。また、“保守業務”が記入された行は、先頭にスペース１文字分のインデントが設定されているのに対し、２行上の“展示会”というメモ部分が記入された行１２２は先頭にインデントが設定されておらず、この行１２２の“展示会”という文字列が、指定された文字列である“保守業務”よりも上位の見出し語になっていると推定される。

　この場合、関連度算出部５は、発言認識データ１４に認識結果が含まれる各発言に対し、指定された文字列である“保守業務”との関連度に加えて、“展示会”との関連度も算出する。そして、ＵＩ制御部４は、図１３に示すように、会議中の発言のうち、“保守業務”との関連度が高い発言の音声認識結果と併せて、“展示会”との関連度が高い発言の音声認識結果についても、「発言一覧」領域１１０に時系列で表示させる。また、第１実施形態と同様に、想定認識精度が低いために認識結果が保存されていない発言の認識キーワードの中に“保守業務”や“展示会”が含まれている場合は、その認識キーワードが発言された時間に対応する位置に表示させる。

　なお、「議事メモ」領域１２０上の文字列と「発言一覧」領域１１０に表示された発言の音声認識結果との対応関係を明確にするため、例えば、「議事メモ」領域１２０上の指定された文字列とそれに対応する「発言一覧」領域１１０上の発言の音声認識結果の背景を同色に色づけして表示するとともに、「議事メモ」領域１２０上のテキスト構造に基づいて選択された文字列とそれに対応する「発言一覧」領域１１０上の発言の音声認識結果の背景を同色に色づけして表示するといった方法を用いることが望ましい。図１３のＵＩ画面１００の例では、「議事メモ」領域１２０上の“保守業務”が記入された行と、「発言一覧」領域１１０の“保守業務”対応する発言の音声認識結果および認識キーワードが同色の背景上で表示され、「議事メモ」領域１２０上の“展示会”が記入された行と、「発言一覧」領域１１０の“展示会”対応する発言の音声認識結果が同色の背景上で表示されている。

　以上説明したように、本実施形態では、ユーザにより指定された文字列に対応する発言の音声認識結果だけでなく、その文字列の上位の見出し語などに対応する発言の音声認識結果も提示するので、例えば議事メモ作成などのユーザの作業をより適切に支援することができる。

＜第４実施形態＞
　次に、第４実施形態について説明する。本実施形態は、想定認識精度の設定において、収録マイク種別だけでなく、いくつかの録音環境データを用意しておき、会議、ユーザごとに個別の設定を行う例である。発言提示装置１の基本的な構成や動作は第１実施形態と同様であるため、以下では第１実施形態と共通部分については重複した説明を省略し、第１実施形態との相違点のみを説明する。

　図１４は、本実施形態の発言提示装置１の構成例を示すブロック図である。図１に示した第１実施形態の発言提示装置１の構成との違いは、録音環境データ１７が追加され、音声認識部３が、この録音環境データ１７を参照して各発言の推定認識精度を設定している点である。録音環境データ１７では、収録マイク種別のほかに、特定のユーザの発言であるか、特定の場所で収録した発言であるか、収録した発言の音声に対して後処理を行ったかなどの条件ごとに、想定認識精度が定められている。

　図１５は、録音環境データ１７の具体例を示す図である。録音環境データ１７は、例えば図１５に示すように、個々のデータに付与された固有のデータＩＤと、収録マイク種別と、発言ユーザのユーザＩＤと、発言が収録された場所と、後処理の有無と、想定認識精度とを対応付けた形式とされる。図１５の録音環境データ１７の例において、内容が“＊”となっている項目は、発言ユーザや発言が収録された場所を特定しない設定を示している。“話者照合”は、集音マイク４０を用いて収録された音声を、各話者の音声の音響的な特徴を用いてそれぞれの話者ごとに分離する後処理を示している。なお、図１５の形式は一例であり、録音環境データ１７として他の情報を含んでいてもよい。

　本実施形態の音声認識部３は、発言認識データ１４の想定認識精度を設定する際に、以上のような録音環境データ１７を利用する。各発言がどの条件に該当するかは、会議登録時に会議設定画面を用いて登録された会議に関する会議データ１２や、その会議中に収録された発言の発言データ１３などを用いて特定される。

　図１６は、会議設定画面の一例を示す図である。この図１６に示す会議設定画面２００には、会議のタイトルを入力するためのテキストボックス２０１、会議が行われる場所（発言が収録される場所）を入力するためのテキストボックス２０２、会議の出席者（会議参加者）を入力するためのテキストボックス２０３、およびその出席者の発言の収録に用いるマイクの種別（収録マイク種別）を入力するためのテキストボックス２０４が設けられている。

　図１６の会議設定画面２００の例では、会議が行われる場所（発言が収録される場所）が“サーバ室”であることが示されている。このため、図１５に例示した録音環境データ１７のうち、データＩＤが“４＿ｄ”の条件に該当し、想定認識精度は“６０％”に設定される。これは、サーバ室のように騒音の多い環境で収録された発言の音声認識精度は、騒音の少ない環境で収録された発言の音声認識精度よりも低くなることが想定されるため、個別マイクを用いて収録された発言の想定認識精度が８０％から６０％に下がることを示している。

　なお、録音環境データ１７に含まれる複数のデータの条件に合致する場合は、これら複数のデータで示される想定認識精度のうち、最も低い想定認識精度が設定される。例えば、図１６の会議設定画面２００の例では、ユーザＩＤが“２＿ｕ”の“大島”が会議に出席することが示されているため、この会議における“大島”の発言については、図１５に例示した録音環境データ１７のうち、データＩＤが“３＿ｄ”の条件と、データＩＤが“４＿ｄ”の条件との双方に合致する。この場合、データＩＤが“３＿ｄ”の想定認識精度である９０％と、データＩＤが“４＿ｄ”の想定認識精度である６０％とを比較し、低い方の６０％が“大島”の発言の想定認識精度として設定される。

　以上説明したように、本実施形態では、収録マイク種別だけでなく、発言の収録に関わる様々な条件を考慮して想定認識精度を設定するので、想定認識精度をより精度よく設定することができる。

　なお、以上のように設定される想定認識精度は、第１実施形態で説明したように、発言認識データ１４として認識結果を保存するか否かの判定に用いることに加えて、ＵＩ制御部４がＵＩ画面１００の「発言一覧」領域１１０に認識結果を表示させる対象となる発言を選択するために用いることもできる。すなわち、ＵＩ制御部４は、関連度算出部５により算出された指定された文字列との関連度に加えて、音声認識部３により設定された想定認識精度を用いて、「発言一覧」領域１１０に認識結果を表示させる対象となる発言を選択するようにしてもよい。

　具体的には、ＵＩ制御部４は、例えば、第１実施形態や第２実施形態で説明した算出方法で関連度算出部５が算出した関連度に対し、音声認識部３が設定した想定認識精度を乗算した値を各発言のスコアとして求め、得られたスコアが大きい順に各発言をソートして、上位の所定数の発言を表示対象として選択する。そして、ＵＩ制御部４は、表示対象として選択した発言の音声認識結果を、その発言の発生順に応じた時系列で、ＵＩ画面１００の「発言一覧」領域１１０に表示させる。これにより、指定された文字列との関連度が高い発言の中でも特に想定認識精度が高い発言を優先してユーザに提示することができる。なお、音声認識精度が極端に低い発言については、指定された文字列と一致する認識キーワードの表示を行わないようにしてもよい。

＜補足説明＞
　以上、実施形態の発言提示装置として、会議中の発言を記録して、ユーザにより指定された任意の文字列に対応する発言を提示する構成の発言提示装置１を例示したが、実施形態の発言提示装置は会議中の発言に限らず、音声による様々な発言を記録して、ユーザにより指定された任意の文字列に対応する発言を提示する装置として構成することができる。

　以上説明した実施形態の発言提示装置１における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム（ソフトウェア）により実現することができる。

　図１７は、発言提示装置１のハードウェア構成の一例を概略的に示すブロック図である。実施形態の発言提示装置１は、図１７に示すように、ＣＰＵなどのプロセッサ５１と、ＲＡＭなどの主記憶装置５２と、各種の記憶装置を用いた補助記憶装置５３と、通信インタフェース５４と、これらの各部を接続するバス５５とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶装置５３は、有線または無線によるＬＡＮ（Local　Area　Network）などで各部に接続されてもよい。

　実施形態の発言提示装置１の各機能的な構成要素（発言記録部２、音声認識部３、ＵＩ制御部４および関連性算出部５）は、例えば、プロセッサ５１が、主記憶装置５２を利用して、補助記憶装置５３に格納されたプログラムを実行することによって実現される。データ蓄積部１０は、例えば、補助記憶装置５３を用いて実現される。

　プロセッサ５１により実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact　Disc　Read　Only　Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact　Disc　Recordable）、ＤＶＤ（Digital　Versatile　Disc）などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

　また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のＲＯＭ（補助記憶装置５３）などに予め組み込んで提供するように構成してもよい。

　このプログラムは、実施形態の発言提示装置１の機能的な構成要素を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ５１が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶装置５２上にロードされ、上記の各構成要素が主記憶装置５２上に生成されるようになっている。なお、実施形態の発言提示装置１の機能的な構成要素は、その一部または全部を、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field-Programmable　Gate　Array）などの専用のハードウェアを用いて実現することも可能である。

　以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　音声による発言を記録する発言記録部と、
　記録された発言を音声認識する音声認識部と、
　音声認識された各発言に対し、第１表示領域と第２表示領域とを有するＵＩ画面の前記第２表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する関連度算出部と、
　前記関連度の高さに基づいて選択された発言の音声認識結果を、前記ＵＩ画面の前記第１表示領域に表示させるＵＩ制御部と、を備える発言提示装置。
　前記ＵＩ制御部は、前記選択された発言の音声認識結果を、発言の発生順に応じた時系列で前記第１表示領域に表示させる、請求項１に記載の発言提示装置。
　前記ＵＩ制御部は、音声の入力方式に基づいて想定される音声認識の精度が所定の基準を満たす発言であって、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記第１表示領域に表示させる、請求項１または２に記載の発言提示装置。
　前記ＵＩ制御部は、前記精度が前記基準を満たさない発言の音声認識結果の候補に含まれる単語のうち、前記指定された文字列の少なくとも一部を含む単語を、前記選択された発言の音声認識結果とともに前記第１表示領域に表示させる、請求項３に記載の発言提示装置。
　前記ＵＩ制御部は、前記第１表示領域における前記単語の表示位置を、該単語に対応する音声の発生時刻に基づいて決定する、請求項４に記載の発言提示装置。
　前記精度は、音声の入力方式に加えてさらに、音声の入力環境および音声の後処理の有無の少なくとも一方に基づいて想定される、請求項３乃至５のいずれか一項に記載の発言提示装置。
　前記ＵＩ制御部は、前記関連度の高さと前記精度とに基づいて選択された発言の音声認識結果を、前記第１表示領域に表示させる、請求項３乃至６のいずれか一項に記載の発言提示装置。
　前記指定された文字列は、前記第２表示領域に対するユーザの操作に基づいて指定された文字列である、請求項１乃至７のいずれか一項に記載の発言提示装置。
　前記関連度算出部は、音声認識された各発言に対し、前記指定された文字列との関連度と、前記第２表示領域に表示されている文字列の構造に基づいて選択された文字列との関連度とを各々算出し、
　前記ＵＩ制御部は、前記指定された文字列との関連度の高さに基づいて選択された発言の音声認識結果と、前記選択された文字列との関連度の高さに基づいて選択された発言の音声認識結果とを、前記第１表示領域に表示させる、請求項１乃至８のいずれか一項に記載の発言提示装置。
　前記ＵＩ制御部は、前記第１表示領域に表示された音声認識結果を指定する操作に応じて、該音声認識結果に対応する発言の音声を再生させる、請求項１乃至９のいずれか一項に記載の発言提示装置。
　前記関連度算出部は、前記指定された文字列の少なくとも一部が、発言の音声認識結果または該音声認識結果の候補に含まれるか否かに基づいて、前記指定された文字列に対する該発言の前記関連度を算出する、請求項１乃至１０のいずれか一項に記載の発言提示装置。
　前記関連度算出部は、前記指定された文字列について、該文字列に含まれる各単語にｔｆ－ｉｄｆを用いた重みを付加した単語の出現ベクトルを生成するとともに、音声認識された各発言について、発言の音声認識結果に含まれる各単語にｔｆ－ｉｄｆを用いた重みを付加した単語の出現ベクトルを生成し、各発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度に基づいて、前記指定された文字列に対する各発言の前記関連度を算出する、請求項１乃至１０のいずれか一項に記載の発言提示装置。
　前記関連度を算出する対象となる発言を対象発言とし、該対象発言に対して発生時刻が近い所定数の発言をそれぞれ近傍発言としたときに、前記関連度算出部は、前記対象発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度に対し、前記近傍発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度を加算して、前記関連度を算出する、請求項１２に記載の発言提示装置。
　前記関連度算出部は、前記指定された文字列について、該文字列のトピックを表す単語と該単語の重みの列からなるベクトルを生成するとともに、音声認識された各発言について、該発言のトピック表す単語と該単語の重みの列からなるベクトルを生成し、各発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度に基づいて、前記指定された文字列に対する各発言の前記関連度を算出する、請求項１乃至１０のいずれか一項に記載の発言提示装置。
　前記関連度を算出する対象となる発言を対象発言とし、該対象発言に対して発生時刻が近い所定数の発言をそれぞれ近傍発言としたときに、前記関連度算出部は、前記対象発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度に対し、前記近傍発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度を加算して、前記関連度を算出する、請求項１４に記載の発言提示装置。
　発言提示装置により実行される発言提示方法であって、
　音声による発言を記録するステップと、
　記録された発言を音声認識するステップと、
　音声認識された各発言に対し、第１表示領域と第２表示領域とを有するＵＩ画面の前記第２表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出するステップと、
　前記関連度の高さに基づいて選択された発言の音声認識結果を、前記ＵＩ画面の前記第１表示領域に表示させるステップと、を含む発言提示方法。
　コンピュータに、
　音声による発言を記録する機能と、
　記録された発言を音声認識する機能と、
　音声認識された各発言に対し、第１表示領域と第２表示領域とを有するＵＩ画面の前記第２表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する機能と、
　前記関連度の高さに基づいて選択された発言の音声認識結果を、前記ＵＩ画面の前記第１表示領域に表示させる機能と、を実現させるためのプログラム。