JPWO2017038794A1

JPWO2017038794A1 - 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム

Info

Publication number: JPWO2017038794A1
Application number: JP2017538034A
Authority: JP
Inventors: 孝彦中野
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2015-08-31
Filing date: 2016-08-30
Publication date: 2018-01-25
Anticipated expiration: 2036-08-30
Also published as: JP6524242B2; WO2017038794A1

Abstract

【課題】過去に行われた一連の発話に関して、自動抽出されたキーワードをベースに、各時間帯の会話のテーマ、議題などを簡易な方法で確認することができる音声認識結果表示装置を提供することである。【解決手段】実施形態の音声認識結果表示装置は、音声データに対する音声認識処理の結果である音声テキストデータから、所定のタイミングで音声テキストデータに含まれる文字列を抽出するキーワード抽出手段と、音声テキストデータ、キーワード抽出手段で抽出した文字列を記録する記憶部と、クライアント端末からの音声認識結果の表示要求に基づき、クライアント端末から指定された所定時間における音声テキストデータから抽出した文字列を記憶部から検索するキーワード検索手段とを有し、キーワード検索手段で検索された文字列をキーワードとしてクライアント端末画面に表示する。【選択図】図１

Description

本発明の実施形態は音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラムに関する。

従来より、クライアント（スマートフォン、PCなど）端末から入力された音声データを音声認識してテキストに変換し、クライアント端末の表示画面に認識結果として表示する技術が提供されている。例えば会議等における発話を時系列に時間軸と共に表示したり、発話区間と無音区間を区別して表示する技術も提供されている。

特許第５６８５７０２号公報

本発明が解決しようとする課題は、過去に行われた一連の発話に関して、自動抽出されたキーワードをベースに、各時間帯の会話のテーマ、議題などを簡易な方法で確認することができる音声認識結果表示装置を提供することである。

実施形態の音声認識結果表示装置は、音声データに対する音声認識処理の結果である音声テキストデータから、所定のタイミングで音声テキストデータに含まれる文字列を抽出するキーワード抽出手段と、音声テキストデータ、キーワード抽出手段で抽出した文字列を記録する記憶部と、クライアント端末からの音声認識結果の表示要求に基づき、クライアント端末から指定された所定時間における音声テキストデータから抽出した文字列を記憶部から検索するキーワード検索手段とを有し、キーワード検索手段で検索された文字列をキーワードとしてクライアント端末画面に表示する。

第１の実施形態に係る音声認識結果表示システムの全体構成を示すブロック図。第１の実施形態に係るユーザー端末の画面表示の一例を示す図。第１の実施形態に係る音声データおよび関連情報の一例を示す図。第１の実施形態に係る音声認識結果から抽出したキーワードの一例を示す図。第１の実施形態に係るユーザー端末の画面に表示されるキーワード表示の一例を示す図。第１の実施形態に係る音声認識結果から抽出したキーワードの一例を示す図。第１の実施形態に係るユーザー端末の画面に表示されるキーワード表示の一例を示す図。第１の実施形態に係る音声認識結果から抽出したキーワードの中から表示対象外とするキーワードの一例を示す図。第１の実施形態に係るユーザー端末の画面に表示されるキーワード表示の一例を示す図。第１の実施形態に係る音声認識結果表示システムの処理フローを示す図。第１の実施形態に係るユーザー端末の画面に表示されるキーワード表示の一例を示す図。第１の実施形態に係るユーザー端末の画面に表示される音声認識結果の一例を示す図。第１の実施形態に係るユーザー端末の画面に表示される音声認識結果の一例を示す図。第１の実施形態に係るユーザー端末の画面に表示される音声認識結果の一例を示す図。第１の実施形態に係る声認識結果の音声テキストデータ表示処理のフロー示す図。第１の実施形態に係るユーザー端末の画面に表示される音声認識結果の一例を示す図。

（第１の実施形態）
以下、本発明の第１の実施形態について図面を参照して説明する。

図１は第１の実施形態に係る音声認識結果表示システムの全体構成を示すブロック図である。図１に示すように、音声認識表示システムは、ユーザー端末（クライアント端末）１００、音声認識結果表示装置２００、音声認識サーバー３００で構成され、それぞれネットワーク４００を介して接続される。音声認識サーバー３００は、入力部３０１、音声認識処理部３０２、出力部３０３を備え、ユーザー端末１００から入力された音声データを音声認識結果表示装置２００を介して受信し、音声認識処理部３０２で処理した音声認識結果（音声テキストデータ）を音声認識結果表示装置２００に送信する。

ユーザー端末１００は、例えばスマートフォン、タブレット、ＰＣ等であり、入出力部１０１、表示制御部１０２、表示部１０３を備える。入出力部１０１は図示しないマイクからの音声、表示部１０３に表示する音声認識結果の送信要求、当該要求に基づき画面表示された音声認識結果に対する表示切替え等の要求を音声認識結果表示装置２００に送信する。表示部１０３は、入出力部１０１から音声認識結果表示装置２００に送信した音声に対する認識結果を表示する。

入出力部１０１から音声認識結果表示装置２００に送信される音声データは、発話者を特定するための識別情報及び発話時間と共に送信される。また、入出力部１０１から送信される表示部１０３に表示する音声認識結果の送信要求情報には、表示要求範囲を示す日時が含まれる。この表示要求範囲を示す日時は、図２に示すようなユーザー端末１００を起動した際に表示される画面に対するユーザー(クライアント)操作に基づいて取得する。例えば、ユーザー端末１００に内蔵される時計に基づき起動した時点を起点とする時間軸を表示し、表示された時間軸に対するユーザー操作に基づいて、表示要求範囲を示す日時を取得することができる。

図２はユーザー端末１００が起動された時に表示される画面の一例である。図２に示す表示例において、画面５００に表示されている時間軸５０１は、２０１５年７月３１日の１３時から１５時となっており、ユーザーがポインタ５０２の操作で指定した時間は、１４時となっている。ユーザー端末１００はユーザーが１４時を指定するポインタ５０２の操作に伴い、操作した時点で画面５００に表示されている時間軸５０１から音声認識結果表示装置２００に要求する表示要求範囲を特定し、表示要求範囲を特定する時間情報を入出力部１０１から音声認識結果装置２００に送信する。図２の例においては、表示範囲を特定する時間情報は、２０１５年７月３１日の１３時から１５時となる。尚、図２に示す時間軸５０１の表示範囲はユーザー端末１００における操作により１日、半日、１時間等所定の範囲に切替えができる。図２では、ユーザー端末１００における表示範囲に対する操作が２時間の例となっている。

表示制御部１０２は、入出力部１０１を介して音声認識結果表示装置２００に送信要求した音声認識結果を表示部１０３に表示するために制御する。本実施形態では、音声認識結果表示装置２００から表示対象情報として受信したキーワードや表示位置を示す情報に基づき表示内容や表示位置を調整し表示部１０３に表示する。

音声認識結果表示装置２００は、音声データ入力部２０１、音声データ出力部２０２、キーワード抽出部２０３、キーワード重要度算出部２０４、記憶部２０５、キーワード検索部２０６を備える。

音声データ入力部２０１は、ユーザー端末１００の入出力部１０１から送信された音声データを受信し、記憶部２０５に登録すると共に、音声認識サーバー３００で音声認識処理をするために音声データを音声認識サーバー３００に送信する。また、音声認識サーバー３００の音声認識処理部３０２で処理された結果（音声テキストデータ）を受信し、記憶部２０５に登録する。

図３は、記憶部２０５に登録される音声データの登録例を示す図である。図３に示すように、ユーザー端末１００から入力された音声データは発話者を特定するための識別情報及び発話時間と共に登録される。更に、音声認識サーバー３００で認識処理された結果が対応付けて登録される。

音声データ出力部２０２は、音声データ入力部２０１を介して記憶部２０５に登録された音声データを、ユーザー端末１００からの要求に応じて検索して取得し、ユーザー端末１００に送信する。ユーザー端末１００は、音声データを受信することで音声の再生が可能となる。

キーワード抽出部２０３は、記憶部２０５に登録された音声認識結果に含まれる文字列を抽出し、ユーザー端末１００に表示するキーワードとなる文字列を特定する。抽出する文字列の品詞は、キーワードになり得る品詞であればよく、例えば名詞や動詞が該当する。

図４はキーワード抽出の結果を示す図である。キーワードとなる文字列の抽出は、予め設定された時間間隔（１日に１回、半日に１回、１時間に１回など）でキーワード抽出部２０３が実行する。キーワード抽出の実行結果は、図４に示すように、抽出した文字列をキーワードとし、抽出した時間と共に記憶部２０５に記録する。図４は２０１５年７月３１日の１３時から１５時の間に抽出されたキーワードとなる文字列を記録した例である。図４に示すように、東京という文字列が２０１５年７月３１日の１３時５分に抽出されたことを示している。宿題という文字列は２０１５年７月３１日の１４時４０分、設定という文字列は２０１５年７月３１日の１３時１５分、教育という文字列は２０１５年７月３１日の１４時にそれぞれ抽出されたことを示している。例えば、東京という文字列がキーワード抽出部２０３の１回の実行動作で複数回抽出された場合は、都度記録するのではなく出現回数をカウントし、後述するキーワード重要度算出部２０５により重みに反映する。

また、キーワード抽出の検索範囲は上記のキーワード抽出部の実行のタイミングとの関係により、検索対象が１日分、半日分、１時間分等様々となる。

ここではキーワード抽出部２０３が記憶部２０５に登録された音声データの認識結果から自動的に文字列を抽出してキーワードを特定する方法を説明したが、ユーザーが予め特定のキーワードを登録し、キーワード抽出部２０３を実行した際に、ユーザーにより登録されたキーワードが含まれるか否かを検索し、上記と同様、キーワードの出現回数をカウントするようにしてもよい。

キーワード重要度算出部２０４は、キーワード抽出部２０３で抽出した文字列の出現回数に基づき重みを計算し、算出した結果を図４に示すように、抽出された文字列に対する重み付けとして設定する。この重み付けは、出現回数のみでなく例えば、キーワード抽出部２０３の処理において、所定時間分の音声データのうち１つの発話の中に同じ文字列が複数含まれている場合や、一人のユーザーの発話のみに含むのではなく、複数人の発話に同じ文字列が含まれる場合や、所定時間分の音声データの全てに同じ文字列が含まれる場合等、発話の中の出現場所も加味してもよい。出現頻度に基づき重み付けをすることで抽出した文字列の中から重要なキーワードの抽出が可能となる。尚、キーワードの抽出と同様に、重み付けについてもユーザーが設定するようにしてもよい。

記憶部２０５は、音声データ入力部２０１から入力された音声データ、音声認識サーバー３００で処理された音声認識結果のテキストデータ、キーワード抽出部２０３で抽出されたキーワード、キーワード重要度算出部２０４等で算出した重みを記録する。

キーワード検索部２０６は、ユーザー端末１００の入出力部１０１からの音声認識結果の表示要求に応じて、キーワード抽出部２０３で抽出したキーワードを検索し、その結果に基づきユーザー端末１００の表示部１０３にキーワードを表示させる。キーワード検索部２０６は、ユーザー端末１００の入出力部１０１から表示要求範囲を示す日時を受信すると、図４に示すキーワード抽出結果を参照し、ユーザー端末１００から送信された表示要求範囲を示す日時と、キーワードが抽出された時間を比較し、ユーザー端末１００から送信された表示要求範囲に含まれるキーワードを特定する。例えば、ユーザー端末１００の入出力部１０１から、表示要求範囲として２０１５年７月３１日の１３時から１５時を受信した場合を例に説明する。キーワード検索部２０６は、図４に示すキーワード抽出結果のキーワードが抽出された時間を参照し、２０１５年７月３１日の１３時から１５時に含まれるキーワードとして、「東京」、「宿題」、「設定」、「教育」を特定する。そして、ユーザー端末１００からの表示要求に対する結果として、キーワード、キーワード抽出時間、重みをユーザー端末１００に送信する。ユーザー端末１００の入出力部１０１が当該情報を受信し、表示制御部１０２が表示部１０３に表示する。

続いて、ユーザー端末１００の表示部１０３に表示される音声認識結果の具体的な表示方法について説明する。

図５は、キーワード検索部２０６で検索した結果の表示例を示す図である。図５は上記のキーワード検索部２０６で、２０１５年７月３１日の１３時から１５時を検索範囲として検索し、抽出された４つのキーワード（東京、宿題、設定、教育）を表示している。各キーワードは図４に示すように、キーワードに設定された重み値に基づき表示の大きさや表示の形式を変えて表示している。図４に示すように、４つのキーワードの重みは、「東京」が０．９５、「宿題」が１．０、「設定」が０．３、「教育」が０．３２となっている。ここでは、重みは０から１の間の数値を用いており、１に近い値ほど重要なキーワードであることを示しており、重み値が一番大きい「宿題」を他のキーワードと形式を変えて星形の形状で表示している。その他の３つのキーワードについては全て円形の形状で表示しているが、重み値に応じて円形の大きさを変えることで、重要度を変化させて表示している。表示の形状は一例であり、複数のキーワードの中から重要度が高いキーワードが特定できる表示であれば色を変えるなどの表示方法とすることができる。これらの表示方法は問わない。

また、各キーワードの表示位置については、図４に示すキーワードが抽出された時間に基づき決定する。図４の例では、「東京」は２０１５年７月３１日の１３時５分であり、図５に示すように１３時５分付近に表示される。同様に「宿題」は２０１５年７月３１日の１４時４０分付近に、「設定」は２０１５年７月３１日の１３時１５分付近に、「教育」は２０１５年７月３１日の１４時付近に表示される。この表示から、２０１５年７月３１日の１３時から１５時の発話には、キーワードとして宿題が含まれる発話が多く、かつ１４時４０分前後にキーワードとして宿題が含まれる発話が多いことが分かる。このように時間軸に沿って、キーワードを重要度に応じて表示形式を変えて表示することにより、各時間帯にどのようなキーワードを含んだ発話が行われたかを、簡単に俯瞰することができるようになる。

本実施形態では、音声認識結果表示装置２００のキーワード抽出部２０３で音声データからキーワードを自動で抽出し、抽出されたキーワードをユーザー端末１００に表示する例で説明したが、キーワードの数が多い場合は、ユーザー端末１００の表示画面に表示できるキーワードの数が限られるため、重みの低いキーワードが画面に表示されない可能性がある。そこで、ユーザーが必要としないキーワードを表示対象から除く設定をユーザーができるようにしてもよい。その方法を簡単に図６から図９を参照して説明する。

図６はキーワード抽出の結果を示す図であり、登録されているキーワードは異なるが図４と同じキーワード抽出の結果である。図６に示すように抽出されたキーワードが５つ登録されているが、ユーザー端末１００の表示部１０３の表示領域の関係から、図７に示すように表示できるキーワードが４つとなっている。そのため、一番重みの低いキーワードとなっている「設定」が表示されていない。ここで、図８に示すように表示対象から除外するキーワードを設定することで、重みが高い場合でも除外キーワードに登録されている場合は表示対象から除外し、代わりに表示ができなかった重みの高いキーワードを表示する。図９は、除外対象のキーワードとして遊びを登録した例であり、この除外設定に基づき、「遊び」の代わりに「設定」が表示されている。

ここで、図１０を参照して本実施形態に係る音声認識結果表示システムの処理フローについて説明する。図１０は、第１の実施形態に係る音声認識結果表示システムの処理フローを示す図である。

ユーザー端末１００は、マイク等からのユーザーの発話（音声データ）を、発話者を特定する識別情報および発話時間と共に入出力部１０１から音声認識結果表示装置２００に送信する（ステップＳ１）。音声認識結果表示装置２００は音声データ入力部２０１で受信した音声データを音声認識サーバー３００に送信すると共に、音声データ、発話者を特定する識別情報、発話時間を記憶部２０５に記録する（ステップＳ２）。音声認識サーバー３００は入力部３０１で受信した音声データの認識処理を音声認識処理部３０２で実行し、認識結果のテキストデータを音声認識結果表示装置２００に送信する（ステップＳ３）。音声認識結果表示装置２００は音声認識サーバー３００から受信した認識結果の音声テキストデータをステップＳ１で記録した音声データに対応付けて記録する（ステップＳ４）。音声認識結果表示装置２００は、キーワード抽出部２０３で予め設定された時間間隔で記憶部２０５に記録されている音声テキストデータに含まれる文字列を検索する。検索結果として抽出した文字列を、当該文字列を抽出した時間と共に記憶部２０５に記録する。文字列の検索の過程で既に抽出し記録した文字列が検索された場合は出現回数をカウントし記録する（ステップＳ５）。音声認識結果表示装置２００のキーワード重要度算出部２０４はステップＳ５で抽出した文字列に対して、文字列の出現頻度に基づき各文字列に対する重みを設定する（ステップＳ６）。

ユーザー端末１００は、ユーザーによる、音声認識結果のキーワード表示要求操作に基づき、入出力部１０１から音声認識結果表示装置２００に表示要求範囲を示す日時情報を含むキーワード検索要求を送信する（ステップＳ７）。音声認識結果表示装置２００はユーザー端末１００から受信したキーワード検索要求の表示要求範囲を示す日時に基づき、要求日時とステップＳ５の処理で記憶部２０５に記録した文字列(キーワード)を抽出した時間を比較して、要求日時の範囲内に抽出されたキーワードを特定する。そして、特定したキーワード、キーワードの抽出時間、ステップＳ６の処理で設定された重みをユーザー端末１００に送信する（ステップＳ８）。ユーザー端末１００は、入出力部１０１で音声認識結果表示装置２００から受信したキーワードを、表示制御部１０２でキーワード抽出時間から表示位置を調整し、重みから表示の大きさを調整して、表示部２０３に表示する（ステップＳ９）。

次に、図１０のフローチャートで説明した処理に基づきユーザー端末１００の表示部１０３に表示された音声認識結果に対する表示切替えおよび他の表示方法について図１１から図１５を参照して説明する。

図１１は、音声認識結果のキーワード表示の一例を示す図である。図１２は、図１１の表示に対するユーザー操作により、キーワードに対応する音声認識結果を付加した表示の一例を示す図である。

図１１は音声認識結果表示装置２００のキーワード検索部２０６で検索されたユーザー端末１００からの要求に基づく検索の結果（キーワード）を表示している。具体的には、２０１５年７月３１日の１０時から１２時における発話に含まれるキーワードが表示されたユーザー端末１００の表示画面６００である。キーワードとして金曜日、出張が表示され、ユーザーが操作するポインタ６０２は１１時を示している。図１１に示す表示画面６００において、ユーザーによる時間軸６０１上のポインタ６０２の移動操作により、ポインタ６０２の時間軸上の位置が、随時、ユーザー端末１００から音声認識結果表示装置２００に送信される。音声認識結果装置２００は図３に示す音声データと共に記憶部２０５に記録されている発話時間を参照し、ユーザー端末１００から受信したポインタの示す時間に対する発話が存在する場合には、該発話を行ったユーザーの情報と発話内容がユーザー端末１００に送信され、表示される。

この検索結果の表示例を図１２に示している。

図１２に示すように、表示制御部１０２は、ユーザー端末１００が音声認識結果表示装置２００から受信した検索結果の情報に基づいて制御し、表示部１０３に、キーワード(金曜日)を含む発話内容６０３を、発話された時間に対応する位置に表示する。発話内容には発話者、発話した時間、発話内容が表示される。表示内容は一例であり、発話内容に変えて要約を表示したり、その他の情報を表示するようにしてもよい。上記では、ポインタにより時間を選択して、該時間に行われた発話の情報を表示しているが、ユーザーが画面上のキーワードをタッチするなどにより選択することにより、ユーザー端末１００が選択されたキーワードの情報を音声認識結果表示装置２００に送信することができる。そして、音声認識結果表示装置２００が、図３に示す音声データと共に記憶部２０５に記録されている音声認識結果（音声テキストデータ）から該キーワードを含む発話を検索し、ユーザー端末１００に検索された発話に関する発話時間を含む情報を送信することにより、ユーザー端末１００の画面の時間軸上に吹き出しなどの形式で発話の情報を表示してもよい。

ここでは１つの発話のみが表示されているが、検索の結果、複数の発話が検索された場合は、全ての発話内容が表示される。尚、ユーザーの操作により選択されなかったキーワードはグレーアウトで表示したり、選択されたキーワードをハイライトで表示するなど、選択されたキーワードと選択されなかったキーワードを区別して表示するようにしてもよい。

続いて、図１３、図１４を参照して他の表示例を説明する。図１３、図１４は音声認識結果のキーワード表示とあわせて、画面表示されている時間帯における発話量を表示する一例である。

図１３、図１４は音声認識結果表示装置２００のキーワード検索部２０６でユーザー端末１００からの要求に基づく検索結果（キーワード）を表示している。具体的には、２０１５年７月３１日の１３時から１５時における発話に含まれるキーワードが表示されたユーザー端末１００の表示画面６００である。図５ではキーワードのみを表示する表示例を説明したが、図１３ではユーザー端末１００に表示されている時間軸（６０１）の範囲に含まれる発話数を三角形の高さを変化させて発話が多い時間帯を可視化している（発話数情報６０４）。また、図１４は三角形の表示の代わりに折れ線グラフ（発話数情報６０５）を用いて各時間帯の発話数を表現している。発話数については、ユーザー端末１００からのキーワード検索要求に対する音声認識結果表示装置２００の処理において、キーワード検索部２０６で上述のキーワード検索と並行して、ユーザー端末１００から受信した表示要求範囲を示す日時で、図３に示す音声データと共に記憶部２０５に記録されている発話時間を基に検索し、表示要求範囲に含まれる音声データのレコード数をカウントし、所定時間単位(例えば３０分単位)のレコード数をユーザー端末１００に送信する。ユーザー端末１００は音声認識結果表示装置２００から受信した情報に基づき、表示制御部１０２で調整した結果を表示部１０３に表示する。

ここで、図１５を参照して本実施形態に係る音声認識結果の音声テキスト表示の処理フローについて説明する。図１５は、第１の実施形態に係る音声認識結果表示の処理フローを示す図である。

ユーザー端末１００は、表示部１０３に表示された音声認識結果表示装置２００から取得したキーワードに対するユーザーの指定操作に伴い、音声認識結果装置２００に指定キーワードと指定キーワードの表示位置に対応する日時を送信する（ステップＳ１１）。音声認識結果表示装置２００は、キーワード検索部２０６でユーザー端末１００から受信した指定されたキーワードおよび日時に基づき、記憶部２０５に記録された当該日時に発話された音声データに対応する音声テキストデータから指定キーワードを含む音声テキストデータを検索する（ステップＳ１２）。指定のキーワードが含まれる音声テキストデータを発話者、発話時間等、付随情報と共にユーザー端末１００に送信する（ステップＳ１３）。ユーザー端末１００は、表示制御部１０２で音声認識結果表示装置２００から受信した音声テキストデータを指定したキーワードを含むデータとして、表示位置を調整し、表示部１０３に表示された指定キーワードの近傍に表示する。

次に、図１６を参照して他の表示例を説明する。図１６は、過去のキーワードから目的のキーワードを検索するためのキーワード検索画面７００の一例である。

図１６の例では、画面上部に検索したいキーワードの入力エリア７０１と、縦軸として月単位の時間軸７０２ａ、横軸として時間単位の時間軸７０２ｂを含む表示エリア７０２と、が設けられている。画面を垂直方向にスクロールすることにより、表示対象の月を選択できる。また、画面のピンチイン／ピンチアウトにより、１２時間表示／２４時間表示を切り替えることができ、１２時間表示中は水平方向にスクロールすることにより、表示時間帯（０〜１２時／１２〜２４時）を切り替えることができる。

画面上部のキーワードの入力エリア７０１にキーワードを入力し、虫眼鏡アイコンをタッチすると、入力されたキーワード及び選択された表示要求範囲を示す月／時間を含む音声認識結果の表示要求が音声認識結果表示装置２００に送信される。キーワード検索部２０６は、受信した音声認識結果の表示要求に基づいて、キーワード抽出部２０３によって抽出したキーワードの中から表示要求範囲内の該当するキーワードを検索し、検索結果をユーザー端末１００に送信する。ユーザー端末１００の入出力部１０１が検索結果を受信し、表示制御部１０２が図１６に示すような画面を表示部１０３に表示する。

図１６の例では、入力されたキーワード（図１６の例では“出張”）が発話された月／時間の箇所に○印が表示されている。○印の大きさは、検索されたキーワードを含む発話の数を表現している。発話数が多いほど、円を大きくして表示し、発話数が少ないほど、小さな円を表示するように制御される。また、表示エリア７０２に表示された○印をタッチすると、図２のようなその時間帯のキーワード一覧が表示されるように構成することができる。

このように、本実施形態では、音声認識結果を時間帯毎に発話に含まれる文字列をキーワードとして表示することができ、どの時間帯にどのようなテーマ、話題に関する発話があったのかを容易に把握することができる。

また、本実施形態では、発話に含まれるキーワードの数（出現頻度）に応じて重み付けをすることで、キーワードの表示の大きさや形状を変えて表示することができ、表示されたキーワードに関する発話が集中した時間帯を容易に把握することができる。

また、本実施形態では、画面上の操作により表示されたキーワードが含まれる発話内容を表示することができるので、具体的な発話内容を容易に把握することができる。

また、本実施形態では、音声認識結果を時間帯毎に発話に含まれるキーワードの表示に加え、時間帯毎の発話数を表示することができ、会議等において活発に議論された時間帯を容易に把握することができる。

また、本実施形態では、表示対象とするキーワードをユーザーが設定することもできるため、表示領域との関係から表示できるキーワードの数に制約がある場合でも、必要なキーワードのみを表示することができる。

尚、本実施形態では、音声認識結果の表示制御をユーザー端末１００で実行する構成で説明したが、音声認識結果表示装置２００で実行してもよい。

なお、上記の実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

ここで、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の１部を実行しても良い。

さらに、本実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または１時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から本実施形態における処理が実行される場合も本実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

なお、本実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、本実施形態の各記憶装置は１つの記憶装置で実現しても良いし、複数の記憶装置で実現しても良い。

そして、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態の機能を実現することが可能な機器、装置を総称している。

尚、本発明の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…ユーザー端末
１０１…入出力部
１０２…表示制御部
１０３…表示部
２００…音声認識結果表示装置
２０１…音声データ入力部
２０２…音声データ出力部
２０３…キーワード抽出部
２０４…キーワード重要度算出部
２０５…記憶部
２０６…キーワード検索部
３００…音声認識サーバー
３０１…入力部
３０２…音声認識処理部
３０３…出力部
４００…ネットワーク
５００、６００、７００…音声認識結果表示画面
５０１、６０１…時間軸
５０２、６０２…操作ポインタ
６０３…発話情報
６０４、６０５…発話数情報

Claims

音声データに対する音声認識処理の結果をクライアント端末画面に表示する音声認識結果表示装置であって、
前記音声認識処理の結果である音声テキストデータから、所定のタイミングで前記音声テキストデータに含まれる文字列を抽出するキーワード抽出手段と、
前記音声テキストデータと、前記キーワード抽出手段で抽出した前記文字列とを記録する記憶部と、
前記クライアント端末からの音声認識結果の表示要求に基づき、前記クライアント端末から指定された所定時間における音声テキストデータから抽出された前記文字列を前記記憶部から検索するキーワード検索手段と、を有し、
前記キーワード検索手段で検索された前記文字列をキーワードとして前記クライアント端末画面に表示することを特徴とする音声認識結果表示装置。
前記キーワード抽出手段で抽出された前記文字列の出現頻度に基づき、前記文字列に対する重みを算出するキーワード重要度算出手段を有し、
前記記憶部は、前記キーワード重要度算出手段で算出された前記重みを前記文字列と紐付けて記録し、
前記クライアント端末からの音声認識結果の表示要求に基づき、前記クライアント端末から指定された所定時間における音声テキストデータから前記キーワード検索手段で抽出した前記文字列を、前記重みに応じて形式を変えて前記クライアント端末画面に表示することを特徴とする請求項１に記載の音声認識結果表示装置。
前記クライアント端末画面に表示する前記重みに応じた形式は、大きさまたは色であることを特徴とする請求項２に記載の音声認識結果表示装置。
前記記憶部は、前記キーワード抽出手段で音声テキストデータから文字列を抽出した時間を記録し、前記クライアント端末からの音声認識結果の表示要求に基づき、前記クライアント端末から指定された所定時間における音声テキストデータから前記キーワード検索手段で抽出した前記文字列をキーワードとして前記文字列を抽出した時間に対応した位置に表示することを特徴とする請求項１乃至請求項３に記載の音声認識結果表示装置。
前記キーワード検索手段は、前記クライアント端末画面に表示されたキーワードの指定操作による音声認識結果の発話情報の表示要求に基づき、前記クライアント端末から指定されたキーワードを含む音声テキストデータを前記記憶部から検索し、検索した結果を前記クライアント端末画面の指定キーワードの近傍に前記音声テキストデータを表示することを特徴とする請求項１乃至請求項４に記載の音声認識結果表示装置。
音声データに対する音声認識処理の結果をクライアント端末画面に表示する音声認識結果表示方法であって、
前記音声認識処理の結果である音声テキストデータから、所定のタイミングで前記音声テキストデータに含まれる文字列を抽出するステップと、
前記音声テキストデータと、前記音声テキストデータから抽出した前記文字列とを記憶部に記録するステップと、
前記クライアント端末からの音声認識結果の表示要求に基づき、前記クライアント端末から指定された所定時間における音声テキストデータから抽出された前記文字列を前記記憶部から検索するステップと、を有し、
前記記憶部から検索された文字列をキーワードとして前記クライアント端末画面に表示することを特徴とする音声認識結果表示方法。
音声データに対する音声認識処理の結果をクライアント端末画面に表示する音声認識結果表示装置によって実行されるプログラムであって、
前記音声認識処理の結果である音声テキストデータから、所定のタイミングで前記音声テキストデータに含まれる文字列を抽出するキーワード抽出機能と、
前記音声テキストデータと、前記キーワード抽出手段で抽出した前記文字列とを記録する記録機能と、
前記クライアント端末からの音声認識結果の表示要求に基づき、前記記録機能で記録された情報から、前記クライアント端末から指定された所定時間における音声テキストデータから抽出された前記文字列を検索するキーワード検索機能と、を有し、
前記キーワード検索機能で検索された前記文字列をキーワードとして前記クライアント端末画面に表示させることを特徴とする音声認識結果表示プログラム。