WO2010113438A1

WO2010113438A1 - 音声認識処理システム、および音声認識処理方法

Info

Publication number: WO2010113438A1
Application number: PCT/JP2010/002126
Authority: WO
Inventors: 越仲孝文; 濱中雅彦
Original assignee: 日本電気株式会社
Priority date: 2009-03-31
Filing date: 2010-03-25
Publication date: 2010-10-07
Also published as: JPWO2010113438A1; US20110301952A1; JP5533854B2; US8606574B2

Abstract

　複数の音声認識手段で並行して音声認識処理を行う構成の音声認識処理システムにおいて、ディスプレイには、各音声認識手段からそれぞれ音声認識結果であるテキストデータが出力されるのに先立ち、各話者を示す情報を、各音声が発せられた順に並べて表示しておき、各音声認識手段からそれぞれテキストデータが出力されると、各話者を示す情報に対応づけて、対応するテキストデータが表示される。

Description

音声認識処理システム、および音声認識処理方法

　本発明は、音声認識処理システム、および音声認識処理方法に関する。

　近年、たとえば会議等、複数の発言者が存在する場において、議事録作成を容易にする等の目的のために、音声認識技術を用いることが検討されている。音声認識技術を用いて議事録等を作成する場合、ユーザが音声を聞きながら音声認識結果のテキストを表示させて、誤認識部分の修正作業を行うことがある。

　特許文献１（特開２００３－３１６３７５号公報）には、音声認識処理開始指示および符号化された音声データをホストコンピュータへ送信する通信処理部を端末装置に備え、受信した音声データを復号化した音声を認識してテキストデータを作成する音声認識エンジン、そのテキストデータを端末装置へ返送する通信処理部をホストコンピュータに備えた分散ディクテーションシステムが記載されている。これにより、音声認識処理を行うホストコンピュータと、発言者の音声を入力する複数の端末装置を分散配置した分散ディクテーションシステムにおいて、たとえば音声認識結果のテキストを端末装置で容易に修正できるとされている。また、当該文献には、時間情報をキーに、録音した音声データとディクテーション処理したテキストデータの対応を取ることが記載されている。

　特許文献２（特開２００５－８０１１０号公報）には、話者の音声を集音し、その話者の音声を示す音声情報を出力するマイクと、当該マイクの近傍に設けられ、話者を特定する所有者情報を記録した記録媒体から読み出したその所有者情報に基づいて識別情報を出力する識別手段と、音声情報に、識別情報を付加する識別情報付加手段と、識別情報が付加された音声情報を送信する送信手段とを有する音声会議端末装置が記載されている。これにより、複数の回線を用いなくても一地点から複数人が音声会議に参加することができ、かつ、話者の識別が容易な音声会議システムを提供できるとされている。

　特許文献３（特開２００３－０３６０９６号公報）には、音声を入力する音声入力手段と、入力された音声の内容を認識する音声認識手段と、音声入力または音声認識の状態を出力する状態通知手段と、状態を表示する表示手段を備えた音声認識装置において、利用者が音声入力手段の正面に対面したまま表示手段を視認可能となるように音声入力手段及び表示手段を配置するようにした構成が記載されている。これにより、表示手段を見ながら適切な音声入力ができるので、音声の認識率に優れた音声認識装置が得られるとされている。

特開２００３－３１６３７５号公報特開２００５－８０１１０号公報特開２００３－０３６０９６号公報

　ところで、音声認識エンジンによる音声認識処理にはある程度の時間がかかり、たとえば、会議での複数の発言者の音声の音声認識を行い、略リアルタイムで出力するのは困難だという問題があった。たとえば、特許文献１に記載の技術では、音声を入力するための端末装置は複数準備されているが、これらの端末装置から送信される音声は、一つの音声認識エンジンで音声認識処理が行われている。そのため、音声認識結果を迅速に出力するという点で依然として課題がある。

　このような問題を解決すべく、本発明者らは、複数の音声認識エンジンを並行して音声認識処理を行うことを検討している。たとえば、発言者毎に音声認識エンジンを設けたり、複数の発言者をいくつかのグループに分けて、各グループ毎に音声認識エンジンを設けることが考えられる。これにより、複数の発言者が存在する場における複数の発言者の音声の音声認識処理を迅速に行うことが期待できる。

　しかし、本発明者らは、複数の音声認識エンジンで並行処理を行う場合に、新たな課題が生じることを見出した。上述したように、音声認識エンジンによる音声認識処理にはある程度の時間がかかり、処理対象の音声データの量が多いと、音声認識処理に要する時間が長くなる。そのため、各音声認識エンジンが処理する音声データの量が異なると、音声認識エンジン間での音声認識対象の音声データが入力されてから音声認識結果が出力されるまでに要する時間に差が生じてしまう。

　図１１を参照して説明する。ここで、まず、話者Ａから「今日の議題は・・・」という比較的長い音声が発せられた後、話者Ｂから「はい」という比較的短い音声が発せられるとする。この場合、まず、「今日の議題は・・・」という音声が第１の音声認識エンジンに入力されて、第１の音声認識エンジンで処理される。次いで、「はい」という音声が第２の音声認識エンジンに入力されて、第２の音声認識エンジンで処理される。

　第１の音声認識エンジンおよび第２の音声認識エンジンの処理能力が同等だとすると、第１の音声認識エンジンによる「今日の議題は・・・」という比較的長い音声よりも、第２の音声認識エンジンによる「はい」という比較的短い音声の方が先に音声認識処理が終わり、第２の音声認識エンジンから先に結果が出力されることがある。このような結果を、音声認識処理が終了した順にリアルタイムで表示させて確認しようとすると、図示したように、実際の発言の順とは異なる順に音声認識結果が表示されることになる。そのため、確認するユーザが見づらく、混乱が生じるおそれもある。一方、音声認識処理が終了した結果は、できるだけ早く表示して確認したいという要望もある。

　本発明の目的は、上述した課題である、複数の発言者の音声の音声認識結果をリアルタイムで確認する際にユーザが見づらく把握しにくいという問題を解決する音声認識処理システムおよび音声認識処理方法を提供することにある。

　本発明によれば、
　第１の話者の音声である第１の音声を入力し、当該第１の音声の音声認識処理を行い、音声認識結果を第１のテキストデータとして出力する第１の音声認識手段と、
　第２の話者の音声である第２の音声を入力し、当該第２の音声の音声認識処理を行い、音声認識結果を第２のテキストデータとして出力する第２の音声認識手段と、
　前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて表示手段に表示する表示処理手段と、
を含み、
　前記表示処理手段は、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されるのに先立ち、各前記話者を示す情報を、各音声が発せられた順に並べて前記表示手段に表示しておき、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されると、各前記話者を示す情報に対応づけて、対応する前記テキストデータを前記表示手段に表示する音声認識処理システムが提供される。

　本発明によれば、
　第１の話者の音声である第１の音声を入力し、当該第１の音声の音声認識処理を行い、音声認識結果を第１のテキストデータとして出力する第１の音声認識ステップと、
　第２の話者の音声である第２の音声を入力し、当該第２の音声の音声認識処理を行い、音声認識結果を第２のテキストデータとして出力する第２の音声認識ステップと、
　前記第１の音声認識ステップおよび前記第２の音声認識ステップからそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されるのに先立ち、各前記話者を示す情報を、各音声が発せられた順に並べて表示手段に表示する第１の表示ステップと、
　前記第１の音声認識ステップおよび前記第２の音声認識ステップからそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されると、前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて前記表示手段に表示する第２の表示ステップと、
を含む音声認識処理方法が提供される。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、複数の発言者の音声の音声認識結果をユーザが把握しやすいかたちで、迅速に表示させることができる。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態における音声認識処理システムの構成の一例を示すブロック図である。本発明の実施の形態における音声認識処理システムの処理のタイミングを示すフローチャートである。ディスプレイに表示される画面の一例を示す図である。ディスプレイに表示される画面の他の例を示す図である。本発明の実施の形態における音声認識処理システムの構成の他の例を示すブロック図である。図５に示した音声認識処理システムの処理のタイミングを示すフローチャートである。本発明の実施の形態における音声認識処理システムの構成の他の例を示すブロック図である。音声特徴データ記憶部の内部構成の一例を示す図である。図７に示した音声認識処理システムの処理のディスプレイに表示される画面の一例を示す図である。本発明の実施の形態における音声認識処理システムの構成の他の例を示すブロック図である。複数の音声認識エンジンで並行処理を行う場合に、新たに生じる課題を説明するための図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
　図１は、本実施の形態における音声認識処理システムの構成の一例を示すブロック図である。
　音声認識処理システム１００は、第１の音声認識処理部１１０と、第２の音声認識処理部１２０と、表示処理部１４０と、ディスプレイ１４２とを含む。第１の音声認識処理部１１０および第２の音声認識処理部１２０は、同様の構成を有し、それぞれ音声を入力して、並行して音声認識処理を行い、処理が終了した結果を順次出力する。

　第１の音声認識処理部１１０は、第１の音声入力部１１２（第１の音声入力手段）、第１の音声検出部１１４（第１の音声検出手段）、および第１の音声認識部１１６（第１の音声認識手段）を含む。第２の音声認識処理部１２０は、第１の音声認識処理部１１０と同様の構成を有し、第２の音声入力部１２２（第２の音声入力手段）、第２の音声検出部１２４（第２の音声検出手段）、および第２の音声認識部１２６（第２の音声認識手段）を含む。

　第１の音声入力部１１２および第２の音声入力部１２２は、たとえば、マイクロフォンとすることができる。本実施の形態において、第１の音声入力部１１２や第２の音声入力部１２２は、たとえば会議室等に設置され、会議中に参加者が発言した音声を入力する。第１の音声入力部１１２と第２の音声入力部１２２とは、それぞれ、たとえば、特定の話者の近傍に配置しておき、主としてその特定の話者の音声を入力する構成とすることができる。本実施の形態において、第１の音声入力部１１２には、主として話者「Ａ」の音声（第１の音声）が入力され、第２の音声入力部１２２には、主として話者「Ｂ」の音声（第２の音声）が入力されるものとする。

　第１の音声検出部１１４は、第１の音声入力部１１２から入力された音声に対して公知の音響分析処理を行い、スペクトルパワーや信号雑音比（ＳＮＲ）等に基づいて発言の始端と終端を検出し、一つの発言を単位とした音声データを生成する。また、第１の音声検出部１１４は、音声を検出した時刻を当該音声が発せられた時刻として、当該音声を検出した時刻を示す時刻情報（第１の時刻情報）および当該音声の話者を示す情報を音声データに対応づける。図示していないが、音声認識処理システム１００は、現在時刻を計時する時計手段（時計回路等）を有し、第１の音声検出部１１４は、計時手段から時刻情報を取得する。第１の音声検出部１１４は、時刻情報および話者を示す情報が対応づけられた音声データを第１の音声認識部１１６に出力する。

　第１の音声認識部１１６は、第１の音声検出部１１４から出力された音声データの音声認識処理を行い、テキストデータを作成する。第１の音声認識部１１６は、作成したテキストデータを表示処理部１４０に出力する。

　第２の音声認識処理部１２０の第２の音声検出部１２４および第２の音声認識部１２６は、それぞれ、第１の音声認識処理部１１０の第１の音声検出部１１４および第１の音声認識部１１６と同様の構成を有し、同様の処理を行う。つまり、第２の音声検出部１２４は、第２の音声入力部１２２から入力された音声の音声データに当該音声を検出した時刻を示す時刻情報および当該音声の話者を示す情報を対応づけて第２の音声認識部１２６に出力する。第２の音声認識部１２６は、第２の音声検出部１２４から出力された音声データの音声認識処理を行い、テキストデータを作成し、当該テキストデータを表示処理部１４０に出力する。第１の音声認識部１１６および第２の音声認識部１２６は、それぞれ、通常の音声認識エンジンと同様の機能を有する構成とすることができる。また、本実施の形態において、第１の音声認識部１１６および第２の音声認識部１２６は、同等の処理能力を有する構成とすることができる。

　本実施の形態において、予め、第１の音声入力部１１２から入力される音声が話者「Ａ」のものであり、第２の音声入力部１２２から入力される音声が話者「Ｂ」のものであると設定しておくことができる。第１の音声検出部１１４は、第１の音声入力部１１２から入力された音声の話者が話者「Ａ」であると判定し、入力された音声の話者を示す情報として、話者「Ａ」を出力する。同様に、第２の音声検出部１２４は、第２の音声入力部１２２から入力された音声の話者が話者「Ｂ」であると判定し、入力された音声の話者を示す情報として、話者「Ｂ」を出力する。

　表示処理部１４０は、第１の音声認識部１１６および第２の音声認識部１２６から出力されたテキストデータを順次ディスプレイ１４２に表示する処理を行う。具体的には、表示処理部１４０は、音声の話者を示す情報と音声認識結果であるテキストデータとを、各音声が発せられた順に並べてディスプレイ１４２に表示する。

　ところで、第１の音声認識処理部１１０と第２の音声認識処理部１２０とで並行して音声認識処理を行う場合、どちらかの音声認識処理に時間がかかると、音声認識結果が出力される時間が逆転してしまうことがある。その場合、図１１を参照して説明したように、実際の発言の順とは異なる順に音声認識結果が表示され、確認するユーザが見づらく、混乱が生じるおそれがある。

　そのため、本実施の形態において、表示処理部１４０は、第１の音声認識部１１６および第２の音声認識部１２６からそれぞれ音声認識結果であるテキストデータが出力されるのに先立ち、第１の話者を示す情報および第２の話者を示す情報を、各音声が発せられた順に並べてディスプレイ１４２に表示するようにする。次いで、第１の音声認識部１１６および第２の音声認識部１２６からテキストデータが出力されると、各話者を示す情報に対応づけて、対応する音声認識結果であるテキストデータをディスプレイ１４２に表示する。

　具体的には、第１の音声検出部１１４は、音声が入力されると、第１の音声認識部１１６からテキストデータが出力されるのに先立ち、当該音声を検出した時刻を示す時刻情報および話者を示す情報を表示処理部１４０に出力する。たとえば、第１の音声検出部１１４は、時刻情報および話者を示す情報が対応づけられた音声データを第１の音声認識部１１６に出力するのと同時に、表示処理部１４０に時刻情報および話者を示す情報を出力することができる。

　同様に、第２の音声検出部１２４も、音声が入力されると、第２の音声認識部１２６による音声認識処理に先立ち、当該音声を検出した時刻を示す時刻情報および話者を示す情報を表示処理部１４０に処理する。たとえば、第２の音声検出部１２４は、時刻情報および話者を示す情報が対応づけられた音声データを第２の音声認識部１２６に出力するのと同時に、表示処理部１４０に時刻情報および話者を示す情報を出力することができる。

　次に、図２および図３を参照して、具体的な処理手順を説明する。図２は、音声認識処理システム１００の処理のタイミングを示すフローチャートである。図３は、ディスプレイ１４２に表示される画面の一例を示す図である。

　たとえば、話者Ａが、「それでは会議を始めます」と発言し、つづいて「今日の議題は・・・」と発言したとする。次いで、話者Ｂが、「よろしくお願いします」と発言したとする。

　まず、話者Ａの発言「それでは会議を始めます」が、第１の音声入力部１１２を介して音声検出部１１４に入力される（ステップＳ１００）。第１の音声検出部１１４がこの音声を検出した時刻が１３時１２分１０秒（「１３：１２：１０」）だとする。第１の音声検出部１１４は、音声データを生成するとともに、当該音声を検出した時刻を示す時刻情報「１３：１２：１０」と、話者Ａを示す情報「Ａ」とを生成した音声データに対応づけて第１の音声認識部１１６に出力する（ステップＳ１０２）。

　第１の音声認識部１１６は、第１の音声検出部１１４から入力された音声データを順次音声認識処理していく。第１の音声認識部１１６は、新たに入力された音声データより前に入力された音声データの音声認識処理が終了している場合は、新たに入力された音声データの音声認識処理を開始する。一方、第１の音声認識部１１６は、新たに入力された音声データより前に入力された音声データの音声認識処理が終了していない場合は、前の音声データの音声認識処理が終了次第、新たに入力された音声データの音声認識処理を開始する。

　また、ステップＳ１０２の処理と略同時に、第１の音声検出部１１４は、当該音声を検出した時刻を示す時刻情報「１３：１２：１０」と、話者Ａを示す情報「Ａ」とを表示処理部１４０に出力する（ステップＳ１０４）。表示処理部１４０は、ディスプレイ１４２に、話者Ａを示す情報「Ａ」を表示する（図３（ａ））。

　次いで、話者Ａの発言「今日の議題は・・・」が、第１の音声入力部１１２を介して音声検出部１１４に入力される（ステップＳ１１０）。第１の音声検出部１１４がこの音声を検出した時刻が１３時１２分２０秒（「１３：１２：２０」）だとする。第１の音声検出部１１４は、音声データを生成するとともに、当該音声を検出した時刻を示す時刻情報「１３：１２：２０」と、話者Ａを示す情報「Ａ」とを生成した音声データに対応づけて第１の音声認識部１１６に出力する（ステップＳ１１２）。

　また、ステップＳ１１２の処理と略同時に、第１の音声検出部１１４は、当該音声を検出した時刻を示す時刻情報「１３：１２：２０」と、話者Ａを示す情報「Ａ」とを表示処理部１４０に出力する（ステップＳ１１４）。表示処理部１４０は、ディスプレイ１４２に、話者Ａを示す情報「Ａ」を表示する。

　次いで、話者Ｂの発言「よろしくお願いします」が、第２の音声入力部１２２を介して第２の音声検出部１２４に入力される（ステップＳ１２０）。第２の音声検出部１２４がこの音声を検出した時刻が１３時１３分０８秒（「１３：１３：０８」）だとする。第２の音声検出部１２４は、音声データを生成するとともに、当該音声を検出した時刻を示す時刻情報「１３：１３：０８」と、話者Ｂを示す情報「Ｂ」とを生成した音声データに対応づけて第２の音声認識部１２６に出力する（ステップＳ１２２）。

　第２の音声認識部１２６も、第２の音声検出部１２４から入力された音声データを順次音声認識処理していく。第２の音声認識部１２６は、新たに入力された音声データより前に入力された音声データの音声認識処理が終了している場合は、新たに入力された音声データの音声認識処理を開始する。一方、第２の音声認識部１２６は、新たに入力された音声データより前に入力された音声データの音声認識処理が終了していない場合は、前の音声データの音声認識処理が終了次第、新たに入力された音声データの音声認識処理を開始する。

　また、ステップＳ１２２の処理と略同時に、第２の音声検出部１２４は、当該音声を検出した時刻を示す時刻情報「１３：１３：０８」と、話者Ｂを示す情報「Ｂ」とを表示処理部１４０に出力する（ステップＳ１２４）。表示処理部１４０は、ディスプレイ１４２に、話者Ｂを示す情報「Ｂ」を表示する（図３（ｂ））。表示処理部１４０は、各話者を示す情報を、これに対応づけられた時刻情報に基づき、時刻順にディスプレイ１４２に表示する。

　このような表示により、ディスプレイ１４２を見ているユーザは、話者Ａの発言が２回あった後、話者Ｂの発言があるということを把握することができる。また、ディスプレイ１４２を見ているユーザは、どの話者の音声認識が行われているかを事前に把握することができる。

　また、図３において、説明のために、ディスプレイ１４２に新たに表示されることになった部分に下線を付している。実際のディスプレイ１４２の画面でも、このような下線を付してもよく、また反転表示やカーソル（点滅棒）を表示する等することができる。これにより、ディスプレイ１４２を見ているユーザが、どの部分が新たに表示されたかを容易に把握することができる。

　次いで、たとえば、第１の音声認識部１１６において、「それでは会議を始めます」という音声の音声認識処理が終了すると、第１の音声認識部１１６は、その結果であるテキストデータを、時刻「１３：１２：１０」および「Ａ」とともに表示処理部１４０に出力する（ステップＳ１３０）。表示処理部１４０は、ディスプレイ１４２の「Ａ」に対応する箇所に、認証結果である「それでは会議を始めます」を表示する（図３（ｃ））。なお、このとき、表示処理部１４０は、音声認識結果であるテキストデータに対応づけられた時刻情報および予め出力されていた話者を示す情報に対応づけられていた時刻情報をキーとして、「Ａ」に対応する箇所に、認証結果である「それでは会議を始めます」を表示する処理を行うことができる。そのため、ステップＳ１３０において、第１の音声認識部１１６は、テキストデータを、時刻「１３：１２：１０」という時刻情報のみに対応づけて表示処理部１４０に出力してもよい。

　その後、たとえば、第２の音声認識部１２６において、「よろしくお願いします」という音声の音声認識処理が終了すると、第２の音声認識部１２６は、その結果であるテキストデータを、時刻「１３：１３：０８」および「Ｂ」とともに表示処理部１４０に出力する（ステップＳ１３２）。表示処理部１４０は、ディスプレイ１４２の「Ｂ」に対応する箇所に、認証結果である「よろしくお願いします」を表示する（図３（ｄ））。

　また、第１の音声認識部１１６による「今日の議題は・・・」という音声の音声認識処理が終了する前に、たとえば第１の音声検出部１１４が新たな音声を検出した場合は、ステップＳ１０２やステップＳ１０４、およびステップＳ１１２やステップＳ１１４と同様の処理が行われ、表示処理部１４０は、話者Ａを示す情報「Ａ」をディスプレイ１４２に表示する（図３（ｅ））。

　次いで、たとえば、第１の音声認識部１１６において、「今日の議題は・・・」という音声の音声認識処理が終了すると、第１の音声認識部１１６は、その結果であるテキストデータを、時刻「１３：１２：２０」および「Ａ」とともに表示処理部１４０に出力する（ステップＳ１３４）。表示処理部１４０は、ディスプレイ１４２の「Ａ」に対応する箇所に、認証結果である「今日の議題は・・・」を表示する（図３（ｆ））。

　なお、図３では、ディスプレイ１４２には、時刻が表示されない例を示したが、図４に示すように、ディスプレイ１４２には、時刻も表示するようにすることもできる。図４（ａ）～図４（ｄ）は、それぞれ図３（ａ）～図３（ｄ）に示したのと同様の状態を示す。

　本実施の形態における音声認識処理システム１００によれば、複数の音声認識エンジンである第１の音声認識部１１６および第２の音声認識部１２６が設けられており、これらが並行して音声認識処理を行うので、たとえば、会議での複数の発言者の音声の音声認識処理を迅速に行うことができる。ここで、第１の音声認識部１１６および第２の音声認識部１２６のいずれかで音声認識処理に時間がかかると、音声認識結果が出力される順番が、実際に音声が発せられた順と逆転してしまうことがある。その場合、図１１を参照して説明したように、実際の発言の順とは異なる順に音声認識結果が表示され、確認するユーザが見づらく、混乱が生じるおそれがある。

　しかし、本実施の形態における音声認識処理システム１００によれば、音声認識結果が出力されるのに先立ち、各音声の話者を示す情報が、各音声が発せられた順に並べてディスプレイ１４２に表示される。そのため、音声認識結果が出力される順番が、実際に音声が発せられた順と逆転してしまうような場合でも、各話者の発言があった順番を表示しつつ、音声認識処理が終了した結果ができるだけ早く表示されるようにすることができる。これにより、音声認識結果を確認するユーザが、混乱することなく、見やすいかたちで音声認識結果を表示することができる。

（第２の実施の形態）
　図５は、本実施の形態における音声認識処理システムの構成の一例を示すブロック図である。
　本実施の形態においても、音声認識処理システム１００は、第１の実施の形態において図１を参照して説明したのと同様の構成を有する。本実施の形態において、音声認識処理システム１００は、図１に示した音声認識処理システム１００の構成に加えて、さらに音量比較部１５０を含む点で、第１の実施の形態と異なる。

　本実施の形態においても、本実施の形態において、第１の音声入力部１１２には、主として話者「Ａ」の音声が入力され、第２の音声入力部１２２には、主として話者「Ｂ」の音声が入力されるものとする。しかし、第１の音声入力部１１２や第２の音声入力部１２２が、広い範囲の音を集音したり、話者同士が近い位置にいたりすると、第１の音声入力部１１２にも話者Ｂの音声が入力されたり、第２の音声入力部１２２にも話者Ａの音声が入力されることもある。そのため、同じ音声の音声認識処理を第１の音声認識部１１６と第２の音声認識部１２６との両方で二重にしてしまったり、話者の特定が正しく行えない可能性が生じる。

　そこで、本実施の形態において、音量比較部１５０は、第１の音声検出部１１４および第２の音声検出部１２４が同時刻に検出した音声の音量を比較して、音量が大きい方が、正規の入力であると判定する処理を行う。つまり、音量比較部１５０は、第１の音声入力部１１２および第２の音声入力部１２２から同時に出力された音声の音量を比較し、第１の音声入力部１１２から出力された音声の方が第２の音声入力部１２２から出力された音声よりも音量が大きい場合に、当該音声が話者「Ａ」の音声であると判定するとともに、第２の音声入力部１２２から出力された音声の方が第１の音声入力部１１２から出力された音声よりも音量が大きい場合に、当該音声が話者「Ｂ」の音声であると判定する。

　図６を参照して具体的な処理手順を説明する。図６は、音声認識処理システム１００の処理のタイミングを示すフローチャートである。
　ここでも、第１の実施の形態で説明したのと同様、たとえば、話者Ａが、「それでは会議を始めます」と発言し、つづいて「今日の議題は・・・」と発言したとする。次いで、話者Ｂが、「よろしくお願いします」と発言したとする。

　まず、話者Ａの発言「それでは会議を始めます」が、第１の音声入力部１１２を介して音声検出部１１４に入力される（ステップＳ２００ａ）。同時に、この音声が、第２の音声入力部１２２を介して第２の音声検出部１２４にも入力される（ステップＳ２００ｂ）。第１の音声検出部１１４および第２の音声検出部１２４は、それぞれ、この音声の音声データを生成し、入力された時刻を対応づける。

　次いで、音量比較部１５０は、第１の音声検出部１１４および第２の音声検出部１２４で生成された音声データの音量を比較する（ステップＳ２０２）。ここで、この音声は、話者Ａの音声であるため、第１の音声検出部１１４で生成された音声データの方が、第２の音声検出部１２４で生成された音声データよりも音量が大きくなる。そのため、音量比較部１５０は、この音声データは、第１の音声認識処理部１１０で処理すべきであると判定し、判定結果を第１の音声検出部１１４および第２の音声検出部１２４に通知する（ステップＳ２０４）。これにより、第１の音声検出部１１４において、第１の実施の形態で説明したのと同様の音声認識処理および表示処理を行うための各処理が行われる。一方、第２の音声検出部１２４においては、これ以降の処理は行われず、次の音声の入力を待つ。

　話者Ａの「今日の議題は・・・」との発言についても同様の処理が行われる。つづいて、話者Ｂの発言「よろしくお願いします」が、第１の音声入力部１１２を介して音声検出部１１４に入力される（ステップＳ２１０ａ）。同時に、この音声が、第２の音声入力部１２２を介して第２の音声検出部１２４にも入力される（ステップＳ２１０ｂ）。第１の音声検出部１１４および第２の音声検出部１２４は、それぞれ、この音声の音声データを生成し、入力された時刻を対応づける。

　次いで、音量比較部１５０は、第１の音声検出部１１４および第２の音声検出部１２４で生成された音声データの音量を比較する（ステップＳ２１２）。ここで、この音声は、話者Ｂの音声であるため、第２の音声検出部１２４で生成された音声データの方が、第１の音声検出部１１４で生成された音声データよりも音量が大きくなる。そのため、音量比較部１５０は、この音声データは、第２の音声認識処理部１２０で処理すべきであると判定し、判定結果を第１の音声検出部１１４および第２の音声検出部１２４に通知する（ステップＳ２１４）。これにより、第２の音声検出部１２４において、第１の実施の形態で説明したのと同様の音声認識処理および表示処理を行うための各処理が行われる。一方、第１の音声検出部１１４においては、これ以降の処理は行われず、次の音声の入力を待つ。

　本実施の形態においても、第１の実施の形態で説明したのと同様の効果を得ることができる。さらに、本来第１の音声認識処理部１１０で処理すべき音声が第２の音声認識処理部１２０の第２の音声入力部１２２にも入力されてしまった場合や、逆に第２の音声認識処理部１２０で処理すべき音声が第１の音声認識処理部１１０の第１の音声入力部１１２にも入力されてしまった場合でも、正規の入力を判定して、同じ音声の音声認識処理が第１の音声認識部１１６と第２の音声認識部１２６との両方で二重にしてしまうことや、話者の特定が正しく行えないことを防ぐことができる。

（第３の実施の形態）
　図７は、本実施の形態における音声認識処理システムの構成の一例を示すブロック図である。
　本実施の形態においても、音声認識処理システム１００は、第１の実施の形態において図１を参照して説明したのと同様の構成を有する。本実施の形態において、音声認識処理システム１００は、図１に示した音声認識処理システム１００の構成に加えて、さらに話者特定部１６０および音声特徴データ記憶部１６２を含む点で、第１の実施の形態と異なる。

　本実施の形態においては、複数の発言者がグループ分けされ、各グループ毎にそれぞれ第１の音声入力部１１２および第２の音声入力部１２２が設けられた構成とすることができる。たとえば、Ａ社とＢ社との会議において、Ａ社用に第１の音声入力部１１２、Ｂ社用に第２の音声入力部１２２が設けられている場合等とすることができる。

　この場合、第１の音声検出部１１４や第２の音声検出部１２４に音声が入力された時点では、各音声が、いずれかのグループの誰かの発言であることしか把握できない。しかし、たとえば各参加者の音声の特徴データを予め記憶しておけば、特徴データと比較することにより、各発言者を特定することができる。

　音声特徴データ記憶部１６２は、音声認識処理を行う対象の会議等の参加者の音声特徴データを記憶する。ここで、音声特徴データは、個々の話者の特徴を示す任意のデータであるが、たとえば、音声認識システムなどで広く用いられているメルケプストラム係数（ＭＦＣＣ）、またはこれを何らかの数理モデルに変換した形式で記録した数値データとすることができる。数理モデルとしては、たとえばガウス混合モデル（ＧＭＭ）等を用いるのが一般的である。図８は、音声特徴データ記憶部１６２の内部構成の一例を示す図である。音声特徴データ記憶部１６２は、データＮＯ．欄、グループ欄、音声特徴データ欄、および名称欄がそれぞれ対応づけられた構成を有する。

　図７に戻り、話者特定部１６０は、第１の音声認識部１１６および第２の音声認識部１２６が処理する音声データを、それぞれ、音声特徴データ記憶部１６２に記憶された音声特徴データと比較して、各音声データの話者を特定する。具体的には、話者特定部１６０は、第１の音声認識部１１６および第２の音声認識部１２６が処理する音声データの音声の特徴と一致する音声特徴データを検出し、当該音声特徴データに対応する話者の「名称」を話者を示す情報として、第１の音声認識部１１６および第２の音声認識部１２６がそれぞれ出力する音声認識結果のテキストデータに対応づけて表示処理部１４０に出力する。

　次に、本実施の形態における音声認識処理システム１００の処理手順を説明する。図９は、本実施の形態において、ディスプレイ１４２に表示される画面の一例を示す図である。
　本実施の形態においても、表示処理部１４０が各話者を示す情報を、これに対応づけられた時刻情報に基づき、時刻順にディスプレイ１４２に表示する手順は、第１の実施の形態における手順と同様である（図９（ａ）、図９（ｂ））。そのため、ディスプレイ１４２に音声認識結果が表示されるまでは、話者を示す情報として、「Ａ」、「Ｂ」等、グループを示す情報が表示される。

　一方、本実施の形態において、第１の音声認識部１１６および第２の音声認識部１２６が音声認識結果であるテキストデータを表示処理部１４０に出力する際に、各テキストデータの話者の名称も出力される。そのため、表示処理部１４０は、ディスプレイ１４２に音声認識結果を表示するのと同時に、「Ａ」、「Ｂ」等、グループを示す情報を、各音声の話者の名称と入れ替えて表示する。

　たとえば、話者特定部１６０が「それでは会議を始めます」という音声の特徴が、図８に示した音声特徴データ記憶部１６２に記憶された音声特徴データのデータＮＯ．「０００１」の音声特徴データ「００１１」と一致すると判定したとする。この場合、話者特定部１６０は、第１の音声認識部１１６に、この音声の話者の名称が「山田」であることを通知する。第１の音声認識部１１６において、「それでは会議を始めます」という音声の音声認識処理が終了すると、第１の音声認識部１１６は、その結果であるテキストデータを、時刻「１３：１２：１０」および「山田」という名称とともに表示処理部１４０に出力する。表示処理部１４０は、ディスプレイ１４２の「Ａ」に対応する箇所に、認証結果である「それでは会議を始めます」を表示するとともに、「Ａ」と表示していたものを「山田」に置換する（図９（ｃ））。なお、ディスプレイ１４２の「Ａ」と表示していたものを「山田」に置換する処理と、「Ａ」に対応する箇所に認証結果である「それでは会議を始めます」を表示する処理とは同時に行われなくてもよい。たとえば、第１の音声認識部１１６は、音声認識結果が出力されるのに先立ち、「山田」という名称を時刻「１３：１２：１０」とともに表示処理部１４０に出力してもよい。この場合、表示処理部１４０は、ディスプレイ１４２の「Ａ」と表示していたものを「山田」に置換する処理を先に行ってもよい。

　同様に、「よろしくお願いします」という音声の特徴から、この音声の話者が「佐藤」であると判定され、「今日の議題は・・・」という音声の特徴から、この音声の話者が「山田」であると判定されると、表示処理部１４０は、それぞれの音声認識結果を表示するのと同時に、各話者を示す情報として、各話者の名称を表示する（図９（ｄ）、図９（ｆ））。また、たとえば名称「佐藤」の「よろしくお願いします」との発言の後に、グループ「Ａ」の誰かが何か発言している場合、この音声の音声認識結果が表示される前は、「Ａ」とのみ表示されている（図９（ｅ））。この発言の音声認識結果が「その前にちょっと・・・」であり、この音声の特徴から、この音声の話者が「小林」であると判定されると、表示処理部１４０は、この音声認識結果「その前にちょっと・・・」を表示するのと同時に、話者を示す情報として、話者の名称「小林」を表示する（図９（ｇ））。

　本実施の形態においても、第１の実施の形態で説明したのと同様の効果を得ることができる。さらに、本実施の形態の音声認識処理システム１００によれば、たとえば同じ第１の音声入力部１１２から入力された音声であっても、話者が異なる場合に、各話者を特定して表示することができ、音声認識結果を確認するユーザが、混乱することなく、見やすいかたちで音声認識結果を表示することができる。

　なお、本実施の形態における音声認識処理システム１００は、たとえば、裁判所での審理等において、複数の裁判官、複数の検察官、複数の証人等がいて、裁判官用、検察官用、証人用にそれぞれ音声入力部が設けられているような構成に適用することもできる。

　なお、以上の各図に示した音声認識処理システム１００の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。音声認識処理システム１００の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　以上で説明した音声認識処理システム１００は、ディスプレイ１４２に音声認識結果を表示するとともに、同時に、対応する音声を出力する構成とすることができる。図１０にこのような構成を実現するための音声認識処理システム１００の構成の一例を示す。音声認識処理システム１００は、以上の各実施の形態で説明した音声認識処理システム１００の構成に加えて、さらに、出力処理部１３８、音声記録部１７０、音声記憶部１７２、音声出力処理部１７４（音声出力処理手段）、およびスピーカ１７６を含むことができる。

　音声記憶部１７２は、各音声を、それぞれ、各音声が音声検出部に検出された時刻を示す時刻情報に対応づけて記憶する。音声出力処理部１７４は、ディスプレイ１４２に表示されたテキストデータが選択されると、各テキストデータに対応づけられた時刻情報に基づき、音声記憶部１７２に記憶された対応する時刻の音声をスピーカ１７６から出力する。

　また、以上の実施の形態においては、音声認識処理システム１００が２つの音声認識処理部を含む構成を示したが、音声認識処理システム１００は、さらに多くの音声認識処理部を含む構成とすることもできる。

　また、以上の実施の形態においては、第１の音声検出部１１４および第２の音声検出部１２４が、音声を検出した時刻を示す時刻情報を音声データに対応づけて処理する例を示したが、たとえば、音声認識処理システム１００は、入力された音声に、入力された順を示す識別情報を付す機能を有する構成とすることもでき、当該識別情報に基づき、各音声の話者を示す情報および音声認識結果を表示する順番を制御することもできる。

　また、第３の実施の形態において、複数の発言者がグループ分けされ、各グループ毎にそれぞれ第１の音声入力部１１２および第２の音声入力部１２２が設けられた構成を説明したが、第１の実施の形態や第２の実施の形態においても、同様の構成とすることができる。また、第１の音声入力部１１２および第２の音声入力部１２２は、複数のマイクロフォン、およびそれらマイクロフォンから取得される信号を一本の信号に束ねるミキサーによる構成とすることもできる。たとえば、各グループ毎に複数のマイクロフォンが設けられ、それらがミキサー等で１本に束ねられて第１の音声検出部１１４や第２の音声検出部１２４にそれぞれ入力される構成とすることができる。

　この出願は、２００９年３月３１日に出願された日本出願特願２００９－０８５５３２号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　第１の話者の音声である第１の音声を入力し、当該第１の音声の音声認識処理を行い、音声認識結果を第１のテキストデータとして出力する第１の音声認識手段と、
　第２の話者の音声である第２の音声を入力し、当該第２の音声の音声認識処理を行い、音声認識結果を第２のテキストデータとして出力する第２の音声認識手段と、
　前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて表示手段に表示する表示処理手段と、
を含み、
　前記表示処理手段は、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されるのに先立ち、各前記話者を示す情報を、各音声が発せられた順に並べて前記表示手段に表示しておき、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されると、各前記話者を示す情報に対応づけて、対応する前記テキストデータを前記表示手段に表示する音声認識処理システム。
　請求項１に記載の音声認識処理システムにおいて、
　前記第１の音声を検出し、当該第１の音声を検出した時刻を前記第１の音声が発せられた時刻として、当該第１の音声を検出した時刻を示す第１の時刻情報を前記第１の話者を示す情報に対応づける処理を行い、前記第１の音声認識手段による音声認識処理に先立ち、前記第１の時刻情報と前記第１の話者を示す情報とを前記表示処理手段に出力する第１の音声検出手段と、
　前記第２の音声を検出し、当該第２の音声を検出した時刻を前記第２の音声が発せられた時刻として、当該第２の音声を検出した時刻を示す第２の時刻情報を前記第２の話者を示す情報に対応づける処理を行い、前記第２の音声認識手段による音声認識処理に先立ち、前記第２の時刻情報と前記第２の話者を示す情報とを前記表示処理手段に出力する第２の音声検出手段と、
をさらに含み、
　前記表示処理手段は、前記第１の音声検出手段および前記第２の音声検出手段から出力された各前記話者を示す情報を、それぞれに対応づけられた前記時刻情報に基づき、時刻順に並べて前記表示手段に表示する音声認識処理システム。
　請求項２に記載の音声認識処理システムにおいて、
　前記表示処理手段は、前記第１の音声検出手段および前記第２の音声検出手段から出力された各前記話者を示す情報を、それぞれに対応づけられた前記時刻情報とともに、前記表示手段に表示する音声認識処理システム。
　請求項２または３に記載の音声認識処理システムにおいて、
　前記第１の音声検出手段は、前記第１の音声を前記第１の時刻情報とともに前記第１の音声認識手段に出力し、
　前記第１の音声認識手段は、前記第１のテキストデータを前記第１の時刻情報とともに前記表示処理手段に出力し、
　前記第２の音声検出手段は、前記第２の音声を前記第２の時刻情報とともに前記第２の音声認識手段に出力し、
　前記第２の音声認識手段は、前記第２のテキストデータを前記第２の時刻情報とともに前記表示処理手段に出力し、
　前記表示処理手段は、既に前記表示手段に表示している各前記話者を示す情報に、前記時刻情報が同じである各前記テキストデータを対応づけて前記表示手段に表示する音声認識処理システム。
　請求項２から４いずれかに記載の音声認識処理システムにおいて、
　主として前記第１の話者の音声を入力して当該音声を前記第１の音声検出手段に出力する第１の音声入力手段と、
　主として前記第２の話者の音声を入力して当該音声を前記第２の音声検出手段に出力する第２の音声入力手段と、
をさらに含み、
　前記第１の音声検出手段は、前記第１の音声入力手段から出力された前記音声を前記第１の音声として検出し、
　前記第２の音声検出手段は、前記第２の音声入力手段から出力された前記音声を前記第２の音声として検出する音声認識処理システム。
　請求項２から４いずれかに記載の音声認識処理システムにおいて、
　主として前記第１の話者の音声を入力して当該音声を出力する第１の音声入力手段と、
　主として前記第２の話者の音声を入力して当該音声を出力する第２の音声入力手段と、
　前記第１の音声入力手段および前記第２の音声入力手段から同時に出力された音声の音量を比較し、前記第１の音声入力手段から出力された音声の方が前記第２の音声入力手段から出力された音声よりも音量が大きい場合に、当該音声が前記第１の音声であると判定するとともに、前記第２の音声入力手段から出力された音声の方が前記第１の音声入力手段から出力された音声よりも音量が大きい場合に、当該音声が前記第２の音声であると判定する音量比較手段と、
をさらに含み、
　前記第１の音声検出手段および前記第２の音声検出手段は、それぞれ、前記音量比較手段の判定に基づき、前記第１の音声および前記第２の音声を検出する音声認識処理システム。
　請求項２から６いずれかに記載の音声認識処理システムにおいて、
　前記第１の音声および前記第２の音声を、それぞれ、前記第１の時刻情報および前記第２の時刻情報に対応づけて記憶する音声記憶手段と、
　前記表示手段に表示された前記第１のテキストデータまたは前記第２のテキストデータが選択されると、各テキストデータに対応づけられた前記第１の時刻情報および前記第２の時刻情報に基づき、前記音声記憶手段に記憶された対応する時刻の各音声を出力する音声出力処理手段と、
をさらに含む音声認識処理システム。
　請求項１に記載の音声認識処理システムにおいて、
　主として前記第１の話者の音声を入力して当該音声を出力する第１の音声入力手段と、
　主として前記第２の話者の音声を入力して当該音声を出力する第２の音声入力手段と、
　前記第１の音声入力手段および前記第２の音声入力手段から同時に出力された音声の音量を比較し、前記第１の音声入力手段から出力された音声の方が前記第２の音声入力手段から出力された音声よりも音量が大きい場合に、当該音声が前記第１の音声であると判定するとともに、前記第２の音声入力手段から出力された音声の方が前記第１の音声入力手段から出力された音声よりも音量が大きい場合に、当該音声が前記第２の音声であると判定する音量比較手段をさらに含む音声認識処理システム。
　請求項１から８いずれかに記載の音声認識処理システムにおいて、
　話者の音声の音声特徴データを、各話者を示す情報に対応づけて記憶する音声特徴データ記憶手段と、
　前記第１の音声および前記第２の音声を、それぞれ、前記音声特徴データ記憶手段に記憶された前記音声特徴データと比較して、前記第１の音声および前記第２の音声の話者を特定する話者特定手段と、
をさらに含み、
　前記表示手段は、前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記話者特定手段が特定した前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて前記表示手段に表示する音声認識処理システム。
　第１の話者の音声である第１の音声を入力し、当該第１の音声の音声認識処理を行い、音声認識結果を第１のテキストデータとして出力する第１の音声認識ステップと、
　第２の話者の音声である第２の音声を入力し、当該第２の音声の音声認識処理を行い、音声認識結果を第２のテキストデータとして出力する第２の音声認識ステップと、
　前記第１の音声認識ステップおよび前記第２の音声認識ステップからそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されるのに先立ち、各前記話者を示す情報を、各音声が発せられた順に並べて表示手段に表示する第１の表示ステップと、
　前記第１の音声認識ステップおよび前記第２の音声認識ステップからそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されると、前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて前記表示手段に表示する第２の表示ステップと、
を含む音声認識処理方法。
　請求項１０に記載の音声認識処理方法において、
　前記第１の音声を検出し、当該第１の音声を検出した時刻を前記第１の音声が発せられた時刻として、当該第１の音声を検出した時刻を示す第１の時刻情報を前記第１の話者を示す情報に対応づける処理を行い、前記第１の音声認識ステップにおける音声認識処理に先立ち、前記第１の時刻情報と前記第１の話者を示す情報とを出力する第１の音声検出ステップと、
　前記第２の音声を検出し、当該第２の音声を検出した時刻を前記第２の音声が発せられた時刻として、当該第２の音声を検出した時刻を示す第２の時刻情報を前記第２の話者を示す情報に対応づける処理を行い、前記第２の音声認識ステップにおける音声認識処理に先立ち、前記第２の時刻情報と前記第２の話者を示す情報とを出力する第２の音声検出ステップと、
をさらに含み、
　前記第１の表示ステップは、前記第１の音声検出ステップおよび前記第２の音声検出ステップから出力された各前記話者を示す情報を、それぞれに対応づけられた前記時刻情報に基づき、時刻順に並べて前記表示手段に表示する音声認識処理方法。
　コンピュータを、
　第１の話者の音声である第１の音声を入力し、当該第１の音声の音声認識処理を行い、音声認識結果を第１のテキストデータとして出力する第１の音声認識手段、
　第２の話者の音声である第２の音声を入力し、当該第２の音声の音声認識処理を行い、音声認識結果を第２のテキストデータとして出力する第２の音声認識手段、
　前記第１のテキストデータおよび前記第２のテキストデータを、それぞれ、前記第１の話者を示す情報および前記第２の話者を示す情報に対応づけて表示手段に表示する表示処理手段、
として機能させ、
　前記表示処理手段は、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されるのに先立ち、各前記話者を示す情報を、各音声が発せられた順に並べて前記表示手段に表示しておき、前記第１の音声認識手段および前記第２の音声認識手段からそれぞれ前記第１のテキストデータおよび前記第２のテキストデータが出力されると、各前記話者を示す情報に対応づけて、対応する前記テキストデータを前記表示手段に表示する音声認識処理プログラム。
　請求項１２に記載の音声認識処理プログラムにおいて、
　前記コンピュータをさらに、
　前記第１の音声を検出し、当該第１の音声を検出した時刻を前記第１の音声が発せられた時刻として、当該第１の音声を検出した時刻を示す第１の時刻情報を前記第１の話者を示す情報に対応づける処理を行い、前記第１の音声認識手段による音声認識処理に先立ち、前記第１の時刻情報と前記第１の話者を示す情報とを前記表示処理手段に出力する第１の音声検出手段、
　前記第２の音声を検出し、当該第２の音声を検出した時刻を前記第２の音声が発せられた時刻として、当該第２の音声を検出した時刻を示す第２の時刻情報を前記第２の話者を示す情報に対応づける処理を行い、前記第２の音声認識手段による音声認識処理に先立ち、前記第２の時刻情報と前記第２の話者を示す情報とを前記表示処理手段に出力する第２の音声検出手段、
として機能させ、
　前記表示処理手段は、前記第１の音声検出手段および前記第２の音声検出手段から出力された各前記話者を示す情報を、それぞれに対応づけられた前記時刻情報に基づき、時刻順に並べて前記表示手段に表示する音声認識処理プログラム。