JPWO2011074260A1

JPWO2011074260A1 - 音声認識システム

Info

Publication number: JPWO2011074260A1
Application number: JP2011545985A
Authority: JP
Inventors: 長友　健太郎; 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-12-17
Filing date: 2010-12-16
Publication date: 2013-04-25
Also published as: WO2011074260A1

Abstract

音声認識システム（１）は、互いに通話を行う複数のユーザ（Ｕ１、Ｕ２）のＩＰ電話機（１２）と、複数のユーザ（Ｕ１、Ｕ２）のＩＰ電話機（１２）間の通話を制御する管理装置（１００）と、複数のユーザ（Ｕ１、Ｕ２）間の通話中に、複数のユーザ（Ｕ１、Ｕ２）のＩＰ電話機（１２）からの音声データを個別に受信する音声受信部（１１２）と、個別に受信した複数のユーザ（Ｕ１、Ｕ２）のＩＰ電話機（１２）からの音声データをそれぞれ音声認識する音声認識サーバ（２００：ＡＳＲ１、ＡＳＲ２）と、を備える。

Description

本発明は、音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関し、特に、通話音声の音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関する。

通話音声がリアルタイムに音声認識されて画面に表示される手法の一例が特許文献１（特開２００５−１１００３４号公報）に記載されている。特許文献１の電話応対支援システムは、ＣＴＩ（Computer Telephony Integration）サーバにインタフェースを有し、複数の内線電話を具備する構内交換機に着信した電話コールの客先情報を、ローカルエリアネットワークを介して該ＣＴＩサーバに接続された情報機器の画面に表示させることにより該電話コールに応対する応対者を支援する電話応対支援システムであって、ＣＴＩサーバは、電話コールの発信者と該電話コールの応対者との間でやり取りされる通話の音声信号を認識して文字データを出力する音声認識手段と、音声認識手段から出力された文字データを格納する情報格納手段とを有し、情報機器は、音声認識手段から出力された文字データおよび情報格納手段に格納された文字データのうち何れか一方又は双方を画面に文字表示させる。

特開２００５−１１００３４号公報

上述した特許文献１に記載の電話応対支援システムの技術では、通話中の複数の話者の音声は区別することなく受信されるので、たとえば、通話コールの発信者と応対者との間の通話内容は単一の音声チャネルを通じて音声認識処理に送られる可能性がある。今日の音声認識技術では、複数の話者が同時に発話した音声信号を単一のチャネルにミックスしたような音声を精度よく取り扱うことはできないため、そのような音声信号による音声認識処理は、単一の話者の音声のみを含む音声信号と比べて音声認識精度が低下するという問題点があった。

本発明の目的は、上述した課題である音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムを提供することにある。

本発明の音声認識システムは、互いに通話を行う複数のユーザの電話端末と、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える。

本発明の音声認識装置の管理装置は、
互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
を備える。

本発明の管理方法は、音声認識装置の管理方法であって、
前記音声認識装置の前記管理装置が、
複数のユーザの電話端末と接続され、
複数の前記ユーザの前記電話端末間の通話を制御し、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる。

本発明の音声認識装置の管理プログラムは、複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラムである。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。

さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

本発明によれば、音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムが提供される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。本実施形態の音声認識システムの発信要求画面の例を示す図である。本実施形態の音声認識システムの管理テーブルの構造の例を示す図である。本実施形態の音声認識システムの認識結果テーブルの構造の例を示す図である。本発明の実施の形態に係る音声認識システムの音声認識結果を提示する配信サーバの構成を示す機能ブロック図である。本実施形態の音声認識システムのユーザ情報記憶部の構造の例を示す図である。本実施形態の音声認識システムの音声認識結果表示画面の例を示す図である。本発明の実施の形態に係る音声認識システムの音声認識処理の手順の一例を示すフローチャートである。本発明の実施の形態に係る音声認識システムの音声認識結果表示処理の手順の一例を示すフローチャートである。本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。本発明の実施例の音声認識システムの構成を示すブロック図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

図１は、本発明の実施の形態に係る音声認識システム１の構成を示す機能ブロック図である。
本実施形態の音声認識システム１は、互いに通話を行う複数のユーザＵ１、Ｕ２（話者）のＩＰ（Internet Protocol）電話機１２と、複数のユーザＵ１、Ｕ２のＩＰ電話機１２間の通話を制御する通話制御部（管理装置１００）と、複数のユーザＵ１、Ｕ２間の通話中に、複数のユーザＵ１、Ｕ２のＩＰ電話機１２からの音声データを個別に受信する音声受信部１１２と、個別に受信した複数のユーザＵ１、Ｕ２のＩＰ電話機１２からの音声データをそれぞれ音声認識する音声認識部（音声認識サーバ２００（ＡＳＲ（Automatic Speech Recognition）２１０（ＡＳＲ１、ＡＳＲ２）））と、を備える。

具体的には、音声認識システム１は、複数のユーザのユーザ端末１０と、管理装置１００と、音声認識サーバ２００と、音声認識結果記憶部２２０と、を備える。
ユーザ端末１０は、ＩＰ電話機１２およびＰＣ（Personal Computer）端末１４を含む。
ＩＰ電話機１２は、たとえば、ＰＣソフトフォン、携帯電話機、およびＰＨＳ（Personal Handyphone System）等を含む。本実施形態では、内線用ＩＰ電話を例として説明するが、これに限定されるものではなく、アナログ固定電話も含むことができ、また、ＰＢＸ（Private Branch eXchange：構内交換機）を介した外線電話も含むこともできる。ＩＰ電話機１２は、図示しないＣＰＵ（Central Processing Unit）と、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、通信部と、操作スイッチ等の操作部と、ディスプレイ等の表示部と、スピーカやマイクなどの音声入出力部と、時計と、を備える。

ＰＣ端末１４は、たとえば、図示しないＣＰＵやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるパーソナルコンピュータ、シンクライアント端末またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。
なお、本実施形態では、ユーザ端末１０は、ＩＰ電話機１２とＰＣ端末１４を含む構成としているが、これに限定されない。たとえば、ＩＰ電話機１２の代わりに、ＰＣ端末１４上でアプリケーションプログラムを実行し、電話端末の機能を実現するＰＣソフトフォンを利用する構成とすれば、ＩＰ電話機１２は不要となる。この場合、ユーザ端末１０は、ＰＣ端末１４のみとすることができる。

管理装置１００は、たとえば、図示しないＣＰＵやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。本実施形態において、管理装置１００は、ＳＩＰ（Session Initiation Protocol）サーバ（不図示）を含むことができる。

本実施形態では、管理装置１００とユーザ端末１０のＩＰ電話機１２は、たとえば、図示されないＩＰ内線電話網およびＳＩＰ網を含むネットワークを介して接続される。ユーザ端末１０が、たとえば、アナログ固定電話や携帯電話の場合、ユーザ端末１０の電話機は、さらに図示されない、公衆回線網、または、基地局や携帯電話網、ならびに、ＰＢＸなどを介して構内電話網およびＳＩＰ網に接続され、管理装置１００と接続されてもよい。また、管理装置１００と、ユーザ端末１０のＰＣ端末１４は、ＬＡＮ（Local Area Network）等のネットワークを介して接続される。

音声認識サーバ２００は、たとえば、図示しないＣＰＵやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。

なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
また、音声認識システム１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

管理装置１００は、発信要求受付部１０２と、管理テーブル１０４と、管理部１０６と、発信部１０８と、着信検出部１１０と、音声受信部１１２と、を含む。
発信要求受付部１０２は、発信元のユーザ（ここでは、ユーザＵ１）のユーザ端末１０のＰＣ端末１４から、発信先のユーザ（ここでは、ユーザＵ２）のユーザ端末１０のＩＰ電話機１２への発信要求を受け付ける。発信要求には、たとえば、発信元のユーザＵ１のＩＰ電話機１２の電話番号と、発信先のユーザＵ２のＩＰ電話機１２の電話番号とが含まれる。

本実施形態において、ユーザのＰＣ端末１４には、管理装置１００に発信要求を行うためのアプリケーションプログラムがインストールされていて、そのプログラムを実行するか、あるいは、ブラウザを用いて所定のウェブサイトにアクセスすることで、図２の発信要求画面１２０をディスプレイに表示させることができる。ユーザはこの発信要求画面１２０を用いて発信要求操作などが可能になる。

図２に示すように、発信要求画面１２０は、発信元電話番号表示欄１２２と、発信先電話番号入力欄１２４と、発信ボタン１２６と、変更ボタン１２８と、を含む。たとえば、ユーザは、発信先電話番号入力欄１２４に発信先電話番号を入力し、発信ボタン１２６を操作することによって、電話をかけることができる。ユーザが発信ボタン１２６を操作したとき、発信元電話番号表示欄１２２に表示されている発信元電話番号と、ユーザによって発信先電話番号入力欄１２４に入力された発信先電話番号が、管理装置１００（図１）に送信され、発信要求受付部１０２（図１）が受け付ける。なお、図２の変更ボタン１２８を操作すると、発信元電話番号表示欄１２２が入力欄に切り替わり、発信元電話番号を変更できる。

図１の管理テーブル１０４は、たとえば、図３（ａ）に示すように、ユーザ毎に、ユーザ識別情報（ユーザＩＤ）と、ユーザのＩＰ電話機１２の端末識別情報（電話番号）を対応付けて記憶する。本実施形態では、管理テーブル１０４は、ユーザＩＤを含んでいるが、必ずしも必要なく、電話番号などの端末識別情報でユーザを管理することもできる。また、本実施形態では、管理テーブル１０４には、予めユーザのＩＰ電話機１２の端末識別情報を登録している構成としているが、これに限定されず、管理装置１００がＩＰ電話機１２からの着呼を着信したとき、着信した端末の端末識別情報を管理テーブル１０４に登録して管理する構成としてもよい。

管理部１０６は、複数の音声認識部（ＡＳＲ１、ＡＳＲ２）の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部（ＡＳＲ１、ＡＳＲ２）をそれぞれ選択し、管理する。管理部１０６は、たとえば、図３（ｂ）に示すように、管理テーブル１０４に、さらに、各ユーザのＩＰ電話機１２毎に接続先のＡＳＲ２１０の識別情報、たとえば、各ＡＳＲ２１０に設定されたＩＰ電話の電話番号、ＩＰアドレスなどを対応付けて記憶して、管理する。

本実施形態では、管理部１０６が、管理テーブル１０４を参照し、ユーザ毎に予め対応付けられたＡＳＲ２１０を抽出することで、発信元または発信先に対応するＡＳＲ２１０をそれぞれ選択する構成としているが、これに限定されない。たとえば、ＡＳＲ２１０の稼働状況や、ＡＳＲ２１０の優先順位や規定のルールにしたがって、各ユーザの通話の音声データを認識させる音声認識部（ＡＳＲ２１０）を選択することもできる。

図１に戻り、発信部１０８は、発信要求受付部１０２が発信要求を受け付けたとき、受け付けた発信要求に呼応して、管理部１０６からの指示に従って、発信元のユーザのＩＰ電話機１２、発信先のユーザのＩＰ電話機１２、および音声認識部（ＡＳＲ２１０）に対して発信する。すなわち、管理部１０６は、発信要求受付部１０２が発信要求を受け付けたとき、複数の音声認識部（ＡＳＲ１、ＡＳＲ２）の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部（ＡＳＲ１、ＡＳＲ２）をそれぞれ選択し、発信部１０８にそれぞれへの発信を指示する。
着信検出部１１０は、発信元のユーザのＩＰ電話機１２、および発信先のユーザのユーザ端末１０のＩＰ電話機１２の着信を検出する。

本実施形態において、発信要求受付部１０２が発信要求を受け付けたとき、管理部１０６の指示に従い、発信部１０８が発信元のユーザのＩＰ電話機１２に発信し、着信検出部１１０が発信元のユーザのＩＰ電話機１２の着信を検出したとき、管理部１０６の指示に従い、発信部１０８が発信先のユーザのＩＰ電話機１２に発信する。そして、着信検出部１１０が発信先のユーザのＩＰ電話機１２の着信を検出したとき、管理部１０６がそれぞれ選択したＡＳＲ２１０の識別情報に基づいて、発信部１０８が発信元および発信先の各ユーザのＩＰ電話機１２からの発信要求として各ＡＳＲ２１０に発信する。

音声受信部１１２は、複数のユーザ間の通話中に、複数のユーザのＩＰ電話機１２からの音声データを個別に受信し、音声認識サーバ２００に受け渡す。
音声認識サーバ２００は、自動着信部２０２と、複数のＡＳＲ２１０を含む。
自動着信部２０２は、発信元および発信先の各ユーザのＩＰ電話機１２からの発信をそれぞれ着信し、着信した識別情報に対応する各音声認識部（ＡＳＲ１、ＡＳＲ２）に通知する。なお、自動着信部２０２は、各音声認識部（ＡＳＲ１、ＡＳＲ２）にそれぞれ含むこともでき、音声認識部（ＡＳＲ１、ＡＳＲ２）が直接着信してもよい。このようにして、発信元および発信先の各ユーザに対応する音声認識部（ＡＳＲ１、ＡＳＲ２）に発信元および発信先の各ユーザのＩＰ電話機１２がそれぞれ接続され、発信元および発信先の各ユーザのＩＰ電話機１２の通話の音声データを音声認識部（ＡＳＲ１、ＡＳＲ２）がそれぞれ受信する。

各ＡＳＲ２１０は、自動着信部２０２から通知された着信した通話の音声データをそれぞれ音声認識する。
音声認識結果記憶部２２０は、ユーザ毎に、音声認識部（ＡＳＲ１、ＡＳＲ２）の音声認識結果を、ユーザのユーザ識別情報に対応付けて記憶する。本実施形態では、音声認識結果記憶部２２０は、たとえば、図４に示すような認識結果テーブル２２２を含み、認識結果テーブル２２２は、ユーザＩＤと、認識日時と、認識結果ファイルの格納先とファイル名を含むパスなどの認識結果ファイルを取得するための認識結果ファイル情報と、を関連付けて記憶する。認識結果ファイルは、たとえば、テキストファイルであり、認識結果テーブル２２２の認識結果ファイル情報に示される格納先の記憶部に格納される。

なお、音声認識結果記憶部２２０は、たとえば、ネットワークを介して接続される他の記憶装置や、他の記録媒体などであってもよい。本実施形態では、認識結果テーブル２２２は、ユーザＩＤに認識結果ファイルを対応付けて記憶する構成としているが、これに限定されない。ユーザＩＤは必ずしも必要なく、たとえば、ユーザＩＰ電話機１２等の電話機の電話番号などの端末識別情報に認識結果ファイルを関連付けてもよい。

また、本実施形態の音声認識システム１は、図５に示すように、さらに、配信サーバ３００と、ユーザ情報記憶部３０２と、を含む。配信サーバ３００は、認証部３０４と、提示部３０６と、を含む。
ユーザ情報記憶部３０２は、図６に示すように、たとえば、ユーザ毎に、ユーザＩＤ、パスワード、電話番号、および端末ＩＰアドレスを対応付けて記憶する。なお、本実施形態では、ユーザの電話番号は、ユーザ情報記憶部３０２に含まれなくてもよい。端末ＩＰアドレスは、音声認識結果をユーザに提供するための提供先の情報であり、たとえば、ユーザ端末１０のＰＣ端末１４のＩＰアドレス、または、ユーザのＰＣ端末１４に音声認識結果を表示させるためのアプリケーションプログラムの識別情報、たとえば、ポート番号などを含むことができる。

図５に戻り、認証部３０４は、ＬＡＮ等のネットワーク３を介して各ユーザのＰＣ端末１４のブラウザ（不図示）から配信サーバ３００にアクセスされたとき、ユーザにユーザＩＤおよびパスワードの入力を要求して、入力を受け付け、ユーザ情報記憶部３０２を参照し、受け付けたユーザＩＤとパスワードを認証する。

提示部３０６は、認証部３０４により認証されたとき、ユーザ情報記憶部３０２および音声認識結果記憶部２２０の認識結果テーブル２２２（図４）を参照し、認証されたユーザの認識結果ファイルを音声認識結果記憶部２２０から読み出す。そして、提示部３０６は、たとえば、ウェブサーバであり、音声認識結果記憶部２２０から読み出した音声認識結果を、ユーザがアクセス可能なウェブページに出力する。そして、ユーザがＰＣ端末１４を操作して音声認識サーバ２００の対応するウェブページにブラウザを用いてアクセスすることで、音声認識結果をユーザのＰＣ端末１４の表示部（不図示）に表示させることができる。これにより、ユーザは音声認識結果を見ることができる。

また、本実施形態において、たとえば、図１において、ＰＣ端末１４が発信要求受付部１０２に対して発信要求を行う発信要求画面と、配信サーバ３００の提示部３０６がＰＣ端末１４に提示する認識結果画面とは、同じアプリケーションプログラムによって連動して表示されるようにしてもよい。たとえば、音声認識システム１は、ＡＳＰ（Application Service Provider）を含み、ユーザは、ＰＣ端末１４がブラウザからＡＳＰにアクセスし、本発明の音声認識システム１の通話モニタのアプリケーションプログラムを起動すると、まず、発信要求画面が表示され、発信先の電話番号の入力が受け付けられ、その後、音声認識が開始すると、その結果を表示するための認識結果画面が開かれてもよい。発信要求画面と認識結果画面は、同時に表示されていてもよいし、接続が確立してから、または音声認識結果が得られてから認識結果画面が表示されてもよい。

本実施形態では、たとえば、図７（ａ）に示すように、ユーザＵ１が発話した音声データの認識結果がユーザＵ１のＰＣ端末１４の画面３１０に表示され、ユーザＵ２が発話した音声データの認識結果がユーザＵ２のＰＣ端末１４の画面３１２に表示される。あるいは、図７（ｂ）に示すように、ユーザＵ１とＵ２のＰＣ端末１４において、ユーザＵ１とＵ２の発話した音声データの認識結果が両方とも同じ画面３１４に表示されてもよい。あるいは、発信元または発信先のいずれか一方のみが、認識結果を表示させ、他方は認識結果を参照する権限を与えない等の制御をすることもできる。

提示部３０６は、各ＡＳＲ２１０が出力する音声認識結果をユーザのＰＣ端末１４にネットワーク３を介してリアルタイムに提示することができる。ここで、「リアルタイムに提示する」とは、ＩＰ電話機１２から音声データのＡＳＲ２１０への送信時間、ＡＳＲ２１０における音声認識時間、およびＡＳＲ２１０からＰＣ端末１４への認識結果の返信時間分の遅れを含む。したがって、ユーザが発話してから、多少遅延して提示され、ＩＰ電話機１２とＡＳＲ２１０間、あるいは、配信サーバ３００とＰＣ端末１４間の通信環境や通信状況、あるいは、ＡＳＲ２１０の処理能力や混雑状態などにより遅延時間は変化する。

また、本実施形態では、音声認識結果記憶部２２０に一旦格納された音声認識結果を配信サーバ３００が読み出す構成としているが、これに限定されない。たとえば、ＡＳＲ２１０から音声認識結果記憶部２２０に認識結果を記憶せずに、ＡＳＲ２１０から直接、配信サーバ３００に認識結果を出力してもよい。

また、音声認識結果記憶部２２０に格納された音声認識結果は、通話後、随時、履歴として参照することができる。たとえば、図７（ｃ）に示すように、画面３１６として、認識日時、発信元および発信先の識別情報、たとえば、電話番号等、および音声認識結果を表示させてもよい。発信元および発信先の識別情報は、電話番号に限定されず、ユーザＩＤに関連付けられた、ユーザ情報、たとえば、氏名、部署等を含むことができる。音声認識結果は、図７（ｃ）のように発信元および発信先の両方を含んでもよいし、ユーザ毎に表示させてもよい。ユーザ毎に、管理レベルに応じて他のユーザへの認識結果の提供を許可するか否かを設定してもよいし、管理レベルに応じて他のユーザの認識結果へのアクセスの権限を設定してもよい。

本実施の形態の音声認識システム１の管理装置１００は、コンピュータプログラムに対応する各種の処理動作をＣＰＵが実行することにより、上述のような各種ユニットが各種機能として実現される。
本実施形態のコンピュータプログラムは、複数の音声認識装置（ＡＳＲ２１０）の管理装置１００を実現するためのコンピュータがする管理プログラムであって、複数のユーザのＩＰ電話機１２間の通話を制御する手順、複数のユーザ間の通話中に、複数のユーザのＩＰ電話機１２からの音声データを個別に受信する手順、個別に受信した複数のユーザのＩＰ電話機１２からの音声データをＡＳＲ２１０にそれぞれ音声認識させる手順、をコンピュータに実行させるように記述されている。

本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。

上述のような構成において、本実施の形態の管理装置１００によるＡＳＲ２１０の管理方法を以下に説明する。図８および図９は、本実施形態の音声認識システム１の動作の一例を示すフローチャートである。以下、図１乃至図９を用いて説明する。

本実施形態の音声認識装置（ＡＳＲ２１０）の管理方法は、管理装置１００が、複数のユーザのＩＰ電話機１２とネットワークを介して接続され、複数のユーザのＩＰ電話機１２間のネットワークを介した通話を制御し（ステップＳ１０１〜Ｓ１１９）、複数のユーザ間の通話中に、複数のユーザのＩＰ電話機１２からの音声データを個別に受信し、個別に受信した複数のユーザのＩＰ電話機１２からの音声データをＡＳＲ２１０にそれぞれ音声認識させる（ステップＳ１２１）。

図８は、本実施形態の音声認識システム１の音声認識処理の手順の一例を示すフローチャートである。
まず、管理装置１００の発信要求受付部１０２がユーザＵ１のＰＣ端末１４からのユーザＵ２への発信要求を受け付けると（ステップＳ１０１のＹＥＳ）、管理部１０６に通知し、管理部１０６は管理テーブル１０４を参照し、ユーザＵ１のＩＰ電話機１２の電話番号を取得する。なお、発信要求にユーザＵ１の電話番号を含んで送ってもよい。管理部１０６からの指示に従い、発信部１０８が発信元のユーザＵ１のＩＰ電話機１２の電話番号に発信する（ステップＳ１０５）。

そして、ユーザＵ１がＩＰ電話機１２の着呼を手動で着信すると、管理装置１００の着信検出部１１０が発信元であるユーザＵ１の着信を検出し、管理部１０６に通知する（ステップＳ１０７のＹＥＳ）。そして、管理部１０６は管理テーブル１０４を参照し、発信要求に含まれる発信先のユーザＵ２のＩＰ電話機１２の電話番号に発信する（ステップＳ１１１）。

そして、ユーザＵ２がＩＰ電話機１２の着呼を手動で着信すると、管理装置１００の着信検出部１１０が発信先であるユーザＵ２の着信を検出し、管理部１０６に通知する（ステップＳ１１３のＹＥＳ）。そして、管理部１０６は管理テーブル１０４を参照し、ユーザＵ１およびユーザＵ２にＡＳＲ１およびＡＳＲ２をそれぞれ割り当て、それぞれに発信する（ステップＳ１１５）。音声認識サーバ２００の自動着信部２０２がそれぞれの着呼を自動的に着信する（ステップＳ１１７）。

そして、ユーザＵ１のＩＰ電話機１２、ユーザＵ２のＩＰ電話機１２、ＡＳＲ１、およびＡＳＲ２の間で、通話が可能となる。ユーザＵ１とユーザＵ２が発話を開始すると（ステップＳ１１９のＹＥＳ）、ユーザＵ１の発話音声データが音声受信部１１２を介してＡＳＲ１に送信され、ＡＳＲ１で音声認識されるとともに、ユーザＵ１の発話音声データはユーザＵ２のＩＰ電話機１２に転送される。一方、ユーザＵ２の発話音声データが音声受信部１１２を介してＡＳＲ２に送信され、ＡＳＲ２で音声認識されるとともに、ユーザＵ２の発話音声データはユーザＵ１のＩＰ電話機１２に転送される（ステップＳ１２１）。そして、各ＡＳＲ２１０で得られた音声認識結果のテキストデータが、それぞれ音声認識結果記憶部２２０にユーザ毎に記録される（ステップＳ１２３）。このとき、認識結果のテキストデータのファイルの格納先とファイル名のパスと、認識日時情報が認識結果テーブル２２２に記録される。

以上、説明したように、ユーザＵ１とユーザＵ２は、互いの発話音声を聞くことができるとともに、各ＡＳＲ２１０にユーザ毎にそれぞれ個別に入力された発話音声データを各ＡＳＲ２１０で音声認識処理できる。すなわち、両者が同時に発話してしまった場合でも、ＡＳＲ２１０には一方の音声データのみが入力される。したがって、ユーザＵ１とユーザＵ２の両者の発話音声が混在している場合に比較して、認識対象の音声データの品質がよくなるため、認識精度が向上する。

なお、以上の動作において、音声データの転送経路は様々な態様が考えられる。たとえば、図１０に示すように、ユーザＵ１とユーザＵ２の２者間で通話を行う場合において、はじめに、ユーザＵ１のＰＣ端末１４（図１０には不図示）からユーザＵ２への発信要求がなされる。ユーザＵ１の音声データを認識処理するＡＳＲ２１０としてＡＳＲ１が選択され、ＡＳＲ１からユーザＵ１のＩＰ電話機１２に発信処理がなされ、ユーザＵ１とＡＳＲ１の間の通話が可能になる（ステップＳ３０１）。次に、ユーザＵ２の音声データを認識処理するＡＳＲ２１０としてＡＳＲ２が選択され、ＡＳＲ２からユーザＵ２のＩＰ電話機１２に発信処理がなされ、ユーザＵ２とＡＳＲ２の間の通話が可能になる（ステップＳ３０２）。さらに、ユーザＵ１のＩＰ電話機１２からユーザＵ２のＩＰ電話機１２への発信処理がなされ、ユーザＵ１のＩＰ電話機１２とユーザＵ２のＩＰ電話機１２の間の通話が可能になる（ステップＳ３０３）。

一方、ユーザＵ１のＩＰ電話機１２からの発話音声データは、ＡＳＲ１に転送され（ステップＳ３１１）、ＡＳＲ１からユーザＵ２のＩＰ電話機１２に転送される（ステップＳ３１２）。一方、ユーザＵ２のＩＰ電話機１２からの発話音声データは、ＡＳＲ２に転送され（ステップＳ３１４）、ＡＳＲ２からユーザＵ１のＩＰ電話機１２に転送される（ステップＳ３１５）。
なお、以下の図１１と図１２の例では、２者以上の通話が可能であるが、この図１０の例は、２者通話のみ対応可能となる。

また、図１１に示す例では、２者以上の複数のＩＰ電話機１２間で通話を行う場合、各ユーザ毎にＡＳＲ２１０と管理装置１００のユーザのＩＰ電話機１２の３者間での通話が成立する。すなわち、たとえば、ユーザＵ１のＩＰ電話機１２とＡＳＲ１間、ＡＳＲ１と管理装置１００間、管理装置１００とユーザＵ１のＩＰ電話機１２間のそれぞれで通話が可能な状態となる（不図示）。また、ユーザＵ２のＩＰ電話機１２とＡＳＲ２間、ＡＳＲ２と管理装置１００間、管理装置１００とユーザＵ２のＩＰ電話機１２間のそれぞれで通話可能な状態となる（不図示）。さらに、ユーザＵ３のＩＰ電話機１２とＡＳＲ３間、ＡＳＲ３と管理装置１００間、管理装置１００とユーザＵ３のＩＰ電話機１２間のそれぞれで通話可能な状態となる（不図示）。

そして、ユーザＵ１、ユーザＵ２、およびユーザＵ３のＩＰ電話機１２からの発話音声データは、ＡＳＲ１、ＡＳＲ２、およびＡＳＲ３にそれぞれ送信される（ステップＳ３２１、Ｓ３２２、およびＳ３２３）とともに、ＡＳＲ１、ＡＳＲ２、およびＡＳＲ３から管理装置１００に転送される（ステップＳ３３１、Ｓ３３２、およびＳ３３３）。そして、管理装置１００において、ユーザＵ２およびユーザＵ３の音声データが合成されてユーザＵ１のＩＰ電話機１２に転送され（ステップＳ３４１）、ユーザＵ１およびユーザＵ３の音声データが合成されてユーザＵ２のＩＰ電話機１２に転送され（ステップＳ３４２）、ユーザＵ１およびユーザＵ２の音声データが合成されてユーザＵ３のＩＰ電話機１２に転送される（ステップＳ３４３）。

また、図１２に示す例では、２者以上の複数のＩＰ電話機１２間で通話を行う場合、各ユーザのＩＰ電話機１２と管理装置１００間、および管理装置１００と各ＡＳＲ２１０間での通話が成立する（不図示）。

そして、ユーザＵ１のＩＰ電話機１２からの発話音声データは、管理装置１００に送信され（ステップＳ３５１）、管理装置１００からＡＳＲ１に送信される（ステップＳ３６１）とともに、管理装置１００からユーザＵ２のＩＰ電話機１２に転送される（ステップＳ３７２）。一方、ユーザＵ２のＩＰ電話機１２からの発話音声データは、管理装置１００に送信され（ステップＳ３５２）、管理装置１００からＡＳＲ２に送信される（ステップＳ３６２）とともに、管理装置１００からユーザＵ１のＩＰ電話機１２に転送される（ステップＳ３７１）。

図９は、本実施形態の音声認識システム１の音声認識結果表示処理の手順の一例を示すフローチャートである。
本実施形態の音声認識システム１において、ＡＳＲ２１０は、ユーザ管理テーブル（ユーザ情報記憶部３０２）を参照し、ＩＰ電話機１２の端末識別情報からユーザのユーザ識別情報を取得し、ユーザ情報記憶部３０２を参照し、ユーザの音声認識結果を、ユーザに対応付けられた通信端末（ＰＣ端末１４）にネットワーク３を介して提示する（ステップＳ２０７）。

具体的には、ユーザＵ１およびユーザＵ２は、ＰＣ端末１４を使用して、ブラウザを起動し、配信サーバ３００にネットワーク３を介してログインする（ステップＳ２０１のＹＥＳ）。配信サーバ３００の認証部３０４がユーザ情報記憶部３０２を参照し、ユーザＵ１またはユーザＵ２のユーザ認証を行う（ステップＳ２０３）。認証された場合（ステップＳ２０３のＹＥＳ）、配信サーバ３００の提示部３０６がネットワーク３を介して認証されたユーザの音声認識結果を音声認識結果記憶部２２０から取得する（ステップＳ２０５）。そして、提示部３０６は、ユーザのＰＣ端末１４に提示し、ユーザは、ＰＣ端末１４のブラウザに認識結果を表示させ、閲覧する（ステップＳ２０７）。

このように、本発明によれば、ユーザのＰＣ端末１４にブラウザを備えれば、特別なアプリケーションプログラムをインストールする必要がなく、簡単な構成でユーザ毎に個別に音声認識処理された音声認識結果を表示することができる。認識結果は、通話時にリアルタイムに表示させることもできるし、通話履歴として後から閲覧することもできる。ユーザの管理レベルに応じて閲覧できる音声認識結果を制限することもできる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

図１３は、本発明の実施例の音声認識システム１の構成の概略を示すブロック図である。
本実施例において、各ユーザのＰＣ端末１４は、ブラウザ２０がインストールされている。音声認識システム１は、ＡＳＰ４００と、プロキシ４２０と、を備える。ＡＳＰ４００は、モニタ用ウェブアプリケーション４１０を有し、各ユーザは、ＰＣ端末１４のブラウザ２０からＡＳＰ４００にネットワーク３を介してアクセスし、モニタ用ウェブアプリケーション４１０を起動し、本発明の音声認識システム１を利用することができる。

ＰＣ端末１４からＡＳＰ４００にアクセスするとき、ＡＳＰ４００は、ログイン画面（不図示）にて、ユーザにユーザＩＤとパスワードを含むユーザ情報を入力させて受け付ける。ＡＳＰ４００は、プロキシ４２０にネットワーク３を介してアクセスし、受け付けたユーザ情報に基づいてユーザ認識処理を行う。プロキシ４２０は、上記実施形態の図５の認証部３０４に相当し、ユーザ情報記憶部３０２にアクセスし、ユーザ情報を取得し、ユーザ認識処理を行う。ユーザが認識されると、ユーザは、ＡＳＰ４００のモニタ用ウェブアプリケーション４１０が利用可能となるとともに、ＡＳＰ４００のモニタ用ウェブアプリケーション４１０は、ユーザＵ１のユーザ情報を取得する。

モニタ用ウェブアプリケーション４１０は、Click-to-Callプラグイン４１２および認識結果表示プラグイン４１４を有する。Click-to-Callプラグイン４１２は、上記実施形態の図１の管理装置１００の発信要求受付部１０２に相当する。認識結果表示プラグイン４１４は、上記実施形態の図５の管理装置１００の提示部３０６に相当する。

Click-to-Callプラグイン４１２は、各ユーザからの発信要求を受け付ける。この発信要求には、発信元のユーザ（この例ではユーザＵ１）のＩＰ電話機１２の電話番号と、発信先のユーザ（この例ではユーザＵ２）のＩＰ電話機１２の電話番号が含まれる。発信元のユーザのＩＰ電話機１２の電話番号は、予めＰＣ端末１４に登録されている。または、ＡＳＰ４００がアクセス可能なユーザ情報記憶部３０２に予めユーザ毎にＩＰ電話機１２の電話番号、ＰＣ端末１４のＩＰアドレス等を登録しておき、発信要求を受け付けたとき、ＡＳＰ４００にログインしたときのユーザＩＤやＰＣ端末１４のＩＰアドレス等からＩＰ電話機１２の電話番号を取得することもできる。

発信先の電話番号は、発信元のユーザが、予め電話帳などに登録されている中から選択してもよいし、直接、電話番号を入力してもよい。Click-to-Callプラグイン４１２は、発信先の選択または入力を受け付けるための発信要求画面をユーザＵ１のＰＣ端末１４のブラウザ２０に表示させる。そして、ユーザＵ１が発信先の電話番号を選択または入力し、発信要求ボタンを操作すると、Click-to-Callプラグイン４１２は、ユーザＵ１の発信要求ボタンの押下に呼応して、ユーザＵ１により選択または入力された発信先のユーザＵ２のＩＰ電話機１２の電話番号と、ユーザＵ１のＩＰ電話機１２の電話番号を受け付ける。

本実施例の音声認識システム１は、さらに、発信制御部５００と、ＩＰＰＢＸ５１０と、を含む。
発信制御部５００は、たとえば、ＳＩＰサーバを含むことができる。発信制御部５００およびＩＰＰＢＸ５１０は、上記実施形態の図１の管理テーブル１０４、管理部１０６、発信部１０８、着信検出部１１０、および音声受信部１１２を含む構成に相当する。発信制御部５００は、Click-to-Callプラグイン４１２が発信要求を受け付けたとき、発信元および発信先の情報を取得し、音声認識サーバ２００と、ＩＰＰＢＸ５１０を介して発信元のユーザＵ１のＩＰ電話機１２と発信先のユーザＵ２のＩＰ電話機１２のそれぞれに発信する。

各ユーザのＩＰ電話機１２にて手動で着信し、各ユーザのＩＰ電話機１２と音声認識サーバ２００とが接続される。そして、ユーザＵ１とユーザＵ２の間で通話が開始される。このとき、音声認識サーバ２００で各ユーザのＩＰ電話機１２において、発話音声データを個別に受信して個別に認識処理し、その結果を音声認識結果記憶部２２０に記憶する。

そして、各ユーザは、ＰＣ端末１４のブラウザ２０から、モニタ用ウェブアプリケーション４１０の認識結果表示プラグイン４１４を実行する。認識結果表示プラグイン４１４は、認識結果表示プラグイン４１４を実行したユーザの通話記録として、音声認識結果記憶部２２０に記憶されている認識結果のテキストデータを、配信サーバ３００からそのユーザのＰＣ端末１４にネットワーク３を介して配信させる。そして、認識結果表示プラグイン４１４は、配信された認識結果を、認識結果表示プラグイン４１４を実行したユーザのＰＣ端末１４の表示部に表示させる。たとえば、ＰＣ端末１４の表示部は、上記実施形態の図７に示したような各種の画面を表示することができる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。

本発明は以下の態様も含む。
［付記１］
互いに通話を行う複数のユーザの電話端末と、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える音声認識システム。

［付記２］
付記１に記載の音声認識システムにおいて、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。

［付記３］
付記２に記載の音声認識システムにおいて、
前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。

［付記４］
付記３に記載の音声認識システムにおいて、
前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。

［付記５］
付記１乃至４いずれかに記載の音声認識システムにおいて、
前記音声認識手段は、それぞれ識別情報を有するとともに、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを音声認識する複数の音声認識部を含み、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部と、
前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
複数の前記音声認識部の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識部をそれぞれ選択し、管理する管理部と、を含み、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識部の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識部に発信し、
前記各音声認識部は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識システム。

［付記６］
互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルと、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段と、
を備える音声認識装置の管理装置。

［付記７］
付記６に記載の音声認識装置の管理装置において、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識装置の管理装置。

［付記８］
付記６または７に記載の音声認識装置の管理装置において、
複数の前記音声認識装置は、それぞれ識別情報を有し、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを個別に音声認識し、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部と、
前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
複数の前記音声認識装置の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識装置をそれぞれ選択し、管理する管理部と、を含み、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識装置の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識装置に発信し、
前記各音声認識装置は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識装置の管理装置。

［付記９］
音声認識装置の管理方法であって、
前記音声認識装置は、
複数のユーザの電話端末と接続され、
複数の前記ユーザの前記電話端末間の通話を制御し、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識装置の管理方法。

［付記１０］
付記９に記載の音声認識装置の管理方法において、
前記音声認識装置は、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報と、当該ユーザの前記音声認識装置の音声認識結果を提示する通信端末とを対応付けて記憶するユーザ管理テーブルと、
前記ユーザ毎の前記音声認識装置の前記音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶装置と、を備え、
前記音声認識装置は、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する音声認識装置の管理方法。

［付記１１］
互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルを有する音声認識装置の管理装置を実現するためのコンピュータを、
前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段、
複数の前記ユーザの前記電話端末間の前記通話を制御する制御手段、として機能させるための音声認識装置の管理プログラム。

［付記１２］
付記１１に記載の音声認識装置の管理プログラムにおいて、
前記音声認識装置は、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルをさらに備え、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段、としてコンピュータにさらに機能させるための音声認識装置の管理プログラム。

この出願は、２００９年１２月１７日に出願された日本出願特願２００９−２８６７７８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

互いに通話を行う複数のユーザの電話端末と、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える音声認識システム。
請求項１に記載の音声認識システムにおいて、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。
請求項２に記載の音声認識システムにおいて、
前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。
請求項３に記載の音声認識システムにおいて、
前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。
請求項１乃至４いずれかに記載の音声認識システムにおいて、
前記音声認識手段は、複数の音声認識部を有し、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部を含み、
複数の前記音声認識部の中から、前記発信元および前記発信先に対応する音声認識部をそれぞれ選択し、前記発信部に、選択された前記音声認識部に対して発信させて、選択された前記音声認識部に接続し、選択された前記音声認識部に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理手段をさらに備える音声認識システム。
請求項５に記載の音声認識システムにおいて、
前記音声認識手段の複数の前記音声認識部は、該当する前記識別情報への発信を自動的に着信し、着信した通話の前記音声データを音声認識し、
前記通話制御手段は、さらに、
前記発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理手段が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識部をそれぞれ選択し、
前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識部の前記識別情報にそれぞれ発信し、
発信された前記識別情報に対応する前記各音声認識部が、自動的にそれぞれ着信し、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識する音声認識システム。
互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
を備える、音声認識装置の管理装置。
請求項７に記載の音声認識装置の管理装置において、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶させる手段と、をさらに備える、音声認識装置の管理装置。
請求項７または８に記載の音声認識装置の管理装置において、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部を含み、
前記音声認識制御手段は、
複数の前記音声認識装置の中から、前記発信元および前記発信先に予め対応する音声認識装置をそれぞれ選択し、前記発信部に、選択された前記音声認識装置に対して発信させて、選択された前記音声認識装置に接続し、選択された前記音声認識装置に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理部を含む、音声認識装置の管理装置。
請求項９に記載の音声認識装置の管理装置において、
前記通話制御手段は、さらに、
前記発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識装置をそれぞれ選択し、
前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識装置の前記識別情報にそれぞれ発信し、発信された前記識別情報に対応する前記各音声認識装置に、自動的にそれぞれ着信させ、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識させる、音声認識装置の管理装置。
音声認識装置の管理方法であって、
前記音声認識装置の前記管理装置が、
複数のユーザの電話端末と接続され、
複数の前記ユーザの前記電話端末間の通話を制御し、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる、音声認識装置の管理方法。
請求項１１に記載の音声認識装置の管理方法において、
前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
前記音声認識装置の前記管理装置が、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する、音声認識装置の管理方法。
請求項１２に記載の音声認識装置の管理方法において、
前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
前記音声認識装置の前記管理装置が、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する、音声認識装置の管理装置。
複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラム。
請求項１４に記載の音声認識装置の管理プログラムにおいて、
前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する手順、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する手順、をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。
請求項１５に記載の音声認識装置の管理プログラムにおいて、
前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する手順をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。