JPWO2011074260A1 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JPWO2011074260A1
JPWO2011074260A1 JP2011545985A JP2011545985A JPWO2011074260A1 JP WO2011074260 A1 JPWO2011074260 A1 JP WO2011074260A1 JP 2011545985 A JP2011545985 A JP 2011545985A JP 2011545985 A JP2011545985 A JP 2011545985A JP WO2011074260 A1 JPWO2011074260 A1 JP WO2011074260A1
Authority
JP
Japan
Prior art keywords
user
speech recognition
call
telephone
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011545985A
Other languages
English (en)
Inventor
長友 健太郎
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011074260A1 publication Critical patent/JPWO2011074260A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声認識システム(1)は、互いに通話を行う複数のユーザ(U1、U2)のIP電話機(12)と、複数のユーザ(U1、U2)のIP電話機(12)間の通話を制御する管理装置(100)と、複数のユーザ(U1、U2)間の通話中に、複数のユーザ(U1、U2)のIP電話機(12)からの音声データを個別に受信する音声受信部(112)と、個別に受信した複数のユーザ(U1、U2)のIP電話機(12)からの音声データをそれぞれ音声認識する音声認識サーバ(200:ASR1、ASR2)と、を備える。

Description

本発明は、音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関し、特に、通話音声の音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関する。
通話音声がリアルタイムに音声認識されて画面に表示される手法の一例が特許文献1(特開2005−110034号公報)に記載されている。特許文献1の電話応対支援システムは、CTI(Computer Telephony Integration)サーバにインタフェースを有し、複数の内線電話を具備する構内交換機に着信した電話コールの客先情報を、ローカルエリアネットワークを介して該CTIサーバに接続された情報機器の画面に表示させることにより該電話コールに応対する応対者を支援する電話応対支援システムであって、CTIサーバは、電話コールの発信者と該電話コールの応対者との間でやり取りされる通話の音声信号を認識して文字データを出力する音声認識手段と、音声認識手段から出力された文字データを格納する情報格納手段とを有し、情報機器は、音声認識手段から出力された文字データおよび情報格納手段に格納された文字データのうち何れか一方又は双方を画面に文字表示させる。
特開2005−110034号公報
上述した特許文献1に記載の電話応対支援システムの技術では、通話中の複数の話者の音声は区別することなく受信されるので、たとえば、通話コールの発信者と応対者との間の通話内容は単一の音声チャネルを通じて音声認識処理に送られる可能性がある。今日の音声認識技術では、複数の話者が同時に発話した音声信号を単一のチャネルにミックスしたような音声を精度よく取り扱うことはできないため、そのような音声信号による音声認識処理は、単一の話者の音声のみを含む音声信号と比べて音声認識精度が低下するという問題点があった。
本発明の目的は、上述した課題である音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムを提供することにある。
本発明の音声認識システムは、互いに通話を行う複数のユーザの電話端末と、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える。
本発明の音声認識装置の管理装置は、
互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
を備える。
本発明の管理方法は、音声認識装置の管理方法であって、
前記音声認識装置の前記管理装置が、
複数のユーザの電話端末と接続され、
複数の前記ユーザの前記電話端末間の通話を制御し、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる。
本発明の音声認識装置の管理プログラムは、複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラムである。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
本発明によれば、音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムが提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。 本実施形態の音声認識システムの発信要求画面の例を示す図である。 本実施形態の音声認識システムの管理テーブルの構造の例を示す図である。 本実施形態の音声認識システムの認識結果テーブルの構造の例を示す図である。 本発明の実施の形態に係る音声認識システムの音声認識結果を提示する配信サーバの構成を示す機能ブロック図である。 本実施形態の音声認識システムのユーザ情報記憶部の構造の例を示す図である。 本実施形態の音声認識システムの音声認識結果表示画面の例を示す図である。 本発明の実施の形態に係る音声認識システムの音声認識処理の手順の一例を示すフローチャートである。 本発明の実施の形態に係る音声認識システムの音声認識結果表示処理の手順の一例を示すフローチャートである。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本発明の実施例の音声認識システムの構成を示すブロック図である。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、本発明の実施の形態に係る音声認識システム1の構成を示す機能ブロック図である。
本実施形態の音声認識システム1は、互いに通話を行う複数のユーザU1、U2(話者)のIP(Internet Protocol)電話機12と、複数のユーザU1、U2のIP電話機12間の通話を制御する通話制御部(管理装置100)と、複数のユーザU1、U2間の通話中に、複数のユーザU1、U2のIP電話機12からの音声データを個別に受信する音声受信部112と、個別に受信した複数のユーザU1、U2のIP電話機12からの音声データをそれぞれ音声認識する音声認識部(音声認識サーバ200(ASR(Automatic Speech Recognition)210(ASR1、ASR2)))と、を備える。
具体的には、音声認識システム1は、複数のユーザのユーザ端末10と、管理装置100と、音声認識サーバ200と、音声認識結果記憶部220と、を備える。
ユーザ端末10は、IP電話機12およびPC(Personal Computer)端末14を含む。
IP電話機12は、たとえば、PCソフトフォン、携帯電話機、およびPHS(Personal Handyphone System)等を含む。本実施形態では、内線用IP電話を例として説明するが、これに限定されるものではなく、アナログ固定電話も含むことができ、また、PBX(Private Branch eXchange:構内交換機)を介した外線電話も含むこともできる。IP電話機12は、図示しないCPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、通信部と、操作スイッチ等の操作部と、ディスプレイ等の表示部と、スピーカやマイクなどの音声入出力部と、時計と、を備える。
PC端末14は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるパーソナルコンピュータ、シンクライアント端末またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。
なお、本実施形態では、ユーザ端末10は、IP電話機12とPC端末14を含む構成としているが、これに限定されない。たとえば、IP電話機12の代わりに、PC端末14上でアプリケーションプログラムを実行し、電話端末の機能を実現するPCソフトフォンを利用する構成とすれば、IP電話機12は不要となる。この場合、ユーザ端末10は、PC端末14のみとすることができる。
管理装置100は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。本実施形態において、管理装置100は、SIP(Session Initiation Protocol)サーバ(不図示)を含むことができる。
本実施形態では、管理装置100とユーザ端末10のIP電話機12は、たとえば、図示されないIP内線電話網およびSIP網を含むネットワークを介して接続される。ユーザ端末10が、たとえば、アナログ固定電話や携帯電話の場合、ユーザ端末10の電話機は、さらに図示されない、公衆回線網、または、基地局や携帯電話網、ならびに、PBXなどを介して構内電話網およびSIP網に接続され、管理装置100と接続されてもよい。また、管理装置100と、ユーザ端末10のPC端末14は、LAN(Local Area Network)等のネットワークを介して接続される。
音声認識サーバ200は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。
なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
また、音声認識システム1の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
管理装置100は、発信要求受付部102と、管理テーブル104と、管理部106と、発信部108と、着信検出部110と、音声受信部112と、を含む。
発信要求受付部102は、発信元のユーザ(ここでは、ユーザU1)のユーザ端末10のPC端末14から、発信先のユーザ(ここでは、ユーザU2)のユーザ端末10のIP電話機12への発信要求を受け付ける。発信要求には、たとえば、発信元のユーザU1のIP電話機12の電話番号と、発信先のユーザU2のIP電話機12の電話番号とが含まれる。
本実施形態において、ユーザのPC端末14には、管理装置100に発信要求を行うためのアプリケーションプログラムがインストールされていて、そのプログラムを実行するか、あるいは、ブラウザを用いて所定のウェブサイトにアクセスすることで、図2の発信要求画面120をディスプレイに表示させることができる。ユーザはこの発信要求画面120を用いて発信要求操作などが可能になる。
図2に示すように、発信要求画面120は、発信元電話番号表示欄122と、発信先電話番号入力欄124と、発信ボタン126と、変更ボタン128と、を含む。たとえば、ユーザは、発信先電話番号入力欄124に発信先電話番号を入力し、発信ボタン126を操作することによって、電話をかけることができる。ユーザが発信ボタン126を操作したとき、発信元電話番号表示欄122に表示されている発信元電話番号と、ユーザによって発信先電話番号入力欄124に入力された発信先電話番号が、管理装置100(図1)に送信され、発信要求受付部102(図1)が受け付ける。なお、図2の変更ボタン128を操作すると、発信元電話番号表示欄122が入力欄に切り替わり、発信元電話番号を変更できる。
図1の管理テーブル104は、たとえば、図3(a)に示すように、ユーザ毎に、ユーザ識別情報(ユーザID)と、ユーザのIP電話機12の端末識別情報(電話番号)を対応付けて記憶する。本実施形態では、管理テーブル104は、ユーザIDを含んでいるが、必ずしも必要なく、電話番号などの端末識別情報でユーザを管理することもできる。また、本実施形態では、管理テーブル104には、予めユーザのIP電話機12の端末識別情報を登録している構成としているが、これに限定されず、管理装置100がIP電話機12からの着呼を着信したとき、着信した端末の端末識別情報を管理テーブル104に登録して管理する構成としてもよい。
管理部106は、複数の音声認識部(ASR1、ASR2)の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部(ASR1、ASR2)をそれぞれ選択し、管理する。管理部106は、たとえば、図3(b)に示すように、管理テーブル104に、さらに、各ユーザのIP電話機12毎に接続先のASR210の識別情報、たとえば、各ASR210に設定されたIP電話の電話番号、IPアドレスなどを対応付けて記憶して、管理する。
本実施形態では、管理部106が、管理テーブル104を参照し、ユーザ毎に予め対応付けられたASR210を抽出することで、発信元または発信先に対応するASR210をそれぞれ選択する構成としているが、これに限定されない。たとえば、ASR210の稼働状況や、ASR210の優先順位や規定のルールにしたがって、各ユーザの通話の音声データを認識させる音声認識部(ASR210)を選択することもできる。
図1に戻り、発信部108は、発信要求受付部102が発信要求を受け付けたとき、受け付けた発信要求に呼応して、管理部106からの指示に従って、発信元のユーザのIP電話機12、発信先のユーザのIP電話機12、および音声認識部(ASR210)に対して発信する。すなわち、管理部106は、発信要求受付部102が発信要求を受け付けたとき、複数の音声認識部(ASR1、ASR2)の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部(ASR1、ASR2)をそれぞれ選択し、発信部108にそれぞれへの発信を指示する。
着信検出部110は、発信元のユーザのIP電話機12、および発信先のユーザのユーザ端末10のIP電話機12の着信を検出する。
本実施形態において、発信要求受付部102が発信要求を受け付けたとき、管理部106の指示に従い、発信部108が発信元のユーザのIP電話機12に発信し、着信検出部110が発信元のユーザのIP電話機12の着信を検出したとき、管理部106の指示に従い、発信部108が発信先のユーザのIP電話機12に発信する。そして、着信検出部110が発信先のユーザのIP電話機12の着信を検出したとき、管理部106がそれぞれ選択したASR210の識別情報に基づいて、発信部108が発信元および発信先の各ユーザのIP電話機12からの発信要求として各ASR210に発信する。
音声受信部112は、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信し、音声認識サーバ200に受け渡す。
音声認識サーバ200は、自動着信部202と、複数のASR210を含む。
自動着信部202は、発信元および発信先の各ユーザのIP電話機12からの発信をそれぞれ着信し、着信した識別情報に対応する各音声認識部(ASR1、ASR2)に通知する。なお、自動着信部202は、各音声認識部(ASR1、ASR2)にそれぞれ含むこともでき、音声認識部(ASR1、ASR2)が直接着信してもよい。このようにして、発信元および発信先の各ユーザに対応する音声認識部(ASR1、ASR2)に発信元および発信先の各ユーザのIP電話機12がそれぞれ接続され、発信元および発信先の各ユーザのIP電話機12の通話の音声データを音声認識部(ASR1、ASR2)がそれぞれ受信する。
各ASR210は、自動着信部202から通知された着信した通話の音声データをそれぞれ音声認識する。
音声認識結果記憶部220は、ユーザ毎に、音声認識部(ASR1、ASR2)の音声認識結果を、ユーザのユーザ識別情報に対応付けて記憶する。本実施形態では、音声認識結果記憶部220は、たとえば、図4に示すような認識結果テーブル222を含み、認識結果テーブル222は、ユーザIDと、認識日時と、認識結果ファイルの格納先とファイル名を含むパスなどの認識結果ファイルを取得するための認識結果ファイル情報と、を関連付けて記憶する。認識結果ファイルは、たとえば、テキストファイルであり、認識結果テーブル222の認識結果ファイル情報に示される格納先の記憶部に格納される。
なお、音声認識結果記憶部220は、たとえば、ネットワークを介して接続される他の記憶装置や、他の記録媒体などであってもよい。本実施形態では、認識結果テーブル222は、ユーザIDに認識結果ファイルを対応付けて記憶する構成としているが、これに限定されない。ユーザIDは必ずしも必要なく、たとえば、ユーザIP電話機12等の電話機の電話番号などの端末識別情報に認識結果ファイルを関連付けてもよい。
また、本実施形態の音声認識システム1は、図5に示すように、さらに、配信サーバ300と、ユーザ情報記憶部302と、を含む。配信サーバ300は、認証部304と、提示部306と、を含む。
ユーザ情報記憶部302は、図6に示すように、たとえば、ユーザ毎に、ユーザID、パスワード、電話番号、および端末IPアドレスを対応付けて記憶する。なお、本実施形態では、ユーザの電話番号は、ユーザ情報記憶部302に含まれなくてもよい。端末IPアドレスは、音声認識結果をユーザに提供するための提供先の情報であり、たとえば、ユーザ端末10のPC端末14のIPアドレス、または、ユーザのPC端末14に音声認識結果を表示させるためのアプリケーションプログラムの識別情報、たとえば、ポート番号などを含むことができる。
図5に戻り、認証部304は、LAN等のネットワーク3を介して各ユーザのPC端末14のブラウザ(不図示)から配信サーバ300にアクセスされたとき、ユーザにユーザIDおよびパスワードの入力を要求して、入力を受け付け、ユーザ情報記憶部302を参照し、受け付けたユーザIDとパスワードを認証する。
提示部306は、認証部304により認証されたとき、ユーザ情報記憶部302および音声認識結果記憶部220の認識結果テーブル222(図4)を参照し、認証されたユーザの認識結果ファイルを音声認識結果記憶部220から読み出す。そして、提示部306は、たとえば、ウェブサーバであり、音声認識結果記憶部220から読み出した音声認識結果を、ユーザがアクセス可能なウェブページに出力する。そして、ユーザがPC端末14を操作して音声認識サーバ200の対応するウェブページにブラウザを用いてアクセスすることで、音声認識結果をユーザのPC端末14の表示部(不図示)に表示させることができる。これにより、ユーザは音声認識結果を見ることができる。
また、本実施形態において、たとえば、図1において、PC端末14が発信要求受付部102に対して発信要求を行う発信要求画面と、配信サーバ300の提示部306がPC端末14に提示する認識結果画面とは、同じアプリケーションプログラムによって連動して表示されるようにしてもよい。たとえば、音声認識システム1は、ASP(Application Service Provider)を含み、ユーザは、PC端末14がブラウザからASPにアクセスし、本発明の音声認識システム1の通話モニタのアプリケーションプログラムを起動すると、まず、発信要求画面が表示され、発信先の電話番号の入力が受け付けられ、その後、音声認識が開始すると、その結果を表示するための認識結果画面が開かれてもよい。発信要求画面と認識結果画面は、同時に表示されていてもよいし、接続が確立してから、または音声認識結果が得られてから認識結果画面が表示されてもよい。
本実施形態では、たとえば、図7(a)に示すように、ユーザU1が発話した音声データの認識結果がユーザU1のPC端末14の画面310に表示され、ユーザU2が発話した音声データの認識結果がユーザU2のPC端末14の画面312に表示される。あるいは、図7(b)に示すように、ユーザU1とU2のPC端末14において、ユーザU1とU2の発話した音声データの認識結果が両方とも同じ画面314に表示されてもよい。あるいは、発信元または発信先のいずれか一方のみが、認識結果を表示させ、他方は認識結果を参照する権限を与えない等の制御をすることもできる。
提示部306は、各ASR210が出力する音声認識結果をユーザのPC端末14にネットワーク3を介してリアルタイムに提示することができる。ここで、「リアルタイムに提示する」とは、IP電話機12から音声データのASR210への送信時間、ASR210における音声認識時間、およびASR210からPC端末14への認識結果の返信時間分の遅れを含む。したがって、ユーザが発話してから、多少遅延して提示され、IP電話機12とASR210間、あるいは、配信サーバ300とPC端末14間の通信環境や通信状況、あるいは、ASR210の処理能力や混雑状態などにより遅延時間は変化する。
また、本実施形態では、音声認識結果記憶部220に一旦格納された音声認識結果を配信サーバ300が読み出す構成としているが、これに限定されない。たとえば、ASR210から音声認識結果記憶部220に認識結果を記憶せずに、ASR210から直接、配信サーバ300に認識結果を出力してもよい。
また、音声認識結果記憶部220に格納された音声認識結果は、通話後、随時、履歴として参照することができる。たとえば、図7(c)に示すように、画面316として、認識日時、発信元および発信先の識別情報、たとえば、電話番号等、および音声認識結果を表示させてもよい。発信元および発信先の識別情報は、電話番号に限定されず、ユーザIDに関連付けられた、ユーザ情報、たとえば、氏名、部署等を含むことができる。音声認識結果は、図7(c)のように発信元および発信先の両方を含んでもよいし、ユーザ毎に表示させてもよい。ユーザ毎に、管理レベルに応じて他のユーザへの認識結果の提供を許可するか否かを設定してもよいし、管理レベルに応じて他のユーザの認識結果へのアクセスの権限を設定してもよい。
本実施の形態の音声認識システム1の管理装置100は、コンピュータプログラムに対応する各種の処理動作をCPUが実行することにより、上述のような各種ユニットが各種機能として実現される。
本実施形態のコンピュータプログラムは、複数の音声認識装置(ASR210)の管理装置100を実現するためのコンピュータがする管理プログラムであって、複数のユーザのIP電話機12間の通話を制御する手順、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信する手順、個別に受信した複数のユーザのIP電話機12からの音声データをASR210にそれぞれ音声認識させる手順、をコンピュータに実行させるように記述されている。
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
上述のような構成において、本実施の形態の管理装置100によるASR210の管理方法を以下に説明する。図8および図9は、本実施形態の音声認識システム1の動作の一例を示すフローチャートである。以下、図1乃至図9を用いて説明する。
本実施形態の音声認識装置(ASR210)の管理方法は、管理装置100が、複数のユーザのIP電話機12とネットワークを介して接続され、複数のユーザのIP電話機12間のネットワークを介した通話を制御し(ステップS101〜S119)、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信し、個別に受信した複数のユーザのIP電話機12からの音声データをASR210にそれぞれ音声認識させる(ステップS121)。
図8は、本実施形態の音声認識システム1の音声認識処理の手順の一例を示すフローチャートである。
まず、管理装置100の発信要求受付部102がユーザU1のPC端末14からのユーザU2への発信要求を受け付けると(ステップS101のYES)、管理部106に通知し、管理部106は管理テーブル104を参照し、ユーザU1のIP電話機12の電話番号を取得する。なお、発信要求にユーザU1の電話番号を含んで送ってもよい。管理部106からの指示に従い、発信部108が発信元のユーザU1のIP電話機12の電話番号に発信する(ステップS105)。
そして、ユーザU1がIP電話機12の着呼を手動で着信すると、管理装置100の着信検出部110が発信元であるユーザU1の着信を検出し、管理部106に通知する(ステップS107のYES)。そして、管理部106は管理テーブル104を参照し、発信要求に含まれる発信先のユーザU2のIP電話機12の電話番号に発信する(ステップS111)。
そして、ユーザU2がIP電話機12の着呼を手動で着信すると、管理装置100の着信検出部110が発信先であるユーザU2の着信を検出し、管理部106に通知する(ステップS113のYES)。そして、管理部106は管理テーブル104を参照し、ユーザU1およびユーザU2にASR1およびASR2をそれぞれ割り当て、それぞれに発信する(ステップS115)。音声認識サーバ200の自動着信部202がそれぞれの着呼を自動的に着信する(ステップS117)。
そして、ユーザU1のIP電話機12、ユーザU2のIP電話機12、ASR1、およびASR2の間で、通話が可能となる。ユーザU1とユーザU2が発話を開始すると(ステップS119のYES)、ユーザU1の発話音声データが音声受信部112を介してASR1に送信され、ASR1で音声認識されるとともに、ユーザU1の発話音声データはユーザU2のIP電話機12に転送される。一方、ユーザU2の発話音声データが音声受信部112を介してASR2に送信され、ASR2で音声認識されるとともに、ユーザU2の発話音声データはユーザU1のIP電話機12に転送される(ステップS121)。そして、各ASR210で得られた音声認識結果のテキストデータが、それぞれ音声認識結果記憶部220にユーザ毎に記録される(ステップS123)。このとき、認識結果のテキストデータのファイルの格納先とファイル名のパスと、認識日時情報が認識結果テーブル222に記録される。
以上、説明したように、ユーザU1とユーザU2は、互いの発話音声を聞くことができるとともに、各ASR210にユーザ毎にそれぞれ個別に入力された発話音声データを各ASR210で音声認識処理できる。すなわち、両者が同時に発話してしまった場合でも、ASR210には一方の音声データのみが入力される。したがって、ユーザU1とユーザU2の両者の発話音声が混在している場合に比較して、認識対象の音声データの品質がよくなるため、認識精度が向上する。
なお、以上の動作において、音声データの転送経路は様々な態様が考えられる。たとえば、図10に示すように、ユーザU1とユーザU2の2者間で通話を行う場合において、はじめに、ユーザU1のPC端末14(図10には不図示)からユーザU2への発信要求がなされる。ユーザU1の音声データを認識処理するASR210としてASR1が選択され、ASR1からユーザU1のIP電話機12に発信処理がなされ、ユーザU1とASR1の間の通話が可能になる(ステップS301)。次に、ユーザU2の音声データを認識処理するASR210としてASR2が選択され、ASR2からユーザU2のIP電話機12に発信処理がなされ、ユーザU2とASR2の間の通話が可能になる(ステップS302)。さらに、ユーザU1のIP電話機12からユーザU2のIP電話機12への発信処理がなされ、ユーザU1のIP電話機12とユーザU2のIP電話機12の間の通話が可能になる(ステップS303)。
一方、ユーザU1のIP電話機12からの発話音声データは、ASR1に転送され(ステップS311)、ASR1からユーザU2のIP電話機12に転送される(ステップS312)。一方、ユーザU2のIP電話機12からの発話音声データは、ASR2に転送され(ステップS314)、ASR2からユーザU1のIP電話機12に転送される(ステップS315)。
なお、以下の図11と図12の例では、2者以上の通話が可能であるが、この図10の例は、2者通話のみ対応可能となる。
また、図11に示す例では、2者以上の複数のIP電話機12間で通話を行う場合、各ユーザ毎にASR210と管理装置100のユーザのIP電話機12の3者間での通話が成立する。すなわち、たとえば、ユーザU1のIP電話機12とASR1間、ASR1と管理装置100間、管理装置100とユーザU1のIP電話機12間のそれぞれで通話が可能な状態となる(不図示)。また、ユーザU2のIP電話機12とASR2間、ASR2と管理装置100間、管理装置100とユーザU2のIP電話機12間のそれぞれで通話可能な状態となる(不図示)。さらに、ユーザU3のIP電話機12とASR3間、ASR3と管理装置100間、管理装置100とユーザU3のIP電話機12間のそれぞれで通話可能な状態となる(不図示)。
そして、ユーザU1、ユーザU2、およびユーザU3のIP電話機12からの発話音声データは、ASR1、ASR2、およびASR3にそれぞれ送信される(ステップS321、S322、およびS323)とともに、ASR1、ASR2、およびASR3から管理装置100に転送される(ステップS331、S332、およびS333)。そして、管理装置100において、ユーザU2およびユーザU3の音声データが合成されてユーザU1のIP電話機12に転送され(ステップS341)、ユーザU1およびユーザU3の音声データが合成されてユーザU2のIP電話機12に転送され(ステップS342)、ユーザU1およびユーザU2の音声データが合成されてユーザU3のIP電話機12に転送される(ステップS343)。
また、図12に示す例では、2者以上の複数のIP電話機12間で通話を行う場合、各ユーザのIP電話機12と管理装置100間、および管理装置100と各ASR210間での通話が成立する(不図示)。
そして、ユーザU1のIP電話機12からの発話音声データは、管理装置100に送信され(ステップS351)、管理装置100からASR1に送信される(ステップS361)とともに、管理装置100からユーザU2のIP電話機12に転送される(ステップS372)。一方、ユーザU2のIP電話機12からの発話音声データは、管理装置100に送信され(ステップS352)、管理装置100からASR2に送信される(ステップS362)とともに、管理装置100からユーザU1のIP電話機12に転送される(ステップS371)。
図9は、本実施形態の音声認識システム1の音声認識結果表示処理の手順の一例を示すフローチャートである。
本実施形態の音声認識システム1において、ASR210は、ユーザ管理テーブル(ユーザ情報記憶部302)を参照し、IP電話機12の端末識別情報からユーザのユーザ識別情報を取得し、ユーザ情報記憶部302を参照し、ユーザの音声認識結果を、ユーザに対応付けられた通信端末(PC端末14)にネットワーク3を介して提示する(ステップS207)。
具体的には、ユーザU1およびユーザU2は、PC端末14を使用して、ブラウザを起動し、配信サーバ300にネットワーク3を介してログインする(ステップS201のYES)。配信サーバ300の認証部304がユーザ情報記憶部302を参照し、ユーザU1またはユーザU2のユーザ認証を行う(ステップS203)。認証された場合(ステップS203のYES)、配信サーバ300の提示部306がネットワーク3を介して認証されたユーザの音声認識結果を音声認識結果記憶部220から取得する(ステップS205)。そして、提示部306は、ユーザのPC端末14に提示し、ユーザは、PC端末14のブラウザに認識結果を表示させ、閲覧する(ステップS207)。
このように、本発明によれば、ユーザのPC端末14にブラウザを備えれば、特別なアプリケーションプログラムをインストールする必要がなく、簡単な構成でユーザ毎に個別に音声認識処理された音声認識結果を表示することができる。認識結果は、通話時にリアルタイムに表示させることもできるし、通話履歴として後から閲覧することもできる。ユーザの管理レベルに応じて閲覧できる音声認識結果を制限することもできる。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
図13は、本発明の実施例の音声認識システム1の構成の概略を示すブロック図である。
本実施例において、各ユーザのPC端末14は、ブラウザ20がインストールされている。音声認識システム1は、ASP400と、プロキシ420と、を備える。ASP400は、モニタ用ウェブアプリケーション410を有し、各ユーザは、PC端末14のブラウザ20からASP400にネットワーク3を介してアクセスし、モニタ用ウェブアプリケーション410を起動し、本発明の音声認識システム1を利用することができる。
PC端末14からASP400にアクセスするとき、ASP400は、ログイン画面(不図示)にて、ユーザにユーザIDとパスワードを含むユーザ情報を入力させて受け付ける。ASP400は、プロキシ420にネットワーク3を介してアクセスし、受け付けたユーザ情報に基づいてユーザ認識処理を行う。プロキシ420は、上記実施形態の図5の認証部304に相当し、ユーザ情報記憶部302にアクセスし、ユーザ情報を取得し、ユーザ認識処理を行う。ユーザが認識されると、ユーザは、ASP400のモニタ用ウェブアプリケーション410が利用可能となるとともに、ASP400のモニタ用ウェブアプリケーション410は、ユーザU1のユーザ情報を取得する。
モニタ用ウェブアプリケーション410は、Click-to-Callプラグイン412および認識結果表示プラグイン414を有する。Click-to-Callプラグイン412は、上記実施形態の図1の管理装置100の発信要求受付部102に相当する。認識結果表示プラグイン414は、上記実施形態の図5の管理装置100の提示部306に相当する。
Click-to-Callプラグイン412は、各ユーザからの発信要求を受け付ける。この発信要求には、発信元のユーザ(この例ではユーザU1)のIP電話機12の電話番号と、発信先のユーザ(この例ではユーザU2)のIP電話機12の電話番号が含まれる。発信元のユーザのIP電話機12の電話番号は、予めPC端末14に登録されている。または、ASP400がアクセス可能なユーザ情報記憶部302に予めユーザ毎にIP電話機12の電話番号、PC端末14のIPアドレス等を登録しておき、発信要求を受け付けたとき、ASP400にログインしたときのユーザIDやPC端末14のIPアドレス等からIP電話機12の電話番号を取得することもできる。
発信先の電話番号は、発信元のユーザが、予め電話帳などに登録されている中から選択してもよいし、直接、電話番号を入力してもよい。Click-to-Callプラグイン412は、発信先の選択または入力を受け付けるための発信要求画面をユーザU1のPC端末14のブラウザ20に表示させる。そして、ユーザU1が発信先の電話番号を選択または入力し、発信要求ボタンを操作すると、Click-to-Callプラグイン412は、ユーザU1の発信要求ボタンの押下に呼応して、ユーザU1により選択または入力された発信先のユーザU2のIP電話機12の電話番号と、ユーザU1のIP電話機12の電話番号を受け付ける。
本実施例の音声認識システム1は、さらに、発信制御部500と、IP PBX510と、を含む。
発信制御部500は、たとえば、SIPサーバを含むことができる。発信制御部500およびIP PBX510は、上記実施形態の図1の管理テーブル104、管理部106、発信部108、着信検出部110、および音声受信部112を含む構成に相当する。発信制御部500は、Click-to-Callプラグイン412が発信要求を受け付けたとき、発信元および発信先の情報を取得し、音声認識サーバ200と、IP PBX510を介して発信元のユーザU1のIP電話機12と発信先のユーザU2のIP電話機12のそれぞれに発信する。
各ユーザのIP電話機12にて手動で着信し、各ユーザのIP電話機12と音声認識サーバ200とが接続される。そして、ユーザU1とユーザU2の間で通話が開始される。このとき、音声認識サーバ200で各ユーザのIP電話機12において、発話音声データを個別に受信して個別に認識処理し、その結果を音声認識結果記憶部220に記憶する。
そして、各ユーザは、PC端末14のブラウザ20から、モニタ用ウェブアプリケーション410の認識結果表示プラグイン414を実行する。認識結果表示プラグイン414は、認識結果表示プラグイン414を実行したユーザの通話記録として、音声認識結果記憶部220に記憶されている認識結果のテキストデータを、配信サーバ300からそのユーザのPC端末14にネットワーク3を介して配信させる。そして、認識結果表示プラグイン414は、配信された認識結果を、認識結果表示プラグイン414を実行したユーザのPC端末14の表示部に表示させる。たとえば、PC端末14の表示部は、上記実施形態の図7に示したような各種の画面を表示することができる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
本発明は以下の態様も含む。
[付記1]
互いに通話を行う複数のユーザの電話端末と、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える音声認識システム。
[付記2]
付記1に記載の音声認識システムにおいて、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。
[付記3]
付記2に記載の音声認識システムにおいて、
前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。
[付記4]
付記3に記載の音声認識システムにおいて、
前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。
[付記5]
付記1乃至4いずれかに記載の音声認識システムにおいて、
前記音声認識手段は、それぞれ識別情報を有するとともに、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを音声認識する複数の音声認識部を含み、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部と、
前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
複数の前記音声認識部の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識部をそれぞれ選択し、管理する管理部と、を含み、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識部の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識部に発信し、
前記各音声認識部は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識システム。
[付記6]
互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルと、
複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段と、
を備える音声認識装置の管理装置。
[付記7]
付記6に記載の音声認識装置の管理装置において、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識装置の管理装置。
[付記8]
付記6または7に記載の音声認識装置の管理装置において、
複数の前記音声認識装置は、それぞれ識別情報を有し、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを個別に音声認識し、
前記通話制御手段は、
発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部と、
前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
複数の前記音声認識装置の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識装置をそれぞれ選択し、管理する管理部と、を含み、
前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識装置の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識装置に発信し、
前記各音声認識装置は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識装置の管理装置。
[付記9]
音声認識装置の管理方法であって、
前記音声認識装置は、
複数のユーザの電話端末と接続され、
複数の前記ユーザの前記電話端末間の通話を制御し、
複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識装置の管理方法。
[付記10]
付記9に記載の音声認識装置の管理方法において、
前記音声認識装置は、
前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報と、当該ユーザの前記音声認識装置の音声認識結果を提示する通信端末とを対応付けて記憶するユーザ管理テーブルと、
前記ユーザ毎の前記音声認識装置の前記音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶装置と、を備え、
前記音声認識装置は、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する音声認識装置の管理方法。
[付記11]
互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルを有する音声認識装置の管理装置を実現するためのコンピュータを、
前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段、
複数の前記ユーザの前記電話端末間の前記通話を制御する制御手段、として機能させるための音声認識装置の管理プログラム。
[付記12]
付記11に記載の音声認識装置の管理プログラムにおいて、
前記音声認識装置は、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルをさらに備え、
前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段、
前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段、としてコンピュータにさらに機能させるための音声認識装置の管理プログラム。
この出願は、2009年12月17日に出願された日本出願特願2009−286778号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (16)

  1. 互いに通話を行う複数のユーザの電話端末と、
    複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
    複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
    個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
    を備える音声認識システム。
  2. 請求項1に記載の音声認識システムにおいて、
    前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
    前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
    前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。
  3. 請求項2に記載の音声認識システムにおいて、
    前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
    前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。
  4. 請求項3に記載の音声認識システムにおいて、
    前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。
  5. 請求項1乃至4いずれかに記載の音声認識システムにおいて、
    前記音声認識手段は、複数の音声認識部を有し、
    前記通話制御手段は、
    発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部を含み、
    複数の前記音声認識部の中から、前記発信元および前記発信先に対応する音声認識部をそれぞれ選択し、前記発信部に、選択された前記音声認識部に対して発信させて、選択された前記音声認識部に接続し、選択された前記音声認識部に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理手段をさらに備える音声認識システム。
  6. 請求項5に記載の音声認識システムにおいて、
    前記音声認識手段の複数の前記音声認識部は、該当する前記識別情報への発信を自動的に着信し、着信した通話の前記音声データを音声認識し、
    前記通話制御手段は、さらに、
    前記発信要求を受け付ける発信要求受付部と、
    前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
    前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理手段が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識部をそれぞれ選択し、
    前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識部の前記識別情報にそれぞれ発信し、
    発信された前記識別情報に対応する前記各音声認識部が、自動的にそれぞれ着信し、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識する音声認識システム。
  7. 互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
    複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
    複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
    を備える、音声認識装置の管理装置。
  8. 請求項7に記載の音声認識装置の管理装置において、
    前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
    前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
    前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶させる手段と、をさらに備える、音声認識装置の管理装置。
  9. 請求項7または8に記載の音声認識装置の管理装置において、
    前記通話制御手段は、
    発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部を含み、
    前記音声認識制御手段は、
    複数の前記音声認識装置の中から、前記発信元および前記発信先に予め対応する音声認識装置をそれぞれ選択し、前記発信部に、選択された前記音声認識装置に対して発信させて、選択された前記音声認識装置に接続し、選択された前記音声認識装置に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理部を含む、音声認識装置の管理装置。
  10. 請求項9に記載の音声認識装置の管理装置において、
    前記通話制御手段は、さらに、
    前記発信要求を受け付ける発信要求受付部と、
    前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
    前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識装置をそれぞれ選択し、
    前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識装置の前記識別情報にそれぞれ発信し、発信された前記識別情報に対応する前記各音声認識装置に、自動的にそれぞれ着信させ、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識させる、音声認識装置の管理装置。
  11. 音声認識装置の管理方法であって、
    前記音声認識装置の前記管理装置が、
    複数のユーザの電話端末と接続され、
    複数の前記ユーザの前記電話端末間の通話を制御し、
    複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
    個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる、音声認識装置の管理方法。
  12. 請求項11に記載の音声認識装置の管理方法において、
    前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
    前記音声認識装置の前記管理装置が、
    前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
    前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する、音声認識装置の管理方法。
  13. 請求項12に記載の音声認識装置の管理方法において、
    前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
    前記音声認識装置の前記管理装置が、
    前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する、音声認識装置の管理装置。
  14. 複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
    複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
    複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
    個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラム。
  15. 請求項14に記載の音声認識装置の管理プログラムにおいて、
    前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
    前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する手順、
    前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する手順、をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。
  16. 請求項15に記載の音声認識装置の管理プログラムにおいて、
    前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
    前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する手順をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。
JP2011545985A 2009-12-17 2010-12-16 音声認識システム Pending JPWO2011074260A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009286778 2009-12-17
JP2009286778 2009-12-17
PCT/JP2010/007296 WO2011074260A1 (ja) 2009-12-17 2010-12-16 音声認識システム

Publications (1)

Publication Number Publication Date
JPWO2011074260A1 true JPWO2011074260A1 (ja) 2013-04-25

Family

ID=44167030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011545985A Pending JPWO2011074260A1 (ja) 2009-12-17 2010-12-16 音声認識システム

Country Status (2)

Country Link
JP (1) JPWO2011074260A1 (ja)
WO (1) WO2011074260A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5860085B2 (ja) * 2014-03-17 2016-02-16 株式会社アドバンスト・メディア 通話録音サーバ、通話データ管理システム、および通話データ管理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4088229B2 (ja) * 2003-09-30 2008-05-21 富士通エフ・アイ・ピー株式会社 電話応対支援システムおよび電話応対支援方法
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム

Also Published As

Publication number Publication date
WO2011074260A1 (ja) 2011-06-23

Similar Documents

Publication Publication Date Title
US6785266B2 (en) Internet controlled telephone system
US8625749B2 (en) Content sensitive do-not-disturb (DND) option for a communication system
US20050206721A1 (en) Method and apparatus for disseminating information associated with an active conference participant to other conference participants
US20080181141A1 (en) Enhanced voicemail processing
JP5652406B2 (ja) 音声入力システムおよび音声入力プログラム
CN112887194B (zh) 实现听障人士通话的交互方法、装置、终端及存储介质
JP4925906B2 (ja) 制御装置、情報提供方法及び情報提供プログラム
US8805330B1 (en) Audio phone number capture, conversion, and use
US20100042413A1 (en) Voice Activated Application Service Architecture and Delivery
WO2007007090A1 (en) Apparatus and system for recording communications
WO2011074260A1 (ja) 音声認識システム
JP2007201906A (ja) 携帯端末装置及び画像表示方法
US20070286098A1 (en) Computerized telephony accessibility provider (CTAP) for provisioning a talking telephone device
JP6142055B1 (ja) オートコールシステムおよびその方法
JP5728456B2 (ja) 通信端末
CN115699719A (zh) 交流系统
JP2003069720A (ja) 通信方法および通信制御装置
JP2010041301A (ja) 音声文字化サーバー及び音声文字化方法
US10462286B2 (en) Systems and methods for deriving contact names
US20070116222A1 (en) Method and apparatus for activity selection during on-hold
US20020191587A1 (en) Communication system
JP7341109B2 (ja) 通話制御装置、通話制御方法及びコンピュータープログラム
KR20020036009A (ko) 통신망을 통해 음성을 송수신하는 방법 및 그 기록 매체
JP7280608B2 (ja) 電話営業用ctiシステム
JP6659066B1 (ja) 音声通話システム、音声通話制御装置、音声通話プログラム、及び音声通話方法