WO2003085640A1

WO2003085640A1 - Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale

Info

Publication number: WO2003085640A1
Application number: PCT/JP2003/002952
Authority: WO
Inventors: Eiko Yamada; Hiroshi Hagane
Original assignee: Nec Corporation
Priority date: 2002-04-04
Filing date: 2003-03-12
Publication date: 2003-10-16
Also published as: EP1394771A1; US20040162731A1; CN1282946C; TW200307908A; JP2003295890A; CN1514995A; TWI244065B; EP1394771A4

Description

明細書音声認識対話選択装置，音声認識対話システム，音声認識対話選択方法、プログラム技術分野

本発明は、携帯電話、車載端末等の端末 (クライアン卜端末) に入力された音声データをネッ卜ワークに通して認識対話サーバ側に送信し、認識対話サーバ側で音声認識 ·応答による音声対話を行う音声認識対話装置，音声認識対話選択方法及び装置、音声認識対話選択プログラムの記録媒体に関する。背景技術

従来、クライアント端末側から出力された音声データをバケツト網にて認識対話サーバ側へ送信し、認識対話サーバ側にて音声認識対話処理を行うサーバ ·クライアン卜型音声認識対話装置として VoIP (Vo iceover Int erne t Pro toco l)を用いた音声認識対話システムが知られている。この音声認識対話システムは、例えば Nikke i Interne t Techno l ogy, pp. 130 〜137， March 1998 に詳しく述べられている。

前記 Vo IPを用いたシステムでは、予め、クライアント端末側と認識対話サーバ側の I Pアドレスを既知とした枠組みで音声認識、又は音声認識と応答（合成、録音音声等）による音声対話が行われる。すなわち、クライアント端末と認識対話サーバとを相互の I Pアドレスを利用してパケット通信可能な状態に接続しておき、この状態で音声データのパケットをクライアント端末側から認識対話サーバ側に伝送することにより音声認識対話を行う枠組みとなっている。

特開平 1 0— 3 3 3 6 9 3号公報に開示された自動スピーチ認識サ一ビス提供方法およびシステムは、クライアント端末から音声データをパケット網に経由して音声認識サーバへ送信し、これらの音声データを認識するシステムとして構築されている。

しかしながら、上述した従来の Vo IPを用いたシステムは、クライアント端末側と認識対話サーバ側との I Pアドレスを既知とした枠組みで音声認識、音声対話が行われるため、複数の認識対話サーバが存在する場合に、クライアント端末に最適な認識対話サーバを選択して、当該認識対話サーバをクライアント端末に連携させるシステムを新たに開発する必要がある。

また、特開平 1 0— 3 3 3 6 9 3号公報に開示された自動スピ一チ認識サービス提供方法およびシステムにおいても、同様に複数の認識対話サーバが存在する場合に、クライアント端末に最適な認識対話サーバを選択して、当該認識対話サーバをクライアント端末に連携させるシステムを新たに開発する必要がある。

本発明の目的は、複数の認識対話サーバが存在する場合に、クライアント端末側の能力と認識対話サーバ側の能力とを参照して、最適な認識対話サーバを選択し、当該決定された認識対話サーバとクァライアント端末との間で音声認識対話を行うことが可能な、音声認識対話装置，音声認識対話選択方法及び装置、音声認識対話選択プログラムの記録媒体を提供することにある。発明の開示

前記目的を達成するため、本発明に係る音声認識対話装置は、音声認識対話を行う複数の対話手段と、前記対話手段に音声情報を送信する送信手段と、前記送信手段と前記対話手段とを連携するネットワークと、前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手段から 1つの対話手段を選択する振分手段とを含むという構成を採っている。

さらに、本発明に係る音声認識対話装置は、複数の音声認識対話を行う対話手段と、前記対話手段に対してサービスを要求する要求手段と、前記対話手段に音声情報を送信する送信手段と、前記送信手段と前記要求手段と前記対話手段とを連携するネットワークと、前記要求手段及び前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手段から 1 つの対話手段を選択する振分手段と、を含むという構成を採るようにしてもよいものである。

さらに、本発明に係る音声認識対話装置は、複数の音声認識対話を行う対話手段と、前記対話手段に対して要求するサービス内容を保持するサービス保持手段と、前記対話手段に音声情報を送信する送信手段と、前記サービス保持手段と前記送信手段と前記対話手段とを連携するネットワークと、前記サービス保持手段及び前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手段から 1つの対話手段を選択する振分手段とを含むという構成を採っても良いものである。

上述した音声認識対話装置に用いる前記振分手段は、選択された前記対話手段を特定するための情報を前記送信手段へ送り、当該対話手段と前記送信手段との間で音声認識対話に必要な音声情報を交換する機能を備えたものであることが望ましい。また、前記振分手段に代えて、選択された前記対話手段を特定するための情報を前記要求手段と前記送信手段とに送り、当該対話手段と前記要求手段及び前記送信手段手段との間で前記サービス内容と音声情報を交換する機能を備えた振分手段を用いてもよいものである。さらには、前記振分手段として、選択された一の前記対話手段を選択された他の前記対話手段に変更する機能を備えたものを用いてもよいものである。

また前記振分手段として、前記送信手段の能力と複数個の前記対話手段の能力とを比較し、その比較結果に基いて、当該対話手段への音声情報の入力形式と前記送信手段への前記音声情報の出力形式とがー致した. 所望の能力を持つ前記対話手段を決定する機能を備えたものを用いてもよいものである。また、前記振分手段として、前記要求手段及び前記送信手段の能力と複数個の前記対話手段の能力とを比較し、その比較結果に基いて、当該対話手段への前記音声情報の入力形式と前記要求手段及び前記送信手段への出力形式とがー致した、所望の能力を持つ前記対話手段を決定する機能を備えたものを用いてもよいものである。

また、前記送信手段から出力される音声情報として、デジタル化された音声データ、圧縮された音声データ、又は特徴ベクトルデータから形成されて音声情報を用いることが望ましいものである。また、前記送信手段の能力を判断するデータには、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能のデータが含まれていることが望ましいものである。また、前記対話手段の能力を ^断するデータには、 C O D E C の能力，音声データ形式，録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータが含まれていることが望ましいものである。

さらに具体的に説明すると、本発明に係る音声認識対話装置は、音声認識対話を行う複数の音声認識対話サーバと、前記音声認識対話サーバに対して要求するサービス内容と音声情報とを送信するクライアント端末と、前記複数の対話手段から 1つの対話手段を選択する音声認識対話選択サーバと、前記クライアント端末と前記音声認識対話サーバと前記音声認識対話選択サーバとを連携するネットワークとを含み、

前記クライアント端末は、音声情報とサービス内容とのデータを入力するデータ入力部と、前記クライアント端末の能力のデータを記憶する端末情報記憶部と、前記ネットワークを介して前記音声認識対話サーバ及び前記音声認識選択サーバとの間に通信を行い、かつ前記選択された音声認識対話サーバに対して前記音声情報を送信するデータ通信部と、当該クライアント端末の動作制御を行う制御部とを有し、

前記音声認識対話選択サーバは、前記ネットワークを介して前記クライアント端末及び前記音声認識対話サーバとの間に通信を行うデータ通信部と、前記音声認識対話サーバのそれぞれの能力を記憶する認識対話サーバ情報記憶部と、前記端末情報記憶部内に記憶された前記クラィァント端末の能力データを読み出し、当該データと前記認識対話サーバ情報記憶部内の音声認識対話サーバの能力データとを比較して前記複数の音声認識対話サーバから少なくとも一の音声認識対話サーバを決定すると共に、当該決定された音声認識対話サーバを特定するために必要な情報を前記クライアント端末へ送る認識対話サーバ決定部とを有し、前記音声認識対話サーバは、前記クライアント端末から入力される前記音声情報に基いて音声認識対話を実行する音声認識対話実行部と、前記ネットワークを介して前記クライアント端末及び前記音声認識対話選択サーバとの間に通信を行うデータ通信部と、当該音声認識対話サーバの動作制御を行う制御部とを有するとうに構築してもよいものである。この場合、前記ネットワークに連携され、かつ前記クライアント端末から要求されるサービスの内容を保持するサービス内容保持サーバと、前記音声認識対話サーバに備えられ、前記サービス内容保持サーバに保持された前記サービスの内容を読み込む読み込み部とを付加するようにしてもよいものである。また、前記音声認識対話サーバに備えられ、当該音声認識対話サーバとは異なる前記音声認識対話サーバへ音声認識対話処理を移行させる要求を前記音声認識対話選択サーバへ出力する処理移行手段を付加してもよいものである。また、前記クライアント端末から出力される音声情報が、デジタル化された音声データ、圧縮された音声データ、又は特徴べクトルデータから形成されていることが望ましいものである。

また、前記クライアント端.末の能力を判断するデータには、 C O D E Cの能力，音声データ形式，録音，合成音声入出力機能のデータが含まれていることが望ましいものである。また、前記音声認識対話サーバの能力を判断するデータには、 C〇 D E Cの能力，音声データ形式，録音 ·. 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータが含まれていることが望ましいものである。

さらに、本発明に係る音声認識対話選択方法は、送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段からの音声情報データを受け取る第 1 のステップと、前記送信手段に、当該送信手段の能力データを要求する第 2のステツプと、

前記送信手段から当該送信手段の能力データを送信する第 3 のステツプと、

前記送信手段からの能力データと前記複数の対話手段の能力データとを比較し、その比較結果に基いて前記特定の対話手段を一意に決定する第 4のステップと、

決定された前記対話手段を特定するための情報を前記送信手段に通知する第 5のステップと、

前記送信手段と一意に決定された前記対話手段との間で音声認識対話処理を行う第 6のステップとを有する構成として構築される。

この場合、前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 7のステツプと、

前記送信手段へ当該送信手段の能力データを要求する第 8のステツプと、

前記第 8のステツプでの要求に応えて前記送信手段から当該送信手段の能力データを送信する第 9のステップと、

前記送信手段の能力データと複数個の前記対話手段の能力データとを比較し、その比較結果に基いて新たに対話手段を一意に決定する第 1 0 のステップと、

前記第 1 0のステツプにて決定された対話手段を特定ずるために必要な情報を前記送信手段に通知する第 1 1 のステップと、

前記第 1 0のステツプにて決定された対話手段と前記送信手段との間に音声認識対話処理を行う第 1 2のステップとを、

付加するようにしてもよいものである。

さらに、本発明に係る音声認識対話選択方法は、送信手段と複数の対話手段とサービス保持手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段から出力される、音声認識対話処理を含むサービス内容の要求を受け取る第 1 のステップと、

前記送信手段に対して、当該送信手段の能力データを要求する第 2のステップと、

前記送信手段から当該送信手段力データを送信する第 3のステツプと、

前記送信手段の能力データと複数の前記対話手段の能力データとを比較し、その比較結果に基いて複数の対話手段から特定の対話手段を一意に決定する第 4のステップと、

前記第 4のステップにて決定された前記対話手段を特定するために必要な情報を前記送信手段に通知する第 5のステップと、

前記送信手段と前記第 4のステップで決定された対話手段との間で音声認識対話処理を行う第 6のステップと、

前記第 4のステップにて決定された前記対話手段から前記サービス保持手段に、前記送信手段が要求するサービスの内容を要求する第 7のステツプと、

前記第 7のステップにて要求されたサービスの内容を前記第 4のステップにて決定された前記対話手段へ送信する第 8のステップと、

前記第 8のステップにて送信されたサービスの内容を、前記第 4のステップにて決定された対話手段にて読み込む第 9のステップと、

前記送信芋段と前記第 4のステップにて決定された前記対話手段との間に、前記読込まれたサービスの内容に基いて音声認識対話処理を行う第 1 0のステツプを有する構成として構築するようにしてもよいものであ。

この場合、前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 1 1 のステップと、

前記送信手段に、当該送信手段の能力データを要求する第 1 2のステップと、

前記送信手段から、当該送信データの能力データを送信する第 1 3のステップと、

前記送信手段の能力データと複数個の前記対話手段の能力データとを比較し、その比較結果に基いて新たに前記対話手段を一意に決定する第 1 4のステップと、

前記第 1 4のステツプにて決定された前記対話手段を特定するために必要な情報を前記送信手段に通知する第 1 5のステップと、

前記第 1 4のステツプにて決定された前記対話手段と前記送信手段との間に音声認識対話処理を行う第 1 6のステツプを付加するようにしてもよいものである。

また、前記音声情報として、デジタル化された音声データ，圧縮された音声データ又は特徴べクトルのデータを含む音声情報を用いることが望ましいものである。また、前記送信手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能，サービス内容のデータを含めることが望ましいものである。また、前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式. 録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータを含めることが望ましいものである。

さらに、本発明に係る音声認識対話選択装置は、送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける振分け手段を備え、前記振分け手段は、前記振分けを行う際に前記送信手段の能力と前記対話手段の能力とに応じて前記対話手段を特定して振り分けを行うものとして構築してもよいものである。

さらに、本発明に係る音声認識対話選択装置は、送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段からの音声情報と、前記対話手段を変更する旨のデータを受け取る第 1 の手段と、

前記送信手段に、当該送信手段の能力データを要求する第 2の手段と、前記第 2の手段からの要求に応じて、前記送信手段から前記能力デー夕を送信する第 3の手段と、

前記送信手段の能力データと複数の前記対話手段の能力データとを比較し、その比較結果に基いて前記対話手段を一意に決定する第 4の手段と、

前記第 4の手段にて決定された前記対話手段を特定するための情報を前記送信手段に通知する第 5の手段とを有する構成として構築してもよいものである。

この場合、前記音声情報は、デジタル化された音声データ，又は圧縮された音声データ，又は特徴ベクトルのデータを含むものであることが望ましいものである。また、前記送信手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能，サービス内容のデータを含むことがのぞましいものである。また、前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデ一夕を含むものであることが望ましいものである。

さらに、本発明は、音声認識対話選択プログラムを記録媒体に記憶させるようにしてもよいものである。すなわち、本発明に係る音声認識対話選択プログラムの記録媒体は、送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、前記送信手段からの音声情報データを受け取る第 1 のステップと、前記送信手段に、当該送信手段の能力データを要求する第 2のステツプと、 ' ' 前記送信手段から当該送信手段の能力データを送信する第 3のステツプと、

前記送信手段と一意に決定された前記対話手段との間で音声認識対話処理を行う第 6のステツプとを有する音声認識対話選択プログラムを記録しても.よいものである。

この場合、前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 7のステップと、

前記第 1 0のステップにて決定された対話手段を特定するために必要な情報を前記送信手段に通知する第 1 1 のステップと、

前記第 1 0 のステツプにて決定された対話手段と前記送信手段との間に音声認識対話処理を行う第 1 2のステツプとを付加する音声認識対話選択プログラムを記録するようにしても良いものである。

また、記録媒体に記録する音声認識対話選択プログラムとしては、送信手段と複数の対話手段とサービス保持手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段から当該送信手段の能力データを送信する第 3のステップと、

前記第 4のステツプにて決定された前記対話手段を特定するために必要な情報を前記送信手段に通知する第 5のステップと、

前記送信手段と前記第 4のステツプで決定された対話手段との間で音声認識対話処理を行う第 6のステップと、

前記送信手段と前記第 4のステップにて決定された前記対話手段との間に、前記読込まれたサービスの内容に基いて音声認識対話処理を行う第 1 0のステツプを有する音声認識対話選択プログラムを用いることが望ましいものである。この場合、前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 1 1 のステップと、

前記第 1 4のステップにて決定された前記対話手段と前記送信手段との間に音声認識対話処理を行う第 1 6のステツプを音声認識対話選択プ口 f、ラムに付加することが望まし )ものである。また、前記音声情報として、デジタル化された音声データ，圧縮された音声データ又は特徴べクトルのデータを含む音声情報を用いることは望ましいものである。また、前記送信手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能，サービス内容のデータを含めることが望ましいものである。また、前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 ·合成音声出力機能，サービス内容，認識の能力，稼動情報のデータを含めることが望ましいものである。

本発明よる音声認識対話システムは、クライアント端末とそれぞれ複数の認識対話サーバがネットワークを通して接続されているシステムであり、認識対話サーバが複数台ある場合においても複数台の中から最適な認識対話サーバを選択して決定し、最適な認識対話サーバ上で音声認識対話を実行することが可能となっている。

最適な認識対話サーバの決定方法については、クライアント端末の能力と認識対話サーバ側との能力とを比較し、クライアント端末と認識対話サーバとの出入力が一致し、且つ最も高い能力を有し、さらに現在稼動中であるとの条件を満たす認識対話サーバが選択されるような決定方法を一例として挙げることができる。

クライアント端末の能力を判断するデータとしては、 C O D E Cの能力（C O D E Cの種類、 C 0 D E C圧縮モード等）、音声データ形式（圧縮音声データ、特徴べクトル等）、録音音声入出力機能、合成音声入出力機能（合成エンジンなし、中間表現入力用エンジンあり、文字列入力用エンジンあり等）、サービス内容等のデータが挙げられる。また、認識対話サーバの能力を判断するデータとしては、 C O D E Cの能力（C O D E Cの種類、 C O D E C伸張モード等）、録音音声出力機能、合成音声出力機能（合成エンジンなし、中間表現出力用エンジンあり、波形出力用エンジンあり等）、サービス内容、認識エンジンの能力（タスク専用ェンジン、ディクテーシヨンエンジン、コマンド認識用エンジン等）、稼動情報等のデータが挙げられる。 C 0 D E Cの種類については、 AMR-NB や AMR-WB等が挙げられる。また、合成音声の中間表現としては、文字列を発音記号列に変換した後の表現を一例として挙げることができる。サービス内容としては、住所認識、名前認識、着信メロディーの曲名認識、電話番号認識、クレジット番号認識などのサービスが挙げられる。

認識対話サーバを決定する処理部については、 W e bサーバ、又は認識対話選択サーバに含まれる場合や、認識対話サーバに含まれる場合や、 W e bサーバ、又は認識対話選択サーバと認識対話サーバとの両方に含まれる場合とが考えられる。

本発明によって、最適な認識対話サーバを用いた音声認識対話を実行することが可能となる。また、認識対話サーバ自身に認識対話サーバ決定機能を持たせることで、対話の最中においても、端末側は他の適切な認識サーバに自動的にアクセスすることが可能となる。

また、本発明によると、サービスの内容を認識対話サーバ以外のサーパ (例えば、 Web サーバやコンテンツプロバイダ一のサーバ等が挙げられる）から受信し、受信したサービスの内容に従った音声認識対話を実行することも可能である。サービスの内容の形式については、 Vo i ceXML 文書やサービス名を例として挙げることができる。図面の簡単な説明図 1 は、本発明に係る実施形態の音声認識対話システムの構成を示す図である。図 2は、本発明のクライアント端末 1 0の構成を示すプロック図である。図 3は、本発明に係る実施形態の認識対話サーバ 3 0の構成を示すブロック図である。図 4は、本発明の認識対話選択サーバ 2 0 の fc¾を示すブロック図である。図 5は、本発明に係る実施形態の音声認識対話システムにおいて、認識対話選択サーバ 2 0にて認識対話サーバを決定する場合の処理を示すフローチャートである。図 6は、本発明に係る実施形態の音声認識対話方法において、音声認識対話の処理を示すフローチャートである。図 7は、本発明に係る実施形態の音声認識対話システムにおいて、認識対話サーバ 3 0 にて認識対話処理中に認識対話選択サーバ 2 0 にて新規認識対話サーバ 8 0を決定する場合の処理を示すフローチャートである。図 8は、本発明に係る実施形態の認識対話代表サーバ 4 0の構成を示すブロック図である。図 9は、本発明に係る実施形態の音声認識対話方法において、認識対話処理中に認識対話代表サーバ 4 0にて新規認識対話サーバ 8 0を決定する場合の処理を示すフローチャートである。図 1 0は、本発明に係る実施形態の認識対話サ一バ C 5 0を示す図である。図 4の装置に音声認識対話起動部とサービス内容読み込み部とが追加されている。図 1 1 は、本発明に係る実施形態の音声認識対話方法において、認識対話サーバ C 5 0がサービス内容をサービス内容保持サーバ 6 0から読み込む場合の処理を示すフローチヤートである。図 1 2は、本発明に係る実施形態の音声認識対話方法をサーバコンピュータ 9 0 1上で実行させるプログラムとそのプログラムが記録された記録媒体 9 0 2を示す図である。発明を実施するための最良な形態以下、本発明の実施の形態を図面により詳細に説明する。本発明は、ネットワークを利用して音声認識対話のサービスを提供するための音声認識対話システムにおいて、認識対話サーバが複数台ある場合に最適な認識対話サーバを一意に選択、決定する機能を持つシステムである。

次に本発明の実施の形態について図面を参照して詳細に説明する。図 1 は、本発明に係る実施形態の音声認識対話システムの構成を示す図である。クライアント端末 1 0は、ネットワーク 1 を介して認識対話選択サーバ 2 0 と、認識対話サーバ 3 0、認識対話代表サーバ 4 0、認識対話サーバ C 5 0、新規認識対話サーバ 8 0 と、サービス内容保持サーバ 6 0に接続している。ここに、クライアント端末 1 0は、音声情報を送信する送信手段，サービス内容を要求する要求手段として機能をする。

ネットワーク 1 の種類については、インターネット（有線または無線を含む）、イントラネットが挙げられる。

図 2は、本発明のクライアント端末 1 0の構成を示すプロック図である。クライアント端末 1 0は携帯端末、 P D A、車載端末、パ一ソナルコンピュータ、ホーム端末である。クライアント端末 1 0は、クライアント端末 1 0 を制御する制御部 1 2 0、クライアント端末 1 0の能力を保持する端末情報記憶部 1 4 0、ネットワーク 1 を介して通信を行うデ一夕通信部 1 3 0から構成される。

クライアント端末 1 0側の能力を判断するデータには、 C O D E Cの能力（C O D E Cの種類、 C O D E C圧縮モード等）、音声データ形式（圧縮音声データ、特徴べクトル等）、録音音声入出力機能、合成音声入出力機能（合成エンジンなし、中間表現入力用エンジンあり、文字列入力用エンジンあり等）、サービス内容などのデータを用いている。なお、クライアント端末 1 0に w e bブラウザを実装し、これにより、利用者とのインタフヱースを行うようにしてもよい。サービス内容のデ一夕には、住所認識、名前認識、着信メロディーの曲名認識、電話番号認識、クレジット番号認識などのサービスデータが含まれる。

図 3は、本発明に係る実施形態の認識対話サーバ 3 0の構成を示すブロック図である。認識対話サーバ 3 0は、認識対話サーバ 3 0を制御する制御部 3 2 0、音声認識および対話を実行する音声認識対話実行部 3 3 0、ネットワーク 1 を介して通信を行うデータ通信部 3 1 0から構成される。

図 4は、本発明に係る認識対話選択サーバ 2 0の構成を示すブロック図である。認識対話選択サーバ 2 0は、ネットワーク 1 を介して通信を行うデータ通信部 ₂ 1 ₀、認識対話サーバが複数台ある場合に最適な認識対話サーバを一意に選択、決定する認識対話サーバ決定部 2 2 0と、選択、決定された認識対話サーバの能力情報を記憶する認識対話サーバ情報記憶部 2 3 0から構成される。ここに、認識対話選択サーバ 2 0は、送信手段 · 要求手段をなすクライアント端末 1 0の能力と、対話手段をナス認識サーバの能力とによつて複数の対話手段から特定の対話手段を選択する振分手段を構成する。

認識対話サーバの能力を判断するデータとしては、 C〇 D E Cの能力 ( C O D E Cの種類、 C O D E C伸張モード等）、音声データ形式（圧縮音声データ、特徴べクトル等）、録音音声出力機能、合成音声出力機能（合成エンジンなし、中間表現出力用エンジンあり、波形出力用エンジンあり等）、サービス内容、認識エンジンの能力（タスク専用エンジン、ディクテーシヨンエンジン、コマンド認識用エンジン等）、稼動情報等のデ一夕を用いる。新規認識対話サーバ 8 0は、認識対話サーバ 3 0、認識対話代表サーバ 40、認識対話サ一バ C 50のうちのどれかひとつと同じである。認識対話選択サ一パ 2 0、認識対話サーバ 3 0、認識対話代表サーバ 40、認識対話サーバ C 5 0、新規認識对話サ一パ 80は、 O Sとして W i n d o w s (登録商標） NT， W i n d o w s (登録商標） 2 00 0を搭載したコンピュータゃ、 S o l a l i s (登録商標）を搭載したサーバである。認識対話代表サーバ 40、認識対話サーバ C 50の構成については後に説明する。ここに、認識対話選択サーバ 2 0、認識対話サーバ 3 0、認識対話代表サーバ 40、認識対話サーバ C 50、新規認識対話サーバ 80などは、上述した対話手段として機能する。

次に、本発明に係る実施形態の音声認識対話システムの動作について説明する。

第一に、音声認識と対話を行う認識対話サーバ 30を決定する処理を認識対話選択サーバ 20で行い、決定した認識対話サーバ 30にて音声認識対話処理を行う場合について説明する。図 5は、本発明に係る実施形態の音声認識対話システムにおいて、認識対話選択サーバ 2 0にて認識対話サーバ 30を決定する場合の処理を示すフローチャートである。

まず始めに、クライアント端末 1 0より認識対話選択サーバ 2 0へ音声認識対話処理が含まれるサービスの要求が行われる（ステップ 5 0 1 )< 具体的には、クライアント端末 1 0側のデータ通信部 1 30から、サ一ビスを実行するプログラムの C G I の UR Lと処理に必要な引数とが H T T Pコマンド等にて認識対話選択サーバ 20側に送信される。

次に、認識対話選択サ一バ 20側では、クライアント端末 1 0側からのサービス要求を受け、クライアント端末 1 0の能力情報を要求する（ステツプ 5 02 )。次に、クライアント端末 1 0は、認識対話選択サーバ 2 0からの能力情報要求を受け、端末情報記憶部 1 40に記憶されているクライアント端末 1 0の能力情報を制御部 1 20を通じ、データ通信部 1 3 0から認識対話選択サーバ 20へ送信する（ステップ 5 03)。クライアント端末 1 0の能力については、 C OD E Cの能力（C OD E Cの種類、 C OD E C圧縮モ一ド等）、音声データ形式（圧縮音声データ、特徴べクトル等）. 録音音声入出力機能、合成音声入出力機能（合成エンジンなし、中間表現入力用エンジンあり、文字列入力用エンジンあり等）、サービス内容等が挙げられる。

認識対話選択サーバ 20は、クライアント端末 1 0から送信されたクライアント端末 1 0の能力情報を受信し、予め認識対話サーバ情報記憶部 2 3 0に記憶されている複数台の認識対話サーバの能力情報を読み出し、認識対話サーバ決定部 220にてクライアント端末 1 0側の能力情報と複数台の認識対話サーバの能力を比較し（ステップ 5 04)、クライアント端末 1 0側から要求されたサービス内容の情報も加味し、最適な認識対話サーバを一意に決定する（ステップ 5 05)。

認識対話サーバの能力については、 C O D E Cの能力（C O D E Cの種類、 C OD E C伸張モード等）、音声データ形式（圧縮音声データ、特徴べクトル等）、録音音声出力機能、合成音声出力機能（合成エンジンなし、中間表現出力用エンジンあり、波形出力用エンジンあり等）、サ一ビス内容、認識エンジンの能力（タスク専用エンジン、ディクテ一シヨンエンジン、コマンド認識用エンジン等）、稼動情報等が挙げられる。

最適な認識対話サーバ 30の決定方法については、クライアント端末 1 0の能力と認識対話サーバ側との能力とを比較し、クライアント端末 1 0と認識対話サーバ 3 0との出入力が一致し、且つ最も高い能力であり、且つ現在稼動中の認識対話サーバが選択されるような決定方法を一例として挙げることができる。また、サービス内容毎に認識対話サーバ

3 0が存在する場合、例えば、住所タスク用サーバ、氏名タスク用サーノ^ 電話番号タスク用サーバ、カード I Dタスク用サーバ等の専用の認識対話サーバ 3 0が存在する場合、クライアント端末 1 0から要求されたサービス内容を実行可能な認識対話サーバを選択する方法も一例として挙げられる。

次に、認識対話選択サーバ 2 0は、認識対話サーバ決定部 2 2 0にて決定した認識対話サーバの情報をクライアント端末 1 0側に通知する (ステップ 5 0 6 )。通知の方法については、認識対話サーバ 3 0のアドレス、又は認識対話サーバ 3 0上の、認識対話を実行する実行プロダラムのアドレス等を H T M L等の画面に埋め込んで通知する方法を一例として挙げることができる。

次に、クライアント端末 1 0は、認識対話選択サーバ 2 0より認識対話サーバ 3 0の情報の通知を受信し、通知された認識対話サーバ 3 0へ音声認識対話の開始を要求する（ステップ 5 0 7 )。音声認識対話の開始要求の方法については、認識対話を実行する実行プログラムのァドレスの U R Lと音声認識対話を実行する際に必要な引数を H T T Pの P〇 S Tコマンドにて送信する方法が一例として挙げられる。前述の引数については、サービス内容を記述する文書（Vo i ceXML等）やサービス名、音声認識対話実行コマンド等が挙げられる。

次に、認識対話サーバ 3 0は、クライアント端末 1 0からの音声認識対話開始の要求を受け、音声認識対話を実行する（ステップ 5 0 8 )。図 5において、ステップ 5 0 8とステップ 5 0 9 との間を結ぶ点線は、端末，認識対話サーバ間でデータの遣り取りが何回か行われることを示している。音声認識対話処理については、後で図 6を用いて詳しく説明する。

音声認識対話を終了する場合は、クライアント端末 1 0側から認識対話終了要求を行う（ステップ 5 0 9 )。認識対話終了要求の方法については、認識対話を終了する実行プログラムのアドレスを H T T Pの P O S Tコマンドにて送信する方法や、認識対話を実行する実行プログラムのアドレスと認識対話を終了させるコマンドとを H T T Pの P O S Tコマンドにて送信する方法を例として挙げることができる。認識対話サーバは、クライアント端末 1 0側からの音声認識対話終了要求を受信し、音声認識対話を終了する（ステップ 7 1 0 )。

次に、音声認識対話処理について説明する。図 6は、本発明実施の形態の音声認識対話方法において、音声認識対話の処理を示すフ口一チヤートである。

まず始めに、クライアント端末 1 0のデータ入力部 1 1 0に入力された音声が制御部 1 2 0に送信され、制御部 1 2 0にてデータ処理が行われる。データ処理の内容については、デジタル化処理、音声検出処理、音声分析処理を例として挙げることができる。 .

次に、処理された音声データは、データ通信部 2 1 0より認識対話サーバに送信される（ステップ 6 0 1 )。音声データについては、デジタル化された音声データ、圧縮された音声データ、特徴ベクトルを例として挙げられる。

認識対話サーバ 3 0では、クライアント端末 1 0より逐次的に送信された音声データをデ一夕通信部 3 1 0にて受信し（ステップ 6 0 2 )、制御部 3 2 0にて音声データであると判断し、音声認識対話実行部 3 3 0^_ に送信する。音声認識対話実行部 3 3 0は、音声認識対話に必要な認識エンジン、認識用辞書、合成エンジン、合成用辞書等を持っており、逐次的に音声認識対話処理を行う（ステップ 6 0 3 )。

音声認識対話処理については、クライアント端末 1 0から送信される音声データの種類によって処理内容が変わる。例えば、送信される音声データが圧縮音声データである場合は圧縮データの伸張、音声分析、認識処理を行い、特徴べクトルが送信される場合は音声の認識処理のみを行う。認識処理終了後、出力された認識結果をクライアント端末 1 0へ送信する（ステップ 6 0 4 )。認識結果の形式については、テキストゃ、テキストの内容に一致する合成音声 · 録音音声や、認識内容を反映させた画面の URL等を挙げることができる。クライアント端末 1 0では、認識対話サーバ 3 0から受信した認識結果を認識結果の形式に従って処理する（ステップ 6 0 5 )。例えば、認識結果の形式が合成音声、又は録音音声である場合は音声を出力させ、認識結果の形式が画面の U R Lである場合は画面を表示する処理を行う。

このようにしてステップ 6 0 1 からステップ 6 0 5までの処理が何度か繰り返され、音声対話が進行する。

第二に、本発明実施の形態の音声認識対話システムにおいて、音声認識対話処理を行っている認識対話サーバ 3 0を、他の新規認識対話サーバ 8 0で音声認識対話処理を行うように変更する場合について説明する < 図 7は、本発明実施の形態の音声認識対話システムにおいて、認識対話サーバ 3 0にて認識対話処理中に認識対話選択サーバ 2 0にて新規認識対話サーバ 8 0を決定する場合の処理を示すフローチヤ一トである。

図 7において、クライアント端末 1 0と認識対話サーバ 3 0との間で複数回やりとりが行われた後に新規認識対話サーバ 8 0での処理が必要となった場合、認識対話サーバ 3 0から認識対話選択サーバ 2 0へ新規認識対話サーバ 8 0への処理移行が要求される（ステップ 703)。図 7 において、ステップ 70 2とステップ 703との間を結ぶ点線は、端末，認識対話サーバ間でデータの遣り取りが何回か行われることを示している。

サーバ移行要求が行われる契機としては、対話の最中にサービス内容が変更された場合や、サービス内容とサーバ能力に不整合が生じた場合や、認識対話サーバで不具合が生じた場合等を挙げることができる。次に、認識対話選択サーバ 20からクライアント端末 1 0へクライアント端末 1 0の能力情報要求が行われる（ステップ 704)。

次に、クライアント端末 1 0は、認識対話選択サーバ 2 0からの能力情報要求を受け、クライアント端末 1 0情報記憶部 1 40に記憶されているクライアント端末 1 0の能力情報を制御部 1 20を通じ、データ通信部 1 30から認識対話サーバへ送信する（ステップ 705)。

認識対話選択サーバ 2 0では、クライアント端末 1 0から送信されたクライアント端末 1 0の能力情報を受信し、予め認識対話サーバ情報記憶部 23 0に記憶されている複数台の認識対話サーバの能力情報を読み出し、認識対話サーバ決定部 220にてクライアント端末 1 0側の能力情報と複数台の認識対話サーバの能力を比較し（ステップ 70 6 )、認識対話サーバ側からの移行要求の契機となったサービス内容の情報も加味し、最適な認識対話サーバを一意に決定する（ステップ 7 07)。クライアント端末 1 0の能力情報、認識対話サーバの能力情報、認識対話サーバの決定方法については前述と同様である。

次に、認識対話選択サーバ 20は、認識対話サーバ決定部 2 20にて決定した新規認識対話サーバ 80の情報をクライアント端末 1 0側に通知する（ステップ 70 8)。通知の方法については、新規認識対話サーバ 8 0のアドレス、又は新規認識対話サーバ 8 0上の、認識対話を実行する実行プログラムのァドレス等を H T M L等の画面に埋め込んで通知する方法を一例として挙げることができる。

次に、クライアント端末 1 0側は、新規認識対話サーバ 8 0のァドレスの通知を受信し、通知された新規認識対話サーバ 8 0へ音声認識対話の開始を要求する（ステップ 7 0 9 )。音声認識対話の開始要求の方法については、認識対話を実行する実行プログラムのァドレスの URL と音声認識対話を実行する際に必要な引数を H T T Pの P O S Tコマンドにて送信する方法が一例として挙げられる。

第三に、本発明実施の形態の音声認識対話システムにおいて、上述した認識対話選択サーバ 2 0と認識対話サーバ 3 0を同一のサーバに実装して、音声認識対話と適切な音声認識対話サーバの選択を行うことができる認識対話代表サーバ 4 0とすることができる。

図 8は、本発明に係る実施形態の認識対話代表サーバ 4 0の構成を示すブロック図である。

図 8に示すように、認識対話代表サーバ 4 0は、図 3に示す認識対話サーバ 3 0に、認識対話サーバ決定部 4 4 0 と認識対話サーバ情報記憶部 4 5 0とが追加されている。これ以外の構成、例えばデータ通信部 4 1 0，制御部 4 2 0 , 音声認識対話実行部 4 3 0は、図 3の対応する構成と同じである。

制御部 4 2 0、音声認識および対話を実行する音声認識対話実行部 4 3 0、ネットワーク 1 を介して通信を行うデータ通信部 4 1 0は、それそれ制御部 3 2 0、音声認識および対話を実行する音声認識対話実行部 3 3 0、ネットワーク 1 を介して通信を行うデータ通信部 3 1 0と同じである。認識対話サーバ決定部 4 4 0は、認識対話サーバが複数台ある場合に最適な認識対話サーバを一意に選択、決定する。認識対話サーバ情報記憶部 4 5 0は、選択、決定された認識対話サーバの能力情報を記憶する。認識対話サーバの能力については、第一の場合と同様に、 C O D E Cの能力（C O D E Cの種類、 C〇 D E C伸張モード等）、音声データ形式（圧縮音声データ、特徴べクトル等）、録音音声出力機能、合成音声出力機能 (合成エンジンなし、中間表現出力用エンジンあり、波形出力用ェンジンあり等）、サービス内容、認識エンジンの能力（タスク専用エンジン、ディクテーシヨンエンジン、コマンド認識用エンジン等）、稼動情報等が挙げられる。

この場合の処理は上述の図 5の処理を認識対話代表サーバ 4 0が単独で行う。

次に、音声認識対話処理を行っている認識対話代表サーバ 4 0を、他の新規認識対話サーバ 8 0で音声認識対話処理を行うように変更する場合について説明する。

図 9は、本発明実施の形態の音声認識対話方法において、認識対話処理中に認識対話代表サーバ 4 0 にて新規認識対話サーバ 8 0を決定する場合の処理を示すフローチャートである。

図 9によると、端末側と認識対話サーバ側との間で複数回やりとりが行われた後に新規認識対話サーバ 8 0での処理が必要となった場合、認識対話代表サーバ 4 0からクライアント端末 1 0へクライアント端末 1 0の能力情報要求が行われる（ステップ 9 0 3 )。図 9において、ステツプ 9 0 2とステップ 9 0 3 との間を結ぶ点線は、端末，認識対話サーバ間でデータの遣り取りが何回か行われることを示している。

クライアント端末 1 0の能力情報要求が行われる契機としては、対話の最中にサービス内容が変更された場合や、サービス内容とサーバ能力に不整合が生じた場合や、認識対話サーバで不具合が生じた場合等を挙げることができる。

次に、クライアント端末 1 0は、認識対話代表サーバ 4 0からの能力情報要求を受け、端末情報記憶部 1 4 0に記憶されているクライアント端末 1 0の能力情報を制御部 1 2 0を通じ、データ通信部 1 3 0から認識対話代表サーバ 4 0へ送信する（ステップ 9 0 4 )。

認識対話代表サーバ 4 0では、クライアント端末 1 0側から送信されたクライアント端末 1 0 の能力情報を受信し、予め認識対話サーバ情報記憶部 4 5 0に記憶されている複数台の認識対話サーバの能力情報を読み出し、認識対話サーバ決定部 4 4 0 にてクライアント端末 1 0の能力情報と複数台の認識対話サーバの能力を比較し（ステップ 9 0 5 )、クライアント端末 1 0から要求されたサービス内容の情報も加味し、最適な認識対話サーバを一意に決定する（ステップ 9 0 6 )。クライアント端末 1 0の能力情報、認識対話サーバの能力情報、認識対話サーバの決定方法については前述と同様である。

次に、認識対話代表サーバ 4 0は、認識対話サーバ決定部 4 4 0にて決定した新規認識対話サーバ 8 0の情報をクライアント端末 1 0に通知する（ステップ 9 0 7 )。通知の方法については、新規認識対話サーバ 8 0のアドレス、又は新規認識対話サーバ 8 0上の、認識対話を実行する実行プログラムのアドレス等を H T M L等の画面に埋め込んで通知する方法を一例として挙げることができる。

次に、クライアント端末 1 0側は、新規認識対話サ一バ 8 0のァドレスの通知を受信し、通知された新規認識対話サーバ 8 0へ音声認識対話の開始を要求する（ステップ 9 0 8 )。音声認識対話の開始要求の方法については、認識対話を実行する実行プログラムのァドレスの URL と音声認識対話を実行する際に必要な引数を H T T Pの P O S Tコマンドにて送信する方法が一例として挙げられる。

第四に、本発明に係る実施形態の音声認識対話システムにおいて、認識対話サーバ C 5 0が、サービス内容をサービス内容保持サーバ 6 0、例えばコンテンツプロバイダ一から読み込む場合について説明する。この場合、サービス内容保持サーバ 6 0を認識対話選択サーバ 2 0に実装し、サービスを利用者へ提供するインタフヱースとして w e bを用いる w e bサーバとしてもよい。また、この場合クライアント端末 1 0には、サービス内容を選択したり入力したりするィンタフヱースとして w e b ブラゥザを実装してもよい。

図 1 0は、本発明に係る実施形態の認識対話サーバ C (認識対話サ一バ側装置） 5 0を示す図である。図 1 0に示す認識対話サーバ側装置 5 0は、図 8に示す認識対話代表サーバ 4 0に、音声認識対話起動部 5 3 0 とサービス内容読み込み部 5 4 0とが追加されている。これ以外の構成、例えばデータ通信部 5 1 0，制御部 5 2 0，音声認識対話実行部 5 3 0 , 認識対話サーバ決定部 5 6 0 , 認識対話サーバ情報記憶部 5 7 0 は、図 8の対応する構成と同じである。

音声認識対話起動部 5 3 0は、音声認識対話処理を起動し、クライアント端末 1 0側から送信されたサービス情報より、サービス内容を保持するサーバへサービス内容の要求を行う。サービス内容には、住所認識、名前認識、着信メ口ディ一の曲名認識、電話番号認識、クレジット番号認識などのサービスが挙げられる。

サービス内容読み込み部 5 4 0は、サービス内容をサービス内容保持サーバ 6 0から読み込む。音声認識対話実行部 5 5 0、制御部 5 2 0、データ通信部 5 1 0は、それぞれ音声認識対話実行部 4 3 0、制御部 4 2 0、データ通信部 4 1 0 と同じである。認識対話サーバ情報記憶部 5 7 0、認識対話サーバ決定部 5 6 0は、実装されていなくてもよい。この場合、ひとつの認識対話サーバの決定は、認識対話選択サーバ 2 0により行われる。認識対話サーバ情報記憶部 5 7 0、認識対話サーバ決定部 5 6 0が実装される場合は、それぞれ認識対話サーバ情報記憶部 4 5 0、認識対話サーバ決定部 4 4 0と同じである。

図 1 1 は、本発明実施の形態の音声認識対話方法において、認識対話サーバ C 5 0がサービス内容をサービス内容保持サーバ 6 0から読み込む場合の処理を示すフローチャートである。

図 1 1 のステップ 1 1 0 1 からステップ 1 1 0 5 までの処理については、前述のステップ 5 0 1 からステップ 5 0 6の処理と同一である。次に、クライアント端末 1 0は、認識対話選択サーバ 2 0より通知された認識対話サーバ C 5 0 の情報より、認識対話サーバ C 5 0へ音声認識対話開始要求を行う（ステップ 1 1 0 6 )。要求の際に、サービス情報の送信を行う。

音声認識対話の開始要求の方法については、認識対話を実行する実行プログラムのァドレスの U R Lとサービス内容情報を H T T Pの P〇 S Tコマンドにて送信する方法が一例として挙げられる。サービス内容情報については、サービス内容を記述する文書（Vo i ceXML等）やサービス名が挙げられる。

次に、認識対話サーバ C 5 0は、クライアント端末 1 0からの要求をデータ通信部 5 1 0で受け、音声認識対話起動部 5 3 0にて音声認識対話処理を起動し、クライアント端末 1 0側から送信されたサービス情報より、サービス内容保持サーバ 6 0へサービス内容の要求を行う（ステップ 1 1 0 7 )。

サービス内容の要求方法については、クライアント端末 1 0から送信されたサービス内容の情報がァドレスである場合、そのァドレスにァクセスする方法を一例として挙げることができる。また、クライアント端末 1 0から送信されたサービス情報がサービス名である場合は、サ一ビス名と対をなすァドレスを検索し、そのァドレスにアクセスする方法も例として挙げられる。

次に、サービス内容保持サーバ 6 0では、認識対話サーバ C 5 0からの要求を受け、サービス内容を送信する（ステップ 1 1 0 8 )。認識対話サーバ C 5 0では、送信されたサービス内容をデータ通信部 5 1 0で受け、サービス内容読み込み部 5 4 0にて読み込み（ステップ 1 1 0 9 )、音声認識対話処理を開始する（ステップ 1 1 1 0 )。

ステップ 1 1 1 0からステップ 1 1 1 2までの処理については、前述のステップ 5 0 7からステップ 5 1 0までの処理と同一である。図 1 1 において、ステップ 1 1 1 0とステップ 1 1 1 1 との間を結ぶ点線は、端末，認識対話サーバ間でデータの遣り取りが何回か行われることを示している。

上述のシステムでは、認識対話選択サーバ 2 0と認識対話サーバ C 5 0が双方ネットワークに接続されている例を説明したがどちらかひとつがネットワークに接続されている構成でもよい。

上述の各ステップはサーバコンピュータ 9 0 1上で動作するプログラムにより実現することができる。図 1 2は、本発明実施の形態の音声認識対話方法をサーバコンピュータ 9 0 1上で実行させるプログラムとそのプログラムが記録された記録媒体 9 0 2を示す図である。産業上の利用可能性

以上説明したように本発明によれば、複数の認識対話サーバが存在する場合においても、複数台の中から最適な認識対話サーバを選択して決定し、音声認識対話を実行することが可能となる。

更に、種々の理由により対話中に新規認識対話サーバでの処理が必要となつた場合においても、クライアント端末は他の適切な認識対話サーバに自動的にアクセスすることが可能となり、認識対話処理を続行することができる。

Claims

請求の範囲

1 音声認識対話を行う複数の対話手段と、

前記対話手段に音声情報を送信する送信手段と、·

前記送信手段と前記対話手段とを連携するネットワークと、

前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手段から 1つの対話手段を選択する振分手段と、

を含むことを特徴とする音声認識対話装置。

複数の音声認識対話を行う対話手段と、

前記対話手段に対してサービスを要求する要求手段と、

前記対話手段に音声情報を送信する送信手段と、

前記送信手段と前記要求手段と前記対話手段とを連携するネットヮ一クと、

前記要求手段及び前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手段から 1つの対話手段を選択する振分手段と、を含むことを特徴とする音声認識対話装置。

3 複数の音声認識対話を行う対話手段と、

前記対話手段に対して要求するサービス内容を保持するサービス保持手段と、

前記対話手段に音声情報を送信する送信手段と、

前記サービス保持手段と前記送信手段と前記対話手段とを連携するネットワークと、

前記サービス保持手段及び前記送信手段の能力と前記対話手段の能力とによって前記複数の対話手段から 1 つの対話手段を選択する振分手段と、を含むことを特徴とする音声認識対話装置。

4 前記振分手段は、選択された前記対話手段を特定するための情報を前記送信手段へ送り、当該対話手段と前記送信手段との間で音声認識対話に必要な音声情報を交換する機能を備えたものであることを特徴とする請求の範囲第 1項または第 3項に記載の音声認識対話装置。

5 前記振分手段は、選択された前記対話手段を特定するための情報を前記要求手段と前記送信手段とに送り、当該対話手段と前記要求手段及び前記送信手段手段との間で前記サービス内容と音声情報を交換する機能を備えたものであることを特徴とする請求の範囲第 2項に記載の音声認識対話装置。

6 前記振分手段は、選択された一の前記対話手段を選択された他の前記対話手段に変更する機能を備えたものであることを特徴とする請求の範囲第 4項または第 5項に記載の音声認識対話装置。

7 前記振分手段は、前記送信手段の能力と複数個の前記対話手段の能力とを比較し、その比較結果に基いて、当該対話手段への音声情報の入力形式と前記送信手段への前記音声情報の出力形式とがー致した、所望の能力を持つ前記対話手段を決定する機能を備えたものであることを特徴とする請求の範囲第 1 ， 3 , 4項または第 6項のいずれか一項に記載の音声認識対話装置。

8 前記振分手段は、前記要求手段及び前記送信手段の能力と複数個の前記対話手段の能力とを比較し、その比較結果に基いて、当該対話手段への前記音声情報の入力形式と前記要求手段及び前記送信手段への出力形式とがー致した、所望の能力を持つ前記対話手段を決定する機能を備えたものであることを特徴とする請求の範囲第 2， 5項または第 6項のいずれか一項に記載の音声認識対話装置。 9 前記送信手段から出力される音声情報が、デジタル化された音声デ一夕、圧縮された音声データ、又は特徴べクトルデータから形成されていることを特徴とする請求の範囲第 1項に記載の音声認識対話装置。 1 0 前記送信手段の能力を判断するデータには、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能のデータが含まれていることを特徴とする請求の範囲第 1項に記載の音声認識対話装置。

1 1 前記対話手段の能力を判断するデータには、 C O D E Cの能力，音声データ形式，録音 ·合成音声出力機能，サービス内容，認識の能力，稼動情報のデータが含まれていることを特徴とする請求の範囲第 1項に記載の音声認識対話装置。

1 2 音声認識対話を行う複数の音声認識対話サーバと、

前記音声認識対話サーバに対して要求するサービス内容と音声情報とを送信するクライアント端末と、

前記複数の対話手段から 1 つの対話手段を選択する音声認識対話選択サーバと、

前記クライアント端末と前記音声認識対話サーバと前記音声認識対話選択サーバとを連携するネットワークと、

を含み、

前記音声認識対話選択サーバは、前記ネットワークを介して前記クライアント端末及び前記音声認識対話サーバとの間に通信を行うデータ通信部と、前記音声認識対話サーバのそれぞれの能力を記憶する認識対話サーバ情報記憶部と、前記端末情報記憶部内に記憶された前記クライアント端末の能力データを読み出し、当該データと前記認識対話サーバ情報記憶部内の音声認識対話サーバの能力データとを比較して前記複数の音声認識対話サーバから少なくとも一の音声認識対話サーバを決定すると共に、当該決定された音声認識対話サーバを特定するために必要な情報を前記クライアント端末へ送る認識対話サ一パ決定部とを有し、前記音声認識対話サーバは、前記クライアント端末から入力される前記音声情報に基いて音声認識対話を実行する音声認識対話実行部と、前記ネットワークを介して前記クライアント端末及び前記音声認識対話選択サーバとの間に通信を行うデータ通信部と、当該音声認識対話サーバの動作制御を行う制御部とを有することを特徴とする音声認識対話装置 <

1 3 前記ネットワークに連携され、かつ前記クライアント端末から要求されるサービスの内容を保持するサービス内容保持サーバと、

前記音声認識対話サーバに備えられ、前記サービス内容保持サーバに保持された前記サービスの内容を読み込む読み込み部とを付加したことを特徴とする請求の範囲第 1 2項に記載の音声認識対話装置。

1 4 前記音声認識対話サーバに備えられ、当該音声認識対話サーバとは異なる前記音声認識対話サーバへ音声認識対話処理を移行させる要求を前記音声認識対話選択サーバへ出力する処理移行手段を付加したことを特徴とする請求の範囲 1 2または 1 3に記載の音声認識対話装置。

1 5 前記クライアント端末から出力される音声情報が、デジタル化された音声データ、圧縮された音声データ、又は特徴ベクトルデータから形成されていることを特徴とする請求の範囲第 1 2項に記載の音声認識対話装置。

1 6 前記クライアント端末の能力を判断するデータには、 C O D E C の能力，音声データ形式，録音 · 合成音声入出力機能のデータが含まれていることを特徴とする請求の範囲 1 2に記載の音声認識対話装置。 1 7 前記音声認識対話サーバの能力を判断するデータには、 C O D E Cの能力，音声データ形式，録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータが含まれていることを特徴とする請求の範囲第 1 2項に記載の音声認識対話装置。

1 8 送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段からの音声情報データを受け取る第 1 のステップと、前記送信手段に、当該送信手段の能力データを要求する第 2のステップと、

前記送信手段と一意に決定された前記対話手段との間で音声認識対話処理を行う第 6のステップとを有することを特徴とする音声認識対話選択方法。

1 9 前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 7のステップと、

前記第 8のステップでの要求に応えて前記送信手段から当該送信手段の能力データを送信する第 9のステップと、

付加することを特徴とする請求の範囲第 1 8項に記載の音声認識対話選択方法。

2 0 送信手段と複数の対話手段とサービス保持手段との間にネットヮークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段から当該送信手段の能力データを送信する第 3のステツプと、

前記送信手段の能力データと複数の前記対話手段の能力データとを比較し、その比較結果に基いて複数の对話手段から特定の対話手段を一意に決定する第 4のステップと、

前記第 7のステップにて要求されたサービスの内容を前記第 4のステップにて決定された前記対話手段へ送信する第 8のステツプと、

前記第 8のステツプにて送信されたサービスの内容を、前記第 4のステップにて決定された対話手段にて読み込む第 9のステップと、

前記送信手段と前記第 4のステツプにて決定された前記対話手段との間に、前記読込まれたサービスの内容に基いて音声認識対話処理を行う第 1 0のステップを有することを特徴とする音声認識対話選択方法。 2 1 前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 1 1 のステップと、

前記第 1 4のステツプにて決定された前記対話手段と前記送信手段との間に音声認識対話処理を行う第 1 6のステップを付加することを特徴とする請求の範囲第 2 0項に記載の音声認識対話方法。

2 2 前記音声情報として、デジタル化された音声データ，圧縮された音声データ又は特徴べクトルのデータを含む音声情報を用いることを特徴とする請求の範囲第 1 8項に記載の音声認識対話選択方法。

2 3 前記送信手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声入出力機能，サービス内容のデータを含めることを特徴とする請求の範囲第 1 8項に記載の音声認識対話選択方法。

2 4 前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータを含めることを特徴とする請求の範囲第 1 8項に記載の音声認識対話選択方法。

2 5 送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける振分け手段を備え、

前記振分け手段は、前記振分けを行う際に前記送信手段の能力と前記対話手段の能力とに応じて前記対話手段を特定して振り分けを行うものであることを特徴とする音声認識対話選択装置。

2 6 送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段に、当該送信手段の能力データを要求する第 2の手段と、前記第 2の手段からの要求に応じて、前記送信手段から前記能力データを送信する第 3の手段と、 - 前記送信手段の能力データと複数の前記対話手段の能力データとを比較し、その比較結果に基いて前記対話手段を一意に決定する第 4の手段と、

前記第 4の手段にて決定された前記対話手段を特定するための情報を前記送信手段に通知する第 5の手段とを有することを特徴とする音声認識対話選択装置。

2 7 前記音声情報は、デジタル化された音声データ，又は圧縮された音声データ，又は特徴べクトルのデータを含むものであることを特徴とする請求の範囲第 2 6項に記載の音声認識対話選択装置。

2 8 前記送信手段の能力を判断するデータに、 C O D E Cの能力. 音声データ形式，録音，合成音声入出力機能，サービス内容のデータを含むことを特徴とする請求の範囲 2 6に記載の音声認識対話選択装置。

2 9 前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音，合成音声出力機能，サービス内容，認識の能力，稼動情報のデータを含むものであることを特徴とする請求の範囲第 2 6 項に記載の音声認識対話選択装置。

3 0 送信手段と複数の対話手段との間にネットワークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、前記送信手段からの音声情報データを受け取る第 1 のステップと、前記送信手段に、当該送信手段の能力データを要求する第 2のステップと、

前記送信手段と一意に決定された前記対話手段との間で音声認識対話処理を行う第 6のステツプとを有する音声認識対話選択プログラムを記録したことを特徴とする音声認識対話選択プ.口グラムの記録媒体。

3 1 前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 7のステップと、

前記送信手段へ当該送信手段の能力データを要求する第 8のステップと、

前記第 1 0のステツプにて決定された対話手段を特定するために必要な情報を前記送信手段に通知する第 1 1 のステップと、前記第 1 0のステツプにて決定された対話手段と前記送信手段との間に音声認識対話処理を行う第 1 2のステツプとを付加する音声認識対話選択プログラムを記録したことを特徴とする請求の範囲第 3 0項に記載の音声認識対話選択プログラムの記録媒体。

3 2 送信手段と複数の対話手段とサービス保持手段との間にネットヮークを通してデータ通信を行い、前記送信手段から出力される音声情報データを特定の対話手段に振分ける処理を行うものであり、

前記送信手段の能力データと複数の前記対話手段の能力データとを比較し、その比較結果に基いて複数の対話手段から特定の対話手段を一意- に決定する第 4のステップと、

前記第 7のステツプにて要求されたサービスの内容を前記第 4のステップにて決定された前記対話手段へ送信する第 8のステツプと、前記第 8のステップにて送信されたサービスの内容を、前記第 4のステップにて決定された対話手段にて読み込む第 9のステップと、

前記送信手段と前記第 4のステップにて決定された前記対話手段との間に、前記読込まれたサービスの内容に基いて音声認識対話処理を行う第 1 0のステツプを有する音声認識対話選択プログラムを記録したことを特徴とする音声認識対話選択プログラムの記録媒体。

3 3 前記送信手段と前記対話手段との間に音声認識対話処理が行われている最中に、当該対話手段から他の対話手段へ前記送信手段の相手先を移行する要求を送信する第 1 1 のステップと、

前記第 1 4のステップにて決定された前記対話手段と前記送信手段との間に音声認識対話処理を行う第 1 6のステップを付加する音声認識対話選択プログラムを記録したことを特徴とする請求の範囲第 3 2項に記載の音声認識対話選択プログラムの記録媒体。

3 4 前記音声情報として、デジタル化された音声データ，圧縮された音声データ又は特徴べクトルのデータを含む音声情報を用いることを特徴とする請求の範囲第 3 0項に記載の音声認識対話選択プログラムの記録媒体。

35 前記送信手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 ' 合成音声入出力機能，サービス内容のデータを含めることを特徴とする請求の範囲第 3 0項に記載の音声認識対話選択プ口グラムの記録媒体。

36 前記対話手段の能力を判断するデータに、 C O D E Cの能力，音声データ形式，録音 · 合成音声出力機能，サービス内容，認識の能力，稼動情報のデータを含めることを特徴とする請求の範囲第 30項に記載の音声認識対話選択プログラムの記録媒体。