WO2001099096A1

WO2001099096A1 - Systeme de communication a entree vocale, terminal d'utilisateur et systeme central

Info

Publication number: WO2001099096A1
Application number: PCT/JP2001/005174
Authority: WO
Inventors: Shin Kamiya
Original assignee: Sharp Kabushiki Kaisha
Priority date: 2000-06-20
Filing date: 2001-06-18
Publication date: 2001-12-27
Also published as: JP2002006882A; US7225134B2; US20040078202A1; JP3672800B2

Description

明細書音声入力通信システム、ユーザ端末およびセンターシステム技術分野

この発明は、通信回線を介した情報サービスやホームネットを介した情報サービスやホームネットを介した機器制御を音声によって行う音声入力通信システムに関する。背景技術

従来より、ユーザが、センターシステムと通信回線を介して音声によって情報交換を行うことができる情報処理システムがある。図 1 1は、従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートを示す。図 1 1 において、ステップ S 1で、ユーザ端末側に音声波形が入力される。ステップ S 2 で、上記入力された音声波形データが通信回線を介してセンターシステム側へ送信される。そうすると、ステップ S 3で、上記センターシステム側で波形分析が行われる。そして、ステップ S 4で音素認識が行われ、ステップ S 5で単語認識が行われ、ステップ S 6で文認識が行われる。こうして、言語処理の結果得られた音声入力文に従って、ステップ S 7でアプリケーションプログラムが実行されるのである。

このように、従来の音声入力情報処理システムにおいては、音声波形データをセンターシステム側へ通信回線を介して送信するため、ユーザの音声に歪みが生じ、上記センターシステム側での音声認識が困難である。さらに、多数のユーザに対応するために不特定話者音声認識を使用する場合には、認識性能の低い話者がある確率で存在することになる。

上述のような問題点を解決するために、特定話者音声認識機能または話者適応済み音声認識機能をユーザ端末側に用意し、認識に必要な語彙文法情報をセンタ一システム側から通信回線を介してユーザ端末側へ送って音声認識を行う音声入力情報処理システム（例えば、特開平 8 - 6 5 8 9号公報）がある。図 1 2は、このような音声入力情報処理システムによる音声認識/情報処理動作のフローチヤ一トを示す。

ステップ S 11で、ユーザ端末側とセンターシステム側とで語彙文法情報通信が行われ、センターシステム側からユーザ端末側に、認識に必要な語彙文法情報が送信される。ステップ S 12で、ユーザ端末側に音声波形が入力される。ステップ S 13で、波形分析が行われる。ステップ S 14で、話者適用化音素認識が行われ、ステップ S 15で単語認識が行われ、ステップ S 16で文認識が行われて認識結果がセンターシステム側に送信される。ステップ S 17で、センターシステム側で、上記ユーザ端末側で得られた音声入力文に従ってアプリケーションプログラムが実行されるのである。

しかしながら、上記従来の音声認識機能をユーザ端末側に用意する音声入力情報処理システムには、以下のような問題がある。すなわち、この音声入力情報処理システムにおいては、高い音声認識性能を実現することは可能である。しかしながら、アプリケーションが変わる度に、アプリケーションに応じた語彙と文法に関する情報をセンターシステム側から通信回線を介してユーザ端末側へ送る必要があり、語彙文法情報の情報量に比して通信回線の通信速度が遅い場合には、上記アプリケーションの切替時に発生する情報転送のための待ち時間が煩わしいという問題がある。

さらに、語彙数が数千語以上になると実時間処理に要するプロセッサの処理速度を上げる必要が生ずるために、ユーザ端末が携帯電話や P D A (パーソナル'デイジタル'アシスタント）等のモパイル機器である場合には、消費電力の面で問題がある。発明の開示

そこで、この発明の目的は、消費電力が低いユーザ端末からの音声入力であつても高い認識性能を得ることができる音声入力通信システム、並びに、この音声入力通信システムに用いられるユーザ端末おょぴセンターシステムを提供することにある。

上記目的を達成するため、この発明は、ユーザ端末を有するユーザシステムとセンターシステムとが第 1の通信回線を介して接続され,上記ユーザ端末から上記センターシステムに対-して音声によつて指示を行なう音声入力通信システムにおいて、異なる機能を有する複数の部分音声指示認識処理手段から成ると共に，入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を備え、上記複数の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して備えたことを特徴としている。

上記構成によれば、センターシステムに音声指示認識処理手段の音声認識機能，単語認識および文認識機能等の全機能を置いた場合のように、ユーザシステムから上記センターシステムに第 1の通信回線を介して入力音声波形を送信する必要がない。したがって、上記入力音声波形の送信歪みに起因する音声指示の認識率の低下が防止される。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置いた場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、音声指示の切替り時に上記語彙文法情報を送信する間の待ち時間がなく、迅速な音声指示の認識が行われる。さらに、上記ユーザシステムの認識処理負荷が低減される。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記ユーザシステムには上記ユーザ端末に第 2の通信回線を介して接続されたユーザ側システムが設けられており、上記ユーザ側システムは上記第 1の通信回線を介して上記センターシステムに接続されている。

この実施例によれば、上記ユーザシステムで保持する部分音声指示認識処理手段を、更に上記ユーザ端末とユーザ側システムとで分散して保持することが可能になる。したがって、上記ユーザ端末の認識処理負荷がさらに低減され、処理速度を上げることができる。その結果、上記ユーザ端末が携帯電話や P D A等の消費電力が低レヽモバイル機器であつても、語彙数が多レ、音声指示文にも十分対処することが可能になる。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記センタ一システムは複数存在し、各センターシステムは第 3の通信回線を介して接続されている。

この実施例によれば、上記センターシステムで保持する部分音声指示認識処理手段を、さらに複数のセンターシステムで分散して保持することが可能になる。また、音声指示認識処理を行うセンターシステムと、認識された指示内容に従つてアプリケーション処理を行うセンターシステムとを分離することが可能になる。また、上記ユーザ端末から異なるセンターシステムに対して音声によって指示を行なうことが可能になる。

また、 1実施例では、この発明の音声入力通信システムにおいて、少なくとも最終段のセンターシステムは、上記音声指示認識処理手段によつて認識された指示内容を出力する出力制御手段を備えている。

この実施例によれば、少なくとも最終段のセンターシステムでは、出力制御手段から出力される指示内容に応じた様々なアプリケーションプログラム等が実行可能になる。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れかには、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第 1の通信回線を介して上記センターシステムに送信する送信制御手段を備えている。

この実施例によれば、上記ユーザシステムにおいて、音声認識手段によって入力音声が認識されて中間認識結果が得られ、この中間認識結果が送信制御手段によって第 1の通信回線を介して上記センターシステムに送信される。こうして、音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果が通信回線を介して送信されて、認識率の低下が防止される。

また、 1実施例では、この発明の音声入力通信システムにおいて、少なくとも一つのセンターシステムは、語彙文法を記憶する語彙文法メモリと、上記ユーザシステムからの中間認識結果に対して上記語彙文法を用いた言語処理を行なう上記部分音声指示認識処理手段としての言語処理手段を備えている。

この実施例によれば、語彙文法メモリおよぴ言語処理手段が備えられたセンタ一システムにおいては、上記言語処理手段によって、上記ユーザシステムからの中間認識結果に対して上記語彙文法を用いた言語処理が行なわれ、誤った認識候補が除かれて言語的に正しい指示内容が得られる。こうして、上記ユーザ端末に入力された音声指示の正確な指示内容が得られる。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラテイスあるいは音節ラテイスとしている。

この実施例によれば、音声波形を送信する場合に比して送信歪みの少ない中間認識結果が、音素ラテイスあるいは音節ラテイスとして容易に得られる。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記中間認識結果として、上記音素ラテイスに代えて、分析フレーム毎の音素類似度系列あるレヽは連続する複数分析フレーム毎の平均音素類似度系列を用いている。

この実施例によれば、上記中間認識結果として分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることによつて、上記音素認識手段の処理負荷が小さくなる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することが可能になる。

また、 1実施例では、この発明の音声入力通信システムにおいて、上記第 1の通信回線と第 2 ,第 3の通信回線とは、異なる種類の通信回線である。

この実施例によれば、例えば、上記ユーザシステムと上記センターシステムとを接続する第 1の通信回線を WAN (ワイド'エリア'ネットワーク）とし、上記ュ一ザシステムにおいて上記ユーザ端末とユーザ側システムとを接続する第 2の通信回線および各センターシステム間を接続する第 3の通信回線を L A N (ロー力ル.エリア.ネットワーク）とすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して、音声によって指示を行うことが可能になる。

また、 1実施例では、この発明の音声入力通信システムにおいて、少なくとも —つのセンターシステムに設けられて，ユーザが発声すべき発声内容の音声合成制御パラメータを生成し，上記第 1の通信回線を介してユーザシステムに送信する発声指示手段と、上記ユーザシステムにおける上記ユーザ端末に設けられて，上記第 1の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて，入力された音声の波形を分析して入力音声の特徴を抽出し，上記第 1の通信回線を介してセンターシステムに送信する波形分析手段と、上記発声指示手段が設けられたセンターシステムに設けられて，上記第 1の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えている。この実施例によれば、センターシステムの発声指示手段から送信された発声内容の音声合成制御パラメータに基づいて、上記ユーザシステムの音声合成手段によって、上記発声内容の合成音声が出力される。そして、この合成音声による発声内容に従ってユーザが発声した音声の特徴が、上記ユーザシステムの波形分析手段によって抽出されて上記センターシステムに送信される。そして、上記センターシステムの話者認識手段によって、上記入力音声の特徴に基づいて話者が認識される。

こうして、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第 1の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識が行われる。したがって、特定ユーザによる音声指示である場合にのみ当該音声指示応じた処理を実行することが可能になる。

また、この発明のユーザ端末は、入力された音声を音素単位で認識して音素ラテイスを生成する音素認識手段と、上記音素ラテイスを，通信回線を介して送信する送信制御手段を備えたことを特徴としている。

上記構成によれば、入力された音声を通信回線を介して送信するに際して、中間認識結果である音素ラテイスが送信される。したがって、上記通信回線を介して入力音声波形を送信する場合のように、送信歪みに起因して入力音声の認識率が低下することはない。

また、この発明は、ユーザシステムと通信回線を介して情報を送受信するセンターシステムであって、上記通信回線を介して送信されてくる音素ラテイスを受信する受信手段と、語彙文法を記憶する語彙文法メモリと、上記音素ラテイスに対して上記語彙文法を用いた言語処理を行なう言語処理手段を備えたことを特徴としている。

上記構成によれば、通信回線を介してユーザシステムから送信されてくる中間認識結果である音素ラテイスに対して、語彙文法を用いた言語処理が行われる。したがって、上記通信回線を介して送信されてくる入力音声波形に対して音声波形分析，音素認識および言語処理を行う場合のように、送信歪みに起因して入力音声の認識率が低下することはない。図面の簡単な説明

図 1は、この発明の音声入力通信システムのプロック図である。

図 2は、図 1に示す音声入力通信システムの具体的なプロック図である。図 3は、図 2に示す音声入力通信システムよる音声認識/情報処理動作のフ口一チャートである。

図 4は、図 2における音素認識手段によって生成される音素ラテイスを一例を示す図である。

図 5は、分析フレーム毎の音素類似度の時系列の一例を示す図である。

図 6は、連続する複数分析フレーム毎の平均音素類似度の時系列の一例を示す図である。

図 7は、図 1に示す音声入力通信システムの図 2とは異なる具体的なプロック図である。

図 8は、図 7に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。

図 9は、図 1に示す音声入力通信システムの図 2および図 1とは異なる具体的なプロック図である。

図 1 0は、図 9に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。

図 1 1は、従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートである。

図 1 2は、図 1 1とは異なる従来の音声入力情報処理システムによる音声認識 /情報処理動作のフローチャートである。発明を実施するための最良の形態以下、この発明を図示の実施の形態によつて詳細に説明する。

(第 1実施の形態）

図 1は、本実施の形態の音声入力通信システムにおける基本構成を示すプロック図である。図 1において、 1はユーザシステムであり、 2はセンターシステムである。ユーザシステム 1とセンターシステム 2とは通信回線 3によって接続されている。

上記ユーザシステム 1とセンターシステム 2とには音声指示認識処理手段 4 , 5が搭載されており、音声指示認識処理手段 4は入力された音声データを処理する一方、音声指示認識処理手段 5は前段の音声指示認識処理手段 4の処理結果をさらに処理する。また、上記ユーザシステム 1には、上記音声指示認識処理手段 4による処理結果を後段のセンターシステム 2に通信回線 3を介して送信する送信制御手段 6が搭載されている。また、上記センターシステム 2には、通信回線 3を介して前段の音声指示認識処理手段 4による処理結果を受信する受信制御手段 7と、自段の音声指示認識処理手段 5による処理結果を音声指示内容として出力する出力制御手段 8が搭載されている。

ここで、上記ユーザシステム 1およびセンターシステム 2に搭載されている音声指示認識処理手段 4 . 5，送信制御手段 6 ,受信制御手段 7，出力制御手段 8は、個別の L S I (大規模集積回路）で構築してもよい。あるいは、ユーザシステム 1 及びセンターシステム 2の夫々を、 C P U (中央演算処理装置）と通信機能とを有する周辺端末で構成しても差し支えない。また、通信回線 3は、 L ANおよひ ANの何れであっても、有線および無線の何れであっても差し支えない。以下、通信回線 3は W A Nである場合を例に説明する。

上記ユーザシステム 1およびセンターシステム 2に搭載されている音声指示認識処理手段 4， 5は、全体で、ユーザシステム 1に入力された音声による指示を認識して音声指示内容を得るようになつている。その場合、ユーザシステム 1の音声指示認識処理手段 4では、例えば、入力された音声波形を分析し、音素認識あるいは音節認識を行う。そして、中間認識結果として音素ラテイスあるいは音節ラテイスを出力する。

一方、上記ユーザシステム 1に WANである通信回線 3で接続されたセンターシステム 2の音声指示認識処理手段 5では、例えば、受信した音素ラテイスあるいは音節ラテイス等の中間認識結果に対して言語処理を行う。そして、最終的な音声指示内容を得るようになっているのである。

ところで、上記ユーザシステム 1およびセンターシステム 2は、搭載している音声指示認識処理手段 4， 5の各機能を単位として複数に分割し、通信回線で接続しても差し支えない。また、他の処理システムを追加してもよい。例えば、ュ一ザシステム 1の場合について言えば、音声指示認識処理手段 4は入力音声波形の分析機能と音素認識（あるいは音節認識)機能とを有している。そこで、入力音声の波形分析処理を行う音声指示認識処理手段を搭載した第 1装置と、音素認識 (または音節認識)処理を行う音声指示認識処理手段を搭載した第 2装置とに分割し、通信回線で接続する。そして、第 1装置側には波形分析結果を送信する送信制御手段を搭載し、第 2装置側には上記波形分析結果を受信する受信制御手段を搭載するのである。

伹し、その場合における上記第 1装置の音声指示認識処理手段と第 2装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第 1装置側の音声指示認識処理手段は、単に入力された音声波形をディジタルイ匕して処理結果として出力する。そして、上記第 2装置側の音声指示認識処理手段で、波形分析処理と音素認識処理（または音節認識処理）との両方を行つて、処理結果として音素ラテイス（または音節ラテイス）の中間認識結果を出力してもよい。この場合、上記第 1 ,第 2装置間の通信回線は L AN等とすることによって音声波形の通信歪みを極小さくできる。あるいは、上記第 1装置側の音声指示認識処理手段で、波形分析処理と音素認識処理（または音節認識処理）との両方を行って、処理結果として音素ラテイス（または音節ラテイス）の中間認識結果を上記第 2装置に送信してもよい。

また、上記センターシステム 2の場合について言えば、音声指示認識処理手段

5は単語認識機能と文認識機能とを有している。そこで、単語認識処理を行う音声指示認識処理手段を搭載した第 3装置と、文認識処理を行う音声指示認識処理手段を搭載した第 4装置とに分割し、通信回線で接続する。そして、第 3装置側には単語認識結果 (単語ラテイス）を送信する送信制御手段を搭載し、第 4装置側には上記単語認、識結果を受信する受信制御手段を搭載するのである。

但し、その場合における上記第 3装置の音声指示認識処理手段と第 4装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第 3装置側の音声指示認識処理手段は、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。そして、上記第 4装置側の音声指示認識処理手段は、受信した音声指示内容をそのままアプリケーションを実行する制御部へ渡す。あるいは、上記第 3装置側の音声指示認識処理手段では、受信したユーザシステム 1からの音素ラテイス（または音節ラテイス）をそのまま第 4装置へ送信する。そして、上記第 4装置側の音声指示認識処理手段で、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。あるいは、上記第 3装置及び第 4装置の音声指示認識処理手段の夫々で、単語認識処理と文認識処理との両方を行つて処理結果として音声指示内容を出力するようにしてもよい。

このように、本実施の形態においては、入力された音声による指示を認識して音声指示内容を得る音声入力通信システムを構築するに際して、音声指示認識処理手段 4と送信制御手段 6とを搭載したユーザシステム 1と、受信制御手段 7と音声指示認識処理手段 5と出力制御手段 8とを搭載したセンターシステム 2とを通信回線 (WAN) 3で接続する。

そして、上記ユーザシステム 1の音声指示認識処理手段 4とセンターシステム 2の音声指示認識処理手段 5とで、入力された音声による指示を波形分析し認識して音声指示内容を得る処理を分担している。したがって、従来のセンターシステム側のみに音声分析認識処理装置を置いた場合のごとく音声波形データの送信歪みに起因する認識率の低下が生ずることがなく、高い認識結果を得ることができる。また、ユーザシステム側のみに音声分析認識処理装置を置いた場合めごとく語彙文法情報の送信に起因する待ち時間がなく、迅速な音声指示の認識処理を行うことができる。さらに、ユーザシステム 1の処理負荷を小さくでき、ユーザシステム 1を構成するユーザ端末が携帯電話や P DA等の消費電力が低いモバイル機器であつても大語彙の音声指示が取り扱レ、可能になる。

さらに、その際に、上記ユーザシステム 1の音声指示認識処理手段 4で音声分析認識処理を行つて、音素ラテイスまたは音節ラテイス等の中間認識結果を出力する。そして、この中間認識結果を通信回線 (WAN) 3でセンター側へ送信し、センター側で言語処理するようにしている。したがって、音声波形データを直接送信する場合に比して送信歪みを少なくでき、認識率の低下を防止することができるのである。また、ユーザシステム 1およびセンターシステム 2は、搭載している音声指示認識処理手段 4， 5の各機能を単位として複数に分割し、通信回線で接続することも可能である。また、他の処理システムを追加することも可能である。その場合には、より機動性に富み、エーズの多様性に適用可能な音声入力通信システムを構築できる。

尚、上記ユーザシステム 1とセンターシステム 2との分割位置、ユーザシステム 1内での分割位置、および、センターシステム 2内での分割位置は、特に限定されるものではない。要は、接続する通信回線の通信速度,通信歪みの有無，通信料金や、各分割単位における音声指示認識処理手段の処理能力，処理データ量,重量等を考慮して、構築しようとしている音声入力通信システムが最も効率よく目的とする機能を発揮できるように決定すればよい。

(第 2実施の形態）

以下、上記構成を有する音声入力通信システムについて具体的に説明する。図 2は、本実施の形態における音声入力通信システムのブロック図である。本音声入力通信システムは、第 1実施の形態における音声入力通信システムをそのまま具体ィ匕したものであり、ユーザ端末 1 1とセンターシステム 1 2とから構成されている。

上記ユーザ端末 1 1は、上記第 1実施の形態におけるユーザシステム 1に相当し、音声による指示が入力されて中間認識結果を出力する。センターシステム 1 2は、上記ユーザ端末 1 1と通信回線 (WAN) 1 3を介して接続されており、上記第 1実施の形態におけるセンターシステム 2に相当し、音声指示内容を認識して出力する。

上記ユーザ端末 1 1は、音素認識部 1 5と通信制御部 1 6を有している。上記音素認識部 1 5は、入力された音声から音響パラメータ時系列を求めて音素を認識する。また、通信制御部 1 6は、音素認識部 1 5と通信回線 1 3との接続を制御する。すなわち、音素認識部 1 5で上記第 1実施の形態における上記音声指示認識処理手段 4を構成し、通信制御部 1 6で上記送信制御手段 6を構成しているのである。

上記センターシステム 1 2は、制御部 1 7と言語処理部 1 8と語彙文法メモリ 1 9を有している。上記制御部 1 7は、通信回線 1 3とセンターシステム 1 2との接続を制御する。上記言語処理部 1 8は、通信回線 1 3を介してユーザ端末 1 1から送信されて来る音素認識部 1 5による認識結果としての音素ラテイスに対して、語彙文法メモリ 1 9に格納された語彙文法情報を用いて言語処理を行い、音素認識部 1 5に音声入力された指示文を認識する。そして、認識結果を制御部 1 7に返す。すなわち、制御部 1 7で上記第 1実施の形態における上記受信制御手段 7を構成し、言語処理部 1 8で上記音声指示認識処理手段 5および出力制御手段 8を構成しているのである。

図 3は、上記構成を有する音声入力通信システムにおけるユーザ端末 1 1およびセンターシステム 1 2によって行われる音声認識/情報処理動作のフローチヤートを示す。以下、図 3に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップ S 21〜ステップ S 24はユーザ端末 1 1側の処理動作であり、ステップ S 25〜ステップ S 27はセンターシステム 1 2側の処理動作である。ステップ S 21で、上記ユーザ端末 1 1の音素認識部 1 5に対してユーザの発声による音声波形が入力される。ステップ S 22で、音素認識部 1 5によって、入力された音声波形が波形分析されて、ケプストラム，パワー等の音響パラメータ時系列が求められる。ステップ S 23で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として、図 4に示すような音素ラテイス（認識候補の音素名とその尤度と始端時間および終端時間等）が得られる。ステップ S 24 で、通信制御部 1 6によって、上記音素ラテイスが、通信回線 1 3を介してセンターシステム 1 2に送信される。

尚、本実施の形態においては、上記音素ラテイスを送信するようにしている。しかしながら、通信回線 1 3における通信速度の増加に伴って、上記音素ラティスの代りに、図 5に示すような分析フレーム毎の音素類似度の時系列を生成して送信してもよい。あるいは、図 6に示すような連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。その場合には、音素ラテイスを送信する場合よりもデータ量は多くなる力音素認識部 1 5の処理負荷を小さくできる。したがって、処理能力の低いユーザ端末 1 1の場合に用いることが望ましい。

ステップ S 25で、上記センターシステム 1 2の制御部 1 7によって、通信回線 1 3経由で送信されてくる上記音素ラテイスが受信され、言語処理部 1 8に送出される。そして、言語処理部 1 8によって、語彙文法メモリ 1 9に格納された語彙文法情報が参照されて上記音素ラテイスが解析され、ユーザが発声した単語が認識される。ステップ S 26で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部 1 7に返される。ステップ S 27で、制御部 1 7によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。

ここで、上記語彙文法メモリ 1 9に格納された語彙文法情報としては、語彙情報としての音素記号表記と、文法情報としての単語名をアークとする単語ネットワーク（例えば、特開平 8 - 6 5 8 9号公報）または単語 n -グラム（gram) ( n単語組み)で与えられる。

このように、本実施の形態においては、ユーザによるユーザ端末 1 1に対する音声による指示を、通信回線 1 3を介してセンターシステム 1 2に送信するに際して、音声波形分析，音素認識，単語認識および文認識のうち音声波形分析および音素認識をユーザ端末 1 1側で行い、単語認識および文認識 (言語処理）をセンタ一システム 1 2側で行うようにしている。したがって、ユーザ端末 1 1の認識処理負荷を小さくすることができ、携帯電話や P D A等の消費電力が低いユーザ端末 1 1であっても大語彙による音声指示の音素を正しく且つ迅速に認識することができる。

その際に、上記ユーザ端末 1 1の音素認識部 1 5によって得られた音素ラティスあるいは分析フレーム毎の音素類似度の時系列あるいは連続する複数分析フレーム毎の平均音素類似度の時系列等の中間認識結果を、通信回線 1 3を介してセンターシステム 1 2に送信する。そして、センターシステム 1 2の言語処理部 1 8によって、上記受信した中間認識結果に基づいて、単語認識および文認識を行うようにしている。したがって、通信回線 1 3を介して送信されるデータに歪みが生ずることがなく、高い認識性能を得ることができるのである。

(第 3実施の形態）

図 7は、上記第 1実施の形態に示す音声入力通信システムの他の具体例を示すブロック図である。本実施の形態における音声入力通信システムは、上記第 1実施の形態におけるユーザシステム 1の機能をユーザ端末 2 1 , 2 2 , 2 3とユーザ側システム 2 4とに分割しており、センターシステム 2 6は上記第 1実施の形態におけるセンターシステム 2に相当する。

上記各ユーザ端末 2 1 , 2 2 , 2 3の夫々には、音声による指示が入力される。また、ユーザ側システム 2 4は、各ユーザ端末 2 1， 2 2， 2 3の夫々と通信回線 (有線または無線の L AN) 2 5を介して接続されており、音声認識を行って中間認識結果を出力する。また、センターシステム 2 6は、ユーザ側システム 2 4と通信回線 (WAN) 2 7を介して接続されており、音声指示内容を認識して出力する。

上記各ユーザ端末 2 1 , 2 2 , 2 3は、制御部 3 1 , 3 2 , 3 3を有している。この制御部 3 1 , 3 2， 3 3は、入力された音声波形データをディジタル化し、通信回線 2 5を介してユーザ側システム 2 4に送信する。すなわち、制御部 3 1， 3 2， 3 3で上記第 1実施の形態における上記第 1装置の音声指示認識処理手段およぴ送信制御手段を構成しているのである。

上記ユーザ側システム 2 4は、通信制御部 3 4と音素認識部 3 5とを有している。上記通信制御部 3 4は、音素認識部 3 5と通信回線 2 5， 2 7との接続を制御する。また、音素認識部 3 5は、通信制御部 3 4によって受信された音声波形データから音響パラメータ時系列を求めて音素を認識する。すなわち、音素認識部 3 5で上記第 1実施の形態における上記第 2装置の音声指示認識処理手段を構成し、通信制御部 3 4で上記第 2装置の受信制御手段および送信制御手段 6を構成しているのである。

上記センターシステム 2 6は、制御部 3 6と賁語処理部 3 7と語彙文法メモリ 3 8を有している。上記制御部 3 6は、通信回線 2 7とセンターシステム 2 6との接続を制御する。また、言語処理部 3 7は、通信回線 2 7を介してユーザ側システム 2 4から送信されてくる音素認識部 3 5の認識結果としての音素ラテイスに対して、語彙文法メモリ 3 8に格納された語彙文法情報を用いて言語処理を行レ、、ユーザ端末 2 1 , 2 2 , 2 3に音声入力された指示文を認識する。そして、認識結果を制御部 3 6に返す。すなわち、制御部 3 6で上記第 1実施の形態における上記受信制御手段 7を構成し、言語処理部 3 7で上記音声指示認識処理手段 5 および出力制御手段 8を構成しているのである。

図 8は、上記構成を有する音声入力通信システムにおけるユーザ端末² 1〜2 3，ユーザ側システム 2 4及びセンターシステム 2 6によって行われる音声認識/ 情報処理動作のフローチャートを示す。以下、図 8に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップ S 31,ステップ S 32はユーザ端末 2 1〜2 3の何れ力 (以下においてはユーザ端末 2 1とする）の処理動作であり、ステップ S 33〜ステップ S 35はユーザ側システム 2 4の処理動作であり、ステツプ S 36〜ステップ S 38はセンターシステム 2 6の処理動作である。

ステップ S 31で、上記ユーザ端末 2 1の制御部 3 1に対してユーザの発声による音声波形が入力される。ステップ S 32で、制御部 3 1によって、入力された音声波形が通信回線 2 5を介してユーザ側システム 2 4に送信される。

ステップ S 33で、上記ユーザ側システム 2 4の通信制御部 3 4によって、通信回線 2 5経由で送信されてくる上記音声波形データが受信され、上記音素認識部 3 5に送出される。そして、音素認識部 3 5によって、音声波形が波形分析されてケプストラム，パワー等の音響パラメータ時系列が求められる。ステップ S 34 で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として上記音素ラテイスが得られる。ステップ S 35で、通信制御部 3 4によって、上記音素ラテイスが通信回線 2 7を介してセンターシステム 2 6に送信される。ステップ S 36で、上記センターシステム 2 6の制御部 3 6によって、通信回線 2 7経由で送信されてくる上記音素ラテイスが受信され、言語処理部 3 7に送出される。そして、言語処理部 3 7によって、語彙文法メモリ 3 8に格納された語彙文法情報が参照されて上記音素ラテイスが解析され、ユーザが発声した単語が認識される。ステップ S 37で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部 3 6に返される。ステップ S 38で、制御部 3 6によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。

このように、本実施の形態においては、ユーザによるユーザ端末 2 1 , 2 2 , 2 3に対する音声による指示を、通信回線 2 5 , 3 7を介してセンターシステム 2 6に送信するに際して、音声波形分析，音素認識，単語認識および文認識のうち音声波形分析および音素認識をユーザ側システム 2 4で行い、単語認識および文認識をセンターシステム 2 6側で行うようにしている。したがって、ユーザ端末 2 1 , 2 2 , 2 3の夫々は、単に、入力された音声波形を通信回線（L AN) 3 5を介してユーザ側システム 2 4に送信するだけでよく、音声認識処理におけるユーザ端末 2 1 , 2 2 , 2 3の処理負荷を、上記第 2実施の形態におけるユーザ端末 1 1 よりも更に小さくできる。

すなわち、本実施の形態によれば、ユーザ端末 2 1 , 2 2， 2 3の更なる小型軽量化を図ることができ、消費電力が低いモパイル機器に更に適した音声入力通信システムを構築できるのである。

(第 4実施の形態）

本実施の形態は、上記第 2実施の形態の変形例である。第 2実施の形態においては、ユーザ端末 1 1に入力されたユーザの音声指示が音素認識部 1 5によって音素単位で認識され、センターシステム 1 2の言語処理部 1 8によってユーザの音声指示が文単位で認識される。そして、認識した指示文の内容に応じたアプリケーションプログラムが実行される。

ところが、その場合に、上記アプリケーションプログラムが社内文書の読み出し送信の実行に関するものである場合、機密文書が外部に漏れる場合が当然予測される。また、バンキングサービス（送金,揖替,残高照会，振り込み通知）に関するものである場合には、個人情報が他人に漏れることが予想される。そこで、本実施の形態においては、センターシステム側で話者認、識を行い、ユーザ端末に音声指示を入力したユーザの特定を行うのである。

ところで、上記話者認識には、話者認識に用いる言葉を予め決めておく発声内容依存型と、どんな言葉を発声してもよい独立型とがある。一般に、前者は、対象キーワードが定まっているために、発声者の負担は少なく認、識率も高い。ところが、登録話者の特徴パターンが録音された場合には全く無力となる。一方、後者は、上記のような問題に対しては強いが、話者は多くの単語を発声する必要があるため話者に多大な負担を強いることになる。そこで、本実施の形態においては、話者認識装置側からその都度異なる発声単語を指定するテキスト指定型の話者認識方法を用いるのである。

図 9は、本実施の形態における音声入力通信システムのブロック図である。本実施の形態における音声入力通信システムは、上記第 2実施の形態の場合と同様に、互いに通信回線 4 3で接続されたユーザ端末 4 1とセンターシステム 4 2とから構成されている。

上記ユーザ端末 4 1は、音声による指示が入力されて上記中間認識結果を出力する。一方、センターシステム 4 2は、音声指示内容を認識して出力する。それに加えて、センターシステム 4 2は、テキスト指定型の話者認識を行うために発声用のテキスト情報を生成してユーザ端末 4 1に送出する。一方、ユーザ端末 4 1は、センターシステム 4 2からのテキスト情報に基づいて音声を合成して出力するのである。

上記ユーザ端末 4 1は、音素認識部 4 5と制御部 4 6と音声合成部 4 7を有している。上記音素認、識部 4 5は、入力された音声から音響パラメータ時系列を求めて音素を認識する。さらに、話者の音声特徴（ピッチ周波数や長時間スぺタトラム等）を抽出する。音声合成部 4 7は、音声合成制御パラメータに基づいて音声を合成して出力する。また、制御部 4 6は、音素認識部 4 5からの音素の認識結果および話者の音声特徴を、通信回線 4 3を介してセンタ一システム 4 2側へ送信する。一方、通信回線 4 3を介して送信されてくる音声合成制御パラメータの時系列を受信し、音声合成部に 4 7に送出する。

上記センターシステム 4 2は、制御部 4 8と話者認識部 4 9と言語処理部 5 0 と語彙文法メモリ 5 1とを有している。上記制御部 4 8は、通信回線 4 3とセンターシステム 4 2との接続を制御すると共に、ユーザ端末 4 1から入力された音声指示に応じたアプリケーションプログラムを実行する。

上記話者認識部 4 9は、ユーザが発声すべきテキストを決定し、当該テキストの音声合成制御パラメータを生成して制御部 4 8に送出する。さらに、音素認識部 4 5で抽出された当該テキストに対応する話者の音声特徴に基づいて話者認識を行い、音声指示の入力者を特定する。言語処理部 5 0は、通信回線 4 3を介してユーザ端末 4 1から送信されて来る音素認識結果としての音素ラテイスに対して、語彙文法メモリ 5 1に格納された語彙文法情報を用いて言語処理を行い、音素認識部 4 5に音声入力された指示文を認識する。そして、認識結果を制御部 4 8に返す。

そうすると、上記制御部 4 8は、認識された話者が登録された話者か、あるいは、認識された話者が認識された指示文で指定された口座の名義人と一致するか等の認識話者の評価を行い、正しい話者であると判定するとアプリケーションプログラムを実行するのである。

図 1 0は、上記構成を有する音声入力通信システムにおけるユーザ端末 4 1およびセンターシステム 4 2によって行われる音声認識/情報処理動作のフローチヤートを示す。以下、図 1 0に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップ S 41はセンターシステム 4 2側の処理動作であり、ステップ S 42〜ステップ S 47はユーザ端末 4 1側の処理動作であり、ステップ S 48〜ステップ S 51はセンターシステム 4 2側の処理動作である。

ステップ S 41で、上記センターシステム 4 2の話者認識部 4 9で、ユーザに対する発声内容が決定され、当該発声内容の音声合成制御パラメータ（母音 -子音 -母音（ V C V)単位連鎖，ピッチ,基本ィントネーシヨン，アクセント等）が生成されて制御部 4 8に送出される。そして、制御部 4 8によって、上記音声合成制御パラメータが通信回線 4 3を介してユーザ端末 4 1に送信される。尚、その場合における話者認識部 4 9による発声内容の決定は、例えば、各話者各単語列毎に登録されている特徴パターンの中からランダムに一つの単語列を選出することによって行われる。

ステップ S 42で、上記ユーザ端末 4 1の制御部 4 6によって、通信回線 4 3経由で送信されてくる上記音声合成制御パラメータが受信され、音声合成部 4 7に送出される。そして、音声合成部 4 7によって、上記音声合成制御パラメータに基づいて音声合成が行われる。ステップ S 43で、音声合成部 4 7によって、得られた発声内容の音声波形が出力される。つまり、発声内容（テキスト）の合成音声が出力されるのである。

ステップ S 44で、ユーザによって、上記ステップ S 43において音声出力された発声内容 (テキスト）が発声され、引き続いて音声指示が発声される。こうして、音素認、識部 4 5に対してユーザの発声による音声波形が入力される。ステップ S 45で、音素認識部 4 5によって、入力された音声波形が波形分析されて、ケプストラム，パワー，ピッチ周波数等の音響パラメータ時系列が求められる。ステップ S 46で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として音素ラテイスが得られる。ステップ S 47で、制御部 4 6によって、上記音素ラテイスおよび音声特徴（ピッチ周波数や長時間スぺクトラム等）力 S、通信回線 4 3を介してセンタ一システム 4 2に送信される。

尚、本実施の形態においても、上記音素ラテイスの代りに、上記分析フレーム毎の音素類似度の時系列や連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。

ステップ S 48で、上記センターシステム 4 2の制御部 4 8によって、通信回線 4 3経由で送信されてくる上記音素ラテイスおよび音声特徴が受信され、上記音素ラテイスが言語処理部 5 0に送出される。そして、言語処理部 5 0によって、語彙文法メモリ 5 1に格納された語彙文法情報が参照されて上記音素ラテイスが解析され、ユーザが発声した単語が認識される。ステップ S 49で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部 4 8に返される。

ステップ S 50で、上記制御部 4 8によって、受け取つた指示文の文頭部分から上記発声内容 (テキスト）の単語列が検索され、上記発声内容 (テキスト）の単語列があれば、その発声内容 (テキスト）部分の音声特徴が話者認識部 4 9に送出される。そして、話者認識部 4 9によって、当該音声特徴に基づいて話者認識が行われる。ステップ S 51で、制御部 4 8によって、上記認識話者の評価が行われる。そして、正しい話者である場合には、受け取った指示文の内容に応じて、社内文書の読出し送信やバンキングサービスや電子商取引等のアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。

このように、本実施の形態においては、ユーザによるユーザ端末 4 1に対する音声による指示の中間認識結果をセンターシステム 4 2に送信し、センターシステム 4 2側でユーザによる指示文を認識するに先立って、センターシステム 4 2 の話者認識部 4 9で、ユーザに対する発声内容を決定して音声合成制御パラメ一タを生成してユーザ端末 4 1に送信する。そして、ユーザ端末 4 1の音声合成部 4 7で、受信した上記音声合成制御パラメータに基づいて発声内容の合成音声を出力する。さらに、合成音声による発声内容に従ってユーザが発声した音声の特徴をセンターシステム 4 2に送信し、センターシステム 4 2の話者認、識部 4 9で受信した音声特徴に基づいて話者認識を行うようにしている。

したがって、本実施の形態によれば、通信回線 4 3を介してユーザ端末 4 1とセンターシステム 4 2とでテキスト指定型の話者認識を行うことができ、バンキングサービスや電子商取引等にも適用可能なセキュリティ^の高い音声入力通信システムを構築することができる。

その際に、構文解析を含むテキスト解析， V C V単位の結合,音声合成制御パラメータ生成等の負荷の大きい処理をセンターシステム 4 2側で行うようにしている。したがって、ユーザ端末 4 1の音声合成処理負荷を小さくすることができ、携帯電話や P D A等の消費電力が低いユーザ端末 4 1によってセキュリティ性の高い音声入力通信を行うことができるのである。

尚、上記第 4実施の形態においては、上記音声合成部 4 7および話者認識部 4 9を、上記第 2実施の形態におけるユーザ端末 1 1およびセンターシステム 1 2 に設けた構成を有しているが、上記第 3実施の形態におけるユーザ端末 2 1〜ュ一ザ端末 2 3およびセンターシステム 2 6に設けた構成に成しても構わない。また、上記第 3，第 4実施の形態においては、上記第 1実施の形態におけるュ一ザシステム 1を、搭載している音声指示認識処理手段 4の機能を単位として複数に分割する場合について説明している。しかしながら、上述したように、センターシステム 2を、搭載している音声指示認識処理手段 5の機能を単位として複数に分割しても差し支えない。また、他の処理システムを追加しても差し支えない。

その場合の例として、上記第 1実施の形態におけるセンターシステム 2を、言語処理部および語彙文法メモリを搭載した第 1センターシステムと、日英機械翻訳処理装置を搭載した第 2センターシステムとで構成することが考えられる。この場合は、第 1センターシステムで認、識したユーザの発声による日本文を、第 2 センターシステムで英文に翻訳することができる。こうすれば、相手国の言語を話すことができなくとも、携帯電話で WAN等の通信回線を介して外国のセンタ一システムに直接メッセージを送信することが可能になる。

あるいは、上記第 1実施の形態におけるセンターシステム 2を、言語処理部およぴ語彙文法メモリを搭載した第 1センターシステムと、異なるアプリケーションプログラム実行部を搭載した第 2センターシステム〜第 nセンターシステムとで構成する。そして、第 1センターシステムは、認識した指示文の内容から当該指示を実行するアプリケーションプログラム実行部を搭載したセンターシステムを特定し、そのセンターシステムに指示文を渡して実行させることもできる。あるいは、上記第 1実施の形態におけるセンターシステム 2を、言語処理部と語彙文法メモリと異なるアプリケーシヨンプログラムの実行処理部とを搭載した複数のセンターシステムで構成する。そして、各センターシステムは、中間認、識結果を受信すると指示文の認識を一斉に開始し、認識した指示文の内容から自分当ての指示ではないと判断した場合には以後の処理を停止し、自分当ての指示であると判断したセンターシステムがアプリケーションプログラムを実行するようにもできる。

尚、上記各実施の形態においては、上記音声認識単位として音素を用いている 1 音節であっても一向に差し支えない。

以上より明らかなように、この発明の音声入力通信システムは、ユーザシステムのユーザ端末からセンターシステムに対して第 1の通信回線を介して音声によつて指示を行うに際して、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を音声認識，単語認識およぴ文認識等の機能単位で分割し、個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持するので、上記センターシステム側に上記音声指示認識処理手段の全機能を置く場合のように、ユーザシステムからセンターシステムに入力音声波形を送信する必要がない。したがって、上記音声波形の送信歪みに起因する認識率低下を防止できる。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置く場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、上記音声指示が変わる毎の上記語彙文法情報の送信に起因する待ち時間を無くすことができ、迅速な音声指示内容の認識を行うことができる。さらに、上記ユーザシステムの処理負荷を低減できる。

また、 1実施例の発明の音声入力通信システムは、上記ユーザシステムに、ュ一ザ端末に第 2の通信回線を介して接続されたユーザ側システムを設けたので、上記ユーザシステムで保持する部分音声指示認、識処理手段を、さらに上記ユーザ端末とユーザ側システムとで分散して保持できる。したがって、上記ユーザ端末の処理負荷を更に低減することができ、上記ユーザ端末が携帯電話や P D A等の消費電力が低いモパイル機器であっても、語彙数の多い音声指示文に十分対処することが可能になる。

また、 1実施例の発明の音声入力通信システムは、上記センターシステムを複数にし、各センターシステムを第 3の通信回線を介して接続したので、上記センターシステムで保持する部分音声指示認識処理手段を、さらに複数のセンターシステムで分散して保持することができる。また、音声指示認識処理を行うセンタ一システムと、認識された指示内容に従ってアプリケーション処理を行うセンタ一システムとを分離することができる。また、上記ユーザ端末から異なるセンタ一システムに対して、音声によって指示を行なうことができる。

また、 1実施例の発明の音声入力通信システムは、少なくとも最終段のセンタ一システムに、上記音声指示認、識処理手段によって取得された指示内容を出力する出力制御手段を備えたので、少なくとも最終段のセンターシステムでは、指示内容に応じた様々なアプリケーションプログラム等を実行することができる。また、 1実施例の発明の音声入力通信システムは、上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れかに、上記部分音声指示認識処理手段としての音声認識手段と送信制御手段を備えたので、上記ユーザシステムから入力音声の中間認識結果を上記センターシステムに送信できる。したがって、直接音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果を送信することができ、認、識率の低下を防止できる。

また、 1実施例の発明の音声入力通信システムは、少なくとも一つのセンターシステムに、語彙文法を記憶する語彙文法メモリと、上記部分音声指示認識処理手段としての言語処理手段を備えたので、上記ユーザシステムからの中間認識結果に対して言語処理を行って、誤った認識候補が除かれた言語的に正しい指示内容を得ることができる。したがって、上記ユーザ端末に入力された音声指示の正確な指示内容を得ることができる。

また、 1実施例の発明の音声入力通信システムは、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラテイスあるいは音節ラテイスとしたので、音声波形を送信する場合に比して送信歪みの少ない中間認識結果を、音素ラテイスまたは音節ラテイスとして容易に得ることができる。また、 1実施例の発明の音声入力通信システムは、音素ラテイスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を上記中間認識結果として用いるので、上記音素認識手段の処理負荷を小さくできる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することができる。

また、 1実施例の発明の音声入力通信システムは、上記第 1の通信回線と第 2 , 第 3の通信回線とを異なる種類の通信回線にしたので、例えば、上記第 1の通信回線を WANとし、上記第 2 ,第 3の通信回線を L ANとすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して音声によって指示を行うことができる。

また、 1実施例の発明の音声入力通信システムは、少なくとも一つのセンターシステムに、ユーザが発声すべき発声内容の音声合成制御パラメータを送信する発声指示手段と、上記ユーザシステムで抽出された入力音声の特徴に基づ!/ヽて話者を認識する話者認識手段を備える一方、上記ユーザシステムにおける上記ユーザ端末には、上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段を備え、上記ユーザ端末およぴユーザ側システムの何れか一方には、入力音声の特徴を抽出して送信する波形分析手段を備えたので、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第 1の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識を行うことができる。

したがって、特定ユーザによる音声指示である場合にのみ当該音声指示に応じた処理を実行することができ、バンキングサービスや電子商取弓 I等にも適用可能なセキュリティ性の高い音声入力通信システムを構築することができる。

また、この発明のユーザ端末は、入力された音声を音素単位で認識して音素ラテイスを生成する音素認識手段と、上記音素ラテイスを通信回線を介して送信する送信制御手段を備えたので、中間認識結果である音素ラテイスを送信することができる。したがって、上記通信回線を介して入力音声波形を送信する場合のように、送信歪みに起因して入力音声の認識率が低下することはない。

また、この発明のセンターシステムは、通信回線を介してユーザシステムから送信されてくる音素ラテイスを受信する受信手段と、上記音素ラテイスに対して語彙文法を用いた言語処理を行なう言語処理手段を備えたので、上記通信回線を介して送信されてくる入力音声波形に対して音声波形分析，音素認識および言語処理を行う場合のように、送信歪みに起因して入力音声の認識率が低下することはない。

Claims

請求の範囲

1 . ユーザ端末を有するユーザシステムとセンターシステムとが第 1の通信回線を介して接続され、上記ユーザ端末から上記センターシステムに対して音声によって指示を行なう音声入力通信システムにおいて、

異なる機能を有する複数の部分音声指示認識処理手段から成ると共に、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を備え、

上記複数の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して備えたことを特徴とする音声入力通信システム。

2. 請求項 1に記載の音声入力通信システムにおいて、

上記ユーザシステムには、上記ユーザ端末に第 2の通信回線を介して接続されたユーザ側システムが設けられており、

上記ユーザ側システムは、上記第 1の通信回線を介して上記センターシステムに接続されていることを特徴とする音声入力通信システム。

3 . 請求項 1に記載の音声入力通信システムにおいて、

上記センターシステムは複数存在し、各センターシステムは第 3の通信回線を介して接続されていることを特徴とする音声入力通信システム。

4. 請求項 3に記載の音入力通信システムにおいて、

少なくとも最終段のセンターシステムは、上記音声指示認識処理手段によって認識された指示内容を出力する出力制御手段を備えていることを特徴とする音声入力通信システム。

5 . 請求項 2に記載の音声入力通信システムにおいて、

上記ユーザシステムにおける上記ユーザ端末およぴユーザ側システムの何れかには、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第 1の通信回線を介して上記センターシステムに送信する送信制御手段を備えたことを特徴とする音声入力通信システム。

6 . 請求項 5に記載の音声入力通信システムにおいて、

少なくとも一つのセンターシステムは、

語彙文法を記憶する語彙文法メモリと、

上記ユーザシステムからの中間認識結果に対して上記語彙文法を用いた言語処理を行なう上記部分音声指示認識処理手段としての言語処理手段を備えていることを特徴とする音声入力通信システム。

7 . 請求項 5あるいは請求項 6に記載の音声入力通信システムにおいて、上記音声認識手段は音素認識手段であり、

上記中間認識結果は音素ラテイスであることを特徴とする音声入力通信システム。

8 . 請求項 7に記載の音声入力通信システムにおいて、

上記中間認識結果として、上記音素ラテイスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることを特徴とする音声入力通信システム。

9 . 請求項 5あるいは請求項 6に記載の音声入力通信システムにおいて、上記音声認識手段は音節認識手段であり、

上記中間認識結果は音節ラテイスであることを特徴とする音声入力通信システム。

1 0 . 請求項 2あるいは請求項 3に記載の音声入力通信システムにおいて、上記第 1の通信回線と第 2，第 3の通信回線とは、異なる種類の通信回線であることを特 ¾とする音声入力通信システム。 .

1 1 . 請求項 2に記載の音声入力通信システムにおいて、少なくとも一つのセンターシステムに設けられて、ユーザが発声すべき発声内容の音声合成制御パラメータを生成し、上記第 1の通信回線を介してユーザシステムに送信する発声指示手段と、

上記ユーザシステムにおける上記ユーザ端末に設けられて、上記第 1の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、

上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて、入力された音声の波形を分析して入力音声の特徴を抽出し、上記第 1の通信回線を介してセンターシステムに送信する波形分析手段と、上記発声指示手段が設けられたセンターシステムに設けられて、上記第 1の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えたことを特徴とする音声入力通信システム。

1 2 . 入力された音声を音素単位で認識して音素ラティスを生成する音素認識手段と、

上記音素ラテイスを、通信回線を介して送信する送信制御手段を備えたことを特徴とするユーザ端末。

1 3 . ユーザシステムと通信回線を介して情報を送受信するセンターシステムであって、

上記通信回線を介して送信されてくる音素ラテイスを受信する受信手段と、語彙文法を記憶する語彙文法メモリと、

上記音素ラティスに対して上記語彙文法を用いた言語処理を行なう言語処理手段を備えたことを特徴とするセンターシステム。