WO2003001511A1

WO2003001511A1 - Server-client type speech recognition apparatus and method

Info

Publication number: WO2003001511A1
Application number: PCT/JP2002/006156
Authority: WO
Inventors: Eiko Yamada; Hiroshi Hagane; Kazunaga Yoshida
Original assignee: Nec Corporation
Priority date: 2001-06-20
Filing date: 2002-06-20
Publication date: 2003-01-03
Also published as: EP1926088A2; EP1411499A4; JP2003005949A; US7478046B2; JP3885523B2; EP1411499A1; US20040243414A1; EP1411499B1; EP1926088A3; DE60229392D1

Description

明細書サーバ · クライアント型音声認識装置及び方法

技術分野

本発明は、音声認識技術に関する。本発明は、特に、携帯電話等の端末（クライアント）側で音声検出を行い、サーバ側で音声分析、認識を行うサーバ 'クライアント型の音声認識装置と方法に関する。

背景技術

従来から種々のサーバ ·クライアント型音声認識装置が知られており、それらは大別して次に述べる 3種類に分類される。

第 1の型の従来のサーバ ·クライアント型音声認識装置は、端末側（クライアント側）装置で音声検出を行い、検出後の波形データをサーバ側装置へ送信し、サーバ側装置にて分析、認識処理を行うものである。そのような第 1の型のサーパ .クライアント型音声認識装置の一例として、 Dialogic CSP (Continuous Speech Processing)を用いた音声認識装置が知られている。

また、第 2の型の従来のサーバ ·クライアント型音声認識装置は、端末側装置で音声検出を行い、検出後の波形データを圧縮し、圧縮した波形データをサーバ側装置へ送信し、サーバ側装置にて送信された波形データを伸張し、再度認識用の音声検出を行い、検出後の波形データを分析、認識処理を行うものである。ここで、端末側装置で音声検出を行い、検出後の波形データを圧縮し、圧縮した波形データをサーバ側装置へ送信する方式としては、 VoIP (Voiceover Internet Protocol)力 S知られており、文献 1 (Nikkei Internet Technology, pp. 75~ 93， May 1998) に詳しく述べられている。

また、第 3の型の従来のサーバ 'クライアント型音声認識装置は、近年、 3 G P P (Third Generation Partnership Project) のワークグループの 1つである ETSI (the European Telecommunications Standards Institute) -STQ Aurora DSR (Distributed Speech Recognition) Working Groupが進めている標準化プロジェクトにおいて提案されている。すなわち、第 3の型のサーバ 'クライアント型音声認識装置は、端末側装置で音声検出、分析を行い、分析後のパラメ一タ（特徴ベクトル）をサーバ側装置に送信し、サーバ側装置で音声認識を行うものである。

しかしながら、第 1乃至第 3の型の従来のサーバ ·クライアント型音声認識装置には、次に述べるような問題点がある。

第 1の型の従来のサーバ ·クライアント型音声認識装置は、端末側装置で検出された波形データを圧縮することなく、そのままサーバ側装置へ送信しているため、送信時の時間、コストを多く必要とするという、問題点を有している。第 2の型の従来のサーバ ·クライアント型音声認識装置は、端末側装置で伸張し音声検出を行ったデータに対し、サーバ側装置で認識用の音声検出を再度行つているため、重複した音声検出処理が無駄な処理となっている、という問題点を有している。更に、第 2の型の従来のサーバ ·クライアント型音声認識装置は、音声認識用の音声検出をサーバ側で行っていることから、サーバ側装置で短い音声について音声の始端検出がキャンセルされた場合に、端末側装置で音声検出キヤンセル情報を受信するのが遅れ、それによつてアプリケーションの動作に遅延が生じるという、という問題点を有している。

第 3の型の従来のサーバ ·クライアント型音声認識装置は、認識時に用いる（分析後の）パラメータが決められているため独自仕様のパラメータを用いることができない、という問題点を有している。また、第 3の型の従来のサーバ ·クライアント型音声認識装置は、分析部が端末側装置に設定されているため、新規の分析手法を端末に搭载するためのコスト、時間を多く必要とする、という問題点を有している。

尚、本発明に関連する先行技術文献として次に述べるものが知られている。日本国特許公開第 2 0 0 0— 2 6 8 0 4 7号公報には、操作者の発話した発話音声情報、位置情報、時間情報、気象情報、生体情報等に基づいて、サーバシステムが現在の操作者の気分や状況を判断し、その気分や状況に適した提供用情報をクライアントに送信するようにした「情報提供システム、クライアント、情報提供サーバ及び情報提供方法」が開示されている。この公報に開示された情報提供システムは、クライアントとサーバシステムとを有する。クライアントは、操作者に関する情報である操作者情報をネットワークを介してサバシステムに送信する通信部と、サーバシステムからネットワークを介して提供用情報を受信し、この受信した提供用情報を出力する出力部とを備える。サーバシステムは、提供用情報と操作者情報を分析するための分析情報とを記憶する分析情報記憶部と、クライアントから送信されてきた操作者情報と分析情報とに基づいてクライアントに送信するのに適した提供用情報を提供情報記憶部から選択する選択サーバと、この選択サーバにより選択された提供用情報をクライアントにネットワークを介して送信する情報提供サーバとを備える。

日本国特許公開第 2 0 0 0 - 2 6 8 0 4 7号公報によれば、サーバシステムは音声認識サーバをも備えている。音声認識サーバはクライアントから送信された音声情報を受信して、音響分析部、音響モデル及び言語モデル等に基づいて受信した音声情報の音声認識を行う。音響分析部とは、入力音声情報に対して音響的な特徴量系列の抽出を行う処理部をいう。また、音響モデルとは、この音響分析部で抽出された個々の特徴量との音響的な類似性の評価を行うための評価式を用いて、音声の部分的或いは全体的な特徴量系列のパターンとの類似性の評価を行うための情報をいう。さらに、言語モデルとは、音響モデルの接続に関する制約を与えるための情報をいう。

また、日本国特許公開第 2 0 0 0 - 1 9 4 7 0 0号公報には、音声認識および機械翻訳の内容を、容易に変更することができるようにした「情報処理装置およぴ方法、並びに提供媒体」が開示されている。この公報によれば、端末は、例えば、電話機能を有する装置で、ネットワークに接続されており、ユーザは、端末を介して、通話（会話）することができる。ユーザは、その通話の内容を、 3つの通訳サービス提供装置のうちいずれかを介し T行い、そこで会話の内容を通訳させる。通訳サービス提供装置は、音声認識機能、機械翻訳機能、および音声合成機能に加え、履歴情報記憶機能を有するサーバである。通訳サービス提供装置は、履歴情報記憶機能により、いままでの会話の内容を記憶し、それに基づいて、通訳処理を実行し、必要に応じて会話履歴情報を、他の通訳サービス提供装置に供給する。発明の開示

したがって、本発明が解決しょうとする主たる課題は、送信時間の短縮、コストの低減を図る音声認識装置及び方法を提供することにある。

上記課題を解決するための手段を提供するために、本発明の第 1のァスぺクトによるサーバ ·クライアント型音声認識装置は、入力されたデータの音声区間を検出する音声検出部と；この音声検出部で検出された音声区間の波形データを圧縮する波形圧縮部と；この波形圧縮部で圧縮された波形データを送信する波形送信部と；を有して構成される端末側（クライアント側）装置と、端末側装置から送信された波形データを受信する波形受信部と；この波形受信部で受信された波形データを伸張する波形伸張部と；この波形伸張部で伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識部と；を有して構成されるサーバ側装置とを備えている。

本発明の第 2のァスぺクトによるサーバ ·クライアント型音声認識装置おいて、端末側装置は、入力された波形データとサーバ側装置から送信された波形データ再送要求信号を受信する波形 ·信号受信部と、波形圧縮部で圧縮された波形データを一時記憶しながらその波形データを波形送信部へ送信すると共に、波形 ·信号受信部においてサーバ側装置からの波形データ再送要求信号が受信された場合に、記憶された波形データを波形送信部へ送信する波形記憶部とを有する構成としてもよレ、。

本発明の第 3のァスぺクトによるサーバ ·クライアント型音声認識装置おいて、サーバ側装置は、端末側装置から送信された波形データと始端キャンセル信号を受信する波形 ·信号受信部を備え、認識部では、波形 ·信号受信部で始端キャンセル信号を受信した場合に認識処理を中止する構成としてもよい。

本発明の第 4のァスぺクトによるサーバ ·クライアント型音声認識装置は、入力されたデータの音声区間を検出する音声検出部と；合成音を合成する音声合成部と；音声合成部で合成された合成音の情報を作成し、合成音を出力する合成音情報作成部と；音声検出部で検出された音声区間の波形データを圧縮し、合成音情報作成部で作成された合成音情報を前記波形データの一部に組み込む波形圧縮部と；この波形圧縮部で圧縮された波形データを送信する波形送信部と；を有して構成される端末側（クライアント側）装置と、端末側装置から送信された波形データを受信する波形受信部と；この波形受信部で受信された波形データを伸張する波形伸張部と；この波形伸張部で伸張されたデータから合成音情報を取得する合成音情報取得部と；波形伸張部で伸張された波形データを用いて認識処理を行い、認識した結果を出力すると共に、認識が終了した場合に合成音情報取得部で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する認識部と；を有して構成されるサーバ側装置とを備えている。

本発明の第 5のァスぺクトによるサーバ ·クライアント型音声認識装置は、入力された波形データとサーバ側装置から送信された波形データ再送要求信号とサーバ側装置から送信されたサーバ装置側で利用可能な圧縮方式情報を受信する波形 ·信号 ·圧縮方式受信部と；この波形 ·信号 ·圧縮方式受信都においてサーバ側装置で利用可能な圧縮方式情報を受信した場合に、この波形 ·信号 ·圧縮方式受信部から送られた圧縮方式情報より最適な圧縮方式を選択する圧縮方式選択部と；この圧縮方式選択部で選択された圧縮方式のィンデックスを作成する圧縮方式ィンデックス作成部と；波形 ·信号 ·圧縮方式受信部で入力された波形データの音声区間を検出する音声検出部と；合成音を合成する音声合成部と；音声合成部で合成された合成音の情報を作成し、合成音を出力する合成音情報作成部と；音声検出部で検出された音声区間の波形データを圧縮し、合成音情報作成部で作成された合成音情報と、圧縮方式ィンデックス作成部で作成された圧縮方式ィンデックスを波形データの一部に組み込む波形圧縮部と；を有する端末側装置と、端末側装置から送信された波形データと圧縮方式要求信号を受信する波形 ·信号受信部と；サーバ側装置で利用可能な圧縮方式を記憶する圧縮方式記憶部と；波形 ·信号受信部から圧縮方式要求信号が送られた場合に圧縮方式記憶部に記憶されている圧縮方式を取得し、端末側装置に圧縮方式情報を送信する圧縮方式取得部と；この波形 ·信号受信部で受信された波形データを伸張する波形伸張部と；この波形伸張部で伸張されたデータから合成音情報を取得する合成音情報取得部と；波形伸張部で伸張された波形データを用いて認識処理を行い、認識した結果を出力すると共に、認識が終了した場合に合成音情報取得部で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する認識部と；波形伸張部で伸張されたデータから圧縮方式のインデックスを取得する圧縮方式インデックス取得部と；この圧縮方式ィンデックス取得部で取得された圧縮方式のィンデックスから認識エンジンを選択する認識エンジン選択部と；この認識エンジン選択部で選択されたエンジンを記憶されているエンジンの中から設定する認識エンジン設定部と；を有するサーバ側の装置とを備えている。

本発明の第 6のァスぺクトによるサーバ 'クライアント型音声認識装置において、サーバ側装置は、端末側装置から送信された波形データと始端キャンセル信号と圧縮方式要求信号とコンテンッ側から送信されたタスク情報とを受信する波形 ·信号，タスク情報受信部と；この波形，信号 · タスク情報受信部で受信されたタスク情報を記憶するタスク情報記憶部と；タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧縮方式 · タスク情報対応テーブル記憶部と；波形 ·信号 · タスク情報受信部において圧縮方式要求信号を受信した場合に、タスク情報記憶部から送られたタスク情報と圧縮方式 · タスク情報対応テ一ブル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し端末側装置に送信する圧縮方式取得部と；を更に備えている。

本発明の第 7のァスぺクトによるサーバ ·クライアント型音声認識装置おいて、端末側装置は、入力された波形データとコンテンッ側から送信されたタスク情報とサーバ側装置から送信された波形データ再送要求信号とサーバ側装置から送信されたサーバ側装置で利用可能な圧縮方式情報とを受信する波形 ·信号 ·圧縮方式 · タスク情報受信部と；この波形 ·信号 ·圧縮方式 ' タスク情報受信部で受信されたタスク情報を記憶するタスク情報記憶部と；タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 · タスク情報対応テーブル記憶部と；波形 ·信号 ·圧縮方式 · タスク情報受信部においてサーバ側装置で利用可能な圧縮方式情報を受信した場合に、タスク情報記憶部から送られたタスク情報と、圧縮方式 ·タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テープルと、波形 ·信号 ·圧縮方式 ·タスク情報受信部から送られたサーバ側装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択する圧縮方式選択部と；を更に備えている。図面の簡単な説明

図 1 Aは本発明の第 1の実施例における端末側装置を示すブロック図であり、図 1 Bは本発明の第 1の実施例におけるサーバ側装置を示すプロック図であり、

図 2 Aは本発明の第 2の実施例における端末側装置を示すブロック図であり、図 2 Bは本発明の第 2の実施例におけるサーバ側装置を示すプロック図であり、

図 3 Aは本発明の第 3の実施例における端末側装置を示すプロック図であり、図 3 Bは本発明の第 3の実施例におけるサーバ側装置を示すブロック図であり、

図 4 Aは本発明の第 4の実施例における端末側装置を示すブロック図であり、図 4 Bは本発明の第 4の実施例におけるサーバ側装置を示すブロック図であり、

図 5 Aは本発明の第 5の実施例における端末側装置を示すブロック図であり、図 5 Bは本発明の第 5の実例例におけるサーバ側装置を示すブロック図であり、

図 6 Aは本発明の第 6の実施例における端末側装置を示すブロック図であり、図 6 Bは本発明の第 6の実施例におけるサーバ側装置を示すブロック図であり、

図 7 Aは本発明の第 7の実施例における端末側装置を示すプロック図であり、図 7 Bは本発明の第 7の実施例におけるサーバ側装置を示すブロック図である。発明を実施するための最良の形態

発明の実施の形態について説明する。前述した従来の技術の問題点を解決する本発明は、サーバ側装置と端末側装置とからなるサーバ ·クライアント型音声認識装置より構成される。サーバ ·クライアント型音声認識装置は、端末側装置で認識用の音声検出を行い、検出後の波形データを圧縮し、圧縮後の波形データをサーバ側装置に送信し、サーバ側装置で音声伸張、分析、認識を行うものである。

[第 1の実施の形態]

図 1 Aおよぴ図 1 Bを参照して、本発明の第 1の実施の形態に係るサーバ ·クライアント型音声認識装置について説明する。図 1 Aには端末側装置 1 0 0の構成が示され、図 1 Bにはサーバ側装置 2 0 0の構成が示されている。尚、端末側装置 1 0 0は単に端末とも呼ばれ、サーバ側装置 2 0 0はサーバ装置とも呼ばれる。

図 1 Aを参照すると、端末側装置 1 0 0は入力端子 1 0 0 aと出力端子 1 0 0 bとを持つ。端末側装置 1 0 0は、音声検出部 1 0 1と、波形音声部 1 0 2と、波形送信部 1 0 3とを備えている。

入力端子 1 0 0 aから端末側装置 1 0 0に入力された音声データは、音声検出部 1 0 1に送られ、ここで音声の検出が行われる。すなわち、音声検出部 1 0 1 は入力された音声データの音声区間を検出する。音声の検出方法としては、ヮードスポッティング手法等が用いられる。ヮードスポッティング手法については、文献 2 (中川、 "確率モデルによる音声認識、" 電子情報通信学会， 1 9 8 8年）の記載が参照される。

音声検出部 1 0 1で検出された音声データは、波形圧縮部 1 0 2に送られる。波形圧縮部 1 0 2では、音声検出部 1 1から送られた波形データを圧縮する。すなわち、波形圧縮部 1 0 2は、音声検出部 1 0 1で検出された音声区間の波形データを圧縮する。圧縮方式としては、 VSELP (Vector Sura Excited Linear Prediction)方式、 PSI-CELP (Pitch Synchronous Innovation CELP)方式等が用いられる。

音声圧縮部 1 0 2で圧縮された波形データは波形送信部 1 0 3に送られる。波形送信部 1 0 3では、波形圧縮部 1 0 2から送られた圧縮波形データを出力端子 1 0 0 bからサーバ側装置 2 0 0へ送信する。すなわち、波形送信部 1 0 3は、波形圧縮部 1 0 2で圧縮された波形データを出力端子 1 0 0 bからサーバ側装置 2 0 0へ送信する。

図 1 Bを参照すると、サーバ側装置 2 0 0は入力端子 2 ◦ 0 aと出力端子 2 0 0 bとを持つ。サーバ側装置 2 0 0は、波形受信部 2 0 1 と、波形伸張部 2 0 2 と、分析部 2 0 3と、認識部 2 0 4と、標準パターン記憶部 2 0 5とを備えている。

端末側装置 1 0 0の波形送信部 1 0 3から送信されてきた圧縮された波形データは、サーバ側装置 2 0 0において入力端子 2 0 0 aを介して波形受信部 2 0 1で受信される。すなわち、波形受信部 2 0 1は、端末側装置 1 0 0から送信されてきた圧縮された波形データを受信する。波形受信部 2 0 1は、受信された波形データを波形伸張部 2 0 2に送出する。

波形伸張部 2 0 2では、波形受信部 2 0 1から送られた圧縮波形データを伸張する。すなわち、波形伸張部 2 0 2は、波形受信部 2 0 1で受信された波形データを伸張する。この波形伸張部 2 0 2で伸張された波形データは分析部 2 0 3に送られる。

分析部 2 0 3では、波形伸張部 2 0 2で伸長された波形データを特徴べクトルに変換する。換言すれば、分析部 2 0 3は波形伸張部 2 0 2で伸張された波形データを用いて音声の分析を行う。特徴べクトルとしてはケブストラム、 Δケプストラム等が用いられる。 Δケプストラムは、文献 3 (古井、 "ディジタル音声処理、" 東海大学出版会、 4 4一 4 7頁、 1 9 8 5年）等の記載が参照される。分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4に送られる。

認識部 2 0 4では、分析部 2 0 3から送られた特徴べクトノレと、標準パターン記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、認識結果を求める。すなわち、認識部 2 0 4は、分析部 2 0 3での分析結果（特徴量）と標準パターン記憶部 2 0 5に記憶されている標準パターンとに基づき認識処理を行う。尤度の計算方法は、 Viterbi アルゴリズム、 D Pマッチング等が用いられる。認識部 2 0 4で求められた認識結果は出力端子 2 0 0 aから出力される。 Viterbi アルゴリズムについては、文献 2 (中川、 "確率モデルによる音声認識、" 電子情報通信学会、 1 9 8 8年）の記載が参照される。 D Pマッチングについては、文献 4 (迫江、 "傾斜制限 D Pマッチングによる音声認識、 " 音声講論、 6 7— 6 8 頁、 i 9 7 4年）の記載が参照される。

とにかく、分析部 2 0 3と認識部 2 0 4と標準パターン記憶部 2 0 5との組み合わせは、波形伸張部 2 0 2で伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段として働く。

この第 1の実施の形態では、端末側装置 1 0 0から音声検出後の圧縮された波形データをサーバ側装置 2 0 0に送信し、サーバ側装置 2 0 0で音声分析、認識を行うため、分析後のパラメータ（特徴ベクトル）の仕様を自由に設定することが可能である。

また、分析部 2 0 3、認識部 2 0 4をサーバ側装置 2 0 0に備えているため、新規の分析手法、認識手法を搭載するためのコストと時間が少なくて済むという利点を持つ。

'また、送信する波形データは圧縮後のデータであるため、送信時に必要とする時間、コストが少なくて済むという利点も併せ持つ。

上記第 1の実施の形態に対応した音声認識方法は、端末側装置 1 0 0において、入力された音声データの音声区間を検出するステップと、検出された音声区間の波形データを圧縮するステップと、圧縮された波形データをサーバ側装置 2 0 0 に送信するステップと、を有し、サーバ側装置 2 0 0において、端末側装置 1 0 0から送信された波形データを受信するステツプと、受信された波形データを伸張するステップと、伸張された波形データを用いて認識処理を行い、認識した結果を出力するステップと、を有する。

[第 2の実施の形態]

図 2 Aおよび図 2 Bを参照して、本発明の第 2の実施の形態に係るサーバ ·クライアント型音声認識装置について説明する。図 2 Aには端末側装置 1 0 0 Aの構成が示され、図 2 Bにはサーバ側装置 2 0 O Aの構成が示されている。

本発明の第 2の実施の形態に係るサーバ ·クライアント型音声認識装置は、上述した第 1の実施の形態の構成に加え、次に述べるような枠組み、機構を備えたものである。その枠組み、機構とは、サーバ側装置 2 0 O Aにおいて圧縮波形データの受信に失敗した場合に、サーバ側装置 2 0 O Aから端末側装置 1 0 O Aへ波形データ再送要求信号を送信することで、端末側装置 1 0 O Aからサーバ側装置 2 0 O Aへ圧縮波形データが再送されることある。かかる構成によって、電波状態が良くない環境においても端末側装置 1 0 O Aからサーバ側装置 2 0 O A へ波形データを送信できる割合が高くなる。

図 2 Aを参照すると、端末側装置 1 0 O Aは入力端子 1 O O aと出力端子 1 0 0 bとを持つ。端末側装置 1 0 0 Aは、波形 ·信号受信部 1 0 4と、音声検出部 1 0 1 と、波形圧縮部 1 0 2と、波形送信部 1 0 3と、波形記憶部 1 0 5とを備えている。

端末側装置 1 0 0 Aの波形 ·信号受信部 1 0 4には、入力端子 1◦ 0 aから音声データ又はサーバ側装置 2 0 O Aから送信された波形データ再送要求信号が入力される。すなわち、波形 ·信号受信部 1 0 4は、入力された音声の波形データと、サーバ側装置 2 0 O Aから送信された波形データ再送要求信号とを受信する。

入力端子 1 0 0 aから音声データが入力されたとしょう。この場合、この受信された音声データは、波形 ·信号受信部 1 0 4から音声検出部 1 0 1に送られる。音声検出部 1 0 1では、波形 ·信号受信部 1 0 4から送られた波形データの音声検出を行う。すなわち、音声検出部 1 0 1は、波形 ·信号受信部 1 0 4で受信された波形データの音声区間を検出する。検出方法としてはワードスポッティング手法等が用いられる。音声検出部 1 0 1で検出された音声データは波形圧縮部 1 0 2に送られる。

波形圧縮部 1 0 2では、音声検出部 1 0 1から送られた波形データを圧縮する。すなわち、波形圧縮部 1 0 2は、音声検出部 1 0 1で検出された音声区間の波形データを圧縮する。圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられる。波形圧縮部 1 0 2で圧縮された波形データは波形記憶部 1 0 5に送られる。波形記憶部 1 0 5では、波形圧縮部 1 0 2から送られた圧縮された波形データを波形送信部 1 0 3に送出し、同一データを記憶する。波形送信部 1 0 3では、波形記憶部 1 0 5から送られた圧縮された波形データを出力端子 1 0 0 bからサーバ側装置 2 0 O Aへ送信する。すなわち、波形送信部 i 0 3は波形データを送信する。

波形 ·信号受信部 1 0 4に、サーバ側装置 2 0 0 Aから送信された波形データ再送要求信号が入力端子 1 0 0 aを介して入力されたとしょう。この場合、波形 ·信号受信部 1 0 4で受信された波形データ再送要求信号は、波形記憶部 1 0 5に送られる。この波形データ再送要求信号に応答して、波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 3では、波形記憶部 1 0 5から送られた圧縮波形データを出力端子 1 0 0 bからサーバ側装置 2 0 O Aへ送信する。

すなわち、波形記憶部 1 0 5は、波形圧縮部 1 0 2で圧縮された波形データを記憶された波形データとして一時記憶しながら記憶された波形データを波形送信部 1 0 3へ送出すると共に、波形 '信号受信部 1 0 4においてサーバ側装置 2 0 O Aからの波形データ再送要求信号が受信された場合に、その受信された波形データ再送要求信号に応答して記憶された波形データを波形送信部 1 0 3へ送出する。

図 2 Bを参照すると、サーバ側装置 2 0 0 Aは、入力端子 2 0 0 aと認識結果出力端子 2 O O bと信号出力端子 2 0 0 cとを持つ。サーバ側装置 2 0 O Aは、波形受信部 2 0 1 Aと、波形伸張部 2 0 2と、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3と、認識部 2 0 4と、標準パターン記憶部 2 0 5とを備えている。

サーバ側装置 2 0 0 Aは、端末側装置 1 0 0 Aの波形送信部 1 0 3から送信された圧縮波形データを入力端子 2 0 0 aを介して波形受信部 2 0 1 Aで受信する。すなわち、波形受信部 2 0 1 Aは端末側装置 1 0 O Aから送信された圧縮波形データを受信する。波形受信部 2 0 1 Aでは、受信された波形データを波形伸張部 2 0 2に送出する。

波形受信部 2 0 1において圧縮波形データの受信に失敗したとしょう。この場合、波形受信部 2 0 1 Aはその旨（波形データの再送要求信号）を波形データ再送要求信号送信部 2 0 6に送る。波形データ再送要求信号送信部 2 0 6では、波形受信部 2 0 1 Aから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 O Aへ送信する。すなわち、波形データ再送要求信号送信部 2 0 6は、波形受信部 2 0 1 Aで圧縮波形データの受信に失敗した場合には、波形データの再送要求信号を波形受信部 2 0 1 Aから受け取り、波形データ再送要求信号を端末側装置 1 0 O Aに送信する。

波形伸張部 2 0 2では、波形受信部 2 0 1 Aから送られた圧縮波形データを伸張する。すなわち、波形伸張部 2 0 2は、波形受信部 2 0 1 Aで受信された波形データを伸張する。この波形伸張部 2 0 2で伸張された波形データは分析部 2 0 3に送られる。

分析部 2 0 3では、波形伸張部 2 0 2で伸張された波形データを特徴べクトルに変換する。換言すれば、分析部 2 0 3は、波形伸張部 2 0 2で伸張された波形データを用いて音声の分析を行う。特徴ベクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4に送られる。

認識部 2 0 4では、分析部 2 0 3から送られた特徴べクトノレと、標準パターン記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、認識結果を求める。すなわち、認識部 2 0 4は、分析部 2 0 3での分析結果に基づき、音声の認識処理を行う。尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。認識部 2 0 4で求められた認識結果は認識結果出力端子 2 0 0 bから出力される。，

とにかく、分析部 2 0 3と認識部 2 0 4と標準バターン記憶部 2 0 5との組み合わせは、波形伸張部 2 0 2で伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段として働く。

上記第 2の実施の形態に対応した音声認識方法は、サーバ側装置 2 0 0 Aにおいて、端末側装置 1 0 O Aから送信される圧縮波形データの受信に失敗した場合には、波形データ再送要求信号を端末側装置 1 0 O Aに送信するステップを有し、端末側装置 1 0 O Aにおいて、サーバ側装置 2 0 O Aから送信される波形データ再送要求信号を受信した場合に、波形記憶部 1 0 5に記憶された波形データを、サーバ側装置 2 0 O Aに送信するステップを有する。

[第 3の実施の形態〕

図 3 Aおよび図 3 Bを参照して、本発明の第 3の実施の形態に係るサーバ ·クライアント型音声認識装置について説明する。図 3 Aには端末側装置 1 0 0 Bの構成が示されており、図 3 Bにはサーバ側装置 2 0 0 Bの構成が示されている。本発明の第 3の実施の形態に係るサーバ ·クライアント型音声認識装置は、第 2の実施の形態の構成に加え、次に述べるような 2つの枠組みを備えている。第 1の枠組みは、端末側装置 1 0 0 Bで音声区間を検出しサーバ側装置 2 0 0 Bへ圧縮した波形データを送信した後音声の始端がキヤンセルされた場合に、サーバ側装置 2 0 0 Bへ始端キャンセル信号を送信する枠組みである。第 2の枠組みは、サーバ側装置 2 0 0 Bで始端キャンセル信号を受信した場合に認識処理を停止することができる枠組みである。かかる構成によって、始端キャンセル時に即座に認識処理を停止することができるため、無駄なメモリ量、計算量を省くことが可能となる。

図 3 Aを参照すると、端末側装置 1 0 0 Bは、入力端子 1 0 0 aと圧縮波形出力端子 1 0 0 bと信号出力端子 1 0 0 cとを持つ。端末側装置 1 0 0 Bは、波形 ·信号受信部 1 0 4と、音声検出部 1 0 1 Aと、波形圧縮部 1 0 2と、波形送信部 1 0 3と、波形記憶部 1 0 5と、始端キャンセル信号送信部 1 0 6とを備えている。

端末側装置 1 0 0 Bの波形 ·信号受信部 1 0 4には、入力端子 1 0 0 aを介して、音声データ又はサーバ側装置 2 0 0 Bから送信された波形データ再送要求信号が入力される。すなわち、波形 ·信号受信部 1 0 4は、入力された音声の波形データと、サーバ側装置 2 0 0 Bから送信された波形データ再送要求信号とを受信する。音声データが入力端子 1 0 0 aから波形 ·信号受信部 1 0 4に入力された場合、波形 ·信号受信部 1 0 4はその受信された音声データを音声検出部 1 0 1 Aに送る。

音声検出部 1 0 1 Aでは、波形 ·信号受信部 1 0 4から送られた受信された波形データの音声検出を行う。すなわち、音声検出部 1 0 1 Aは、波形 '信号受信部 1 0 4で受信された音声の波形データの音声区間を検出する。検出方法としてはワードスポッティング手法等が用いられる。音声検出部 1 0 1 Aで検出された音声データは波形圧縮部 1 0 2に送られる。

音声の検出後に検出がキャンセルされたとしょう。この場合、音声検出部 1 0 1 Aは、始端キャンセル時の信号（始端キャンセル信号）を始端キャンセル信号送信部 1 0 6に送出する。始端キャンセル信号送信部 1 0 6では、この送られた始端キャンセル時の信号を受けると、始端キャンセル信号を信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Bへ送信する。すなわち、音声検出部 1 0 1 Aで音声の検出後に該検出がキャンセルされた場合、始端キャンセル信号送信部 1 0 6は、音声検出部 1 0 1 Aから送られた始端キャンセル時の信号を受け取り、始端キヤンセル信号をサーバ側装置 2 0 0 Bへ送信する。

波形圧縮部 1 0 2では、音声検出部 1 0 1 Aから送られた波形データを圧縮する。すなわち、波形圧縮部 1 0 2は、音声検出部 1 0 1 Aで検出された音声区間の波形データを圧縮する。圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられる。波形圧縮部 1 0 2で圧縮された波形データは波形記憶部 1 0 5に送られる。

波形記憶部 1 0 5では、波形圧縮部 1 0 2から送られた圧縮波形データを波形送信部 1 0 3に送出し、同一データを記憶する。波形送信部 1 0 3では、波形記憶部 1 0 5を介して波形圧縮部 1 0 2から送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Bへ送信する。

波形 ·信号受信部 1 0 4に入力端子 1 0 0 aを介してサーバ側装置 2 0 0 Bから送信された波形データ再送要求信号が入力されたとしょう。この場合、この受信された波形データ再送要求信号は波形 ·信号受信部 1 0 4から波形記憶部 1 0 5に送られる。この波形データ再送要求信号に応答して、波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データをサーバ側装置 2 0 0 B へ送信する。

すなわち、波形記憶部 1 0 5は、波形圧縮部 1 0 2で圧縮された波形データを記憶された波形データとして一時記憶しながらその記憶された波形データを波形送信部 1 0 3へ送出すると共に、波形 ·信号受信部 1 0 4において、サーバ側装置 2 0 0 Bからの波形データ再送要求信号が受信された場合に、その受信された波形データ再送要求信号に応答して、記憶された波形データを波形送信部 1 0 3へ送出する。

図 3 Bを参照すると、サーバ側装置 2 0 0 Bは、入力端子 2 0 0 aと認識結果出力端子 2 0 0 bと信号出力端子 2 0 0 cとを持つ。サーバ側装置 2 0 0 Bは、波形 ·信号受信部 2 0 1 Bと、波形伸張部 2 0 2と、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3と、認識部 2 0 4 Aと、標準パターン記憶部 2 0 5 とを備えている。

サーバ側装置 2 0 0 Bでは、端末側装置 1 0 0 Bの波形送信部 1 0 3から送信された圧縮波形データ、又は、始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）を入力端子 2 0 0 aを介して波形 ·信号受信部 2 0 1 Bで受信する。すなわち、波形 ·信号受信部 2 0 1 Bは、端末側装置 1 0 0 Bから送信された波形データと始端キャンセル信号を受信する。

波形 ·信号受信部 2 0 1 Bでは、受信した圧縮波形データを波形伸張部 2 0 2 に送出する。圧縮波形データの受信に失敗した場合、波形 ·信号受信部 2 0 1 B は、波形データ再送要求信号送信部 2 0 6にその旨（波形データ再送要求信号）を送出する。波形データ再送要求信号送信部 2 0 6では、波形 ·信号受信部 2 0 1 Bから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Bへ送信する。すなわち、波形データ再送要求信号送信部 2 0 6は、波形 ·信号受信部 2 0 1 Bで圧縮波形データの受信に失敗した場合には、波形データの再送要求信号を波形 ·信号受信部 2 0 1 Bから受け取り、波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Bへ送信する。

波形伸張部 2 0 2では、波形 ·信号受信部 2 0 1 Bから送られた圧縮波形データを伸張する。すなわち、波形伸張部 2 0 2は、波形 ·信号受信部 2 0 1 Bで受信された音声の波形データを伸張する。波形伸張部 2 0 2で伸張された波形データは分析部 2 0 3に送られる。

分析部 2 0 3では、波形伸張部 2 0 2で伸張された波形データを特徴べクトルに変換する。すなわち、分析部 2 0 3は、波形伸張部 2 0 2で伸張された波形データを用いて音声の分析を行う。特徴ベクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4 Aに送られる。

認識部 2 0 4 Aでは、分析部 2 0 3から送られた特徴べクトノレと、標準パターン記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、認識結果を求める。すなわち、認識部 2 0 4 Aは、分析部 2 0 3での分析結果に基づき認識処理を行う。尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。この認識部 2 0 4 Aで求められた認識結果は認識結果出力端子 2 0 0 b力ら出力される。

波形 ·信号受信部 2 0 1 Bに始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号が入力端子 2 0 0 aを介して入力されたとしょう。この場合、この受信された始端キャンセル時信号は波形 ·信号受信部 2 0 1 Bから認識部 2 0 4 Aに送られる。認識部 2 0 4 Aでは、波形 '信号受信部 2 0 1 Bから始端キャンセル時の信号（始端キャンセル信号）が送られてきた場合、認識を途中で中断する。換言すれば、認識部 2 0 4 Aは、波形 ·信号受信部 2 0 1 Bにおいて始端キャンセル信号を受信した場合に、認識処理を中止する。

とにかく、分析部 2 0 3と認識部 2 0 4 Aと標準パタ一ン記憶部 2 0 5との組み合わせは、波形伸張部 2 0 2で伸張された波形データを用いて、認識した結果を出力すると共に、波形 ·信号受信部 2 0 1 Bで受信された始端キャンセル信号に応答して認識処理を中止する認識手段として働く。

上記第 3の実施の形態に対応した音声認識方法は、端末側装置 1 0 0 Bにおいて、音声の検出後に該検出がキャンセルされた場合、始端キャンセル信号をサーバ側装置 2 0 0 Bに送信するステップを有し、サーバ側装置 2 0 0 Bにおいて、端末側装置 1 0 0 Bからの始端キャンセル信号を受信した場合に、認識処理を中止するステップを有する。

[第 4の実施の形態]

図 4 Aおよび図 4 Bを参照して、本発明の第 4の実施の形態に係るサーバ .クライアント型音声認識装置について説明する。図 4 Aには端末側装置 1 0 0 Cの構成が示され、図 4 Bにはサーバ側装置 2 0 0 Cの構成が示されている。

本発明の第 4の実施の形態に係るサーバ ·クライアント型音声認識装置は、第 3の実施の形態の構成に加えて、次に述べるような 2つの枠組みを備えている。第 1の枠組みは、端末側装置 1 O O Cにおいて、合成音を作成、出力し、合成音情報を波形データの一部として組み込み、作成したデータをサーバ側装置 2 0 0 Cへ送信する枠組みである。第 2の枠組みは、サーバ側装置 2 0 0。において、端末側装置 1 0 0 Cから送信されたデータを波形データとその他の情報に分離し、その他の情報から合成音情報を取得し、波形データから得られた認識結果と合成音との対応付けを行う枠組みである。

図 4 Aを参照すると、端末側装置 1 0 0 Cは、入力端子 1 0 0 aと圧縮波形出力端子 1 0 0 bと信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dとを持つ。端末側装置 1 0 0 Cは、波形 ·信号受信部 1 0 4と、音声検出部 1 0 1 Aと、波形圧縮部 1 0 2 Aと、波形送信部 1 0 3と、波形記憶部 1 0 5と、始端キャンセル信号送信部 1 0 6と、音声合成部 1 0 7と、合成音情報作成部 1 0 8と、を備えている。

端末側装置 1 0 Cの波形 ·信号受信部 1 0 4には、入力端子 1 0 0 aを介して、音声データ、又はサーバ側装置 2 0 0 Cから送信された波形データ再送要求信号が入力される。音声データが入力端子 1 0 0 aを介して波形 ·信号受信部 1 4に入力された場合、波形 ·信号受信部 1 0 4は、その受信された音声データを音声検出部 1 0 1 Aに送る。音声検出部 1 0 1 Aでは、波形 ·信号受信部 1 0 4から送られた受信された波形データの音声検出を行う。検出方法としてはワードスポッティング手法等が用いられる。音声検出部 1 0 1 Aで検出された音声データは波形圧縮部 1 0 2 Aに送られる。

音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょう。この場合、音声検出部 1 0 1 Aは始端キャンセル時の信号（始端キャンセル信号）を始端キャンセル信号送信部 1 0 6に送出する。始端キャンセル信号送信部 1 0 6では、この送られた始端キャンセル時の信号（始端キャンセル信号）を信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Cへ送信する。

本第 4の実施の形態では、端末側装置 1 0 0 Cは合成音を合成する音声合成部 1 0 7を持つ。音声合成部 1 0 7で合成された合成音は、合成音情報作成部 1 0 8に送られる。合成音情報作成部 1 0 8では、合成音情報を作成し、作成した合成音情報を波形圧縮部 1 0 2 Aに送出し、音声合成部 1 0 7から送られた合成音を合成音出力端子 1 0 0 dから出力する。すなわち、合成音情報作成部 1 0 8は、音声合成部 1 0 7で合成された合成音の情報を作成し、合成音を出力する。

合成音情報については、合成音の内容や合成音出力時のタイムスタンプ情報等が用いられる。

波形圧縮部 1 0 2 Aでは、音声検出部 1 0 1 Aから送られた波形データを圧縮し、合成音情報作成部 1 0 8で取得された合成音情報を圧縮された波形データの一部に含める。すなわち、波形圧縮部 1 0 2 Aは、音声検出部 1 0 1 Aで検出された音声区間の波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報を圧縮された波形データの一部に組み込む。

波形データの一部に合成音情報を含める手法としては、合成音情報を波形データのへッダに含めて圧縮する方法や、圧縮した波形データに合成音情報を付加する方法等が用いられる。

波形圧縮部 1 0 2 Aにおける圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられる。圧縮された波形データは波形記憶部 1 0 5に送られる。波形記憶部 1 0 5では、波形圧縮部 1 0 2 Aから送られた圧縮波形データを波形送信部 1 0 3に送出し、同一データを記憶する。波形送信部 1 0 3では、波形圧縮部 1 0 2 Aから波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Cへ送信する。

波形 ·信号受信部 1 0 4に入力端子 1 0 0 aを介してサーバ側装置 2 0 0 Cから送信された波形データ再送要求信号が入力されたとしょう。この場合、波形 ' 信号受信部 1 0 4はこの受信された波形データ再送要求信号を波形記憶部 1 0 5に送る。この波形データ再送要求信号に応答して、波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データを圧縮波形出力端子 1◦◦ b からサーバ側装置 2 0 0 Cへ送信する。

図 4 Bを参照すると、サーバ側装置 2 0 0 Cは、入力端子 2 0 0 aと認識結果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cとを持つ。サーバ側装置 2 0 0 Cは、波形 .信号受信部 2 0 1 Bと、波形伸張部 2 0 2 Aと、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3と、認識部 2 0 4 Bと、標準パターン記憶部 2 0 5と、合成音情報取得部 2 0 7とを備えている。

サーバ側装置 2 0 0 Cでは、端末側装置 1 0 0 Cの波形送信部 1 .0 3から送信された圧縮波形データ、又は、始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号 (始端キャンセル信号) を入力端子 2 0 0 aを介して波形 ·信号受信部 2 0 1 Bで受信する。波形 ·信号受信部 2 0 1 Bでは、受信した圧縮波形データを波形伸張部 2 0 2 Aに送信する。波形 ·信号受信部 1 0 4において圧縮波形データの受信に失敗した場合、波形 ·信号受信部 2 0 1 Bは波形データ再送要求信号送信部 2 0 6に波形データ再送要求信号を送出する。波形データ再送要求信号送信部 2 0 6では、波形 ·信号受信部 2 0 1 Bから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Cへ送信する。

波形伸張部 2 0 2 Aでは、波形 ·信号受信部 2 0 1 Bから送られたデータを波形データ合成音情報とその他の情報とに分離し、圧縮波形データを伸張する。伸張された波形データは分析部 2 0 3に送られる。その他の情報は合成音情報部 2 0 7に送られる。

合成音情報取得部 2 0 7では、波形伸長部 2 0 2 Aから送られた情報から合成音情報を取得する。すなわち、合成音情報取得部 2 0 7は、波形伸張部 2 0 2 A で伸張されたデータから合成音情報を取得する。

分析部 2 0 3では、波形伸張部 2 0 2 Aで伸張された波形データを特徴べクトルに変換する。特徴べクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4 Bに送られる。認識部 2 0 4 Bでは、分析部 2 0 3から送られた特徴べクトノレと、標準パターン記憶部 2◦ 5から送られた標準パターンとの間の尤度を計算し、認識結果を求める。尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。

求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共に認識部 2 0 4 Bから認識結果 .合成音情報出力端子 2 0 0 bを介して端末側装置 1 0 0 Cへ送信される。又は、求められた認識結果と合成音情報取得部 2 0 7 で取得された合成音情報の両者が関連付けらることで、どの合成音に対する認識結果であるかが対応付けされ、対応付けされた後の認識結果が認識部 2 0 4 B力ら認識結果 ·合成音情報出力端子 2 0 0 bを介して端末側装置 1 0 0 Cに送信される。すなわち、認識部 2 0 4 Bは、認識が終了した場合に合成音情報取得部 2 0 8で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する。

波形 ·信号受信部 2 0 1 Bに始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号 (始端キャンセル信号) が入力端子 2 0 0 aを介して入力されたとしょう。この場合、この受信された始端キャンセル時の信号（始端キャンセル信号）は波形 .信号受信部 2 0 1 Bから認識部 2 0 4 Bに送られる。認識部 2 0 4 Bでは、波形 ·信号受信部 2 0 1 Bから始端キャンセル時の信号（始端キャンセル信号）が送られてきた場合、認識を途中で中断する。

とにかく、分析部 2 0 3と認識部 2 0 4 Bと標準パターン記憶部 2 0 5との組み合わせは、波形伸張部 2 0 2 Aで伸張された波形データを用いて認識処理を行レ、、認識した結果を出力すると共に、波形 '信号受信部 2 0 1 Bで受信された始端キャンセル信号に応答して認識処理を中止する認識手段として働く。そして、この認識手段は、認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けられた認識結果、又は認識結果と合成音情報を出力する。

本発明の第 4の実施の形態において、合成音情報については、合成音の内容、合成音出力時のタイムスタンプ情報、合成音出力時の対話の状態番号等、様々な情報を用いることができる。

合成音情報を波形データの一部として組み込む手法については、合成音情報を波形データのへッダーに含めて圧縮する手法や、圧縮済みの波形データに合成音情報を付加する手法等を用いることができる。

合成音情報がサーバ側装置 2 0 0 Cに送られない場合、端末側装置 1 0◦ Cからサーバ側装置 2 0 0 Cへ波形データ送信に失敗した場合に、次に送信に成功した波形データがどの合成音に対して発声された音声であるか判断がつかない、という問題点がある。

この問題は、この第 4の実施の形態によって解決され、合成音情報と波形データが 1対 1対応となることにより、常に認識結果と合成音の対応付けをとることが可能となり、状態遷移に誤りのない対話システムの構築が可能となる。

上記第 4の実施の形態に対応した音声認識方法は、端末側装置 1 0 0 Cにおいて、合成音を合成するステップと、合成された合成音の情報を作成し、合成音を出力するステップと、検出された音声区間の波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報を波形データの一部に組み込んで、サーバ側装置 2 0 0 Cに送信するステップと、を含み、サーバ側装置 2 0 0 Cにおいて、伸張されたデ一タから合成音情報を取得するステップを有し、認識が終了した場合に、取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する。

[第 5の実施の形態]

図 5 Aおよび図 5 Bを参照して、本発明の第 5の実施の形態に係るサーバ ·クライアント型音声認識装置について説明する。図 5 Aには端末側装置 1 0 O Dの構成が示されており、図 5 Bにはサーバ側装置 2 0 0 Dの構成が示されている。本発明の第 5の実施の形態に係るサーバ ·クライアント型音声認識装置は、第 4の実施の形態の構成に加えて次に述べるような 2つの枠組みを備えている。第 1の枠組みは、端末側装置 1 0 0 Dからサーバ側装置 2 0 0 Dへ圧縮方式を要求する信号を送信し、サーバ側装置 2 0 O Dで圧縮方式要求信号を受信した場合、サーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を端末側装置 1 0 0 Dへ送信し、端末側装置 1 0 0 Dではサーバ側装置 2 0 0 Dから送信された圧縮情報と、端末側装置 1 0 0 Dで利用可能な圧縮方式をもとに最適な圧縮方式を選択するものである。第 2の枠組みは、端末側装置 1 0 0 Dで選択された圧縮情報のィンデックスを合成音情報とともに波形データの一部に組み込み、作成したデータをサーバ側装置 2 0 0 Dへ送信し、サーバ側装置 2 0 0 Dではデータを波形データとその他のデータとに分離し、分離後のその他のデータを合成音情報と圧縮方式のィンデックスに分離し、圧縮方式のィンデックス情報よりその圧縮方式に最適な認識エンジンを選択し、選択された認識エンジンの分析手法、認、識手法、標準パターンを用いて認識結果を出力するものである。

図 5 Aを参照すると、端末側装置 1 0 0 Dは、入力端子 1 0 0 aと圧縮波形出力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。端末側装置 1 0 0 Dは、波形 ·信号 ·圧縮方式受信部 1 0 4 Α·と、音声検出部 1 0 1 Aと、波形圧縮部 1 0 2 Bと、波形送信部 1 0 3と、波形記憶部 1 0 5と、始端キャンセル信号送信部 1 0 6と、音声合成部 1 0 7と、合成音情報作成部 1 0 8と、圧縮方式ィンデックス作成部 1 0 9と、圧縮方式選択部 1 1 0と、圧縮方式記憶部 1 1 1と、圧縮方式要求信号送信部 1 1 2とを備えている。

端末側装置 1 0 0 Dの波形 ·信号 ·圧縮方式受信部 1 0 4 Aには、入力端子 1 0 0 aを介して、音声データ、又は圧縮方式要求信号、又は、サーバ側装置 2 0 0 Dから送信された波形データ再送要求信号、又はサーバ側装置 2 0 0 Dから送信された.圧縮方式情報が入力される。すなわち、波形 ·信号 ·圧縮方式受信部 1 0 4 Aは、入力された波形データと、入力された圧縮方式要求信号と、サーバ側装置 2 0 0 Dから送信された波形データ再送要求信号と、サーバ側装置 2 0 0 D から送信されたサーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を受信する。波形 ·信号 ·圧縮方式受信部 1 0 4 Aに圧縮方式要求信号が入力されたとしょう。この場合、この受信された圧縮方式要求信号は波形 ·信号 ·圧縮方式受信部 1 ◦ 4 Aから圧縮方式要求信号送信部 1 1 2に送られる。圧縮方式要求信号送信部 1 1 2では、波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られた圧縮方式要求信号を第 2の信号出力端子 1 0 0 eを介してサーバ側装置 2 0 0 Dへ送信する。波形 ·信号 ·圧縮方式受信部 1 0 4 Aに、サーバ側装置 2 0 0 Dから送信された圧縮方式情報が入力されたとしょう。この場合、この受信された圧縮方式情報は、波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧縮方式選択部 1 1 0へ送られる。本実施の形態では、端末側装置 1 0 0 Dは、利用可能な圧縮方式を記憶する圧縮方式記憶部 1 1 1と、波形を圧縮する方式を選択する圧縮方式選択部 1 1 0とを備えている。

圧縮方式記憶部 1 1 1に記憶された圧縮方式については、波形圧縮方法（フルレート、ハーフレート等）や帯域（4kHz、 8kHz等）の情報を含む。

圧縮方式選択部 1 1 0では、圧縮方式記憶部 1 1 1に記憶されている圧縮方式情報と、波形 '信号 '圧縮方式受信部 1 0 4 Aから送られたサーバ側装置 2 0◦ Dで利用可能な圧縮方式情報をもとに、データの情報量の多い圧縮方式を選択する。例えば、端末側装置 1 0 0 Dでもサーバ側装置 2 0 0 Dでも、ともに、フルレートとハーフレートの圧縮方式を持つ場合、データの情報量の多いフルレートが選択される。とにかく、圧縮方式選択部 1 1 0は、波形 .信号 ·圧縮方式受信部 1 0 4 Aにおいて、サーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を受信した場合に、波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られた圧縮方式情報より最適な圧縮方式を選択する。圧縮方式選択部 1 1 0で選択された方式名は、圧縮方式ィンデックス作成部 1 0 9に送られる。

圧縮方式インデックス作成部 1 0 9では、圧縮方式選択部 1 1 0で選択された方式名のインデックスを作成する。とにかく、圧縮方式ィンデックス作成部 1 0 9は、圧縮方式選択部 1 1 0で選択された圧縮方式のインデックスを作成する。圧縮方式ィンデックス作成部 1 0 9で作成されたィンデックスは波形圧縮部 1 0 3 Bに送られる。

一方、波形 ·信号 ·圧縮方式受信部 1 0 4 Aに音声データが入力されたとしょう。この場合、その受信された音声データは波形 ·信号 ·圧縮方式受信部 1 0 4 Aから音声検出部 1 0 1 Aに送られる。音声検出部 1 0 1 Aでは、波形 ·信号 · 圧縮方式受信部 1 0 4 Aから送られた波形データの音声検出を行う。とにかく、音声検出部 1 0 1 Aは、波形 ·信号 ·圧縮方式受信部 1 0 4 Aで受信された波形データの音声区間を検出する。検出方法としてはヮードスポッティング手法等が用いられる。検出された音声データは音声検出部 1 0 1 Aから波形圧縮部 1 0 2 Bに送られる。

音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょう。この場合、始端キャンセル時の信号（始端キャンセル信号）が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。始端キャンセル信号送信部 1 0 6では、送られた始端キャンセル時の信号（始端キャンセル信号）を第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Dに送信する。

本第 5の実施の形態では、第 4の実施の形態の場合と同様に、端末側装置 1 0 0 Dは、合成音を作成する音声合成部 1 0 7を持つ。音声合成部 1 0 7で作成された合成音は合成音情報作成部 1 0 8に送られる。

合成音情報作成部 1 0 8では、合成音情報を作成し、作成した合成音情報を波形圧縮部 1 0 3 Bに送出し、音声合成部 1 0 7から送られた合成音を出力する。合成音情報については、合成音の内容や合成音出力時のタイムスタンプ情報等が用いられる。波形圧縮部 1 0 2 Bでは、音声検出部 1 0 1 Aから送られた波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報と、圧縮方式インデックス作成部 1 0 9で作成された圧縮方式のインデックスとを前記波形データの一部に含める。とにかく、波形圧縮部 1 0 2 Bは、音声検出部 1 0 1 Aで検出された音声区間の波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報と、圧縮方式ィンデックス作成部 1 0 9で作成された圧縮方式ィンデックスを波形データの一部に組み込む。

波形データの一部に合成音情報、圧縮方式のインデックスを含める手法としては、合成音情報、圧縮方式のインデックスを波形データのヘッダに含めて圧縮する方法や、圧縮した波形データに合成音情報、圧縮方式のインデックスを付加する方法等が用いられる。圧縮方式としては、 VSELP方式、 PSI - CELP方式等が用いられる。波形圧縮部 1 0 2 Bで圧縮された波形データは波形記憶部 1 0 5に送られる。

波形記憶部 1 0 5では、波形圧縮部 1 0 2 Bから送られた圧縮波形データを波形送信部 1 0 3に送出し、同一データを記憶する。

波形送信部 1 0 3では、波形圧縮部 1 0 2 Bから波形記憶部 1 0 5を介して送られた圧縮波形データをサーバ側装置 2 0 0 Dへ送信する。波形 ·信号 ·圧縮方式受信部 1 0 4 Aにサーバ側装置 2 0 0 Dから送信された波形データ再送要求信号が入力されたとしょう。この場合、この受信された波形データ再送信要求信号は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから波形記憶部 1 0 5に送られる。この受信された波形データ再送信要求信号に応答して、波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データをサーバ側装置 2 0 0 Dへ送信する。

とにかく、波形記憶部 1 0 5は、波形圧縮部 1 0 2 Bで圧縮された波形データを記憶された波形データとして一時記憶しながらその記憶された波形データを波形送信部 1 0 3へ送出すると共に、波形 ·信号 ·圧縮方式受信部 1 0 4 Aにおいてサーバ側装置 2 0 0 Dからの波形データ再送要求信号が受信された場合に、その受信された波形データ再送要求信号に応答して、記憶された波形データを波形送信部 1 0 3 へ送出する。

図 5 Bを参照すると、サーバ側装置 2 0 0 Dは、入力端子 2 0 0 a と認識結果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端子 2 0 0 dとを持つ。サーバ側装置 2 0 0 Dは、波形 '信号受信部 2 0 1 Cと、波形伸張部 2 0 2 Bと、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3 Aと、認識部 2 0 4 Cと、標準パターン記憶 2 0 5 Aと、合成音情報取得部 2 0 7と、圧縮方式ィンデックス取得部 2 0 8と、認識エンジン選択部 2 0 9と、認識エンジン設定部 2 1 ◦と、圧縮方式取得部 2 1 1と、圧縮方式記憶部 2 1 2と、を備えている。

サーバ側装置 2 0 0 Dでは、端末側装置 1 0 0 Dの波形送信部 1 0 3から送信された圧縮波形データ、又は始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）、又は圧縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号を波形 ·信号受信部 2 0 1 Cで受信する。とにかく、波形 ·信号受信部 2 0 1 Cは、端末側装置 1 0 0 Dから送信された波形データと、波形圧縮方式要求信号を受信する。

波形 ·信号受信部 2 0 1 Cにおいて波形圧縮方式要求信号が受信されたとしょう。この場合、波形 ·信号受信部 2 0 1 Cは受信された波形圧縮方式用要求信号を圧縮方式取得部 2 1 1 へ送る。

圧縮方式取得部 2 1 1では、波形 ·信号受信部 2 0 1 Cから受信された波形圧縮方式要求信号が送られた場合、圧縮方式記憶部 2 1 2に記憶されている圧縮方式の中からサーバ側装置 2 0 0 Dで利用可能な圧縮方式を取得し、取得した圧縮方式情報を圧縮方式情報出力端子 2 0 0 dから端末側装置 1 0 0 Dに送信する。とにかく、圧縮方式記憶部 2 1 2は、サーバ側装置 2 0 0 Dで利用可能な圧縮方式の情報を記憶する。圧縮方式取得部 2 1 1は、波形 ·信号受信部 2 0 1じから圧縮方式要求信号が送られた場合に圧縮方式記憶部 2 1 2に記憶されている圧縮方式情報を取得し、端末側装置 1 0 0 Dに圧縮方式情報を送信する。

波形 ·信号受信部 2 0 1 Cにおいて波形データが受信された場合、波形 ·信号受信部 2 0 1 Cはその受信された波形データを波形伸張部 2◦ 2 Bに送出する。波形 ·信号受信部 2 0 1 Cにおいて波形データの受信に失敗したとしょう。この場合、波形 ·信号受信部 2 0 1 Cは、波形データ再送要求信号送信部 2 0 6に波形データ再送要求信号を送出する。波形データ再送要求信号送信部 2 0 6では、波形 ·信号受信部 2 0 1 Cから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Dへ送信する。とにかく、波形データ再送要求信号送信部 2 0 6は、波形 ·信号受信部 2 0 1 Cで圧縮波形データの受信に失敗した場合には、波形データの再送要求信号を波形 ·信号受信部 2 0 1 Cから受け取り、波形データ再送要求信号を端末側装置 1 0 0 Dへ送信する。

波形伸張部 2 0 2 Bでは、波形 ·信号受信部 2 0 1 Cから送られたデータを波形デ一タとその他のデータとに分離し、波形データを伸張する。とにかく、波形伸張部 2 0 2 Bは、波形 ·信号受信部 2 0 1 Cで受信された音声の波形データを伸張する。

その他の情報は、波形伸張部 2 0 2 Bから合成音情報取得部 2 0 7と圧縮方式ィンデックス取得部 2 0 8に送られ、伸張された波形データは波形伸張部 2 0 2 Bから分析部 2 0 3 Aに送られる。合成音情報取得部 2 0 7では、波形伸張部 2 0 2 Bから送られた情報から合成音情報を取得する。この取得された合成音情報は合成音情報取得部 2 0 7から認識部 2 0 4 Cに送られる。

圧縮方式ィンデッタス取得部 2 0 8では、波形伸張部 2 0 2 Bから送られた情報から圧縮方式のインデックスを取得する。とにかく、圧縮方式インデックス取得部 2 0 8は、波形伸張部 2 0 2 Bで伸張されたデータから圧縮方式のインデックスを取得する。この圧縮方式ィンデックス取得部 2 0 8で取得されたィンデックスは認識エンジン選択部 2 0 9に送られる。

認識エンジン選択部 2 0 9では、圧縮方式ィンデックス取得部 2 0 8で取得されたインデックスをもとに認識に用いる認識エンジンを選択する。とにかく、認識エンジン選択部 2 0 9は、圧縮方式ィンデックス取得部 2 0 8で取得された圧縮方式のィンデッタスから認識エンジンを選択する。この認識エンジン選択部 2 0 9で選択されたエンジンの情報は認識エンジン設定部 2 1 0と標準パターン記憶部 2 0 5 Aに送られる。

認識エンジン設定部 2 1 0では、認識エンジン選択部 2 0 9から送られたェンジン情報を基に、使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、認識手法を認識部 2 0 4 Cへ送る。とにかく、認識エンジン設定部 2 1 0は、認識ェンジン選択部 2 0 9で選択されたエンジンを記憶されているエンジンの中から設定する。

標準パターン記憶部 2 0 5 Aでは、認識エンジン選択部 2 0 9から送られたェンジン情報より使用する標準パターンを設定する。

分析部 2 0 3 Aでは、波形伸張部 2 0 2 Bで伸張された波形データを特徴べクトルに変換する。とにかく、分析部 2 0 3 Aは、波形伸張部 2 0 2 Bで伸張された波形データを用いて音声の分析を行う。特徴べクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3 Aで分析された特徴べクトルは認識部 2 0 4 Cに送られる。

認識部 2 0 4 Cでは、分析部 2 0 3 Aから送られた特徴べクトノレと、標準パターン記憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、認識結果を求める。とにかく、認識部 2 0 4 Cは、分析結果に基づき認識処理を行い、認識した結果.を出力する。尤度の計算方法は Viterbiアルゴリズム、 D Pマツチング等が用いられる。求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共に端末側装置 1 0 0 Dに送信されるか、又は、両者が関連付けられることでどの合成音に対する認識結果であるかが対応付けされ、対応付けされた後の認識結果が端末側装置 1 0 0 Dに認識結果 ·合成音情報出力端子 2 0 0 b から送信される。

波形 ·信号受信部 2 0 1 Cに始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）が入力されたとしょう。この場合、この受信された始端キャンセル時の信号（始端キャンセル信号）は波形 -信号受信部 2 0 1 Cから認識部 2 0 4 Cに送られる。認識部 2 0 4 Cでは、波形 · 信号受信部 2 0 1 Cから受信された始端キャンセル時の信号（始端キャンセル信号）が送られてきた場合、認識を途中で中断する。

とにかく、分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aとの組み合わせは、波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段として作用する。そして、この認識手段は、認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けられた認識結果、又は認識結果と合成音情報を出力する。

サーバ側装置 2 0 0 D、端末側装置 1 0◦ Dの圧縮方式記憶部 2 1 2、 1 1 1 に記憶された圧縮方式については、帯域情報（8kHz、 4kHz等)や圧縮方法（フルレート、ハーフレート等）等の情報を含む。また、波形データの一部として合成音情報と圧縮方式のインデックスを含める手法については、合成音情報、圧縮方式のインデックスを波形データのへッダ一に含めて圧縮する手法や、圧縮済みの波形データに合成音情報、圧縮方式のィンデックスを付加する手法等を用いることができる。また、端末側装置 1 0 0 Dにおいて、サーバ側装置 2 0 0 Dで利用可能な圧縮方式と端末側装置 1 0 0 Dで利用可能な圧縮方式より最適な圧縮方式を選択する手段については、情報量（データ量）の多い圧縮方式を選択する。例えば、端末側装置 1 0 0 D、サーバ側装置 2 0 0 Dともにフルレート、ハーフレートの圧縮方式が利用可能な場合、データの情報量の多いフルレートが自動的に選択される。

本第 5の実施の形態では、選択された圧縮方式によってサーバ側装置 2 0 0 D で認識エンジンを選択することが可能であるため、サーバ側装置 2 0 0 Dで圧縮方式に適した認識エンジンを用意することで、様々な圧縮方式の音声データに対して髙レ、認識率を得ることが可能となる。

上記第 5の実施の形態に対応した音声認識方法は、端末側装置 1 0 0 Dにおいて、サーバ側装置 2 0 0 Dから送信されたサーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を受信するステップと、受信した圧縮方式情報により最適な圧縮方式を選択するステップと、選択された圧縮方式のィンデックスを作成するステップと、音声区間の波形データを圧縮し、作成された圧縮方式インデックスを圧縮した波形データの一部に組み込んで、サーバ側装置 2 0 0 Dに送信するステップとを有し、サーバ側装置 2 0 0 Dにおいて、端末側装置 1 0 0 Dから送信される圧縮方式要求信号を受信した場合に、サーバ側装置 2 0 0 Dで利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 2 1 2に記憶されている圧縮方式情報を取得し、端末側装置 1 0 0 Dに圧縮方式情報を送信するステップと、伸張されたデータから圧縮方式のィンデックスを取得するステップと、取得された圧縮方式のィンデックスから認識ェンジンを選択するステップと、選択されたェンジンを記憶されているエンジンの中から設定するステップと、を有する。

[第 6の実施の形態]

次に、図 6 Aおよび図 6 Bを参照して、本発明の第 6の実施の形態に係るサーバ ·クライアント型音声認識装置について説明する。図 6 Aには端末装置 1 0 0 Eの構成が示され、図 6 Bにはサーバ側装置 2 0 0 Eの構成が示されている。本発明の第 6の実施の形態に係るサーバ ·クライアント型音声認識装置は、第 5の実施の形態の構成に加えて次に述べるような枠組みを備えている。その枠組みとは、サーバ側装置 2 0 0 Eで端末側装置 1 0 0 Eから送信された圧縮方式要求信号を受信した場合、コンテンッ側より入力されたタスク情報と予めサーバ側装置 2 0 0 Eで持つタスク情報とそのタスクで使用可能な圧縮方式との対応テ一ブルより、サーバ側装置 2 0 0 Eで利用可能な圧縮方式を取得し端末側装置 1 0 0 Eに送信するものである。

図 6 Aを参照すると、端末側装置 1 0 0 Eは、入力端子 1 0 0 aと圧縮波形出力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。端末側装置 1 0 0 Eは、波形 .信号 .圧縮方式受信部 1 0 4 Aと、音声検出部 1 0 1 Aと、波形圧縮部 1 0 2 Bと、波形送信部 1 0 3と、波形記憶部 1 0 5と、始端キャンセル信号送信部 1 0 6と、音声合成部 1 0 7と、合成音情報作成部 1 0 8と、圧縮方式ィンデックス作成部 1 0 9と、圧縮方式選択部 1 1 0と、圧縮方式記憶部 1 1 1と、圧縮方式要求信号送信部 1 1 2と、を備えている。

端末側装置 1 0 0 Eの波形 .信号 ·圧縮方式受信部 1 0 4 Aには、音声データ、又は圧縮方式要求信号、又はサーバ側装置 2 0 0 Eから送信された波形データ再送要求信号、又はサーバ側装置 2 0 0 Eから送信された圧縮方式情報が入力される。

波形 ·信号 ·圧縮方式受信部 1 0 4 Aに圧縮方式要求信号が入力されたとしょう。この場合、この受信された圧縮方式要求信号は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧縮方式要求信号送信部 1 1 2に送られる。圧縮方式要求信号送信部 1 1 2では、波形 .信号 .圧縮方式受信部 1 0 4 Aから送られた圧縮方式要求信号を第 2の信号出力端子 1 0 0 eからサーバ側装置 2 0 0 Eへ送信する。

波形 ·信号 .圧縮方式受信部 1 0 4 Aにサーバ側装置 2 0 0 Eから送信されたサーバ側装置 2 0 0 Eで利用可能な圧縮方式情報が入力されたとしょう。この場合、この受信された圧縮方式情報は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧縮方式選択部 1 1 0 へ送られる。

本第 6の実施の形態では、第 4の実施の形態と同様に、端末側装置 1 0 0 Eは、端末側装置 1 0 0 Eで利用可能な圧縮方式を記憶する圧縮方式記憶部 1 1 1と、波形を圧縮する方式を選択する圧縮方式選択部 1 1 0とを持つ。

圧縮方式記憶部 1 1 1に記憶された圧縮方式については、波形圧縮方法（フルレート、ハーフレート等）や帯域（4kHz、 8kHz等）の情報を含む。圧縮方式選択部 1 1 0では、圧縮方式記憶部 1 1 1に記憶されている端末側装置 1 0 0 Eで利用可能な圧縮方式情報と、波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られたサーバ側装置 2 0 O Eで利用可能な圧縮方式情報とをもとにデータの情報量の多い圧縮方式を選択する。例えば、端末側装置 1 0 0 Eでもサーバ側装置 2 0 0 E でもともにフルレートとハーフレートの圧縮方式を持つ場合、データの情報量の多いフルレートが選択される。圧縮方式選択部 1 1 0で選択された方式名は圧縮方式インデックス作成部 1 0 9に送られる。圧縮方式ィンデックス作成部 1 0 9 では、圧縮方式選択部 1 1 0で選択された方式名のィンデックスを作成する。圧縮方式ィンデックス作成部 1 0 9で作成されたィンデックスは波形圧縮部 1 0 2 Bに送られる。

波形 ·信号 ·圧縮方式受信部 1 0 4 Aに音声データが入力されたとしょう。この場合、その受信された音声データは波形 ·信号 ·圧縮方式受信部 1 0 4 Aから音声検出部 1 0 1 Aに送られる。音声検出部 1 0 1 Aでは、波形 ·信号 '圧縮方式受信部 1 0 4 Aから送られた受信された波形データの音声検出を行う。検出方法としてはワードスポッティング手法等が用いられる。音声検出部 1 0 1 Aで検出された音声データは波形圧縮部 1 0 2 Bに送られる。

音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょう。この場合、始端キャンセル時の信号（始端キャンセル信号）が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。始端キャンセル信号送信部 1 0 6では、この送られた始端キャンセル時の信号（始端キャンセル信号）を第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Eへ送信する。

本第 6の実施の形態では、第 4、第 5の実施の形態の場合と同様に、端末側装置 1 0 0 Eは合成音を作成する音声合成部 1 0 7を持つ。音声合成部 1 0 7で作成された合成音は合成音情報作成部 1 0 8に送られる。

合成音情報作成部 1 0 8では、合成音情報を作成し、作成した合成音情報を波形圧縮部 1 0 2 Bに送出し、音声合成部 1 0 7から送られた合成音を合成音出力端子 1 0 0 dから出力する。合成音情報については、合成音の内容や合成音出力時のタイムスタンプ情報等が用いられる。

波形圧縮部 1 0 2 Bでは、音声検出部 1 0 1 Aから送られた波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報と、圧縮方式インデックス作成部 1 0 9で作成された圧縮方式のインデックスとを前記波形データの一部に含める。波形データの一部に合成音情報、圧縮方式のィンデックスを含める手法としては、 ①合成音情報、圧縮方式のインデックスを波形データのヘッダーに含めて圧縮する方法や、 ②圧縮した波形データに合成音情報、圧縮方式のインデックスを付加する方法等が用いられる。

圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられる。圧縮された波形データは波形圧縮部 1 0 2 Bから波形記憶部 1 0 5に送られる。波形記憶部 1 0 5では、波形圧縮部 1 0 2 Bから送られた圧縮波形データを波形送信部 1 0 3 に送信し、同一データを記憶する。波形送信部 1 0 3では、波形圧縮部 1 0 2 B から波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Eへ送信する。

波形 ·信号 ·圧縮方式受信部 1 0 4 Aにサーバ側装置 2 0 0 Eから送信された波形データ再送要求信号が入力されたとしょう。この場合、この受信された波形データ再送要求信号は波形 .信号 ·圧縮方式受信部 1 0 4 Aから波形記憶部 1 0 5に送られる。この受信された波形データ再送要求信号に応答して、波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Eに送信する。図 6 Bを参照すると、サーバ側装置 2 0 0 Eは、入力端子 2 0 0 a と認識結果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端子 2 0 0 dとを持つ。サーバ側装置 2 0 0 Eは、波形 ·信号 · タスク情報受信部 2 0 1 Dと、波形伸張部 2 0 2 Bと、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3 Aと、認識部 2 0 4 Cと、標準パターン記憶部 2 0 5 Aと、合成音情報取得部 2 0 7と、圧縮方式ィンデックス取得部 2 0 8と、認識エンジン選択部 2 0 9と、認識エンジン設定部 2 1 0と、圧縮方式取得部 2 1 1 Aと、圧縮方式 ' タスク情報対応テーブル記憶部 2 1 2 Aと、タスク情報記憶部 2 1 3とを備えている。

サーバ側装置 2 0 0 Eでは、入力端子 2 0 0 aを介して、端末側装置 1 0 0 E の波形送信部 1 0 3から送信された波形データ、又は始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）、又は圧縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号、又はコンテンッ側より入力されたタスク情報を波形 ·信号 · タスク情報受信部 2 0 1 Dで受信する。すなわち、波形 ·信号 · タスク情報受信部 2 0 1 Dは、前記した第 5の実施の形態の波形 ·信号受信部（図 5の 2 0 1 D ) に代わって、端末側装置 1 0 0 Eから送信された波形データと、始端キャンセル信号と、圧縮方式要求信号と、コンテンッ側から送信されたタスク情報とを受信する。

波形 ,信号 ' タスク情報受信部 2 0 1 Dにコンテンツ側よりタスク情報が入力されたとしょう。この場合、波形 ·信号 ' タスク情報受信部 2 0 1 Dはそのタスク情報をタスク情報記憶部 2 1 3に送出する。タスク情報記憶部 2 1 3では、波形 ·信号 · タスク情報受信部 2 0 1 Dより送られたタスク情報を記憶し、同一情報を圧縮方式取得部 2 1 1 Aに送る。とにかく、タスク情報記憶部 2 1 3は、波形 ·信号 ' タスク情報受信部 2 0 1 Dで受信されたタスク情報を記憶する。

波形 ·信号 · タスク情報受信部 2 0 1 Dにおいて波形圧縮方式要求信号が受信されたとしょう。この場合、波形 ·信号 ' タスク情報受信部 2 0 1 Dは、この受信され波形圧縮方式要求信号を圧縮方式取得部 2 1 1 Aへ送る。圧縮方式取得部 2 1 1 Aでは、波形 ·信号 · タスク情報受信部 2 0 1 Dから受信された波形圧縮方式要求信号が送られた場合、圧縮方式 · タスク情報対応テーブル記憶部 2 1 2 Aに記憶されているタスク情報とそのタスクで利用可能な圧縮方式との対応テ一ブルと、タスク情報記憶部 2 1 3から送られたタスク情報とから利用可能な圧縮方式を取得し、取得した圧縮方式情報を圧縮方式情報出力端子 2 0 0 dから端末側装置 1 0 0 Eに送信する。

すなわち、圧縮方式 ·タスク情報対応テーブル記憶部 2 1 2 Aは、タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する。圧縮方式取得部 2 1 1 Aは、波形 ·信号 ·タスク情報受信部 2 0 1 Dにおいて圧縮方式要求信号を受信した場合に、タスク情報記憶部 2 1 3から送られたタスク情報と圧縮方式 ·タスク情報対応テーブル記憶部 2 1 2 Aから送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、その取得された圧縮方式情報を端末側装置 1 0 0 Eに送信する。

サーバ側装置 2 0 0 Eで持つタスク情報とそのタスクで使用可能な圧縮方式との対応テーブル 2 1 2 Aに記述された圧縮方式については、帯域情報（8kHz、 4kHz等）や圧縮方法 (フノレレート、ハーフレート等）等の情報を含む。

波形 ·信号 ·タスク情報受信部 2 0 1 Dにおいて波形データが受信されたとして、その場合、波形 ·信号 ·タスク情報受信部 2 0 1 Dはその受信された波形データを波形伸張部 2 0 2 Bに送出する。波形 '信号 'タスク情報受信部 2 0 1 D において波形データの受信に失敗したとして、その場合、波形 .信号 'タスク情報受信部 2 0 1 Dは波形データ再送要求信号送信部 2 0 6に波形データ再送要求信号を送出する。波形データ再送要求信号送信部 2 0 6では、波形 ·信号 ·タスク情報受信部 2 0 1 Dから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Eに送信する。

波形伸張部 2 0 2 Bでは、波形 ·信号'タスク情報受信部 2 0 1 Dから送られたデータを波形データとその他のデータとに分離し、波形データを伸張する。その他の情報は合成音情報取得部 2 0 7と圧縮方式インデックス取得部 2 0 8に送られ、伸張された波形データは分析部 2 0 3 Aに送られる。合成音情報取得部 2 0 7では、波形伸張部 2 0 2 Bから送られた情報から合成音情報を取得する。取得された合成音情報は合成音情報取得部 2 0 7から認識部 2 0 4 Cに送られる。圧縮方式ィンデックス取得部 2 0 8では、波形伸張部 2 0 2 Bから送られた情報から圧縮方式のィンデックスを取得する。取得されたィンデックスは圧縮方式インデックス取得部 2 0 8から認識エンジン選択部 2 0 9に送られる。

認識エンジン選択部 2 0 9では、圧縮方式ィンデックス取得部 2 0 8で取得されたィンデックスをもとに認識に用いる認識エンジンを選択する。認識エンジン選択部 2 0 9で選択されたエンジンの情報は認識エンジン設定部 2 1 0と標準パターン記憶部 2 0 5 Aに送られる。

認識エンジン設定部 2 1 0では、認識エンジン選択部 2 0 9から送られたェンジン情報を元に使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、認識手法を認識部 2 0 4 Cへ送る。標準パターン記憶部 2 0 5 Aでは、認識エンジン選択部 2 0 9から送られたエンジン情報より使用する標準パターンを設定する。分析部 2 0 3 Aでは、波形伸張部 2 0 2 Bで伸張された波形データを特徴べクトルに変換する。特徴べクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3 Aで分析された特徴べクトルは認識部 2 0 4 Cに送られる。認識部 2 0 4 Cでは、分析部 2 0 3 Aから送られた特徴べクトノレと、標準パターン記憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、認識結果を求める。尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。認識部 2 0 4 Cで求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共に認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 0 Eに送信される。又は、両者が関連付けられることでどの合成音に対する認識結果であるかが対応付けされ、対応付けされた後の認識結果が認識部 2 0 4 Cから端末側装置 1 0 0 Eに送信される。

波形 ·信号'タスク情報受信部 2 0 1 Dに始端キヤンセル信号送信部 1 0 6から送信された始端キャンセル時の信号 (始端キャンセル信号) が入力されたとしよう。その場合、この受信された始端キャンセル時の信号（始端キャンセル信号）は波形 ·信号 'タスク情報受信部 2 0 1 Dから認識部 2 0 4 Cに送られる。認識部 2 0 4 Cでは、波形 ·信号'タスク情報受信部 2 0 1 Dから受信された始端キヤンセル時の信号（始端キャンセル信号）が送られてきた場合、認識を途中で中断する。とにかく、分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aとの組み合わせは、波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理を行い、認識した結果を出力すると共に、波形 ·信号 ·タスク情報受信部 2 0 1 Dで受信された始端キャンセル信号に応答して認識処理を中止する認識手段として働く。この認識手段は、認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する。

この第 6の実施の形態では、圧縮方式を選択する時にサーバ側装置 2 0 0 Eと端末側装置 1 0 O Eとで共通に利用可能である圧縮方式情報の他に、タスクの情報を加えることによって、サーバ側装置 2 0 0 Eと端末側装置 1 0 0 Eとで共通に利用可能な圧縮方式であり、且つ、入力されたタスクに適した圧縮方式を選択することが可能となる。例えば、端末側装置 1 0 0 Eとサーバ側装置 2 0 0 Eとで対話を行うタスクでは、レスポンス時間が短いことが望ましいためデータの転送時間の短レ、圧縮方式をタスク情報と圧縮方式との対応テーブルに記述する。又、端末側装置 1 0 0 Eで音声入力したキーワードをサーバ側装置 2 0 0 Eでキーヮード検索するようなレスポンス時間を比較的問われないタスクではデータの情報量の多い圧縮方式を、前記テーブルに記述することで、タスクに適した圧縮方式の選択が可能となる。

上記第 6の実施の形態に対応した音声認識方法は、サーバ側装置 2 0 0 Eにおいて、コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 2 1 3に記憶するステップと、圧縮方式要求信号を受信した場合に、タスク情報と、圧縮方式との対応テーブル 2 1 2 Aより、利用可能な圧縮方式情報を取得し、端末側装置 1 0 0 Eに送信するステップを有する。 .

[第 7の実施の形態]

図 7 Aおよび図 7 Bを参照して、本発明の第 7の実施の形態によるサーバ - クライアント型音声認識装置について説明する。図 7 Aには端末側装置 1 0 O Eの構成が示され、図 7 Bにはサーバ側装置 2 0 0 Fの構成が示されている。

本発明の第 7の実施の形態に係るサーバ .クライアント型音声認識装置は、第 5の実施の形態の構成に加えて次に述べるような枠組みを備える。その枠組みは、端末側装置 1 0 0 Fにおいて、サーバ側装置 2 0 0 Fからサーバ側装置 2 0 0 F で利用可能な圧縮方式情報が送信された場合に、サーバ側装置 2 0 0 Eで利用可能な圧縮方式情報と、コンテンツ側から入力されたタスク情報と、端末側装置;！ 0 0 Fで予め持つタスク情報とそのタスクで使用可能な圧縮方式との対応テーブルより、最適な圧縮方式を選択するものである。

図 7 Aを参照すると、端末側装置 1 0 0 Fは、入力端子 1 0 0 aと圧縮波形出力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。端末側装置 1 0 0 Fは、波形 ·信号 .圧縮方式 . タスク情報受信部 1 0 4 Bと、音声検出部 1 0 1 Aと、波形圧縮部 1 0 2 Bと、波形送信部 1 0 3と、波形記憶部 1 0 5と、始端キヤンセル信号送信部 1 0 6と、音声合成部 1 0 7と、合成音情報作成部 1 0 8と、圧縮方式ィンデックス作成部 1 0 9と、圧縮方式選択部 1 1 0 Aと、圧縮方式 .タスク情報対応テーブル記憶部 1 1 1 Aと、圧縮方式要求信号送信部 1 1 2と、タスク情報記憶部 1 1 3と、を備えている。

端末側装置 1 0 0 Eの波形 ·信号 ·圧縮方式 ' タスク情報受信部 1 0 4 Bには、音声データ、又は圧縮方式要求信号、又はサーバ側装置 2 0 0 Fから送信された波形データ再送要求信号、又はサーバ側装置 2 0 0 Fから送信された圧縮方式情報、又はコンテンッ側から送信されたタスク情報が入力される。すなわち、波形 · 信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bは、前記第 5の実施の形態の波形 · 信号'圧縮方式受信部（図 5の 1 0 4 A) に代わって、入力された波形データと、コンテンッ側から送信されたタスク情報と、サーバ側装置 2 0 0 Fから送信された波形データ再送要求信号と、サーバ側装置 2 0 0 Fから送信されたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報とを受信する。

波形 ·信号 ·圧縮方式 ' タスク情報受信部 1 0 4 Bに、タスク情報が入力されたとしょう。この場合、受信されたタスク情報は波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bからタスク情報記憶部 1 1 3に送られる。タスク情報記憶部 1 1 3では、波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bから送られたタスク情報を圧縮方式達択部 1 1 O Aに送り、記憶する。とにかく、タスク情報記憶部 1 1 3は波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bで受信されたタスク情報を記憶する。

波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bに、圧縮方式要求信号が入力されたとしょう。この場合、この受信された圧縮方式要求信号は波形 ·信号 - 圧縮方式 · タスク情報受信部 1 0 4 Bから圧縮方式要求信号送信部 1 1 2に送られる。圧縮方式要求信号送信部 1 1 2では、波形 ·信号 ·圧縮方式 . タスク情報受信部 1 0 4 Bから送られた受信された圧縮方式要求信号を第 2の信号出力端子 1 0 0 eからサーバ側装置 2 0 0 Fへ送信する。

波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bに、サーバ側装置 2 0 0 F から送信されたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報が入力されたとしょう。この場合、この受信された圧縮方式情報は波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bから圧縮方式選択部 1 1 O Aへ送られる。

本第 7の実施の形態では、端末側装置 1 0 0 Fはタスク情報とそのタスクで利用可能な圧縮方式との対応テーブルを記憶する圧縮方式 · タスク情報対応テープル記憶部 1 1 1 Aを持つ。圧縮方式 ' タスク情報対応テーブル記憶部 1 1 Aに記憶された圧縮方式については、波形圧縮方法（フルレート、ハーフレート等）や帯域（4kHz、 8kHz等）の情報を含む。とに力く、圧縮方式.タスク情報対応テーブル記憶部 1 1 1 Aはタスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する。そして、タスク情報とそのタスクで使用可能な圧縮方式との対応テーブルに記述された圧縮方式については、帯域情報 (8kHz、 4kHz等)や圧縮方法（フルレート、ハーフレート等）等の情報を含む。圧縮方式選択部 1 1 0 Aでは、タスク情報記憶部 1 1 3から送られたタスク情報と、波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bから送られたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報と、圧縮方式 · タスク情報対応テーブル記憶部 1 1 1 Aに記憶されている対応テーブル情報とをもとにタスク情報が加味されたデータの情報量の多い圧縮方式を選択する。とにかく、圧縮方式選択部 1 1 O Aは、波形 '信号 '圧縮方式 .タスク情報受信部 1 0 4 Bにおいてサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報を受信した場合に、タスク情報記憶部 1 1 3から送られたタスク情報と、圧縮方式 ·タスク対応テーブル記憶部 1 1 1 Aから送られたタスク情報と圧縮方式との対応テーブルと、波形 ·信号 ·圧縮方式 'タスク情報受信部 1 0 4 Bから送られたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報をもとに最適な圧縮方式を選択する。圧縮方式選択部 1 1 O Aで選択された方式名は圧縮方式ィンデックス作成部 1 0 9に送られる。

圧縮方式インデックス作成部 1 0 9では、圧縮方式選択部 1 1 O Aで選択された方式名のインデックスを作成する。圧縮方式ィンデックス作成部 1 0 9で作成されたィンデックスは波形圧縮部 1 0 2 Bに送られる。

波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bに音声データが入力されたとしょう。この場合、その受信された音声データは波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bから音声検出部 1 0 1 Aに送られる。音声検出部 1 0 1 A では、波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bから送られた波形データの音声検出を行う。検出方法としてはワードスポッティング手法等が用いられる。音声検出部 1 0 1 Aで検出された音声データは波形圧縮部 1 0 2 Bに送られる。

音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとして、この場合、始端キャンセル時の信号（始端キャンセル信号）が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。始端キャンセル信号送信部 1 0 6では、音声検出部 1 0 1 Aから送られた始端キャンセル時の信号（始端キャンセル信号）を第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 O Fへ送信する。

本第 7の実施の形態では、第 4、第 5、第 6の実施の形態の場合と同様に、端末側装置 1 0 O Fは、合成音を作成する音声合成部 1 0 7を持つ。音声合成部 1 0 7で作成された合成音は合成音情報作成部 1 0 8に送られる。合成音情報作成部 1 0 8では、合成音情報を作成し、作成した合成音情報を波形圧縮部 1 0 2 B に送出し、音声合成部 1 0 7から送られた合成音を合成音出力端子 1 0 0 dから出力する。合成音情報については、合成音の内容や合成音出力時のタイムスタンプ情報等が用いられる。

波形圧縮部 1 0 2 Bでは、音声検出部 1 0 1 Aから送られた波形データを圧縮し、合成音情報作成部 1 0 8で作成された合成音情報と、圧縮方式インデックス作成部 1 0 9で作成された圧縮方式のィンデッタスとを前記波形データの一部に含める。

波形データの一部に合成音情報、圧縮方式のインデックスを含める手法としては、 ①合成音情報、圧縮方式のインデックスを波形データのヘッダに含めて圧縮する方法や、 ②圧縮した波形データに合成音情報、圧縮方式のインデックスを付加する方法等が用いられる。圧縮方式としては、 VSELP方式、 PSI - CELP方式等が用いられる。

波形圧縮部 1 0 2 Bで圧縮された波形データは波形記憶部 1 0 5に送られる。波形記憶部 1 0 5では、波形圧縮部 1 0 2 Bから送られた圧縮波形データを波形送信部 1 0 3に送出し、同一データを記憶する。波形送信部 1 0 3では、波形圧縮部 1 0 2 Bから波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Fへ送信する。

波形 ·信号 ·圧縮方式，タスク情報受信部 1 0 4 Bにサーバ側装置 2 0◦ Fから送信された波形データ再送要求信号が入力されたとしょう。この場合、この受信された波形データ再送要求信号は波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bから波形記憶部 1 0 5に送られる。この受信された波形データ再送要求信号に応答して、波形記憶部 1 0 3では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。波形送信部 1 0 4 0では波形記憶部 1 0 5から送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Fに送信する。

図 7 Bを参照すると、サーバ側装置 2 0 0 Fは、入力端子 2 0 0 aと認識結果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端子 2 0 0 dとを持つ。サーバ側装置 2 0 0 Fは、波形 ·信号受信部 2 0 1 Cと、波形伸張部 2 0 2 Bと、波形データ再送要求信号送信部 2 0 6と、分析部 2 0 3 Aと、認識部 2 0 4 Cと、標準パタ一ン記憶部 2 0 5 Aと、合成音情報取得部 2 0 7と、圧縮方式ィンデッタス取得部 2 0 8と、認識エンジン選択部 2 0 9と、認識エンジン設定部 2 1 0と、圧縮方式取得部 2 1 1と、圧縮方式記憶部 2 1 2 とを備えている。

サーバ側装置 2 0 0 Fでは、端末側装置 1 ◦ 0 Fの波形送信部 1 0 3から送信された圧縮波形データ、又は始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）、又は圧縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号を波形 ·信号受信部 2 0 1 Cで受信する。

波形 ·信号受信部 2 0 1 Cでは、波形圧縮方式要求信号が受信された場合、その受信された波形圧縮方式要求信号を圧縮方式取得部 2 1 1へ送る。圧縮方式取得部 2 1 1では、波形 ·信号受信部 2 0 1 Cから波形圧縮方式要求信号が送られた場合、圧縮方式記憶部 2 1 2に記憶されている圧縮方式の中からサーバ側装置 2 0 0 Fで利用可能な圧縮方式を取得し、取得した圧縮方式情報を圧縮方式情報出力端子 2 0 0 dから端末側装置 1 0 0 Fに送信する。

波形 ·信号受信部 2 0 1 Cにおいて波形データが受信された場合、その受信された波形データは波形 ·信号受信部 2 0 1 Cから波形伸張部 2 0 2 Bに送出される。

波形 ·信号受信部 2 0 1 Cにおいて波形データの受信に失敗したとしょう。この場合、波形 ·信号受信部 2 0 1 Cは波形データ再送要求信号送信部 2 0 6に波形データ再送要求信号を送出する。波形データ再送要求信号送信部 2 0 6では、波形 ·信号受信部 2 0 1 Cから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Fに送信する。

波形伸張部 2 0 2 Bでは、波形 ·信号受信部 2 0 1 Cから送られたデータを波形データとその他のデータとに分離し、波形データを伸張する。その他の情報は合成音情報取得部 2 0 7と圧縮方式インデックス取得部 2 0 8に送られ、伸張された波形データは分析部 2 0 3 Aに送られる。

合成音情報取得部 2 0 7では、波形伸張部 2 0 2 Bから送られた情報から合成音情報を取得する。合成音情報取得部 2 0 7で取得された合成音情報は認識部 2 0 4 Cに送られる。

圧縮方式インデックス取得部 2 0 8では、波形伸張部 2 0 2 Bから送られた情報から圧縮方式のインデックスを取得する。圧縮方式インデックス取得部 2 0 8 で取得されたインデックスは認識エンジン選択部 2 0 9に送られる。認識ェンジン選択部 2 0 9では、圧縮方式ィンデックス取得部 2 0 8で取得されたィンデッタスをもとに認識に用いる認識エンジンを選択する。認識エンジン選択部 2 0 9 で選択されたエンジンの情報は認識ェンジン設定部 2 1 0と標準パターン記憶部 2 0 5 Aに送られる。

認識エンジン設定部 2 1 0では、認識エンジン選択部 2 0 9から送られたェンジン情報を元に使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、認識手法を認識部 2 0 4 Cへ送る。標準パターン記憶部 2 0 5 Aでは、認識エンジン選択部 2 0 9から送られたエンジン情報より使用する標準パターンを設定する。

分析部 2 0 3 Aでは、波形伸張部 2 0 2 Bで伸張された波形データを特徵ベタトルに変換する。特徴ベクトルとしてはケプストラム、 Δケプストラム等が用いられる。分析部 2 0 3 Aで分析された特徴べクトルは認識部 2 0 4 Cに送られる。認識部 2 0 4 Cでは、分析部 2 0 3 Aから送られた特徴べクトルと、標準パターン記憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、認識結果を求める。尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共に認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 0 Fに送信される。又は、両者が関連付けられることでどの合成音に対する認識結果であるかが対応付けされ、対応付けされた後の認識結果が認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 O Fに送信される。

波形 ·信号受信部 2 0 1 Cに始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号（始端キャンセル信号）が入力されたとしょう。この場合、この受信された始端キャンセル時の信号. （始端キャンセル信号）は波形 '信号受信部 2 0 1 Cから認識部 2 0 4 Cに送られる。認識部 2 0 4 Cでは、波形 · 信号受信部 2 0 1 Cから受信された始端キャンセル時の信号（始端キャンセル信号）が送られてきた場合、認識を途中で中断する。

とにか.く、分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aとの組み合わせは、波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段として働く。また、この認識手段は、認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けらた認識結果、又は認識結果と合成音情報を出力する。この第 7の実施の形態では、前記第 6の実施の形態の場合と同様に、圧縮方式を選択する時にサーバ側装置 2 0 0 Fと端末側装置 1 0 0 Fとで共通に利用可能である圧縮方式情報の他にタスクの情報を加味することによって、サーバ側装置 2 0 0 Fと端末側装置 1 0 0 Fとで共通に利用可能な圧縮方式であり、且つ、入力されたタスクに適した圧縮方式を選択することが可能となる。

上記第 7の実施の形態に対応した音声認識方法は、端末側装置 1 0 0 Fにおいて、コンテンツ側から送信されたタスク情報と、サーバ側装置 2 0 O Fから送信されたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報とを受信するステップと、サーバ側装置 2 0 O Fで利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ·タスク対応テーブル記憶部 1 1 1 Aから送られたタスク情報と圧縮方式との対応テーブルと、サーバ側装置 2 0 0 Fで利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステツプと、を有する。

以上説明したように、本発明によれば、認識対象となるタスクの規模や難易度に適応し、クライアントとサーバ間で相互の音声処理仕様、能力を確認して音声圧縮伸張等の音声処理仕様を最適に設定することができる、という効果を奏する。本発明によれば、更に、サーバで認識処理を行うため大規模なタスクの認識処理が可能となり、認識エンジン等のァップデートに迅速に対応することができるという効果を奏する。

上記実施の形態において、上記端末側装置としては、例えば携帯電話端末が好適とされるが、端末側装置は、携帯電話端末に限定されるものではなく、サーバ · クライアント型音声認識装置のサーバ側装置に接続可能とされる音声入力可能な任意の情報端末を含む。

以上本発明を上記各実施の形態に即して説明したが、本発明は、上記実施の形態の構成にのみ限定されるものではなく、各実施の形態の組合せを含むものであり、本発明は、特許請求の範囲に記載の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

請求の範囲

1. 端末側装置（1 00) とサーバ側装置（200) とを備えた音声認識装置であって、

前記端末側装置（1 00) 力

入力された音声データの音声区間を検出して、検出された音声区間の波形データを出力する音声検出部（1 01) と、

前記検出された音声区間の波形データを圧縮して、圧縮された波形データを出力する波形圧縮部（102) と、

前記圧縮された波形データを前記サーバ側装置へ送信する波形送信部（1 0 3) と、を備え、

前記サーバ側装置（200) 、

前記端末側装置から送信されてきた前記圧縮された波形データを受信して、受信された波形データを出力する波形受信部（201) と、

前記受信された波形データを伸張して、伸張された波形データを出力する波形伸張部（202) と、

前記伸張された波形データを用レ、て認識処理を行レ、、認識した結果を出力する認識手段（203、 204、 205) と、

を備えている、ことを特徴とする音声認識装置。

2. 端末側装置（ 1 00 A) とサーバ側装置（ 200 A) とを備えた音声認識装置であって、

前記端末側装置（1 0 OA) ,

入力された音声の波形データを受信して受信された波形データを出力すると共に、前記サーバ側装置から送信される波形データ再送要求信号を受信して受信された波形データ再送要求信号を出力する波形 ·信号受信部（1 04) と、前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力する音声検出部（101) と、

前記検出された音声区間の波形データを圧縮して、圧縮された波形データを出力する波形圧縮部（1 02) と、前記圧縮された波形データを記憶された波形データとして一時記憶しながら前記記憶された波形データを出力すると共に、前記受信された波形データ再送要求信号に応答して前記記憶された波形データを出力する波形記憶部（105) と、前記記憶された波形データを前記サーバ側装置に送信する波形送信部（1 0 3) と、を備え、

前記サーバ側装置（20 OA) 、

前記端末側装置から送信された圧縮波形データを受信して受信された波形データを出力すると共に、前記圧縮波形データの受信に失敗した場合に前記波形データ再送要求信号を出力する波形受信部（201 A) と、

前記波形受信部から受け取った前記波形データ再送要求信号を前記端末側装置へ送信する波形データ再送要求信号送信部（206) と、を備えている、ことを特徴とする音声認識装置。

3. 端末側装置（1 Ο 0 Β、 1 00 C) とサーバ側装置（ 200 B、 200 C) とを備えた音声認識装置であって、

前記端末側装置（ 1 00 B、 1 00 C) 力

入力された音声の波形データを受信して受信された波形データを出力すると共に、前記サーバ側装置から送信される波形データ再送要求信号を受信して受信された波形データ再送要求信号を出力する波形 ·信号受信部（1 04) と、前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力すると共に、音声の検出後に該検出がキャンセルされた場合に始端キャンセル信号を出力する音声検出部（101 A) と、

前記検出された音声区間の波形データを圧縮して、圧縮された波形データを出力する波形圧縮部（1 02、 102 A) と、

前記圧縮された波形データを記憶された波形データとして一時記憶しながら前記記憶された波形データを出力すると共に、前記受信された波形データ再送要求信号に応答して前記記憶された波形データを出力する波形記憶部（1 05) と、前記記憶された波形データを前記サーバ側装置に送信する波形送信部（1 0 3) と、

前記音声検出部から出力された前記始端キャンセル信号を前記サーバ側装置に送信する始端キャンセル信号送信部（1 06) と、を備え、

前記サーバ側装置（200 B、 200 C) 、

前記端末側装置から送信された圧縮波形データと前記始端キャンセル信号とを受信して、受信された波形データと受信された始端キヤンセル信号とを出力すると共に、前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出力する波形 ·信号受信部（20 1 B) と、

前記受信された波形データを伸張して、伸張された波形データを出力する波形伸張部（202、 202 A) と、

前記伸張された波形データを用いて認識処理を行い、認識した結果を出力すると共に、前記受信された始端キャンセル信号に応答して認識処理を中止する認識手段（203、 204 A、 204B、 205) と、

前記波形 ·信号受信部から出力される前記波形データ再送要求信号を前記端末側装置へ送信する波形データ再送要求信号送信部（206) と、

¾r備える、

ことを特徴とする音声認識装置。

4. 前記端末側装置（1 0 O C) 1S

合成音を合成して、合成された合成音を出力する音声合成部（107) と、前記合成された合成音の情報を作成して、作成された合成音情報を出力すると共に、前記合成音を出力する合成音情報作成部（108) と、を更に備え、前記波形圧縮部（1 02A) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込んで前記波形記憶部へ送出し、

前記サーバ側装置（200 C) 力

前記波形伸張部で伸張された波形データの中から前記合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（207) を更に備え、前記認識手段（204B) 力 S、認識が終了した場合に前記取得された合成音情報より合成音と前記認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 3項に記載

5. 端末側装置（100D) とサーバ側装置（200D) とを備えた音声認識装置であって、

前記端末側装置（10 OD)

入力された波形データと、前記サーバ側装置から送信される波形データ再送要求信号と、前記サーバ側装置から送信される前記サーバ側装置で利用可能な圧縮方式情報とを少なくとも受信して、受信された波形データ、受信された波形データ再送要求信号、および受信された圧縮方式情報を出力する波形 ·信号 ·圧縮方式受信部（ 1 ◦ 4 A) と、

前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力する音声検出部（101 A) と、

前記受信した圧縮方式情報より最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（110) と、

前記選択された圧縮方式のィンデックスを作成して、作成された圧縮方式ィンデックスを出力する圧縮方式ィンデックス作成部 (109) と、

前記検出された音声区間の波形データを圧縮して、前記作成された圧縮方式ィンデックスを圧縮された波形データの一部に組み込んだ状態で、前記圧縮された波形データを出力する波形圧縮部（102B) と、

前記圧縮された波形データを記憶された波形データとして一時記憶しながら前記記憶された波形データを出力すると共に、前記受信された波形データ再送要求信号に応答して、前記記憶された波形データを出力する波形記憶部（105) と、

前記記憶された波形データを前記サーバ側装置へ送信する波形送信部（1 0 3) と、

圧縮方式要求信号を前記サーバ側装置へ送信する圧縮方式要求信号送信部（ 1 12) と、を備え、

前記サーバ側装置（200D) 、前記端末側装置から送信された圧縮波形データと圧縮方式要求信号とを受信して、受信された波形データと受信された圧縮方式要求信号とを出力すると共に、前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出力する波形 ·信号受信部（201 C) と、

前記受信された波形データを伸張して、伸張された波形データを出力する波形伸張部（202 B) と、

前記伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段（203A、 204C、 205 A) と、

前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末側装置に送信波形データ再送要求信号送信部（206) と、

前記サーバ側装置で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（ 2 12) と、

前記受信された圧縮方式要求信号に応答して、前記圧縮方式記憶部に記憶されている圧縮方式情報を取得し、前記端末側装置に前記圧縮方式情報を送信する圧縮方式取得部（21 1) と、

前記伸張された波形データから圧縮方式のィンデックスを取得して、取得された圧縮方式のインデックスを出力する圧縮方式インデックス取得部 (208) と、前記取得された圧縮方式のィンデッタスから認識エンジンを選択して、選択されたエンジンを出力する認識ェンジン選択部 (210) と、

前記選択されたエンジンを記憶されているエンジンの中から前記認識手段に設定する認識エンジン設定部（210) と、

を備えている、ことを特徴とする音声認識装置。

6. 前記端末側装置（100D) 力、

合成音を合成して、合成された合成音を出力する音声合成部（107) と、前記合成された合成音の情報を作成して、作成された合成音情報を出力すると共に、前記合成音を出力する合成音情報作成部（108) と、を更に備え、前記波形圧縮部（102B) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込んで、前記波形記憶部に送出し、

前記サーバ側装置（200D) 力前記伸張された波形データから前記合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（2 0 7 ) を更に備え、

前記認識手段（2 0 4 C ) 、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 5項に記載の音声認識装置。

7 . 端末側装置（ 1 0 0 E ) とサーバ側装置 ( 2 0 O E ) とを備えた音声認識装置であって、

前記端末側装置（1 0 0 E ) 、

入力された波形データと、前記サーバ側装置から送信される波形データ再送要求信号と、前記サーバ側装置から送信される前記サーバ側装置で利用可能な圧縮方式情報とを少なくとも受信して、受信された波形データ、受信された波形データ再送要求信号、および受信された圧縮方式情報とを出力する波形 ·信号 ·圧縮方式受信部（ 1 0 4 A) と、

前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力すると共に、音声の検出後に該検出がキャンセルされた場合に始端キャンセル信号を出力する音声検出部（1 0 1 A) と、

前記受信した圧縮方式情報より最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（1 1 0 ) と、

前記選択された圧縮方式のィンデックスを作成して、作成された圧縮方式ィンデッタスを出力する圧縮方式インデックス作成部 ( 1 0 9 ) と、

前記検出された音声区間の波形データを圧縮して、圧縮された波形データを、前記作成された圧縮方式ィンデックスを前記圧縮された波形データの一部に組み込んだ状態で、出力する波形圧縮部（1 0 2 B ) と、

前記圧縮された波形データを記憶された波形データとして一時記憶しながら前記記憶された波形データを出力すると共に、前記受信された波形データ再送要求信号に応答して、前記記憶された波形データを出力する波形記憶部（1 0 5 ) と、

前記記憶された波形データを前記サーバ側装置へ送信する波形送信部（1 0 3 ) と、

前記音声検出部から出力された前記始端キャンセル信号を前記サーバ側装置に送信する始端キャンセル信号送信部 ( 1 0 6 ) と、

圧縮方式要求信号を前記サーバ側装置へ送信する圧縮方式要求信号送信部（ 1 1 2 ) と、を備え、

前記サーバ側装置（2 0 0 E ) 、

前記端末側装置から送信された圧縮波形データと、前記始端キャンセル信号と、前記圧縮方式要求信号と、コンテンッ側から送信されたタスク情報とを受信して、受信された波形データと、受信された始端キャンセル信号と、受信された圧縮方式要求信号と、受信されたタスク情報とを出力すると共に、前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出力する波形 ·信号 ·タスク情報受信部（2 0 1 D ) と、

前記受信された波形データを伸張して、伸張された波形データを出力する波形伸張部（2 0 2 B ) と、

前記伸張された波形データを用いて認識処理を行い、認識した結果を出力すると共に、前記受信された始端キャンセル信号に応答して認識処理を中止する認識手段 ( 2 0 3 A、 2 0 4 C、 2 0 5 A) と、

前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末側装置に送信波形データ再送要求信号送信部（2 0 6 ) と、

前記受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（2 1 3 ) と、

タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧縮方式 ·タスク情報対応テーブル記憶部 ( 2 1 2 A) と、

前記受信された圧縮方式要求信号に応答して、前記記憶されたタスク情報と前記圧縮方式 ·タスク情報対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、前記端末側装置に前記圧縮方式情報を送信する圧縮方式取得部（2 1 1 A) と、

前記伸張された波形データから圧縮方式のィンデックスを取得して、取得された圧縮方式のィンデックスを出力する圧縮方式ィンデックス取得部 ( 2 0 8 ) と、前記取得された圧縮方式のィンデッタスから認識ェンジンを選択して、選択されたエンジンを出力する認識エンジン選択部（209) と、

を備えている、ことを特徴とする音声認識装置。

8. 前記端末側装置（1 00E) 力

合成音を合成して、合成された合成音を出力する音声合成部（107) と、前記合成された合成音の情報を作成して、作成された合成音情報を出力すると共に、前記合成音を出力する合成音情報作成部（1 08) と、を更に備え、前記波形圧縮部（1 02B) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込んで、前記波形記憶部に送出し、

前記サーバ側装置 (200 E) 、

前記伸張された波形データから前記合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（207) を更に備え、

前記認識手段（204 C) 、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 7項に記載の音卢認識装 rf。

9. 端末側装置（ 1 00 F) とサーバ側装置（ 200 F) とを備えた音声認識装置であって、

前記端末側装置（1 0 O F) 、

入力された波形データと、コンテンツ側から送信されたタスク情報と、前記サーバ側装置から送信された波形データ再送要求信号と、前記サーバ側装置から送信された前記サーバ側装置で利用可能な圧縮方式情報とを受信して、受信された波形データ、受信されたタスク情報、受信された波形データ再送要求信号、および受信された圧縮方式情報とを出力する波形 ·信号 ·圧縮方式 ·タスク情報受信部（1 04B) と、

前記受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（1 1 3) と、タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 ·タスク情報対応テーブル記憶部（1 1 1 A) と、前記受信された圧縮方式情報に応答して、前記記憶されたタスク情報と、前記圧縮方式 · タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルとをもとに、最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（1 1 O A) と、

前記選択された圧縮方式のィンデックスを作成して、作成された圧縮方式ィンデッタスを出力する圧縮方式インデックス作成部（1 0 9 ) と、。

前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力する音声検出部（1 0 1 A) と、

圧縮方式要求信号を前記サーバ装置へ送信する圧縮方式要求信号送信部（1 1 2 ) と、を備え、

前記サーバ側装置（2 0 0 F ) 、

前記端末側装置から送信された圧縮波形データと、前記圧縮方式要求信号とを受信して、受信された波形データと受信された圧縮方式要求信号とを出力すると共に、前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出力する波形 ·信号受信部（2 0 1 C) と、 .

前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末側装置に送信する波形データ再送要求信号送信部（206) と、

前記伸張された波形データから圧縮方式のインデックスを取得して、取得された圧縮方式のインデックスを出力する圧縮方式インデックス取得部 (208) と、前記取得された圧縮方式のィンデッタスから認識エンジンを選択して、選択されたエンジンを出力する認識エンジン選択部（210) と、

前記選択されたェンジンを記憶されているエンジンの中から前記認識部に設定する認、識エンジン設定部（210) と、

を備えている、ことを特徴とする音声認識装置。

10. 前記端末側装置（ 100 F) 、

前記サーバ側装置（200 F) 力

前記認識手段（204 C) 、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 9項に記載の音端末（100) から送信された圧縮波形データを受信して伸張し、該伸張された波形データを用いて認識処理を行い、認識した結果を出力するサーバ装置（200) に接続され、サーバ ·クライアント音声認識装置を構成する端末 (1 00) であって、

前記検出された音声区間の波形データを圧縮して、圧縮された波形デタを出力する波形圧縮部（102) と、

前記圧縮された波形データを前記サーバ装置に送信する波形送信部（1 03) と、

を備えている、ことを特徴とする端末。

1 2. 端末（100 A、 1 00B、 1 00C、 100D、 1 00 F) から送信された圧縮波形データを受信して伸張し、該伸張された波形データを用いて認識処理を行い、認識した結果を出力するサーバ装置（20 OA) に接続され、サーバ . クライアント音声認識装置を構成する端末（100A、 1 0 OB, 1 00 C、 1 00 D、 1 00 F) であって、

入力された音声の波形データと、前記サーバ装置から送信された波形データ再送要求信号とを受信して、受信された波形データと受信された波形データ再送要求信号とを出力する波形 '信号受信部（1 04、 1 04 A、 1 04 B) と、前記受信された波形データの音声区間を検出して、検出された音声区間の波形データを出力する音声検出部（1 01、 1 01A) と、

前記検出された音声区間の波形データを圧縮して、圧縮された波形データを出力する波形圧縮部（102、 1 02 A、 1 02 B) と、

前記圧縮された波形データを一時記憶しながら、記憶された波形データを出力すると共に、前記受信された波形データ再送要求信号に応答して前記記憶された波形データを出力する波形記憶部（1 05) と、

前記記憶された波形データを前記サーバ装置に送信する波形送信部（1 03) と、

を備えている、ことを特徴とする端末。

1 3. 前記音声検出部（1 0 1 A) で音声の検出後に該検出がキャンセルされた場合、前記音声検出部から送信された始端キャンセル時の信号を受け取り、始端キャンセル信号を |ϋ記サーバ装置に送信する始端キャンセル信号送信部（1

06) をさらに備えている、ことを特徴とする請求の範囲第 12項に記載の端末。

14. 前記波形 ·信号受信部（ 104 Α) 前記サーバ側装置から送信された前記サーバ側装置で利用可能な圧縮方式情報を受信した場合に、前記圧縮方式情報より最適な圧縮方式を選択して、圧縮された圧縮方式を出力する圧縮方式選択部（1 10) と、

前記選択された圧縮方式のィンデックスを作成して、作成された圧縮方式ィンディスクを出力する圧縮方式ィンデックス作成部 (109) と、をさらに備え、前記波形圧縮部（102 B) は、作成された圧縮方式インデックスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 12項に記載の端末。

15. 前記波形 ·信号受信部（104 Α) 力前記サーバ側装置から送信された前記サーバ側装置で利用可能な圧縮方式情報を受信した場合に、前記圧縮方式情報より最適な圧縮方式を選択して、圧縮された圧縮方式を出力する圧縮方式選択部（1 10) と、

前記選択された圧縮方式のィンデックスを作成して、作成された圧縮方式ィンディスクを出力する圧縮方式インデックス作成部 (109) と、をさらに備え、前記波形圧縮部（102B) は、作成された圧縮方式インデックスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 13項に記载の端术。

16. 合成音を合成して、合成された合成音を出力する音声合成部（107) と、

前記合成された合成音の情報を作成し、作成された合成音情報を出力すると共に合成音を出力する合成音情報作成部（108) と、

をさらに備え、前記波形圧縮部（102Α、 102 Β) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込む、ことを特徵とする請求の範囲第 12項に記載の端末。

17. 合成音を合成して、合成された合成音を出力する音声合成部（107) と、

をさらに備え、前記波形圧縮部（102A、 102 B) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 13項に記載の端末。

18. 合成音を合成して、合成された合成音を出力する音声合成部（107) と、

をさらに備え、前記波形圧縮部（102B) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 4項に記載の端末。

19. 合成音を合成して、合成された合成音を出力する音声合成部（107) と、

をさらに備え、前記波形圧縮部（102B) は、前記作成された合成音情報を前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 5項に記載の端末。

20. 前記波形 ·信号受信部（ 104 B) では、入力された波形データと、コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信される波形データ再送要求信号と、前記サーバ装置から送信された前記サーバ装置で利用可能な圧縮方式情報とを受信し、

前記受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（1 1 3) と、

タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 · タスク情報対応テーブル記憶部（1 1 1A) と、前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受信した場合、前記記憶されたタスク情報と、前記圧縮方式 · タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルと、前記受信した圧縮方式情報をもとに最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（ 1 1 0 A) と、

前記選択された圧縮方式のィンデイクスを作成して、作成された圧縮方式ィンデイクスを出力する圧縮方式ィンデイクス作成部 ( 1 0 9 ) と、をさらに備え、前記波形圧縮部（1 0 2 B ) は、作成された圧縮方式インデイクスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 2項に記載の端末。

2 1 . 前記波形 ·信号受信部（ 1 0 4 B ) では、入力された波形データと、コンテンツ側から送信されたタスク情報と、前記サーバ装置から送信される波形データ再送要求信号と、前記サーバ装置から送信された前記サーバ装置で利用可能な圧縮方式情報とを受信し、

前記受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（1 1 3 ) と、

タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式' タスク情報対応テーブル記憶部（1 1 1 A) と、前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受信した場合、前記記憶されたタスク情報と、前記圧縮方式 · タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルと、前記受信した圧縮方式情報をもとに最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（1 1 O A) と、

前記選択された圧縮方式のィンデイクスを作成して、作成された圧縮方式ィンデイクスを出力する圧縮方式インデイクス作成部 ( 1 0 9 ) と、をさらに備え、前記波形圧縮部（1 0 2 B ) は、作成された圧縮方式インデイクスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 3項に記載の端末。

2 2 . 前記波形 ·信号受信部（ 1 0 4 B ) では、入力された波形データと、コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信される波形データ再送要求信号と、前記サーバ装置から送信された前記サーバ装置で利用可能な圧縮方式情報とを受信し、

タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 'タスク情報対応テーブル記憶部（1 1 1 A) と、前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受信した場合、前記記憶されたタスク情報と、前記圧縮方式 'タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルと、前記受信した圧縮方式情報をもとに最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（ 1 1 0 A) と、

前記選択された圧縮方式のィンデイクスを作成して、作成された圧縮方式ィンデイクスを出力する圧縮方式インデイクス作成部 ( 1 0 9 ) と、をさらに備え、前記波形圧縮部（1 0 2 B ) は、作成された圧縮方式インデイクスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 6項に記載の端末。

2 3 . 前記波形 ·信号受信部（ 1 0 4 B ) では、入力された波形データと、コンテンツ側から送信されたタスク情報と、前記サーバ装置から送信される波形データ再送要求信号と、前記サーバ装置から送信された前記サーバ装置で利用可能な圧縮方式情報とを受信し、

タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 'タスク情報対応テーブル記憶部（1 1 1 A) と、前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受信した場合、前記記憶されたタスク情報と、前記圧縮方式 'タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルと、前記受信した圧縮方式情報をもとに最適な圧縮方式を選択して、選択された圧縮方式を出力する圧縮方式選択部（ 1 1 0 A) と、前記選択された圧縮方式のィンディクスを作成して、作成された圧縮方式ィンデイクスを出力する圧縮方式インデイクス作成部 (1 09) と、をさらに備え、前記波形圧縮部（1 02 B) は、作成された圧縮方式インデイクスを前記圧縮された波形データの一部に組み込む、ことを特徴とする請求の範囲第 1 7項に記載の端末。

24. 入力されたデータの音声区間を検出し、該検出された音声区間の波形データを圧縮し、該圧縮された波形データを送信する端末（100、 1 00A、 100 B、 1 00 C、 1 00 D、 1 00 E) に接続され、前記端末とともに、サーバ ' クライアント音声認識装置を構成するサーバ装置（200、 20 OA, 2 00B、 200 C、 200D、 200 E) であって、

前記端末から送信された波形データを受信して、受信された波形データを出力する受信部（201、 201 A、 201 B、 201 C、 201 D) と、

前記受信された波形データを伸張して、伸張された波形データを出力する波形伸張部（202、 202 A、 202 B) と、

前記伸張された波形データを用いて認識処理を行い、認識した結果を出力する認識手段（203、 203 A、 204、 204 A、 204B、 204C、 205、 205 A) と、

を備えている、ことを特徴とするサーバ装置。

25. 前記受信部（201 A、 201 B、 201 C、 201 D) で、前記圧縮波形データの受信に失敗した場合に、波形データ再送要求信号を前記端末に送信する波形データ再送要求信号送信部（206) をさらに備えている、ことを特徴とする請求の範囲第 24項に記載のサーバ装置。

26. 前記端末において音声の検出後に該検出がキャンセルされた場合に送信される始端キャンセル信号を前記受信部（20 1 B、 201 C、 20 ID) が受信した場合に、前記受信部からの通知に基づき、前記認識手段（204A、 2 04B、 204 C) は認識処理を中止する、ことを特徴とする請求の範囲第 24 項に記載のサーバ装置。

27. 前記受信部（201 C) は、前記端末から送信される圧縮方式要求信号を受信して、受信された圧縮方式要求信号を出力し、前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（2 1 2 ) と、

前記受信された圧縮方式要求信号に応答して、前記圧縮方式記憶部に記憶されている圧縮方式情報を取得し、前記端末に圧縮方式情報を送信する圧縮方式取得部（ 2 1 1 ) と、

前記伸張されたデ一タから圧縮方式のィンデックスを取得して、取得された圧縮方式のインデックスを出力する圧縮方式インデックス取得部（2 0 8 ) と、前記取得された圧縮方式のインデックスから認識エンジンを選択して、選択された認識エンジンを出力する認識エンジン選択部（2 0 9 ) と、

前記選択されたェンジンを記憶されているエンジンの中から設定する認識ェンジン設定部 ( 2 1 0 ) と、

を備えている、ことを特徴とする請求の範囲第 2 4項に記載のサーバ装置。

2 8 . 前記受信部（2 0 1 C) は、前記端末から送信される圧縮方式要求信号を受信して、受信された圧縮方式要求信号を出力し、

前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（2 1 2 ) と、

前記受信された圧縮方式要求信号に応答して、前記圧縮方式記憶部に記憶されている圧縮方式情報を取得し、前記端末に圧縮方式情報を送信する圧縮方式取得部（2 1 1 ) と、

前記伸張されたデータから圧縮方式のィンデックスを取得して、取得された圧縮方式のインデックスを出力する圧縮方式インデックス取得部 ( 2 0 8 ) と、前記取得された圧縮方式のィンデッタスから認識ェンジンを選択して、選択された認識エンジンを出力する認識エンジン選択部 ( 2 0 9 ) と、

前記選択されたエンジンを記憶されているエンジンの中から設定する認識ェンジン設定部 ( 2 1 0 ) と、

を備えている、ことを特徴とする請求の範囲第 2 5項に記載のサーバ装置。

2 9 . 前記受信部（2 0 1 C) は、前記端末から送信される圧縮方式要求信号を受信して、受信された圧縮方式要求信号を出力し、

前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（2 1 2) と、

前記受信された圧縮方式要求信号に応答して、前記圧縮方式記憶部に記憶されている圧縮方式情報を取得し、前記端末に圧縮方式情報を送信する圧縮方式取得部（21 1) と、

前記伸張されたデータから圧縮方式のィンデックスを取得して、取得された圧縮方式のィンデックスを出力する圧縮方式ィンデックス取得部 (208) と、前記取得された圧縮方式のインデックスから認識エンジンを選択して、選択された認識エンジンを出力する認識エンジン選択部（209) と、

前記選択されたエンジンを記憶されているエンジンの中から設定する認識ェンジン設定部（2 1 0) と、

を備えている、ことを特徴とする請求の範囲第 26項に記載のサーバ装置。

30. 前記波形伸張部（202A) で伸張された波形データから合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（207) をさらに備え、前記認識部（204B) ,、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徵とする請求の範囲第 24項に記載のサーバ装置。

31. 前記波形伸張部（202 A) で伸張された波形データから合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（207) をさらに備え、前記認識部（204B) 力認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行、、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 25項に記載のサーバ装置。

32. 前記波形伸張部（202 A) で伸張された波形データから合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部 (207) をさらに備え、前記認識部（204B) 力 S、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 26項に記載のサーバ装置。

3 3 . 前記波形伸張部（2 0 2 B ) で伸張された波形データから合成音情報を取得して、取得された合成音情報を出力する合成音情報取得部（2 0 7 ) をさらに備え、前記認識部（2 0 4 C) 力 S、認識が終了した場合に前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する、ことを特徴とする請求の範囲第 2 7項に記載のサーバ装置。

3 4 . 前記受信部（2 0 1 D) 、前記端末から送信される波形データと、始端キャンセル信号と、圧縮方式要求信号と、コンテンツ側から送信されたタスク情報とを受信し、

前記受信部で受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（2 1 3 ) と、

タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧縮方式 · タスク情報対応テーブル記憶部（2 1 2 A) と、

前記受信部において圧縮方式要求信号を受信した場合に、前記記憶されたタスク情報と前記圧縮方式 · タスク情報対応テープル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、前記端末に送信する圧縮方式取得部（2 1 1 A) とをさらに備えている、ことを特徴とする請求の範囲第 2 4項に記載のサーバ装置。

3 5 . 前記受信部（2 0 1 D) 力前記端末から送信される波形データと、始端キャンセル信号と、圧縮方式要求信号と、コンテンツ側から送信されたタスク情報とを受信し、

前記受信部において圧縮方式要求信号を受信した場合に、前記記憶されたタスク情報と前記圧縮方式 · タスク情報対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、前記端末に送信する圧縮方式取得部（2 1 1 A) とをさらに備えている、ことを特徴とする請求の範囲第 25項に記載のサーバ装置。

36. 前記受信部（201D) 力前記端末から送信される波形データと、始端キャンセル信号と、圧縮方式要求信号と、コンテンッ側から送信されたタスク情報とを受信し、

前記受信部で受信されたタスク情報を記憶して、記憶されたタスク情報を出力するタスク情報記憶部（213) と、

タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧縮方式 .タスク情報対応テーブル記憶部 (212 A) と、

前記受信部において圧縮方式要求信号を受信した場合に、前記記憶されたタスク情報と前記圧縮方式 ·タスク情報対応テーブル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、前記端末に送信する圧縮方式取得部（21 1A) とをさらに備えている、ことを特徴とする請求の範囲第 26項に記載のサーバ装置。

37. サーバ装置（200) と端末（100、 100 B) を有するサーバ · クライアントシステムの音声認識方法であって、

前記端末（100、 100B) において、

入力されたデータの音声区間を検出するステップ（101) と、

前記検出された音声区間の波形データを圧縮するステップ（102) と、前記圧縮された波形データを前記サーバ装置に送信するステップ（1 03) と、を有し、

前記サーバ装置（200、 200 B) において、

前記端末から出力された波形データを受信するステップ (201) と、前記受信された波形データを伸張するステップ（202) と、

前記伸張された波形データを用いて認識処理を行い、認識した結果を出力するステップ（203, 204, 204A、 205) と、

を有する、ことを特徴とする音声認識方法。

38. サーバ装置（200A、 200 B、 200 C、 200D、 200 E、 200 F) と端末（100A、 100B、 100C、 100D、 100E、 10 0 F) を有するサーバ ·クライアントシステムの音声認識方法であって、前記端末（100 A、 100 B、 100 C、 100D、 100 F) において、入力された音声の波形データを受信するステップ（104、 104A、 104 B) と、

前記受信された波形データの音声区間を検出するステップ（101、 101 A) と、

前記検出された音声区間の波形データを圧縮するステップ（102、 102B) と、

前記圧縮された波形データを波形記憶部（105) に一時記憶しながら前記サ —バ装置に送信するステップ（103) と、

前記サーバ装置から送信される波形データ再送要求信号を受信した場合に、波形記憶部（105) に記憶された波形データを、前記サーバ装置に送信するステップ（1 04， 104A、 104B、 103) と、

を有し、

前記サーバ装置（200 A、 200B、 200 C、 200 D、 200 E) において、

前記端末から出力される波形データを受信するステップ（2◦ 1 A、 201 B、

201 C、 201 D) と、

前記受信された波形データを伸張するステップ（202、 202 B) と、前記伸張された波形データを用いて認識処理を行い、認識した結果を出力するステップ（203， 203 A、 204, 204 A、 204C、 205、 205 A) と、

前記端末から送信される圧縮波形データの受信に失敗した場合には、波形データ再送要求信号を前記端末に送信するステップ（206) と、

を有する、ことを特徵とする音声認識方法。

39. 前記端末（100B) において、

音声の検出後に該検出がキャンセルされた場合、始端キャンセル信号を前記サ —パ装置に送信するステップ（106) をさらに有し、

前記サーバ装置（200 B) において、

前記端末からの前記始端キヤンセル信号を受信した場合に、認識処理を中止するステップ（201 B， 204A) を有する、ことを特徴とする請求の範囲第 3 7項記載の音声認識方法。

40. 前記端末（100B、 100D、 100C、 100E、 100 F) において、

音声の検出後に該検出がキャンセルされた場合、始端キャンセル信号を前記サーバ装置に送信するステップ（106) をさらに有し、

前記サーバ装置（200B、 200D、 200C、 200E、 200 F) において、

前記端末からの前記始端キャンセル信号を受信した場合に、認識処理を中止するステップ (201 B, 201 C、 201 D、 204 A、 204 C) を有する、ことを特徴とする請求の範囲第 38項記載の音声認識方法。

41. 前記端末（100D) において、

前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報を受信するステップ（104 A) と、

前記受信した圧縮方式情報により最適な圧縮方式を選択するステップ（1 1 0) と、

前記選択された圧縮方式のィンデックスを作成するステップ (109) と、音声区間の波形データを圧縮し、作成された圧縮方式ィンデックスを圧縮された波形データの一部に組み込んで、前記サーバ装置に送信するステップ（102 B, 105， 103) と、

さらにを有し、

前記サーバ装置（200D) において、

前記端末から送信される圧縮方式要求信号を受信した場合に、前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（212) に記憶されている圧縮方式情報を取得し、前記端末に圧縮方式情報を送信するステップ（211) と、

伸張されたデータから圧縮方式のィンデックスを取得するステップ（208) と、

前記取得された圧縮方式のィンデックスから認識エンジンを選択するステツプ（ 209 ) と、

前記選択されたエンジンを記憶されているエンジンの中から設定するステツプと (21 0)、

さらにを有する、ことを特徴とする請求の範囲第 38項記載の音声認識方法。 42. 前記端末（100D、 1 0 OF) において、

前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報を受信するステップ（1 04 A) と、

前記選択された圧縮方式のィンデックスを作成するステツプ (1 09) と、音声区間の波形データを圧縮し、作成された圧縮方式ィンデックスを圧縮された波形データの一部に組み込んで、前記サーバ装置に送信するステップ（1 02

B, 105, 103) と、

を有し、

前記サーバ装置（200D、 2 O OF) において、

前記端末から送信される圧縮方式要求信号を受信した場合に、前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部（21 2) に記憶されている圧縮方式情報を取得し、前記端末に圧縮方式情報を送信するステップ（21 1) と、

伸張されたデータから圧縮方式のインデックスを取得するステップ（208) と、

前記取得された圧縮方式のィンデッタスから認識ェンジンを選択するステツプ（209) と、

前記選択されたエンジンを記憶されているエンジンの中から設定するステツプと（2 1 0)、

を有する、ことを特徴とする請求の範囲第 40項記載の音声認識方法。

43. 前記端末（100D、 1 00E、 1 00 F) において、

合成音を合成するステップ（1 07) と、

前記合成された合成音の情報を作成し、合成音を出力するステップ（1 08) と、

検出された音声区間の波形データを圧縮し、前記作成された合成音情報を前記波形データの一部に組み込んで、前記サーバ装置に送信するステップ（102B， 105、 103) と、

をさらに含み、

前記サーバ装置（200D、 200 E、 200 F) において、

前記伸張されたデータから合成音情報を取得するステップ（207) を有し、認識が終了した場合に、前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する（204C)、ことを特徴とする請求の範囲第 38項に記載の音声認識方法。

44. 前記端末（100 D、 100E、 100 F) において、

合成音を合成するステップ（107) と、

検出された音声区間の波形データを圧縮し、前記作成された合成音情報を前記波形データの一部に組み込んで、前記サーバ装置に送信するステップ（102B， 105, 103) と、

をさらに含み、

前記サーバ装置（200 D、 200E、 200 F) において、

前記伸張されたデータから合成音情報を取得するステップ（207) を有し、認識が終了した場合に、前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する (204 C)、ことを特徴とする請求の範囲第 40項に記載の音声認識方法。

45. 前記端末（100 D、 100 F) において、

合成音を合成するステップ（107) と、

前記合成された合成音の情報を作成し、合成音を出力するステップ（108) と、

検出された音声区間の波形データを圧縮し、前記作成された合成音情報を前記波形データの一部に組み込んで、前記サーバ装置に送信するステップ（102B, 1 0 5, 1 0 3) と、

をさらに含み、

前記サーバ装置（200D、 2 0 O F) において、

前記伸張されたデータから合成音情報を取得するステップ（20 7) を有し、認識が終了した場合に、前記取得された合成音情報より合成音と認識結果との対応付けを行い、対応付けされた認識結果、又は認識結果と合成音情報を出力する（204 C)、ことを特徴とする請求の範囲第 4 2項に記載の音声認識方法。

46. 前記サーバ装置（200 E) において、

コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部（ 2 1 3) に記憶するステップ（20 1 D) と、

圧縮方式要求信号を受信した場合に、タスク情報と、圧縮方式との対応テープル（2 1 2 A) より、利用可能な圧縮方式情報を取得し、前記端末に送信するステツプ（2 0 1 D， 2 1 1 A) をさらに有することを特徴とする請求の範囲第 3 8項に記載の音声認識方法。

47. 前記サーバ装置（20 0 E) において、

コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部（2 1 3) に記憶するステップ（20 1 D) と、

圧縮方式要求信号を受信した場合に、タスク情報と、圧縮方式との対応テープル（2 1 2A) より、利用可能な圧縮方式情報を取得し、前記端末に送信するステツプ（2 0 1 D， 2 1 1 A) をさらに有することを特徴とする請求の範囲第 4 0項に記載の音声認識方法。

48. 前記サーバ装置（20 0 E) において、

コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部（2 1 3) に記憶するステップ（2 0 1 D) と、

圧縮方式要求信号を受信した場合に、タスク情報と、圧縮方式との対応テープル（2 1 2 A) より、禾 lj用可能な圧縮方式情報を取得し、前記端末に送信するステツプ（2 0 1 D， 2 1 1 A) をさらに有することを特徴とする請求の範囲第 4 3項に記載の音声認識方法。

4 9. 前記サーバ装置（200 E) において、コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 (2 1 3) に記憶するステップ（201 D) と、

圧縮方式要求信号を受信した場合に、タスク情報と、圧縮方式との対応テープル（2 1 2A) より、利用可能な圧縮方式情報を取得し、前記端末に送信するステツプ（20 1 D， 21 1 A) をさらに有することを特徴とする請求の範囲第 4 4項に記載の音声認識方法。

50. 前記端末（1 0 O F) において、

コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報とを受信するステップ（1 04B) と、前記サーバ側で利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ' タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧縮方式との対応テーブルと、サーバ装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステップ（1 1 OA) と、

をさらに有する、ことを特徴とする請求の範囲第 40項記載の音声認識方法。

51. 前記端末（1 0 O F) において、

コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報とを受信するステップ（1 04B) と、前記サーバ側で利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧縮方式との対応テーブルと、サーバ装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステップ（1 1 OA) と、

52. 前記端末（1 00 F) において、

コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報とを受信するステップ（1 04B) と、前記サーバ側で利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧縮方式との対応テーブルと、サーバ装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステップ（1 1 0A) と、をさらに有する、ことを特徴とする請求の範囲第 43項記載の音声認識方法。 53. 前記端末（1 0 O F) において、

コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報とを受信するステップ U 04B) と、前記サーバ側で利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧縮方式との対応テーブルと、サーバ装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステップ（1 1 OA) と、

をさらに有する、ことを特徴とする請求の範囲第 44項記載の音声認識方法。

54. 前記端末（1 0 O F) において、

コンテンッ側から送信されたタスク情報と、前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報とを受信するステップ（104B) と、前記サーバ側で利用可能な圧縮方式情報を受信した場合に、前記タスク情報と、圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧縮方式との対応テーブルと、サーバ装置で利用可能な圧縮方式情報をもとに最適な圧縮方式を選択するステップ（1 1 OA) と、

をさらに有する、ことを特徴とする請求の範囲第 45項記載の音声認識方法。