WO2004109658A1

WO2004109658A1 - 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体

Info

Publication number: WO2004109658A1
Application number: PCT/JP2004/007368
Authority: WO
Inventors: Yoshinori Tahara; Tomoko Murayama; Masahiro Baba
Original assignee: International Business Machines Corporation
Priority date: 2003-06-02
Filing date: 2004-05-28
Publication date: 2004-12-16
Also published as: KR20060014043A; JP4478647B2; CN1830022A; EP1632932A1; ATE381755T1; EP1632932A4; EP1632932B1; KR100834363B1; AU2004246451A1; CN1830022B; DE602004010804T2; JPWO2004109658A1; DE602004010804D1

Abstract

　本発明は、変数を含むメッセージを音声ファイルで再生する場合にアプリケーションの負荷を軽減できるよう改善された自動音声応答システムの提供を目的とする。　アプリケーション・サーバ及び音声サーバからなる音声応答システムであって、前記アプリケーション・サーバは、第１の音声ファイルと、第２の音声ファイルと、音声情報を有するものであり、前記音声サーバは、前記アプリケーション・サーバから前記音声情報と前記第１の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成する音声ファイル処理手段と、前記グラマーに基づいて、前記第１の音声ファイルを音声認識し、複数の音声ファイルに分割する音声認識手段と、前記分割された音声ファイルの内の少なくとも１の音声ファイルを前記第２の音声ファイルに置き換える音声処理手段とを有する音声応答システムを提供する。

Description

明細書

音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体

技術分野

[0001] 本発明は、自動音声応答システムに関し、より具体的には、音声認識を利用した自動合成音声による応答を行うシステムに関するものである。

背景技術

[0002] 従来、音声アプリケーション力システムのメッセージを自動的に出力をする時には、あら力じめ録音した音声ファイルを用いていた。例えば、標準のスピーチインタフエースを定義する VoiceXMLの場合では、音声ファイル名を、く audio〉タグで指定することにより、実現されている。例えば、 VoiceXMLを使用した VoIPベースの音声システムとしては、以下の特許文献 1がある。

[0003] 特許文献 1：特開 2002— 57724号公報

発明の開示

発明が解決しょうとする課題

[0004] しかし、そのメッセージに変数が含まれる場合、アプリケーションに負担がかかっていることが問題である。

より具体的に説明すれば、 VoiceXMLアプリケーションの場合を考えた場合、従来の音声サーバ上で、アプリケーションが音声ファイルに変数を挿入しょうとした場合、アプリケーションの作業と実装は、あらかじめ、文を変数位置で分割した音声ファイルを用意して、変数カゝら音声ファイル名を決定し、その音声ファイルを再生する VXMLドキュメントを動的に生成する、という機能を持つサーブレットを開発し、 VXMLドキュメントでは、変数前後の音声ファイルをふたつのく audio〉タグで指定し、適切なタイミングでサーブレットをサブ音声情報として呼ぶ、と!、うような実装が一例として考えられる。

[0005] このようにしてメッセージを音声ファイルで再生する場合、アプリケーションには、以下の点で、負担がかかっており問題となる。まず、アプリケーションの実装に関して問題がある。すなわち、実行時に変数部の音声ファイルを特定し再生するためのロジックを、アプリケーションが独自に開発しなくてはならくなる。つまり、アプリケーションを複雑かつ大量に開発する必要があり問題となる。さらに、文章の変更に応じて、アプリケーションの変更を必要とすることも問題となる。

[0006] さらに、録音ファイルの作成作業の手間、品質、管理に関する点にも問題がある。

従来の方法では、音声ファイルは、変数前部分、変数部、変数後部分に分割して録音されている必要がある。例えば、商品名を変数部として含む「ご注文の商品は {お米 }です」 t 、う文の場合、「ご注文の商品は」と「お米」と「です」と!、う音声ファイルを作成する必要がある。このようにすると録音者は、文章として不自然に分断されたパーッを話さなくてはならないので、不自然な発声になりやすぐ再生結果も自然さ、円滑さを欠くこととなり問題である。

[0007] また、全文をひと続きで録音して音声ファイルエディターで分割する方法もある。しかし、この場合、音声ファイル編集者は、アプリケーションの設計を正確に把握していなくてはならない。さらに、音声ファイルの分割など複雑な作業を必要とするためにミスを生じやすい。かつ、そのような音声ファイルの編集等の作業が多く必要となるため生じる作業量増大が問題である。また、文をあらかじめ変数位置で分割した状態の音声ファイルを用意するために、音声ファイル数が多くなる。さらに、音声ファイルをスムーズに連結するために、音声ファイルの初めと終わりの無音部は、音声ファイルェデイタ一で切り取り編集する必要がある。このような編集作業は音声ファイルの数に比例して増えるので、音声ファイル数の多くなつてくるとその作業はよりいっそう膨大かつ煩雑となる。また、音声ファイル数の多さは、ファイル名の命名やファイルの管理を複雑にする可能性も考えられる。

課題を解決するための手段

[0008] 以上の課題を解決するために、本発明は、システムとして捉えれば、アプリケーション ·サーバ及び音声サーノからなる音声応答システムであって、前記アプリケーション 'サーバは、第 1の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、前記音声サーバは、前記アプリケーション 'サーバから前記音声情報と前記第 1 の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成する音声フアイル処理手段と、前記グラマーに基づいて、前記第 1の音声ファイルを音声認識し、複数の音声ファイルに分割する音声認識手段と、前記分割された音声ファイルの内の少なくとも 1の音声ファイルを前記第 2の音声ファイルに置き換える音声処理手段とを有する音声応答システムを提供する。

[0009] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記音声ファイル処理手段は前記全文音声ファイル名に基づいて前記第 1の音声フアイルを抽出するものである、とすることができる。さらに、前記音声情報には、代替テキストが含まれ、前記音声ファイル処理手段は前記代替テキストに基づ、てグラマーを生成するものである、とすることができる。さらに、前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、とすることができる。さらに、音声を出力する音声出力手段を有する、とすることができる。

[0010] また、方法として捉えれば、アプリケーション 'サーバ及び音声サーバからなる音声応答システムにおける音声応答方法であって、前記アプリケーション 'サーバは、第 1 の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、前記音声応答方法は、前記音声サーバが、前記アプリケーション 'サーバから前記音声情報と前記第 1の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成するステップと、前記グラマーに基づいて、前記第 1の音声ファイルを音声認識し、複数の音声ファイルに分割するステップと、前記分割された音声ファイルの内の少なくとも 1の音声ファイルを前記第 2の音声ファイルに置き換えるステップとからなる音声応答方法を提供する。

[0011] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記第 1の音声ファイル名に基づいて前記第 1の音声ファイルを抽出するものである、とすることができる。さらに、前記音声情報には、代替テキストが含まれ、前記前記代替テキストに基づいてグラマーを生成するものである、とすることができる。さらに、前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、とすることができる。

[0012] また、プログラムとして捉えれば、アプリケーション 'サーバ及び音声サーバからなる音声応答システムにおける音声応答を実行するためのプログラムであって、前記アブリケーシヨン'サーバは、第 1の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、前記プログラムは、前記音声サーバを

前記アプリケーション'サーノから前記音声情報と前記第 1の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成し、前記グラマーに基づいて、前記第 1 の音声ファイルを音声認識し、複数の音声ファイルに分割し、前記分割された音声フアイルの内の少なくとも 1の音声ファイルを前記第 2の音声ファイルに置き換えるように動作させるものであるプログラムを提供する。

[0013] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記音声ファイル処理手段は前記全文音声ファイル名に基づいて前記第 1の音声フアイルを抽出するものである、とすることができる。さらに、前記音声情報には、代替テキストが含まれ、前記音声ファイル処理手段は前記代替テキストに基づ、てグラマーを生成するものである、とすることができる。さらに、前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、とすることができる。さらに、本発明は、このようなプログラムを格納したコンピュータが読み取り可能な記録媒体を提供する。

[0014] また、本発明を音声サーバとして捉えれば、自動的に音声処理を行うための音声サーバであって、代替テキストからグラマーを生成する手段と、前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割する手段と、前記分割された音声ファイルの内の少なくとも 1の音声ファイルを第 2の音声ファイルに置き換える手段とを有する音声サーバを提供する。

[0015] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、とすることができる。さらに、前記グラマーを生成する手段は、代替テキストを変数部と変数部以外に分割し、変数部を予め定められた単語に置き換えることにより、グラマーを生成するとすることができる。さらに、前記グラマーを生成する手段は、さらに前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成するとすることができる。

[0016] また、これを方法として捉えれば、音声サーバによって自動的に音声ファイルの処理を行うための方法であって、前記音声サーバが代替テキストからグラマーを生成するステップと、前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割するステップと、前記分割された音声ファイルの内の少なくとも 1の音声ファイルを第 2の音声ファイルに置き換えるステップとを有する音声ファイル処理方法を提供する。

[0017] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、とすることができる。さらに、前記グラマーを生成するステップは、代替テキストを変数部と変数部以外に分割し、変数部を予め定められた単語に置き換えることにより、グラマーを生成するとすることができる。さらに、前記グラマーを生成するステツプは、さらに前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成するとすることができる。

[0018] また、これをプログラムとして捉えれば、音声サーバによって自動的に音声ファイルの処理を行うためのプログラムであって、前記プログラムは前記音声サーバを代替テキストからグラマーを生成し、前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割し、前記分割された音声ファイルの内の少なくとも 1 の音声ファイルを第 2の音声ファイルに置き換えるように動作させるものであるプログラムを提供する。

[0019] ここで、前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである、とすることができる。また、前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである、とすることができる。さらに、前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、とすることができる。さらに、前記グラマーを生成する動作は、代替テキストを変数部と変数部以外に分割し、変数部を予め定められた単語に置き換えることにより、グラマーを生成するとすることができる。さらに、前記グラマーを生成する動作は、さらに前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成するとすることができる。

さらに、本発明は、このようなプログラムを格納したコンピュータが読み取り可能な記録媒体を提供する。

発明を実施するための最良の形態

[0020] まず、図 1は本発明を実施するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。

[0021] 図 1には、本実施の形態を実現するコンピュータ装置のハードウェア構成を例示する。コンピュータ装置は、演算手段である CPU (Central Processing Unit :中央処理装置） 101と、 MZB (マザ一ボード）チップセット 102及び CPUバスを介して CPU101 に接続されたメインメモリ 103と、同じく MZBチップセット 102及び AGP (Accelerated Graphics Port)を介して CPU101に接続されたビデオカード 104と、 PCI (Peripheral Component Interconnect)バスを介して MZBチップセット 102に接続されたハードディスク 105、ネットワークインターフェイス 106及び USBポート 107と、さらにこの PC Iバスからブリッジ回路 108及び ISA (Industry Standard Architecture)バスなどの低速なノスを介して MZBチップセット 102に接続されたフレキシブルディスクドライブ 1 09及びキーボード Zマウス 110とを備える。 [0022] なお、この図 1は本実施の形態を実現する典型的なコンピュータ装置のハードゥエァ構成をあくまで例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード 104を設ける代わりに、ビデオメモリのみを搭載し、 CPU101にてイメージデータを処理する構成としても良いし、 ATA ( AT Attachment)などのインターフェイスを介して CD— ROM (Compact Disc Read Only Memory)や DVD— ROM (Digital Versatile Disc Read Only Memory)のドライブを設けても良、。また音声再生のためのスピーカ等を備えてもょ、。

[0023] 図 2は、本発明を機能ブロックを用いて示した図である。音声応答システム 210は、音声サーバ 220とアプリケーションサーバ 230からなる。これら音声サーバ 220とァプリケーシヨン'サーバ 230は、図 1に示したような 1のコンピュータ装置で実現されることもあり、また 2以上のコンピュータ装置やコンピュータ装置と記憶装置との組み合わせで実現されることちある。

[0024] アプリケーション.サーバ 220には、全文録音音声ファイル 221、変数録音音声ファィル 222、 223、音声情報 224が含まれる。これらは、アプリケーション 'サーバ上で実行されるアプリケーション 'プログラムまたはその一部としても捉えられるものである。まず、全文録音音声ファイル 221は、変数が入ることを示す変数部を含む全文を一つのファイルとして録音されたものである。この全文録音音声ファイル 221の変数部は、ある特定の単語に置き換えて録音されている。この単語は、音声サーバにおいて予め指定された語を用いる。例えば、変数部に「品名」という単語を用いて、「ご注文は品名でよろし!/、ですか」、う文を音声化して、全文録音音声ファイルとして保存する。

[0025] さらに、アプリケーション 'サーバ 220には、この変数部に入る音声が変数録音音声ファイル 1、 2、 · · · (222, 223)として格納されている。例えば「お米」「みそ」を音声化したファイルである。ここで、変数部は複数用いることも可能であり、この場合にはそれぞれの変数部に対応した変数録音音声ファイルが格納されることになる。例えば変数部 1、変数部 2をそれぞれ「品名」「品数」として「ご注文は品名、数量は品数でよろしいですか」という文を音声化して、全文録音音声ファイルとして保存する。そして、「品名」「品数」に対応した変数録音音声ファイル (前者に対して「お米」「みそ」、後者に対して「1つ」「2つ」等）力格納されることになる。

[0026] さらに、アプリケーション ·サーバ 220には、音声情報 224が格納されている。この音声情報 224は、全文録音音声ファイルのファイル名、変数情報と代替テキストとからなる。変数情報には変数部の有無、つまり変数処理の必要性の有無を示す情報が少なくとも含まれる。代替テキストは、変数部を含むテキスト全文であり、例えば上述の例でいえば「ご注文はく変数部〉でよろしいですか」となる。なお、全文録音音声ファイルが複数存在する場合、その全文録音音声ファイルごとに音声情報を用意しておけばよい。

[0027] 音声サーバ 230は、音声ファイル処理部 231、音声認識エンジン 232、音声化処理部 233、及び音声化処理部 233を有する。音声ファイル処理部 231は、アプリケーシヨン'サーバ 220から音声情報 224とそれにより指定される全文録音音声ファイル 2 21を取り出し、音声情報に含まれる変数情報から変数処理が必要かどうかを判断する。変数処理が必要な場合、さらに、代替テキストからグラマーを動的に生成する。

[0028] 音声認識エンジン 232は、音声ファイル処理部 234から全文録音音声ファイルと動的に生成されたグラマーを受け取る。そして、それらに基づいて認識した全文録音音声ファイルを変数部分である変数音声ファイルと変数以外の部分である部品音声フアイルに分割する。ここで、変数音声ファイルや部品音声ファイルは 1つとは限らず、複数あることもある。

[0029] 音声化処理部 233は、音声認識エンジン 232から部品音声ファイルと変数音声ファィルを受け取る。そして、変数音声ファイルに対応して置き換えるべく指定された変数録音音声ファイルをアプリケーション.サーバ 220から取得する。なお、この動作は、音声ファイル処理部で行われて、音声化処理部に渡されてもよい。そして、部品音声ファイルと変数録音音声ファイルを連結して、代替テキストの順に音声化して再生されるようにする。

[0030] さらに、この音声応答システム 210に音声出力装置 240が接続され、再生音声ファィルに基づいた音声が再生され出力される。この音声出力装置は、音声応答システムと同一の図 1に示したようなコンピュータ装置の例えばスピーカ装置でもよいし、あるいは公衆回線等を介して接続された電話端末等でもよヽ。 [0031] 図 3には、音声ファイル処理部 231におけるグラマーの生成ロジックを示す。まず、代替テキスト全文を変数部と変数部以外に分割する（310)。次に、その変数部を予め定めた単語に置換する（320)。この単語は、音声サーバが予め定めたものであり、全文録音音声ファイルにはこの単語が変数部分として予め定められた語を用いて音声化され録音されている。そして、その置換されたテキストに基づいてグラマーを動的に生成する（330)。

[0032] 図 4は、グラマーの生成について、さらに一例を詳細に説明する。まず、代替テキストの変数部を予め定めた単語に置換する（410)。そして、それをもとにテキストフアイルを生成する。この時、音声認識エンジンが認識できるように単語分割する必要がある（420)。この単語分割は、例えば、句読点をとる、音声認識エンジンの辞書に登録されている単語から最長一致法で単語に分割する、等の処理を行う。次に、その分割された結果を、音声認識エンジンに伝えるために、音声認識エンジンが理解できる形式にする（430)。以上によって生成されたグラマーを音声認識エンジンに渡し登録する。

[0033] 図 5には、音声認識エンジン 232における音声認識による音声ファイルの分割ロジックについて示す。まず、音声認識エンジンを、認識した音声をファイルにするモードに設定する（510)。次に、音声認識エンジン 232に変数を含む全文録音音声フアイルと生成されたグラマーが入力される（520)。音声認識エンジン 232はグラマーに従つて、全文録音音声ファイルを認識する（530)。そして、認識した全文録音音声ファィルを変数部分である変数音声ファイルと変数以外の部分である部品音声ファイルに分割して、それぞれの音声ファイルを生成する（540)。

[0034] 図 6には、音声認識エンジン 232における音声認識による音声ファイルの分割結果について示す。この例では、変数部分を「品名」とした。全文録音音声ファイル 610は、音声認識及び分割の結果 (620)として、変数部分である変数音声ファイル 622と、変数以外の部分である部品音声ファイル 621、622に分割されたこととなる。

[0035] 図 7には、本発明の音声サーバ 230における処理の流れについての一例を記述したフローチャートを示す。まず、アプリケーション 'サーバ 220から得た音声情報 224 の中の変数情報に含まれる変数であることを示す情報の有無によって、変数処理が必要かどうかを判断する（701)。なお、変数処理が必要ないと判断された場合、通常のオーディオ処理を行う（720)。ここで、通常のオーディオ処理とは、一例を示せば、音声情報中のファイル名に対応する再生する音声ファイルがアプリケーション'サーバに存在すれば、それをそれを再生する。無い場合、代替テキストが音声情報中にあれば、その代替テキストを再生する。代替テキストもない場合、エラー処理を行うか、エラー処理がない場合はエラーで終了する。

[0036] ステップ 701で、変数処理が必要と判断された場合、音声情報 224から全文録音音声ファイル名とその代替テキストを抽出する（702)。そして、全文録音音声ファイルがアプリケーション.サーバ 220に存在するかどうかを確認する（703)。なお、全文録音音声ファイルがアプリケーション ·サーバ 220に存在しない場合は、変数であることを示す情報を削除した上で、上述したような通常のオーディオ処理を行う（730)。

[0037] 全文録音音声ファイルがアプリケーション 'サーバ 220に存在する場合、さらに代替テキストがあるかどうか確認する（704)。代替テキストが存在しない場合は、エラーとなり処理は終了する（740, 741)。代替テキストが存在する場合、全文録音音声ファィルが既に音声サーバ 230上のキャッシュ（図示せず）に存在するかどうかが判断される（705)。既にキャッシュ上に存在する場合、ステップ 709へ行く。キャッシュ上に存在しない場合、全文録音音声ファイルをアプリケーション 'サーバ 220から得る（70 6)。そして、代替テキストと全文録音音声ファイルを用いてグラマーが動的に生成される（707)。次に、音声認識を行い、全文録音音声ファイルを分割する（708)。

[0038] そして、変数録音音声ファイルがアプリケーション.サーバ 220に存在するかどうかが確認される（709)。変数録音音声ファイルがアプリケーション 'サーバ 220に存在する場合、アプリケーション 'サーバ 220から変数録音音声ファイルを得る（710)。そして、これらの音声ファイルを順次連結して音声化して再生できるようにする（711)。また、必要な期間その生成された音声ファイルをキャッシュに保持し (712)、必要に応じて直接使用できるようにする。なお、ステップ 709で変数録音音声ファイルが存在しない場合、その変数に対応する代替テキストを用いて音声合成した音声ファイルを生成する（750)。なお、このような一連の処理はコンピュータ 'プログラムとして実現されるものである。また、このコンピュータ 'プログラムは、必要に応じて、 CD— ROM, フレキシブルディスク（フレキシブルディスク)等のコンピュータが読み取り可能な記録媒体に格納されて提供されることがある。

[0039] 次に、図 7に示した本発明の処理を VXMLブラウザ実装した例を示す。なお、（1)

(9)は図 7中のものに対応する。また、「VMXLブラウザ」とは、 VMXLを処理するために本発明の音声ファイル処理部 231及び音声化処理部 233に対応する機能を提供する手段である。

(1) 変数処理を要求する目印となる、 Audioタグの '# '記号を調べ、なければ通常のオーディを処理を行う。

(2) Audioタグより、全文録音音声ファイル名と、全文録音音声ファイルに対応する代替テキストを抽出する。

(3)全文録音音声ファイルが存在しない場合は、 '# 'をとり、通常のオーディオ処理を行う。必要により音声合成される。

(4)代替テキストがなければ、エラーとなり処理は終了。

(5)既に処理済の場合は、キャッシュされた音声ファイルを利用する。なお、変数部のみ変更されたものなら、変数録音ファイルのみアプリケーション 'サーバから取得する。

(6)代替テキストと決められた変数部の文字列力もグラマーを作成する。

(7)グラマーと全文録音音声ファイルを音声認識エンジンにより認識させ、全文録音音声ファイルを分割する。

(8)変数録音音声ファイルがない場合は、変数の部分は音声合成する。

(9)得られた音声ファイル（と場合によっては音声合成結果)を連結して再生できるようにする。

[0040] 以下の表 1 表 7には、図 7に示した本発明の処理を擬似コード的表現で表したものを示す。なお、（1)一（9)は図 7中のものに対応する。以下の表 1は、一連の処理を示したものである。

[表 1] オーディオタグの処理（タグテキスト） [

新しく分割しましたフラグ = false;

(1) if (変数部あ yの目印なし） ί

通常処理（タグテキスト）へ

(2) タグテキストから、変数情報を取得する

-全文録音音声ファイル名

-代替テキスト

(3) if (全文録音ファイル存在しない） {

タグテキストに目印があれば削除する

通常処理（タグテキスト）へ

(4) } else if (代替テキストがない） {

エラ一終了

}

パ一ッリスト =代替テキストを分割する（代替テキスト）

全文録音ファイル I D = "この全文録賨ファイル"に対応する固有の I Dを決める

(5) if (全バーヅがキャッシュされてますか（パーツリスト，全文錄音ファイル【 D) == false) { 変数用文字列 =変数用文字列厲性値

(6) 全文テキスト =全文テキストを生成する（パ一ッリスト. 変数用文字列）グラマーを生成し enableする（パーツリスト，変数用文字列，グラマー名）

(7) 音声認識により音声ファイルを分割する（全文錄音音声ファイル. 全文錄音ファイル I D ) グラマーを disableする（グラマ一名）

新しく分割しましたフラグ = true

(8) 連結して再生する（全文録音ファイル I D, パーツリスト）

if (新しく分割しましたフラグ） {

キャッシュ処理をする（全文録音ファイル I D)

[0041] 表 2は、表 1に示した処理のうち、（4)中の代替テキストを分割する処理に関するものである。

[表 2] 代替テキストを分割する（代替テキスト） ί

パーツリスト = ""

while (代替テキストに変数部がある） [

パーツリス卜 += 変数部以前 + 変数部

代替テキスト変数部以降

if (代替亍キストがまだある） {

パ一ッリスト += 代替亍キスト

}

パーツリス卜を返す

[0042] 表 3は、表 1に示した処理のうち、（5)の処理をさらに詳細に述べたものである, [表 3] (5)全パーツがキャッシュされてますか (パーツリスト. 全文録音ファイル I D) { if (キャッシュ使用スコープ内 == false) [

falseを返す

I

現在の時刻を取得する

if (全文録音ファイル 1 Dがキャッシュリストにない）【

] else if (全文録音ファイル I Dのキャッシュエントリが expirsしている） ί キャッシュリストからキャッシュエントリを削除する。

falseをす

1

判定 = true

分割ファイル保管パス =分割パスを求める（全文録音ファイル〗 D)

whi le (パーツリスト） {

if (パーツく>変数部） {

if ("パーツ. wav"が分割ファイル保管パスにない〉 {

判定 = false

break:

}

]

判定を返す。

[0043] 表 4は、表 1に示した処理のうち、（6)の処理の一部をさらに詳細に述べたものである。

[表 4]

(6)全文テキストを生成する（パ一ッリスト，変数用文字列） {

全文テキスト = ""

while (パーツリスト） 1

全文テキスト += (パ一ッ==変数？変数用文字列：パーツ)

全文テキストを返す

[0044] 表 5は、表 1に示した処理のうち、（6)の処理の他の一部をさらに詳細に述べたものである。

[表 5] (6)グラマ一を生成し enab l eする（パーツリス ·、変数用文字列，グラマー名 ) ルール 0 =変数用文字列

パブリ、ンクルール = ""

far (n=1；バ一ッリスト： π++) (

i f (パーツ◊変数） [

ルール n =変数部以前

パブリックルール += ルール n

パブリックル一ル += ルール 0

1

全ルールと、パブリックルールから、グラマーを生成する

グラマーを認識エンジンに登録し enabl eする（グラマー名）

[0045] 表 6は、表 1に示した処理のうち、（7)の処理をさらに詳細に述べたものである, [表 6]

(7)音声認識により音声ファイルを分割する（全文録音音声ファイル，全文録音ファイル I D ) 認識エンジンを、 f声ファイル生成モードにする

分割音声ファイル出力先 =分割パスを求める（全文録音ファイル I D) 分割音声ファイル出力先を認識エンジンに指定する

全文音声録音ファイルを認識エンジンに入力する

認識処理完了を待って戻る〃 ACCEPTEDでも REJECTEDでも構わない

1

グラマ一を d isab l eする（グラマ一名） {

グラマーを d i sab l eする（グラマー名）

1

[0046] 表 7は、表 1に示した処理のうち、（8)の処理をさらに詳細に述べたものである, [¾7]

(8)連結して再生する（全文録音ファイル【 D，パーツリスト） {

分割パス =分割パスを求める（全文録音ファイル I D)

whi le (パ一ッリスト） {

i f (パーツく〉変数） ί

音声ファイル = "分割パス ¥¥パーツ. wav"

代替テキスト = "パーツ"

] g | c;^ [

音声ファイル = "変数値. wav"

代替テキスト = "変数値"

)

i f (音声ファイルがある） {

音声ファイルを再生する

} e I se [

代替テキストを音声合成する

}

キャッシュを更新する（全文録音ファイル I D) [

期限切れ時刻 =現在の時刻 +有効期間

キャッシュエントリ = "全文録音ファイル I D , 期限切れ時刻"；

この全文録音ファイル I Dのキャッシュェントリが既にキャッシュリストにあれば、キャッシュリストから削除する

キャッシュリストにキャッシュェントリを追加する。

}

分割パスを求める（全文録音ファイル〖 D ) {

分割パス =全文録音ファイル I Dから一意的に決める

1

[0047] 以下には、発明の具体的な実施例として、 VoiceXMLの場合にどのように実装するかを示す。この拡張は、既存の機能に影響を与えず、 VoiceXML仕様を侵害することなぐ実現できるものである。

[0048] アプリケーション ·サーバで用意する音声ファイル

全文録音音声ファイルは、変数を含む全文をひとつのファイルとして録音する。変数部分は、ある特定の単語に置き換えて録音する。この単語は、音声サーバと了解し合った特定のものにする。例えば、 "変数"という単語とする。

変数録音音声ファイル名は、〃{変数の内容 }.wav〃とする。なお、変数文字列が、音声ファイルを格納する環境にぉ、てファイル名として許されな、文字を含む場合は、変数対音声ファイル名を、 CSV形式でマッピングした、マッピングリストファイルを作成する。マッピングリストファイル名は、音声サーバと了解し合った固定のものにする。例ば、 value— wav.map とする。

[0049] 変数録音音声ファイルと、場合によりマッピングリストフアイノレをカレントパスに置く。

なお、ひとつあるいは複数の変数録音音声ファイルをクラス化することもできる。クラスは、カレントパス下にクラス名と同じ名前で、クラス専用フォルダを持つ。クラスに属している変数録音音声ファイルと、場合によりそれを記述するマッピングリストファイルは、クラス専用フォルダに置く。

[0050] アプリケーション ·サーバ中の音声情報の記述

全文録音音声ファイル対応して、その全文録音音声ファイルが変数を持つカゝどうかを示す目印を音声情報につける。さらに、変数を持つ全文録音音声ファイルに対応して、音声情報に少なくとも変数部を含むテキスト全文 (代替テキスト）と挿入する変数名の情報を格納する。さらに必要により、変数用音声ファイルが属するクラス名を格納する。場合により、マッピングリストファイルはカレントパス、あるいは、クラス専用フォルダに置く。

[0051] 例として、上記ルールを、 VoiceXMLに具体的に適用し、定めた例を示す。以下では、 VoiceXMLのく audio〉タグに本発明を適用する。

音声アプリケーションは通常、最終的には人の声を録音した音声ファイルを用いて運用されることが多いが、開発中は音声ファイルがない状態で開発を行う必要があるので、音声合成を利用する。 VoiceXMLが音声ファイルを再生するために定義しているく audio〉タグは、そのような利用環境に対応するために、音声ファイル名と文字列を記述して、音声ファイルが存在すれば音声ファイルを再生し、音声ファイルが再生不可能な状態である場合には、文字列を音声合成する、という仕様になっている。

S己 ί列：、 audio src= wav/ sample.wav〉こ注文の商 f口く/ audioノ

機能的にもフォーマット的にも、く audio〉タグ本来の仕様に則った状態で、今回の発明を適用する。

[0052] 全文録音音声ファイルが変数部を持つかどうかを示すために、く audio〉タグの src属性フィールドを利用する。全文録音音声ファイル名の先頭に、 '# 'をつけて、変数処理の必要があることを示す。

変数部を持つ全文録音音声ファイルに情報を付加するために、く audio〉タグの代替テキスト部を利用する。代替テキスト部に、変数を含むテキスト全文を記述する。挿入する変数を、く value〉タグで指定し、挿入位置に、く value〉タグを挿入する。クラスに属する場合は、クラス名を class属性で指定したく sayas〉タグで、く value〉タグを囲む。マッピングリストファイルは、クラス専用パス、あるいは、カレントパスに置く。

[0053] 例：「ご注文の商品は、 {？ }です」と、うメッセージを音声ファイルを再生する場合用意する音声ファイル

全文録音音声ファイルとして、「ご注文の商品は、変数です」と録音した

wavYsampie.wav 户ノアイノレ

変数録音音声ファイルとして、「お米」と録音した〃カレントパス ¥product¥お米. wav"音声ファイル

VXMLドキュメントの記述 (音声情報に対応する）

く audio src= #wav/ sample.wav ？

ご注文の商品は、

く sayas class: product ？

value expr= ProductName />

</sayas>

です。

</ audio >

ここで、 #によって、変数処理の必要性を表し、「wav/sample.wav」は全文録音音声フアイル名である。そして、

「ご注文の商品は、

く sayas class: product ？

value expr= ProductName />

</sayas>

です。」

の部分が代替テキストとなる。

なお、これらの記述は、アプリケーション 'サーバで実行されるアプリケーション 'プログラムの一部として記述されるものである。

[0054] 音声サーバサイドの機能

全文録音音声ファイルが変数を持つかどうか、音声ファイル指定の目印の有無で判断して、単純な再生処理か、変数挿入が必要な再生処理か、適切な方の処理に分岐する。単純な音声ファイル再生は、従来の動作どおりである。引き続き、以下に、変数挿入処理を記述する。なお、全て実行時の処理である。

[0055] 全文録音音声ファイルに対応する代替テキストを、変数部と変数部以外の部分に分割して、各パーツをルールに持つグラマーを動的に生成する。変数部を認識する語句として、変数部を置換する語句を認識するルールをグラマーに追加する。例えば"変数"という語句である。

[0056] グラマーの生成について、さらに詳細に説明すれば、以下の通りである。対象とする記述が次のようなつてヽたとする。

く audio src= #connrm.wav ノ

ご注文は、く value expr=〃Product7〉でよろしいですか？グラマーにしていく過程は以下のとおりである。

1.変数部を変数部用テキストで置換する。

(変換前）ご注文は、く value expr=〃Product7〉でよろしいですか

(変換後)ご注文は変数でよろ、ですか

2.テキストファイル (BNFファイル)を生成する。この時、音声認識エンジンが認識できるように単語分割する必要がある。その結果、この例では以下のようになる。

<_rulel> =ご注文は変数でよろしいですか

3.受け入れ可能な発話文を、音声認識エンジンに伝えるために、音声認識エンジンが理解できる形式にする。具体的には、 BNFファイルを、グラマーコンパイルして、グラマーボキヤブラリ (FSGファイル)を生成する。グラマーコンパイルとは、グラマーを音声認識エンジンが理解できる形式にすることである。例えば、グラマーコンノイラ API を使って、音声認識エンジンが理解できる FSGファイル形式にコンパイルする。 FSG ( finite state grammar)ファイル形式とは、音声認識エンジンが理解できる形式の、コンパイル済みグラマーファイルである。なお、 FSG形式は、 W3C Speech Interface Frameworkでもサポートされる形式である。

以上によって生成されたグラマーを音声認識エンジンに渡し、そのグラマーを登録する。 [0057] そして、生成したグラマーを、音声認識エンジンに対して、使用可能 (enable)にする。音声認識エンジンを、認識した音声をファイルにするモードに設定する。そして、変数を含む全文録音音声ファイルを、音声認識エンジンに入力する。音声認識ェンジンはグラマーに従い、入力された音声を、変数部分と変数以外の部分に分割した状態で認識する。そした、音声認識エンジンは、認識した音声を、認識した単位に分割して、音声ファイルを生成する。

[0058] アプリケーション 'プログラム力も指定された変数録音音声ファイルを、 "{変数の内容 ^〃というファイル名で検索する。検索場所は、場合により、その音声ファイルがクラスに属している場合はクラス専用パス、属していなければカレントパスである。〃{変数の内容 }.wav〃ファイルが存在しなければ、変数対音声ファイル名のマッピングリストを読み、ファイル名を取得し、検索する。マッピングリストが存在しない、マッピングリストにターゲットとなる変数に関する指定がない、マッピングリストでターゲットとなる変数に対応付けられている音声ファイルがない、あるいは、その他の理由で、尚、変換用音声ファイルを見つけられな、場合は、変数テキストに基づ、て音声合成する。

[0059] 分割生成された音声ファイルと、検索した変数録音音声ファイル、ある!ヽは、変数テキストの音声合成、をテキストの順に順々に再生するようにする。パフォーマンス向上のため、分割した音声ファイルは、アプリケーション終了時までは保管する。ただし、適切なファイルの削除も実行すべきである。キャッシュファイル管理について、音声サーバが既に持っているルールに従うのが適切である。分割された音声ファイル断片の存在状態を記憶し、分割済み音声ファイルが存在するものは、それを利用するようにする。

[0060] 変数の決定について

変数に対応するテキストは、アプリケーションの変数の値である。その値は実行時に決定される。この変数の値が、いつどこで決まるかはアプリケーションロジックによる。例えば、 Product="'変数値'"として、いつでもその値をいれるようにすることができ、また例えば注文を聞、た時に認識した語句を、その値とするように書、ておくこともできる。

[0061] より具体的に、変数の決定も含めた一連の処理について以下に説明する。 "変数値がいつどのような形で決まるカ 'は、アプリケーションのデザインにより、大きく次の 2タイプある。（1)認識対象に名前をつけておき、それが変数名となり、ユーザの発声を認識した時に認識した語句が変数値になるようにする。 (2)あらかじめ変数を宣言しておき、好きなタイミングで変数値を、れるようにする。

[0062] 例えば、以下の表 8に処理の一例を示す。

[表 8]

[0063] このサンプルは、次のような対話をする従来の機能で書いた VoiceXMLアプリケーシヨンである。

System: お名前をどうぞ

User: 加藤：この発声を認識した時に、 UserName変数値 = "加藤"となります。

System: 加藤様ですね：この後、く assign〉タグにより、 Address変数値

=getUser Address関数の返り値； "東京都渋谷区"などとなります。

System: ご注文をどうぞ

User: お米：この発声を認識した時に、 Product変数値 = "お米"となります。

System: ご注文はお米ですね。

タイプ（1)の例は、 UserName変数、 Product変数、 answer変数である。タイプ（2)の例は、 Address変数である。変数値を参照する時は、く value〉タグを使う。 SCRIPT関数へのパラメータとして使う時は直接変数名を使う。

[0064] タイプ（1)として、 UserName変数についてさらに詳細に述べる。まず、 VXML処理部は、アプリケーションサーバにある VXMLアプリケーションを読み込む。そして、 VXML 処理部は、対話力 ^行目に来た時、音声認識エンジンに、「加藤、あるいは、佐藤、という語句を認識するのだ、」ということをグラマーで指示する。ユーザの「加藤」と発声した音声が、音声認識エンジンに届くと、音声認識エンジンは、グラマーと照合して、「加藤」という語句を認識する。そして音声認識エンジンは、「加藤です、という語句を認識した」と、 VXML処理部に伝えます。 VXML処理部は、 UserName変数に、 "加藤" という変数値をいれる。なお、一例では、これらの VXML処理部も音声認識エンジンも、どちらも、音声サーバにおいて実施される。一例としては、このような VXML処理部は音声化処理部の一部として実施することができる。

[0065] タイプ（2)として、 Address変数についてさらに詳細に述べる。 VXML処理部は、

UserNameフィールドの認識が済んだという通知を受け取り、 12行目の処理を始める。 getUser Address関数という、顧客名対住所のデータベースを参照して、住所を返す関数を、呼びだす。その返り値を、 Address変数に変数値としてわりあてる。

[0066] 変数名の決定

本実施例の 1つでは、変数録音ファイル名は、〃変数値〃 + "扁"とした。例えば、変数が、変数" Product"の時、 Productの変数値が〃お米〃だったら、変部録音フアイル名 ="お米. wav"である、ということである。これに関連して、以下の表 9に示す例を基に、さらに詳細に説明する。

[表 9]

[0067] これは、あるアプリケーションで、注文を伺い、そして「ご注文は、〇〇でよろしいです力」と言いたい時、の記述である。このサンプルは、次のような対話ができます。 System : ご注文をどうぞ

User : お未

System : ご注文はお米ですね。

[0068] このようなアプリケーションおいては、アプリケーション開発時にあらかじめ、変数" Product"として有効な値について、変数録音ファイルを生成してアプリケーション 'サーバに格納しておく。変数録音ファイルのファイル名は、〃変数値〃 +〃.wav〃です。変数の有効値が、〃お米〃ど'お味噌〃の場合、〃お米. wav"と〃お味噌. wav〃を作成し、それらをアプリケーション ·サーバに格納しておく。音声サーバは実行時に、く value expr="Product7〉部分に、変数" Product"の値 Γお米〃など)から、変数部録音フアイル名 ("お米. wav")を組み立てます。そのファイルがアプリケーション'サーバに存在すれば、それを再生します。存在しなければ、変数値 (〃お米〃)を音声合成します。このようなファイル名の組み立ては、一例では、図 7のフローチャートの"（8)変数部録音ファイルが存在するカ 'で行われる。

図面の簡単な説明

[0069] [図 1]本発明を実施するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。

[図 2]本発明を機能ブロックを用いて示した図である。

[図 3]音声ファイル処理部 231におけるグラマーの生成ロジックを示す図である。 [図 4]グラマーの生成ロジックの詳細を示す図である。

[図 5]音声認識エンジン 232における音声認識による音声ファイルの分割ロジックについて示す図である。

[図 6]音声認識エンジン 232における音声認識による音声ファイルの分割結果について示す図である。

[図 7]本発明の音声サーバ 230における処理の流れについての一例を記述したフロ一チャートを示す図である。

符号の説明

101 CPU

102 MZBチップセット

103 メインメモリ

104 ビデオカード

105 ハードディスク

106 ネットワークインターフェイス

107 USB

108 ブリッジ回路

109 フレキシブルディスクドライブ

110 キーボード Zマウス

210 音声応答システム

221 全文録音音声ファイル

222 変数録音音声ファイル

223 変数録音音声ファイル

224 音声情報

220 アプリケーション 'サーバ

231 音声ファイル処理部

232 音声認識エンジン

233 音声化処理部

230 音声サーバ 240 音声出力装置

Claims

請求の範囲

[1] アプリケーション 'サーバ及び音声サーノからなる音声応答システムであって、前記アプリケーション 'サーバは、第 1の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、

前記音声サーバは、

前記アプリケーション'サーノから前記音声情報と前記第 1の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成する音声ファイル処理手段と、

前記グラマーに基づいて、前記第 1の音声ファイルを音声認識し、複数の音声ファィルに分割する音声認識手段と、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを前記第 2の音声フアイルに置き換える音声処理手段と

を有する音声応答システム。

[2] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 1記載の音声応答システム。

[3] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである

、請求項 2記載の音声応答システム。

[4] 前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記音声ファィル処理手段は前記ファイル名に基づいて前記第 1の音声ファイルを抽出するものである、請求項 1記載の音声応答システム。

[5] 前記音声情報には、代替テキストが含まれ、前記音声ファイル処理手段は前記代替テキストに基づいてグラマーを生成するものである、請求項 1記載の音声応答システム。

[6] 前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、請求項 1記載の音声応答システム。

[7] さらに、音声を出力する音声出力手段を有する請求項 1記載の音声応答システム。

[8] アプリケーション 'サーバ及び音声サーノからなる音声応答システムにおける音声応答方法であって、前記アプリケーション 'サーバは、第 1の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、前記音声応答方法は、前記音声サーバが、

前記アプリケーション'サーノから前記音声情報と前記第 1の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成するステップと、

前記グラマーに基づいて、前記第 1の音声ファイルを音声認識し、複数の音声ファィルに分割するステップと、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを前記第 2の音声フアイルに置き換えるステップと

からなる音声応答方法。

[9] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 8記載の音声応答方法。

[10] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音されたものである、請求項 9記載の音声応答方法。

[11] 前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記第 1の音声ファイルを前記ファイル名に基づいて抽出する、請求項 8記載の音声応答方法。

[12] 前記音声情報には、代替テキストが含まれ、前記グラマーを前記代替テキストに基づいて生成する、請求項 8記載の音声応答方法。

[13] 前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、請求項 8記載の音声応答方法。

[14] アプリケーション 'サーバ及び音声サーノからなる音声応答システムにおける音声応答を実行するためのプログラムであって、前記アプリケーション 'サーバは、第 1の音声ファイルと、第 2の音声ファイルと、音声情報を有するものであり、前記プログラムは、前記音声サーバを

前記アプリケーション'サーノから前記音声情報と前記第 1の音声ファイルを受け取り、前記音声情報に基づいてグラマーを生成し、

前記グラマーに基づいて、前記第 1の音声ファイルを音声認識し、複数の音声ファィルに分割し、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを前記第 2の音声フアイルに置き換えるよう〖こ動作させるちのであるプログラム。

[15] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 14記載のプログラム。

[16] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである

、請求項 15記載のプログラム。

[17] 前記音声情報には、前記第 1の音声ファイルのファイル名が含まれ、前記第 1の音声ファイルを前記ファイル名に基づいてを抽出する、請求項 14記載のプログラム。

[18] 前記音声情報には、代替テキストが含まれ、前記グラマーを前記代替テキストに基づいて生成する、請求項 14記載のプログラム。

[19] 前記音声情報には、変数についての処理を行う必要があるかどうかを示す変数情報が含まれる、請求項 14記載のプログラム。

[20] 前記請求項 14な、し請求項 19に記載のプログラムを格納したコンピュータが読み取り可能な記録媒体。

[21] 自動的に音声処理を行うための音声サーバであって、

代替テキストからグラマーを生成する手段と、

前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割する手段と、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを第 2の音声フアイルに置き換える手段と

を有する音声サーバ。

[22] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 21記載の音声サーバ。

[23] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音したものである

、請求項 22記載の音声サーバ。

[24] 前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、請求項 22記載の音声サーバ。

[25] 前記グラマーを生成する手段は、代替テキストを変数部と変数部以外に分割し、変数部を予め定められた単語に置き換えることにより、グラマーを生成する請求項 21記載の音声サーバ。

[26] 前記グラマーを生成する手段は、さらに前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成する請求項 25記載の音声サーバ。

[27] 音声サーバによって自動的に音声ファイルの処理を行うための方法であって、前記音声サーバが

代替テキストからグラマーを生成するステップと、

前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割するステップと、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを第 2の音声フアイルに置き換えるステップと

を有する音声ファイル処理方法。

[28] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 27記載の音声ファイル処理方法。

[29] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音されたものである、請求項 28記載の音声ファイル処理方法。

[30] 前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、請求項 28記載の音声ファイル処理方法。

[31] 前記グラマーを生成するステップは、代替テキストを変数部と変数部以外に分割し

、変数部を予め定められた単語に置き換えることにより、グラマーを生成する請求項 2

7記載の音声ファイル処理方法。

[32] 前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成する請求項 31記載の音声ファイル処理方法

[33] 音声サーバによって自動的に音声ファイルの処理を行うためのプログラムであって、前記プログラムは前記音声サーバを

代替テキストからグラマーを生成し、

前記グラマーに基づいて、第 1の音声ファイルを音声認識し、複数の音声ファイルに分割し、

前記分割された音声ファイルの内の少なくとも 1の音声ファイルを第 2の音声フアイルに置き換える

よう〖こ動作させるちのであるプログラム。

[34] 前記第 1の音声ファイルは、変数が入ることを示す変数部を含む全文を一つのファィルとして録音されたものである、請求項 33記載の音声ファイル処理方法。

[35] 前記第 2の音声ファイルは、変数部に入る音声をファイルとして録音されたものである、請求項 34記載のプログラム。

[36] 前記第 2の音声ファイルは、変数部に入る音声を合成音声により生成したものである、請求項 34記載のプログラム。

[37] 前記グラマーを生成する動作は、代替テキストを変数部と変数部以外に分割し、変数部を予め定められた単語に置き換えることにより、グラマーを生成する請求項 33記載のプログラム。

[38] さらに前記単語の置き換えにより生成されたテキストファイルを分割し、音声認識が可能な形式にすることにより、グラマーを生成する請求項 37記載のプログラム。

[39] 前記請求項 33な、し請求項 38に記載のプログラムを格納したコンピュータが読み取り可能な記録媒体。