WO2005091274A1

WO2005091274A1 - 音声処理方法と通信システム並びに通信端末およびサーバとプログラム

Info

Publication number: WO2005091274A1
Application number: PCT/JP2005/004981
Authority: WO
Inventors: Minako Miyamoto
Original assignee: Nec Corporation
Priority date: 2004-03-18
Filing date: 2005-03-18
Publication date: 2005-09-29
Also published as: JP2007256297A

Abstract

　通信端末（１００）は、音声処理を行う音声処理手段（１０２）と、予め定められた機能を実現するための第１のプログラム及び第１のデータを記憶する第１格納手段（１０１）と、サーバ（２００）から送信される第２のプログラム及び第２のデータを記憶する第２格納手段（１０５）と、第２のプログラム及び第２のデータを用いて、音声処理手段による音声処理と、第１のプログラム及び第１のデータによる機能とを、互いに連携動作させる制御手段（１０６）とを備える。　これにより、通信端末に内蔵されている第１のプログラム及び第１のデータが、音声処理に対応していない場合でも、サーバから第２のプログラム及び第２のデータをダウンロードすることで、第１のプログラム及び第１のデータによる機能を音声処理機能と連携させて動作させることができる。

Description

明細書

音声処理方法と通信システム並びに通信端末およびサーバとプログラム技術分野

[0001] 本発明は、音声処理方法と通信システム並びに通信端末およびサーバとプロダラムに関する。

背景技術

[0002] 従来の通信端末およびシステムの一例力特開 2003— 188948号公報（文献 1)に記載されている。この文献 1に記載された通信端末は、音声認識部と、音声合成部、制御部、送受信部、データ変換部を備え、入力音声を音声認識によりテキストに変換して送信し、送受信部より受信したデータを音声合成により読み上げるものである。

[0003] また、従来の通信端末およびシステムの他の例力特開 2002— 077315号公報 ( 文献 2)に記載されている。この文献 2に記載された通信端末は、音声認識部と、音声合成部、制御部 (メール処理部）を備え、音声入力によりメールを作成し、音声合成によりメールを読み上げるものである。

発明の開示

発明が解決しょうとする課題

[0004] 上記した従来の端末では、端末外部より受信したプログラムが、端末に内蔵されているプログラムや、プログラムが管理するデータ、特に、ユーザ独自のデータやシステムの状態に応じてダイナミックに変化するデータと、音声処理機能とを、例えば端末に固有の所望の態様で、連携させて動作させることができない。

[0005] したがって、本発明の目的は、通信端末に内蔵されたプログラムおよびデータの少なくとも一方と、音声処理等の処理とを組み合わせて所望の機能を実現可能することにある。

課題を解決するための手段

[0006] このような目的を達成するために、本発明に係る通信端末は、予め定められた所定の処理を行う処理手段と、第 1のプログラムおよび第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を用いて、処理手段による処理と、第 1のプログラムおよび第 1のデータの少なくとも一方とを連携させる制御手段とを備えることを特徴とする。

[0007] また、本発明に係るサーバは、通信端末に予め記憶されている第 1のプログラムおよび第 1のデータの少なくとも一方と、通信端末で行われる所定の処理との、連携の仕方を規定する第 2のプログラムおよび第 2のデータの少なくとも一方を通信端末に送信する第 1の送信手段を備えることを特徴とする。

[0008] また、本発明に係る通信システムは、通信端末と、通信端末と通信接続する少なくとも 1つのサーバとを備え、通信端末が、音声認識および音声合成の少なくとも一方の音声処理を行う音声処理手段と、当該通信端末に予め記憶されている第 1のプログラムおよび第 1のデータの少なくとも一方に従って、音声処理用の言語情報を作成する端末音声処理言語情報作成手段と、サーバからダウンロードされた第 2のプログラムおよび第 2のデータの少なくとも一方により、言語情報を用いた音声処理と、第 1 のプログラムおよび第 1のデータの少なくとも一方とを連携動作させる制御手段とを備えることを特徴とする。

[0009] また、本発明に係る音声処理方法は、通信端末が、通信端末の外部から第 2のプログラムおよび第 2のデータの少なくとも一方を受信する工程と、第 2のプログラムおよび第 2のデータの少なくとも一方を用いて、通信端末で行われる音声処理と、通信端末に予め記憶されている第 1のプログラムおよび第 1のデータの少なくとも一方とを連携動作させる制御を行う工程とを備えることを特徴とする。

[0010] また、本発明に係るプログラムは、通信端末を構成するコンピュータに、音声認識および音声合成の少なくとも一方の音声処理を行なう機能と、通信端末に予め記憶されている第 1のプログラムおよび第 1のデータの少なくとも一方に基づいて音声処理用の言語情報を作成する機能と、受信した第 2のプログラムおよび第 2のデータの少なくとも一方により、音声処理と、第 1のプログラムおよび第 1のデータの少なくとも一方とを、互いに連携動作させる制御を行う機能とを実現させることを特徴とする。

[0011] また、本発明に係る電子装置は、予め定められた所定の処理を行う処理手段と、第 1のプログラムおよび第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を用いて、処理手段による処理と、第 1のプログラムおよび第 1のデータの少なくとも一方とを連携させる制御手段とを備えることを特徴とする。

発明の効果

[0012] 本発明によれば、携帯端末等の通信端末に内蔵されているプログラムが、音声処理に対応していない場合でも、サーバより、プログラムをダウンロードすることで、音声処理機能と連携させて動作させることができる。

[0013] また、本発明によれば、連携方法が異なるプログラムを、ユーザの好み等によって自在に入れ替えて、実行させることができる。

図面の簡単な説明

[0014] [図 1]図 1は、本発明の第 1の実施例の構成を示すブロック図である。

[図 2A]図 2Aは、本発明の第 1の実施例の動作を示す流れ図である。通信端末側で音声言語情報が生成される場合を示してヽる。

[図 2B]図 2Bは、本発明の第 1の実施例の動作を示す流れ図である。サーバ側で音声言語情報が生成される場合を示してヽる。

[図 3]図 3は、本発明の第 1の実施例の通信端末に記憶されているプログラムおよびそのデータの具体例を示す図である。

[図 4]図 4は、本発明の第 1の実施例の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。

[図 5]図 5は、本発明の第 1の実施例の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。

[図 6]図 6は、本発明の第 1の実施例の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。

[図 7]図 7は、本発明の第 1の実施例の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。

[図 8]図 8は、本発明の第 1の実施例の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。 [図 9]図 9は、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。

[図 10]図 10は、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。

圆 11A]図 11Aは、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。文法生成のための文法テンプレートの一例を示している。

圆 11B]図 11Bは、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。図 11Aの文法テンプレートに従って登録される単語列の例を示している。

圆 11C]図 11Cは、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。図 11Aおよび図 11Bにより、テンプレートに単語列を挿入した結果、認識可能となる発声の一例とテンプレートとの対応を示してヽる。

[図 12]図 12は、本発明の第 1の実施例のサーバに格納されているデータの具体例を示す図である。

[図 13]図 13は、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。

圆 14A]図 14Aは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。すでに生成された音声認識用文法を示して、る。圆 14B]図 14Bは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。すでに生成された音声認識用文法を示して、る。圆 14C]図 14Cは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。図 14Aおよび図 14Bの文法を融合して、新たな文法を生成するための文法テンプレートを示している。

圆 14D]図 14Dは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。図 14Cの文法テンプレートを用いて作成された文法を示している。 [図 15]図 15は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 16A]図 16Aは、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 16B]図 16Bは、本発明の第 1の実施例の端末外部よりダウンロードされたプロダラムの動作の一例を示すための図である。

[図 16C]図 16Cは、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 17]図 17は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 18]図 18は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 19]図 19は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。

[図 20]図 20は、本発明の第 2の実施例の構成を示す図である。

[図 21]図 21は、本発明の第 2の実施例の動作を示す流れ図である。

圆 22A]図 22Aは、本発明の第 2の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。音声処理言語情報作成手段が第 1プログラムおよびデータ格納手段より読み込んだプログラムおよびデータを説明するための図である。

圆 22B]図 22Bは、本発明の第 2の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。音声処理言語情報作成手段が、第 2プログラムおよびデータ格納手段より読み込んだプログラムおよびデータを説明するための図である。

圆 22C]図 22Cは、本発明の第 2の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。商品データの一例を説明するための図である。

[図 22D]図 22Dは、本発明の第 2の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。音声処理言語情報作成手段で生成する文法のテンプレートである。

[図 22E]図 22Eは、本発明の第 2の実施例の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。文法テンプレートに、データを参照して文法を生成することを説明するための図である。

[図 23]図 23は、本発明の第 3の実施例の構成を示す図である。

[図 24]図 24は、本発明の第 3の実施例の動作を示す流れ図である。

[図 25A]図 25Aは、本発明の第 3の実施例の通信端末での音声処理言語情報統合の具体例を示す図である。サーバで生成された音声言語情報の一例を示して!/、る。

[図 25B]図 25Bは、本発明の第 3の実施例の通信端末での音声処理言語情報統合の具体例を示す図である。サーバで生成された音声言語情報の一例を示して!/、る。

[図 25C]図 25Cは、本発明の第 3の実施例の通信端末での音声処理言語情報統合の具体例を示す図である。通信端末で生成された音声言語情報の一例を示して、る

[図 25D]図 25Dは、本発明の第 3の実施例の通信端末での音声処理言語情報統合の具体例を示す図である。音声処理言語情報統合手段で音声言語情報を合成するための一例を示している。

[図 25E]図 25Eは、本発明の第 3の実施例の通信端末での音声処理言語情報統合の具体例を示す図である。文法テンプレートに、データを参照して文法を生成することを説明するための図である。

発明を実施するための最良の形態

[0015] 次に、本発明を実施例について、図面を参照して詳細に説明する。

[0016] [第 1の実施例]

図 1を参照すると、本発明の第 1の実施例は、通信端末 100とサーバ 200とを備えている。通信端末 100は、第 1プログラムおよびデータ格納手段 101と、音声処理手段 102と、音声処理言語情報作成手段 103と、送受信手段 104と、第 2プログラムおよびデータ格納手段 105と、制御手段 106とを備えている。サーバ 200は、送受信手段 201と、音声処理言語情報作成手段 202とを備えている。これらの手段はそれぞれ概略つぎのように動作する。 [0017] 第 1プログラムおよびデータ格納手段 101は、通信端末 100に予め内蔵されているプログラム（第 1のプログラム)やプログラムが管理するデータ（第 1のデータ）を格納する。第 1プログラムおよびデータ格納手段 101に格納されるデータとしては、通信端末 100の状態に応じて動的に変化するデータや、通信端末 100の利用者の個人データがある。

[0018] 音声処理手段 102は、音声認識と音声合成の少なくとも 1つを行う。

[0019] 音声処理言語情報作成手段 103は、第 1プログラムおよびデータ格納手段 101〖こ記憶されている第 1のプログラムおよびデータ基づいて、音声処理手段 102用の辞書や文法や言語モデル等を作成する。

[0020] 送受信手段 104は、通信端末 100側の情報をサーバ 200に送信し、また、プロダラムおよびデータを、通信端末 100外部から受信する。

[0021] 第 2プログラムおよびデータ格納手段 105は、送受信手段 104により、通信端末 10

0外部から受信したプログラム (第 2のプログラム）およびデータ (第 2のデータ）を格納する。

[0022] 制御手段 106は、送受信手段 104により取得した第 2のプログラムおよびデータから、プログラムおよびデータを呼び出して (サブルーチンコール等）、音声処理手段 1

02と、第 1のプログラムおよびデータを連携させる。

[0023] サーバ 200の送受信手段 201は、通信端末 100側力もの情報を受信し、またサーバ 200からプログラムやデータを通信端末 100側に送信する。

[0024] 音声処理言語情報作成手段 202は、通信端末 100から送信されたデータを基に、サーバ 200側に格納されて、るデータより、音声処理用の辞書を作成する。

[0025] 図 2Aおよび図 2Bは、本発明の一実施例の動作を説明するためのフローチャートである。図 1および図 2A,図 2Bを参照して、本実施例の全体の動作について詳細に説明する。

[0026] 通信端末 100の音声処理手段 102で用いる音声言語情報は、通信端末 100側で生成される場合と、サーバ 200側で生成される場合の 2通りがある。通信端末 100側で生成される場合については図 2Aを参照し、サーバ 200側で生成される場合については図 2Bを参照して説明する。 [0027] 通信端末 100側で生成する場合、送受信手段 104により、通信端末 100外部からプログラムおよびデータを受信し (ステップ Sal)、第 2プログラムおよびデータ格納手段 105に格納する（ステップ Sa2)。

[0028] 次に、制御手段 106は、第 2プログラムおよびデータ格納手段 105に記憶されたプログラムおよびデータを呼び出し、起動する (ステップ Sa3)。

[0029] 起動されたプログラム中に記述されている、音声処理用の言語情報作成手順により

、第 1プログラムおよびデータ格納手段 101のデータを用いて、言語情報を生成する

(ステップ Sa4)。

[0030] 制御手段 106では、前述の生成された音声処理用言語情報を読み出し、音声処理手段 102を起動させる (ステップ Sa5)。

[0031] ステップ Sa3で起動されたプログラムに従って、第 1プログラムおよびデータ格納手段 101のプログラムを呼び出し (ステップ Sa6)、音声処理手段 102と連携動作させる

(ステップ Sa7)。

[0032] サーバ 200側で生成する場合には、送受信手段 104により、通信端末 100外部からプログラムおよびデータを受信し (ステップ Sbl)、第 2プログラムおよびデータ格納手段 105に格納する (ステップ Sb2)。

[0033] 次に、制御手段 106は、第 2プログラムおよびデータ格納手段 105から前述のプログラムおよびデータを起動する（ステップ Sb3)。

[0034] 起動されたプログラム中に記述された音声処理用の言語情報作成手順と、言語情報作成に必要なデータを、サーバ 200に送信する（ステップ Sb4)。サーバ 200側では、音声処理言語情報作成手段 202が、通信端末 100から送信された言語情報作成手順とデータと、サーバ 200側に格納しているデータとを用いて音声言語情報を生成し (ステップ Sb5)、通信端末 100に送信する（ステップ Sb6)。

[0035] 通信端末 100では、これを受けて、生成された音声処理用言語情報を読み出し、音声処理手段 102を起動させる (ステップ Sb7)。

[0036] さらに、ステップ Sb3で起動されたプログラムに従って第 1プログラムおよびデータ格納手段 101のプログラムを呼び出し (ステップ Sb8)、音声処理手段 102と連携動作させる（ステップ Sb9)。 [0037] 次に、本実施例の作用効果について説明する。

[0038] 本実施例では、通信端末 100およびサーバ 200で音声処理言語情報作成手段 10 3、 202を実行するように構成されているため、通信端末 100に予め内蔵されているプログラムや、該プログラムが管理するデータが、音声認識や音声合成といった音声処理に対応していない場合であっても、通信端末 100外から、音声処理と連携されるプログラムをダウンロードすることで、通信端末 100で、音声処理機能を利用することができる。

[0039] また、本実施例では、送受信手段 104と、受信により取得したプログラムを格納する手段と、このプログラムを呼び出して実行するための制御を行う制御手段 106と、を有しているため、連携方法が異なるプログラムを、ユーザの好みによって入れ替え可能である。

[0040] 次に、本発明の第 1の具体例を、図面を参照して説明する。本発明の第 1の具体例の構成は、図 1に示した構成とされる。図 3乃至図 8は、図 1に示した本具体例の第 1 プログラムおよびデータ格納手段 101に格納されるプログラムおよびデータの一例を説明するものである。

[0041] 図 3は、第 1プログラムおよびデータ格納手段 101に格納されるプログラムと、プログラムが管理するデータとの対応を説明するための図である。図 3では、プログラムとして、端末管理、アドレス帳、送信着信 (発信受信)履歴、 GPS (Global Positioning System)、赤外線の 5つのプログラムが格納されている。また、それぞれに対応するデータとして、端末管理データ、アドレス帳データ、送信着信履歴データ、 GPSデータ、赤外線でデータが格納されている。

[0042] 図 4乃至図 8は、図 3に示した第 1プログラムおよびデータ格納手段 101に格納されるプログラムが管理するデータの一例を示す図であり、通信端末 100のユーザ独自の情報や通信端末の動的に変化するデータを想定している。

[0043] 図 4は、図 3の端末管理プログラムが管理する端末管理データの一例である。図 4 に示すように、端末管理データは、項目と、その値 (パラメータ)より構成される。

[0044] 項目としては、電源、電池の残量、電波状態、蓋の開閉があり、それぞれの値は、電源 = ON、電池の残量 =45%、電波状態 =良好、蓋の開閉 =閉となっている。 [0045] 図 5は、図 3のアドレス帳プログラムが管理するアドレス帳データの一例である。アドレス帳データは、データに番号付けをするための ID、名前、名前の読み、メールアドレス、電話番号から構成される。図 5に示す例では、 ID=001、名前 =田中一郎、読み =いっちやん、メールアドレス = ichiro@xxx.com、電話番号 =090— 2222— 3333となつている。

[0046] 図 6は、図 3に示した発信着信 (発信受信)履歴プログラムが管理する発信着信 (送信受信)履歴データの一例である。発信着信履歴データは、データを番号付けするための ID、発信着信の別、発信または着信した日時、発信または着信した先の電話番号より構成される。

[0047] 図 6に示す例では、データが 3件あり、

ID=001のデータでは、発信着信の別 =発信、発信日時 =2003年 12月 18日 1時 2分 34秒、発信先 = 090- 2222- 3333となっており、

ID=002のデータでは、発信着信の別 =着信、着信日時 =2003年 12月 18日 1時 4分 34秒、着信先 = 090- 2222- 3333となっており、

ID=003のデータでは、発信着信の別 =着信、着信日時 =2003年 12月 18日 2時 4分 34秒、着信先 = 090- 2222- 3333となっている。

[0048] 図 7は、図 3の GPSプログラムが管理する GPSデータの一例である。 GPSデータでは、直前に GPSプログラムが動作したときに取得したデータを保持する。図 7に示す例では、 GPSデータは、項目名とその値とから構成される。項目としては、計測日時、緯度、経度、現在地の住所より構成され、計測日時 =2003年 12月 18日 1時 0分 34秒、緯度 = N35° 51.475、経度 = E139° 51.475、現在地の住所 =東京都港区芝 1_1-1 となっている。

[0049] 図 8は、図 3の赤外線プログラムが管理する赤外線データの一例である。赤外線データでは、端末外の赤外線ポートとの通信履歴を保持する。図 8に示す例では、赤外線データは、データを番号付けするための IDと、通信日時と、通信先 IDと、通信コマンドと、コマンドに付随したパラメータと、から構成されており、 4件のデータがあり、

ID = 001のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 10ms、通信先 = IDxxxxxx,通信コマンド =接続要求となっており、 ID = 002のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 30ms、通信先 = IDxxxxxx,通信コマンド =接続要求応答となっており、

ID = 003のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 50ms、通信先 = IDxxxxxx,通信コマンド =データ読み出し要求、パラメータ = "データ名 =ファイル l.txtファイルタイプ =txt"となっており、

ID = 004のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 0ms、通信先 = Idxxxxxx,通信コマンド =データ読み出し応答、パラメータ = "データ名 =ファイル l.txtファイルタイプ =txt"となっている。

[0050] 図 8に示す例では、

ID=001のデータの示す時刻に、 ID=001のデータの示す通信先に、通信端末より接続要求が送信され、

ID=002のデータの示す時刻に通信先との接続が確立し、

ID=003のデータの示す時刻にテキスト形式のファイルであるファイル 1.txtのフアイルを読み出すように要求を送信し、

ID=004のデータの示す時刻に前記ファイル l.txtのファイルが通信端末に送信された、

ことを意味している。

[0051] 次に、図 9乃至図 11Cを用いて、本発明の一具体例の通信端末 100の音声処理言語情報作成手段 103の動作を説明する。

[0052] 音声処理言語情報作成手段 103は、音声処理手段 102で用いる音声言語情報を作成する。音声処理手段 102は、音声認識と音声合成を行う。

[0053] 音声認識用の音声言語情報としては、単語列とその読みカゝら構成される単語辞書

、有限言語ネットワークによる文法、確率統計モデルに基づく言語モデルを用いる。

[0054] また、音声合成用の音声言語情報としては、単語列とその読み力も構成される辞書を用いる。

[0055] 音声認識用の単語辞書作成の一例としては、対象とするプログラムやデータの形式を用いて形態素解析を行い、特定の品詞の単語に読み付けを行い、単語辞書に登録する。 [0056] この際、品詞ごとに読み付けルール定め、これに従って、読みを行う。

[0057] また、格納されているデータの構造が明らかなものに関しては、構造解析を、事前に行い、この結果を用いて、データの種類を分類し、分類した結果毎に、読みづけを行う。

[0058] 前者の形態素解析が有効なデータとしては、 Webブラウザが管理する Webページデータやメーラが管理するメールデータなどがある。

[0059] また後者のデータの構造解析が有効な例としては、アドレス帳データや端末状態データがある。

[0060] 解析結果が人名のものは、同じデータ内に該当する読み情報がある場合、その情報を優先し、読みがない場合は仮名漢字変換機能により、読みを生成する。

[0061] 解析の結果が、電話番号およびメールアドレスでは、数字やアルファベットでの読みの他、「田中さんの電話」や「田中さんのメールアドレス」のように名前をふくめたものも含めて登録する。

[0062] 解析の結果が、「電池」や「電源」などの端末の機能や部品を示す名詞や、それらの状態を示す名詞や形容詞や動詞は、予め類義語、発音変形、省略形の読みを予めデータベースとしておき、データベースより該当するものを辞書に登録する。

[0063] 音声認識用の文法作成方法の一例としては、対象とするプログラム毎に、文法のテンプレートを予め用意しておく。この文法テンプレートは、文法の構造である単語列のネットワークや単語列の生成方法を定義するものである。

[0064] 音声処理言語情報作成手段 103では、文法テンプレートしたがって、データを挿入し、文法を作成する。

[0065] 音声合成用の辞書生成方法の一例としては、音声認識用の単語辞書と同様に対象とするプログラムやデータの形式を用いて形態素解析を行い、品詞ごとに、読み付けルールを定め、このルールに従って、読みを登録する。

[0066] また、格納されているデータの構造が明らかなものに関しては、構造解析を事前におこな、この結果を用いてデータの種類を分類し、分類した結果ごとに読みづけルールを用意しておき、これを用いて読み付けを行う。

[0067] 読み付けのルールの一例としては、以下のような方法がある。 [0068] 解析結果が人名のものは、読み付けルールとして、同じデータ内に、該当する読み情報がある場合、その情報を優先し、読みがない場合には、仮名漢字変換機能により、読みを生成する。

[0069] 解析の結果が、メールアドレス場合、読み付けのルールとして、形態素解析の結果を用いて、メールアドレスの前後の関係から、持ち主が判定できる場合、「田中さんのメールアドレス」のように、メールアドレスの持ち主の名前を含めた読み付けを行い、持ち主が判定できな、場合、「このメールアドレス」のように読み付けを行う。

[0070] 辞書への登録を必要としな!/、通常のアルファベットや、数字の読み付けを用いるか、前記読み付けルールを用いるかは、プログラム中に定義しておく。

[0071] 解析の結果が、電話番号の場合、読み付けルールとしては、形態素解析の結果を用いて、電話番号の前後の関係から持ち主が判定できる場合には、例えば「田中さんの電話番号」のように、持ち主の名前を含めた読み付けを行う。一方、持ち主が判定できない場合には、「この電話番号」のように読み付けを行う。また、局番から固定電話、携帯電話、 IP電話、フリーダイアル等の電話の種類を判定し、たとえば、 0120 で始まるものの場合、「このフリーダイアル」のように読み付けを行う。

[0072] このほかにも、音声合成が定義して!/、る数字や記号の読みを用いる方法や、局番間の区切り記号であるハイフンやマイナスや括弧を'の'に置き換える方法などがある。たとえば、ハイフンやマイナスや括弧を'の，に置き換える方法では、「044— 999— 1 234」は、「ぜろよんよんのきゆ一きゆ一きゆ一のいちに一さんし一」と読みづけがされる。いずれの読み付けルールを採用するかは、プログラム中に定義する。

[0073] 解析の結果が「電池」や「電源」などの端末の機能や部品をしめす名詞では、予め、その読みをデータベースに登録しておき、データベースより該当するものを辞書に登録する。

[0074] 図 9は、音声認識用の単語辞書の生成を説明するための図である。図 9には、一例として、図 4に示した端末情報データに対して、辞書が生成される例が示されている。端末情報データは、端末の機能や部品をしめす名詞や、それらの状態を示す名詞であることから、予め登録されたデータベースより、該当するものを辞書に登録する。

[0075] 端末情報データの項目名である、「電源」および「電池の残量」を表記として、辞書が生成される例を示して、る。

[0076] 表記「電源」には、単語の読み仮名である「でんげん」と、電源の類義語である「ぱわ一」の 2つを音声認識用の読みとして登録する。

[0077] また、表記「電池の残量」では、単語の読み仮名である「でんちのざんりょう」のほかに、「電池」の類義語である「ばってり一」および「ばってり一」の発音変形「ばってり」、「残量」の類義語である「のこり」とを合わせて、「でんちののこり」、「ばってり一のざんりょう」、「ばってりのざんりょう」、「ばってり一ののこり」、「ばってりののこり」を登録する

[0078] また、「電池の残量」の省略形である「でんち」、「ざんりょう」と、これらの類義語や発音変形の「ばってり一」、「ばってり」、「のこり」もあわせて登録する。

[0079] 図 10は、音声合成用の辞書の生成を説明するための図である。図 10には、一例として、図 5に示したアドレス帳データに対して、辞書が生成される例が示されており、「田中一郎」、「ichiro@xxx.com」、「090-2222-3333」の 3種類の表記に対して、音声合成の読みを生成する例を示して!/、る。

[0080] 表記「田中一郎」に対しては、人名であることから、アドレス帳データに与えられている読み「ヽっちゃん」を登録する。

[0081] また、表記「ichiro@xxx.com」に対しては、メールアドレスであるので、メールの持ち主の読みを含めた形式である「いつちゃんのめ一るあどれす」を登録する。

[0082] さらに、表記「090-2222-3333」に対しては、電話番号であるので、電話番号の持ち主の読みと局番の解析結果を含めた形式である「、つちゃんのけヽた、でんわ」を登録する。

[0083] 図 11A乃至図 11Cは、音声認識用文法の生成を説明するための図である。図 11 A乃至図 11Cには、一例として図 5で示したアドレス帳データを用いてアドレス帳に対して操作を行うための文法が示されて、る。

[0084] 図 11Aでは、文法生成のための文法テンプレートの一例を示している。文法テンプレートでは、文法の構造や登録する単語列の定義の方法を定義する。この例では、アドレス帳の [読み]、 [助詞]、アドレス帳の [項目]、 [助詞]、 [操作]の各項目を順々に発声するような言い回しを定義している。また、このうち、 [読み]と、 [項目]に登録する単語列はアドレス帳力も参照する。また、それ以外の [助詞]と、 [操作]は、登録する単語列を予め定義しておく。

[0085] 図 11Bでは、図 11Aの文法テンプレートに従って登録される単語列の例を示したものである。各単語列は、表記と読みで構成されている。アドレス帳カゝら参照された [読み]と [項目名]、予め登録された [助詞]と [操作]の 4項目の単語列を定義して!/、る。

[読み]には、 "いっちやん"の 1単語力 [項目名]には、 "名前"、 "読み"、 "メールアドレス"、 "電話番号"の 4単語が、 [助詞]には、 "の"、 "を"の 2単語が、 [操作]には、 " 消去する"、 "消す"、 "編集する"、 "編集します"、 "編集したい"の 5単語が登録されている。また、各単語には読みと表記が与えられている。

[0086] 図 11Cでは、図 11Aおよび図 11Bにより、テンプレートに単語列を挿入した結果、認識可能となる発声の一例とテンプレートとの対応を示したものである。

[0087] 以上のように定義することにより、「いつちゃんの電話番号を編集したい」という発声を、認識するための文法が生成される。

[0088] 次に、図 12乃至図 14Dを用いて、図 1に示した具体例のサーバ 200の音声処理言語情報作成手段 202の動作を説明する。

[0089] 音声処理言語情報作成手段 103では、通信端末 100側からデータの生成方法と、通信端末 100で管理しているデータを、サーバ 200に送信する。これらを用いて、サーバ 200内に格納しているデータにより、音声言語情報を生成する。

[0090] サーバ 200の音声処理言語情報作成手段 202で生成する音声言語情報は、通信端末 100の音声合成情報作成手段 103で生成されるものと同様に、音声認識用としては単語列とその読みカゝら構成される単語辞書、有限言語ネットワークによる文法、確率統計モデルに基づく言語モデルを想定している。

[0091] 音声合成用の音声言語情報も、単語列と、その読みから構成される辞書を想定している。また、音声認識用の単語辞書および文法および言語モデルの作成方法は、サーバ 200内に格納しているデータを用いる他は同様とする。音声合成用辞書に関しても同様とする。

[0092] 以下、図 12乃至図 14Dを参照して、音声言語情報の生成について説明する。

[0093] 図 12と図 13では、サーバ 200での音声言語情報生成の一例として、サーバ 200に格納されたデータを用いて、音声認識用の単語辞書を生成する例を示して、る。

[0094] ここでは、サーバ 200側から、通信端末 100の電話番号を送信し、サーバ 200で管理して!/ヽる利用履歴を基に、サービスを利用するための単語辞書を作成する方法を説明する。

[0095] 図 12は、サーバ 200で管理しているデータの一例である利用履歴データを示す図である。このデータは、データを番号付けするための ID、利用者の電話番号、サービス名、利用回数、最終利用日、利用金額合計、サービス主体者の利用希望の度合いを示すキャンペーンより構成されている。図 12では、通信端末 100よりサーバ 200に送付された通信端末の電話番号が、 090— XXXXYYYYの場合、該当するものが、 ID=001— 003の 3件があることを示して!/、る。

[0096] また、それぞれの利用につ!/、ては、

ID=001では、 AA美術館のチケット購入力回利用があり、最終利用日時が 2003年 03月 12日 19時 30分 25秒で利用金額が 5500円でサービス主体者の利用希望の度合いは低であり、

ID=002では、中華料理店 B力回利用があり、最終利用日時が 2003年 03月 12日 22 時 30分 25秒で利用金額力 ^5800円でサービス主体者の利用希望の度合いは中であり、

ID=003では、エステサロン Cは利用履歴がなくサービス主体者の利用希望の度合いは高である、

ことを示している。

[0097] 図 13は、図 12を用いて作成された音声認識用の単語辞書である。図 13に示す例では、利用履歴力も利用可能なサービスを列挙し、登録されたサービス名やサービスを利用するための単語を辞書に登録する。サービスを利用するための単語列は、予めサーバ 200内に定義しておく。

[0098] 登録する単語列に登録可能な数や登録順などの制約がある場合には、利用回数、最終の利用日、金額合計やサービス主体者の利用希望の度合いにより制約を行う。

[0099] 例えば、図 12の ID = 001に登録されている AA美術館チケット購入のサービスについての場合、利用するための言い回しとして、 AA美術館、美術館、チケット購入などを

音声認識用の単語辞書に登録する。

[0100] サーバ 200の音声処理言語情報作成手段 202が生成する音声言語情報としては、複数のプログラムを連携動作させるための音声言語情報を作成することも想定している。

[0101] 図 14A乃至図 14Dを参照して、複数のプログラムを連携動作させるための音声言語情報の生成について説明する。図 14乃至図 14Dに示す例では、複合施設の情報案内プログラムと、複合施設内の店舗のサービス予約プログラムと、を連携させて動作させるための音声認識用文法の生成について説明する。

[0102] 図 14Aおよび図 14Bは、すでに生成された音声認識用文法を示している。

[0103] 図 14Aは、複合施設の情報案内プログラムを音声で制御させるための文法である。

この文法は、複合施設内の店舗のカテゴリーを特定するための [カテゴリー]と、 [店舗名]と、案内の内容を指定するための [項目]と、 [コマンド]の 4つの単語列より構成される。

[0104] 単語列 [カテゴリー]には"レストラン"、 "エステティック"、 "美術館，，の 3つの単語力

[店舗施設名]には、 "店 A"、 "美術館 A"、 "エステティックサロン A"の 4つの単語が

[項目]には、 "場所"、 "営業時間"、 "定休日"、 "予算"の 4つの単語が、

[コマンド]には、 "どこ"、 "いくら，，、 "いつ，，

の 3つの単語が登録されて!、る。

[0105] なお、各単語列に登録された単語はそれぞれ表記と読みをもつ。

[0106] この文法では、「エステティックのエステサロン Aの定休日は!、つ」が認識可能である。

[0107] 図 14Bは、複合施設内の店舗のサービス予約プログラムで、

サービスを特定するための [サービス名 ]と、

サービスを受けたい時間を指定するための [時間]と、

予約に関する操作を指定するための [予約コマンド]

より構成されている。 [0108] 単語列 [サービス名 ]には"サービス Aを"、 "サービス Bを"の 2つの単語が、

[時間]には" 10 : 00に"、 "11 : 00に"の 2つの単語が、

[予約コマンド]には"予約"、 "取り消し"、 "確認"の 3つの単語が登録されている。なお、各単語列に登録された単語は、それぞれ表記と読みをもつ。

[0109] この文法では、「サービス Aを 10 : 00に予約」が認識可能である。

[0110] 図 14Cは、図 14Aおよび図 14Bの文法を融合して、新たな文法を生成するための文法テンプレートである。

[0111] このテンプレートでは、

[カテゴリー]と、 [店舗施設名]と、 [項目]と、 [コマンド]を順々に指定する文法と、 [カテゴリー]と、 [店舗施設名]と、 [サービス名]と、 [時間]と、 [予約コマンド]と、を順々に指定する文法の 2つを定義している。

[0112] [カテゴリー]と、 [店舗施設名]と、 [項目]と、 [コマンド]の項目に定義する単語列は、図 14Aの文法より挿入する。

[0113] また、 [サービス名]と、 [時間]と、 [予約コマンド]の各項目に定義する単語列は、図 14Bより挿入する。

[0114] 図 14Dは、図 14Cの文法テンプレートを用いて作成された文法を示す図である。これにより、

「エステティックのエステティックサロン Aの定休日はいつ」と、

「エステイツクのエステティックサロン Aのサービス Aを 10： 00に予約」

の双方の文法が認識可能となる。

[0115] 次に、図 15乃至図 19を参照して、図 1の第 2プログラムおよびデータ格納手段 105 に格納されるプログラムについて説明する。

[0116] 第 2プログラムおよびデータ格納手段 105に格納されるプログラムでは、第 1プログラムおよびデータ格納手段 101に格納されたプログラムおよびデータや、音声処理手段 102や、サーバ 200との連携動作の方法を定義して、る。

[0117] この場合、第 1プログラムおよびデータ格納手段 101に格納されるプログラム (通信端末 100に予め格納されるプログラム）としては、発信や着信を管理する発信着信プログラム、現在地を割り出すための GPSプログラムや、赤外線通信を行うための赤外線通信プログラムなどがある。

[0118] 以下では、図 15乃至図 19を参照して、具体的なプログラムについて説明する。

[0119] 図 15、図 16A乃至図 16Cを参照して、第 2プログラムおよびデータ格納手段 105 に格納されるプログラムの一例として、第 1プログラムおよびデータ格納手段 101に格納された発信着信プログラムと、音声処理手段 102とを連携して動作させるプロダラムの動作を説明する。具体的には前述のプログラムでは、電話を着信すると、発信着信履歴や、端末状態に応じたメッセージを合成音で出力する。

[0120] 図 15は、第 2プログラムおよびデータ格納手段 105に格納されるプログラムの処理手順を説明するためのフローチャートである。図 15に示すように、制御手段 106は、電話を着信すると、まずアドレス帳より着信した電話番号に該当するデータを検索する（ステップ S 1301)。着信番号が登録されて!、る場合 (ステップ S 1302の「ある」分岐)、名前を一時的保存する (ステップ S1303)。次に、発信着信履歴を検索し、該当する電話番号がある場合 (ステップ S1304の「ある」分岐)、発信回数と受信回数を一時的に保存する (ステップ S 1305)。次に、端末状態を検索し、バッテリー状態を一時的に保存する (ステップ S 1306)。

[0121] さらに、ステップ S1303、ステップ S1305、およびステップ SI 306での保存状態を受けて、出力する文章を作成し (ステップ S1307)、音声合成で出力する (ステップ S 1308)。

[0122] 図 16A乃至図 16Cは、ステップ S1307における発声文を作成するためのルールの一例を説明するための図である。まず、図 16Aに示すように、ステップ S1302において、アドレス帳に該当するデータがない場合、「でんわだよ」とする。アドレス帳に該当するデータがある場合、アドレス帳に登録されて、る読みを用いて「田中一郎さんから電話だよ」のように作成する。

[0123] 次に、図 16Bに示すように、ステップ S1304において、発信回数および着信回数がともに 0— 4回の場合、該当する文章は作成しな!、。

[0124] 発信回数が 5回以上で、着信回数が 0— 4回のときは、「お待ちどう様、やっと、かかつてきてよ力つたね」とする。さらに、着信回数が 5回以上のときは、「今日は、よくかかつてくるね」とする。 [0125] さら〖こ、図 16C〖こ示すよう〖こ、ステップ S1306〖こおいて、電池の残量が、 40%以上の場合は、該当する文章はない。 40%未満の場合は、「どうでもいいけど、電源につないでくれよ一。電池の残量がきれるよ。」とする。

[0126] 例えば、ステップ S1302において該当するデータがあり、着信回数が 5回以上で、電池の残量力 0%未満の場合、「田中さん力電話だよ。今日は、よくかかってくるね。どうでもいいけど、電源につないでくれよ一。電池の残量がきれるよ。」となり、ステツプ S1302において該当するデータがなぐ着信回数および発信回数がなぐ電池の残量力 0%以上の場合には、「でんわだよ」となる。

[0127] 次に、図 17には、第 2プログラムおよびデータ格納手段 105に格納されれたプログラムの一例が示されている。図 17を参照して、第 1プログラムおよびデータ格納手段 101に格納された GPSプログラムと音声処理とを連携動作させるプログラムの動作について説明する。図 17は、 GPSプログラムとサーバと音声処理とを連携して動作させる例を示す図であり、具体的には通信端末の現在の位置力複合施設を割り出し複合施設サービスを音声検索するためのプログラムのフローチャートである。

[0128] まず、通信端末 100内の第 1プログラムおよびデータ格納手段 101に格納されている GSPプログラムを起動し (ステップ S1501)、現在地を計測する（ステップ S1502)。送受信手段 104より現在地のデータをサーバに送信し、サーバ 200の送受信手段 2 01ではこれを受信する（ステップ S 1503)。

[0129] サーバ 200の音声処理言語情報作成手段 202では、ステップ S 1503で受信した現在地データとサーバ内で管理している複合施設のサービスリストとにより辞書を作成する（ステップ S 1504)。

[0130] 辞書を、サーバ 200の送受信手段 201により通信端末 100に送信し、通信端末 10 0の送受信手段 104で、辞書を受信する (ステップ S1505)。

[0131] 次に、ステップ S1505において受信した音声処理辞書を用いて、音声処理手段 10 2の音声認識を起動する (ステップ S 1506)。

[0132] さらに、通信端末 100内の第 1プログラムおよびデータ格納手段 101に格納されているブラウザを起動し (ステップ S 1507)、ステップ S 1502において取得した現在地の住所から複合施設サービスページを表示する (ステップ S 1508)。 [0133] ブラウザの表示中にユーザの発声があった場合 (ステップ SI 509)、音声処理手段 102で音声認識され (ステップ S 1510)、ページ中のリンクへのジャンプや文字入力などのコマンド処理が行われる（ステップ S1511)。コマンドが終了コマンドであった場合、終了する。

[0134] 次に、図 18および図 19を参照して、図 1の第 2プログラムおよびデータ格納手段 1 05に格納されるプログラムの一例として、第 1プログラムおよびデータ格納手段 101 に格納された赤外線プログラムと、音声処理と、サーバ 200とを連携動作させるプログラムの動作にっ、て説明する。

[0135] 図 18および図 19は、赤外線プログラムと、音声処理手段 102とを連動させて使用するプログラムの一例を示す図であり、具体的には映画館やショッピングモール等の複合型施設でのサービスを音声認識や合成により受けるためのプログラムの一例である。

[0136] このプログラムでは、複合施設の壁や柱や家具などの什器に、赤外線ポートを埋め込んだり、赤外線ポート専用の端末などのインフラを設けておくことが前提とされている。

[0137] 図 18は、サービスの形態を説明するための図であり、複合施設内の赤外線ポート毎のサービス一覧を表している。この例では、各赤外線固有のポート IDと、各ポートの店舗名や設置フロアなど固定の位置情報と、什器や端末を特定するための情報と、ポートより受けられるサービスにより表している。

[0138] 例えば、ポート ID=001の赤外線ポートは、美術館 1階の A2柱に設置の展示 Aに設置されている。このポートからは、展示品情報提供サービスの呼び出しが可動である。具体的には、展示 Aに関連した情報を音声合成により読み上げを行う。

[0139] また、ポート ID=100の赤外線ポートは、西館 6F中華料理店 Bにある T100テーブルに設置されている。このポートからは、メニュー説明注文のサービスが可動である。具体的には、メニューの紹介を音声合成により読み上げたり、音声認識により注文を行

[0140] 図 19は、赤外線プログラムと、音声処理とを連動させるプログラムの動作手順を示す図である。この例では、動作に必要なプログラムや音声処理に必要な辞書は、予め生成し、第 1プログラムおよびデータ格納手段 101に格納しておく。

[0141] まず、第 1プログラムおよびデータ格納手段 101に格納されている赤外線プロダラムを起動し (ステップ S1701)、現在地の赤外線ポート IDを取得する（ステップ S170 2)。取得したポート IDに従ったサービスプログラムに切り替える（ステップ S1703)。

[0142] サービスプログラムでは、音声認識または音声合成が設定されて!、るので、音声処理機能を起動する (ステップ S 1704)。

[0143] 起動されたプログラムに対して、ボタン入力や発声などのユーザ入力ある場合 (ステップ S 1705)は、音声処理を実行する（ステップ S 1706)。具体的に、この処理では、音声合成による出力や、音声認識の結果をコマンドに変換して実行する。さらに、音声処理の結果が終了の場合には (ステップ S1707)、終了する。

[0144] [第 2の実施例]

次に、本発明を第 2の実施例について図面を参照して詳細に説明する。

[0145] 図 20を参照すると、本発明の第 2の実施例は、通信端末 1000とサーバ 200とを備えている。通信端末 1000は、第 1プログラムおよびデータ格納手段 1101と、音声処理手段 1102と、音声処理言語情報作成手段 1103と、送受信手段 1104と、第 2プログラムおよびデータ格納手段 1105と、制御手段 1106とを備えている。サーバ 200は、送受信手段 201と、音声処理言語情報作成手段 202を備えている。これらの手段はそれぞれ概略つぎのように動作する。

[0146] 第 1プログラムおよびデータ格納手段 1101は、通信端末 1000に予め内蔵されているプログラムや、プログラムが管理するデータを格納する。第 1プログラムおよびデータ格納手段 1101に格納されるデータとしては、通信端末 1000の状態に応じて、動的に変化するデータや、端末利用者の個人データ等がある。音声処理手段 1102 は、音声認識および音声合成の少なくとも一方を行う。

[0147] 音声処理言語情報作成手段 1103は、第 1のプログラムおよびデータと第 2のプログラムおよびデータが記憶している内容に従って、音声処理手段 1102用の辞書や文法や言語モデル等を作成する。

[0148] 送受信手段 1104は、通信端末 1000側の情報を送信し、プログラムおよびデータを端末外部から受信する。 [0149] 第 2プログラムおよびデータ格納手段 1105は、送受信手段 1104により、通信端末 1000外部力も受信したプログラムおよびデータを格納する。

[0150] 制御手段 1106は、送受信手段 1104により取得した第 2のプログラムおよびデータ力プログラムおよびデータを呼び出して、音声処理手段 1102および第 1のプロダラムおよびデータを連携させる。

[0151] 送受信手段 201は、通信端末 1000側力もの情報を受信し、サーバ 200で生成されたプログラムやデータを端末側に送信する。

[0152] 音声処理言語情報作成手段 202は、通信端末 1000から送信されたデータを基に、サーバ 200側に格納されているデータより音声処理用の辞書を作成する。

[0153] 次に、図 20および図 21のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。

[0154] まず、送受信手段 1104により、通信端末 1000外部から第 2プログラムおよびデータ格納手段 1105にプログラムおよびデータを受信し (ステップ S2101)、第 2プロダラムおよびデータ格納手段 1105に格納する（ステップ S2102)。

[0155] 次に、制御手段 1106は、第 2プログラムおよびデータ格納手段 1105より、前述のプログラムおよびデータを起動し (ステップ S2103)、プログラム中に記述された音声処理用の言語情報作成手順をサブルーチンコール等で呼び出す (ステップ S2104)

[0156] ステップ S2104で、呼び出した作成手順において、作成の対象となるプログラムおよびデータを、第 1プログラムおよびデータ格納手段 1101と、第 2プログラムおよびデータ格納手段 1105の双方よりを呼び出す (ステップ S2105)。

[0157] ステップ S2104で読み出した言語情報生成手順により、通信端末 1000の音声処理言語情報作成手段 1103で生成する場合 (ステップ S2106)、ステップ S2105で呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段 1103において言語情報を生成する (ステップ S2107)。

[0158] ステップ S2107において、通信端末 1000の音声処理言語情報作成手段 1103で作成しない場合、ステップ S 2108に進む。

[0159] ステップ S2104で読み出した言語情報生成手順により、サーバ 200の音声処理言語情報作成手段 202で生成する場合 (ステップ S2108)、ステップ S2105において読み出したデータを送受信手段 1104によりサーバ 200に送信し送受信手段 201では、このデータを受信する（ステップ S2109)。前述のデータとサーバ内に格納しているデータより、音声処理言語情報作成手段 202で音声処理用言語情報を生成する（ステップ S2110)。

[0160] サーバ 200の送受信手段 201により生成された音声処理用辞書を、通信端末 100

0に送信し、送受信手段 1104は、これを受信する (ステップ S2111)。

[0161] ステップ S2108において、サーバ 200の音声処理言語情報作成手段 202において音声処理用言語情報を作成しな、場合、ステップ S 2112に進む。

[0162] 制御手段 1106ではこれを受けて、前述の生成された音声処理用言語情報を読みこんで、音声処理手段 1102を起動させる (ステップ S2112)。

[0163] さらに、ステップ S2103で起動されたプログラムに従って、第 1プログラムおよびデータ格納手段 1102のプログラムをよびだし (ステップ S2113)、音声処理手段 1102 と連携動作させる (ステップ S2114)。

[0164] 次に、本実施例の作用効果について説明する。

[0165] 本実施例では、音声処理言語情報作成手段 1103において、第 1プログラムおよびデータ格納手段 1101と、第 2プログラムおよびデータ格納手段 1105の双方よりプログラムおよびデータを呼び出して、音声言語情報を作成するため、通信端末 1000に予め内蔵されてヽるプログラムと、受信したプログラムとを連携させて音声認識や音声合成などの音声処理を行うことが可能である。

[0166] 次に、本発明の第 2の具体例を図面を参照して説明する。図 20は、この具体例の構成を示す図である。本具体例では、音声処理言語情報作成手段 1103が、第 1プログラムおよびデータ格納手段 1101と第 2プログラムおよびデータ格納手段 1105の双方を参照して、音声言語情報を生成する点が、前記第 1の具体例とは相違している。

[0167] 図 22A乃至図 22Eは、音声処理言語情報作成手段 1103の動作を説明するための図である。

[0168] 図 22Aは、音声処理言語情報作成手段 1103が第 1プログラムおよびデータ格納手段 1103より読み込んだプログラムおよびデータを説明するための図であり、この例では、メーラとメーラの管理するデータであるアドレス帳データとメールデータとを用いるものとする。

[0169] 図 22Bは、音声処理言語情報作成手段 1103が、第 2プログラムおよびデータ格納手段 1105より読み込んだプログラムおよびデータを説明するための図である。この例では、商品検索プログラムと商品データを用いる。

[0170] 図 22Cは、前記商品データの一例を説明するための図であり、商品 IDと商品名と商品データファイルとにより構成されている。

[0171] 図 22Dは、音声処理言語情報作成手段 1103で生成する文法のテンプレートである。このテンプレートを用いると、読みと助詞と商品名とメールコマンドより構成される文法が生成される。また、メールコマンドは、メールとコマンド (メール)より構成される。読みはアドレス帳より参照する。また、商品名は商品データより参照する。

[0172] それぞれのプログラムが管理するデータより参照できない、助詞、メール、コマンド（メール）に登録する単語列は予め与えておく。

[0173] 図 22Eは、文法テンプレートに、データを参照して文法を生成することを説明するための図で、参照後、「いつちゃんに商品 001をメールで送る」という発声を音声認識するための文法が生成されたことを意味して、る。

[0174] 以上のように、音声処理言語情報作成手段 1103で、第 1プログラムおよびデータ格納手段 1101より読み込んだプログラムおよびデータと、第 2プログラムおよびデータ格納手段 1101より読み込んだプログラムおよびデータとを連携させて音声言語情報を生成することにより、端末に固有のプログラムや機種やユーザに固有の情報や端末の状態によってダイナミックに変化する情報と機種に依存することなく作られた汎用的なプログラムやそのデータとを連携させ、音声認識や音声合成といった音声処理で制御することが可能になる。

[0175] [第 3の実施例]

次に、本発明の第 3の実施例について図面を参照して詳細に説明する。

[0176] 図 23を参照すると、本発明の第 3の実施例は、通信端末 2000と、複数のサーバ 2 00と、サーノ¾00を備えている。通信端末 2000は、第 1プログラムおよびデータ格納手段 2101と、音声処理手段 2102と、音声処理言語情報作成手段 2103と、送受信手段 2104と、第 2プログラムおよびデータ格納手段 2105と、制御手段 2106と、音声処理言語情報統合手段 2107を備えている。

[0177] サーバ 200は、送受信手段 201と、音声処理言語情報作成手段 202を備えている。サーバ nOOは、送受信手段 ηθΐと、音声処理言語情報作成手段 n02から構成されて、る。これらの手段はそれぞれ概略つぎのように動作する。

[0178] 第 1プログラムおよびデータ格納手段 2101は、通信端末 2000に予め内蔵されて V、るプログラムやプログラムが管理するデータを格納する。第 1プログラムおよびデータ格納手段 2101に格納されるデータとしては、通信端末 2000の状態に応じて動的に変化するデータや端末利用者の個人データがある。音声処理手段 2102は、音声認識および音声合成の少なくとも一方を行う。

[0179] 音声処理言語情報作成手段 2103は、第 1のプログラムおよびデータと第 2のプログラムおよびデータとが記憶している内容に従って、音声処理手段 2102用の辞書や文法や言語モデル等を作成する。送受信手段 2104は、通信端末 2000側の情報を送信し、プログラムおよびデータを端末外部力受信する。第 2プログラムおよびデータ格納手段 2105は、送受信手段 2104により端末外部力も受信したプログラムおよびデータを格納する。

[0180] 制御手段 2106は、送受信手段 2104により取得した第 2のプログラムおよびデータ力プログラムおよびデータを呼び出して、音声処理手段 2102、および第 1のプログラムおよびデータを連携させる。

[0181] 音声処理言語情報統合手段 2107は、通信端末 2000の音声処理言語情報作成手段 2103で生成された音声言語情報と、サーバ 200の音声処理言語情報生成手段 202およびサーバ nOOの音声処理言語情報生成手段 n02で生成された音声言語情報とを合成して音声言語情報を生成する。

[0182] サーバ 200の送受信手段 201は、通信端末 2000側力もの情報を受信し、サーバ 2 00で生成されたプログラムやデータを通信端末 2000側に送信する。音声処理言語情報作成手段 202は、通信端末 2000から送信されたデータを基に、サーバ 200側に格納されてヽるデータより、音声処理用の音声言語情報を作成する。 [0183] また、サーバ nOOでも同様に、送受信手段 ηθΐは、通信端末 2000側からの情報を受信し、サーバ nOOで生成されたプログラムやデータを通信端末 2000側に送信する。音声処理言語情報作成手段 n02は、通信端末 2000から送信されたデータを基にサーバ nOO側に格納されて!ヽるデータより、音声処理用の音声言語情報を作成する

[0184] 次に、図 23および図 24のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。

[0185] まず、送受信手段 2104により、通信端末 2000外部から第 2プログラムおよびデータ格納手段 2105に、プログラムおよびデータを受信し (ステップ S2401)、第 2プログラムおよびデータ格納手段 2105に格納する（ステップ S2402)。

[0186] 次に、制御手段 2106は、第 2プログラムおよびデータ格納手段 2105より前述のプログラムおよびデータを起動し (ステップ S2403)、プログラム中に記述された音声処理用の言語情報作成手順を呼びだす。ステップ S2404で呼び出した音声情報作成手順において、作成の対象となるプログラムおよびデータを、第 1プログラムおよびデータ格納手段 2101と、第 2プログラムおよびデータ格納手段 2105の双方よりを呼びだす (ステップ S2405)。

[0187] ステップ S2404で読み出した言語情報生成手順により、通信端末 2000の音声処理言語情報作成手段 2103で生成する場合 (ステップ S 2406)、ステップ S 2405で呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段 2103にお V、て言語情報を生成する (ステップ S2407)。

[0188] ステップ S2406において、通信端末 2000の音声処理言語情報作成手段 2103で作成しない場合、ステップ S 2408に進む。

[0189] ステップ S2404で読みだした言語情報生成手順により、サーノ 200の音声処理言語情報作成手段 202で生成する場合 (ステップ S 2408)、ステップ S2405において読み出したデータを送受信手段 2104によりサーバ 200に送信し、送受信手段 201 では、このデータを受信する（ステップ S2409)。

[0190] 前述のデータとサーバ内に格納しているデータより音声処理言語情報作成手段 20 2で音声処理用言語情報を生成する (ステップ S2410)。 [0191] サーバ 200の送受信手段 201により生成された音声処理用辞書を通信端末 2000 に送信し、送受信手段 2104は、これを受信する (ステップ S 2411)。

[0192] ステップ S2408において、サーバ 200の音声処理言語情報作成手段 202において音声処理用言語情報を作成しなヽ場合には、ステップ S 2412に進む。

[0193] 音声処理言語情報統合手段 2107では、通信端末 2000の音声処理言語情報作成手段 2103およびサーバ 200の音声言語作成手段 202およびサーノ nOOの音声処理言語情報作成手段 n02のそれぞれで生成した音声言語情報を、 1つの音声言語情報に合成する (ステップ S2412)。

[0194] ステップ S2412を受けて、制御手段 2106では、前述の生成された音声処理用言語情報を読みこんで音声処理手段 2102を起動させる (ステップ S2413)。

[0195] さらに、ステップ S2403で起動されたプログラムに従って、第 1プログラムおよびデータ格納手段 2101のプログラムを呼び出し (ステップ S 2414)、音声処理手段 2102 と連携動作させる (ステップ S2415)。

[0196] 次に、本実施例の作用効果について説明する。本実施例では、音声処理言語情報統合手段 2107を有し、通信端末 2000側で生成した音声言語情報と、複数のサーバ 200— nOO側で生成した音声言語情報とを合成する構成としており、複数のプログラムやデータを連携させて、音声処理を行う、ことが可能になる。

[0197] 次に、本発明の第 3の具体例を図面を参照して説明する。図 23は、本発明の第 3 の具体例の構成を示す図である。

[0198] 本具体例では、複数のサーバ 200— nOOより構成されて、る点と、通信端末 2000 や複数のサーバ 200— nOOで生成される音声言語情報を統合するための通信端末 2000が音声処理言語情報統合手段 2107を備えている点が前記第 1の具体例と相違している。

[0199] 図 24は、音声処理言語情報統合手段 2107の動作を説明するための図である。音声処理言語情報統合手段 2107は、サーバ 200とサーバ nOOと通信端末 2000のそれぞれで生成された音声言語情報を読み込んで、音声言語情報を生成する。

[0200] 図 25Aは、サーバ 200で生成された音声言語情報の一例を示す図であり、映画に関する情報検索を行うための音声認識用文法の構成図と構成図に対応する文法の一例を示している。

[0201] この文法は、映画名に関する項目である [映画]と、映画に関する項目である [項目 (200)]と、問い合わせのための項目である [コマンド (200)]より構成されており、それぞれの項目に登録する単語列が定義されている。このように定義することにより、「映画 Aの開始時間を教えて」がこの文法で認識可能となる。

[0202] 図 25Bは、サーバ nOOで生成された音声言語情報の一例で、店 IIおよび施設に関する情報検索を行うための音声認識用文法の構成と対応する文法の一例を示している。

[0203] この文法は、店舗や施設を特定するための項目である [店舗および施設名 ]と、店舗および施設に関する項目である [項目（nOO) ]と、問い合わせのための項目である [コマンド (nOO) ]より構成されており、 [店舗および施設名 ]の [カテゴリ]と [名前]のそれぞれの項目に登録する単語列が定義されている。このよう〖こ定義すること〖こより、「レストランの店 Aの予算はいくら」がこの文法で認識可能となる。

[0204] 図 25Cは、通信端末 2000で生成された音声言語情報の一例で、メール操作を行うための音声認識用文法の構成と対応する文法の一例を示している。

[0205] この文法は、メールのあて先を指定するための項目である [読み]と、メールに関する項目である [メール]と、問、合わせのための項目である [コマンド (メール) ]より構成されており、それぞれの項目に登録する単語列が定義されている。このように定義することにより、「いつちゃんにメールを送る」がこの文法で認識可能となる。

[0206] 図 25Dは、音声処理言語情報統合手段 2107で音声言語情報を合成するための一例であり、図 25Aから図 25Cでの音声言語情報を合成するための文法テンプレートの構成を示している。この文法テンプレートでは、映画や施設の情報をメールで送信するための文法を想定している。文法は、メールのあて先を指定するための [読み ]と、 [助詞]と、映画や施設の名前や項目を指定するための [映画および施設情報] と、メールを送信するための [メールコマンド]より構成される。項目 [読み]は、通信端末 2000で生成された文法より参照する。また、項目 [映画および施設情報]は、 [映画情報]と、 [助詞]と、 [施設情報]と [助詞]より構成される。

[0207] さらに、 [映画情報]は、 [映画]と、 [項目（200) ]より構成され、 [映画]と、 [項目（2 00) ]は、サーバ 200で生成された文法より参照する。

[0208] [施設情報]は [店舗および施設名]と [項目（nOO) ]より構成され、 [店舎および施設名]と [項目（nOO) ]は、サーバ nOOで生成された文法より参照する。

[0209] 図 25Eは、文法テンプレートに、データを参照して文法を生成することを説明するための図である。データを参照することで、「いつちゃんに映画 Aの開始時間とレストランの店 Aの予算をメールで送る」という発声を行う、音声認識のための文法が生成されたことを意味している。

[0210] 以上のように、音声処理言語情報作成手段で複数のサーバで生成された音声言語情報と通信端末内で生成された音声言語情報を合成して音声言語情報を生成することにより、端末に固有のプログラムや機種やユーザに固有の情報や端末の状態によってダイナミックに変化する情報と機種に依存することなく作られた汎用的なプログラムやそのデータとを連携させ、音声認識や音声合成と、つた音声処理で制御することが可能になる。

[0211] 以上本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ限定されるものでなぐ本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

[0212] 例えば、上述した通信端末 100, 1000, 2000またはサーバ 200の諸機能は、演算装置（CPU)や記憶装置 (ROMおよび RAM等の内部メモリの他、 HDD等の外部記憶装置を含む)などのコンピュータのハードウェア資源とこのコンピュータにインストールされたコンピュータ 'プログラム (ソフトウェア）とが協働することによって実現することができる。

産業上の利用可能性

[0213] 本発明によれば、携帯電話や携帯端末で音声認識や音声合成などの音声処理と端末に内蔵されたプログラムやそのプログラムが管理するデータとを連携されるといつた用途に適用できる。特に、端末が管理するシステムの状態によって動的に変化するデータや個人情報を音声処理とを連携させる用途に適用できる。

[0214] また、音声処理と端末に内蔵されたプログラムやそのプログラムが管理するデータとサーバとを連携させる用途にも適用可能である。具体的には、携帯電話を用いて複合施設の情報検索案内サービス用途に適用可能である。上記実施例では、携帯型通信端末を例に説明したが、音声処理機能またはそれ以外の処理機能を具備した任意の電子装置等に対して適用できる。

Claims

請求の範囲

[1] 予め定められた所定の処理を行う処理手段と、

第 1のプログラム及び第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、第 2のプログラム及び第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記処理手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方とを連携させる制御手段と

を備えることを特徴とする通信端末。

[2] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現するためのプログラム及びデータであり、

前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記処理手段による前記処理との連携の仕方を規定するプログラム及びデータであり、

前記制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方にカロえて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、前記処理手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行う

ことを特徴とする請求項 1に記載の通信端末。

[3] 前記処理手段は、音声認識及び音声合成の少なくとも一方の音声処理を行う音声処理手段であることを特徴とする請求項 1に記載の通信端末。

[4] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現するためのプログラム及びデータであり、

前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記音声処理手段による前記音声処理との連携の仕方を規定するプログラム及びデータであり、

前記制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方にカロえて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、前記音声処理手段による前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行うことを特徴とする請求項 3に記載の通信端末。

[5] 前記制御手段は、前記第 2のプログラムを起動し、起動された前記第 2のプログラムによって前記第 1のプログラムを呼び出し、前記音声処理手段による前記音声処理と、前記第 1のプログラムとを連携動作させることを特徴とする請求項 4に記載の通信端末。

[6] 前記制御手段は、前記第 2のプログラムを起動し、起動された前記第 2のプログラムによって前記第 1のデータを用い、前記音声処理手段による前記音声処理と、前記第 1のデータとを連携動作させることを特徴とする請求項 4に記載の通信端末。

[7] 前記第 2のプログラムは、音声処理用の言語情報を作成する手順を規定した第 3のプログラムを含み、

前記制御手段は、前記第 3のプログラムを起動し、起動された前記第 3のプログラムによって前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用い、前記音声処理手段での前記音声処理に用いられる言語情報を作成し、

前記音声処理手段は、作成された前記言語情報を用いて前記音声処理を行うことを特徴とする請求項 3に記載の通信端末。

[8] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現するためのプログラム及びデータであり、

前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記音声処理手段による前記音声処理との連携の仕方を規定する第 4のプログラム及び第 4のデータを含み、

前記制御手段は、前記第 4のプログラム及び前記第 4のデータの少なくとも一方を用いて、前記音声処理手段による前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行

5

ことを特徴とする請求項 7に記載の通信端末。

[9] 外部から前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する第 1の受信手段をさらに備え、前記第 2の記憶手段は、受信した前記第 2のプログラム及び前記第 2のデータを記憶する

ことを特徴とする請求項 3に記載の通信端末。

[10] 前記第 2のプログラム及び前記第 2のデータは、当該通信端末と通信接続するサーバから転送されることを特徴とする請求項 9に記載の通信端末。

[11] 前記サーバに対して音声処理用の言語情報の作成に必要な情報を送信する送信手段と、

前記サーバから音声処理用の言語情報を受信する第 2の受信手段とをさらに備え前記音声処理手段は、受信した前記言語情報を用いて前記音声処理を行うことを特徴とする請求項 10に記載の通信端末。

[12] 前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、音声処理用の言語情報を作成する音声処理言語情報作成手段をさらに備えることを特徴とする請求項 3に記載の通信端末。

[13] 前記第 1のプログラム及び前記第 1のデータのそれぞれは、辞書、文法及び言語モデルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータであることを特徴とする請求項 12に記載の通信端末。

[14] 前記第 1のデータは、当該通信端末の状態に応じて変化するデータであり、

前記音声処理言語情報作成手段は、当該通信端末の状態に応じて変化する前記データを基に前記言語情報を作成することを特徴とする請求項 12に記載の通信端末。

[15] 前記音声処理言語情報作成手段は、前記第 1のプログラム及び前記第 1のデータの少なくとも一方に加えて、さらに前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記音声処理用の言語情報を作成する手段を備えることを特徴とする請求項 12に記載の通信端末。

[16] 前記第 2のプログラム及び前記第 2のデータのそれぞれは、辞書、文法及び言語モデルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータであることを特徴とする請求項 15に記載の通信端末。

[17] 前記音声処理言語情報作成手段で作成された前記音声処理用の言語情報と、外部から入力される少なくとも一つの音声処理用の言語情報とを合成し、前記音声処理手段で用いられる言語情報を作成する音声処理言語情報統合手段をさらに備えることを特徴とする請求項 12に記載の通信端末。

[18] 外部から入力される前記音声処理用の言語情報は、当該通信端末と通信接続するサーバで作成され前記サーノから転送されることを特徴とする請求項 17に記載の迪信端末。

[19] 通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくとも一方と、前記通信端末で行われる所定の処理との、連携の仕方を規定する第 2のプログラム及び第 2のデータの少なくとも一方を前記通信端末に送信する第 1の送信手段を備えることを特徴とするサーバ。

[20] 前記通信端末で行われる前記所定の処理は、音声処理であることを特徴とする請求項 19に記載のサーバ。

[21] 前記通信端末から音声処理用の言語情報の作成に必要なデータを前記サーバを受信する受信手段と、

受信したデータを基に、当該サーバに格納されているデータより、音声処理用の言語情報を作成する音声処理言語情報作成手段と

をさらに備えることを特徴とする請求項 20に記載のサーバ。

[22] 前記受信したデータは、前記通信端末の状態に応じて変化するデータであり、前記音声処理言語情報作成手段は、このデータを基に前記言語情報を作成することを特徴とする請求項 21に記載のサーバ。

[23] 前記音声処理言語情報作成手段で作成した前記言語情報を前記通信端末に送信する第 2の送信手段をさらに備えることを特徴とする請求項 21に記載のサーバ。

[24] 前記音声処理言語情報作成手段は、前記音声処理用の言語情報として辞書、文法及び言語モデルのうちの少なくとも一つを作成することを特徴とする請求項 21に記載のサーバ。

[25] 通信端末と、前記通信端末と通信接続する少なくとも 1つのサーバとを備え、肯己通信端末は、音声認識及び音声合成の少なくとも一方の音声処理を行う音声処理手段と、当該通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくとも一方に従って、音声処理用の言語情報を作成する端末音声処理言語情報作成手段と、

前記サーノくからダウンロードされた第 2のプログラム及び第 2のデータの少なくとも一方により、前記言語情報を用いた前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方とを連携動作させる制御手段と

を備えることを特徴とする通信システム。

[26] 前記サーバは、前記第 2のプログラム及び前記第 2のデータの少なくとも一方を前記通信端末に送信する第 1のサーバ送信手段を備え、

肯己通信端末は、

前記第 1のプログラム及び前記第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、

前記サーバから前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する第 1の端末受信手段と、

受信した前記第 2のプログラム及び前記第 2のデータの少なくとも一方を記憶する第 2の記憶手段とを備える

ことを特徴とする請求項 25に記載の通信システム。

[27] 前記通信端末は、音声処理用の言語情報の作成に必要なデータを前記サーバに送信する第 1の端末送信手段をさらに備え、

前記サーバは、

前記通信端末から前記データを受信する第 1のサーバ受信手段と、

受信した前記データを基に、当該サーバに格納されているデータより、音声処理用の言語情報を作成するサーバ音声処理言語情報作成手段とをさらに備える

ことを特徴とする請求項 26に記載の通信システム。

[28] 前記サーバは、前記サーバ音声処理言語情報作成手段で作成した前記言語情報を前記通信端末に送信する第 2のサーバ送信手段をさらに備え、

前記通信端末は、前記サーバから前記言語情報を受信する第 2の端末受信手段とをさらに備え、

前記音声処理手段は、受信した前記言語情報を用いて前記音声処理を行うことを特徴とする請求項 27に記載の通信システム。

[29] 前記端末音声処理言語情報作成手段は、前記第 1のプログラム及び前記第 1のデータの少なくとも一方にカ卩えて、さらに前記第 2のプログラム及び前記第 2のデータの少なくとも一方に従って、前記音声処理用の言語情報を作成する手段を備えることを特徴とする請求項 25に記載の通信システム。

[30] 前記通信端末は、前記端末音声処理言語情報作成手段で作成した前記音声処理用の言語情報と、前記サーバ音声処理言語情報作成手段で作成した少なくとも一つの前記音声処理用の言語情報とを合成し、前記音声処理手段で用いられる言語情報を作成する音声処理言語情報統合手段をさらに備えることを特徴とする請求項 28 に記載の通信システム。

[31] 通信端末が、

前記通信端末の外部力第 2のプログラム及び第 2のデータの少なくとも一方を受信する工程と、

前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記通信端末で行われる音声処理と、前記通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくとも一方とを連携動作させる制御を行う工程と

を備えることを特徴とする音声処理方法。

[32] 受信した前記第 2のプログラム及び前記第 2のデータを記憶手段に記憶する工程をさらに備えることを特徴とする請求項 31に記載の音声処理方法。

[33] 前記通信端末で行われる前記音声処理は、音声認識及び音声合成の少なくとも一方であることを特徴とする請求項 31に記載の音声処理方法。

[34] 前記第 1のプログラム及び第 1のデータのそれぞれは、前記通信端末上で予め定められた機能を実現するためのプログラム及びデータであり、

前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記音声処理との連携の仕方を規定するプログラム及びデータであり、前記制御を行なう工程は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方に加えて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行う工程を備える

ことを特徴とする請求項 31に記載の音声処理方法。

[35] 前記制御を行なう工程は、前記第 2のプログラムを起動し、起動された前記第 2のプログラムによって前記第 1のプログラムを呼び出し、前記音声処理と、前記第 1のプログラムとを連携動作させる工程を備えることを特徴とする請求項 34に記載の音声処理方法。

[36] 前記制御を行なう工程は、前記第 2のプログラムを起動し、起動された前記第 2のプログラムによって前記第 1のデータを用い、前記音声処理と、前記第 1のデータとを連携動作させる工程を備えることを特徴とする請求項 34に記載の音声処理方法。

[37] 前記第 2のプログラムは、音声処理用の言語情報を作成する手順を規定した第 3のプログラムを含み、

前記第 3のプログラムを起動する工程と、

起動された前記第 3のプログラムによって前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用い、前記音声処理に用いられる言語情報を作成する工程と、

作成された前記言語情報を用いて前記音声処理を行う工程と

をさらに備えることを特徴とする請求項 31に記載の音声処理方法。

[38] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現するためのプログラム及びデータであり、

前記制御する工程は、前記第 4のプログラム及び前記第 4のデータの少なくとも一方を用いて、前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行う工程を備えることを特徴とする請求項 37に記載の音声処理方法。

[39] 前記通信端末と通信接続するサーバが、前記第 2のプログラム及び前記第 2のデータを前記通信端末に送信する工程をさらに備えることを特徴とする請求項 31に記載の音声処理方法。

[40] 前記通信端末が、音声処理用の言語情報の作成に必要な情報を前記サーバに送信する工程と、

前記サーバが、前記情報を受信し、音声処理用の言語情報を作成する工程と、前記サーバが、作成した前記音声処理用の言語情報を前記通信端末に送信する工程と、

前記通信端末が、前記音声処理用の言語情報を受信し、前記音声処理を行うェ程と

をさらに備えることを特徴とする請求項 39に記載の音声処理方法。

[41] 前記通信端末が、前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、音声処理用の言語情報を作成する工程をさらに備えることを特徴とする請求項 31に記載の音声処理方法。

[42] 前記第 1のプログラム及び前記第 1のデータのそれぞれは、辞書、文法及び言語モデルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータであることを特徴とする請求項 41に記載の音声処理方法。

[43] 前記言語情報を作成する工程は、前記第 1のプログラム及び前記第 1のデータの少なくとも一方に加えて、さらに前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記音声処理用の言語情報を作成する工程を備えることを特徴とする請求項 42に記載の音声処理方法。

[44] 前記第 2のプログラム及び前記第 2のデータのそれぞれは、辞書、文法及び言語モデルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータであることを特徴とする請求項 43に記載の音声処理方法。

[45] 前記制御する工程は、前記音声処理用の言語情報を用いて、前記第 1のプロダラム及び前記第 1のデータの少なくとも一方と、前記第 2のプログラム及び前記第 2のデータの少なくとも一方と、前記音声処理とを連携動作させる工程を備えることを特徴とする請求項 43に記載の音声処理方法。

[46] 前記通信端末が、

前記通信端末の外部力音声処理用の言語情報を少なくとも一つ受信する工程と前記言語情報を作成する工程で作成した前記音声処理用の言語情報と、前記受信する工程で受信した前記音声処理用の言語情報とを合成し、音声処理用の言語情報を作成する工程と

をさらに備えることを特徴とする請求項 41に記載の音声処理方法。

[47] 受信する前記音声処理用の言語情報は、前記通信端末と通信接続する少なくとも一つのサーバで作成され前記サーノから転送されることを特徴とする請求項 46に記載の音声処理方法。

[48] 前記制御する工程は、前記合成する工程で作成した前記音声処理用の言語情報を用いて、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記第 2 のプログラム及び前記第 2のデータの少なくとも一方と、前記音声処理とを連携動作させる工程を備えることを特徴とする請求項 46に記載の音声処理方法。

[49] 通信端末を構成するコンピュータに、

音声認識及び音声合成の少なくとも一方の音声処理を行なう機能と、

前記通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくとも一方に基づいて音声処理用の言語情報を作成する機能と、

受信した第 2のプログラム及び第 2のデータの少なくとも一方により、前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方とを、互いに連携動作させる制御を行う機能と

を実現させるためのプログラム。

[50] 前記コンピュータに、

前記第 1のプログラム及び前記第 1のデータの少なくとも一方を記憶する機能と、前記通信端末の外部力前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する機能と、

受信した前記第 2のプログラム及び前記第 2のデータの少なくとも一方を記憶する機能と

をさらに実現させるための請求項 49に記載のプログラム。

[51] 前記コンピュータに、

前記第 1のプログラム及び前記第 1のデータの少なくとも一方に加えて、さらに前記第 2のプログラム及び前記第 2のデータの少なくとも一方に基づいて、前記音声処理用の言語情報を作成する機能

を実現させるための請求項 49に記載のプログラム。

[52] 前記コンピュータに、

前記音声処理用の言語情報を用いて、前記第 1のプログラム及び前記第 1のデータと、前記第 2のプログラム及び前記第 2のデータと、前記音声処理とを、互いに連携動作させる制御を行う機能

を実現させるための請求項 51に記載のプログラム。

[53] 前記コンピュータに、

少なくとも 1つのサーバから音声処理用の言語情報を受信する機能と、前記通信端末内で作成した前記音声処理用の言語情報と、受信した前記音声処理用の言語情報とを合成する機能と

をさらに実現させるための請求項 49に記載のプログラム。

[54] 予め定められた所定の処理を行う処理手段と、

を備えることを特徴とする電子装置。

[55] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現するためのプログラム及びデータであり、

制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方に加えて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、前記処理手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行う

ことを特徴とする請求項 54に記載の電子装置。

[56] 外部から前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する受信手段をさらに備え、

前記第 2の記憶手段は、受信した前記第 2のプログラム及び前記第 2のデータを記憶する

ことを特徴とする請求項 54に記載の電子装置。

[57] 前記処理手段は、音声認識及び音声合成の少なくとも一方の音声処理を行う音声処理手段であることを特徴とする請求項 54に記載の電子装置。