WO2010004978A1

WO2010004978A1 - 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法

Info

Publication number: WO2010004978A1
Application number: PCT/JP2009/062341
Authority: WO
Inventors: 紀子水口
Original assignee: 株式会社エヌ・ティ・ティ・ドコモ
Priority date: 2008-07-11
Filing date: 2009-07-07
Publication date: 2010-01-14
Also published as: US20110144997A1; EP2306450A1; CN102089804A; CN102089804B; EP2306450A4; KR20110021944A; JP2010020166A

Abstract

　ユーザの音声を好適に取得することができる音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法を提供する。音声合成モデル生成システム１は、移動通信端末２と、音声合成モデル生成装置３とを含んで構成されている。移動通信端末２は、入力された音声から音声の特徴量を抽出する特徴量抽出部２０１、及び音声からテキストデータを取得するテキストデータ取得部２０２を備えている。音声合成モデル３は、学習情報取得部２００によって取得された特徴量及びテキストデータに基づいて、音声合成モデルを生成する音声合成モデル生成部３０１と、特徴量及びテキストデータに基づくパラメータに基づいて画像情報を生成する画像情報生成部３０７と、画像情報を移動通信端末２に送信する情報出力部３０９を備えている。

Description

音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法

　本発明は、音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法に関する。

　従来から、音声合成モデルを生成する技術が知られている。音声合成モデルは、入力されたテキスト（文字列）に対応する音声データを作成するために使われる情報である。音声合成モデルを用いた音声合成の方法としては、例えば特許文献１に記載されているように、入力された文字列を解析し、音声合成モデルを参照して、テキストに対応する音声データを組み合わせることにより音声データを作成するものがある。

特開２００３－２９５８８０号公報

　ところで、音声合成モデルの生成においては、予め任意の対象者（ユーザ）の音声データを収集する必要がある。このデータの収集には、例えばスタジオを用意して任意の対象者が長時間（数時間～数十時間）にわたって音声を録音することが必要である。このとき、長時間にわたってユーザが音声を例えばシナリオに基づいてただ入力（録音）するといった行為は、音声を入力しようとするユーザのモチベーションを低下させてしまうおそれがある。

　本発明は、以上の問題点を解決するためになされたものであり、ユーザの音声を好適に取得することができる音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法を提供することを目的とする。

　上記の目的を達成するために、本発明に係る音声合成モデル生成装置は、ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得手段と、学習情報取得手段によって取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、音声合成モデル生成手段によって生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、パラメータ生成手段によって生成されたパラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段と、画像情報生成手段によって生成された画像情報を出力する画像情報出力手段と、を備えることを特徴とする。

　この構成により、音声の特徴量及びテキストデータに基づいて音声合成モデルを生成し、その音声合成モデルの学習度合を示すパラメータを生成する。そして、パラメータに応じてユーザに対して画像を表示させるための画像情報を生成し、その画像情報を出力する。これにより、音声を入力するユーザは、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするユーザのモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。

　また、特徴量を取得するために、ユーザに音声を入力させるための要求情報を、パラメータ生成手段によって生成されたパラメータに基づいて生成して出力する要求情報生成手段を更に備えることが好適である。この構成により、ユーザから入力される音声が音声合成モデルを生成するための学習に対して適切なものとなる。

　また、学習情報取得手段によって取得されたテキストデータから単語を抽出する単語抽出手段を更に備え、パラメータ生成手段は、単語抽出手段によって抽出された単語の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成することが好適である。この構成により、累積単語数に応じてパラメータが生成されるので、ユーザは、パラメータに応じて生成される画像情報を見ることで、単語数が増加していることを認識できる。これにより、音声を入力したことに対する達成感を更に得ることができる。その結果、ユーザの音声をより好適に取得することができる。

　また、画像情報はキャラクタ画像を表示させるための情報であることが好適である。この構成により、ユーザに出力されるキャラクタ画像がパラメータに応じて例えば大きくなるといったように変化するので、例えば数値等が画像で表示される場合よりも、ユーザに対して視覚的に好感を与えることができる。これにより、更にユーザの達成感を得ることができ、音声を入力しようとするユーザのモチベーションがより一層向上する。その結果、ユーザの音声をより好適に取得することができる。

　また、音声合成モデル生成手段は、ユーザ毎に音声合成モデルを生成することが好適である。この構成により、ユーザ毎に対応する音声合成モデルを生成することができ、音声合成モデルを個々人で利用することが可能となる。

　また、音声特徴量は、音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータであることが好適である。この構成により、音声合成モデルを確実に生成することができる。

　上記の目的を達成するために、本発明に係る音声合成モデル生成システムは、通信機能を有する通信端末と、通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムであって、通信端末は、ユーザの音声を入力する音声入力手段と、音声入力手段によって入力された音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータを音声合成モデル生成装置に送信する学習情報送信手段と、音声情報送信手段から音声情報及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、画像情報受信手段によって受信された画像情報を表示する表示手段と、を備え、音声合成モデル生成装置は、通信端末から送信される音声情報を受信することにより音声の特徴量を取得すると共に、通信端末から送信されるテキストデータを受信することにより取得する学習情報取得手段と、学習情報取得手段によって取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、音声合成モデル生成手段によって生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、パラメータ生成手段によって生成されたパラメータに応じて、画像情報を生成する画像情報生成手段と、画像情報生成手段によって生成された画像情報を通信端末に送信する画像情報出力手段と、を備えることを特徴とする。

　この構成により、音声の取得が通信端末でなされ、その音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータが音声合成モデル生成装置で受信されると、特徴量及びテキストデータに基づいて音声合成モデルが生成される。そして、音声合成モデルの学習度合を示すパラメータが生成され、そのパラメータに応じてユーザに対して画像を表示させるための画像情報が生成されて音声合成モデル生成装置から通信端末へと送信される。これにより、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするユーザのモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。また、通信端末で音声が取得されるので、スタジオ等といった設備を必要とせず、簡易に音声を取得することがきる。

　また、通信端末は、音声入力手段によって入力された音声から音声の特徴量を抽出する特徴量抽出手段を更に備えることが好適である。通信端末から送信される音声は、ｃｏｄｅｃ（コ－デック）や通信路によって劣化させられる場合があり、その音声から音声合成モデルを生成すると音声合成モデルの品質が低下するおそれがある。しかし、上記の構成により、音声合成モデルを生成するのに必要な特徴量が通信端末によって抽出され、その特徴量が送られることになるので、精度の高い音声合成モデルを生成することができる。

　また、音声入力手段によって入力された音声から音声に対応するテキストデータを取得するテキストデータ取得手段を更に備えることが好適である。この構成により、音声に対応するテキストデータをユーザが入力する必要がないので、ユーザの手間を省くことができる。

　ところで、本発明は、上記のように音声合成モデル生成システムの発明として記述できる他に、以下のように音声合成モデル生成システムに含まれる通信端末の発明としても記述することができる。音声合成モデル生成システムに含まれるこの通信端末も新規な構成を有しており、これも本発明に相当するものである。そのため、音声合成モデル生成システムと同様の作用及び効果を奏する。

　即ち、本発明に係る通信端末は、通信機能を有する通信端末であって、ユーザの音声を入力する音声入力手段と、音声入力手段によって入力された音声から音声の特徴量を抽出する特徴量抽出手段と、音声に対応するテキストデータを取得するテキストデータ取得手段と、特徴量抽出手段によって抽出された音声の特徴量、及びテキストデータ取得手段によって取得されたテキストデータを、通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信手段と、学習情報送信手段から特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、画像情報受信手段によって受信された画像情報を表示する表示手段と、を備えることを特徴とする。

　また、本発明は、上記のように音声合成装置、及び音声合成モデル生成システム、通信端末の発明として記述できる他に、以下のように音声合成モデル生成方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

　即ち、本発明に係る音声合成モデル生成方法は、ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得ステップと、学習情報取得ステップにおいて取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、音声合成モデル生成ステップにおいて生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、パラメータ生成ステップにおいて生成されたパラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成ステップと、画像情報生成ステップにおいて生成された画像情報を出力する画像情報出力ステップと、を含むことを特徴とする。

　また、本発明に係る音声合成モデル生成方法は、通信機能を有する通信端末と、通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムによる音声合成モデル生成方法であって、通信端末が、ユーザの音声を入力する音声入力ステップと、音声入力ステップにおいて入力された音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータを音声合成モデル生成装置に送信する学習情報送信ステップと、音声情報送信ステップにおいて音声情報及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、画像情報受信ステップにおいて受信された画像情報を表示する表示ステップと、を含み、音声合成モデル生成装置が、通信端末から送信される音声情報を受信することにより音声の特徴量を取得すると共に、通信端末から送信されるテキストデータを受信することにより取得する学習情報取得ステップと、学習情報取得ステップにおいて取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、音声合成モデル生成ステップにおいて生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、パラメータ生成ステップにおいて生成されたパラメータに応じて、画像情報を生成する画像情報生成ステップと、画像情報生成ステップにおいて生成された画像情報を通信端末に送信する画像情報出力ステップと、を含むことを特徴とする。

　また、本発明に係る音声合成モデル生成方法は、通信機能を有する通信端末による音声合成モデル生成方法であって、ユーザの音声を入力する音声入力ステップと、音声入力ステップにおいて入力された音声から音声の特徴量を抽出する特徴量抽出ステップと、音声に対応するテキストデータを取得するテキストデータ取得ステップと、特徴量抽出ステップおいて抽出された音声の特徴量、及びテキストデータ取得ステップおいて取得されたテキストデータを、通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信ステップと、学習情報送信ステップにおいて特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、画像情報受信ステップにおいて受信された画像情報を表示する表示ステップと、を含むことを特徴とする。

　本発明によれば、ユーザが入力した音声によって生成された音声合成モデルの学習度合を可視化して認識することができるので、長時間にわたってユーザが音声をただ入力するといった行為によるユーザの音声入力に対するモチベーションの低下を防止し、ユーザの音声を好適に取得することができる。

本発明の一実施形態に係る音声合成モデル生成システムの構成を示す図である。移動通信端末のハードウェア構成を示す図である。音声合成モデル生成装置のハードウェア構成を示す図である。ディスプレイに画像情報及び要求情報が表示された一例を示す図である。単語データが保持されているテーブルの一例を示す図である。パラメータと画像の変化度を示すレベルとが対応付けられているテーブルの一例を示す図である。画像の変化度を示すレベルに応じて移動通信端末のディスプレイに表示されるキャラクタ画像が変化する一例を示す。移動通信端末と音声合成モデル生成装置との処理を示すシーケンス図である。

　以下、図面と共に本発明に係る音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成生成方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　図１に本発明の一実施形態に係る音声合成モデル生成システムの構成を示す。図１に示すように、音声合成モデル生成システム１は、移動通信端末（通信端末）２と、音声合成モデル生成装置３とを含んで構成されている。移動通信端末２と音声合成モデル生成装置３とは、移動体通信により互いに情報を送受信することができる。図１には、移動通信端末２は１つしか示されていないが、音声合成モデル生成システム１には、通常、無数の移動通信端末２が含まれている。また、音声合成モデル生成装置３は、１台の装置により構成されてもよいし、複数の装置により構成されてもよい。

　音声合成モデル生成システム１は、音声合成モデルを移動通信端末２のユーザに対して生成することができるシステムである。音声合成モデルは、入力されたテキストに対応するユーザの音声データを作成するために使用される情報である。音声合成モデルを利用して合成された音声データは、例えば移動通信端末２におけるメールの読み上げ時、留守時のメッセージ再生時、及びブログやＷＥＢ上で利用することができるものである。

　移動通信端末２は、例えば携帯電話機であり、自機が在圏する無線エリアをカバーする基地局と無線通信を行い、ユーザの操作に応じて、通話サービス或いはパケット通信サービスを受ける通信端末である。また、移動通信端末２は、パケット通信サービスを利用したアプリケーションを利用することができ、アプリケーションは、音声合成モデル生成装置３から送信されるデータによって更新される。アプリケーションの管理は、音声合成モデル生成装置３ではなく、別に設けられた装置によって行われてもよい。なお、本実施形態におけるアプリケーションは、画面表示を行い、例えばユーザの音声によりコマンド入力することができる育成系のゲームである。より具体的には、ユーザの音声の入力によってアプリケーションにより表示されるキャラクタが育成される（キャラクタの外観等が変化する）ものである。

　音声合成モデル生成装置３は、移動通信端末２から送信されるユーザの音声に関する情報に基づいて、音声合成モデルを生成する装置である。音声合成モデル生成装置３は、移動体通信網にあり、音声合成モデル生成のサービスを提供するサービス事業者によって管理されている。

　図２は、移動通信端末２のハードウェア構成を示す図である。図２に示すように、移動通信端末２は、ＣＰＵ（Central Processing Unit）２１、ＲＡＭ（Random Access Memory）２２、ＲＯＭ（Read Only Memory）２３、操作部２４、マイク２５、無線通信部２６、ディスプレイ２７、スピーカー２８及びアンテナ２９等のハードウェアにより構成されている。これらの構成要素が動作することにより、以下に説明する移動通信端末２の各機能が発揮される。

　図３は、音声合成モデル生成装置３のハードウェア構成を示す図である。図３に示すように、音声合成モデル生成装置３は、ＣＰＵ３１、主記憶装置であるＲＡＭ３２及びＲＯＭ３３、ネットワークカード等のデータ送受信デバイスである通信モジュール３４、ハードディスク等の補助記憶装置３５、キーボード等の音声合成モデル生成装置３に対して情報を入力するための入力装置３６、並びにモニタ等の情報を出力するための出力装置３７等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が動作することにより、音声合成モデル生成装置３の後述する機能が発揮される。

　引き続いて、移動通信端末２及び音声合成モデル生成装置３の機能について説明する。

　図１を参照して、移動通信端末２について説明する。図１に示すように、移動通信端末２は、音声入力部２００と、特徴量抽出部２０１と、テキストデータ取得部２０２と、学習情報送信部２０３と、受信部２０４と、表示部２０５と、音声合成モデル保持部２０６と、音声合成部２０７とを備えている。

　音声入力部２００は、マイク２５であり、ユーザの音声を入力する音声入力手段である。音声入力部２００は、例えば上述したアプリケーションへのコマンド入力としてユーザの音声を入力する。音声入力部２００は、入力された音声をフィルターに通してノイズ（雑音）を除去し、ユーザから入力された音声を音声データとして特徴量抽出部２０１及びテキストデータ取得部２０２に出力する。

　特徴量抽出部２０１は、音声入力部２００から受け取った音声データから、音声の特徴量を抽出する。音声の特徴量は、音声の高さ低さ、スピード、アクセント等の声質を数値化したものであり、具体的には、例えば音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータである。コンテキストデータは、音声データが音素等の音声単位に分割（ラベリング）されたコンテキストラベル（音素列）である。音声単位とは、「音素」、「単語」、「文節」など音声が所定の規則に従って区切られたものである。コンテキストラベルの要因として、具体的には、先行，当該，後続の音素、当該音素のアクセント句内でのモーラ位置、先行，当該，後続の品詞・活用形・活用型、先行，当該，後続のアクセント句の長さ・アクセント型、当該アクセント句の位置・前後のポーズの有無、先行，当該，後続の呼気段落の長さ、当該呼気段落の位置、文の長さ等である。音声波形に関するデータは、対数基本周波数及びメルケプストラムである。対数基本周波数は、音声の高さを表すものであり、音声データから基本周波数パラメータを抽出することによって抽出される。メルケプストラムは、音声の声質を表すものであり、音声データをメルケプストラム分析することで抽出される。特徴量抽出部２０１は、抽出した特徴量を学習情報送信部２０３に出力する。

　テキストデータ取得部２０２は、音声入力部２００から受け取った音声データから、音声に対応するテキストデータを取得するテキストデータ取得手段である。テキストデータ取得部２０２は、入力された音声データを解析（音声認識）することにより、ユーザから入力された音声と内容が一致するテキストデータ（文字列）を取得する。テキストデータ取得部２０２は、取得したテキストデータを学習情報送信部２０３に出力する。なお、テキストデータは、特徴量抽出部２０１によって抽出された音声の特徴量から取得されてもよい。

　学習情報送信部２０３は、特徴量抽出部２０１から受け取った特徴量及びテキストデータ取得部２０２から受け取ったテキストデータを、音声合成モデル生成装置３に送信する学習情報送信手段である。学習情報送信部２０３は、ＸＭＬ　ｏｖｅｒ　ＨＴＴＰ、ＳＩＰ等によって特徴量及びテキストデータを音声合成モデル生成装置３に送信する。このとき、移動通信端末２と音声合成モデル生成装置３との間では、例えばＳＩＰやＩＭＳを用いたユーザ認証が行われる。

　受信部２０４は、学習情報送信部２０３により音声合成モデル生成装置３に特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置３から画像情報、要求情報及び音声合成モデルを受信する受信手段（画像情報受信手段）である。画像情報は、ユーザに対して画像をディスプレイ２７に表示させるための情報である。要求情報は、例えばユーザに音声の入力を促がす情報や入力させる文章や言葉等の情報であり、要求情報に対応する画像（テキスト）がディスプレイ２７に表示される。画像情報及び要求情報は、上述したアプリケーションにより用いられて出力される。また、要求情報に対応する音声データがスピーカー２８から出力されてもよい。受信部２０４は、受信した画像情報及び要求情報を表示部２０５に出力すると共に、音声合成モデルを音声合成モデル保持部２０６に出力する。

　表示部２０５は、受信部２０４から受け取った画像情報及び要求情報を表示する表示手段である。表示部２０５は、アプリケーションが起動された場合に、画像情報及び要求情報を移動通信端末２のディスプレイ２７に表示する。図４は、ディスプレイ２７に画像情報及び要求情報が表示された一例を示す図である。同図に示すように、画像情報は、キャラクタＣの画像としてディスプレイ２７の上側に表示され、要求情報は、ユーザに音声の入力を要求するメッセージとして例えば３つの選択項目Ｓ１～Ｓ３が表示される。ユーザは、ディスプレイ２７に表示された選択項目Ｓ１～Ｓ３のいずれかを発声し、その発生された音声が音声入力部２００によって入力される。

　音声合成モデル保持部２０６は、受信部２０４から受け取った音声合成モデルを保持する。音声合成モデル保持部２０６は、受信部２０４から音声合成モデルに関する情報を受け取ると、既存の音声合成モデルに対する更新処理を行う。

　音声合成部２０７は、音声合成モデル保持部２０６に保持されている音声合成モデルを参照し、音声データを合成する。音声データを合成する方法は、従来から知られている方法が用いられる。具体的に、例えば音声合成部２０７は、移動通信端末２の操作部２４（キーボード）によってもテキスト（文字列）が入力され、ユーザから合成の指示があると、音声合成モデル保持部２０６を参照し、保持されている音声合成モデルから入力されたテキストの音素列（コンテキストラベル）に対応する音響的特徴量（対数基本周波数及びメルケプストラム）を確率的に予測し、入力されたテキストに対応する音声データを合成して生成する。音声合成部２０７は、合成した音声データを例えばスピーカー２８に出力する。なお、音声合成部２０７で生成された音声データは、アプリケーションにも用いられる。

　続いて、音声合成モデル生成装置３について説明する。図１に示すように、音声合成モデル生成装置３は、学習情報取得部３００と、音声合成モデル生成部３０１と、モデルデータベース３０２と、統計モデルデータベース３０３と、単語抽出部３０４と、単語データベース３０５と、パラメータ生成部３０６と、画像情報生成部３０７と、要求情報生成部３０８と、情報出力部３０９とを備えている。

　学習情報取得部３００は、特徴量及びテキストデータを移動通信端末２から受信することにより取得する学習情報取得手段である。学習情報取得部３００は、移動通信端末２から受信して取得した特徴量及びテキストデータを音声合成モデル生成部３０１に出力すると共に、テキストデータを単語抽出部３０４に出力する。

　音声合成モデル生成部３０１は、学習情報取得部３００から受け取った特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段である。音声合成モデルの生成は、従来から知られている方法によって行われる。具体的に、例えば音声合成モデル生成部３０１は、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）に基づく学習によって、移動通信端末２のユーザ毎の音声合成モデルを生成する。音声合成モデル生成部３０１は、音素等の音声の単位（コンテキストラベル）の音響的特徴量（対数基本周波数、メルケプストラム）を確率モデルの一種であるＨＭＭを用いてそれぞれモデル化する。音声合成モデル生成部３０１は、対数基本周波数及びメルケプストラムに関して繰り返し学習を行う。音声合成モデル生成部３０１は、対数基本周波数及びメルケプストラムについてそれぞれ生成されたモデルに基づいて、音声のリズムやテンポを表す状態継続長（音韻継続長）を状態分布（ガウス分布）から決定し、モデル化する。そして、音声合成モデル生成部３０１は、対数基本周波数及びメルケプストラムのＨＭＭと状態継続長のモデルとを合成して音声合成モデルを生成する。生成した音声合成モデルをモデルデータベース３０２及び統計モデルデータベース３０３に出力する。

　モデルデータベース３０２は、音声合成モデル生成部３０１から受け取った音声合成モデルをユーザ毎に保持する。モデルデータベース３０２は、音声合成モデル生成部３０１から新たな音声合成モデルに関する情報を受け取ると、既存の音声合成モデルに対する更新処理を行う。

　統計モデルデータベース３０３は、音声合成モデル生成部３０１から受け取った全ての移動通信端末２のユーザの音声合成モデルを、まとめて保持する。統計モデルデータベース３０３に保持される音声合成モデルに関する情報は、例えば統計モデル生成部によって全ユーザの平均的なモデルやユーザの年代別の平均的なモデルを生成する処理が行われ、個々のユーザの音声合成モデルの不足モデルを補間するために用いられる。

　単語抽出部３０４は、学習情報取得部３００から受け取ったテキストデータから単語を抽出する単語抽出手段である。単語抽出部３０４は、学習情報取得部３００からテキストデータを受け取ると、形態素解析等の手法により単語を特定するための単語情報が保持されている辞書データベース（図示せず）を参照し、テキストデータと単語情報との一致度合に基づいて、テキストデータから単語を抽出する。単語とは、文構成の最小単位であり、例えば「携帯」等といった自立語と、「を」等といった付属語とを含むものである。単語抽出部３０４は、抽出した単語を示す単語データをユーザ毎に単語データベース３０５に出力する。

　単語データベース３０５は、単語抽出部３０４から受け取った単語データをユーザ毎に保持する。単語データベース３０５は、図５に示すようなテーブルを保持している。図５は、単語データが保持されているテーブルの一例を示す図である。図５に示すように、単語データのテーブルでは、所定の規則に従って分割された１２個のカテゴリ毎に収容された「単語データ」と、その単語データの「単語数」とを対応付けて保持している。例えば、カテゴリ１には、「携帯」、「音声」等といった単語が保持されており、カテゴリ毎の累積単語数は「５０」となっている。なお、単語が収容されるカテゴリは、スペクトラム部の決定木、基本周波数の決定木、及び状態継続長モデルの決定木等の従来の方法によって決定される。

　パラメータ生成部３０６は、単語抽出部３０４によって抽出された単語が保持されている単語データベース３０５の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段である。上記の学習度合とは、音声合成モデルがどの程度ユーザの音声を再現することができるかを示す度合（音声合成モデルの精度）である。パラメータ生成部３０６は、単語データベース３０５のカテゴリ毎の単語数から累積単語数を算出し、その累積単語数に比例する音声合成モデルの学習度合を示すパラメータをユーザ毎に生成する。パラメータは、例えば０，１，…といった数値で示され、数値が大きくなるにつれて学習度合が高いことを示している。累積単語数に応じてパラメータを算出するのは、カテゴリ毎の単語数の増加が音声合成モデルの精度の向上に直接関係しているからである。パラメータ生成部３０６は、生成したパラメータを画像情報生成部３０７及び要求情報生成部３０８に出力する。なお、パラメータには、各カテゴリ毎の単語数を特定可能な情報が含まれている。また、音声合成モデルの精度に関しては、音声データの入力を増やすほどに向上し、ユーザ音声の再現性も増すが、統計的に向上率が停滞する程度の音声データを最大数として定義することも可能である。

　画像情報生成部３０７は、パラメータ生成部３０６から出力されたパラメータに応じて、移動通信端末２のユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段である。画像情報生成部３０７は、アプリケーションに利用されるキャラクタ画像を表示させるための画像情報を生成する。画像情報生成部３０７は、図６に示すようなテーブルを保持している。図６は、パラメータと画像の変化度を示すレベルとが対応付けられているテーブルの一例を示す図である。図６に示すように、パラメータが「０」のときはレベルが「１」であり、パラメータ「３」のときはレベルが「４」である。画像情報生成部３０７は、画像の変化度を示すレベルに対応する画像情報を生成し、その画像情報を情報出力部３０９に出力する。

　ここで、図７に、画像の変化度を示すレベルに応じて移動通信端末２のディスプレイ２７に表示されるキャラクタ画像が変化する一例を示す。図７（ａ）は、レベル１に対応するキャラクタ画像Ｃ１を示すであり、（ｂ）は、レベル３に対応するキャラクタ画像Ｃ２を示す図である。図７（ａ），（ｂ）に示すように、レベル１ではキャラクタ画像Ｃ１の輪郭がはっきりしていないのに対し、レベル３ではキャラクタ画像Ｃ２の輪郭がはっきりしている。このように、パラメータに対応付けられたレベルに応じて、キャラクタ画像が成長（変化）するようになる。また、キャラクタ画像Ｃ１，Ｃ２の吹き出しに表示される言葉も、レベルが高くなるにつれて流暢に発声するように表示される。即ち、ユーザの音声により音声合成モデルの学習が進むと、それにつれてアプリケーションにより表示されるキャラクタも成長していく。

　要求情報生成部３０８は、パラメータ生成部３０６によって生成されたパラメータに基づいて、特徴量を取得するために、ユーザに音声を入力させるための要求情報を生成する要求情報生成手段である。要求情報生成部３０８は、パラメータに基づいて、単語データベースに保持されちるカテゴリ毎の単語数を比較し、他のカテゴリよりも単語数の少ないカテゴリを特定して、そのカテゴリに対応する単語を算出する。具体的には、図５に示すように、例えばカテゴリ「６」が他のカテゴリよりも保持されている単語数が少ない場合に、要求情報生成部３０８は、カテゴリ「６」に対応する単語を複数算出する。そして、要求情報生成部３０８は、算出した単語を示す要求情報を生成し、情報出力部３０９に出力する。

　情報出力部３０９は、音声合成モデル生成部３０１で生成された音声合成モデル、画像情報生成部３０７から出力された画像情報及び要求情報生成部３０８から出力された要求情報を移動通信端末２に送信する情報出力手段（画像情報出力手段）である。情報出力部３０９は、パラメータ生成部３０６によって新たにパラメータが生成された場合に、音声合成モデル、画像情報及び要求情報を送信する。

　引き続いて、図８を参照して、本実施形態に係る音声合成モデル生成システム１で実行される処理（音声合成モデル生成方法）について説明する。図８は、移動通信端末２と音声合成モデル生成装置３との処理を示すシーケンス図である。

　図８に示すように、移動通信端末２では、まず音声入力部２００によってユーザからアプリケーションによる表示に応じた音声が入力される（Ｓ０１、音声入力ステップ）。そして、特徴量抽出部２０１によって、音声入力部２００によって入力された音声データに基づいて、音声の特徴量が抽出される（Ｓ０２）。また、テキストデータ取得部２０２によって、音声入力部２００により入力された音声データに基づいて、音声に対応するテキストデータが取得される（Ｓ０３）。音声の特徴量及びテキストデータを含む学習情報は、学習情報送信部２０３によって音声合成モデル生成装置３へと送信される（Ｓ０４、学習情報送信ステップ）。

　音声合成モデル生成装置３では、学習情報取得部３００によって、移動通信端末２から学習情報が受信されることにより特徴量及びテキストデータが取得される（Ｓ０５、学習情報取得ステップ）。次に、音声合成モデル生成部３０１によって、取得された特徴量及びテキストデータに基づいて、音声合成モデルが生成される（Ｓ０６、音声合成モデル生成ステップ）。また、単語抽出部３０４によって、取得されたテキストデータに基づいて、単語が抽出される（Ｓ０７）。そして、パラメータ生成部３０６によって、抽出された単語の累積単語数に基づいて、音声合成モデルの学習度合を示すパラメータが生成される（Ｓ０８、パラメータ生成ステップ）。

　続いて、画像情報生成部３０７によって、生成されたパラメータに基づいて、移動通信端末２のユーザに対して画像を表示させるためのパラメータに応じた画像情報が生成される（Ｓ０９）。また、要求情報生成部３０８によって、生成されたパラメータに基づいて、移動通信端末２のユーザに対して、特徴量を取得するために、音声を入力させるための要求情報が生成される（Ｓ１０）。このように生成された音声合成モデル、画像情報及び要求情報は、情報出力部３０９によって、音声合成モデル生成部３０１から移動通信端末２へと送信される（Ｓ１１、情報出力ステップ）。

　移動通信端末２では、受信部２０４によって音声合成モデル、画像情報及び要求情報が受信されて、音声合成モデルが音声合成モデル保持部２０６に保持されると共に、画像情報及び要求情報が表示部２０５によってディスプレイに表示される（Ｓ１２、表示ステップ）。移動通信端末２のユーザは、ディスプレイ２７に表示される要求情報に応じて、音声を入力する。音声が入力されると、ステップＳ０１の処理に戻って以下の処理が繰り返される。以上が、本実施形態に係る音声合成モデル生成システム１により実行される処理である。

　上述したように本実施形態によれば、音声の特徴量及びテキストデータに基づいて音声合成モデルを生成し、その音声合成モデルの学習度合を示すパラメータを生成する。そして、パラメータに応じてユーザに対して画像を表示させるための画像情報を生成し、その画像情報を出力する。これにより、音声を入力するユーザは、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。

　また、音声合成モデル生成装置３のパラメータ生成部３０６によって生成されたパラメータに基づいて、特徴量を取得するために、ユーザに音声を入力させるための要求情報を生成して移動通信端末２へと送信するので、ユーザから入力される音声が音声合成モデルを生成するための学習に対して適切なものとなる。

　また、パラメータ生成部３０６は、単語抽出部３０４によって抽出された単語の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成する。これにより、累積単語数に応じてパラメータが生成されるので、ユーザは、パラメータに応じて生成される画像情報を見ることで、単語数が増加していることを認識できる。これにより、音声を入力したことに対する達成感を更に得ることができる。その結果、ユーザの音声をより好適に取得することができる。

　また、音声合成モデル生成装置３から移動通信端末２へと送信される画像情報は、キャラクタ画像を表示させるための情報であり、ユーザに出力されるキャラクタ画像がパラメータに応じて例えば大きくなるといったように変化するので、例えば数値等が画像で表示される場合よりも、ユーザに対して視覚的に好感を与えることができる。これにより、更にユーザの達成感を得ることができ、音声を入力しようとするモチベーションがより一層向上する。その結果、ユーザの音声をより好適に取得することができる。

　また、音声合成モデル生成部３０１は、ユーザ毎に音声合成モデルを生成するので、ユーザ毎に対応する音声合成モデルを生成することができ、音声合成モデルを個々人で利用することが可能となる。

　また、音声特徴量は、音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータ（対数基本周波数及びメルケプストラム）であるので、音声合成モデルを確実に生成することができる。

　また、移動通信端末２で音声が取得されるので、スタジオ等といった設備を必要とせず、簡易に音声を取得することがきる。更に、移動通信端末２から送信される音声から音声合成モデルを生成する場合とは違い、音声合成モデルを生成するのに必要な特徴量を移動通信端末２が抽出して送信するので、通信路によって劣化させられる音声を用いて音声合成モデルを生成する場合よりも、精度の高い音声合成モデルを生成することができる。

　本発明は上記実施形態に限られるものではない。上記実施形態では、音声合成モデルを生成するのにＨＭＭを用いて学習を行ったが、他のアルゴリズムを用いて音声合成モデルが生成されてもよい。

　また、上記実施形態では、移動通信端末２の特徴量抽出部２０１によって音声の特徴量が抽出されて、特徴量が音声合成モデル生成装置３に送信されているが、音声入力部２００に入力された音声が音声情報（例えば、ＡＡＣ，ＡＭＲなど符号化された音声）として音声合成モデル生成装置３に送信されてもよい。この場合、音声合成モデル生成装置３において特徴量が抽出される。

　また、上記実施形態では、単語データベース３０５に保持されている単語の累積単語数に対応するパラメータに対応付けられたレベルに基づいて、画像情報生成部３０７が画像情報を生成しているが、画像情報生成はこの方法に限定されない。例えば、キャラクタ画像Ｃの大きさや性格等を構成するためのデータを保持するデータベースを設け、ユーザから例えば「ありがとう」という音声が入力された場合には、所定の規則に従い、大きさを示すデータに１を加算し、性格の優しさを示すデータに１を加算する等して、画像情報を生成してもよい。

　また、上記実施形態では、画像情報はキャラクタ画像を表示させるための情報としているが、例えばグラフ、数値、自動車等といった物を表示させるための情報であってもよい。グラフの場合には、累積単語数を表示する情報であり、自動車等といった物である場合には、所定の単語数になったときに形を変化させる情報等とすることができる。

　また、上記実施形態では、画像情報をキャラクタ画像を表示させるための表示データとしているが、必ずしも表示データとする必要はなく移動通信端末２において画像を生成するためのデータであればよい。例えば、音声合成モデル生成装置３において、パラメータ生成部３０６から出力されたパラメータに基づいて画像を生成するための画像情報を作成して送信し、その画像情報を受信した移動通信端末２においてキャラクタ画像を生成してもよい。具体的に、音声合成モデル生成装置３において作成される画像情報は、予め設定されているキャラクタ画像の顔の大きさや肌の色等を示すパラメータである。

　また、音声合成モデル生成装置３のパラメータ生成部３０６から出力されたパラメータを画像情報として送信し、そのパラメータに基づいて移動通信端末２がキャラクタ画像を生成してもよい。その場合、移動通信端末２が上記パラメータに応じて、どのようなキャラクタ画像を生成するかを示す情報（例えば、図６に示す情報）を保持している。

　また、音声合成モデル生成装置３の単語データベース３０５に保持されている単語データの累積単語数を画像情報として送信し、その画像情報に基づいて移動通信端末２がキャラクタ画像を生成してもよい。その場合、移動通信端末２は、累積単語数からパラメータを生成し、そのパラメータに応じて、どのようなどのようなキャラクタ画像を生成するかを示す情報（例えば、図６に示す情報）を保持している。

　また、上記実施形態では、単語データベース３０５に保持された単語のカテゴリ毎の単語数に基づいて、要求情報生成部３０８が要求情報を生成しているが、要求する単語が予め格納されたデータベースから順番に単語が要求される構成としてもよい。

　また、上記実施形態では、テキストデータ取得部２０２が移動通信端末２に設けられる構成となっているが、音声合成モデル生成装置３に設けられる構成としてもよい。また、テキストデータの取得は、移動通信端末２自身が行わなくとも、移動体通信によって情報の送受信ができるサーバ装置によって行われてもよい。この場合、移動通信端末２は、サーバ装置に特徴量抽出部２０１によって抽出した特徴量を送信し、その特徴量を送信したことに応じて、特徴量に基づいて取得されたテキストデータがサーバ装置から送信される。

　また、上記実施形態では、テキストデータ取得部２０２によってテキストデータが取得されているが、ユーザが音声入力後にユーザ自身で入力するようにしてもよい。また、要求情報に含まれるテキストデータから取得されてもよい。

　また、上記実施形態では、テキストデータ取得部２０２がテキストデータをユーザに確認することなく取得しているが、取得したテキストデータを一度ユーザに表示し、ユーザから例えば確認キーが押下された場合に、取得される構成としてもよい。

　また、上記実施形態では、移動通信端末２と音声合成モデル生成装置３とによって音声合成モデル生成システム１を構成する形態となっているが、音声合成モデル生成装置３だけで構成されてもよい。この場合には、音声合成モデル生成装置３に、音声入力部等が設けられる。

　１…音声合成モデル生成システム、２…移動通信端末（通信端末）、３…音声合成モデル生成装置、２００…音声入力部（音声入力手段）、２０１…特徴量抽出部（特徴量抽出手段）、２０２…テキストデータ取得部（テキストデータ取得手段）、２０３…学習情報送信部（学習情報送信手段）、２０４…受信部（画像情報受信手段）、２０５…表示部（表示手段）、３００…学習情報取得部（学習情報取得手段）、３０１…音声合成モデル生成部（音声合成モデル生成手段）、３０４…単語抽出部（単語抽出手段）、３０６…パラメータ生成部（パラメータ生成手段）、３０７…画像情報生成部（画像情報生成手段）、３０８…要求情報生成部（要求情報生成手段）、３０９…情報出力部（画像情報出力手段）、Ｃ，Ｃ１，Ｃ２…キャラクタ画像。

Claims

　ユーザの音声の特徴量及び前記音声に対応するテキストデータを取得する学習情報取得手段と、
　前記学習情報取得手段によって取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、
　前記音声合成モデル生成手段によって生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、
　前記パラメータ生成手段によって生成された前記パラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段と、
　前記画像情報生成手段によって生成された前記画像情報を出力する画像情報出力手段と、を備えることを特徴とする音声合成モデル生成装置。
　前記特徴量を取得するために、前記ユーザに前記音声を入力させるための要求情報を、前記パラメータ生成手段によって生成された前記パラメータに基づいて生成して出力する要求情報生成手段を更に備えることを特徴とする請求項１記載の音声合成モデル生成装置。
　前記学習情報取得手段によって取得された前記テキストデータから単語を抽出する単語抽出手段を更に備え、
　前記パラメータ生成手段は、前記単語抽出手段によって抽出された前記単語の累積単語数に応じて、前記音声合成モデルの前記学習度合を示す前記パラメータを生成することを特徴とする請求項１又は２記載の音声合成モデル生成装置。
　前記画像情報はキャラクタ画像を表示させるための情報であることを特徴とする請求項１～３のいずれか一項記載の音声合成モデル生成装置。
　前記音声合成モデル生成手段は、前記ユーザ毎に前記音声合成モデルを生成することを特徴とする請求項１～４のいずれか一項記載の音声合成モデル生成装置。
　前記特徴量は、前記音声を音声単位にラベリングしたコンテキストデータ及び前記音声の特徴を示す音声波形に関するデータであることを特徴とする請求項１～５のいずれか一項記載の音声合成モデル生成装置。
　通信機能を有する通信端末と、当該通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムであって、
　前記通信端末は、
　ユーザの音声を入力する音声入力手段と、
　前記音声入力手段によって入力された前記音声又は当該音声の特徴量からなる音声情報及び前記音声に対応するテキストデータを前記音声合成モデル生成装置に送信する学習情報送信手段と、
　前記音声情報送信手段から前記音声情報及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、
　前記画像情報受信手段によって受信された前記画像情報を表示する表示手段と、を備え、
　前記音声合成モデル生成装置は、
　前記通信端末から送信される前記音声情報を受信することにより前記音声の特徴量を取得すると共に、前記通信端末から送信される前記テキストデータを受信することにより取得する学習情報取得手段と、
　前記学習情報取得手段によって取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、
　前記音声合成モデル生成手段によって生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、
　前記パラメータ生成手段によって生成された前記パラメータに応じて、前記画像情報を生成する画像情報生成手段と、
　前記画像情報生成手段によって生成された前記画像情報を前記通信端末に送信する画像情報出力手段と、を備えることを特徴とする音声合成モデル生成システム。
　前記通信端末は、
　前記音声入力手段によって入力された前記音声から当該音声の特徴量を抽出する特徴量抽出手段を更に備えることを特徴とする請求項７記載の音声合成モデル生成システム。
　前記音声入力手段によって入力された前記音声から当該音声に対応するテキストデータを取得するテキストデータ取得手段を更に備えることを特徴とする請求項７又は８記載の音声合成モデル生成システム。
　通信機能を有する通信端末であって、
　ユーザの音声を入力する音声入力手段と、
　前記音声入力手段によって入力された前記音声から当該音声の特徴量を抽出する特徴量抽出手段と、
　前記音声に対応するテキストデータを取得するテキストデータ取得手段と、
　前記特徴量抽出手段によって抽出された前記音声の特徴量、及びテキストデータ取得手段によって取得された前記テキストデータを、前記通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信手段と、
　前記学習情報送信手段から前記特徴量及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、
　前記画像情報受信手段によって受信された前記画像情報を表示する表示手段と、を備えることを特徴とする通信端末。
　ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得ステップと、
　前記学習情報取得ステップにおいて取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、
　前記音声合成モデル生成ステップにおいて生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、
　前記パラメータ生成ステップにおいて生成された前記パラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成ステップと、
　前記画像情報生成ステップにおいて生成された前記画像情報を出力する画像情報出力ステップと、を含むことを特徴とする音声合成モデル生成方法。
　通信機能を有する通信端末と、当該通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムによる音声合成モデル生成方法であって、
　前記通信端末が、
　ユーザの音声を入力する音声入力ステップと、
　前記音声入力ステップにおいて入力された前記音声又は当該音声の特徴量からなる音声情報及び前記音声に対応するテキストデータを前記音声合成モデル生成装置に送信する学習情報送信ステップと、
　前記音声情報送信ステップにおいて前記音声情報及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、
　前記画像情報受信ステップにおいて受信された前記画像情報を表示する表示ステップと、を含み、
　前記音声合成モデル生成装置が、
　前記通信端末から送信される前記音声情報を受信することにより前記音声の特徴量を取得する共に、前記通信端末から送信される前記テキストデータを受信することにより取得する学習情報取得ステップと、
　前記学習情報取得ステップにおいて取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、
　前記音声合成モデル生成ステップにおいて生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、
　前記パラメータ生成ステップにおいて生成された前記パラメータに応じて、前記画像情報を生成する画像情報生成ステップと、
　前記画像情報生成ステップにおいて生成された前記画像情報を前記通信端末に送信する画像情報出力ステップと、を含むことを特徴とする音声合成モデル生成方法。
　通信機能を有する通信端末による音声合成モデル生成方法であって、
　ユーザの音声を入力する音声入力ステップと、
　前記音声入力ステップにおいて入力された前記音声から当該音声の特徴量を抽出する特徴量抽出ステップと、
　前記音声に対応するテキストデータを取得するテキストデータ取得ステップと、
　前記特徴量抽出ステップにおいて抽出された前記音声の特徴量、及び前記テキストデータ取得ステップおいて取得された前記テキストデータを、前記通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信ステップと、
　前記学習情報送信ステップにおいて前記特徴量及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、
　前記画像情報受信ステップにおいて受信された前記画像情報を表示する表示ステップと、を含むことを特徴とする音声合成モデル生成方法。