JPWO2009125710A1

JPWO2009125710A1 - メディア処理サーバ装置およびメディア処理方法

Info

Publication number: JPWO2009125710A1
Application number: JP2010507223A
Authority: JP
Inventors: 慎一磯部; 薮崎　正実; 正実薮崎
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-04-08
Filing date: 2009-04-02
Publication date: 2011-08-04
Also published as: CN101981614B; US20110093272A1; EP2267696A1; EP2267696A4; KR101181785B1; CN101981614A; WO2009125710A1; KR20100135782A

Abstract

メディア処理サーバ装置は、ユーザ識別子と関連づけて、音声合成用データを感情ごとに分類して記憶する音声合成用データ記憶部と、メッセージサーバ装置から受信したテキストメッセージからテキストの感情を判定するテキスト解析部と、判定した感情に対応し、且つ、テキストメッセージの送信者であるユーザのユーザ識別子と関連づけられた音声合成用データを用いてテキストに対する音声を合成して感情表現付き音声データを生成する音声データ合成部とを具備する。

Description

本発明は、テキストデータに基づいて音声メッセージを合成することが可能なメディア処理サーバ装置およびメディア処理方法に関する。

情報処理技術および通信技術の高度化により、電子メールに代表されるテキストを使用したメッセージ通信が広く利用されるようになった。このようなテキストを使用したメッセージ通信では、メッセージ中に絵文字（graphical emoticons）や複数の文字の組み合わせによる顔文字（text emoticons or face marks）を用いることで、メッセージの内容をより感情豊かに表現することが行われる。

また、従来、電子メールに含まれるメッセージを、発信者本人の声で感情のこもった読み上げを行う機能を持つ端末装置が知られている（例えば、特許文献１を参照）。

特許文献１に記載の端末装置は、通話中に得られた音声データから得られる音声特徴データを、感情毎に分類して電話番号やメールアドレスに対応付けて記憶しておく。さらに、その記憶されている通信相手からのメッセージを受信した時に、当該メッセージに含まれるテキストデータがいずれの感情であるかを判定して、メールアドレスと対応づけられた音声特徴データを用いて音声合成して読み上げが行われる。

特許第３８０６０３０号公報

しかしながら、上記従来の端末装置では、メモリ容量などの制限により、音声特徴データを登録できる通信相手の数または通信相手あたりの音声特徴データの登録数が限定的となるため、合成される感情表現のバリエーションが少なくなり合成精度が劣化するという問題があった。

本発明は、上述の事情を鑑みてなされたものであり、高品質、且つ、感情表現が豊かな音声メッセージを、テキストデータから合成することが可能なメディア処理サーバ装置およびメディア処理方法を提供することを目的とする。

本発明は、上記目的を達成するために、複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置であって、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部と、前記複数の通信端末のうち、第１の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位（determination unit）ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部と、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記感情判定部で判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する感情表現付き音声データを合成する音声データ合成部とを具備することを特徴とするメディア処理サーバ装置を提供する。

本発明に係るメディア処理サーバ装置においては、ユーザごとに感情の種類別に分類した音声合成用データを記憶しており、テキストメッセージの感情の種別の判定結果に応じて、当該テキストメッセージの送信者であるユーザの音声合成用データを用いて音声データを合成する。よって、送信者本人の声を用いて、感情のこもった音声メッセージを作成することが可能となる。さらに、音声合成用データを記憶する記憶部をメディア処理サーバ装置に設けたので、通信端末などの端末装置に当該記憶部を設ける場合と比較して、大量の音声合成用データを登録することが可能となる。よって、音声合成データを登録するユーザの数や、登録可能なユーザあたりの音声合成用データの数が増加するので、高品質、且つ、感情表現が豊かな音声メッセージを合成することが可能となる。すなわち、従来のように、端末装置に音声合成用データを登録しておく必要がなく、端末装置のメモリ容量を圧迫することがない。さらに、テキストメッセージの感情を判定する機能や、音声合成する機能も必要がなくなるので、端末装置の処理負荷が軽減される。

本発明の好適な態様として、前記感情判定部は、前記感情情報として、感情を複数の文字の組み合わせにより表現した感情記号を抽出した場合には、当該感情記号に基づいて感情の種別を判定する。感情記号は、例えば、顔文字であり、メッセージの送信者である通信端末のユーザに入力される。すなわち、感情記号はユーザが指定した感情を示す。よって、感情情報として感情記号を抽出し、当該感情記号に基づいて感情の種別を判定することにより、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。

本発明の別の好適な態様として、前記感情判定部は、前記受信したテキストメッセージに、テキストに挿入されるべき画像が添付されている場合には、前記判定単位内のテキストに加えて、当該テキストに挿入されるべき画像も前記感情情報の抽出対象とし、前記感情情報として、感情を絵により表現した感情画像を抽出した場合には、当該感情画像に基づいて感情の種別を判定する。感情画像は、例えば、絵文字画像であり、メッセージの送信者である通信端末のユーザに選択により入力される。すなわち、感情画像はユーザが指定した感情を示す。よって、感情情報として感情画像を抽出し、当該感情画像に基づいて感情の種別を判定することにより、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。

好ましくは、前記感情判定部は、前記判定単位内から抽出した感情情報が複数ある場合には、当該複数の感情情報の各々について感情の種別を判定し、判定した感情の種別のうち、最も出現数の多い感情の種別を判定結果として選択するようにしてもよい。この態様によれば、判定単位のなかに最も強く現れた感情を選択することが可能となる。
あるいは、前記感情判定部は、前記テキストメッセージ内の前記判定単位内から抽出した感情情報が複数ある場合には、前記判定単位の終点に最も近い位置に出現する感情情報に基づいて感情の種別を判定するようにしてもよい。この態様によれば、メッセージの送信者の感情のなかで、メッセージの送信時点により近い感情を選択することが可能となる。

本発明の好適な態様において、前記音声合成用データ記憶部は、前記複数の通信端末の各ユーザの音声パターンの特性を感情の種別ごとに設定するパラメータをさらに記憶し、前記音声データ合成部は、合成した音声データを前記パラメータに基づいて調整する。本態様においては、各ユーザについて記憶された感情の種類に応じたパラメータを用いて音声データを調整するので、ユーザの音声パターンの特性に合致した音声データが作成される。よって、送信者のユーザの個人的な音声の特徴を反映した音声メッセージを作成することが可能となる。

好ましくは、前記パラメータは、前記各ユーザについて前記感情毎に分類して記憶された音声合成用データの声の大きさの平均値、速さの平均値、韻律の平均値、および周波数の平均値の少なくとも１つとするようにしてもよい。この場合には、音声データを、各ユーザの声の大きさ、話す速度（テンポ）、韻律（抑揚、リズム、強勢）や、周波数（声の高さ）などに応じて調整する。よって、ユーザ本人の声の調子により近い音声メッセージを再現することが可能となる。

本発明の好適な態様において、前記音声データ合成部は、前記判定単位内のテキストを複数の合成単位に分解して、当該合成単位ごとに前記音声データの合成を実行し、前記音声データ合成部は、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データに、前記感情判定部で判定した感情に対応する音声合成用データが含まれていない場合には、前記合成単位のテキストと発音が部分的に一致する音声合成用データを、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データから選択して読み出す。本発明によれば、音声合成の対象であるテキストの文字列が音声合成用データ記憶部にそのまま記憶されていない場合でも、音声合成を行うことが可能となる。

さらに、本発明は、複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置におけるメディア処理方法であって、前記メディア処理サーバ装置は、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部を具備しており、前記方法は、前記複数の通信端末のうち、第１の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する判定ステップと、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記判定ステップで判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する音声データを合成する合成ステップとを具備することを特徴とするメディア処理方法を提供する。本発明によれば、上記メディア処理サーバ装置と同様の効果を達成することが可能である。

本発明によれば、高品質、且つ、感情表現が豊かな音声メッセージを、テキストデータから合成することが可能なメディア処理装置およびメディア処理方法を提供することが可能となる。

本発明の一実施形態に係るメディア処理サーバ装置を含む感情表現付き音声合成メッセージシステムの簡易構成図である。本発明の一実施形態に係る通信端末の機能構成図である。本発明の一実施形態に係るメディア処理サーバ装置の機能構成図である。本発明の一実施形態に係る音声合成用データ記憶部において管理されるデータを説明するための図である。本発明の一実施形態に係るメディア処理方法の流れを説明するためのシーケンスチャートである。

以下、図面を参照しながら本発明の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係るメディア処理サーバ装置を含む感情表現付き音声合成メッセージシステム（以下、単に「音声合成メッセージシステム」という）を示す。音声合成メッセージシステムは、複数の通信端末１０（１０ａ，１０ｂ）と、各通信端末間のテキストメッセージの送受信を可能とするメッセージサーバ装置２０と、通信端末に関わるメディア情報を記憶・加工するメディア処理サーバ装置３０と、各装置を接続するネットワークＮとを備える。なお、説明の簡易のため、図１には２つの通信端末１０のみを示したが、実際には、音声合成メッセージシステムは、多数の通信端末を含む。

ネットワークＮは、通信端末１０の接続先であり、通信端末１０に対して通信サービスを提供する。例えば、携帯電話網がこれに該当する。

通信端末１０は、無線または有線により中継装置（図示しない）を介してネットワークＮに接続されており、同じく中継装置を介してネットワークＮに接続する他の通信端末との間で通信を行うことが可能である。図には示さないが、通信端末１０は、ＣＰＵ（Central Processing Unit）、主記憶装置であるＲＡＭ（Random Access Memory）及びＲＯＭ(Read Only Memory)、通信を行うための通信モジュール、並びにハードディスク等の補助記憶装置等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が協働することにより、後述する通信端末１０の機能が実現される。

図２は、通信端末１０の機能構成図である。図２に示すように、通信端末１０は、送受信部１０１と、テキストメッセージ作成部１０２と、音声メッセージ再生部１０３と、入力部１０４と、表示部１０５とを備える。

送受信部１０１は、テキストメッセージ作成部１０２よりテキストメッセージを受信すると、これをネットワークＮを介してメッセージサーバ装置２０へ送信する。ここで、テキストメッセージとは、例えばメール、チャットまたはＩＭ（Instant Message）がこれに該当する。また、送受信部１０１はメディア処理サーバ装置３０において音声合成された音声メッセージをネットワークＮを介してメッセージサーバ装置２０より受信すると、これを音声メッセージ再生部１０３へ転送する。また、テキストメッセージを受信すると、これを表示部１０５に転送する。

入力部１０４は、タッチパネルやキーボードがこれに該当し、入力された文字をテキストメッセージ作成部１０２に送信する。また、入力部１０４は、テキストに挿入すべき絵文字（graphical emoticon）画像が選択により入力されると、入力された絵文字画像をテキストメッセージ作成部１０２に送信する。絵文字画像の選択に際しては、当該通信端末１０の図示せぬメモリに記憶された絵文字辞書が表示部１０５に表示され、通信端末１０のユーザは、入力部１０４を操作することにより、表示された絵文字画像の中から所望の画像を選択することが可能である。この絵文字辞書としては、例えば、ネットワークＮの通信事業者が提供する固有の絵文字辞書がある。「絵文字画像」は、感情を絵で表現した感情画像、および事象や物などを絵で表現した非感情画像を含む。感情画像としては、顔の表情変化により感情を示す表情感情画像や、例えば、「怒り」を示す爆弾画像や「喜び」や「好意」を示すハート画像のように絵自体から感情を推測可能な非表情感情画像がある。非感情画像としては、天気を示す太陽や傘の画像、スポーツの種類を示すボールやラケットなどの画像がある。

また、入力された文字は、文字の組み合わせ（文字列）により感情を表わす顔文字（感情記号）を含む場合がある。顔文字（text emoticon）は、コンマ、コロン、ハイフンなどの句読点(punctuation characters)、アスタリスクやアットマーク（at sign）などの記号、および一部のアルファベット（「m」や「T」）などを組み合わせた文字列により感情を示すものである。代表的な顔文字としては、笑顔(happy face)を示す「:)」（コロンが目でかっこが口）、怒った顔(angry face)を示す「>:(」、泣いた顔(crying face)を示す「T_T」などがある。絵文字の場合と同様に、当該通信端末１０の図示せぬメモリには顔文字辞書が記憶されており、通信端末１０のユーザは、顔文字辞書から読み出されて表示部１０５に表示された顔文字の中から、入力部１０４を操作することにより、所望の顔文字を選択することが可能である。

テキストメッセージ作成部１０２は、入力部１０４より入力された文字および顔文字からテキストメッセージを作成し、これを送受信部１０１へ転送する。また、テキストに挿入すべき絵文字画像が入力部１０４より入力され、当該テキストメッセージ作成部１０２に送信されると、当該絵文字画像を添付画像とするテキストメッセージを作成して送受信部１０１へ転送する。このとき、テキストメッセージ作成部１０２は、絵文字画像の挿入位置を示す挿入位置情報を生成し、テキストメッセージに添付して送受信部１０１に転送する。絵文字画像が複数添付されている場合には、各絵文字画像について、この挿入位置情報が生成される。ここで、テキストメッセージ作成部１０２とは、通信端末１０に搭載される、メール、チャット、ＩＭのソフトウェアがこれに該当する。ただし、ソフトウェアに限定されるものではなく、ハードウェアで構成されてもよい。

音声メッセージ再生部１０３は、送受信部１０１より音声メッセージを受信するとこれを再生する。ここで、音声メッセージ再生部１０３とは、音声エンコーダ、スピーカーがこれに該当する。また、表示部１０５は、送受信部１０１よりテキストメッセージを受信するとこれを表示する。テキストメッセージに絵文字画像が添付されている場合には、挿入位置情報によって指定された位置に絵文字画像を挿入した状態で、テキストメッセージが表示される。表示部１０５は、例えば、ＬＣＤ（Liquid Crystal Display）などであり、受信したテキストメッセージの他に、各種情報を表示することが可能である。

通信端末１０は、移動通信端末がその代表例であるが、これに限るものではなく、例えば音声通話可能なパーソナルコンピュータや、ＳＩＰ（Session Initiation Protocol）電話なども適用可能である。なお、本実施形態では、通信端末１０は移動通信端末であるものとして説明する。この場合、ネットワークＮは移動通信網であり、上述の中継装置は基地局である。

メッセージサーバ装置２０は、メール、チャット、ＩＭ用のアプリケーションサーバプログラム等を実装したコンピュータ装置がこれに相当する。メッセージサーバ装置２０は、通信端末１０よりテキストメッセージを受信すると、送信元通信端末１０が音声合成サービスに加入している場合には、受信したテキストメッセージを、メディア処理サーバ装置３０に転送する。音声合成サービスとは、メールやチャット、ＩＭなどにより送信したテキストメッセージに音声合成を施し、音声メッセージとして送信先に配信するサービスであり、契約によりこのサービスに予め加入している通信端末１０から（または通信端末１０へ）送信されたメッセージについてのみ音声メッセージの作成と配信が実行される。

メディア処理サーバ装置３０は、ネットワークＮに接続されており、このネットワークＮを介して通信端末１０と接続される。図には示さないが、メディア処理サーバ装置３０は、ＣＰＵ、主記憶装置であるＲＡＭ及びＲＯＭ、通信を行うための通信モジュール、並びにハードディスク等の補助記憶装置等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が協働することにより、後述するメディア処理サーバ装置３０の機能が実現される。

図３に示すように、メディア処理サーバ装置３０は、送受信部３０１と、テキスト解析部３０２と、音声データ合成部３０３と、音声メッセージ作成部３０４と、音声合成用データ記憶部３０５とを備える。

送受信部３０１は、メッセージサーバ装置２０よりテキストメッセージを受信すると、これをテキスト解析部３０２へ転送する。また、送受信部３０１は、音声メッセージ作成部３０４より音声合成されたメッセージを受信すると、これをメッセージサーバ装置２０へ転送する。

テキスト解析部３０２は、送受信部３０１よりテキストメッセージを受信すると、その文字または文字列や添付画像から、テキストの内容の感情を示す感情情報を抽出し、抽出した感情情報に基づいて、感情の種別を推測により判定する。そして、音声合成の対象となるテキストデータとともに判定した感情の種別を示す情報を音声データ合成部３０３へ出力する。
具体的には、テキスト解析部３０２は、メールなどに個別に添付された絵文字画像や、顔文字（感情記号）から感情を判断する。また、テキスト解析部３０２は、「楽しい」、「悲しい」、「うれしい」などの感情を表現する単語からも、そのテキストの感情の種別を認識する。

より詳細には、テキスト解析部３０２は、判定単位ごとにテキストの感情の種別を判定する。本実施形態では、テキストメッセージにおけるテキスト中の句点（文の終わりを示す終止符。日本語の場合には「。」、英語の場合にはピリオド「．」）または空白を検出することにより句点または空白ごとにテキストを区切って、この判定単位とする。

次に、テキスト解析部３０２は、その判定単位のなかに出現した絵文字画像、顔文字、単語からその判定単位を表現する感情を示す感情情報を抽出して感情判定を行う。具体的には、テキスト解析部３０２は、上記感情情報として、絵文字画像のなかでは感情画像、全ての顔文字、および感情を表す単語を抽出する。このため、メディア処理サーバ装置３０の図示せぬメモリには、絵文字辞書、顔文字辞書、および感情を表す単語の辞書が記憶されている。各顔文字辞書および絵文字辞書には、顔文字と絵文字のそれぞれについて対応する単語の文字列が記憶されている。

顔文字や絵文字画像では実に多様な種類の感情の感情表現が可能なので、文章で表現するよりも、顔文字や絵文字画像の方が簡単に且つ的確に感情を表現できる場合が多い。このため、特にメール（特に携帯電話のメール）やチャット、ＩＭなどのテキストメッセージの送信者は、顔文字や絵文字画像に依存して自らの感情を表現する傾向がある。本実施形態では、メールやチャット、ＩＭなどのテキストメッセージの感情判定をする際に、顔文字や絵文字画像を用いる構成としたので、メッセージの送信者自らが指定した感情そのものに基づいて感情を判定することになる。よって、文章に含まれる単語のみで感情判定を行う場合と比較して、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。

１判定単位中に複数の感情情報が出現した場合は、テキスト解析部３０２は、各感情情報について感情の種別を判定したうえで、判定した感情の種別の出現数をカウントし最も多い感情を選択するか、判定単位の末尾または判定単位の終点に最も近い位置に出現する絵文字、顔文字、または単語の感情を選択するように構成してもよい。
なお、判定単位の区切り方法としては、テキストが書かれている言語の特性に応じて、判定単位の区切りを切り替えて適宜設定するのがよい。また、感情情報として抽出する単語についても、言語に応じて適宜設定するのがよい。
以上のように、テキスト解析部３０２は、受信したテキストメッセージの判定単位ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部として機能する。

さらに、テキスト解析部３０２は、判定単位に区分したテキストに形態素解析(morphological analysis)等を施すことにより、さらに短い合成単位に区分する。合成単位は、音声合成処理（speech synthesis processing or text-to-speech processing）の際の基準単位である。テキスト解析部３０２は、判定単位内のテキストを示すテキストデータを、合成単位に分割したうえで、判定単位全体の感情判定の結果を示す情報とともに音声データ合成部３０３に送信する。なお、判定単位のテキストデータに顔文字が含まれている場合には、当該顔文字を構成する文字列を、対応する単語の文字列に置換したうえで１合成単位として音声データ合成部３０３に送信する。また、同様に、絵文字画像が含まれている場合にも、当該絵文字画像を、対応する単語の文字列に置換したうえで１合成単位として音声データ合成部３０３に送信する。これらの置換は、メモリに記憶されている顔文字辞書および絵文字辞書を参照することにより実行される。

テキストメッセージには、絵文字画像や顔文字が文の必須の構成要素となっている場合（例えば、「今日は［雨を表す絵文字］です。」）と、ある単語の文字列の直後に同じ意味の絵文字や顔文字が挿入されている場合（例えば、「今日は雨［雨を表す絵文字］です。」）がある。後者の場合には、上記置換をした際に、「雨」の文字列の後に「雨」に対応する絵文字画像に対応する文字列が挿入されることになる。このため、連続する２つの合成単位の文字列が同一または略同一である場合には、一方を削除したうえで、音声データ合成部３０３に送信するようにしてもよい。あるいは、絵文字画像または顔文字を含む判定単位内に、当該絵文字画像または顔文字と同一の意味を有する単語が含まれているか否かを探索し、含まれている場合には絵文字または顔文字を文字列に置換せずに削除するようにしてもよい。

音声データ合成部３０３は、音声合成するテキストデータとともにその判定単位に該当する感情の種別を示す情報をテキスト解析部３０２から受け取る。音声データ合成部３０３は、合成単位ごとに、受け取ったテキストデータおよび感情情報に基づいて、感情の種別に該当する音声合成用データを、音声合成用データ記憶部３０５中の通信端末１０ａ用のデータから検索し、そのまま該当する音声が登録されている場合にはその音声合成用データを読み出して利用する。

また、合成単位のテキストデータにそのまま該当する感情の音声合成用データが無い場合には、音声データ合成部３０３は、比較的近い単語の音声合成用データを読み出してこれを利用して音声データを合成する。判定単位内のすべての合成単位の各テキストデータについて音声合成が終了すると、音声データ合成部３０３は、合成単位ごとの音声データを連結して、判定単位全体の音声データを生成する。

ここで、比較的近い単語とは、発音が部分的に一致する単語であり、例えば、「楽しかった（tanoshi-katta）」や「楽しむ（tanoshi-mu）」に対する「楽しい（tanoshi-i）」がこれに該当する。すなわち、「楽しい（tanoshi-i）」という単語に対応する音声合成用データは登録されているが、「楽しかった（tanoshi-katta）」や「楽しむ（tanoshi-mu）」のように日本語の活用語尾が変化した形態の単語に対応する音声合成用データが登録されていないと判断された場合には、「楽しかった（tanoshi-katta）」または「楽しむ（tanoshi-mu）」の語幹である「楽し（tanoshi-）」までについては登録された音声合成用データを引用し、「楽しかった（tanoshi-katta）」の「かった（-katta）」や「楽しむ（tanoshi-mu）」の「む（-mu）」を、同じ感情の種別の別の単語から引用して、「楽しかった（tanoshi-katta）」または「楽しむ（tanoshi-mu）」という言葉を合成する。絵文字や顔文字の場合にも、対応する文字列が登録されていない場合には、同様に比較的近い単語を引用して音声データを合成することができる。

図４は、音声合成用データ記憶部３０５で管理されるデータを示す。データは、通信端末ＩＤ、メールのアドレス、チャットのＩＤ、またはＩＭのＩＤなどのユーザ識別子と関連づけられて、ユーザごとに管理される。図４の例では、ユーザ識別子として通信端末ＩＤが用いられており、通信端末１０ａ用データ３０５１が例として示されている。通信端末１０ａ用データ３０５１は、通信端末１０ａのユーザ本人の声の音声データであり、図示のように、感情ごとに分類せずに登録されている音声データ３０５１ａと感情ごとのデータ部分３０５１ｂに分かれて管理される。感情ごとのデータ部分３０５１ｂは、感情ごとに分類された音声データ３０５２と感情ごとのパラメータ３０５３とを有する。

感情ごとに分類せずに登録されている音声データ３０５１ａは、登録された音声データを所定の区分単位（例えば、文節）に区切って、特に感情を区別することなく登録された音声データである。感情ごとのデータ部分に登録されている音声データ３０５１ｂは、登録された音声データを所定の区分単位に区切って、感情の種別ごとに分類して登録された音声データである。なお、音声合成サービスの対象となる言語が日本語以外の言語の場合には、文節の代わりに、その言語に適した区分単位を適宜用いて音声データを登録しておくのがよい。

音声データの登録は、音声合成サービスに加入している通信端末１０について、（ｉ）通信端末１０とメディア処理サーバ３０とがネットワークＮを介して接続された状態で、ユーザが通信端末１０に向かって音声を発してメディア処理サーバ装置３０に録音する方法、（ii）通信端末１０間の通話内容を複製して、メディア処理サーバ３０に記憶する方法、（iii）音声認識ゲームにおいてユーザが音声入力した単語を通信端末１０で記憶し、ゲーム終了後にネットワークを介してメディア処理サーバ３０に転送して記憶する方法などが考えられる。

音声データの分類は、（ｉ）メディア処理サーバ装置３０にユーザごと感情ごとの記憶領域を設けておき、通信端末１０から受信する感情の分類の指示にしたがって、該当する感情の記憶領域に、分類の指示以降に発せられた音声のデータを登録する方法、（ii）感情ごとに分類するためのテキスト情報による辞書を予め用意しておき、サーバが音声認識を実行し、各感情に該当する単語が発生した場合に、サーバで自動的に分類する方法などが考え得る。

このように、本実施形態においては、音声合成用データをメディア処理サーバ装置３０に記憶するため、データメモリ容量などに制限がある通信端末１０に音声合成用データを記憶する場合と比較して、音声合成用データとして記憶可能なユーザの数またはユーザあたりの音声合成用データの登録数を増加させることができる。よって、合成される感情表現のバリエーションが増加し、合成精度が向上する。すなわち、より高品質の音声合成データを生成することが可能となる。

また、従来の端末装置では、音声通話時に、通話相手の音声特徴データ（音声合成用データ）を学習して登録するため、メールの送信者本人の声を用いて音声合成することが可能なメッセージは、端末装置のユーザがその発信者と音声で通話したことがある場合に限られていた。しかしながら、本実施形態によれば、テキストメッセージの受け取り側の通信端末１０（例えば、通信端末１０ｂ）が、メッセージを送信した通信端末１０（例えば、通信端末１０ａ）と実際に音声通話したことがない場合でも、メディア処理サーバ装置３０に通信端末１０ａのユーザの音声合成用データが記憶されてさえいれば、通信端末１０ａのユーザ本人の声を用いて合成された音声メッセージを受け取ることができる。

感情ごとのデータ部分３０５１ｂは、さらに、感情ごとに分類された音声データ３０５２と、感情ごとに登録されている音声データの平均的なパラメータ３０５３とを有する。感情ごとのデータ部分３０５２は、感情ごとに分類せずに登録されている音声データが感情ごとに分類されて格納されたデータである。

なお、本実施形態では、一つのデータが感情による分類の有無により重複して登録されることとなる。したがって、実際の音声データは登録された音声データ３０５１ａの領域に登録しておき、感情ごとのデータ領域３０５１ｂでは、登録された音声データのテキスト情報と実際に登録されている音声データの領域へのポインタ（アドレス、番地）などを記憶しておくようにしても良い。より具体的には、「楽しい」という音声データが、登録された音声データ３０５１ａの領域のアドレス１００番地に格納されているとすると、感情ごとのデータ領域３０５１ｂでは、「楽しみのデータ」領域中に「楽しい」というテキスト情報を記憶し、その実際の音声データの格納先として１００番地のアドレスを記憶しておくように構成してもよい。

パラメータ３０５３には、通信端末１０ａのユーザについて、該当する感情に対応する音声パターン（話し方）を表現するためのパラメータとして、声の大きさ、声の速さ(tempo)、韻律(prosody, rhythm)、声の周波数などが設定されている。

音声データ合成部３０３は、判定単位の音声合成が終了すると、音声合成用データ記憶部３０５に記憶された、該当する感情のパラメータ３０５３に基づいて、合成された音声データを調整（加工）する。最終的に合成された、判定単位の音声データは再度各感情のパラメータと照合し、全体的に、登録されているパラメータに従った音声データになっているかどうかを確認する。
上記確認が完了すると、音声データ合成部３０３は、合成した音声データを音声メッセージ作成部３０４に送信する。以下テキスト解析部３０２より受け取る判定単位ごとのテキストデータに関して上記動作を繰り返す。

各感情のパラメータは、移動通信端末１０の各ユーザの音声パターンとして、感情の種別ごとに設定されており、図４のパラメータ３０５３に示すように、声の大きさ、速さ、韻律、周波数などがこれに該当する。また、各感情のパラメータを参照して合成された音声を調整するとは、韻律、声の速さなどを例えばその感情の平均的なパラメータに調整することをいう。音声合成時には、該当する感情の中から単語を選択し音声合成するため、合成された音声と音声のつなぎ目に違和感を感じる場合がある。したがって、韻律、声の速さなどを例えばその感情の平均的なパラメータに調整することで合成された音声と音声のつなぎ目における違和感を低減させることが可能となる。より具体的には、各感情に登録されている音声データからその音声データの、声の大きさ、速さ、韻律、周波数などの平均値を計算し、これを各感情をあらわす平均的なパラメータ（図４の３０５３）として登録しておく。音声データ合成部３０３は、この平均的なパラメータと合成された音声データの各値を比較して、大きく差がある場合にはより平均的なパラメータに近づくように合成した音声を調整する。なお、上記パラメータのうち、韻律は、判定単位内のテキストに対応する音声データ全体の声のリズム、強勢(stress)、抑揚（intonation）などを調整するために用いられる。

音声メッセージ作成部３０４は、音声データ合成部３０３より合成された判定単位ごとの音声データを全て受信すると、受信した音声データを連結して、テキストメッセージに対応する音声メッセージを作成する。作成した音声メッセージは送受信部３０１より、メッセージサーバ装置２０へ転送される。ここで音声データを連結するとは、例えば、テキストメッセージ内の文章が「ｘｘｘｘ［絵文字１］ｙｙｙｙ［絵文字２］」のような、２つの絵文字を挟んで構成されているときに、絵文字１より前の文章は、絵文字１が該当する感情で音声合成され、絵文字２の前の文章は絵文字２が該当する感情で音声合成され、最終的にそれぞれの感情で合成された音声データが１つの文章の音声メッセージとして出力されることを意味する。この場合、「ｘｘｘｘ［絵文字１］」、「ｙｙｙｙ［絵文字２］」は、上述した判定単位にそれぞれ該当する。

音声合成用データ記憶部３０５に記憶されているデータは、音声合成データを作成するために、音声データ合成部３０３により利用される。すなわち、音声合成用データ記憶部３０５は、音声データ合成部３０３へ音声合成用データおよびパラメータを提供する。

引き続いて、図５を参照して、本実施形態の音声合成メッセージシステムにおける処理を説明する。この処理は、通信端末１０ａ（第１の通信端末）から通信端末１０ｂ（第２の通信端末）へのテキストメッセージがメッセージサーバ装置２０を介して送信される過程において、メディア処理サーバ装置３０がテキストメッセージに対応する感情表現付きの音声メッセージを合成して音声メッセージとして通信端末１０ｂに送信されるまでの処理を示す。

通信端末１０ａは、通信端末１０ｂ向けにテキストメッセージを作成する（Ｓ１）。テキストメッセージの例としてはＩＭ、メール、チャットなどがある。

通信端末１０ａは、ステップＳ１で作成したテキストメッセージを、メッセージサーバ装置２０へ送信する（Ｓ２）。

メッセージサーバ装置２０は、通信端末１０ａよりメッセージを受信するとこれをメディア処理サーバ装置へ転送する（Ｓ３）。なお、メッセージサーバ装置２０は、メッセージを受信すると、まず、通信端末１０ａまたは通信端末１０ｂが音声合成サービスに加入しているか否か確認する。つまり、メッセージサーバ装置２０にて一旦契約情報を確認し、音声合成サービスに加入している通信端末１０からのまたは通信端末１０あてのメッセージである場合には、メッセージをメディア処理サーバ装置３０へ転送し、それ以外の場合は通常のテキストメッセージとして、通信端末１０ｂへそのまま転送する。テキストメッセージがメディア処理サーバ装置３０へ転送されない場合は、メディア処理サーバ装置３０はテキストメッセージの処理に関与せず、テキストメッセージは、通常のメール、チャット、ＩＭの送受信と同様に処理される。

メディア処理サーバ装置３０は、メッセージサーバ装置２０よりテキストメッセージを受信すると、そのメッセージ中の感情を判定する（Ｓ４）。

メディア処理サーバ装置３０は、受信したテキストメッセージをステップＳ４で判定された感情に従って、音声合成していく（Ｓ５）。

メディア処理サーバ装置３０は、音声合成された音声データを作成すると、メッセージサーバ装置２０から転送されたテキストメッセージに対応した音声メッセージを作成する（Ｓ６）。

メディア処理サーバ装置３０は、音声メッセージを作成すると、これをメッセージサーバ装置２０に返送する（Ｓ７）。このとき、メディア処理サーバ装置３０は、メッセージサーバ装置２０から転送されたテキストメッセージとともに合成した音声メッセージをメッセージサーバ装置２０へ返送する。具体的には、音声メッセージをテキストメッセージの添付ファイルとして送信する。

メッセージサーバ装置２０は、メディア処理サーバ装置３０より音声メッセージを受信すると、これをテキストメッセージとともに通信端末１０ｂへ送信する（Ｓ８）。

通信端末１０ｂは、メッセージサーバ装置２０より音声メッセージを受信すると、音声を再生する（Ｓ９）。受信したテキストメッセージは、メール用ソフトにより表示される。なお、この場合、ユーザから指示があった場合にのみ、テキストメッセージを表示するようにしてもよい。

変形例：
上記実施形態では、音声合成用データ記憶部３０５に音声データを文節ごとなどに区切って感情ごとに記憶する例を示したが、これに限定されるものではなく、例えば、音素ごとに細分して感情ごとに記憶するように構成してもよい。この場合、音声データ合成部３０３は、テキスト解析部３０２より音声合成するテキストデータとともにそのテキストに該当する感情を示す情報を受け取り、感情に該当する音声合成用データである音素を音声合成用データベース３０５中から読み出し、これを利用して音声を合成するように構成してもよい。

上述した実施形態では、句点や空白によりテキストを区切って判定単位としていたが、これに限られない。例えば、絵文字や顔文字は文の最後に挿入されることが多い。このため、絵文字や顔文字が含まれている場合には、絵文字または顔文字を文の区切りとみなし、判定単位としてもよい。また、絵文字または顔文字が単語の直後にあるいは単語の代わりに挿入されている場合もあるので、テキスト解析部３０２は、絵文字または顔文字が出現した場所から前方および後方に句点がある場所までを１判定単位としてもよい。あるいは、テキストメッセージ全体を判定単位としてもよい。

また、ある判定単位から感情情報が何も抽出されない場合が考えられる。その場合には、例えば、直前または直後の判定単位で抽出された感情情報に基づく感情判定の結果を用いて、テキストの音声合成を行ってもよい。さらには、テキストメッセージ内から感情情報が１つだけ抽出された場合には、その感情情報に基づく感情判定の結果を用いて、テキストメッセージ全体の音声合成を行ってもよい。

また、上記実施形態では、感情情報として抽出対象となる単語に特に制限は設けなかったが、抽出対象とする単語の一覧を予め用意しておき、この一覧にある単語が判定単位内に含まれている場合には、感情情報として抽出してもよい。この方法によれば、限られた感情情報だけを抽出して判定の対象とするので、判定単位内のテキスト全文について感情判定を行う方法と比較して、より簡易に感情判定を行うことが可能となる。よって、感情判定にかかる処理時間を短縮することができ、音声メッセージの配信をより迅速に行うことができる。また、メディア処理サーバ装置３０の処理負荷も少なくて済む。さらに、単語を感情情報の抽出対象から除く（すなわち、顔文字と絵文字画像のみを感情情報として抽出する）構成とすれば、処理時間がさらに短縮し、処理負荷がさらに低減される。

上述した実施形態では、通信端末ＩＤ、メールのアドレス、チャットのＩＤ、またはＩＭのＩＤをユーザ識別子として用いる場合について説明したが、単一のユーザが複数の通信端末ＩＤやメールアドレスを持っている場合がある。このため、ユーザを一意に識別するユーザ識別子を別個に設け、音声合成データをこのユーザ識別子に対応付けて管理するようにしてもよい。この場合には、通信端末ＩＤ、メールのアドレス、チャットのＩＤ、またはＩＭのＩＤ等にユーザ識別子を対応付けた対応表も併せて記憶しておくのがよい。

上述した実施形態では、メッセージサーバ装置２０は、テキストメッセージの送信側端末あるいは受信側端末が音声合成サービスに加入している場合にのみ、受信したテキストメッセージをメディア処理サーバ装置３０へ転送するようにしていたが、サービスの契約の有無に関わらず、全てのテキストメッセージをメディア処理サーバ装置３０へ転送するようにしてもよい。

１０，１０ａ，１０ｂ…通信端末
１０１…送受信部
１０２…テキストメッセージ作成部
１０３…音声メッセージ再生部
１０４…入力部
１０５…表示部
２０…メッセージサーバ装置
３０…メディア処理サーバ装置
３０１…送受信部
３０２…テキスト解析部（感情判定部）
３０３…音声データ合成部
３０４…音声メッセージ作成部
３０５…音声合成用データ記憶部
Ｎ…ネットワーク

Claims

複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置であって、
前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部と、
前記複数の通信端末のうち、第１の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部と、
前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記感情判定部で判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する感情表現付き音声データを合成する音声データ合成部と、
を具備することを特徴とするメディア処理サーバ装置。
前記感情判定部は、前記感情情報として、感情を複数の文字の組み合わせにより表現した感情記号を抽出した場合には、当該感情記号に基づいて感情の種別を判定する、
ことを特徴とする請求項１に記載のメディア処理サーバ装置。
前記感情判定部は、前記受信したテキストメッセージに、テキストに挿入されるべき画像が添付されている場合には、前記判定単位内のテキストに加えて、当該テキストに挿入されるべき画像も前記感情情報の抽出対象とし、前記感情情報として、感情を絵により表現した感情画像を抽出した場合には、当該感情画像に基づいて感情の種別を判定する、
ことを特徴とする請求項１または２に記載のメディア処理サーバ装置。
前記感情判定部は、前記判定単位内から抽出した感情情報が複数ある場合には、当該複数の感情情報の各々について感情の種別を判定し、判定した感情の種別のうち、最も出現数の多い感情の種別を判定結果として選択する、
ことを特徴とする請求項１から３のいずれか一項に記載のメディア処理サーバ装置。
前記感情判定部は、前記テキストメッセージ内の前記判定単位内から抽出した感情情報が複数ある場合には、前記判定単位の終点に最も近い位置に出現する感情情報に基づいて感情の種別を判定する
ことを特徴とする請求項１から３のいずれか一項に記載のメディア処理サーバ装置。
前記音声合成用データ記憶部は、前記複数の通信端末の各ユーザの音声パターンの特性を感情の種別ごとに設定するパラメータをさらに記憶し、
前記音声データ合成部は、合成した音声データを前記パラメータに基づいて調整する、
ことを特徴とする請求項１から５のいずれか一項に記載のメディア処理サーバ装置。
前記パラメータは、前記各ユーザについて前記感情毎に分類して記憶された音声合成用データの声の大きさの平均値、速さの平均値、韻律の平均値、および周波数の平均値の少なくとも１つである、
ことを特徴とする請求項６に記載のメディア処理サーバ装置。
前記音声データ合成部は、前記判定単位内のテキストを複数の合成単位に分解して、当該合成単位ごとに前記音声データの合成を実行し、
前記音声データ合成部は、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データに、前記感情判定部で判定した感情に対応する音声合成用データが含まれていない場合には、前記合成単位のテキストと発音が部分的に一致する音声合成用データを、前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データから選択して読み出す、
ことを特徴とする請求項１から７のいずれか一項に記載のメディア処理サーバ装置。
複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置におけるメディア処理方法であって、
前記メディア処理サーバ装置は、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部を具備しており、
前記方法は、
前記複数の通信端末のうち、第１の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する判定ステップと、
前記第１の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記判定ステップで判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する音声データを合成する合成ステップと、
を具備することを特徴とするメディア処理方法。