JPWO2009125710A1 - メディア処理サーバ装置およびメディア処理方法 - Google Patents

メディア処理サーバ装置およびメディア処理方法 Download PDF

Info

Publication number
JPWO2009125710A1
JPWO2009125710A1 JP2010507223A JP2010507223A JPWO2009125710A1 JP WO2009125710 A1 JPWO2009125710 A1 JP WO2009125710A1 JP 2010507223 A JP2010507223 A JP 2010507223A JP 2010507223 A JP2010507223 A JP 2010507223A JP WO2009125710 A1 JPWO2009125710 A1 JP WO2009125710A1
Authority
JP
Japan
Prior art keywords
emotion
voice
text
data
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010507223A
Other languages
English (en)
Inventor
慎一 磯部
慎一 磯部
薮崎 正実
正実 薮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2009125710A1 publication Critical patent/JPWO2009125710A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

メディア処理サーバ装置は、ユーザ識別子と関連づけて、音声合成用データを感情ごとに分類して記憶する音声合成用データ記憶部と、メッセージサーバ装置から受信したテキストメッセージからテキストの感情を判定するテキスト解析部と、判定した感情に対応し、且つ、テキストメッセージの送信者であるユーザのユーザ識別子と関連づけられた音声合成用データを用いてテキストに対する音声を合成して感情表現付き音声データを生成する音声データ合成部とを具備する。

Description

本発明は、テキストデータに基づいて音声メッセージを合成することが可能なメディア処理サーバ装置およびメディア処理方法に関する。
情報処理技術および通信技術の高度化により、電子メールに代表されるテキストを使用したメッセージ通信が広く利用されるようになった。このようなテキストを使用したメッセージ通信では、メッセージ中に絵文字(graphical emoticons)や複数の文字の組み合わせによる顔文字(text emoticons or face marks)を用いることで、メッセージの内容をより感情豊かに表現することが行われる。
また、従来、電子メールに含まれるメッセージを、発信者本人の声で感情のこもった読み上げを行う機能を持つ端末装置が知られている(例えば、特許文献1を参照)。
特許文献1に記載の端末装置は、通話中に得られた音声データから得られる音声特徴データを、感情毎に分類して電話番号やメールアドレスに対応付けて記憶しておく。さらに、その記憶されている通信相手からのメッセージを受信した時に、当該メッセージに含まれるテキストデータがいずれの感情であるかを判定して、メールアドレスと対応づけられた音声特徴データを用いて音声合成して読み上げが行われる。
特許第3806030号公報
しかしながら、上記従来の端末装置では、メモリ容量などの制限により、音声特徴データを登録できる通信相手の数または通信相手あたりの音声特徴データの登録数が限定的となるため、合成される感情表現のバリエーションが少なくなり合成精度が劣化するという問題があった。
本発明は、上述の事情を鑑みてなされたものであり、高品質、且つ、感情表現が豊かな音声メッセージを、テキストデータから合成することが可能なメディア処理サーバ装置およびメディア処理方法を提供することを目的とする。
本発明は、上記目的を達成するために、複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置であって、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部と、前記複数の通信端末のうち、第1の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位(determination unit)ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部と、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記感情判定部で判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する感情表現付き音声データを合成する音声データ合成部とを具備することを特徴とするメディア処理サーバ装置を提供する。
本発明に係るメディア処理サーバ装置においては、ユーザごとに感情の種類別に分類した音声合成用データを記憶しており、テキストメッセージの感情の種別の判定結果に応じて、当該テキストメッセージの送信者であるユーザの音声合成用データを用いて音声データを合成する。よって、送信者本人の声を用いて、感情のこもった音声メッセージを作成することが可能となる。さらに、音声合成用データを記憶する記憶部をメディア処理サーバ装置に設けたので、通信端末などの端末装置に当該記憶部を設ける場合と比較して、大量の音声合成用データを登録することが可能となる。よって、音声合成データを登録するユーザの数や、登録可能なユーザあたりの音声合成用データの数が増加するので、高品質、且つ、感情表現が豊かな音声メッセージを合成することが可能となる。すなわち、従来のように、端末装置に音声合成用データを登録しておく必要がなく、端末装置のメモリ容量を圧迫することがない。さらに、テキストメッセージの感情を判定する機能や、音声合成する機能も必要がなくなるので、端末装置の処理負荷が軽減される。
本発明の好適な態様として、前記感情判定部は、前記感情情報として、感情を複数の文字の組み合わせにより表現した感情記号を抽出した場合には、当該感情記号に基づいて感情の種別を判定する。感情記号は、例えば、顔文字であり、メッセージの送信者である通信端末のユーザに入力される。すなわち、感情記号はユーザが指定した感情を示す。よって、感情情報として感情記号を抽出し、当該感情記号に基づいて感情の種別を判定することにより、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。
本発明の別の好適な態様として、前記感情判定部は、前記受信したテキストメッセージに、テキストに挿入されるべき画像が添付されている場合には、前記判定単位内のテキストに加えて、当該テキストに挿入されるべき画像も前記感情情報の抽出対象とし、前記感情情報として、感情を絵により表現した感情画像を抽出した場合には、当該感情画像に基づいて感情の種別を判定する。感情画像は、例えば、絵文字画像であり、メッセージの送信者である通信端末のユーザに選択により入力される。すなわち、感情画像はユーザが指定した感情を示す。よって、感情情報として感情画像を抽出し、当該感情画像に基づいて感情の種別を判定することにより、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。
好ましくは、前記感情判定部は、前記判定単位内から抽出した感情情報が複数ある場合には、当該複数の感情情報の各々について感情の種別を判定し、判定した感情の種別のうち、最も出現数の多い感情の種別を判定結果として選択するようにしてもよい。この態様によれば、判定単位のなかに最も強く現れた感情を選択することが可能となる。
あるいは、前記感情判定部は、前記テキストメッセージ内の前記判定単位内から抽出した感情情報が複数ある場合には、前記判定単位の終点に最も近い位置に出現する感情情報に基づいて感情の種別を判定するようにしてもよい。この態様によれば、メッセージの送信者の感情のなかで、メッセージの送信時点により近い感情を選択することが可能となる。
本発明の好適な態様において、前記音声合成用データ記憶部は、前記複数の通信端末の各ユーザの音声パターンの特性を感情の種別ごとに設定するパラメータをさらに記憶し、前記音声データ合成部は、合成した音声データを前記パラメータに基づいて調整する。本態様においては、各ユーザについて記憶された感情の種類に応じたパラメータを用いて音声データを調整するので、ユーザの音声パターンの特性に合致した音声データが作成される。よって、送信者のユーザの個人的な音声の特徴を反映した音声メッセージを作成することが可能となる。
好ましくは、前記パラメータは、前記各ユーザについて前記感情毎に分類して記憶された音声合成用データの声の大きさの平均値、速さの平均値、韻律の平均値、および周波数の平均値の少なくとも1つとするようにしてもよい。この場合には、音声データを、各ユーザの声の大きさ、話す速度(テンポ)、韻律(抑揚、リズム、強勢)や、周波数(声の高さ)などに応じて調整する。よって、ユーザ本人の声の調子により近い音声メッセージを再現することが可能となる。
本発明の好適な態様において、前記音声データ合成部は、前記判定単位内のテキストを複数の合成単位に分解して、当該合成単位ごとに前記音声データの合成を実行し、前記音声データ合成部は、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データに、前記感情判定部で判定した感情に対応する音声合成用データが含まれていない場合には、前記合成単位のテキストと発音が部分的に一致する音声合成用データを、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データから選択して読み出す。本発明によれば、音声合成の対象であるテキストの文字列が音声合成用データ記憶部にそのまま記憶されていない場合でも、音声合成を行うことが可能となる。
さらに、本発明は、複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置におけるメディア処理方法であって、前記メディア処理サーバ装置は、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部を具備しており、前記方法は、前記複数の通信端末のうち、第1の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する判定ステップと、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記判定ステップで判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する音声データを合成する合成ステップとを具備することを特徴とするメディア処理方法を提供する。本発明によれば、上記メディア処理サーバ装置と同様の効果を達成することが可能である。
本発明によれば、高品質、且つ、感情表現が豊かな音声メッセージを、テキストデータから合成することが可能なメディア処理装置およびメディア処理方法を提供することが可能となる。
本発明の一実施形態に係るメディア処理サーバ装置を含む感情表現付き音声合成メッセージシステムの簡易構成図である。 本発明の一実施形態に係る通信端末の機能構成図である。 本発明の一実施形態に係るメディア処理サーバ装置の機能構成図である。 本発明の一実施形態に係る音声合成用データ記憶部において管理されるデータを説明するための図である。 本発明の一実施形態に係るメディア処理方法の流れを説明するためのシーケンスチャートである。
以下、図面を参照しながら本発明の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係るメディア処理サーバ装置を含む感情表現付き音声合成メッセージシステム(以下、単に「音声合成メッセージシステム」という)を示す。音声合成メッセージシステムは、複数の通信端末10(10a,10b)と、各通信端末間のテキストメッセージの送受信を可能とするメッセージサーバ装置20と、通信端末に関わるメディア情報を記憶・加工するメディア処理サーバ装置30と、各装置を接続するネットワークNとを備える。なお、説明の簡易のため、図1には2つの通信端末10のみを示したが、実際には、音声合成メッセージシステムは、多数の通信端末を含む。
ネットワークNは、通信端末10の接続先であり、通信端末10に対して通信サービスを提供する。例えば、携帯電話網がこれに該当する。
通信端末10は、無線または有線により中継装置(図示しない)を介してネットワークNに接続されており、同じく中継装置を介してネットワークNに接続する他の通信端末との間で通信を行うことが可能である。図には示さないが、通信端末10は、CPU(Central Processing Unit)、主記憶装置であるRAM(Random Access Memory)及びROM(Read Only Memory)、通信を行うための通信モジュール、並びにハードディスク等の補助記憶装置等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が協働することにより、後述する通信端末10の機能が実現される。
図2は、通信端末10の機能構成図である。図2に示すように、通信端末10は、送受信部101と、テキストメッセージ作成部102と、音声メッセージ再生部103と、入力部104と、表示部105とを備える。
送受信部101は、テキストメッセージ作成部102よりテキストメッセージを受信すると、これをネットワークNを介してメッセージサーバ装置20へ送信する。ここで、テキストメッセージとは、例えばメール、チャットまたはIM(Instant Message)がこれに該当する。また、送受信部101はメディア処理サーバ装置30において音声合成された音声メッセージをネットワークNを介してメッセージサーバ装置20より受信すると、これを音声メッセージ再生部103へ転送する。また、テキストメッセージを受信すると、これを表示部105に転送する。
入力部104は、タッチパネルやキーボードがこれに該当し、入力された文字をテキストメッセージ作成部102に送信する。また、入力部104は、テキストに挿入すべき絵文字(graphical emoticon)画像が選択により入力されると、入力された絵文字画像をテキストメッセージ作成部102に送信する。絵文字画像の選択に際しては、当該通信端末10の図示せぬメモリに記憶された絵文字辞書が表示部105に表示され、通信端末10のユーザは、入力部104を操作することにより、表示された絵文字画像の中から所望の画像を選択することが可能である。この絵文字辞書としては、例えば、ネットワークNの通信事業者が提供する固有の絵文字辞書がある。「絵文字画像」は、感情を絵で表現した感情画像、および事象や物などを絵で表現した非感情画像を含む。感情画像としては、顔の表情変化により感情を示す表情感情画像や、例えば、「怒り」を示す爆弾画像や「喜び」や「好意」を示すハート画像のように絵自体から感情を推測可能な非表情感情画像がある。非感情画像としては、天気を示す太陽や傘の画像、スポーツの種類を示すボールやラケットなどの画像がある。
また、入力された文字は、文字の組み合わせ(文字列)により感情を表わす顔文字(感情記号)を含む場合がある。顔文字(text emoticon)は、コンマ、コロン、ハイフンなどの句読点(punctuation characters)、アスタリスクやアットマーク(at sign)などの記号、および一部のアルファベット(「m」や「T」)などを組み合わせた文字列により感情を示すものである。代表的な顔文字としては、笑顔(happy face)を示す「:)」(コロンが目でかっこが口)、怒った顔(angry face)を示す「>:(」、泣いた顔(crying face)を示す「T_T」などがある。絵文字の場合と同様に、当該通信端末10の図示せぬメモリには顔文字辞書が記憶されており、通信端末10のユーザは、顔文字辞書から読み出されて表示部105に表示された顔文字の中から、入力部104を操作することにより、所望の顔文字を選択することが可能である。
テキストメッセージ作成部102は、入力部104より入力された文字および顔文字からテキストメッセージを作成し、これを送受信部101へ転送する。また、テキストに挿入すべき絵文字画像が入力部104より入力され、当該テキストメッセージ作成部102に送信されると、当該絵文字画像を添付画像とするテキストメッセージを作成して送受信部101へ転送する。このとき、テキストメッセージ作成部102は、絵文字画像の挿入位置を示す挿入位置情報を生成し、テキストメッセージに添付して送受信部101に転送する。絵文字画像が複数添付されている場合には、各絵文字画像について、この挿入位置情報が生成される。ここで、テキストメッセージ作成部102とは、通信端末10に搭載される、メール、チャット、IMのソフトウェアがこれに該当する。ただし、ソフトウェアに限定されるものではなく、ハードウェアで構成されてもよい。
音声メッセージ再生部103は、送受信部101より音声メッセージを受信するとこれを再生する。ここで、音声メッセージ再生部103とは、音声エンコーダ、スピーカーがこれに該当する。また、表示部105は、送受信部101よりテキストメッセージを受信するとこれを表示する。テキストメッセージに絵文字画像が添付されている場合には、挿入位置情報によって指定された位置に絵文字画像を挿入した状態で、テキストメッセージが表示される。表示部105は、例えば、LCD(Liquid Crystal Display)などであり、受信したテキストメッセージの他に、各種情報を表示することが可能である。
通信端末10は、移動通信端末がその代表例であるが、これに限るものではなく、例えば音声通話可能なパーソナルコンピュータや、SIP(Session Initiation Protocol)電話なども適用可能である。なお、本実施形態では、通信端末10は移動通信端末であるものとして説明する。この場合、ネットワークNは移動通信網であり、上述の中継装置は基地局である。
メッセージサーバ装置20は、メール、チャット、IM用のアプリケーションサーバプログラム等を実装したコンピュータ装置がこれに相当する。メッセージサーバ装置20は、通信端末10よりテキストメッセージを受信すると、送信元通信端末10が音声合成サービスに加入している場合には、受信したテキストメッセージを、メディア処理サーバ装置30に転送する。音声合成サービスとは、メールやチャット、IMなどにより送信したテキストメッセージに音声合成を施し、音声メッセージとして送信先に配信するサービスであり、契約によりこのサービスに予め加入している通信端末10から(または通信端末10へ)送信されたメッセージについてのみ音声メッセージの作成と配信が実行される。
メディア処理サーバ装置30は、ネットワークNに接続されており、このネットワークNを介して通信端末10と接続される。図には示さないが、メディア処理サーバ装置30は、CPU、主記憶装置であるRAM及びROM、通信を行うための通信モジュール、並びにハードディスク等の補助記憶装置等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が協働することにより、後述するメディア処理サーバ装置30の機能が実現される。
図3に示すように、メディア処理サーバ装置30は、送受信部301と、テキスト解析部302と、音声データ合成部303と、音声メッセージ作成部304と、音声合成用データ記憶部305とを備える。
送受信部301は、メッセージサーバ装置20よりテキストメッセージを受信すると、これをテキスト解析部302へ転送する。また、送受信部301は、音声メッセージ作成部304より音声合成されたメッセージを受信すると、これをメッセージサーバ装置20へ転送する。
テキスト解析部302は、送受信部301よりテキストメッセージを受信すると、その文字または文字列や添付画像から、テキストの内容の感情を示す感情情報を抽出し、抽出した感情情報に基づいて、感情の種別を推測により判定する。そして、音声合成の対象となるテキストデータとともに判定した感情の種別を示す情報を音声データ合成部303へ出力する。
具体的には、テキスト解析部302は、メールなどに個別に添付された絵文字画像や、顔文字(感情記号)から感情を判断する。また、テキスト解析部302は、「楽しい」、「悲しい」、「うれしい」などの感情を表現する単語からも、そのテキストの感情の種別を認識する。
より詳細には、テキスト解析部302は、判定単位ごとにテキストの感情の種別を判定する。本実施形態では、テキストメッセージにおけるテキスト中の句点(文の終わりを示す終止符。日本語の場合には「。」、英語の場合にはピリオド「.」)または空白を検出することにより句点または空白ごとにテキストを区切って、この判定単位とする。
次に、テキスト解析部302は、その判定単位のなかに出現した絵文字画像、顔文字、単語からその判定単位を表現する感情を示す感情情報を抽出して感情判定を行う。具体的には、テキスト解析部302は、上記感情情報として、絵文字画像のなかでは感情画像、全ての顔文字、および感情を表す単語を抽出する。このため、メディア処理サーバ装置30の図示せぬメモリには、絵文字辞書、顔文字辞書、および感情を表す単語の辞書が記憶されている。各顔文字辞書および絵文字辞書には、顔文字と絵文字のそれぞれについて対応する単語の文字列が記憶されている。
顔文字や絵文字画像では実に多様な種類の感情の感情表現が可能なので、文章で表現するよりも、顔文字や絵文字画像の方が簡単に且つ的確に感情を表現できる場合が多い。このため、特にメール(特に携帯電話のメール)やチャット、IMなどのテキストメッセージの送信者は、顔文字や絵文字画像に依存して自らの感情を表現する傾向がある。本実施形態では、メールやチャット、IMなどのテキストメッセージの感情判定をする際に、顔文字や絵文字画像を用いる構成としたので、メッセージの送信者自らが指定した感情そのものに基づいて感情を判定することになる。よって、文章に含まれる単語のみで感情判定を行う場合と比較して、メッセージの送信者の感情をより的確に反映した判定結果を得ることが可能となる。
1判定単位中に複数の感情情報が出現した場合は、テキスト解析部302は、各感情情報について感情の種別を判定したうえで、判定した感情の種別の出現数をカウントし最も多い感情を選択するか、判定単位の末尾または判定単位の終点に最も近い位置に出現する絵文字、顔文字、または単語の感情を選択するように構成してもよい。
なお、判定単位の区切り方法としては、テキストが書かれている言語の特性に応じて、判定単位の区切りを切り替えて適宜設定するのがよい。また、感情情報として抽出する単語についても、言語に応じて適宜設定するのがよい。
以上のように、テキスト解析部302は、受信したテキストメッセージの判定単位ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部として機能する。
さらに、テキスト解析部302は、判定単位に区分したテキストに形態素解析(morphological analysis)等を施すことにより、さらに短い合成単位に区分する。合成単位は、音声合成処理(speech synthesis processing or text-to-speech processing)の際の基準単位である。テキスト解析部302は、判定単位内のテキストを示すテキストデータを、合成単位に分割したうえで、判定単位全体の感情判定の結果を示す情報とともに音声データ合成部303に送信する。なお、判定単位のテキストデータに顔文字が含まれている場合には、当該顔文字を構成する文字列を、対応する単語の文字列に置換したうえで1合成単位として音声データ合成部303に送信する。また、同様に、絵文字画像が含まれている場合にも、当該絵文字画像を、対応する単語の文字列に置換したうえで1合成単位として音声データ合成部303に送信する。これらの置換は、メモリに記憶されている顔文字辞書および絵文字辞書を参照することにより実行される。
テキストメッセージには、絵文字画像や顔文字が文の必須の構成要素となっている場合(例えば、「今日は[雨を表す絵文字]です。」)と、ある単語の文字列の直後に同じ意味の絵文字や顔文字が挿入されている場合(例えば、「今日は雨[雨を表す絵文字]です。」)がある。後者の場合には、上記置換をした際に、「雨」の文字列の後に「雨」に対応する絵文字画像に対応する文字列が挿入されることになる。このため、連続する2つの合成単位の文字列が同一または略同一である場合には、一方を削除したうえで、音声データ合成部303に送信するようにしてもよい。あるいは、絵文字画像または顔文字を含む判定単位内に、当該絵文字画像または顔文字と同一の意味を有する単語が含まれているか否かを探索し、含まれている場合には絵文字または顔文字を文字列に置換せずに削除するようにしてもよい。
音声データ合成部303は、音声合成するテキストデータとともにその判定単位に該当する感情の種別を示す情報をテキスト解析部302から受け取る。音声データ合成部303は、合成単位ごとに、受け取ったテキストデータおよび感情情報に基づいて、感情の種別に該当する音声合成用データを、音声合成用データ記憶部305中の通信端末10a用のデータから検索し、そのまま該当する音声が登録されている場合にはその音声合成用データを読み出して利用する。
また、合成単位のテキストデータにそのまま該当する感情の音声合成用データが無い場合には、音声データ合成部303は、比較的近い単語の音声合成用データを読み出してこれを利用して音声データを合成する。判定単位内のすべての合成単位の各テキストデータについて音声合成が終了すると、音声データ合成部303は、合成単位ごとの音声データを連結して、判定単位全体の音声データを生成する。
ここで、比較的近い単語とは、発音が部分的に一致する単語であり、例えば、「楽しかった(tanoshi-katta)」や「楽しむ(tanoshi-mu)」に対する「楽しい(tanoshi-i)」がこれに該当する。すなわち、「楽しい(tanoshi-i)」という単語に対応する音声合成用データは登録されているが、「楽しかった(tanoshi-katta)」や「楽しむ(tanoshi-mu)」のように日本語の活用語尾が変化した形態の単語に対応する音声合成用データが登録されていないと判断された場合には、「楽しかった(tanoshi-katta)」または「楽しむ(tanoshi-mu)」の語幹である「楽し(tanoshi-)」までについては登録された音声合成用データを引用し、「楽しかった(tanoshi-katta)」の「かった(-katta)」や「楽しむ(tanoshi-mu)」の「む(-mu)」を、同じ感情の種別の別の単語から引用して、「楽しかった(tanoshi-katta)」または「楽しむ(tanoshi-mu)」という言葉を合成する。絵文字や顔文字の場合にも、対応する文字列が登録されていない場合には、同様に比較的近い単語を引用して音声データを合成することができる。
図4は、音声合成用データ記憶部305で管理されるデータを示す。データは、通信端末ID、メールのアドレス、チャットのID、またはIMのIDなどのユーザ識別子と関連づけられて、ユーザごとに管理される。図4の例では、ユーザ識別子として通信端末IDが用いられており、通信端末10a用データ3051が例として示されている。通信端末10a用データ3051は、通信端末10aのユーザ本人の声の音声データであり、図示のように、感情ごとに分類せずに登録されている音声データ3051aと感情ごとのデータ部分3051bに分かれて管理される。感情ごとのデータ部分3051bは、感情ごとに分類された音声データ3052と感情ごとのパラメータ3053とを有する。
感情ごとに分類せずに登録されている音声データ3051aは、登録された音声データを所定の区分単位(例えば、文節)に区切って、特に感情を区別することなく登録された音声データである。感情ごとのデータ部分に登録されている音声データ3051bは、登録された音声データを所定の区分単位に区切って、感情の種別ごとに分類して登録された音声データである。なお、音声合成サービスの対象となる言語が日本語以外の言語の場合には、文節の代わりに、その言語に適した区分単位を適宜用いて音声データを登録しておくのがよい。
音声データの登録は、音声合成サービスに加入している通信端末10について、(i)通信端末10とメディア処理サーバ30とがネットワークNを介して接続された状態で、ユーザが通信端末10に向かって音声を発してメディア処理サーバ装置30に録音する方法、(ii)通信端末10間の通話内容を複製して、メディア処理サーバ30に記憶する方法、(iii)音声認識ゲームにおいてユーザが音声入力した単語を通信端末10で記憶し、ゲーム終了後にネットワークを介してメディア処理サーバ30に転送して記憶する方法などが考えられる。
音声データの分類は、(i)メディア処理サーバ装置30にユーザごと感情ごとの記憶領域を設けておき、通信端末10から受信する感情の分類の指示にしたがって、該当する感情の記憶領域に、分類の指示以降に発せられた音声のデータを登録する方法、(ii)感情ごとに分類するためのテキスト情報による辞書を予め用意しておき、サーバが音声認識を実行し、各感情に該当する単語が発生した場合に、サーバで自動的に分類する方法などが考え得る。
このように、本実施形態においては、音声合成用データをメディア処理サーバ装置30に記憶するため、データメモリ容量などに制限がある通信端末10に音声合成用データを記憶する場合と比較して、音声合成用データとして記憶可能なユーザの数またはユーザあたりの音声合成用データの登録数を増加させることができる。よって、合成される感情表現のバリエーションが増加し、合成精度が向上する。すなわち、より高品質の音声合成データを生成することが可能となる。
また、従来の端末装置では、音声通話時に、通話相手の音声特徴データ(音声合成用データ)を学習して登録するため、メールの送信者本人の声を用いて音声合成することが可能なメッセージは、端末装置のユーザがその発信者と音声で通話したことがある場合に限られていた。しかしながら、本実施形態によれば、テキストメッセージの受け取り側の通信端末10(例えば、通信端末10b)が、メッセージを送信した通信端末10(例えば、通信端末10a)と実際に音声通話したことがない場合でも、メディア処理サーバ装置30に通信端末10aのユーザの音声合成用データが記憶されてさえいれば、通信端末10aのユーザ本人の声を用いて合成された音声メッセージを受け取ることができる。
感情ごとのデータ部分3051bは、さらに、感情ごとに分類された音声データ3052と、感情ごとに登録されている音声データの平均的なパラメータ3053とを有する。感情ごとのデータ部分3052は、感情ごとに分類せずに登録されている音声データが感情ごとに分類されて格納されたデータである。
なお、本実施形態では、一つのデータが感情による分類の有無により重複して登録されることとなる。したがって、実際の音声データは登録された音声データ3051aの領域に登録しておき、感情ごとのデータ領域3051bでは、登録された音声データのテキスト情報と実際に登録されている音声データの領域へのポインタ(アドレス、番地)などを記憶しておくようにしても良い。より具体的には、「楽しい」という音声データが、登録された音声データ3051aの領域のアドレス100番地に格納されているとすると、感情ごとのデータ領域3051bでは、「楽しみのデータ」領域中に「楽しい」というテキスト情報を記憶し、その実際の音声データの格納先として100番地のアドレスを記憶しておくように構成してもよい。
パラメータ3053には、通信端末10aのユーザについて、該当する感情に対応する音声パターン(話し方)を表現するためのパラメータとして、声の大きさ、声の速さ(tempo)、韻律(prosody, rhythm)、声の周波数などが設定されている。
音声データ合成部303は、判定単位の音声合成が終了すると、音声合成用データ記憶部305に記憶された、該当する感情のパラメータ3053に基づいて、合成された音声データを調整(加工)する。最終的に合成された、判定単位の音声データは再度各感情のパラメータと照合し、全体的に、登録されているパラメータに従った音声データになっているかどうかを確認する。
上記確認が完了すると、音声データ合成部303は、合成した音声データを音声メッセージ作成部304に送信する。以下テキスト解析部302より受け取る判定単位ごとのテキストデータに関して上記動作を繰り返す。
各感情のパラメータは、移動通信端末10の各ユーザの音声パターンとして、感情の種別ごとに設定されており、図4のパラメータ3053に示すように、声の大きさ、速さ、韻律、周波数などがこれに該当する。また、各感情のパラメータを参照して合成された音声を調整するとは、韻律、声の速さなどを例えばその感情の平均的なパラメータに調整することをいう。音声合成時には、該当する感情の中から単語を選択し音声合成するため、合成された音声と音声のつなぎ目に違和感を感じる場合がある。したがって、韻律、声の速さなどを例えばその感情の平均的なパラメータに調整することで合成された音声と音声のつなぎ目における違和感を低減させることが可能となる。より具体的には、各感情に登録されている音声データからその音声データの、声の大きさ、速さ、韻律、周波数などの平均値を計算し、これを各感情をあらわす平均的なパラメータ(図4の3053)として登録しておく。音声データ合成部303は、この平均的なパラメータと合成された音声データの各値を比較して、大きく差がある場合にはより平均的なパラメータに近づくように合成した音声を調整する。なお、上記パラメータのうち、韻律は、判定単位内のテキストに対応する音声データ全体の声のリズム、強勢(stress)、抑揚(intonation)などを調整するために用いられる。
音声メッセージ作成部304は、音声データ合成部303より合成された判定単位ごとの音声データを全て受信すると、受信した音声データを連結して、テキストメッセージに対応する音声メッセージを作成する。作成した音声メッセージは送受信部301より、メッセージサーバ装置20へ転送される。ここで音声データを連結するとは、例えば、テキストメッセージ内の文章が「xxxx[絵文字1]yyyy[絵文字2]」のような、2つの絵文字を挟んで構成されているときに、絵文字1より前の文章は、絵文字1が該当する感情で音声合成され、絵文字2の前の文章は絵文字2が該当する感情で音声合成され、最終的にそれぞれの感情で合成された音声データが1つの文章の音声メッセージとして出力されることを意味する。この場合、「xxxx[絵文字1]」、「yyyy[絵文字2]」は、上述した判定単位にそれぞれ該当する。
音声合成用データ記憶部305に記憶されているデータは、音声合成データを作成するために、音声データ合成部303により利用される。すなわち、音声合成用データ記憶部305は、音声データ合成部303へ音声合成用データおよびパラメータを提供する。
引き続いて、図5を参照して、本実施形態の音声合成メッセージシステムにおける処理を説明する。この処理は、通信端末10a(第1の通信端末)から通信端末10b(第2の通信端末)へのテキストメッセージがメッセージサーバ装置20を介して送信される過程において、メディア処理サーバ装置30がテキストメッセージに対応する感情表現付きの音声メッセージを合成して音声メッセージとして通信端末10bに送信されるまでの処理を示す。
通信端末10aは、通信端末10b向けにテキストメッセージを作成する(S1)。テキストメッセージの例としてはIM、メール、チャットなどがある。
通信端末10aは、ステップS1で作成したテキストメッセージを、メッセージサーバ装置20へ送信する(S2)。
メッセージサーバ装置20は、通信端末10aよりメッセージを受信するとこれをメディア処理サーバ装置へ転送する(S3)。なお、メッセージサーバ装置20は、メッセージを受信すると、まず、通信端末10aまたは通信端末10bが音声合成サービスに加入しているか否か確認する。つまり、メッセージサーバ装置20にて一旦契約情報を確認し、音声合成サービスに加入している通信端末10からのまたは通信端末10あてのメッセージである場合には、メッセージをメディア処理サーバ装置30へ転送し、それ以外の場合は通常のテキストメッセージとして、通信端末10bへそのまま転送する。テキストメッセージがメディア処理サーバ装置30へ転送されない場合は、メディア処理サーバ装置30はテキストメッセージの処理に関与せず、テキストメッセージは、通常のメール、チャット、IMの送受信と同様に処理される。
メディア処理サーバ装置30は、メッセージサーバ装置20よりテキストメッセージを受信すると、そのメッセージ中の感情を判定する(S4)。
メディア処理サーバ装置30は、受信したテキストメッセージをステップS4で判定された感情に従って、音声合成していく(S5)。
メディア処理サーバ装置30は、音声合成された音声データを作成すると、メッセージサーバ装置20から転送されたテキストメッセージに対応した音声メッセージを作成する(S6)。
メディア処理サーバ装置30は、音声メッセージを作成すると、これをメッセージサーバ装置20に返送する(S7)。このとき、メディア処理サーバ装置30は、メッセージサーバ装置20から転送されたテキストメッセージとともに合成した音声メッセージをメッセージサーバ装置20へ返送する。具体的には、音声メッセージをテキストメッセージの添付ファイルとして送信する。
メッセージサーバ装置20は、メディア処理サーバ装置30より音声メッセージを受信すると、これをテキストメッセージとともに通信端末10bへ送信する(S8)。
通信端末10bは、メッセージサーバ装置20より音声メッセージを受信すると、音声を再生する(S9)。受信したテキストメッセージは、メール用ソフトにより表示される。なお、この場合、ユーザから指示があった場合にのみ、テキストメッセージを表示するようにしてもよい。
変形例:
上記実施形態では、音声合成用データ記憶部305に音声データを文節ごとなどに区切って感情ごとに記憶する例を示したが、これに限定されるものではなく、例えば、音素ごとに細分して感情ごとに記憶するように構成してもよい。この場合、音声データ合成部303は、テキスト解析部302より音声合成するテキストデータとともにそのテキストに該当する感情を示す情報を受け取り、感情に該当する音声合成用データである音素を音声合成用データベース305中から読み出し、これを利用して音声を合成するように構成してもよい。
上述した実施形態では、句点や空白によりテキストを区切って判定単位としていたが、これに限られない。例えば、絵文字や顔文字は文の最後に挿入されることが多い。このため、絵文字や顔文字が含まれている場合には、絵文字または顔文字を文の区切りとみなし、判定単位としてもよい。また、絵文字または顔文字が単語の直後にあるいは単語の代わりに挿入されている場合もあるので、テキスト解析部302は、絵文字または顔文字が出現した場所から前方および後方に句点がある場所までを1判定単位としてもよい。あるいは、テキストメッセージ全体を判定単位としてもよい。
また、ある判定単位から感情情報が何も抽出されない場合が考えられる。その場合には、例えば、直前または直後の判定単位で抽出された感情情報に基づく感情判定の結果を用いて、テキストの音声合成を行ってもよい。さらには、テキストメッセージ内から感情情報が1つだけ抽出された場合には、その感情情報に基づく感情判定の結果を用いて、テキストメッセージ全体の音声合成を行ってもよい。
また、上記実施形態では、感情情報として抽出対象となる単語に特に制限は設けなかったが、抽出対象とする単語の一覧を予め用意しておき、この一覧にある単語が判定単位内に含まれている場合には、感情情報として抽出してもよい。この方法によれば、限られた感情情報だけを抽出して判定の対象とするので、判定単位内のテキスト全文について感情判定を行う方法と比較して、より簡易に感情判定を行うことが可能となる。よって、感情判定にかかる処理時間を短縮することができ、音声メッセージの配信をより迅速に行うことができる。また、メディア処理サーバ装置30の処理負荷も少なくて済む。さらに、単語を感情情報の抽出対象から除く(すなわち、顔文字と絵文字画像のみを感情情報として抽出する)構成とすれば、処理時間がさらに短縮し、処理負荷がさらに低減される。
上述した実施形態では、通信端末ID、メールのアドレス、チャットのID、またはIMのIDをユーザ識別子として用いる場合について説明したが、単一のユーザが複数の通信端末IDやメールアドレスを持っている場合がある。このため、ユーザを一意に識別するユーザ識別子を別個に設け、音声合成データをこのユーザ識別子に対応付けて管理するようにしてもよい。この場合には、通信端末ID、メールのアドレス、チャットのID、またはIMのID等にユーザ識別子を対応付けた対応表も併せて記憶しておくのがよい。
上述した実施形態では、メッセージサーバ装置20は、テキストメッセージの送信側端末あるいは受信側端末が音声合成サービスに加入している場合にのみ、受信したテキストメッセージをメディア処理サーバ装置30へ転送するようにしていたが、サービスの契約の有無に関わらず、全てのテキストメッセージをメディア処理サーバ装置30へ転送するようにしてもよい。
10,10a,10b…通信端末
101…送受信部
102…テキストメッセージ作成部
103…音声メッセージ再生部
104…入力部
105…表示部
20…メッセージサーバ装置
30…メディア処理サーバ装置
301…送受信部
302…テキスト解析部(感情判定部)
303…音声データ合成部
304…音声メッセージ作成部
305…音声合成用データ記憶部
N…ネットワーク

Claims (9)

  1. 複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置であって、
    前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部と、
    前記複数の通信端末のうち、第1の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、当該判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する感情判定部と、
    前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記感情判定部で判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する感情表現付き音声データを合成する音声データ合成部と、
    を具備することを特徴とするメディア処理サーバ装置。
  2. 前記感情判定部は、前記感情情報として、感情を複数の文字の組み合わせにより表現した感情記号を抽出した場合には、当該感情記号に基づいて感情の種別を判定する、
    ことを特徴とする請求項1に記載のメディア処理サーバ装置。
  3. 前記感情判定部は、前記受信したテキストメッセージに、テキストに挿入されるべき画像が添付されている場合には、前記判定単位内のテキストに加えて、当該テキストに挿入されるべき画像も前記感情情報の抽出対象とし、前記感情情報として、感情を絵により表現した感情画像を抽出した場合には、当該感情画像に基づいて感情の種別を判定する、
    ことを特徴とする請求項1または2に記載のメディア処理サーバ装置。
  4. 前記感情判定部は、前記判定単位内から抽出した感情情報が複数ある場合には、当該複数の感情情報の各々について感情の種別を判定し、判定した感情の種別のうち、最も出現数の多い感情の種別を判定結果として選択する、
    ことを特徴とする請求項1から3のいずれか一項に記載のメディア処理サーバ装置。
  5. 前記感情判定部は、前記テキストメッセージ内の前記判定単位内から抽出した感情情報が複数ある場合には、前記判定単位の終点に最も近い位置に出現する感情情報に基づいて感情の種別を判定する
    ことを特徴とする請求項1から3のいずれか一項に記載のメディア処理サーバ装置。
  6. 前記音声合成用データ記憶部は、前記複数の通信端末の各ユーザの音声パターンの特性を感情の種別ごとに設定するパラメータをさらに記憶し、
    前記音声データ合成部は、合成した音声データを前記パラメータに基づいて調整する、
    ことを特徴とする請求項1から5のいずれか一項に記載のメディア処理サーバ装置。
  7. 前記パラメータは、前記各ユーザについて前記感情毎に分類して記憶された音声合成用データの声の大きさの平均値、速さの平均値、韻律の平均値、および周波数の平均値の少なくとも1つである、
    ことを特徴とする請求項6に記載のメディア処理サーバ装置。
  8. 前記音声データ合成部は、前記判定単位内のテキストを複数の合成単位に分解して、当該合成単位ごとに前記音声データの合成を実行し、
    前記音声データ合成部は、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データに、前記感情判定部で判定した感情に対応する音声合成用データが含まれていない場合には、前記合成単位のテキストと発音が部分的に一致する音声合成用データを、前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データから選択して読み出す、
    ことを特徴とする請求項1から7のいずれか一項に記載のメディア処理サーバ装置。
  9. 複数の通信端末間で送受信されるテキストメッセージに対応する音声を合成することにより音声メッセージを生成することが可能なメディア処理サーバ装置におけるメディア処理方法であって、
    前記メディア処理サーバ装置は、前記複数の通信端末の各ユーザを一意に識別するユーザ識別子と関連づけて、音声合成用データを感情の種別ごとに分類して記憶する音声合成用データ記憶部を具備しており、
    前記方法は、
    前記複数の通信端末のうち、第1の通信端末から送信されたテキストメッセージを受信すると、受信したテキストメッセージの判定単位ごとに、判定単位内のテキストから感情情報を抽出し、抽出した感情情報に基づいて感情の種別を判定する判定ステップと、
    前記第1の通信端末のユーザを示すユーザ識別子と関連づけられた音声合成用データのうち、前記判定ステップで判定した感情の種別に対応する音声合成用データを、前記音声合成用データ記憶部から読み出し、当該読み出した音声合成用データを用いて、前記判定単位のテキストに対応する音声データを合成する合成ステップと、
    を具備することを特徴とするメディア処理方法。
JP2010507223A 2008-04-08 2009-04-02 メディア処理サーバ装置およびメディア処理方法 Pending JPWO2009125710A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008100453 2008-04-08
JP2008100453 2008-04-08
PCT/JP2009/056866 WO2009125710A1 (ja) 2008-04-08 2009-04-02 メディア処理サーバ装置およびメディア処理方法

Publications (1)

Publication Number Publication Date
JPWO2009125710A1 true JPWO2009125710A1 (ja) 2011-08-04

Family

ID=41161842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010507223A Pending JPWO2009125710A1 (ja) 2008-04-08 2009-04-02 メディア処理サーバ装置およびメディア処理方法

Country Status (6)

Country Link
US (1) US20110093272A1 (ja)
EP (1) EP2267696A4 (ja)
JP (1) JPWO2009125710A1 (ja)
KR (1) KR101181785B1 (ja)
CN (1) CN101981614B (ja)
WO (1) WO2009125710A1 (ja)

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
EP2109302B1 (en) * 2008-04-07 2010-09-22 NTT DoCoMo, Inc. Emotion recognition message system and message storage server therefor
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110238406A1 (en) * 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
US10398366B2 (en) * 2010-07-01 2019-09-03 Nokia Technologies Oy Responding to changes in emotional condition of a user
KR101233628B1 (ko) 2010-12-14 2013-02-14 유비벨록스(주) 목소리 변환 방법 및 그를 적용한 단말 장치
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
KR101203188B1 (ko) * 2011-04-14 2012-11-22 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
CN102752229B (zh) * 2011-04-21 2015-03-25 东南大学 一种融合通信中的语音合成方法
US8954317B1 (en) * 2011-07-01 2015-02-10 West Corporation Method and apparatus of processing user text input information
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9191713B2 (en) * 2011-09-02 2015-11-17 William R. Burnett Method for generating and using a video-based icon in a multimedia message
WO2013085409A1 (ru) * 2011-12-08 2013-06-13 Общество С Ограниченной Ответственностью Базелевс-Инновации Способ анимации sms-сообщений
WO2013094982A1 (ko) * 2011-12-18 2013-06-27 인포뱅크 주식회사 정보처리 방법 및 시스템과 기록매체
WO2013094979A1 (ko) * 2011-12-18 2013-06-27 인포뱅크 주식회사 통신 단말 및 그 통신 단말의 정보처리 방법
CN104137096A (zh) * 2012-03-01 2014-11-05 株式会社尼康 电子设备
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
JP6003352B2 (ja) * 2012-07-30 2016-10-05 ブラザー工業株式会社 データ生成装置、及びデータ生成方法
JP2014130211A (ja) * 2012-12-28 2014-07-10 Brother Ind Ltd 音声出力装置、音声出力方法、およびプログラム
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
JP2014178620A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声処理装置
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10051120B2 (en) 2013-12-20 2018-08-14 Ultratec, Inc. Communication device and methods for use by hearing impaired
US10116604B2 (en) * 2014-01-24 2018-10-30 Mitii, Inc. Animated delivery of electronic messages
US9397972B2 (en) * 2014-01-24 2016-07-19 Mitii, Inc. Animated delivery of electronic messages
US10013601B2 (en) * 2014-02-05 2018-07-03 Facebook, Inc. Ideograms for captured expressions
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9747276B2 (en) 2014-11-14 2017-08-29 International Business Machines Corporation Predicting individual or crowd behavior based on graphical text analysis of point recordings of audible expressions
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11016534B2 (en) 2016-04-28 2021-05-25 International Business Machines Corporation System, method, and recording medium for predicting cognitive states of a sender of an electronic message
JP6465077B2 (ja) * 2016-05-31 2019-02-06 トヨタ自動車株式会社 音声対話装置および音声対話方法
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106571136A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种语音输出装置和方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10147415B2 (en) * 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
CN106710590B (zh) * 2017-02-24 2023-05-30 广州幻境科技有限公司 基于虚拟现实环境的具有情感功能的语音交互系统及方法
US10170100B2 (en) * 2017-03-24 2019-01-01 International Business Machines Corporation Sensor based text-to-speech emotional conveyance
JP6806619B2 (ja) * 2017-04-21 2021-01-06 株式会社日立ソリューションズ・テクノロジー 音声合成システム、音声合成方法、及び音声合成プログラム
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) * 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10650095B2 (en) 2017-07-31 2020-05-12 Ebay Inc. Emoji understanding in online experiences
JP7021488B2 (ja) * 2017-09-25 2022-02-17 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びプログラム
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
JP2019179190A (ja) * 2018-03-30 2019-10-17 株式会社フュートレック 音声変換装置、画像変換サーバ装置、音声変換プログラム及び画像変換プログラム
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
JP7179512B2 (ja) * 2018-07-10 2022-11-29 Line株式会社 情報処理方法、情報処理装置、及びプログラム
US10929617B2 (en) * 2018-07-20 2021-02-23 International Business Machines Corporation Text analysis in unsupported languages using backtranslation
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
KR20200036414A (ko) * 2018-09-28 2020-04-07 주식회사 닫닫닫 비동기적 인스턴트 메시지 서비스를 제공하기 위한 장치, 방법 및 컴퓨터 판독가능 저장 매체
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10902841B2 (en) * 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
KR20200101103A (ko) * 2019-02-19 2020-08-27 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
WO2020235696A1 (ko) * 2019-05-17 2020-11-26 엘지전자 주식회사 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
WO2020235712A1 (ko) * 2019-05-21 2020-11-26 엘지전자 주식회사 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
CN110189742B (zh) * 2019-05-30 2021-10-08 芋头科技(杭州)有限公司 确定情感音频、情感展示、文字转语音的方法和相关装置
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111354334B (zh) 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11594226B2 (en) * 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
WO2022178066A1 (en) * 2021-02-18 2022-08-25 Meta Platforms, Inc. Readout of communication content comprising non-latin or non-parsable content items for assistant systems

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512023A (ja) * 1991-07-04 1993-01-22 Omron Corp 感情認識装置
JPH09258764A (ja) * 1996-03-26 1997-10-03 Sony Corp 通信装置および通信方法、並びに情報処理装置
JP2000020417A (ja) * 1998-06-26 2000-01-21 Canon Inc 情報処理方法及び装置、その記憶媒体
JP2002041411A (ja) * 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP2004023225A (ja) * 2002-06-13 2004-01-22 Oki Electric Ind Co Ltd 情報通信装置およびその信号生成方法、ならびに情報通信システムおよびそのデータ通信方法
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005062289A (ja) * 2003-08-08 2005-03-10 Triworks Corp Japan データ表示サイズ対応プログラム、データ表示サイズ対応機能搭載携帯端末およびデータ表示サイズ対応機能支援サーバ
JP3806030B2 (ja) * 2001-12-28 2006-08-09 キヤノン電子株式会社 情報処理装置及び方法
JP2007241321A (ja) * 2004-03-05 2007-09-20 Nec Corp メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990452B1 (en) * 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
US6876728B2 (en) * 2001-07-02 2005-04-05 Nortel Networks Limited Instant messaging using a wireless interface
JP2006330958A (ja) * 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
US20070245375A1 (en) * 2006-03-21 2007-10-18 Nokia Corporation Method, apparatus and computer program product for providing content dependent media content mixing
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512023A (ja) * 1991-07-04 1993-01-22 Omron Corp 感情認識装置
JPH09258764A (ja) * 1996-03-26 1997-10-03 Sony Corp 通信装置および通信方法、並びに情報処理装置
JP2000020417A (ja) * 1998-06-26 2000-01-21 Canon Inc 情報処理方法及び装置、その記憶媒体
JP2002041411A (ja) * 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP3806030B2 (ja) * 2001-12-28 2006-08-09 キヤノン電子株式会社 情報処理装置及び方法
JP2004023225A (ja) * 2002-06-13 2004-01-22 Oki Electric Ind Co Ltd 情報通信装置およびその信号生成方法、ならびに情報通信システムおよびそのデータ通信方法
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005062289A (ja) * 2003-08-08 2005-03-10 Triworks Corp Japan データ表示サイズ対応プログラム、データ表示サイズ対応機能搭載携帯端末およびデータ表示サイズ対応機能支援サーバ
JP2007241321A (ja) * 2004-03-05 2007-09-20 Nec Corp メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム

Also Published As

Publication number Publication date
CN101981614B (zh) 2012-06-27
US20110093272A1 (en) 2011-04-21
EP2267696A1 (en) 2010-12-29
EP2267696A4 (en) 2012-12-19
KR101181785B1 (ko) 2012-09-11
CN101981614A (zh) 2011-02-23
WO2009125710A1 (ja) 2009-10-15
KR20100135782A (ko) 2010-12-27

Similar Documents

Publication Publication Date Title
WO2009125710A1 (ja) メディア処理サーバ装置およびメディア処理方法
US7570814B2 (en) Data processing device, data processing method, and electronic device
US9368102B2 (en) Method and system for text-to-speech synthesis with personalized voice
FI115868B (fi) Puhesynteesi
US20130086190A1 (en) Linking Sounds and Emoticons
JP2010519791A (ja) 通信ネットワーク、およびテキストから音声へ・テキストから顔の動画への変換装置
KR20090085376A (ko) 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치
US20060019636A1 (en) Method and system for transmitting messages on telecommunications network and related sender terminal
KR101200559B1 (ko) 모바일 인스턴트 메신저에서 플래시콘을 제공하는 시스템,장치 및 방법
JP3806030B2 (ja) 情報処理装置及び方法
JP4730114B2 (ja) メッセージ作成支援方法及び携帯端末
JP2007271655A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
JP2004023225A (ja) 情報通信装置およびその信号生成方法、ならびに情報通信システムおよびそのデータ通信方法
KR101916107B1 (ko) 통신 단말 및 그 통신 단말의 정보처리 방법
JP2002342234A (ja) 表示方法
JP2009110056A (ja) 通信装置
KR20040105999A (ko) 네트워크 기반 소리 아바타 생성 방법 및 시스템
KR100487446B1 (ko) 이동 통신 단말의 오디오 장치를 이용한 감정 표현 방법및 이를 위한 이동 통신 단말
JP4530016B2 (ja) 情報通信システムおよびそのデータ通信方法
JPH11175441A (ja) 通信情報認識方法及び装置
JP2006184921A (ja) 情報処理装置及び方法
JP2004362419A (ja) 情報処理装置および方法
JPH09258764A (ja) 通信装置および通信方法、並びに情報処理装置
JP2020141400A (ja) 通話制御装置、通話制御方法、音声変換のための文字入力装置、音声変換のための文字入力方法およびプログラム
JP2005216087A (ja) 電子メール受信装置及び電子メール送信装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130723