WO2023068067A1

WO2023068067A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023068067A1
Application number: PCT/JP2022/037498
Authority: WO
Inventors: 寛菜富永; 秀平宮崎; 裕美深谷; 丈松井; 正行佐賀野; 沙紀西原
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-18
Filing date: 2022-10-06
Publication date: 2023-04-27
Also published as: CN118103872A

Abstract

情報処理装置（１）は、感情認識部（１３）、表情出力部（１５）およびアバター合成部（１７）を有する。感情認識部（１３）は、音声波形に基づいて感情を認識する。表情出力部（１５）は、感情に応じた表情を出力する。アバター合成部（１７）は、出力された表情を示すアバターを合成する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　円滑なコミュニケーションを図る上で、表情、顔色、身振り、手振りなどの非言語的情報が果たす役割は大きい。アバターを用いたコミュニケーションでも同様のことが言える。スマートフォンには、アバターを生成するためのアプリが搭載されている。この種のアプリでは、モーションキャプチャで取得した情報に基づいてアバターが生成される。

国際公開第２０１７／１７５３５１号

　アバターの表情は、ユーザの表情を模して生成される。通常のコミュニケーションでは、ユーザの表情が大きく変動することは少ない。表情変化として現れるのは、せいぜい視線の移動や顔の向きなどの軽微な変化に留まる。そのため、豊かな感情表現をアバターに行わせることが難しい。

　そこで、本開示では、豊かな感情表現をアバターに行わせることが可能な情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、音声波形に基づいて感情を認識する感情認識部と、前記感情に応じた表情を出力する表情出力部と、前記表情を示すアバターを合成するアバター合成部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

コミュニケーション支援サービスの一例を示す図である。情報処理装置の機能構成の一例を示すブロック図である。感情の認識手法の一例を示す図である。行動の認識手法の一例を示す図である。表情・行動出力の一例を示す図である。表情・行動出力の一例を示す図である。表情・行動出力の一例を示す図である。アバター用のキャラクタの設定方法の一例を示す図である。背景の設定方法の一例を示す図である。コミュニケーション支援サービスがワンウェイコミュニケーションに適用される例を示す図である。コミュニケーション支援サービスがツーウェイコミュニケーションに適用される例を示す図である。情報処理装置のハードウェア構成例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．コミュニケーション支援サービスの概要］
［２．情報処理装置の構成］
［３．音声認識処理］
　［３－１．感情・行動認識］
　［３－２．表情・行動出力］
［４．キャラクタ設定］
［５．背景設定］
［６．システム構成例］
［７．ハードウェア構成例］
［８．効果］

［１．コミュニケーション支援サービスの概要］
　図１は、コミュニケーション支援サービスの一例を示す図である。

　コミュニケーション支援サービスは、アバターＡＢを用いたユーザＵ間のコミュニケーションを支援するサービスである。アバターＡＢの表情および行動は、音声認識によって取得されたユーザＵの感情ＥＭおよび興奮度（感情ＥＭの高ぶりの大きさ）に基づいて制御される。モーションキャプチャを用いてアバターＡＢの表情および行動を生成する場合に比べて豊かな感情表現が可能であるため、言葉だけでは伝わりにくい様々な情報をよりよく相手に伝えることができる。コミュニケーション支援サービスは、ワンウェイおよびツーウェイのコミュニケーションに適用される。

　コミュニケーション支援サービスは、図１に示すような情報処理装置１により実施される。情報処理装置１は、音声認識技術を用いて音声データＳＧ（図１０参照）から音声波形ＳＤ（図８参照）に関する音波情報、および、発言内容に関するテキスト情報を抽出する。情報処理装置１は、音声波形ＳＤから抽出された音波特徴量を感情データベースＥＤに適用し、ユーザＵの感情ＥＭを推定する。情報処理装置１は、音声波形ＳＤおよび発言内容に基づいて、発言時の興奮度を判定する。情報処理装置１は、感情ＥＭを示す表情を興奮度に応じて調整する。情報処理装置１は、調整後の表情をアバターＡＢの表情として決定する。

　情報処理装置１は、発言内容をジェスチャデータベースＪＤと照合し、発言時にユーザＵがどのようなジェスチャを行っているかを推測する。情報処理装置１は、発言内容から連想されるジェスチャを興奮度とともに行動データベースＡＤ（図２参照）に適用する。これにより、情報処理装置１は、興奮度を加味した行動ＡＣを推定する。情報処理装置１は、推定されたユーザＵの表情および行動ＡＣに基づいて、アバターＡＢの表情および行動を制御する。

　図１の例では、「やったー」という音声がユーザＵの端末で検出される。情報処理装置１は、ユーザＵの端末から取得した音声データＳＧから、公知の音声認識技術を用いて、音声波形ＳＤと「やったー」というテキスト情報を抽出する。

　情報処理装置１は、音声波形から喜びを示す感情ＥＭを抽出し、興奮度を「高」と判定する。情報処理装置１は、興奮度に応じて口角の位置などを調整した喜びの表情をアバターＡＢの表情として決定する。また、情報処理装置１は、「やったー」という発言内容から、ユーザＵがガッツポーズや万歳などをして喜んでいるシーンを推定する。情報処理装置１は、興奮度に応じて万歳のポーズを選択し、アバターＡＢの行動ＡＣとして出力する。

　なお、アバターＡＢは、人間であるとは限らない。犬や猫などをアバターＡＢのキャラクタとして用いることもできる。この場合、キャラクタの種類（人、犬、猫など）ごとに、表情の作り方や、ジェスチャを行うための体の動き（行動ＡＣ）は異なる。情報処理装置１は、キャラクタの種類ごとに異なる表情データベースＦＤおよび行動データベースＡＤを有する。

［２．情報処理装置の構成］
　図２は、情報処理装置１の機能構成の一例を示すブロック図である。

　情報処理装置１は、音声入力部１０、音声波形認識部１１、テキスト認識部１２、感情認識部１３、ジェスチャ認識部１４、表情出力部１５、行動出力部１６、アバター合成部１７、背景合成部１８および映像出力部１９を有する。

　音声入力部１０は、ユーザＵの端末から取得した音声データＳＧを音声波形認識部１１およびテキスト認識部１２に出力する。音声波形認識部１１は、音声データＳＧから音声波形ＳＤ（音波情報）を抽出する。テキスト認識部１２は、音声データＳＧからテキスト情報（発言内容）を抽出する。テキスト情報の抽出は、公知の音声認識技術を用いて行われる。

　感情認識部１３は、音声波形ＳＤおよび発言内容に基づいて、ユーザＵの感情および興奮度を認識する。感情や興奮度は、主に音声波形ＳＤ（声のトーンや音量など）に基づいて推定される。興奮度は、興奮時に発せられる独特の言い回しや単語の発現状況などによっても推定することができる。感情認識部１３は、音声波形ＳＤおよび発言内容から抽出された種々の特徴を感情データベースＥＤと照合することで、感情および興奮度を検出する。

　ジェスチャ認識部１４は、発言内容に基づいてジェスチャを認識する。ジェスチャには、無意識的なジェスチャと、発言と連動した意識的なジェスチャと、が含まれる。例えば、喜びを感じたときにガッツポーズをしたり、悲しいときに泣き崩れたりする動作は、無意識的なジェスチャである。「いまからおにぎりを食べます」という発言に連動しておにぎりを食べる行動は、意識的なジェスチャである。ジェスチャデータベースＪＤには、発言内容とジェスチャとの対応関係が規定されている。ジェスチャ認識部１４は、発言内容をジェスチャデータベースＪＤと照合することで、発言時のユーザＵのジェスチャを推定する。

　表情出力部１５は、感情ＥＭに応じた表情を出力する。人間には、楽しみ、嫌気、悲しみ、恐れおよび怒りなどの感情がある。それぞれの感情には、標準的な表情が割り当てられている。例えば、楽しみには、頬を上げ、眉毛や瞼を引き下げて目の下に皺を寄せた表情が割り当てられる。嫌気には、上唇を突き出し、眉毛を下げて、鼻孔の下から唇の両端まで皺を広げた表情が割り当てられる。悲しみには、視線を下に向け、上瞼を落とした表情が割り当てられる。恐れには、上瞼を上げ、顎を下げて口を開けた表情が割り当てられる。怒りには、眉を寄せて目を大きく開いた表情が割り当てられる。

　表情出力部１５は、感情ＥＭに割り当てられた標準的な表情を興奮度に応じて調整する。例えば、楽しみの感情ＥＭに対して強い興奮が検出された場合には、表情出力部１５は、頬の上り具合、眉毛および瞼の引き下げ具合、および、口角の上り具合などを調整する。悲しみの感情ＥＭに対して強い興奮度が検出された場合には、表情出力部１５は、口をあけて嘆くような表情を出力する。感情および興奮度と、表情と、の関係は表情データベースＦＤに規定されている。表情出力部１５は、感情ＥＭおよび興奮度を表情データベースＦＤと照合することで、感情ＥＭおよび興奮度を反映した表情を出力する。

　行動出力部１６は、ジェスチャに応じたアバターＡＢの行動ＡＣを出力する。行動出力部１６は、ジェスチャに応じた標準的な行動ＡＣを興奮度に応じて調整する。例えば、悲しみの感情ＥＭに対して強い興奮度（強い悲しみ）が検出された場合には、行動出力部１６は、膝を落としてがっくりうなだれるような行動ＡＣを出力する。ジェスチャおよび興奮度と、行動ＡＣと、の関係は行動データベースＡＤに規定されている。行動出力部１６は、ジェスチャおよび興奮度を行動データベースＡＤと照合することで、ジェスチャおよび興奮度を反映した行動ＡＣを出力する。

　アバター合成部１７は、アバターＡＢ用のキャラクタの３Ｄデータを取得する。キャラクタは、ユーザ入力情報に基づいて手動で選択されてもよいし、音声データＳＧに基づいて自動で選択されてもよい。アバター合成部１７は、キャラクタの３Ｄデータを用いて、表情出力部１５および行動出力部１６から取得した表情および行動ＡＣを示すアバターＡＢを合成する。

　背景合成部１８は、音声波形ＳＤおよび発言内容に基づいて推定されるシーンに応じた背景ＢＧ（図９参照）を合成する。例えば、雨の音（音声波形ＳＤ）に基づいて雨の背景ＢＧが設定される。「イタリア旅行に行きました」という発言内容に基づいて、イタリア市街の背景ＢＧが設定される。

　映像出力部１９は、アバターＡＢおよび背景ＢＧを含む映像ＶＤ（図１０参照）を出力する。映像出力部１９は、ミュート設定に基づいて、音声入力部１０が取得した音声データＳＧを映像ＶＤに含めるか否かを決定する。ミュート設定がＯＦＦの場合は、映像出力部１９は、音声波形ＳＤの抽出対象となった音声データＳＧを映像ＶＤに含めて出力する。ミュート設定がＯＮの場合は、映像出力部１９は、音声データＳＧを含まない映像ＶＤを出力する。

［３．音声認識処理］
［３－１．感情・行動認識］
　図３は、感情の認識手法の一例を示す図である。

　感情認識部１３は、音声波形ＳＤに基づいて感情ＥＭを認識する。例えば、感情認識部１３は、基本周波数（声のトーン）、音声の大きさ、発話の速度および交替潜時をそれぞれ音声パラメータとして決定する。感情認識部１３は、音声波形ＳＤから、個々の音声パラメータの値および時間変化に関する特徴を音波特徴量として抽出する。感情データベースＥＤには、音波特徴量と感情ＥＭとの対応関係が規定されている。感情認識部１３は、音声波形ＳＤから抽出された音波特徴量を感情データベースＥＤと照合することで、発言時のユーザＵの感情ＥＭを検出する。

　感情認識部１３は、音声波形ＳＤおよび発言内容に基づいてユーザＵの興奮度を認識する。例えば、感情認識部１３は、音声波形ＳＤおよび発言内容から、興奮時に現れる特定の単語の出現頻度、発話の速度、および、基本周波数の時間変化に関する特徴を付帯的特徴量として抽出する。感情データベースＥＤには、付帯的特徴量と興奮度との対応関係が規定されている。感情認識部１３は、音声波形ＳＤおよび発言内容から抽出された付帯的特徴量を感情データベースＥＤと照合することで、感情ＥＭに関する興奮度を検出する。

　なお、感情ＥＭおよび興奮度の分析アルゴリズムは、特定の閾値に基づくものでもよいし、機械学習が実施された学習モデルに基づくものでもよい。図３の例では、基本周波数、信号強度、発話の速度および交替潜時に基づいて感情ＥＭが推定された。しかし、感情推定の手法はこれに限られない。例えば、ＳＴ（Ｓｅｎｓｉｂｉｌｉｔｙ　Ｔｅｃｈｎｏｌｏｇｙ：ＡＧＩ社）などの公知の感情推定技術を用いて感情ＥＭが推定されてもよい。

　図４は、行動ＡＣの認識手法の一例を示す図である。

　図４には、「やあ」、「ばいばい」、「いらっしゃいませ」、「了解」、「いいね」、「びっくり！」、「悲しい」、「あはは」および「お願い」などの発言から認識される行動ＡＣの一例が示されている。図４に示す行動ＡＣは、ユーザＵの情動に起因して無意識的に行われる。例えば、「やあ」に対しては、手を上げて挨拶するジェスチャが連想される。「ばいばい」に対しては、手を振って別れを告げるジェスチャが連想される。ジェスチャデータベースＪＤには、発言内容とジェスチャとの対応関係が規定されている。ジェスチャ認識部１４は、発言内容をジェスチャデータベースＪＤと照合することで、発言時のユーザＵのジェスチャを認識する。

　行動データベースＡＤには、ジェスチャごとに行動の標準（標準的な体の動き）が規定されている。「やあ」、「ばいばい」、「いらっしゃいませ」、「了解」および「いいね」のように、興奮度によって行動ＡＣが変化しない場合には、行動出力部１６は、ジェスチャに割り当てられた標準的な行動をアバターＡＢの行動ＡＣとして出力する。「びっくり！」、「悲しい」、「あはは」および「お願い」にように、ジェスチャが興奮度に応じて変化する場合には、行動出力部１６は、ジェスチャに割り当てられた標準的な行動を興奮度に応じて調整する。

　例えば、「悲しい」という発言には、首を前に垂らして項垂れるジェスチャが割り当てられる。悲しみの大きさが標準レベル（興奮度が標準レベル）であれば、首を前に垂らす角度やスピードなどが標準値となるような標準的な行動がアバターＡＢの行動ＡＣとして出力される。悲しみが小さい（興奮度が小さい）場合には、項垂れる量（首を前に垂らす角度）やスピードが標準値よりも小さくなるような行動がアバターＡＢの行動として出力される。悲しみが大きい（興奮度が大きい）場合には、項垂れる量やスピードが標準値よりも大きい、または、泣き崩れるような行動がアバターＡＢの行動ＡＣとして出力される。

　お願いをする場面でも、それほど焦っていない場合には、手を合わせるだけであるが、焦りの感情が大きい場合には頭を下げて体全体でアピールするような行動ＡＣがとられる。行動データベースＡＤには、ジェスチャおよび興奮度と、行動ＡＣと、の対応関係が規定されている。行動出力部１６は、ジェスチャおよび興奮度を行動データベースＡＤと照合することで、ジェスチャおよび興奮度を反映した行動を出力する。

［３－２．表情・行動出力］
　図５ないし図７は、表情・行動出力の一例を示す図である。

　図５には、発言と連動して意識的に行われるジェスチャの例が示されている。図５の例では、アバターＡＢ－１とアバターＡＢ－２が会話している最中に、アバターＡＢ－１のユーザＵが「おにぎりがおいしい」と発言する。この発言に連動して、表情出力部１５は喜びの表情を出力し、行動出力部１６はおにぎりを食べる行動ＡＣを出力する。

　図６には、アバターＡＢの行動ＡＣの他の制御例が示されている。「音楽にのる」、「小さい音に耳をすます」および「大きい音に驚く」では、行動出力部１６は、音声波形ＳＤに基づいて、アップビートな曲が流れているシーン、音が聞き取りづらいシーン、および、急激な音量増加が生じたシーンを推定する。行動出力部１６は、音声波形ＳＤに基づいて推定されるシーンに応じた行動ＡＣを出力する。音声波形ＳＤに基づいて会話が途切れたシーンが検出された場合には、行動出力部１６は、瞬きをする、または、ときどき頷くなどの行動ＡＣを出力することができる。なお、話者を認識して新しいアバターＡＢを増やす、または、話していないアバターＡＢは画面から除去するなどの処理を行うこともできる。

　「うん」、「いや」および「なるほど」は、相槌として用いられる単語である。ジェスチャデータベースＪＤには、相槌に対応するジェスチャが記憶されている。行動出力部１６は、「うん」、「いや」および「なるほど」のジェスチャに対応した標準的な行動をアバターＡＢの行動として出力する。

　図７には、音声によってアバターＡＢの位置を移動させる例が示されている。図７の例では、アバターＡＢどうしの距離に応じて会話の音量が異なる。近くにいるアバターＡＢの声は大きく聞こえ、遠くにいるアバターＡＢらの声は小さく聞こえる。話したい相手がいる場合には、相手のアバターＡＢの近くまで自分のアバターＡＢを移動させる必要がある。ユーザＵは、自分のアバターＡＢを友人ＡのアバターＡＢに近づけたい場合には、友人Ａの名前を呼びかけたり、「友人Ａに話しかける」と発言したりする。ジェスチャ認識部１４は、ユーザＵの呼びかけ等に応じて、歩くまたは走るなどの移動を示すジェスチャを認識する。行動出力部１６は、歩くまたは走るなどのジェスチャに応じた行動ＡＣを出力する。

　なお、ユーザＵの端末をミュート状態にしても、音声認識処理がＯＮになっていれば、音声でアバターＡＢの表情や行動ＡＣを制御することができる。

［４．キャラクタ設定］
　図８は、アバターＡＢ用のキャラクタＣＨの設定方法の一例を示す図である。

　キャラクタＣＨは、音声データＳＧに基づいて自動で選択することができる。例えば、アバター合成部１７は、音声波形ＳＤに基づいて、ユーザの声質にあうキャラクタＣＨを推定する。アバター合成部１７は、推定されたキャラクタＣＨのデータを用いてアバターＡＢを生成する。

　例えば、アバター合成部１７は、アニメのキャラクタの音声波形を学習したキャラクタ分析モデルに音声波形ＳＤを当てはめる（ステップＳＡ２）。キャラクタ分析モデルは、音声波形ＳＤを入力すると、音声波形ＳＤに類似する声質を持つアニメのキャラクタを出力するように機械学習が行われている。

　アバター合成部１７は、音声波形ＳＤに類似する声質を持つ１以上のアニメのキャラクタをキャラクタ候補ＣＨＣとして検索する。アバター合成部１７は、ユーザ入力情報に基づいて選択された１つのキャラクタ候補ＣＨＣをアバターＡＢ用のキャラクタＣＨとして用いる（ステップＳＡ３～ＳＡ４）。

　図８の例では、ユーザＵと声質が似ている声優ＶＡが演じた複数のアニメのキャラクタがキャラクタ候補ＣＨＣとして提示されている。ユーザＵは、提示された１以上のキャラクタ候補ＣＨＣの中から好みのキャラクタ候補ＣＨＣを選択することができる。この際、感情表現に適したキャラクタＣＨを選択しやすいように、キャラクタ候補ＣＨＣに音声波形ＳＤに応じた表情を付与することができる。

　例えば、アバター合成部１７は、検索された１以上のキャラクタ候補ＣＨＣについて、それぞれ音声波形ＳＤに応じた表情を生成する。アバター合成部１７は、生成された１以上のキャラクタ候補ＣＨＣの表情を選択対象として提示する。ユーザＵは、キャラクタ候補ＣＨＣがアニメの中で演じている役柄を考慮し、表現しようとする感情とキャラクタ候補ＣＨＣの役柄との間に齟齬が生じないように、１以上のキャラクタ候補ＣＨＣの中から、１つのキャラクタ候補ＣＨＣをアバターＡＢ用のキャラクタＣＨとして選択する。アバター合成部１７は、選択されたキャラクタＣＨを用いてアバターＡＢを生成する。

［５．背景設定］
　図９は、背景ＢＧの設定方法の一例を示す図である。

　背景ＢＧは、音声データＳＧに基づいて自動で選択することができる。例えば、背景合成部１８は、音声波形ＳＤから環境音ＥＳを示す波形成分を抽出する。背景合成部１８は、抽出された波形成分に基づいて背景ＢＧを決定する。

　例えば、背景合成部１８は、音声波形認識部１１から音声波形ＳＤを取得する（ステップＳＢ１）。背景合成部１８は、公知の音源分離技術を用いて、音声波形ＳＤからユーザＵの声情報を取り除き、環境音ＥＳを示す波形成分のみを抽出する（ステップＳＢ２）。背景合成部１８は、環境音ＥＳと環境との対応関係を学習した環境分析モデルに音声波形ＳＤを当てはめる（ステップＳＢ３）。環境分析モデルは、環境音ＥＳを入力すると、環境音ＥＳが生成された環境を出力するように機械学習が行われている。

　背景合成部１８は、環境音ＥＳが生成された環境に類似する環境を示す１以上の背景を背景候補ＢＧＣとして検索する。背景合成部１８は、ユーザ入力情報に基づいて選択された１つの背景候補ＢＧＣをアバターＡＢ用の背景ＢＧとして用いる（ステップＳＢ４）。

［６．システム構成例］
　図１０および図１１は、コミュニケーション支援サービスのシステム構成例を示す図である。図１０は、コミュニケーション支援サービスがワンウェイコミュニケーションに適用される例を示す図である。図１１は、コミュニケーション支援サービスがツーウェイコミュニケーションに適用される例を示す図である。

　コミュニケーション支援サービスは、ワンウェイコミュニケーションおよびツーウェイコミュニケーションの双方に適用可能である。図１０の例では、送信者ＴであるユーザＵが情報処理装置１－Ａ（サーバ）に音声データＳＧを送信し、アバターＡＢの表情および行動を制御する。情報処理装置１－Ａは、送信者ＴのアバターＡＢを含む映像ＶＤを受信者Ｒに送信する。図１１の例では、情報処理装置１－Ｂ（サーバ）と接続された個々のユーザＵが送信者Ｔおよび受信者Ｒとなる。

　図１１の例では、各送受信者ＴＲは、ミュート設定により、自分の音声データＳＧを他の送受信者ＴＲに送信しないようにすることができる。例えば、ユーザＵは、ミュート設定をＯＮにすることで、音声データＳＧを含まない映像ＶＤを配信することができる。ミュート設定がＯＮになっている場合でも、ユーザＵの端末はマイクで取得した音声データＳＧを情報処理装置１－Ｂに送信する。情報処理装置１-Ｂは、受信した音声データＳＧに基づいて、ミュート設定をＯＮにしたユーザＵのアバターＡＢの表情および行動を制御する。これにより、音声データを他者に配信せずに、アバターＡＢの表情や行動を適切に制御することができる。

　例えば、ウェブ会議などでは、発言をする予定のないユーザＵは、自分の声が誤って会議に乗ってしまうことを避けるために、アプリ上で音声送信機能をＯＦＦにして会議の内容を聴くだけの状態に設定する場合がある（ミュート設定：ＯＮ）。この場合に、マイク（音声受信機能）を完全にＯＦＦにしてしまうと、アバターＡＢの表情および行動が制御できなくなる。そのため、ユーザＵの端末はミュート設定がＯＮの場合でもマイクをＯＮにし、マイクで取得した音声を情報処理装置１－Ｂに送信する。情報処理装置１－Ｂは、受信した音声データＳＧに基づいてユーザＵのアバターＡＢを生成し、映像ＶＤを配信するが、音声データＳＧ自体は他の送受信者ＴＲに配信しない。これにより、音声の誤送信を防止しながらアバターＡＢの制御を行うことが可能となる。

［７．ハードウェア構成例］
　図１２は、情報処理装置１のハードウェア構成例を示す図である。例えば情報処理装置１は、コンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ（各種データベースを含む）等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ-Ｏｐｔｉｃａｌ　ｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が情報処理装置１として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、上述した各種の機能を実現する。また、ＨＤＤ１４００には、コンピュータを情報処理装置１として機能させるためのプログラムが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［８．効果］
　情報処理装置１は、感情認識部１３、表情出力部１５およびアバター合成部１７を有する。感情認識部１３は、音声波形ＳＤに基づいて感情ＥＭを認識する。表情出力部１５は、感情ＥＭに応じた表情を出力する。アバター合成部１７は、出力された表情を示すアバターＡＢを合成する。本開示の情報処理方法は、情報処理装置１の処理がコンピュータ１０００により実行される。本開示のプログラムは、情報処理装置１の処理をコンピュータ１０００に実現させる。

　この構成によれば、声色を用いてアバターＡＢの表情を制御することができる。そのため、モーションキャプチャによって表情を生成する場合に比べて、豊かな感情表現をアバターＡＢに行わせることができる。

　感情認識部１３は、音声波形ＳＤおよび発言内容に基づいて興奮度を認識する。表情出力部１５は、興奮度を反映した表情を出力する。

　この構成によれば、興奮という内面的な情報がよりよく表情に反映される。

　情報処理装置１は、ジェスチャ認識部１４および行動出力部１６を有する。ジェスチャ認識部１４は、発言内容に基づいてジェスチャを認識する。行動出力部１６は、ジェスチャに応じたアバターＡＢの行動ＡＣを出力する。

　この構成によれば、モーションキャプチャで動作を生成する場合に比べて、ユーザＵの感情ＥＭをアバターＡＢの動作に反映させやすくなる。表情と行動ＡＣの双方にユーザの感情ＥＭが反映されるため、豊かな感情表現が可能となる。

　行動出力部１６は、興奮度を反映した行動ＡＣを出力する。

　この構成によれば、興奮という内面的な情報がよりよく行動ＡＣに反映される。

　行動出力部１６は、音声波形ＳＤに基づいて推定されるシーンに応じた行動ＡＣを出力する。

　この構成によれば、シーンに応じた適切な行動ＡＣをアバターＡＢに行わせることができる。

　情報処理装置１は、背景合成部１８を有する。背景合成部１８は、音声波形ＳＤまたは発言内容に基づいて推定されるシーンに応じた背景ＢＧを合成する。

　この構成によれば、背景ＢＧの映像を音声によって変更することができる。

　背景合成部１８は、音声波形ＳＤから環境音ＥＳを示す波形成分を抽出し、抽出された波形成分に基づいて背景ＢＧを決定する。

　この構成によれば、背景ＢＧとなる環境が精度よく再現される。

　背景合成部１８は、環境音ＥＳが生成された環境に類似する環境を示す１以上の背景を背景候補ＢＧＣとして検索する。背景合成部１８は、ユーザ入力情報に基づいて選択された１つの背景候補ＢＧＣをアバターＡＢ用の背景として用いる。

　この構成によれば、ユーザＵの好みを反映した適切な背景ＢＧが選択される。

　アバター合成部１７は、音声波形ＳＤに基づいて推定されるキャラクタＣＨのデータを用いてアバターＡＢを生成する。

　この構成によれば、ユーザＵの声質にあったアバターＡＢが提供される。

　アバター合成部１７は、音声波形ＳＤに類似する声質を持つ１以上のアニメのキャラクタをキャラクタ候補ＣＨＣとして検索する。アバター合成部１７は、ユーザ入力情報に基づいて選択された１つのキャラクタ候補ＣＨＣをアバターＡＢ用のキャラクタＣＨとして用いる。

　この構成によれば、ユーザＵの声質にあった好みのアニメのキャラクタがアバターＡＢとして用いられる。

　アバター合成部１７は、検索された１以上のキャラクタ候補ＣＨＣについてそれぞれ音声波形ＳＤに応じた表情を生成する。アバター合成部１７は、生成された１以上のキャラクタ候補ＣＨＣの表情を選択候補として提示する。

　この構成によれば、感情表現に適したキャラクタＣＨを選択しやすくなる。

　情報処理装置１は、映像出力部１９を有する。映像出力部１９は、アバターＡＢを含む映像ＶＤを出力する。映像出力部１９は、ミュート設定がＯＦＦの場合には、音声波形ＳＤの抽出対象となった音声データＳＧを映像ＶＤに含めて出力する。映像出力部１９は、ミュート設定がＯＮの場合には、音声データＳＧを含まない映像ＶＤを出力する。

　この構成によれば、ミュート設定をＯＮにすることで、音声データＳＧを他者に配信せずに、アバターＡＢの表情や行動を適切に制御することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［付記］
　なお、本技術は以下のような構成も採ることができる。
（１）
　音声波形に基づいて感情を認識する感情認識部と、
　前記感情に応じた表情を出力する表情出力部と、
　前記表情を示すアバターを合成するアバター合成部と、
　を有する情報処理装置。
（２）
　前記感情認識部は、前記音声波形および発言内容に基づいて興奮度を認識し、
　前記表情出力部は、前記興奮度を反映した前記表情を出力する、
　上記（１）に記載の情報処理装置。
（３）
　前記発言内容に基づいてジェスチャを認識するジェスチャ認識部と、
　前記ジェスチャに応じた前記アバターの行動を出力する行動出力部と、
　を有する上記（２）に記載の情報処理装置。
（４）
　前記行動出力部は、前記興奮度を反映した前記行動を出力する、
　上記（３）に記載の情報処理装置。
（５）
　前記行動出力部は、前記音声波形に基づいて推定されるシーンに応じた前記行動を出力する、
　上記（３）または（４）に記載の情報処理装置。
（６）
　前記音声波形または発言内容に基づいて推定されるシーンに応じた背景を合成する背景合成部を有する、
　上記（１）ないし（５）のいずれか１つに記載の情報処理装置。
（７）
　前記背景合成部は、前記音声波形から環境音を示す波形成分を抽出し、抽出された波形成分に基づいて前記背景を決定する、
　上記（６）に記載の情報処理装置。
（８）
　前記背景合成部は、前記環境音が生成された環境に類似する環境を示す１以上の背景を背景候補として検索し、ユーザ入力情報に基づいて選択された１つの背景候補を前記アバター用の背景として用いる、
　上記（７）に記載の情報処理装置。
（９）
　前記アバター合成部は、前記音声波形に基づいて推定されるキャラクタのデータを用いて前記アバターを生成する、
　上記（１）ないし（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記アバター合成部は、前記音声波形に類似する声質を持つ１以上のアニメのキャラクタをキャラクタ候補として検索し、ユーザ入力情報に基づいて選択された１つのキャラクタ候補を前記アバター用のキャラクタとして用いる、
　上記（９）に記載の情報処理装置。
（１１）
　前記アバター合成部は、検索された前記１以上のキャラクタ候補について、それぞれ前記音声波形に応じた表情を生成し、生成された前記１以上のキャラクタ候補の表情を選択候補として提示する、
　上記（１０）に記載の情報処理装置。
（１２）
　前記アバターを含む映像を出力する映像出力部を有し、
　前記映像出力部は、ミュート設定がＯＦＦの場合には、前記音声波形の抽出対象となった音声データを前記映像に含めて出力し、前記ミュート設定がＯＮの場合には、前記音声データを含まない前記映像を出力する、
　上記（１）ないし（１１）のいずれか１つに記載の情報処理装置。
（１３）
　音声波形に基づいて感情を認識し、
　前記感情に応じた表情を出力し、
　前記表情を示すアバターを合成する、
　ことを有する、コンピュータにより実行される情報処理方法。
（１４）
　音声波形に基づいて感情を認識し、
　前記感情に応じた表情を出力し、
　前記表情を示すアバターを合成する、
　ことをコンピュータに実現させるプログラム。

１　情報処理装置
１３　感情認識部
１４　ジェスチャ認識部
１５　表情出力部
１６　行動出力部
１７　アバター合成部
１８　背景合成部
１９　映像出力部
ＡＢ　アバター
ＡＣ　行動
ＢＧ　背景
ＢＧＣ　背景候補
ＣＨ　キャラクタ
ＣＨＣ　キャラクタ候補
ＥＭ　感情
ＥＳ　環境音
ＳＤ　音声波形

Claims

　音声波形に基づいて感情を認識する感情認識部と、
　前記感情に応じた表情を出力する表情出力部と、
　前記表情を示すアバターを合成するアバター合成部と、
　を有する情報処理装置。
　前記感情認識部は、前記音声波形および発言内容に基づいて興奮度を認識し、
　前記表情出力部は、前記興奮度を反映した前記表情を出力する、
　請求項１に記載の情報処理装置。
　前記発言内容に基づいてジェスチャを認識するジェスチャ認識部と、
　前記ジェスチャに応じた前記アバターの行動を出力する行動出力部と、
　を有する請求項２に記載の情報処理装置。
　前記行動出力部は、前記興奮度を反映した前記行動を出力する、
　請求項３に記載の情報処理装置。
　前記行動出力部は、前記音声波形に基づいて推定されるシーンに応じた前記行動を出力する、
　請求項３に記載の情報処理装置。
　前記音声波形または発言内容に基づいて推定されるシーンに応じた背景を合成する背景合成部を有する、
　請求項１に記載の情報処理装置。
　前記背景合成部は、前記音声波形から環境音を示す波形成分を抽出し、抽出された波形成分に基づいて前記背景を決定する、
　請求項６に記載の情報処理装置。
　前記背景合成部は、前記環境音が生成された環境に類似する環境を示す１以上の背景を背景候補として検索し、ユーザ入力情報に基づいて選択された１つの背景候補を前記アバター用の背景として用いる、
　請求項７に記載の情報処理装置。
　前記アバター合成部は、前記音声波形に基づいて推定されるキャラクタのデータを用いて前記アバターを生成する、
　請求項１に記載の情報処理装置。
　前記アバター合成部は、前記音声波形に類似する声質を持つ１以上のアニメのキャラクタをキャラクタ候補として検索し、ユーザ入力情報に基づいて選択された１つのキャラクタ候補を前記アバター用のキャラクタとして用いる、
　請求項９に記載の情報処理装置。
　前記アバター合成部は、検索された前記１以上のキャラクタ候補について、それぞれ前記音声波形に応じた表情を生成し、生成された前記１以上のキャラクタ候補の表情を選択対象として提示する、
　請求項１０に記載の情報処理装置。
　前記アバターを含む映像を出力する映像出力部を有し、
　前記映像出力部は、ミュート設定がＯＦＦの場合には、前記音声波形の抽出対象となった音声データを前記映像に含めて出力し、前記ミュート設定がＯＮの場合には、前記音声データを含まない前記映像を出力する、
　請求項１に記載の情報処理装置。
　音声波形に基づいて感情を認識し、
　前記感情に応じた表情を出力し、
　前記表情を示すアバターを合成する、
　ことを有する、コンピュータにより実行される情報処理方法。
　音声波形に基づいて感情を認識し、
　前記感情に応じた表情を出力し、
　前記表情を示すアバターを合成する、
　ことをコンピュータに実現させるプログラム。