WO2020170441A1

WO2020170441A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2020170441A1
Application number: PCT/JP2019/006855
Authority: WO
Inventors: 長坂　英夫
Original assignee: ソニー株式会社
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2020-08-27
Also published as: JPWO2020170441A1; US12002487B2; US20220165293A1

Abstract

【課題】キャラクタの感情を反映したより自然なモーションを割当てることが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　従来、ＣＧ（コンピュータグラフィックス）キャラクタ等を用いたアニメーション等の制作では、キャラクタの動作を再現するモーションデータを生成するには、高い専門性と長い制作時間を必要としていた。

　下記特許文献１では、ＣＧキャラクタによる手話アニメーションの生成において、入力したテキストに含まれる単語に対応した動作を定義したマクロデータのパラメータを調整することで、入力文章に対応した自然なモーション映像を生成する技術が開示されている。

特開２０１４－１０９９８８号公報

　しかしながら、同じ単語であっても、その時の発話者の感情によって動作が異なるように、予め単語に紐付けた一の動作を割当てるだけでは、キャラクタの発話と連動する動作として不十分といえる。

　本開示によれば、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、を含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラムを提案する。

本実施形態による情報処理装置の構成例を示すブロック図である。本実施形態による発話文の単語／文節に割り当てられるモーションについて説明する図である。本実施形態による発話文の単語／文節に対応する複数のモーションについて説明する図である。本実施形態による発話文の単語／文節に対応する一連のモーションについて説明する図である。本実施形態による親密度に応じた応答態度の種類選択について説明する図である。本実施形態による発話文に基づくキャラクタの感情の継続について説明する図である。本実施形態による名詞の「１番」に対応する感情別のモーションの一例を示す図である。本実施形態による時間経過や発話数に応じて感情の度合いが減衰する場合について説明する図である。本実施形態による時間経過や発話数に応じて感情の度合いを減衰させている際に同一の感情が再度発生した場合について説明する図である。本実施形態によるキャラクタの発話文から検出された単語に対応して感情度合いに応じて割り当てられるモーションの具体例について示す図である。本実施形態によるキャラクタの発話文から検出された単語に対応して、時制を考慮した感情度合いに応じて割り当てられるモーションの他の具体例について示す図である。本実施形態によるモーション生成システムの全体の流れの一例を示すフローチャートである。本実施形態によるシナリオ制御処理の一例を示すシーケンス図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による発話文に対応するモーション生成システムの概要
　２．情報処理装置２０の構成例
　３．動作処理
　（３－１．モーション生成処理）
　（３－２．シナリオ制御処理）
　４．まとめ

　＜１．本開示の一実施形態による発話文に対応するモーション生成システムの概要＞
　本実施形態は、キャラクタの発話音声に同期するキャラクタの動作（モーション）を生成するシステムである。動作対象としては、例えば２Ｄまたは３ＤのＣＧキャラクタ（画像）や、ロボット（実物体）等が想定される。

　しかしながら、予め生成されたキャラクタの発話文に対応するモーション（ＣＧキャラクタの場合はアニメーション）の生成に関し、発話全体に対応する動画として生成する方法の場合、限りなく工数が掛かり、制作者への負担が増大する。

　そこで、本実施形態によるモーション生成システムでは、発話文を解析し、検出された所定の単語や文節に応じて、予め生成されたモーションを選択し、自動的に割り振ることで、モーションの生成負担を軽減することを可能とする。例えば、「私とあなたですか」といった発話文の場合、自然言語処理により、下記のように単語分解され、それぞれの品詞が判定される。
・単語分解
　「私（代名詞）／と（格助詞）／あなた（代名詞）／です（助動詞）／か（終助詞）」

　この場合、本実施形態では、予め生成された、単語に応じたモーション情報に基づいて、図２に示すようなモーションを割当てることが可能となる。ここでは、例えば、代名詞の『私』の場合に割り当てる「手のひらをキャラクタ側に向けてキャラクタの体に軽くつける」動作のアニメーションと、代名詞の『あなた』の場合に割り当てる「キャラクタの体の前で手のひらを上に向けて手全体で相手を指す」動作のアニメーションと、『疑問』の意味で用いられる終助詞に割り当てる「頭を右に傾ける」動作のアニメーションとが予め生成され登録されている場合を想定する。この場合、図２に示すように、発話文の該当する単語が読み上げられる（キャラクタの発話音声が出力される）タイミングで（同期して）、各モーションが実行される。これにより、「私とあなたですか」といった発話文全体に対応する一連のアニメーションを生成する必要なく、各単語に対応するモーションを作成しておくことで、様々な文章に適宜対応することが可能となり、制作者への負担が軽減する。

　また、各単語に対応するモーションの作成では、品詞ごとに単語をグルーピングしてラベルをつけ、グループ毎にモーションを設定するようにしてもよい。モーションを発話語に割り当てる際は、発話語からラベルを参照し、ラベルに対応するモーションを参照する。また、モーションはキャラクタの身体の各部位毎に設定し、組み合わせて割り当てることで、モーション全体の作成数を減らすことができる。グループに対応するモーションの一例を、下記表１に示す。

　ここで、同じ単語や文節であっても、「楽しい時」と「悲しい時」では、発話中の人間の動作が変わる様に、単純に単語や文節に紐付けられた一の動作を割当てるだけではキャラクタの発話と連動する動作として不十分といえる。これに対し、本実施形態によるモーション生成システムでは、さらにキャラクタの感情を判定し、検出された所定の単語または文節と、判定された感情に応じて、キャラクタに割当てるモーションを選択することで、キャラクタの感情を反映したより自然なモーションを割当てることが可能となる。

　例えば、本システムでは、予め所定の単語または文節に対応するモーションを複数準備し、キャラクタの感情や感情の強度に応じて、適宜適切なモーションを選択して自動的に割り当てるようにする。以下、図３を参照して説明する。

　図３は、単語／文節に対応する複数のモーションの一例について示す図である。例えば「私は違います」といった発話文に含まれる「違います」（または、「違う」）に対応するモーションとして、「（１）手を体の前で左右に振る」動作（軽い否定）と、「（２）頭を左右に振る」動作（通常の否定）と、「（３）手を体の前で左右に振ると共に頭を左右に振る」動作（強い否定）と、といった３種類のモーションを予め生成し、キャラクタの感情や感情の強度（「否定」の強さ）に応じて選択するようにしてもよい。また、本システムでは、キャラクタの感情や感情の強度に応じて、複数のモーションを組み合わせて用いてもよい。例えば図３に示す（１）と（２）の動作だけを予め生成し、強い否定の場合は、（１）と（２）を組み合わせた（３）の動作をキャラクタに反映させるようにしてもよい。

　また、本システムでは、発話文の単語／文節に対応するモーションには、動作開始からポーズを取りポーズを辞めるといった一連の動作も想定される。この場合、対象の単語／文節が発話されるタイミングキャラクタにポーズを取らせることが望ましい。図４は、本実施形態による発話文の単語／文節に対応する一連のモーションについて説明する図である。図４に示すように、例えば「１番」という単語に対応するポーズのモーションがある場合、動作の開始は「１番」の発話少し前から始まり、「１番」と言い始めるタイミングでポーズが完成することが望ましい。また、ポーズが大きくなるとポーズの初めから終わりまである程度の時間が掛かり、単語発話区間で動作が終わらない場合もあるため、本システムでは、ポーズを辞め始めるタイミングを少しずらすようにしてもよい（「１番」と言い終わる前に辞め始めるなど）。

　以上、本開示の一実施形態による発話文に対応するモーション生成システムの概要について説明した。続いて、本実施形態による発話文に対応するモーション生成システムを実現する情報処理装置２０の構成について、図面を参照して説明する。

　＜２．情報処理装置２０の構成例＞
　図１は、本実施形態による情報処理装置２０の構成例を示すブロック図である。図１に示すように、情報処理装置２０は、制御部２００、通信部２１０、入力部２２０、出力部２３０、および記憶部２４０を有する。

　（２－１．制御部２００）
　制御部２００は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置２０内の動作全般を制御する。制御部２００は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２００は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部２００は、キャラクタ発話文解析部２０１、時制分析部２０２、感情表現抽出部２０３、感情判定部２０４、応答選択部２０５、所定単語・文節検出部２０７、モーション設定部２０８、発話パラメータ設定部２０９、シナリオ記述部２１１、ユーザ発話認識部２１４、シナリオ制御部２１５、およびキャラクタ制御部２１６としても機能する。

　（キャラクタ発話文解析部２０１）
　キャラクタ発話文解析部２０１は、予め生成されたシナリオデータ（シナリオデータ記憶部２４２参照）からキャラクタの発話文（テキスト）を取得し、単語や文節の抽出（形態素解析による単語の分解、品詞の判定など）、構文解析、意味解析などの自然言語処理を行う。ここで、シナリオデータとは、キャラクタの発話文（テキスト）を少なくとも含むデータである。キャラクタの発話は、例えば音声合成を利用してテキストを読み上げる機能である「ＴＴＳ（Text　To　Speech）」を用いて行われ得る。

　（時制分析部２０２）
　時制分析部２０２は、発話文の解析結果に基づいて、いつのことを話しているのか、その時制を分析する。例えば「過去形」の単語が用いられている場合は過去の話をしていると判定し、「現在形」の単語が用いられている場合は現在の話をしていると判定する。また、時制分析部２０２は、発話文に含まれる時期を示す単語（例えば、「さっき」、「昨日」、「１か月前」、「去年」、「すごく昔」、「明日」、「来週」、「来月」、「今」など）によって発話文の時制を判定してもよい。

　（感情表現抽出部２０３）
　感情表現抽出部２０３は、発話文の解析結果に基づいて、感情表現を抽出する。例えば、感情と、感情を表現する単語（共起単語）とを対応付けたテーブルを予め用意し（感情共起単語ＤＢ２４４参照）、発話文から抽出された単語から、感情表現を抽出する。例えば『喜び』の共起単語としては「楽しい、安い、うれしい」等が挙げられ、『焦り』の共起単語としては「ごめん、考える、苦しい」等が挙げられる。なお、予め設定する感情表現は特に限定しない。

　また、本実施形態において、「感情」の分類方法は特に限定しないが、例えば、Robert　Plutchikによる感情の輪に基づく８つの基本感情「喜び、信頼、心配、驚き、悲しみ、嫌悪、怒り、予測」と、基本感情２つの組み合わせからなる８つの応用感情「楽観、愛、従順、畏敬、悲観、後悔、軽蔑、攻撃」を用いてもよい。

　（感情判定部２０４）
　感情判定部２０４は、発話文の解析結果に基づいて、キャラクタの感情を判定する。具体的には、感情判定部２０４は、感情表現抽出部２０３による抽出結果を、キャラクタ感情の最終的な判定結果としてもよい。

　また、感情判定部２０４は、さらに時制分析部２０２による発話文の時制の分析結果を考慮して最終的な感情判定を行ってもよい。すなわち、時制によっては、感情の種類や度合いが変化する場合がある。例えば、人は過去の失敗談などの悲しい出来事（悲しい感情が発生した出来事）を笑い話として話す場合がある。このように過去の感情は例外を除いて時間が経つほど薄れたり変化したりするため、キャラクタの感情を判定する際も、時制に応じてその度合いを調整したり、感情を変化させることで、より自然なモーションを割当てることが可能となる。時制に応じた感情変化の一例を、下記表２に示す。

　また、感情判定部２０４は、以上説明したような時制に応じた感情度合いの変化や感情種類の変化を、その感情の発生時点と現在がどの程度時間的に離れているかに基づいて判定してもよい。

　また、感情判定部２０４は、昔の感情を思い出して現在も悲しくなっていることが発話文の意味解析（前後の文脈など）から判断できる場合は、例外として「現在」の時制で捉えるようにしてもよい。

　また、感情判定部２０４は、感情を表す言葉に「伝聞」や「推定」の表現が用いられている場合、キャラクタ自身の感情ではないため、感情の度合いや感情の種類を変化させてもよい。人は、他人など自分以外の人について話している際の感情表現（「○○さんに悲しいことがあったみたいだよ」、「どうしたの？悲しいの？」など）を行う際、必ずしも自分自身が同じ感情になるとは限らない。「○○さんに悲しいことがあったみたいだよ」と話しながら本人も悲しむこともあれば、単に伝聞として伝えるだけで平常な場合もあるし、好奇心などから楽しい気持ちになる場合もある。どのような感情になるかは、対象の人物との関係性（仲の良さ、顔見知りか否かなど）や、その人の性格などによって異なる。そこで、キャラクタの感情を発話文から判定する際も、「伝聞」や「推定」の表現が用いられている場合、感情度合いや感情種類を変化させるようにすることで、よりリアルな感情に応じたモーションを割当てることが可能となる。どのような時にどのような感情の変化が生じるかについては、キャラクタプロファイルとして、キャラクタ毎に予め設定されていてもよい。

　感情表現に「推定」が用いられている場合とは、例えば会話相手（ユーザなど）の心情を予測している場合などが想定される。

　ここで、感情を表す言葉に「伝聞」や「推定」の表現が用いられている場合の感情変化の一例を、下記表３に示す。

　（応答選択部２０５）
　キャラクタに応答態度が設定され、キャラクタとユーザとの親密度（関係性）が取得できる場合、応答選択部２０５は、キャラクタとユーザとの親密度（関係性）に応じて、キャラクタの応答態度を選択する。例えば、キャラクタとユーザが仲良くなって親密度が高くなる程（関係性が良くなる程）、同じ感情であっても、より良い応答態度（例えば、感情をオープンにした素直な態度など）でキャラクタを動作させることが可能となる。キャラクタとユーザとの親密度（関係性）の取得方法は特に限定しないが、例えば、キャラクタとユーザとの会話数または会話時間の蓄積や、会話の内容（相手への質問の回数など）、開始からの時間、シナリオの進行度合い等に応じて取得され得る。

　ここで、図５に、本実施形態による親密度に応じた応答態度の種類選択の一例について示す。応答種類の分布は、キャラクタ毎に設定されてもよい。

　図５に示すように、感情の良い／悪いを示す縦軸と、ユーザとキャラクタの関係性（親密度）の深い／浅いを示す横軸とで示されるグラフ上に、応答種類（普通応答、少し良い応答、少し悪い応答、すごく良い応答、少し良い応答、すごく悪い応答）がマッピングされる（かかるデータは、キャラクタのプロファイルとして予め設定され得る）。

　応答選択部２０５は、感情判定部２０４により判定された感情と、ユーザとキャラクタの親密度に応じて、応答種類を選択し得る。選択された応答種類は、後述するモーション設定部２０８におけるモーションの設定や、発話パラメータ設定部２０９における発話パラメータの設定で考慮され得る。例えば「普通応答」の場合は冷静な態度、「少し良い応答」の場合は多少感情を表現する態度、「少し悪い応答」の場合は少し怒っているが我慢もしている態度、「すごく良い応答」の場合は仲が良いので感情全開な態度、「少し良い応答」の場合は仲が良いのでいつも応答はよい態度、「すごく悪い応答」の場合は信頼しているため感情を出す態度になるよう、キャラクタの動作や発話を制御することが望ましい。

　（所定単語・文節検出部２０７）
　所定単語・文節検出部２０７は、発話文の解析結果に基づいて、所定の（モーションが予め生成された）単語または文節を検出する。具体的には、所定単語・文節検出部２０７は、キャラクタ発話文解析部２０１により分解された単語や文節と、モーション情報データベース２４６に記憶されたモーション情報（単語／文節に対応するモーションの情報）とを比較し、所定の単語や文節を検出する。この際、所定単語・文節検出部２０７は、単語の品詞や、文節に含まれる品詞の組み合わせも考慮して所定の単語や文節を検出する。検出する単語の品詞としては、例えば、動詞、名詞、形容詞、数詞＋助数詞、接続詞、感嘆詞、終助詞、副詞が挙げられる。また、検出される所定の単語には、感嘆符、擬音語、記号、決め台詞（キャラクタ特有のフレーズなど）も含まれ得る。また、所定単語・文節検出部２０７は、発話文において検出した所定の単語や文節の位置（発話開始からの経過時間であってもよいし、順番（何単語目など）であってもよい）を特定する。

　なお、本システムでは、接続詞、感嘆詞、終助詞、および感嘆符についてはデフォルトの動作を設定し、その他の品詞や決め台詞などについては、キャラクタ毎にカスタムした動作を設定するようにしてもよい。

　（モーション設定部２０８）
　モーション設定部２０８は、モーション情報を参照し、所定単語・文節検出部２０７により検出された所定の単語／文節に対応するモーションを設定する。また、本実施形態によるモーション設定部２０８は、さらに感情判定部２０４により判定された感情を考慮して、割当てるモーションを設定する。モーション情報では、予め所定の一の単語または文節に対して、一または複数のモーションが規定され、複数のモーションには、それぞれ望ましい感情が対応付けられている。

　ここで、感情判定部２０４により判定される感情は、その感情が発生してから一定時間（標準の読み上げスピードやシナリオの進行を考慮して経過時間を推定してもよい）、所定発話数分、または、次の感情が現れるまで継続しているとみなしてもよい。したがって、事前に生成されたシナリオの場合、シナリオ全体における各時点でのキャラクタの感情分析を予め行うことが可能である。以下、図６を参照して具体的に説明する。

　図６は、本実施形態による発話文に基づくキャラクタの感情の継続について説明する図である。図６に示すように、例えばキャラクタの発話文「超ハッピー！」に基づいて、感情判定部２０４により、『喜び』の感情が判定された場合、その後一定時間、所定発話数分、または次の感情が出現するまで（図６に示す例では、「ふざけんな（怒）」の発話文に基づいて『怒り』の感情が発生する）、『喜び』の感情が継続するとみなす。

　したがって、モーション設定部２０８は、例えば『喜び』の感情が継続している間において、発話文の単語／文節に対応するモーションを選択する場合、複数のモーションから、『喜び』の感情に対応付けられたモーションを選択する。

　ここで、モーション情報データベース２４６に格納されるモーション情報の一例を下記表２に示す。下記表４は、発話文中において名詞として用いられる「１番」という発話語に対応する感情毎のモーションの一例である。また、設定された各動作の一例を、図７に示す。

　この場合、モーション設定部２０８は、発話文から検出された「一番（品詞：名詞）」に対応するモーションとして、感情判定部２０４によりキャラクタ感情が「喜び」と判定されている場合は、「腕を上げてまっすぐ伸ばし、人差し指を立てる動作」（図７の左側に示す動作参照）を選択する。また、モーション設定部２０８は、発話文から検出された「一番（品詞：名詞）」に対応するモーションとして、感情判定部２０４によりキャラクタ感情が「信頼（弱）」と判定されている場合は、「胸の前で人差し指を立てる動作」（図７の右側に示す動作参照）を選択する。

　また、モーション情報データベース２４６に格納される他のモーション情報の一例を、下記表５に示す。下記表５は、発話文中において応答を表す感動詞として用いられる「うん」という発話語に対応する、感情毎のモーションの一例である。

　また、感情判定部２０４により判定される感情は、時間経過や発話数と共にその感情の度合いを減衰させてもよい。例えば図８に示すように、ある発話文に基づいて『喜び』の感情が発生した後、時間の経過（さらには発話数）に応じて『喜び』の感情度合いを減衰させ、ある閾値を下回った場合は、『平常』の感情と判定するようにしてもよい。例えば朝怒っていたキャラクタが夕方には機嫌が直っている状態となる。

　時間経過や発話数と共に感情の度合い（値）を減衰させている際に同一の感情が再度発生した場合は、再度値を設定し、改めて減衰を始めるようにしてもよい。例えば図９に示すように、あるキャラクタの発話文において、「超ハッピー！」という発話文から『喜び』の感情が発生し、時間経過や発話数と共に感情の度合いが減衰している際に、「ほんと幸せ」という発話文から『喜び』の感情が再度発生する場合、『喜び』の感情度合いの値が再度設定され、改めて減衰が開始される。

　次いで、図１０を参照して、キャラクタの発話文から検出された単語に対応して感情度合いに応じて割り当てられるモーションの具体例について説明する。

　図１０に示すように、例えばキャラクタの「超ハッピー！」という発話文に基づいてキャラクタの『喜び（強）』の感情が発生したと判定した場合は（例えば単語「ハッピー」（名詞）から『喜び』の感情、さらに、「超」（接頭辞、または形容詞）や感嘆符「！」からその感情強度が強いと判定される）、その後、時間経過や発話数と共に『喜び』の感情度合いが減衰する。次いで、次のキャラクタ発話文「１番だよ！」の『１番』に対応するモーションとして、モーション設定部２０８は、『喜び（強）』に対応する動作（例えば上記表４に例示するような「腕を上げてまっすぐ伸ばし、人差し指を立てる動作」）を選択する。また、さらに時間が経過した後のキャラクタ発話文「うん」に対応するモーションとしては、モーション設定部２０８は、『喜び（弱）』（感情度合いが減衰したため）に対応する動作（例えば上記表４に例示すような「腕を顔の位置まで上げて人差し指を立てる動作」）を選択する。

　また、続くキャラクタの「ふざけんな（怒）」という発話文に基づいてキャラクタの『怒り（強）』の感情が発生したと判定した場合は、その後、時間経過や発話数と共に『怒り』の感情度合いが減衰する。次いで、次のキャラクタ発話文「１番ってなによ」の『１番』に対応するモーションは、キャラクタ感情が『怒り（強）』の場合、例えば上記表４に例示する例では「無し」であるため、モーション設定部２０８は、キャラクタに動作を与えない。また、さらに時間が経過した後のキャラクタ発話文「うん」に対応するモーションとしては、キャラクタ感情が『怒り（弱）』（感情度合いが減衰したため）であるが、例えば上記表４に例示する例では「無し」であるため、モーション設定部２０８は、キャラクタに動作を与えない。そして、さらに時間が経過し、『怒り』の感情度合いが閾値を下回って「平常」となった状態における発話文「うん」に対応するモーションは、例えば上記表４に例示する例では、「頷く動作」となる。

　次に、図１１を参照して、本実施形態によるキャラクタの発話文から検出された単語に対応して、時制を考慮した感情度合いに応じて割り当てられるモーションの他の具体例について説明する。

　図１１に示すように、例えば発話文「超ハッピーだったよね」からは、『喜び』の感情と共に、時制が過去であるため感情度合いが弱まり、『喜び（弱）』と判定される。この場合、次の「１番だったよね」の発話文から「１番」に対応するモーションを選択する際、モーション設定部２０８は、『喜び（弱）』を考慮し、例えば、「腕を顔の位置まで上げて人差し指を立てる動作」を選択する。

　また、例えば発話文「なにそれふざけんなって思ったよ」からは、「ふざけんな」という単語により『怒り』が表現されるが、時制が過去であるため、感情の種類の変化が生じ、例えば、『喜び（弱）』と判定される。従って、次の「１番ってね」の発話文から「１番」に対応するモーションを選択する際、モーション設定部２０８は、『喜び（弱）』を考慮し、例えば、「腕を顔の位置まで上げて人差し指を立てる動作」を選択する。

　また、モーション設定部２０８は、応答選択部２０５により選択された応答種類に応じて、設定したモーションの強度を調整してもよい。例えば、キャラクタの感情が「喜び」にあって、関係性が深いため、「すごく良い応答」が選択された場合、発話語と感情に基づいて割当てたモーションの強度を強める。具体的には、例えば頷くモーションの場合に、より大きく頷かせたり（移動幅の調整）、より早く頷かせたり（移動速度の調整）することで、モーションの強度を強めることが可能となる。

　また、モーションの強度は、発話語に基づいて設定されてもよい。例えば「すごい」「とても」など、モーションを割当てた単語を、強調を表す単語（副詞、形容詞）が修飾している場合、モーション設定部２０８は、当該モーションを強める。どのような場合に、どの程度モーションの強度を強めるかのパラメータは、予め規定され得る。

　なお、モーション設定部２０８は、キャラクタによる曲紹介での楽曲名の発話、商品紹介での商品名の発話、店舗紹介での店名の発話など、名称（すなわち固有名詞）から所定の単語や文節が検出された場合は、これらの名称を発話している際にモーションを割り当てることは望ましくないため、モーション設定は行わないようにしてもよい。また、モーション設定部２０８は、所定の単語／文節に対応する複数のモーションの候補をユーザに提示し、ユーザにより選択されたモーションを割当てるようにしてもよい。例えば、モーション設定部２０８は、所定の単語／文節に対応する、感情毎に用意された１以上のモーションの候補を提示し、割当てるモーションを選択させることも可能である。

　（発話パラメータ設定部２０９）
　発話パラメータ設定部２０９は、感情判定部２０４により判定された感情や、応答選択部２０５により選択された応答種類に応じて、音声発話のパラメータ、具体的には、発話のテンポ（読み上げスピード）、声のトーン（声の高さ、声のタイプ）、音量などを設定する。

　また、発話パラメータ設定部２０９は、発話文の解析結果に応じて、例えば所定の感嘆符や副詞に基づき、発話パラメータを設定してもよい。

　所定の感嘆符や副詞に基づく調整は、発話パラメータの他、モーション設定部２０８におけるモーション設定でも行われ得る。ここで、所定の感嘆符や副詞に応じた発話パラメータやモーションの調整の一例を、下記表６に示す。

　また、終助詞に応じた発話パラメータやモーションの調整の一例を、下記表７に示す。なお、終助詞だけではどのような意図か不明な場合もあるため、感嘆符などの記号や、キャラクタの表情設定なども考慮して判定してもよい。

　（シナリオ記述部２１１）
　シナリオ記述部２１１は、単語／文節に割り当てたモーションを、対応する単語と同期させる記述を、シナリオに追加する。例えばシナリオ記述部２１１は、所定単語・文節検出部２０７により特定された、各単語／文節の位置（発話開始からの経過時間や、単語／文節の順番など）を参照し、モーションの組み立てを行うことが可能である。また、シナリオ記述部２１１は、設定された発話パラメータも、対応する単語の音声発話が行われる際に考慮されるよう、シナリオに記述する。例えば、ＴＴＳ機能により発話文が読み上げられる場合、当該発話文読み上げの際に考慮されるようパラメータを追加するようにしてもよい。

　以上説明したように、本システムでは、予め生成された発話文に対して、制作負担の軽減をしつつ、より自然なモーションの割当てや、発話パラメータの設定を行うことができる。

　なお、本明細書において、「モーション」には、手、腕、頭、上半身、体全体、足といった身体の各部位の動きの他、顔の表情（目や口の動きを含む）を含むものとしてもよい。また、顔の表情については別途予め設定されていてもよい。

　モーション設定部２０８や発話パラメータ設定部２０９は、発話文に対して予め設定されたキャラクタの表情に応じて、モーション設定や発話パラメータ設定を調整してもよい。例えば、通常、喜んでいる時の動作は大きくなり、悲しんでいる時の動作は小さくなるため、モーション設定部２０８は、設定されている表情（笑顔、困り顔、泣き顔など）に合わせて、モーションの強度を調整してもよい。また、通常、表情が暗いと声も沈み、表情が明るいと声も明るくなるため、発話パラメータ設定部２０９は、設定されている表情に合わせて、声のトーンや音量を変化させてもよい。

　また、ＴＴＳなどの音声合成では音声を表現することに限界がある場合、録音した音声をシナリオに埋め込みたい場合もある。このような場合にも、録音音声を音声認識によりテキスト化し、テキストデータ（すなわち発話文）をキャラクタ発話文解析部２０１により解析し、上述した例と同様に、感情の判定や、モーションの設定を行い、シナリオに記述を追加するようにしてもよい。また、感情判定部２０４は、録音音声の表現（声のトーン、声質、息継ぎ、話すスピードなど）から感情を得ることも可能である。また、感情判定部２０４は、録音音声から感情を得られた場合、発話文を解析して得た感情よりも優先するようにしてもよい。

　また、本システムによる感情判定部２０４における感情判定は、基本的に発話文の解析に基づいて行っているが、本実施形態はこれに限定されず、例えば、情報処理装置２０への外部入力に基づいて判定するようにしてもよい。

　例えば、感情判定部２０４は、ユーザによりキャラクタ（画像またはロボット）への触れ方（スキンシップ）や、発した言葉に応じて、キャラクタの感情を判定してもよい。キャラクタへのスキンシップはタッチセンサなどにより検出され、また、キャラクタへの発言は、マイクロフォンにより収音され得る。例えば感情判定部２０４は、キャラクタに対してぶつ、叩くなどの行為や、攻撃的な発言など、ネガティブな入力が行われた場合、キャラクタの感情がネガティブとなったと判定する。一方、例えば感情判定部２０４は、キャラクタに対して優しくなでるなどの行為や、褒める発言など、ポジティブな入力が行われた場合、キャラクタの感情がポジティブとなったと判定する。

　（ユーザ発話認識部２１４、シナリオ制御部２１５、およびキャラクタ制御部２１６）
　シナリオの制御（実行）に関しては、ユーザ発話認識部２１４、シナリオ制御部２１５、およびキャラクタ制御部２１６により実現され得る。

　ユーザ発話認識部２１４は、マイクロフォンにより収音したユーザの発話音声を音声認識し、テキスト化し、自然言語処理を行う。

　シナリオ制御部２１５は、認識したユーザの発話音声に対するキャラクタの応答（発話文）を、シナリオに基づいて選択、生成する。なお、キャラクタの発話は、ユーザ発話をトリガとするものに限定されず、場所や時間、状況等に応じて、シナリオに従って開始することも可能である。発話文に対応するモーションは、上述した通り、シナリオ記述部２１１により既にシナリオに記述されている。

　キャラクタ制御部２１６は、シナリオ制御部２１５の制御に従って、キャラクタ制御を行う。具体的には、キャラクタ制御部２１６は、出力部２３０からのキャラクタ音声の出力（合成音声の出力）、キャラクタ画像（モーション映像）の再生等を行う。音声と映像の同期は、上述したように、シナリオ記述部２１１により既にシナリオに記述されているため、シナリオ制御部２１５により、シナリオの記述に従って、音声と映像の再生タイミングが制御され得る。

　（通信部２１０）
　通信部２１０は、有線または無線により外部装置と通信接続し、データの送受信を行う。通信部２１０は、例えば有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、３Ｇ（第３世代の移動体通信方式））等により、外部装置と通信接続する。例えば情報処理装置２０は、通信部２１０によりネットワーク上のサーバと通信接続し、シナリオデータの取得等を行い得る。

　（入力部２２０）
　入力部２２０は、情報処理装置２０への入力を受け付け、制御部２００に入力情報を出力するデバイスである。例えば入力部２２０は、操作入力部、音声入力部（マイクロフォン）、カメラ、各種センサであってもよい。また、操作入力部は、表示部と一体的に設けられるタッチセンサ、圧力センサ、若しくは近接センサ（静電容量センサなど）であってもよい。あるいは、操作入力部は、ボタンおよびスイッチなど、表示部と分離して設けられる物理的構成であってもよい。

　（出力部２３０）
　出力部２３０は、情報処理装置２０からの出力を行うデバイスである。例えば出力部２３０は、表示部、プロジェクタ、音声出力部（スピーカ）であってもよい。表示部は、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（Electroluminescence）ディスプレイなどの表示装置であってもよい。出力部２３０は、キャラクタ制御部２１６の制御に従ってキャラクタを画像や音声により表出し得る。

　（記憶部２４０）
　記憶部２４０は、制御部２００の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　例えば、記憶部２４０は、シナリオデータ記憶部２４２、感情共起単語データベース２４４、およびモーション情報データベース２４６を記憶する。シナリオデータ記憶部２４２は、発話文が含まれるシナリオデータを格納する。感情共起単語データベース２４４は、感情に対応付けられる共起単語（または文節）のデータを格納する。モーション情報データベース２４６は、単語または文節に対応する感情別のモーション情報（キャラクタに行わせる動作の情報）を格納する。

　以上、本実施形態による情報処理装置２０の構成について具体的に説明した。なお、本実施形態による情報処理装置２０の構成は図１に示す例に限定されない。例えば、図１に示す機能構成のうち、時制分析部２０２、応答選択部２０５、発話パラメータ設定部２０９を有していなくともよい。また、シナリオ制御（シナリオ実行）に関する機能構成であるユーザ発話認識部２１４、シナリオ制御部２１５、およびキャラクタ制御部２１６が、他の装置に設けられていてもよい。また、記憶部２４０が有する各データベースが、ネットワーク上のサーバなど、外部装置に格納されていてもよい。

　また、情報処理装置２０が複数の装置により構成されていてもよい。

　また、情報処理装置２０は、例えば、ＰＣ、スマートフォン、タブレット端末、携帯電話端末、携帯ゲーム機、プロジェクタ、テレビ装置、透過型または非透過型のＨＭＤ（Head　Mounted　Display）、ロボット等であってもよい。

　また、入力部２２０および出力部２３０が外部装置に設けられていてもよい。この場合、例えば情報処理装置２０がＰＣ、スマートフォン、サーバ等であって、キャラクタを表出する外部装置（スマートフォン、プロジェクタ、ＨＭＤ、ロボットなど）と通信接続し、キャラクタの発話音声データやモーション映像データを含むキャラクタ制御信号を送信するようにしてもよい。

　＜３．動作処理＞
　（３－１．モーション生成処理）
　続いて、本実施形態によるモーション生成システムの動作処理について、図１２を参照して説明する。図１２は、本実施形態によるモーション生成システムの全体の流れの一例を示すフローチャートである。

　図１２に示すように、まず、情報処理装置２０のキャラクタ発話文解析部２０１は、シナリオの発話文章（すなわちキャラクタの発話文）を自然言語処理などにより解析する（ステップＳ１０３）。

　次に、感情表現抽出部２０３は、発話文の解析結果に基づき、感情共起単語データベース２４４を参照し、発話文から感情と共起する単語（感情表現）を抽出する（ステップＳ１０６）。

　次いで、時制分析部２０２は、発話文の時制を分析する（ステップＳ１０９）。

　次に、感情判定部２０４は、感情表現の抽出結果、さらには時制の分析結果を考慮し、キャラクタの感情を判定する（ステップＳ１１２）。

　次いで、応答選択部２０５は、キャラクタのユーザとの親密度に基づいて、応答種類を選択する（ステップＳ１１５）。

　続いて、発話パラメータ設定部２０９は、判定された感情や選択された応答種類に基づいて、発話文全体の声のトーンの設定や、発話文全体の声の音量の設定など、発話パラメータを設定する（ステップＳ１１８、Ｓ１２１）。

　また、所定単語・文節検出部２０７は、発話文の解析結果に基づき、モーション情報データベース２４６を参照し、モーションの割当てがされている所定の単語を検出する（ステップＳ１２４）。この際、所定単語・文節検出部２０７は、単語の品詞や、発話文内での位置も特定する。

　次に、モーション設定部２０８は、発話文内の所定の単語に、判定された感情に応じて、対応するモーションを割当てる（ステップＳ１２７）。また、モーション設定部２０８は、選択された応答種類に応じて、割当てたモーションの強度を調整してもよい。

　そして、シナリオ記述部２１１は、設定した発話パラメータや、割当てたモーションを、発話文内の対応する単語の位置に紐付けて、発話音声の再生とモーション映像が同期するようシナリオに記述する（ステップＳ１３０）。

　（３－２．シナリオ制御処理）
　続いて、図１３を参照してシナリオ制御処理について説明する。図１３は、本実施形態によるシナリオ制御処理の一例を示すシーケンス図である。

　図１３に示すように、まず、情報処理装置２０の感情表現抽出部２０３は、シナリオに基づいて、キャラクタの発話文とモーション（上述したように、既にシナリオに記述済み）を、キャラクタ制御部２１６に指定する（ステップＳ２０３）。

　次に、キャラクタ制御部２１６は、指定された発話文をＴＴＳ機能等により読み上げて発話音声をスピーカから出力したり、発話音声の出力に同期して対応するモーション映像を再生したりといった制御を行う（ステップＳ２０６）。

　次いで、ユーザからの発話があった場合、ユーザ発話認識部２１４は、ユーザ発話を収音した音声データから音声認識を行う（ステップＳ２０９）。

　次に、シナリオ制御部２１５は、ユーザの発話に対するキャラクタの発話文（応答）を、シナリオから選択（特定）し（ステップＳ２１２）、上記ステップＳ２０３と同様に、キャラクタの発話文とモーションを、キャラクタ制御部２１６に指定する（ステップＳ２１５）。

　そして、キャラクタ制御部２１６は、上記ステップＳ２０６と同様に、指定された発話文をＴＴＳ機能等により読み上げて発話音声をスピーカから出力したり、発話音声の出力に同期して対応するモーション映像を再生したりといった制御を行う（ステップＳ２１８）。

　以上の処理を繰り返すことで、シナリオに基づいてキャラクタの会話を制御することができる。なお、ここでは一例としてキャラクタがユーザとの対話を行うシナリオについて説明したが本実施形態はこれに限定されず、ゲームの進行等に応じて一方的にキャラクタが発話するものであってもよいし、ユーザの位置や状況に応じて自動的にキャラクタが発話するものであってもよい。

　＜４．まとめ＞
　上述したように、本開示の実施形態によるモーション生成システムでは、キャラクタの感情を判定し、キャラクタの発話文から抽出した所定の単語または文節に対し、判定された感情に応じて、モーションを選択することで、キャラクタの感情を反映したより自然なモーションを割当てることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述した情報処理装置２０に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置２０の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。
（２）
　前記制御部は、前記発話文から検出された単語と当該単語の品詞に応じて、当該単語に対応付けられた感情別モーションのうち、前記判定した感情に対応付けられたモーションを選択する、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記キャラクタとユーザとの親密度に応じて、前記モーションの強弱を調整する、前記（１）または（２）に記載の情報処理装置。
（４）
　前記制御部は、感情に対応する共起単語のデータベースを参照し、前記発話文から検出した単語に対応する感情を、前記キャラクタの感情として判定する、前記（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記制御部は、
　　前記発話文の発話文解析結果に基づいて時制を分析し、
　　前記時制に応じて、前記単語に対応する感情の度合いの変更、または前記キャラクタの感情を変更する、前記（４）に記載の情報処理装置。
（６）
　前記制御部は、前記判定した感情が、その後一定時間または異なる感情が新たに判定されるまで前記キャラクタの感情として継続させる、前記（１）～（５）のいずれか１項に記載の情報処理装置。
（７）
　前記制御部は、前記判定した感情の度合いを、その後時間の経過または発話数に応じて減衰させる、前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記制御部は、
　　前記感情が継続している間または前記感情の度合いが閾値を上回っている間に発話される発話文から検出した所定の単語に対応付けられた感情別モーションから、前記感情に対応付けられたモーションを選択する、前記（６）または（７）に記載の情報処理装置。
（９）
　前記制御部は、
　　前記感情に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、前記（１）～（８）のいずれか１項に記載の情報処理装置。
（１０）
　前記制御部は、
　　前記発話文で用いられている単語に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、前記（１）～（８）のいずれか１項に記載の情報処理装置。
（１１）
　前記制御部は、
　　前記設定した発話音声パラメータを前記発話文に対応付けた記述を前記シナリオに追加する処理を行う、前記（９）または（１０）に記載の情報処理装置。
（１２）
　プロセッサが、
　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、
を含む、情報処理方法。
（１３）
　コンピュータを、
　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラム。

　２０　情報処理装置
　２００　制御部
　２０１　キャラクタ発話文解析部
　２０２　時制分析部
　２０３　感情表現抽出部
　２０４　感情判定部
　２０５　応答選択部
　２０７　所定単語・文節検出部
　２０８　モーション設定部
　２０９　発話パラメータ設定部
　２１０　通信部
　２１１　シナリオ記述部
　２１４　ユーザ発話認識部
　２１５　シナリオ制御部
　２１６　キャラクタ制御部
　２２０　入力部
　２３０　出力部
　２４０　記憶部
　２４２　シナリオデータ記憶部
　２４４　感情共起単語データベース
　２４６　モーション情報データベース

Claims

　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。
　前記制御部は、前記発話文から検出された単語と当該単語の品詞に応じて、当該単語に対応付けられた感情別モーションのうち、前記判定した感情に対応付けられたモーションを選択する、請求項１に記載の情報処理装置。
　前記制御部は、前記キャラクタとユーザとの親密度に応じて、前記モーションの強弱を調整する、請求項１に記載の情報処理装置。
　前記制御部は、感情に対応する共起単語のデータベースを参照し、前記発話文から検出した単語に対応する感情を、前記キャラクタの感情として判定する、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記発話文の発話文解析結果に基づいて時制を分析し、
　　前記時制に応じて、前記単語に対応する感情の度合いの変更、または前記キャラクタの感情を変更する、請求項４に記載の情報処理装置。
　前記制御部は、前記判定した感情が、その後一定時間または異なる感情が新たに判定されるまで前記キャラクタの感情として継続させる、請求項１に記載の情報処理装置。
　前記制御部は、前記判定した感情の度合いを、その後時間の経過または発話数に応じて減衰させる、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記感情が継続している間または前記感情の度合いが閾値を上回っている間に発話される発話文から検出した所定の単語に対応付けられた感情別モーションから、前記感情に対応付けられたモーションを選択する、請求項６に記載の情報処理装置。
　前記制御部は、
　　前記感情に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記発話文で用いられている単語に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記設定した発話音声パラメータを前記発話文に対応付けた記述を前記シナリオに追加する処理を行う、請求項９に記載の情報処理装置。
　プロセッサが、
　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、
を含む、情報処理方法。
　コンピュータを、
　シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
　前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
　前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラム。