WO2012105318A1

WO2012105318A1 - 入力支援装置、入力支援方法及び記録媒体

Info

Publication number: WO2012105318A1
Application number: PCT/JP2012/050937
Authority: WO
Inventors: ひろ美古川; 佐藤　寛之
Original assignee: 有限会社Ｂｏｎｄ
Priority date: 2011-02-01
Filing date: 2012-01-18
Publication date: 2012-08-09
Also published as: KR20130116349A; CN103430217A; JP2012160082A; KR101492359B1; TW201233413A; US20140002464A1; US9898850B2; CN103430217B; TWI436808B; JP4725936B1

Abstract

　視聴者にコンテンツを紹介するためのキャラクタの動作を、適切かつ簡易に作成可能な入力支援装置等を提供する。入力支援装置(3)の利用者は、入力装置(5)に、キャラクタの動作を指定する指定コマンドの入力処理をする。このキャラクタの動作は、コンテンツを紹介するためのものである。入力支援装置(3)は、指定コマンドの入力処理を支援する。コンテンツは、素材データ(29)と言葉データ(31)を含む。言葉データ(31)は、キャラクタが発する音声を含む。感情識別部(41)は、素材データ(29)及び言葉データ(31)を分析して、キャラクタが表現すべき感情類型を推論する。コマンド抽出部(43)は、キャラクタの動作を、指定コマンド及び音声だけでなく、推論された感情類型にも基づいて決定して、動作コマンドを生成する。確認再生部(47)は、コマンド抽出部(43)が作成した番組案を表示装置(7)に表示させて、利用者に確認させる。

Description

入力支援装置、入力支援方法及び記録媒体

　本発明は、入力支援装置、入力支援方法及び記録媒体に関し、特に、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置等に関する。

　特許文献１には、コンピュータグラフィックスで人物キャラクタを作成するときに、メニューから動作を選択し、選択された項目に対応する動作をさせて作成することが記載されている。

　また、特許文献２には、ゲーム分野において、音声を発する人の顔を表示することなく、感情の伝達を可能とするための技術が記載されている。すなわち、ゲーム端末のユーザは、マイクより音声データを入力する。画像作成装置は、音声データを基準音声データに分類して、予め記憶されたキャラクタの表情から選択して表示するものである。

特開２００５－２６６９１２号公報特開２００３－２４８８３７号公報

　しかしながら、特許文献１にあるように、人物キャラクタを作成する場合には、人物キャラクタの動作を細かく指定する必要がある。そのため、専門家に依頼して作成する必要があった。専門家による作成は、各素材（写真、ビデオ、音声、音楽、文字など）を完成させてから、組み込み、作成する。そのため、一度完成してしまうと、変更はできない。よって、素人が、人物キャラクタのアニメーションを簡易かつ適切に生成することは困難であった。

　また、特許文献２は、ゲーム端末のユーザが発した音声を伝達する際に、ユーザを秘匿するためのものである。人物キャラクタは、ユーザの置き換えにすぎない。

　したがって、本発明は、視聴者にコンテンツを紹介するためのキャラクタの動作を、適切かつ簡易に作成可能な入力支援装置等を提供することを目的とする。

　本願発明の第１の観点は、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置であって、前記コンテンツは、素材データと言葉データを含み、前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論手段と、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出手段と、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生手段を備え、前記コマンド抽出手段は、前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記動作コマンドを生成するものである。

　本願発明の第２の観点は、第１の観点の入力支援装置であって、前記感情類型推論手段は、前記素材データ及び前記言葉データを分析して、複数の基本的感情類型から一つ又は複数を選択して、前記選択された基本的感情類型及びその度合いを、前記キャラクタが表現すべき感情類型とするものであって、複数の前記基本的感情類型を選択したときは、前記言葉データの分析により選択された前記基本的感情類型から優性演出処理を決定し、その他の前記選択された基本的感情類型から補助的演出処理を決定するものであり、前記コマンド抽出手段は、基本的感情類型とその度合いの組合せにより前記動作を決定するものであって、前記一つの基本的感情類型が選択されたときは、選択された前記基本的感情類型及びその度合いに対応して、前記動作を決定するものであり、前記複数の基本的感情類型が選択されたときは、前記優性演出処理を、前記補助的演出処理よりも大きい比重で参照して前記動作を決定するものである。

　本願発明の第３の観点は、第２の観点の入力支援装置であって、前記動作パターンには、待機動作が含まれており、前記コマンド抽出手段により前記感情類型による修正を許可するか否かを指定する修正許可コマンドが入力されるものであり、前記指定コマンドの入力がなく、前記素材データも前記言葉データもない場合には、前記コマンド抽出手段は、前記待機動作をさせる前記動作コマンドを生成し、前記指定コマンドの入力がなく、前記言葉データ又は／及び前記素材データがある場合には、前記感情類型推論手段は、前記言葉データ又は／及び前記素材データを分析して前記感情類型を識別して前記動作コマンドを生成し、前記指定コマンドの入力があり、前記素材データ及び前記言葉データがない場合には、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、前記指定コマンドの入力があり、前記素材データ及び／又は前記言葉データがある場合に、前記修正許可コマンドが修正を許可しないときは、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、前記修正許可コマンドが修正を許可するときは、前記感情類型推論手段は、前記言葉データ又は／及び前記素材データを分析して前記感情類型を識別し、前記コマンド抽出手段は、前記指定コマンドにより指定された動作を修正して前記動作コマンドを生成するものである。

　本願発明の第４の観点は、第１から第３のいずれかの観点の入力支援装置であって、過去に行われた動作コマンドの修正処理を示す修正履歴を記憶する修正履歴記憶手段を備え、前記コマンド抽出手段は、前記修正履歴も用いて、前記動作コマンドを生成するものであり、前記コマンド抽出手段は、前記感情類型推論手段により識別された感情類型がシナリオデータ上で次の感情類型に推移した時点又は／及び前記指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、シナリオデータ上での時間の経過と共にその感情を減衰させて前記動作コマンドを生成するものである。

　本願発明の第５の観点は、第１から第４のいずれかの観点の入力支援装置であって、前記動作コマンドを含むシナリオデータを生成するシナリオデータ生成手段と、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生して動画データを生成する動画データ生成手段を備え、前記シナリオデータは、遠隔再生処理装置が、前記コンテンツ及び前記キャラクタ画像とともにこれを受信して、前記コンテンツと、前記シナリオデータによる前記キャラクタの動作とを同期して再生するものであり、前記動画データは、遠隔再生装置がこれを受信して再生するものである。

　本願発明の第６の観点は、第１から第５のいずれかの観点の入力支援装置であって、前記キャラクタは、複数存在し、前記感情類型推論手段は、一部のキャラクタが動作した場合、動作したキャラクタの感情類型を用いて他のキャラクタの感情類型又は／及びその度合いを修正するものである。

　本願発明の第７の観点は、入力支援装置において、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援方法であって、前記コンテンツは、素材データと言葉データを含み、前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、前記入力支援装置は、感情類型推論手段と、コマンド抽出手段と、確認再生手段を備えるものであり、前記感情類型推論手段が、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論ステップと、前記コマンド抽出手段が、前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出ステップと、前記確認再生手段が、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生ステップと、前記入力支援装置が、前記指定コマンドが追加又は変更された場合、追加又は変更後の前記指定コマンドに対して処理を行うステップを含むものである。

　本願発明の第８の観点は、コンピュータにおいて、第７の観点の入力支援方法を実現するためのプログラムを定常的に記録するコンピュータ読み取り可能な記録媒体である。

　なお、本願発明において、単にキャラクタの動作を生成するだけでなく、例えばカメラワーク、照明、背景色、効果音なども生成するようにしてもよい。

　また、本願発明を、コンピュータにおいて、第７の観点の入力支援方法を実現するためのプログラムとして捉えてもよい。

　本願発明において、表現要素記憶手段には、専門家が作成したキャラクタの動作パターンが予め組込み記憶されている。入力支援装置のユーザは、指定コマンドを入力して、キャラクタの動作を指定する。入力支援装置は、この指定に併せて、コンテンツの分析により得られる感情類型により、キャラクタの動作を決定する。これにより、ユーザは、キャラクタの動作を簡易に決定でき、さらに、何回でも決定した動作を実施させて修正を行うことも簡易にでき、よって、キャラクタに、コンテンツに合った感情表現を行わせることが可能になる。そして、指定コマンドが追加、変更等された場合には、追加、変更等の後の指定コマンドに対して処理を行う。よって、本願発明により、視聴者へのコンテンツの紹介を、キャラクタを用いて適切かつ簡易に行うことが可能になる。

　従来、特許文献１では、キャラクタの動作のみを指定するものであった。この場合、キャラクタが指定以外の動作を行うことは、ユーザにとって不適切な処理となる。また、特許文献２では、ユーザが感情データを入力することも記載されているが、これを修正すること等については記載されていない。ユーザによる指定がない場合に、音声データを感情データに分類する。分析の対象となるデータも、音声データという、キャラクタの動作に直結するものに限定されている。これは、特許文献２記載の技術において、キャラクタがユーザの代わりをなすものであり、ユーザの指定以外の動作を行うことは、ユーザにとって不適切な処理となるためである。このように、背景技術は、キャラクタの動作が、ユーザの意に反しないという単に消極的なものにとどまる。その動作指定を自動的に変更することは、ユーザの意に反することとなり、不適切な処理となる。そのため、特許文献１及び２には、動作指定があった場合には、その指定を変更することは記載されていない。

　これに対し、本願発明は、視聴者にコンテンツを紹介することを目的とする。キャラクタの動作は、このコンテンツの紹介をサポートするためのものである。背景技術とは、目的が異なる。そのため、背景技術と異なり、ユーザがキャラクタを意のままに動作させる必要はない。むしろ、コンテンツの紹介という目的に合ったものとして適切な動作にすることが、ユーザの希望に沿ったものになる。本願発明では、専門家により動作パターンが予め組み込まれている。ユーザは、指定コマンドを入力して、この動作パターンを用いて簡易にキャラクタを動作させることができる。さらに、本願発明は、コンテンツに合った動作を自動生成する。これにより、適切な動作を自動生成することが可能になる。さらに、確認再生手段は、ユーザに対して、自動生成した動作案を提案する。これにより、ユーザは、より適切な指定コマンドを入力し直す等により、キャラクタの動作に、自分の考えをより明確に反映させることが可能になる。専門家に依頼した場合には、各素材が完成品として納入されてしまい、全体的な整合性からユーザの考えを反映することが困難になる。本願発明は、背景技術のように、単にキャラクタの動作がユーザの意に反するものでない、というような消極的なものではない。本願発明は、コンテンツの紹介という基準に適した指定コマンドの入力を実現するという、より積極的な意義を有するものである。

　特に、本願発明によれば、入力支援装置のユーザは、画像・映像素材、音楽素材、テキストデータなどを用意するだけで、これらの素材等から抽出された感情類型をもったキャラクタが、視聴者に対して、これらの素材等を紹介することが可能になる。そのため、入力支援装置のユーザは、素人であっても、視聴者が共感しやすくなるように、素材等の紹介をすることが可能になる。

　本願発明の第２の観点によれば、素材データ及び言葉データを分析して、複数の基本的感情類型が選択された場合には、音声データというキャラクタの動作に近い情報を含む言葉データを優先して演出処理を決定する。これにより、コンテンツが複数の基本的感情類型を伝達しようとする場合にも、キャラクタの動作に近い情報から、優先的な演出処理を決定することが可能になる。

　本願発明の第３の観点によれば、指定コマンドの入力がない場合にもキャラクタの動作を自動生成することが可能になる。そのため、指定コマンドが削除された場合にも、削除後の状態に対して処理を行うことができる。さらに、ユーザが指定コマンドによる指定どおりの動作をさせることもできる。

　本願発明の第４の観点によれば、時間経過に伴い感情表現の影響を減衰させることにより、自然な感情表現の伝達が可能になる。

　本願発明の第５の観点によれば、シナリオデータの配信について、遠隔再生処理装置のように一定の処理が可能な場合には、装置側での処理によりコンテンツの再生を行う。これにより、装置が設置された場所に適したキャラクタを動作させるなど、情報の受け手に着目したシナリオデータの再生が可能になる。他方、遠隔再生装置のように、動画像を再生するだけの端末の場合には、入力支援装置において動画データを生成して再生させる。これにより、処理能力が不足している装置でも、コンテンツの紹介が可能になる。

　本願発明の第６の観点によれば、キャラクタが動作する場合、他のキャラクタは、共感するように動作することが可能になる。すなわち、動作するキャラクタは、表現活動を行っており、話し手となる。他のキャラクタは、この表現活動の聞き手となる。本願発明の第６の観点によれば、聞き手となるキャラクタは、例えば同じ感情類型の表現であれば再度増幅して表現しなおし、また、異なる感情類型の表現であれば他の感情類型を抽出して表現する。これにより、例えば第４の観点にあるように既存の感情表現を減衰させても、複数のキャラクタが、全体として、感情類型を統一して表現することが可能になる。視聴者は、聞き手となるキャラクタに同化し、このキャラクタの共感に合わせてコンテンツを視聴することにより、自然な感情類型の伝達が可能になる。

本発明の実施例１による番組生成システム１の構成及び動作を説明するための概念ブロック図である。図１の感情識別部４１、コマンド抽出部４３及び確認再生部４７の動作の概要を示すフロー図である。図１の感情識別部４１により決定される基本的感情類型及び感情レベルの組合せと表現要素記憶部２５との関係を示す図である。図１の感情識別部４１による基本的感情類型及び感情レベルの組合せと、その相互関係の決定の関係を示す図である。図１のコマンド抽出部４３によるキャラクタの動作の決定処理を示す図である。図１のコマンド抽出部４３において感情類型の影響を示す図である。図１の入力支援装置３により生成される番組の一例を示す図である。図１の番組生成システム５１におけるシナリオデータ及び動画データの配信について説明するための概念ブロック図である。図８の端末番組画像生成部７３の構成及び動作を説明するための概念ブロック図である。図８の動画データ生成部４９の構成及び動作を説明するための概念ブロック図である。本願発明の実施例２における対話状態でのリアクション感情の推移の一例を示す図である。本願発明の実施例２における聞き状態でのリアクション感情の推移の一例を示す図である。

　以下、図面を参照して、本発明を実施するための形態について説明する。なお、本発明は、以下の実施例に限定されるものではない。

　図１は、本発明の実施例による番組生成システム１の構成及び動作を説明するための概念ブロック図である。番組生成システム１は、入力支援装置３（本願請求項の「入力支援装置」の一例）と、入力装置５と、表示装置７（本願請求項の「表示装置」の一例）と、遠隔再生処理装置９と、遠隔再生装置１１を備える。入力支援装置３は、コンテンツを紹介するためのキャラクタ（登場人物や動物などの動作の主体）の動作を指定する指定コマンドの入力処理を支援する。入力装置５は、入力支援装置３のユーザがコンテンツ及び指定コマンドの入力処理をする。表示装置７は、入力支援装置３により生成された番組案を表示する。遠隔再生処理装置９及び遠隔再生装置１１は、入力支援装置３により生成された番組を再生する。

　入力支援装置３は、コンテンツ記憶部２１と、指定コマンド記憶部２３と、表現要素記憶部２５（本願請求項の「表現要素記憶手段」の一例）と、キャラクタ画像記憶部２７を備える。コンテンツ記憶部２１は、入力装置５から入力されたコンテンツを記憶する。ここで、コンテンツは、素材データ２９と言葉データ３１を含む。素材データ２９は、遠隔再生処理装置９及び遠隔再生装置１１の視聴者に対して伝達したい一連の情報を構成する。素材データは、画像・映像素材と音楽素材を含む。言葉データ３１は、キャラクタが発する音声（本願発明の「音声データ」の一例）と、言葉による説明を含む。指定コマンド記憶部２３は、入力装置５から入力された指定コマンドを記憶する。表現要素記憶部２５は、専門家により予め作成されたキャラクタの動作パターンが予め組込み記憶されている。キャラクタ画像記憶部２７は、キャラクタの画像を記憶する。

　入力支援装置３は、さらに、感情識別部４１（本願請求項の「感情類型推論手段」の一例）と、コマンド抽出部４３（本願請求項の「コマンド抽出手段」の一例）と、動作コマンド記憶部４５と、確認再生部４７（本願請求項の「確認再生手段」の一例）を備える。感情識別部４１は、指定コマンド記憶部２３に記憶された指定コマンドと素材データ２９及び言葉データ３１を分析して、キャラクタが表現すべき感情類型を推論する。コマンド抽出部４３は、表現要素記憶部２５に記憶された動作パターンを参照して、キャラクタの動作を示す動作コマンドを生成する。なお、入力装置からは、修正許可コマンドも入力される。これは、コマンド抽出部４３において、感情類型による修正を許可するか否かを指定するものである。この修正許可コマンドが修正を許可しないようにしている場合には、コマンド抽出部４３は、キャラクタに対して、待機演出又は指定コマンドにより指定された動作をさせる。この修正許可コマンドが修正を許可するようにしている場合に、以下の修正処理を行うようにする。確認再生部４７は、表示装置７に対して、コンテンツと、キャラクタ画像記憶部２７のキャラクタの画像に基づき、動作コマンドによりキャラクタを動作させて、同期して再生させる。入力支援装置３のユーザは、表示装置７の表示を参考にして、指定コマンドを追加、変更、削除等を行うことにより、より適切なキャラクタの動作を簡易に実現することができる。

　入力支援装置３は、さらに、シナリオデータ生成部５１（本願請求項の「シナリオデータ生成手段」の一例）と、動画データ生成部４９（本願請求項の「動画データ生成手段」の一例）を備える。シナリオデータ生成部５１は、動作コマンドを含むシナリオデータを生成する。動画データ生成部４９は、コンテンツと、動作コマンドによるキャラクタの動作とを同期して再生して動画データを生成する。遠隔再生処理装置９は、例えばパソコン（ＰＣ）の機能を備えたもののように、一定の情報処理を行うことが可能である。これは、シナリオデータに基づき端末機で情報処理を行う配信に適したものである。これにより、各端末が存在する時間・場所に応じて、番組を配信することが可能になる。他方、遠隔再生装置１１は、単に表示機能のみを備えるモニタ等である。遠隔再生装置１１は、動画を再生することは可能である。しかし、シナリオデータを配信しただけでは、番組配信を実現することができない。そのため、入力支援装置３は、動画データ生成部４９が生成した動画データを用いて、遠隔再生装置１１に対する番組配信を実現する。

　続いて、図２を参照して、図１の感情識別部４１、コマンド抽出部４３及び確認再生部４７の動作の概要を説明する。図１の感情識別部４１は、指定コマンドが入力されているか否かを判断する（ステップＳＴ１）。入力されている場合、指定コマンドにより主演出（最も高い割合で勘案されて表現される一つ又は複数の基本的感情類型）を決定する（ステップＳＴ２）。続いて、言葉データ３１が入力されているか否かを判断する（ステップＳＴ３）。言葉データ３１が入力されている場合、言葉データ３１により副演出（主演出の次に高い割合で勘案されて表現される一つ又は複数の基本的感情類型）を決定する（ステップＳＴ４）。続いて、素材データ２９が入力されているか否かを判断する（ステップＳＴ５）。素材データ２９が入力されている場合、素材データ２９により補助演出（副演出の次に高い割合で勘案されて表現される一つ又は複数の基本的感情類型）を決定する。これにより、指定コマンド、言葉データ３１及び素材データ２９が入力されている場合には、それぞれに一つ又は複数の基本的感情類型が決定され、この順に高い割合で勘案されてキャラクタの動作が決定される。

　指定コマンドも言葉データ３１も素材データ２９も入力がない場合（ステップＳＴ１、７及び８でＮｏの場合）、待機演出を行う（ステップＳＴ９）。待機演出は、表現要素記憶部２５の動作パターンの一つとして、予め定められているものである。指定コマンドと言葉データ３１の入力がなく、素材データ２９が入力されている場合には、素材データ２９により主演出、副演出及び補助演出を決定する（ステップＳＴ１０）。指定コマンドの入力がなく、言葉データ３１が入力されている場合には、言葉データ３１により主演出及び副演出を決定する（ステップＳＴ１１）。そして、ステップＳＴ５の判断ステップに進み、素材データ２９が入力されていないときには、指定コマンド又は／及び言葉データ３１により補助演出を決定する（ステップＳＴ１２）。指定コマンドの入力があり、言葉データ３１の入力がない場合には、素材データ２９が入力されている場合には、素材データ２９により副演出及び補助演出を決定する（ステップＳＴ１４）。素材データ２９が入力されていない場合には、指定コマンドにより副演出及び補助演出も決定する（ステップＳＴ１５）。コマンド抽出部４３は、決定された待機演出、又は、主演出、副演出及び補助演出により、動作コマンドを生成する（ステップＳＴ１５）。確認再生部４７は、表示装置７に対して、動作案を提示する。ユーザは、動作案を参照して、指定コマンド等の入力処理を行う。入力支援装置３は、修正後の指定コマンド等に基づき、動作コマンドの生成処理等を行う。

　続いて、図３から図６を参照して、図１の感情識別部４１及びコマンド抽出部４３の動作について、具体的に説明する。コンテンツには、素材データ２９と言葉データ３１が含まれている。これを単純に視聴者に配信したとしても、視聴者には単なる情報として届くのみである。コンテンツに併せて、キャラクタを動作させて、感情を伝えるための情報を付加することにより、視聴者の評価判断を促し、視聴者に対して、感性的に伝えることができる。本願発明は、背景技術と異なり、コンテンツを一方的に伝えるだけでなく、視聴者がコンテンツに対して行う評価判断をもサポートできるように、キャラクタを動作させるためのものである。

　図１の表現要素記憶部２５には、例えば、動作データとして、両手を斜めにあげるなど、キャラクタのパーツごと（例えば、眉、目、肩、手など）の動作パターン（本願請求項の「動作パターン」の一例）が記憶されている。照明データとして、環境光２０％（白）など、照明光、環境光などの色合い・明るさ・鮮やかさが記憶されている。カメラワークデータとして、上半身など、カメラの位置・時間・角度が記憶されている。なお、その他のデータも記憶していてもよい。

　図３を参照して、基本的感情類型（本願請求項の「基本的感情類型」の一例）及び感情レベル（本願請求項の「基本的感情類型の度合い」の一例）について説明する。基本的感情類型には、例えば、ジョイ（喜びなど）、トラスト（信任、信頼、信用など）、アンガー（怒りなど）などがある。それぞれに感情レベルが設定されている。感情識別部４１は、指定コマンド及びコンテンツを分析して、一つ又は複数の基本的感情類型を選択し、選択された基本的感情類型ごとに感情レベルを分析する。基本的感情類型と感情レベルの組合せにより、表現要素記憶部２５に記憶された動作データ、照明データ、カメラワークデータなどの各データについて、一つ又は複数が対応付けられている。例えば、基本的感情類型ジョイに対応して、感情レベルが低い時には、動作データとして(2)手をたたくが、照明データとして(2)環境光５０％（白）＋(3)全身スポットライト（白）が、カメラワークデータとして(3)全身＋(6)正面が選択される。感情レベルが高くなると、動作データとして(1)両手を斜め上にあげる＋(3)何度も小さく飛び跳ねるが、照明データとして(1)環境光２０％（白）＋(3)前身スポットライト（白）が、カメラワークデータとして(2)顔アップ＋(6)正面が選択される。さらに感情レベルが高くなると、動作データとして(2)手をたたく＋(3)何度も小さく飛び跳ねる＋(6)右手を真上にあげるが、照明データとして(2)環境光５０％（白）＋(3)全身スポットライト（白）＋(4)上半身スポットライトが、カメラワークデータとして(2)顔アップ＋(4)ズームイン＋(6)正面が選択される。

　図４を参照して、動作パターンの生成について説明する。コマンド抽出部４３は、口元の動きのように、キャラクタが音声を発するための動作については、コンテンツの言葉データ３１の音声に基づき決定する。これは、自然な発声のためである。それ以外の動作については、指定コマンドと、表現要素記憶部２５に記憶されたキャラクタの動作パターンから決定する。コマンド抽出部４３は、さらに、感情識別部４１により推論された感情類型にも基づいて、キャラクタの動作を決定して、動作コマンドを生成するものである。

　例えば、言葉データの説明として、「とっても楽しいですよ。」と記載された場合、形態素解析からは、「楽しい」という単語からジョイという基本的感情類型（感情Ｃ）が一つのみ選択される。これは、図４の単純表現である。演出としては、一つの基本的感情類型のみに基づいてキャラクタを動作させれば足りる。

　しかしながら、本願発明では、背景技術と異なり、複数の基本的感情類型が自動的に選択され得る。そのため、例えばジョイやトラストのようなプラスの感情類型だけでなく、同時に、アンガーのようなマイナスの感情をも選択される可能性がある。これが、図４の複合表現にあたる。例えば、説明として、「私は笑顔で答えましたが、無礼な行動に怒りを抑えきれませんでした。」と記載されている場合、「私は笑顔で答えました」という部分の形態素解析では、プラスの感情Ａが選択される。感情レベルに関する情報はなく、例えば平均値を設定する。他方、「無礼な行動に怒りを抑えきれませんでした。」という部分の形態素解析では、マイナスの感情Ｂが選択される。感情レベルは大きいものである。このように複数の基本的感情類型が選択された場合、さらに文字解析を行うことにより、基本的感情類型の主格判断を行う。この場合、例えば、「が」という接続詞に着目したり、「笑顔」という外形の表現と「怒り」という内心の表現とに着目したりして、感情Ａが優性であり、感情Ｂが補助的と判断される。そのため、コマンド抽出部４３は、感情Ａとその感情レベルに対応する動作を、感情Ｂ及びその感情レベルに対応する動作よりも大きい割合で勘案して、キャラクタの動作を決定する。図５にあるように、キャラクタの各パーツについて、その勘案する割合に応じて、形状（ポーズ）及び時間（動きスピード）を決定する。口元のデータなども、必要に応じて修正する。さらに、キャラクタの動作にとどまらず、照明データ、カメラワークデータなどについても同様に決定する。

　図４では、同じ言葉データ３１内での優性演出動作と補助的演出動作に関して説明をした。本実施例では、図２にあるように、指定コマンド、言葉データ３１及び素材データ２９の順に優先して（すなわち、より大きい割合で勘案して）、キャラクタの動作を決定する。そのため、指定コマンド、言葉データ３１及び素材データ２９では、コンテンツの紹介に適合させつつ、ユーザによるキャラクタの動作の指定に直接的なものほど大きい割合で勘案することとなる。

　続いて、図６を参照して、感情の影響について説明する。図６において、最初は、待機動作として「直立（気を付け）」であったとする。(1)の動作選択（ある指定コマンドの入力による指定）から(7)の動作選択（他の指定コマンドの入力による指定）の時点までに１０秒あり、その間、感情影響は減少するとする。コマンド抽出部４３は、キャラクタの動作に、(1)の動作選択の時点で最大の影響があり、次のコマンドの指定までの１０秒間、影響が自動的に減少するようにする。そのため、コマンド抽出部４３は、(7)の動作選択の時点で(1)の動作選択から９秒経過していたとすると、(1)の動作からの感情の影響は１０％程度にとどまる。すなわち、コマンド抽出部４３は、感情類型がシナリオデータ上で次の感情類型に推移した時点又は／及び指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、時間の経過と共にその感情が減衰するように、動作コマンドを生成する。この修正処理は、例えば図６にあるように、キャラクタの動作、素材データ３１の再生、言葉データ２９の再生、及びＢＧＭの再生について、独立に感情の影響を考慮するようにしてもよい。また、図１の入力支援装置３は、修正履歴記憶部４４（本願請求項の「修正履歴記憶手段」の一例）を備える。修正履歴記憶部４４は、過去に行われた感情類型をどのように考慮してきたかを示す修正履歴を記憶する。コマンド抽出部４３は、この修正履歴により、入力支援装置３のユーザの嗜好・好みを参照して、動作コマンドを生成する。図７は、図１の入力支援装置３により生成される番組の一例を示す図である。

　続いて、図８～１０を参照して、シナリオデータ及び動画データによる番組配信について説明する。図８～１０では、入力支援装置３のユーザは、図１の言葉データ３１の音声として、マイク等の音声入力手段によりキャラクタを担当する声優が話す音声を入力する場合について、具体的に説明する。

　図８の番組生成システム１において、シナリオデータの配信は、遠隔再生処理装置９のように一定の処理が可能な場合には、装置側での処理によりコンテンツの再生を行う。これにより、装置が設置された場所に適したキャラクタを動作させるなど、情報の受け手に着目したシナリオデータの再生が可能になる。他方、遠隔再生装置１１のように、動画像を再生するだけの端末の場合には、入力支援装置において動画データを生成して再生させる。これにより、処理能力が不足している装置でも、コンテンツの紹介が可能になる。

　図８の番組生成システム１には、２つの遠隔再生処理装置９₁及び９₂（本願請求項の「遠隔再生処理装置」の一例）（以下、添え字は、複数のものを示す場合は省略する。）並びに遠隔再生装置１１（本願請求項の「遠隔再生装置」の一例）が存在するとする。遠隔再生処理装置９及び遠隔再生装置１１は、複数あってもよい。

　図８を参照して、入力支援装置３は、音声量子化部６１と、音声量子記憶部６２と、データ送信部６３と、動画データ送信部６５を備える。

　音声量子化部６１は、コンテンツの言葉データ３１の音声を分割して、その一部又は全部を音声要素として抽出して、量子化して、量子化データを生成する（以下、この量子化データを「音声量子」という。）。音声量子は、例えば、「久しぶりね」というＣＧキャラクタのセリフについて、「ひ」「さ」「し」「ぶ」「り」「ね」のように個々の音声や無音状態を基準にして量子化する。音声量子記憶部６２は、生成された各音声量子を記憶する。コマンド抽出部４３は、音声量子記憶部６２に記憶された音声量子を、画像用に周波数解析を行い、さらに、音量を解析することによってキャラクタの口元の画像を決定する。このキャラクタの口元の画像は、図１のキャラクタ画像記憶部２７に、他の画像とは区別して記憶されているとする。

　データ送信部６３は、遠隔再生処理装置９に対し、シナリオデータ生成部５１が生成したシナリオデータと、コンテンツ記憶部２１に記憶されたコンテンツを送信する。図８では、言葉データ３１の音声に代えて、音声量子を送信するものとする。また、遠隔再生処理装置９は、独自のキャラクタ画像を記憶している場合には、そのキャラクタ画像を使って、コンテンツとキャラクタの動作を同期して再生する。遠隔再生処理装置９が独自のキャラクタ画像を記憶していない場合には、データ送信部６３がキャラクタ画像記憶部２７に記憶されたキャラクタの画像を送信する。動画データ送信部６５は、遠隔再生装置１１に対し、動画データ生成部４９が生成した動画データを送信する。

　遠隔再生処理装置９は、データ送信部６３から送信された情報を受信する受信部７１と、スピーカ７６に対して受信した各音声量子を再生させつつ、モニタ７５に対してコンテンツとキャラクタ画像を同期して再生して番組画像を表示させる端末番組画像生成部７３を有する。遠隔再生装置１１は、動画データを受信する動画データ受信部８１と、受信した動画データを再生するモニタ８３を備える。

　図９は、図８の端末番組画像生成部７３の構成及び動作を説明するための概念ブロック図である。端末番組画像生成部７３は、シナリオデータ記憶部１０１と、音楽素材記憶部１０３と、キャラクタ画像記憶部１０５と、画像・映像素材記憶部１０７を備える。シナリオデータ記憶部１０１は、受信したシナリオデータを記憶する。音楽素材記憶部１０３は、音楽素材を記憶する。キャラクタ画像記憶部１０５は、キャラクタの画像を記憶する。画像・映像素材記憶部１０７は、画像・映像素材を記憶する。

　キャラクタ画像記憶部１０５に記憶されるキャラクタの画像は、遠隔再生処理装置９ごとに異なっていてもよい。例えば、遠隔再生処理装置９₁に対しては、特別の種類の要素画像データ（例えばパンダの種類）を送信し、他の遠隔再生処理装置９₂等には送信せず、別の種類の要素画像データ（例えばネコの種類）を送信する。この選択は、入力装置５のユーザが指定することにより、入力支援装置５が特別のキャラクタの画像を送信し、他の遠隔再生処理装置に対しては送信させないようにしてもよい。また、遠隔再生処理装置９のユーザが指定して、特別のキャラクタの画像を送信させるようにしてもよい。これにより、遠隔再生処理装置９₁と９₂では、異なるキャラクタにより同じコンテンツを再生することが可能になる。従来、番組配信は、一方的な情報の流れであった。これに対し、本願発明の番組配信は、各遠隔再生処理装置９の設置場所・再生時間等に合わせた番組画像の配信処理を可能にするものである。また、特別のキャラクタの画像は、各遠隔再生処理装置で用意されたものであってもよい。

　まず、端末番組画像生成部７３の音声再生について説明する。端末番組画像生成部７３は、端末音声同期部１０９と、音声再生部１１１と、音声送出部１１３を備える。端末音声同期部１０９は、各音声量子と音楽素材とを同期させる。音声再生部１１１は、同期後の各音声量子及び音楽素材を再生させる。音声送出部１１３は、スピーカ７６に対して音声を送信して再生させる。

　続いて、端末番組画像生成部７３が備える画像生成部１１５による画像表示について説明する。画像生成部１１５は、キャラクタ動画像生成部１３７と、番組画像作成部１３９を備える。キャラクタ動画像生成部１３７は、シナリオデータに基づき、３Ｄベクトルデータ処理により、キャラクタの画像からキャラクタのアニメーション画像を作成する。番組画像作成部１３９は、作成したキャラクタ動画像と画像・映像素材を合成して番組画像を作成する。

　ある音声量子に対しては、画像生成部１１５による番組画像の作成処理の終了後に、画像の表示と音声の再生が行われる場合がありうる。この場合、音声再生部１１１により再生される音声量子と、画像生成部１１５による番組画像の作成処理の基礎となる音声量子とは異なる。そのため、端末番組画像生成部７３は、音声再生部１１１による再生と、画像生成部１１５による番組画像の表示とを同期させる同期部１１９を備える。同期部１１９は、音声用周波数解析部１３１と、タイミング制御部１３３を備える。音声用周波数解析部１３１は、音声再生部１１１で再生される音声量子の周波数を解析して再生時間データを検出する。タイミング制御部１３３は、再生時間データと、画像生成部１１５からの番組画像の生成処理に必要な時間とを比較して、音声再生部１１１に対して再生のタイミングを制御する。

　図１０は、図８の動画データ生成部４９の構成及び動作を説明するための概念ブロック図である。動画データ生成部４９は、音声量子記憶部６２に記憶された各音声量子、シナリオデータ生成部５１により生成されたシナリオデータ、キャラクタ画像記憶部２７に記憶されたキャラクタの画像データ、コンテンツ記憶部２１に記憶されたコンテンツを用いて、動画データを作成する。動画データ生成部４９は、音声同期部１５９と、画像生成部１６１と、２Ｄベクトル量子化部１６３と、連像画像記憶部１６５と、合成部１６７と、動画データ記憶部１６９を備える。音声同期部１５９は、各音声量子と音楽素材を同期する。画像生成部１６１は、番組画像を生成する（図９の画像生成部１１５参照）。２Ｄベクトル量子化部１６３は、生成された番組画像に対して２Ｄベクトル処理を行い連続画像である画像１、・・・、画像ｎを生成する。連像画像記憶部１６５は、連続画像を記憶する。合成部１６７は、音声同期部１５９により同期された音声と連続画像を合成して動画データを生成する。動画データ記憶部１６９は、生成された動画データを記憶する。

　なお、遠隔再生処理装置９は、動画データを再生することも可能である。そのため、入力支援装置３や遠隔再生処理装置９のユーザの指示により、遠隔再生装置１１だけでなく、遠隔再生処理装置９に対しても動画データを送信するようにしてもよい。これにより、例えば入力支援装置３のユーザが、複数の端末に同時に同じ表示をさせる場合などに、遠隔再生処理装置９の処理を軽減することが可能になる。ただし、動画データは、送信データ量が大きくなる可能性がある。そのため、データ送信部６３と動画データ送信部６５が、データ量や通信状況により、シナリオデータ等の送信とするか、又は、動画データを送信するかを自動的に選択するようにしてもよい。

　また、音声量子は、例えば、「ひさしぶりね」という、発声されてから音声が一時的に途切れるまでの一連の音声を基準にして量子化したりするように、入力された音声を基準にして量子化されたものであってもよい。また、音声量子は、一定の時間（例えば、３０分の１秒など）を基準にして量子化されたものであってもよい。

　さらに、図８のコマンド抽出部４３は、入力された音声の振幅を検出して、口の開き具合を検出してキャラクタ画像を生成することも可能である。

　このような遠隔再生が可能になることにより、例えば、遠隔再生処理装置９等の前に人がいたときに、ＣＧキャラクタの音声として「久しぶりね」と入力することにより、遠隔再生処理装置９等でＣＧキャラクタが「久しぶりね」と話すように表示することができる。これにより、リアルタイムなコンテンツの演出だけでなく、視聴者が参加する形でのコンテンツが実現可能になる。さらに、注目度・話題性・認知度も上がり、さらに、実写との連携を図ることから、臨場感が向上する。さらに、疑似的な会話が可能になり、人の誘導など、場面に合ったコンテンツを実現することが可能になる。

　さらに、図１において、入力装置５及び表示装置７は、処理の負担が小さい。そのため、これらの装置は、ユーザ側のインターネット・ブラウザ等により実現することが可能である。例えば、入力支援装置３のユーザは、ブラウザを用いて、入力支援装置３へ、素材データ２９及び言葉データ３１並びに指定コマンドを入力する。入力支援装置３は、ウェブサーバにより、このアクセスを実現する。そして、これらの素材等を用いて処理を行い、ユーザのブラウザに表示する。ここで、ユーザ側の装置は、ブラウザが表示できるものであればよく、例えば、ＰＣ、スマートフォン、タブレット等である。また、表示するブラウザは、入力用のものと同じであっても、異なってもよい。さらに、キャラクタ画像記憶部２７のキャラクタ画像は、ユーザが、他のウェブサーバにアクセスして選択したものであってもよい。

　この実施例では、複数のキャラクタによる感情類型の表現及びその修正について説明する。すなわち、ある感情類型に基づきキャラクタが動作した場合、この感情類型を用いて、他のキャラクタの感情類型を修正するものである。以下、これを「リアクション感情」という。

　本実施例では、簡単のため、２体のキャラクタが、週末の映画の観賞について会話する場合について説明する。第１のセリフは、「週末は、映画を見て楽しみましょう」である。第２のセリフは、「上映中の映画は、こわい映画ですよ」である。第３のセリフは、「買い物に予定変更しようかな」である。

　図１１は、対話状態でのリアクション感情の推移の一例を示す図である。図１１において、２体のキャラクタ２０１及び２０３が対話する。キャラクタ２０１が、第１及び第３のセリフを表現する。キャラクタ２０３が、第２のセリフを表現する。

　図１の感情識別部４１は、第１のセリフから、「喜び」という感情類型（感情類型２０５（感情類型Ｐ₁））を抽出する。コマンド抽出部４３は、キャラクタ２０１に対して、この「喜び」という感情を表現させつつ、第１のセリフを述べさせる。この場合、キャラクタ２０３には、待機動作をさせる。

　感情識別部４１は、第２のセリフから、「恐怖」という感情類型（感情類型２０９（感情類型Ｑ₁））を抽出する。コマンド抽出部４３は、キャラクタ２０３に対して、この「恐怖」という感情を表現させつつ、第２のセリフを述べさせる。キャラクタ２０１の感情類型は、キャラクタ２０３が動作を開始した時点では、感情類型Ｐ₁のままである。そのため、キャラクタ２０１には、感情類型Ｐ₁に基づく待機動作をさせる。ただし、感情の度合いは、時間経過に伴い減衰する（感情類型２０７（感情類型Ｐ₁））。

　感情識別部４１は、キャラクタ２０３の動作が開始した後、キャラクタ２０１の感情類型又は／及びその度合いを、キャラクタ２０３の感情類型を用いて修正する。例えば、キャラクタ２０３の感情類型がキャラクタ２０１の感情類型と同じであれば、キャラクタ２０１の感情類型を維持して感情の度合いを増幅する。キャラクタ２０３の感情類型がキャラクタ２０１の感情類型と異なる場合には、キャラクタ２０１の感情類型を変更する。この場合、キャラクタ２０３の感情の度合いに応じて、キャラクタ２０１の感情の度合いを修正してもよい。

　図１１では、キャラクタ２０１の感情類型は「喜び」である。キャラクタ２０３の感情類型は「恐怖」である。両者は異なるため、感情識別部４１は、感情類型２１５（感情類型Ｑ₁）を用いて、感情類型２１３（感情類型Ｐ₁）を修正する。図１１では、新たな感情類型である「困惑」を選択する（感情類型２１９（感情類型Ｒ₁））。そして、コマンド抽出部４３は、キャラクタ２０１に対して、この「困惑」という感情を表現させつつ、第３のセリフを述べさせる。

　図１２は、聞き状態でのリアクション感情の推移の一例を示す図である。図１１において、２体のキャラクタ２５１及び２５３が対話する。キャラクタ２５１が、第１、第２及び第３のセリフを表現する。キャラクタ２５３は、聞き手である。

　感情識別部４１は、第１のセリフから、「喜び」という感情類型（感情類型２５５（感情類型Ｐ₁））を抽出する。コマンド抽出部４３は、キャラクタ２５１に対して、この「喜び」という感情を表現させつつ、第１のセリフを述べさせる。この時点では、キャラクタ２５３には、待機動作をさせる。

　感情識別部４１は、キャラクタ２５１が動作を開始すると、キャラクタ２５１の感情類型及び／又はその度合いを用いて、キャラクタ２５３の感情類型及び／又はその度合いを修正する。図１２では、感情類型をＰ2に合わせている（感情類型２６３（感情類型Ｐ₂）。そのため、キャラクタ２５３には、感情類型Ｐ₂に基づく待機動作をさせる。

　感情識別部４１は、第２のセリフから、「恐怖」という感情類型（感情類型２６１（感情類型Ｑ₁））を抽出する。この時点では、キャラクタ２５１の感情類型は、感情類型Ｐ₁のままであるが、感情の度合いは、時間経過に伴い減衰している（感情類型２５９（感情類型Ｐ₁））。コマンド抽出部２５１は、両者の感情類型が異なるため、時間経過に伴い感情類型Ｐ₂の表現を減衰しつつ、感情類型Ｑ₂を表現して、第２のセリフを述べさせる。

　キャラクタ２５１が第２のセリフを述べる動作を開始すると、感情識別部４１は、キャラクタ２５３の感情類型Ｐ₂（感情類型２６９）を、感情類型Ｑ₂（感情類型２７１）を使って修正する。コマンド抽出部４３は、修正した感情類型に基づく待機動作をさせる。

　第２のセリフから新たに抽出された感情類型Ｑ₂は、キャラクタ２５１の感情類型とは異なる。そのため、感情識別部４１は、新たな感情類型である「困惑」を抽出する（感情類型２６５（感情類型Ｒ₂））。同じ場合には、例えば、感情類型を維持しつつ、その度合いを増幅する。コマンド抽出部４３は、キャラクタ２５３に対して、この「困惑」という感情を表現させつつ、第３のセリフを述べさせる。

　本実施例によれば、複数のキャラクタが存在する場合、あるキャラクタが動作すると、他のキャラクタは、共感するように動作する。すなわち、動作するキャラクタは、表現活動を行っており、話し手となる。他のキャラクタは、この表現活動の聞き手となる。聞き手となるキャラクタは、例えば同じ感情類型の表現であれば再度増幅して表現しなおし、また、異なる感情類型の表現であれば他の感情類型を抽出して表現する。これにより、複数のキャラクタが、全体として、感情類型を統一して表現することが可能になる。視聴者は、聞き手となるキャラクタに同化し、このキャラクタの共感に合わせてコンテンツを視聴することにより、自然な感情類型の伝達が可能になる。

　１　番組生成システム、３　入力支援装置、５　入力装置、７　表示装置、９　遠隔再生処理装置、１１　遠隔再生装置、２１　コンテンツ記憶部、２３　指定コマンド記憶部、２５　表現要素記憶部、２７　キャラクタ画像記憶部、２９　素材データ、３１　言葉データ、４１　感情識別部、４３　コマンド抽出部、４４　修正履歴記憶部、４５　動作コマンド記憶部、４７　確認再生部、４９　動画データ生成部、５１　シナリオデータ生成部

Claims

　コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置であって、
　前記コンテンツは、素材データと言葉データを含み、
　前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、
　前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論手段と、
　前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出手段と、
　表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生手段を備え、
　前記コマンド抽出手段は、
　　前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、
　　前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、
　　さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記動作コマンドを生成する、入力支援装置。
　前記感情類型推論手段は、
　　前記素材データ及び前記言葉データを分析して、複数の基本的感情類型から一つ又は複数を選択して、前記選択された基本的感情類型及びその度合いを、前記キャラクタが表現すべき感情類型とするものであって、
　　複数の前記基本的感情類型を選択したときは、前記言葉データの分析により選択された前記基本的感情類型から優性演出処理を決定し、その他の前記選択された基本的感情類型から補助的演出処理を決定するものであり、
　前記コマンド抽出手段は、基本的感情類型とその度合いの組合せにより前記動作を決定するものであって、
　　前記一つの基本的感情類型が選択されたときは、選択された前記基本的感情類型及びその度合いに対応して、前記動作を決定するものであり、
　　前記複数の基本的感情類型が選択されたときは、前記優性演出処理を、前記補助的演出処理よりも大きい比重で参照して前記動作を決定する、請求項１記載の入力支援装置。
　前記動作パターンには、待機動作が含まれており、
　前記コマンド抽出手段により前記感情類型による修正を許可するか否かを指定する修正許可コマンドが入力されるものであり、
　前記指定コマンドの入力がなく、前記素材データも前記言葉データもない場合には、前記コマンド抽出手段は、前記待機動作をさせる前記動作コマンドを生成し、
　前記指定コマンドの入力がなく、前記言葉データ又は／及び前記素材データがある場合には、前記感情類型推論手段は、前記言葉データ又は／及び前記素材データを分析して前記感情類型を識別して前記動作コマンドを生成し、
　前記指定コマンドの入力があり、前記素材データ及び前記言葉データがない場合には、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、
　前記指定コマンドの入力があり、前記素材データ及び／又は前記言葉データがある場合に、
　　前記修正許可コマンドが修正を許可しないときは、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、
　　前記修正許可コマンドが修正を許可するときは、前記感情類型推論手段は、前記言葉データ又は／及び前記素材データを分析して前記感情類型を識別し、前記コマンド抽出手段は、前記指定コマンドにより指定された動作を修正して前記動作コマンドを生成する、請求項２記載の入力支援装置。
　過去に行われた動作コマンドの修正処理を示す修正履歴を記憶する修正履歴記憶手段を備え、
　前記コマンド抽出手段は、前記修正履歴も用いて、前記動作コマンドを生成するものであり、
　前記コマンド抽出手段は、前記感情類型推論手段により識別された感情類型がシナリオデータ上で次の感情類型に推移した時点又は／及び前記指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、シナリオデータ上での時間の経過と共にその感情を減衰させて前記動作コマンドを生成する、請求項１から３のいずれかに記載の入力支援装置。
　前記動作コマンドを含むシナリオデータを生成するシナリオデータ生成手段と、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生して動画データを生成する動画データ生成手段を備え、
　前記シナリオデータは、遠隔再生処理装置が、前記コンテンツ及び前記キャラクタ画像とともにこれを受信して、前記コンテンツと、前記シナリオデータによる前記キャラクタの動作とを同期して再生するものであり、
　前記動画データは、遠隔再生装置がこれを受信して再生するものである、請求項１から４のいずれかに記載の入力支援装置。
　前記キャラクタは、複数存在し、
　前記感情類型推論手段は、一部のキャラクタが動作した場合、動作したキャラクタの感情類型を用いて他のキャラクタの感情類型又は／及びその度合いを修正する、請求項１から５のいずれかに記載の入力支援装置。
　入力支援装置において、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援方法であって、
　前記コンテンツは、素材データと言葉データを含み、
　前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、
　前記入力支援装置は、感情類型推論手段と、コマンド抽出手段と、確認再生手段を備えるものであり、
　前記感情類型推論手段が、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論ステップと、
　前記コマンド抽出手段が、
　　前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、
　　前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、
　　さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出ステップと、
　前記確認再生手段が、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生ステップと、
　前記入力支援装置が、前記指定コマンドが追加又は変更された場合、前記追加又は変更された指定コマンドに対して処理を行うステップを含む入力支援方法。
　コンピュータにおいて、請求項７記載の入力支援方法を実現するためのプログラムを記録するコンピュータ読み取り可能な記録媒体。