JPWO2011158435A1

JPWO2011158435A1 - 音声制御装置、音声制御プログラム、及び音声制御方法

Info

Publication number: JPWO2011158435A1
Application number: JP2012520260A
Authority: JP
Inventors: 航太郎箱田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2010-06-18
Filing date: 2011-05-19
Publication date: 2013-08-19
Anticipated expiration: 2031-05-19
Also published as: CN102473415A; CN102473415B; US8976973B2; WO2011158435A1; US20120114144A1; JP5643821B2

Abstract

ユーザによりアニメーションが途中で停止されたとしても、ユーザに対して違和感を与えることなく音声を出力する。アニメーション取得部１１は、ユーザの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータＤ１と、アニメーションに連動して再生される音声を示す音声データＤ２とを取得する。音声出力制御部１２は、ユーザにより停止指令が入力された場合、音声属性情報Ｄ４を用いて、アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、アニメーションに整合する音声の所定の出力方法を決定し、決定した出力方法にしたがって音声を再生する。

Description

本発明は、アニメーションの音声を制御する技術に関するものである。

近年、高性能のメモリやＣＰＵを搭載した携帯電話やデジタル家電機器が普及している。また、ブロードバンドインターネットの普及に伴い、種々のアニメーションを実現するアプリケーションやアニメーションをユーザが容易に作ることができるツール等が普及している。

このようなツールを用いて作成されたアニメーションにおいては、アニメーションの動きとアニメーションの音声との整合性を維持することが課題になっている。

この課題に対する従来技術としては、例えば特許文献１に示すアニメーション生成装置が知られている。図１１は、特許文献１に記載されたアニメーション生成装置のブロック図である。

図１１に示すアニメーション生成装置は、ユーザ設定部３００、オブジェクト属性取得部３０４、サウンド加工部３０５、アニメーション生成部１０１、及び表示部１０２を備えている。ユーザ設定部３００は、オブジェクト設定部３０１、アニメーション設定部３０２、サウンドファイル設定部３０３を備え、ユーザがアニメーション効果に対する設定を行う。

オブジェクト設定部３０１は、ユーザによる設定操作にしたがって、アニメーション表示されるオブジェクトを示すオブジェクトデータを生成する。アニメーション設定部３０２は、ユーザによる設定操作にしたがって、アニメーション効果を示すアニメーション効果情報を生成する。サウンドファイル設定部３０３は、ユーザによる設定操作にしたがって、アニメーションのサウンドデータを生成する。

オブジェクト属性取得部３０４は、アニメーション効果の対象となるオブジェクトの属性（形状、色、大きさ、及び位置等）を示すオブジェクト属性情報を取得する。

サウンド加工部３０５は、編集対応テーブル３０６、波形編集装置３０７、及び加工制御部３０８を備え、アニメーション効果情報及びオブジェクト属性情報に基づいて、サウンドファイルを加工編集する。

編集対応テーブル３０６は、オブジェクト属性情報及び波形編集用パラメータの対応関係と、アニメーション効果情報及び波形編集用パラメータの対応関係を記憶する。ここで、オブジェクト属性情報及び波形編集用パラメータの対応関係としては、例えば、視覚的に重厚な印象を受けるオブジェクトに対してはサウンドがより重厚な印象となるような関係が対応付けられている。

アニメーション効果情報及び波形編集用パラメータの対応関係としては、例えば「ズームイン」のアニメーション効果に対して、「オブジェクトが徐々に拡大表示される」の波形編集用パラメータが対応付けられているというような関係が対応付けられている。

加工制御部３０８は、アニメーション効果情報に対応する波形編集用パラメータを、編集対応テーブル３０６から特定し、特定した波形編集用パラメータを用いた波形編集処理を波形編集装置３０７に実行させる。

波形編集装置３０７は、加工制御部３０８により特定された波形編集用パラメータを用いて波形編集処理を行う。

アニメーション生成部１０１は、加工制御部３０８により加工編集されたサウンドデータを利用してアニメーション対象のオブジェクトについてのアニメーションを生成する。表示部１０２は、アニメーション生成部１０１により生成されたアニメーション及び音声を出力する。

以上により、特許文献１のアニメーション生成装置では、ユーザによって予め設定された、アニメーション表示されるオブジェクトの色、大きさ、及び形状等の特徴に合致するように、音声の長さ及び音量が調整され、アニメーションの動きと音声との整合性が図られている。

ところで、近年、デジタル家電機器のユーザインターフェイス等において、アニメーションが採用されるケースが増大している。このようなユーザインターフェイスでは、ユーザからの操作指令により途中でアニメーションが停止されることもある。

しかしながら、特許文献１に示すアニメーション生成装置では、再生途中でアニメーションが停止された場合、音声をどのようにするかについての記載が全くなされていない。そのため、アニメーション開始前にアニメーションの動きに整合するように音声を編集したとしても、ユーザからの操作指令によってアニメーションが途中で停止された場合、音声が鳴り続けてしまい、アニメーションの動きと音声との整合性を図ることができなない。その結果、ユーザに対して違和感のあるアニメーションを提供してしまうという問題が発生する。

したがって、特許文献１により生成されたアニメーションを単にデジタル家電機器等のユーザインターフェイスに適合させただけでは、ユーザにより任意のタイミングでアニメーションが停止されてしまうと、音声がそのまま鳴り続け、ユーザに対して違和感を与えるという問題がある。

特開２０００−３３９４８５号公報

本発明の目的は、ユーザによりアニメーションが途中で停止されたとしても、ユーザに対して違和感を与えることなく音声を出力することができる技術を提供することである。

本発明の一局面による音声制御装置は、ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションデータに連動して再生される音声を示す音声データとを取得するアニメーション取得部と、開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析部と、前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御部と、前記音声データに基づいて音声を再生する音声出力制御部とを備え、前記音声出力制御部は、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する。

本発明の別の一局面による音声制御プログラムは、ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションに連動して再生される音声を示す音声データとを取得するアニメーション取得部と、開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析部と、前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御部と、前記音声データに基づいて音声を再生する音声出力制御部としてコンピュータを機能させ、前記音声出力制御部は、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する。

本発明の更に別の一局面による音声制御方法は、コンピュータが、ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションデータに連動して再生される音声を示す音声データとを取得するアニメーション取得ステップと、コンピュータが、開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析ステップと、コンピュータが、前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御ステップと、コンピュータが、前記音声データに基づいて音声を再生する音声出力制御ステップとを備え、前記音声出力制御ステップは、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する。

本発明の実施の形態による音声制御装置の構成を示すブロック図である。本発明の実施の形態による音声制御装置の処理の流れを示すフローチャートである。本発明の実施の形態による音声制御装置の処理の流れを示すフローチャートである。制御情報記憶部に記憶された音声制御情報テーブルのデータ構造の一例を示した図である。本発明の実施の形態によるアニメーションの概要を示した図である。本実施の形態によるフェードアウトの方法を説明するためのグラフである。音声属性情報保存部が保存している音声属性情報テーブルのデータ構造の一例を示した図である。音声解析部により解析された周波数特性を示すグラフである。フレッチャー・マンソンの等感度曲線を示したグラフである。本発明の実施の形態２における音声制御情報テーブルのデータ構造の一例を示した図である。特許文献１に記載されたアニメーション生成装置のブロック図である。

（実施の形態１）
以下、本発明の実施の形態における音声制御装置について、図面を参照しながら説明する。図１は、本発明の実施の形態による音声制御装置１の構成を示すブロック図である。音声制御装置１は、アニメーション取得部１１、音声出力制御部１２、アニメーション表示制御部１３、表示部１４、音声出力部１５、音声解析部１６、制御情報記憶部１７、音声属性情報保存部１８、及び操作部１９を備えている。

なお、アニメーション取得部１１、音声出力制御部１２、アニメーション表示制御部１３、音声解析部１６、制御情報記憶部１７、及び音声属性情報保存部１８は、コンピュータを音声制御装置として機能するための音声制御プログラムをコンピュータに実行させることで実現される。この音声制御プログラムは、コンピュータ読み取り可能な記録媒体に格納してユーザに提供してもよいし、ネットワークを介してダウンロードさせることでユーザに提供してもよい。また、音声制御装置１は、ユーザがアニメーション生成する際に用いるアニメーション生成装置に適用しても良いし、デジタル家電機器のユーザインターフェイスに適用しても良い。

アニメーション取得部１１は、ユーザの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータＤ１と、アニメーションに連動して再生される音声を示す音声データＤ２とを取得する。

ここで、アニメーションデータＤ１は、特許文献１に記載されたオブジェクトデータ、アニメーション効果情報、オブジェクト属性情報を含む。これらのデータは、ユーザが操作部１９等を用いた設定操作にしたがって、予め生成されたものである。

オブジェクトデータは、アニメーション表示されるオブジェクトを定義するデータであり、例えば、３つのオブジェクトがアニメーション表示される場合、オブジェクトＡ、Ｂ、Ｃ等の各オブジェクト名を示すデータ等が採用される。

アニメーション効果情報は、オブジェクトデータで定義された各オブジェクトの動作等を定義するデータであり、例えば、オブジェクトの動作時間及びオブジェクトの移動パターン等が含まれる。移動パターンとしては、例えば、オブジェクトを徐々に拡大表示させるズームイン、オブジェクトを徐々に縮小表示させるズームアウト、画面上の所定の位置から所定の位置まで所定の速度でオブジェクトを移動させるスライド等が採用される。

オブジェクト属性情報は、オブジェクトデータで定義された各オブジェクトの色、大きさ、及び形状等を定義するデータである。

音声データＤ２は、オブジェクトデータにより定義された各オブジェクトの動作に連動して再生される音声データである。この音声データＤ２は、ユーザにより設定された音声データに対し、特許文献１に示す手法を用いて各オブジェクトの動作と整合するように予め編集された音声データである。

具体的には、音声データＤ２は、各オブジェクトのオブジェクト属性情報で定義された内容及びアニメーション効果情報で定義された内容等に対して予め対応付けられた編集パラメータにしたがって編集されている。これにより、音声データＤ２の元の音声データは、再生時間、音量、及び聞こえの位置等がオブジェクトの動作時間、移動パターンと整合するように編集される。

また、アニメーション取得部１１は、操作部１９を用いたユーザにより入力されたアニメーション開始指令を受けて、アニメーションデータＤ１及び音声データＤ２をアニメーション表示制御部１３及び音声出力制御部１２に出力し、アニメーションを再生させる。

なお、アニメーション取得部１１は、音声制御装置１がアニメーション生成装置に適用される場合は、操作部１９を用いた設定操作に基づいてアニメーションデータＤ１及び音声データＤ２を生成する。また、アニメーション取得部１１は、音声制御装置１がデジタル家電機器に適用される場合は、アニメーション生成装置を用いてユーザにより生成されたアニメーションデータＤ１及び音声データＤ２を取得する。

また、アニメーション取得部１１は、アニメーションの再生中に、ユーザがアニメーションを停止させるための停止指令を操作部１９に入力した否かを検知する。そして、アニメーション取得部１１は、停止指令の入力を検知した場合、停止指令検知通知Ｄ３をアニメーション表示制御部１３及び音声出力制御部１２に出力する。

ここで、アニメーション取得部１１は、アニメーションの再生が開始されると、アニメーションの再生時間の計時を開始し、停止指令を検知すると、再生を開始してから停止指令を検知するまでの経過時間を求める。そして、アニメーション取得部１１は、その経過時間を示す経過時間通知Ｄ５を音声出力制御部１２に出力する。

音声解析部１６は、音声データＤ２が示す音声の開始から終了までの特徴を解析することで音声属性情報Ｄ４を生成し、生成した音声属性情報Ｄ４を音声属性情報保存部１８に保存する。具体的には、音声解析部１６は、音声データＤ２が示す音声の開始から終了までの最大音量を抽出し、抽出した最大音量を音声属性情報Ｄ４として生成する。

音声出力制御部１２は、停止指令検知通知Ｄ３が入力された場合、音声属性情報Ｄ４を用いて、アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、アニメーションに整合する音声の所定の出力方法を決定し、決定した出力方法にしたがって音声を再生する。

具体的には、音声出力制御部１２は、音声属性情報保存部１８から音声属性情報Ｄ４を取得し、取得した音声属性情報Ｄ４が示す最大音量に対する停止時の音声の相対音量（停止時音声情報の一例）を算出し、算出した相対音量が大きくなるにつれて、音量の減少率が小さくなるように、音声をフェードアウトさせる。

より具体的には、音声出力制御部１２は、制御情報記憶部１７に記憶された音声制御情報テーブルＴＢ１を参照し、相対音量に応じた音声制御情報を決定し、決定した音声制御情報と、経過時間通知Ｄ５が示す経過時間とを用いて減少率を算出し、算出した減少率で音声をフェードアウトさせる。

図４は、制御情報記憶部１７に記憶された音声制御情報テーブルＴＢ１のデータ構造の一例を示した図である。音声制御情報テーブルＴＢ１は、相対音量フィールドＦ１と音声制御情報フィールドＦ２とを含み、相対音量と音声制御情報とを対応付けて記憶している。図４の例では、音声制御情報テーブルＴＢ１は、３つのレコードＲ１〜Ｒ３を備えている。レコードＲ１は、相対音量フィールドＦ１に、「高音量（最大音量の６０％以上」が格納され、音声制御情報フィールドＦ２に、「（−１／２）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、停止時の相対音量が最大音量の６０％以上の場合、（−１／２）＊（停止時の音量／経過時間）の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

レコードＲ２は、相対音量フィールドＦ１に、「中音量（最大音量の４０％以上、６０％未満）」が格納され、音声制御情報フィールドＦ２に、「（−１）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、相対音量が最大音量の４０％以上、６０％未満の場合、（−１）＊（停止時の音量／経過時間）の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

レコードＲ３は、相対音量フィールドＦ１に、「低音量（最大音量の４０％）未満」が格納され、音声制御情報フィールドＦ２に、「（−２）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、相対音量が最大音量の４０％未満の場合、（−２）＊（停止時の音量／経過時間）の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

アニメーションの停止時に音声を停止させる方法としては、一般的に音声をミュートする方法が考えられる。しかしながら、アニメーションが停止すると同時に音声をミュートすると、ユーザに対して唐突に音声が途切れた印象を与えてしまい、違和感を与えてしまう。

アニメーションに音声を付加する本来の目的は、音声を付加することでより、高品位なアニメーションを作成することである。そのため、アニメーションの停止に調和するように自然な感じで音声を終了させることが好ましい。そこで、本実施の形態では、アニメーションが途中で停止した場合、音声をフェードアウトさせている。

また、アニメーションの停止時の音量が大きい場合、短時間で急速に音量をフェードアウトせるとユーザに対して違和感を与えてしまう。一方、アニメーションの停止時の音量が小さい場合、短時間で急速に音量をフェードアウトさせても、ユーザに対して違和感をさほど与えない。

そこで、図４の音声制御情報テーブルＴＢ１では、相対音量が増大するにつれて、減少率の係数の絶対値が２，１，１／２と小さく規定されている。

これにより、停止時の音量が大きいほど音声が緩やかにフェードアウトされるため、ユーザに違和感を与えることなく、音声を停止させることができる。

なお、図４の例では、音声制御情報テーブルＴＢ１は表形式で記述されているが、テキスト、ＸＭＬ、又はバイナリ等のコンピュータが読み取ることが可能な形式であれば、種々の形式で記述されていてもよい。

また、図４の例では、相対音量に応じて３つの音声制御情報が規定されているが、これに限定されず、相対音量に応じて、４つ以上又は２つの音声制御情報を規定してもよい。また、音声制御情報として、音量及び経過時間を引数として減少率を算出する関数を採用し、この関数により算出された減少率を用いて音声をフェードアウトさせてもよい。また、図４に示す相対音量の閾値も４０％、６０％に限定されず、３０％、５０％、７０％等の適宜異なる値を採用してもよい。

アニメーションが停止されるまでの経過時間が長い場合、急速に音声をフェードアウトさせると、ユーザに対して音声が唐突に変化した印象を与え、ユーザに違和感を与えてしまう。

そこで、図４に示す３つの音声制御情報は、いずれも（停止時の音量／経過時間）の項を備えている。つまり、アニメーションが停止されるまでの経過時間が増大するにつれて減少率の絶対値が小さく設定され、経過時間が減少するにつれて減少率の絶対値が大きく設定される。

これにより、アニメーションが停止されるまでの経過時間が長くなるにつれて音声がゆるやかにフェードアウトされ、ユーザに与える違和感をより低減させることができる。

図５は、本発明の実施の形態によるアニメーションの概要を示した図である。図５の例では、オブジェクトＯＢが表示画面の左下から右上に向けて５秒間でスライドされるアニメーションが表されている。

この場合、音声データＤ２は、オブジェクトＯＢの動きと整合するように、再生時間が５秒に編集されている。そして、図５の例では、アニメーションの再生開始時刻から３秒経過した時、ユーザにより停止指令が入力されている。

そのため、アニメーションの再生開始時刻から３秒経過した時点でアニメーションが停止され、オブジェクトＯＢが停止されている。従来の手法においては、アニメーションが途中で停止された際に音声データに対して何らの処理も施されていなかったため、停止指令が入力され、３秒の時点からアニメーションの終了時刻である５秒の時点までの２秒の間、音声が鳴り続けていた。そのため、アニメーションの動きと音声との整合性が失われていた。

一方、本実施の形態では、停止指令が入力された時点で、音声制御情報にしたがって、音声がフェードアウトされる。そのため、アニメーションの動きと音声との整合性を維持することができる。

図６は、本実施の形態によるフェードアウトの方法を説明するためのグラフであり、縦軸は音量を示し、横軸は時間を示している。

波形Ｗ１は音声データＤ２が示す音声波形を示している。波形Ｗ１の最大音量は５０の音量レベルを有している。よって、音声属性情報Ｄ４は５０となる。アニメーションの再生が開始されてからの経過時間がＴ１となった点Ｐ１でユーザにより停止指令が入力されたとする。なお、音量レベルは、所定範囲内（例えば０〜１００の範囲内）で規定された音量の大きさを示す数値である。

この場合、点Ｐ１の音量ＶＬ１の相対音量（＝ＶＬ１／５０）は４０％未満であるため、図４に示すレコードＲ３の音声制御情報フィールドＦ２に格納された音声制御情報が示す「（−２）＊（停止時の音量／経過時間）」を用いて減少率ＤＲ１が算出され、減少率ＤＲ１にしたがって音声がフェードアウトされる。

よって、音声は、減少率ＤＲ１の傾きを有する直線Ｌ１に沿って、音量が音量ＶＬ１から音量０に向けて徐々に小さくなるようにフェードアウトされる。

一方、アニメーションの再生が開始されてからの経過時間がＴ２となった点Ｐ２でユーザにより停止指令が入力されたとする。この場合、点Ｐ２の音量ＶＬ２の相対音量（＝ＶＬ２／５０）は６０％以上であるため、図４に示すレコードＲ１の音声制御情報フィールドＦ２に格納された音声制御情報が示す「（−１／２）＊（停止時の音量／経過時間）」を用いて減少率ＤＲ２が算出され、減少率ＤＲ２にしたがって音声がフェードアウトされる。

よって、音声は、減少率ＤＲ２の傾きを有する直線Ｌ２に沿って、音量が音量ＶＬ２から音量０に向けて徐々に小さくなるようにフェードアウトされる。

ここで、減少率ＤＲ２は、減少率ＤＲ１に対してほぼ１／４倍の値を有している。そのため、経過時間Ｔ１で停止指令が入力された場合よりも経過時間Ｔ２で停止指令が入力された場合の方が、相対音量が大きいため、ゆるやかに音声がフェードアウトされていることが分かる。

図１に戻り、音声出力部１５は、例えばスピーカ及びスピーカを制御する制御回路等を含み、音声出力制御部１２から出力される音声出力指令にしたがって、音声データＤ２を音声に変換して出力する。

アニメーション表示制御部１３は、アニメーションデータに基づいてアニメーションを再生し、ユーザにより停止指令が入力された場合、アニメーションを停止させる。具体的には、アニメーション表示制御部１３は、アニメーションデータＤ１が示すアニメーションを表示画面に表示するための描画指令を表示部１４に出力し、表示部１４にアニメーションを表示させる。

ここで、アニメーション表示制御部１３は、停止指令検知通知Ｄ３がアニメーション取得部１１から出力されたとき、ユーザにより停止指令が入力されたと判定し、描画を停止させるための描画停止指令を表示部１４に出力し、アニメーションを停止させる。

表示部１４は、描画バッファを含むグラフィックプロセッサ及び描画バッファに書き込まれた画像データを表示するディスプレイを含む。そして、表示部１４は、アニメーション表示制御部１３から出力される描画指令にしたがって、描画バッファにアニメーションのコマ画像の画像データを順次に書き込み、ディスプレイに順次に表示することでアニメーションを表示する。

操作部１９は、例えばデジタルテレビ若しくはＤＶＤレコーダ等のデジタル家電機器のリモコン、又はキーボード等で構成され、ユーザからの操作入力を受け付ける。本実施の形態では、操作部１９は、特に、アニメーションの再生を開始させるアニメーション開始指令、及びアニメーションの再生を途中で停止させる停止指令等が入力される。

制御情報記憶部１７は、例えば書き換え可能な不揮発性の記憶装置により構成され、図４に示す音声制御情報テーブルＴＢ１を記憶する。

音声属性情報保存部１８は、例えば書き換え可能な不揮発性の記憶装置により構成され、音声解析部１６により生成された音声属性情報Ｄ４を記憶する。図７は、音声属性情報保存部１８が保存している音声属性情報テーブルＴＢ２のデータ構造の一例を示した図である。

音声属性情報テーブルＴＢ２は、音声データＤ２のファイル名のフィールドＦ３と最大音量のフィールドＦ４とを備え、音声データＤ２のファイル名と音声データＤ２の最大音量とを対応付けて記憶している。本実施の形態では、音声属性情報Ｄ４として、最大音量が採用されているため、最大音量のフィールドＦ４に格納された最大音量が音声属性情報Ｄ４となる。なお、図７の例では、ファイル名がｍｙＭｕｓｉｃ．ｗａｖの音声データＤ２を解析した結果、最大音量が５０であったため、ファイル名のフィールドＦ３には、ｍｙＭｕｓｉｃ．ｗａｖが格納され、最大音量のフィールドＦ４には、５０が格納されている。

図７では、音声属性情報テーブルＴＢ２は、１つのレコードにより構成されているが、アニメーション取得部１１により取得される音声データＤ２の数に応じてレコードが追加される。

図２及び図３は、本発明の実施の形態による音声制御装置１の処理の流れを示すフローチャートである。まず、ステップＳ１において、アニメーション取得部１１は、アニメーションデータＤ１及び音声データＤ２を取得する。この音声データＤ２は、ユーザにより指定された音声データをアニメーションデータＤ１の動きに合わせて編集することで得られた音声データである。つまり、音声データＤ２は、アニメーションデータＤ１が示すオブジェクトの色、大きさ、及び形状にしたがって、再生時間、音量、及び聞こえの位置等が予め調整されている。

次に、音声解析部１６は、アニメーション取得部１１により編集された音声データＤ２を取得し、その音声データＤ２を解析することで（ステップＳ２）、最大音量を特定し、音声属性情報Ｄ４として音声属性情報保存部１８に保存する（ステップＳ３）。

次に、アニメーション表示制御部１３は、アニメーション取得部１１からアニメーションデータＤ１を取得し、取得したアニメーションデータＤ１が示すアニメーションを表示するための描画指令を表示部１４に出力し、アニメーションの再生を開始する（ステップＳ４）。ここで、アニメーション取得部１１は、アニメーションの再生時間の計時も開始する。

次に、アニメーション取得部１１は、アニメーションの再生が開始されると、アニメーションが終了するまでの間、ユーザからアニメーションの停止指令が入力されたか否かを監視する（ステップＳ５）。

そして、アニメーション取得部１１は、停止指令の入力を検出すると（ステップＳ６でＹＥＳ）、停止指令検知通知Ｄ３をアニメーション表示制御部１３及び音声出力制御部１２に出力する（ステップＳ７）。一方、アニメーション取得部１１は、停止指令の入力を検知しない場合（ステップＳ６でＮＯ）、処理をステップＳ５に戻す。

次に、アニメーション取得部１１は、アニメーションの再生が開始されてから停止指令を検知するまでの経過時間を示す経過時間通知Ｄ５を音声出力制御部１２に出力する（ステップＳ８）。

次に、音声出力制御部１２は、音声属性情報保存部１８から、再生されているアニメーションの音声属性情報Ｄ４を取得する（ステップＳ９）。

次に、音声出力制御部１２は、音声属性情報Ｄ４が示す最大音量に対する停止時の相対音量を算出し、算出した相対音量に応じた音声制御情報を音声制御情報テーブルＴＢ１から特定する（ステップＳ１０）。

次に、音声出力制御部１２は、特定した音声制御情報が示す式に、停止時の音量、経過時間通知Ｄ５が示す経過時間を代入して減少率を算出し、算出した減少率で音声がフェードアウトされるように音声出力部１５に音声出力指令を出力する（ステップＳ１１）。

次に、音声出力部１５は、音声出力制御部１２から出力された音声出力指令にしたがって音声を出力する（ステップＳ１２）。これにより、図６に示すようにアニメーションが停止された時の音量に応じて適切な減少率で音声がフェードアウトされる。

このように音声制御装置１によれば、音声を伴うアニメーションにおいて、アニメーションが再生途中でユーザにより停止された場合、停止時の音量及び再生から停止されるまでの経過時間に応じた適切な音量の減少率で音声がフェードアウトされる。そのため、アニメーションの停止に適合するように、音声を自動的に調整することが可能となり、再生途中でアニメーションが停止されたとしても、ユーザに違和感を与えることなく音声を停止させることができる。

なお、本実施の形態においては、音声データＤ２を音声解析部１６が解析して音声属性情報Ｄ４を生成し、音声属性情報保存部１８に保存する態様を採用しているが、アニメーション取得部１１が音声データＤ２を予め解析して音声属性情報Ｄ４を生成し、音声属性情報保存部１８に保存する態様を採用してもよい。

また、本実施の形態では、音声制御情報テーブルＴＢ１に格納された音声制御情報を用いて減少率を算出し、算出した減少率で音声をフェードアウトさせているが本発明はこれに限定されない。すなわち、アニメーションが再生途中で停止されたときに算出される停止時音声情報に応じて予め定められた音声停止パターンを制御情報記憶部１７に記憶させておき、ユーザにより停止指令が入力された場合、制御情報記憶部１７に記憶された音声停止パターンにしたがって音声を停止させてもよい。

ここで、音声停止パターンとしては、例えば、アニメーションが停止されてから音声が停止されるまでの音声波形を示す音声データを採用することができる。この場合、制御情報記憶部１７に、停止時音声情報に対応する複数の音声停止パターンを予め記憶させておく。そして、音声出力制御部１２は、停止時音声情報である相対音量に対応する音声停止パターンを特定し、特定した音声停止パターンで音声を出力させるための音声出力指令を音声出力部１５に出力すればよい。なお、この態様は、後述の実施の形態２に適用してもよい。

（実施の形態２）
実施の形態２による音声制御装置１は、ユーザにより停止指令が入力された場合、音量に代えて周波数特性にしたがって、音声を停止させることを特徴とする。なお、本実施の形態において、全体構成は図１と同じである。また、本実施の形態において、処理の流れも図２及び図３と同じである。また、本実施の形態において、実施の形態１と同一のものは説明を省略する。

本実施の形態において、音声解析部１６は、音声データＤ２の開始から終了までの周波数特性の時間的推移を算出し、算出した周波数特性の時間的推移を音声属性情報Ｄ４として生成し、音声属性情報保存部１８に保存する。

音声の周波数特性を解析する方法としては、音声データを入力信号とし、この入力信号に対して離散フーリエ変換を適用する手法が知られている。離散フーリエ変換は、例えば下記の式（１）によって表される。

（式１）

ここで、ｆ（ｘ）は１次元の入力信号であり、ｘはｆを規定する変数である。Ｆ（ｕ）は、ｆ（ｘ）の１次元の周波数特性を示す。ｕはｘに対応する周波数を示し、Ｍはサンプル点の個数を示す。

したがって、音声解析部１６は、音声データＤ２を入力信号として、式（１）を用いて周波数特性を算出する。

離散フーリエ変換は、一般的に高速フーリエ変換を用いて実行されるが、高速フーリエ変換の方法としては、Ｃｏｏｌｅｙ−Ｔｕｋｅｙ型アルゴリズム、ＰｒｉｍｅＦａｃｔｏｒアルゴリズムなど様々なものがある存在する。本実施の形態では、周波数特性として、振幅特性（振幅スペクトル）のみを用い、位相特性を用いない。したがって、計算時間はさほど問題とはならず、離散フーリエ変換としてどのような方式のものを採用しても良い。

図８は、音声解析部１６により解析された周波数特性を示すグラフであり、（Ａ）はある時刻における音声データＤ２の周波数特性を示し、（Ｂ）は音声データＤ２を示し、（Ｃ）はある時刻における周波数特性を示している。音声解析部１６は、図８（Ｃ）に示す周波数特性を複数時刻に亘って算出し、これら複数時刻の周波数特性を音声属性情報Ｄ４として生成し、音声属性情報保存部１８に保存する。

なお、音声解析部１６は、例えば、音声データＤ２に対して周波数特性の算出期間を定める算出ウインドウを時間軸に設定し、算出ウインドウを時間軸に沿ってずらしながら、音声データＤ２の周波数特性を繰り返し算出することで、周波数特性の時間的推移を算出すればよい。

音声出力制御部１２は、停止指令検知通知Ｄ３が入力された場合、経過時間通知Ｄ５が示す経過時間における周波数特性である停止時周波数特性（停止時音声情報の一例）を音声属性情報保存部１８から特定する。そして、音声出力制御部１２は、停止時周波数特性が、所定の非可聴帯域に分布している場合、音声をミュートにする。また、音声出力制御部１２は、停止時周波数特性が、人間の聴力の感度が高い所定の高感度帯域に分布している場合、可聴帯域の他の帯域に分布している場合に比べて、フェードアウト時の音量の減少率を小さく設定する。

人間の聴力には周波数特性があり、人間の聴力の最低周波数は２０Ｈｚ程度であり、２ｋＨｚ付近を中心に聴力の感度が高くなることが知られている。よって、本実施の形態では、非可聴帯域として２０Ｈｚ以下の帯域を採用し、可聴帯域として２０Ｈｚより大きく、かつ、人間の聴力の上限周波数（例えば３．５ｋＨｚ〜７ｋＨｚ）以下の帯域を採用する。

図９は、フレッチャー・マンソンの等感度曲線を示したグラフであり、縦軸は音圧レベル（ｄＢ）を示し、横軸は周波数（Ｈｚ）を対数スケールで示している。

図９に示すフレッチャー・マンソンの等感度曲線に従えば、おおまかに５００Ｈｚ以下の低域で、周波数が低くなるほど、又は、音量が小さくなるほど、音が聞こえにくくなる、ということが知られている。

そこで、本実施の形態では、音声出力制御部１２は、図１０に示す音声制御情報テーブルＴＢ１１を用いて音声の出力方法を決定する。図１０は、本発明の実施の形態２における音声制御情報テーブルＴＢ１１のデータ構造の一例を示した図である。図１０に示すように、音声制御情報テーブルＴＢ１１は、周波数フィールドＦ１１と音声制御情報フィールドＦ１２とを含み、周波数と音声制御情報とを対応付けて記憶している。図１０の例では、音声制御情報テーブルＴＢ１１は、５つのレコードＲ１１〜Ｒ１５を備えている。

レコードＲ１１は、周波数フィールドＦ１１に「非可聴帯域」が格納され、音声制御情報フィールドＦ２に「ミュート」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、停止時周波数特性が非可聴領域に分布している場合、音声をミュートにさせる。

レコードＲ１２〜Ｒ１５は可聴帯域に対応している。そして、レコードＲ１２は、周波数フィールドＦ１１に「２０Ｈｚ〜５００Ｈｚ」が格納され、音声制御情報フィールドＦ１２に「（−２）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、停止時周波数特性が２０Ｈｚ〜５００Ｈｚの帯域に分布している場合、（−２）＊（停止時の音量／経過時間）の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

レコードＲ１３は、周波数フィールドＦ１１に「５００Ｈｚ〜１５００Ｈｚ」が格納され、音声制御情報フィールドＦ１２に「（−１）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、停止時周波数特性が５００Ｈｚ以上、１５００Ｈｚ未満の帯域に分布している場合、（−１）＊（停止時の音量／経過時間）の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

レコードＲ１４は、周波数フィールドＦ１１に「１５００Ｈｚ〜２５００Ｈｚ」が格納され、音声制御情報フィールドＦ１２に「（−１／２）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。本実施の形態では、「１５００Ｈｚ〜２５００Ｈｚ」の帯域が高感度帯域に該当する。なお、この数値は一例であり、高感度帯域の範囲をこれよりも狭くしてもよいし、広くしてもよい。

したがって、音声出力制御部１２は、停止時周波数特性が１５００Ｈｚ以上、２５００Ｈｚ未満の帯域に分布している場合、（−１／２）＊（停止時の音量／経過時間）の減少率の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

レコードＲ１５には、周波数フィールドＦ１１に「２５００Ｈｚ〜」が格納され、音声制御情報フィールドＦ１２に「（−１）＊（停止時の音量／経過時間）の減少率でフェードアウト」の音声制御情報が格納されている。

したがって、音声出力制御部１２は、停止時周波数特性が２５００Ｈｚ以上の帯域に分布している場合、（−１）＊（停止時の音量／経過時間）の減少率の式を用いて減少率を算出し、算出した減少率で音量を徐々に減少させ、音声をフェードアウトさせる。

つまり、音声制御情報テーブルＴＢ１１においては、レコードＲ１２〜Ｒ１５に示すように、高感度帯域における係数は−１／２であるため、可聴帯域の他の帯域より減少率の絶対値が小さく算出される。

したがって、人間の聴力が敏感になる２ｋＨｚ付近に停止時周波数特性が分布している場合、他の帯域に分布している場合に比べて、ゆっくりと音声がフェードアウトされるため、ユーザに対して違和感を与えることなく音声を停止させることができる。

なお、音声出力制御部１２は、停止時周波数特性がピークを示すときの周波数であるピーク周波数を求め、そのピーク周波数が図１０に示す帯域のうちいずれの帯域に属しているかに応じて、停止時周波数特性がどの帯域に分布しているかを判定すればよい。

上記実施の形態１、２において、ユーザより停止指令が入力されて停止されたアニメーションが、再度、ユーザにより再開された場合、停止された箇所からアニメーションが再開される。この場合、アニメーションが停止された時の音量及び周波数周波数特性を記録しておけばよい。

そして、ユーザにより停止中のアニメーションとは異なるアニメーションの再生が指示された場合、記録した音量又は周波数特性に着目して、アニメーションを再生させればよい。

例えば停止時の周波数特性が２０Ｈｚ以下の場合、または、２０Ｈｚ以上５００Ｈｚ未満の帯域に分布している場合、次のアニメーションの音声をそのまま再生させればよい。

また、停止時の周波数特性が２ｋＨｚ付近、つまり、高感度帯域に分布している場合、図１０の「（−１）＊（停止時の音量／経過時間）」の減少率で前のアニメーションの音声をフェードアウトさせると共に、「（停止時の音量／経過時間）」の増加率で次のアニメーションの音声をフェードインさせればよい。フェードインの期間としてはフェードアウトの期間と同じ期間を採用すればよい。

上記の音声制御装置の技術的特徴は下記のようにまとめられる。

（１）本発明による音声制御装置は、ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションデータに連動して再生される音声を示す音声データとを取得するアニメーション取得部と、開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析部と、前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御部と、前記音声データに基づいて音声を再生する音声出力制御部とを備え、前記音声出力制御部は、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する音声の所定の出力方法を決定し、決定した出力方法にしたがって音声を再生する。

この構成によれば、音声を伴うアニメーションにおいて、アニメーションが再生途中でユーザにより停止された場合、アニメーションの停止時の音声の特徴を示す停止時音声情報が算出され、この停止時音声情報に基づいて、停止するアニメーションに整合する所定の出力方法が決定される。そのため、アニメーションの停止に適合するように、音声を自動的に調整することが可能となり、再生途中でアニメーションが停止されたとしても、ユーザに違和感を与えることなく音声を出力させることができる。

（２）前記停止時音声情報に応じて予め定められた複数の音声制御情報を記憶する制御情報記憶部を更に備え、前記音声出力制御部は、前記停止時音声情報に応じた音声制御情報を決定し、決定した音声制御情報にしたがって音声を停止することが好ましい。

この構成によれば、音声制御情報記憶部に記憶された音声制御情報の中から停止時音声情報に対応する音声制御情報が決定され、決定された音声制御情報にしたがって音声が停止される。そのため、簡便かつ速やかに音声の出力方法を決定することができる。

（３）前記音声属性情報を保存する音声属性情報保存部を更に備え、前記音声出力制御部は、前記音声属性情報保存部に保存された音声属性情報を用いて、前記停止時音声情報を算出することが好ましい。

この構成によれば、アニメーションの再生に先立って音声属性情報保存部に音声属性情報が予め保存されるため、音声出力制御部は、アニメーションの停止時に速やかに音声属性情報決定し、速やかに音声の出力方法を決定することができる。

（４）前記音声属性情報は、前記音声の最大音量を示し、前記停止時音声情報は、前記最大音量に対する前記停止時の前記音声の相対音量を示し、前記音声出力制御部は、前記相対音量が大きくなるにつれて、音量の減少率が小さくなるように、音声をフェードアウトさせることが好ましい。

この構成によれば、停止時の音量が大きいほど減少率が小さく設定されて音声がフェードアウトされる。そのため、アニメーションの停止時の音量が大きい場合に、ゆっくりと音声がフェードアウトされ、ユーザに対して違和感を与えることを防止することができる。一方、アニメーションの停止時の音量が小さい場合、急速に音声がフェードアウトされるため、ユーザに対して違和感を与えることなく、急速に音声を停止させることができる。

（５）前記音声出力制御部は、前記アニメーションが停止されるまでの経過時間が増大するにつれて、前記減少率を小さく設定することが好ましい。

この構成によれば、アニメーションが停止されるまでの経過時間が増大するにつれて音声が緩やかにフィードアウトされるため、ユーザに違和感を与えることなく、音声を停止させることができる。

（６）前記音声属性情報は、前記音声データの開始から終了までの周波数特性の時間的推移を示し、前記停止時音声情報は、前記停止時の前記音声データの周波数特性を示す停止時周波数特性であり、前記音声出力制御部は、前記停止時周波数特性が所定の非可聴帯域に分布している場合、音声をミュートにし、前記停止時周波数特性が前記非可聴帯域よりも上の可聴帯域に分布している場合、音声をフェードアウトさせることが好ましい。

この構成によれば、停止時周波数特性が非可聴帯域に分布している場合、音声がミュートされ、停止時周波数特性が可聴帯域に分布している場合、音声がフェードアウトされるため、ユーザに違和感を与えることなく音声を停止させることができる。

（７）前記音声出力制御部は、前記停止時周波数特性が、人間の聴力の感度が高い所定の高感度帯域に分布している場合、前記可聴帯域の他の帯域に分布している場合に比べて、フェードアウト時の音量の減少率を小さく設定することが好ましい。

この構成によれば、停止時周波数特性が高感度帯域に分布している場合、他の帯域に分布している場合に比べて、ゆっくりと音声がフェードアウトされるため、ユーザに対して違和感を与えることなく音声を停止させることができる。

（８）前記音声出力制御部は、前記アニメーションが停止されるまでの経過時間が増大するにつれて、前記減少率を小さくすることが好ましい。

この構成によれば、アニメーションが停止されるまでの経過時間が増大するにつれて音声がゆっくりとフィードアウトされるため、ユーザに違和感を与えることなく、音声を停止させることができる。

（９）前記音声出力制御部は、前記停止時音声情報に応じて予め定められた音声停止パターンで音声を停止させることが好ましい。

この構成によれば、アニメーションが停止された場合、簡便、かつ速やかに音声を停止させることができる。

本発明の装置によれば、音声を伴うアニメーションで、アニメーション実行途中にアニメーションがユーザにより停止された場合、停止するアニメーションに整合するように、音声の出力方法が決定されるため、アニメーション生成ツールでアニメーションを開発するユーザ、及びデジタル家電機器のユーザインターフェイスを利用するユーザに対する利便性を向上させることができる。特に、今後ますます利用が増えると予想されるアニメーションソフトウェア開発に際して本発明は有用である。

Claims

ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションデータに連動して再生される音声を示す音声データとを取得するアニメーション取得部と、
開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析部と、
前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御部と、
前記音声データに基づいて音声を再生する音声出力制御部とを備え、
前記音声出力制御部は、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する音声制御装置。
前記停止時音声情報に応じて予め定められた複数の音声制御情報を記憶する制御情報記憶部を更に備え、
前記音声出力制御部は、前記停止時音声情報に応じた音声制御情報を決定し、決定した音声制御情報にしたがって音声を停止する請求項１記載の音声制御装置。
前記音声属性情報を保存する音声属性情報保存部を更に備え、
前記音声出力制御部は、前記音声属性情報保存部に保存された音声属性情報を用いて、前記停止時音声情報を算出する請求項１又は２記載の音声制御装置。
前記音声属性情報は、前記音声データの最大音量を示し、
前記停止時音声情報は、前記最大音量に対する前記停止時の音声の相対音量を示し、
前記音声出力制御部は、前記相対音量が大きくなるにつれて、音量の減少率が小さくなるように、音声をフェードアウトさせる請求項１〜３のいずれかに記載の音声制御装置。
前記音声出力制御部は、前記アニメーションが停止されるまでの経過時間が増大するにつれて、前記減少率を小さく設定する請求項４記載の音声制御装置。
前記音声属性情報は、前記音声データの開始から終了までの周波数特性の時間的推移を示し、
前記停止時音声情報は、前記停止時の前記音声データの周波数特性を示す停止時周波数特性であり、
前記音声出力制御部は、前記停止時周波数特性が所定の非可聴帯域に分布している場合、音声をミュートにし、前記停止時周波数特性が前記非可聴帯域よりも上の可聴帯域に分布している場合、音声をフェードアウトさせる請求項１〜３のいずれかに記載の音声制御装置。
前記音声出力制御部は、前記停止時周波数特性が人間の聴力の感度が高い所定の高感度帯域に分布している場合、前記停止時周波数特性が前記可聴帯域の他の帯域に分布している場合に比べて、フェードアウト時の音量の減少率を小さく設定する請求項６記載の音声制御装置。
前記音声出力制御部は、前記アニメーションが停止されるまでの経過時間が増大するにつれて、前記減少率を小さくする請求項７記載の音声制御装置。
前記音声出力制御部は、前記停止時音声情報に応じて予め定められた音声停止パターンで音声を停止させる請求項１〜３のいずれかに記載の音声制御装置。
ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションに連動して再生される音声を示す音声データとを取得するアニメーション取得部と、
開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析部と、
前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御部と、
前記音声データに基づいて音声を再生する音声出力制御部としてコンピュータを機能させ、
前記音声出力制御部は、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する音声制御プログラム。
コンピュータが、ユーザからの設定操作に基づいて予め生成されたアニメーションを示すアニメーションデータと、前記アニメーションデータに連動して再生される音声を示す音声データとを取得するアニメーション取得ステップと、
コンピュータが、開始から終了までの前記音声データの特徴を解析することで音声属性情報を生成する音声解析ステップと、
コンピュータが、前記アニメーションデータに基づいてアニメーションを再生し、ユーザにより前記アニメーションを停止させるための停止指令が入力された場合、前記アニメーションを停止させるアニメーション表示制御ステップと、
コンピュータが、前記音声データに基づいて音声を再生する音声出力制御ステップとを備え、
前記音声出力制御ステップは、前記停止指令が入力された場合、前記音声属性情報を用いて、前記アニメーションの停止時の音声の特徴を示す停止時音声情報を算出し、算出した停止時音声情報に基づいて、停止するアニメーションに整合する前記音声の所定の出力方法を決定し、決定した出力方法にしたがって前記音声を再生する音声制御方法。