WO2023238339A1

WO2023238339A1 - 音声生成方法、音声生成装置及びプログラム

Info

Publication number: WO2023238339A1
Application number: PCT/JP2022/023343
Authority: WO
Inventors: 瑞生長野; 勇祐井島; 定男廣谷
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-12-14

Abstract

本開示の一態様による音声生成方法は、学習用の第１の音声データが表す第１の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第１の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第１の購買意欲ベクトルと、前記第１の音声の特徴を表す第１の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、与えられた第２の音声データが表す第２の音声の特徴を表す第２の音声特徴量ベクトルと、目標とする購買意欲を表す第２の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第２の音声特徴量ベクトルが表す特徴を調整した第３の音声特徴量ベクトルを作成する調整手順と、前記第２の音声データと、前記第３の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第３の音声を生成する音声生成手順と、をコンピュータが実行する。

Description

音声生成方法、音声生成装置及びプログラム

　本開示は、音声生成方法、音声生成装置及びプログラムに関する。

　マーケティングや消費者行動研究等の分野において、ＰＡＤ（Pleasure Arousal Dominance）モデルと呼ばれる購買行動モデルが知られている（例えば、非特許文献１）。これは、消費者の購買行動を外部刺激、感情、購買行動の３ステップに分けて考えるモデルである。ＰＡＤモデルでは、消費者が店舗に入店したとき、店舗の混雑状況や商品配列等の外部刺激によって感情が生起される。そして、これらの感情によって、購買意欲が高いことを示す「接近」又は購買意欲が低いことを示す「回避」の行動が生まれ、購買行動に移るか否かが決定される。ここで、ＰＡＤモデルにおける感情は、「快感情（Pleasure）」、興奮状態を示す「覚醒（Arousal）」、状況に対する自分の影響力を示す「支配（Dominance）」の３次元で表される。

　従来の様々な研究によりＰＡＤモデルの有効性は示されており、例えば、非特許文献１では、実店舗での調査によって高い快感情が非計画購買や店舗滞在時間に有意な正の影響を及ぼすことが示されている。

　また、近年では、音声刺激もＰＡＤモデルに適用可能であることが明らかになりつつある。例えば、非特許文献２では、快感情を高めるような音声を生成することで、購買意欲の向上が期待できることが示されている。

　ところで、音声分野では、感情と印象は強い関係があることが知られている。例えば、非特許文献３では、音声の感情を認識する際に音声への印象を考慮することでより精度良く感情を識別できることが示されている。

　このため、購買意欲の向上が期待できる音声を生成する際には、音声に対する印象も考慮することが必要であると考えらえる。

Donovan, R. J., Rossiter, J. R., Marcoolyn, G., and Nesdale, A. "Store atmosphere and purchasing behavior", Journal of Retailing, Vol.70, No.3, pp.283-294, 1994. Nagano, M., Ijima, Y., Hiroya, S., "Impact of Emotional State on Estimation of Willingness to Buy from Advertising Speech.", Proc. Interspeech 2021, 2486-2490, 2021. Li, Xingfeng and Akagi, Masato, "A Three-Layer Emotion Perception Model for Valence and Arousal-Based Detection from Multilingual Speech", Proc. Interspeech 2018,3643-3647, 2018.

　しかしながら、従来、印象も考慮した上で購買意欲の向上が期待できる音声を生成することは困難であった。

　本開示は、上記の点に鑑みてなされたもので、購買意欲の向上が期待できる音声を生成する技術を提供する。

　購買意欲の向上が期待できる音声を生成する技術が提供される。

音声生成装置のハードウェア構成例を示す図（実施例１）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例１）である。モデル学習処理を示すフローチャート（実施例１）である。音声生成時における音声生成装置の機能構成例を示す図（実施例１）である。音声生成処理を示すフローチャートである。調整後音声特徴量ベクトル作成処理を示すフローチャートである。モデル学習時における音声生成装置の機能構成例を示す図（実施例２）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例３）である。モデル学習処理を示すフローチャート（実施例３）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例４）である。モデル学習処理を示すフローチャート（実施例４）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例５）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例６）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例７）である。モデル学習時における音声生成装置の機能構成例を示す図（実施例８）である。

　以下、本発明の一実施形態について説明する。以下の実施形態では、印象も考慮した上で購買意欲の向上が期待できる音声を生成できる音声生成装置１０について説明する。ここで、本実施形態に係る音声生成装置１０には、モデル学習時と音声生成時の２つフェーズが存在する。モデル学習時は、音声の印象も考慮したＰＡＤモデルにより、購買意欲の向上が期待できる音声を生成するためのモデル（以下、購買意欲向上音声推定モデルともいう。）を作成するフェーズである。一方で、音声生成時は、購買意欲向上音声推定モデルにより、顧客の購買意欲向上が期待できる音声を生成するフェーズである。

　なお、以下の実施形態では、「ベクトル」には１次元のベクトル（つまり、スカラー）も含まれるものとする。

　［実施例１］
　以下、本実施形態に係る音声生成装置１０の実施例１について説明する。

　＜音声生成装置１０のハードウェア構成（実施例１）＞
　実施例１における音声生成装置１０のハードウェア構成例を図１に示す。図１に示すように、実施例１における音声生成装置１０は、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、ＲＡＭ（Random Access Memory）１０５と、ＲＯＭ（Read Only Memory）１０６と、補助記憶装置１０７と、プロセッサ１０８とを有する。これらの各ハードウェアは、それぞれがバス１０９を介して通信可能に接続されている。

　入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、音声生成装置１０は、例えば、入力装置１０１及び表示装置１０２の少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。音声生成装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。記録媒体１０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　通信Ｉ／Ｆ１０４は、音声生成装置１０を通信ネットワークに接続するためのインタフェースである。ＲＡＭ１０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置１０７は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等のストレージ装置（記憶装置）である。プロセッサ１０８は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の演算装置である。

　実施例１における音声生成装置１０は、図１に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図１に示すハードウェア構成は一例であって、音声生成装置１０のハードウェア構成はこれに限られるものではない。例えば、音声生成装置１０は、複数の補助記憶装置１０７や複数のプロセッサ１０８を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

　＜モデル学習時における音声生成装置１０の機能構成（実施例１）＞
　モデル学習時における音声生成装置１０の機能構成例を図２に示す。図２に示すように、モデル学習時における音声生成装置１０は、音声特徴量抽出部２０１と、感情パラメータ学習部２０２と、印象パラメータ学習部２０３と、音声調整パラメータ学習部２０４とを有する。これら各部は、例えば、音声生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

　音声特徴量抽出部２０１は、与えられた実験音声データを入力として、学習用音声特徴量ベクトルを出力する。

　ここで、実験音声データとは、購買意欲向上音声推定モデルの作成（学習）のために与えられた音声データのことである。実験音声データの発話内容や文書数、発話者の数、発話者の性別等は特に限定されない。

　また、学習用音声特徴量ベクトルとは、実験音声データから抽出された特徴量（音声の特徴を表す量又は値）を要素とするベクトルデータのことである。特徴量としては、例えば、実験音声データの声の高さ（Ｆ０）、話す速度、Ｆ０の平均や分散、話す速度の平均や分散、パワー、スペクトル傾斜等が挙げられる。

　以下、１つの実験音声データに対して１つの学習用音声特徴量ベクトルが得られるものとする。

　感情パラメータ学習部２０２は、与えられた学習用購買意欲ベクトルと与えられた学習用感情表現ベクトルとを入力として、感情パラメータを出力する。

　ここで、学習用購買意欲ベクトルとは、実験音声データを聴取した者（聴取者）の購買意欲を数値で表したものを要素とするベクトルデータのことである。学習用購買意欲ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。例えば、或る商品に関して「どの程度買いたいと思ったか」を７段階で評価してもらい、その評価値から学習用購買意欲ベクトルを作成する。ただし、これは一例であって、これ以外にも、例えば、聴取者が当該商品を実際に購入したか否かを２値で記録した購買ログ等から学習用購買意欲ベクトルが作成されてもよい。

　以下、１つの実験音声データに対して１つの学習用購買意欲ベクトルが与えられたものとする。なお、例えば、１つの実験音声データに対して複数の者が評価した場合には、それらの評価値の平均から学習用購買意欲ベクトルを作成すればよい。

　また、学習用感情表現ベクトルとは、実験音声データを聴取した聴取者のｎ（ただし、ｎ≧１）個の感情をそれぞれ数値で表したものを要素とするベクトルデータのことである。学習用感情表現ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。このとき、対象とする感情としては、例えば、非特許文献１や非特許文献２等に記載されている「快感情」、「覚醒」、「支配」の３つ感情（ＰＡＤ尺度）を用いてもよいし、参考文献１に記載されているようなその他の感情を用いてもよい。これらの感情の各々に関して、例えば、参考文献２に記載されているように感情を７段階で回答してもらい、その回答結果から学習用感情表現ベクトルを作成する。なお、以下では、学習用感情表現ベクトルの要素となるｎ個の感情の各々のことを感情次元ともいう。

　以下、１つの実験音声データに対して１つの学習用感情表現ベクトルが与えられたものとする。なお、１つの実験音声データに対して複数の者が回答した場合には、それらの回答結果の平均から学習用感情表現ベクトルを作成すればよい。

　また、感情パラメータとは、学習用感情表現ベクトルによって表される各感情が学習用購買意欲ベクトルに及ぼす影響を示すパラメータのことである。

　印象パラメータ学習部２０３は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、印象パラメータを出力する。

　ここで、学習用音声印象ベクトルとは、実験音声データを聴取した聴取者のｍ（ｍ≧１）個の印象をそれぞれ数値で表したものを要素とするベクトルデータのことである。学習用音声印象ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。このとき、対象とする印象としては、例えば、参考文献３に記載されている声質表現語を用いてもよいし、音声に対する好き嫌い等といったその他の印象評価を用いてもよい。例えば、声質表現語を用いる場合、「明るい－暗い」のような形容詞対に対してそれぞれ７段階で回答してもらい、その回答結果から学習用音声印象ベクトルを作成する。

　以下、１つの実験音声データに対して１つの学習用音声印象ベクトルが与えられたものとする。なお、１つの実験音声データに対して複数の者が回答した場合には、それらの回答結果の平均から学習用音声印象ベクトルを作成すればよい。

　また、印象パラメータとは、学習用音声印象ベクトルによって表される各印象が学習用感情表現ベクトルに及ぼす影響を示すパラメータのことである。

　音声調整パラメータ学習部２０４は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。

　ここで、音声調整パラメータとは、学習用音声特徴量ベクトルによって学習用購買意欲ベクトルを表現するためのパラメータである。この音声調整パラメータが適切に学習されることで、目標とする購買意欲を表す購買意欲ベクトルと或る音声特徴量ベクトルとが与えられたときに、その音声特徴量ベクトルを、目標とする購買意欲を生起させる音声の音声特徴量ベクトルに調整することが可能となる。以下、この調整後の音声特徴量ベクトルを「調整後音声特徴量ベクトル」ともいう。

　また、購買意欲向上音声推定モデルとは、音声調整パラメータによって購買意欲と音声特徴との関係性を表したモデルのことである。購買意欲向上音声推定モデルによって、目標とする購買意欲を表す購買意欲ベクトルと或る音声特徴量ベクトルとが与えられたときに、その購買意欲を生起させる音声の音声特徴量ベクトルを調整後音声特徴量ベクトルとして得ることができる。

　上記の感情パラメータ学習部２０２、印象パラメータ学習部２０３及び音声調整パラメータ学習部２０４は、与えられた学習用購買意欲ベクトルを再現するように、ＰＡＤモデル従って感情パラメータ、印象パラメータ及び音声調整パラメータを順に学習する。

　なお、ＰＡＤモデルでは、購買意欲及び各感情次元は係数ｘ_１，ｘ_２，・・・，ｘ_ｎ，ａ_１１，ａ_１２，・・・，ａ_ｎｋを用いて以下のように表すことができる。

　購買意欲＝ｘ_１×Ｘ_１＋ｘ_２×Ｘ_２＋・・・＋ｘ_ｎ×Ｘ_ｎ
　Ｘ_１＝ａ_１１×ｆ_１＋ａ_１２×ｆ_２＋・・・＋ａ_１ｋ×ｆ_ｋ
　Ｘ_２＝ａ_２１×ｆ_１＋ａ_２２×ｆ_２＋・・・＋ａ_２ｋ×ｆ_ｋ
　・・・
　Ｘ_ｎ＝ａ_ｎ１×ｆ_１＋ａ_ｎ２×ｆ_２＋・・・＋ａ_ｎｋ×ｆ_ｋ
　ここで、Ｘ_１，Ｘ_２，・・・，Ｘ_ｎは感情次元、ｆ_１，ｆ_２，・・・，ｆ_Ｋは特徴量（音声データから抽出される特徴量）、ｋは特徴量数である。

　したがって、購買意欲は以下のように表すことができる。

　購買意欲＝（ｘ_１ａ_１１＋ｘ_２ａ_２１＋・・・＋ｘ_ｎａ_ｎ１）ｆ_１＋・・・＋（ｘ_１ａ_１ｋ＋ｘ_２ａ_２ｋ＋・・・＋ｘ_ｎａ_ｎｋ）ｆ_ｋ
　このように、購買意欲は、ｋ個の特徴量の１次式で表すことができる。

　＜モデル学習処理（実施例１）＞
　以下、実施例１におけるモデル学習処理について、図３を参照しながら説明する。

　音声特徴量抽出部２０１は、与えられた実験音声データを入力として、学習用音声特徴量ベクトルを出力する（ステップＳ１０１）。音声特徴量抽出部２０１は、例えば、与えられた実験音声データに対してフレーム毎にフーリエ変換等の信号処理を行うことで、学習用音声特徴量ベクトルを作成すればよい。又は、音声特徴量抽出部２０１は、例えば、ＯｐｅｎＳＭＩＬＥ（参考文献４）等といった音声特徴量抽出ツールを用いて、与えられた実験音声データから学習用音声特徴量ベクトルを作成してもよい。

　感情パラメータ学習部２０２は、与えられた学習用購買意欲ベクトルと学習用感情表現ベクトルとを入力として、感情パラメータを出力する（ステップＳ１０２）。感情パラメータ学習部２０２は、例えば、重回帰分析、参考文献５に記載されているパス解析等といった手法により感情パラメータを学習すればよい。

　例えば、事前の主観評価実験等により学習用感情表現ベクトル［快感情，覚醒，支配］が得られているものとする。重回帰分析により感情パラメータを学習する場合、学習用購買意欲ベクトルは、回帰係数ａ，ｂ，ｃと誤差ｄを用いて、以下のように表すことができる。

　学習用購買意欲ベクトル＝ａ×快感情＋ｂ×覚醒＋ｃ×支配＋ｄ
　したがって、この場合、感情パラメータ学習部２０２は、回帰係数ａ，ｂ，ｃを感情パラメータとして出力する。

　上記以外にも、感情パラメータ学習部２０２は、例えば、ニューラルネットワークを用いて感情パラメータを学習してもよい。例えば、参考文献２に記載されている手法と同様に、ニューラルネットワークに学習用感情表現ベクトルを入力したときの出力が学習用購買意欲ベクトルを再現するようにパラメータを学習し、この学習後のパラメータを感情パラメータとしてもよい。

　印象パラメータ学習部２０３は、与えられた学習用感情表現ベクトルと学習用音声印象ベクトルとを入力として、印象パラメータを出力する（ステップＳ１０３）。印象パラメータ学習部２０３は、感情パラメータ学習部２０２と同様に、重回帰分析、パス解析、ニューラルネットワーク等により印象パラメータを学習すればよい。

　例えば、事前の主観評価実験等により学習用音声印象ベクトル［落ち着きの有無，声の明るさ］と学習用感情表現ベクトル［快感情，覚醒，支配］とが得られているものとする。重回帰分析により印象パラメータを学習する場合、学習用感情表現ベクトルは、回帰係数Ｓ_ｐ，Ｓ_ａ，Ｓ_ｄ，Ｔ_ｐ，Ｔ_ａ，Ｔ_ｄと誤差Ｒ_ｐ，Ｒ_ａ，Ｒ_ｄを用いて、以下のように表すことができる。

　快感情＝Ｓ_ｐ×落ち着きの有無＋Ｔ_ｐ×声の明るさ＋Ｒ_ｐ
　覚醒＝Ｓ_ａ×落ち着きの有無＋Ｔ_ａ×声の明るさ＋Ｒ_ａ
　支配＝Ｓ_ｄ×落ち着きの有無＋Ｔ_ｄ×声の明るさ＋Ｒ_ｄ
　したがって、この場合、印象パラメータ学習部２０３は、回帰係数Ｓ_ｐ，Ｔ_ｐ，Ｓ_ａ，Ｔ_ａ，Ｓ_ｄ，Ｔ_ｄを印象パラメータとして出力する。

　音声調整パラメータ学習部２０４は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習する（ステップＳ１０４）。音声調整パラメータ学習部２０４は、以下の手順１－１～手順１－２により音声調整パラメータを学習する。

　手順１－１：音声調整パラメータ学習部２０４は、学習用音声特徴量ベクトル及び学習用音声印象ベクトルを用いて、音声の特徴によってその音声の印象を表すための係数を学習する。音声調整パラメータ学習部２０４は、感情パラメータ学習部２０２や印象パラメータ学習部２０３と同様に、重回帰分析、パス解析、ニューラルネットワーク等により当該係数を学習すればよい。

　例えば、学習用音声特徴量ベクトル［Ｆ０，話速，Ｆ０分散］と学習用音声印象ベクトル［落ち着きの有無，声の明るさ］とが得られているものとする。重回帰分析により当該係数を学習する場合、学習用音声印象ベクトルは、回帰係数α_１，α_２，β_１，β_２，γ_１，γ_２と誤差ε_１，ε_２を用いて、以下のように表すことができる。

　落ち着きの有無＝α_１×Ｆ０＋β_１×話速＋γ_１×Ｆ０分散＋ε_１
　声の明るさ＝α_２×Ｆ０＋β_２×話速＋γ_２×Ｆ０分散＋ε_２
　したがって、この場合、音声調整パラメータ学習部２０４は、回帰係数α_１，α_２，β_１，β_２，γ_１，γ_２を、音声の特徴（音声特徴）によってその音声の印象を表すための係数とする。

　手順１－２：音声調整パラメータ学習部２０４は、感情パラメータ及び印象パラメータと上記の手順１－１で得られた係数とを掛け合わせたものを音声調整パラメータとして出力する。

　例えば、感情パラメータａ，ｂ，ｃと印象パラメータＳ_ｐ，Ｔ_ｐ，Ｓ_ａ，Ｔ_ａ，Ｓ_ｄ，Ｔ_ｄとが得られているものとする。このとき、学習用音声特徴量ベクトル［Ｆ０，話速，Ｆ０分散］に対する音声調整パラメータＶ_ｆ０，Ｖ_ｓｒ，Ｖ_ｓｄは以下のようになる。

　Ｖ_ｆ０＝（Ｓ_ｐ×α_１＋Ｔ_ｐ×α_２）×ａ＋（Ｓ_ａ×α_１＋Ｔ_ａ×α_２）×ｂ＋（Ｓ_ｄ×α_１＋Ｔ_ｄ×α_２）×ｃ
　Ｖ_ｓｒ＝（Ｓ_ｐ×β_１＋Ｔ_ｐ×β_２）×ａ＋（Ｓ_ａ×β_１＋Ｔ_ａ×β_２）×ｂ＋（Ｓ_ｄ×β_１＋Ｔ_ｄ×β_２）×ｃ
　Ｖ_ｓｄ＝（Ｓ_ｐ×γ_１＋Ｔ_ｐ×γ_２）×ａ＋（Ｓ_ａ×γ_１＋Ｔ_ａ×γ_２）×ｂ＋（Ｓ_ｄ×γ_１＋Ｔ_ｄ×γ_２）×ｃ
　このように、或る音声特徴に対応する音声調整パラメータは、その音声特徴によって当該音声の印象を表すための係数を当該印象に対応する印象パラメータに乗じた上で足し合わせたものと、各感情パラメータの各々との積の和となる。

　音声調整パラメータ学習部２０４は、上記のステップＳ１０４で得られた音声調整パラメータを用いて学習用音声特徴量ベクトルと学習用購買意欲ベクトルの関係式を算出し、その関係式を購買意欲向上音声推定モデルとして出力する（ステップＳ１０５）。例えば、上記の手順１－２の音声調整パラメータが得られた場合、学習用購買意欲ベクトルと学習用音声特徴量ベクトルとの関係は以下のように表すことができる。

　学習用購買意欲ベクトル＝Ｖ_ｆ０×Ｆ０＋Ｖ_ｓｒ×話速＋Ｖ_ｓｄ×Ｆ０分散
　このため、例えば、購買意欲ベクトルをＶｂ、音声特徴量ベクトルをＶｆとすれば、購買意欲向上音声推定モデルは、Ｖｂ＝［Ｖ_ｆ０，Ｖ_ｓｒ，Ｖ_ｓｄ］Ｖｆ^τと表すことができる。なお、ベクトルは横ベクトルで表現されていることを想定し、τは転置を表す。より一般的には、音声調整パラメータをθとすれば、購買意欲向上音声推定モデルは、Ｖｂ＝θ・Ｖｆ^τと表すことができる。

　＜音声生成時における音声生成装置１０の機能構成（実施例１）＞
　音声生成時における音声生成装置１０の機能構成例を図４に示す。図４に示すように、音声生成時における音声生成装置１０は、音声特徴量抽出部２０１と、購買意欲向上音声推定部２０５と、音声生成部２０６とを有する。これら各部は、例えば、音声生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

　音声特徴量抽出部２０１は、与えられた元音声データを入力として、音声特徴量ベクトルを出力する。

　ここで、元音声データとは、購買意欲の向上が期待できる音声を生成する際の元となる音声データのことである。元音声データの発話内容や文書数、発話者の数、発話者の性別等は特に限定されない。また、人間が発話した音声の音声データだけでなく、合成音声の音声データを元音声データとしてもよい。

　また、音声特徴量ベクトルとは、元音声データから抽出された特徴量を要素とするベクトルデータである。なお、音声特徴量ベクトルのデータ構造等は学習用音声特徴量ベクトルと同様である。

　購買意欲向上音声推定部２０５は、与えられた購買意欲ベクトルと、音声特徴量ベクトルとを入力として、購買意欲向上音声推定モデルにより調整後音声特徴量ベクトルを出力する。

　ここで、購買意欲ベクトルとは、目標とする購買意欲を数値で表したものを要素とするベクトルデータのことである。なお、購買意欲ベクトルのデータ構造等は学習用購買意欲ベクトルと同様である。

　音声生成部２０６は、調整後音声特徴量ベクトルを用いて、目標とする購買意欲の生起が聴取者に期待できる音声（以下、購買意欲向上音声ともいう。）を生成及び出力する。

　＜音声生成処理（実施例１）＞
　以下、実施例１における音声生成処理について、図５を参照しながら説明する。

　音声特徴量抽出部２０１は、与えられた元音声データを入力として、音声特徴量ベクトルを出力する（ステップＳ２０１）。音声特徴量抽出部２０１は、図３のステップＳ１０１と同様に、元音声データから音声特徴量ベクトルを作成すればよい。

　購買意欲向上音声推定部２０５は、与えられた購買意欲ベクトルと、上記のステップＳ１０１で得られた音声特徴量ベクトルとを入力として、購買意欲向上音声推定モデルにより調整後音声特徴量ベクトルを出力する（ステップＳ２０２）。本ステップの処理（調整後音声特徴量ベクトル作成処理）の詳細については後述する。

　音声生成部２０６は、上記のステップＳ２０２で得られた調整後音声特徴量ベクトルを用いて、購買意欲向上音声データを生成及び出力する（ステップＳ２０３）。音声生成部２０６は、例えば、元音声データの音声特徴量を、調整後音声特徴量ベクトルに含まれる音声特徴量に置き換えて信号処理を行うことで、購買意欲向上音声を生成及び出力する。この信号処理を行う方法としては、例えば、参考文献６に記載されているＷＯＲＬＤといったツールを利用したり、参考文献７に記載されている手法を用いたりする方法がある。

　これにより、購買意欲向上音声を聴取した聴取者（例えば、消費者等）の購買意欲の向上が期待できる。また、この購買意欲向上音声は、聴取者が受ける印象も考慮したものであるため、購買意欲のより高い向上が期待できる。これは、例えば、宣伝音声（典型的には店頭やラジオ等で商品やサービスを宣伝するための音声）では、その宣伝音声に対する印象によって、聴取者が興味を示すか、関心を抱くか等が異なるためである。

　　≪調整後音声特徴量ベクトル作成処理≫
　以下、図５のステップＳ２０２における調整後音声特徴量ベクトル作成処理について、図６を参照しながら説明する。以下では、音声特徴量ベクトル及び調整後音声特徴量ベクトルはいずれもｋ次元ベクトルであるものとして、音声特徴量ベクトルのｉ（１≦ｉ≦ｋ）番目の要素をＶｆ［ｉ］、調整後音声特徴量ベクトルのｉ（１≦ｉ≦ｋ）番目の要素をＶｆ'［ｉ］と表す。また、音声調整パラメータをθ＝［θ［１］，・・・，θ［ｋ］］とする。更に、目標とする購買意欲を表す購買意欲ベクトルは１次元であるものとして、Ｖｂと表す。

　購買意欲向上音声推定部２０５は、ｉ←１とする（ステップＳ３０１）。

　購買意欲向上音声推定部２０５は、Ｖｆ'［ｉ］に対する上限Ｘ_ｉ及び下限Ｙ_ｉを設定する（ステップＳ３０２）。これは、特徴量を大きく変化させると音声が著しく劣化するためである。なお、上限Ｘ_ｉ及び下限Ｙ_ｉは適切な値に予め決めておけばよい。

　購買意欲向上音声推定部２０５は、購買意欲向上音声推定モデルによりＶｆ'［ｉ］を推定する（ステップＳ３０３）。購買意欲向上音声推定部２０５は、以下によりＶｆ'［ｉ］を推定すればよい。

　・ｉ＝１のとき
　このとき、Ｖｂ＝［θ［１］，・・・，θ［ｋ］］・［Ｖｆ'［１］，Ｖｆ［２］，・・・，Ｖｆ［ｋ］］^τを満たすＶｆ'［１］を推定する。すなわち、１＜ｊ≦ｋに関しては音声特徴量ベクトルの要素Ｖｆ［ｊ］を用いて、購買意欲向上音声推定モデルによりＶｆ'［１］を推定する。

　・１＜ｉ＜ｋのとき
　このとき、Ｖｂ＝［θ［１］，・・・，θ［ｋ］］・［Ｖｆ'［１］，・・・，Ｖｆ'［ｉ］，Ｖｆ［ｉ＋１］，・・・，Ｖｆ［ｋ］］^τを満たすＶｆ'［ｉ］を推定する。すなわち、１≦ｊ＜ｉに関しては既に推定済みのＶｆ'［ｊ］（１≦ｊ＜ｉ）、ｉ＋１≦ｊ≦ｋに関しては音声特徴量ベクトルの要素Ｖｆ［ｊ］を用いて、購買意欲向上音声推定モデルによりＶｆ'［ｉ］を推定する。

　・ｉ＝ｋのとき
　このとき、Ｖｂ＝［θ［１］，・・・，θ［ｋ］］・［Ｖｆ'［１］，・・・，Ｖｆ'［ｋ－１］，Ｖｆ'［ｋ］］^τを満たすＶｆ'［ｋ］を推定する。すなわち、１≦ｊ＜ｋに関しては既に推定済みのＶｆ'［ｊ］（１≦ｊ＜ｋ）を用いて、購買意欲向上音声推定モデルによりＶｆ'［ｋ］を推定する。

　購買意欲向上音声推定部２０５は、Ｖｆ'［ｉ］≦Ｘ_ｉである否かを判定する（ステップＳ３０４）。

　Ｖｆ'［ｉ］≦Ｘ_ｉであると判定されなかった場合、購買意欲向上音声推定部２０５は、Ｖｆ'［ｉ］←Ｘ_ｉとする（ステップＳ３０５）。

　一方で、Ｖｆ'［ｉ］≦Ｘ_ｉであると判定された場合、購買意欲向上音声推定部２０５は、Ｙ_ｉ≦Ｖｆ'［ｉ］であるか否かを判定する（ステップＳ３０６）。

　Ｙ_ｉ≦Ｖｆ'［ｉ］であると判定されなかった場合、購買意欲向上音声推定部２０５は、Ｖｆ'［ｉ］←Ｙ_ｉとする（ステップＳ３０７）。

　Ｙ_ｉ≦Ｖｆ'［ｉ］であると判定された場合、又はステップＳ３０５若しくはステップＳ３０６に続いて、購買意欲向上音声推定部２０５は、ｉ←ｉ＋１とする（ステップＳ３０８）。

　次に、購買意欲向上音声推定部２０５は、ｉ＜ｋ＋１であるか否かを判定する（ステップＳ３０９）。

　ｉ＜ｋ＋１であると判定された場合、購買意欲向上音声推定部２０５は、ステップＳ３０２に戻る。これにより、ｉ＝１，・・・，ｋに関して、ステップＳ３０２～ステップＳ３０８が繰り返し実行される。

　一方で、ｉ＜ｋ＋１であると判定されなかった場合、購買意欲向上音声推定部２０５は、調整後音声特徴量ベクトルＶｆ'＝［Ｖｆ'［１］，・・・，Ｖｆ'［ｋ］］を出力する（ステップＳ３１０）。

　［実施例２］
　以下、本実施形態に係る音声生成装置１０の実施例２について説明する。なお、実施例２では、実施例１との相違点のみを説明し、実施例１と同様としてよい箇所に関してはその説明を省略する。

　実施例１では、学習用感情表現ベクトルと学習用購買意欲ベクトルとを用いて感情パラメータを学習し、学習用感情表現ベクトルと学習用音声印象ベクトルとを用いて印象パラメータを学習した。非特許文献３に記載されているように、音声に対する印象と感情は強く関係することが知られているが、感情表現ベクトルや音声印象ベクトルの次元数や評価尺度によっては、印象パラメータの学習に学習用購買意欲ベクトルを用いた方が精度良く推定できる場合がある。同様に、感情パラメータの学習に学習用音声印象ベクトルを用いた方が精度良く推定できる場合がある。

　そこで、実施例２では、学習用感情表現ベクトルと学習用音声印象ベクトルとを用いて感情パラメータを学習し、学習用購買意欲ベクトルと学習用音声印象ベクトルとを用いて印象パラメータを学習する場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例２）＞
　モデル学習時における音声生成装置１０の機能構成例を図７に示す。図７に示すように、感情パラメータ学習部２０２は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、感情パラメータを出力する。同様に、印象パラメータ学習部２０３は、与えられた学習用購買意欲ベクトルと与えられた学習用音声印象ベクトルとを入力として、印象パラメータを出力する。また、音声調整パラメータ学習部２０４は、学習用音声特徴量ベクトルと学習用感情表現ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。

　なお、実施例２における感情パラメータ学習部２０２は、実施例１における感情パラメータ学習部２０２が感情パラメータを学習する方法において、「学習用購買意欲ベクトル」を「学習用音声印象ベクトル」と読み替えれば同様の方法により感情パラメータを学習することができる。同様に、実施例２における印象パラメータ学習部２０３は、実施例１における印象パラメータ学習部２０３が印象パラメータを学習する方法において、「学習用感情表現ベクトル」を「学習用購買意欲ベクトル」と読み替えれば同様の方法により印象パラメータを学習することができる。同様に、実施例２における音声調整パラメータ学習部２０４は、実施例１における音声調整パラメータ学習部２０４が音声調整パラメータを学習する方法において、「学習用音声印象ベクトル」を「学習用感情表現ベクトル」と読み替えれば同様の方法により音声調整パラメータを学習することができる。

　［実施例３］
　以下、本実施形態に係る音声生成装置１０の実施例３について説明する。なお、実施例３では、実施例１との相違点のみを説明し、実施例１と同様としてよい箇所に関してはその説明を省略する。

　実施例１及び２では、感情パラメータと印象パラメータをそれぞれ出力した後に音声調整パラメータを学習した。しかしながら、これらの実施例では、パラメータの推定を繰り返すため、誤差が大きくなる可能性がある。

　また、例えば、実施例１で印象パラメータを学習する際には、学習用購買意欲ベクトルを使用しておらず、感情表現ベクトルを介してしか購買意欲との関係性を学習できていない。

　そこで、実施例３では、感情パラメータと印象パラメータとをまとめて感情・印象パラメータとし、これを学習及び出力する場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例３）＞
　モデル学習時における音声生成装置１０の機能構成例を図８に示す。図８に示すように、モデル学習時における音声生成装置１０は、感情・印象パラメータ学習部２０７を有する。一方で、実施例１及び２と異なり、感情パラメータ学習部２０２と印象パラメータ学習部２０３を有していない。なお、感情・印象パラメータ学習部２０７は、例えば、音声生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

　感情・印象パラメータ学習部２０７は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルと与えられた学習用購買意欲ベクトルとを入力として、感情・印象パラメータを出力する。

　音声調整パラメータ学習部２０４は、学習用感情表現ベクトルと学習用音声印象ベクトルと学習用音声特徴量ベクトルと感情・印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。

　＜モデル学習処理（実施例３）＞
　以下、実施例３におけるモデル学習処理について、図９を参照しながら説明する。なお、実施例３におけるモデル学習処理では、ステップＳ４０１～ステップＳ４０３が実施例１と異なる。

　感情・印象パラメータ学習部２０７は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルと与えられた学習用購買意欲ベクトルとを入力として、感情・印象パラメータを出力する（ステップＳ４０１）。感情・印象パラメータ学習部２０７は、感情パラメータ学習部２０２や印象パラメータ学習部２０３と同様に、重回帰分析、パス解析、ニューラルネットワーク等により感情・印象パラメータを学習すればよい。

　例えば、事前の主観評価実験等により学習用音声印象ベクトル［落ち着きの有無，声の明るさ］と学習用感情表現ベクトル［快感情，覚醒，支配］とが得られているものとする。重回帰分析により感情・印象パラメータを学習する場合、学習用購買意欲ベクトルは、回帰係数ａ，ｂ，ｃ，ｄ，ｅと誤差ｆを用いて、以下のように表すことができる。

　学習用購買意欲ベクトル＝ａ×落ち着きの有無＋ｂ×声の明るさ＋ｃ×快感情＋ｄ×覚醒＋ｅ×支配＋ｆ
　したがって、この場合、感情・印象パラメータ学習部２０７は、回帰係数ａ，ｂ，ｃ，ｄ，ｅを感情・印象パラメータとして出力する。

　音声調整パラメータ学習部２０４は、学習用感情表現ベクトルと学習用音声印象ベクトルと学習用音声特徴量ベクトルと感情・印象パラメータとを入力として、音声調整パラメータを学習する（ステップＳ４０２）。音声調整パラメータ学習部２０４は、以下の手順２－１～手順２－２により音声調整パラメータを学習する。

　手順２－１：音声調整パラメータ学習部２０４は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと学習用感情表現ベクトルとを用いて、音声の特徴によってその音声の印象や感情を表すための係数を学習する。音声調整パラメータ学習部２０４は、実施例１や２と同様に、重回帰分析、パス解析、ニューラルネットワーク等により当該係数を学習すればよい。

　例えば、学習用音声特徴量ベクトル［Ｆ０，話速，Ｆ０分散］と学習用音声印象ベクトル［落ち着きの有無，声の明るさ］と学習用感情表現ベクトル［快感情，覚醒，支配］とが得られているものとする。重回帰分析により当該係数を学習する場合、学習用音声印象ベクトル及び学習用感情表現ベクトルは、回帰係数α_１，α_２，α_３，α_４，α_５，β_１，β_２，β_３，β_４，β_５，γ_１，γ_２，γ_３，γ_４，γ_５と誤差ε_１，ε_２，ε_３，ε_４，ε_５を用いて、以下のように表すことができる。

　落ち着きの有無＝α_１×Ｆ０＋β_１×話速＋γ_１×Ｆ０分散＋ε_１
　声の明るさ＝α_２×Ｆ０＋β_２×話速＋γ_２×Ｆ０分散＋ε_２
　快感情＝α_３×Ｆ０＋β_３×話速＋γ_３×Ｆ０分散＋ε_３
　覚醒＝α_４×Ｆ０＋β_４×話速＋γ_４×Ｆ０分散＋ε_４
　支配＝α_５×Ｆ０＋β_５×話速＋γ_５×Ｆ０分散＋ε_５
　したがって、この場合、音声調整パラメータ学習部２０４は、回帰係数α_１，α_２，α_３，α_４，α_５，β_１，β_２，β_３，β_４，β_５，γ_１，γ_２，γ_３，γ_４，γ_５を、音声の特徴（音声特徴）によってその音声の印象や感情を表すための係数とする。

　手順２－２：音声調整パラメータ学習部２０４は、感情・印象パラメータと上記の手順２－１で得られた係数とを掛け合わせたものを音声調整パラメータとして出力する。

　例えば、感情・印象パラメータａ，ｂ，ｃ，ｄ，ｅが得られているものとする。このとき、学習用音声特徴量ベクトル［Ｆ０，話速，Ｆ０分散］に対する音声調整パラメータＶ_ｆ０，Ｖ_ｓｒ，Ｖ_ｓｄは以下のようになる。

　Ｖ_ｆ０＝ａ×α_１＋ｂ×α_２＋ｃ×α_３＋ｄ×α_４＋ｅ×α_５
　Ｖ_ｓｒ＝ａ×β_１＋ｂ×β_２＋ｃ×β_３＋ｄ×β_４＋ｅ×β_５
　Ｖ_ｓｄ＝ａ×γ_１＋ｂ×γ_２＋ｃ×γ_３＋ｄ×γ_４＋ｅ×γ_５
　このように、或る音声特徴に対応する音声調整パラメータは、その音声特徴によって当該音声の印象や感情を表すための係数を当該印象や当該感情に対応する感情・印象パラメータに乗じたものの和となる。

　音声調整パラメータ学習部２０４は、上記のステップＳ１０４で得られた音声調整パラメータを用いて学習用音声特徴量ベクトルと学習用購買意欲ベクトルの関係式を算出し、その関係式を購買意欲向上音声推定モデルとして出力する（ステップＳ４０３）。例えば、上記の手順２－２の音声調整パラメータが得られた場合、学習用購買意欲ベクトルと学習用音声特徴量ベクトルとの関係は以下のように表すことができる。

　学習用購買意欲ベクトル＝Ｖ_ｆ０×Ｆ０＋Ｖ_ｓｒ×話速＋Ｖ_ｓｄ×Ｆ０分散＋ａ×ε_１＋ｂ×ε_２＋ｃ×ε_３＋ｄ×ε_４＋ｅ×ε_５＋ｆ
　なお、上記の購買意欲向上音声推定モデルは、実施例１の購買意欲向上音声推定モデルに対して単に誤差が追加されたものであるため、実施例１と同様の手法により音声生成時に調整後音声特徴量ベクトルを作成することができる。

　［実施例４］
　以下、本実施形態に係る音声生成装置１０の実施例４について説明する。なお、実施例４では、実施例１との相違点のみを説明し、実施例１と同様としてよい箇所に関してはその説明を省略する。

　実施例１～３では、学習用音声印象ベクトルと学習用感情表現ベクトルの両方をそのまま用いてパラメータを学習していた。しかしながら、事前の主観評価実験やアンケート等によって収集した感情の評価値と音声の印象の評価値の中には実質的に関連性の高い指標が含まれている場合がある。すなわち、感情の評価値と音声の印象の評価値の中に多重共線性を存在する場合がある。この場合、購買意欲の推定精度が低下してしまうという問題がある。例えば、音声に対する印象として「楽しい－つまらない」という評価指標を用いた場合、快感情の評価値と強い相関があると考えられる。

　そこで、実施例４では、学習用感情表現ベクトルと学習用音声印象ベクトルを結合したベクトルを用いてパラメータを学習する場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例４）＞
　モデル学習時における音声生成装置１０の機能構成例を図１０に示す。図１０に示すように、モデル学習時における音声生成装置１０は、感情・印象ベクトル結合部２０８と、知覚パラメータ学習部２０９とを有する。一方で、実施例１及び２と異なり、感情パラメータ学習部２０２と印象パラメータ学習部２０３を有していない。なお、感情・印象ベクトル結合部２０８及び知覚パラメータ学習部２０９は、例えば、音声生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

　感情・印象ベクトル結合部２０８は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、学習用結合ベクトルを出力する。

　ここで、学習用結合ベクトルとは、学習用感情表現ベクトルの各要素と学習用音声印象ベクトルの各要素の中で互いに相関が低い要素で構成されたベクトルデータのことである。

　知覚パラメータ学習部２０９は、学習用結合ベクトルと学習用購買意欲ベクトルとを入力として、知覚パラメータを出力する。

　ここで、知覚パラメータとは、学習用結合ベクトルが学習用購買意欲ベクトルに及ぼす影響を示すパラメータのことである。

　音声調整パラメータ学習部２０４は、学習用結合ベクトルと学習用音声特徴量ベクトルと知覚パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。

　＜モデル学習処理（実施例４）＞
　以下、実施例４におけるモデル学習処理について、図１１を参照しながら説明する。なお、実施例４におけるモデル学習処理では、ステップＳ５０１～ステップＳ５０３が実施例１と異なる。

　感情・印象ベクトル結合部２０８は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、学習用結合ベクトルを出力する（ステップＳ５０１）。感情・印象ベクトル結合部２０８は、例えば、主成分分析、ＬＤＡ（線形判別分析）等といった次元削減手法により、学習用感情表現ベクトルと学習用音声印象ベクトルとを結合した学習用結合ベクトルを作成すればよい。

　知覚パラメータ学習部２０９は、学習用結合ベクトルと学習用購買意欲ベクトルとを入力として、知覚パラメータを出力する（ステップＳ５０２）。なお、知覚パラメータ学習部２０９は、実施例１における感情パラメータ学習部２０２と印象パラメータ学習部２０３と同様に、重回帰分析、パス解析、ニューラルネットワーク等により知覚パラメータを学習すればよい。

　音声調整パラメータ学習部２０４は、学習用結合ベクトルと学習用音声特徴量ベクトルと知覚パラメータとを入力として、音声調整パラメータを学習する（ステップＳ５０３）。音声調整パラメータ学習部２０４は、実施例１～３と同様に、重回帰分析、パス解析、ニューラルネットワーク等により、音声の特徴によってその音声の知覚（印象や感情）を表すための係数を学習した上で、それらの係数と知覚パラメータとを掛け合わせたものを音声調整パラメータとすればよい。

　［実施例５］
　以下、本実施形態に係る音声生成装置１０の実施例５について説明する。なお、実施例４では、実施例１との相違点のみを説明し、実施例１と同様としてよい箇所に関してはその説明を省略する。

　実施例１～４では、学習用音声印象ベクトルと学習用感情表現ベクトルは主観評価実験やアンケート等を実施することによって作成されていた。しかしながら、一般に、モデル学習に際しては大量のデータが必要となる。学習用購買意欲ベクトルに関しては購買ログ等を利用することができるため大量に作成することが可能であるが、学習用音声印象ベクトルと学習用感情表現ベクトルは主観評価実験やアンケート等の実施が必要であるため大量に作成することは困難である。

　そこで、実施例５では、音声から感情や印象を推定することができる既存の推定モデルを利用することで、その出力結果を感情表現ベクトルや音声印象ベクトルの代わりとする場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例５）＞
　モデル学習時における音声生成装置１０の機能構成例を図１２に示す。図１２に示すように、モデル学習時における音声生成装置１０は、感情推定部２１０と、印象推定部２１１とを有する。なお、感情推定部２１０及び印象推定部２１１は、例えば、音声生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

　感情推定部２１０は、学習用音声特徴量ベクトルを入力として、感情推定モデルにより、学習用感情表現ベクトルを出力する。ここで、感情推定モデルは、学習用音声特徴量ベクトルを入力として学習用感情表現ベクトルを出力する既知のモデルである。例えば、参考文献６に記載されているモデルを利用することができる。なお、感情推定モデルが出力する学習用感情表現ベクトルの各要素はＰＡＤ尺度に限られる必要はなく、数値化された任意の感情であればよい。

　印象推定部２１１は、学習用音声特徴量ベクトルを入力として、印象推定モデルにより、学習用音声印象ベクトルを出力する。ここで、印象推定モデルは、学習用音声特徴量ベクトルを入力として学習用音声印象ベクトルを出力する既知のモデルである。なお、印象推定モデルが出力する学習用音声印象ベクトルの各要素は、特定の印象に限られる必要はなく、数値化された任意の印象であればよい。

　［実施例６］
　以下、本実施形態に係る音声生成装置１０の実施例６について説明する。実施例５では、実施例１のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入したが、実施例６では、実施例２のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入した場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例６）＞
　モデル学習時における音声生成装置１０の機能構成例を図１３に示す。図１３に示す音声生成装置１０は、実施例２のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入したものである。

　［実施例７］
　以下、本実施形態に係る音声生成装置１０の実施例７について説明する。実施例７では、実施例３のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入した場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例７）＞
　モデル学習時における音声生成装置１０の機能構成例を図１４に示す。図１４に示す音声生成装置１０は、実施例３のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入したものである。

　［実施例８］
　以下、本実施形態に係る音声生成装置１０の実施例８について説明する。実施例８では、実施例４のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入した場合について説明する。

　＜モデル学習時における音声生成装置１０の機能構成（実施例８）＞
　モデル学習時における音声生成装置１０の機能構成例を図１５に示す。図１５に示す音声生成装置１０は、実施例４のモデル学習時における音声生成装置１０に対して感情推定部２１０及び印象推定部２１１を導入したものである。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　［参考文献］
　参考文献１：J. Russell, "A circumplex model of affect", Journal of Personality and Social Psychology, vol.39, no. 6, pp. 1161-1178, 1980.
　参考文献２：S. Parthasarathy, C. Busso, "Jointly Predicting Arousal, Valence and Dominance with Multi-Task Learning", INTERSPEECH 2017, pp.1103-1107, 2017
　参考文献３：木戸博, 粕谷英樹, 通常発話の声質に関連した日常表現語の抽出, 日本音響学会誌, NO.55, vol.6, pp. 405-411, 1999.
　参考文献４：F. Eyben, M. Wollmer, and B. Schuller, "OpenSMILE: the Munich versatile and fast open-source audio feature extractor," in ACM International conference on Multimedia (MM 2010), Florence, Italy, pp. 1459-1462, 2010.
　参考文献５：N. Nusairat, Q. Hammouri, H. Al-Ghadir, A. M. K. Ahmad, and M. A. H. Eid, "The effect of design of restaurant on customer behavioral intentions," Management
　参考文献６：M. Morise, F. Yokomori, and K. Ozawa, "World: A vocoderbased high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems, vol. E99-D, no. 7, pp. 1877-1884, 2016.
　参考文献７：森田直孝，板倉文忠，"自己相関関数を用いた音声の時間軸での伸縮"，日本音響学会講演論文集，昭和61年3月.

　１０　　　　音声生成装置
　１０１　　　入力装置
　１０２　　　表示装置
　１０３　　　外部Ｉ／Ｆ
　１０３ａ　　記録媒体
　１０４　　　通信Ｉ／Ｆ
　１０５　　　ＲＡＭ
　１０６　　　ＲＯＭ
　１０７　　　補助記憶装置
　１０８　　　プロセッサ
　１０９　　　バス
　２０１　　　音声特徴量抽出部
　２０２　　　感情パラメータ学習部
　２０３　　　印象パラメータ学習部
　２０４　　　音声調整パラメータ学習部
　２０５　　　購買意欲向上音声推定部
　２０６　　　音声生成部
　２０７　　　感情・印象パラメータ学習部
　２０８　　　感情・印象ベクトル結合部
　２０９　　　知覚パラメータ学習部
　２１０　　　感情推定部
　２１１　　　印象推定部

Claims

　学習用の第１の音声データが表す第１の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第１の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第１の購買意欲ベクトルと、前記第１の音声の特徴を表す第１の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、
　与えられた第２の音声データが表す第２の音声の特徴を表す第２の音声特徴量ベクトルと、目標とする購買意欲を表す第２の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第２の音声特徴量ベクトルが表す特徴を調整した第３の音声特徴量ベクトルを作成する調整手順と、
　前記第２の音声データと、前記第３の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第３の音声を生成する音声生成手順と、
　をコンピュータが実行する音声生成方法。
　前記学習手順には、
　前記感情表現ベクトルと前記第１の購買意欲ベクトルとを用いて、前記感情表現ベクトルによって表される各感情が前記第１の購買意欲ベクトルに及ぼす影響を示す感情パラメータを学習する手順と、
　前記感情表現ベクトルと前記音声印象ベクトルとを用いて、前記音声印象ベクトルによって表される各印象が前記感情表現ベクトルに及ぼす影響を示す印象パラメータを学習する手順と、
　前記感情パラメータと前記印象パラメータと前記音声印象ベクトルと前記第１の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項１に記載の音声生成方法。
　前記学習手順には、
　前記感情表現ベクトルと前記音声印象ベクトルとを用いて、前記感情表現ベクトルによって表される各感情が前記音声印象ベクトルに及ぼす影響を示す感情パラメータを学習する手順と、
　前記第１の購買意欲ベクトルと前記音声印象ベクトルとを用いて、前記音声印象ベクトルによって表される各印象が前記第１の購買意欲ベクトルに及ぼす影響を示す印象パラメータを学習する第２の学習手順と、
　前記感情パラメータと前記印象パラメータと前記感情表現ベクトルと前記第１の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項１に記載の音声生成方法。
　前記学習手順には、
　前記感情表現ベクトルと前記音声印象ベクトルと前記第１の購買意欲ベクトルとを用いて、前記感情表現ベクトルによって表される各感情と前記音声印象ベクトルによって表される各印象とが前記第１の購買意欲ベクトルに及ぼす影響を示す感情・印象パラメータを学習する手順と、
　前記感情・印象パラメータと前記感情表現ベクトルと前記音声印象ベクトルと前記第１の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項１に記載の音声生成方法。
　前記学習手順には、
　前記感情表現ベクトルと前記音声印象ベクトルとを結合した結合ベクトルを作成する手順と、
　前記結合ベクトルと前記第１の購買意欲ベクトルとを用いて、前記結合ベクトルによって表される各感情及び各印象が前記第１の購買意欲ベクトルに及ぼす影響を示す知覚パラメータを学習する手順と、
　前記知覚パラメータと前記結合ベクトルと前記第１の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項１に記載の音声生成方法。
　前記第１の音声データと感情推定モデルとを用いて、前記感情表現ベクトルを作成する感情推定手順と、
　前記第１の音声データと印象推定モデルとを用いて、前記音声印象ベクトルを作成する印象推定手順と、を前記コンピュータが更に実行する請求項１乃至５の何れか一項に記載の音声生成方法。
　学習用の第１の音声データが表す第１の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第１の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第１の購買意欲ベクトルと、前記第１の音声の特徴を表す第１の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習するように構成されている学習部と、
　与えられた第２の音声データが表す第２の音声の特徴を表す第２の音声特徴量ベクトルと、目標とする購買意欲を表す第２の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第２の音声特徴量ベクトルが表す特徴を調整した第３の音声特徴量ベクトルを作成するように構成されている調整部と、
　前記第２の音声データと、前記第３の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第３の音声を生成するように構成されている音声生成部と、
　を有する音声生成装置。
　学習用の第１の音声データが表す第１の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第１の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第１の購買意欲ベクトルと、前記第１の音声の特徴を表す第１の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、
　与えられた第２の音声データが表す第２の音声の特徴を表す第２の音声特徴量ベクトルと、目標とする購買意欲を表す第２の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第２の音声特徴量ベクトルが表す特徴を調整した第３の音声特徴量ベクトルを作成する調整手順と、
　前記第２の音声データと、前記第３の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第３の音声を生成する音声生成手順と、
　をコンピュータに実行させるプログラム。