WO2023017582A1

WO2023017582A1 - 音声生成方法、音声生成装置および音声生成プログラム

Info

Publication number: WO2023017582A1
Application number: PCT/JP2021/029633
Authority: WO
Inventors: 瑞生長野; 勇祐井島; 定男廣谷
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-02-16

Abstract

取得部（１５ａ）が、学習用の音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する。学習部（１５ｂ）が、音声特徴量ベクトルと感情表現ベクトルと購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル（１４ａ）を学習により生成する。

Description

音声生成方法、音声生成装置および音声生成プログラム

　本発明は、音声生成方法、音声生成装置および音声生成プログラムに関する。

　従来、マーケティングや消費者行動研究において、ＰＡＤ（Pleasure　Arousal　Dominance）モデルと呼ばれる購買行動モデルが知られている（非特許文献１～９参照）。ＰＡＤモデルでは、消費者が店舗に入店したときに、店舗の混雑状況や商品配列などの外部刺激によって生起される感情によって、購買意欲が高いことを示す「接近」または購買意欲が低いことを示す「回避」の行動が生じ、購買行動に移行するか否かが決定される。ここで、感情とは、楽しさを示す「快感情（Pleasure）」、興奮状態を示す「覚醒（Arousal）」、状況に対する自分の影響力を示す「支配（Dominance）」の３次元で表される。このように、ＰＡＤモデルを用いれば、快感情を高める音声刺激によって、購買意欲を向上させることができると考えられる。例えば、ＰＡＤモデルを用いた実験では、実店舗での調査により、高い快感情が非計画購買や店舗滞在時間に有意な正の影響を及ぼすことが確認されている（非特許文献１参照）。

　なお、非特許文献２、３には、感情表現の次元について記載されている。また、非特許文献４には、音声特徴量抽出ツールであるＯｐｅｎＳＭＩＬＥについて記載されている。また、非特許文献５には、パス解析の手法について記載されている。また、非特許文献６、７には、音声データの信号処理について記載されている。また、非特許文献８には、購買意欲についての記載がある。また、非特許文献９には、商品の分類についての記載がある。

Donovan,　R.　J.,　Rossiter,　J.　R.,　Marcoolyn,　G.,　and　Nesdale,　A.　"Store　atmosphere　and　purchasing　behavior",　Journal　of　Retailing,　Vol.70,　No.3,　1994年,　pp.283－294 J.　Russell,　"A　circumplex　model　of　affect",　Journal　of　Personality　and　Social　Psychology,　vol.39,　no.6,　1980年,　pp.1161-1178 S.　Parthasarathy,　C.　Busso,　"Jointly　Predicting　Arousal,　Valence　and　Dominance　with　Multi-Task　Learning",　INTERSPEECH　2017,　2017年,　pp.1103-1107 F.　Eyben,　M.　W¨ollmer,　and　B.　Schuller,　"OpenSMILE:　the　Munich　versatile　and　fast　open-source　audio　feature　extractor",　in　ACM　International　conference　on　Multimedia　(MM　2010),　Florence,　Italy,　2010年,　pp.1459-1462 N.　Nusairat,　Q.　Hammouri,　H.　Al-Ghadir,　A.M.K.Ahmad,　and　M.A.H.Eid,　"The　effect　of　design　of　restaurant　on　customer　behavioral　intentions,"　Management M.　Morise,　F.Yokomori,　and　K.Ozawa,　"World:　A　vocoderbased　high-quality　speech　synthesis　system　for　real-time　applications",　IEICE　Transactions　on　Information　and　Systems,　vol.E99-D,　no.7,　2016年,　pp.1877-1884 N.　Morita　and　F.　Itakura,　"Time-scale　modification　algorithm　for　speech　by　use　of　pointer　interval　overlap　and　add　(picola)　and　its　evaluation",　in　Proceedings　of　Annual　Meeting　of　Acoustical　Society　of　Japan,　vol.86,　1986年,　pp.9-16 C.　G.　Ding,　C.　H.　Lin,　"How　does　background　music　tempo　work　for　online　shopping?",　Electronic　Commerce　Research　and　Applications,　Vol.　11,　No.3,　2012年,　pp.299-307 H.　Assael,　"Consumer　behavior　and　marketing　action",　Kent　Publishing　Company,　1981年

　しかしながら、従来技術では、購買意欲を向上させる音声を生成することは困難であった。例えば、顧客の購買意欲に対して効果的な音声はわかっていない。また、顧客の年代や性別等の属性あるいは商品の種類等によって、店頭やラジオ等の宣伝音声の聞き取り易さや宣伝に対する興味関心等が異なると考えられるものの、顧客の属性や宣伝商品にあわせて適切な音声を出し分けることは容易ではない。

　本発明は、上記に鑑みてなされたものであって、購買意欲を向上させる音声を生成することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る音声生成方法は、音声生成装置が実行する音声生成方法であって、入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得工程と、前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習工程と、を含んだことを特徴とする。

　本発明によれば、購買意欲を向上させる音声を生成することが可能となる。

図１は、音声生成装置の概略構成を例示する模式図である。図２は、第１の実施形態の音声生成装置の処理を説明するための図である。図３は、第１の実施形態の音声生成装置の処理を説明するための図である。図４は、音声生成処理手順を示すフローチャートである。図５は、音声生成処理手順を示すフローチャートである。図６は、第２の実施形態の音声生成装置の処理を説明するための図である。図７は、第２の実施形態の音声生成装置の処理を説明するための図である。図８は、第３の実施形態の音声生成装置の処理を説明するための図である。図９は、第３の実施形態の音声生成装置の処理を説明するための図である。図１０は、第４の実施形態の音声生成装置の処理を説明するための図である。図１１は、第４の実施形態の音声生成装置の処理を説明するための図である。図１２は、音声生成プログラムを実行するコンピュータを例示する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［音声生成装置の構成］
　図１は、音声生成装置の概略構成を例示する模式図である。図１に例示するように、音声生成装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ネットワークを介したサーバ等の外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、音声生成処理の対象の音声データや音声データに対応する感情表現データ等を管理する管理装置等と制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。本実施形態において、記憶部１４には、例えば、後述する音声生成処理に用いられる音声データや音声データに対応する購買意欲ベクトルと感情表現ベクトル、音声生成処理で生成される購買意欲向上音声推定モデル１４ａ等が記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）やＮＰ（Network　Processor）やＦＰＧＡ（Field　Programmable　Gate　Array）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、取得部１５ａ、学習部１５ｂ、感情パラメータ学習部１５ｃ、音声調整パラメータ学習部１５ｄ、推定部１５ｅおよび生成部１５ｆ、として機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば、学習部１５ｂと推定部１５ｅとは、異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

［第１の実施形態］
　図２および図３は、第１の実施形態の音声生成装置の処理を説明するための図である。第１の実施形態の音声生成装置１０において、図２に示すように、取得部１５ａは、入力された音声データの特徴を表す音声特徴量ベクトルＶｇと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルＶｂとを取得する。

　例えば、取得部１５ａは、後述する音声生成処理に用いる音声データを、入力部１１を介して、あるいは音声データを管理する管理装置等から通信制御部１３を介して取得する。音声データの発話内容や文章数、あるいは発話者の人数や性別等は特に限定されない。

　また、取得部１５ａは、学習用の音声データから声の高さ（Ｆ０）やパワー、話す速度の平均や分散、スペクトル傾斜等の音声特徴を表す音声特徴量ベクトルＶｇを抽出する。例えば、取得部１５ａは、音声特徴量ベクトルＶｇとして、例えばフレームごとにフーリエ変換等の信号処理を行って数値を出力する。あるいは、取得部１５ａは、ＯｐｅｎＳＭＩＬＥ（非特許文献４参照）等の音声特徴量抽出ツールを用いて、音声特徴量ベクトルＶｇを抽出する。

　また、取得部１５ａは、音声データに対応する感情表現ベクトルを取得する。ここで、感情表現ベクトルとは、聴取者が音声データを聴取した際の感情を表す主観評価データであり、例えばｎ次元（ｎ≧１）の数値である。感情表現ベクトルには、ＰＡＤの尺度である快感情、覚醒、支配の３次元の感情の他の感情次元（非特許文献２、３参照）が含まれてもよい。本実施形態では、予め聴取者に対するアンケートにより、各次元について７段階の回答を得ることにより、感情表現ベクトルを取得して、音声データに対応付けて、例えば音声データの管理装置の記憶部に記憶させておく。

　なお、取得部１５ａは、１つの音声データに対応してｎ次元からなる１つの感情表現ベクトルを取得するものとする。また、取得部１５ａは、１つの音声データに対して複数の聴取者が主観評価を行った場合には、その平均を感情表現ベクトルとして取得する。

　また、取得部１５ａは、音声データに対応する購買意欲ベクトルＶｂを取得する。ここで、購買意欲ベクトルＶｂとは、聴取者が音声データを聴取した際の購買意欲を表すデータであり、例えば「どの程度買いたいと思ったか」を７段階で表した数値である。購買意欲ベクトルＶｂは、必ずしも段階を表す数値である必要はなく、例えば、聴取者が商品を実際に購買したか否かを２値で保存している購買ログ等から求めてもよい。これにより、購買意欲向上音声推定モデル１４ａの学習に大量に必要となる購買意欲ベクトルＶｂを容易に用意することが可能となる。

　また、本実施形態では、感情表現ベクトルと同様に、予め聴取者に対するアンケートにより購買意欲ベクトルＶｂを取得して、音声データに対応付けて、例えば音声データの管理装置の記憶部に記憶させておく。

　なお、取得部１５ａは、１つの音声データに対応して１つの購買意欲ベクトルＶｂを取得するものとする。また、取得部１５ａは、１つの音声データに対して複数の聴取者が購買意欲の評価を行った場合には、その平均を購買意欲ベクトルＶｂとして取得する。

　また、取得部１５ａは、１つの音声データに対して、音声特徴量ベクトルＶｇと、感情表現ベクトルと、購買意欲ベクトルＶｂとを同時に取得する。例えば、取得部１５ａは、学習用に、主観評価実験やアンケート等により、１つの音声データに対して、音声特徴量ベクトルＶｇと、感情表現ベクトルと、購買意欲ベクトルＶｂとを同時に取得する。

　学習部１５ｂは、音声特徴量ベクトルＶｇと感情表現ベクトルと購買意欲ベクトルＶｂとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル１４ａを学習により生成する。

　具体的には、学習部１５ｂは、ＰＡＤモデルに従って、入力された購買意欲ベクトルＶｂを再現するように、購買意欲向上音声推定モデル１４ａの感情パラメータと音声調整パラメータとを順に学習する。すなわち、学習部１５ｂは、感情パラメータ学習部１５ｃと、音声調整パラメータ学習部１５ｄとを含む。

　ここで、感情パラメータは、感情表現ベクトルによって表された各感情次元が購買意欲ベクトルＶｂに及ぼす影響を示すパラメータである。また、音声調整パラメータは、任意の購買意欲を生起させる音声を生成するための音声特徴量ベクトルＶｂによって購買意欲ベクトルＶｂを表すパラメータである。

　ＰＡＤモデルでは、購買意欲と各感情次元とは、係数ａ，ｂ，ｃ，ｘ，ｙ，ｚを用いて次式（１）のように表すことができる。

　したがって、購買意欲は、次式（２）のように表すことができる。

　感情パラメータ学習部１５ｃは、図２に示すように、感情表現ベクトルを用いて購買意欲ベクトルＶｂを推定する購買意欲向上音声推定モデル１４ａの感情パラメータを学習により決定する。

　具体的には、感情パラメータ学習部１５ｃは、学習用の購買意欲ベクトルＶｂと感情表現ベクトルとを入力して、感情パラメータを出力する。ここで、感情パラメータ学習部１５ｃは、重回帰分析やパス解析（非特許文献５参照）を適用する。例えば、事前の主観評価実験等により、学習用の感情表現ベクトル［快感情、覚醒、支配］が得られている場合に、重回帰分析を適用すると、購買意欲ベクトルＶｂは次式（３）のように表すことができる。

　ここで、回帰係数ａ，ｂ，ｃ、誤差ｄである。感情パラメータ学習部１５ｃは、回帰係数ａ，ｂ，ｃを感情パラメータとして出力する。

　なお、感情パラメータ学習部１５ｃは、ニューラルネットワークによる学習を行ってもよい。例えば、入力を学習用の感情表現ベクトル、出力を学習用の購買意欲ベクトルとして学習する(非特許文献３参照)。これにより、感情パラメータ学習部１５ｃは、学習用の感情表現ベクトルから学習用の購買意欲ベクトルを推定するニューラルネットワークを学習することが可能である。

　音声調整パラメータ学習部１５ｄは、決定された感情パラメータと音声特徴量ベクトルＶｇとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル１４ａの音声調整パラメータを学習により決定する。

　具体的には、音声調整パラメータ学習部１５ｄは、学習用の感情表現ベクトル、出力された感情パラメータ、および学習用の音声特徴量ベクトルＶｇを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデル１４ａを出力する。

　まず、音声調整パラメータ学習部１５ｄは、学習用の音声特徴量ベクトルＶｇおよび学習用の感情表現ベクトルから、音声特徴によって感情を表すための係数を学習する。例えば、音声調整パラメータ学習部１５ｄは、重回帰分析やパス解析（非特許文献５参照）を適用する。例えば、事前の主観評価実験等により、学習用の音声特徴量ベクトルＶｇ［Ｆ０、話速、Ｆ０分散］と、学習用の感情表現ベクトル［快感情、覚醒、支配］が得られている場合に、重回帰分析を適用すると、各感情次元は次式（４）のように表すことができる。

　ここで、回帰係数α，β，γ、誤差εである。音声調整パラメータ学習部１５ｄは、回帰係数α，β，γを出力する。

　なお、音声調整パラメータ学習部１５ｄは、ニューラルネットワークによる学習を行ってもよい。例えば、入力を学習用の音声特徴量ベクトルＶｇ、出力を学習用の感情表現ベクトルとして学習する(非特許文献３参照)。これにより、音声調整パラメータ学習部１５ｄは、学習用の音声特徴量ベクトルから学習用の感情表現ベクトルを推定するニューラルネットワークを学習することが可能である。

　次に、音声調整パラメータ学習部１５ｄは、感情パラメータ［ａ，ｂ，ｃ］と回帰係数α，β，γと掛け合わせて、音声調整パラメータを出力する。例えば、感情パラメータ［ａ，ｂ，ｃ］、学習用の音声特徴量ベクトルＶｇ［Ｆ０、話速、Ｆ０分散］が得られている場合に、音声調整パラメータＶｐは、次式（５）で表される。

　音声調整パラメータ学習部１５ｄは、音声調整パラメータを上記式（２）に代入し、購買意欲向上音声推定モデル１４ａとして出力する。

　図１の説明に戻る。推定部１５ｅは、生成された購買意欲向上音声推定モデル１４ａに音声特徴量ベクトルＶｆおよび購買意欲ベクトルＶｂ’を入力し、購買意欲を生起させる音声特徴量ベクトルＶｆ’を推定する。具体的には、図３に示すように、推定部１５ｅは、音声特徴量ベクトルＶｆを利用して購買意欲ベクトルＶｂ’を再現する音声特徴量ベクトルＶｆ’を出力する。つまり、推定部１５ｅは、購買意欲向上音声推定モデル１４ａに対して音声特徴量ベクトルＶｆおよび購買意欲ベクトルＶｂ’を入力し、購買意欲向上音声推定モデル１４ａの出力として、音声特徴量ベクトルＶｆ’を得ることで、購買意欲を生起させる音声特徴量ベクトルＶｆ’を推定する。

　ここで、購買意欲向上音声推定モデル１４ａが学習により生成された後に、取得部１５ａが、目標とする購買意欲を生起させる音声を生成する処理に用いる発話データを元音声データとして、入力部１１を介して取得する。元音声データの発話内容や文章数、あるいは発話者の人数や性別等は特に限定されない。

　また、取得部１５ａは、元音声データから声の高さ（Ｆ０）やパワー、話す速度の平均や分散、スペクトル傾斜等の音声特徴を表す音声特徴量ベクトルＶｆを抽出する。

　また、取得部１５ａは、元音声データに対応する購買意欲ベクトルＶｂ’を取得する。購買意欲ベクトルＶｂ’は、Ｖｂと同様に、聴取者が音声を聴取した際の購買意欲を数値で示したデータである。Ｖｂ’は、生成する音声の目標とする購買意欲を示す。

　また、音声特徴量ベクトルＶｆ’は、購買意欲ベクトルＶｂ’を生起するように、元音声データの音声特徴量ベクトルＶｆが調整された音声特徴量ベクトルである。なお、推定部１５ｅは、音声特徴量ベクトルＶｆ’の上限Ｘおよび下限Ｙを設定しておく。これにより、元音声データの音声特徴量が大きく変化して音声が著しく劣化することが抑止される。

　まず、推定部１５ｅは、ｎ次元からなる音声特徴量ベクトルＶｆ［ｉ］（１≦ｉ≦ｎ）について、ｉ＝１から順に処理を行うｉを決定する。その際に、元音声データの音声特徴ベクトルＶｆについては、推定する次元Ｖｆ［ｉ］以降の値Ｖｆ［ｋ］（ｉ＜ｋ≦ｎ）を用いて処理を行う。

　また、推定部１５ｅは、Ｖｆ’［ｉ］の上限Ｘ_ｉと下限Ｙ_ｉを設定する。

　次に、推定部１５ｅは、購買意欲向上音声推定モデル１４ａにより、購買意欲ベクトルＶｂ’、音声特徴量ベクトルＶｆ’からＶｆ’［ｉ］を推定する。その際に、１＜ｉであれば、既に推定した音声特徴量ベクトルＶｆ’［ｊ］（１≦ｊ＜ｉ）を処理に用いる。

　そして、推定部１５ｅは、Ｖｆ’［ｉ］が上限Ｘ_ｉより大きい場合には、Ｖｆ’［ｉ］＝Ｘ_ｉ、ｉ＝ｉ＋１として、上記の処理を繰り返す。

　また、推定部１５ｅは、Ｖｆ’［ｉ］が下限Ｙ_ｉより小さい場合には、Ｖｆ’［ｉ］＝Ｙ_ｉ、ｉ＝ｉ＋１として、上記の処理を繰り返す。

　そして、推定部１５ｅは、Ｙ_ｉ≦Ｖｆ’［ｉ］≦Ｘ_ｉの場合に、音声特徴量ベクトルＶｆ’を出力する。

　生成部１５ｆは、推定された音声特徴量ベクトルＶｆ’に対応する音声データを生成する。具体的には、生成部１５ｆは、元音声データの音声特徴量ベクトルＶｆを音声特徴量ベクトルＶｆ’に置き換えて信号処理を行うことにより、聴取者の購買意欲を向上させる音声を出力する。その際に、生成部１５ｆは、例えば、ＷＯＲＬＤ（非特許文献６参照）やＰＩＣＯＬＡ（非特許文献７参照）等のツールを使用して、信号処理を行う。

［音声生成処理］
　次に、音声生成装置１０による音声生成処理について説明する。図４よび図５は、音声生成処理手順を示すフローチャートである。本実施形態の音声生成処理は、学習処理と推定処理とを含む。まず、図４は、学習処理手順を示す。図４のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。

　まず、取得部１５ａが、学習用の音声データの特徴を表す音声特徴量ベクトルＶｇと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルＶｂとを取得する（ステップＳ１）。

　次に、学習部１５ｂが、音声特徴量ベクトルＶｇと感情表現ベクトルと購買意欲ベクトルＶｂとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル１４ａを学習により生成する（ステップＳ２）。具体的には、学習部１５ｂは、ＰＡＤモデルに従って、入力された購買意欲ベクトルＶｂを再現するように、購買意欲向上音声推定モデル１４ａの感情パラメータと音声調整パラメータとを順に学習する。

　つまり、感情パラメータ学習部１５ｃが、感情表現ベクトルを用いて購買意欲ベクトルＶｂを推定する購買意欲向上音声推定モデル１４ａの感情パラメータを学習により決定する。次に、音声調整パラメータ学習部１５ｄが、決定された感情パラメータと音声特徴量ベクトルＶｇとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル１４ａの音声調整パラメータを学習により決定する。これにより、一連の学習処理が終了する。

　次に、図５は、推定処理手順を示す。図５のフローチャートは、例えば、推定処理の開始を指示する入力があったタイミングで開始される。

　まず、取得部１５ａが、元音声データの特徴を表す音声特徴量ベクトルＶｆと、該元音声データに対応する聴取者の感情を表す感情表現ベクトルと、目標とする購買意欲を表す購買意欲ベクトルＶｂとを取得する。

　そして、推定部１５ｅが、ｎ次元からなる音声特徴量ベクトルＶｆ［ｉ］（１≦ｉ＜ｎ＋１）について、ｉ＝１から順に処理を行うｉを決定する（ステップＳ１１）。

　また、推定部１５ｅは、Ｖｆ’［ｉ］の上限Ｘ_ｉと下限Ｙ_ｉを設定する（ステップＳ１２）。

　次に、推定部１５ｅは、購買意欲向上音声推定モデル１４ａにより、購買意欲ベクトルＶｂ’、音声特徴量ベクトルＶｆ’からＶｆ’［ｉ］を推定する（ステップＳ１３）。

　そして、推定部１５ｅは、Ｖｆ’［ｉ］が上限Ｘ_ｉより大きい場合には（ステップＳ１４、Ｎｏ）、Ｖｆ’［ｉ］＝Ｘ_ｉとして（ステップＳ１５）、ステップＳ１８に処理を進める。

　また、推定部１５ｅは、Ｖｆ’［ｉ］が上限Ｘｉ以下であって(ステップＳ１４、Ｙｅｓ）、下限Ｙ_ｉより小さい場合には（ステップＳ１６、Ｎｏ）、Ｖｆ’［ｉ］＝Ｙ_ｉとして（ステップＳ１７）、ステップＳ１８に処理を進める。

　ステップＳ１８の処理では、推定部１５ｅは、ｉ＝ｉ＋１としてステップＳ１１に処理を戻し、ｉ＝ｎになるまで上記の処理を繰り返す。

　そして、推定部１５ｅは、Ｙ_ｉ≦Ｖｆ’［ｉ］≦Ｘ_ｉの場合に、音声特徴量ベクトルＶｆ’を出力する（ステップＳ１９）。これにより、一連の推定処理が終了する。

［第２の実施形態］
　図６および図７は、第２の実施形態の音声生成装置の処理を説明するための図である。なお以下では、上記の第１の実施形態の音声生成装置１０の音声生成処理と異なる点についてのみ説明を行い、共通する点についての説明を省略する。

　上記実施形態の音声生成装置１０では、図２に示したように、学習部１５ｂは、感情表現ベクトルを入力として、音声調整パラメータの推定を行った。一方、例えば、若年者と高齢者とでは、同じ音声を聞いても聞き取り易さが異なることから、聴取者の属性に応じて音声調整パラメータが異なる可能性がある。

　そこで、第２の実施形態の音声生成装置１０では、図６に示すように、音声調整パラメータ学習部１５ｄに学習用の聴取者属性ベクトルＶｓを入力として与える。これにより、聴取者の属性に合わせた購買意欲を向上させる音声を生成することが可能となる。

　この場合に、取得部１５ａが、音声データに対応する聴取者の属性を表す聴取者属性ベクトルＶｓをさらに取得し、学習部１５ｂが、聴取者属性ベクトルＶｓをさらに用いて購買意欲向上音声推定モデル１４ａを学習により生成する。

　ここで、学習用の聴取者属性ベクトルＶｓは、事前に実施する主観評価実験等の被検者の性別、年齢、居住地等の属性を実数値、あるいは１－ｈｏｔベクトル等の数値で表したデータである。取得部１５ａは、例えば事前のユーザ登録情報等を利用して取得する。

　また、学習用の感情表現ベクトルは、１つの音声に対応する感情を複数人が評価した場合に、上記の第１の実施形態では、複数人による評価値の平均を用いた。これに対し、第２の実施形態では、評価者の聴取者属性ベクトルＶｓが異なる場合に評価値をそのまま用い、聴取者属性ベクトルＶｓが同一の場合に評価値の平均値を用いる。例えば、１つの音声に対する評価者の聴取者属性ベクトルＶｓがｎ種類である場合には、取得部１５ａは、１つの音声に対する聴取者属性ベクトルＶｓごとのｎ種類の感情表現ベクトルを取得する。

　また、学習用の購買意欲ベクトルＶｂは、感情表現ベクトルと同様に、評価者の聴取者属性ベクトルＶｓが異なる場合に評価値をそのまま用い、聴取者属性ベクトルＶｓが同一の場合に評価値の平均値を用いる。例えば、１つの音声に対する評価者の聴取者属性ベクトルＶｓがｎ種類である場合には、取得部１５ａは、１つの音声に対する聴取者属性ベクトルＶｓごとのｎ種類の購買意欲ベクトルＶｂを取得する。

　そして、感情パラメータ学習部１５ｃは、学習用の購買意欲ベクトルＶｂと学習用の感情表現ベクトルとを入力として、感情パラメータを学習により出力する。本実施形態の感情パラメータ学習部１５ｃは、聴取者属性ベクトルＶｂを参照して、聴取者の属性ごとに異なる感情パラメータを出力する。例えば、学習用の聴取者属性ベクトルＶｓに聴取者の年代が含まれている場合に、年代Ａの購買意欲ベクトルＶｂは、次式（６）のように表される。

　また、音声調整パラメータ学習部１５ｄは、感情パラメータ、学習用の音声特徴量ベクトルＶｇから音声調整パラメータを学習により出力する。本実施形態の音声調整パラメータ学習部１５ｄは、聴取者属性ベクトルＶｂを参照して、聴取者の属性ごとに異なる音声調整パラメータを学習し、購買意欲向上音声推定モデル１４ａを出力する。例えば、学習用の聴取者属性ベクトルＶｓに聴取者の年代が含まれている場合に、年代Ａの感情表現ベクトルは、次式（７）のように表される。

　そして、推定部１５ｅは、生成する音声により購買意欲を向上させる対象の聴取者の属性に対応した音声調整パラメータを予め指定する。具体的には、推定部１５ｅは、図７に示すように、予め、聴取者属性ベクトルＶｓ’に応じた音声調整パラメータを指定した後に、図５に示した処理を実行する。

　ここで、聴取者属性ベクトルＶｓ’は、学習用の聴取者属性ベクトルＶｓと同様に、聴取者の性別、年齢、居住地等の属性を数値で表したデータである。ただし、学習用の聴取者属性ベクトルＶｓとは異なり、生成する音声により購買意欲を向上させる対象の聴取者の属性を表すデータである。

［第３の実施形態］
　図８および図９は、第３の実施形態の音声生成装置の処理を説明するための図である。上記実施形態の音声生成装置１０では、図２に示したように、感情パラメータ学習部１５ｃは、学習用の購買意欲ベクトルＶｂを入力として感情パラメータを出力した。一方、商品によって購買意欲を高める感情が異なる場合がある（非特許文献８参照）。

　そこで、第３の実施形態の音声生成装置１０では、購買意欲ベクトルＶｂを学習する際に、商品の分類を示すデータを入力として与える。これにより、商品に合わせた購買意欲を向上させる音声を生成することが可能となる。

　この場合に、取得部１５ａが、音声データに対応する商品に関する情報を表す商品属性ベクトルをさらに取得し、学習部１５ｂが、商品属性ベクトルをさらに用いて購買意欲向上音声推定モデル１４ａを学習により生成する。

　ここで、学習用の商品属性ベクトルＶｍは、評価実験等の音声データ内で発話されている商品の分類を、実数値、あるいは１－ｈｏｔベクトル等の数値で表したデータである。分類については、娯楽商品と実用的な商品とに分類（非特許文献９参照）しても、アサエルの４タイプのように商品に対する関与水準やブランド間知覚差異の観点から分類（非特許文献８参照）してもよい。また、商品の価格や販売時期等を商品属性ベクトルＶｍとして使用してもよい。

　また、学習用の感情表現ベクトルは、１つの音声に対応する感情を複数人が評価した場合に、上記の第１の実施形態では、複数人による評価値の平均を用いた。これに対し、第３の実施形態では、学習用の商品属性ベクトルＶｍが異なる場合に評価値をそのまま用い、商品属性ベクトルＶｍが同一の場合に評価値の平均値を用いる。

　また、学習用の購買意欲ベクトルＶｂは、感情表現ベクトルと同様に、学習用の商品属性ベクトルＶｍが異なる場合に評価値をそのまま用い、商品属性ベクトルＶｍが同一の場合に評価値の平均値を用いる。

　そして、感情パラメータ学習部１５ｃは、図８に示すように、学習用の購買意欲ベクトルＶｂと学習用の感情表現ベクトルとを入力として、感情パラメータを学習により出力する。本実施形態の感情パラメータ学習部１５ｃは、商品属性ベクトルＶｍを参照して、商品の分類ごとに異なる感情パラメータを出力する。

　また、音声調整パラメータ学習部１５ｄは、図８に示すように、感情パラメータ、学習用の音声特徴量ベクトルＶｇから音声調整パラメータを学習し、購買意欲向上音声推定モデル１４ａを出力する。本実施形態の音声調整パラメータ学習部１５ｄは、商品属性ベクトルＶｍを参照して、商品の分類ごとに異なる音声調整パラメータを出力する。

　そして、推定部１５ｅは、商品の分類に対応した音声調整パラメータを予め指定する。具体的には、推定部１５ｅは、図９に示すように、予め、商品属性ベクトルＶｍ’に応じた音声調整パラメータを指定した後に、図５に示した処理を実行する。

　ここで、商品属性ベクトルＶｍ’は、学習用の商品属性ベクトルＶｍと同様に、商品の属性を数値で表したデータである。ただし、学習用の商品属性ベクトルＶｍとは異なり、元音声データで発話されている商品の属性を表すデータである。

［第４の実施形態］
　図１０および図１１は、第４の実施形態の音声生成装置の処理を説明するための図である。第４の実施形態の音声生成装置１０では、聴取者の属性および商品の属性の双方を考慮して、購買意欲を向上させる音声を生成する。

　この場合に、学習用の感情表現ベクトルは、学習用の聴取者属性ベクトルＶｓまたは学習用の商品属性ベクトルＶｍが異なる場合には、評価値をそのまま用い、学習用の聴取者属性ベクトルＶｓおよび学習用の商品属性ベクトルＶｍが同一の場合には、評価値の平均を用いる。

　同様に、学習用の購買意欲ベクトルＶｂは、学習用の聴取者属性ベクトルＶｓまたは学習用の商品属性ベクトルＶｍが異なる場合には、評価値をそのまま用い、学習用の聴取者属性ベクトルＶｓおよび学習用の商品属性ベクトルＶｍが同一の場合には、評価値の平均を用いる。

　そして、図１０に示すように、感情パラメータ学習部１５ｃおよび音声調整パラメータ学習部１５ｄは、学習用の聴取者属性ベクトルＶｓおよび学習用の商品属性ベクトルＶｍの双方を使用する。そして、感情パラメータ学習部１５ｃおよび音声調整パラメータ学習部１５ｄは、聴取者の属性と商品の属性との組み合わせごとに異なる感情パラメータと音声調整パラメータを生成する。

　また、図１１に示すように、推定部１５ｅは、予め、聴取者属性ベクトルＶｓ’および商品属性ベクトルＶｍ’に応じた音声調整パラメータを指定した後に、図５に示した処理を実行する。

［音声生成処理の効果］
　以上、説明したように、本実施形態の音声生成装置１０において、取得部１５ａが、学習用の音声データの特徴を表す音声特徴量ベクトルＶｇと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルＶｂとを取得する。学習部１５ｂは、音声特徴量ベクトルＶｇと感情表現ベクトルと購買意欲ベクトルＶｂとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル１４ａを学習により生成する。

　具体的には、感情パラメータ学習部１５ｃが、感情表現ベクトルを用いて購買意欲ベクトルＶｂを推定する購買意欲向上音声推定モデル１４ａの感情パラメータを学習により決定する。また、音声調整パラメータ学習部１５ｄが、決定された感情パラメータと音声特徴量ベクトルＶｇとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル１４ａの音声調整パラメータを学習により決定する。

　これにより、音声生成装置１０は、快感情を高めるような音声を生成することにより、購買意欲を向上させることが可能となる。このように、音声生成装置１０によれば、購買意欲を向上させる音声を生成することが可能となる。

　また、推定部１５ｅが、生成された購買意欲向上音声推定モデル１４ａに音声特徴量ベクトルＶｆおよび購買意欲ベクトルＶｂ’を入力し、購買意欲を生起させる音声特徴量ベクトルＶｆ’を推定する。また、生成部１５ｆが、推定された音声特徴量ベクトルＶｆ’に対応する音声データを生成する。これにより、聴取者の購買意欲を向上させることが可能となる。

　また、取得部１５ａが、音声データに対応する聴取者の属性を表す聴取者属性ベクトルＶｓをさらに取得し、学習部１５ｂが、聴取者属性ベクトルＶｓをさらに用いて購買意欲向上音声推定モデル１４ａを学習により生成する。これにより、聴取者の属性に合わせて購買意欲をより向上させる音声を生成することが可能となる。

　また、取得部１５ａが、音声データに対応する商品に関する情報を表す商品属性ベクトルＶｍをさらに取得し、学習部１５ｂが、商品属性ベクトルＶｍをさらに用いて購買意欲向上音声推定モデル１４ａを学習により生成する。これにより、商品に合わせて購買意欲をより向上させる音声を生成することが可能となる。

［プログラム］
　上記実施形態に係る音声生成装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声生成装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声生成処理を実行する音声生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声生成プログラムを情報処理装置に実行させることにより、情報処理装置を音声生成装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、音声生成装置１０の機能を、クラウドサーバに実装してもよい。

　図１２は、音声生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、音声生成プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した音声生成装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、音声生成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、音声生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、音声生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　音声生成装置
　１３　通信制御部
　１４　記憶部
　１４ａ　購買意欲向上音声推定モデル
　１５　制御部
　１５ａ　取得部
　１５ｂ　学習部
　１５ｃ　感情パラメータ学習部
　１５ｄ　音声調整パラメータ学習部
　１５ｅ　推定部
　１５ｆ　生成部

Claims

　音声生成装置が実行する音声生成方法であって、
　入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得工程と、
　前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習工程と、
　を含むことを特徴とする音声生成方法。
　前記学習工程は、前記感情表現ベクトルを用いて前記購買意欲ベクトルを推定する前記モデルの感情パラメータを学習により決定する感情パラメータ学習工程と、
　決定された前記感情パラメータと前記音声特徴量ベクトルとを用いて前記感情表現ベクトルを推定する前記モデルの音声調整パラメータを学習により決定する音声調整パラメータ学習工程と、
　を含むことを特徴とする請求項１に記載の音声生成方法。
　生成された前記モデルに音声特徴量ベクトルおよび購買意欲ベクトルを入力し、前記購買意欲を生起させる音声特徴量ベクトルを推定する推定工程と、
　推定された前記音声特徴量ベクトルに対応する音声データを生成する生成工程と、
　をさらに含むことを特徴とする請求項１に記載の音声生成方法。
　前記取得工程は、前記音声データに対応する前記聴取者の属性を表す聴取者属性ベクトルをさらに取得し、
　前記学習工程は、前記聴取者属性ベクトルをさらに用いて前記モデルを学習により生成する、
　ことを登頂とする請求項１に記載の音声生成方法。
　前記取得工程は、前記音声データに対応する商品に関する情報を表す商品属性ベクトルをさらに取得し、
　前記学習工程は、前記商品属性ベクトルをさらに用いて前記モデルを学習により生成する、
　ことを特徴とする請求項１に記載の音声生成方法。
　入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得部と、
　前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習部と、
　を有することを特徴とする音声生成装置。
　入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得ステップと、
　前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習ステップと、
　をコンピュータに実行させるための音声生成プログラム。