WO2023017582A1 - 音声生成方法、音声生成装置および音声生成プログラム - Google Patents

音声生成方法、音声生成装置および音声生成プログラム Download PDF

Info

Publication number
WO2023017582A1
WO2023017582A1 PCT/JP2021/029633 JP2021029633W WO2023017582A1 WO 2023017582 A1 WO2023017582 A1 WO 2023017582A1 JP 2021029633 W JP2021029633 W JP 2021029633W WO 2023017582 A1 WO2023017582 A1 WO 2023017582A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
learning
voice
listener
speech
Prior art date
Application number
PCT/JP2021/029633
Other languages
English (en)
French (fr)
Inventor
瑞生 長野
勇祐 井島
定男 廣谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/029633 priority Critical patent/WO2023017582A1/ja
Publication of WO2023017582A1 publication Critical patent/WO2023017582A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Definitions

  • the acquisition unit 15a acquires voice data used for voice generation processing, which will be described later, via the input unit 11 or via the communication control unit 13 from a management device or the like that manages voice data.
  • voice data used for voice generation processing
  • FIGSecond embodiment 6 and 7 are diagrams for explaining the processing of the speech generation device of the second embodiment. In the following description, only points that are different from the sound generation process of the sound generation device 10 of the first embodiment will be described, and descriptions of common points will be omitted.
  • the estimating unit 15e executes the processing shown in FIG. 5 after specifying the audio adjustment parameters according to the listener attribute vector Vs' and the product attribute vector Vm' in advance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

取得部(15a)が、学習用の音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する。学習部(15b)が、音声特徴量ベクトルと感情表現ベクトルと購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル(14a)を学習により生成する。

Description

音声生成方法、音声生成装置および音声生成プログラム
 本発明は、音声生成方法、音声生成装置および音声生成プログラムに関する。
 従来、マーケティングや消費者行動研究において、PAD(Pleasure Arousal Dominance)モデルと呼ばれる購買行動モデルが知られている(非特許文献1~9参照)。PADモデルでは、消費者が店舗に入店したときに、店舗の混雑状況や商品配列などの外部刺激によって生起される感情によって、購買意欲が高いことを示す「接近」または購買意欲が低いことを示す「回避」の行動が生じ、購買行動に移行するか否かが決定される。ここで、感情とは、楽しさを示す「快感情(Pleasure)」、興奮状態を示す「覚醒(Arousal)」、状況に対する自分の影響力を示す「支配(Dominance)」の3次元で表される。このように、PADモデルを用いれば、快感情を高める音声刺激によって、購買意欲を向上させることができると考えられる。例えば、PADモデルを用いた実験では、実店舗での調査により、高い快感情が非計画購買や店舗滞在時間に有意な正の影響を及ぼすことが確認されている(非特許文献1参照)。
 なお、非特許文献2、3には、感情表現の次元について記載されている。また、非特許文献4には、音声特徴量抽出ツールであるOpenSMILEについて記載されている。また、非特許文献5には、パス解析の手法について記載されている。また、非特許文献6、7には、音声データの信号処理について記載されている。また、非特許文献8には、購買意欲についての記載がある。また、非特許文献9には、商品の分類についての記載がある。
Donovan, R. J., Rossiter, J. R., Marcoolyn, G., and Nesdale, A. "Store atmosphere and purchasing behavior", Journal of Retailing, Vol.70, No.3, 1994年, pp.283-294 J. Russell, "A circumplex model of affect", Journal of Personality and Social Psychology, vol.39, no.6, 1980年, pp.1161-1178 S. Parthasarathy, C. Busso, "Jointly Predicting Arousal, Valence and Dominance with Multi-Task Learning", INTERSPEECH 2017, 2017年, pp.1103-1107 F. Eyben, M. W¨ollmer, and B. Schuller, "OpenSMILE: the Munich versatile and fast open-source audio feature extractor", in ACM International conference on Multimedia (MM 2010), Florence, Italy, 2010年, pp.1459-1462 N. Nusairat, Q. Hammouri, H. Al-Ghadir, A.M.K.Ahmad, and M.A.H.Eid, "The effect of design of restaurant on customer behavioral intentions," Management M. Morise, F.Yokomori, and K.Ozawa, "World: A vocoderbased high-quality speech synthesis system for real-time applications", IEICE Transactions on Information and Systems, vol.E99-D, no.7, 2016年, pp.1877-1884 N. Morita and F. Itakura, "Time-scale modification algorithm for speech by use of pointer interval overlap and add (picola) and its evaluation", in Proceedings of Annual Meeting of Acoustical Society of Japan, vol.86, 1986年, pp.9-16 C. G. Ding, C. H. Lin, "How does background music tempo work for online shopping?", Electronic Commerce Research and Applications, Vol. 11, No.3, 2012年, pp.299-307 H. Assael, "Consumer behavior and marketing action", Kent Publishing Company, 1981年
 しかしながら、従来技術では、購買意欲を向上させる音声を生成することは困難であった。例えば、顧客の購買意欲に対して効果的な音声はわかっていない。また、顧客の年代や性別等の属性あるいは商品の種類等によって、店頭やラジオ等の宣伝音声の聞き取り易さや宣伝に対する興味関心等が異なると考えられるものの、顧客の属性や宣伝商品にあわせて適切な音声を出し分けることは容易ではない。
 本発明は、上記に鑑みてなされたものであって、購買意欲を向上させる音声を生成することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る音声生成方法は、音声生成装置が実行する音声生成方法であって、入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得工程と、前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習工程と、を含んだことを特徴とする。
 本発明によれば、購買意欲を向上させる音声を生成することが可能となる。
図1は、音声生成装置の概略構成を例示する模式図である。 図2は、第1の実施形態の音声生成装置の処理を説明するための図である。 図3は、第1の実施形態の音声生成装置の処理を説明するための図である。 図4は、音声生成処理手順を示すフローチャートである。 図5は、音声生成処理手順を示すフローチャートである。 図6は、第2の実施形態の音声生成装置の処理を説明するための図である。 図7は、第2の実施形態の音声生成装置の処理を説明するための図である。 図8は、第3の実施形態の音声生成装置の処理を説明するための図である。 図9は、第3の実施形態の音声生成装置の処理を説明するための図である。 図10は、第4の実施形態の音声生成装置の処理を説明するための図である。 図11は、第4の実施形態の音声生成装置の処理を説明するための図である。 図12は、音声生成プログラムを実行するコンピュータを例示する図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[音声生成装置の構成]
 図1は、音声生成装置の概略構成を例示する模式図である。図1に例示するように、音声生成装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。
 通信制御部13は、NIC(Network Interface Card)等で実現され、ネットワークを介したサーバ等の外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、音声生成処理の対象の音声データや音声データに対応する感情表現データ等を管理する管理装置等と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。本実施形態において、記憶部14には、例えば、後述する音声生成処理に用いられる音声データや音声データに対応する購買意欲ベクトルと感情表現ベクトル、音声生成処理で生成される購買意欲向上音声推定モデル14a等が記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
 制御部15は、CPU(Central Processing Unit)やNP(Network Processor)やFPGA(Field Programmable Gate Array)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図1に例示するように、取得部15a、学習部15b、感情パラメータ学習部15c、音声調整パラメータ学習部15d、推定部15eおよび生成部15f、として機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば、学習部15bと推定部15eとは、異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
[第1の実施形態]
 図2および図3は、第1の実施形態の音声生成装置の処理を説明するための図である。第1の実施形態の音声生成装置10において、図2に示すように、取得部15aは、入力された音声データの特徴を表す音声特徴量ベクトルVgと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルVbとを取得する。
 例えば、取得部15aは、後述する音声生成処理に用いる音声データを、入力部11を介して、あるいは音声データを管理する管理装置等から通信制御部13を介して取得する。音声データの発話内容や文章数、あるいは発話者の人数や性別等は特に限定されない。
 また、取得部15aは、学習用の音声データから声の高さ(F0)やパワー、話す速度の平均や分散、スペクトル傾斜等の音声特徴を表す音声特徴量ベクトルVgを抽出する。例えば、取得部15aは、音声特徴量ベクトルVgとして、例えばフレームごとにフーリエ変換等の信号処理を行って数値を出力する。あるいは、取得部15aは、OpenSMILE(非特許文献4参照)等の音声特徴量抽出ツールを用いて、音声特徴量ベクトルVgを抽出する。
 また、取得部15aは、音声データに対応する感情表現ベクトルを取得する。ここで、感情表現ベクトルとは、聴取者が音声データを聴取した際の感情を表す主観評価データであり、例えばn次元(n≧1)の数値である。感情表現ベクトルには、PADの尺度である快感情、覚醒、支配の3次元の感情の他の感情次元(非特許文献2、3参照)が含まれてもよい。本実施形態では、予め聴取者に対するアンケートにより、各次元について7段階の回答を得ることにより、感情表現ベクトルを取得して、音声データに対応付けて、例えば音声データの管理装置の記憶部に記憶させておく。
 なお、取得部15aは、1つの音声データに対応してn次元からなる1つの感情表現ベクトルを取得するものとする。また、取得部15aは、1つの音声データに対して複数の聴取者が主観評価を行った場合には、その平均を感情表現ベクトルとして取得する。
 また、取得部15aは、音声データに対応する購買意欲ベクトルVbを取得する。ここで、購買意欲ベクトルVbとは、聴取者が音声データを聴取した際の購買意欲を表すデータであり、例えば「どの程度買いたいと思ったか」を7段階で表した数値である。購買意欲ベクトルVbは、必ずしも段階を表す数値である必要はなく、例えば、聴取者が商品を実際に購買したか否かを2値で保存している購買ログ等から求めてもよい。これにより、購買意欲向上音声推定モデル14aの学習に大量に必要となる購買意欲ベクトルVbを容易に用意することが可能となる。
 また、本実施形態では、感情表現ベクトルと同様に、予め聴取者に対するアンケートにより購買意欲ベクトルVbを取得して、音声データに対応付けて、例えば音声データの管理装置の記憶部に記憶させておく。
 なお、取得部15aは、1つの音声データに対応して1つの購買意欲ベクトルVbを取得するものとする。また、取得部15aは、1つの音声データに対して複数の聴取者が購買意欲の評価を行った場合には、その平均を購買意欲ベクトルVbとして取得する。
 また、取得部15aは、1つの音声データに対して、音声特徴量ベクトルVgと、感情表現ベクトルと、購買意欲ベクトルVbとを同時に取得する。例えば、取得部15aは、学習用に、主観評価実験やアンケート等により、1つの音声データに対して、音声特徴量ベクトルVgと、感情表現ベクトルと、購買意欲ベクトルVbとを同時に取得する。
 学習部15bは、音声特徴量ベクトルVgと感情表現ベクトルと購買意欲ベクトルVbとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル14aを学習により生成する。
 具体的には、学習部15bは、PADモデルに従って、入力された購買意欲ベクトルVbを再現するように、購買意欲向上音声推定モデル14aの感情パラメータと音声調整パラメータとを順に学習する。すなわち、学習部15bは、感情パラメータ学習部15cと、音声調整パラメータ学習部15dとを含む。
 ここで、感情パラメータは、感情表現ベクトルによって表された各感情次元が購買意欲ベクトルVbに及ぼす影響を示すパラメータである。また、音声調整パラメータは、任意の購買意欲を生起させる音声を生成するための音声特徴量ベクトルVbによって購買意欲ベクトルVbを表すパラメータである。
 PADモデルでは、購買意欲と各感情次元とは、係数a,b,c,x,y,zを用いて次式(1)のように表すことができる。
Figure JPOXMLDOC01-appb-M000001
 したがって、購買意欲は、次式(2)のように表すことができる。
Figure JPOXMLDOC01-appb-M000002
 感情パラメータ学習部15cは、図2に示すように、感情表現ベクトルを用いて購買意欲ベクトルVbを推定する購買意欲向上音声推定モデル14aの感情パラメータを学習により決定する。
 具体的には、感情パラメータ学習部15cは、学習用の購買意欲ベクトルVbと感情表現ベクトルとを入力して、感情パラメータを出力する。ここで、感情パラメータ学習部15cは、重回帰分析やパス解析(非特許文献5参照)を適用する。例えば、事前の主観評価実験等により、学習用の感情表現ベクトル[快感情、覚醒、支配]が得られている場合に、重回帰分析を適用すると、購買意欲ベクトルVbは次式(3)のように表すことができる。
Figure JPOXMLDOC01-appb-M000003
 ここで、回帰係数a,b,c、誤差dである。感情パラメータ学習部15cは、回帰係数a,b,cを感情パラメータとして出力する。
 なお、感情パラメータ学習部15cは、ニューラルネットワークによる学習を行ってもよい。例えば、入力を学習用の感情表現ベクトル、出力を学習用の購買意欲ベクトルとして学習する(非特許文献3参照)。これにより、感情パラメータ学習部15cは、学習用の感情表現ベクトルから学習用の購買意欲ベクトルを推定するニューラルネットワークを学習することが可能である。
 音声調整パラメータ学習部15dは、決定された感情パラメータと音声特徴量ベクトルVgとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル14aの音声調整パラメータを学習により決定する。
 具体的には、音声調整パラメータ学習部15dは、学習用の感情表現ベクトル、出力された感情パラメータ、および学習用の音声特徴量ベクトルVgを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデル14aを出力する。
 まず、音声調整パラメータ学習部15dは、学習用の音声特徴量ベクトルVgおよび学習用の感情表現ベクトルから、音声特徴によって感情を表すための係数を学習する。例えば、音声調整パラメータ学習部15dは、重回帰分析やパス解析(非特許文献5参照)を適用する。例えば、事前の主観評価実験等により、学習用の音声特徴量ベクトルVg[F0、話速、F0分散]と、学習用の感情表現ベクトル[快感情、覚醒、支配]が得られている場合に、重回帰分析を適用すると、各感情次元は次式(4)のように表すことができる。
Figure JPOXMLDOC01-appb-M000004
 ここで、回帰係数α,β,γ、誤差εである。音声調整パラメータ学習部15dは、回帰係数α,β,γを出力する。
 なお、音声調整パラメータ学習部15dは、ニューラルネットワークによる学習を行ってもよい。例えば、入力を学習用の音声特徴量ベクトルVg、出力を学習用の感情表現ベクトルとして学習する(非特許文献3参照)。これにより、音声調整パラメータ学習部15dは、学習用の音声特徴量ベクトルから学習用の感情表現ベクトルを推定するニューラルネットワークを学習することが可能である。
 次に、音声調整パラメータ学習部15dは、感情パラメータ[a,b,c]と回帰係数α,β,γと掛け合わせて、音声調整パラメータを出力する。例えば、感情パラメータ[a,b,c]、学習用の音声特徴量ベクトルVg[F0、話速、F0分散]が得られている場合に、音声調整パラメータVpは、次式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 音声調整パラメータ学習部15dは、音声調整パラメータを上記式(2)に代入し、購買意欲向上音声推定モデル14aとして出力する。
 図1の説明に戻る。推定部15eは、生成された購買意欲向上音声推定モデル14aに音声特徴量ベクトルVfおよび購買意欲ベクトルVb’を入力し、購買意欲を生起させる音声特徴量ベクトルVf’を推定する。具体的には、図3に示すように、推定部15eは、音声特徴量ベクトルVfを利用して購買意欲ベクトルVb’を再現する音声特徴量ベクトルVf’を出力する。つまり、推定部15eは、購買意欲向上音声推定モデル14aに対して音声特徴量ベクトルVfおよび購買意欲ベクトルVb’を入力し、購買意欲向上音声推定モデル14aの出力として、音声特徴量ベクトルVf’を得ることで、購買意欲を生起させる音声特徴量ベクトルVf’を推定する。
 ここで、購買意欲向上音声推定モデル14aが学習により生成された後に、取得部15aが、目標とする購買意欲を生起させる音声を生成する処理に用いる発話データを元音声データとして、入力部11を介して取得する。元音声データの発話内容や文章数、あるいは発話者の人数や性別等は特に限定されない。
 また、取得部15aは、元音声データから声の高さ(F0)やパワー、話す速度の平均や分散、スペクトル傾斜等の音声特徴を表す音声特徴量ベクトルVfを抽出する。
 また、取得部15aは、元音声データに対応する購買意欲ベクトルVb’を取得する。購買意欲ベクトルVb’は、Vbと同様に、聴取者が音声を聴取した際の購買意欲を数値で示したデータである。Vb’は、生成する音声の目標とする購買意欲を示す。
 また、音声特徴量ベクトルVf’は、購買意欲ベクトルVb’を生起するように、元音声データの音声特徴量ベクトルVfが調整された音声特徴量ベクトルである。なお、推定部15eは、音声特徴量ベクトルVf’の上限Xおよび下限Yを設定しておく。これにより、元音声データの音声特徴量が大きく変化して音声が著しく劣化することが抑止される。
 まず、推定部15eは、n次元からなる音声特徴量ベクトルVf[i](1≦i≦n)について、i=1から順に処理を行うiを決定する。その際に、元音声データの音声特徴ベクトルVfについては、推定する次元Vf[i]以降の値Vf[k](i<k≦n)を用いて処理を行う。
 また、推定部15eは、Vf’[i]の上限Xと下限Yを設定する。
 次に、推定部15eは、購買意欲向上音声推定モデル14aにより、購買意欲ベクトルVb’、音声特徴量ベクトルVf’からVf’[i]を推定する。その際に、1<iであれば、既に推定した音声特徴量ベクトルVf’[j](1≦j<i)を処理に用いる。
 そして、推定部15eは、Vf’[i]が上限Xより大きい場合には、Vf’[i]=X、i=i+1として、上記の処理を繰り返す。
 また、推定部15eは、Vf’[i]が下限Yより小さい場合には、Vf’[i]=Y、i=i+1として、上記の処理を繰り返す。
 そして、推定部15eは、Y≦Vf’[i]≦Xの場合に、音声特徴量ベクトルVf’を出力する。
 生成部15fは、推定された音声特徴量ベクトルVf’に対応する音声データを生成する。具体的には、生成部15fは、元音声データの音声特徴量ベクトルVfを音声特徴量ベクトルVf’に置き換えて信号処理を行うことにより、聴取者の購買意欲を向上させる音声を出力する。その際に、生成部15fは、例えば、WORLD(非特許文献6参照)やPICOLA(非特許文献7参照)等のツールを使用して、信号処理を行う。
[音声生成処理]
 次に、音声生成装置10による音声生成処理について説明する。図4よび図5は、音声生成処理手順を示すフローチャートである。本実施形態の音声生成処理は、学習処理と推定処理とを含む。まず、図4は、学習処理手順を示す。図4のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。
 まず、取得部15aが、学習用の音声データの特徴を表す音声特徴量ベクトルVgと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルVbとを取得する(ステップS1)。
 次に、学習部15bが、音声特徴量ベクトルVgと感情表現ベクトルと購買意欲ベクトルVbとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル14aを学習により生成する(ステップS2)。具体的には、学習部15bは、PADモデルに従って、入力された購買意欲ベクトルVbを再現するように、購買意欲向上音声推定モデル14aの感情パラメータと音声調整パラメータとを順に学習する。
 つまり、感情パラメータ学習部15cが、感情表現ベクトルを用いて購買意欲ベクトルVbを推定する購買意欲向上音声推定モデル14aの感情パラメータを学習により決定する。次に、音声調整パラメータ学習部15dが、決定された感情パラメータと音声特徴量ベクトルVgとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル14aの音声調整パラメータを学習により決定する。これにより、一連の学習処理が終了する。
 次に、図5は、推定処理手順を示す。図5のフローチャートは、例えば、推定処理の開始を指示する入力があったタイミングで開始される。
 まず、取得部15aが、元音声データの特徴を表す音声特徴量ベクトルVfと、該元音声データに対応する聴取者の感情を表す感情表現ベクトルと、目標とする購買意欲を表す購買意欲ベクトルVbとを取得する。
 そして、推定部15eが、n次元からなる音声特徴量ベクトルVf[i](1≦i<n+1)について、i=1から順に処理を行うiを決定する(ステップS11)。
 また、推定部15eは、Vf’[i]の上限Xと下限Yを設定する(ステップS12)。
 次に、推定部15eは、購買意欲向上音声推定モデル14aにより、購買意欲ベクトルVb’、音声特徴量ベクトルVf’からVf’[i]を推定する(ステップS13)。
 そして、推定部15eは、Vf’[i]が上限Xより大きい場合には(ステップS14、No)、Vf’[i]=Xとして(ステップS15)、ステップS18に処理を進める。
 また、推定部15eは、Vf’[i]が上限Xi以下であって(ステップS14、Yes)、下限Yより小さい場合には(ステップS16、No)、Vf’[i]=Yとして(ステップS17)、ステップS18に処理を進める。
 ステップS18の処理では、推定部15eは、i=i+1としてステップS11に処理を戻し、i=nになるまで上記の処理を繰り返す。
 そして、推定部15eは、Y≦Vf’[i]≦Xの場合に、音声特徴量ベクトルVf’を出力する(ステップS19)。これにより、一連の推定処理が終了する。
[第2の実施形態]
 図6および図7は、第2の実施形態の音声生成装置の処理を説明するための図である。なお以下では、上記の第1の実施形態の音声生成装置10の音声生成処理と異なる点についてのみ説明を行い、共通する点についての説明を省略する。
 上記実施形態の音声生成装置10では、図2に示したように、学習部15bは、感情表現ベクトルを入力として、音声調整パラメータの推定を行った。一方、例えば、若年者と高齢者とでは、同じ音声を聞いても聞き取り易さが異なることから、聴取者の属性に応じて音声調整パラメータが異なる可能性がある。
 そこで、第2の実施形態の音声生成装置10では、図6に示すように、音声調整パラメータ学習部15dに学習用の聴取者属性ベクトルVsを入力として与える。これにより、聴取者の属性に合わせた購買意欲を向上させる音声を生成することが可能となる。
 この場合に、取得部15aが、音声データに対応する聴取者の属性を表す聴取者属性ベクトルVsをさらに取得し、学習部15bが、聴取者属性ベクトルVsをさらに用いて購買意欲向上音声推定モデル14aを学習により生成する。
 ここで、学習用の聴取者属性ベクトルVsは、事前に実施する主観評価実験等の被検者の性別、年齢、居住地等の属性を実数値、あるいは1-hotベクトル等の数値で表したデータである。取得部15aは、例えば事前のユーザ登録情報等を利用して取得する。
 また、学習用の感情表現ベクトルは、1つの音声に対応する感情を複数人が評価した場合に、上記の第1の実施形態では、複数人による評価値の平均を用いた。これに対し、第2の実施形態では、評価者の聴取者属性ベクトルVsが異なる場合に評価値をそのまま用い、聴取者属性ベクトルVsが同一の場合に評価値の平均値を用いる。例えば、1つの音声に対する評価者の聴取者属性ベクトルVsがn種類である場合には、取得部15aは、1つの音声に対する聴取者属性ベクトルVsごとのn種類の感情表現ベクトルを取得する。
 また、学習用の購買意欲ベクトルVbは、感情表現ベクトルと同様に、評価者の聴取者属性ベクトルVsが異なる場合に評価値をそのまま用い、聴取者属性ベクトルVsが同一の場合に評価値の平均値を用いる。例えば、1つの音声に対する評価者の聴取者属性ベクトルVsがn種類である場合には、取得部15aは、1つの音声に対する聴取者属性ベクトルVsごとのn種類の購買意欲ベクトルVbを取得する。
 そして、感情パラメータ学習部15cは、学習用の購買意欲ベクトルVbと学習用の感情表現ベクトルとを入力として、感情パラメータを学習により出力する。本実施形態の感情パラメータ学習部15cは、聴取者属性ベクトルVbを参照して、聴取者の属性ごとに異なる感情パラメータを出力する。例えば、学習用の聴取者属性ベクトルVsに聴取者の年代が含まれている場合に、年代Aの購買意欲ベクトルVbは、次式(6)のように表される。
Figure JPOXMLDOC01-appb-M000006
 また、音声調整パラメータ学習部15dは、感情パラメータ、学習用の音声特徴量ベクトルVgから音声調整パラメータを学習により出力する。本実施形態の音声調整パラメータ学習部15dは、聴取者属性ベクトルVbを参照して、聴取者の属性ごとに異なる音声調整パラメータを学習し、購買意欲向上音声推定モデル14aを出力する。例えば、学習用の聴取者属性ベクトルVsに聴取者の年代が含まれている場合に、年代Aの感情表現ベクトルは、次式(7)のように表される。
Figure JPOXMLDOC01-appb-M000007
 そして、推定部15eは、生成する音声により購買意欲を向上させる対象の聴取者の属性に対応した音声調整パラメータを予め指定する。具体的には、推定部15eは、図7に示すように、予め、聴取者属性ベクトルVs’に応じた音声調整パラメータを指定した後に、図5に示した処理を実行する。
 ここで、聴取者属性ベクトルVs’は、学習用の聴取者属性ベクトルVsと同様に、聴取者の性別、年齢、居住地等の属性を数値で表したデータである。ただし、学習用の聴取者属性ベクトルVsとは異なり、生成する音声により購買意欲を向上させる対象の聴取者の属性を表すデータである。
[第3の実施形態]
 図8および図9は、第3の実施形態の音声生成装置の処理を説明するための図である。上記実施形態の音声生成装置10では、図2に示したように、感情パラメータ学習部15cは、学習用の購買意欲ベクトルVbを入力として感情パラメータを出力した。一方、商品によって購買意欲を高める感情が異なる場合がある(非特許文献8参照)。
 そこで、第3の実施形態の音声生成装置10では、購買意欲ベクトルVbを学習する際に、商品の分類を示すデータを入力として与える。これにより、商品に合わせた購買意欲を向上させる音声を生成することが可能となる。
 この場合に、取得部15aが、音声データに対応する商品に関する情報を表す商品属性ベクトルをさらに取得し、学習部15bが、商品属性ベクトルをさらに用いて購買意欲向上音声推定モデル14aを学習により生成する。
 ここで、学習用の商品属性ベクトルVmは、評価実験等の音声データ内で発話されている商品の分類を、実数値、あるいは1-hotベクトル等の数値で表したデータである。分類については、娯楽商品と実用的な商品とに分類(非特許文献9参照)しても、アサエルの4タイプのように商品に対する関与水準やブランド間知覚差異の観点から分類(非特許文献8参照)してもよい。また、商品の価格や販売時期等を商品属性ベクトルVmとして使用してもよい。
 また、学習用の感情表現ベクトルは、1つの音声に対応する感情を複数人が評価した場合に、上記の第1の実施形態では、複数人による評価値の平均を用いた。これに対し、第3の実施形態では、学習用の商品属性ベクトルVmが異なる場合に評価値をそのまま用い、商品属性ベクトルVmが同一の場合に評価値の平均値を用いる。
 また、学習用の購買意欲ベクトルVbは、感情表現ベクトルと同様に、学習用の商品属性ベクトルVmが異なる場合に評価値をそのまま用い、商品属性ベクトルVmが同一の場合に評価値の平均値を用いる。
 そして、感情パラメータ学習部15cは、図8に示すように、学習用の購買意欲ベクトルVbと学習用の感情表現ベクトルとを入力として、感情パラメータを学習により出力する。本実施形態の感情パラメータ学習部15cは、商品属性ベクトルVmを参照して、商品の分類ごとに異なる感情パラメータを出力する。
 また、音声調整パラメータ学習部15dは、図8に示すように、感情パラメータ、学習用の音声特徴量ベクトルVgから音声調整パラメータを学習し、購買意欲向上音声推定モデル14aを出力する。本実施形態の音声調整パラメータ学習部15dは、商品属性ベクトルVmを参照して、商品の分類ごとに異なる音声調整パラメータを出力する。
 そして、推定部15eは、商品の分類に対応した音声調整パラメータを予め指定する。具体的には、推定部15eは、図9に示すように、予め、商品属性ベクトルVm’に応じた音声調整パラメータを指定した後に、図5に示した処理を実行する。
 ここで、商品属性ベクトルVm’は、学習用の商品属性ベクトルVmと同様に、商品の属性を数値で表したデータである。ただし、学習用の商品属性ベクトルVmとは異なり、元音声データで発話されている商品の属性を表すデータである。
[第4の実施形態]
 図10および図11は、第4の実施形態の音声生成装置の処理を説明するための図である。第4の実施形態の音声生成装置10では、聴取者の属性および商品の属性の双方を考慮して、購買意欲を向上させる音声を生成する。
 この場合に、学習用の感情表現ベクトルは、学習用の聴取者属性ベクトルVsまたは学習用の商品属性ベクトルVmが異なる場合には、評価値をそのまま用い、学習用の聴取者属性ベクトルVsおよび学習用の商品属性ベクトルVmが同一の場合には、評価値の平均を用いる。
 同様に、学習用の購買意欲ベクトルVbは、学習用の聴取者属性ベクトルVsまたは学習用の商品属性ベクトルVmが異なる場合には、評価値をそのまま用い、学習用の聴取者属性ベクトルVsおよび学習用の商品属性ベクトルVmが同一の場合には、評価値の平均を用いる。
 そして、図10に示すように、感情パラメータ学習部15cおよび音声調整パラメータ学習部15dは、学習用の聴取者属性ベクトルVsおよび学習用の商品属性ベクトルVmの双方を使用する。そして、感情パラメータ学習部15cおよび音声調整パラメータ学習部15dは、聴取者の属性と商品の属性との組み合わせごとに異なる感情パラメータと音声調整パラメータを生成する。
 また、図11に示すように、推定部15eは、予め、聴取者属性ベクトルVs’および商品属性ベクトルVm’に応じた音声調整パラメータを指定した後に、図5に示した処理を実行する。
[音声生成処理の効果]
 以上、説明したように、本実施形態の音声生成装置10において、取得部15aが、学習用の音声データの特徴を表す音声特徴量ベクトルVgと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルVbとを取得する。学習部15bは、音声特徴量ベクトルVgと感情表現ベクトルと購買意欲ベクトルVbとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定する購買意欲向上音声推定モデル14aを学習により生成する。
 具体的には、感情パラメータ学習部15cが、感情表現ベクトルを用いて購買意欲ベクトルVbを推定する購買意欲向上音声推定モデル14aの感情パラメータを学習により決定する。また、音声調整パラメータ学習部15dが、決定された感情パラメータと音声特徴量ベクトルVgとを用いて感情表現ベクトルを推定する購買意欲向上音声推定モデル14aの音声調整パラメータを学習により決定する。
 これにより、音声生成装置10は、快感情を高めるような音声を生成することにより、購買意欲を向上させることが可能となる。このように、音声生成装置10によれば、購買意欲を向上させる音声を生成することが可能となる。
 また、推定部15eが、生成された購買意欲向上音声推定モデル14aに音声特徴量ベクトルVfおよび購買意欲ベクトルVb’を入力し、購買意欲を生起させる音声特徴量ベクトルVf’を推定する。また、生成部15fが、推定された音声特徴量ベクトルVf’に対応する音声データを生成する。これにより、聴取者の購買意欲を向上させることが可能となる。
 また、取得部15aが、音声データに対応する聴取者の属性を表す聴取者属性ベクトルVsをさらに取得し、学習部15bが、聴取者属性ベクトルVsをさらに用いて購買意欲向上音声推定モデル14aを学習により生成する。これにより、聴取者の属性に合わせて購買意欲をより向上させる音声を生成することが可能となる。
 また、取得部15aが、音声データに対応する商品に関する情報を表す商品属性ベクトルVmをさらに取得し、学習部15bが、商品属性ベクトルVmをさらに用いて購買意欲向上音声推定モデル14aを学習により生成する。これにより、商品に合わせて購買意欲をより向上させる音声を生成することが可能となる。
[プログラム]
 上記実施形態に係る音声生成装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声生成装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声生成処理を実行する音声生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声生成プログラムを情報処理装置に実行させることにより、情報処理装置を音声生成装置10として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、音声生成装置10の機能を、クラウドサーバに実装してもよい。
 図12は、音声生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、音声生成プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した音声生成装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、音声生成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、音声生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、音声生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 音声生成装置
 13 通信制御部
 14 記憶部
 14a 購買意欲向上音声推定モデル
 15 制御部
 15a 取得部
 15b 学習部
 15c 感情パラメータ学習部
 15d 音声調整パラメータ学習部
 15e 推定部
 15f 生成部

Claims (7)

  1.  音声生成装置が実行する音声生成方法であって、
     入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得工程と、
     前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習工程と、
     を含むことを特徴とする音声生成方法。
  2.  前記学習工程は、前記感情表現ベクトルを用いて前記購買意欲ベクトルを推定する前記モデルの感情パラメータを学習により決定する感情パラメータ学習工程と、
     決定された前記感情パラメータと前記音声特徴量ベクトルとを用いて前記感情表現ベクトルを推定する前記モデルの音声調整パラメータを学習により決定する音声調整パラメータ学習工程と、
     を含むことを特徴とする請求項1に記載の音声生成方法。
  3.  生成された前記モデルに音声特徴量ベクトルおよび購買意欲ベクトルを入力し、前記購買意欲を生起させる音声特徴量ベクトルを推定する推定工程と、
     推定された前記音声特徴量ベクトルに対応する音声データを生成する生成工程と、
     をさらに含むことを特徴とする請求項1に記載の音声生成方法。
  4.  前記取得工程は、前記音声データに対応する前記聴取者の属性を表す聴取者属性ベクトルをさらに取得し、
     前記学習工程は、前記聴取者属性ベクトルをさらに用いて前記モデルを学習により生成する、
     ことを登頂とする請求項1に記載の音声生成方法。
  5.  前記取得工程は、前記音声データに対応する商品に関する情報を表す商品属性ベクトルをさらに取得し、
     前記学習工程は、前記商品属性ベクトルをさらに用いて前記モデルを学習により生成する、
     ことを特徴とする請求項1に記載の音声生成方法。
  6.  入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得部と、
     前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習部と、
     を有することを特徴とする音声生成装置。
  7.  入力された音声データの特徴を表す音声特徴量ベクトルと、該音声データに対応する聴取者の感情を表す感情表現ベクトルと、該音声データに対応する該聴取者の購買意欲を表す購買意欲ベクトルとを取得する取得ステップと、
     前記音声特徴量ベクトルと前記感情表現ベクトルと前記購買意欲ベクトルとを用いて、聴取者の購買意欲を生起させる音声特徴量ベクトルを推定するモデルを学習により生成する学習ステップと、
     をコンピュータに実行させるための音声生成プログラム。
PCT/JP2021/029633 2021-08-11 2021-08-11 音声生成方法、音声生成装置および音声生成プログラム WO2023017582A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029633 WO2023017582A1 (ja) 2021-08-11 2021-08-11 音声生成方法、音声生成装置および音声生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029633 WO2023017582A1 (ja) 2021-08-11 2021-08-11 音声生成方法、音声生成装置および音声生成プログラム

Publications (1)

Publication Number Publication Date
WO2023017582A1 true WO2023017582A1 (ja) 2023-02-16

Family

ID=85200112

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/029633 WO2023017582A1 (ja) 2021-08-11 2021-08-11 音声生成方法、音声生成装置および音声生成プログラム

Country Status (1)

Country Link
WO (1) WO2023017582A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013008A (ja) * 2018-07-19 2020-01-23 株式会社エーアイ 音声処理装置、音声処理プログラムおよび音声処理方法
JP2020091636A (ja) * 2018-12-05 2020-06-11 トヨタ自動車株式会社 音声対話装置の制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013008A (ja) * 2018-07-19 2020-01-23 株式会社エーアイ 音声処理装置、音声処理プログラムおよび音声処理方法
JP2020091636A (ja) * 2018-12-05 2020-06-11 トヨタ自動車株式会社 音声対話装置の制御方法

Similar Documents

Publication Publication Date Title
US11531819B2 (en) Text-to-speech adapted by machine learning
Belin et al. The sound of trustworthiness: Acoustic-based modulation of perceived voice personality
CN106688034B (zh) 具有情感内容的文字至语音转换
JP2019159309A (ja) 音声対話の満足度の確定方法及び装置
US10210867B1 (en) Adjusting user experience based on paralinguistic information
US10019988B1 (en) Adjusting a ranking of information content of a software application based on feedback from a user
US20180315094A1 (en) Method and system for targeted advertising based on natural language analytics
CN111968618A (zh) 语音合成方法、装置
Fok et al. Towards more robust speech interactions for deaf and hard of hearing users
JP2022046731A (ja) 音声生成方法、装置、電子機器及び記憶媒体
Hiraoka et al. Reinforcement learning of cooperative persuasive dialogue policies using framing
Sharma et al. Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis
WO2023017582A1 (ja) 音声生成方法、音声生成装置および音声生成プログラム
Nagano et al. Impact of Emotional State on Estimation of Willingness to Buy from Advertising Speech.
WO2022113244A1 (ja) 消費者行動予測方法、消費者行動予測装置および消費者行動予測プログラム
US20220103872A1 (en) Audio customization in streaming environment
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
Kim et al. Brand voiceprint
Altarawneh et al. An extensible cloud based avatar: implementation and evaluation
WO2023238339A1 (ja) 音声生成方法、音声生成装置及びプログラム
Dowding et al. User speech rates and preferences for system speech rates
Surana et al. An audio-based anger detection algorithm using a hybrid artificial neural network and fuzzy logic model
Bittal et al. Speech to image translation framework for teacher-student learning
Leonov et al. Russian Language Speech Generation from Facial Video Recordings Using Variational Autoencoder
Tits et al. ICE-Talk 2: Interface for Controllable Expressive TTS with perceptual assessment tool

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21953477

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE