WO2023238339A1 - 音声生成方法、音声生成装置及びプログラム - Google Patents

音声生成方法、音声生成装置及びプログラム Download PDF

Info

Publication number
WO2023238339A1
WO2023238339A1 PCT/JP2022/023343 JP2022023343W WO2023238339A1 WO 2023238339 A1 WO2023238339 A1 WO 2023238339A1 JP 2022023343 W JP2022023343 W JP 2022023343W WO 2023238339 A1 WO2023238339 A1 WO 2023238339A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
vector
impression
learning
purchase
Prior art date
Application number
PCT/JP2022/023343
Other languages
English (en)
French (fr)
Inventor
瑞生 長野
勇祐 井島
定男 廣谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/023343 priority Critical patent/WO2023238339A1/ja
Publication of WO2023238339A1 publication Critical patent/WO2023238339A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Definitions

  • the present disclosure relates to a voice generation method, a voice generation device, and a program.
  • Non-Patent Document 1 a purchasing behavior model called the PAD (Pleasure Arousal Dominance) model is known (for example, Non-Patent Document 1).
  • This is a model that divides consumer purchasing behavior into three steps: external stimuli, emotions, and purchasing behavior.
  • external stimuli such as the store's crowded situation and product lineup.
  • These emotions lead to the behavior of "approach”, which indicates a high desire to purchase, or "avoidance”, which indicates a low desire to purchase, and determine whether or not to proceed with purchase behavior.
  • Emotions in the PAD model are expressed in three dimensions: “pleasure,” “arousal,” which indicates a state of excitement, and "dominance,” which indicates one's influence over the situation.
  • Non-Patent Document 1 a survey at physical stores found that high pleasant emotions have a significant positive impact on unplanned purchases and time spent in stores. It has been shown that
  • Non-Patent Document 2 shows that by generating sounds that increase pleasant emotions, it is possible to expect an increase in purchase motivation.
  • Non-Patent Document 3 shows that when recognizing the emotion of a voice, it is possible to identify the emotion more accurately by considering the impression of the voice.
  • the present disclosure has been made in view of the above points, and provides a technology for generating sounds that can be expected to increase purchasing motivation.
  • a sound generation method includes an emotional expression vector representing the emotions of a listener who has listened to a first sound represented by first sound data for learning, and an impression of the listener regarding the first sound. , a first purchase intention vector representing the purchase intention of the listener, and a first audio feature vector representing the characteristics of the first sound, to determine the purchase intention of the listener.
  • a technology is provided that generates audio that can be expected to increase purchasing motivation.
  • FIG. 1 is a diagram (Example 1) illustrating an example of the hardware configuration of a voice generation device.
  • FIG. 2 is a diagram (Example 1) illustrating an example of the functional configuration of a speech generation device during model learning.
  • 2 is a flowchart (Example 1) showing model learning processing.
  • FIG. 2 is a diagram (embodiment 1) showing an example of the functional configuration of a voice generation device during voice generation.
  • 3 is a flowchart showing voice generation processing.
  • 3 is a flowchart illustrating a process for creating an adjusted audio feature amount vector.
  • FIG. 7 is a diagram (Example 2) showing an example of the functional configuration of the speech generation device during model learning.
  • FIG. 1 is a diagram (Example 1) illustrating an example of the hardware configuration of a voice generation device.
  • FIG. 2 is a diagram (Example 1) illustrating an example of the functional configuration of a speech generation device during model learning.
  • 2 is a flowchart (Example 1) showing
  • FIG. 7 is a diagram (Example 3) illustrating an example of the functional configuration of a speech generation device during model learning.
  • 12 is a flowchart (Example 3) showing model learning processing.
  • FIG. 13 is a diagram (Embodiment 4) showing an example of the functional configuration of the speech generation device during model learning.
  • 12 is a flowchart (Embodiment 4) showing model learning processing.
  • FIG. 7 is a diagram (Example 5) showing an example of the functional configuration of a speech generation device during model learning.
  • FIG. 6 is a diagram (Embodiment 6) illustrating an example of the functional configuration of a speech generation device during model learning.
  • FIG. 7 is a diagram (Embodiment 7) showing an example of the functional configuration of the speech generation device during model learning.
  • FIG. 9 is a diagram (embodiment 8) showing an example of the functional configuration of a speech generation device during model learning.
  • a voice generation device 10 that can generate voice that can be expected to increase purchasing desire, taking into consideration impressions, will be described.
  • the speech generation device 10 has two phases: model learning and speech generation.
  • Model learning is a phase in which a model for generating sounds that can be expected to increase purchasing motivation (hereinafter also referred to as a purchasing motivation-improving speech estimation model) is created using a PAD model that also takes into account the impression of the audio.
  • the time of voice generation is a phase in which a voice that can be expected to increase the customer's desire to purchase is generated using a voice estimation model that increases the customer's desire to purchase.
  • vector also includes one-dimensional vectors (that is, scalars).
  • Example 1 of the audio generation device 10 according to the present embodiment will be described below.
  • FIG. 1 shows an example of the hardware configuration of the audio generation device 10 in the first embodiment.
  • the audio generation device 10 according to the first embodiment includes an input device 101, a display device 102, an external I/F 103, a communication I/F 104, a RAM (Random Access Memory) 105, and a ROM ( (Read Only Memory) 106, an auxiliary storage device 107, and a processor 108.
  • Each of these pieces of hardware is communicably connected via a bus 109.
  • the input device 101 is, for example, a keyboard, a mouse, a touch panel, a physical button, or the like.
  • the display device 102 is, for example, a display, a display panel, or the like. Note that the audio generation device 10 does not need to include at least one of the input device 101 and the display device 102, for example.
  • the external I/F 103 is an interface with an external device such as the recording medium 103a.
  • the audio generation device 10 can read, write, etc. on the recording medium 103a via the external I/F 103.
  • Examples of the recording medium 103a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.
  • the communication I/F 104 is an interface for connecting the voice generation device 10 to a communication network.
  • the RAM 105 is a volatile semiconductor memory (storage device) that temporarily holds programs and data.
  • the ROM 106 is a nonvolatile semiconductor memory (storage device) that can retain programs and data even when the power is turned off.
  • the auxiliary storage device 107 is, for example, a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a flash memory.
  • the processor 108 is, for example, an arithmetic device such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the audio generation device 10 in the first embodiment has the hardware configuration shown in FIG. 1, so that it can implement various processes described below.
  • the hardware configuration shown in FIG. 1 is an example, and the hardware configuration of the audio generation device 10 is not limited to this.
  • the audio generation device 10 may include multiple auxiliary storage devices 107 and multiple processors 108, may not include some of the illustrated hardware, or may include hardware other than the illustrated hardware. may include various hardware.
  • FIG. 2 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 during model learning includes a speech feature extraction section 201, an emotion parameter learning section 202, an impression parameter learning section 203, and a speech adjustment parameter learning section 204.
  • Each of these units is realized, for example, by one or more programs installed in the audio generation device 10 causing the processor 108 to execute the process.
  • the audio feature extraction unit 201 receives the given experimental audio data as input and outputs a learning audio feature vector.
  • the experimental audio data is audio data given for creating (learning) a purchase motivation improvement audio estimation model.
  • the content of the utterances, the number of documents, the number of speakers, the gender of the speakers, etc. of the experimental audio data are not particularly limited.
  • the learning speech feature vector is vector data whose elements are feature amounts (quantities or values representing features of speech) extracted from experimental speech data.
  • feature amounts include the pitch (F0) of the experimental voice data, the speaking speed, the average and variance of F0, the average and variance of the speaking speed, power, and spectral slope.
  • the emotion parameter learning unit 202 receives the given learning purchase intention vector and the given learning emotional expression vector as input, and outputs an emotion parameter.
  • the learning purchase motivation vector is vector data whose elements are numerical representations of the purchase motivation of those who listened to the experimental audio data (listeners).
  • the learning purchase motivation vector is created by conducting a subjective evaluation experiment, questionnaire, etc. with listeners who have listened to the experimental audio data. For example, the user is asked to evaluate ⁇ how much they want to buy'' a certain product on a seven-point scale, and a learning purchase motivation vector is created from the evaluation values.
  • the learning purchase motivation vector may also be created from a purchase log that records in binary terms whether or not the listener actually purchased the product. .
  • one learning purchase motivation vector is given to one experimental audio data. Note that, for example, when a plurality of people evaluate one experimental audio data, a learning purchase motivation vector may be created from the average of those evaluation values.
  • the learning emotional expression vector is vector data whose elements are n (where n ⁇ 1) emotions of the listener who listened to the experimental audio data expressed as numerical values.
  • the emotional expression vector for learning is created by conducting a subjective evaluation experiment, questionnaire, etc. with listeners who have listened to the experimental audio data.
  • the target emotions for example, the three emotions (PAD scale) of "pleasant emotion", "arousal", and "control” described in Non-patent Document 1 and Non-patent Document 2 are used. or other emotions such as those described in Reference 1 may be used.
  • the user is asked to answer the emotion on a seven-level scale, and a learning emotion expression vector is created from the answer results.
  • each of the n emotions serving as an element of the learning emotion expression vector will also be referred to as an emotion dimension.
  • one learning emotional expression vector is given to one experimental audio data.
  • a learning emotional expression vector may be created from the average of the response results.
  • the emotion parameter is a parameter that indicates the influence of each emotion expressed by the learning emotion expression vector on the learning purchase intention vector.
  • the impression parameter learning unit 203 receives the given emotional expression vector for learning and the given voice impression vector for learning as input, and outputs an impression parameter.
  • the learning audio impression vector is vector data whose elements are m (m ⁇ 1) impressions of the listener who listened to the experimental audio data, each expressed as a numerical value.
  • the learning audio impression vector is created by conducting a subjective evaluation experiment, questionnaire, etc. on listeners who have listened to experimental audio data.
  • the target impression for example, the voice quality expression words described in Reference 3 may be used, or other impression evaluations such as likes and dislikes for voices may be used.
  • voice quality expression words the subject is asked to answer each adjective pair such as "bright-dark" on a seven-point scale, and a learning voice impression vector is created from the answer results.
  • one learning speech impression vector is given to one experimental speech data. Note that if a plurality of people respond to one experimental voice data, a learning voice impression vector may be created from the average of the response results.
  • the impression parameter is a parameter indicating the influence that each impression expressed by the learning voice impression vector has on the learning emotional expression vector.
  • the voice adjustment parameter learning unit 204 receives the learning voice feature vector, the learning voice impression vector, the emotion parameter, and the impression parameter as input, learns the voice adjustment parameter, and outputs a purchase motivation improvement voice estimation model.
  • the audio adjustment parameter is a parameter for expressing a learning purchase motivation vector using a learning audio feature amount vector.
  • the audio feature vector can be adjusted to match the target purchase intention. It becomes possible to adjust the speech feature vector of the speech that causes the speech.
  • this adjusted audio feature vector will also be referred to as an "adjusted audio feature vector.”
  • the purchase motivation improving voice estimation model is a model that expresses the relationship between purchase motivation and voice characteristics using voice adjustment parameters.
  • a purchase motivation vector representing a target purchase motivation and a certain audio feature vector are given using a purchase motivation-enhancing speech estimation model, the audio feature vector of the speech that increases purchase motivation is adjusted to calculate the audio feature. It can be obtained as a quantity vector.
  • the emotion parameter learning unit 202, impression parameter learning unit 203, and voice adjustment parameter learning unit 204 sequentially adjust the emotion parameter, impression parameter, and voice adjustment parameter according to the PAD model so as to reproduce the given learning purchase intention vector. learn.
  • purchase intention and each emotional dimension can be expressed as follows using coefficients x 1 , x 2 , ..., x n , a 11 , a 12 , ..., a nk .
  • Purchasing intention x 1 ⁇ X 1 +x 2 ⁇ X 2 +...+x n ⁇ X n
  • X 1 a 11 ⁇ f 1 +a 12 ⁇ f 2 +...+a 1k ⁇ f k
  • X 2 a 21 ⁇ f 1 +a 22 ⁇ f 2 +...+a 2k ⁇ f k
  • X n a n1 ⁇ f 1 +a n2 ⁇ f 2 +...+a nk ⁇ f k
  • X 1 , X 2 , ..., X n are emotional dimensions
  • f 1 , f 2 , ..., f K are features (features extracted from audio data)
  • k is the number of features. It is.
  • the audio feature extraction unit 201 receives the given experimental audio data as input and outputs a learning audio feature vector (step S101).
  • the audio feature extraction unit 201 may create a learning audio feature vector by, for example, performing signal processing such as Fourier transformation on each frame of the given experimental audio data.
  • the audio feature extraction unit 201 may create a learning audio feature vector from the given experimental audio data, for example, using an audio feature extraction tool such as OpenSMILE (Reference Document 4).
  • the emotion parameter learning unit 202 receives the given learning purchase intention vector and learning emotion expression vector as input, and outputs emotion parameters (step S102).
  • the emotion parameter learning unit 202 may learn emotion parameters using a method such as multiple regression analysis or path analysis described in Reference 5, for example.
  • a learning purchase intention vector can be expressed as follows using regression coefficients a, b, c and error d.
  • the emotion parameter learning unit 202 outputs the regression coefficients a, b, and c as emotion parameters.
  • the emotion parameter learning unit 202 may learn emotion parameters using a neural network, for example. For example, similar to the method described in Reference 2, parameters are learned so that when the learning emotional expression vector is input to the neural network, the output reproduces the learning purchase intention vector, and the parameters after this learning are may be used as an emotion parameter.
  • the impression parameter learning unit 203 receives the given learning emotional expression vector and learning voice impression vector as input, and outputs an impression parameter (step S103). Like the emotion parameter learning unit 202, the impression parameter learning unit 203 may learn impression parameters by multiple regression analysis, path analysis, neural network, or the like.
  • the emotional expression vector for learning is calculated using regression coefficients S p , S a , S d , T p , T a , T d and errors R p , R a , R d , can be expressed as follows.
  • the impression parameter learning unit 203 outputs the regression coefficients S p , T p , S a , T a , S d , and T d as impression parameters.
  • the audio adjustment parameter learning unit 204 receives the learning audio feature vector, the learning audio impression vector, the emotion parameter, and the impression parameter as input and learns the audio adjustment parameter (step S104).
  • the audio adjustment parameter learning unit 204 learns audio adjustment parameters according to steps 1-1 and 1-2 below.
  • Step 1-1 The audio adjustment parameter learning unit 204 uses the learning audio feature vector and the learning audio impression vector to learn coefficients for expressing the impression of the audio based on the audio features.
  • the voice adjustment parameter learning section 204 may learn the coefficients by multiple regression analysis, path analysis, neural network, etc., similarly to the emotion parameter learning section 202 and the impression parameter learning section 203.
  • the learning voice impression vector is calculated as follows using regression coefficients ⁇ 1 , ⁇ 2 , ⁇ 1 , ⁇ 2 , ⁇ 1 , ⁇ 2 and errors ⁇ 1 , ⁇ 2 It can be expressed as
  • the voice adjustment parameter learning unit 204 uses the regression coefficients ⁇ 1 , ⁇ 2 , ⁇ 1 , ⁇ 2 , ⁇ 1 , ⁇ 2 to express the impression of the voice using the voice features (voice features). Let it be a coefficient.
  • Step 1-2 The voice adjustment parameter learning unit 204 outputs the product of the emotion parameter and impression parameter by the coefficient obtained in step 1-1 above as a voice adjustment parameter.
  • the voice adjustment parameters V f0 , V sr , and V sd for the learning voice feature vector [F0, speaking speed, F0 variance] are as follows.
  • V f0 (S p ⁇ ⁇ 1 + T p ⁇ ⁇ 2 ) ⁇ a + (S a ⁇ ⁇ 1 + T a ⁇ ⁇ 2 ) ⁇ b + (S d ⁇ ⁇ 1 + T d ⁇ ⁇ 2 ) ⁇ c
  • V sr (S p ⁇ ⁇ 1 + T p ⁇ ⁇ 2 ) ⁇ a + (S a ⁇ ⁇ 1 + Ta ⁇ ⁇ 2 ) ⁇ b + (S d ⁇ ⁇ 1 + T d ⁇ ⁇ 2 ) ⁇ c
  • V sd (S p ⁇ ⁇ 1 + T p ⁇ ⁇ 2 ) ⁇ a + (S a ⁇ ⁇ 1 + Ta ⁇ ⁇ 2 ) ⁇ b + (S d ⁇ ⁇ 1 + T d ⁇ ⁇ 2 ) ⁇ c
  • V sd (S p ⁇ ⁇ 1 + T p
  • the voice adjustment parameter learning unit 204 uses the voice adjustment parameters obtained in step S104 above to calculate a relational expression between the learning voice feature vector and the learning purchase motivation vector, and uses the relational expression to estimate the purchase motivation improving voice. It is output as a model (step S105). For example, when the audio adjustment parameters in step 1-2 above are obtained, the relationship between the learning purchase intention vector and the learning audio feature vector can be expressed as follows.
  • FIG. 4 shows an example of the functional configuration of the voice generation device 10 during voice generation.
  • the speech generation device 10 at the time of speech generation includes a speech feature amount extraction section 201, a purchase motivation improving speech estimation section 205, and a speech generation section 206.
  • Each of these units is realized, for example, by one or more programs installed in the audio generation device 10 causing the processor 108 to execute the process.
  • the audio feature extraction unit 201 receives the given original audio data as input and outputs an audio feature vector.
  • the original audio data refers to the audio data that is the basis for generating audio that can be expected to increase purchasing intent.
  • the utterance content of the original audio data, the number of documents, the number of speakers, the gender of the speakers, etc. are not particularly limited.
  • the original audio data may also be the audio data of a synthesized voice.
  • the audio feature vector is vector data whose elements are feature amounts extracted from the original audio data. Note that the data structure of the audio feature vector is the same as that of the learning audio feature vector.
  • the purchase motivation improving voice estimation unit 205 receives the given purchase desire vector and voice feature vector as input, and outputs an adjusted voice feature vector using the purchase desire increasing voice estimation model.
  • the purchasing motivation vector is vector data whose elements are numerical representations of the target purchasing motivation. Note that the data structure of the purchasing motivation vector is the same as that of the learning purchasing motivation vector.
  • the audio generation unit 206 uses the adjusted audio feature vector to generate and output audio that the listener can expect to generate the target purchasing desire (hereinafter also referred to as purchasing motivation-increasing audio).
  • the audio feature extraction unit 201 receives the given original audio data as input and outputs an audio feature vector (step S201).
  • the audio feature extraction unit 201 may create an audio feature vector from the original audio data, similar to step S101 in FIG.
  • the purchase motivation improving speech estimation unit 205 inputs the given purchase motivation vector and the audio feature vector obtained in step S101 above, and outputs an adjusted audio feature vector using the purchase motivation improvement speech estimation model. (Step S202). Details of the process of this step (adjusted audio feature vector creation process) will be described later.
  • the audio generation unit 206 uses the adjusted audio feature vector obtained in step S202 above to generate and output purchase motivation-enhancing audio data (step S203).
  • the audio generation unit 206 generates and outputs purchase motivation-increasing audio by, for example, replacing the audio feature of the original audio data with the audio feature included in the adjusted audio feature vector and performing signal processing.
  • a method for performing this signal processing for example, there is a method using a tool such as WORLD described in reference document 6, or a method described in reference document 7.
  • the adjusted audio feature vector creation process in step S202 of FIG. 5 will be described below with reference to FIG. 6.
  • the audio feature vector and the adjusted audio feature vector are both k-dimensional vectors, and the i-th (1 ⁇ i ⁇ k) element of the audio feature vector is defined as Vf[i], the adjusted audio The i-th (1 ⁇ i ⁇ k) element of the feature vector is expressed as Vf'[i].
  • the purchase intention vector representing the target purchase intention is one-dimensional, and is expressed as Vb.
  • the purchase motivation improving speech estimation unit 205 sets i ⁇ 1 (step S301).
  • the purchase motivation improving speech estimating unit 205 estimates Vf'[i] using the purchase motivation improving speech estimation model (step S303).
  • the purchase intention improving voice estimating unit 205 may estimate Vf'[i] as follows.
  • Vb [ ⁇ [1],..., ⁇ [k]] ⁇ [Vf'[1], Vf[2],..., Vf[k]] ⁇ Estimate Vf'[1] that is satisfied. That is, for 1 ⁇ j ⁇ k, Vf'[1] is estimated by the purchase motivation improvement speech estimation model using the element Vf[j] of the speech feature vector.
  • Vb [ ⁇ [1],..., ⁇ [k]] ⁇ [Vf'[1],..., Vf'[i], Vf[i+1] , ..., Vf[k]] Vf'[i] that satisfies ⁇ is estimated.
  • Vf'[j] the already estimated Vf'[j] (1 ⁇ j ⁇ i) is used, and for i+1 ⁇ j ⁇ k, the element Vf[j] of the voice feature vector is used to increase the purchase intention.
  • Vf'[i] is estimated using the speech estimation model.
  • Vb [ ⁇ [1],..., ⁇ [k]] ⁇ [Vf'[1],...,Vf'[k-1],Vf'[k ]]
  • Vf'[k] that satisfies ⁇ . That is, for 1 ⁇ j ⁇ k, Vf'[k] is estimated using the already estimated Vf'[j] (1 ⁇ j ⁇ k) using the purchase motivation improvement speech estimation model.
  • the purchase intention improving voice estimation unit 205 determines whether Vf'[i] ⁇ X i (step S304).
  • the purchase intention improving voice estimation unit 205 determines whether Y i ⁇ Vf'[i] (step S306).
  • step S308 If it is determined that Y i ⁇ Vf'[i], or following step S305 or step S306, the purchase intention improving voice estimating unit 205 sets i ⁇ i+1 (step S308).
  • Example 1 emotional parameters were learned using a learning emotional expression vector and a learning purchase motivation vector, and impression parameters were learned using a learning emotional expression vector and a learning voice impression vector.
  • Non-Patent Document 3 it is known that there is a strong relationship between impressions and emotions toward voices, but depending on the number of dimensions and evaluation scales of emotional expression vectors and voice impression vectors, it may be difficult to learn impression parameters. In some cases, it may be possible to estimate more accurately by using a learning purchase intention vector. Similarly, it may be possible to estimate the emotional parameters more accurately by using a learning voice impression vector for learning the emotional parameters.
  • Embodiment 2 a case is described in which emotional parameters are learned using a learning emotional expression vector and a learning audio impression vector, and impression parameters are learned using a learning purchase motivation vector and a learning audio impression vector. explain.
  • FIG. 7 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the emotion parameter learning unit 202 receives the given learning emotional expression vector and the given learning voice impression vector as input, and outputs emotional parameters.
  • the impression parameter learning unit 203 receives the given learning purchase desire vector and the given learning voice impression vector as input, and outputs an impression parameter.
  • the voice adjustment parameter learning unit 204 receives the learning voice feature vector, the learning emotion expression vector, the emotion parameter, and the impression parameter as input, learns the voice adjustment parameter, and outputs a purchase motivation improvement voice estimation model.
  • the emotion parameter learning unit 202 in Example 1 learns emotion parameters
  • the emotion parameter learning unit 202 in the second embodiment can read the “learning purchase motivation vector” as the “learning voice impression vector”. Emotion parameters can be learned using a similar method.
  • the impression parameter learning unit 203 in the first embodiment learns impression parameters
  • the impression parameter learning unit 203 in the second embodiment replaces the “learning emotional expression vector” with the “learning purchase motivation vector”. Impression parameters can be learned using a similar method.
  • the voice adjustment parameter learning unit 204 in the first embodiment learns voice adjustment parameters
  • the voice adjustment parameter learning unit 204 in the second embodiment replaces the “sound impression vector for learning” with the “emotional expression vector for learning”. If read as , the audio adjustment parameters can be learned using the same method.
  • the learning purchase motivation vector is not used, and the relationship with purchase motivation can only be learned through the emotional expression vector.
  • the emotion/impression parameter learning unit 207 receives as input the given learning emotional expression vector, the given learning voice impression vector, and the given learning purchase motivation vector, and outputs a feeling/impression parameter.
  • the voice adjustment parameter learning unit 204 receives the learning emotional expression vector, the learning voice impression vector, the learning voice feature vector, and the emotion/impression parameters as input, learns voice adjustment parameters, and creates a purchase motivation improvement voice estimation model. Output.
  • the emotion/impression parameter learning unit 207 inputs the given learning emotional expression vector, the given learning voice impression vector, and the given learning purchase motivation vector, and outputs the feeling/impression parameters (step S401 ).
  • the emotion/impression parameter learning unit 207 may learn emotion/impression parameters by multiple regression analysis, path analysis, neural network, etc., similarly to the emotion parameter learning unit 202 and the impression parameter learning unit 203.
  • Step 2-1 The voice adjustment parameter learning unit 204 uses the learning voice feature vector, the learning voice impression vector, and the learning emotion expression vector to determine the characteristics of the voice to express the impression and emotion of the voice. Learn coefficients.
  • the audio adjustment parameter learning unit 204 may learn the coefficients by multiple regression analysis, path analysis, neural network, etc., as in the first and second embodiments.
  • the audio adjustment parameter learning unit 204 calculates the regression coefficients ⁇ 1 , ⁇ 2 , ⁇ 3 , ⁇ 4 , ⁇ 5 , ⁇ 1 , ⁇ 2 , ⁇ 3 , ⁇ 4 , ⁇ 5 , ⁇ 1 , ⁇ 2 , ⁇ 3 , ⁇ 4 , and ⁇ 5 are
  • Step 2-2 The voice adjustment parameter learning unit 204 outputs the product of the emotion/impression parameter and the coefficient obtained in step 2-1 above as a voice adjustment parameter.
  • the voice adjustment parameters V f0 , V sr , and V sd for the learning voice feature vector [F0, speaking speed, F0 variance] are as follows.
  • the voice adjustment parameter corresponding to a certain voice feature is the sum of the emotion/impression parameters corresponding to the impression or emotion multiplied by the coefficient for expressing the impression or emotion of the voice according to the voice feature.
  • Example 4 of the audio generation device 10 according to the present embodiment will be described below. Note that in the fourth embodiment, only the differences from the first embodiment will be explained, and the explanation of parts that may be the same as the first embodiment will be omitted.
  • Examples 1 to 3 parameters were learned using both the learning voice impression vector and the learning emotional expression vector as they were.
  • the emotional evaluation values and the audio impression evaluation values collected through prior subjective evaluation experiments, questionnaires, etc. may include indicators that are substantially highly related. That is, multicollinearity may exist between the emotion evaluation value and the voice impression evaluation value. In this case, there is a problem in that the accuracy of estimating purchase intention is reduced. For example, if an evaluation index of "enjoyable - boring" is used as an impression of a voice, it is considered that there is a strong correlation with the evaluation value of pleasant emotions.
  • a case will be described in which parameters are learned using a vector that is a combination of a learning emotional expression vector and a learning voice impression vector.
  • FIG. 10 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 during model learning includes an emotion/impression vector combination unit 208 and a perceptual parameter learning unit 209.
  • the emotional parameter learning section 202 and the impression parameter learning section 203 are not included.
  • the emotion/impression vector combination unit 208 and the perceptual parameter learning unit 209 are realized by, for example, processing that is executed by the processor 108 by one or more programs installed in the voice generation device 10.
  • the emotion/impression vector combination unit 208 receives the given emotional expression vector for learning and the given voice impression vector for learning as input, and outputs a combined learning vector.
  • the learning combined vector is vector data composed of elements of the learning emotional expression vector and the learning voice impression vector that have low correlation with each other.
  • the perceptual parameter learning unit 209 receives the learning combination vector and the learning purchase motivation vector as input, and outputs a perceptual parameter.
  • the perceptual parameter is a parameter that indicates the influence of the learning combination vector on the learning purchase motivation vector.
  • the audio adjustment parameter learning unit 204 receives the learning combination vector, the learning audio feature vector, and the perceptual parameter as input, learns audio adjustment parameters, and outputs a purchase motivation improvement audio estimation model.
  • the emotion/impression vector combination unit 208 receives the given emotional expression vector for learning and the given voice impression vector for learning as input, and outputs a combined learning vector (step S501).
  • the emotion/impression vector combination unit 208 creates a learning combination vector by combining the learning emotional expression vector and the learning voice impression vector using a dimension reduction method such as principal component analysis or LDA (linear discriminant analysis). Bye.
  • the perceptual parameter learning unit 209 receives the learning combination vector and the learning purchase intention vector as input, and outputs a perceptual parameter (step S502).
  • the perceptual parameter learning unit 209 may learn perceptual parameters by multiple regression analysis, path analysis, neural network, etc., similarly to the emotion parameter learning unit 202 and the impression parameter learning unit 203 in the first embodiment.
  • the audio adjustment parameter learning unit 204 learns audio adjustment parameters by inputting the learning combination vector, the learning audio feature vector, and the perceptual parameter (step S503).
  • the voice adjustment parameter learning unit 204 learned coefficients for expressing the perception (impression and emotion) of the voice based on the voice characteristics using multiple regression analysis, path analysis, neural networks, etc.
  • the product of the above coefficients and the perceptual parameter may be used as the audio adjustment parameter.
  • Example 5 of the audio generation device 10 according to the present embodiment will be described below. Note that in the fourth embodiment, only the differences from the first embodiment will be explained, and the explanation of parts that may be the same as the first embodiment will be omitted.
  • Examples 1 to 4 the learning voice impression vector and the learning emotional expression vector were created by conducting subjective evaluation experiments, questionnaires, and the like.
  • model learning generally requires a large amount of data.
  • Learning purchase motivation vectors can be created in large quantities because purchasing logs can be used, but learning voice impression vectors and learning emotional expression vectors require subjective evaluation experiments, questionnaires, etc. Therefore, it is difficult to produce in large quantities.
  • Example 5 a case will be described in which an existing estimation model that can estimate emotions and impressions from speech is used and the output results are used instead of emotional expression vectors and speech impression vectors.
  • FIG. 12 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 during model learning includes an emotion estimation section 210 and an impression estimation section 211.
  • the emotion estimating unit 210 and the impression estimating unit 211 are realized, for example, by a process that causes the processor 108 to execute one or more programs installed in the voice generating device 10.
  • the emotion estimation unit 210 receives the learning voice feature vector as input and outputs a learning emotion expression vector using the emotion estimation model.
  • the emotion estimation model is a known model that receives a learning audio feature vector as input and outputs a learning emotional expression vector.
  • the model described in Reference 6 can be used.
  • each element of the learning emotional expression vector output by the emotion estimation model is not limited to the PAD scale, and may be any numerically expressed emotion.
  • the impression estimation unit 211 receives the learning audio feature vector as input and outputs a learning audio impression vector using the impression estimation model.
  • the impression estimation model is a known model that receives a learning audio feature vector as input and outputs a learning audio impression vector. Note that each element of the learning voice impression vector output by the impression estimation model does not need to be limited to a specific impression, and may be any digitized impression.
  • Example 6 of the audio generation device 10 according to the present embodiment will be described below.
  • an emotion estimation unit 210 and an impression estimation unit 211 were introduced to the speech generation device 10 during model learning in the first embodiment, but in the sixth embodiment, the speech generation device during model learning in the second embodiment was introduced.
  • a case will be described in which the emotion estimation section 210 and the impression estimation section 211 are introduced to the version 10.
  • FIG. 13 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 shown in FIG. 13 is obtained by introducing an emotion estimation section 210 and an impression estimation section 211 to the speech generation device 10 during model learning of the second embodiment.
  • Example 7 of the audio generation device 10 according to the present embodiment will be described below.
  • a seventh embodiment a case will be described in which an emotion estimation section 210 and an impression estimation section 211 are introduced into the speech generation device 10 during model learning of the third embodiment.
  • FIG. 14 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 shown in FIG. 14 is obtained by introducing an emotion estimation section 210 and an impression estimation section 211 to the speech generation device 10 at the time of model learning of the third embodiment.
  • Example 8 of the audio generation device 10 according to the present embodiment will be described below.
  • a case will be described in which an emotion estimation section 210 and an impression estimation section 211 are introduced into the speech generation device 10 during model learning of the fourth embodiment.
  • FIG. 15 shows an example of the functional configuration of the speech generation device 10 during model learning.
  • the speech generation device 10 shown in FIG. 15 is obtained by introducing an emotion estimation unit 210 and an impression estimation unit 211 to the speech generation device 10 during model learning of the fourth embodiment.
  • Reference 1 J. Russell, “A circumplex model of affect", Journal of Personality and Social Psychology, vol.39, no. 6, pp. 1161-1178, 1980.
  • Reference 2 S. Parthasarathy, C. Busso, “Jointly Predicting Arousal, Valence and Dominance with Multi-Task Learning", INTERSPEECH 2017, pp.1103-1107, 2017
  • Reference 3 Hiroshi Kido, Hideki Kasuya, Extraction of everyday expressions related to voice quality of normal speech, Journal of the Acoustical Society of Japan, NO.55, vol.6, pp. 405-411, 1999.
  • Reference 4 F. Eyben, M. Wollmer, and B.
  • Audio generation device 101 Input device 102 Display device 103 External I/F 103a Recording medium 104 Communication I/F 105 RAM 106 ROM 107 Auxiliary storage device 108 Processor 109 Bus 201 Audio feature extraction unit 202 Emotion parameter learning unit 203 Impression parameter learning unit 204 Audio adjustment parameter learning unit 205 Purchase motivation improvement audio estimation unit 206 Audio generation unit 207 Emotion/impression parameter learning unit 208 Emotion - Impression vector combination unit 209 Perceptual parameter learning unit 210 Emotion estimation unit 211 Impression estimation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本開示の一態様による音声生成方法は、学習用の第1の音声データが表す第1の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第1の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第1の購買意欲ベクトルと、前記第1の音声の特徴を表す第1の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、与えられた第2の音声データが表す第2の音声の特徴を表す第2の音声特徴量ベクトルと、目標とする購買意欲を表す第2の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第2の音声特徴量ベクトルが表す特徴を調整した第3の音声特徴量ベクトルを作成する調整手順と、前記第2の音声データと、前記第3の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第3の音声を生成する音声生成手順と、をコンピュータが実行する。

Description

音声生成方法、音声生成装置及びプログラム
 本開示は、音声生成方法、音声生成装置及びプログラムに関する。
 マーケティングや消費者行動研究等の分野において、PAD(Pleasure Arousal Dominance)モデルと呼ばれる購買行動モデルが知られている(例えば、非特許文献1)。これは、消費者の購買行動を外部刺激、感情、購買行動の3ステップに分けて考えるモデルである。PADモデルでは、消費者が店舗に入店したとき、店舗の混雑状況や商品配列等の外部刺激によって感情が生起される。そして、これらの感情によって、購買意欲が高いことを示す「接近」又は購買意欲が低いことを示す「回避」の行動が生まれ、購買行動に移るか否かが決定される。ここで、PADモデルにおける感情は、「快感情(Pleasure)」、興奮状態を示す「覚醒(Arousal)」、状況に対する自分の影響力を示す「支配(Dominance)」の3次元で表される。
 従来の様々な研究によりPADモデルの有効性は示されており、例えば、非特許文献1では、実店舗での調査によって高い快感情が非計画購買や店舗滞在時間に有意な正の影響を及ぼすことが示されている。
 また、近年では、音声刺激もPADモデルに適用可能であることが明らかになりつつある。例えば、非特許文献2では、快感情を高めるような音声を生成することで、購買意欲の向上が期待できることが示されている。
 ところで、音声分野では、感情と印象は強い関係があることが知られている。例えば、非特許文献3では、音声の感情を認識する際に音声への印象を考慮することでより精度良く感情を識別できることが示されている。
 このため、購買意欲の向上が期待できる音声を生成する際には、音声に対する印象も考慮することが必要であると考えらえる。
Donovan, R. J., Rossiter, J. R., Marcoolyn, G., and Nesdale, A. "Store atmosphere and purchasing behavior", Journal of Retailing, Vol.70, No.3, pp.283-294, 1994. Nagano, M., Ijima, Y., Hiroya, S., "Impact of Emotional State on Estimation of Willingness to Buy from Advertising Speech.", Proc. Interspeech 2021, 2486-2490, 2021. Li, Xingfeng and Akagi, Masato, "A Three-Layer Emotion Perception Model for Valence and Arousal-Based Detection from Multilingual Speech", Proc. Interspeech 2018,3643-3647, 2018.
 しかしながら、従来、印象も考慮した上で購買意欲の向上が期待できる音声を生成することは困難であった。
 本開示は、上記の点に鑑みてなされたもので、購買意欲の向上が期待できる音声を生成する技術を提供する。
 本開示の一態様による音声生成方法は、学習用の第1の音声データが表す第1の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第1の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第1の購買意欲ベクトルと、前記第1の音声の特徴を表す第1の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、与えられた第2の音声データが表す第2の音声の特徴を表す第2の音声特徴量ベクトルと、目標とする購買意欲を表す第2の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第2の音声特徴量ベクトルが表す特徴を調整した第3の音声特徴量ベクトルを作成する調整手順と、前記第2の音声データと、前記第3の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第3の音声を生成する音声生成手順と、をコンピュータが実行する。
 購買意欲の向上が期待できる音声を生成する技術が提供される。
音声生成装置のハードウェア構成例を示す図(実施例1)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例1)である。 モデル学習処理を示すフローチャート(実施例1)である。 音声生成時における音声生成装置の機能構成例を示す図(実施例1)である。 音声生成処理を示すフローチャートである。 調整後音声特徴量ベクトル作成処理を示すフローチャートである。 モデル学習時における音声生成装置の機能構成例を示す図(実施例2)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例3)である。 モデル学習処理を示すフローチャート(実施例3)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例4)である。 モデル学習処理を示すフローチャート(実施例4)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例5)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例6)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例7)である。 モデル学習時における音声生成装置の機能構成例を示す図(実施例8)である。
 以下、本発明の一実施形態について説明する。以下の実施形態では、印象も考慮した上で購買意欲の向上が期待できる音声を生成できる音声生成装置10について説明する。ここで、本実施形態に係る音声生成装置10には、モデル学習時と音声生成時の2つフェーズが存在する。モデル学習時は、音声の印象も考慮したPADモデルにより、購買意欲の向上が期待できる音声を生成するためのモデル(以下、購買意欲向上音声推定モデルともいう。)を作成するフェーズである。一方で、音声生成時は、購買意欲向上音声推定モデルにより、顧客の購買意欲向上が期待できる音声を生成するフェーズである。
 なお、以下の実施形態では、「ベクトル」には1次元のベクトル(つまり、スカラー)も含まれるものとする。
 [実施例1]
 以下、本実施形態に係る音声生成装置10の実施例1について説明する。
 <音声生成装置10のハードウェア構成(実施例1)>
 実施例1における音声生成装置10のハードウェア構成例を図1に示す。図1に示すように、実施例1における音声生成装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
 入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、音声生成装置10は、例えば、入力装置101及び表示装置102の少なくとも一方を有していなくてもよい。
 外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。音声生成装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
 通信I/F104は、音声生成装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。
 実施例1における音声生成装置10は、図1に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、音声生成装置10のハードウェア構成はこれに限られるものではない。例えば、音声生成装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
 <モデル学習時における音声生成装置10の機能構成(実施例1)>
 モデル学習時における音声生成装置10の機能構成例を図2に示す。図2に示すように、モデル学習時における音声生成装置10は、音声特徴量抽出部201と、感情パラメータ学習部202と、印象パラメータ学習部203と、音声調整パラメータ学習部204とを有する。これら各部は、例えば、音声生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
 音声特徴量抽出部201は、与えられた実験音声データを入力として、学習用音声特徴量ベクトルを出力する。
 ここで、実験音声データとは、購買意欲向上音声推定モデルの作成(学習)のために与えられた音声データのことである。実験音声データの発話内容や文書数、発話者の数、発話者の性別等は特に限定されない。
 また、学習用音声特徴量ベクトルとは、実験音声データから抽出された特徴量(音声の特徴を表す量又は値)を要素とするベクトルデータのことである。特徴量としては、例えば、実験音声データの声の高さ(F0)、話す速度、F0の平均や分散、話す速度の平均や分散、パワー、スペクトル傾斜等が挙げられる。
 以下、1つの実験音声データに対して1つの学習用音声特徴量ベクトルが得られるものとする。
 感情パラメータ学習部202は、与えられた学習用購買意欲ベクトルと与えられた学習用感情表現ベクトルとを入力として、感情パラメータを出力する。
 ここで、学習用購買意欲ベクトルとは、実験音声データを聴取した者(聴取者)の購買意欲を数値で表したものを要素とするベクトルデータのことである。学習用購買意欲ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。例えば、或る商品に関して「どの程度買いたいと思ったか」を7段階で評価してもらい、その評価値から学習用購買意欲ベクトルを作成する。ただし、これは一例であって、これ以外にも、例えば、聴取者が当該商品を実際に購入したか否かを2値で記録した購買ログ等から学習用購買意欲ベクトルが作成されてもよい。
 以下、1つの実験音声データに対して1つの学習用購買意欲ベクトルが与えられたものとする。なお、例えば、1つの実験音声データに対して複数の者が評価した場合には、それらの評価値の平均から学習用購買意欲ベクトルを作成すればよい。
 また、学習用感情表現ベクトルとは、実験音声データを聴取した聴取者のn(ただし、n≧1)個の感情をそれぞれ数値で表したものを要素とするベクトルデータのことである。学習用感情表現ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。このとき、対象とする感情としては、例えば、非特許文献1や非特許文献2等に記載されている「快感情」、「覚醒」、「支配」の3つ感情(PAD尺度)を用いてもよいし、参考文献1に記載されているようなその他の感情を用いてもよい。これらの感情の各々に関して、例えば、参考文献2に記載されているように感情を7段階で回答してもらい、その回答結果から学習用感情表現ベクトルを作成する。なお、以下では、学習用感情表現ベクトルの要素となるn個の感情の各々のことを感情次元ともいう。
 以下、1つの実験音声データに対して1つの学習用感情表現ベクトルが与えられたものとする。なお、1つの実験音声データに対して複数の者が回答した場合には、それらの回答結果の平均から学習用感情表現ベクトルを作成すればよい。
 また、感情パラメータとは、学習用感情表現ベクトルによって表される各感情が学習用購買意欲ベクトルに及ぼす影響を示すパラメータのことである。
 印象パラメータ学習部203は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、印象パラメータを出力する。
 ここで、学習用音声印象ベクトルとは、実験音声データを聴取した聴取者のm(m≧1)個の印象をそれぞれ数値で表したものを要素とするベクトルデータのことである。学習用音声印象ベクトルは、実験音声データを聴取した聴取者に対して主観評価実験やアンケート等を実施することで作成される。このとき、対象とする印象としては、例えば、参考文献3に記載されている声質表現語を用いてもよいし、音声に対する好き嫌い等といったその他の印象評価を用いてもよい。例えば、声質表現語を用いる場合、「明るい-暗い」のような形容詞対に対してそれぞれ7段階で回答してもらい、その回答結果から学習用音声印象ベクトルを作成する。
 以下、1つの実験音声データに対して1つの学習用音声印象ベクトルが与えられたものとする。なお、1つの実験音声データに対して複数の者が回答した場合には、それらの回答結果の平均から学習用音声印象ベクトルを作成すればよい。
 また、印象パラメータとは、学習用音声印象ベクトルによって表される各印象が学習用感情表現ベクトルに及ぼす影響を示すパラメータのことである。
 音声調整パラメータ学習部204は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。
 ここで、音声調整パラメータとは、学習用音声特徴量ベクトルによって学習用購買意欲ベクトルを表現するためのパラメータである。この音声調整パラメータが適切に学習されることで、目標とする購買意欲を表す購買意欲ベクトルと或る音声特徴量ベクトルとが与えられたときに、その音声特徴量ベクトルを、目標とする購買意欲を生起させる音声の音声特徴量ベクトルに調整することが可能となる。以下、この調整後の音声特徴量ベクトルを「調整後音声特徴量ベクトル」ともいう。
 また、購買意欲向上音声推定モデルとは、音声調整パラメータによって購買意欲と音声特徴との関係性を表したモデルのことである。購買意欲向上音声推定モデルによって、目標とする購買意欲を表す購買意欲ベクトルと或る音声特徴量ベクトルとが与えられたときに、その購買意欲を生起させる音声の音声特徴量ベクトルを調整後音声特徴量ベクトルとして得ることができる。
 上記の感情パラメータ学習部202、印象パラメータ学習部203及び音声調整パラメータ学習部204は、与えられた学習用購買意欲ベクトルを再現するように、PADモデル従って感情パラメータ、印象パラメータ及び音声調整パラメータを順に学習する。
 なお、PADモデルでは、購買意欲及び各感情次元は係数x,x,・・・,x,a11,a12,・・・,ankを用いて以下のように表すことができる。
 購買意欲=x×X+x×X+・・・+x×X
 X=a11×f+a12×f+・・・+a1k×f
 X=a21×f+a22×f+・・・+a2k×f
 ・・・
 X=an1×f+an2×f+・・・+ank×f
 ここで、X,X,・・・,Xは感情次元、f,f,・・・,fは特徴量(音声データから抽出される特徴量)、kは特徴量数である。
 したがって、購買意欲は以下のように表すことができる。
 購買意欲=(x11+x21+・・・+xn1)f+・・・+(x1k+x2k+・・・+xnk)f
 このように、購買意欲は、k個の特徴量の1次式で表すことができる。
 <モデル学習処理(実施例1)>
 以下、実施例1におけるモデル学習処理について、図3を参照しながら説明する。
 音声特徴量抽出部201は、与えられた実験音声データを入力として、学習用音声特徴量ベクトルを出力する(ステップS101)。音声特徴量抽出部201は、例えば、与えられた実験音声データに対してフレーム毎にフーリエ変換等の信号処理を行うことで、学習用音声特徴量ベクトルを作成すればよい。又は、音声特徴量抽出部201は、例えば、OpenSMILE(参考文献4)等といった音声特徴量抽出ツールを用いて、与えられた実験音声データから学習用音声特徴量ベクトルを作成してもよい。
 感情パラメータ学習部202は、与えられた学習用購買意欲ベクトルと学習用感情表現ベクトルとを入力として、感情パラメータを出力する(ステップS102)。感情パラメータ学習部202は、例えば、重回帰分析、参考文献5に記載されているパス解析等といった手法により感情パラメータを学習すればよい。
 例えば、事前の主観評価実験等により学習用感情表現ベクトル[快感情,覚醒,支配]が得られているものとする。重回帰分析により感情パラメータを学習する場合、学習用購買意欲ベクトルは、回帰係数a,b,cと誤差dを用いて、以下のように表すことができる。
 学習用購買意欲ベクトル=a×快感情+b×覚醒+c×支配+d
 したがって、この場合、感情パラメータ学習部202は、回帰係数a,b,cを感情パラメータとして出力する。
 上記以外にも、感情パラメータ学習部202は、例えば、ニューラルネットワークを用いて感情パラメータを学習してもよい。例えば、参考文献2に記載されている手法と同様に、ニューラルネットワークに学習用感情表現ベクトルを入力したときの出力が学習用購買意欲ベクトルを再現するようにパラメータを学習し、この学習後のパラメータを感情パラメータとしてもよい。
 印象パラメータ学習部203は、与えられた学習用感情表現ベクトルと学習用音声印象ベクトルとを入力として、印象パラメータを出力する(ステップS103)。印象パラメータ学習部203は、感情パラメータ学習部202と同様に、重回帰分析、パス解析、ニューラルネットワーク等により印象パラメータを学習すればよい。
 例えば、事前の主観評価実験等により学習用音声印象ベクトル[落ち着きの有無,声の明るさ]と学習用感情表現ベクトル[快感情,覚醒,支配]とが得られているものとする。重回帰分析により印象パラメータを学習する場合、学習用感情表現ベクトルは、回帰係数S,S,S,T,T,Tと誤差R,R,Rを用いて、以下のように表すことができる。
 快感情=S×落ち着きの有無+T×声の明るさ+R
 覚醒=S×落ち着きの有無+T×声の明るさ+R
 支配=S×落ち着きの有無+T×声の明るさ+R
 したがって、この場合、印象パラメータ学習部203は、回帰係数S,T,S,T,S,Tを印象パラメータとして出力する。
 音声調整パラメータ学習部204は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習する(ステップS104)。音声調整パラメータ学習部204は、以下の手順1-1~手順1-2により音声調整パラメータを学習する。
 手順1-1:音声調整パラメータ学習部204は、学習用音声特徴量ベクトル及び学習用音声印象ベクトルを用いて、音声の特徴によってその音声の印象を表すための係数を学習する。音声調整パラメータ学習部204は、感情パラメータ学習部202や印象パラメータ学習部203と同様に、重回帰分析、パス解析、ニューラルネットワーク等により当該係数を学習すればよい。
 例えば、学習用音声特徴量ベクトル[F0,話速,F0分散]と学習用音声印象ベクトル[落ち着きの有無,声の明るさ]とが得られているものとする。重回帰分析により当該係数を学習する場合、学習用音声印象ベクトルは、回帰係数α,α,β,β,γ,γと誤差ε,εを用いて、以下のように表すことができる。
 落ち着きの有無=α×F0+β×話速+γ×F0分散+ε
 声の明るさ=α×F0+β×話速+γ×F0分散+ε
 したがって、この場合、音声調整パラメータ学習部204は、回帰係数α,α,β,β,γ,γを、音声の特徴(音声特徴)によってその音声の印象を表すための係数とする。
 手順1-2:音声調整パラメータ学習部204は、感情パラメータ及び印象パラメータと上記の手順1-1で得られた係数とを掛け合わせたものを音声調整パラメータとして出力する。
 例えば、感情パラメータa,b,cと印象パラメータS,T,S,T,S,Tとが得られているものとする。このとき、学習用音声特徴量ベクトル[F0,話速,F0分散]に対する音声調整パラメータVf0,Vsr,Vsdは以下のようになる。
 Vf0=(S×α+T×α)×a+(S×α+T×α)×b+(S×α+T×α)×c
 Vsr=(S×β+T×β)×a+(S×β+T×β)×b+(S×β+T×β)×c
 Vsd=(S×γ+T×γ)×a+(S×γ+T×γ)×b+(S×γ+T×γ)×c
 このように、或る音声特徴に対応する音声調整パラメータは、その音声特徴によって当該音声の印象を表すための係数を当該印象に対応する印象パラメータに乗じた上で足し合わせたものと、各感情パラメータの各々との積の和となる。
 音声調整パラメータ学習部204は、上記のステップS104で得られた音声調整パラメータを用いて学習用音声特徴量ベクトルと学習用購買意欲ベクトルの関係式を算出し、その関係式を購買意欲向上音声推定モデルとして出力する(ステップS105)。例えば、上記の手順1-2の音声調整パラメータが得られた場合、学習用購買意欲ベクトルと学習用音声特徴量ベクトルとの関係は以下のように表すことができる。
 学習用購買意欲ベクトル=Vf0×F0+Vsr×話速+Vsd×F0分散
 このため、例えば、購買意欲ベクトルをVb、音声特徴量ベクトルをVfとすれば、購買意欲向上音声推定モデルは、Vb=[Vf0,Vsr,Vsd]Vfτと表すことができる。なお、ベクトルは横ベクトルで表現されていることを想定し、τは転置を表す。より一般的には、音声調整パラメータをθとすれば、購買意欲向上音声推定モデルは、Vb=θ・Vfτと表すことができる。
 <音声生成時における音声生成装置10の機能構成(実施例1)>
 音声生成時における音声生成装置10の機能構成例を図4に示す。図4に示すように、音声生成時における音声生成装置10は、音声特徴量抽出部201と、購買意欲向上音声推定部205と、音声生成部206とを有する。これら各部は、例えば、音声生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
 音声特徴量抽出部201は、与えられた元音声データを入力として、音声特徴量ベクトルを出力する。
 ここで、元音声データとは、購買意欲の向上が期待できる音声を生成する際の元となる音声データのことである。元音声データの発話内容や文書数、発話者の数、発話者の性別等は特に限定されない。また、人間が発話した音声の音声データだけでなく、合成音声の音声データを元音声データとしてもよい。
 また、音声特徴量ベクトルとは、元音声データから抽出された特徴量を要素とするベクトルデータである。なお、音声特徴量ベクトルのデータ構造等は学習用音声特徴量ベクトルと同様である。
 購買意欲向上音声推定部205は、与えられた購買意欲ベクトルと、音声特徴量ベクトルとを入力として、購買意欲向上音声推定モデルにより調整後音声特徴量ベクトルを出力する。
 ここで、購買意欲ベクトルとは、目標とする購買意欲を数値で表したものを要素とするベクトルデータのことである。なお、購買意欲ベクトルのデータ構造等は学習用購買意欲ベクトルと同様である。
 音声生成部206は、調整後音声特徴量ベクトルを用いて、目標とする購買意欲の生起が聴取者に期待できる音声(以下、購買意欲向上音声ともいう。)を生成及び出力する。
 <音声生成処理(実施例1)>
 以下、実施例1における音声生成処理について、図5を参照しながら説明する。
 音声特徴量抽出部201は、与えられた元音声データを入力として、音声特徴量ベクトルを出力する(ステップS201)。音声特徴量抽出部201は、図3のステップS101と同様に、元音声データから音声特徴量ベクトルを作成すればよい。
 購買意欲向上音声推定部205は、与えられた購買意欲ベクトルと、上記のステップS101で得られた音声特徴量ベクトルとを入力として、購買意欲向上音声推定モデルにより調整後音声特徴量ベクトルを出力する(ステップS202)。本ステップの処理(調整後音声特徴量ベクトル作成処理)の詳細については後述する。
 音声生成部206は、上記のステップS202で得られた調整後音声特徴量ベクトルを用いて、購買意欲向上音声データを生成及び出力する(ステップS203)。音声生成部206は、例えば、元音声データの音声特徴量を、調整後音声特徴量ベクトルに含まれる音声特徴量に置き換えて信号処理を行うことで、購買意欲向上音声を生成及び出力する。この信号処理を行う方法としては、例えば、参考文献6に記載されているWORLDといったツールを利用したり、参考文献7に記載されている手法を用いたりする方法がある。
 これにより、購買意欲向上音声を聴取した聴取者(例えば、消費者等)の購買意欲の向上が期待できる。また、この購買意欲向上音声は、聴取者が受ける印象も考慮したものであるため、購買意欲のより高い向上が期待できる。これは、例えば、宣伝音声(典型的には店頭やラジオ等で商品やサービスを宣伝するための音声)では、その宣伝音声に対する印象によって、聴取者が興味を示すか、関心を抱くか等が異なるためである。
  ≪調整後音声特徴量ベクトル作成処理≫
 以下、図5のステップS202における調整後音声特徴量ベクトル作成処理について、図6を参照しながら説明する。以下では、音声特徴量ベクトル及び調整後音声特徴量ベクトルはいずれもk次元ベクトルであるものとして、音声特徴量ベクトルのi(1≦i≦k)番目の要素をVf[i]、調整後音声特徴量ベクトルのi(1≦i≦k)番目の要素をVf'[i]と表す。また、音声調整パラメータをθ=[θ[1],・・・,θ[k]]とする。更に、目標とする購買意欲を表す購買意欲ベクトルは1次元であるものとして、Vbと表す。
 購買意欲向上音声推定部205は、i←1とする(ステップS301)。
 購買意欲向上音声推定部205は、Vf'[i]に対する上限X及び下限Yを設定する(ステップS302)。これは、特徴量を大きく変化させると音声が著しく劣化するためである。なお、上限X及び下限Yは適切な値に予め決めておけばよい。
 購買意欲向上音声推定部205は、購買意欲向上音声推定モデルによりVf'[i]を推定する(ステップS303)。購買意欲向上音声推定部205は、以下によりVf'[i]を推定すればよい。
 ・i=1のとき
 このとき、Vb=[θ[1],・・・,θ[k]]・[Vf'[1],Vf[2],・・・,Vf[k]]τを満たすVf'[1]を推定する。すなわち、1<j≦kに関しては音声特徴量ベクトルの要素Vf[j]を用いて、購買意欲向上音声推定モデルによりVf'[1]を推定する。
 ・1<i<kのとき
 このとき、Vb=[θ[1],・・・,θ[k]]・[Vf'[1],・・・,Vf'[i],Vf[i+1],・・・,Vf[k]]τを満たすVf'[i]を推定する。すなわち、1≦j<iに関しては既に推定済みのVf'[j](1≦j<i)、i+1≦j≦kに関しては音声特徴量ベクトルの要素Vf[j]を用いて、購買意欲向上音声推定モデルによりVf'[i]を推定する。
 ・i=kのとき
 このとき、Vb=[θ[1],・・・,θ[k]]・[Vf'[1],・・・,Vf'[k-1],Vf'[k]]τを満たすVf'[k]を推定する。すなわち、1≦j<kに関しては既に推定済みのVf'[j](1≦j<k)を用いて、購買意欲向上音声推定モデルによりVf'[k]を推定する。
 購買意欲向上音声推定部205は、Vf'[i]≦Xである否かを判定する(ステップS304)。
 Vf'[i]≦Xであると判定されなかった場合、購買意欲向上音声推定部205は、Vf'[i]←Xとする(ステップS305)。
 一方で、Vf'[i]≦Xであると判定された場合、購買意欲向上音声推定部205は、Y≦Vf'[i]であるか否かを判定する(ステップS306)。
 Y≦Vf'[i]であると判定されなかった場合、購買意欲向上音声推定部205は、Vf'[i]←Yとする(ステップS307)。
 Y≦Vf'[i]であると判定された場合、又はステップS305若しくはステップS306に続いて、購買意欲向上音声推定部205は、i←i+1とする(ステップS308)。
 次に、購買意欲向上音声推定部205は、i<k+1であるか否かを判定する(ステップS309)。
 i<k+1であると判定された場合、購買意欲向上音声推定部205は、ステップS302に戻る。これにより、i=1,・・・,kに関して、ステップS302~ステップS308が繰り返し実行される。
 一方で、i<k+1であると判定されなかった場合、購買意欲向上音声推定部205は、調整後音声特徴量ベクトルVf'=[Vf'[1],・・・,Vf'[k]]を出力する(ステップS310)。
 [実施例2]
 以下、本実施形態に係る音声生成装置10の実施例2について説明する。なお、実施例2では、実施例1との相違点のみを説明し、実施例1と同様としてよい箇所に関してはその説明を省略する。
 実施例1では、学習用感情表現ベクトルと学習用購買意欲ベクトルとを用いて感情パラメータを学習し、学習用感情表現ベクトルと学習用音声印象ベクトルとを用いて印象パラメータを学習した。非特許文献3に記載されているように、音声に対する印象と感情は強く関係することが知られているが、感情表現ベクトルや音声印象ベクトルの次元数や評価尺度によっては、印象パラメータの学習に学習用購買意欲ベクトルを用いた方が精度良く推定できる場合がある。同様に、感情パラメータの学習に学習用音声印象ベクトルを用いた方が精度良く推定できる場合がある。
 そこで、実施例2では、学習用感情表現ベクトルと学習用音声印象ベクトルとを用いて感情パラメータを学習し、学習用購買意欲ベクトルと学習用音声印象ベクトルとを用いて印象パラメータを学習する場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例2)>
 モデル学習時における音声生成装置10の機能構成例を図7に示す。図7に示すように、感情パラメータ学習部202は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、感情パラメータを出力する。同様に、印象パラメータ学習部203は、与えられた学習用購買意欲ベクトルと与えられた学習用音声印象ベクトルとを入力として、印象パラメータを出力する。また、音声調整パラメータ学習部204は、学習用音声特徴量ベクトルと学習用感情表現ベクトルと感情パラメータと印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。
 なお、実施例2における感情パラメータ学習部202は、実施例1における感情パラメータ学習部202が感情パラメータを学習する方法において、「学習用購買意欲ベクトル」を「学習用音声印象ベクトル」と読み替えれば同様の方法により感情パラメータを学習することができる。同様に、実施例2における印象パラメータ学習部203は、実施例1における印象パラメータ学習部203が印象パラメータを学習する方法において、「学習用感情表現ベクトル」を「学習用購買意欲ベクトル」と読み替えれば同様の方法により印象パラメータを学習することができる。同様に、実施例2における音声調整パラメータ学習部204は、実施例1における音声調整パラメータ学習部204が音声調整パラメータを学習する方法において、「学習用音声印象ベクトル」を「学習用感情表現ベクトル」と読み替えれば同様の方法により音声調整パラメータを学習することができる。
 [実施例3]
 以下、本実施形態に係る音声生成装置10の実施例3について説明する。なお、実施例3では、実施例1との相違点のみを説明し、実施例1と同様としてよい箇所に関してはその説明を省略する。
 実施例1及び2では、感情パラメータと印象パラメータをそれぞれ出力した後に音声調整パラメータを学習した。しかしながら、これらの実施例では、パラメータの推定を繰り返すため、誤差が大きくなる可能性がある。
 また、例えば、実施例1で印象パラメータを学習する際には、学習用購買意欲ベクトルを使用しておらず、感情表現ベクトルを介してしか購買意欲との関係性を学習できていない。
 そこで、実施例3では、感情パラメータと印象パラメータとをまとめて感情・印象パラメータとし、これを学習及び出力する場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例3)>
 モデル学習時における音声生成装置10の機能構成例を図8に示す。図8に示すように、モデル学習時における音声生成装置10は、感情・印象パラメータ学習部207を有する。一方で、実施例1及び2と異なり、感情パラメータ学習部202と印象パラメータ学習部203を有していない。なお、感情・印象パラメータ学習部207は、例えば、音声生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
 感情・印象パラメータ学習部207は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルと与えられた学習用購買意欲ベクトルとを入力として、感情・印象パラメータを出力する。
 音声調整パラメータ学習部204は、学習用感情表現ベクトルと学習用音声印象ベクトルと学習用音声特徴量ベクトルと感情・印象パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。
 <モデル学習処理(実施例3)>
 以下、実施例3におけるモデル学習処理について、図9を参照しながら説明する。なお、実施例3におけるモデル学習処理では、ステップS401~ステップS403が実施例1と異なる。
 感情・印象パラメータ学習部207は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルと与えられた学習用購買意欲ベクトルとを入力として、感情・印象パラメータを出力する(ステップS401)。感情・印象パラメータ学習部207は、感情パラメータ学習部202や印象パラメータ学習部203と同様に、重回帰分析、パス解析、ニューラルネットワーク等により感情・印象パラメータを学習すればよい。
 例えば、事前の主観評価実験等により学習用音声印象ベクトル[落ち着きの有無,声の明るさ]と学習用感情表現ベクトル[快感情,覚醒,支配]とが得られているものとする。重回帰分析により感情・印象パラメータを学習する場合、学習用購買意欲ベクトルは、回帰係数a,b,c,d,eと誤差fを用いて、以下のように表すことができる。
 学習用購買意欲ベクトル=a×落ち着きの有無+b×声の明るさ+c×快感情+d×覚醒+e×支配+f
 したがって、この場合、感情・印象パラメータ学習部207は、回帰係数a,b,c,d,eを感情・印象パラメータとして出力する。
 音声調整パラメータ学習部204は、学習用感情表現ベクトルと学習用音声印象ベクトルと学習用音声特徴量ベクトルと感情・印象パラメータとを入力として、音声調整パラメータを学習する(ステップS402)。音声調整パラメータ学習部204は、以下の手順2-1~手順2-2により音声調整パラメータを学習する。
 手順2-1:音声調整パラメータ学習部204は、学習用音声特徴量ベクトルと学習用音声印象ベクトルと学習用感情表現ベクトルとを用いて、音声の特徴によってその音声の印象や感情を表すための係数を学習する。音声調整パラメータ学習部204は、実施例1や2と同様に、重回帰分析、パス解析、ニューラルネットワーク等により当該係数を学習すればよい。
 例えば、学習用音声特徴量ベクトル[F0,話速,F0分散]と学習用音声印象ベクトル[落ち着きの有無,声の明るさ]と学習用感情表現ベクトル[快感情,覚醒,支配]とが得られているものとする。重回帰分析により当該係数を学習する場合、学習用音声印象ベクトル及び学習用感情表現ベクトルは、回帰係数α,α,α,α,α,β,β,β,β,β,γ,γ,γ,γ,γと誤差ε,ε,ε,ε,εを用いて、以下のように表すことができる。
 落ち着きの有無=α×F0+β×話速+γ×F0分散+ε
 声の明るさ=α×F0+β×話速+γ×F0分散+ε
 快感情=α×F0+β×話速+γ×F0分散+ε
 覚醒=α×F0+β×話速+γ×F0分散+ε
 支配=α×F0+β×話速+γ×F0分散+ε
 したがって、この場合、音声調整パラメータ学習部204は、回帰係数α,α,α,α,α,β,β,β,β,β,γ,γ,γ,γ,γを、音声の特徴(音声特徴)によってその音声の印象や感情を表すための係数とする。
 手順2-2:音声調整パラメータ学習部204は、感情・印象パラメータと上記の手順2-1で得られた係数とを掛け合わせたものを音声調整パラメータとして出力する。
 例えば、感情・印象パラメータa,b,c,d,eが得られているものとする。このとき、学習用音声特徴量ベクトル[F0,話速,F0分散]に対する音声調整パラメータVf0,Vsr,Vsdは以下のようになる。
 Vf0=a×α+b×α+c×α+d×α+e×α
 Vsr=a×β+b×β+c×β+d×β+e×β
 Vsd=a×γ+b×γ+c×γ+d×γ+e×γ
 このように、或る音声特徴に対応する音声調整パラメータは、その音声特徴によって当該音声の印象や感情を表すための係数を当該印象や当該感情に対応する感情・印象パラメータに乗じたものの和となる。
 音声調整パラメータ学習部204は、上記のステップS104で得られた音声調整パラメータを用いて学習用音声特徴量ベクトルと学習用購買意欲ベクトルの関係式を算出し、その関係式を購買意欲向上音声推定モデルとして出力する(ステップS403)。例えば、上記の手順2-2の音声調整パラメータが得られた場合、学習用購買意欲ベクトルと学習用音声特徴量ベクトルとの関係は以下のように表すことができる。
 学習用購買意欲ベクトル=Vf0×F0+Vsr×話速+Vsd×F0分散+a×ε+b×ε+c×ε+d×ε+e×ε+f
 なお、上記の購買意欲向上音声推定モデルは、実施例1の購買意欲向上音声推定モデルに対して単に誤差が追加されたものであるため、実施例1と同様の手法により音声生成時に調整後音声特徴量ベクトルを作成することができる。
 [実施例4]
 以下、本実施形態に係る音声生成装置10の実施例4について説明する。なお、実施例4では、実施例1との相違点のみを説明し、実施例1と同様としてよい箇所に関してはその説明を省略する。
 実施例1~3では、学習用音声印象ベクトルと学習用感情表現ベクトルの両方をそのまま用いてパラメータを学習していた。しかしながら、事前の主観評価実験やアンケート等によって収集した感情の評価値と音声の印象の評価値の中には実質的に関連性の高い指標が含まれている場合がある。すなわち、感情の評価値と音声の印象の評価値の中に多重共線性を存在する場合がある。この場合、購買意欲の推定精度が低下してしまうという問題がある。例えば、音声に対する印象として「楽しい-つまらない」という評価指標を用いた場合、快感情の評価値と強い相関があると考えられる。
 そこで、実施例4では、学習用感情表現ベクトルと学習用音声印象ベクトルを結合したベクトルを用いてパラメータを学習する場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例4)>
 モデル学習時における音声生成装置10の機能構成例を図10に示す。図10に示すように、モデル学習時における音声生成装置10は、感情・印象ベクトル結合部208と、知覚パラメータ学習部209とを有する。一方で、実施例1及び2と異なり、感情パラメータ学習部202と印象パラメータ学習部203を有していない。なお、感情・印象ベクトル結合部208及び知覚パラメータ学習部209は、例えば、音声生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
 感情・印象ベクトル結合部208は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、学習用結合ベクトルを出力する。
 ここで、学習用結合ベクトルとは、学習用感情表現ベクトルの各要素と学習用音声印象ベクトルの各要素の中で互いに相関が低い要素で構成されたベクトルデータのことである。
 知覚パラメータ学習部209は、学習用結合ベクトルと学習用購買意欲ベクトルとを入力として、知覚パラメータを出力する。
 ここで、知覚パラメータとは、学習用結合ベクトルが学習用購買意欲ベクトルに及ぼす影響を示すパラメータのことである。
 音声調整パラメータ学習部204は、学習用結合ベクトルと学習用音声特徴量ベクトルと知覚パラメータとを入力として、音声調整パラメータを学習し、購買意欲向上音声推定モデルを出力する。
 <モデル学習処理(実施例4)>
 以下、実施例4におけるモデル学習処理について、図11を参照しながら説明する。なお、実施例4におけるモデル学習処理では、ステップS501~ステップS503が実施例1と異なる。
 感情・印象ベクトル結合部208は、与えられた学習用感情表現ベクトルと与えられた学習用音声印象ベクトルとを入力として、学習用結合ベクトルを出力する(ステップS501)。感情・印象ベクトル結合部208は、例えば、主成分分析、LDA(線形判別分析)等といった次元削減手法により、学習用感情表現ベクトルと学習用音声印象ベクトルとを結合した学習用結合ベクトルを作成すればよい。
 知覚パラメータ学習部209は、学習用結合ベクトルと学習用購買意欲ベクトルとを入力として、知覚パラメータを出力する(ステップS502)。なお、知覚パラメータ学習部209は、実施例1における感情パラメータ学習部202と印象パラメータ学習部203と同様に、重回帰分析、パス解析、ニューラルネットワーク等により知覚パラメータを学習すればよい。
 音声調整パラメータ学習部204は、学習用結合ベクトルと学習用音声特徴量ベクトルと知覚パラメータとを入力として、音声調整パラメータを学習する(ステップS503)。音声調整パラメータ学習部204は、実施例1~3と同様に、重回帰分析、パス解析、ニューラルネットワーク等により、音声の特徴によってその音声の知覚(印象や感情)を表すための係数を学習した上で、それらの係数と知覚パラメータとを掛け合わせたものを音声調整パラメータとすればよい。
 [実施例5]
 以下、本実施形態に係る音声生成装置10の実施例5について説明する。なお、実施例4では、実施例1との相違点のみを説明し、実施例1と同様としてよい箇所に関してはその説明を省略する。
 実施例1~4では、学習用音声印象ベクトルと学習用感情表現ベクトルは主観評価実験やアンケート等を実施することによって作成されていた。しかしながら、一般に、モデル学習に際しては大量のデータが必要となる。学習用購買意欲ベクトルに関しては購買ログ等を利用することができるため大量に作成することが可能であるが、学習用音声印象ベクトルと学習用感情表現ベクトルは主観評価実験やアンケート等の実施が必要であるため大量に作成することは困難である。
 そこで、実施例5では、音声から感情や印象を推定することができる既存の推定モデルを利用することで、その出力結果を感情表現ベクトルや音声印象ベクトルの代わりとする場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例5)>
 モデル学習時における音声生成装置10の機能構成例を図12に示す。図12に示すように、モデル学習時における音声生成装置10は、感情推定部210と、印象推定部211とを有する。なお、感情推定部210及び印象推定部211は、例えば、音声生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
 感情推定部210は、学習用音声特徴量ベクトルを入力として、感情推定モデルにより、学習用感情表現ベクトルを出力する。ここで、感情推定モデルは、学習用音声特徴量ベクトルを入力として学習用感情表現ベクトルを出力する既知のモデルである。例えば、参考文献6に記載されているモデルを利用することができる。なお、感情推定モデルが出力する学習用感情表現ベクトルの各要素はPAD尺度に限られる必要はなく、数値化された任意の感情であればよい。
 印象推定部211は、学習用音声特徴量ベクトルを入力として、印象推定モデルにより、学習用音声印象ベクトルを出力する。ここで、印象推定モデルは、学習用音声特徴量ベクトルを入力として学習用音声印象ベクトルを出力する既知のモデルである。なお、印象推定モデルが出力する学習用音声印象ベクトルの各要素は、特定の印象に限られる必要はなく、数値化された任意の印象であればよい。
 [実施例6]
 以下、本実施形態に係る音声生成装置10の実施例6について説明する。実施例5では、実施例1のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入したが、実施例6では、実施例2のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入した場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例6)>
 モデル学習時における音声生成装置10の機能構成例を図13に示す。図13に示す音声生成装置10は、実施例2のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入したものである。
 [実施例7]
 以下、本実施形態に係る音声生成装置10の実施例7について説明する。実施例7では、実施例3のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入した場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例7)>
 モデル学習時における音声生成装置10の機能構成例を図14に示す。図14に示す音声生成装置10は、実施例3のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入したものである。
 [実施例8]
 以下、本実施形態に係る音声生成装置10の実施例8について説明する。実施例8では、実施例4のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入した場合について説明する。
 <モデル学習時における音声生成装置10の機能構成(実施例8)>
 モデル学習時における音声生成装置10の機能構成例を図15に示す。図15に示す音声生成装置10は、実施例4のモデル学習時における音声生成装置10に対して感情推定部210及び印象推定部211を導入したものである。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 [参考文献]
 参考文献1:J. Russell, "A circumplex model of affect", Journal of Personality and Social Psychology, vol.39, no. 6, pp. 1161-1178, 1980.
 参考文献2:S. Parthasarathy, C. Busso, "Jointly Predicting Arousal, Valence and Dominance with Multi-Task Learning", INTERSPEECH 2017, pp.1103-1107, 2017
 参考文献3:木戸 博, 粕谷 英樹, 通常発話の声質に関連した日常表現語の抽出, 日本音響学会誌, NO.55, vol.6, pp. 405-411, 1999.
 参考文献4:F. Eyben, M. Wollmer, and B. Schuller, "OpenSMILE: the Munich versatile and fast open-source audio feature extractor," in ACM International conference on Multimedia (MM 2010), Florence, Italy, pp. 1459-1462, 2010.
 参考文献5:N. Nusairat, Q. Hammouri, H. Al-Ghadir, A. M. K. Ahmad, and M. A. H. Eid, "The effect of design of restaurant on customer behavioral intentions," Management
 参考文献6:M. Morise, F. Yokomori, and K. Ozawa, "World: A vocoderbased high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems, vol. E99-D, no. 7, pp. 1877-1884, 2016.
 参考文献7:森田 直孝,板倉 文忠,"自己相関関数を用いた音声の時間軸での伸縮",日本音響学会講演論文集,昭和61年3月.
 10    音声生成装置
 101   入力装置
 102   表示装置
 103   外部I/F
 103a  記録媒体
 104   通信I/F
 105   RAM
 106   ROM
 107   補助記憶装置
 108   プロセッサ
 109   バス
 201   音声特徴量抽出部
 202   感情パラメータ学習部
 203   印象パラメータ学習部
 204   音声調整パラメータ学習部
 205   購買意欲向上音声推定部
 206   音声生成部
 207   感情・印象パラメータ学習部
 208   感情・印象ベクトル結合部
 209   知覚パラメータ学習部
 210   感情推定部
 211   印象推定部

Claims (8)

  1.  学習用の第1の音声データが表す第1の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第1の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第1の購買意欲ベクトルと、前記第1の音声の特徴を表す第1の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、
     与えられた第2の音声データが表す第2の音声の特徴を表す第2の音声特徴量ベクトルと、目標とする購買意欲を表す第2の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第2の音声特徴量ベクトルが表す特徴を調整した第3の音声特徴量ベクトルを作成する調整手順と、
     前記第2の音声データと、前記第3の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第3の音声を生成する音声生成手順と、
     をコンピュータが実行する音声生成方法。
  2.  前記学習手順には、
     前記感情表現ベクトルと前記第1の購買意欲ベクトルとを用いて、前記感情表現ベクトルによって表される各感情が前記第1の購買意欲ベクトルに及ぼす影響を示す感情パラメータを学習する手順と、
     前記感情表現ベクトルと前記音声印象ベクトルとを用いて、前記音声印象ベクトルによって表される各印象が前記感情表現ベクトルに及ぼす影響を示す印象パラメータを学習する手順と、
     前記感情パラメータと前記印象パラメータと前記音声印象ベクトルと前記第1の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項1に記載の音声生成方法。
  3.  前記学習手順には、
     前記感情表現ベクトルと前記音声印象ベクトルとを用いて、前記感情表現ベクトルによって表される各感情が前記音声印象ベクトルに及ぼす影響を示す感情パラメータを学習する手順と、
     前記第1の購買意欲ベクトルと前記音声印象ベクトルとを用いて、前記音声印象ベクトルによって表される各印象が前記第1の購買意欲ベクトルに及ぼす影響を示す印象パラメータを学習する第2の学習手順と、
     前記感情パラメータと前記印象パラメータと前記感情表現ベクトルと前記第1の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項1に記載の音声生成方法。
  4.  前記学習手順には、
     前記感情表現ベクトルと前記音声印象ベクトルと前記第1の購買意欲ベクトルとを用いて、前記感情表現ベクトルによって表される各感情と前記音声印象ベクトルによって表される各印象とが前記第1の購買意欲ベクトルに及ぼす影響を示す感情・印象パラメータを学習する手順と、
     前記感情・印象パラメータと前記感情表現ベクトルと前記音声印象ベクトルと前記第1の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項1に記載の音声生成方法。
  5.  前記学習手順には、
     前記感情表現ベクトルと前記音声印象ベクトルとを結合した結合ベクトルを作成する手順と、
     前記結合ベクトルと前記第1の購買意欲ベクトルとを用いて、前記結合ベクトルによって表される各感情及び各印象が前記第1の購買意欲ベクトルに及ぼす影響を示す知覚パラメータを学習する手順と、
     前記知覚パラメータと前記結合ベクトルと前記第1の音声特徴量ベクトルとを用いて、音声の特徴と購買意欲との関係を表現するための音声調整パラメータを前記推定モデルのパラメータとして学習する手順とが含まれる、請求項1に記載の音声生成方法。
  6.  前記第1の音声データと感情推定モデルとを用いて、前記感情表現ベクトルを作成する感情推定手順と、
     前記第1の音声データと印象推定モデルとを用いて、前記音声印象ベクトルを作成する印象推定手順と、を前記コンピュータが更に実行する請求項1乃至5の何れか一項に記載の音声生成方法。
  7.  学習用の第1の音声データが表す第1の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第1の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第1の購買意欲ベクトルと、前記第1の音声の特徴を表す第1の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習するように構成されている学習部と、
     与えられた第2の音声データが表す第2の音声の特徴を表す第2の音声特徴量ベクトルと、目標とする購買意欲を表す第2の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第2の音声特徴量ベクトルが表す特徴を調整した第3の音声特徴量ベクトルを作成するように構成されている調整部と、
     前記第2の音声データと、前記第3の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第3の音声を生成するように構成されている音声生成部と、
     を有する音声生成装置。
  8.  学習用の第1の音声データが表す第1の音声を聴取した聴取者の感情を表す感情表現ベクトルと、前記第1の音声に対する前記聴取者の印象を表す音声印象ベクトルと、前記聴取者の購買意欲を表す第1の購買意欲ベクトルと、前記第1の音声の特徴を表す第1の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる音声を推定するための推定モデルのパラメータを学習する学習手順と、
     与えられた第2の音声データが表す第2の音声の特徴を表す第2の音声特徴量ベクトルと、目標とする購買意欲を表す第2の購買意欲ベクトルと、前記推定モデルとを用いて、聴取者の購買意欲を生起させるように、前記第2の音声特徴量ベクトルが表す特徴を調整した第3の音声特徴量ベクトルを作成する調整手順と、
     前記第2の音声データと、前記第3の音声特徴量ベクトルとを用いて、聴取者の購買意欲を生起させる第3の音声を生成する音声生成手順と、
     をコンピュータに実行させるプログラム。
PCT/JP2022/023343 2022-06-09 2022-06-09 音声生成方法、音声生成装置及びプログラム WO2023238339A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023343 WO2023238339A1 (ja) 2022-06-09 2022-06-09 音声生成方法、音声生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023343 WO2023238339A1 (ja) 2022-06-09 2022-06-09 音声生成方法、音声生成装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2023238339A1 true WO2023238339A1 (ja) 2023-12-14

Family

ID=89117795

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023343 WO2023238339A1 (ja) 2022-06-09 2022-06-09 音声生成方法、音声生成装置及びプログラム

Country Status (1)

Country Link
WO (1) WO2023238339A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013008A (ja) * 2018-07-19 2020-01-23 株式会社エーアイ 音声処理装置、音声処理プログラムおよび音声処理方法
JP2020091636A (ja) * 2018-12-05 2020-06-11 トヨタ自動車株式会社 音声対話装置の制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013008A (ja) * 2018-07-19 2020-01-23 株式会社エーアイ 音声処理装置、音声処理プログラムおよび音声処理方法
JP2020091636A (ja) * 2018-12-05 2020-06-11 トヨタ自動車株式会社 音声対話装置の制御方法

Similar Documents

Publication Publication Date Title
Belin et al. The sound of trustworthiness: Acoustic-based modulation of perceived voice personality
Qin et al. What you say and how you say it matters: Predicting stock volatility using verbal and vocal cues
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
US10929392B1 (en) Artificial intelligence system for automated generation of realistic question and answer pairs
Peng et al. Multi-resolution modulation-filtered cochleagram feature for LSTM-based dimensional emotion recognition from speech
Lin et al. Singing voice separation using a deep convolutional neural network trained by ideal binary mask and cross entropy
Bryan et al. ISSE: An interactive source separation editor
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
JP2016061968A (ja) 音声処理装置、音声処理方法およびプログラム
US20130121495A1 (en) Sound Mixture Recognition
EP3392882A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP6701478B2 (ja) 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム
Hiraoka et al. Reinforcement learning of cooperative persuasive dialogue policies using framing
Williamson et al. Estimating nonnegative matrix model activations with deep neural networks to increase perceptual speech quality
Mesa-Lao Speech-enabled computer-aided translation: A satisfaction survey with post-editor trainees
Bodigutla et al. Multi-domain conversation quality evaluation via user satisfaction estimation
JP2023071771A (ja) データ生成モデル学習装置、データ生成装置、データ生成モデル学習方法、データ生成方法、プログラム
US9633665B2 (en) Process and associated system for separating a specified component and an audio background component from an audio mixture signal
Dahmani et al. Learning emotions latent representation with CVAE for text-driven expressive audiovisual speech synthesis
WO2023238339A1 (ja) 音声生成方法、音声生成装置及びプログラム
Rodd et al. A tool for efficient and accurate segmentation of speech data: announcing POnSS
Lin et al. SASE: Self-Adaptive noise distribution network for Speech Enhancement with Federated Learning using heterogeneous data
Lefter et al. A cross-corpus speech-based analysis of escalating negative interactions
Schmidt et al. PodcastMix: A dataset for separating music and speech in podcasts
US11533518B2 (en) Audio customization in streaming environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22945841

Country of ref document: EP

Kind code of ref document: A1