WO2020089961A1 - 音声処理装置、およびプログラム - Google Patents

音声処理装置、およびプログラム Download PDF

Info

Publication number
WO2020089961A1
WO2020089961A1 PCT/JP2018/040062 JP2018040062W WO2020089961A1 WO 2020089961 A1 WO2020089961 A1 WO 2020089961A1 JP 2018040062 W JP2018040062 W JP 2018040062W WO 2020089961 A1 WO2020089961 A1 WO 2020089961A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
settings
network
generation
generating
Prior art date
Application number
PCT/JP2018/040062
Other languages
English (en)
French (fr)
Inventor
健一 海沼
Original Assignee
健一 海沼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 健一 海沼 filed Critical 健一 海沼
Priority to US16/759,817 priority Critical patent/US10964308B2/en
Priority to PCT/JP2018/040062 priority patent/WO2020089961A1/ja
Priority to JP2019527925A priority patent/JP6582157B1/ja
Priority to EP18937532.2A priority patent/EP3693957A4/en
Publication of WO2020089961A1 publication Critical patent/WO2020089961A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a voice processing device and a program for performing voice analysis and voice synthesis based on the analysis result.
  • the factors that influence the voice quality of voice include gender, voice pitch, utterance speed, accent emphasis amount and volume, as well as the age, height, and weight of the speaker.
  • the age, height and weight of the person are not taken into consideration.
  • the setting that is uniquely determined for each speaker such as the speaker's sex, age, height, and weight, is referred to as “fixed setting”.
  • the present invention has been made in view of the above-mentioned circumstances, and an object thereof is to provide a technology that enables to synthesize an emotional voice while adding a fixed setting of a sounder.
  • the present invention divides moving image data obtained by capturing the face of a speaker in a utterance period into frames of a predetermined time length, and shows face feature point data indicating the position of a predetermined face feature point. For extracting each frame for each frame, and dividing the voice data representing the utterance voice of the speaker in the utterance period into the frames, and generating the facial feature points of each frame from the voice feature data of the corresponding frame.
  • a user is designated with a plurality of types of flow settings including at least a text indicating the utterance content of the utterance voice and information indicating the emotions contained in the utterance voice.
  • the user is allowed to specify a plurality of types of fixed settings that define the voice quality of the speaker, and the facial feature points generated by the first generation network that are evaluated to be appropriate by the first evaluation means, by the user.
  • Second generation means for generating a second generation network for generating the uttered voice from a plurality of designated fixed settings and a plurality of types of flow settings; and the second generation network using the voice data.
  • a second evaluation means for evaluating the suitability of the above by a second identification network.
  • the voice processing device of the present invention it becomes possible to generate a second generation network for synthesizing an emotional voice while taking into account the fixed setting of the sounder. By synthesizing the voice by using it, it becomes possible to synthesize the emotional voice while adding the fixed setting of the sounder.
  • a speech processing apparatus of a more preferable aspect includes a designation receiving unit that prompts a user to designate a fixed setting and a floating setting for a speech to be synthesized, and the second generation network that is evaluated as appropriate by the second evaluation unit. And a voice synthesizing unit for synthesizing voices corresponding to the fixed setting and the floating setting designated for the designation receiving unit.
  • the voice processing device of this aspect it is possible to synthesize a voice having a voice quality according to a fixed setting designated by the user and having a fluid setting (speech content and emotion) designated by the user.
  • the designation accepting unit displays a color map in which different colors are associated with each emotion on the display device, and the user designates the emotion that can be included in the voice to be synthesized by designating the color. It is characterized by
  • the voice processing device of this aspect it is possible to specify the emotion that can be included in the voice to be synthesized by specifying the color.
  • the designation receiving means receives more designation of information indicating emotions as the character string length of the text is longer.
  • the voice processing device of this aspect it is possible to synthesize a voice having emotional undulations by designating a plurality of emotions during the utterance period of the voice to be synthesized.
  • the second generation unit includes a single network generation unit that generates the second generation network for each of the plurality of types of fixed settings and the plurality of types of flow settings, and For each combination of a plurality of settings except a plurality of types of fixed settings and at least one setting of the plurality of types of flow settings, each of the plurality of settings does not affect other settings.
  • the generation network generated for each setting by the single network generation means may affect other settings.
  • the multi-network generation means and the all-network generation means can reduce It becomes possible to adjust the movable area of the vocoder corresponding to each setting so as not to affect the setting.
  • the present invention causes a computer to divide moving image data obtained by capturing an image of a face of a speaker in a utterance period into frames of a predetermined time length, and to determine positions of predetermined facial feature points.
  • the user is allowed to specify several kinds of flow settings, and the user is allowed to specify a plurality of fixed settings that define the voice quality of the speaker.
  • a second evaluation step of evaluating the suitability of the second generation network by using a second identification network by using data is provided.
  • the program of the present invention also makes it possible to generate a voice model for synthesizing emotional voice while taking into account the fixed settings of the sounder.
  • a program of a more preferable mode uses a designation receiving step for urging the user to designate a fixed setting and a floating setting for a voice to be synthesized, and the second generation network evaluated as appropriate in the second evaluation step. And a voice synthesizing step of synthesizing voices corresponding to the fixed setting and the floating setting received in the designation receiving step.
  • FIG. 3 is a block diagram showing a hardware configuration example of a voice processing device 1 according to an embodiment of the present invention.
  • 6 is a flowchart showing a flow of a generation network generation process executed by the control unit 10 of the voice processing device 1 according to the voice processing program 322. It is a figure for demonstrating the process which the control part 10 performs in the noise removal step SA130 of a production
  • FIG. 6 is a flowchart showing a flow of a voice synthesis process executed by a control unit 10 of the voice processing device 1 according to a voice processing program 322.
  • FIG. 1 is a block diagram showing a hardware configuration example of a voice processing device 1 according to an embodiment of the present invention.
  • the voice processing device 1 is, for example, a smartphone.
  • the voice processing device 1 has a control unit 10, a user interface unit 20, a storage unit 30, and a bus 40 that mediates data transfer between these components.
  • the voice processing device 1 has, in addition to the components shown in FIG. 1, a wireless communication unit that wirelessly communicates with a base station of a wireless communication network.
  • FIG. Illustration is omitted.
  • detailed description of the wireless communication unit will be omitted.
  • the “user interface” is abbreviated as “UI”, and the same notation will be applied hereinafter in this specification.
  • the control unit 10 is a computer such as a CPU (Central Processing Unit).
  • the control unit 10 executes a program stored in the storage unit 30 (more accurately, the non-volatile storage unit 320) and functions as a control center of the voice processing device 1.
  • the UI unit 20 is a collection of devices that provide a user interface for allowing the user to use the voice processing device 1. As shown in FIG. 1, the UI unit 20 includes a display unit 210, an operation unit 220, a voice input / output unit 230, and an imaging unit 240.
  • the display unit 210 is, for example, a liquid crystal display and its drive circuit. Under the control of the control unit 10, the display unit 210 displays images of various screens that prompt the user to use the voice processing device 1.
  • the imaging unit 240 is, for example, an image sensor.
  • the image capturing unit 240 captures a moving image in the image capturing field of view, and outputs moving image data representing the image capturing result to the control unit 10.
  • the operation unit 220 is a transparent sheet-shaped touch sensor provided so as to cover the display area of the display unit 210.
  • the operation unit 220 forms a so-called touch panel together with the display unit 210.
  • the user of the voice processing device 1 can perform various inputs by a touch operation or a flick operation on the operation unit 220. When the user performs a touch operation, a flick operation, or the like on the operation unit 220, the operation unit 220 outputs data representing the operation content of the user to the control unit 10. As a result, the operation performed by the user is transmitted to the control unit
  • the voice input / output unit 230 includes a microphone, a speaker, an A / D converter, and a D / A converter (all of which are not shown in FIG. 1).
  • the microphone picks up ambient sound and outputs an analog audio signal representing the waveform of the sound to the A / D converter.
  • the A / D converter performs A / D conversion on the analog audio signal output from the microphone and outputs sound data (a sample obtained by sampling the waveform represented by the analog audio signal to be converted at a predetermined sampling period). (Column) is output to the control unit 10.
  • the D / A converter performs D / A conversion on the sound data supplied from the control unit 10 and outputs an analog audio signal which is the conversion result to a speaker.
  • the speaker emits sound according to the analog audio signal output from the D / A converter.
  • the storage unit 30 includes a volatile storage unit 310 and a non-volatile storage unit 320.
  • the volatile storage unit 310 is, for example, a RAM (Random Access Memory).
  • the volatile storage unit 310 is used by the control unit 10 as a work area when executing a program.
  • the non-volatile storage unit 320 is, for example, a flash ROM (Read Only Memory).
  • the non-volatile storage unit 320 stores various programs and various data. Specific examples of the program stored in the non-volatile storage unit 320 include a kernel program that causes the control unit 10 to realize an OS (Operating System), various application programs of a web browser and an email client, and the features of the present embodiment.
  • An audio processing program 322 that causes the control unit 10 to execute the audio processing shown in FIG.
  • the programs other than the voice processing program 322 are not particularly different from those installed in a general smartphone.
  • the control unit 10 reads the kernel program from the non-volatile storage unit 320 to the volatile storage unit 310 when the power of the voice processing device 1 (not shown in FIG. 1) is turned on, and starts its execution.
  • the control unit 10 operating in accordance with the kernel program and realizing the OS executes the voice processing program 322 and other application programs and the UI unit according to the instruction input by the operation on the operation unit 220. It is possible to control the operation of components other than the control unit 10, such as 20.
  • the programs other than the voice processing program 322 are not particularly different from those installed in a general smartphone, detailed description thereof will be omitted, and hereinafter, the voice processing program 322 will be mainly described.
  • the control unit 10 operating according to the voice processing program 322 executes voice processing for synthesizing voice by using a hostile generation network which is a kind of neural network.
  • This voice processing is roughly divided into a generation network generation processing and a voice synthesis processing.
  • the generation network is a neural network used for speech synthesis.
  • the generation network generation process is a process of generating a generation network by machine learning.
  • the voice synthesis process is a process of using the generation network as a vocoder (voice synthesis model) and synthesizing voices corresponding to the fixed setting and the floating setting designated by the user of the voice processing device 1.
  • the fixed setting is a setting that defines the voice quality of speech to be synthesized (that is, a fixed setting for each speaker).
  • the fixed setting includes gender, age, height, weight, speech speed, and accent of the speaker.
  • the floating setting is a setting that fluidly changes according to the content of the utterance.
  • Specific examples of the flow setting include a text (character string) representing the utterance content and an emotion to be given to the speech to be synthesized.
  • control unit 10 that realizes the OS volatilizes the voice processing program 322 from the non-volatile storage unit 320 when the execution instruction of the voice processing program 322 is given via the operation unit 220.
  • the data is read into the sex memory unit 310 and its execution is started.
  • the control unit 10 operating according to the voice processing program 322 displays a message on the display unit 210 or from the voice input / output unit 230 in response to an instruction to execute the generation network generation process by an operation on the operation unit 220.
  • the output of the voice message prompts the user to speak with his face facing the image capturing unit 240, and also activates the image capturing unit 240.
  • the speech is picked up by the microphone of the voice input / output unit 230, and the temporal change of the user's face during the speech period (expression).
  • the moving image representing the change of (1) is captured by the image capturing unit 240.
  • FIG. 2 is a flowchart showing the flow of generation network generation processing.
  • an extraction step SA100 a first generation step SA110, a first evaluation step SA120, a noise removal step SA130, a second generation step SA140, and a second generation step SA140.
  • the six steps of the second evaluation step SA150 are included.
  • the contents of the processing executed by the control unit 10 in each of these six steps are as follows.
  • the control unit 10 sets the moving image data output from the image capturing unit 240 (that is, the moving image data obtained by capturing the face of the speaker during the utterance period) for a predetermined length of time (for example, 1/60 seconds).
  • the face feature point data indicating the positions of the predetermined face feature points is extracted for each frame by performing processing according to the face feature point extraction algorithm for each frame.
  • Specific examples of the facial feature points include points on the contour line of facial components such as eyebrows, eyes, nose, and lips.
  • the facial feature point extraction algorithm the one used in the existing face recognition technology may be appropriately used.
  • the control unit 10 first divides the audio data output from the audio input / output unit 230 into the frames of the predetermined time length, and performs the process according to the audio feature extraction algorithm for each frame.
  • the voice feature data indicating the voice feature is extracted for each frame.
  • the audio data for 1 second is a sample string consisting of 44100 samples.
  • Specific examples of the voice feature data include fundamental frequency, spectrum envelope, formant, and the like.
  • the voice feature extraction algorithm the one used in the existing voice analysis technique may be appropriately used.
  • control unit 10 uses machine learning to generate a neural network (hereinafter, referred to as a first generation network) for generating the facial feature points of each frame from the voice feature data of the corresponding frame.
  • Machine learning is performed using voice feature data and face feature point data instead of voice data and moving image data in order to reduce the amount of data to be processed and reduce the processing load of machine learning.
  • the existing machine learning algorithm may be appropriately used.
  • a neural network for evaluating the suitability of the first generation network by machine learning. Then, the suitability of the first generation network is evaluated using the facial feature point data extracted from each frame.
  • a neural network hereinafter, a first identification network
  • machine learning of the generation network can deceive the identification network side well (in the present embodiment, the facial feature points extracted from the frame and the facial features generated by the first generation network). Do not be indistinguishable from points) is done for the purpose.
  • machine learning of the identification network is performed for the purpose of being able to successfully identify the facial feature points extracted from the frame of the moving image data and the facial feature points generated by the generation network.
  • Equation 1 G (z) is a facial feature point generated by the first generation network, and D (x) is x that is not a fake by the first identification network (that is, extracted from a frame of video data). It is the probability of being correctly identified as a facial feature point).
  • the value of the first term on the right side increases and the value of D (G (z)) decreases as the discriminating ability of the identification network increases, so that the value of the second term on the right side increases.
  • the generation network successfully deceives the identification network, the value of D (G (z)) increases and the value of the second term on the right side decreases.
  • the control unit 10 removes noise from the facial feature points generated by the first generation network evaluated as appropriate in the first evaluation step SA120. .. More specifically, the control unit 10 calculates the Gaussian distribution GD (see FIG. 3) based on all the facial feature points generated by the first generation network evaluated as appropriate in the first evaluation step SA120. After the calculation, as shown in FIG. 3, the data whose absolute value of the standard deviation is 2 ⁇ or more is removed as noise. Note that, as shown in FIG. 3, ⁇ is -1 ⁇ ⁇ for 68% of all facial feature points generated by the first generation network evaluated to be appropriate in the first evaluation step SA120. The value belongs to the range of + 1 ⁇ ⁇ , and 95% belongs to the range of ⁇ 2 ⁇ ⁇ to + 2 ⁇ ⁇ .
  • the control unit 10 sets a plurality of types of flow settings including at least the text indicating the utterance content of the utterance voice and the information indicating the emotion contained in the utterance voice.
  • the user is made to specify and a plurality of types of fixed settings that specify the voice quality of the speaker are specified by the user.
  • the control unit 10 sets these fixed settings and flow settings as elements, and the feature surface generated from the facial feature points generated by the first generation network evaluated to be appropriate in the first evaluation step SA120 as elements.
  • Spur vector (see FIG. 4) is generated. This spur vector is associated with the first generation network via the feature plane.
  • the control unit 10 generates the utterance voice picked up by the microphone at the start of the generation network generation process from a plurality of types of fixed settings and a plurality of types of flow settings designated by the user as settings for the utterance voice.
  • a neural network hereinafter referred to as a second generation network
  • the reason why machine learning is performed using spar vectors instead of audio data and moving image data is to reduce the amount of data to be processed and reduce the processing load of machine learning.
  • SA140 As the machine learning algorithm used in the second generation step SA140, an existing one may be appropriately used.
  • the second generation step SA140 includes three steps: a single network generation step SA1410, a multi-network generation step SA1420, and an all network generation step SA1430.
  • SN single network
  • MN multi-network
  • AN all network
  • control unit 10 generates a second generation network for each setting included in the spur vector.
  • FIG. 5 illustrates a process of generating a second generation network (text GN, emotion GN, and weight GN) corresponding to each setting of the text and emotion belonging to the floating setting and the weight of the fixed setting.
  • the control unit 10 sets a plurality of settings for each combination of a plurality of settings excluding at least one of the plurality of settings included in the spar vector.
  • a second generation network is created so that each of the settings does not affect the other settings.
  • FIG. 6 corresponds to a process of generating a second generation network (text / emotion GN) corresponding to a combination of two settings of text and emotion and a combination of three settings of gender, age and emotion.
  • the process of generating the second generation network (sex / age / emotion GN) is illustrated.
  • the control unit 10 targets all settings included in the spur vector so that each setting does not affect other settings. GN).
  • a second evaluation step SA150 following the second generation step SA140, the control unit 10 outputs the suitability of the second generation network generated in the second generation step SA140 from the voice input / output unit 230.
  • a neural network for evaluation using the voice data (hereinafter, a second identification network) is generated by machine learning, and the suitability of the second generation network is evaluated using the second identification network. Then, the control unit 10 writes the data of the second generation network, which is evaluated as appropriate, in a predetermined storage area of the nonvolatile storage unit 320.
  • the existing machine learning algorithm may be used as appropriate in the second evaluation step SA150. The above is the processing content of the generation network generation processing.
  • the control unit 10 which operates according to the voice processing program 322, starts the voice synthesis process when an instruction to execute the voice synthesis process is given by an operation on the operation unit 220.
  • the voice quality corresponding to the fixed setting designated by the user and the speech content and the emotional voice corresponding to the fluid setting designated by the user are stored in the second generation network stored in the storage area.
  • FIG. 8 is a flowchart showing the flow of the voice synthesis process.
  • the voice synthesis process of this embodiment includes two steps, a designation receiving step SB100 and a voice synthesis step SB110. The contents of the processing executed by the control unit 10 in each of these two steps are as follows.
  • the control unit 10 prompts the user to designate the fixed setting and the floating setting for the speech to be synthesized. More specifically, the control unit 10 causes the display unit 210 to display the UI screen shown in FIG. As shown in FIG. 9, a fixed setting designation area A01, a fluid setting designation area A02, and a preview area A03 are provided on this UI screen. In the preview area A03, after the execution of the voice synthesizing step SB110 is completed, the waveform of the voice synthesized in the voice synthesizing step SB110 is displayed.
  • the fixed setting designation area A01 is provided with virtual operators V01 to V06 for allowing the user to designate fixed settings of sex, age, speech rate, accent, height, and weight. ..
  • the user can specify each of the fixed settings of gender, age, speech rate, accent, height, and weight by operating each of the virtual operators V01 to V06 by touching the operation unit 220 or the like.
  • the gender is not limited to binary designation such as male and female, and may be consecutively designated between male and female.
  • default values are set for each fixed setting of gender, age, speech speed, accent, height, and weight, and the control unit 10 responds to the default values at the start of the voice synthesis process.
  • the avatar image VA is displayed in the center of the fixed setting designation area A01. Then, the control unit 10 changes the avatar image VA according to the operation of the virtual operators V01 to V06. Of course, the display of the avatar image VA may be omitted.
  • a text input area I01 for allowing the user to designate (input) a text (character string) representing the utterance content of the speech to be synthesized, and to the user in color the emotion that can be included in the speech to be synthesized.
  • Emotion designation lists L01 and L02 (or color map CM and gray scale GS) for designating are provided.
  • the text input to the text input area I01 there is no particular difference from the text input in a general smartphone, such as using a virtual keyboard, so a detailed description will be omitted, and in the following, it can be included in the speech to be synthesized.
  • the method of specifying emotions will be mainly described.
  • a unique color is associated in advance with each of the above six emotions.
  • the nonvolatile storage unit 320 of the voice processing device 1 is associated with an emotion identifier (for example, a character string such as “rage”) that uniquely indicates each of the 64 emotions, and is associated with the emotion indicated by the emotion identifier.
  • an emotion identifier for example, a character string such as “rage”
  • a table in which data indicating the respective values of C (cyan), M (magenta), Y (yellow), and K (black) of the obtained color is stored in advance.
  • the colors associated with emotions are expressed in the CMYK color system, but the RGB color system may be used, and in FIGS. 10 and 11, R (red), G (green) and R in the RGB color system are used.
  • Each value of B (blue) is also shown.
  • the CMYK color system has one more coordinate axis than the RGB color system and is suitable for associating colors with various emotions, it is preferable to use the CMYK color system.
  • the user can specify the emotions that can be included in the speech to be synthesized by either the operation for the emotion designation lists L01 and L02 or the operation for the color map CM and the gray scale GS.
  • Each of the emotion designation lists L01 and L02 is a list box that displays a list of the 64 types of emotion identifiers.
  • the user can specify emotions to be included in the speech to be synthesized by performing a selection operation on the list box.
  • the + button B01 in FIG. 9 is a virtual operator for instructing the user to add an emotion specification list
  • the-button B02 is a virtual operator for instructing the user to delete the displayed emotion specification list. is there. In FIG.
  • a UI screen having two emotion designation lists is illustrated, but in the state immediately after the UI screen is displayed, only one emotion designation list is displayed.
  • the number of emotions that can be designated for one text is determined according to the length of the text (character string length), and the text is The longer the number, the greater the number.
  • by specifying a plurality of emotions for one text it is possible to specify a continuous time change of emotions (undulation of emotions) along a time axis with the beginning of the text as the origin. ..
  • the color map CM is an input area for allowing the user to specify the values of C, M, and Y out of the color components of the color associated with the emotion
  • the gray scale GS is the color component of the same color. This is an input area for allowing the user to specify the value of K.
  • the control unit 10 uses the second generation network evaluated as appropriate in the second evaluation step SA150, and the fixed setting received in the designation receiving step SB100. And a voice corresponding to the flow setting is synthesized. More specifically, the control unit 10 uses the second generation network as a vocoder corresponding to each setting received in the designation receiving step SB100, and uses the value of each setting received in the designation receiving step SB100 as a parameter. Is applied to the corresponding vocoder, and these vocoders are sequentially operated as shown in FIG. 12 to synthesize the voice and emit the sound from the speaker of the voice input / output unit 230.
  • the voice processing device 1 of the present embodiment it becomes possible to generate the second generation network for synthesizing the emotional voice while considering the fixed setting of the sounder.
  • the second generation network By synthesizing the voice using the second generation network, it becomes possible to synthesize the emotional voice while adding the fixed setting of the sounder.
  • the vocoders for gender, age, ... Accent are sequentially operated to generate voice, but the order of operating each vocoder may be changed. However, it is preferable to activate the vocoder relating to the fixed setting such as sex, age, weight, and accent, and then activate the vocoder relating to the flow setting.
  • the present invention may be applied to generation of a voice of a character in a computer game or animation, a telephone response, etc.
  • the present invention may be applied to the generation of dialogue voice in a voice dialogue system.
  • the non-volatile storage unit 320 of the voice processing device 1 is a program (voice processing program 322) that causes the control unit 10 to execute the generation network generation process and the voice synthesis process that show the features of the present invention.
  • the above program may be manufactured and sold as a single unit.
  • Specific examples of the aspect of manufacturing and selling the above-mentioned program by itself include the aspect of writing and distributing the above-mentioned program in a computer-readable recording medium such as a flash ROM, or distributing the above-mentioned program by downloading through a telecommunication line such as the Internet. The aspect which does is mentioned.
  • the voice processing device 1 of the above embodiment includes the user interface unit 20 as a component, but the user interface unit 20 is a control unit via a communication line such as a USB cable or a telecommunication line such as the Internet.
  • 10 may be an external element capable of exchanging data with the control unit 10
  • the storage unit 30 may also be an external element capable of exchanging data with the control unit 10 via a communication line or an electric communication line such as the Internet.
  • the voice processing device of the present invention only needs to have the control unit 10 that executes the generation network generation process and the voice synthesis process.
  • the generation network generation process of the above embodiment includes the noise removal step SA130.
  • the noise removal step SA130 may be omitted. Good.
  • the generation network of the present invention only needs to include the extraction step SA100, the first generation step SA110, the first evaluation step SA120, the second generation step SA140, and the second evaluation step SA150.
  • the voice processing device 1 of the above embodiment executes the generation network generation process and the voice synthesis process
  • a voice processing device that executes only the former process may be provided.
  • the means for executing each step included in the generation network generation processing and each step included in the voice synthesis processing may be configured by hardware such as an electronic circuit, and the voice processing device 1 may be configured by combining the respective means. Good.
  • an extraction unit that executes the process of the extraction step SA100, a first generation unit that executes the process of the first generation step SA110, a first evaluation unit that executes the process of the first evaluation step SA120, and a second evaluation unit.
  • Each of the second generation unit that executes the process of the generation step SA140 and the second evaluation unit that executes the process of the second evaluation step SA150 is composed of an electronic circuit, and these respective units are combined to produce the voice of the present invention.
  • a processing device may be configured.
  • Each unit of the designation receiving unit that executes the process of the designation receiving step SB100 and the voice synthesizing unit that executes the process of the voice synthesizing step SB110 is configured by an electronic circuit, and these units are further combined to configure a voice processing device. You may.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

発音者毎の固有の設定を加味しつつ感情のこもった音声を合成することを可能にする。 発話者の顔を撮像して得られる動画データからフレーム毎に顔特徴点を抽出する一方、当該発話者の発話音声からフレーム毎に抽出した音声特徴データに基づいて対応するフレームの顔特徴点を生成するための第1の生成ネットワークを生成し識別ネットワークにより適否を評価する。次いで、発話音声の発話内容を表すテキストと発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定、発話者の声質を規定する複数種の固定設定および適切と評価された第1の生成ネットワークにより生成され顔特徴点とから上記発話音声を生成するための第2の生成ネットワークを生成し上記識別ネットワークによりその適否を評価する音声処理装置を提供する。

Description

音声処理装置、およびプログラム
 本発明は、音声の分析、およびその分析結果に基づく音声合成を行う音声処理装置、およびプログラムに関する。
 所謂ボーカイロイドなど音声を電気的に合成する技術が一般に普及している。一般に音声の声質を左右する要素としては、性別,声の高さ,発声速度,アクセント強調量や音量などが挙げられ、これらの要素を指定して所望の声質の音声を合成する技術も提案されている(例えば、特許文献1参照)。
特開平05-053595号公報
 音声の声質を左右する要素には、性別,声の高さ,発声速度,アクセント強調量や音量の他にも発話者の年齢、身長、体重などがあるが特許文献1に開示の技術では発話者の年齢、身長、体重等は考慮されていない。なお、以下では、発話者の性別、年齢、身長、体重等の発話者毎に一意に定まる設定のことを「固定設定」と呼ぶ。また、人間らしい音声を合成する際には、喜怒哀楽などの感情をこめることが重要となるが、特許文献1に開示の技術では感情の反映は考慮されていない。
 本発明は上述した事情に鑑みてなされたものであり、発音者の固定設定を加味しつつ感情のこもった音声を合成することを可能にする技術を提供することを目的とする。
 上記課題を解決するために本発明は、発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出手段と、前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成手段と、各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価手段と、前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価手段により適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成手段と、前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価手段と、を有することを特徴とする音声処理装置を提供する。
 本発明の音声処理装置によれば、発音者の固定設定を加味しつつ感情のこもった音声を合成するための第2の生成ネットワークを生成することが可能になり、当該第2の生成ネットワークを用いて音声を合成することで、発音者の固定設定を加味しつつ感情のこもった音声を合成することが可能になる。
 より好ましい態様の音声処理装置は、合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付手段と、前記第2の評価手段により適切と評価された前記第2の生成ネットワークを用いて、前記指定受付手段に対して指定された固定設定および流動設定に対応する音声を合成する音声合成手段と、を有することを特徴とする。
 本態様の音声処理装置によれば、ユーザにより指定された固定設定に応じた声質を有し、かつユーザにより指定された流動設定(発話内容および感情)の音声を合成することが可能になる。
 さらに好ましい態様の音声処理装置では、前記指定受付手段は、感情毎に異なる色を対応付けたカラーマップを表示装置に表示し、色の指定により、合成対象の音声に込める感情をユーザに指定させることを特徴とする。
 本態様の音声処理装置によれば、合成対象の音声に込める感情を色の指定により指定することが可能になる。
 さらに好ましい態様の音声処理装置では、前記指定受付手段は、感情を示す情報の指定を、テキストの文字列長が長いほど多く受け付ける。
 本態様の音声処理装置によれば、合成対象の音声の発話期間において複数の感情を指定することで、感情の起伏を有する音声を合成することが可能になる。
 さらに好ましい態様の音声処理装置では、前記第2の生成手段は、前記複数種の固定設定および前記複数種の流動設定の設定毎に前記第2の生成ネットワークを生成するシングルネットワーク生成手段と、前記複数種の固定設定および前記複数種の流動設定のうちの少なくとも1つの設定を除いた複数個の設定の組み合わせ毎に、前記複数個の設定の各々が他の設定に影響を与えないように前記第2の生成ネットワークを生成するマルチネットワーク生成手段と、前記複数種の固定設定および前記複数種の流動設定の各々が他の設定影響を与えないように前記第2のネットワークを生成するオールネットワーク生成手段と
を含むことを特徴とする。
 シングルネットワーク生成手段により設定毎に生成される生成ネットワークは、他の設定に影響を与える虞があるが、本態様の音声処理装置によれば、マルチネットワーク生成手段およびオールネットワーク生成手段によって、他の設定に影響を与えないよう各設定御に対応するボコーダの可動領域を調整することが可能になる。
 また、上記課題を解決するために本発明は、コンピュータに、発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出ステップと、前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成ステップと、各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価ステップと、前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価ステップにて適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成ステップと、前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価ステップと、を実行させることを特徴とするプログラムを提供する。
 本発明のプログラムによっても、発音者の固定設定を加味しつつ感情のこもった音声を合成するための音声モデルを生成することが可能になる。
 より好ましい態様のプログラムは、合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付ステップと、前記第2の評価ステップにて適切と評価された前記第2の生成ネットワークを用いて、前記指定受付ステップにて受け付けた固定設定および流動設定に対応する音声を合成する音声合成ステップと、を実行させることを特徴とする。
 本態様のプログラムによっても、ユーザにより指定された固定設定に応じた声質を有し、かつユーザにより指定された流動設定(発話内容および感情)の音声を合成することが可能になる。
本発明の一実施形態による音声処理装置1のハードウェア構成例を示すブロック図である。 音声処理装置1の制御部10が音声処理プログラム322にしたがって実行する生成ネットワーク生成処理の流れを示すフローチャートである。 生成ネットワーク生成処理のノイズ除去ステップSA130において制御部10が実行する処理を説明するための図である。 生成ネットワーク生成処理の第2の生成ステップSA140において制御部10が生成するスパーベクトルの一例を示す図である。 生成ネットワーク生成処理の第2の生成ステップSA140において制御部10が実行するシングルネットワーク生成ステップSA1410の処理内容の一例を示す図である。 生成ネットワーク生成処理の第2の生成ステップSA140において制御部10が実行するマルチネットワーク生成ステップSA1420の処理内容の一例を示す図である。 生成ネットワーク生成処理の第2の生成ステップSA140において制御部10が実行するオールネットワーク生成ステップSA1430の処理内容の一例を示す図である。 音声処理装置1の制御部10が音声処理プログラム322にしたがって実行する音声合成処理の流れを示すフローチャートである。 音声合成処理の指定受付ステップSB100にて制御部10が表示部210に表示させるUI画面の一例を示す図である。 本実施形態における感情と色彩の対応付けの一例を示す図である。 本実施形態における感情と色彩の対応付けの一例を示す図である。 音声合成処理の音声合成ステップSB110の処理内容の一例を示す図である。
 以下、図面を参照しつつ本発明の実施形態を説明する。
 図1は、本発明の一実施形態による音声処理装置1のハードウェア構成例を示すブロック図である。音声処理装置1は、例えばスマートフォンである。音声処理装置1は、図1に示すように、制御部10、ユーザインタフェース部20,記憶部30、およびこれら構成要素間のデータ授受を仲介するバス40を有する。音声処理装置1は、図1に示す構成要素の他に、無線通信網の基地局と無線通信する無線通信部を有するが、無線通信部については本発明との関連が薄いため、図1では図示が省略されている。以下、本明細書においても、無線通信部についての詳細な説明は省略する。また、図1では、「ユーザインタフェース」は「UI」と略記されており、以下、本明細書においても同様の表記とする。
 制御部10は、例えばCPU(Central Processing Unit)などのコンピュータである。制御部10は、記憶部30(より正確には不揮発性記憶部320)に格納されているプログラムを実行し、音声処理装置1の制御中枢として機能する。
 UI部20は、音声処理装置1をユーザに利用させるためのユーザインタフェースを提供する装置の集合体である。図1に示すように、UI部20は、表示部210、操作部220、音声入出力部230、および撮像部240を含む。
 表示部210は、例えば液晶ディスプレイとその駆動回路である。表示部210は、制御部10による制御の下、音声処理装置1の利用をユーザに促す各種画面の画像を表示する。撮像部240は例えばイメージセンサである。撮像部240は、撮像視野内の動画像を撮像し、その撮像結果を表す動画データを制御部10へ出力する。操作部220は、表示部210の表示領域を覆うように設けられた透明なシート状のタッチセンサである。操作部220は、表示部210とともに所謂タッチパネルを形成する。音声処理装置1のユーザは、操作部220に対するタッチ操作或いはフリック操作により各種入力を行うことができる。操作部220に対してユーザがタッチ操作或いはフリック操作等を行うと、操作部220は、ユーザの操作内容を表すデータを制御部10へ出力する。これにより、ユーザの行った操作が制御部10に伝達される。
 音声入出力部230は、マイクロフォン、スピーカ、A/D変換器およびD/A変換器を含む(図1では何れも図示略)。マイクロフォンは周囲の音を収音し当該音の波形を表すアナログオーディオ信号をA/D変換器へ出力する。A/D変換器はマイクロフォンから出力されたアナログオーディオ信号にA/D変換を施しその変換結果である音データ(変換対象のアナログオーディオ信号の表す波形を所定のサンプリング周期でサンプリングして得られるサンプル列)を制御部10へ出力する。D/A変換器は制御部10から与えられる音データにD/A変換を施し、その変換結果であるアナログオーディオ信号をスピーカへ出力する。スピーカはD/A変換器から出力されたアナログオーディオ信号に応じた音を放射する。
 記憶部30は、揮発性記憶部310と不揮発性記憶部320とを含む。揮発性記憶部310は、例えばRAM(Random Access Memory)である。揮発性記憶部310は、プログラムを実行する際のワークエリアとして制御部10によって利用される。不揮発性記憶部320は、例えばフラッシュROM(Read Only Memory)である。不揮発性記憶部320には、各種プログラムと各種データとが記憶されている。不揮発性記憶部320に記憶されているプログラムの具体例としては、制御部10にOS(Operating System)を実現させるカーネルプログラム、webブラウザや電子メールクライアントの各種アプリケーションプログラム、本実施形態の特徴を顕著に示す音声処理を制御部10に実行させる音声処理プログラム322が挙げられる。
 不揮発性記憶部320に記憶されているプログラムのうち、音声処理プログラム322以外のプログラムについては一般的なスマートフォンにインストールされているものと特段に変わるところは無い。例えば、制御部10は、音声処理装置1の電源(図1では図示略)の投入を契機としてカーネルプログラムを不揮発性記憶部320から揮発性記憶部310へ読み出し、その実行を開始する。カーネルプログラムにしたがって作動し、OSを実現している状態の制御部10は、操作部220に対する操作により入力された指示に応じて、音声処理プログラム322や他のアプリケーションプログラムを実行することやUI部20等の制御部10以外の構成要素の作動制御を行うことができる。このように、音声処理プログラム322以外のプログラムについては一般的なスマートフォンにインストールされているものと特段に変わるところは無いため詳細な説明は省略し、以下では音声処理プログラム322を中心に説明する。
 音声処理プログラム322にしたがって作動している制御部10は、ニューラルネットワークの一種である敵対的生成ネットワークを利用して音声を合成する音声処理を実行する。この音声処理は、生成ネットワーク生成処理と音声合成処理とに大別される。生成ネットワークとは、音声合成に使用されるニューラルネットワークのことである。生成ネットワーク生成処理は生成ネットワークを機械学習により生成する処理である。音声合成処理は、生成ネットワークをボコーダ(音声合成モデル)として用い、音声処理装置1のユーザにより指定された固定設定および流動設定に対応する音声を合成する処理である。固定設定とは、合成対象の音声の声質を規定する設定(すなわち、発話者毎に固定の設定)のことである。固定設定の具体例としては、発話者の性別、年齢、身長、体重、話速、アクセントが挙げられる。流動設定とは、発話内容に応じて流動的に変化する設定のことである。流動設定の具体例としては発話内容を表すテキスト(文字列)、および合成対象の音声に付与する感情が挙げられる。
 前述したように、OSを実現している制御部10は、操作部220を介して音声処理プログラム322の実行指示を与えられたことを契機として、音声処理プログラム322を不揮発性記憶部320から揮発性記憶部310に読み出してその実行を開始する。音声処理プログラム322にしたがって作動している制御部10は、操作部220に対する操作により生成ネットワーク生成処理の実行を指示されたことを契機として、表示部210へのメッセージ表示或いは音声入出力部230からの音声メッセージの出力により、撮像部240に顔を向けて発話することをユーザに促すとともに、撮像部240を作動させる。上記の要領で発話を促されたユーザが撮像部240に顔を向けて発話すると、その発話音声は音声入出力部230のマイクロフォンによって収音され、その発話期間におけるユーザの顔の時間変化(表情の変化)を表す動画が撮像部240によって撮像される。
 発話音声の収音および発話期間における動画の撮像が完了すると、制御部10は生成ネットワーク生成処理を開始する。図2は、生成ネットワーク生成処理の流れを示すフローチャートである。図2に示すように、本実施形態の生成ネットワーク生成処理には、抽出ステップSA100、第1の生成ステップSA110、第1の評価ステップSA120、ノイズ除去ステップSA130、第2の生成ステップSA140、および第2の評価ステップSA150の6つのステップが含まれている。これら6つのステップの各々において制御部10が実行する処理の内容は次の通りである。
 抽出ステップSA100では、制御部10は、撮像部240から出力される動画データ(すなわち、発話期間における発話者の顔を撮像して得られる動画データ)を所定時間長(例えば、1/60秒)のフレームに区切り、フレーム毎に顔特徴点抽出アルゴリズムにしたがった処理を施し、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する。顔特徴点の具体例としては、眉、目、鼻、および唇等の顔の構成要素の輪郭線上の点が挙げられる。顔特徴点抽出アルゴリズムについては、既存の顔認識技術におけるものを適宜用いるようにすればよい。
 第1の生成ステップSA110では、制御部10は、まず、音声入出力部230から出力される音声データを上記所定時間長のフレームに区切り、音声特徴抽出アルゴリズムにしたがった処理をフレーム毎に施して音声特徴を示す音声特徴データをフレーム毎に抽出する。例えば音声入出力部230のA/D変換器におけるサンプリング周波数が44.1kHzである場合、1秒分の音声データは44100個のサンプルからなるサンプル列である。この場合、1フレーム分の音声データは、44100/60=735個のサンプルからなるサンプル列となる。音声特徴データの具体例としては、基本周波数、スペクトラム包絡、フォルマント等が挙げられる。音声特徴抽出アルゴリズムについても、既存の音声分析技術におけるものを適宜用いるようにすればよい。次いで、制御部10は、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するためのニューラルネットワーク(以下、第1の生成ネットワーク)を、機械学習により生成する。音声データおよび動画データの代わりに音声特徴データおよび顔特徴点データを用いて機械学習を行うのは、処理対象のデータ量を低減させ、機械学習の処理負荷を軽減するためである。この機械学習のアルゴリズムについても既存のものを適宜用いるようにすればよい。
 第1の生成ステップSA110に後続する第1の評価ステップSA120では、制御部10は、第1の生成ネットワークの適否を評価するためのニューラルネットワーク(以下、第1の識別ネットワーク)を機械学習により生成し、各フレームから抽出した顔特徴点データを用いて第1の生成ネットワークの適否を評価する。一般に、敵対的生成ネットワークでは、生成ネットワークの機械学習は識別ネットワーク側をうまく欺けるようになること(本実施形態では、フレームから抽出した顔特徴点と第1の生成ネットワークにより生成された顔特徴点との区別がつかなくなくようにすること)を目的として行われる。一方、識別ネットワークの機械学習は、動画データのフレームから抽出した顔特徴点と生成ネットワークにより生成された顔特徴点とをうまく識別できるようになることを目的として行われる。この関係は以下の数1で表される。数1において、G(z)は第1の生成ネットワークにより生成される顔特徴点であり、D(x)は第1の識別ネットワークによりxが偽物ではない(すなわち、動画データのフレームから抽出した顔特徴点)と正しく識別される確率である。識別ネットワークの識別能力が向上するほど右辺第1項の値は大きくなり、D(G(z))の値は小さくなるため右辺第2項の値は大きくなる。一方、生成ネットワークが識別ネットワークをうまく欺けるようになると、D(G(z))の値は大きくなり、右辺第2項の値は小さくなる。
Figure JPOXMLDOC01-appb-M000001
 第1の評価ステップSA120に後続するノイズ除去ステップSA130では、制御部10は、第1の評価ステップSA120にて適切と評価された第1の生成ネットワークにより生成される顔特徴点からノイズを除去する。より詳細に説明すると、制御部10は、第1の評価ステップSA120にて適切と評価された第1の生成ネットワークにより生成される全ての顔特徴点を元にガウス分布GD(図3参照)を算出し、図3に示すように、標準偏差の絶対値が2σ以上のデータをノイズとして除去する。なお、σは、図3に示すように、第1の評価ステップSA120にて適切と評価された第1の生成ネットワークにより生成される全ての顔特徴点のうちの68%が-1×σ~+1×σの範囲に属し、-2×σ~+2×σの範囲に95%が属する値である。
 ノイズ除去ステップSA130に後続する第2の生成ステップSA140では、制御部10は、発話音声の発話内容を表すテキストと当該発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに当該発話者の声質を規定する複数種の固定設定をユーザに指定させる。次いで、制御部10は、これら固定設定および流動設定と、第1の評価ステップSA120にて適切と評価された第1の生成ネットワークにより生成される顔特徴点から生成される特徴面とを要素とするスパーベクトル(図4参照)を生成する。このスパーベクトルは、上記特徴面を介して第1の生成ネットワークに対応付けられている。
 次いで、制御部10は、生成ネットワーク生成処理の開始時にマイクロフォンにより収音された発話音声を、その発話音声についての設定としてユーザにより指定された複数種の固定設定および複数種の流動設定から生成するためのニューラルネットワーク(以下、第2の生成ネットワーク)を、当該スパーベクトルを用いた機械学習により生成する。音声データおよび動画データの代わりにスパーベクトルを用いて機械学習を行うのは、処理対象のデータ量を低減させ、機械学習の処理負荷を軽減するためである。第2の生成ステップSA140にて使用する機械学習アルゴリズムについても既存のものを適宜用いるようにすればよい。
 より詳細に説明すると、第2の生成ステップSA140には、シングルネットワーク生成ステップSA1410、マルチネットワーク生成ステップSA1420、およびオールネットワーク生成ステップSA1430の3つのステップが含まれている。なお、図2では、「シングルネットワーク」は「SN」と、「マルチネットワーク」は「MN」と、「オールネットワーク」は「AN」と夫々略記されている。以下、本明細書においても同様の表記とする。SN生成ステップSA410では、図5に示すように、制御部10は、スパーベクトルに含まれる設定毎に第2の生成ネットワークを生成する。図5には、流動設定に属するテキストおよび感情と固定設定のうちの体重の各設定に対応する第2の生成ネットワーク(テキストGN、感情GNおよび体重GN)を生成する処理が例示されている。
 MN生成ステップSA1420では、制御部10は、図6に示すように、スパーベクトルに含まれる複数種の設定のうちの少なくとも1つの設定を除いた複数個の設定の組み合わせ毎に、これら複数個の設定の各々が他の設定に影響を与えないように第2の生成ネットワークを生成する。例えば、図6には、テキストおよび感情の2つの設定の組み合わせに対応する第2の生成ネットワーク(テキスト・感情GN)を生成する処理と、性別、年齢および感情の3つの設定の組み合わせに対応する第2の生成ネットワーク(性別・年齢・感情GN)を生成する処理が例示されている。
 AN生成ステップSA1430では、図7に示すように、制御部10は、スパーベクトルに含まれる全ての設定を対象として、各設定が他の設定に影響を与えないように第2のネットワーク(オールベクトルGN)を生成する。
 第2の生成捨ステップSA140に後続する第2の評価ステップSA150では、制御部10は、第2の生成ステップSA140にて生成した第2の生成ネットワークの適否を、音声入出力部230から出力された音声データを用いて評価するためのニューラルネットワーク(以下、第2の識別ネットワーク)を機械学習により生成し、当該第2の識別ネットワークを用いて第2の生成ネットワークの適否を評価する。そして、制御部10は、適切と評価した第2の生成ネットワークのデータを不揮発性記憶部320の所定の記憶領域に書き込む。なお、第2の評価ステップSA150にて使用する機械学習アルゴリズムについても既存のものを適宜用いるようにすればよい。
 以上が、生成ネットワーク生成処理の処理内容である。
 次いで、音声合成処理について説明する。
 音声処理プログラム322にしたがって作動している制御部10は、操作部220に対する操作により音声合成処理の実行を指示されたことを契機として、音声合成処理を開始する。この音声合成処理は、ユーザにより指定された固定設定に対応する声質および同ユーザにより指定された流動設定に対応する発話内容および感情の音声を、上記記憶領域に記憶された第2の生成ネットワークを用いて合成する処理である。図8は、音声合成処理の流れを示すフローチャートである。図8に示すように、本実施形態の音声合成処理には、指定受付ステップSB100と音声合成ステップSB110の2つのステップが含まれている。これら2つのステップの各々において制御部10が実行する処理の内容は次の通りである。
 指定受付ステップSB100では、制御部10は、合成対象の音声についての固定設定および流動設定の指定をユーザに促す。より詳細に説明すると、制御部10は、図9に示すUI画面を表示部210に表示させる。図9に示すように、このUI画面には、固定設定指定領域A01と流動設定指定領域A02とプレビュー領域A03とが設けられている。プレビュー領域A03には、音声合成ステップSB110の実行完了後、当該音声合成ステップSB110にて合成された音声の波形が表示される。
 図9に示すように、固定設定指定領域A01には、性別、年齢、話速、アクセント、身長、および体重の各固定設定をユーザに指定させるための仮想操作子V01~V06が設けられている。ユーザは、操作部220に対するタッチ操作等により仮想操作子V01~V06の各々を操作することで、性別、年齢、話速、アクセント、身長、および体重の各固定設定を指定することができる。なお、性別については男性および女性といった2値的な指定には限らず、男性と女性の間で連続的に指定できるようにしてもよい。
 本実施形態では、性別、年齢、話速、アクセント、身長、および体重の各固定設定にはデフォルト値が定められており、音声合成処理の開始時点では、制御部10は上記デフォルト値に応じたアバタ画像VAを固定設定指定領域A01の中央に表示する。そして、制御部10は、仮想操作子V01~V06の操作に応じてアバタ画像VAを変化させる。なお、アバタ画像VAの表示を省略しても勿論よい。
 流動設定指定領域A02には、合成対象の音声の発話内容を表すテキスト(文字列)をユーザに指定(入力)させるためのテキスト入力領域I01と、合成対象の音声に込める感情を色彩でユーザに指定させるための感情指定リストL01およびL02(或いはカラーマップCMとグレイスケールGS)が設けられている。テキスト入力領域I01に対するテキストの入力については、例えば仮想キーボドを用いるなど、一般的なスマートフォンにおけるテキストの入力と特段に変わるところはないので詳細な説明を省略し、以下では、合成対象の音声に込める感情の指定方法を中心に説明する。
 本実施形態では、図10および図11に示すrage~alarmedまでの64通り感情を色彩でユーザに指定させることが可能である。図10および図11示すように、上記64通りの感情は、感情の種類に応じてA~Pの16種類、感情の強さに応じてlevel=1~4の4種類に予め分類されている。そして、上記6通りの感情の各々には、固有の色彩が予め対応付けられている。音声処理装置1の不揮発性記憶部320には、64通りの感情の各々を一意に示す感情識別子(例えば、“rage”等の文字列)に対応付けて、その感情識別子の示す感情に対応付けられた色彩のC(シアン)、M(マゼンタ)、Y(イエロー)およびK(黒)の各値(図10および図11参照)を示すデータを格納したテーブルが予め格納されている。本実施形態では、感情に対応付ける色彩をCMYK表色系で表現するがRGB表色系を用いてもよく、図10および図11では、RGB表色系におけるR(赤)、G(緑)およびB(青)の各値も併記されている。ただし、CMYK表色系は、RGB表色系に比較して座標軸が1つ多く、多様な感情に色彩を対応付けるのに好適であるため、CMYK表色系を用いる方が好ましい。
 本実施形態では、ユーザは、感情指定リストL01およびL02に対する操作と、カラーマップCMおよびグレイスケールGSに対する操作の何れかで合成対象の音声に込める感情を指定することができる。感情指定リストL01およびL02の各々は、上記64種類の感情識別子をリスト表示するリストボックスである。ユーザは、当該リストボックスに対する選択操作を行うことで、合成対象の音声に込める感情を指定することができる。図9における+ボタンB01は、感情指定リストの追加をユーザに指示させるための仮想操作子であり、-ボタンB02は表示されている感情指定リストの消去をユーザに指示させるための仮想操作子である。図9では、感情指定リストを2つ有するUI画面が例示されているが、UI画面の表示直後の状態では、感情指定リストは1つだけ表示されている。また、本実施形態では、1つのテキストに対して指定可能な感情の数(UI画面に表示可能な感情指定リストの数)は当該テキストの長さ(文字列長)に応じて定まり、テキストが長いほどその数は大きくなる。本実施形態では、1つのテキストに対して複数の感情を指定することで、テキストの先頭を原点とする時間軸に沿った感情の連続的な時間変化(感情の起伏)を指定することができる。
 カラーマップCMは、感情に対尾づけられた色彩の色成分のうちC,M,およびYの値をユーザに指定させるための入力領域であり、グレイスケールGSは同色彩の色成分のうちのKの値をユーザに指定させるための入力領域である。ユーザは、カラーマップCMおよびグレイスケールGSの各々に対するタップ操作を行うことで、合成対象の音声に込める感情を指定することができる。カラーマップCMおよびグレイスケールGSの各々に対する操作によっても、テキストの先頭を原点とする時間軸に沿った感情の連続的な時間変化(感情の起伏)を指定することができる。
 指定受付ステップSB100に後続する音声合成ステップSB110では、制御部10は、第2の評価ステップSA150にて適切と評価された第2の生成ネットワークを用いて、指定受付ステップSB100にて受け付けた固定設定および流動設定に対応する音声を合成する。より詳細に説明すると、制御部10は、上記第2の生成ネットワークを、指定受付ステップSB100にて受け付けた各設定に対応するボコーダとして用い、指定受付ステップSB100にて受け付けた各設定の値をパラメータとして該当するボコーダに与え、図12に示すようにこれらボコーダを順次作動させて、音声を合成し音声入出力部230のスピーカから放音する。図12には、性別ボコーダ、年齢ボコーダ、身長・体重ボコーダ、テキストボコーダ、感情ボコーダおよびアクセントボコーダをこの順に作動させて、最終結果の音声を合成する場合について例示されている。
 以上説明したように、本実施形態の音声処理装置1によれば、発音者の固定設定を加味しつつ感情のこもった音声を合成するための第2の生成ネットワークを生成することが可能になり、当該第2の生成ネットワークを用いて音声を合成することで、発音者の固定設定を加味しつつ感情のこもった音声を合成することが可能になる。
 以上、本発明の一実施形態について説明したが、上記実施形態に以下の変形を加えて勿論よい。
(1)上記実施形態では、性別、年齢・・・アクセントの各ボコーダを順次作動させて音声を生成したが、各ボコーダを作動させる順序を入れ替えてもよい。但し、性別、年齢、体重、およびアクセントといった固定設定に関するボコーダを作動させた後に、流動設定に関するボコーダを作動させることが好ましい。
(2)上記実施形態では、スマートフォンにおける音声出力アプリケーションへの本発明の適用例を説明したが、コンピュータゲームやアニメーションにおけるキャラクタの音声の生成に本発明を適用してもよく、また、電話応答など音声対話システムにおける対話音声の生成に本発明を適用してもよい。
(3)上記実施形態では、音声処理装置1の不揮発性記憶部320に、本発明の特徴を顕著に示す生成ネットワーク生成処理および音声合成処理を制御部10に実行させるプログラム(音声処理プログラム322)が予め記憶されていた。しかし、上記プログラムを単体で製造・販売してもよい。上記プログラムを単体で製造・販売する態様の具体例としては、フラッシュROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様やインターネットなどの電気通信回線経由のダウンロードにより上記プログラムを配布する態様が挙げられる。これらの態様により配布されるプログラムをスマートフォンやパーソナルコンピュータ、タブレット端末等のコンピュータ(CPU)を有する情報端末にインストールし、その情報端末のコンピュータを当該インストールされたプログラムにしたがって作動させることで、一般的な情報端末を本発明の音声処理装置として機能させることが可能になるからである。
(4)上記実施形態の音声処理装置1は、ユーザインタフェース部20を構成要素として含んでいたが、ユーザインタフェース部20はUSBケーブルなどの通信線、或いはインターネットなどの電気通信回線を介して制御部10とデータ授受が可能な外部要素であってもよく、記憶部30についても同様に通信線、或いはインターネットなどの電気通信回線を介して制御部10とデータ授受が可能な外部要素であってもよい。要は、本発明の音声処理装置は、生成ネットワーク生成処理および音声合成処理を実行する制御部10を有していればよい。
(5)上記実施形態の生成ネットワーク生成処理は、ノイズ除去ステップSA130を含んでいたが、ノイズの影響よりも処理負荷の軽さが優先される場合には、ノイズ除去ステップSA130を省略してもよい。要は、本発明の生成ネットワークには、抽出ステップSA100、第1の生成ステップSA110、第1の評価ステップSA120,第2の生成ステップSA140および第2の評価ステップSA150が含まれていればよい。
(6)上記実施形態の音声処理装置1は、生成ネットワーク生成処理と音声合成処理とを実行したが、前者の処理のみを実行する音声処理装置を提供してもよい。また、生成ネットワーク生成処理に含まれる各ステップおよび音声合成処理に含まれる各ステップを実行する手段を電子回路等のハードウェアで構成し、それら各手段を組み合わせて音声処理装置1を構成してもよい。例えば、抽出ステップSA100の処理を実行する抽出手段、第1の生成ステップSA110の処理を実行する第1の生成手段、第1の評価ステップSA120の処理を実行する第1の評価手段、第2の生成ステップSA140の処理を実行する第2の生成手段、および第2の評価ステップSA150の処理を実行する第2の評価手段の各々を電子回路で構成し、これら各手段を組み合わせて本発明の音声処理装置を構成してもよい。また、指定受付ステップSB100の処理を実行する指定受付手段、および音声合成ステップSB110の処理を実行する音声合成手段の各手段を電子回路で構成に、これら各手段をさらに組み合わせて音声処理装置を構成してもよい。
 1…音声処理装置、10…制御部、20…UI部,210…表示部、220…操作部、230…音声入出力部、240…撮像部、30…記憶部、310…揮発性記憶部、320…不揮発性記憶部、322…音声処理プログラム、40…バス。

Claims (7)

  1.  発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出手段と、
     前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成手段と、
     各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価手段と、
     前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価手段により適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成手段と、
     前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価手段と、
     を有することを特徴とする音声処理装置。
  2.  合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付手段と、
     前記第2の評価手段により適切と評価された前記第2の生成ネットワークを用いて、前記指定受付手段に対して指定された固定設定および流動設定に対応する音声を合成する音声合成手段と、
     を有することを特徴とする請求項1に記載の音声処理装置。
  3.  前記指定受付手段は、感情毎に異なる色を対応付けたカラーマップを表示装置に表示し、色の指定により、合成対象の音声に込める感情をユーザに指定させることを特徴とする請求項2に記載の音声処理装置。
  4.  前記指定受付手段は、感情を示す情報の指定を、テキストの文字列長が長いほど多く受け付けることを特徴とする請求項2または請求項3に記載の音声処理装置。
  5.  前記第2の生成手段は、
     前記複数種の固定設定および前記複数種の流動設定の設定毎に前記第2の生成ネットワークを生成するシングルネットワーク生成手段と、
     前記複数種の固定設定および前記複数種の流動設定のうちの少なくとも1つの設定を除いた複数個の設定の組み合わせ毎に、前記複数個の設定の各々が他の設定に影響を与えないように前記第2の生成ネットワークを生成するマルチネットワーク生成手段と、
     前記複数種の固定設定および前記複数種の流動設定の各々が他の設定影響を与えないように前記第2のネットワークを生成するオールネットワーク生成手段と、を含む
     ことを特徴とする請求項1~4の何れか1項に記載の音声処理装置。
  6.  コンピュータに、
     発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出ステップと、
     前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成ステップと、
     各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価ステップと、
     前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価ステップにて適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成ステップと、
     前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価ステップと、
     を実行させることを特徴とするプログラム。
  7.  前記コンピュータに、
     合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付ステップと、
     前記第2の評価ステップにて適切と評価された前記第2の生成ネットワークを用いて、前記指定受付ステップにて受け付けた固定設定および流動設定に対応する音声を合成する音声合成ステップと、
     を実行させることを特徴とする請求項5に記載のプログラム。
PCT/JP2018/040062 2018-10-29 2018-10-29 音声処理装置、およびプログラム WO2020089961A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/759,817 US10964308B2 (en) 2018-10-29 2018-10-29 Speech processing apparatus, and program
PCT/JP2018/040062 WO2020089961A1 (ja) 2018-10-29 2018-10-29 音声処理装置、およびプログラム
JP2019527925A JP6582157B1 (ja) 2018-10-29 2018-10-29 音声処理装置、およびプログラム
EP18937532.2A EP3693957A4 (en) 2018-10-29 2018-10-29 VOICE PROCESSING DEVICE AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/040062 WO2020089961A1 (ja) 2018-10-29 2018-10-29 音声処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020089961A1 true WO2020089961A1 (ja) 2020-05-07

Family

ID=68053529

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040062 WO2020089961A1 (ja) 2018-10-29 2018-10-29 音声処理装置、およびプログラム

Country Status (4)

Country Link
US (1) US10964308B2 (ja)
EP (1) EP3693957A4 (ja)
JP (1) JP6582157B1 (ja)
WO (1) WO2020089961A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553595A (ja) 1991-08-29 1993-03-05 Canon Inc 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2017058411A (ja) * 2015-09-14 2017-03-23 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2018168427A1 (ja) * 2017-03-13 2018-09-20 ソニー株式会社 学習装置、学習方法、音声合成装置、音声合成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
JP2012003326A (ja) * 2010-06-14 2012-01-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US9094576B1 (en) * 2013-03-12 2015-07-28 Amazon Technologies, Inc. Rendered audiovisual communication
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
JPWO2017168870A1 (ja) * 2016-03-28 2019-02-07 ソニー株式会社 情報処理装置及び情報処理方法
US10586079B2 (en) * 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
US10740391B2 (en) * 2017-04-03 2020-08-11 Wipro Limited System and method for generation of human like video response for user queries
US10614826B2 (en) * 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553595A (ja) 1991-08-29 1993-03-05 Canon Inc 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2017058411A (ja) * 2015-09-14 2017-03-23 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2018168427A1 (ja) * 2017-03-13 2018-09-20 ソニー株式会社 学習装置、学習方法、音声合成装置、音声合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3693957A4 *

Also Published As

Publication number Publication date
JPWO2020089961A1 (ja) 2021-02-15
US10964308B2 (en) 2021-03-30
EP3693957A4 (en) 2021-06-02
EP3693957A1 (en) 2020-08-12
JP6582157B1 (ja) 2019-09-25
US20210027760A1 (en) 2021-01-28

Similar Documents

Publication Publication Date Title
CN110941954B (zh) 文本播报方法、装置、电子设备及存储介质
CN110136692B (zh) 语音合成方法、装置、设备及存储介质
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
JP6336676B2 (ja) 顔構造に基づいて声を合成する方法および装置
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN111508511A (zh) 实时变声方法及装置
CN111583944A (zh) 变声方法及装置
CN112652041B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN109819167B (zh) 一种图像处理方法、装置和移动终端
CN109801618A (zh) 一种音频信息的生成方法和装置
WO2018079332A1 (ja) 情報処理装置及び情報処理方法
CN107871494A (zh) 一种语音合成的方法、装置及电子设备
CN112669846A (zh) 交互系统、方法、装置、电子设备及存储介质
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
WO2020089961A1 (ja) 音声処理装置、およびプログラム
CN110139021B (zh) 辅助拍摄方法及终端设备
WO2020221089A1 (zh) 通话界面的显示方法、电子设备和计算机可读介质
JP6730651B1 (ja) 音声変換装置、音声変換システム及びプログラム
CN111091807B (zh) 语音合成方法、装置、计算机设备及存储介质
US20230317054A1 (en) Face image processing system, face image generation information providing apparatus, face image generation information providing method, and face image generation information providing program
CN114708849A (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
CN113656635A (zh) 视频彩铃合成方法、装置、设备及计算机可读存储介质
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム
JP6457700B2 (ja) 表示制御システム、表示制御方法及び表示制御プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019527925

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2018937532

Country of ref document: EP

Effective date: 20200507

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18937532

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE