WO2023238341A1 - 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム - Google Patents

音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム Download PDF

Info

Publication number
WO2023238341A1
WO2023238341A1 PCT/JP2022/023345 JP2022023345W WO2023238341A1 WO 2023238341 A1 WO2023238341 A1 WO 2023238341A1 JP 2022023345 W JP2022023345 W JP 2022023345W WO 2023238341 A1 WO2023238341 A1 WO 2023238341A1
Authority
WO
WIPO (PCT)
Prior art keywords
response sentence
dialogue
voice response
voice
text
Prior art date
Application number
PCT/JP2022/023345
Other languages
English (en)
French (fr)
Inventor
健一 藤田
勇祐 井島
浩之 戸田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/023345 priority Critical patent/WO2023238341A1/ja
Publication of WO2023238341A1 publication Critical patent/WO2023238341A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to a voice response sentence learning method, a voice response sentence generation method, a voice response sentence learning device, a voice response sentence generation device, and a program.
  • Non-Patent Document 1 a DNN model that generates a response sentence has been proposed (for example, Non-Patent Document 1).
  • a voice response sentence is generated by converting the response sentence output from this model into a voice using speech synthesis.
  • the present invention has been made in view of the above points, and an object of the present invention is to make it possible to generate response sentences with natural vocal expressions.
  • a computer executes a learning procedure for learning a model that outputs a voice response sentence and a text response sentence using the history as input.
  • FIG. 2 is a diagram illustrating an example of the functional configuration of the voice response sentence generation device 10 during learning of a dialogue generation model in the first embodiment.
  • FIG. 2 is a diagram showing an example of the functional configuration of the voice response sentence generation device 10 when generating a response sentence in the first embodiment.
  • FIG. 2 is a flowchart for explaining an example of a processing procedure executed by the voice response sentence generation device 10 when generating a response sentence in the first embodiment.
  • FIG. 7 is a diagram showing an example of the functional configuration of the voice response sentence generation device 10 during learning of a dialogue generation model in the second embodiment.
  • 12 is a flowchart for explaining an example of a processing procedure executed by the voice response sentence generation device 10 during pre-learning of a dialogue generation model in the second embodiment.
  • a large amount of learning data consisting of a text history of one or more past utterances (dialogue context), text responses to the dialogue context, and voice response sentences is prepared, and the text corresponding to the dialogue context is learned.
  • a DNN model (hereinafter referred to as a "dialogue generation model") that simultaneously generates response sentences and voice response sentences is trained.
  • the response sentence is a sentence indicating a response to the last utterance in the history of utterances included in the dialogue context.
  • text response sentences are converted into discretized text response sentences
  • audio response sentences are converted into acoustic features
  • the acoustic features are then quantized into response sentences (quantized). acoustic features).
  • a dialogue generation model is learned by fine-tuning a model whose input and output are text and a speech generation network added. The reason why acoustic features, which are originally continuous values, are quantized during learning is to match the fact that the text model for fine tuning outputs a quantized dictionary number sequence. In this embodiment, learning of a dialogue generation model and generation of a response sentence by fine tuning using quantized acoustic features will be described.
  • FIG. 1 is a diagram showing an example of the hardware configuration of a voice response sentence generation device 10 according to the first embodiment.
  • the voice response sentence generation device 10 in FIG. 1 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a processor 104, an interface device 105, etc., which are interconnected via a bus B.
  • a program that realizes the processing in the voice response sentence generation device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
  • the program does not necessarily need to be installed from the recording medium 101, and may be downloaded from another computer via a network.
  • the auxiliary storage device 102 stores installed programs as well as necessary files, data, and the like.
  • the memory device 103 reads and stores the program from the auxiliary storage device 102 when there is an instruction to start the program.
  • the processor 104 is a CPU, a GPU (Graphics Processing Unit), or a CPU and a GPU, and executes functions related to the voice response sentence generation device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 2 is a diagram showing an example of the functional configuration of the voice response sentence generation device 10 during learning of the dialogue generation model in the first embodiment.
  • the voice response sentence generation device 10 inputs the learning dialogue data and outputs (the learning parameters of) the learned dialogue generation model.
  • the learning dialogue data is data consisting of a pair of a dialogue context and a spoken response sentence (response sentence (voice)) to the dialogue context.
  • response sentence voice
  • the response sentence is preferably a response sentence recorded in an actual conversation that is the source of the conversation context.
  • a dialogue context is a character string in which one or more past utterances in a dialogue are concatenated together with a separator such as [SEP] and speaker information such as [SPK1].
  • FIG. 3 shows an example of a dialogue context.
  • a dialogue generation model is a neural network that generates a response sentence (speech) (response utterance) corresponding to a dialogue context using text and audio.
  • the voice response sentence generation device 10 In order to learn a dialogue generation model using such training dialogue data as input, the voice response sentence generation device 10, as shown in FIG. 12, a speech-to-text conversion unit 13 and a dialogue generation model learning unit 14. Each of these units is realized by processing executed by the processor 104 by one or more programs installed in the voice response sentence generation device 10.
  • the speech-to-text conversion unit 13 converts the response sentence (voice) included in the learning dialogue data into text, and generates a text response sentence (response sentence (text)).
  • the text may be converted using known speech recognition.
  • the response sentence (text) may be generated by manual transcription.
  • the response sentence (text) may also be included in the learning dialogue data.
  • the text discretization unit 11 generates discretized dialogue context information by converting the dialogue context included in the learning dialogue data into an expression (discrete expression) that can be used by the dialogue generation model learning unit 14.
  • the text discretization unit 11 also generates a discretized response sentence (text) by converting the response sentence (text) corresponding to the dialogue context (the response sentence generated by the speech-to-text conversion unit 13) into a discrete expression. .
  • One method of discretization is to tokenize a text using SentencePiece or the like based on the frequency of occurrence in a sentence, etc., using a character or multiple consecutive characters, and then discretize it using the dictionary number corresponding to the token. . For example, if the correspondence of ⁇ token, dictionary number ⁇ is ⁇ rice, 1 ⁇ , ⁇ eat, 2 ⁇ , ⁇ wo, 3 ⁇ , ⁇ masu, 4 ⁇ , then "I eat rice" is "1 3". 24''. As a result, a discretized dialogue context and a discretized response sentence (text) are obtained.
  • SentencePiece is based on “Kudo, Taku, and John Richardson., SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing., Proceedings of the 2018 Conference on Empirical Methods in Natural Language age Processing: System Demonstrations. 2018” I am familiar with
  • the audio-quantized acoustic feature conversion unit 12 converts the audio signal of the response sentence (voice) included in the learning dialogue data into an acoustic feature, and converts the obtained acoustic feature into a quantized acoustic feature. Convert to a series of cluster numbers as .
  • the acoustic feature refers to a spectral parameter such as a mel spectrogram obtained as a result of signal processing on an audio signal.
  • the quantized acoustic feature is a series used for the output of the dialogue generation model, and refers to data that expresses the acoustic feature, which is originally a continuous value, as a series of vectors of a certain dimension. Quantized acoustic features are obtained by checking which cluster each vector belongs to among N clusters obtained in advance by clustering (using the LBG method, etc.) and replacing it with a series of cluster numbers. It will be done. During learning, instead of directly estimating the acoustic features of the response sentence (speech), this series of cluster numbers is estimated.
  • the LBG method is detailed in "Linde, Y.; Buzo, A.; Gray, R., An Algorithm for Vector Quantizer Design., IEEE Transactions on Communications., 1980.”
  • the dialogue generation model learning unit 14 uses a dialogue context, a response sentence (voice), and a response sentence (text) to learn a dialogue generation model that is a neural network that generates a response sentence corresponding to the dialogue context in text and voice. .
  • FIG. 4 is a flowchart for explaining an example of the processing procedure executed by the voice response sentence generation device 10 during learning of the dialogue generation model in the first embodiment.
  • a processing procedure regarding one data out of a plurality of data (dialogue context, response sentence (speech) set) included in the learning dialogue data is executed. Therefore, in reality, the processing procedure described in FIG. 4 is executed for a plurality of pieces of data.
  • step S101 the text discretization unit 11 converts the dialogue context included in the learning dialogue data into a representation (discrete representation) that can be used by the dialogue generation model learning unit 14, thereby providing discretized dialogue context information. generate.
  • the speech-quantized acoustic feature conversion unit 12 converts the response sentence (voice) included in the learning dialogue data into an acoustic feature, and further converts the acoustic feature into a quantized acoustic feature. (S102).
  • the speech-to-text conversion unit 13 converts the response sentence (voice) included in the learning dialogue data into text to generate a response sentence (text) (S103).
  • the text discretization unit 11 converts the response sentence (text) generated by the speech-to-text conversion unit 13 into an expression (discrete expression) that can be used by the dialogue generation model learning unit 14, thereby converting the response sentence (text) into a discretized response sentence ( text) is generated (S104).
  • the dialogue generation model learning unit 14 learns a dialogue generation model using the discretized dialogue context information, the quantized acoustic features, and the discretized response sentence (text) (S105). Specifically, the dialogue generation model learning unit 14 inputs the discretized dialogue context information to a neural network, and calculates the error ( The parameters of the neural network are updated so that the loss) is reduced. Since the neural network has different input and output lengths, an encoder-decoder type network such as a Transformer is used. In addition, two decoders are used to perform multitask learning.
  • FIG. 5 is a diagram showing an example of the functional configuration of the voice response sentence generation device 10 when generating a response sentence in the first embodiment.
  • the same parts as in FIG. 2 are denoted by the same reference numerals, and the explanation thereof will be omitted.
  • the voice response sentence generation device 10 uses the learned dialogue generation model to generate a response sentence (voice) corresponding to the input dialogue context.
  • the voice response sentence generation device 10 includes a text discretization unit 11, a response sentence generation unit 15, and a quantum It has an acoustic feature-to-speech conversion section 16. Each of these units is realized by processing executed by the processor 104 by one or more programs installed in the voice response sentence generation device 10.
  • the response sentence generation unit 15 inputs discretized input dialogue context information generated by converting the input dialogue context by the text discretization unit 11, and uses a learned dialogue generation model to correspond to the input dialogue context.
  • a discretized response sentence (text) and a response sentence (quantized acoustic feature amount) are generated.
  • the quantized acoustic feature-speech conversion unit 16 converts the acoustic feature by rearranging the acoustic feature vectors corresponding to each cluster number from the series of cluster numbers as a response sentence (quantized acoustic feature). Get the series.
  • the quantized acoustic feature amount-speech conversion unit 16 further obtains synthesized speech by generating a speech waveform from the obtained acoustic feature amount.
  • the technology disclosed in "Kong, Zhifeng, et al., Diffwave: A versatile diffusion model for audio synthesis., 2020" may be used to generate the audio waveform.
  • voice response sentence generation device 10 during learning (FIG. 2) and the voice response sentence generation device 10 during response sentence generation may be realized by separate computers.
  • FIG. 6 is a flowchart for explaining an example of the processing procedure executed by the voice response sentence generation device 10 when generating a response sentence in the first embodiment.
  • step S201 the text discretization unit 11 generates discretized input dialogue context information by converting the input dialogue context into a representation (discrete representation) that can be input to the dialogue generation model.
  • the response sentence generation unit 15 uses the trained dialogue generation model to generate a response sentence (quantized acoustic feature amount) corresponding to the discretized input dialogue context information generated by the text discretization unit 11 ( S202). Specifically, the response sentence generation unit 15 inputs the discretized input dialogue context information to the trained dialogue generation model. The dialogue generation model outputs a response sentence (quantized acoustic feature amount) corresponding to the discretized input dialogue context information. Note that at this time, the dialogue generation model also outputs a discretized response sentence (text).
  • the quantized acoustic feature amount-speech conversion unit 16 converts the response sentence (quantized acoustic feature amount) into a speech waveform (S203). As a result, the voice of the response sentence (response sentence (voice)) corresponding to the input dialogue context information is obtained.
  • a text sequence and a sequence based on acoustic features are used as outputs of a dialogue generation model, and generation of a text response sentence and speech generation that does not directly go through the text are performed. done at the same time. Therefore, it is possible to generate response sentences with natural vocal expressions, and depending on the context of the dialogue, it is possible to generate more expressive voices that include hesitation expressions that are unique to spoken language. .
  • a text dialogue context and a corresponding audio response sentence are used in learning the dialogue generation model.
  • a corresponding audio response sentence response sentence (voice)
  • voice response sentence
  • a large amount of training data is required to improve the quality of dialogue generation models.
  • pair data of a text interaction context and a response sentence (text) that can be obtained relatively easily is prepared, and the response sentence (text) is An example of converting it into a voice using voice synthesis and using it will be explained.
  • a dialogue generation model is created using paired data of a dialogue context and a response sentence (text) to which a response sentence (speech) obtained using speech synthesis is added.
  • pre-learning learning
  • the trained dialogue generation model is fine-tuned using response sentences (voices) of actual dialogue voices, as in the first embodiment. Learn.
  • the second embodiment differs from the first embodiment in that prior learning is performed.
  • FIG. 7 is a diagram showing an example of the functional configuration of the voice response sentence generation device 10 during pre-learning of a dialogue generation model in the second embodiment.
  • the same parts as in FIG. 2 are denoted by the same reference numerals, and the explanation thereof will be omitted.
  • the learning dialogue data in the second embodiment is pair data of a text dialogue context and a response sentence (text). Therefore, in FIG. 7, the voice response sentence generation device 10 does not include the voice-to-text converter 13 that was necessary to generate a response sentence (text).
  • the voice response sentence generation device 10 performs text-to-speech conversion instead of the voice-quantized acoustic feature converter 12. 17 and an acoustic feature-quantized acoustic feature conversion section 18.
  • FIG. 8 is a flowchart for explaining an example of the processing procedure executed by the voice response sentence generation device 10 during learning of the dialogue generation model in the second embodiment.
  • steps that are the same as those in FIG. 4 are given the same step numbers, and their explanations will be omitted.
  • steps S102 and S103 are replaced with S102a and S103a.
  • step S102a the text-to-speech converter 17 converts the response sentence (text) included in the learning dialogue data into a response sentence (acoustic feature) that is an acoustic feature series. Conversion from a response sentence (text) to a response sentence (acoustic feature amount) can be performed using, for example, a speech synthesis method such as Transformer TTS. This speech synthesis method is detailed in “Li, Naihan, et al., Neural speech synthesis with transformer network.” Proceedings of the AAAI Conference on Artificial Intelligence., 2019.
  • the acoustic feature-quantized acoustic feature conversion unit 18 transforms the response sentence (acoustic feature) generated by the text-speech conversion unit 17 into a response sentence (quantized acoustic feature) that is a series of cluster numbers. ). Conversion into a response sentence (quantized acoustic feature) is performed in the first embodiment by the speech-quantized acoustic feature conversion unit 12 converting the acoustic feature obtained from the speech into a clustering number series (response sentence (quantized acoustic feature). This can be done in the same way as converting to acoustic features)).
  • step S104 the response sentence (text) included in the learning dialogue data is targeted for conversion.
  • the dialog generation model that has been trained through preliminary learning is fine-tuned.
  • the voice response sentence generation device 10 is an example of a voice response sentence generation device and a voice response sentence generation learning device.
  • Voice response sentence generation device 11 Text discretization unit 12 Speech-quantized acoustic feature conversion unit 13 Speech-to-text conversion unit 14 Dialogue generation model learning unit 15 Response sentence generation unit 16 Quantized acoustic feature-speech conversion unit 17 Text- Audio conversion section 18 Acoustic feature amount - quantized acoustic feature amount conversion section 100 Drive device 101 Recording medium 102 Auxiliary storage device 103 Memory device 104 Processor 105 Interface device B bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、をコンピュータが実行することで、自然な音声表現の応答文を生成可能とする。

Description

音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム
 本発明は、音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラムに関する。
 過去の1以上の発話のテキストによる履歴(対話コンテキスト)を入力とし、対話コンテキストにおける最後の発話に対する応答文を生成する技術に関する対話生成の分野では、多量の対話ペアを用いてテキストの対話コンテキストに対して、応答文を生成するDNNモデルが提案されている(例えば、非特許文献1)。また、このモデルの出力の応答文を音声合成を用いて音声化することで、音声の応答文生成が行われている。
Roller, Stephen, et al. :Recipes for Building an Open-Domain Chatbot., the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021
 従来の音声の応答文生成では、対話モデルが生成したテキストの応答文に対して音声合成が行われて当該応答文の音声が生成される。しかし、途中でテキスト化を挟むことで、自然な応答文の生成に必要なテキストの系列から得られる話し方の情報が欠落してしまう。したがって、対話のコンテキストに対応した話し言葉特有の言いよどみ表現を含むような十分に自然な音声表現を生成することは困難である。
 本発明は、上記の点に鑑みてなされたものであって、自然な音声表現の応答文を生成可能とすることを目的とする。
 そこで上記課題を解決するため、対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、をコンピュータが実行する。
 自然な音声表現の応答文を生成可能とすることができる。
第1の実施の形態における音声応答文生成装置10のハードウェア構成例を示す図である。 第1の実施の形態における対話生成モデルの学習時の音声応答文生成装置10の機能構成例を示す図である。 対話コンテキストの一例を示す図である。 第1の実施の形態における対話生成モデルの学習時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。 第1の実施の形態における応答文の生成時の音声応答文生成装置10の機能構成例を示す図である。 第1の実施の形態における応答文の生成時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。 第2の実施の形態における対話生成モデルの学習時の音声応答文生成装置10の機能構成例を示す図である。 第2の実施の形態における対話生成モデルの事前学習時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。
 本実施の形態では、過去の1以上の発話のテキストによる履歴(対話コンテキスト)と対話コンテキストに対するテキストの応答文及び音声の応答文からなる多数の学習データを用意し、対話コンテキストに対応するテキストの応答文と音声の応答文とを同時に生成するDNNモデル(以下、「対話生成モデル」という。)の学習を行う。なお、応答文とは、対話コンテキストが含む発話の履歴における最後の発話に対する応答を示す文をいう。対話生成モデルの学習を行う際に、テキストの応答文も同時に生成するような学習を補助的に行うことで、音声の応答文の生成の学習を簡単にする。対話生成モデルへの入力は離散化したテキストの対話コンテキストを用いる。対話生成モデルの出力のうちテキストの応答文については離散化したテキストの応答文へ変換し、音声の応答文については音響特徴量へ変換し、更に当該音響特徴量を量子化した応答文(量子化音響特徴量)を利用する。対話生成モデルは、入出力がテキストであるモデルに音声生成用のネットワークを追加したモデルに対してファインチューニングを行うことで学習される。学習の際に本来は連続値である音響特徴量を量子化するのは、ファインチューニングを行うテキストのモデルが量子化された辞書番号系列を出力としていることと合わせるためである。本実施の形態では、量子化音響特徴量を用いたファインチューニングによる対話生成モデルの学習及び応答文の生成を説明する。
 以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態における音声応答文生成装置10のハードウェア構成例を示す図である。図1の音声応答文生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
 音声応答文生成装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って音声応答文生成装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図2は、第1の実施の形態における対話生成モデルの学習時の音声応答文生成装置10の機能構成例を示す図である。対話生成モデルの学習時において、音声応答文生成装置10は、学習用対話データを入力とし、学習済みの対話生成モデル(の学習用パラメータ)を出力とする。
 学習用対話データは、対話コンテキスト、及び当該対話コンテキストに対する音声による応答文(応答文(音声))のペアからなるデータである。十分に自然な対話を学習するためにペア数は数10万以上であることが望ましい。また、応答文(音声)は、対話コンテキストの元となる実際の対話において録音された応答文であることが望ましい。
 対話コンテキストとは、対話における過去の1以上の発話を[SEP]などのセパレータ、[SPK1]などの話者情報を付加して連結させた文字列である。図3に、対話コンテキストの一例を示す。
 対話生成モデルとは、対話コンテキストに対応する応答文(音声)(応答発話)をテキストと音声で生成するニューラルネットワークである。
 このような学習用対話データを入力として対話生成モデルを学習するために、音声応答文生成装置10は、図2に示されるように、テキスト離散化部11、音声-量子化音響特徴量変換部12、音声テキスト化部13及び対話生成モデル学習部14を有する。これら各部は、音声応答文生成装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
 音声テキスト化部13は、学習用対話データに含まれている応答文(音声)をテキスト化して、テキストによる応答文(応答文(テキスト))を生成する。テキスト化は、公知の音声認識を用いて行われてもよい。又は、人手による書き起こしによって応答文(テキスト)が生成されてもよい。この場合、応答文(テキスト)も、学習用対話データに含まれてもよい。
 テキスト離散化部11は、学習用対話データに含まれている対話コンテキストを対話生成モデル学習部14で使用可能な表現(離散表現)へ変換することで、離散化対話コンテキスト情報を生成する。テキスト離散化部11は、また、対話コンテキストに対応する応答文(テキスト)(音声テキスト化部13により生成される応答文)を離散表現へ変換することで離散化応答文(テキスト)を生成する。
 離散化を行う方法の1つはテキストに対してSentencePieceなどで文章における出現頻度などに基づいて文字や複数の連続する文字でトークン化を行い、トークンに対応する辞書番号により離散化する方法がある。例えば、{トークン,辞書番号}の対応関係が、{ごはん,1}、{食べ,2}、{を,3}、{ます,4}である場合、「ごはんを食べます」は「1 3 2 4」のような数列に離散化される。これにより離散化対話コンテキスト、離散化応答文(テキスト)が得られる。なお、SentencePieceは、「Kudo, Taku, and John Richardson., SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing., Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018」に詳しい。
 音声-量子化音響特徴量変換部12は、学習用対話データに含まれている応答文(音声)の音声信号を、音響特徴量へ変換し、得られた音響特徴量を量子化音響特徴量としてのクラスタ番号の系列へ変換する。
 音響特徴量とは、音声信号に対して信号処理を行った結果得られるメルスペクトログラムなどのスペクトルパラメータのことをいう。
 量子化音響特徴量とは、対話生成モデルの出力に使用する系列であり、本来は連続値である音響特徴量を或る一定の次元のベクトルが並んだ系列として表現するデータをいう。それぞれのベクトルが予めクラスタリング(LBG法などを用いる)によって得られているN個のクラスタのうち何番目のクラスタに属するかを調べ、クラスタの番号の系列へ置き換えることで量子化音響特徴量が得られる。学習の際には応答文(音声)の音響特徴量を直接推定するのではなく、このクラスタ番号の系列の推定を行う。なお、LBG法については、「Linde, Y.; Buzo, A.; Gray, R., An Algorithm for Vector Quantizer Design., IEEE Transactions on Communications., 1980」に詳しい。
 対話生成モデル学習部14は、対話コンテキスト、応答文(音声)及び応答文(テキスト)を用いて、対話コンテキストに対応する応答文をテキスト及び音声で生成するニューラルネットワークである対話生成モデルを学習する。
 以下、第1の実施の形態において対話生成モデルの学習時に音声応答文生成装置10が実行する処理手順について説明する。図4は、第1の実施の形態における対話生成モデルの学習時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。図4では、学習用対話データに含まれる複数のデータ(対話コンテキスト、応答文(音声)の組)のうちの1つのデータに関する処理手順を実行する。したがって、実際には、図4において説明する処理手順が複数のデータについて実行される。
 ステップS101において、テキスト離散化部11は、学習用対話データに含まれている対話コンテキストを、対話生成モデル学習部14で使用可能な表現(離散表現)へ変換することで、離散化対話コンテキスト情報を生成する。
 続いて、音声-量子化音響特徴量変換部12は、学習用対話データに含まれている応答文(音声)を音響特徴量へと変換し、更に、当該音響特徴量を量子化音響特徴量へ変換する(S102)。
 続いて、音声テキスト化部13は、学習用対話データに含まれている応答文(音声)をテキスト化し応答文(テキスト)を生成する(S103)。
 続いて、テキスト離散化部11は、音声テキスト化部13が生成した応答文(テキスト)を対話生成モデル学習部14で使用可能な表現(離散表現)へ変換することで、離散化応答文(テキスト)を生成する(S104)。
 続いて、対話生成モデル学習部14は、離散化対話コンテキスト情報、量子化音響特徴量及び離散化応答文(テキスト)を用いて対話生成モデルを学習する(S105)。具体的には、対話生成モデル学習部14は、離散化対話コンテキスト情報をニューラルネットワークへの入力とし、当該ニューラルネットワークからの出力と量子化音響特徴量及び離散化応答文(テキスト)との誤差(損失)が小さくなるように、当該ニューラルネットワークのパラメータを更新する。当該ニューラルネットワークは入力と出力の長さが異なるためTransformerなどのencoder-decoder型のネットワークを用いる。また、マルチタスク学習を行うためにdecoderを2つ用いる。
 なお、Transformerについては、「Zhou, Shuyan, et al. "Improving robustness of neural machine translation with multi-task learning." Proceedings of the Fourth Conference on Machine Translation. 2019」に詳しい。また、マルチタスク学習を行うためにdecoderを2つ用いる構成については、「Li, Naihan, et al. ,Neural speech synthesis with transformer network." Proceedings of the AAAI Conference on Artificial Intelligence., 2019」に詳しい。
 続いて、応答文の生成時について説明する。図5は、第1の実施の形態における応答文の生成時の音声応答文生成装置10の機能構成例を示す図である。図5中、図2と同一部分には同一符号を付し、その説明は省略する。応答文の生成時において、音声応答文生成装置10は、学習済みの対話生成モデルを利用して、入力された対話コンテキストに対応する応答文(音声)の生成を行う。
 入力される対話コンテキスト(入力対話コンテキスト)に対応する応答文を生成するために、音声応答文生成装置10は、図5に示されるように、テキスト離散化部11、応答文生成部15及び量子化音響特徴量-音声変換部16を有する。これら各部は、音声応答文生成装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
 応答文生成部15は、入力の対話コンテキストがテキスト離散化部11によって変換されることで生成される離散化入力対話コンテキスト情報を入力とし、学習済みの対話生成モデルを用いて入力対話コンテキストに対応する離散化応答文(テキスト)及び応答文(量子化音響特徴量)を生成する。
 量子化音響特徴量-音声変換部16は、応答文(量子化音響特徴量)としてのクラスタ番号の系列から、それぞれのクラスタ番号に該当する音響特徴量のベクトルを並べ直すことにより音響特徴量の系列を得る。量子化音響特徴量-音声変換部16は、更に、得られた音響特徴量から音声波形生成により合成音声を得る。音声波形生成には、例えば、「Kong, Zhifeng, et al., Diffwave: A versatile diffusion model for audio synthesis., 2020」に開示された技術を用いてもよい。
 なお、学習時の音声応答文生成装置10(図2)と応答文の生成時の音声応答文生成装置10とは別々のコンピュータによって実現されてもよい。
 以下、応答文の生成時に音声応答文生成装置10が実行する処理手順について説明する。図6は、第1の実施の形態における応答文の生成時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS201において、テキスト離散化部11は、入力の対話コンテキストを対話生成モデルに入力可能な表現(離散表現)へ変換することで、離散化入力対話コンテキスト情報を生成する。
 続いて、応答文生成部15は、学習済みの対話生成モデルを用いて、テキスト離散化部11が生成した離散化入力対話コンテキスト情報に対応する応答文(量子化音響特徴量)を生成する(S202)。具体的には、応答文生成部15は、離散化入力対話コンテキスト情報を学習済みの対話生成モデルへ入力する。対話生成モデルは、当該離散化入力対話コンテキスト情報に対応する応答文(量子化音響特徴量)を出力する。なお、この際、対話生成モデルは、離散化応答文(テキスト)も出力する。
 続いて、量子化音響特徴量-音声変換部16は、応答文(量子化音響特徴量)を音声波形に変換する(S203)。これにより入力の対話コンテキスト情報に応じた応答文の音声(応答文(音声))が得られる。
 上述したように、第1の実施の形態によれば、対話生成モデルの出力としてテキストの系列と音響特徴量に基づく系列を用い、テキストの応答文の生成とテキストを直接経ない音声の生成が同時に行われる。したがって、自然な音声表現の応答文を生成可能とすることができ、対話のコンテキストに応じて、特に話し言葉特有の言いよどみ表現を含むような、より表現力豊かな音声を生成することが可能になる。
 また、モデル全体の学習を始めから行うよりは必要なデータを少なくすることができ、計算に必要な時間も短縮することができる。
 次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
 第1の実施の形態では、対話生成モデルの学習においてテキストの対話コンテキストとそれに対応する音声の応答文(応答文(音声))を利用しているが、このようなペアデータを十分な学習を行えるほどに手に入れることが困難である状況も考えられる。一方、対話生成モデルの高品質化には多量の学習データが必要である。
 第2の実施の形態では、このような課題を解決するために、比較的容易に入手可能なテキストの対話コンテキストと応答文(テキスト)のペアデータを準備して、その応答文(テキスト)を音声合成によって音声化して利用する例について説明する。
 具体的には、第2の実施の形態では、まず、対話コンテキストと応答文(テキスト)のペアデータに音声合成を利用して得た応答文(音声)を追加したペアデータで対話生成モデルの学習(以下、「事前学習」という。)を行った後に、学習済みの対話生成モデルに対して第1の実施の形態と同様に実際の対話音声の応答文(音声)を用いたファインチューニングによる学習を行う。これにより、実際の対話音声のデータの量が比較的少量であっても、対話生成モデルの学習を行うことができる。したがって、第2の実施の形態は、事前学習を行う点が第1の実施の形態と異なる。
 図7は、第2の実施の形態における対話生成モデルの事前学習時の音声応答文生成装置10の機能構成例を示す図である。図7中、図2と同一部分には同一符号を付し、その説明は省略する。
 第2の実施の形態における学習用対話データは、テキストの対話コンテキストと応答文(テキスト)のペアデータである。したがって、図7において、音声応答文生成装置10は、応答文(テキスト)を生成するために必要であった音声テキスト化部13を有さない。
 一方、第2の実施の形態における学習用対話データは応答文(音声)を含まないため、音声応答文生成装置10は、音声-量子化音響特徴量変換部12の代わりに、テキスト-音声変換部17及び音響特徴量-量子化音響特徴量変換部18を有する。
 図8は、第2の実施の形態における対話生成モデルの学習時に音声応答文生成装置10が実行する処理手順の一例を説明するためのフローチャートである。図8中、図4と同一ステップには同一ステップ番号を付し、その説明は省略する。
 図8では、ステップS102及びS103がS102a及びS103aに置き換わっている。
 ステップS102aにおいて、テキスト-音声変換部17は、学習用対話データに含まれている応答文(テキスト)を、音響特徴量系列である応答文(音響特徴量)へ変換する。応答文(テキスト)から応答文(音響特徴量)への変換は、例えば、Transformer TTSなどの音声合成手法を用いて行うことができる。斯かる音声合成手法は、「Li, Naihan, et al. ,Neural speech synthesis with transformer network." Proceedings of the AAAI Conference on Artificial Intelligence., 2019」に詳しい。
 続くステップS103aにおいて、音響特徴量-量子化音響特徴量変換部18は、テキスト-音声変換部17が生成した応答文(音響特徴量)をクラスタ番号の系列である応答文(量子化音響特徴量)へ変換する。応答文(量子化音響特徴量)への変換は、第1の実施の形態において、音声-量子化音響特徴量変換部12が、音声から得た音響特徴量をクラスタリング番号系列(応答文(量子化音響特徴量))へ変換したのと同様に行うことができる。
 なお、ステップS104では、学習用対話データに含まれている応答文(テキスト)が変換対象とされる点が第1の実施の形態と異なる。
 その後、第1の実施の形態において説明した学習処理により、事前学習によって学習済みの対話生成モデルがファインチューニングされる。
 音声応答文生成装置10は、音声応答文生成装置及び音声応答文生学習成装置の一例である。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     音声応答文生成装置
11     テキスト離散化部
12     音声-量子化音響特徴量変換部
13     音声テキスト化部
14     対話生成モデル学習部
15     応答文生成部
16     量子化音響特徴量-音声変換部
17     テキスト-音声変換部
18     音響特徴量-量子化音響特徴量変換部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    プロセッサ
105    インタフェース装置
B      バス

Claims (7)

  1.  対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、
    をコンピュータが実行することを特徴とする音声応答文学習方法。
  2.  前記履歴に対応する音声での応答文は、対話において録音された音声での応答文である、
    ことを特徴とする請求項1記載の音声応答文学習方法。
  3.  請求項1又は2記載の学習手順において学習されたモデルを用いて、対話における発話の履歴を入力すると、当該履歴に対応する音声での応答文を生成する生成手順、
    をコンピュータが実行することを特徴とする音声応答文生成方法。
  4.  対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習するように構成されている学習部、
    を有することを特徴とする音声応答文学習装置。
  5.  前記履歴に対応する音声での応答文は、対話において録音された音声での応答文である、
    ことを特徴とする請求項4記載の音声応答文学習装置。
  6.  請求項4又は5記載の学習部によって学習されたモデルを用いて、対話における発話の履歴を入力すると、当該履歴に対応する音声での応答文を生成するように構成されている生成部、
    を有することを特徴とする音声応答文生成装置。
  7.  対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、
     をコンピュータに実行することを特徴とするプログラム。
PCT/JP2022/023345 2022-06-09 2022-06-09 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム WO2023238341A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023345 WO2023238341A1 (ja) 2022-06-09 2022-06-09 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023345 WO2023238341A1 (ja) 2022-06-09 2022-06-09 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2023238341A1 true WO2023238341A1 (ja) 2023-12-14

Family

ID=89117790

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023345 WO2023238341A1 (ja) 2022-06-09 2022-06-09 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

Country Status (1)

Country Link
WO (1) WO2023238341A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018129068A (ja) * 2018-03-16 2018-08-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP2020035482A (ja) * 2017-03-22 2020-03-05 株式会社東芝 検証システム、検証方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035482A (ja) * 2017-03-22 2020-03-05 株式会社東芝 検証システム、検証方法及びプログラム
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP2018129068A (ja) * 2018-03-16 2018-08-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
AU2019395322B2 (en) Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping
Liu et al. Delightfultts: The microsoft speech synthesis system for blizzard challenge 2021
JP4213755B2 (ja) 音声翻訳装置、方法およびプログラム
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
KR20230034423A (ko) 2-레벨 스피치 운율 전송
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
Yanagita et al. Neural iTTS: Toward synthesizing speech in real-time with end-to-end neural text-to-speech framework
US20220293091A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
WO2023238341A1 (ja) 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
JP2014048443A (ja) 音声合成システム、音声合成方法及び音声合成プログラム
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
WO2022046781A1 (en) Reference-fee foreign accent conversion system and method
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
Chiang et al. The Speech Labeling and Modeling Toolkit (SLMTK) Version 1.0
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
WO2023089698A1 (ja) 対話学習装置、応答音声生成装置、対話学習方法、応答音声生成方法およびプログラム
JP7146038B2 (ja) 音声認識システム及び方法
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
US20230018384A1 (en) Two-Level Text-To-Speech Systems Using Synthetic Training Data
Sekizawa et al. Prosody Correction Preserving Speaker Individuality for Chinese-Accented Japanese HMM-Based Text-to-Speech Synthesis
Cai et al. The DKU Speech Synthesis System for 2019 Blizzard Challenge

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22945843

Country of ref document: EP

Kind code of ref document: A1