WO2023238341A1

WO2023238341A1 - 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

Info

Publication number: WO2023238341A1
Application number: PCT/JP2022/023345
Authority: WO
Inventors: 健一藤田; 勇祐井島; 浩之戸田
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-12-14

Abstract

対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、をコンピュータが実行することで、自然な音声表現の応答文を生成可能とする。

Description

音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

　本発明は、音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラムに関する。

　過去の１以上の発話のテキストによる履歴（対話コンテキスト）を入力とし、対話コンテキストにおける最後の発話に対する応答文を生成する技術に関する対話生成の分野では、多量の対話ペアを用いてテキストの対話コンテキストに対して、応答文を生成するＤＮＮモデルが提案されている（例えば、非特許文献１）。また、このモデルの出力の応答文を音声合成を用いて音声化することで、音声の応答文生成が行われている。

Roller, Stephen, et al. :Recipes for Building an Open-Domain Chatbot., the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021

　従来の音声の応答文生成では、対話モデルが生成したテキストの応答文に対して音声合成が行われて当該応答文の音声が生成される。しかし、途中でテキスト化を挟むことで、自然な応答文の生成に必要なテキストの系列から得られる話し方の情報が欠落してしまう。したがって、対話のコンテキストに対応した話し言葉特有の言いよどみ表現を含むような十分に自然な音声表現を生成することは困難である。

　本発明は、上記の点に鑑みてなされたものであって、自然な音声表現の応答文を生成可能とすることを目的とする。

　そこで上記課題を解決するため、対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、をコンピュータが実行する。

　自然な音声表現の応答文を生成可能とすることができる。

第１の実施の形態における音声応答文生成装置１０のハードウェア構成例を示す図である。第１の実施の形態における対話生成モデルの学習時の音声応答文生成装置１０の機能構成例を示す図である。対話コンテキストの一例を示す図である。第１の実施の形態における対話生成モデルの学習時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。第１の実施の形態における応答文の生成時の音声応答文生成装置１０の機能構成例を示す図である。第１の実施の形態における応答文の生成時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。第２の実施の形態における対話生成モデルの学習時の音声応答文生成装置１０の機能構成例を示す図である。第２の実施の形態における対話生成モデルの事前学習時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。

　本実施の形態では、過去の１以上の発話のテキストによる履歴（対話コンテキスト）と対話コンテキストに対するテキストの応答文及び音声の応答文からなる多数の学習データを用意し、対話コンテキストに対応するテキストの応答文と音声の応答文とを同時に生成するＤＮＮモデル（以下、「対話生成モデル」という。）の学習を行う。なお、応答文とは、対話コンテキストが含む発話の履歴における最後の発話に対する応答を示す文をいう。対話生成モデルの学習を行う際に、テキストの応答文も同時に生成するような学習を補助的に行うことで、音声の応答文の生成の学習を簡単にする。対話生成モデルへの入力は離散化したテキストの対話コンテキストを用いる。対話生成モデルの出力のうちテキストの応答文については離散化したテキストの応答文へ変換し、音声の応答文については音響特徴量へ変換し、更に当該音響特徴量を量子化した応答文（量子化音響特徴量）を利用する。対話生成モデルは、入出力がテキストであるモデルに音声生成用のネットワークを追加したモデルに対してファインチューニングを行うことで学習される。学習の際に本来は連続値である音響特徴量を量子化するのは、ファインチューニングを行うテキストのモデルが量子化された辞書番号系列を出力としていることと合わせるためである。本実施の形態では、量子化音響特徴量を用いたファインチューニングによる対話生成モデルの学習及び応答文の生成を説明する。

　以下、図面に基づいて本発明の実施の形態を説明する。図１は、第１の実施の形態における音声応答文生成装置１０のハードウェア構成例を示す図である。図１の音声応答文生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

　音声応答文生成装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って音声応答文生成装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図２は、第１の実施の形態における対話生成モデルの学習時の音声応答文生成装置１０の機能構成例を示す図である。対話生成モデルの学習時において、音声応答文生成装置１０は、学習用対話データを入力とし、学習済みの対話生成モデル（の学習用パラメータ）を出力とする。

　学習用対話データは、対話コンテキスト、及び当該対話コンテキストに対する音声による応答文（応答文（音声））のペアからなるデータである。十分に自然な対話を学習するためにペア数は数１０万以上であることが望ましい。また、応答文（音声）は、対話コンテキストの元となる実際の対話において録音された応答文であることが望ましい。

　対話コンテキストとは、対話における過去の１以上の発話を［ＳＥＰ］などのセパレータ、［ＳＰＫ１］などの話者情報を付加して連結させた文字列である。図３に、対話コンテキストの一例を示す。

　対話生成モデルとは、対話コンテキストに対応する応答文（音声）（応答発話）をテキストと音声で生成するニューラルネットワークである。

　このような学習用対話データを入力として対話生成モデルを学習するために、音声応答文生成装置１０は、図２に示されるように、テキスト離散化部１１、音声－量子化音響特徴量変換部１２、音声テキスト化部１３及び対話生成モデル学習部１４を有する。これら各部は、音声応答文生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

　音声テキスト化部１３は、学習用対話データに含まれている応答文（音声）をテキスト化して、テキストによる応答文（応答文（テキスト））を生成する。テキスト化は、公知の音声認識を用いて行われてもよい。又は、人手による書き起こしによって応答文（テキスト）が生成されてもよい。この場合、応答文（テキスト）も、学習用対話データに含まれてもよい。

　テキスト離散化部１１は、学習用対話データに含まれている対話コンテキストを対話生成モデル学習部１４で使用可能な表現（離散表現）へ変換することで、離散化対話コンテキスト情報を生成する。テキスト離散化部１１は、また、対話コンテキストに対応する応答文（テキスト）（音声テキスト化部１３により生成される応答文）を離散表現へ変換することで離散化応答文（テキスト）を生成する。

　離散化を行う方法の１つはテキストに対してＳｅｎｔｅｎｃｅＰｉｅｃｅなどで文章における出現頻度などに基づいて文字や複数の連続する文字でトークン化を行い、トークンに対応する辞書番号により離散化する方法がある。例えば、｛トークン，辞書番号｝の対応関係が、｛ごはん，１｝、｛食べ，２｝、｛を，３｝、｛ます，４｝である場合、「ごはんを食べます」は「１　３　２　４」のような数列に離散化される。これにより離散化対話コンテキスト、離散化応答文（テキスト）が得られる。なお、ＳｅｎｔｅｎｃｅＰｉｅｃｅは、「Kudo, Taku, and John Richardson., SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing., Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018」に詳しい。

　音声－量子化音響特徴量変換部１２は、学習用対話データに含まれている応答文（音声）の音声信号を、音響特徴量へ変換し、得られた音響特徴量を量子化音響特徴量としてのクラスタ番号の系列へ変換する。

　音響特徴量とは、音声信号に対して信号処理を行った結果得られるメルスペクトログラムなどのスペクトルパラメータのことをいう。

　量子化音響特徴量とは、対話生成モデルの出力に使用する系列であり、本来は連続値である音響特徴量を或る一定の次元のベクトルが並んだ系列として表現するデータをいう。それぞれのベクトルが予めクラスタリング（ＬＢＧ法などを用いる）によって得られているＮ個のクラスタのうち何番目のクラスタに属するかを調べ、クラスタの番号の系列へ置き換えることで量子化音響特徴量が得られる。学習の際には応答文（音声）の音響特徴量を直接推定するのではなく、このクラスタ番号の系列の推定を行う。なお、ＬＢＧ法については、「Linde, Y.; Buzo, A.; Gray, R., An Algorithm for Vector Quantizer Design., IEEE Transactions on Communications., 1980」に詳しい。

　対話生成モデル学習部１４は、対話コンテキスト、応答文（音声）及び応答文（テキスト）を用いて、対話コンテキストに対応する応答文をテキスト及び音声で生成するニューラルネットワークである対話生成モデルを学習する。

　以下、第１の実施の形態において対話生成モデルの学習時に音声応答文生成装置１０が実行する処理手順について説明する。図４は、第１の実施の形態における対話生成モデルの学習時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。図４では、学習用対話データに含まれる複数のデータ（対話コンテキスト、応答文（音声）の組）のうちの１つのデータに関する処理手順を実行する。したがって、実際には、図４において説明する処理手順が複数のデータについて実行される。

　ステップＳ１０１において、テキスト離散化部１１は、学習用対話データに含まれている対話コンテキストを、対話生成モデル学習部１４で使用可能な表現（離散表現）へ変換することで、離散化対話コンテキスト情報を生成する。

　続いて、音声－量子化音響特徴量変換部１２は、学習用対話データに含まれている応答文（音声）を音響特徴量へと変換し、更に、当該音響特徴量を量子化音響特徴量へ変換する（Ｓ１０２）。

　続いて、音声テキスト化部１３は、学習用対話データに含まれている応答文（音声）をテキスト化し応答文（テキスト）を生成する（Ｓ１０３）。

　続いて、テキスト離散化部１１は、音声テキスト化部１３が生成した応答文（テキスト）を対話生成モデル学習部１４で使用可能な表現（離散表現）へ変換することで、離散化応答文（テキスト）を生成する（Ｓ１０４）。

　続いて、対話生成モデル学習部１４は、離散化対話コンテキスト情報、量子化音響特徴量及び離散化応答文（テキスト）を用いて対話生成モデルを学習する（Ｓ１０５）。具体的には、対話生成モデル学習部１４は、離散化対話コンテキスト情報をニューラルネットワークへの入力とし、当該ニューラルネットワークからの出力と量子化音響特徴量及び離散化応答文（テキスト）との誤差（損失）が小さくなるように、当該ニューラルネットワークのパラメータを更新する。当該ニューラルネットワークは入力と出力の長さが異なるためＴｒａｎｓｆｏｒｍｅｒなどのｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ型のネットワークを用いる。また、マルチタスク学習を行うためにｄｅｃｏｄｅｒを２つ用いる。

　なお、Ｔｒａｎｓｆｏｒｍｅｒについては、「Zhou, Shuyan, et al. "Improving robustness of neural machine translation with multi-task learning." Proceedings of the Fourth Conference on Machine Translation. 2019」に詳しい。また、マルチタスク学習を行うためにｄｅｃｏｄｅｒを２つ用いる構成については、「Li, Naihan, et al. ,Neural speech synthesis with transformer network." Proceedings of the AAAI Conference on Artificial Intelligence., 2019」に詳しい。

　続いて、応答文の生成時について説明する。図５は、第１の実施の形態における応答文の生成時の音声応答文生成装置１０の機能構成例を示す図である。図５中、図２と同一部分には同一符号を付し、その説明は省略する。応答文の生成時において、音声応答文生成装置１０は、学習済みの対話生成モデルを利用して、入力された対話コンテキストに対応する応答文（音声）の生成を行う。

　入力される対話コンテキスト（入力対話コンテキスト）に対応する応答文を生成するために、音声応答文生成装置１０は、図５に示されるように、テキスト離散化部１１、応答文生成部１５及び量子化音響特徴量－音声変換部１６を有する。これら各部は、音声応答文生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

　応答文生成部１５は、入力の対話コンテキストがテキスト離散化部１１によって変換されることで生成される離散化入力対話コンテキスト情報を入力とし、学習済みの対話生成モデルを用いて入力対話コンテキストに対応する離散化応答文（テキスト）及び応答文（量子化音響特徴量）を生成する。

　量子化音響特徴量－音声変換部１６は、応答文（量子化音響特徴量）としてのクラスタ番号の系列から、それぞれのクラスタ番号に該当する音響特徴量のベクトルを並べ直すことにより音響特徴量の系列を得る。量子化音響特徴量－音声変換部１６は、更に、得られた音響特徴量から音声波形生成により合成音声を得る。音声波形生成には、例えば、「Kong, Zhifeng, et al., Diffwave: A versatile diffusion model for audio synthesis., 2020」に開示された技術を用いてもよい。

　なお、学習時の音声応答文生成装置１０（図２）と応答文の生成時の音声応答文生成装置１０とは別々のコンピュータによって実現されてもよい。

　以下、応答文の生成時に音声応答文生成装置１０が実行する処理手順について説明する。図６は、第１の実施の形態における応答文の生成時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。

　ステップＳ２０１において、テキスト離散化部１１は、入力の対話コンテキストを対話生成モデルに入力可能な表現（離散表現）へ変換することで、離散化入力対話コンテキスト情報を生成する。

　続いて、応答文生成部１５は、学習済みの対話生成モデルを用いて、テキスト離散化部１１が生成した離散化入力対話コンテキスト情報に対応する応答文（量子化音響特徴量）を生成する（Ｓ２０２）。具体的には、応答文生成部１５は、離散化入力対話コンテキスト情報を学習済みの対話生成モデルへ入力する。対話生成モデルは、当該離散化入力対話コンテキスト情報に対応する応答文（量子化音響特徴量）を出力する。なお、この際、対話生成モデルは、離散化応答文（テキスト）も出力する。

　続いて、量子化音響特徴量－音声変換部１６は、応答文（量子化音響特徴量）を音声波形に変換する（Ｓ２０３）。これにより入力の対話コンテキスト情報に応じた応答文の音声（応答文（音声））が得られる。

　上述したように、第１の実施の形態によれば、対話生成モデルの出力としてテキストの系列と音響特徴量に基づく系列を用い、テキストの応答文の生成とテキストを直接経ない音声の生成が同時に行われる。したがって、自然な音声表現の応答文を生成可能とすることができ、対話のコンテキストに応じて、特に話し言葉特有の言いよどみ表現を含むような、より表現力豊かな音声を生成することが可能になる。

　また、モデル全体の学習を始めから行うよりは必要なデータを少なくすることができ、計算に必要な時間も短縮することができる。

　次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

　第１の実施の形態では、対話生成モデルの学習においてテキストの対話コンテキストとそれに対応する音声の応答文（応答文（音声））を利用しているが、このようなペアデータを十分な学習を行えるほどに手に入れることが困難である状況も考えられる。一方、対話生成モデルの高品質化には多量の学習データが必要である。

　第２の実施の形態では、このような課題を解決するために、比較的容易に入手可能なテキストの対話コンテキストと応答文（テキスト）のペアデータを準備して、その応答文（テキスト）を音声合成によって音声化して利用する例について説明する。

　具体的には、第２の実施の形態では、まず、対話コンテキストと応答文（テキスト）のペアデータに音声合成を利用して得た応答文（音声）を追加したペアデータで対話生成モデルの学習（以下、「事前学習」という。）を行った後に、学習済みの対話生成モデルに対して第１の実施の形態と同様に実際の対話音声の応答文（音声）を用いたファインチューニングによる学習を行う。これにより、実際の対話音声のデータの量が比較的少量であっても、対話生成モデルの学習を行うことができる。したがって、第２の実施の形態は、事前学習を行う点が第１の実施の形態と異なる。

　図７は、第２の実施の形態における対話生成モデルの事前学習時の音声応答文生成装置１０の機能構成例を示す図である。図７中、図２と同一部分には同一符号を付し、その説明は省略する。

　第２の実施の形態における学習用対話データは、テキストの対話コンテキストと応答文（テキスト）のペアデータである。したがって、図７において、音声応答文生成装置１０は、応答文（テキスト）を生成するために必要であった音声テキスト化部１３を有さない。

　一方、第２の実施の形態における学習用対話データは応答文（音声）を含まないため、音声応答文生成装置１０は、音声－量子化音響特徴量変換部１２の代わりに、テキスト－音声変換部１７及び音響特徴量－量子化音響特徴量変換部１８を有する。

　図８は、第２の実施の形態における対話生成モデルの学習時に音声応答文生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。図８中、図４と同一ステップには同一ステップ番号を付し、その説明は省略する。

　図８では、ステップＳ１０２及びＳ１０３がＳ１０２ａ及びＳ１０３ａに置き換わっている。

　ステップＳ１０２ａにおいて、テキスト－音声変換部１７は、学習用対話データに含まれている応答文（テキスト）を、音響特徴量系列である応答文（音響特徴量）へ変換する。応答文（テキスト）から応答文（音響特徴量）への変換は、例えば、Ｔｒａｎｓｆｏｒｍｅｒ　ＴＴＳなどの音声合成手法を用いて行うことができる。斯かる音声合成手法は、「Li, Naihan, et al. ,Neural speech synthesis with transformer network." Proceedings of the AAAI Conference on Artificial Intelligence., 2019」に詳しい。

　続くステップＳ１０３ａにおいて、音響特徴量－量子化音響特徴量変換部１８は、テキスト－音声変換部１７が生成した応答文（音響特徴量）をクラスタ番号の系列である応答文（量子化音響特徴量）へ変換する。応答文（量子化音響特徴量）への変換は、第１の実施の形態において、音声－量子化音響特徴量変換部１２が、音声から得た音響特徴量をクラスタリング番号系列（応答文（量子化音響特徴量））へ変換したのと同様に行うことができる。

　なお、ステップＳ１０４では、学習用対話データに含まれている応答文（テキスト）が変換対象とされる点が第１の実施の形態と異なる。

　その後、第１の実施の形態において説明した学習処理により、事前学習によって学習済みの対話生成モデルがファインチューニングされる。

　音声応答文生成装置１０は、音声応答文生成装置及び音声応答文生学習成装置の一例である。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　　　　　音声応答文生成装置
１１　　　　　テキスト離散化部
１２　　　　　音声－量子化音響特徴量変換部
１３　　　　　音声テキスト化部
１４　　　　　対話生成モデル学習部
１５　　　　　応答文生成部
１６　　　　　量子化音響特徴量－音声変換部
１７　　　　　テキスト－音声変換部
１８　　　　　音響特徴量－量子化音響特徴量変換部
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　プロセッサ
１０５　　　　インタフェース装置
Ｂ　　　　　　バス

Claims

　対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、
をコンピュータが実行することを特徴とする音声応答文学習方法。
　前記履歴に対応する音声での応答文は、対話において録音された音声での応答文である、
ことを特徴とする請求項１記載の音声応答文学習方法。
　請求項１又は２記載の学習手順において学習されたモデルを用いて、対話における発話の履歴を入力すると、当該履歴に対応する音声での応答文を生成する生成手順、
をコンピュータが実行することを特徴とする音声応答文生成方法。
　対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習するように構成されている学習部、
を有することを特徴とする音声応答文学習装置。
　前記履歴に対応する音声での応答文は、対話において録音された音声での応答文である、
ことを特徴とする請求項４記載の音声応答文学習装置。
　請求項４又は５記載の学習部によって学習されたモデルを用いて、対話における発話の履歴を入力すると、当該履歴に対応する音声での応答文を生成するように構成されている生成部、
を有することを特徴とする音声応答文生成装置。
　対話における発話の履歴と、前記履歴に対応する音声での応答文と、前記履歴に対応するテキストでの応答文との組であるデータに基づいて、対話における発話の履歴を入力として、音声での応答文及びテキストでの応答文を出力するモデルを学習する学習手順、
　をコンピュータに実行することを特徴とするプログラム。