WO2018159403A1

WO2018159403A1 - 学習装置、音声合成システムおよび音声合成方法

Info

Publication number: WO2018159403A1
Application number: PCT/JP2018/006166
Authority: WO
Inventors: 橘　健太郎; 戸田　智基
Original assignee: 国立研究開発法人情報通信研究機構
Priority date: 2017-02-28
Filing date: 2018-02-21
Publication date: 2018-09-07
Also published as: JP6860901B2; US10957303B2; US20200135171A1; JP2018141917A

Abstract

学習装置は、過去の信号系列および現在のコンテキストラベルから現在の信号を推定する自己回帰モデルと、入力音声信号を分析して声道特徴を示す声道フィルタ係数を決定する声道特徴分析部と、声道フィルタ係数に基づいて予測される音声信号と入力音声信号との間の残差信号を出力する残差信号生成部と、残差信号生成部から出力される残差信号を量子化して量子化残差信号を生成する量子化部と、既知の入力テキストに対応する入力音声信号について、既知の入力テキストのコンテキストラベルを自己回帰モデルに対して条件として与えるとともに、入力音声信号についての量子化残差信号の過去の系列および現在のコンテキストラベルと、量子化残差信号の現在の信号とを対応付けることで自己回帰モデルの学習を実施する学習制御部とを含む。

Description

学習装置、音声合成システムおよび音声合成方法

　本発明は、入力テキストに応じた音声を合成して出力する音声合成技術に関する。

　従来から、音声合成分野においては、統計モデルに基づいて音声信号を生成する枠組みである、統計的パラメトリック音声合成（statistical　parametric　speech　synthesis：以下、「ＳＰＳＳ」とも略称する。）が盛んに研究されてきた。ＳＰＳＳにおいては、入力されたテキストと当該テキストに対応する音声信号との対応関係を統計的にモデル化する。このような関係を直接モデル化することは容易ではないので、それぞれを特徴量系列として表現することで、統計モデルを構築する。具体的には、入力テキストは言語特徴量を表すコンテキストラベル系列で表現され、音声信号は音響特徴量系列で表現される。

　このような音響特徴量系列から音声信号を推定する方法に代えて、コンテキストラベル系列から音声信号を直接的に推定する、"WaveNet"と称される手法が提案されている（例えば、非特許文献１参照）。このWaveNetは、既存の最新手法を凌ぐ性能を示すことが報告されている。

A.　van　den　Oord　et　al.,"Wavenet:　A　Generative　Model　for　Raw　Audio",arXiv　preprint　arXiv:1609.03499,　2016 A.　van　den　Oord　et　al.,　"Pixel　Recurrent　Neural　Networks",　arXiv　preprint　arXiv:1601.06759v3,　2016.08.19

　非特許文献１に開示されるWaveNetにおいて推定出力される信号は、μ－ｌａｗ方式により量子化された音声信号である。μ－ｌａｗ方式により量子化された音声信号を推定する場合、その信号を復元した際の推定誤差は帯域全体に広がってしまうため、特に高周波帯域のノイズが知覚されやすくなるという課題がある。

　本発明は、上述したような課題を考慮するものであり、入力テキストに基づくコンテキストラベルから音声信号を直接的に推定する際の音声品質を高めることを目的としている。

　本発明のある局面に従えば、音声合成システムに向けられた学習装置が提供される。学習装置は、過去の信号系列および現在のコンテキストラベルから現在の信号を推定する自己回帰モデルを含む。自己回帰モデルは、統計的データモデリングが可能なネットワーク構造を有している。学習装置は、入力音声信号を分析して声道特徴を示す声道フィルタ係数を決定する声道特徴分析部と、声道フィルタ係数に基づいて予測される音声信号と入力音声信号との間の残差信号を出力する残差信号生成部と、残差信号生成部から出力される残差信号を量子化して量子化残差信号を生成する量子化部と、既知の入力テキストに対応する入力音声信号について、既知の入力テキストのコンテキストラベルを自己回帰モデルに対して条件として与えるとともに、入力音声信号についての量子化残差信号の過去の系列および現在のコンテキストラベルと、量子化残差信号の現在の信号とを、対応付けることで自己回帰モデルの学習を実施する学習制御部とを含む。

　本発明の別の局面に従えば、入力テキストに応じた音声を合成して出力する音声合成システムが提供される。音声合成システムは、未知の入力テキストが入力されると、未知の入力テキストのコンテキストラベルを自己回帰モデルに対して条件として与えるとともに、過去の推定量子化残差信号を請求項１に記載の学習装置によって構築された自己回帰モデルを用いて、現在の量子化残差信号を出力する音声合成制御部を含む。

　好ましくは、音声合成システムは、量子化部から出力される過去の量子化残差信号および現在のコンテキストラベルから推定された推定量子化残差信号を逆量子化して推定残差信号を生成する逆量子化部と、逆量子化部から出力される推定残差信号を声道フィルタ係数に基づいてフィルタリングした結果を音声信号として出力する合成フィルタと、入力音声信号についての声道フィルタ係数を格納する格納部とをさらに含む。

　好ましくは、声道フィルタ係数は、聴覚重み付け係数により調整可能になっている。
　好ましくは、音声合成システムは、入力テキストを分析して文脈情報を生成するテキスト分析部と、テキスト分析部からの文脈情報に基づいて、入力テキストのコンテキストラベルを生成するコンテキストラベル生成部とをさらに含む。

　本発明のさらに別の局面に従えば、入力テキストに応じた音声を合成して出力する音声合成方法が提供される。音声合成方法は、既知の入力テキストに対応する入力音声信号を分析して声道特徴を示す声道フィルタ係数を決定するステップと、声道フィルタ係数に基づいて予測される音声信号と入力音声信号との間の残差信号を生成するステップと、残差信号を量子化して量子化残差信号を生成するステップと、既知の入力テキストのコンテキストラベルを自己回帰モデルに対して条件として与えるとともに、過去の量子化残差信号および現在のコンテキストラベルから現在の量子化残差信号を推定する自己回帰モデルを学習するステップとを含む。自己回帰モデルは、過去の信号系列および現在のコンテキストラベルから現在値を推定するためのパラメータを格納しており、統計的データモデリングが可能なネットワーク構造を有している。

　本発明によれば、入力テキストに基づくコンテキストラベルから音声信号を直接的に推定する際の音声品質を高めることができる。

本実施の形態に従う音声合成システムを用いた多言語翻訳システムの概要を示す模式図である。本実施の形態に従うサービス提供装置のハードウェア構成例を示す模式図である。本実施の形態に従う音声合成システムにて採用する予測量子化の概要を説明するためのブロック図である。本実施の形態に従う音声合成システムにおける要部の処理を説明するためのブロック図である。本実施の形態に従う音声合成システムに用いられる自己回帰モデルの概要を説明するためのブロック図である。本実施の形態に従う音声合成システムにおける処理手順の一例を示すフローチャートである。本実施の形態に従う音声合成システムにおける処理手順の一例を示すフローチャートである。本実施の形態に従う音声合成システムについてのノイズシェーピング効果を評価した結果の一例を示す図である。本実施の形態に従う音声合成システムについての対比較実験の評価結果例を示す図である。

　本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。

　［Ａ．応用例］
　まず、本実施の形態に従う音声合成システムの一つの応用例について説明する。より具体的には、本実施の形態に従う音声合成システムを用いた多言語翻訳システムについて説明する。

　図１は、本実施の形態に従う音声合成システムを用いた多言語翻訳システム１の概要を示す模式図である。図１を参照して、多言語翻訳システム１は、サービス提供装置１０を含む。サービス提供装置１０は、ネットワーク２を介して接続される携帯端末３０からの入力音声（第１言語で発せられたなんらかのことば）に対して音声認識、多言語翻訳などを行なって、第２言語での対応することばを合成して、その合成結果を出力音声として携帯端末３０へ出力する。

　例えば、ユーザ４は、携帯端末３０に対して、「Where　is　the　station　？」という英語のことばを発すると、携帯端末３０は、その発せられたことばからマイクロフォンなどにより入力音声を生成し、生成した入力音声をサービス提供装置１０へ送信する。サービス提供装置１０は、「Where　is　the　station　？」に対応する、日本語の「駅はどこですか？」ということばを示す出力音声を合成する。携帯端末３０は、サービス提供装置１０から出力音声を受信すると、その受信した出力音声を再生する。これによって、ユーザ４の対話相手には、日本語の「駅はどこですか？」とのことばが聞こえる。

　図示していないが、ユーザ４の対話相手も同様の携帯端末３０を有していてもよく、例えば、ユーザ４からの質問に対して、「まっすぐ行って左です」との回答を自身の携帯端末に向かって発すると、上述したような処理が実行されて、ユーザ４に対して、対応する英語の「Go　straight　and　turn　left」ということばが回答される。

　このように、多言語翻訳システム１においては、第１言語のことば（音声）と第２言語のことば（音声）との間で自在に翻訳が可能である。なお、２つの言語に限らず、任意の数の言語間で相互に自動翻訳できるようにしてもよい。

　このような自動音声翻訳の機能を利用することで、外国旅行や外国人とのコミュニケーションを容易化できる。

　サービス提供装置１０に含まれる本実施の形態に従う音声合成システムは、後述するように、自己回帰モデルを用いて、入力テキストから生成されるコンテキストラベル系列から対応する音声信号を再構成する。サービス提供装置１０は、音声合成システムに関するコンポーネントとして、分析部１２と、学習部１４と、自己回帰モデル１６と、音声合成部１８とを含む。

　サービス提供装置１０は、自動翻訳に関するコンポーネントとして、音声認識部２０と、翻訳部２２とを含む。サービス提供装置１０は、さらに、携帯端末３０との間で通信処理を行なうための通信処理部２４を含む。

　より具体的には、分析部１２および学習部１４は、自己回帰モデル１６を構築するための機械学習を担当する。すなわち、分析部１２および学習部１４は、音声合成システムに向けられた学習装置として機能し、自己回帰モデル１６を構築する。分析部１２および学習部１４（学習装置）の機能および処理の詳細については、後述する。自己回帰モデル１６は、分析部１２および学習部１４による機械学習の結果に相当する。

　音声認識部２０は、通信処理部２４を介して受信した携帯端末３０からの入力音声に対して、音声認識処理を実行することで音声認識テキストを出力する。翻訳部２２は、音声認識部２０からの音声認識テキストから、指定された言語のテキスト（説明の便宜上、「翻訳テキスト」とも記す。）を生成する。音声認識部２０および翻訳部２２については、公知の任意の方法を採用できる。

　音声合成部１８は、翻訳部２２からの翻訳テキストに対して、自己回帰モデル１６を参照して音声合成を行ない、その結果得られる出力音声を、通信処理部２４を介して携帯端末３０へ送信する。

　図１には、説明の便宜上、自己回帰モデル１６を構築するための機械学習を担当するコンポーネント（主として、分析部１２および学習部１４）と、生成された自己回帰モデル１６を用いて多言語翻訳を担当するコンポーネント（主として、音声認識部２０、翻訳部２２、および音声合成部１８）が同一のサービス提供装置１０に実装されている例を示すが、これらの機能をそれぞれ別の装置に実装してもよい。この場合、第１の装置において、機械学習を実施することで自己回帰モデル１６を構築し、第２の装置において、当該生成された自己回帰モデル１６を用いて音声合成および当該音声合成を利用したサービスを提供するようにしてもよい。

　上述したような多言語翻訳サービスにおいては、音声認識部２０および翻訳部２２の少なくとも一部の機能を携帯端末３０で実行されるアプリケーションが担当するようにしてもよい。また、音声合成を担当するコンポーネント（自己回帰モデル１６および音声合成部１８）の機能を携帯端末３０で実行されるアプリケーションが担当するようにしてもよい。

　このように、サービス提供装置１０および携帯端末３０が任意の形態で協働することで、多言語翻訳システム１およびその一部である音声合成システムを実現できる。このとき、それぞれの装置が分担する機能については、状況に応じて適宜決定すればよく、図１に示される多言語翻訳システム１に限定されるようなものではない。

　［Ｂ．サービス提供装置のハードウェア構成］
　次に、サービス提供装置のハードウェア構成の一例について説明する。図２は、本実施の形態に従うサービス提供装置１０のハードウェア構成例を示す模式図である。サービス提供装置１０は、典型的には、汎用コンピュータを用いて実現される。

　図２を参照して、サービス提供装置１０は、主要なハードウェアコンポーネントとして、プロセッサ１００と、主メモリ１０２と、ディスプレイ１０４と、入力デバイス１０６と、ネットワークインターフェイス（Ｉ／Ｆ：interface）１０８と、光学ドライブ１３４と、二次記憶装置１１２とを含む。これらのコンポーネントは、内部バス１１０を介して互いに接続される。

　プロセッサ１００は、後述するような各種プログラムを実行することで、本実施の形態に従うサービス提供装置１０の実現に必要な処理を実行する演算主体であり、例えば、１または複数のＣＰＵ（central　processing　unit）やＧＰＵ（graphics　processing　unit）などで構成される。複数のコアを有するようなＣＰＵまたはＧＰＵを用いてもよい。

　主メモリ１０２は、プロセッサ１００がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域であり、例えば、ＤＲＡＭ（dynamic　random　access　memory）やＳＲＡＭ（static　random　access　memory）などの揮発性メモリデバイスなどで構成される。

　ディスプレイ１０４は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid　crystal　display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

　入力デバイス１０６は、ユーザからの指示や操作などを受付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス１０６としては、機械学習に必要な音声を収集するためのマイクロフォンを含んでいてもよいし、機械学習に必要な音声を収集した集音デバイスと接続するためのインターフェイスを含んでいてもよい。

　ネットワークインターフェイス１０８は、インターネット上またはイントラネット上の携帯端末３０や任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス１０８としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local　area　network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

　光学ドライブ１３４は、ＣＤ－ＲＯＭ（compact　disc　read　only　memory）、ＤＶＤ（digital　versatile　disc）などの光学ディスク１３６に格納されている情報を読み出して、内部バス１１０を介して他のコンポーネントへ出力する。光学ディスク１３６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１３４が光学ディスク１３６からプログラムを読み出して、二次記憶装置１１２などにインストールすることで、汎用コンピュータがサービス提供装置１０（または、音声合成装置）として機能するようになる。したがって、本発明の主題は、二次記憶装置１１２などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１３６などの記録媒体でもあり得る。

　図２には、非一過的な記録媒体の一例として、光学ディスク１３６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical　disk）などの光磁気記録媒体を用いてもよい。

　二次記憶装置１１２は、プロセッサ１００にて実行されるプログラム、プログラムが処理対象とする入力データ（学習用の入力音声およびテキスト、ならびに、携帯端末３０からの入力音声などを含む）、および、プログラムの実行により生成される出力データ（携帯端末３０へ送信される出力音声などを含む）などを格納するコンポーネントであり、例えば、ハードディスク、ＳＳＤ（solid　state　drive）などの不揮発性記憶装置で構成される。

　より具体的には、二次記憶装置１１２は、典型的には、図示しないＯＳ（operating　system）の他、分析部１２を実現するための分析プログラム１２１と、学習部１４を実現するための学習プログラム１４１と、音声認識部２０を実現するための音声認識プログラム２０１と、翻訳部２２を実現するための翻訳プログラム２２１と、音声合成部１８を実現するための音声合成プログラム１８１とを格納している。

　これらのプログラムをプロセッサ１００で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳが標準で提供するライブラリまたは機能モジュールを用いて代替するようにしてもよい。この場合には、各プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳの実行環境下にインストールされることで、必要な機能を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

　また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

　なお、実際には、音声認識部２０および翻訳部２２を実現するためのデータベースが必要となるが、説明の便宜上、それらのデータベースについては描いていない。

　二次記憶装置１１２は、自己回帰モデル１６に加えて、自己回帰モデル１６を構築するための、機械学習用の入力音声１３０および対応するテキスト１３２を格納していてもよい。

　図２には、単一のコンピュータがサービス提供装置１０を構成する例を示すが、これに限らず、ネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、多言語翻訳システム１およびその一部である音声合成システムを実現するようにしてもよい。

　コンピュータ（プロセッサ１００）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired　circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application　specific　integrated　circuit）やＦＰＧＡ（field-programmable　gate　array）などを用いて実現してもよい。

　当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う多言語翻訳システムを実現できるであろう。

　［Ｃ．概要］
　本実施の形態に従う音声合成システムは、入力テキストに応じた音声を合成して出力するシステムであって、入力音声に対する予測量子化と上述の非特許文献１に開示される自己回帰モデルとを組み合わせることで、合成音声に生じる聴覚上のノイズを低減させる。

　予測量子化は、入力信号を直接量子化するのではなく、予測係数に基づいて生成される予測値と入力信号との残差信号を量子化する手法である。予測量子化により、入力信号は予測係数と残差信号とに分離される。予測量子化を音声信号に適用した場合、予測係数は声道フィルタを示すパラメータに相当し、残差信号は励振源に相当する。本実施の形態に従う音声合成システムにおいては、自己回帰モデルを用いて残差信号を推定する。典型的には、上述の非特許文献１に開示されるWaveNetと称される方式を採用してもよい。

　このような、予測量子化を採用することで、推定誤差から生じるノイズのスペクトル形状をシェーピングしてノイズをパワーの大きい帯域へ集中させることで、聴覚マスキング効果により、ノイズを知覚しにくくできる。

　また、上述の非特許文献１に開示されるWaveNetとは異なり、残差信号を推定するため、音声信号を直接推定する場合と比較して、必要なダイナミックレンジを低減できる。そのため、同一の量子化ビット数であれば、高精度に量子化することができ、音声品質を向上できる。

　まず、予測量子化の概要について説明する。図３は、本実施の形態に従う音声合成システムにて採用する予測量子化の概要を説明するためのブロック図である。

　図３を参照して、予測量子化は、基本構成として、エンコーダ２００およびデコーダ２１０を含む。エンコーダ２００は、入力信号を予測係数および残差信号に分離する。デコーダ２１０は、残差信号から入力信号を再構成する。

　より具体的には、エンコーダ２００は、演算器２０２，２０６と、量子化器２０４と、予測器２０８とを含む。エンコーダ２００においては、入力信号ｘ_ｔと予測器２０８が過去のサンプルに基づいて生成したｘ^～ _ｔとの残差信号ｅ_ｔが演算器２０２により算出され、その算出された残差信号ｅ_ｔが量子化器２０４により量子化されることで、量子化残差信号ｅ^＾ _ｔが算出される。なお、本来は、「＾」は「ｅ」の上に配置されるものであるが、使用可能な文字コードの都合上、「ｅ」と「＾」とを並べて記載する。また、「^～」についても同様である。

　さらに、量子化残差信号ｅ^＾ _ｔとｘ^～ _ｔとが演算器２０６により加算され、その加算結果が予測信号ｘ^＾ _ｔとして予測器２０８へ与えられる。

　そして、時刻ｔにおける予測信号ｘ^＾ _{ｔ（ｔ＝ｔ）}に予測器２０８を適用することで時刻ｔ＋１における予測信号ｘ^＾ _{ｔ（ｔ＝ｔ＋１）}が算出される。このようにして、エンコーダ２００の内部では予測信号ｘ^＾ _ｔがサイクル毎に算出されるとともに、入力信号ｘ_ｔと算出される予測信号ｘ^＾ _ｔとの差が量子化された上で、量子化残差信号ｅ^＾ _ｔとして出力される。

　デコーダ２１０は、エンコーダ２００の予測器２０８と同様の動きをする予測器２１２と、演算器２１４とを含む。演算器２１４は、サイクル毎に入力される量子化残差信号ｅ^＾ _ｔと、量子化残差信号ｅ^＾ _ｔに対して予測器２０８から出力される予測結果とを加算することで、入力信号ｘ_ｔに対応する予測信号ｘ^＾ _ｔを再構成する。

　上述したような手順によって、エンコーダ２００は入力信号ｘ_ｔについての量子化残差信号ｅ^＾ _ｔをサイクル毎に出力するとともに、デコーダ２１０は、量子化残差信号ｅ^＾ _ｔに基づいて入力信号ｘ_ｔを復元する。

　本実施の形態に従う音声合成システムにおいては、量子化残差信号ｅ^＾ _ｔを学習することで、コンテキストラベル系列に応じた、量子化残差についての自己回帰モデル１６を構築する。

　［Ｄ．学習処理および音声合成処理］
　次に、本実施の形態に従う音声合成システムにおける学習処理および音声合成処理の詳細について説明する。図４は、本実施の形態に従う音声合成システムにおける要部の処理を説明するためのブロック図である。

　図４を参照して、音声合成システムは、自己回帰モデル１６を構築するための分析部１２および学習部１４と、自己回帰モデル１６を用いて音声信号を出力する音声合成部１８とを含む。以下、これらの各部の処理および機能について詳述する。

　（ｄ１：分析部１２）
　まず、分析部１２における処理および機能について説明する。分析部１２は、音声分析を担当する部分であり、学習用の入力音声が示す音声信号ｘ_ｔを、声道フィルタ係数ｃと、励振源に相当する残差信号ｅ_ｔとに分離する。本実施の形態において、声道フィルタ係数ｃは時不変とする。

　より具体的には、分析部１２は、逆フィルタ１２０と、声道特徴分析部１２２とを含む。声道特徴分析部１２２は、入力される音声信号ｘ_ｔを分析して、声道特徴を示す声道フィルタ係数ｃを出力する。声道特徴分析部１２２は、声道フィルタ係数ｃを、逆フィルタ１２０へ出力するとともに、声道フィルタ係数格納部１４６に格納する。ここで、フィルタ係数は、ＬＳＰ（line　spectral　pair）、ＬＰＣ（linear　prediction　coefficients）、メルケプストラム係数のいずれを採用してもよい。以降［Ｇ．実験的評価］では、メルケプストラム係数を用いた例を示す。

　逆フィルタ１２０は、声道フィルタ係数ｃに基づいて予測される音声信号と入力される音声信号との間の残差信号を出力する残差信号生成部に相当する。より具体的には、逆フィルタ１２０は、声道特徴分析部１２２からの声道フィルタ係数ｃに基づいて、音声信号を内部的に予測するとともに、入力される音声信号ｘ_ｔとその予測した音声信号との残差信号ｅ_ｔを出力する。逆フィルタ１２０から出力される残差信号ｅ_ｔは、学習部１４へ与えられる。

　（ｄ２：学習部１４）
　次に、学習部１４における処理および機能について説明する。学習部１４は、分析部１２から与えられる残差信号ｅ_ｔを量子化することで得られる量子化残差信号を自己回帰モデル１６に入力する。ここで、誤差として、量子化残差信号と推定量子化残差信号との数値上での距離、または、量子化ビットに応じたone-hotベクトルのcross-entropyを採用してもよい。学習部１４は、量子化残差誤差と量子化推定誤差との間の差分（推定誤差）が最小化するように、自己回帰モデル１６を構築する。

　学習部１４は、各サンプルに対応するコンテキストラベル毎と、過去の入力された音声信号とに基づいて、自己回帰モデル１６を構築する。本質的には、自己回帰モデル１６は、過去の信号系列および現在のコンテキストラベルから現在値を推定するためのパラメータを格納する。より具体的には、学習部１４は、学習制御部１４０と、量子化部１４２と、声道フィルタ係数格納部１４６とを含む。

　なお、本実施の形態においては、量子化した信号同士の誤差を最小化しているが、推定残差信号ｅ^＾ _ｔをと残差信号ｅ_ｔをとの誤差を最小化するようにしてもよい。

　図４に示す構成においては、コンテキストラベル系列を生成するコンポーネントとして、テキスト分析部１９２およびコンテキストラベル生成部１９４を含む。テキスト分析部１９２およびコンテキストラベル生成部１９４は、既知のテキストの文脈情報に基づくコンテキストラベルを生成する。

　コンテキストラベルは、学習部１４および音声合成部１８の両方で用いるため、学習部１４および音声合成部１８が共通に利用する構成例を示している。しかしながら、学習部１４および音声合成部１８の各々に、コンテキストラベルを生成するためのコンポーネントをそれぞれ実装するようにしてもよい。

　テキスト分析部１９２は、入力される学習用または合成対象のテキストを分析して、その文脈情報をコンテキストラベル生成部１９４へ出力する。コンテキストラベル生成部１９４は、テキスト分析部１９２からの分脈情報に基づいて、入力される学習用または合成対象のテキストのコンテキストラベルを決定して学習制御部１４０および音声合成制御部１８０へ出力する。

　量子化部１４２は、逆フィルタ１２０（残差信号生成部）から出力される残差信号を量子化して量子化残差信号を生成する。ここで、量子化方式はμ－ｌａｗ方式であってもよいし、学習データから統計的に、または、線形に、量子化幅を決定してもよい。また、量子化ビット数は一般的に音声で用いられる１６ビットでもよいし、任意に設定してもかまわない。

　学習制御部１４０は、コンテキストラベル生成部１９４から与えられるコンテキストラベルを条件として、自己回帰モデル１６を学習させる。すなわち、学習制御部１４０は、既知の入力テキストに対応する入力音声信号について、既知の入力テキストのコンテキストラベルを自己回帰モデル１６に対して条件として与えるとともに、入力音声信号についての量子化残差信号を学習制御部１４０に入力することで自己回帰モデル１６の学習を実施する。自己回帰モデル１６の詳細およびその構築方法については、後述する。

　声道フィルタ係数格納部１４６は、入力音声信号についての声道フィルタ係数ｃを格納する格納部に相当する。

　（ｄ３：音声合成部１８）
　次に、音声合成部１８における処理および機能について説明する。音声合成部１８は、合成対象のテキストから生成されるサンプル毎のコンテキストラベルを生成し、生成したサンプル毎のコンテキストラベルに応じた自己回帰モデル１６に過去の推定量子化残差信号を入力することで、現在の推定量子化残差信号を得る。

　より具体的には、音声合成部１８は、音声合成制御部１８０と、逆量子化部１８２と、合成フィルタ１８４とを含む。

　何らかの合成対象のテキストが入力されると、テキスト分析部１９２が入力されたテキストを分析して文脈情報を出力し、コンテキストラベル生成部１９４が分脈情報に基づいてコンテキストラベルを生成する。すなわち、テキスト分析部１９２およびコンテキストラベル生成部１９４は、任意のテキストの入力に応答して、当該テキストの文脈情報に基づくコンテキストラベルを決定する。

　音声合成制御部１８０は、未知の入力テキストが入力されると、当該未知の入力テキストのコンテキストラベルを自己回帰モデル１６に対して条件として与えるとともに、過去の推定量子化残差信号を自己回帰モデル１６に入力し、現在の推定量子化残差信号を得る。現在の推定量子化残差信号を過去の系列の１点として追加入力し、次の１時刻先の推定量子化残差信号を推定する。この推定を再帰的に最終点まで繰返す。

　逆量子化部１８２は、音声合成制御部１８０が最終点まで推定した推定量子化残差信号を逆量子化して、推定残差信号ｅ^＾ _ｔを生成する。

　合成フィルタ１８４は、声道フィルタ係数格納部１４６から読み出した声道フィルタ係数ｃに基づいて、逆量子化部１８２からの推定残差信号をフィルタリングすることで、合成後の音声信号を出力する。すなわち、合成フィルタ１８４は、逆量子化部１８２から出力される推定残差信号を声道フィルタ係数ｃに基づいてフィルタリングした結果を音声信号として出力する。

　本実施の形態に従う音声合成システムにおいては、量子化された残差信号ｅ_ｔを自己回帰モデル１６および音声合成制御部１８０にて再帰的に推定し、その推定結果を逆量子化することで、推定残差信号ｅ^＾ _ｔが生成される。このとき、推定誤差（｜ｅ_ｔ－ｅ^＾ _ｔ｜）は、量子化される各ビットに対して一様に分布する。合成フィルタ１８４にて推定残差信号ｅ^＾ _ｔが声道フィルタ係数ｃでフィルタリングされることにより、生成される音声信号の音声スペクトルは聴覚的に重み付けされる。その結果、推定残差信号ｅ^＾ _ｔに含まれる推定誤差は、音声スペクトルの形状に応じたパワーの大きい帯域に集中させることができる。これにより、聴覚マスキング効果が発揮され、合成音声に含まれるノイズを低減できる。

　［Ｅ．自己回帰モデル］
　次に、本実施の形態に従う音声合成システムに用いられる自己回帰モデル１６について説明する。自己回帰モデル１６として、上述の非特許文献１に開示されるWaveNetと同様の構成を想定する。

　WaveNetは、PixelCNN（例えば、非特許文献２参照）に類似した生成モデルであり、過去の信号系列から現在のサンプル（現在値）を推定する自己回帰モデルとして表現される。一般化すれば、音声信号ｘ＝｛ｘ_１，...，ｘ_Ｔ｝の結合確率は、条件付き確率の積として以下の（１）式のように表現できる。

　本実施の形態に従う音声合成システムのように、テキスト音声合成を行なう場合は，コンテキストラベルｈを条件として加え、条件付き確率ｐ（ｘ｜ｈ）として以下の（２）式のようにモデル化できる。

　図５は、本実施の形態に従う音声合成システムに用いられる自己回帰モデル１６の概要を説明するためのブロック図である。図５に示すように、本実施の形態に従う自己回帰モデル１６は、統計的データモデリングが可能なネットワーク構造を有している。

　具体的には、WaveNetのネットワーク構成は、図５に示すように、入力に対して、causal　convolution（１６１）を経て、複数のlayer_k（１６２）が積層されている。最終的に、それぞれのlayer（１６２）からskip　connectionの要素として出力されるｓ_１，...，ｓ_Ｋが結合要素（１６３）にて結合される。

　結合された出力は、ReLu（activation関数１６４，１６６）および畳み込み（１６５，１６７）が適用された後、softmax関数（１６８）に入力される。softmax関数（１６８）から出力される信号が推定値として出力される。

　各layer（１６２）においては、dilated　causal　convolution（１６２１）を用いて、過去の信号系列を効率的にモデル化する。dilated　causal　convolution（１６２１）は、入力信号をあるサンプルずつスキップして畳み込むことにより、計算量の削減および大域的な変化を学習することを実現する。

　dilated　causal　convolution（１６２１）の出力は、gated　activation　unit（１６２２）に入力される。gated　activation　unit（１６２２）においては、dilated　causal　convolution（１６２１）の出力は、双曲線関数１６２３およびシグモイド関数１６２４に入力される。双曲線関数１６２３およびシグモイド関数１６２４のそれぞれからの出力は、アダマール要素１６２５にて要素毎の積が計算される。

　layer_k（１６２）への入力ベクトルｘ_kに対して、gated　activation　unit（１６２２）の出力ベクトルｚ_kは、以下の（３）式に従って算出できる。

　ここで、＊は畳み込み演算を示し、〇はelement-wise（要素毎）の掛け算を示し、σ（）はシグモイド関数を示し、ｋはlayerのインデックを示す。また、Ｗ_{ｆｉｌｔｅｒ，ｋ}およびＷ_{ｇａｔｅ，ｋ}は、layer_kの畳み込みフィルタを示し、ｂ_{ｆｉｌｔｅｒ，ｋ}およびｂ_{ｇａｔｅ，ｋ}は、layer_kの畳み込みバイアス項を示す。

　出力ベクトルｚ_kに対してresidual　connection（１６２８）を適用した後に、次のlayerへの入力として与える。residual　connection（１６２８）においては、出力ベクトルｚ_kに対して入力ベクトルｘ_kが加算される。また、出力ベクトルｚ_kは、１×１の畳み込みが適用された後、skip　connectionの要素ｓ_kとして出力される。

　図５に示す自己回帰モデルにおいて、誤差関数として、二乗誤差ではなく、softmaxに基づくcross　entropyが採用された場合、ガウス分布を仮定した平均ベクトルの誤差最小問題ではなく、音声信号の振幅値の多クラス分類問題へと置き換えられる。このような問題置き換えにより、入力に仮説を設けることなく、より柔軟でかつ曖昧な分布をモデル化できる。

　非特許文献１に開示されるWaveNetにおいては、量子化にμ－ｌａｗ方式が採用されており、量子化された信号は各量子化ビットにおいて一様な確率で分布する。多クラス分類問題であるため、WaveNetにより生じる推定誤差も一様に分布し、再構成された信号には推定誤差が一様に分布してしまう。その結果、信号パワーの小さい帯域（特に、高周波帯域）にてノイズが相対的に大きくなり、ノイズが知覚されやすくなるという課題がある。これに対して、本実施の形態に従う音声合成システムにおいては、予測量子化を組み合わせることで、このような課題を解決する。

　本実施の形態に従う音声合成システムにおいては、非特許文献１に開示されるWaveNetに限らず、自己回帰モデルに従って音声信号を直接的に再構成できるものであり、どのようなネットワーク構成にも適用可能である。

　［Ｆ．処理手順］
　図６および図７は、本実施の形態に従う音声合成システムにおける処理手順の一例を示すフローチャートである。より具体的には、図６には、自己回帰モデル１６を構築するための事前の学習処理に係る手順を示し、図７には、自己回帰モデル１６を用いた音声合成処理に係る手順を示す。図６および図７に示す各ステップは、１または複数のプロセッサ（例えば、図２に示すプロセッサ１００）が１または複数のプログラムを実行することで実現されてもよい。

　図６を参照して、プロセッサ１００は、既知のテキストおよび当該テキストに対応する音声信号が入力されると（ステップＳ１００）、入力されたテキストを分析して文脈情報を生成し（ステップＳ１０２）、当該生成された文脈情報に基づいてコンテキストラベルを決定する（ステップＳ１０４）。

　続いて、プロセッサ１００は、入力された音声信号を分析して声道フィルタ係数を決定し（ステップＳ１０６）、決定した声道フィルタ係数に基づいて、入力された音声信号から残差信号を生成する（ステップＳ１０８）。さらに、プロセッサ１００は、生成した残差信号を量子化して量子化残差信号を生成する（ステップＳ１１０）。

　そして、プロセッサ１００は、自己回帰モデル１６の内部パラメータをランダムに決定するとともに、決定したコンテキストラベルを条件として設定する（ステップＳ１１２）とともに、過去の量子化残差信号と現在のコンテキストラベルとを、現在の量子化残差信号に対応付けて自己回帰モデル１６を学習する（ステップＳ１１４，Ｓ１１６）。

　プロセッサ１００は、自己回帰モデル１６に従って推定量子化残差信号を算出する（ステップＳ１１６）。そして、プロセッサ１００は、学習の終了条件が満たされたか否かを判断する（ステップＳ１１８）。学習の終了条件としては、例えば、入力された音声信号の回数が規定値に到達したこと、自己回帰モデルからの推定値についての推定誤差が予め定められたしきい値以下になったことなどが想定される。

　学習の終了条件が満たされていない場合（ステップＳ１１８においてＮＯの場合）には、ステップＳ１１４以下の処理が繰返される。このステップＳ１１４～Ｓ１１８の処理が繰返されることで、自己回帰モデルに入力された残差信号と推定残差信号との間の差分（推定誤差）が最小化するように、自己回帰モデル１６が構築される。

　このように、既知の入力テキストのコンテキストラベルを自己回帰モデル１６に対して条件として与えるとともに、量子化残差信号を自己回帰モデル１６に対して入力することで、自己回帰モデル１６の学習が実施される。

　一方、学習の終了条件が満たされている場合（ステップＳ１１８においてＹＥＳの場合）には、学習処理は終了する。

　次に、図７を参照して、プロセッサ１００は、合成対象のテキストが入力されると（ステップＳ２００）、入力されたテキストを分析して文脈情報を生成し（ステップＳ２０２）、当該生成された文脈情報に基づいて、対応するフレームについてのコンテキストラベルを決定する（ステップＳ２０４）。そして、プロセッサ１００は、ステップＳ２０４において決定したコンテキストラベルを自己回帰モデル１６に条件として設定する（ステップＳ２０６）。

　続いて、プロセッサ１００は、過去の推定量子化残差信号およびコンテキストラベルを自己回帰モデル１６に入力し（ステップＳ２０８）、自己回帰モデル１６に従って、入力に対する推定量子化残差信号を算出する（ステップＳ２１０）。そして、プロセッサ１００は、自己回帰モデル１６の最終点まで処理が完了したか否かを判断する（ステップＳ２１２）。最終点まで処理が完了していない場合（ステップＳ２１２においてＮＯの場合）、ステップＳ２０８以下の処理が繰返される。

　最終点まで処理が完了している場合（ステップＳ２１２においてＹＥＳの場合）には、プロセッサ１００は、再帰的に推定された推定量子化残差信号を逆量子化した推定残差信号を生成し（ステップＳ２１４）、声道フィルタ係数を合成フィルタ（声道フィルタ）に設定し（ステップＳ２１６）、生成される推定残差信号を声道フィルタ係数が設定された合成フィルタでフィルタリングすることで、合成後の音声信号を出力する（ステップＳ２１８）。そして、入力されたテキストに対する音声合成処理は終了する。

　このように、未知の入力テキストのコンテキストラベルを自己回帰モデル１６に対して条件として与えるとともに、過去の推定量子化残差信号を自己回帰モデル１６を用いて、現在の量子化残差信号を再帰的に推定し、その推定された現在の量子化残差信号から音声信号を再構成する。

　［Ｇ．実験的評価］
　次に、本実施の形態に従う音声合成システムにおいて、ノイズ低減の有効性について実施した実験的評価について説明する。そのため、条件としてのコンテキストラベルを与えず、正解の音声波形のみを入力とする。

　（ｇ１：実験条件）
　本実施の形態に係る実施例の比較対象となる比較例は、上述の非特許文献１に開示されるWaveNetを用いる方式とした。

　音声データとして、日本語女性話者１名により発声されたＡＴＲ音素バランス文および旅行会話文からなる７３９５文を用いた。このうち、７３６５文を学習データとして用いるとともに、残り３０文をテストデータとして用いた。

　音声データは、サンプリング周波数が４８ｋＨｚであったものを１６ｋＨｚにダウンサンプリングした上で、ハイパスフィルタを適用して５０Ｈｚ以下の成分を除去したものを用いた。量子化方式は、８ｂｉｔのμ－ｌａｗ方式とし、自己回帰モデル（WaveNet）への入力はone-hotベクトルとした。

　実施例における声道フィルタ係数ｃ（合成フィルタ）としては、１１９次メルケプストラム係数（０次を含めて１２０次）を用いた。本評価においては、学習データから算出した時不変のメルケプストラム係数を用いてフィルタリングして残差信号を生成した。残差信号は、－１から１の範囲で正規化を行なった。

　また、声道フィルタによる聴覚重み付けについて、聴覚重み付け係数を採用した。具体的には，メルケプストラム係数のうち０次を除く各係数を定数倍することにより、聴覚重み付けフィルタのダイナミックレンジを変化させて、聴覚重み付けの強度を調整した。

　このように、声道フィルタ係数は、聴覚重み付け係数により調整可能になっていてもよい。

　自己回帰モデル（WaveNet）のネットワーク構成として、causal　convolutionのフィルタ長を３２とし、skip　connectionの要素数を５０とし、layerを１，２，４，８から５１２サンプルまでのdilationをもった１０個のdilated　causal　convolution　layerを５個積層されたものを採用した。すなわち、本評価に用いたネットワーク構成においては、receptive　fieldは３２０ｍｓ（５１２０サンプル）となる。Residual　connectionのフィルタ長を２とし、出力チャネル数を３２とし、skip　connectionのフィルタ長を２とし、出力チャネル数を５１２とした。

　モデル学習のoptimizerはAdamとし、学習係数は１．０ｅ^－３とし、バッチサイズは１００，０００サンプルとし、試行回数は１０万回とした。

　プログラムの実行には、３台のＧＰＵを用いて、バッチサイズを等分割して、並列学習を行なった。

　「比較例」は、上述の非特許文献１に開示されるWaveNetを用いる方式を用いるものであり、μ－ｌａｗ方式により量子化された過去の音声信号系列から現在のサンプルを推定する。

　「実施例」は、上述したような本実施の形態に従う音声合成システムに対応するものであり、予測量子化に自己回帰モデルを提供したものである。過去の残差信号系列からWaveNetを用いて現在のサンプルを推定する。推定された残差信号から声道フィルタでフィルタリングすることで、推定された音声信号を得る。

　なお、「比較例」および「実施例」のいずれについても、音声生成時には、源信号を入力として用いた。

　（ｇ２：実験結果：ノイズシェーピング）
　まず、聴覚重み付けによるノイズシェーピング効果についての実験結果の評価について説明する。具体的には、以下に説明するような方法で生成された音声信号と源信号との誤差の周波数特性を分析した。

　図８は、本実施の形態に従う音声合成システムについてのノイズシェーピング効果を評価した結果の一例を示す図である。図８には、テストデータから１０文をサンプリングして、平均した結果を示す。図８中の凡例は、それぞれ以下のような意味を示す。なお、αは、実施例において採用する聴覚重み付け係数を示す。

　「源信号」：源信号をμ－ｌａｗ方式により量子化した後、さらに逆量子化して再構成した信号と源信号との誤差を意味する。すなわち、μ－ｌａｗ方式による量子化により生じる誤差の周波数特性を示す。

　「残差（α＝０．５）」，「残差（α＝１．０）」：実施例で用いる残差信号をμ－ｌａｗ方式により量子化した後、さらに逆量子化して再構成した信号を声道フィルタでフィルタリングすることで得られた信号と源信号との誤差を意味する。すなわち、自己回帰モデルを用いた推定に誤りがないと仮定した場合に生じる誤差の周波数特性を示す。

　「比較例」：源信号をμ－ｌａｗ方式により量子化した信号をWaveNetにより推定した後、逆量子化して再構成した信号と源信号との誤差を意味する。すなわち、比較例において生じる誤差の周波数特性を示す。

　「実施例（α＝０．５）」，「実施例（α＝１．０）」：実施例で用いる残差信号をμ－ｌａｗ方式により量子化した信号を自己回帰モデルにより推定した後、逆量子化して再構成した信号と源信号との誤差を意味する。すなわち、実施例において生じる誤差の周波数特性を示す。

　図８に示す実験結果によれば、「源信号」および「比較例」は、想定のとおり、帯域全体にわたって一様に残差が分布していることがわかる。これに対して、「残差」および「実施例」は、２００Ｈｚ～３００Ｈｚ付近にピークが存在しており、また高周波帯域では、「源信号」および「比較例」よりもパワーが小さくなっている。さらに、「残差」および「実施例」のパワースペクトラムの形状からも、聴覚特性に応じてシェーピングされていることが確認できる。

　また、聴覚重み付け係数αの大きさに追従してパワースペクトラムの形状も変化しており、聴覚重み付け係数αを調整することで、シェーピング度合いを制御できることも確認できる。

　図８において、「源信号」および「残差」は量子化誤差を含むものであり、「比較例」および「実施例」は推定誤差および量子化誤差を含むものとなる。これらを比較することで、推定誤差は、量子化誤差を大きく上回っていることが確認できる。

　（ｇ３：客観評価）
　次に、実施例と比較例との客観評価指標として、源信号と推定された音声信号との間のＳＮＲ（Ｓ／Ｎ比）を用いた。その結果を以下の表に示す。

　実施例は、聴覚重み付け係数αが０．１のときにわずかながら比較例より良好な結果を示したが、他の場合は劣ってしまっている。この結果から、音声スペクトルのシェーピングは、源信号に対するＳＮＲという面では改善方向にあまり寄与しないと考えられる。

　（ｇ４：主観評価）
　次に、実施例と比較例との間における合成音声の自然性を対比較実験により比較した。評価音声は、テストデータから抽出した３０文とした。実施例および比較例のそれぞれによって生成された合成音声を被験者（内訳：男性３名、女性２名）に聞いてもらい、より自然性である（音声品質が高い）と感じたものを選択してもらった。但し、提示音声対に差が感じられない際には、「どちらでもない」という選択肢を認めた。

　図９は、本実施の形態に従う音声合成システムについての対比較実験の評価結果例を示す図である。図９において、聴覚重み付け係数α＝０．１，０．５，１．０におけるｐ値は、それぞれ、２．０ｅ^－３，７．２ｅ^－１０，０．８ｅ^－３となった。聴覚重み付け係数α＝１．０では、比較例が実施例に対して有意差（ｐ＜０．０１）を示したが、聴覚重み付け係数α＝０．１，０．５では、実施例が比較例に対して有意差を示した。

　［Ｈ．まとめ］
　本実施の形態に従う音声合成システムにおいては、過去の信号系列から現在値を推定する自己回帰モデルに予測量子化の手法を組み合わせることで、再構成された音声信号の帯域全体にわたって存在していたノイズを聴覚マスキングを考慮した形状に変化させることができる。これによって、入力テキストに基づくコンテキストラベルから音声信号を直接的に推定する際の音声品質を高めることができる。

　今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　１　多言語翻訳システム、２　ネットワーク、４　ユーザ、１０　サービス提供装置、１２　分析部、１４　学習部、１６　自己回帰モデル、１８　音声合成部、２０　音声認識部、２２　翻訳部、２４　通信処理部、３０　携帯端末、１００　プロセッサ、１０２　主メモリ、１０４　ディスプレイ、１０６　入力デバイス、１０８　ネットワークインターフェイス、１１０　内部バス、１１２　二次記憶装置、１２０　逆フィルタ、１２１　分析プログラム、１２２　声道特徴分析部、１３０　入力音声、１３２　テキスト、１３４　光学ドライブ、１３６　光学ディスク、１４０　学習制御部、１４１　学習プログラム、１４２　量子化部、１４６　声道フィルタ係数格納部、１８０　音声合成制御部、１８１　音声合成プログラム、１８２　逆量子化部、１８４　合成フィルタ、１９２　テキスト分析部、１９４　コンテキストラベル生成部、２００　エンコーダ、２０１　音声認識プログラム、２０２，２０６，２１４　演算器、２０４　量子化器、２０８，２１２　予測器、２１０　デコーダ、２２１　翻訳プログラム。

Claims

　音声合成システムに向けられた学習装置であって、
　過去の信号系列および現在のコンテキストラベルから現在の信号を推定する自己回帰モデルを備え、前記自己回帰モデルは、統計的データモデリングが可能なネットワーク構造を有しており、
　入力音声信号を分析して声道特徴を示す声道フィルタ係数を決定する声道特徴分析部と、
　前記声道フィルタ係数に基づいて予測される音声信号と前記入力音声信号との間の残差信号を出力する残差信号生成部と、
　前記残差信号生成部から出力される前記残差信号を量子化して量子化残差信号を生成する量子化部と、
　既知の入力テキストに対応する入力音声信号について、前記既知の入力テキストのコンテキストラベルを前記自己回帰モデルに対して条件として与えるとともに、前記入力音声信号についての前記量子化残差信号の過去の系列および現在のコンテキストラベルと、前記量子化残差信号の現在の信号とを対応付けることで前記自己回帰モデルの学習を実施する学習制御部とを備える、学習装置。
　入力テキストに応じた音声を合成して出力する音声合成システムであって、
　未知の入力テキストが入力されると、前記未知の入力テキストのコンテキストラベルを前記自己回帰モデルに対して条件として与えるとともに、過去の推定量子化残差信号を請求項１に記載の学習装置によって構築された前記自己回帰モデルを用いて、現在の量子化残差信号を出力する音声合成制御部を備える、音声合成システム。
　前記量子化部から出力される過去の量子化残差信号および現在のコンテキストラベルから推定された推定量子化残差信号を逆量子化して推定残差信号を生成する逆量子化部と、
　前記逆量子化部から出力される推定残差信号を前記声道フィルタ係数に基づいてフィルタリングした結果を音声信号として出力する合成フィルタと、
　前記入力音声信号についての声道フィルタ係数を格納する格納部とをさらに備える、請求項２に記載の音声合成システム。
　前記声道フィルタ係数は、聴覚重み付け係数により調整可能になっている、請求項２または３に記載の音声合成システム。
　入力テキストを分析して文脈情報を生成するテキスト分析部と、
　前記テキスト分析部からの文脈情報に基づいて、入力テキストのコンテキストラベルを生成するコンテキストラベル生成部とをさらに備える、請求項２～４のいずれか１項に記載の音声合成システム。
　入力テキストに応じた音声を合成して出力する音声合成方法であって、
　既知の入力テキストに対応する入力音声信号を分析して声道特徴を示す声道フィルタ係数を決定するステップと、
　前記声道フィルタ係数に基づいて予測される音声信号と前記入力音声信号との間の残差信号を生成するステップと、
　前記残差信号を量子化して量子化残差信号を生成するステップと、
　前記既知の入力テキストのコンテキストラベルを自己回帰モデルに対して条件として与えるとともに、過去の前記量子化残差信号および現在のコンテキストラベルから現在の前記量子化残差信号を推定する前記自己回帰モデルを学習するステップとを備え、前記自己回帰モデルは、過去の信号系列および現在のコンテキストラベルから現在値を推定するためのパラメータを格納しており、統計的データモデリングが可能なネットワーク構造を有している、音声合成方法。