JPWO2012164835A1 - 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム - Google Patents

韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム Download PDF

Info

Publication number
JPWO2012164835A1
JPWO2012164835A1 JP2013517837A JP2013517837A JPWO2012164835A1 JP WO2012164835 A1 JPWO2012164835 A1 JP WO2012164835A1 JP 2013517837 A JP2013517837 A JP 2013517837A JP 2013517837 A JP2013517837 A JP 2013517837A JP WO2012164835 A1 JPWO2012164835 A1 JP WO2012164835A1
Authority
JP
Japan
Prior art keywords
information
prosody
sparse
generation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013517837A
Other languages
English (en)
Other versions
JP5929909B2 (ja
Inventor
康行 三井
康行 三井
玲史 近藤
玲史 近藤
正徳 加藤
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2012164835A1 publication Critical patent/JPWO2012164835A1/ja
Application granted granted Critical
Publication of JP5929909B2 publication Critical patent/JP5929909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成する韻律生成装置を提供する。データ分割手段81は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割する。疎密情報抽出手段82は、データ分割手段81によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する。韻律情報生成方式選択手段83は、疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する。

Description

本発明は、音声合成処理に用いる韻律情報を生成する韻律生成装置、韻律生成方法、韻律生成プログラム、および、音声波形を生成する音声合成装置、音声合成方法、音声合成プログラムに関する。
近年、テキスト音声合成技術(Text-to-Speech:TTS)の進歩により、人間らしさを備えた合成音声を用いたサービスや製品が数多くみられるようになってきた。一般的に、TTSでは、まず入力されたテキストの言語構造等が形態素解析等により解析される(言語解析処理)。そして、その結果を元にアクセント等が付与された音韻情報が生成される。さらに、発音情報に基づいて基本周波数パタンや音素継続時間長が推定され(韻律生成処理)、生成された韻律情報と音韻情報に基づいて最終的に波形が生成される(波形生成処理)。以下、基本周波数をF0と記し、基本周波数パタンをF0パタンと記す。韻律生成処理で生成される韻律情報は、合成音声の声の高さやテンポを指定する情報であり、例えば、F0パタンと、各音素の継続時間長の情報を含む。
前述の韻律生成処理の方法として、F0パタンを単純なルールで表現できるようにモデル化し、そのルールを用いて韻律情報を生成する方法が知られている(例えば、非特許文献1参照)。非特許文献1に記載された方法のようにルールを用いる韻律情報の生成方法は、単純なモデルでF0パタンを生成できるため広く使われてきた。
また、近年では統計的手法を用いた音声合成方法が注目されている。その代表的な手法が、統計的手法として隠れマルコフモデル(Hidden Markov Model :HMM)を用いたHMM音声合成である(例えば、非特許文献2参照)。HMM音声合成では、大量の学習データを用いてモデル化した韻律モデルおよび音声合成単位(パラメータ)モデルを使って音声を生成する。HMM音声合成では、実際の人間が発声した音声を学習データとしているため、非特許文献1に記載されたルールを用いた韻律情報の生成方法に比べて、より人間らしい韻律情報を生成できる。
藤崎博也、須藤寛、「日本語単語アクセントの基本周波数パタンとその生成機構のモデル」、社団法人日本音響学会、日本音響学会誌、27巻、9号、pp.445−452、1971年 徳田 恵一、「隠れマルコフモデルの音声合成への応用」、社団法人電子情報通信学会、電子情報通信学会技術研究報告、SP99−61、pp.47−54、1999年
非特許文献1に記載された方法のようにルールを用いた韻律情報の生成方法では、単純なモデルでF0パタンを生成できる。しかし、韻律が不自然で、合成音声が機械的になってしまうという問題があった。
これに対し、非特許文献2に記載された方法のように、統計的手法を用いた韻律生成処理では、実際の人間が発声した音声を学習データとするため、より人間らしい韻律情報を生成できる。
しかし、統計的手法を用いた韻律生成処理では、主に学習データの情報量を基準として学習データ空間を分割(クラスタリング)する。そのため、学習データ空間内に情報量の疎な部分と密な部分とが生じ、学習データ空間内の疎な部分(換言すれば、学習データが少ない部分)では、正しいF0パタンが生成されないという問題がある。例えば、日本語における「人(hi to )」(2モーラ)、日本語における「単語(ta n go )」(3モーラ)、日本語における「音声(o n se i)」(4モーラ)といった数モーラ程度の学習データについては十分な量があるため、正しいF0パタンが生成される。一方、日本語における「アルバートアインシュタイン医科大学(a ru ba- to a i n syu ta i n i ka da i ga ku)」(18モーラ)のような学習データは極端に数が少ないか、あるいは存在しないおそれがある。そのため、このような単語を含むテキストが入力された場合、F0パタンが乱れてしまい、アクセント位置がずれる等の問題が発生する。
この問題を解決する方法の1つとして、さらに大量のデータでモデル学習するという方法が考えられる。しかし、大量の学習データを収集することは困難であり、また、どのくらいのデータ量を収集すれば十分であるかが不明であるため、現実的ではない。
そこで、本発明は、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成する韻律生成装置、韻律生成方法、韻律生成プログラム、音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
本発明による韻律生成装置は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段とを備えることを特徴とする。
また、本発明による音声合成装置は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段と、韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、その韻律情報を用いて音声波形を生成する波形生成手段とを備えることを特徴とする。
また、本発明による韻律生成方法は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択することを特徴とする。
また、本発明による音声合成方法は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択し、選択した韻律情報生成方式で韻律情報を生成し、その韻律情報を用いて音声波形を生成することを特徴とする。
また、本発明による韻律生成プログラムは、コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理を実行させることを特徴とする。
また、本発明による音声合成プログラムは、コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理、韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、その韻律情報を用いて音声波形を生成する波形生成処理を実行させることを特徴とする。
本発明によれば、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成することができる。
本発明の第1の実施形態の韻律生成装置の主要部を示すブロック図である。 本発明の第1の実施形態の韻律生成装置をより具体的に示すブロック図である。 本発明の第1の実施形態の動作の例を示すフローチャートである。 本発明の第2の実施形態の韻律生成装置の例を示すブロック図である。 本発明の第2の実施形態の動作の例を示すフローチャートである。 第1の実施例の音声合成装置を示すブロック図である。 二分木構造クラスタリングで作成された決定木構造の例を示す模式図である。 クラスタリングされた学習データ空間の例を示す模式図である。 第2の実施例の音声合成装置を示すブロック図である。 本発明の韻律生成装置の最小構成の例を示すブロック図である。 本発明の音声合成装置の最小構成の例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態の韻律生成装置の主要部を示すブロック図である。また、図2は、本発明の第1の実施形態の韻律生成装置をより具体的に示すブロック図である。本発明の第1の実施形態の韻律生成装置は、データ空間分割部1と、疎密情報抽出部2と、韻律生成方式選択部3とを備える。より具体的には、本実施形態の韻律生成装置は、図1に示す主要部に加え、さらに、韻律学習部9と、韻律生成部6とを備える(図2参照。)。
データ空間分割部1は、学習用データベース21の特徴量空間を分割する。
学習用データベース21は、音声波形データから抽出された特徴量である学習データの集合である。この特徴量は、音声特徴および言語特徴を示す数値あるいは文字列で表現される情報であり、少なくとも、音声波形におけるF0(基本周波数)の時間変化(すなわち、F0パタン)の情報を含む。さらに、学習用データベース21は、特徴量として、スペクトル情報、音素セグメンテーション情報、音声データの発生内容を示す言語情報を含むことが好ましい。
データ空間分割部1は、例えば、情報量を基準とした二分木構造クラスタリング等の方法によって、学習用データベース21の特徴量空間を分割すればよい。
疎密情報抽出部2は、データ空間分割部1によって分割された各部分空間における学習データの情報量の疎密状態を示す情報(疎密の程度を示す情報)を抽出する。以下、この情報を疎密情報と記す。疎密情報として、例えば、分割により得られた部分空間に属する学習データ群の特徴量ベクトルの平均値や分散値を用いることができる。疎密情報抽出部2は、特徴量としてアクセント句のモーラ数やアクセント核の相対位置を用いて、疎密情報を抽出してもよい。
学習用データベース21は、疎密情報を生成するために用いられる。また、本実施形態の韻律生成装置は、疎密情報を生成するために用いる学習用データベース21とは別に、韻律生成モデル23(図2参照。)を生成するための学習用データベース22(以下、韻律学習用データベース22と記す。図2参照。)も保持する。なお、韻律生成装置は、学習用データベース21を記憶した記憶手段(図示略)や、韻律学習用データベース22を記憶した記憶手段(図示略)を備えることにより、学習用データベース21や韻律学習用データベース22を保持すればよい。
韻律学習部9(図2参照。)は、韻律学習用データベース22を用いて、韻律生成モデル23を生成する。韻律生成モデル23は、韻律情報を生成するために用いられる統計モデルであり、音声と韻律情報との関係を表す。例えば、韻律生成モデル23は、統計的学習の結果として、「このような音声は、概ねこのような韻律情報を持つ」という音声と韻律情報との関係を表す。韻律学習部9は、韻律学習用データベース22を統計的手法で機械学習することによって、韻律生成モデル23を生成する。
韻律生成方式選択部3は、疎密情報抽出部2で抽出された疎密情報に基づいて、音声合成に用いる韻律情報の生成方式を選択する。既に説明したように、韻律情報は、合成音声の声の高さやテンポを指定する情報である。韻律情報は、韻律を表現する特徴量として、少なくとも、基本周波数の時間変化(すなわち、F0パタン)を含む。韻律生成方式選択部3によって選択される選択候補となる韻律情報の生成方式は、HMMに代表される統計的手法により韻律情報を生成する方式(以下、統計モデルベース方式と記す。)と、経験則に基づいた規則により韻律情報を生成する方式(以下、ルールベース方式と記す。)である。韻律生成方式選択部3は、例えば、生成しようとする合成音声の韻律情報が、学習データの少ない部分空間(学習データの疎な部分空間)に属する特徴量で表現される場合には、ルールベース方式を選択し、その他の場合には、統計モデルベース方式を選択すればよい。この場合、通常、統計モデルベース方式を選択し、生成しようとする合成音声の韻律情報が学習データの疎な部分空間に属する特徴量で表現されるという条件が満たされたときにルールベース方式を選択すればよい。
韻律生成部6(図2参照)は、韻律生成方式選択部3によって選択された韻律情報選択方式で、韻律情報を生成する。具体的には、韻律生成部6は、統計モデルベース方式が選択された場合には、韻律生成モデル23を用いて韻律情報を生成し、ルールベース方式が選択された場合には、韻律情報を生成するためのルールが記述された韻律生成規則辞書8を用いて韻律情報を生成する。韻律生成装置は、韻律生成規則辞書8を記憶した記憶手段(図示略)を備えることにより、韻律生成規則辞書8を保持すればよい。
データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部9および韻律生成部6は、例えば、韻律生成プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、コンピュータのプログラム記憶装置(図示略)が韻律生成プログラムを記憶し、CPUがそのプログラムを読み込み、そのプログラムに従って、データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部9および韻律生成部6として動作すればよい。また、データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部9および韻律生成部6が別々のハードウェアで実現されていてもよい。
図3は、本発明の第1の実施形態の動作の例を示すフローチャートである。第1の実施形態では、まず、データ空間分割部1が、学習用データベース21の特徴量空間を分割する(ステップS1)。次に、疎密情報抽出部2は、ステップS1で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する(ステップS2)。疎密情報抽出部2は、特徴量の平均値や分散値を疎密情報として求めてよい。また、特徴量として、アクセント句のモーラ数やアクセント核の相対位置を用いてもよい。
次に、韻律生成方式選択部3は、疎密情報に基づいて、音声合成に用いる韻律情報の生成方式を選択する(ステップS3)。そして、韻律生成部6(図2参照)は、ステップS3で韻律生成方式選択部3によって選択された韻律情報選択方式で、韻律情報を生成する(ステップS4)。ステップS3で統計モデルベース方式が選択された場合には、韻律生成部6は、韻律生成モデル23を用いて統計モデルベース方式で韻律情報を生成する。また、ステップS3でルールベース方式が選択された場合には、韻律生成部6は、韻律生成規則辞書8を用いてルールベース方式で韻律情報を生成する。なお、図3に示すフローチャートでは図示を省略しているが、韻律学習部9は、ステップS4よりも前に韻律生成モデル23を生成しておけばよい。
本実施形態によれば、疎な部分空間に属するような韻律情報においてはルールベース方式が選択されるため、疎な部分空間に関して統計モデルベース方式を用いない。従って、疎な部分空間に対応するために大量の学習データを収集する必要はなく、学習データ不足を要因とした音声合成の不安定性を回避することができる。また、通常は、統計モデルベース方式により韻律情報を生成するので、自然性の高い合成音声を生成することが可能となる。
なお、図2に示す要素に加えて、韻律生成部6で生成された韻律情報を用いて音声波形を生成する波形生成部をさらに備えていてもよい。このように、波形生成部をさらに備えた構成とした場合、本実施形態における韻律生成装置を音声合成装置と称することもできる。また、上記の波形生成部も、例えば、プログラムに従って動作するコンピュータのCPUによって実現される。すなわち、コンピュータのCPUが、プログラムに従って、データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部9、韻律生成部6および上記の波形生成部として動作してもよい。このプログラムは、音声合成プログラムと称することができる。
実施形態2.
図4は、本発明の第2の実施形態の韻律生成装置の例を示すブロック図である。第1の実施形態と同様の要素に関しては、図1、図2に示す要素と同一の符号を付し、説明を省略する。本発明の第2の実施形態の韻律生成装置は、データ空間分割部1と、疎密情報抽出部2と、韻律生成方式選択部3と、韻律学習部4と、韻律生成部6とを備える。
韻律学習部4は、データ空間分割部1に分割された学習用データベース空間内で、韻律生成モデルを学習する。
本実施形態では、韻律学習部4は、疎密情報を生成するために用いる学習用データベース21を用いて、韻律生成モデル23を生成する。学習用データベース21とは別個に保持された韻律学習用データベース22から韻律生成モデル23を生成する第1の実施形態の韻律学習部9とは、この点で異なる。韻律生成モデル23は、韻律生成方式選択部3によって統計モデルベース方式が選択され、韻律生成部6が統計モデルベース方式で韻律情報を生成する際に用いられる。
データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3および韻律生成部6は、第1の実施形態と同様である。
データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部4および韻律生成部6は、例えば、韻律生成プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUが韻律生成プログラムに従ってデータ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部4および韻律生成部6として動作すればよい。また、これらの各要素が別々のハードウェアで実現されていてもよい。
図5は、本発明の第2の実施形態の動作の例を示すフローチャートである。ステップS1〜S4の動作は、第1の実施形態と同様であり、詳細な説明を省略する。
第2の実施形態では、ステップS1の後、韻律学習部4は、データ空間分割部1に分割された学習用データベース空間内で、韻律生成モデル23を学習する(ステップS5)。韻律生成部6は、韻律生成方式選択部3によって選択された韻律情報選択方式で韻律情報を生成する(ステップS4)。このとき、ステップS3で統計モデルベース方式が選択された場合には、韻律生成部6は、ステップS5で生成された韻律生成モデル23を用いて統計モデルベース方式で韻律情報を生成する。また、ステップS3でルールベース方式が選択された場合には、韻律生成部6は、韻律生成規則辞書8を用いてルールベース方式で韻律情報を生成する。
本実施形態によれば、韻律生成モデル23を生成するために用いる学習用データベースと、韻律情報生成方式の選択のために用いる学習用データベースとを同一にすることにより、韻律生成モデル内で疎な部分空間については韻律情報生成方式がルールベース方式に変更される。そのため、学習データ不足を要因としたF0パタンの乱れを回避することができ、自然性の高い音声合成を生成することが可能となる。
また、韻律生成モデル23を生成するために用いる学習用データベースと、疎密情報を生成するために用いる学習用データベースとを同一にしているので、独特の発声スタイルや癖といった話者の特徴を表現することが可能となる。
なお、第2の実施形態におけるデータ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部4および韻律生成部6に加えて、韻律生成部6で生成された韻律情報を用いて音声波形を生成する波形生成部をさらに備えていてもよい。このように、波形生成部をさらに備えた構成とした場合、本実施形態における韻律生成装置を音声合成装置と称することもできる。また、上記の波形生成部も、例えば、プログラムに従って動作するコンピュータのCPUによって実現される。すなわち、コンピュータのCPUが、プログラムに従って、データ空間分割部1、疎密情報抽出部2、韻律生成方式選択部3、韻律学習部4、韻律生成部6および上記の波形生成部として動作してもよい。このプログラムは、音声合成プログラムと称することができる。
以下、本発明の音声合成装置の実施例を説明する。図6は、第1の実施例の音声合成装置を示すブロック図である。既に説明した要素と同様の要素に関しては、図1、図2、図4と同一の符号を付す。
予め、学習用データベース21が用意されているものとする。学習用データベース21は、多量の音声波形データから抽出した特徴量の集合である。本例では、学習用データベース21が、音声データの発声内容を示す音素列およびアクセント位置等の言語情報と、F0の時間変化情報であるF0パタンと、各音素の時間長情報であるセグメンテーション情報と、音声波形を高速フーリエ変換(Fast Fourier Transform:FFT)して求められるスペクトル情報とを、音声波形データの特徴量として含んでいるものとし、これらが学習データとして用いられる。また、学習データは1人の話者の音声から収集したものであるとする。
本実施例の音声合成装置の動作は、大きく分けて、HMM学習により韻律生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の2段階に分けられる。それぞれについて、順を追って説明する。
まず、データ空間分割部1および韻律学習部4が、学習用データベース21を用いて統計的手法による学習を行う。本実施例では、統計的手法としてHMMを用い、データ空間分割として二分木構造クラスタリングを用いるものとする。なお、HMMを用いる場合は、クラスタリングと学習とを交互に行うことが一般的であるので、説明を簡単にするために、本実施例ではデータ空間分割部1と韻律学習部4を併せてHMM学習部31とし、明示的に分割された構成を取らないものとする。ただし、HMM以外の統計的手法を用いる場合は、この限りではない。なお、疎密情報抽出部2もHMM学習部31に含まれるものとする。
HMM学習部31が学習した結果の例を図7に示す。図7は、二分木構造クラスタリングで作成された決定木構造の模式図である。二分木構造クラスタリングでは、各ノードに配置された質問により各ノードがさらに2つのノードに分かれ、最終的に分割された各クラスタの情報量が均等になるように学習データ空間がクラスタリングされる。クラスタリングされた学習データ空間の模式図を図8に示す。図8では、各クラスタに属する学習データ数が4である場合を示している。図8に示すように、10モーラ以上8型以上クラスタのような学習データ量が疎である空間では大きなクラスタが生成される。従って、このようなクラスタは、クラスタの大きさに対して学習データが非常に少ない疎なクラスタとなる。
次に、疎密情報抽出部2は、各クラスタの疎密情報を抽出する。本例では、疎密状態を判断する特徴量として、アクセント句のモーラ数、アクセント核の相対位置、疑問文か否かといった言語情報を用い、疎密情報抽出部2は、これらに関する分散値を用いて疎密情報を抽出する。このとき、例えば3モーラ1型クラスタでは、全データが3モーラ1型クラスタなので分散値は0となる。また、6〜8モーラ3型クラスタの分散値をσと仮定し、10モーラ以上8型以上クラスタの分散値をσと仮定する。なお、疎密情報抽出部2は、HMMの学習結果から疎密情報を抽出してもよい。抽出された疎密情報は、韻律生成モデル23に組み込まれ、各クラスタに対応付けられる。また、韻律生成モデルとは別に、疎密情報のみを持ったデータベースを用意し、対応表等を使って疎密情報とクラスタとを対応付けてもよい。
以上が、HMM学習部31が韻律生成モデルを生成する準備段階である。続いて、音声合成段階の処理について説明する。本実施例の音声合成装置が備える音声合成部32は、発音情報生成部5と、韻律生成方式選択部3と、韻律生成部6と、波形生成部7とを備える。また、音声合成部32は、発音情報生成用辞書24と、韻律生成規則辞書8とを保持する。例えば、発音情報生成用辞書24を記憶する記憶手段(図示略)や、韻律生成規則辞書8を記憶する記憶手段(図示略)が設けられていればよい。
まず、発音情報生成部5に、合成対象となるテキスト41が入力され、発音情報生成部5は、発音情報生成用辞書24を用いて発音情報42を生成する。具体的には、発音情報生成部5は、入力テキスト41に対して、例えば形態素解析等の言語解析処理を行い、言語解析結果に対して、アクセント位置やアクセント句区切り等の音声合成のための付加的情報を付与したり、変更を加えたりする処理を行う。発音情報生成部5は、これらの処理により、発音情報を生成する。また、発音情報生成用辞書24は、形態素解析用の辞書と、言語解析結果に対して付加的情報を付与するための辞書とを含んでいる。発音情報生成部5は、例えば、入力テキスト41として日本語における「アルバートアインシュタイン医科大学(a ru ba- to a i n syu ta i n i ka da i ga ku)」という単語が入力された場合、発音情報42として「a ru ba- to a i N syu ta i N i ka da @ i ga ku 」という文字列を出力する。“@”は、アクセント位置を示している。
次に、韻律生成方式選択部3は、各クラスタの疎密情報を元に韻律生成方式を選択する。本例では、韻律生成方式選択部3は、韻律情報生成方式の選択を、アクセント句毎に行い、「通常は統計モデルベース方式を選択し、疎なクラスタに属するアクセント句のみルールベース方式を選択する」という方針で韻律情報生成方式を選択するものとする。具体的には、分散値の閾値を予め設定しておく。そして、韻律生成方式選択部3は、分散値が閾値以上であるクラスタに属するアクセント句に関して、ルールベース方式を選択する。すなわち、分散値が閾値以上であることにより、疎なクラスタであることを判定する。また、分散値が閾値未満であるクラスタに属するアクセント句に関して、韻律生成方式選択部3は、統計モデルベース方式を選択する。例えば、本例では、分散値の閾値がσであり、σ>σ、σ<σであると仮定する。3モーラ1型クラスタは分散値が0なので、日本語における「僕は(bo ku wa)」「枕(ma ku ra)」等の3モーラ1型のアクセント句については、韻律生成方式選択部3は、統計モデルベース方式を選択する。同様に、σ>σであるので、日本語における「核開発(ka ku ka i ha tsu )(6モーラ)」等の6〜8モーラ3型クラスタに属するアクセント句についても、韻律生成方式選択部3は、統計モデルベース方式を選択する。一方、σ<σであるので、日本語における「アルバートアインシュタイン医科大学(a ru ba- to a i n syu ta i n i ka da i ga ku)(18モーラ15型)」等の10モーラ以上8型以上クラスタに属するアクセント句については、韻律生成方式選択部3は、ルールベース方式を選択する。
日本語における「私は去年からアルバートアインシュタイン医科大学に留学している(wa ta shi wa kyo ne n ka ra a ru ba- to a i n syu ta i n i ka da i ga ku ni ryu ga ku shi te i ru)。」という文の音声を合成する場合を想定して、具体的な韻律情報生成方式の選択方法を説明する。発音情報生成部5に生成された発音情報が、「wa ta shi wa | kyo @ ne N ka ra | a ru ba- to a i N syu ta i N i ka da @ i ga ku ni | ryu- ga ku shi te i ru」であったとする。ここで、“|”はアクセント句境界を意味する。この場合、第1番目、第2番目、および第4番目のアクセント句は、それぞれ4モーラ0型、5モーラ1型、8モーラ0型であるため、韻律生成方式選択部3は、統計モデルベース方式を選択する。一方、第3番目のアクセント句は19モーラ15型であり、σ<σであるため、韻律生成方式選択部3は、ルールベース方式を選択する。
また、HMM学習部31は、データ空間の分割とともに韻律生成モデルの学習も行い、韻律生成モデルを作成する。韻律生成部6は、韻律生成方式選択部3に選択された韻律情報生成方式で、韻律情報を生成する。このとき、韻律生成部6は、統計モデルベース方式が選択された場合、韻律生成モデル23を用いて韻律情報を生成し、ルールベース方式が選択された場合、韻律生成規則辞書8を用いて韻律情報を生成する。疎なクラスタに属するアクセント句の韻律情報を統計モデルベース方式で生成した場合、データ量が不十分なため、韻律が乱れるおそれがある。これに対し、韻律生成モデルにも前述と同一のクラスタリング結果を用い、疎なクラスタに属するアクセント句については、韻律生成方式選択部3がルールベース方式を選択するため、乱れの少ない韻律情報が生成される。
最後に、波形生成部7は、生成された韻律情報と発音情報を元に音声波形を生成する。換言すれば、合成音声43を生成する。
本実施例では、韻律生成方式選択部3が韻律情報生成方式を選択する際に、疎密情報を直接用いることを想定したが、疎密情報に基づいて自動あるいは手動で作成された条件に従って、韻律情報生成方式を選択してもよい。
また、本実施例のように、疎密情報を判断する特徴量としてアクセント句のモーラ数やアクセント核の相対位置等の言語情報を用いる場合、これらの情報は直感的に判読し易いという利点がある。従って、疎密情報抽出部2が抽出した疎密情報そのものではなく、疎密情報に基づいて手動で作成された条件を用いて韻律生成方式選択部3が韻律情報生成方式を判定する場合に、そのような条件の作成が容易となるという効果をもたらす。
また、本実施例では、学習用データベース21として、1人の話者の音声から収集したものを想定したが、複数の話者の音声から収集したものを学習用データベース21としてもよい。単独の話者から作成した学習用データベース21を用いた場合は、話者の癖等の話者の特性を再現した合成音声を生成できるという効果が得られ、複数の話者から作成した学習用データベース21を用いた場合は、汎用的な合成音声を生成できるという効果が得られることが期待できる。
また、本実施例では、韻律生成モデルのクラスタ毎に疎密情報を対応付けることを想定したが、韻律生成モデルのクラスタとは独立に疎密情報から設定した基準に従って韻律情報生成方式を切り替えてもよい。例えば、疎密情報から12モーラ以上のアクセント句に関しては概ね学習データが疎であることが判明したとする。この場合、韻律生成方式選択部3は、「12モーラ以上は全てルールベース方式とする」という基準に従って、12モーラ以上のアクセント句に関してはルールベース方式を選択し、12モーラ未満のアクセント句に関して統計モデルベース方式を選択してもよい。
図9は、第2の実施例の音声合成装置を示すブロック図である。第1の実施例と同様の要素については、図6と同一の符号を付し、説明を省略する。本実施例では、HMM学習部31が、データ空間分割部1、疎密情報抽出部2、韻律学習部4に加え、さらに、波形特徴量学習部51も含む。
本実施例では、HMM学習部31が、学習用データベース21を用いて、韻律生成モデル23と波形生成モデル27とを生成する。具体的には、波形生成モデル27は、波形特徴量学習部51が生成する。
波形生成モデルとは、学習用データベース21内の波形のスペクトル特徴量をモデル化したものである。具体的には、この特徴量として、ケプストラム等の特徴量が挙げられる。なお、ここでは波形生成のためのデータとして、HMMにより生成した統計モデルを用いたが、別の音声合成方式(例えば、波形接続方式)を用いてもよい。その場合、HMMで学習されるのは韻律生成モデル23のみであるが、波形生成に用いる単位波形は、学習用データベース21から生成されることが望ましい。
本実施例によれば、疎であるクラスタに属する波形生成モデルで波形生成部7が波形を生成した場合、その部分の音質劣化を防止できる。また、話者ごとの癖等の特徴を忠実に再現できるという効果も期待できる。なお、波形生成にHMMを用いない波形接続方式などにおいても、学習データが疎であるクラスタに属するデータに関して、対応する単位波形のデータ量も不足している。そのため、疎なクラスタに属するデータを使用しないという点で、音質劣化を回避する効果が期待できる。
次に、本発明の最小構成について説明する。図10は、本発明の韻律生成装置の最小構成の例を示すブロック図である。本発明の韻律生成装置は、データ分割手段81と、疎密情報抽出手段82と、韻律情報生成方式選択手段83とを備える。
データ分割手段81(例えば、データ空間分割部1)は、音声波形の特徴量を示す学習データの集合である学習用データベース(例えば、学習用データベース21)のデータ空間を分割する。
疎密情報抽出手段82(例えば、疎密情報抽出部2)は、データ分割手段81によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する。
韻律情報生成方式選択手段83(例えば、韻律生成方式選択部3)は、疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式(例えば、統計モデルベース方式)と、経験則に基づいた規則により韻律情報を生成する第2の方式(例えば、ルールベース方式)のいずれかを選択する。
以上のような構成により、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成することができる。
図11は、本発明の音声合成装置の最小構成の例を示すブロック図である。本発明の音声合成装置は、データ分割手段81と、疎密情報抽出手段82と、韻律情報生成方式選択手段83と、韻律生成手段84と、波形生成手段85とを備える。データ分割手段81、疎密情報抽出手段82および韻律情報生成方式選択手段83に関しては、図10に示すそれらの要素と同様であり、説明を省略する。
韻律生成手段84(例えば、韻律生成部6)は、韻律情報生成方式選択手段83に選択された韻律情報生成方式で韻律情報を生成する。
波形生成手段85(例えば、波形生成部7)は、韻律情報を用いて音声波形を生成する。
以上のような構成により、図10に示す韻律生成装置と同様の効果が得られる。
上記の実施形態や実施例の一部または全部は、以下の付記のようにも記載されうるが、以下には限定されない。
(付記1)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段とを備えることを特徴とする韻律生成装置。
(付記2)疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成手段を備える付記1に記載の韻律生成装置。
(付記3)韻律情報生成方式選択手段は、疎密情報に基づいて作成された条件に従って、第1の方式または第2の方式を選択する付記1または付記2に記載の韻律生成装置。
(付記4)疎密情報抽出手段は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する付記1から付記3のうちのいずれかに記載の韻律生成装置。
(付記5)疎密情報抽出手段は、疎密情報として、学習データが示す特徴量の分散を求める付記1から付記4のうちのいずれかに記載の韻律生成装置。
(付記6)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段と、韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、前記韻律情報を用いて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。
(付記7)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択することを特徴とする韻律生成方法。
(付記8)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択し、選択した韻律情報生成方式で韻律情報を生成し、前記韻律情報を用いて音声波形を生成することを特徴とする音声合成方法。
(付記9)コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理を実行させるための韻律生成プログラム。
(付記10)コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理、韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、前記韻律情報を用いて音声波形を生成する波形生成処理を実行させるための音声合成プログラム。
(付記11)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割部と、データ分割部によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出部と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択部とを備えることを特徴とする韻律生成装置。
(付記12)疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成部を備える付記11に記載の韻律生成装置。
(付記13)韻律情報生成方式選択部は、疎密情報に基づいて作成された条件に従って、第1の方式または第2の方式を選択する付記11または付記12に記載の韻律生成装置。
(付記14)疎密情報抽出部は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する付記11から付記13のうちのいずれかに記載の韻律生成装置。
(付記15)疎密情報抽出部は、疎密情報として、学習データが示す特徴量の分散を求める付記11から付記14のうちのいずれかに記載の韻律生成装置。
(付記16)音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割部と、データ分割部によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出部と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択部と、韻律情報生成方式選択部に選択された韻律情報生成方式で韻律情報を生成する韻律生成部と、前記韻律情報を用いて音声波形を生成する波形生成部とを備えることを特徴とする音声合成装置。
この出願は、2011年5月30日に出願された日本特許出願2011−120499を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
本発明は、例えば、情報量が限定された学習データを用いた音声合成装置等に好適に適用可能である。例えば、ニュース記事や自動応答文等のテキスト全般の読み上げを行う音声合成装置等に好適に適用可能である。
1 データ空間分割部
2 疎密情報抽出部
3 韻律生成方式選択部
4 韻律学習部
6 韻律生成部
7 波形生成部

Claims (10)

  1. 音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、
    データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段とを備える
    ことを特徴とする韻律生成装置。
  2. 疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成手段を備える
    請求項1に記載の韻律生成装置。
  3. 韻律情報生成方式選択手段は、疎密情報に基づいて作成された条件に従って、第1の方式または第2の方式を選択する
    請求項1または請求項2に記載の韻律生成装置。
  4. 疎密情報抽出手段は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する
    請求項1から請求項3のうちのいずれか1項に記載の韻律生成装置。
  5. 疎密情報抽出手段は、疎密情報として、学習データが示す特徴量の分散を求める
    請求項1から請求項4のうちのいずれか1項に記載の韻律生成装置。
  6. 音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、
    データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択手段と、
    韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、
    前記韻律情報を用いて音声波形を生成する波形生成手段とを備える
    ことを特徴とする音声合成装置。
  7. 音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、
    分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する
    ことを特徴とする韻律生成方法。
  8. 音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、
    分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択し、
    選択した韻律情報生成方式で韻律情報を生成し、
    前記韻律情報を用いて音声波形を生成する
    ことを特徴とする音声合成方法。
  9. コンピュータに、
    音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、
    データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理
    を実行させるための韻律生成プログラム。
  10. コンピュータに、
    音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、
    データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、
    前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第1の方式と、経験則に基づいた規則により韻律情報を生成する第2の方式のいずれかを選択する韻律情報生成方式選択処理、
    韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、
    前記韻律情報を用いて音声波形を生成する波形生成処理
    を実行させるための音声合成プログラム。
JP2013517837A 2011-05-30 2012-05-10 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム Active JP5929909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011120499 2011-05-30
JP2011120499 2011-05-30
PCT/JP2012/003061 WO2012164835A1 (ja) 2011-05-30 2012-05-10 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2012164835A1 true JPWO2012164835A1 (ja) 2015-02-23
JP5929909B2 JP5929909B2 (ja) 2016-06-08

Family

ID=47258713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013517837A Active JP5929909B2 (ja) 2011-05-30 2012-05-10 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム

Country Status (3)

Country Link
US (1) US9324316B2 (ja)
JP (1) JP5929909B2 (ja)
WO (1) WO2012164835A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
US11289070B2 (en) * 2018-03-23 2022-03-29 Rankin Labs, Llc System and method for identifying a speaker's community of origin from a sound sample
US11341985B2 (en) 2018-07-10 2022-05-24 Rankin Labs, Llc System and method for indexing sound fragments containing speech
WO2021183421A2 (en) 2020-03-09 2021-09-16 John Rankin Systems and methods for morpheme reflective engagement response
US11521594B2 (en) * 2020-11-10 2022-12-06 Electronic Arts Inc. Automated pipeline selection for synthesis of audio assets
CN115810345B (zh) * 2022-11-23 2024-04-30 北京伽睿智能科技集团有限公司 一种智能话术推荐方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6478300A (en) * 1987-09-18 1989-03-23 Nippon Telegraph & Telephone Voice synthesization
JPH09222898A (ja) * 1996-02-19 1997-08-26 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JP2001282282A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法および装置および記憶媒体
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
EP2473916A4 (en) * 2009-09-02 2013-07-10 Stanford Res Inst Int METHOD AND DEVICE FOR USING A HUMAN FEEDBACK IN AN INTELLIGENT AUTOMATED ASSISTANT

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6478300A (en) * 1987-09-18 1989-03-23 Nippon Telegraph & Telephone Voice synthesization
JPH09222898A (ja) * 1996-02-19 1997-08-26 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JP2001282282A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法および装置および記憶媒体
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Also Published As

Publication number Publication date
US20140012584A1 (en) 2014-01-09
JP5929909B2 (ja) 2016-06-08
US9324316B2 (en) 2016-04-26
WO2012164835A1 (ja) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP6036682B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4328698B2 (ja) 素片セット作成方法および装置
US20090254349A1 (en) Speech synthesizer
JP2014056235A (ja) 音声処理システム
US11763797B2 (en) Text-to-speech (TTS) processing
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
KR20070077042A (ko) 음성처리장치 및 방법
King A beginners’ guide to statistical parametric speech synthesis
JPWO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
Savargiv et al. Study on unit-selection and statistical parametric speech synthesis techniques
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Yin An overview of speech synthesis technology
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP6036681B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
Inanoglu et al. Intonation modelling and adaptation for emotional prosody generation
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160418

R150 Certificate of patent or registration of utility model

Ref document number: 5929909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150