JPWO2007063827A1 - 声質変換システム - Google Patents

声質変換システム Download PDF

Info

Publication number
JPWO2007063827A1
JPWO2007063827A1 JP2007547942A JP2007547942A JPWO2007063827A1 JP WO2007063827 A1 JPWO2007063827 A1 JP WO2007063827A1 JP 2007547942 A JP2007547942 A JP 2007547942A JP 2007547942 A JP2007547942 A JP 2007547942A JP WO2007063827 A1 JPWO2007063827 A1 JP WO2007063827A1
Authority
JP
Japan
Prior art keywords
voice
speaker
conversion
target
conversion function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007547942A
Other languages
English (en)
Other versions
JP4928465B2 (ja
Inventor
剛志 舛田
剛志 舛田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2007547942A priority Critical patent/JP4928465B2/ja
Publication of JPWO2007063827A1 publication Critical patent/JPWO2007063827A1/ja
Application granted granted Critical
Publication of JP4928465B2 publication Critical patent/JP4928465B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。サーバ10の中間変換関数生成部101は中間変換関数Fを生成し、目標変換関数生成部102は目標変換関数Gを生成する。携帯端末20の中間声質変換部211は、変換関数Fを用いて元話者の音声から中間話者の音声を生成し、目標声質変換部212は、変換関数Gを用いて中間声質変換部211により生成された中間話者の音声を目標話者の音声に変換する。

Description

本発明は、元話者の音声を目標話者の音声に変換する声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムに関する。
従来、ある話者の音声を別の話者の音声に変換する声質変換技術が知られている(例えば、特許文献1、非特許文献1参照)。
図22には、基本的な声質変換処理の過程を示す。声質変換処理の過程は、学習過程と変換過程とで構成される。学習過程では、元話者及び変換目標となる目標話者の音声を収録して学習用音声データを蓄積しておき、当該学習用音声データに基づいて学習を行うことにより、元話者の音声を目標話者の音声に変換するための変換関数を生成する。変換過程では、学習過程で生成された変換関数を用いて、元話者が発声した任意の音声を目標話者の音声に変換する。これらの処理はコンピュータで行われる。
特開2002−215198号公報 Alexander Kain and Michael W.Macon "SPECTRAL VOICE CONVERSION FOR TEXT-TO-SPEECH SYNTHESIS"
このような声質変換技術では、元話者の音声を目標話者の音声に変換するためには、元話者の声質と目標話者の声質との組合せに固有の変換関数を生成する必要がある。従って、元話者及び目標話者が複数存在し、元話者の音声各々から目標話者の音声各々へ変換するための変換関数を生成しようとする場合には、元話者と目標話者との組合せの数だけ学習を行う必要がある。
例えば、図23に示すように、26人の元話者A、B、・・・、Zと10人の目標話者1、2、・・・、10とが存在し、元話者の音声各々を目標話者の音声各々に変換するための変換関数を作成する場合、元話者26人と目標話者10人との組合せの数260(=26×10)だけ学習を行い変換関数を生成する必要がある。声質変換を実用化し声質変換サービスを元話者に提供しようとする場合、元話者及び目標話者の数の増加に伴って変換関数の数が増加するため、コンピュータが学習及び変換関数生成を行う負荷が増大する。また、大量に生成した変換関数を蓄積しておくための大容量の記憶装置が必要となる。
また、学習用音声データとして、元話者と目標話者とが同じ発声内容の文章を約50文(これを1セットの音声内容という)収録する必要がある。もし、目標話者10人から収録された音声セットが各々異なる音声内容である場合には、1人の元話者は10通りの音声セットを収録する必要がある。1セットの音声内容を収録するのに30分の時間を要すると想定した場合、1人の元話者は学習用音声データの収録に5時間も費やすことになる。
さらに、目標話者の音声がアニメのキャラクター、有名人の音声、他界した人等である場合には、これらの人々に声質変換に必要となる音声セットの発声を依頼して音声収録を行うのは、費用的に現実的でなかったり不可能であったりする。
本発明は、以上のような従来の問題を解決するためになされたものであり、少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、元話者の音声を目標話者の音声に変換する声質変換システムにおいて、元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。
本発明によれば、声質変換システムは、元話者の音声を、中間話者の音声への変換を介して目標話者の音声に変換するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意しておけば、元話者の音声各々を目標話者の音声各々に変換することが可能となる。従って、従来のように元話者の音声各々を直接目標話者の音声各々に変換するよりも必要となる変換関数の数が減少するため、少ない学習負担で生成された変換関数を用いて声質変換を行うことが可能となる。
請求項2に記載の発明は、1つ以上の元話者各々の音声を1つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、前記元話者の音声を、前記1つ以上の元話者各々に対し共通に設けられた1つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段とを備えることを特徴とする声質変換学習システムを提供する。
本発明によれば、声質変換学習システムは、1つ以上の元話者各々の音声を1つの中間話者の音声に変換するための中間変換関数と、1つの中間話者の音声を1つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者各々の音声を直接目標話者各々の音声に変換するよりも生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となり、少ない学習の負担で生成された中間変換関数及び目標変換関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。
請求項3に記載の発明は、請求項2に記載の声質変換学習システムにおいて、前記目標変換関数生成手段は、前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする。
本発明によれば、実際の声質変換を行う際には、元話者の音声を中間変換関数により変換し、その変換後の音声を目標変換関数で変換することにより目標話者の音声を生成することとなるので、収録した実際の中間話者の音声を目標話者の音声に変換するための関数を目標変換関数として生成するよりも、声質変換時の声質の精度が高くなる。
請求項4に記載の発明は、請求項2又は3に記載の声質変換学習システムにおいて、前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする。
本発明によれば、学習に用いられる中間話者の音声を音声合成装置から出力される音声とすることで、元話者や目標話者の音声内容と同じ音声内容を音声合成装置から容易に出力することができるため、学習時の元話者や目標話者の発声内容が制約されることがなく、利便性が高まる。
請求項5に記載の発明は、請求項2から4の何れか1項に記載の声質変換関学習システムにおいて、前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする。
本発明によれば、学習に用いられる元話者の音声を音声合成装置から出力される音声とすることで、目標話者の音声内容と同じ音声内容を音声合成装置から容易に出力することができる。そのため、学習時の目標話者の音声内容が制約されることがなく、利便性が高まる。例えば、目標話者の音声として映画で収録された俳優の音声を用いた場合、限られた音声内容しか収録されていなくても容易に学習を行うことができる。
請求項6に記載の発明は、請求項2から5の何れか1項に記載の声質変換学習システムにおいて、前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする。
本発明によれば、合成した関数を使用する場合の方が、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。
請求項7に記載の発明は、請求項2から6の何れか1項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。
本発明によれば、声質変換システムは、少ない学習の負担で生成された関数を用いて、1つ以上の元話者各々の音声を1つ以上の目標話者各々の音声に変換することが可能となる。
請求項8に記載の発明は、請求項7に記載の声質変換システムにおいて、前記声質変換手段として、前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする。
本発明によれば、声質変換システムは、従来よりも少ない数の変換関数を用いて、元話者各々の音声を目標話者各々の音声に変換することが可能となる。
請求項9に記載の発明は、請求項7に記載の声質変換システムにおいて、前記声質変換手段が、前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする。
本発明によれば、声質変換システムは、中間変換関数と目標変換関数とが合成された関数を用いて元話者の音声を目標話者の音声に変換することができる。そのため、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。
請求項10に記載の発明は、請求項7から9の何れか1項に記載の声質変換システムにおいて、前記声質変換手段が、音声の特徴量であるスペクトル系列を変換することを特徴とする。
本発明によれば、既存の音声エンコーダから音声デコーダに送信される符号データを変換することにより容易に声質変換を行うことができる。
請求項11に記載の発明は、クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、1つ以上のユーザ各々の音声を1つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおいて、前記クライアントコンピュータは、前記ユーザの音声を取得するユーザ音声取得手段と、前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンピュータへ送信するユーザ音声送信手段と、前記ユーザの音声を前記1つ以上のユーザ各々に共通に設けられた1つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータから受信する中間変換関数受信手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータから受信する目標変換関数受信手段と備え、前記サーバコンピュータは、前記クライアントコンピュータから前記ユーザの音声を受信するユーザ音声受信手段と、前記中間話者の音声を予め記憶する中間話者音声記憶手段と、前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、前記目標話者の音声を予め記憶する目標話者音声記憶手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、更に前記クライアントコンピュータは、前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、当該中間話者の音声から前記目標話者の音声を生成する目標変換手段とを備えることを特徴とする声質変換クライアントサーバシステムを提供する。
本発明によれば、サーバコンピュータがユーザ用の中間変換関数、及び、目標変換関数の生成を行い、クライアントコンピュータがサーバコンピュータから中間変換関数及び目標変換関数を受信することで、クライアントコンピュータはユーザの音声を目標話者の音声に変換することができる。
請求項12に記載の発明は、コンピュータに、1つ以上の元話者各々の音声を1つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、1つの中間話者の音声を1つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップとの少なくとも一方のステップを実行させるためのプログラムを提供する。
本発明によれば、上記プログラムを1又は2以上のコンピュータに記憶させておくことで、声質変換に使用するための中間変換関数、及び、目標変換関数を生成することができる。
請求項13に記載の発明は、コンピュータに、元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、前記変換関数取得ステップにおいて取得された中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換ステップと、前記変換関数取得ステップにおいて取得された目標変換関数を用いて、前記中間声質変換ステップにおいて生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換ステップとを実行させるためのプログラムを提供する。
本発明によれば、前記プログラムをコンピュータに記憶させておくことで、コンピュータは元話者の音声を中間話者の音声への変換を介して目標話者の音声に変換することが可能となる。
本発明によれば、声質変換学習システムは、1つ以上の元話者各々の音声を1つの中間話者の音声に変換するための中間変換関数と、前記1つの中間話者の音声を1つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、従来のように元話者各々の音声を直接目標話者各々の音声に変換するよりも、生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となる。声質変換システムは、声質変換学習システムにより生成された関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。
本発明の実施の形態に係る声質学習・変換システムの構成を示す図である。 同実施の形態に係るサーバの構成機能を示す図である。 変換関数F(x)及び変換関数Gy(i)を使用する代わりに、変換関数F(x)及び変換関数Gy(i)を合成することにより生成した変換関数Hy(x)を使用して、元話者xの音声を目標話者yの音声に変換する手順を示すための図である。 同実施の形態に係るw1(f)、w2(f)、w’(f)の一例を示すためのグラフである。 同実施の形態に係る携帯端末の機能構成を示す図である。 同実施の形態に係る各元話者から各目標話者への声質変換に必要な変換関数の数を説明するための図である。 同実施の形態に係るサーバにおける変換関数Gy(i)の学習及び蓄積処理の流れを示すフローチャートである。 同実施の形態に係る携帯端末における元話者x用の変換関数Fの取得手順を示すフローチャートである。 同実施の形態に係る携帯端末における声質変換処理の手順を示すフローチャートである。 同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の1つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の2つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の3つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の4つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の1つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の2つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の3つ目のパターンについて説明するためのフローチャートである。 同実施の形態に係る手法と従来法とにおけるケプストラムの歪みを比較するためのグラフである。 変形例に係る携帯端末が中間変換関数生成部を備えている場合の、携帯端末における変換関数Fの生成手順を示すフローチャートである。 変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、送信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。 変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、受信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。 変形例に係る、サーバで声質変換を行う場合の処理パターンの一例を示す図である。 従来における基本的な声質変換処理の過程を示す図である。 従来における元話者の音声を目標話者の音声に変換するのに必要となる変換関数の数の一例を説明するための図である。
符号の説明
1 声質変換クライアントサーバシステム
10 サーバ
101 中間変換関数生成部
102 目標変換関数生成部
20 携帯端末
21 声質変換部
211 中間声質変換部
212 目標声質変換部
以下、図面を参照して、本発明に係る実施の形態について説明する。
図1は、本発明の実施の形態に係る声質変換クライアントサーバシステム1の構成を示す図である。
同図に示すように、本発明の実施の形態に係る声質変換クライアントサーバシステム1は、サーバ(「声質変換学習システム」に該当)10と、複数の携帯端末(「声質変換システム」に該当)20とを含んで構成されている。サーバ10は携帯端末20を所持するユーザの音声を目標話者の音声に変換するための変換関数を学習し生成する。携帯端末20は、サーバ10から変換関数を取得し、当該変換関数に基づいてユーザの音声を目標話者の音声に変換する。ここで、音声は、波形もしくはその波形から何らかの方法で抽出されたパラメータ系列などを表すものとする。
(サーバの機能構成)
次に、サーバ10の構成機能について説明する。図2に示すように、サーバ10は、中間変換関数生成部101と、目標変換関数生成部102とを備えている。これらの機能は、サーバ10に搭載されているCPUが記憶装置に記憶されているプログラムに従って処理を実行することにより実現される。
中間変換関数生成部101は、元話者の音声と中間話者の音声とに基づいて学習を行うことにより、元話者の音声を中間話者の音声に変換するための変換関数F(「中間変換関数」に該当)を生成する。ここで、元話者の音声及び中間話者の音声は、予め元話者と中間話者とに同じ約50文(1セットの音声内容)を発声させ収録しておいたものを用いる。中間話者は1人(所定の声質)であり、元話者が複数存在する場合には、複数の元話者各々の音声と1つの中間話者の音声との学習をそれぞれ行う。つまり、1つの中間話者が1以上の元話者各々に対して共通に設けられているといえる。学習の手法としては、例えば、混合正規分布モデル(GMM)に基づく特徴量変換法を用いることができる。これ以外にも、あらゆる公知の手法を用いることが可能である。
目標変換関数生成部102は、中間話者の音声を目標話者の音声に変換するための変換関数G(「目標変換関数」に該当)を生成する。
ここで、目標変換関数生成部102が行う変換関数Gの学習方式は2通り存在する。1つ目の学習方式は、収録された元話者の音声を変換関数Fによって変換した後の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この1つ目の変換方式を「変換後特徴量変換方式」という。実際の声質変換時には、元話者の音声を変換関数Fにより変換し、その変換後の音声を変換関数Gで変換することにより目標話者の音声を生成するので、この方式では実際の声質変換時の処理手順を考慮した学習を行うことができる。
2つ目の学習方式は、実際の声質変換時の処理手順は考慮せずに、収録された中間話者の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この2目の変換方式を「変換前特徴量変換方式」という。
なお、変換関数F、Gの形式は数式に限らず、変換テーブルの形で表されていてもよい。
変換関数合成部103は、中間変換関数生成部101により生成された変換関数Fと、目標変換関数生成部102により生成された変換関数Gとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成する。
図3は、変換関数F(x)及び変換関数Gy(i)を使用して元話者xの音声を目標話者yの音声に変換する(図3(a))代わりに、変換関数F(x)及び変換関数Gy(i)を合成することにより生成した変換関数Hy(x)を使用して、元話者xの音声を目標話者yの音声に変換する(図3(b))手順を示す図である。変換関数Hy(x)を使用する場合の方が、変換関数F(x)及び変換関数Gy(i)を使用する場合に比較して、元話者xの音声を目標話者yの音声に変換するのに要する計算時間が約半分になる。また、中間話者の特徴量を生成しないため声質変換処理時に使用されるメモリサイズを削減することが可能となる。
以下、変換関数Fと変換関数Gとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成することが可能であることを説明する。具体的な例として、特徴量がスペクトルパラメータである場合について示す。スペクトルパラメータに対する関数を1次関数で表した場合、fを周波数とすると、変換前スペクトルs(f)から変換後スペクトルs’(f)への変換は、次式で表される。
s’(f)=s(w(f))
ただし、w( )は周波数の変換を表す関数である。元話者から中間話者への周波数の変換をw1( )、中間話者から目標話者への周波数の変換をw2( )、元話者のスペクトルをs(f)、中間話者のスペクトルをs’(f)、目標話者のスペクトルをs’’(f)とすると、
s’(f)=s(w1(f))
s’’(f)=s’(w2(f))
となる。例えば、図4に示すように、
w1(f)=f/2
w2(f)=2f+5
とし、w1(f)とw2(f)との合成関数をw’(f)とすると、
w’(f)=2(f/2)+5=f+5
となる。この結果、
s’’(f)=s(w’(f))
と表すことができる。このことから、変換関数Fと変換関数Gとを合成することにより元話者の音声を目標話者の音声に変換するための関数の生成が可能であることが判る。
(携帯端末の機能構成)
次に携帯端末20の機能構成について説明する。携帯端末20は、例えば、携帯電話機が該当する。なお、携帯電話機以外にも、マイクロフォンが接続されたパーソナルコンピュータであってもよい。図5には、携帯端末20の機能構成を示す。なお、この機能構成は、携帯端末20に搭載されているCPUが不揮発性メモリに記憶されているプログラムに従って処理を実行することにより実現される。同図に示すように、携帯端末20は声質変換部21を備えている。声質変換方法としては、例えば、声質変換部21は、スペクトル系列を変換することによって声質を変換する。或いは、声質変換部21は、スペクトル系列の変換と音源信号との両方の変換を行うことによって声質変換を行う。スペクトル系列としては、ケプストラム係数あるいはLSP(Line Spectral Pair;線形スペクトル対)係数などを用いることができる。スペクトル系列のみならず音源信号に対しても声質変換を行うことで、より目標話者に近づいた音声を得ることが可能である。
声質変換部21は、中間声質変換部211と目標声質変換部212とで構成される。
中間声質変換部211は、変換関数Fを用いて、元話者の音声を中間話者の音声に変換する。
目標声質変換部212は、変換関数Gを用いて、中間声質変換部211により変換された中間話者の音声を目標話者の音声に変換する。
なお、本実施の形態においては、変換関数F、Gはサーバ10で作成され、携帯端末20にダウンロードされる。
図6には、元話者A、B、・・・、Y、Zと、中間話者iと、目標話者1、2、・・・、9、10とが存在する場合に、各元話者から各目標話者への声質変換に必要な変換関数の数を説明するための図である。
同図に示すように、元話者A、B、・・・、Y、Z各々の音声を目標話者iの音声に変換できるようにするためには、変換関数Fは、F(A)、F(B)、・・・、F(Y)、F(Z)の26種類必要となる。また、中間話者iの音声を目標話者1、2、・・・、9、10各々の音声に変換できるようにするためには、変換関数GはG1(i)、G2(i)、・・・、G9(i)、G10(i)10種類必要となる。従って、合計26+10=36種類の変換関数が必要となる。これに対して、従来例では、上述したように、260種類の変換関数が必要となる。このように、本実施の形態においては、変換関数の数を大幅に削減することが可能となる。
(サーバにおける変換関数Gの学習及び蓄積処理)
次に、図7を参照して、サーバ10における変換関数Gy(i)の学習及び蓄積処理を説明する。
ここで、元話者x及び中間話者iは、人又はTTS(Text-to-Speech)であり、サーバ10を所持するベンダ側で用意される。TTSとは、任意のテキスト(文字)を対応する音声に変換し、当該音声を所定の声質で出力する公知の装置である。
図7(a)には、変換後特徴量変換方式により変換関数Gを学習する場合の処理手順を示す。
同図に示すように、まず、中間変換関数生成部101は、元話者xの音声と予め入手して記憶装置に記憶されている中間話者iの音声(「中間話者音声記憶手段」に該当)とに基づいて学習を行い、変換関数F(x)を生成する。そして、元話者xの音声を変換関数F(x)で変換した後の音声x’を出力する(ステップS101)。
次に、目標変換関数生成部102は、変換音声x’と予め入手して記憶装置に記憶されている目標話者y(「目標話者音声記憶手段」に該当)の音声とに基づいて学習を行い、変換関数Gy(i)を生成し(ステップS102)、生成した変換関数Gy(i)をサーバ10が備える記憶装置に蓄積する(ステップS103)。
図7(b)には、変換前特徴量変換方式により変換関数Gを学習する場合の処理手順を示す。
同図に示すように、目標変換関数生成部102は、中間話者iの音声と目標話者yの音声とに基づいて学習を行い、変換関数Gy(i)を生成する(ステップS201)。そして、生成した変換関数Gy(i)をサーバ10が備える記憶装置に蓄積する(ステップS202)。
従来においては、サーバ10において元話者の人数×目標話者の人数分学習を行う必要があったが、本実施の形態においては、中間話者の人数1人×目標話者の人数分だけ学習を行えばよくなるため、生成される変換関数Gの数が減少する。したがって、学習のための処理負荷が低減され、また、変換関数Gの管理が容易になる。
(携帯端末における変換関数Fの取得手順)
次に、図8を参照して、携帯端末20における元話者x用の変換関数F(x)の取得手順について説明する。
図8(a)には、中間話者iの音声として人の音声を使用する場合の手順を示す。
同図に示すように、まず、元話者xが携帯端末20に向かって発声すると、携帯端末20は、元話者xの音声をマイクロフォンで収集し(「ユーザ音声取得手段」に該当)、当該音声をサーバ10に送信する(「ユーザ音声送信手段」に該当)(ステップS301)。サーバ10は元話者xの音声を受信し(「ユーザ音声受信手段」に該当)、中間変換関数生成部101は、元話者xの音声と中間話者iの音声とに基づいて学習し、変換関数F(x)を生成する(ステップS302)。サーバ10は、生成した変換関数F(x)を携帯端末20に送信する(「中間変換関数送信手段」に該当)(ステップS303)。
図8(b)には、中間話者iの音声としてTTSから出力される音声を使用する場合の処理手順を示す。
同図に示すように、まず、元話者xが携帯端末20に向かって発声すると、携帯端末20は元話者xの音声をマイクロフォンで収集し、当該音声をサーバ10に送信する(ステップS401)。
サーバ10に受信された元話者xの音声の内容は、音声認識装置又は人手でテキストに変換され(ステップS402)、当該テキストはTTSに入力される(ステップS403)。TTSは入力されたテキストに基づき中間話者i(TTS)の音声を生成して出力する(ステップS404)。
中間変換関数生成部101は、元話者xの音声と中間話者iの音声とに基づいて学習を行い、変換関数F(x)を生成する(ステップS405)。サーバ10は、生成した変換関数F(x)を携帯端末20に送信する(ステップS406)。
携帯端末20は、受信した変換関数F(x)を不揮発性メモリに記憶する。変換関数F(x)が携帯端末20に記憶された後は、図1に示すように、元話者xは、所望の変換関数Gをサーバ10から携帯端末20にダウンロードすれば(「目標変換関数送信手段」、「目標変換関数受信手段」に該当)、元話者xの音声を所望の目標話者の音声に変換することが可能となる。従来においては、元話者xは各目標話者の音声セットの内容に合わせて発声を行い、目標話者毎の変換関数を取得する必要があったが、本実施の形態においては、元話者xは1セット分の音声を発声して1つの変換関数F(x)を取得するのみでよく、元話者xの負担が軽減される。
(声質変換処理)
次に、図9を参照して、携帯端末20が声質変換を行う際の処理手順について説明する。なお、携帯端末20の不揮発性メモリには、元話者Aの音声を中間話者の音声に変換するための変換関数F(A)と、中間話者の音声を目標話者yの音声に変換するための変換関数Gとが、サーバ10からダウンロードされて記憶されているものとする。
まず、携帯端末20に元話者Aの音声が入力されると、中間声質変換部211は、変換関数F(A)を用いて、元話者Aの音声を中間話者の音声に変換する(ステップS501)。次に、目標声質変換部212は、その中間話者の音声を、変換関数Gy(i)を用いて目標話者yの音声に変換し(ステップS502)、目標話者yの音声を出力する(ステップS503)。ここで、出力された音声は、例えば、通信ネットワークを介して通信相手の携帯端末に送信され、当該携帯端末が備えるスピーカから出力される。また、元話者Aが変換後の音声を確認するために、携帯端末20が備えるスピーカから出力されるようにしてもよい。
(変換関数生成処理及び声質変換処理の各種処理パターン)
次に、図10〜16を参照して、変換関数生成処理及び声質変換処理の各種処理パターンについて説明する。
[1]変換後特徴量変換方式
まず、変換関数学習方式が変換後特徴量変換方式である場合について説明する。
(1)図10には、学習に使用するために収録された中間話者の音声が1セット(setA)である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.1(A))を生成する(ステップS1101)。
同様に、中間変換関数生成部101は、元話者Src.2の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.2(A))を生成する(ステップS1102)。
次に、目標変換関数生成部102は、元話者Src.1の音声setAをステップS1101で生成した変換関数F(Src.1(A))で変換して、変換後Tr.setAを生成する(ステップS1103)。そして、目標変換関数生成部102は、変換後Tr.setAと目標話者Tag.1の音声setAとに基づいて学習を行い、変換関数G1(Tr.(A))を生成する(ステップS1104)。
同様に、目標変換関数生成部102は、変換後Tr.setAと、目標話者Tag.2の音声setAとに基づいて学習を行い、変換関数G2(Tr.(A))を生成する(ステップS1105)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を、学習過程で生成した変換関数F(Src.1(A))を用いて中間話者In.の音声に変換する(ステップS1107)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(Tr.(A))又は変換関数G2(Tr.(A))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1108)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(A))を用いて中間話者In.の音声に変換する(ステップS1109)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(Tr.(A))又は変換関数G2(Tr.(A))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1110)。
以上のように、学習時に中間話者の発声をsetAの1セットのみ使用した場合には、元話者の発声内容と目標話者の発声内容も同じsetAである必要があるが、従来に比較して、生成すべき変換関数の数を減少させることができる。
(2)図11には、中間話者の音声がTTS又は人により発声された複数セット分(setA,setB)の音声である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.1(A))を生成する(ステップS1201)。
同様に、中間変換関数生成部101は、元話者Src.2の音声setBと中間話者In.の音声setBとに基づいて学習を行い、変換関数F(Src.2(B))を生成する(ステップS1202)。
次に、目標変換関数生成部102は、元話者Src.1の音声setAをステップS1201で生成した変換関数F(Src.1(A))で変換して、変換後Tr.setAを生成する(ステップS1203)。そして、目標変換関数生成部102は、変換後Tr.setAと、目標話者Tag.1の音声setAと、に基づいて学習を行い、変換関数G1(Tr.(A))を生成する(ステップS1204)。
同様に、目標変換関数生成部102は、元話者Src.2の音声setBをステップS1202で生成した変換関数F(Src.2(B))で変換して、変換後Tr.setBを生成する(ステップS1205)。そして、目標変換関数生成部102は、変換後Tr.setBと、目標話者Tag.2の音声setBとに基づいて学習を行い、変換関数G2(Tr.(B))を生成する(ステップS1206)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を、変換関数F(Src.1(A))を用いて中間話者In.の音声に変換する(ステップS1207)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(Tr.(A))又は変換関数G2(Tr.(B))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1208)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を、変換関数F(Src.2(B))を用いて、中間話者In.の音声に変換する(ステップS1209)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(Tr.(A))又は変換関数G2(Tr.(B))を用いて目標話者Tag.1又は目標話者Tag.2へ変換する(ステップS1210)。
このパターンの場合には、学習の際に、元話者の発声内容と目標話者との発声内容とは同一(setA同士、setB同士)である必要がある。一方、中間話者をTTSとした場合には、中間話者の発声内容は元話者及び目標話者の音声内容に合わせて発声させることができるため、元話者と目標話者との発声内容を合わせるだけでよく、学習時の利便性が高まる。また、中間話者をTTSとした場合には、半永久的に中間話者の音声を発声させることができる。
(3)図12には、学習に使用される元話者の音声の一部がTTS又は人により発声された複数セット分(setA,setB,setC)の音声であり、中間話者の音声が1セット分(setA)の音声である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者の音声setAと中間話者In.の音声setAとに基づいて、元話者の音声を中間話者In.の音声に変換するための変換関数F(TTS(A))を生成する(ステップS1301)。
次に、目標変換関数生成部102は、生成した変換関数F(TTS(A))で元話者の音声setBを変換し、変換後Tr.setBを作成する(ステップS1302)。次に、目標変換関数生成部102は、変換後Tr.setBと目標話者Tag.1の音声setBとに基づいて学習を行い、中間話者In.の音声を目標話者Tag.1の音声に変換するための変換関数G1(Tr.(B))を作成する(ステップS1303)。
同様に、目標変換関数生成部102は、生成した変換関数F(TTS(A))で元話者の音声setCを変換し、変換後Tr.setCを作成する(ステップS1304)。
次に、目標変換関数生成部102は、変換後Tr.setCと目標話者Tag.1の音声setCとに基づいて学習を行い、中間話者In.の音声を目標話者Tag.2の音声に変換するための変換関数G2(Tr.(C))を作成する(ステップS1305)。
また、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて、元話者Src.1の音声を中間話者In.の音声に変換するための変換関数F(Src.1(A))を生成する(ステップS1306)。
同様に、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて、元話者Src.2の音声を中間話者In.の音声に変換するための変換関数F(Src.2(A))を生成する(ステップS1307)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を変換関数F(Src.1(A))を用いて中間話者In.の音声に変換する(ステップS1308)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(Tr.(B))又は変換関数G2(Tr.(C))を用いて、目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1309)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(A))を用いて、中間話者In.の音声に変換する(ステップS1310)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(Tr.(B))又は変換関数G2(Tr.(C))を用いて、目標話者Tag.1又は目標話者Tag.2へ変換する(ステップS1311)。
以上のように、このパターンの場合には、中間話者の音声内容と目標話者との音声内容を非パラレルコーパスにすることできる。また、元話者としてTTSを用いた場合には、目標話者の発声内容に合わせて元話者としてのTSSの発声内容を柔軟に変化させることができるため、変換関数の学習を柔軟に行うことができる。なお、中間話者In.の音声内容は1セット(setA)のみであるため、携帯端末10を所持する元話者Src.1、Src.2が声質変換を行うための変換関数Fを取得する場合には、元話者Src.1、Src.2が発声する内容は中間話者In.の発声内容と同一のsetAである必要がある。
(4)図13には、学習に使用される元話者の音声の一部が、TTS又は人により発声された複数セット分(setA,setB)の音声であり、中間話者の音声がTTS又は人により発声された複数セット分(setA,setC,setD)の音声である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者の音声setAと中間話者の音声In.の音声setAとに基づいて学習を行い、元話者の音声setAを中間話者In.の音声setAに変換するための変換関数F(TTS(A))を生成する(ステップS1401)。
次に、目標変換関数生成部102は、ステップS1401で生成された変換関数F(TTS(A))で元話者の音声setAを変換することにより、変換後Tr.setAを作成する(ステップS1402)。
次に、目標変換関数生成部102は、変換後Tr.setAと目標話者Tag.1の音声setAとに基づいて学習を行い、中間話者の音声を目標話者Tag.1の音声に変換するための変換関数G1(Tr.(A))を作成する(ステップS1403)。
同様に、目標変換関数生成部102は、変換関数F(TTS(A))で元話者の音声setBを変換することにより、変換後Tr.setBを作成する(ステップS1404)。次に、標変換関数生成部102は、変換後Tr.setBと目標話者Tag.2の音声setBとに基づいて学習を行い、中間話者の音声を目標話者Tag.2の音声に変換するための変換関数G2(Tr.(B))を作成する(ステップS1405)。
また、中間変換関数生成部101は、元話者Src.1の音声setCと中間話者In.の音声setCとに基づいて学習を行い、元話者Src.1の音声を中間話者In.の音声に変換するための関数F(Src.1(C))を生成する(ステップS1406)。
同様に、中間変換関数生成部101は、元話者Src.2の音声setDと中間話者In.の音声setDとに基づいて学習を行い、元話者Src.2の音声を中間話者In.の音声に変換するための関数F(Src.2(D))を生成する(ステップS1407)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を変換関数F(Src.1(C))を用いて中間話者In.の音声に変換する(ステップS1408)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(Tr.(A))又は変換関数G2(Tr.(B))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1409)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(D))を用いて、中間話者In.の音声に変換する(ステップS1410)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(Tr.(A))又は変換関数G2(Tr.(B))を用いて目標話者Tag.1又は目標話者Tag.2へ変換する(ステップS1411)。
このパターンの場合には、学習時の元話者と目標話者、及び、中間話者と目標話者との音声内容を非パラレルコーパスとすることができる。
また、中間話者がTTSである場合には、TTSから任意の発声内容を出力することができるため、携帯端末10を所持する元話者Src.1、Src.2が声質変換を行うための変換関数Fを取得する場合には、元話者Src.1、Src.2が発声する内容は決められたものでなくてもよくなる。また、元話者がTTSである場合には、目標話者の発声内容が決められたものでなくてもよくなる。
[2]変換前特徴量変換方式
次に、変換関数学習方式が変換前特徴量変換方式である場合について説明する。上述した変換後特徴量変換方式では、実際の声質変換処理の手順を考慮して変換関数Gを生成した。これに対して、変換前特徴量変換方式では、変換関数Fと変換関数Gとを独立に学習する。この方式では、学習工程は減少するが、変換後の声質の精度が若干低下することとなる。
(1)図14には、学習用の中間話者の音声が1セット分(setA)の音声である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.1(A))を生成する(ステップS1501)。同様に、中間変換関数生成部101は、元話者Src.2の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.2(A))を生成する(ステップS1502)。
次に、目標変換関数生成部102は、中間話者In.の音声setAと目標話者Tag.1の音声setAとに基づいて学習を行い、変換関数G1(In.(A))を生成する(ステップS1503)。同様に、目標変換関数生成部102は、中間話者In.の音声setAと目標話者Tag.2の音声setAとに基づいて学習を行い、変換関数G2(In.(A))を生成する(ステップS1503)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を変換関数F(Src.1(A))を用いて中間話者In.の音声に変換する(ステップS1505)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(In.(A))又は変換関数G2(In.(A))を用いて、目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1506)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(A))を用いて中間話者In.の音声に変換する(ステップS1507)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(In.(A))又は変換関数G2(In.(A))を用いて、目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1508)。
このように、中間話者の発声内容をsetAの1セットのみ収録して学習を行う場合には、変換後特徴量変換方式と同様に、元話者の発声内容と目標話者の発声内容とが同一の発声内容のセット(setA)である必要があるが、従来に比較して、学習により生成すべき変換関数の数が減少する。
(2)図15には、中間話者の音声がTTS又は人により発声された複数セット分(setA,setB,setC,setD)の音声である場合の学習過程及び変換過程を示す。
まず、中間変換関数生成部101は、元話者Src.1の音声setAと中間話者In.の音声setAとに基づいて学習を行い、変換関数F(Src.1(A))を生成する(ステップS1601)。同様に、中間変換関数生成部101は、元話者Src.2の音声setBと中間話者In.の音声setBとに基づいて学習を行い、変換関数F(Src.2(B))を生成する(ステップS1602)。
次に、目標変換関数生成部102は、中間話者In.の音声setCと目標話者Tag.1の音声setCとに基づいて学習を行い、変換関数G1(In.(C))を生成する(ステップS1603)。同様に、目標変換関数生成部102は、中間話者In.の音声setDと目標話者Tag.2の音声setAとに基づいて学習を行い、変換関数G2(In.(D))を生成する(ステップS1604)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を変換関数F(Src.1(A))を用いて中間話者In.の音声に変換する(ステップS1605)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(In.(C))又は変換関数G2(In.(D))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1606)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(B))を用いて中間話者In.の音声に変換する(ステップS1607)。次に、目標声質変換部212は、中間話者In.の音声を変換関数G1(In.(C))又は変換関数G2(In.(D))を用いて目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1608)。
以上のように、中間話者をTTSとした場合には、半永久的に中間話者に所定の声質の音声を発声させることができる。また、元話者及び中間話者の発声内容に関わらず、元話者及び中間話者の発声内容に合わせた音声内容をTTSから出力することができるため、学習時の元話者及び中間話者の発声内容が制約されることがない。このため利便性が高まり、変換関数を容易に生成することができる。また、元話者と目標話者との発声内容を非パラレルコーパスにすることができる。
(3)図16には、元話者の音声の一部がTTS又は人により発声された複数セット分(ここでは、setA,setB)の音声であり、中間話者の音声がTTS又は人により発声された複数セット分(ここでは、setA,setC,setD)の音声である場合の学習過程及び変換過程を示す。
目標変換関数生成部102は、中間話者In.の音声setAと目標話者Tag.1の音声setAとに基づいて学習を行い、変換関数G1(In.(A))を生成する(ステップS1701)。
同様に、目標変換関数生成部102は、中間話者In.の音声setBと目標話者Tag.2の音声setBとに基づいて学習を行い、変換関数G2(In.(B))を生成する(ステップS1702)。
中間変換関数生成部101は、元話者Src.1の音声setCと中間話者In.の音声setCとに基づいて学習を行い、変換関数F(Src.1(C))を生成する(ステップS1703)。
同様に、中間変換関数生成部101は、元話者Src.2の音声setDと中間話者In.の音声setDとに基づいて学習を行い、変換関数F(Src.2(D))を生成する(ステップS1704)。
変換過程においては、中間声質変換部211は、元話者Src.1の任意の音声を変換関数F(Src.1(C))を用いて中間話者In.の音声に変換する(ステップS1705)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(In.(A))又は変換関数G2(In.(B))を用いて、目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1706)。
同様に、中間声質変換部211は、元話者Src.2の任意の音声を変換関数F(Src.2(D))を用いて中間話者In.の音声に変換する(ステップS1707)。次に、目標声質変換部212は、中間話者In.の音声を、変換関数G1(In.(A))又は変換関数G2(In.(B))を用いて、目標話者Tag.1又は目標話者Tag.2の音声へ変換する(ステップS1708)。
このパターンの場合には、中間話者をTTSとした場合には、元話者及び目標話者の発声内容に応じて元話者の発声内容を変化させることができ、柔軟に変換関数の学習を行うことができる。また、学習時の元話者と目標話者との音声内容を非パラレルコーパスにすることできる。
(評価)
次に、従来法及び本願手法における声質変換の精度を客観的に評価するために実施した実験手順及び実験結果について説明する。
ここでは、声質変換の手法として、混合正規分布モデル(GMM)に基づく特徴量変換法(例えば、A. Kain and M.W.Macon,”Spectral voice conversion for text-to-speech synthesis,” Proc.ICASSP,pp.285-288,Seattle,U.S.A.May,1998.参照)を用いる。
以下、GMMに基づく声質変換手法について説明しておく。時間領域においてフレームごとに対応付けられた、変換元となる話者の音声の特徴量xおよび変換先となる話者の音声の特徴量yを、それぞれ
Figure 2007063827
と表す。ここで、pは特徴量の次元数であり、Tは転置を示す。GMMでは、音声の特徴量xの確率分布p(x)を
Figure 2007063827
と表す。ここで、αiはクラスiの重み、mはクラス数である。また、N(x;μi,Σi)はクラスiでの平均ベクトルμiおよび共分散行列Σiを有する正規分布であり、
Figure 2007063827
と表される。次に、元話者の音声の特徴量xから目標話者の音声の特徴量yへと変換を行う変換関数F(x)は、
Figure 2007063827
と表される。ここで、μi(x)、μi(y)はそれぞれxおよびyのクラスiでの平均ベクトルを表す。また、Σi(xx)はxのクラスiでの共分散行列を示し、Σi(yx)はyとxにおけるクラスiでの相互共分散行列を示す。hi(x)は、
Figure 2007063827
である。変換関数F(x)の学習は、変換パラメータである(αi、μi(x)、μi(y)、Σi(xx)、Σi(yx))を推定することにより行われる。xおよびyの結合特徴量ベクトルzを
Figure 2007063827
と定義する。zの確率分布p(z)はGMMにより
Figure 2007063827
と表される。ここで、zのクラスiでの共分散行列Σi(z)および平均ベクトルμi(z)はそれぞれ
Figure 2007063827
と表される。変換パラメータ(αi、μi(x)、μi(y)、Σi(xx)、Σi(yx))の推定は、公知のEMアルゴリズムにより行うことができる。
学習にはテキストなどの言語情報は一切使用せず、特徴量の抽出やGMMの学習はコンピュータを用いて全て自動で行う。実験には、元話者として男女各1名(男性話者A、女性話者B)、中間話者Iとして女性話者1名、目標話者Tとして男性1名を用いる。
学習データとして、ATR音素バランス文(例えば、阿部匡伸、匂坂芳典、梅田哲夫、桑原尚夫著、“研究用日本語音声データベース利用解説書(速読音声データ編)、”ATRテクニカルレポート、TR-I-0166,1990.参照)のうちサブセット50文を使用し、評価データとして学習データに含まれないサブセット50文を使用する。
音声に対しては、STRAIGHT分析(例えば、H. Kawahara et al. ”Restructuring speech representation using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based f0 extraction : possible role of a repetitive structure in sounds,” Speech Communication,Vol.27,No.3-4,pp.187-207,1999.参照)を行う。サンプリング周期は16kHz、フレームシフトは5msである。音声のスペクトル特徴量として、STRAIGHTスペクトルから変換された1〜41次のケプストラム係数を用いる。GMMの混合数は64とする。変換精度の評価尺度として、ケプストラム歪(Cepstral Distortion)を用いる。評価は元話者から変換したケプストラムと、目標話者のケプストラムとの歪を計算する。ケプストラム歪は式(1)で表され、値が小さいほど高い評価となる。
Figure 2007063827
ここで、Ci(x)は目標話者の音声のケプストラム係数、Ci(y)は変換音声のケプストラム係数、pはケプストラム係数の次数を示す。本実験では、p=41である。
実験結果のグラフを図17に示す。グラフ縦軸はケプストラム歪みであり、当該値は各フレームごとに式(1)により求められたケプストラム歪みを、全フレームにおいて平均した値である。
(a)は元話者(A、B)のケプストラムと目標話者Tのケプストラムとの歪みを表す。(b)は、従来法に相当し、元話者(A、B)と目標話者Tで直接学習を行った場合の元話者(A、B)から変換したケプストラムと、目標話者Tのケプストラムとの歪みを表す。(c)、(d)は、本願の手法を適用したものである。(c)について具体的に説明すると、元話者Aから中間話者Iへの中間変換関数をF(A)、元話者AよりF(A)を使用して生成された音声から目標話者Tの音声への目標変換関数をG(A)とする。また同様に、元話者Bから中間話者Iへの中間変換関数をF(B)、元話者BよりF(B)を使用して生成された音声から目標話者Tの音声への目標変換関数をG(B)とする。ここで、元話者AからF(A)を使用し、中間話者Iのケプストラムに一度変換し、さらにG(A)を使用して目標話者Tに変換したケプストラムと、目標話者Tのケプストラムとの歪み(元話者A→目標話者T)を表す。同様に、元話者BからF(B)を使用し、中間話者Iのケプストラムに一度変換し、さらにG(B)を使用して目標話者Tに変換したケプストラムと、目標話者Tのケプストラムとの歪み(元話者B→目標話者T)も表す。
(d)は、(c)において本人以外の目標変換関数Gを使用した場合について表す。具体的には、元話者AからF(A)を使用して中間話者Iに変換した後、G(B)を使用して目標話者Tに変換したケプストラムと、目標話者Tのケプストラムとの歪み(元話者A→目標話者T)を表す。また同様に、元話者BからF(B)を使用して中間話者Iに変換した後、G(A)を使用して目標話者Tに変換したケプストラムと、目標話者Tのケプストラムとの歪み(元話者B→目標話者T)も表す。
これらのグラフより、従来法(b)と本願手法(c)とでケプストラムの歪みはほぼ同じ値をとっていることから、中間話者を介した変換を行っても従来法と同程度の品質を保つことができることがわかる。さらに、従来法(b)と本願手法(d)とでケプストラムの歪みはほぼ同じ値をとっていることから、中間話者を介した変換を行うときに、中間話者から目標話者への目標変換関数は、任意の元話者により作成された目標話者ごとに1種類のGを共通に使用しても、従来法と同程度の品質を保つことができることがわかる。
以上説明したように、サーバ10は、1つ以上の元話者各々の音声を1つの中間話者の音声に変換するための変換関数Fと、前記1つの中間話者の音声を1つ以上の目標話者各々の音声に変換するための変換関数Gとを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意すれば、元話者各々の音声を目標話者各々の音声に変換することができる。つまり、従来のように、元話者の音声各々を目標話者の音声各々に変換するための変換関数を用意するよりも少ない変換関数で声質変換を行うことが可能となる。従って、少ない負担で学習を行い変換関数を生成し、当該変換関数を用いて声質変換を行うことが可能となる。
また、携帯端末20を利用して自己の音声の声質変換を行うユーザは、自己の音声を中間話者の音声に変換するための変換関数Fを1つ作成して携帯端末20に記憶させておき、中間話者からユーザ所望の目標話者の音声に変換するための変換関数Gをサーバ10からダウンロードすることで、容易に自己の音声を目標話者の音声に変換することが可能となる。
また、目標変換関数生成部102は、元話者の音声が変換関数Fによって変換された後の音声を目標話者の音声に変換するための関数を、中間変換関数として生成することができる。そのため、実際の声質変換時の処理に合わせた変換関数を生成することができ、中間話者から直接収集された音声を目標話者の音声に変換するための変換関数を生成するよりも、実際の声質変換時の声質精度を向上させることができる。
また、中間話者の音声をTTSから出力される音声とすることで、元話者や目標話者がどのような内容の音声を発声しても、TTSに同じ内容の音声を発声させることができる。そのため、学習時における元話者や目標話者の発声内容の制約がなくなり、元話者や目標話者から特定の音声内容を収集するための手間が省け、変換関数の学習を容易に行うことができる。
また、変換後特徴量変換方式において元話者の音声をTTSとすることで、目標話者の発声内容に合わせて元話者としてのTTSに任意の音声内容を発声させることができ、目標話者の発声内容に制約されずに容易に変換関数Gを学習することが可能となる。
例えば、目標話者の音声がアニメのキャラクターや映画俳優の音声であっても、過去に収録された音源を用いて容易に学習を行うことができる。
また、変換関数Fと変換関数Gとを合成した変換関数を用いて声質変換を行うことにより、声質変換に要する時間やメモリを削減することができる。
(変形例)
(1)上述した実施の形態では、声質変換クライアントサーバシステム1を構成する装置のうち、サーバ10が中間変換関数生成部101及び目標変換関数生成部102を備え、携帯端末20が中間声質変換部211及び目標声質変換部212を備えているとして説明した。しかし、これに限定されることはなく、声質変換クライアントサーバシステム1の装置構成、及び、声質変換クライアントサーバシステム1を構成する装置における中間変換関数生成部101、目標変換関数生成部102、中間声質変換部211、及び、目標声質変換部212の配置はいかなる配置であっても構わない。
例えば、1つの装置が中間変換関数生成部101、目標変換関数生成部102、中間声質変換部211、目標声質変換部212の全ての機能を備えていてもよい。
また、変換関数学習機能のうち、携帯端末20が中間変換関数生成部101を備えており、サーバ10が目標変換関数生成部102を備えていてもよい。この場合には、携帯端末20の不揮発性メモリに変換関数Fを学習し生成するためのプログラムを記憶させておく必要がある。
以下、図18を参照して、携帯端末20が中間変換関数生成部101を備えている場合の、携帯端末20における変換関数Fの生成手順について説明する。
図18(a)には、元話者Aの発声内容が固定の場合の手順を示す。元話者xの発声内容が固定の場合には、予め当該内容の中間話者の音声を携帯端末20の不揮発性メモリに記憶させておく。そして、携帯端末20が備えるマイクロフォンで収集された元話者xの音声と、携帯端末20に記憶させておいた中間話者iの音声とに基づいて学習し(ステップS601)、変換関数F(x)を取得する(ステップS602)。
図18(b)には、元話者Aの発声内容が自由である場合の処理手順を示す。この場合には、音声をテキストに変換する音声認識装置と、テキストを音声に変換するTTSとを携帯端末20に搭載しておく。
まず、音声認識装置は、携帯端末20が備えるマイクロフォンで収集された元話者xの音声の音声認識を行い、元話者xの発声内容をテキストに変換し(ステップS701)、TTSに入力する。TTSは、テキストから中間話者i(TTS)の音声を生成する(ステップS702)。
中間変換関数生成部101は、中間話者i(TTS)の音声と元話者の音声とに基づいて学習し(ステップS703)、変換関数F(x)を取得する(ステップS704)。
(2)上述した実施の形態においては、声質変換部21は、変換関数Fを用いて元話者の音声を中間話者の音声に変換する中間声質変換部211と、変換関数Gを用いて中間話者の音声を目標話者の音声に変換する目標声質変換部212と、で構成されているとして説明した。これは一例に過ぎず、声質変換部21は、変換関数Fと変換関数Gとが合成された関数を用いて、元話者の音声を直接目標話者の音声に変換する機能を備えていてもよい。
(3)本発明に係る声質変換機能を送信側及び受信側の携帯電話機に適用することで、送信側の携帯電話機に入力された音声の声質を変換して、受信側の携帯電話機から出力することが可能となる。この場合、送信側及び受信側の携帯電話機における処理パターンとしては、以下のパターンが考えられる。
1)送信側の携帯電話機でLSP(Line Spectral Pair)係数を変換した後(図19(a)参照)、受信側の携帯電話機でデコードする(図19(c)参照)。
2)送信側の携帯電話機でLSP係数及び音源信号を変換した後(図19(b)参照)、受信側の携帯電話機でデコードする(図19(c)参照)。
3)送信側の携帯電話機でエンコードした後(図20(a)参照)、受信側の携帯電話機でLSP係数を変換した後デコードする(図20(b)参照)。
4)送信側の携帯電話機でエンコードした後(図20(a)参照)、受信側の携帯電話機でLSP係数及び音源信号を変換した後、デコードする(図20(c)参照)。
なお、上記3)、4)のように受信側の携帯電話機で変換を行うためには、正確には、送信者(音声入力者)の変換関数又は送信者の属する変換関数のクラスタを決定するインデックスなど、送信者の変換関数に関する情報が必要となる。
以上のように、既存の携帯電話機に対して、LSP係数変換、音源信号変換等を利用した声質変換の機能を追加するだけで、システムやインフラの変更を伴わずに、携帯電話機間で送受信される音声の声質変換を行うことができる。
また、図21に示すように、サーバにおいて声質変換を行うことも可能である。図21では、LSP係数及び音源信号の両方を変換しているが、LSP係数のみの変換でもよい。
(4)上述した実施の形態においては、音声合成装置としてTTSを用いたが、入力された音声内容を、所定の声質に変換して出力する装置を用いても良い。
(5)上述した実施の形態においては、中間話者の音声への変換を介する2段階の声質変換について説明している。しかし、これに限定されることはなく、複数の中間話者の音声への変換を介する多段階の声質変換であってもよい。
少ない変換学習及び少ない変換関数で、多くのユーザの音声を多様な目標話者の音声に変換することを可能とする声質変換サービスに利用することができる。

Claims (13)

  1. 元話者の音声を目標話者の音声に変換する声質変換システムにおいて、
    元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。
  2. 1つ以上の元話者各々の音声を1つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、
    前記元話者の音声を、前記1つ以上の元話者各々に対し共通に設けられた1つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、
    前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段と
    を備えることを特徴とする声質変換学習システム。
  3. 前記目標変換関数生成手段は、
    前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする
    請求項2に記載の声質変換学習システム。
  4. 前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする
    請求項2又は3に記載の声質変換学習システム。
  5. 前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする
    請求項2から4の何れか1項に記載の声質変換学習システム。
  6. 前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする
    請求項2から5の何れか1項に記載の声質変換学習システム。
  7. 請求項2から6の何れか1項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。
  8. 前記声質変換手段は、
    前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、
    前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする
    請求項7に記載の声質変換システム。
  9. 前記声質変換手段は、
    前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする
    請求項7に記載の声質変換システム。
  10. 前記声質変換手段は、音声の特徴量であるスペクトル系列を変換することを特徴とする
    請求項7から9の何れか1項に記載の声質変換システム。
  11. クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、1つ以上のユーザ各々の音声を1つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおいて、
    前記クライアントコンピュータは、
    前記ユーザの音声を取得するユーザ音声取得手段と、
    前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンピュータへ送信するユーザ音声送信手段と、
    前記ユーザの音声を前記1つ以上のユーザ各々に共通に設けられた1つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータから受信する中間変換関数受信手段と、
    前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータから受信する目標変換関数受信手段と備え、
    前記サーバコンピュータは、
    前記クライアントコンピュータから前記ユーザの音声を受信するユーザ音声受信手段と、
    前記中間話者の音声を予め記憶する中間話者音声記憶手段と、
    前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、
    前記目標話者の音声を予め記憶する目標話者音声記憶手段と、
    前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、
    前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、
    前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、
    更に前記クライアントコンピュータは、
    前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、
    前記目標変換関数を用いて、当該中間話者の音声から前記目標話者の音声を生成する目標変換手段と
    を備えることを特徴とする声質変換クライアントサーバシステム。
  12. コンピュータに、
    1つ以上の元話者各々の音声を1つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、
    1つの中間話者の音声を1つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップと
    の少なくとも一方のステップを実行させるためのプログラム。
  13. コンピュータに、
    元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、
    前記変換関数取得ステップにおいて取得された中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換ステップと、
    前記変換関数取得ステップにおいて取得された目標変換関数を用いて、前記中間声質変換ステップにおいて生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換ステップと
    を実行させるためのプログラム。
JP2007547942A 2005-12-02 2006-11-28 声質変換システム Expired - Fee Related JP4928465B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007547942A JP4928465B2 (ja) 2005-12-02 2006-11-28 声質変換システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005349754 2005-12-02
JP2005349754 2005-12-02
JP2007547942A JP4928465B2 (ja) 2005-12-02 2006-11-28 声質変換システム
PCT/JP2006/323667 WO2007063827A1 (ja) 2005-12-02 2006-11-28 声質変換システム

Publications (2)

Publication Number Publication Date
JPWO2007063827A1 true JPWO2007063827A1 (ja) 2009-05-07
JP4928465B2 JP4928465B2 (ja) 2012-05-09

Family

ID=38092160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007547942A Expired - Fee Related JP4928465B2 (ja) 2005-12-02 2006-11-28 声質変換システム

Country Status (6)

Country Link
US (1) US8099282B2 (ja)
EP (1) EP2017832A4 (ja)
JP (1) JP4928465B2 (ja)
KR (1) KR101015522B1 (ja)
CN (1) CN101351841B (ja)
WO (1) WO2007063827A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4817250B2 (ja) * 2006-08-31 2011-11-16 国立大学法人 奈良先端科学技術大学院大学 声質変換モデル生成装置及び声質変換システム
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
EP2104096B1 (en) * 2008-03-20 2020-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US9058818B2 (en) * 2009-10-22 2015-06-16 Broadcom Corporation User attribute derivation and update for network/peer assisted speech coding
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
CN103856390B (zh) * 2012-12-04 2017-05-17 腾讯科技(深圳)有限公司 即时通讯方法及系统、通讯信息处理方法、终端
US9613620B2 (en) 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
JP6543820B2 (ja) * 2015-06-04 2019-07-17 国立大学法人電気通信大学 声質変換方法および声質変換装置
CN111201565A (zh) * 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的系统和方法
JP6773634B2 (ja) * 2017-12-15 2020-10-21 日本電信電話株式会社 音声変換装置、音声変換方法及びプログラム
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
TW202009924A (zh) * 2018-08-16 2020-03-01 國立臺灣科技大學 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體
CN109377986B (zh) * 2018-11-29 2022-02-01 四川长虹电器股份有限公司 一种非平行语料语音个性化转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110071938B (zh) * 2019-05-05 2021-12-03 广州虎牙信息科技有限公司 虚拟形象互动方法、装置、电子设备及可读存储介质
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN116670754A (zh) 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi
JP3282693B2 (ja) * 1993-10-01 2002-05-20 日本電信電話株式会社 声質変換方法
JP3354363B2 (ja) 1995-11-28 2002-12-09 三洋電機株式会社 音声変換装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
JPH1185194A (ja) 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
IL140082A0 (en) * 2000-12-04 2002-02-10 Sisbit Trade And Dev Ltd Improved speech transformation system and apparatus
JP3754613B2 (ja) * 2000-12-15 2006-03-15 シャープ株式会社 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3703394B2 (ja) 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
US7050979B2 (en) * 2001-01-24 2006-05-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for converting a spoken language to a second language
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
JP2003157100A (ja) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> 音声通信方法及び装置、並びに音声通信プログラム
US7275032B2 (en) * 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
JP4829477B2 (ja) 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
EP1846918B1 (fr) 2005-01-31 2009-02-25 France Télécom Procede d'estimation d'une fonction de conversion de voix
US20080161057A1 (en) * 2005-04-15 2008-07-03 Nokia Corporation Voice conversion in ring tones and other features for a communication device

Also Published As

Publication number Publication date
CN101351841B (zh) 2011-11-16
US20100198600A1 (en) 2010-08-05
JP4928465B2 (ja) 2012-05-09
EP2017832A4 (en) 2009-10-21
US8099282B2 (en) 2012-01-17
EP2017832A1 (en) 2009-01-21
WO2007063827A1 (ja) 2007-06-07
CN101351841A (zh) 2009-01-21
KR101015522B1 (ko) 2011-02-16
KR20080070725A (ko) 2008-07-30

Similar Documents

Publication Publication Date Title
JP4928465B2 (ja) 声質変換システム
US9430467B2 (en) Mobile speech-to-speech interpretation system
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
US7966186B2 (en) System and method for blending synthetic voices
JPWO2008149547A1 (ja) 声質編集装置および声質編集方法
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
WO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
CN101901598A (zh) 一种哼唱合成方法和系统
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
CN114999443A (zh) 语音生成方法及装置、存储介质、电子设备
KR20190046305A (ko) 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP6864322B2 (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
KR102639322B1 (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
KR20220154655A (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
JP2018205768A (ja) 発話リズム変換装置、方法及びプログラム
KR102418465B1 (ko) 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
Zaim Two channel adaptive speech enhancement
KR20110021439A (ko) 음성 스트림 변환 장치 및 방법
CN114882868A (zh) 语音合成、情绪迁移、交互方法、存储介质、程序产品
CN117636842A (zh) 基于韵律情感迁移的语音合成系统及方法
WO2014203329A1 (ja) 音声応答装置および応答音声生成方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090611

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4928465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees