JPWO2007063827A1

JPWO2007063827A1 - 声質変換システム

Info

Publication number: JPWO2007063827A1
Application number: JP2007547942A
Authority: JP
Inventors: 剛志舛田
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2005-12-02
Filing date: 2006-11-28
Publication date: 2009-05-07
Anticipated expiration: 2026-11-28
Also published as: CN101351841B; US20100198600A1; JP4928465B2; EP2017832A4; US8099282B2; EP2017832A1; WO2007063827A1; CN101351841A; KR101015522B1; KR20080070725A

Abstract

少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。サーバ１０の中間変換関数生成部１０１は中間変換関数Ｆを生成し、目標変換関数生成部１０２は目標変換関数Ｇを生成する。携帯端末２０の中間声質変換部２１１は、変換関数Ｆを用いて元話者の音声から中間話者の音声を生成し、目標声質変換部２１２は、変換関数Ｇを用いて中間声質変換部２１１により生成された中間話者の音声を目標話者の音声に変換する。

Description

本発明は、元話者の音声を目標話者の音声に変換する声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムに関する。

従来、ある話者の音声を別の話者の音声に変換する声質変換技術が知られている（例えば、特許文献１、非特許文献１参照）。

図２２には、基本的な声質変換処理の過程を示す。声質変換処理の過程は、学習過程と変換過程とで構成される。学習過程では、元話者及び変換目標となる目標話者の音声を収録して学習用音声データを蓄積しておき、当該学習用音声データに基づいて学習を行うことにより、元話者の音声を目標話者の音声に変換するための変換関数を生成する。変換過程では、学習過程で生成された変換関数を用いて、元話者が発声した任意の音声を目標話者の音声に変換する。これらの処理はコンピュータで行われる。

特開２００２−２１５１９８号公報 Alexander Kain and Michael W.Macon "SPECTRAL VOICE CONVERSION FOR TEXT-TO-SPEECH SYNTHESIS"

このような声質変換技術では、元話者の音声を目標話者の音声に変換するためには、元話者の声質と目標話者の声質との組合せに固有の変換関数を生成する必要がある。従って、元話者及び目標話者が複数存在し、元話者の音声各々から目標話者の音声各々へ変換するための変換関数を生成しようとする場合には、元話者と目標話者との組合せの数だけ学習を行う必要がある。

例えば、図２３に示すように、２６人の元話者Ａ、Ｂ、・・・、Ｚと１０人の目標話者１、２、・・・、１０とが存在し、元話者の音声各々を目標話者の音声各々に変換するための変換関数を作成する場合、元話者２６人と目標話者１０人との組合せの数２６０（＝２６×１０）だけ学習を行い変換関数を生成する必要がある。声質変換を実用化し声質変換サービスを元話者に提供しようとする場合、元話者及び目標話者の数の増加に伴って変換関数の数が増加するため、コンピュータが学習及び変換関数生成を行う負荷が増大する。また、大量に生成した変換関数を蓄積しておくための大容量の記憶装置が必要となる。

また、学習用音声データとして、元話者と目標話者とが同じ発声内容の文章を約５０文（これを１セットの音声内容という）収録する必要がある。もし、目標話者１０人から収録された音声セットが各々異なる音声内容である場合には、１人の元話者は１０通りの音声セットを収録する必要がある。１セットの音声内容を収録するのに３０分の時間を要すると想定した場合、１人の元話者は学習用音声データの収録に５時間も費やすことになる。

さらに、目標話者の音声がアニメのキャラクター、有名人の音声、他界した人等である場合には、これらの人々に声質変換に必要となる音声セットの発声を依頼して音声収録を行うのは、費用的に現実的でなかったり不可能であったりする。

本発明は、以上のような従来の問題を解決するためになされたものであり、少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。

上記課題を解決するために、請求項１に記載の発明は、元話者の音声を目標話者の音声に変換する声質変換システムにおいて、元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。

本発明によれば、声質変換システムは、元話者の音声を、中間話者の音声への変換を介して目標話者の音声に変換するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意しておけば、元話者の音声各々を目標話者の音声各々に変換することが可能となる。従って、従来のように元話者の音声各々を直接目標話者の音声各々に変換するよりも必要となる変換関数の数が減少するため、少ない学習負担で生成された変換関数を用いて声質変換を行うことが可能となる。

請求項２に記載の発明は、１つ以上の元話者各々の音声を１つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、前記元話者の音声を、前記１つ以上の元話者各々に対し共通に設けられた１つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段とを備えることを特徴とする声質変換学習システムを提供する。

本発明によれば、声質変換学習システムは、１つ以上の元話者各々の音声を１つの中間話者の音声に変換するための中間変換関数と、１つの中間話者の音声を１つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者各々の音声を直接目標話者各々の音声に変換するよりも生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となり、少ない学習の負担で生成された中間変換関数及び目標変換関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。

請求項３に記載の発明は、請求項２に記載の声質変換学習システムにおいて、前記目標変換関数生成手段は、前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする。

本発明によれば、実際の声質変換を行う際には、元話者の音声を中間変換関数により変換し、その変換後の音声を目標変換関数で変換することにより目標話者の音声を生成することとなるので、収録した実際の中間話者の音声を目標話者の音声に変換するための関数を目標変換関数として生成するよりも、声質変換時の声質の精度が高くなる。

請求項４に記載の発明は、請求項２又は３に記載の声質変換学習システムにおいて、前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする。

本発明によれば、学習に用いられる中間話者の音声を音声合成装置から出力される音声とすることで、元話者や目標話者の音声内容と同じ音声内容を音声合成装置から容易に出力することができるため、学習時の元話者や目標話者の発声内容が制約されることがなく、利便性が高まる。

請求項５に記載の発明は、請求項２から４の何れか1項に記載の声質変換関学習システムにおいて、前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする。

本発明によれば、学習に用いられる元話者の音声を音声合成装置から出力される音声とすることで、目標話者の音声内容と同じ音声内容を音声合成装置から容易に出力することができる。そのため、学習時の目標話者の音声内容が制約されることがなく、利便性が高まる。例えば、目標話者の音声として映画で収録された俳優の音声を用いた場合、限られた音声内容しか収録されていなくても容易に学習を行うことができる。

請求項６に記載の発明は、請求項２から５の何れか１項に記載の声質変換学習システムにおいて、前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする。

本発明によれば、合成した関数を使用する場合の方が、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。

請求項７に記載の発明は、請求項２から６の何れか１項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。

本発明によれば、声質変換システムは、少ない学習の負担で生成された関数を用いて、１つ以上の元話者各々の音声を１つ以上の目標話者各々の音声に変換することが可能となる。

請求項８に記載の発明は、請求項７に記載の声質変換システムにおいて、前記声質変換手段として、前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする。

本発明によれば、声質変換システムは、従来よりも少ない数の変換関数を用いて、元話者各々の音声を目標話者各々の音声に変換することが可能となる。

請求項９に記載の発明は、請求項７に記載の声質変換システムにおいて、前記声質変換手段が、前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする。

本発明によれば、声質変換システムは、中間変換関数と目標変換関数とが合成された関数を用いて元話者の音声を目標話者の音声に変換することができる。そのため、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。

請求項１０に記載の発明は、請求項７から９の何れか１項に記載の声質変換システムにおいて、前記声質変換手段が、音声の特徴量であるスペクトル系列を変換することを特徴とする。

本発明によれば、既存の音声エンコーダから音声デコーダに送信される符号データを変換することにより容易に声質変換を行うことができる。

請求項１１に記載の発明は、クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、１つ以上のユーザ各々の音声を１つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおいて、前記クライアントコンピュータは、前記ユーザの音声を取得するユーザ音声取得手段と、前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンピュータへ送信するユーザ音声送信手段と、前記ユーザの音声を前記１つ以上のユーザ各々に共通に設けられた１つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータから受信する中間変換関数受信手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータから受信する目標変換関数受信手段と備え、前記サーバコンピュータは、前記クライアントコンピュータから前記ユーザの音声を受信するユーザ音声受信手段と、前記中間話者の音声を予め記憶する中間話者音声記憶手段と、前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、前記目標話者の音声を予め記憶する目標話者音声記憶手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、更に前記クライアントコンピュータは、前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、当該中間話者の音声から前記目標話者の音声を生成する目標変換手段とを備えることを特徴とする声質変換クライアントサーバシステムを提供する。

本発明によれば、サーバコンピュータがユーザ用の中間変換関数、及び、目標変換関数の生成を行い、クライアントコンピュータがサーバコンピュータから中間変換関数及び目標変換関数を受信することで、クライアントコンピュータはユーザの音声を目標話者の音声に変換することができる。

請求項１２に記載の発明は、コンピュータに、１つ以上の元話者各々の音声を１つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、１つの中間話者の音声を１つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップとの少なくとも一方のステップを実行させるためのプログラムを提供する。

本発明によれば、上記プログラムを１又は２以上のコンピュータに記憶させておくことで、声質変換に使用するための中間変換関数、及び、目標変換関数を生成することができる。

請求項１３に記載の発明は、コンピュータに、元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、前記変換関数取得ステップにおいて取得された中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換ステップと、前記変換関数取得ステップにおいて取得された目標変換関数を用いて、前記中間声質変換ステップにおいて生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換ステップとを実行させるためのプログラムを提供する。

本発明によれば、前記プログラムをコンピュータに記憶させておくことで、コンピュータは元話者の音声を中間話者の音声への変換を介して目標話者の音声に変換することが可能となる。

本発明によれば、声質変換学習システムは、１つ以上の元話者各々の音声を１つの中間話者の音声に変換するための中間変換関数と、前記１つの中間話者の音声を１つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、従来のように元話者各々の音声を直接目標話者各々の音声に変換するよりも、生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となる。声質変換システムは、声質変換学習システムにより生成された関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。

本発明の実施の形態に係る声質学習・変換システムの構成を示す図である。同実施の形態に係るサーバの構成機能を示す図である。変換関数Ｆ（ｘ）及び変換関数Ｇｙ（ｉ）を使用する代わりに、変換関数Ｆ（ｘ）及び変換関数Ｇｙ（ｉ）を合成することにより生成した変換関数Ｈｙ（ｘ）を使用して、元話者ｘの音声を目標話者ｙの音声に変換する手順を示すための図である。同実施の形態に係るｗ１（ｆ）、ｗ２（ｆ）、ｗ’（ｆ）の一例を示すためのグラフである。同実施の形態に係る携帯端末の機能構成を示す図である。同実施の形態に係る各元話者から各目標話者への声質変換に必要な変換関数の数を説明するための図である。同実施の形態に係るサーバにおける変換関数Ｇｙ（ｉ）の学習及び蓄積処理の流れを示すフローチャートである。同実施の形態に係る携帯端末における元話者ｘ用の変換関数Ｆの取得手順を示すフローチャートである。同実施の形態に係る携帯端末における声質変換処理の手順を示すフローチャートである。同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の１つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の２つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の３つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の４つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の１つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の２つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の３つ目のパターンについて説明するためのフローチャートである。同実施の形態に係る手法と従来法とにおけるケプストラムの歪みを比較するためのグラフである。変形例に係る携帯端末が中間変換関数生成部を備えている場合の、携帯端末における変換関数Ｆの生成手順を示すフローチャートである。変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、送信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、受信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。変形例に係る、サーバで声質変換を行う場合の処理パターンの一例を示す図である。従来における基本的な声質変換処理の過程を示す図である。従来における元話者の音声を目標話者の音声に変換するのに必要となる変換関数の数の一例を説明するための図である。

符号の説明

１声質変換クライアントサーバシステム
１０サーバ
１０１中間変換関数生成部
１０２目標変換関数生成部
２０携帯端末
２１声質変換部
２１１中間声質変換部
２１２目標声質変換部

以下、図面を参照して、本発明に係る実施の形態について説明する。

図１は、本発明の実施の形態に係る声質変換クライアントサーバシステム１の構成を示す図である。

同図に示すように、本発明の実施の形態に係る声質変換クライアントサーバシステム１は、サーバ（「声質変換学習システム」に該当）１０と、複数の携帯端末（「声質変換システム」に該当）２０とを含んで構成されている。サーバ１０は携帯端末２０を所持するユーザの音声を目標話者の音声に変換するための変換関数を学習し生成する。携帯端末２０は、サーバ１０から変換関数を取得し、当該変換関数に基づいてユーザの音声を目標話者の音声に変換する。ここで、音声は、波形もしくはその波形から何らかの方法で抽出されたパラメータ系列などを表すものとする。
（サーバの機能構成）
次に、サーバ１０の構成機能について説明する。図２に示すように、サーバ１０は、中間変換関数生成部１０１と、目標変換関数生成部１０２とを備えている。これらの機能は、サーバ１０に搭載されているＣＰＵが記憶装置に記憶されているプログラムに従って処理を実行することにより実現される。

中間変換関数生成部１０１は、元話者の音声と中間話者の音声とに基づいて学習を行うことにより、元話者の音声を中間話者の音声に変換するための変換関数Ｆ（「中間変換関数」に該当）を生成する。ここで、元話者の音声及び中間話者の音声は、予め元話者と中間話者とに同じ約５０文（１セットの音声内容）を発声させ収録しておいたものを用いる。中間話者は１人（所定の声質）であり、元話者が複数存在する場合には、複数の元話者各々の音声と１つの中間話者の音声との学習をそれぞれ行う。つまり、１つの中間話者が１以上の元話者各々に対して共通に設けられているといえる。学習の手法としては、例えば、混合正規分布モデル（ＧＭＭ）に基づく特徴量変換法を用いることができる。これ以外にも、あらゆる公知の手法を用いることが可能である。

目標変換関数生成部１０２は、中間話者の音声を目標話者の音声に変換するための変換関数Ｇ（「目標変換関数」に該当）を生成する。

ここで、目標変換関数生成部１０２が行う変換関数Ｇの学習方式は２通り存在する。１つ目の学習方式は、収録された元話者の音声を変換関数Ｆによって変換した後の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この１つ目の変換方式を「変換後特徴量変換方式」という。実際の声質変換時には、元話者の音声を変換関数Ｆにより変換し、その変換後の音声を変換関数Ｇで変換することにより目標話者の音声を生成するので、この方式では実際の声質変換時の処理手順を考慮した学習を行うことができる。

２つ目の学習方式は、実際の声質変換時の処理手順は考慮せずに、収録された中間話者の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この２目の変換方式を「変換前特徴量変換方式」という。

なお、変換関数Ｆ、Ｇの形式は数式に限らず、変換テーブルの形で表されていてもよい。

変換関数合成部１０３は、中間変換関数生成部１０１により生成された変換関数Ｆと、目標変換関数生成部１０２により生成された変換関数Ｇとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成する。

図３は、変換関数Ｆ（ｘ）及び変換関数Ｇｙ（ｉ）を使用して元話者ｘの音声を目標話者ｙの音声に変換する（図３（ａ））代わりに、変換関数Ｆ（ｘ）及び変換関数Ｇｙ（ｉ）を合成することにより生成した変換関数Ｈｙ（ｘ）を使用して、元話者ｘの音声を目標話者ｙの音声に変換する（図３（ｂ））手順を示す図である。変換関数Ｈｙ（ｘ）を使用する場合の方が、変換関数Ｆ（ｘ）及び変換関数Ｇｙ（ｉ）を使用する場合に比較して、元話者ｘの音声を目標話者ｙの音声に変換するのに要する計算時間が約半分になる。また、中間話者の特徴量を生成しないため声質変換処理時に使用されるメモリサイズを削減することが可能となる。

以下、変換関数Ｆと変換関数Ｇとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成することが可能であることを説明する。具体的な例として、特徴量がスペクトルパラメータである場合について示す。スペクトルパラメータに対する関数を１次関数で表した場合、ｆを周波数とすると、変換前スペクトルｓ（ｆ）から変換後スペクトルｓ’（ｆ）への変換は、次式で表される。

ｓ’（ｆ）＝ｓ（ｗ（ｆ））
ただし、ｗ（）は周波数の変換を表す関数である。元話者から中間話者への周波数の変換をｗ１（）、中間話者から目標話者への周波数の変換をｗ２（）、元話者のスペクトルをｓ（ｆ）、中間話者のスペクトルをｓ’（ｆ）、目標話者のスペクトルをｓ’’（ｆ）とすると、
ｓ’（ｆ）＝ｓ（ｗ１（ｆ））
ｓ’’（ｆ）＝ｓ’（ｗ２（ｆ））
となる。例えば、図４に示すように、
ｗ１（ｆ）＝ｆ／２
ｗ２（ｆ）＝２ｆ＋５
とし、ｗ１（ｆ）とｗ２（ｆ）との合成関数をｗ’（ｆ）とすると、
ｗ’（ｆ）＝２（ｆ／２）＋５＝ｆ＋５
となる。この結果、
ｓ’’（ｆ）＝ｓ（ｗ’（ｆ））
と表すことができる。このことから、変換関数Ｆと変換関数Ｇとを合成することにより元話者の音声を目標話者の音声に変換するための関数の生成が可能であることが判る。

（携帯端末の機能構成）
次に携帯端末２０の機能構成について説明する。携帯端末２０は、例えば、携帯電話機が該当する。なお、携帯電話機以外にも、マイクロフォンが接続されたパーソナルコンピュータであってもよい。図５には、携帯端末２０の機能構成を示す。なお、この機能構成は、携帯端末２０に搭載されているＣＰＵが不揮発性メモリに記憶されているプログラムに従って処理を実行することにより実現される。同図に示すように、携帯端末２０は声質変換部２１を備えている。声質変換方法としては、例えば、声質変換部２１は、スペクトル系列を変換することによって声質を変換する。或いは、声質変換部２１は、スペクトル系列の変換と音源信号との両方の変換を行うことによって声質変換を行う。スペクトル系列としては、ケプストラム係数あるいはＬＳＰ（Line Spectral Pair；線形スペクトル対）係数などを用いることができる。スペクトル系列のみならず音源信号に対しても声質変換を行うことで、より目標話者に近づいた音声を得ることが可能である。

声質変換部２１は、中間声質変換部２１１と目標声質変換部２１２とで構成される。

中間声質変換部２１１は、変換関数Ｆを用いて、元話者の音声を中間話者の音声に変換する。

目標声質変換部２１２は、変換関数Ｇを用いて、中間声質変換部２１１により変換された中間話者の音声を目標話者の音声に変換する。

なお、本実施の形態においては、変換関数Ｆ、Ｇはサーバ１０で作成され、携帯端末２０にダウンロードされる。

図６には、元話者Ａ、Ｂ、・・・、Ｙ、Ｚと、中間話者ｉと、目標話者１、２、・・・、９、１０とが存在する場合に、各元話者から各目標話者への声質変換に必要な変換関数の数を説明するための図である。

同図に示すように、元話者Ａ、Ｂ、・・・、Ｙ、Ｚ各々の音声を目標話者ｉの音声に変換できるようにするためには、変換関数Ｆは、Ｆ（Ａ）、Ｆ（Ｂ）、・・・、Ｆ（Ｙ）、Ｆ（Ｚ）の２６種類必要となる。また、中間話者ｉの音声を目標話者１、２、・・・、９、１０各々の音声に変換できるようにするためには、変換関数ＧはＧ１（ｉ）、Ｇ２（ｉ）、・・・、Ｇ９（ｉ）、Ｇ１０（ｉ）１０種類必要となる。従って、合計２６＋１０＝３６種類の変換関数が必要となる。これに対して、従来例では、上述したように、２６０種類の変換関数が必要となる。このように、本実施の形態においては、変換関数の数を大幅に削減することが可能となる。

（サーバにおける変換関数Ｇの学習及び蓄積処理）
次に、図７を参照して、サーバ１０における変換関数Ｇｙ（ｉ）の学習及び蓄積処理を説明する。

ここで、元話者ｘ及び中間話者ｉは、人又はＴＴＳ（Text-to-Speech）であり、サーバ１０を所持するベンダ側で用意される。ＴＴＳとは、任意のテキスト（文字）を対応する音声に変換し、当該音声を所定の声質で出力する公知の装置である。

図７（ａ）には、変換後特徴量変換方式により変換関数Ｇを学習する場合の処理手順を示す。

同図に示すように、まず、中間変換関数生成部１０１は、元話者ｘの音声と予め入手して記憶装置に記憶されている中間話者ｉの音声（「中間話者音声記憶手段」に該当）とに基づいて学習を行い、変換関数Ｆ（ｘ）を生成する。そして、元話者ｘの音声を変換関数Ｆ（ｘ）で変換した後の音声ｘ’を出力する（ステップＳ１０１）。

次に、目標変換関数生成部１０２は、変換音声ｘ’と予め入手して記憶装置に記憶されている目標話者ｙ（「目標話者音声記憶手段」に該当）の音声とに基づいて学習を行い、変換関数Ｇｙ（ｉ）を生成し（ステップＳ１０２）、生成した変換関数Ｇｙ（ｉ）をサーバ１０が備える記憶装置に蓄積する（ステップＳ１０３）。

図７（ｂ）には、変換前特徴量変換方式により変換関数Ｇを学習する場合の処理手順を示す。

同図に示すように、目標変換関数生成部１０２は、中間話者ｉの音声と目標話者ｙの音声とに基づいて学習を行い、変換関数Ｇｙ（ｉ）を生成する（ステップＳ２０１）。そして、生成した変換関数Ｇｙ（ｉ）をサーバ１０が備える記憶装置に蓄積する（ステップＳ２０２）。

従来においては、サーバ１０において元話者の人数×目標話者の人数分学習を行う必要があったが、本実施の形態においては、中間話者の人数１人×目標話者の人数分だけ学習を行えばよくなるため、生成される変換関数Ｇの数が減少する。したがって、学習のための処理負荷が低減され、また、変換関数Ｇの管理が容易になる。

（携帯端末における変換関数Ｆの取得手順）
次に、図８を参照して、携帯端末２０における元話者ｘ用の変換関数Ｆ（ｘ）の取得手順について説明する。

図８（ａ）には、中間話者ｉの音声として人の音声を使用する場合の手順を示す。

同図に示すように、まず、元話者ｘが携帯端末２０に向かって発声すると、携帯端末２０は、元話者ｘの音声をマイクロフォンで収集し（「ユーザ音声取得手段」に該当）、当該音声をサーバ１０に送信する（「ユーザ音声送信手段」に該当）（ステップＳ３０１）。サーバ１０は元話者ｘの音声を受信し（「ユーザ音声受信手段」に該当）、中間変換関数生成部１０１は、元話者ｘの音声と中間話者ｉの音声とに基づいて学習し、変換関数Ｆ（ｘ）を生成する（ステップＳ３０２）。サーバ１０は、生成した変換関数Ｆ（ｘ）を携帯端末２０に送信する（「中間変換関数送信手段」に該当）（ステップＳ３０３）。

図８（ｂ）には、中間話者ｉの音声としてＴＴＳから出力される音声を使用する場合の処理手順を示す。

同図に示すように、まず、元話者ｘが携帯端末２０に向かって発声すると、携帯端末２０は元話者ｘの音声をマイクロフォンで収集し、当該音声をサーバ１０に送信する（ステップＳ４０１）。

サーバ１０に受信された元話者ｘの音声の内容は、音声認識装置又は人手でテキストに変換され（ステップＳ４０２）、当該テキストはＴＴＳに入力される（ステップＳ４０３）。ＴＴＳは入力されたテキストに基づき中間話者ｉ（ＴＴＳ）の音声を生成して出力する（ステップＳ４０４）。

中間変換関数生成部１０１は、元話者ｘの音声と中間話者ｉの音声とに基づいて学習を行い、変換関数Ｆ（ｘ）を生成する（ステップＳ４０５）。サーバ１０は、生成した変換関数Ｆ（ｘ）を携帯端末２０に送信する（ステップＳ４０６）。

携帯端末２０は、受信した変換関数Ｆ（ｘ）を不揮発性メモリに記憶する。変換関数Ｆ（ｘ）が携帯端末２０に記憶された後は、図１に示すように、元話者ｘは、所望の変換関数Ｇをサーバ１０から携帯端末２０にダウンロードすれば（「目標変換関数送信手段」、「目標変換関数受信手段」に該当）、元話者ｘの音声を所望の目標話者の音声に変換することが可能となる。従来においては、元話者ｘは各目標話者の音声セットの内容に合わせて発声を行い、目標話者毎の変換関数を取得する必要があったが、本実施の形態においては、元話者ｘは１セット分の音声を発声して１つの変換関数Ｆ（ｘ）を取得するのみでよく、元話者ｘの負担が軽減される。

（声質変換処理）
次に、図９を参照して、携帯端末２０が声質変換を行う際の処理手順について説明する。なお、携帯端末２０の不揮発性メモリには、元話者Ａの音声を中間話者の音声に変換するための変換関数Ｆ（Ａ）と、中間話者の音声を目標話者ｙの音声に変換するための変換関数Ｇとが、サーバ１０からダウンロードされて記憶されているものとする。

まず、携帯端末２０に元話者Ａの音声が入力されると、中間声質変換部２１１は、変換関数Ｆ（Ａ）を用いて、元話者Ａの音声を中間話者の音声に変換する（ステップＳ５０１）。次に、目標声質変換部２１２は、その中間話者の音声を、変換関数Ｇｙ（ｉ）を用いて目標話者ｙの音声に変換し（ステップＳ５０２）、目標話者ｙの音声を出力する（ステップＳ５０３）。ここで、出力された音声は、例えば、通信ネットワークを介して通信相手の携帯端末に送信され、当該携帯端末が備えるスピーカから出力される。また、元話者Ａが変換後の音声を確認するために、携帯端末２０が備えるスピーカから出力されるようにしてもよい。

（変換関数生成処理及び声質変換処理の各種処理パターン）
次に、図１０〜１６を参照して、変換関数生成処理及び声質変換処理の各種処理パターンについて説明する。

［１］変換後特徴量変換方式
まず、変換関数学習方式が変換後特徴量変換方式である場合について説明する。
（１）図１０には、学習に使用するために収録された中間話者の音声が１セット（ｓｅｔＡ）である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．１（Ａ））を生成する（ステップＳ１１０１）。

同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．２（Ａ））を生成する（ステップＳ１１０２）。

次に、目標変換関数生成部１０２は、元話者Ｓｒｃ．１の音声ｓｅｔＡをステップＳ１１０１で生成した変換関数Ｆ（Ｓｒｃ．１（Ａ））で変換して、変換後Ｔｒ．ｓｅｔＡを生成する（ステップＳ１１０３）。そして、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＡと目標話者Ｔａｇ．１の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ１（Ｔｒ．（Ａ））を生成する（ステップＳ１１０４）。

同様に、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＡと、目標話者Ｔａｇ．２の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ２（Ｔｒ．（Ａ））を生成する（ステップＳ１１０５）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を、学習過程で生成した変換関数Ｆ（Ｓｒｃ．１（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１１０７）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ａ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１１０８）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１１０９）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ａ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１１１０）。

以上のように、学習時に中間話者の発声をｓｅｔＡの１セットのみ使用した場合には、元話者の発声内容と目標話者の発声内容も同じｓｅｔＡである必要があるが、従来に比較して、生成すべき変換関数の数を減少させることができる。
（２）図１１には、中間話者の音声がＴＴＳ又は人により発声された複数セット分（ｓｅｔＡ，ｓｅｔＢ）の音声である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．１（Ａ））を生成する（ステップＳ１２０１）。

同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＢと中間話者Ｉｎ．の音声ｓｅｔＢとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．２（Ｂ））を生成する（ステップＳ１２０２）。

次に、目標変換関数生成部１０２は、元話者Ｓｒｃ．１の音声ｓｅｔＡをステップＳ１２０１で生成した変換関数Ｆ（Ｓｒｃ．１（Ａ））で変換して、変換後Ｔｒ．ｓｅｔＡを生成する（ステップＳ１２０３）。そして、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＡと、目標話者Ｔａｇ．１の音声ｓｅｔＡと、に基づいて学習を行い、変換関数Ｇ１（Ｔｒ．（Ａ））を生成する（ステップＳ１２０４）。

同様に、目標変換関数生成部１０２は、元話者Ｓｒｃ．２の音声ｓｅｔＢをステップＳ１２０２で生成した変換関数Ｆ（Ｓｒｃ．２（Ｂ））で変換して、変換後Ｔｒ．ｓｅｔＢを生成する（ステップＳ１２０５）。そして、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＢと、目標話者Ｔａｇ．２の音声ｓｅｔＢとに基づいて学習を行い、変換関数Ｇ２（Ｔｒ．（Ｂ））を生成する（ステップＳ１２０６）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を、変換関数Ｆ（Ｓｒｃ．１（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１２０７）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ｂ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１２０８）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を、変換関数Ｆ（Ｓｒｃ．２（Ｂ））を用いて、中間話者Ｉｎ．の音声に変換する（ステップＳ１２０９）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ｂ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２へ変換する（ステップＳ１２１０）。

このパターンの場合には、学習の際に、元話者の発声内容と目標話者との発声内容とは同一（ｓｅｔＡ同士、ｓｅｔＢ同士）である必要がある。一方、中間話者をＴＴＳとした場合には、中間話者の発声内容は元話者及び目標話者の音声内容に合わせて発声させることができるため、元話者と目標話者との発声内容を合わせるだけでよく、学習時の利便性が高まる。また、中間話者をＴＴＳとした場合には、半永久的に中間話者の音声を発声させることができる。
（３）図１２には、学習に使用される元話者の音声の一部がＴＴＳ又は人により発声された複数セット分（ｓｅｔＡ，ｓｅｔＢ，ｓｅｔＣ）の音声であり、中間話者の音声が１セット分（ｓｅｔＡ）の音声である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて、元話者の音声を中間話者Ｉｎ．の音声に変換するための変換関数Ｆ（ＴＴＳ（Ａ））を生成する（ステップＳ１３０１）。

次に、目標変換関数生成部１０２は、生成した変換関数Ｆ（ＴＴＳ（Ａ））で元話者の音声ｓｅｔＢを変換し、変換後Ｔｒ．ｓｅｔＢを作成する（ステップＳ１３０２）。次に、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＢと目標話者Ｔａｇ．１の音声ｓｅｔＢとに基づいて学習を行い、中間話者Ｉｎ．の音声を目標話者Ｔａｇ．１の音声に変換するための変換関数Ｇ１（Ｔｒ．（Ｂ））を作成する（ステップＳ１３０３）。

同様に、目標変換関数生成部１０２は、生成した変換関数Ｆ（ＴＴＳ（Ａ））で元話者の音声ｓｅｔＣを変換し、変換後Ｔｒ．ｓｅｔＣを作成する（ステップＳ１３０４）。

次に、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＣと目標話者Ｔａｇ．１の音声ｓｅｔＣとに基づいて学習を行い、中間話者Ｉｎ．の音声を目標話者Ｔａｇ．２の音声に変換するための変換関数Ｇ２（Ｔｒ．（Ｃ））を作成する（ステップＳ１３０５）。

また、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて、元話者Ｓｒｃ．１の音声を中間話者Ｉｎ．の音声に変換するための変換関数Ｆ（Ｓｒｃ．１（Ａ））を生成する（ステップＳ１３０６）。

同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて、元話者Ｓｒｃ．２の音声を中間話者Ｉｎ．の音声に変換するための変換関数Ｆ（Ｓｒｃ．２（Ａ））を生成する（ステップＳ１３０７）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を変換関数Ｆ（Ｓｒｃ．１（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１３０８）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｔｒ．（Ｂ））又は変換関数Ｇ２（Ｔｒ．（Ｃ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１３０９）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ａ））を用いて、中間話者Ｉｎ．の音声に変換する（ステップＳ１３１０）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｔｒ．（Ｂ））又は変換関数Ｇ２（Ｔｒ．（Ｃ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２へ変換する（ステップＳ１３１１）。

以上のように、このパターンの場合には、中間話者の音声内容と目標話者との音声内容を非パラレルコーパスにすることできる。また、元話者としてＴＴＳを用いた場合には、目標話者の発声内容に合わせて元話者としてのＴＳＳの発声内容を柔軟に変化させることができるため、変換関数の学習を柔軟に行うことができる。なお、中間話者Ｉｎ．の音声内容は１セット（ｓｅｔＡ）のみであるため、携帯端末１０を所持する元話者Ｓｒｃ．１、Ｓｒｃ．２が声質変換を行うための変換関数Ｆを取得する場合には、元話者Ｓｒｃ．１、Ｓｒｃ．２が発声する内容は中間話者Ｉｎ．の発声内容と同一のｓｅｔＡである必要がある。
（４）図１３には、学習に使用される元話者の音声の一部が、ＴＴＳ又は人により発声された複数セット分（ｓｅｔＡ，ｓｅｔＢ）の音声であり、中間話者の音声がＴＴＳ又は人により発声された複数セット分（ｓｅｔＡ，ｓｅｔＣ，ｓｅｔＤ）の音声である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者の音声ｓｅｔＡと中間話者の音声Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、元話者の音声ｓｅｔＡを中間話者Ｉｎ．の音声ｓｅｔＡに変換するための変換関数Ｆ（ＴＴＳ（Ａ））を生成する（ステップＳ１４０１）。

次に、目標変換関数生成部１０２は、ステップＳ１４０１で生成された変換関数Ｆ（ＴＴＳ（Ａ））で元話者の音声ｓｅｔＡを変換することにより、変換後Ｔｒ．ｓｅｔＡを作成する（ステップＳ１４０２）。

次に、目標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＡと目標話者Ｔａｇ．１の音声ｓｅｔＡとに基づいて学習を行い、中間話者の音声を目標話者Ｔａｇ．１の音声に変換するための変換関数Ｇ１（Ｔｒ．（Ａ））を作成する（ステップＳ１４０３）。

同様に、目標変換関数生成部１０２は、変換関数Ｆ（ＴＴＳ（Ａ））で元話者の音声ｓｅｔＢを変換することにより、変換後Ｔｒ．ｓｅｔＢを作成する（ステップＳ１４０４）。次に、標変換関数生成部１０２は、変換後Ｔｒ．ｓｅｔＢと目標話者Ｔａｇ．２の音声ｓｅｔＢとに基づいて学習を行い、中間話者の音声を目標話者Ｔａｇ．２の音声に変換するための変換関数Ｇ２（Ｔｒ．（Ｂ））を作成する（ステップＳ１４０５）。

また、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＣと中間話者Ｉｎ．の音声ｓｅｔＣとに基づいて学習を行い、元話者Ｓｒｃ．１の音声を中間話者Ｉｎ．の音声に変換するための関数Ｆ（Ｓｒｃ．１（Ｃ））を生成する（ステップＳ１４０６）。

同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＤと中間話者Ｉｎ．の音声ｓｅｔＤとに基づいて学習を行い、元話者Ｓｒｃ．２の音声を中間話者Ｉｎ．の音声に変換するための関数Ｆ（Ｓｒｃ．２（Ｄ））を生成する（ステップＳ１４０７）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を変換関数Ｆ（Ｓｒｃ．１（Ｃ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１４０８）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ｂ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１４０９）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ｄ））を用いて、中間話者Ｉｎ．の音声に変換する（ステップＳ１４１０）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｔｒ．（Ａ））又は変換関数Ｇ２（Ｔｒ．（Ｂ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２へ変換する（ステップＳ１４１１）。

このパターンの場合には、学習時の元話者と目標話者、及び、中間話者と目標話者との音声内容を非パラレルコーパスとすることができる。

また、中間話者がＴＴＳである場合には、ＴＴＳから任意の発声内容を出力することができるため、携帯端末１０を所持する元話者Ｓｒｃ．１、Ｓｒｃ．２が声質変換を行うための変換関数Ｆを取得する場合には、元話者Ｓｒｃ．１、Ｓｒｃ．２が発声する内容は決められたものでなくてもよくなる。また、元話者がＴＴＳである場合には、目標話者の発声内容が決められたものでなくてもよくなる。

［２］変換前特徴量変換方式
次に、変換関数学習方式が変換前特徴量変換方式である場合について説明する。上述した変換後特徴量変換方式では、実際の声質変換処理の手順を考慮して変換関数Ｇを生成した。これに対して、変換前特徴量変換方式では、変換関数Ｆと変換関数Ｇとを独立に学習する。この方式では、学習工程は減少するが、変換後の声質の精度が若干低下することとなる。
（１）図１４には、学習用の中間話者の音声が１セット分（ｓｅｔＡ）の音声である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．１（Ａ））を生成する（ステップＳ１５０１）。同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．２（Ａ））を生成する（ステップＳ１５０２）。

次に、目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＡと目標話者Ｔａｇ．１の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ１（Ｉｎ．（Ａ））を生成する（ステップＳ１５０３）。同様に、目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＡと目標話者Ｔａｇ．２の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ２（Ｉｎ．（Ａ））を生成する（ステップＳ１５０３）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を変換関数Ｆ（Ｓｒｃ．１（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１５０５）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｉｎ．（Ａ））又は変換関数Ｇ２（Ｉｎ．（Ａ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１５０６）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１５０７）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｉｎ．（Ａ））又は変換関数Ｇ２（Ｉｎ．（Ａ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１５０８）。

このように、中間話者の発声内容をｓｅｔＡの１セットのみ収録して学習を行う場合には、変換後特徴量変換方式と同様に、元話者の発声内容と目標話者の発声内容とが同一の発声内容のセット（ｓｅｔＡ）である必要があるが、従来に比較して、学習により生成すべき変換関数の数が減少する。
（２）図１５には、中間話者の音声がＴＴＳ又は人により発声された複数セット分（ｓｅｔＡ，ｓｅｔＢ，ｓｅｔＣ，ｓｅｔＤ）の音声である場合の学習過程及び変換過程を示す。

まず、中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＡと中間話者Ｉｎ．の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．１（Ａ））を生成する（ステップＳ１６０１）。同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＢと中間話者Ｉｎ．の音声ｓｅｔＢとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．２（Ｂ））を生成する（ステップＳ１６０２）。

次に、目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＣと目標話者Ｔａｇ．１の音声ｓｅｔＣとに基づいて学習を行い、変換関数Ｇ１（Ｉｎ．（Ｃ））を生成する（ステップＳ１６０３）。同様に、目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＤと目標話者Ｔａｇ．２の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ２（Ｉｎ．（Ｄ））を生成する（ステップＳ１６０４）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を変換関数Ｆ（Ｓｒｃ．１（Ａ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１６０５）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｉｎ．（Ｃ））又は変換関数Ｇ２（Ｉｎ．（Ｄ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１６０６）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ｂ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１６０７）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を変換関数Ｇ１（Ｉｎ．（Ｃ））又は変換関数Ｇ２（Ｉｎ．（Ｄ））を用いて目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１６０８）。

以上のように、中間話者をＴＴＳとした場合には、半永久的に中間話者に所定の声質の音声を発声させることができる。また、元話者及び中間話者の発声内容に関わらず、元話者及び中間話者の発声内容に合わせた音声内容をＴＴＳから出力することができるため、学習時の元話者及び中間話者の発声内容が制約されることがない。このため利便性が高まり、変換関数を容易に生成することができる。また、元話者と目標話者との発声内容を非パラレルコーパスにすることができる。
（３）図１６には、元話者の音声の一部がＴＴＳ又は人により発声された複数セット分（ここでは、ｓｅｔＡ，ｓｅｔＢ）の音声であり、中間話者の音声がＴＴＳ又は人により発声された複数セット分（ここでは、ｓｅｔＡ，ｓｅｔＣ，ｓｅｔＤ）の音声である場合の学習過程及び変換過程を示す。

目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＡと目標話者Ｔａｇ．１の音声ｓｅｔＡとに基づいて学習を行い、変換関数Ｇ１（Ｉｎ．（Ａ））を生成する（ステップＳ１７０１）。

同様に、目標変換関数生成部１０２は、中間話者Ｉｎ．の音声ｓｅｔＢと目標話者Ｔａｇ．２の音声ｓｅｔＢとに基づいて学習を行い、変換関数Ｇ２（Ｉｎ．（Ｂ））を生成する（ステップＳ１７０２）。

中間変換関数生成部１０１は、元話者Ｓｒｃ．１の音声ｓｅｔＣと中間話者Ｉｎ．の音声ｓｅｔＣとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．１（Ｃ））を生成する（ステップＳ１７０３）。

同様に、中間変換関数生成部１０１は、元話者Ｓｒｃ．２の音声ｓｅｔＤと中間話者Ｉｎ．の音声ｓｅｔＤとに基づいて学習を行い、変換関数Ｆ（Ｓｒｃ．２（Ｄ））を生成する（ステップＳ１７０４）。

変換過程においては、中間声質変換部２１１は、元話者Ｓｒｃ．１の任意の音声を変換関数Ｆ（Ｓｒｃ．１（Ｃ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１７０５）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｉｎ．（Ａ））又は変換関数Ｇ２（Ｉｎ．（Ｂ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１７０６）。

同様に、中間声質変換部２１１は、元話者Ｓｒｃ．２の任意の音声を変換関数Ｆ（Ｓｒｃ．２（Ｄ））を用いて中間話者Ｉｎ．の音声に変換する（ステップＳ１７０７）。次に、目標声質変換部２１２は、中間話者Ｉｎ．の音声を、変換関数Ｇ１（Ｉｎ．（Ａ））又は変換関数Ｇ２（Ｉｎ．（Ｂ））を用いて、目標話者Ｔａｇ．１又は目標話者Ｔａｇ．２の音声へ変換する（ステップＳ１７０８）。

このパターンの場合には、中間話者をＴＴＳとした場合には、元話者及び目標話者の発声内容に応じて元話者の発声内容を変化させることができ、柔軟に変換関数の学習を行うことができる。また、学習時の元話者と目標話者との音声内容を非パラレルコーパスにすることできる。

（評価）
次に、従来法及び本願手法における声質変換の精度を客観的に評価するために実施した実験手順及び実験結果について説明する。

ここでは、声質変換の手法として、混合正規分布モデル（ＧＭＭ）に基づく特徴量変換法（例えば、A. Kain and M.W.Macon,”Spectral voice conversion for text-to-speech synthesis,” Proc.ICASSP,pp.285-288,Seattle,U.S.A.May,1998.参照）を用いる。

以下、ＧＭＭに基づく声質変換手法について説明しておく。時間領域においてフレームごとに対応付けられた、変換元となる話者の音声の特徴量ｘおよび変換先となる話者の音声の特徴量ｙを、それぞれ

と表す。ここで、ｐは特徴量の次元数であり、Ｔは転置を示す。ＧＭＭでは、音声の特徴量ｘの確率分布ｐ（ｘ）を

と表す。ここで、αｉはクラスｉの重み、ｍはクラス数である。また、Ｎ（ｘ；μｉ，Σｉ）はクラスｉでの平均ベクトルμｉおよび共分散行列Σｉを有する正規分布であり、

と表される。次に、元話者の音声の特徴量ｘから目標話者の音声の特徴量ｙへと変換を行う変換関数Ｆ（ｘ）は、

と表される。ここで、μｉ（ｘ）、μｉ（ｙ）はそれぞれｘおよびｙのクラスｉでの平均ベクトルを表す。また、Σｉ（ｘｘ）はｘのクラスｉでの共分散行列を示し、Σｉ（ｙｘ）はｙとｘにおけるクラスｉでの相互共分散行列を示す。ｈｉ（ｘ）は、

である。変換関数Ｆ（ｘ）の学習は、変換パラメータである（αｉ、μｉ（ｘ）、μｉ（ｙ）、Σｉ（ｘｘ）、Σｉ（ｙｘ））を推定することにより行われる。ｘおよびｙの結合特徴量ベクトルｚを

と定義する。ｚの確率分布ｐ（ｚ）はＧＭＭにより

と表される。ここで、ｚのクラスｉでの共分散行列Σｉ（ｚ）および平均ベクトルμｉ（ｚ）はそれぞれ

と表される。変換パラメータ（αｉ、μｉ（ｘ）、μｉ（ｙ）、Σｉ（ｘｘ）、Σｉ（ｙｘ））の推定は、公知のＥＭアルゴリズムにより行うことができる。

学習にはテキストなどの言語情報は一切使用せず、特徴量の抽出やＧＭＭの学習はコンピュータを用いて全て自動で行う。実験には、元話者として男女各１名（男性話者Ａ、女性話者Ｂ）、中間話者Ｉとして女性話者１名、目標話者Ｔとして男性１名を用いる。

学習データとして、ＡＴＲ音素バランス文（例えば、阿部匡伸、匂坂芳典、梅田哲夫、桑原尚夫著、“研究用日本語音声データベース利用解説書（速読音声データ編）、”ＡＴＲテクニカルレポート、TR-I-0166，1990.参照）のうちサブセット５０文を使用し、評価データとして学習データに含まれないサブセット５０文を使用する。

音声に対しては、ＳＴＲＡＩＧＨＴ分析（例えば、H. Kawahara et al. ”Restructuring speech representation using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based f0 extraction : possible role of a repetitive structure in sounds,” Speech Communication,Vol.27,No.3-4,pp.187-207,1999.参照）を行う。サンプリング周期は１６ｋＨｚ、フレームシフトは５ｍｓである。音声のスペクトル特徴量として、ＳＴＲＡＩＧＨＴスペクトルから変換された１〜４１次のケプストラム係数を用いる。ＧＭＭの混合数は６４とする。変換精度の評価尺度として、ケプストラム歪（Cepstral Distortion）を用いる。評価は元話者から変換したケプストラムと、目標話者のケプストラムとの歪を計算する。ケプストラム歪は式（１）で表され、値が小さいほど高い評価となる。

ここで、Ｃｉ（ｘ）は目標話者の音声のケプストラム係数、Ｃｉ（ｙ）は変換音声のケプストラム係数、ｐはケプストラム係数の次数を示す。本実験では、ｐ＝４１である。

実験結果のグラフを図１７に示す。グラフ縦軸はケプストラム歪みであり、当該値は各フレームごとに式（１）により求められたケプストラム歪みを、全フレームにおいて平均した値である。

（ａ）は元話者（Ａ、Ｂ）のケプストラムと目標話者Ｔのケプストラムとの歪みを表す。（ｂ）は、従来法に相当し、元話者（Ａ、Ｂ）と目標話者Ｔで直接学習を行った場合の元話者（Ａ、Ｂ）から変換したケプストラムと、目標話者Ｔのケプストラムとの歪みを表す。（ｃ）、（ｄ）は、本願の手法を適用したものである。（ｃ）について具体的に説明すると、元話者Ａから中間話者Ｉへの中間変換関数をＦ（Ａ）、元話者ＡよりＦ（Ａ）を使用して生成された音声から目標話者Ｔの音声への目標変換関数をＧ（Ａ）とする。また同様に、元話者Ｂから中間話者Ｉへの中間変換関数をＦ（Ｂ）、元話者ＢよりＦ（Ｂ）を使用して生成された音声から目標話者Ｔの音声への目標変換関数をＧ（Ｂ）とする。ここで、元話者ＡからＦ（Ａ）を使用し、中間話者Ｉのケプストラムに一度変換し、さらにＧ（Ａ）を使用して目標話者Ｔに変換したケプストラムと、目標話者Ｔのケプストラムとの歪み（元話者Ａ→目標話者Ｔ）を表す。同様に、元話者ＢからＦ（Ｂ）を使用し、中間話者Ｉのケプストラムに一度変換し、さらにＧ（Ｂ）を使用して目標話者Ｔに変換したケプストラムと、目標話者Ｔのケプストラムとの歪み（元話者Ｂ→目標話者Ｔ）も表す。

（ｄ）は、（ｃ）において本人以外の目標変換関数Ｇを使用した場合について表す。具体的には、元話者ＡからＦ（Ａ）を使用して中間話者Ｉに変換した後、Ｇ（Ｂ）を使用して目標話者Ｔに変換したケプストラムと、目標話者Ｔのケプストラムとの歪み（元話者Ａ→目標話者Ｔ）を表す。また同様に、元話者ＢからＦ（Ｂ）を使用して中間話者Ｉに変換した後、Ｇ（Ａ）を使用して目標話者Ｔに変換したケプストラムと、目標話者Ｔのケプストラムとの歪み（元話者Ｂ→目標話者Ｔ）も表す。

これらのグラフより、従来法（ｂ）と本願手法（ｃ）とでケプストラムの歪みはほぼ同じ値をとっていることから、中間話者を介した変換を行っても従来法と同程度の品質を保つことができることがわかる。さらに、従来法（ｂ）と本願手法（ｄ）とでケプストラムの歪みはほぼ同じ値をとっていることから、中間話者を介した変換を行うときに、中間話者から目標話者への目標変換関数は、任意の元話者により作成された目標話者ごとに1種類のＧを共通に使用しても、従来法と同程度の品質を保つことができることがわかる。

以上説明したように、サーバ１０は、１つ以上の元話者各々の音声を１つの中間話者の音声に変換するための変換関数Ｆと、前記１つの中間話者の音声を１つ以上の目標話者各々の音声に変換するための変換関数Ｇとを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意すれば、元話者各々の音声を目標話者各々の音声に変換することができる。つまり、従来のように、元話者の音声各々を目標話者の音声各々に変換するための変換関数を用意するよりも少ない変換関数で声質変換を行うことが可能となる。従って、少ない負担で学習を行い変換関数を生成し、当該変換関数を用いて声質変換を行うことが可能となる。

また、携帯端末２０を利用して自己の音声の声質変換を行うユーザは、自己の音声を中間話者の音声に変換するための変換関数Ｆを１つ作成して携帯端末２０に記憶させておき、中間話者からユーザ所望の目標話者の音声に変換するための変換関数Ｇをサーバ１０からダウンロードすることで、容易に自己の音声を目標話者の音声に変換することが可能となる。

また、目標変換関数生成部１０２は、元話者の音声が変換関数Ｆによって変換された後の音声を目標話者の音声に変換するための関数を、中間変換関数として生成することができる。そのため、実際の声質変換時の処理に合わせた変換関数を生成することができ、中間話者から直接収集された音声を目標話者の音声に変換するための変換関数を生成するよりも、実際の声質変換時の声質精度を向上させることができる。

また、中間話者の音声をＴＴＳから出力される音声とすることで、元話者や目標話者がどのような内容の音声を発声しても、ＴＴＳに同じ内容の音声を発声させることができる。そのため、学習時における元話者や目標話者の発声内容の制約がなくなり、元話者や目標話者から特定の音声内容を収集するための手間が省け、変換関数の学習を容易に行うことができる。

また、変換後特徴量変換方式において元話者の音声をＴＴＳとすることで、目標話者の発声内容に合わせて元話者としてのＴＴＳに任意の音声内容を発声させることができ、目標話者の発声内容に制約されずに容易に変換関数Ｇを学習することが可能となる。

例えば、目標話者の音声がアニメのキャラクターや映画俳優の音声であっても、過去に収録された音源を用いて容易に学習を行うことができる。

また、変換関数Ｆと変換関数Ｇとを合成した変換関数を用いて声質変換を行うことにより、声質変換に要する時間やメモリを削減することができる。

（変形例）
（１）上述した実施の形態では、声質変換クライアントサーバシステム１を構成する装置のうち、サーバ１０が中間変換関数生成部１０１及び目標変換関数生成部１０２を備え、携帯端末２０が中間声質変換部２１１及び目標声質変換部２１２を備えているとして説明した。しかし、これに限定されることはなく、声質変換クライアントサーバシステム１の装置構成、及び、声質変換クライアントサーバシステム１を構成する装置における中間変換関数生成部１０１、目標変換関数生成部１０２、中間声質変換部２１１、及び、目標声質変換部２１２の配置はいかなる配置であっても構わない。

例えば、１つの装置が中間変換関数生成部１０１、目標変換関数生成部１０２、中間声質変換部２１１、目標声質変換部２１２の全ての機能を備えていてもよい。

また、変換関数学習機能のうち、携帯端末２０が中間変換関数生成部１０１を備えており、サーバ１０が目標変換関数生成部１０２を備えていてもよい。この場合には、携帯端末２０の不揮発性メモリに変換関数Ｆを学習し生成するためのプログラムを記憶させておく必要がある。

以下、図１８を参照して、携帯端末２０が中間変換関数生成部１０１を備えている場合の、携帯端末２０における変換関数Ｆの生成手順について説明する。

図１８（ａ）には、元話者Ａの発声内容が固定の場合の手順を示す。元話者ｘの発声内容が固定の場合には、予め当該内容の中間話者の音声を携帯端末２０の不揮発性メモリに記憶させておく。そして、携帯端末２０が備えるマイクロフォンで収集された元話者ｘの音声と、携帯端末２０に記憶させておいた中間話者ｉの音声とに基づいて学習し（ステップＳ６０１）、変換関数Ｆ（ｘ）を取得する（ステップＳ６０２）。

図１８（ｂ）には、元話者Ａの発声内容が自由である場合の処理手順を示す。この場合には、音声をテキストに変換する音声認識装置と、テキストを音声に変換するＴＴＳとを携帯端末２０に搭載しておく。

まず、音声認識装置は、携帯端末２０が備えるマイクロフォンで収集された元話者ｘの音声の音声認識を行い、元話者ｘの発声内容をテキストに変換し（ステップＳ７０１）、ＴＴＳに入力する。ＴＴＳは、テキストから中間話者ｉ（ＴＴＳ）の音声を生成する（ステップＳ７０２）。

中間変換関数生成部１０１は、中間話者ｉ（ＴＴＳ）の音声と元話者の音声とに基づいて学習し（ステップＳ７０３）、変換関数Ｆ（ｘ）を取得する（ステップＳ７０４）。

（２）上述した実施の形態においては、声質変換部２１は、変換関数Ｆを用いて元話者の音声を中間話者の音声に変換する中間声質変換部２１１と、変換関数Ｇを用いて中間話者の音声を目標話者の音声に変換する目標声質変換部２１２と、で構成されているとして説明した。これは一例に過ぎず、声質変換部２１は、変換関数Ｆと変換関数Ｇとが合成された関数を用いて、元話者の音声を直接目標話者の音声に変換する機能を備えていてもよい。

（３）本発明に係る声質変換機能を送信側及び受信側の携帯電話機に適用することで、送信側の携帯電話機に入力された音声の声質を変換して、受信側の携帯電話機から出力することが可能となる。この場合、送信側及び受信側の携帯電話機における処理パターンとしては、以下のパターンが考えられる。
１）送信側の携帯電話機でＬＳＰ（Line Spectral Pair）係数を変換した後（図１９（ａ）参照）、受信側の携帯電話機でデコードする（図１９（ｃ）参照）。
２）送信側の携帯電話機でＬＳＰ係数及び音源信号を変換した後（図１９（ｂ）参照）、受信側の携帯電話機でデコードする（図１９（ｃ）参照）。
３）送信側の携帯電話機でエンコードした後（図２０（ａ）参照）、受信側の携帯電話機でＬＳＰ係数を変換した後デコードする（図２０（ｂ）参照）。
４）送信側の携帯電話機でエンコードした後（図２０（ａ）参照）、受信側の携帯電話機でＬＳＰ係数及び音源信号を変換した後、デコードする（図２０（ｃ）参照）。

なお、上記３）、４）のように受信側の携帯電話機で変換を行うためには、正確には、送信者（音声入力者）の変換関数又は送信者の属する変換関数のクラスタを決定するインデックスなど、送信者の変換関数に関する情報が必要となる。

以上のように、既存の携帯電話機に対して、ＬＳＰ係数変換、音源信号変換等を利用した声質変換の機能を追加するだけで、システムやインフラの変更を伴わずに、携帯電話機間で送受信される音声の声質変換を行うことができる。

また、図２１に示すように、サーバにおいて声質変換を行うことも可能である。図２１では、ＬＳＰ係数及び音源信号の両方を変換しているが、ＬＳＰ係数のみの変換でもよい。
（４）上述した実施の形態においては、音声合成装置としてＴＴＳを用いたが、入力された音声内容を、所定の声質に変換して出力する装置を用いても良い。
（５）上述した実施の形態においては、中間話者の音声への変換を介する２段階の声質変換について説明している。しかし、これに限定されることはなく、複数の中間話者の音声への変換を介する多段階の声質変換であってもよい。

少ない変換学習及び少ない変換関数で、多くのユーザの音声を多様な目標話者の音声に変換することを可能とする声質変換サービスに利用することができる。

Claims

元話者の音声を目標話者の音声に変換する声質変換システムにおいて、
元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。
１つ以上の元話者各々の音声を１つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、
前記元話者の音声を、前記１つ以上の元話者各々に対し共通に設けられた１つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、
前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段と
を備えることを特徴とする声質変換学習システム。
前記目標変換関数生成手段は、
前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする
請求項２に記載の声質変換学習システム。
前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする
請求項２又は３に記載の声質変換学習システム。
前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置から出力される音声であることを特徴とする
請求項２から４の何れか1項に記載の声質変換学習システム。
前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする
請求項２から５の何れか１項に記載の声質変換学習システム。
請求項２から６の何れか１項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。
前記声質変換手段は、
前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、
前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする
請求項７に記載の声質変換システム。
前記声質変換手段は、
前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする
請求項７に記載の声質変換システム。
前記声質変換手段は、音声の特徴量であるスペクトル系列を変換することを特徴とする
請求項７から９の何れか１項に記載の声質変換システム。
クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、１つ以上のユーザ各々の音声を１つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおいて、
前記クライアントコンピュータは、
前記ユーザの音声を取得するユーザ音声取得手段と、
前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンピュータへ送信するユーザ音声送信手段と、
前記ユーザの音声を前記１つ以上のユーザ各々に共通に設けられた１つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータから受信する中間変換関数受信手段と、
前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータから受信する目標変換関数受信手段と備え、
前記サーバコンピュータは、
前記クライアントコンピュータから前記ユーザの音声を受信するユーザ音声受信手段と、
前記中間話者の音声を予め記憶する中間話者音声記憶手段と、
前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、
前記目標話者の音声を予め記憶する目標話者音声記憶手段と、
前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、
前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、
前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、
更に前記クライアントコンピュータは、
前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、
前記目標変換関数を用いて、当該中間話者の音声から前記目標話者の音声を生成する目標変換手段と
を備えることを特徴とする声質変換クライアントサーバシステム。
コンピュータに、
１つ以上の元話者各々の音声を１つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、
１つの中間話者の音声を１つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップと
の少なくとも一方のステップを実行させるためのプログラム。
コンピュータに、
元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、
前記変換関数取得ステップにおいて取得された中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換ステップと、
前記変換関数取得ステップにおいて取得された目標変換関数を用いて、前記中間声質変換ステップにおいて生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換ステップと
を実行させるためのプログラム。