WO2007063827A1

WO2007063827A1 - 声質変換システム

Info

Publication number: WO2007063827A1
Application number: PCT/JP2006/323667
Authority: WO
Inventors: Tsuyoshi Masuda
Original assignee: Asahi Kasei Kabushiki Kaisha
Priority date: 2005-12-02
Filing date: 2006-11-28
Publication date: 2007-06-07
Also published as: KR20080070725A; KR101015522B1; EP2017832A4; US8099282B2; EP2017832A1; JPWO2007063827A1; JP4928465B2; US20100198600A1; CN101351841A; CN101351841B

Abstract

　少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。　サーバ１０の中間変換関数生成部１０１は中間変換関数Ｆを生成し、目標変換関数生成部１０２は目標変換関数Ｇを生成する。携帯端末２０の中間声質変換部２１１は、変換関数Ｆを用いて元話者の音声から中間話者の音声を生成し、目標声質変換部２１２は、変換関数Ｇを用いて中間声質変換部２１１により生成された中間話者の音声を目標話者の音声に変換する。

Description

声質変換システム

技術分野

[0001] 本発明は、元話者の音声を目標話者の音声に変換する声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムに関する。背景技術

[0002] 従来、ある話者の音声を別の話者の音声に変換する声質変換技術が知られている

(例えば、特許文献 1、非特許文献 1参照)。

[0003] 図 22には、基本的な声質変換処理の過程を示す。声質変換処理の過程は、学習過程と変換過程とで構成される。学習過程では、元話者及び変換目標となる目標話者の音声を収録して学習用音声データを蓄積しておき、当該学習用音声データに基づいて学習を行うことにより、元話者の音声を目標話者の音声に変換するための変換関数を生成する。変換過程では、学習過程で生成された変換関数を用いて、元話者が発声した任意の音声を目標話者の音声に変換する。これらの処理はコンビュータで行われる。

[0004] 特許文献 1 :特開 2002— 215198号公報

非特許文献 1： Alexander Kain and Michael W.Macon "SPECTRAL VOICE CONVE RSION FOR TEXT-TO-SPEECH SYNTHESIS"

発明の開示

発明が解決しょうとする課題

[0005] このような声質変換技術では、元話者の音声を目標話者の音声に変換するためには、元話者の声質と目標話者の声質との組合せに固有の変換関数を生成する必要がある。従って、元話者及び目標話者が複数存在し、元話者の音声各々から目標話者の音声各々へ変換するための変換関数を生成しょうとする場合には、元話者と目標話者との組合せの数だけ学習を行う必要がある。

[0006] 例えば、図 23に示すように、 26人の元話者 Α、 Β、 · · ·、 Zと 10人の目標話者 1、 2、 …、 10とが存在し、元話者の音声各々を目標話者の音声各々に変換するための変換関数を作成する場合、元話者 26人と目標話者 10人との組合せの数 260 ( = 26 X 10)だけ学習を行い変換関数を生成する必要がある。声質変換を実用化し声質変換サービスを元話者に提供しょうとする場合、元話者及び目標話者の数の増加に伴つて変換関数の数が増加するため、コンピュータが学習及び変換関数生成を行う負荷が増大する。また、大量に生成した変換関数を蓄積しておくための大容量の記憶装置が必要となる。

[0007] また、学習用音声データとして、元話者と目標話者とが同じ発声内容の文章を約 5 0文 (これを 1セットの音声内容という）収録する必要がある。もし、目標話者 10人から収録された音声セットが各々異なる音声内容である場合には、 1人の元話者は 10通りの音声セットを収録する必要がある。 1セットの音声内容を収録するのに 30分の時間を要すると想定した場合、 1人の元話者は学習用音声データの収録に 5時間も費やすことになる。

[0008] さらに、目標話者の音声がアニメのキャラクター、有名人の音声、他界した人等である場合には、これらの人々に声質変換に必要となる音声セットの発声を依頼して音声収録を行うのは、費用的に現実的でな力つたり不可能であったりする。

[0009] 本発明は、以上のような従来の問題を解決するためになされたものであり、少ない学習の負担で声質変換を行うことを可能とする声質変換学習システム、声質変換システム、声質変換クライアントサーバシステム、及び、プログラムを提供する。

課題を解決するための手段

[0010] 上記課題を解決するために、請求項 1に記載の発明は、元話者の音声を目標話者の音声に変換する声質変換システムにおいて、元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。

[0011] 本発明によれば、声質変換システムは、元話者の音声を、中間話者の音声への変換を介して目標話者の音声に変換するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意しておけば、元話者の音声各々を目標話者の音声各々に変換することが可能となる。従って、従来のように元話者の音声各々を直接目標話者の音声各々に変換するよりも必要となる変換関数の数が減少するため、少ない学習負担で生成された変換関数を用いて声質変換を行うことが可能となる。

[0012] 請求項 2に記載の発明は、 1つ以上の元話者各々の音声を 1つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、前記元話者の音声を、前記 1つ以上の元話者各々に対し共通に設けられた 1つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段とを備えることを特徴とする声質変換学習システムを提供する。

[0013] 本発明によれば、声質変換学習システムは、 1つ以上の元話者各々の音声を 1つの中間話者の音声に変換するための中間変換関数と、 1つの中間話者の音声を 1つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者各々の音声を直接目標話者各々の音声に変換するよりも生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となり、少ない学習の負担で生成された中間変換関数及び目標変換関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。

[0014] 請求項 3に記載の発明は、請求項 2に記載の声質変換学習システムにおいて、前記目標変換関数生成手段は、前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする。

[0015] 本発明によれば、実際の声質変換を行う際には、元話者の音声を中間変換関数により変換し、その変換後の音声を目標変換関数で変換することにより目標話者の音声を生成することとなるので、収録した実際の中間話者の音声を目標話者の音声に変換するための関数を目標変換関数として生成するよりも、声質変換時の声質の精度が高くなる。

[0016] 請求項 4に記載の発明は、請求項 2又は 3に記載の声質変換学習システムにおいて、前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置力出力される音声であることを特徴とする。

[0017] 本発明によれば、学習に用いられる中間話者の音声を音声合成装置から出力される音声とすることで、元話者や目標話者の音声内容と同じ音声内容を音声合成装置力も容易に出力することができるため、学習時の元話者や目標話者の発声内容が制約されることがなぐ利便性が高まる。

[0018] 請求項 5に記載の発明は、請求項 2から 4の何れ力 1項に記載の声質変換関学習システムにおいて、前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置力も出力される音声であることを特徴とする。

[0019] 本発明によれば、学習に用いられる元話者の音声を音声合成装置から出力される音声とすることで、目標話者の音声内容と同じ音声内容を音声合成装置から容易に出力することができる。そのため、学習時の目標話者の音声内容が制約されることがなぐ利便性が高まる。例えば、目標話者の音声として映画で収録された俳優の音声を用いた場合、限られた音声内容しか収録されていなくても容易に学習を行うことができる。

[0020] 請求項 6に記載の発明は、請求項 2から 5の何れ力 1項に記載の声質変換学習システムにおいて、前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする。

[0021] 本発明によれば、合成した関数を使用する場合の方が、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。

[0022] 請求項 7に記載の発明は、請求項 2から 6の何れ力 1項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システムを提供する。

[0023] 本発明によれば、声質変換システムは、少ない学習の負担で生成された関数を用いて、 1つ以上の元話者各々の音声を 1つ以上の目標話者各々の音声に変換することが可能となる。

[0024] 請求項 8に記載の発明は、請求項 7に記載の声質変換システムにおいて、前記声質変換手段として、前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声力前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする。

[0025] 本発明によれば、声質変換システムは、従来よりも少ない数の変換関数を用いて、元話者各々の音声を目標話者各々の音声に変換することが可能となる。

[0026] 請求項 9に記載の発明は、請求項 7に記載の声質変換システムにおいて、前記声質変換手段が、前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする。

[0027] 本発明によれば、声質変換システムは、中間変換関数と目標変換関数とが合成された関数を用いて元話者の音声を目標話者の音声に変換することができる。そのため、中間変換関数及び目標変換関数を使用する場合よりも、元話者の音声を目標話者の音声に変換するのに要する計算時間が短縮される。また、声質変換処理時に使用されるメモリサイズを削減することが可能となる。

[0028] 請求項 10に記載の発明は、請求項 7から 9の何れ力 1項に記載の声質変換システムにおいて、前記声質変換手段が、音声の特徴量であるスペクトル系列を変換することを特徴とする。

[0029] 本発明によれば、既存の音声エンコーダ力音声デコーダに送信される符号データを変換することにより容易に声質変換を行うことができる。

[0030] 請求項 11に記載の発明は、クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、 1つ以上のユーザ各々の音声を 1つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおいて、前記クライアントコンピュータは、前記ユーザの音声を取得するユーザ音声取得手段と、前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンピュータへ送信するユーザ音声送信手段と、前記ユーザの音声を前記 1つ以上のユーザ各々に共通に設けられた 1つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータから受信する中間変換関数受信手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータ力受信する目標変換関数受信手段と備え、前記サーバコンピュータは、前記クライアントコンビユータから前記ユーザの音声を受信するユーザ音声受信手段と、前記中間話者の音声を予め記憶する中間話者音声記憶手段と、前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、前記目標話者の音声を予め記憶する目標話者音声記憶手段と、前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、更に前記クライアントコンピュータは、前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、前記目標変換関数を用いて、当該中間話者の音声力前記目標話者の音声を生成する目標変換手段とを備えることを特徴とする声質変換クライアントサーバシステムを提供する。

[0031] 本発明によれば、サーバコンピュータがユーザ用の中間変換関数、及び、目標変換関数の生成を行い、クライアントコンピュータがサーバコンピュータから中間変換関数及び目標変換関数を受信することで、クライアントコンピュータはユーザの音声を目標話者の音声に変換することができる。

[0032] 請求項 12に記載の発明は、コンピュータに、 1つ以上の元話者各々の音声を 1つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、 1つの中間話者の音声を 1つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップとの少なくとも一方のステップを実行させるためのプログラムを提供する。

[0033] 本発明によれば、上記プログラムを 1又は 2以上のコンピュータに記憶させておくことで、声質変換に使用するための中間変換関数、及び、目標変換関数を生成することがでさる。 [0034] 請求項 13に記載の発明は、コンピュータに、元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、前記変換関数取得ステツプにおいて取得された中間変換関数を用いて、前記元話者の音声力前記中間話者の音声を生成する中間声質変換ステップと、前記変換関数取得ステップにお V、て取得された目標変換関数を用いて、前記中間声質変換ステップにお、て生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換ステツプとを実行させるためのプログラムを提供する。

[0035] 本発明によれば、前記プログラムをコンピュータに記憶させておくことで、コンビユータは元話者の音声を中間話者の音声への変換を介して目標話者の音声に変換することが可能となる。

発明の効果

[0036] 本発明によれば、声質変換学習システムは、 1つ以上の元話者各々の音声を 1つの中間話者の音声に変換するための中間変換関数と、前記 1つの中間話者の音声を 1つ以上の目標話者各々の音声に変換するための目標変換関数とを学習し生成するため、元話者と目標話者とが複数存在する場合、従来のように元話者各々の音声を直接目標話者各々の音声に変換するよりも、生成すべき変換関数の数が減少し、少ない負担で声質変換学習を行うことが可能となる。声質変換システムは、声質変換学習システムにより生成された関数を用いて、元話者の音声を目標話者の音声に変換することが可能となる。

図面の簡単な説明

[0037] [図 1]本発明の実施の形態に係る声質学習 ·変換システムの構成を示す図である。

[図 2]同実施の形態に係るサーバの構成機能を示す図である。

[図 3]変換関数 F (X)及び変換関数 Gy (i)を使用する代わりに、変換関数 F (x)及び変換関数 Gy (i)を合成することにより生成した変換関数 Hy (x)を使用して、元話者 x の音声を目標話者 yの音声に変換する手順を示すための図である。

[図 4]同実施の形態に係る wl (f)、 w2 (f)、 w' (f)の一例を示すためのグラフである。

[図 5]同実施の形態に係る携帯端末の機能構成を示す図である。圆 6]同実施の形態に係る各元話者力各目標話者への声質変換に必要な変換関数の数を説明するための図である。

圆 7]同実施の形態に係るサーバにおける変換関数 Gy(i)の学習及び蓄積処理の流れを示すフローチャートである。

圆 8]同実施の形態に係る携帯端末における元話者 X用の変換関数 Fの取得手順を示すフローチャートである。

圆 9]同実施の形態に係る携帯端末における声質変換処理の手順を示すフローチヤートである。

圆 10]同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 1つ目のパターンについて説明するためのフローチャートである。

圆 11]同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 2つ目のパターンについて説明するためのフローチャートである。

圆 12]同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 3つ目のパターンについて説明するためのフローチャートである。

圆 13]同実施の形態に係る変換関数学習方式が変換後特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 4つ目のパターンについて説明するためのフローチャートである。

圆 14]同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 1つ目のパターンについて説明するためのフローチャートである。

圆 15]同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 2つ目のパターンについて説明するためのフローチャートである。

圆 16]同実施の形態に係る変換関数学習方式が変換前特徴量変換方式である場合の変換関数生成処理及び声質変換処理の 3つ目のパターンについて説明するためのフローチャートである。

[図 17]同実施の形態に係る手法と従来法とにおけるケプストラムの歪みを比較するためのグラフである。

[図 18]変形例に係る携帯端末が中間変換関数生成部を備えている場合の、携帯端末における変換関数 Fの生成手順を示すフローチャートである。

[図 19]変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、送信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。

[図 20]変形例に係る、送信側の携帯電話機に入力された音声の声質を変換して受信側の携帯電話機から出力する場合に、受信側の携帯電話機で声質変換を行う場合の処理パターンの一例を示す図である。

[図 21]変形例に係る、サーバで声質変換を行う場合の処理パターンの一例を示す図である。

[図 22]従来における基本的な声質変換処理の過程を示す図である。

[図 23]従来における元話者の音声を目標話者の音声に変換するのに必要となる変換関数の数の一例を説明するための図である。

符号の説明

[0038] 1 声質変換クライアントサーバシステム

10 サーバ

101 中間変換関数生成部

102 目標変換関数生成部

20 携帯端末

21 声質変換部

211 中間声質変換部

212 目標声質変換部

発明を実施するための最良の形態

[0039] 以下、図面を参照して、本発明に係る実施の形態について説明する。

[0040] 図 1は、本発明の実施の形態に係る声質変換クライアントサーバシステム 1の構成を示す図である。

[0041] 同図に示すように、本発明の実施の形態に係る声質変換クライアントサーバシステム 1は、サーバ（「声質変換学習システム」に該当） 10と、複数の携帯端末（「声質変換システム」に該当） 20とを含んで構成されている。サーバ 10は携帯端末 20を所持するユーザの音声を目標話者の音声に変換するための変換関数を学習し生成する。携帯端末 20は、サーバ 10から変換関数を取得し、当該変換関数に基づいてユーザの音声を目標話者の音声に変換する。ここで、音声は、波形もしくはその波形から何らかの方法で抽出されたパラメータ系列などを表すものとする。

(サーバの機能構成）

次に、サーバ 10の構成機能について説明する。図 2に示すように、サーバ 10は、中間変換関数生成部 101と、目標変換関数生成部 102とを備えている。これらの機能は、サーバ 10に搭載されている CPUが記憶装置に記憶されているプログラムに従つて処理を実行することにより実現される。

[0042] 中間変換関数生成部 101は、元話者の音声と中間話者の音声とに基づいて学習を行うことにより、元話者の音声を中間話者の音声に変換するための変換関数 F (「中間変換関数」に該当）を生成する。ここで、元話者の音声及び中間話者の音声は、予め元話者と中間話者とに同じ約 50文（1セットの音声内容)を発声させ収録しておいたものを用いる。中間話者は 1人 (所定の声質)であり、元話者が複数存在する場合には、複数の元話者各々の音声と 1つの中間話者の音声との学習をそれぞれ行う。つまり、 1つの中間話者が 1以上の元話者各々に対して共通に設けられているといえる。学習の手法としては、例えば、混合正規分布モデル (GMM)に基づく特徴量変換法を用いることができる。これ以外にも、あらゆる公知の手法を用いることが可能である。

[0043] 目標変換関数生成部 102は、中間話者の音声を目標話者の音声に変換するための変換関数 G (「目標変換関数」に該当）を生成する。

[0044] ここで、目標変換関数生成部 102が行う変換関数 Gの学習方式は 2通り存在する。

1つ目の学習方式は、収録された元話者の音声を変換関数 Fによって変換した後の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この 1つ目の変換方式を「変換後特徴量変換方式」という。実際の声質変換時には、元話者の音声を変換関数 Fにより変換し、その変換後の音声を変換関数 Gで変換することにより目標話者の音声を生成するので、この方式では実際の声質変換時の処理手順を考慮した学習を行うことができる。

[0045] 2つ目の学習方式は、実際の声質変換時の処理手順は考慮せずに、収録された中間話者の音声の特徴量と、収録された目標話者の音声の特徴量との対応関係を学習する方式である。この 2目の変換方式を「変換前特徴量変換方式」という。

[0046] なお、変換関数 F、 Gの形式は数式に限らず、変換テーブルの形で表されてヽてもよい。

[0047] 変換関数合成部 103は、中間変換関数生成部 101により生成された変換関数 Fと、目標変換関数生成部 102により生成された変換関数 Gとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成する。

[0048] 図 3は、変換関数 F )及び変換関数 Gy (i)を使用して元話者 xの音声を目標話者 yの音声に変換する（図 3 (a) )代わりに、変換関数 F (x)及び変換関数 Gy (i)を合成することにより生成した変換関数 Hy(x)を使用して、元話者 Xの音声を目標話者 yの音声に変換する（図 3 (b) )手順を示す図である。変換関数 Hy (X)を使用する場合の方が、変換関数 F (x)及び変換関数 Gy(i)を使用する場合に比較して、元話者 Xの音声を目標話者 yの音声に変換するのに要する計算時間が約半分になる。また、中間話者の特徴量を生成しないため声質変換処理時に使用されるメモリサイズを削減することが可能となる。

[0049] 以下、変換関数 Fと変換関数 Gとを合成することにより、元話者の音声を目標話者の音声に変換するための関数を生成することが可能であることを説明する。具体的な例として、特徴量がスペクトルパラメータである場合について示す。スペクトルパラメータに対する関数を 1次関数で表した場合、 fを周波数とすると、変換前スペクトル s (f )から変換後スペクトル s' (f)への変換は、次式で表される。

[0050] s' (f) =s (w(f) )

ただし、 w ( )は周波数の変換を表す関数である。元話者力中間話者への周波数の変換を wl ( )、中間話者から目標話者への周波数の変換を w2 ( )、元話者のスぺクトノレを s (f)、中間話者のスペクトルを s， (f)、目標話者のスペクトルを s，， (f)とすると、

s' (f)=s(wl(f))

s" (f)=s' (w2(f))

となる。例えば、図 4に示すように、

wl(f)=f/2

w2(f)=2f+5

とし、 wl (f)と w2 (f)との合成関数^ w' (f)とすると、

w' (f)=2(f/2)+5=f+5

となる。この結果、

s" (f)=s(w' (f))

と表すことができる。このことから、変換関数 Fと変換関数 Gとを合成することにより元話者の音声を目標話者の音声に変換するための関数の生成が可能であることが判る。

[0051] (携帯端末の機能構成）

次に携帯端末 20の機能構成について説明する。携帯端末 20は、例えば、携帯電話機が該当する。なお、携帯電話機以外にも、マイクロフォンが接続されたパーソナルコンピュータであってもよい。図 5には、携帯端末 20の機能構成を示す。なお、この機能構成は、携帯端末 20に搭載されている CPUが不揮発性メモリに記憶されているプログラムに従って処理を実行することにより実現される。同図に示すように、携帯端末 20は声質変換部 21を備えている。声質変換方法としては、例えば、声質変換部 21は、スペクトル系列を変換することによって声質を変換する。或いは、声質変換部 21は、スペクトル系列の変換と音源信号との両方の変換を行うことによって声質変換を行う。スペクトル系列としては、ケプストラム係数あるいは LSP (Line Spectral P air;線形スペクトル対)係数などを用いることができる。スペクトル系列のみならず音源信号に対しても声質変換を行うことで、より目標話者に近づいた音声を得ることが可能である。

[0052] 声質変換部 21は、中間声質変換部 211と目標声質変換部 212とで構成される。 [0053] 中間声質変換部 211は、変換関数 Fを用いて、元話者の音声を中間話者の音声に変換する。

[0054] 目標声質変換部 212は、変換関数 Gを用いて、中間声質変換部 211により変換された中間話者の音声を目標話者の音声に変換する。

[0055] なお、本実施の形態においては、変換関数 F、 Gはサーバ 10で作成され、携帯端末 20にダウンロードされる。

[0056] 図 6には、元話者 Α、 Β、 · · ·、 Y、 Ζと、中間話者 iと、目標話者 1、 2、 · · ·、 9、 10と力存在する場合に、各元話者から各目標話者への声質変換に必要な変換関数の数を説明するための図である。

[0057] 同図に示すように、元話者 Α、 Β、 · · ·、 Y、 Ζ各々の音声を目標話者 iの音声に変換できるようにするためには、変換関数 Fは、 F (A)ゝ F (B)、…ゝ F (Y)、 F (Z)の 26種類必要となる。また、中間話者 iの音声を目標話者 1、 2、 · · ·、 9、 10各々の音声に変換できるようにするためには、変換関数 Gは Gl (i)、 G2 (i)、 · · ·、 G9 (i)、 G10 (i) 10 種類必要となる。従って、合計 26 + 10 = 36種類の変換関数が必要となる。これに対して、従来例では、上述したように、 260種類の変換関数が必要となる。このように、本実施の形態においては、変換関数の数を大幅に削減することが可能となる。

[0058] (サーバにおける変換関数 Gの学習及び蓄積処理）

次に、図 7を参照して、サーバ 10における変換関数 Gy(i)の学習及び蓄積処理を説明する。

[0059] ここで、元話者 X及び中間話者 iは、人又は TTS (Text- to- Speech)であり、サーバ 1 0を所持するベンダ側で用意される。 TTSとは、任意のテキスト（文字)を対応する音声に変換し、当該音声を所定の声質で出力する公知の装置である。

[0060] 図 7 (a)には、変換後特徴量変換方式により変換関数 Gを学習する場合の処理手順を示す。

[0061] 同図に示すように、まず、中間変換関数生成部 101は、元話者 Xの音声と予め入手して記憶装置に記憶されて、る中間話者 iの音声（「中間話者音声記憶手段」に該当 )とに基づいて学習を行い、変換関数 F (x)を生成する。そして、元話者 Xの音声を変換関数 F (X)で変換した後の音声 Xを出力する (ステップ S 101)。 [0062] 次に、目標変換関数生成部 102は、変換音声 x'と予め入手して記憶装置に記憶されている目標話者 y (「目標話者音声記憶手段」に該当）の音声とに基づいて学習を行い、変換関数 Gy(i)を生成し (ステップ S102)、生成した変換関数 Gy(i)をサーバ 10が備える記憶装置に蓄積する (ステップ S103)。

[0063] 図 7 (b)には、変換前特徴量変換方式により変換関数 Gを学習する場合の処理手順を示す。

[0064] 同図に示すように、目標変換関数生成部 102は、中間話者 iの音声と目標話者 yの音声とに基づいて学習を行い、変換関数 Gy(i)を生成する (ステップ S201)。そして、生成した変換関数 Gy (i)をサーバ 10が備える記憶装置に蓄積する (ステップ S202

) o

[0065] 従来においては、サーバ 10において元話者の人数 X目標話者の人数分学習を行う必要があつたが、本実施の形態においては、中間話者の人数 1人 X目標話者の人数分だけ学習を行えばよくなるため、生成される変換関数 Gの数が減少する。したがつて、学習のための処理負荷が低減され、また、変換関数 Gの管理が容易になる。

[0066] (携帯端末における変換関数 Fの取得手順）

次に、図 8を参照して、携帯端末 20における元話者 X用の変換関数 F (x)の取得手順について説明する。

[0067] 図 8 (a)には、中間話者 iの音声として人の音声を使用する場合の手順を示す。

[0068] 同図に示すように、まず、元話者 Xが携帯端末 20に向力つて発声すると、携帯端末 20は、元話者 Xの音声をマイクロフォンで収集し（「ユーザ音声取得手段」に該当）、当該音声をサーバ 10に送信する（「ユーザ音声送信手段」に該当）（ステップ S301) 。サーバ 10は元話者 Xの音声を受信し（「ユーザ音声受信手段」に該当）、中間変換関数生成部 101は、元話者 Xの音声と中間話者 iの音声とに基づいて学習し、変換関数 F (x)を生成する (ステップ S302)。サーバ 10は、生成した変換関数 F (x)を携帯端末 20に送信する（「中間変換関数送信手段」に該当）（ステップ S 303)。

[0069] 図 8 (b)には、中間話者 iの音声として TTSから出力される音声を使用する場合の処理手順を示す。

[0070] 同図に示すように、まず、元話者 Xが携帯端末 20に向力つて発声すると、携帯端末 20は元話者 xの音声をマイクロフォンで収集し、当該音声をサーバ 10に送信する (ステツプ S401)。

[0071] サーバ 10に受信された元話者 Xの音声の内容は、音声認識装置又は人手でテキストに変換され (ステップ S402)、当該テキストは TTSに入力される（ステップ S403) 。 TTSは入力されたテキストに基づき中間話者 i(TTS)の音声を生成して出力する（ステップ S404)。

[0072] 中間変換関数生成部 101は、元話者 Xの音声と中間話者 iの音声とに基づいて学習を行い、変換関数 F (x)を生成する (ステップ S405)。サーバ 10は、生成した変換関数 F )を携帯端末 20に送信する (ステップ S406)。

[0073] 携帯端末 20は、受信した変換関数 F )を不揮発性メモリに記憶する。変換関数 F

(X)が携帯端末 20に記憶された後は、図 1に示すように、元話者 Xは、所望の変換関数 Gをサーバ 10から携帯端末 20にダウンロードすれば（「目標変換関数送信手段」、「目標変換関数受信手段」に該当）、元話者 Xの音声を所望の目標話者の音声に変換することが可能となる。従来においては、元話者 Xは各目標話者の音声セットの内容に合わせて発声を行い、目標話者毎の変換関数を取得する必要があつたが、本実施の形態においては、元話者 Xは 1セット分の音声を発声して 1つの変換関数 F (X )を取得するのみでよぐ元話者 Xの負担が軽減される。

[0074] (声質変換処理）

次に、図 9を参照して、携帯端末 20が声質変換を行う際の処理手順について説明する。なお、携帯端末 20の不揮発性メモリには、元話者 Aの音声を中間話者の音声に変換するための変換関数 F (A)と、中間話者の音声を目標話者 yの音声に変換するための変換関数 Gとが、サーノ 10からダウンロードされて記憶されているものとする

[0075] まず、携帯端末 20に元話者 Aの音声が入力されると、中間声質変換部 211は、変換関数 F (A)を用いて、元話者 Aの音声を中間話者の音声に変換する (ステップ S5 01)。次に、目標声質変換部 212は、その中間話者の音声を、変換関数 Gy(i)を用 V、て目標話者 yの音声に変換し (ステップ S502)、目標話者 yの音声を出力する (ステツプ S503)。ここで、出力された音声は、例えば、通信ネットワークを介して通信相手の携帯端末に送信され、当該携帯端末が備えるスピーカから出力される。また、元話者 Aが変換後の音声を確認するために、携帯端末 20が備えるスピーカから出力されるようにしてもよい。

[0076] (変換関数生成処理及び声質変換処理の各種処理パターン）

次に、図 10〜16を参照して、変換関数生成処理及び声質変換処理の各種処理パターンについて説明する。

[0077] [1]変換後特徴量変換方式

まず、変換関数学習方式が変換後特徴量変換方式である場合にっ、て説明する

(1)図 10には、学習に使用するために収録された中間話者の音声が 1セット（setA) である場合の学習過程及び変換過程を示す。

[0078] まず、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In.の音声 setAとに基づ、て学習を行、、変換関数 F (Src. 1 (A) )を生成する (ステップ S 1101)。

[0079] 同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setAと中間話者 In. の音声 setAとに基づいて学習を行い、変換関数 F (Src. 2 (A) )を生成する (ステツプ S 1102)。

[0080] 次に、目標変換関数生成部 102は、元話者 Src. 1の音声 setAをステップ SI 101 で生成した変換関数 F (Src. 1 (A) )で変換して、変換後 Tr. setAを生成する (ステツプ S1103)。そして、目標変換関数生成部 102は、変換後 Tr. setAと目標話者 Tag . 1の音声 setAとに基づいて学習を行い、変換関数 Gl (Tr. (A) )を生成する (ステップ S 1104)。

[0081] 同様に、目標変換関数生成部 102は、変換後 Tr. setAと、目標話者 Tag. 2の音声 setAとに基づ、て学習を行、、変換関数 G2 (Tr. (A) )を生成する (ステップ SI 1 05)。

[0082] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を、学習過程で生成した変換関数 F (Src. 1 (A) )を用いて中間話者 In. の音声に変換する (ステップ S1107)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (Tr. (A) )又は変換関数 G2 (Tr. (A) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する (ステップ SI 108)。

[0083] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (A) )を用いて中間話者 In.の音声に変換する (ステップ SI 109)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (Tr. (A) )又は変換関数 G2 (T r. (A) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する (ステップ S1110)。

[0084] 以上のように、学習時に中間話者の発声を setAの 1セットのみ使用した場合には、元話者の発声内容と目標話者の発声内容も同じ setAである必要があるが、従来に比較して、生成すべき変換関数の数を減少させることができる。

(2)図 11には、中間話者の音声が TTS又は人により発声された複数セット分 (setA , setB)の音声である場合の学習過程及び変換過程を示す。

[0085] まず、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In.の音声 setAとに基づ、て学習を行、、変換関数 F (Src. 1 (A) )を生成する (ステップ S 1201)。

[0086] 同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setBと中間話者 In. の音声 setBとに基づいて学習を行い、変換関数 F (Src. 2 (B) )を生成する (ステップ S1202) _o

[0087] 次に、目標変換関数生成部 102は、元話者 Src. 1の音声 setAをステップ SI 201 で生成した変換関数 F (Src. 1 (A) )で変換して、変換後 Tr. setAを生成する (ステツプ S1203)。そして、目標変換関数生成部 102は、変換後 Tr. setAと、目標話者 Ta g. 1の音声 setAと、に基づいて学習を行い、変換関数 Gl (Tr. (A) )を生成する (ステツプ S 1204)。

[0088] 同様に、目標変換関数生成部 102は、元話者 Src. 2の音声 setBをステップ SI 20 2で生成した変換関数 F (Src. 2 (B) )で変換して、変換後 Tr. setBを生成する (ステップ S1205)。そして、目標変換関数生成部 102は、変換後 Tr. setBと、目標話者 T ag. 2の音声 setBとに基づいて学習を行い、変換関数 G2 (Tr. (B) )を生成する (ステツプ S 1206)。 [0089] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を、変換関数 F (Src. 1 (A) )を用いて中間話者 In.の音声に変換する (ステップ S1207)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (Tr. (A) )又は変換関数 G2 (Tr. (B) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1208)。

[0090] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を、変換関数 F (Src . 2 (B) )を用いて、中間話者 In.の音声に変換する (ステップ SI 209)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (Tr. (A) )又は変換関数 G 2 (Tr. (B) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2へ変換する (ステップ S 1210)。

[0091] このパターンの場合には、学習の際に、元話者の発声内容と目標話者との発声内容とは同一（setA同士、 setB同士）である必要がある。一方、中間話者を TTSとした場合には、中間話者の発声内容は元話者及び目標話者の音声内容に合わせて発声させることができるため、元話者と目標話者との発声内容を合わせるだけでよぐ学習時の利便性が高まる。また、中間話者を TTSとした場合には、半永久的に中間話者の音声を発声させることができる。

(3)図 12には、学習に使用される元話者の音声の一部が TTS又は人により発声された複数セット分 (setA, setB, setC)の音声であり、中間話者の音声が 1セット分 (s etA)の音声である場合の学習過程及び変換過程を示す。

[0092] まず、中間変換関数生成部 101は、元話者の音声 setAと中間話者 In.の音声 set Aとに基づいて、元話者の音声を中間話者 In.の音声に変換するための変換関数 F (TTS (A) )を生成する（ステップ S 1301)。

[0093] 次に、目標変換関数生成部 102は、生成した変換関数 F (TTS (A) )で元話者の音声 setBを変換し、変換後 Tr. setBを作成する (ステップ S1302)。次に、目標変換関数生成部 102は、変換後 Tr. setBと目標話者 Tag. 1の音声 setBとに基づいて学習を行い、中間話者 In.の音声を目標話者 Tag. 1の音声に変換するための変換関数 Gl (Tr. (B) )を作成する（ステップ SI 303)。

[0094] 同様に、目標変換関数生成部 102は、生成した変換関数 F (TTS (A) )で元話者の音声 setCを変換し、変換後 Tr. setCを作成する (ステップ SI 304)。

[0095] 次に、目標変換関数生成部 102は、変換後 Tr. setCと目標話者 Tag. 1の音声 set Cとに基づいて学習を行い、中間話者 In.の音声を目標話者 Tag. 2の音声に変換するための変換関数 G2 (Tr. (C) )を作成する (ステップ S1305)。

[0096] また、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In.の音声 setAとに基づいて、元話者 Src. 1の音声を中間話者 In.の音声に変換するための変換関数 F (Src. 1 (A) )を生成する (ステップ S 1306)。

[0097] 同様に、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In. の音声 setAとに基づいて、元話者 Src. 2の音声を中間話者 In.の音声に変換するための変換関数 F (Src. 2 (A) )を生成する（ステップ S 1307)。

[0098] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を変換関数 F (Src. 1 (A) )を用いて中間話者 In.の音声に変換する (ステップ S1308)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (Tr. (B) )又は変換関数 G2 (Tr. (C) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1309)。

[0099] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (A) )を用いて、中間話者 In.の音声に変換する (ステップ S1310)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (Tr. (B) )又は変換関数 G2 (Tr. (C) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2へ変換する (ステップ S 1311)。

[0100] 以上のように、このパターンの場合には、中間話者の音声内容と目標話者との音声内容を非パラレルコーノスにすることできる。また、元話者として TTSを用いた場合には、目標話者の発声内容に合わせて元話者としての TSSの発声内容を柔軟に変化させることができるため、変換関数の学習を柔軟に行うことができる。なお、中間話者 I n.の音声内容は 1セット（setA)のみであるため、携帯端末 10を所持する元話者 Src . 1、 Src. 2が声質変換を行うための変換関数 Fを取得する場合には、元話者 Src. 1 、 Src. 2が発声する内容は中間話者 In.の発声内容と同一の setAである必要がある。 (4)図 13には、学習に使用される元話者の音声の一部が、 TTS又は人により発声された複数セット分 (setA, setB)の音声であり、中間話者の音声が TTS又は人により発声された複数セット分 (setA, setC, setD)の音声である場合の学習過程及び変換過程を示す。

[0101] まず、中間変換関数生成部 101は、元話者の音声 setAと中間話者の音声 In.の音声 setAとに基づいて学習を行い、元話者の音声 setAを中間話者 In.の音声 set Aに変換するための変換関数 F (TTS (A) )を生成する (ステップ S1401)。

[0102] 次に、目標変換関数生成部 102は、ステップ S1401で生成された変換関数 F (TT S (A) )で元話者の音声 setAを変換することにより、変換後 Tr. setAを作成する (ステツプ S 1402)。

[0103] 次に、目標変換関数生成部 102は、変換後 Tr. setAと目標話者 Tag. 1の音声 se tAとに基づいて学習を行い、中間話者の音声を目標話者 Tag. 1の音声に変換するための変換関数 Gl (Tr. (A) )を作成する (ステップ S 1403)。

[0104] 同様に、目標変換関数生成部 102は、変換関数 F (TTS (A) )で元話者の音声 set Bを変換することにより、変換後 Tr. setBを作成する (ステップ S 1404)。次に、標変換関数生成部 102は、変換後 Tr. setBと目標話者 Tag. 2の音声 setBとに基づいて学習を行い、中間話者の音声を目標話者 Tag. 2の音声に変換するための変換関数 G2 (Tr. (B) )を作成する（ステップ S 1405)。

[0105] また、中間変換関数生成部 101は、元話者 Src. 1の音声 setCと中間話者 In.の音声 setCとに基づいて学習を行い、元話者 Src. 1の音声を中間話者 In.の音声に変換するための関数 F (Src. 1 (C) )を生成する (ステップ S 1406)。

[0106] 同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setDと中間話者 In. の音声 setDとに基づいて学習を行い、元話者 Src. 2の音声を中間話者 In.の音声に変換するための関数 F (Src. 2 (D) )を生成する (ステップ S 1407)。

[0107] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を変換関数 F (Src. 1 (C) )を用いて中間話者 In.の音声に変換する (ステップ S1408)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (Tr. (A) )又は変換関数 G2 (Tr. (B) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1409)。

[0108] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (D) )を用いて、中間話者 In.の音声に変換する (ステップ S1410)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (Tr. (A) )又は変換関数 G 2 (Tr. (B) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2へ変換する (ステップ S 1411)。

[0109] このパターンの場合には、学習時の元話者と目標話者、及び、中間話者と目標話者との音声内容を非パラレルコーパスとすることができる。

[0110] また、中間話者が TTSである場合には、 TTSから任意の発声内容を出力することができるため、携帯端末 10を所持する元話者 Src. 1, Src. 2が声質変換を行うための変換関数 Fを取得する場合には、元話者 Src. 1, Src. 2が発声する内容は決められたものでなくてもよくなる。また、元話者が TTSである場合には、目標話者の発声内容が決められたものでなくてもよくなる。

[0111] [2]変換前特徴量変換方式

次に、変換関数学習方式が変換前特徴量変換方式である場合について説明する。上述した変換後特徴量変換方式では、実際の声質変換処理の手順を考慮して変換関数 Gを生成した。これに対して、変換前特徴量変換方式では、変換関数 Fと変換関数 Gとを独立に学習する。この方式では、学習工程は減少するが、変換後の声質の精度が若干低下することとなる。

(1)図 14には、学習用の中間話者の音声が 1セット分 (setA)の音声である場合の学習過程及び変換過程を示す。

[0112] まず、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In.の音声 setAとに基づ、て学習を行、、変換関数 F (Src. 1 (A) )を生成する (ステップ S 1501)。同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setAと中間話者 In.の音声 setAとに基づいて学習を行い、変換関数 F (Src. 2 (A) )を生成する（ステップ S 1502)。

[0113] 次に、目標変換関数生成部 102は、中間話者 In.の音声 setAと目標話者 Tag. 1 の音声 setAとに基づいて学習を行い、変換関数 Gl (In. (A) )を生成する (ステップ S1503) _o同様に、目標変換関数生成部 102は、中間話者 In.の音声 setAと目標話者 Tag. 2の音声 setAとに基づいて学習を行い、変換関数 G2 (In. (A) )を生成する（ステップ S 1503)。

[0114] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を変換関数 F (Src. 1 (A) )を用いて中間話者 In.の音声に変換する (ステップ S1505)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (In. (A) )又は変換関数 G2 (In. (A) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1506)。

[0115] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (A) )を用いて中間話者 In.の音声に変換する (ステップ S1507)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (In. (A) )又は変換関数 G2 (I n. (A) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する (ステツプ S 1508)。

[0116] このように、中間話者の発声内容を setAの 1セットのみ収録して学習を行う場合には、変換後特徴量変換方式と同様に、元話者の発声内容と目標話者の発声内容とが同一の発声内容のセット（setA)である必要がある力従来に比較して、学習により生成すべき変換関数の数が減少する。

(2)図 15には、中間話者の音声が TTS又は人により発声された複数セット分 (setA , setB, setC, setD)の音声である場合の学習過程及び変換過程を示す。

[0117] まず、中間変換関数生成部 101は、元話者 Src. 1の音声 setAと中間話者 In.の音声 setAとに基づ、て学習を行、、変換関数 F (Src. 1 (A) )を生成する (ステップ S 1601)。同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setBと中間話者 In.の音声 setBとに基づいて学習を行い、変換関数 F (Src. 2 (B) )を生成する（ステップ S 1602)。

[0118] 次に、目標変換関数生成部 102は、中間話者 In.の音声 setCと目標話者 Tag. 1 の音声 setCとに基づ、て学習を行、、変換関数 Gl (In. (C) )を生成する (ステップ S1603)。同様に、目標変換関数生成部 102は、中間話者 In.の音声 setDと目標話者 Tag. 2の音声 setAとに基づいて学習を行い、変換関数 G2 (In. (D) )を生成する（ステップ SI 604)。

[0119] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を変換関数 F (Src. 1 (A) )を用いて中間話者 In.の音声に変換する (ステップ S1605)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (In. (C) )又は変換関数 G2 (In. (D) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1606)。

[0120] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (B) )を用いて中間話者 In. の音声に変換する (ステップ S 1607)。次に、目標声質変換部 212は、中間話者 In.の音声を変換関数 Gl (In. (C) )又は変換関数 G2 (In . (D) )を用いて目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する (ステップ S1608)。

[0121] 以上のように、中間話者を TTSとした場合には、半永久的に中間話者に所定の声質の音声を発声させることができる。また、元話者及び中間話者の発声内容に関わらず、元話者及び中間話者の発声内容に合わせた音声内容を TTSから出力することができるため、学習時の元話者及び中間話者の発声内容が制約されることがない。このため利便性が高まり、変換関数を容易に生成することができる。また、元話者と目標話者との発声内容を非パラレルコーパスにすることができる。

(3)図 16には、元話者の音声の一部が TTS又は人により発声された複数セット分 (ここでは、 setA, setB)の音声であり、中間話者の音声が TTS又は人により発声された複数セット分 (ここでは、 setA, setC, setD)の音声である場合の学習過程及び変換過程を示す。

[0122] 目標変換関数生成部 102は、中間話者 In.の音声 setAと目標話者 Tag. 1の音声 setAとに基づいて学習を行い、変換関数 Gl (In. (A) )を生成する（ステップ SI 701

) o

[0123] 同様に、目標変換関数生成部 102は、中間話者 In.の音声 setBと目標話者 Tag.

2の音声 setBとに基づいて学習を行い、変換関数 G2 (In. (B) )を生成する (ステツプ S 1702)。

[0124] 中間変換関数生成部 101は、元話者 Src. 1の音声 setCと中間話者 In. の音声 set Cとに基づいて学習を行い、変換関数 F (Src. 1 (C) )を生成する (ステップ SI 703)

[0125] 同様に、中間変換関数生成部 101は、元話者 Src. 2の音声 setDと中間話者 In. の音声 setDとに基づいて学習を行い、変換関数 F (Src. 2 (D) )を生成する (ステツプ S 1704)。

[0126] 変換過程においては、中間声質変換部 211は、元話者 Src. 1の任意の音声を変換関数 F (Src. 1 (C) )を用いて中間話者 In.の音声に変換する (ステップ S1705)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (In. (A) )又は変換関数 G2 (In. (B) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する（ステップ S 1706)。

[0127] 同様に、中間声質変換部 211は、元話者 Src. 2の任意の音声を変換関数 F (Src.

2 (D) )を用いて中間話者 In. の音声に変換する (ステップ S1707)。次に、目標声質変換部 212は、中間話者 In.の音声を、変換関数 Gl (In. (A) )又は変換関数 G2 (I n. (B) )を用いて、目標話者 Tag. 1又は目標話者 Tag. 2の音声へ変換する (ステツプ S 1708)。

[0128] このパターンの場合には、中間話者を TTSとした場合には、元話者及び目標話者の発声内容に応じて元話者の発声内容を変化させることができ、柔軟に変換関数の学習を行うことができる。また、学習時の元話者と目標話者との音声内容を非パラレルコーパスにすることできる。

[0129] (評価）

次に、従来法及び本願手法における声質変換の精度を客観的に評価するために実施した実験手順及び実験結果につ!ヽて説明する。

[0130] ここでは、声質変換の手法として、混合正規分布モデル (GMM)に基づく特徴量変換法 (例は、 A. Kain and M.W.Macon, Spectral voice conversion for text- to- sp eech synthesis," Proc.ICASSP,pp.285- 288,Seattle,U.S.A.May,1998.参照）を用いる。

[0131] 以下、 GMMに基づく声質変換手法について説明しておく。時間領域においてフレームごとに対応付けられた、変換元となる話者の音声の特徴量 Xおよび変換先となる話者の音声の特徴量 yを、それぞれ [0132] [数 1]

[0133] と表す。ここで、 pは特徴量の次元数であり、 Tは転置を示す。 GMMでは、音声の特徴量 Xの確率分布 p (X)を

[0134] [数 2]

a_i =1, β, ≥ 0

[0135] と表す。ここで、 a iはクラス iの重み、 mはクラス数である。また、 N (x； i, ∑ i)はクラス iでの平均ベクトル μ iおよび共分散行列∑ iを有する正規分布であり、

[0136] [数 3] exp! — — μ! 2__ti 、χ μ

[0137] と表される。次に、元話者の音声の特徴量 Xから目標話者の音声の特徴量 yへと変換を行う変換関数 F(x)は、

[0138] [数 4]

F(x) = 2 , (χ)[μ ) +∑ 〔∑ )〕 (X― )]

[0139] と表される。ここで、 i (X)、 i (y)はそれぞれ xおよび yのクラス iでの平均ベクトルを表す。また、∑i (XX)は Xのクラス iでの共分散行列を示し、∑i(yx)は yと Xにおけるクラス iでの相互共分散行列を示す。 hi(x)は、

[0140] [数 5]

N( )，∑( )) [0141] である。変換関数 F (x)の学習は、変換パラメータである（ a i、 i (X)、 i (y)、 ∑ i ( xx)、 ∑i (yx) )を推定することにより行われる。 Xおよび yの結合特徴量ベクトル zを [0142] 園，

[0143] と定義する。 ζの確率分布 ρ (ζ)は GMMにより

[0144] [数 7] z) = 2 ,.N(_Z; p ,∑;-'))

[0145] と表される。ここで、 zのクラス iでの共分散行列∑ i (z)および平均ベクトル μ i (z)はそれぞれ

[0146] [数 8]

∑Ϋ'^Χ) ν(»

(-') ―

μ ( )

μ;

[0147] と表される。変換パラメータ（a i、 i (x)、 /z i (y)ゝ ∑i (xx)、 ∑i (yx) )の推定は、公知の EMアルゴリズムにより行うことができる。

[0148] 学習にはテキストなどの言語情報は一切使用せず、特徴量の抽出や GMMの学習はコンピュータを用いて全て自動で行う。実験には、元話者として男女各 1名（男性話者 A、女性話者 B)、中間話者 Iとして女性話者 1名、目標話者 Tとして男性 1名を用いる。

[0149] 学習データとして、 ATR音素バランス文 (例えば、阿部匡伸、匂坂芳典、梅田哲夫、桑原尚夫著、 "研究用日本語音声データベース利用解説書 (速読音声データ編)、 "ATRテク-カルレポート、 TR-I-0166, 1990.参照）のうちサブセット 50文を使用し、評価データとして学習データに含まれないサブセット 50文を使用する。

[0150] 音声に対しては、 STRAIGHT分析（例えば、 H. Kawahara et al. "Restructuring s peech representation using a pitch-adaptive time-frequency smoothing and an insta ntaneous— frequency— based AO extraction： possible role of a repetitive structure in s ounds," Speech Communication,Vol.27,No.3-4,pp.187-207, 1999.参照）を行う。サンプリング周期は 16kHz、フレームシフトは 5msである。音声のスペクトル特徴量として、 STRAIGHTスペクトルから変換された 1〜41次のケプストラム係数を用いる。 GM Mの混合数は 64とする。変換精度の評価尺度として、ケプストラム歪（Cepstral Disto rtion)を用いる。評価は元話者力も変換したケプストラムと、目標話者のケプストラムとの歪を計算する。ケプストラム歪は式（1)で表され、値が小さいほど高い評価となる。

[0151] [数 9] (ς^{( Ο} - c¹" )²

[0152] ここで、 Ci (x)は目標話者の音声のケプストラム係数、 Ci(y)は変換音声のケプストラム係数、 Pはケプストラム係数の次数を示す。本実験では、 p=41である。

[0153] 実験結果のグラフを図 17に示す。グラフ縦軸はケプストラム歪みであり、当該値は各フレームごとに式（1)により求められたケプストラム歪みを、全フレームにおいて平均した値である。

[0154] (a)は元話者 (A、 B)のケプストラムと目標話者 Tのケプストラムとの歪みを表す。 (b )は、従来法に相当し、元話者 (A、 B)と目標話者 Tで直接学習を行った場合の元話者 (A、B)から変換したケプストラムと、目標話者 Tのケプストラムとの歪みを表す。 (c )、（d)は、本願の手法を適用したものである。（c)について具体的に説明すると、元話者 Aから中間話者 Iへの中間変換関数を F (A)、元話者 Aより F (A)を使用して生成された音声から目標話者 Tの音声への目標変換関数を G (A)とする。また同様に、元話者 Bから中間話者 Iへの中間変換関数を F (B)、元話者 Bより F (B)を使用して生成された音声から目標話者 Tの音声への目標変換関数を G (B)とする。ここで、元話者 A力 F (A)を使用し、中間話者 Iのケプストラムに一度変換し、さらに G (A)を使用して目標話者 Tに変換したケプストラムと、目標話者 Tのケプストラムとの歪み (元話者 A→目標話者 T)を表す。同様に、元話者 Βから F (B)を使用し、中間話者 Iのケプストラムに一度変換し、さらに G (B)を使用して目標話者 Tに変換したケプストラムと、目標話者 Tのケプストラムとの歪み (元話者 B→目標話者 T)も表す。

[0155] (d)は、（c)において本人以外の目標変換関数 Gを使用した場合について表す。具体的には、元話者 Aから F (A)を使用して中間話者 Iに変換した後、 G (B)を使用して目標話者 Tに変換したケプストラムと、目標話者 Tのケプストラムとの歪み (元話者 A →目標話者 T)を表す。また同様に、元話者 Bから F (B)を使用して中間話者 Iに変換した後、 G (A)を使用して目標話者 Tに変換したケプストラムと、目標話者 Tのケプストラムとの歪み (元話者 B→目標話者 T)も表す。

[0156] これらのグラフより、従来法 (b)と本願手法 (c)とでケプストラムの歪みはほぼ同じ値をとつていることから、中間話者を介した変換を行っても従来法と同程度の品質を保つことができることがわ力る。さらに、従来法 (b)と本願手法 (d)とでケプストラムの歪みはほぼ同じ値をとつていることから、中間話者を介した変換を行うときに、中間話者力目標話者への目標変換関数は、任意の元話者により作成された目標話者ごと〖こ 1種類の Gを共通に使用しても、従来法と同程度の品質を保つことができることがわかる。

[0157] 以上説明したように、サーバ 10は、 1つ以上の元話者各々の音声を 1つの中間話者の音声に変換するための変換関数 Fと、前記 1つの中間話者の音声を 1つ以上の目標話者各々の音声に変換するための変換関数 Gとを学習し生成するため、元話者と目標話者とが複数存在する場合、元話者の音声各々を中間話者の音声に変換するための変換関数、及び、中間話者の音声を目標話者の音声各々に変換するための変換関数を用意すれば、元話者各々の音声を目標話者各々の音声に変換することができる。つまり、従来のように、元話者の音声各々を目標話者の音声各々に変換するための変換関数を用意するよりも少ない変換関数で声質変換を行うことが可能となる。従って、少ない負担で学習を行い変換関数を生成し、当該変換関数を用いて声質変換を行うことが可能となる。

[0158] また、携帯端末 20を利用して自己の音声の声質変換を行うユーザは、自己の音声を中間話者の音声に変換するための変換関数 Fを 1つ作成して携帯端末 20に記憶させておき、中間話者力ユーザ所望の目標話者の音声に変換するための変換関数 Gをサーバ 10からダウンロードすることで、容易に自己の音声を目標話者の音声に変換することが可能となる。

[0159] また、目標変換関数生成部 102は、元話者の音声が変換関数 Fによって変換された後の音声を目標話者の音声に変換するための関数を、中間変換関数として生成することができる。そのため、実際の声質変換時の処理に合わせた変換関数を生成することができ、中間話者カゝら直接収集された音声を目標話者の音声に変換するための変換関数を生成するよりも、実際の声質変換時の声質精度を向上させることができる。

[0160] また、中間話者の音声を TTSから出力される音声とすることで、元話者や目標話者力 Sどのような内容の音声を発声しても、 TTSに同じ内容の音声を発声させることができる。そのため、学習時における元話者や目標話者の発声内容の制約がなくなり、元話者や目標話者から特定の音声内容を収集するための手間が省け、変換関数の学習を容易に行うことができる。

[0161] また、変換後特徴量変換方式にお!、て元話者の音声を TTSとすることで、目標話者の発声内容に合わせて元話者としての TTSに任意の音声内容を発声させることができ、目標話者の発声内容に制約されずに容易に変換関数 Gを学習することが可能となる。

[0162] 例えば、目標話者の音声がアニメのキャラクターや映画俳優の音声であっても、過去に収録された音源を用いて容易に学習を行うことができる。

[0163] また、変換関数 Fと変換関数 Gとを合成した変換関数を用いて声質変換を行うことにより、声質変換に要する時間やメモリを削減することができる。

[0164] (変形例）

(1)上述した実施の形態では、声質変換クライアントサーバシステム 1を構成する装置のうち、サーバ 10が中間変換関数生成部 101及び目標変換関数生成部 102を備え、携帯端末 20が中間声質変換部 211及び目標声質変換部 212を備えているとして説明した。しかし、これに限定されることはなぐ声質変換クライアントサーバシステム 1の装置構成、及び、声質変換クライアントサーバシステム 1を構成する装置における中間変換関数生成部 101、目標変換関数生成部 102、中間声質変換部 211、及び、目標声質変換部 212の配置は、かなる配置であっても構わな、。

[0165] 例えば、 1つの装置が中間変換関数生成部 101、目標変換関数生成部 102、中間声質変換部 211、目標声質変換部 212の全ての機能を備えて、てもよ、。

[0166] また、変換関数学習機能のうち、携帯端末 20が中間変換関数生成部 101を備えており、サーバ 10が目標変換関数生成部 102を備えていてもよい。この場合には、携帯端末 20の不揮発性メモリに変換関数 Fを学習し生成するためのプログラムを記憶させておく必要がある。

[0167] 以下、図 18を参照して、携帯端末 20が中間変換関数生成部 101を備えている場合の、携帯端末 20における変換関数 Fの生成手順について説明する。

[0168] 図 18 (a)には、元話者 Aの発声内容が固定の場合の手順を示す。元話者 xの発声内容が固定の場合には、予め当該内容の中間話者の音声を携帯端末 20の不揮発性メモリに記憶させておく。そして、携帯端末 20が備えるマイクロフォンで収集された元話者 Xの音声と、携帯端末 20に記憶させておいた中間話者 iの音声とに基づいて学習し (ステップ S601)、変換関数 F (X)を取得する (ステップ S602)。

[0169] 図 18 (b)には、元話者 Aの発声内容が自由である場合の処理手順を示す。この場合には、音声をテキストに変換する音声認識装置と、テキストを音声に変換する TTS とを携帯端末 20に搭載しておく。

[0170] まず、音声認識装置は、携帯端末 20が備えるマイクロフォンで収集された元話者 X の音声の音声認識を行、、元話者 Xの発声内容をテキストに変換し (ステップ S 701 ) 、 TTSに入力する。 TTSは、テキストから中間話者 i(TTS)の音声を生成する (ステツプ S702)。

[0171] 中間変換関数生成部 101は、中間話者 i (TTS)の音声と元話者の音声とに基づいて学習し (ステップ S703)、変換関数 F (X)を取得する (ステップ S704)。

[0172] (2)上述した実施の形態においては、声質変換部 21は、変換関数 Fを用いて元話者の音声を中間話者の音声に変換する中間声質変換部 211と、変換関数 Gを用いて中間話者の音声を目標話者の音声に変換する目標声質変換部 212と、で構成されているとして説明した。これは一例に過ぎず、声質変換部 21は、変換関数 Fと変換関数 Gとが合成された関数を用いて、元話者の音声を直接目標話者の音声に変換する機能を備えていてもよい。

[0173] (3)本発明に係る声質変換機能を送信側及び受信側の携帯電話機に適用することで、送信側の携帯電話機に入力された音声の声質を変換して、受信側の携帯電話機力出力することが可能となる。この場合、送信側及び受信側の携帯電話機における処理パターンとしては、以下のパターンが考えられる。

1)送信側の携帯電話機で LSP (Line Spectral Pair)係数を変換した後（図 19 (a)参照)、受信側の携帯電話機でデコードする（図 19 (c)参照)。

2)送信側の携帯電話機で LSP係数及び音源信号を変換した後（図 19 (b)参照)、受信側の携帯電話機でデコードする（図 19 (c)参照)。

3)送信側の携帯電話機でエンコードした後（図 20 (a)参照)、受信側の携帯電話機で LSP係数を変換した後デコードする（図 20 (b)参照)。

4)送信側の携帯電話機でエンコードした後（図 20 (a)参照)、受信側の携帯電話機で LSP係数及び音源信号を変換した後、デコードする（図 20 (c)参照)。

[0174] なお、上記 3)、 4)のように受信側の携帯電話機で変換を行うためには、正確には、送信者 (音声入力者)の変換関数又は送信者の属する変換関数のクラスタを決定するインデックスなど、送信者の変換関数に関する情報が必要となる。

[0175] 以上のように、既存の携帯電話機に対して、 LSP係数変換、音源信号変換等を利用した声質変換の機能を追加するだけで、システムやインフラの変更を伴わずに、携帯電話機間で送受信される音声の声質変換を行うことができる。

[0176] また、図 21に示すように、サーバにおいて声質変換を行うことも可能である。図 21 では、 LSP係数及び音源信号の両方を変換している力 LSP係数のみの変換でもよい。

(4)上述した実施の形態においては、音声合成装置として TTSを用いたが、入力された音声内容を、所定の声質に変換して出力する装置を用いても良い。

(5)上述した実施の形態においては、中間話者の音声への変換を介する 2段階の声質変換について説明している。しかし、これに限定されることはなぐ複数の中間話者の音声への変換を介する多段階の声質変換であってもよ、。産業上の利用可能性

少ない変換学習及び少ない変換関数で、多くのユーザの音声を多様な目標話者の音声に変換することを可能とする声質変換サービスに利用することができる。

Claims

請求の範囲

[1] 元話者の音声を目標話者の音声に変換する声質変換システムにおいて、

元話者の音声を、中間話者の音声への変換を介して、目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。

[2] 1つ以上の元話者各々の音声を 1つ以上の目標話者各々の音声に変換するための関数を学習する声質変換学習システムにおいて、

前記元話者の音声を、前記 1つ以上の元話者各々に対し共通に設けられた 1つの中間話者の音声へ変換するための中間変換関数を学習し生成する中間変換関数生成手段と、

前記中間話者の音声を前記目標話者の音声に変換するための目標変換関数を学習し生成する目標変換関数生成手段と

を備えることを特徴とする声質変換学習システム。

[3] 前記目標変換関数生成手段は、

前記元話者の音声が前記中間変換関数によって変換された後の音声を前記目標話者の音声に変換するための関数を、前記目標変換関数として生成することを特徴とする

請求項 2に記載の声質変換学習システム。

[4] 前記学習に用いられる中間話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置力出力される音声であることを特徴とする

請求項 2又は 3に記載の声質変換学習システム。

[5] 前記学習に用いられる元話者の音声は、任意の音声内容を所定の声質で出力する音声合成装置力出力される音声であることを特徴とする

請求項 2から 4の何れか 1項に記載の声質変換学習システム。

[6] 前記中間変換関数生成手段により生成された中間変換関数と、前記目標変換関数生成手段により生成された目標変換関数とを合成することにより、前記元話者の音声を前記目標話者の音声に変換するための関数を生成する変換関数合成手段をさらに備えることを特徴とする

請求項 2から 5の何れか 1項に記載の声質変換学習システム。

[7] 請求項 2から 6の何れか 1項に記載の声質変換学習システムにより生成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換する声質変換手段を備えることを特徴とする声質変換システム。

[8] 前記声質変換手段は、

前記中間変換関数を用いて、前記元話者の音声から前記中間話者の音声を生成する中間声質変換手段と、

前記目標変換関数を用いて、前記中間声質変換手段により生成された前記中間話者の音声から前記目標話者の音声を生成する目標声質変換手段とを備えることを特徴とする

請求項 7に記載の声質変換システム。

[9] 前記声質変換手段は、

前記中間変換関数と前記目標変換関数とが合成された関数を用いて、前記元話者の音声を前記目標話者の音声に変換することを特徴とする

請求項 7に記載の声質変換システム。

[10] 前記声質変換手段は、音声の特徴量であるスペクトル系列を変換することを特徴とする

請求項 7から 9の何れか 1項に記載の声質変換システム。

[11] クライアントコンピュータとサーバコンピュータとがネットワークを介して接続され、 1 つ以上のユーザ各々の音声を 1つ以上の目標話者各々の音声に変換する声質変換クライアントサーバシステムにおヽて、

前記クライアントコンピュータは、

前記ユーザの音声を取得するユーザ音声取得手段と、

前記ユーザ音声取得手段により取得した前記ユーザの音声を前記サーバコンビュータへ送信するユーザ音声送信手段と、

前記ユーザの音声を前記 1つ以上のユーザ各々に共通に設けられた 1つの中間話者の音声へ変換するための中間変換関数を前記サーバコンピュータ力受信する中間変換関数受信手段と、

前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を、前記サーバコンピュータから受信する目標変換関数受信手段と備え、前記サーバコンピュータは、

前記クライアントコンピュータ力前記ユーザの音声を受信するユーザ音声受信手段と、

前記中間話者の音声を予め記憶する中間話者音声記憶手段と、

前記ユーザの音声を前記中間話者の音声へ変換するための中間変換関数を生成する中間変換関数生成手段と、

前記目標話者の音声を予め記憶する目標話者音声記憶手段と、

前記中間話者の音声を前記目標話者の音声へ変換するための目標変換関数を生成する目標変換関数生成手段と、

前記中間変換関数を前記クライアントコンピュータへ送信する中間変換関数送信手段と、

前記目標変換関数を前記クライアントコンピュータへ送信する目標変換関数送信手段とを備え、

更に前記クライアントコンピュータは、

前記中間変換関数を用いて、前記ユーザの音声から前記中間話者の音声を生成する中間声質変換手段と、

前記目標変換関数を用いて、当該中間話者の音声力前記目標話者の音声を生成する目標変換手段と

を備えることを特徴とする声質変換クライアントサーバシステム。

[12] コンピュータに、

1つ以上の元話者各々の音声を 1つの中間話者の音声に変換するための中間変換関数各々を生成する中間変換関数生成ステップと、

1つの中間話者の音声を 1つ以上の目標話者各々の音声に変換するための目標変換関数各々を生成する目標変換関数生成ステップと

の少なくとも一方のステップを実行させるためのプログラム。

[13] コンピュータに、

元話者の音声を中間話者の音声に変換するための中間変換関数、及び、前記中間話者の音声を目標話者の音声に変換するための目標変換関数を取得する変換関数取得ステップと、

前記変換関数取得ステップにお、て取得された中間変換関数を用いて、前記元話者の音声力前記中間話者の音声を生成する中間声質変換ステップと、

前記変換関数取得ステップにお、て取得された目標変換関数を用いて、前記中間声質変換ステップにおいて生成された前記中間話者の音声力前記目標話者の音声を生成する目標声質変換ステップと

を実行させるためのプログラム。