JPWO2011004579A1 - 声質変換装置、音高変換装置および声質変換方法 - Google Patents

声質変換装置、音高変換装置および声質変換方法 Download PDF

Info

Publication number
JPWO2011004579A1
JPWO2011004579A1 JP2010549958A JP2010549958A JPWO2011004579A1 JP WO2011004579 A1 JPWO2011004579 A1 JP WO2011004579A1 JP 2010549958 A JP2010549958 A JP 2010549958A JP 2010549958 A JP2010549958 A JP 2010549958A JP WO2011004579 A1 JPWO2011004579 A1 JP WO2011004579A1
Authority
JP
Japan
Prior art keywords
sound source
frequency
spectrum
waveform
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010549958A
Other languages
English (en)
Other versions
JP4705203B2 (ja
Inventor
良文 廣瀬
良文 廣瀬
釜井 孝浩
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2010549958A priority Critical patent/JP4705203B2/ja
Application granted granted Critical
Publication of JP4705203B2 publication Critical patent/JP4705203B2/ja
Publication of JPWO2011004579A1 publication Critical patent/JPWO2011004579A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

境界周波数以下の周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに入力音源波形の高調波のレベルと目標音源波形の高調波のレベルとを所定の変換比率で混合することにより得られる、変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域高調波レベル算出部(202a、202b)および高調波レベル混合部(203)と、境界周波数よりも大きい周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを、所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル包絡混合部(204)と、低域の音源スペクトルと高域の音源スペクトルとを、境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部(205)とを備える。

Description

本発明は、入力音声の声質を変換する声質変換装置および入力音声の音の高さを変換する音高変換装置に関する。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の画一的な用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音や、女子高校生風や関西弁風などの特徴的な韻律・声質を持つ合成音)が一つのコンテンツとして流通しはじめている。このように、個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。
従来の音声合成方法として、音声を分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法が知られている。分析合成型音声合成方法では、音声の生成原理に基づいて音声を分析することにより、音声信号を、声道情報を示すパラメータ(以下、適宜「声道情報」という。)と音源情報を示すパラメータ(以下、適宜「音源情報」という。)とに分離する。また、分析合成型音声合成方法では、分離されたパラメータをそれぞれ変形することにより、合成音の声質を変換することが可能である。この音声の分析には、音源・声道モデルと呼ばれるモデルが使用される。
このような分析合成型音声合成方法では、入力された文章に対し、目標の声質を持つ少量の音声(例えば母音音声)を用いて入力音声の話者特徴のみを変換することが可能である。入力された音声は、一般に自然な時間的動きを保持しているが、目標声質の少量音声(孤立母音発声など)は時間的動きをあまり持たない。この2種類の音声を用いて声質変換する場合、入力音声が持つ時間的動き(動的特徴)を保持しながら、目標声質音声が持つ話者特徴(静的特徴)への変換が必要である。これを解決するために特許文献1では、声道情報に関して、入力音声と目標声質音声との間でモーフィングを行なうことにより、入力音声の動的な特徴を保持しながら、目標声質音声の静的な特徴を再現することを行なっている。このような変換を音源情報の変換においても実施できれば、より目標声質に近い音声を得ることができる。
また、音声合成技術において、音源情報を示す音源波形を生成する方法として、音源モデルを用いるものがある。例えば、Rosenberg Klattモデル(RKモデル)という音源モデルが知られている(例えば、非特許文献1参照。)。
この方法は、音源波形を時間領域でモデル化し、モデルパラメータに基づいて音源波形を生成するものである。RKモデルを用いれば、モデルパラメータを変形することにより、柔軟に音源特徴を変換することができる。
RKモデルにより時間領域でモデル化された音源波形(r)を式1に示す。
Figure 2011004579
ここで、tは連続時間を、Tは標本化周期を、nはTごとの離散時間をそれぞれ表す。また、AV(Amplitude of Voice)は有声音源振幅を、tは基本周期を、OQ(Open Quantity)は基本周期に対する声門が開いている時間の割合をそれぞれ表す。ηはそれらの集合を表す。
特許第4246792号公報
"Analysis,synthesis,and perception of voice quality variations among female and male talkers",Jarnal of Acostics Society America, 87(2),February 1990,pp.820−857
本来、微細な構造を持つ音源波形をRKモデルでは比較的単純なモデルで表現しているため、モデルパラメータを変形することにより声質を柔軟に変更できるという利点がある。しかしながら、その反面、モデルの表現能力不足により、実際の音源波形のスペクトルである音源スペクトルの微細な構造を十分に再現することができない。結果として合成音の音質は肉声感が不足したいわゆる合成音的なものになるという課題がある。
本発明は、上述の課題を解決するためになされたものであり、音源スペクトルの形状の変換または音源波形の基本周波数の変換を行ったとしても、不自然な音質変化を起こさない声質変換装置および音高変換装置を提供することを目的とする。
本発明のある局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声波形の音源情報を示す入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数変換部と、前記基本周波数変換部で算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、入力音声の音源スペクトルである入力音源スペクトルおよび目標音声の音源スペクトルである目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより得られる、前記変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域スペクトル算出部と、前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルおよび前記目標音源スペクトルを、前記所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル算出部と、前記低域の音源スペクトルと前記高域の音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、境界周波数以下の周波数帯域においては、声質を特徴付ける高調波のレベルを個々に制御して入力音源スペクトルを変換することができる。また、境界周波数よりも大きい周波数帯域においては、声質を特徴付けるスペクトル包絡の形状の変換を行うことにより入力音源スペクトルを変換することができる。このため、不自然な音質変化を起こすことなく、入力音声の声質を変換した音声を合成することができる。
好ましくは、前記入力音声波形および前記目標音声波形は、同一の音素の音声波形である。
さらに好ましくは、前記入力音声波形および前記目標音声波形は、同一の音素の音源波形であり、かつ前記同一の音素内の同一の時間的な位置における音声波形である。
このように目標音源波形を選択することにより、入力音源波形の変換時に不自然な変換を起こすことがない。このため、不自然な音質変化を起こすことなく入力音声の声質を変換することができる。
本発明の他の局面に係る音高変換装置は、入力音声の音高を変換する音高変換装置であって、入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、前記入力音源波形に基づいて、前記入力音源波形の基本周波数を算出する基本周波数算出部と、所定の目標基本周波数に対応する境界周波数以下の周波数帯域において、前記入力音源波形の基本周波数が前記所定の目標基本周波数に一致し、かつ変換の前後において基本波を含む高調波のレベルが等しくなるように前記入力音源スペクトルを変換することにより低域の音源スペクトルを算出する低域スペクトル算出部と、前記低域の音源スペクトルと、前記境界周波数よりも大きい周波数帯域における前記入力音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、音源波形の周波数帯域を分割し、低域の高調波レベルを目標基本周波数の高調波の位置に再配置する。これにより、音源波形が持つ自然性を保持しながら、当該音源波形が持つ音源の特徴である声門開放率およびスペクトル傾斜を保持することができる。よって、音源の特徴を変えずに、基本周波数を変換することが可能となる。
本発明のさらに他の局面に係る音高変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、前記入力音源波形に基づいて、前記入力音源波形の基本周波数を算出する基本周波数算出部と、声門開放率と、第1高調波のレベルと第2高調波のレベルとの比との関係を示すデータを参照し、所定の声門開放率に対応する第1高調波のレベルと第2高調波のレベルとの比を決定するレベル比決定部と、前記入力音源波形の基本周波数に基づいて定められる前記入力音源波形の第1高調波のレベルと第2高調波のレベルとの比が、前記レベル比決定部で決定された前記比に一致するように、前記入力音源波形の第1高調波のレベルを変換することにより、変換後の音声の音源スペクトルを生成するスペクトル生成部と、前記スペクトル生成部が生成した前記音源スペクトルを用いて、前記変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、所定の声門開放率に基づいて、第1高調波(基本波)のレベルを制御することにより、音源波形が保持する自然性を保持しながら、音源の特徴である声門開放率を自在に変更することが可能となる。
なお、本発明は、このような特徴的な処理部を備える声質変換装置または音高変換装置として実現することができるだけでなく、声質変換装置または音高変換装置に含まれる特徴的な処理部をステップとする声質変換方法または音高変換方法として実現することができる。また、声質変換方法または音高変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD−ROM(Compact Disc−Read Only Memory)等のコンピュータ読取可能な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
本発明によると、音源スペクトルの形状の変換または音源波形の基本周波数の変換を行ったとしても、不自然な音質変化を起こさない声質変換装置および音高変換装置を提供することができる。
図1は、声帯の状態による、音源波形、微分音源波形および音源スペクトルの違いを示す図である。 図2は、本発明の実施の形態1における声質変換装置の機能的な構成を示すブロック図である。 図3は、音源情報変形部の詳細な機能的な構成を示すブロック図である。 図4は、本発明の実施の形態1における音声波形から音源スペクトル包絡を得る処理のフローチャートである。 図5は、ピッチマークを付与した音源波形の一例を示す図である。 図6は、波形切出部により切り出された音源波形およびフーリエ変換部により変換された音源スペクトルの例を示す図である。 図7は、本発明の実施の形態1における入力音源スペクトルおよび目標音源スペクトルを用いて、入力音声波形を変換する処理のフローチャートである。 図8は、周波数ごとの臨界帯域幅を示す図である。 図9は、周波数による臨界帯域幅の違いを説明するための図である。 図10は、臨界帯域幅における音源スペクトルの結合について説明するための図である。 図11は、本発明の実施の形態1における低域混合処理(図7のS201)の流れを示すフローチャートである。 図12は、高調波レベル混合部の動作例を示す図である。 図13は、高調波レベル混合部による音源スペクトルの補間例を示す図である。 図14は、高調波レベル混合部による音源スペクトルの補間例を示す図である。 図15は、本発明の実施の形態1における周波数伸縮による低域混合処理(図7のS201)の流れを示すフローチャートである。 図16は、本発明の実施の形態1における高域混合処理の流れを示すフローチャートである。 図17は、高域スペクトル包絡混合部の動作例を示す図である。 図18は、本発明の実施の形態1における高域のスペクトル包絡を混合する処理のフローチャートである。 図19は、PSOLA法による基本周波数変換法の概念図である。 図20は、PSOLA法により基本周波数を変更した場合の高調波レベルの変化を表す図である。 図21は、本発明の実施の形態2における音高変換装置の機能的な構成を示すブロック図である。 図22は、本発明の実施の形態2における基本周波数変換部の機能的な構成を示すブロック図である。 図23は、本発明の実施の形態2における音高変換装置の動作を示すフローチャートである。 図24は、PSOLA法と実施の形態2による音高変換方法とを比較するための図である。 図25は、本発明の実施の形態3における声質変換装置の機能的な構成を示すブロック図である。 図26は、本発明の実施の形態3における声門開放率変換部の機能的な構成を示すブロック図である。 図27は、本発明の実施の形態3における声質変換装置の動作を示すフローチャートである。 図28は、声門開放率と音源スペクトルの第1高調波の対数値と第2高調波の対数値のレベル差を表す図である。 図29は、実施の形態3による変換前後の音源スペクトルの一例を示す図である。 図30は、声質変換装置または音高変換装置の外観図である。 図31は、声質変換装置または音高変換装置のハードウェア構成を示すブロック図である。
個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声の生成を声質を変えることにより実現する場合、男性から女性へ、あるいは女性から男性へといった性別を跨ぐ音声の変換を行ないたい場合がある。また、音声における緊張度合いを変換したい場合もある。
音声の生成原理に基づけば、音声における音源波形は声帯の開閉により生成される。このため、声帯の生理的な状態に応じて声質が異なる。例えば、声帯の緊張度合いを高める場合、声帯が強く閉じられることとなる。このため、図1(a)に示すように音源波形を微分した微分音源波形のピークが鋭くなり、微分音源波形がインパルスに近づく。つまり、声門開放区間30が短くなる。一方、声帯の緊張度合いを低くした場合には、声帯が完全に閉じなくなり、微分音源波形のピークは緩やかになり、図1(c)に示すように、微分音源波形が正弦波に近づくことが知られている。つまり、声門開放区間30が長くなる。図1(b)は、図1(a)と図1(c)の中間の緊張度合いにおける音源波形、微分音源波形および音源スペクトルを示している。
上述のRKモデルを用いると、声門開放率(OQ)を小さくすれば図1(a)に示すような音源波形を生成することができ、OQを大きくすれば図1(c)に示すような音源波形を生成することができる。また、OQを中程度(例えば0.6)にすれば図1(b)に示すような音源波形を生成することができる。
このように、音源波形をモデル化し、パラメータ表現すれば、そのパラメータを変化させることにより、声質を変えることができる。例えば、OQパラメータを大きくすることにより、声帯の緊張度が低い状態を表現することができる。また、OQパラメータを小さくすることにより声帯の緊張度が高い状態を表現することができる。しかし、RKモデルはモデルが単純なため、本来音源が持っている微細なスペクトル構造を表現することができない。
以下では、音源が持つ微細構造を保持しながら、音源特徴を変更することにより、柔軟で高音質な声質変換を行うことができる声質変換装置について、図面を参照しながら説明する。
(実施の形態1)
図2は、本発明の実施の形態1における声質変換装置の機能的な構成を示すブロック図である。
(全体構成)
声質変換装置は、入力音声の声質を目標音声の声質に所定の変換比率で変換する装置であって、声道音源分離部101aと、波形切出部102aと、基本周波数算出部201aと、フーリエ変換部103aと、目標音源情報記憶部104と、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bとを含む。また、声質変換装置は、目標音源情報取得部105と、音源情報変形部106と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101aは、目標音声の音声波形である目標音声波形を分析して、目標音声波形を声道情報と音源情報とに分離する。
波形切出部102aは、声道音源分離部101aにより分離された音源情報である音源波形から、波形を切り出す。波形の切り出し方については後述する。
基本周波数算出部201aは、波形切出部102aにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201aは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103aは、波形切出部102aにより切り出された音源波形をフーリエ変換することにより、目標音声の音源スペクトル(以下、「目標音源スペクトル」という。)を生成する。フーリエ変換部103aは、請求の範囲の音源スペクトル算出部に対応する。なお、周波数変換方法はフーリエ変換に限定されるものではなく、離散コサイン変換、ウェーブレット変換等の他の周波数変換方法であっても良い。
目標音源情報記憶部104は、フーリエ変換部103aにより生成された目標音源スペクトルを保持する記憶装置であり、具体的にはハードディスク装置になどにより構成される。なお、目標音源情報記憶部104は、基本周波数算出部201aで算出された音源波形の基本周波数も目標音源スペクトルと合わせて保持する。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。波形の切り出し方については後述する。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音声の音源スペクトル(以下、「入力音源スペクトル」という。)を生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。なお、周波数変換方法はフーリエ変換に限定されるものではなく、離散コサイン変換、ウェーブレット変換等の他の周波数変換方法であっても良い。
目標音源情報取得部105は、波形切出部102bにより切り出された入力音声の音源波形(以下、「入力音源波形」という。)に対応する目標音源スペクトルを目標音源情報記憶部104から取得する。例えば、目標音源情報取得部105は、入力音源波形と同じ音素の目標音声の音源波形(以下、「目標音源波形」という。)から生成された目標音源スペクトルを取得する。より好ましくは、目標音源情報取得部105は、入力音源波形と同じ音素でかつ音素内の時間的な位置が同じである目標音源波形から生成された目標音源スペクトルを取得する。また、目標音源情報取得部105は、目標音源スペクトルと共に、当該目標音源スペクトルに対応する目標音源波形の基本周波数を取得する。このように目標音源波形を選択することにより、入力音源波形の変換時に不自然な変換を起こすことが無く、不自然な音質変化を起こすことなく入力音声の声質を変換することができる。
音源情報変形部106は、入力音源スペクトルを、目標音源情報取得部105が取得した目標音源スペクトルに、所定の変換比率で変形する。
逆フーリエ変換部107は、音源情報変形部106による変形後の音源スペクトルを逆フーリエ変換することにより、1周期分の時間領域における波形(以下、「時間波形」という。)を生成する。なお、逆変換の方法は、逆フーリエ変換に限定されるものではなく、逆離散コサイン変換、逆ウェーブレット変換等の他の変換方法であっても良い。
音源波形生成部108は、逆フーリエ変換部107により生成された時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
(詳細構成)
図3は、音源情報変形部106の詳細な機能的構成を示すブロック図である。
図3において、図2と同じ構成については、説明を省略する。
音源情報変形部106は、低域高調波レベル算出部202aと、低域高調波レベル算出部202bと、高調波レベル混合部203と、高域スペクトル包絡混合部204と、スペクトル結合部205とを含む。
低域高調波レベル算出部202aは、入力音源波形の基本周波数と入力音源スペクトルから、入力音源波形の高調波レベルを算出する。ここで、高調波レベルとは、音源スペクトルにおける、基本周波数の整数倍の周波数におけるスペクトル強度のことである。なお、本明細書および請求の範囲において、高調波には基本波が含まれるものとする。
低域高調波レベル算出部202bは、目標音源情報取得部105が取得した目標音源波形の基本周波数と目標音源スペクトルから、目標音源波形の高調波レベルを算出する。
高調波レベル混合部203は、後述する境界周波数以下の周波数帯域において、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルと低域高調波レベル算出部202aにより算出された目標音源波形の高調波レベルとを、外部から入力された変換比率rで混合することにより、変換後の高調波レベルを作成する。また、高調波レベル混合部203は、入力音声波形の基本周波数と目標音源波形の基本周波数とを変換比率rで混合することにより、変換後の基本周波数を作成する。さらに、高調波レベル混合部203は、変換後の基本周波数から算出される高調波の周波数に、変換後の高調波レベルを配置することにより、変換後の音源スペクトルを算出する。高調波レベル混合部203は、請求の範囲の基本周波数変換部および低域スペクトル算出部に対応する。
高域スペクトル包絡混合部204は、境界周波数よりも大きい周波数帯域において、入力音源スペクトルと目標音源スペクトルとを、変換比率rで混合することにより、変換後の音源スペクトルを算出する。高域スペクトル包絡混合部204は、請求の範囲の高域スペクトル算出部に対応する。
スペクトル結合部205は、高調波レベル混合部203により算出された境界周波数以下の周波数帯域における音源スペクトルと、高域スペクトル包絡混合部204により算出された境界周波数よりも大きい周波数帯域における音源スペクトルとを、境界周波数において結合することにより、全域の音源スペクトルを生成する。スペクトル結合部205は、請求の範囲のスペクトル結合部に対応する。
以上のように、低域部と高域部とで、それぞれ音源スペクトルを混合することにより、音源の声質特徴が変換比率rで混合された音源スペクトルを得ることができる。
(動作の説明)
次に、本発明の実施の形態1に係る声質変換装置の具体的な動作について、フローチャートを用いて説明する。
声質変換装置が実行する処理は、音声波形から音源スペクトルを得る処理と、音源スペクトルを変換することにより入力音声波形を変換する処理とに分かれる。まず、前者の処理について説明し、その後、後者の処理について説明する。
図4は、音声波形から音源スペクトル包絡を得る処理のフローチャートである。
声道音源分離部101aは、目標音声波形から、声道情報と音源情報とを分離する。また、声道音源分離部101bは、入力音声波形から、声道情報と音源情報とを分離する(ステップS101)。分離の方法は特に限定するものではないが、例えば、音源モデルを仮定し、声道情報と音源情報を同時に推定可能なARX分析(Autoregressive with exogenous input)を用いて、声道情報を分析する。さらに、分析された声道情報から声道の逆特性を持つフィルタを構成して、入力された音声信号から逆フィルタ音源波形を取り出し、音源情報として用いればよい(非特許文献:「音源パルス列を考慮した頑健なARX音声分析法」日本音響学会誌58巻7号(2002年),pp.386−397)。なお、ARX分析の代わりにLPC分析(Linear Predictive Coding)を用いてもよい。また、その他の分析により声道情報と音源情報を分離するようにしても良い。
波形切出部102aは、ステップS101で分離された目標音声波形の音源情報を示す目標音源波形に対して、ピッチマークを付与する。また、波形切出部102bは、ステップS101で分離された入力音声波形の音源情報を示す入力音源波形に対して、ピッチマークを付与する(ステップS102)。具体的には、音源波形(目標音源波形または入力音源波形)に対して、基本周期ごとに特徴点を付与する。例えば、特徴点として、声門閉鎖点(GCI:Glottal Closure Instant)を用いる。ただし、特徴点はこれに限定されるものでなく、基本周期間隔で繰り返し出現する点であれば良い。図5は、GCIを用いてピッチマークを付与した音源波形のグラフである。横軸は時間を示し、縦軸は振幅を示す。また、破線の箇所がピッチマークの位置を示す。音源波形のグラフにおいて、振幅の極小点が声門閉鎖点と一致する。なお、特徴点としては、音声波形の振幅のピーク位置(極大点)であっても良い。
基本周波数算出部201aは、目標音源波形の基本周波数を算出する。また、基本周波数算出部201bは、入力音源波形の基本周波数を算出する(ステップS103)。基本周波数の算出方法は特に限定しないが、例えば、ステップS102で付与されたピッチマーク同士の間隔から算出するようにすれば良い。ピッチマーク同士の間隔が基本周期に相当するため、その逆数を算出することにより基本周波数を算出することができる。または、自己相関法などの基本周波数算出方法を用いて、入力音源波形または目標音源波形から基本周波数を算出しても良い。
波形切出部102aは、目標音源波形より2周期分の目標音源波形を切り出す。また、波形切出部102bは、入力音源波形より2周期分の入力音源波形を切り出す(ステップS104)。具体的には、着目しているピッチマークを中心として、前後に基本周波数算出部201aで算出した基本周波数に対応する基本周期分の音源波形を切り出す。つまり、図5に示すグラフにおいて、区間S1内の音源波形が切り出される。
フーリエ変換部103aは、ステップS104で切り出された目標音源波形をフーリエ変換することにより目標音源スペクトルを生成する。また、フーリエ変換部103bは、ステップS104で切り出された入力音源波形をフーリエ変換することにより入力音源スペクトルを生成する(ステップS105)。このとき、切り出された音源波形に基本周期の2倍の長さのハニング窓を掛けた上で、フーリエ変換することにより、高調波成分の谷が埋められ、音源スペクトルのスペクトル包絡を得ることができる。これにより、基本周波数の影響を除去することができる。図6(a)は、ハニング窓を掛けない場合の音源波形(時間領域)およびその音源スペクトル(周波数領域)の一例を示す図である。図6(b)は、ハニング窓を掛けた場合の音源波形(時間領域)およびその音源スペクトル(周波数領域)の一例を示す図である。このように、ハニング窓を掛けることにより、音源スペクトルのスペクトル包絡が得られることがわかる。なお、窓関数は、ハニング窓に限定されるものではなく、ハミング窓、ガウス窓などの他の窓関数であっても良い。
以上説明したステップS101からステップS105の処理により、入力音声波形および目標音声波形から入力音源スペクトルおよび目標音源波形をそれぞれ算出することができる。
次に、入力音声波形の変換処理について説明する。
図7は、入力音源スペクトルおよび目標音源スペクトルを用いて、入力音声波形を変換する処理のフローチャートである。
低域高調波レベル算出部202a、低域高調波レベル算出部202bおよび高調波レベル混合部203は、後述する境界周波数(Fb:Boundaly Frequency)以下の周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを混合することにより、変換後音声波形の低域の音源スペクトルを生成する(ステップS201)。混合方法については後述する。
高域スペクトル包絡混合部204は、境界周波数(Fb)よりも大きい周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを混合することにより、変換後音声波形の高域の音源スペクトルを生成する(ステップS202)。混合方法については後述する。
スペクトル結合部205は、ステップS201で生成された低域の音源スペクトルと、ステップS202で生成された高域の音源スペクトルとを結合することにより、変換後音声の全域の音源スペクトルを生成する(ステップS203)。具体的には、全域の音源スペクトルにおいて、境界周波数(Fb)以下の周波数帯域ではステップS201で生成された低域の音源スペクトルを用い、境界周波数(Fb)よりも大きい周波数帯域ではステップS202で生成された高域の音源スペクトルを用いる。
ここで、境界周波数(Fb)は、後述する変換後の基本周波数に基づいて、例えば以下の方法で決定される。
図8は、人間の聴覚特性の一つである臨界帯域幅を示すグラフである。横軸は周波数を表し、縦軸は臨界帯域幅を表している。
臨界帯域幅とは、その周波数の純音に対するマスキングに寄与する周波数の範囲である。すなわち、ある周波数における臨界帯域幅内に含まれる二つの音(周波数の差の絶対値が臨界帯域幅以下の二つの音)は互いに加算され、音の大きさ(loudness)が大きくなったと知覚される。これに対して、臨界帯域幅よりも遠い間隔に位置する二つの音(周波数の差の絶対値が臨界帯域幅よりも大きい二つの音)はそれぞれ別の音として知覚され、音の大きさ(loudness)が大きくなったとは知覚されない。例えば、100Hzの純音に対しては、臨界帯域幅は100Hzである。このため、その純音から100Hz以内で離れた音(例えば150Hzの音)が、純音に付加された場合、100Hzの純音が大きくなったように知覚される。
図9に上記のことを模式的に示す。横軸は周波数、縦軸は音源スペクトルのスペクトル強度を示す。また、上向きの矢印は高調波を示し、破線は音源スペクトルのスペクトル包絡を表している。そして、横に並んだ長方形が各周波数帯域での臨界帯域幅を意味する。同図中の区間Bcが、ある周波数帯域での臨界帯域幅を表している。この図で500Hzよりも大きい周波数帯域では、一つの長方形の領域中に複数の高調波が存在する。ところが500Hz以下の周波数帯域では、一つの長方形の中に高調波がたかだか一つしか存在しない。
一つの長方形の中にある複数の高調波は、互いに音量が加算される関係にあり、それらは固まりとして知覚される。一方、一つ一つの高調波が別々の長方形に配置される領域では、個々の高調波は別の音として知覚されるという性質を帯びる。このように、ある周波数よりも大きい周波数帯域では高調波が固まりとして知覚され、ある周波数以下の周波数帯域では個々の高調波が別々に知覚されることになる。
個々の高調波が別々に知覚されない周波数帯域ではスペクトル包絡が再現できていれば音質が維持できることになる。このため、この周波数帯域ではスペクトル包絡の形状が声質を特徴付けると考えることができる。一方、個々の高調波が別々に知覚される周波数帯域では個々の高調波のレベルを制御する必要がある。このため、この周波数帯域では個々の高調波のレベルが声質を特徴付けると考えることができる。高調波の周波数間隔は基本周波数の値と等しい。このため、個々の高調波が別々に知覚されない周波数帯域と、個々の高調波が別々に知覚される周波数帯域との境界の周波数は、変換後の基本周波数の大きさと臨界帯域幅の大きさとが一致するときの、当該臨界帯域幅に対応する周波数(図8のグラフより導き出される周波数)である。
このように聴覚特性を用いることにより、変換後の基本周波数の大きさと臨界帯域幅の大きさとが一致するときの、臨界帯域幅に対応する周波数が境界周波数(Fb)と決定される。つまり、基本周波数と境界周波数とを対応付けることができる。スペクトル結合部205は、高調波レベル混合部203により生成された低域の音源スペクトルと、高域スペクトル包絡混合部204により生成された高域の音源スペクトルスペクトルとを、境界周波数(Fb)において結合することができる。
例えば、高調波レベル混合部203は、予め図8に示すような臨界帯域幅の特性をデータテーブルとして保持し、基本周波数に基づいて、境界周波数(Fb)を決定するようにすれば良い。また、高調波レベル混合部203は、決定した境界周波数(Fb)を高域スペクトル包絡混合部204およびスペクトル結合部205に出力するようにすれば良い。
なお、基本周波数から境界周波数を決定するための規則データは、図8に示したような周波数と臨界帯域幅との関係を示すデータテーブルに限定されるものではなく、例えば、周波数と臨界帯域幅との関係を示す関数であってもよい。また、基本周波数と臨界帯域幅との関係を示すデータテーブルまたは関数であってもよい。
なお、スペクトル結合部205は、境界周波数(Fb)付近では、低域の音源スペクトルと高域の音源スペクトルとを混合して結合するようにしても良い。結合後の全域の音源スペクトルの例を図10に示す。実線は、結合して生成された全域の音源スペクトルのスペクトル包絡を示す。また、音源波形生成部108によって結果的に生成される高調波を上向きの破線の矢印で表し、重ね合わせて描いてある。図10に示すように、スペクトル包絡は境界周波数(Fb)より高い周波数帯域ではなめらかな形状をしている。しかし、境界周波数(Fb)以下の周波数帯域では高調波のレベルが制御できればよいので、図10のように階段状のスペクトル包絡としておけば十分である。もちろん、高調波のレベルが結果的に正しく制御できるのであれば、包絡として生成するべき形状はどのようなものでも構わない。
再度図7を参照して、逆フーリエ変換部107は、ステップS203により結合された後の音源スペクトルを逆フーリエ変換することにより時間領域の表現に変換し、1周期分の時間波形を生成する(ステップS204)。
音源波形生成部108は、ステップS204で生成された1周期分の時間波形を、変換後の基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形に対する変換後の音源波形を生成することができる(ステップS205)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS206)。合成の方法は特に限定されるものではないが、声道情報としてPARCOR(Partial Auto Correlation)係数を用いている場合には、PARCOR合成を用いればよい。また、PARCOR係数と数学的に等価なLPC係数に変換した後に、LPC合成により合成するようにしてもよいし、LPC係数からフォルマントを抽出し、フォルマント合成するようにしてもよい。さらには、LPC係数からLSP(Line Spectrum Pairs)係数を算出し、LSP合成するようにしてもよい。
(低域の混合処理について)
次に、低域混合処理(図7のステップS201)について詳しく説明する。図11は、低域混合処理の流れを示すフローチャートである。
低域高調波レベル算出部202aは、目標音源波形の高調波のレベルを算出する。また、低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS301)。具体的には、低域高調波レベル算出部202aは、ステップS103で算出された目標音源波形の基本周波数と、ステップS105で生成された目標音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の周波数に発生するので、低域高調波レベル算出部202aは、基本周波数のn倍(nは自然数)の位置の目標音源スペクトルの値を算出する。目標音源スペクトルをF(f)、基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。低域高調波レベル算出部202bは、低域高調波レベル算出部202aと同様の方法で高調波レベルを算出する。図12に示す入力音源スペクトルにおいて、第1高調波レベル11、第2高調波レベル12および第3高調波レベル13は、入力音源波形の基本周波数(同図ではF0A)を用いて算出される。同様に、目標音源スペクトルにおいて、第1高調波レベル21、第2高調波レベル22および第3高調波レベル23は、目標音源波形の基本周波数(同図ではF0B)を用いて算出される。
Figure 2011004579
高調波レベル混合部203は、ステップS301で算出された、入力音声の高調波レベルと目標音声の高調波レベルとを、高調波ごとに(次数ごとに)混合する(ステップS302)。入力音声の高調波レベルをHs、目標音声の高調波レベルをHt、変換比率をrとすると、混合後の高調波レベルHは、式3により算出できる。
図12において、第1高調波レベル31、第2高調波レベル32および第3高調波レベル33は、入力音源スペクトルの第1高調波レベル11、第2高調波レベル12および第3高調波レベル13と、目標音源スペクトルの第1高調波レベル21、第2高調波レベル22および第3高調波レベル23とを、それぞれ変換比率rで混合したものである。
Figure 2011004579
高調波レベル混合部203は、ステップS302で算出された高調波レベルを、変換後の基本周波数に基づいて周波数軸上に配置する(ステップS303)。ここで、変換後の基本周波数F0’は、入力音源波形の基本周波数F0sと、目標音源波形の基本周波数F0tと、変換比率rとを用いて式4により算出される。
Figure 2011004579
また、高調波レベル混合部203は、算出されたF0’を用いて、式5により変換後の音源スペクトルF’を算出する。
Figure 2011004579
これにより、境界周波数以下の周波数帯域において、変換後の音源スペクトルを生成することができる。
なお、高調波位置以外のスペクトル強度は、補間により算出すればよい。補間の方法は特に限定するものではないが、例えば、式6に示すように、高調波レベル混合部203は、着目する周波数fに隣接するk番目の高調波レベルと(k+1)番目の高調波レベルとを用いて、スペクトル強度を線形に補間するようにすればよい。線形補間されたスペクトル強度の一例を、図13に示す。
Figure 2011004579
また、図14に示すように、高調波レベル混合部203は、式7に従い、最も近い高調波の高調波レベルを用いて、スペクトル強度を補間するようにしても良い。これにより、スペクトル強度は、階段状に変化する。
Figure 2011004579
以上の処理により、低域の高調波レベルの混合が可能である。なお、高調波レベル混合部203は、周波数の伸縮を行うことにより、低域の音源スペクトルを生成するようにしてもよい。図15は、周波数伸縮による低域混合処理(図7のS201)の流れを示すフローチャートである。
高調波レベル混合部203は、入力音源スペクトルFを、入力音源波形の基本周波数F0sと変換後の基本周波数F0’との比率(F0’/F0s)に基づき伸縮する。また、高調波レベル混合部203は、目標音源スペクトルFを、目標音源波形の基本周波数F0tと変換後の基本周波数F0’との比率(F0’/F0t)に基づき伸縮する(ステップS401)。具体的には伸縮後の入力音源スペクトルF’および目的音源スペクトルF’は式8により算出される。
Figure 2011004579
高調波レベル混合部203は、伸縮後の入力音源スペクトルF’および目標音源スペクトルF’を、変換比率rにより混合し、変換後の音源スペクトルF’を得る(ステップS402)。具体的には、2つの音源スペクトルは式9により混合される。
Figure 2011004579
以上のように、高調波レベルを混合することにより、低域の音源スペクトルによってもたらされる声質特徴を、目標音声と入力音声の間でモーフィングを行なうことができる。
(高域の混合処理について)
次に、高域の入力音源スペクトルと目標音源スペクトルの混合処理(図7のステップS202)について説明する。
図16は、高域混合処理の流れを示すフローチャートである。
高域スペクトル包絡混合部204は、入力音源スペクトルFと目標音源スペクトルFとを変換比率rにより混合する(ステップS501)。具体的には式10を用いてスペクトルを混合する。
Figure 2011004579
これにより、高域のスペクトル包絡を混合することができる。図17は、スペクトル包絡の混合の具体例を示した図である。横軸は周波数を示し、縦軸はスペクトル強度を示す。なお、縦軸は対数表現されている。入力音源スペクトル41と目標音源スペクトル42とを変換比率0.8で混合することにより、変換後の音源スペクトル43が得られる。図17に示す変換後の音源スペクトル43から分かるように、1kHzから5kHzにわたり、微細構造を保持したまま音源スペクトルを変換可能であることがわかる。
(スペクトル傾斜の利用)
なお、高域のスペクトル包絡の混合方法として、入力音源スペクトルのスペクトル傾斜を目標音源スペクトルのスペクトル傾斜を変換比率rに基づいて変形することにより、入力音源スペクトルと目標音源スペクトルとを混合するようにしても良い。スペクトル傾斜とは、個人特徴の一つであり、音源スペクトルの周波数軸方向に対する傾斜(傾き)を示す。例えば、前述の境界周波数(Fb)と3kHzのスペクトル強度の差によりスペクトル傾斜を表現することができる。スペクトル傾斜が小さいほど、高周波成分が多く含まれ、スペクトル傾斜が大きいほど高周波成分が少なくなる。
図18は、入力音源スペクトルのスペクトル傾斜を目標音源スペクトルのスペクトル傾斜に変換することにより、高域のスペクトル包絡を混合する処理のフローチャートである。
高域スペクトル包絡混合部204は、入力音源スペクトルのスペクトル傾斜および目標音源スペクトルのスペクトル傾斜の差であるスペクトル傾斜差を算出する(ステップS601)。スペクトル傾斜差の算出方法は特に限定するものではないが、例えば、境界周波数(Fb)と3kHzのスペクトル強度の差によりスペクトル傾斜を算出するようにすれば良い。
高域スペクトル包絡混合部204は、ステップS601で算出されたスペクトル傾斜差を用いて、入力音源スペクトルのスペクトル傾斜を補正する(ステップS602)。補正の方法は特に限定するものではないが、例えば、入力音源スペクトルU(z)を式11に示すようなIIR(無限インパルス応答)フィルタD(z)を通過させる。これにより、スペクトル傾斜が補正された入力音源スペクトルU’(z)を得ることができる。
Figure 2011004579
ただし、U’(z)は補正後の音源波形、U(z)は音源波形、D(z)はスペクトルの傾斜を補正するフィルタ、Tは入力音源スペクトルの傾斜と目標音源スペクトルの傾斜とのレベル差(スペクトル傾斜差)、Fsはサンプリング周波数を表す。
なお、スペクトル傾斜の補間法として、FFTスペクトル上で直接、スペクトルを変換するようにしても良い。例えば、入力音源スペクトルF(n)から、境界周波数以上のスペクトルに対して回帰直線を算出する。算出した回帰直線(as、bs)の係数を用いるとF(n)は式12により表現できる。
Figure 2011004579
ただし、es(n)は入力音源スペクトルと回帰直線との誤差である。
同様に目標音源スペクトルFt(n)は式13により表現できる。
Figure 2011004579
入力音源スペクトルと目標音源スペクトルの回帰直線の各係数を式14に示すように変換比率rにより補間する。
Figure 2011004579
以上のようにして算出した回帰直線を用いて、入力音源スペクトルを式15により変換することにより、音源スペクトルのスペクトル傾斜を変換し、変換後のスペクトルF’(n)を算出するようにしても良い。
Figure 2011004579
(効果)
かかる構成によれば、境界周波数以下の周波数帯域においては、声質を特徴付ける高調波のレベルを個々に制御して入力音源スペクトルを変換することができる。また、境界周波数よりも大きい周波数帯域においては、声質を特徴付けるスペクトル包絡の形状の変換を行うことにより入力音源スペクトルを変換することができる。このため、不自然な音質変化を起こすことなく、入力音声の声質を変換した音声を合成することができる。
(実施の形態2)
一般にテキスト音声合成システムにおいては、以下のようにして合成音が生成される。つまり、入力されたテキストを解析し、テキストに合致した基本周波数パターンなどの目標の韻律情報が生成される。また、生成された目標の韻律情報に合致する音声素片が選択され、選択された音声素片を目標情報に変形されて、接続される。これにより、目標の韻律情報を持つ合成音を生成する。
音声の音の高さを変化させるためには、選択された音声素片の基本周波数を目標の基本周波数に変換する必要がある。この時、基本周波数以外の音源特徴を変換させることなく、基本周波数のみを変換することにより、音質の劣化を抑制することが可能になる。本発明の実施の形態2では、このように、基本周波数以外の音源特徴を変化させることなく、基本周波数のみを変化させることにより、声質の変化や音質の劣化を防止する装置について説明する。
音声波形を編集して、基本周波数を変換する方法として、PSOLA(pitch synchronous overlap add)法が知られている(非特許文献:“Diphone Synthesis using an Overlap−Add technique for Speech Waveforms Concatenation”,Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing. 1997, pp.2015−2018)。
PSOLA法は、図19に示すように音声波形を1周期ごとに切り出し、切り出した音声波形を、所望の基本周期(T0’)間隔で並べ替えることにより、音声の基本周波数を変換するものである。PSOLA法は、基本周波数の変更量が小さい場合には、良好な変換結果を得ることが知られている。
このPSOLA法を音源情報の変換に応用し、基本周波数を変更することを考える。図20(a)は、基本周波数を変更する前の音源スペクトルである。ここで、実線は音源スペクトルのスペクトル包絡を表し、破線は切り出された単一のピッチ波形のスペクトルを表している。このように、単一ピッチ波形のスペクトルは、音源スペクトルのスペクトル包絡を構成する。PSOLA法を用いて基本周波数に変更を加えると、図20(b)の実線で表す音源スペクトルのスペクトル包絡が得られる。基本周波数を変更しているため、図20(b)の音源スペクトルでは、元の周波数とは異なる位置に高調波が存在することになる。ここで、基本周波数の変換前後ではスペクトル包絡は変化しないため、第1高調波(基本波)や第2高調波のレベルは、基本周波数を変更する前とは異なったものとなる。このため、第1高調波レベルと第2高調波レベルとの間で大小関係の逆転現象が生じる場合がある。例えば、図20(a)に示す基本周波数変更前の音源スペクトルにおいては、第1高調波レベル(周波数F0でのレベル)の方が第2高調波レベル(周波数2F0でのレベル)よりも大きくなっている。しかし、図20(b)に示す基本周波数変更後の音源スペクトルにおいては、第2高調波レベル(周波数2F0’のレベル)の方が第1高調波レベル(周波数F0’のレベル)よりも大きくなっている。
以上のように、PSOLA法を用いた場合、音源波形のスペクトルの微細構造を再現することができるため、合成音の音質が優れているという利点がある。しかし、その一方で、基本周波数を大きく変更すると、第1高調波レベルと第2高調波レベルとのレベル差に変化が生じてしまうため、個々の高調波が別個に知覚される低周波数帯域においては、声質に変化が生じてしまうという課題がある。
本実施の形態に係る音高変換装置では、声質の変化を生じさせること無く、音の高さのみを変更することができる。
(全体構成)
図21は、本発明の実施の形態2における音高変換装置の機能的な構成を示すブロック図である。図21において、図2と同じ構成要素については同じ参照符号を付し、その詳細な説明は適宜省略する。
音高変換装置は、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bと、基本周波数変換部301と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。分離の方法は実施の形態1と同じである。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音源スペクトルを生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。
基本周波数変換部301は、声道音源分離部101bにより分離された音源情報である入力音源波形の基本周波数を、外部から入力される目標基本周波数に変換することにより、入力音源スペクトルを生成する。基本周波数の変換方法については後述する。
逆フーリエ変換部107は、基本周波数変換部301により生成された入力音源スペクトルを逆フーリエ変換することにより、1周期分の時間波形を生成する。
音源波形生成部108は、逆フーリエ変換部107により生成された1周期分の時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
本発明の実施の形態2は、入力音声の音源の基本周波数以外の特徴(スペクトル傾斜やOQなど)を変えずに基本周波数のみを変換する点が実施の形態1と異なる。
(詳細構成)
図22は、基本周波数変換部301の詳細な機能的構成を示すブロック図である。
基本周波数変換部301は、低域高調波レベル算出部202bと、高調波成分生成部302と、スペクトル結合部205とを含む。
低域高調波レベル算出部202bは、基本周波数算出部201bにより算出された基本周波数と、フーリエ変換部103bにより算出された入力音源スペクトルから、入力音源波形の高調波レベルを算出する。
高調波成分生成部302は、実施の形態1で説明した境界周波数(Fb)以下の周波数帯域において、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルを、外部より入力される目標基本周波数から算出される高調波の位置に配置することにより、変換後の音源スペクトルを算出する。低域高調波レベル算出部202bおよび高調波成分生成部302は、請求の範囲の低域スペクトル算出部に対応する。
スペクトル結合部205は、高調波成分生成部302により生成された境界周波数(Fb)以下の周波数帯域における音源スペクトルと、フーリエ変換部103bにより得られた入力音源スペクトルのうち境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルとを、境界周波数(Fb)において結合することにより、全域の音源スペクトルを生成する。
(動作の説明)
次に、本発明の実施の形態2に係る音高変換装置の具体的な動作について、フローチャートを用いて説明する。
音高変換装置が実行する処理は、入力音声波形から入力音源スペクトルを得る処理と、入力音源スペクトルを変換することにより入力音声波形を変換する処理とに分けられる。
前者の処理については、実施の形態1において図4を参照して説明した処理(ステップS101〜ステップS105)と同様である。このため、その詳細な説明はここでは繰り返さない。以下では、後者の処理について説明する。
図23は、実施の形態2に係る音高変換装置の動作を示すフローチャートである。
低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS701)。具体的には、低域高調波レベル算出部202bは、ステップS103で算出された入力音源波形の基本周波数と、ステップS105で算出された入力音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の位置に発生するので、低域高調波レベル算出部202bは、入力音源波形の基本周波数のn倍(nは自然数)の位置の入力音源スペクトルの強度を算出する。入力音源スペクトルをF(f)、入力音源波形の基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。
高調波成分生成部302は、ステップS701において算出された高調波レベルH(n)を、入力された目標基本周波数F0’に基づき算出される高調波の位置に再配置する(ステップS702)。具体的には式5により高調波レベルを算出する。また、高調波位置以外のスペクトル強度は、実施の形態1と同様に補間処理により求められる。これにより、入力音源波形の基本周波数が目標基本周波数に変換された音源スペクトルが生成される。
スペクトル結合部205は、ステップS702において生成された音源スペクトルと、ステップS105において算出された入力音源スペクトルとを境界周波数(Fb)において結合する(ステップS703)。具体的には、境界周波数(Fb)以下の周波数帯域では、ステップS702において算出されたスペクトルを用いる。また、境界周波数(Fb)よりも大きい周波数帯域ではステップS105において算出された入力音源スペクトルのうち、境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルを用いる。なお、境界周波数(Fb)は実施の形態1と同様の方法で決定できる。また、結合の方法も実施の形態1と同様の方法で結合すればよい。
逆フーリエ変換部107は、ステップS703において結合された後の音源スペクトルを逆フーリエ変換することにより時間領域に変換し、1周期分の時間波形を生成する(ステップS704)。
音源波形生成部108は、ステップS704で生成された1周期分の時間波形を、目標基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形の基本周波数を変換した変換後の音源波形を生成することができる(ステップS705)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS706)。音声合成の方法は実施の形態1と同様である。
(効果)
かかる構成によれば、音源波形の周波数帯域を分割し、低域の高調波レベルを目標基本周波数の高調波の位置に再配置することにより、音源波形が持つ自然性を保持しながら、かつ、当該音源波形が持つ音源の特徴である声門開放率およびスペクトル傾斜を保持することで音源の特徴を変えずに、基本周波数を変換することが可能となる。
図24は、PSOLA法と本実施の形態に係る音高変換方法とを比較するための図である。同図に示すように、図24(a)は、入力音源スペクトルのスペクトル包絡を示すグラフである。図24(b)は、PSOLA法による基本周波数変換後の音源スペクトルを示すグラフである。図24(c)は、本実施の形態による方法による変換後の音源スペクトルを示すグラフである。各グラフの横軸は周波数を表しており、縦軸はスペクトル強度を表している。また、上向き矢印が、高調波の位置を示している。変換前の基本周波数はF0であり、変換後の基本周波数はF0’である。図24(b)に示すPSOLA法による変換後の音源スペクトルは、図24(a)に示す変換前の音源スペクトルと同様のスペクトル包絡形状を有している。しかし、第1高調波と第2高調波とのレベル差が変換前(g12_a)と変換後(g12_b)とでは大きく異なっている。これに対して、図24(c)に示す本実施の形態による変換後の音源スペクトルと、図24(a)に示す返還前の音源スペクトルとを比較すると、低域においては第1高調波と第2高調波とのレベル差が変換前(g12_a)と変換後(g12_c)とでは同じである。このため、変換前の声門開放率を保持した声質変換を行うことができる。また、広域においては、変換前後の音源スペクトルのスペクトル包絡の形状は等しくなる。このため、スペクトル傾斜を保持した声質変換を行うことができる。
(実施の形態3)
例えば、既に収録された音声が緊張などのために力んでおり、音声の利用時には、もう少しリラックスした音声を用いたいと言う場合がある。通常このような場合は、音声を収録し直す必要がある。
本発明の実施の形態3では、このような場合に、音声を収録しなおすことなく、既に収録された音声の基本周波数を変更せずに声門開放率のみを変更することにより、声のやわらかさの印象を変えることができる。
(全体構成)
図25は、本発明の実施の形態3における声質変換装置の機能的な構成を示すブロック図である。図25において、図2と同じ構成要素については同じ参照符号を付し、その詳細な説明は適宜省略する。
声質変換装置は、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bと、声門開放率変換部401と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。分離の方法は実施の形態1と同じである。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音源スペクトルを生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。
声門開放率変換部401は、声道音源分離部101bにより分離された音源情報である入力音源波形の声門開放率を、外部から入力される目標声門開放率に変換することにより、入力音源スペクトルを生成する。声門開放率の変換方法については後述する。
逆フーリエ変換部107は、声門開放率変換部401により生成された入力音源スペクトルを逆フーリエ変換することにより、1周期分の時間波形を生成する。
音源波形生成部108は、逆フーリエ変換部107により生成された1周期分の時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
本発明の実施の形態3は、入力音源波形の基本周波数を変えずに、声門開放率(OQ)のみを変換する点が実施の形態1と異なる。
(詳細構成)
図26は、声門開放率変換部401の詳細な機能的構成を示すブロック図である。
声門開放率変換部401は、低域高調波レベル算出部202bと、高調波成分生成部402と、スペクトル結合部205とを含む。
低域高調波レベル算出部202bは、基本周波数算出部201bにより算出された基本周波数と、フーリエ変換部103bにより算出された入力音源スペクトルから、入力音源波形の高調波レベルを算出する。
高調波成分生成部402は、実施の形態1で説明した境界周波数(Fb)以下の周波数帯域において、外部より入力される目標声門開放率に従い決定される第1高調波レベルと第2高調波レベルとの比に等しくなるように、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルのうち、第1高調波レベルまたは第2高調波レベルを変換することにより、変換後の音源スペクトルを生成する。
スペクトル結合部205は、高調波成分生成部402により生成された境界周波数(Fb)以下の周波数帯域における音源スペクトルと、フーリエ変換部103bにより得られた入力音源スペクトルのうち境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルとを、境界周波数(Fb)において結合することにより、全域の音源スペクトルを生成する。
(動作の説明)
次に、本発明の実施の形態3に係る声質変換装置の具体的な動作について、フローチャートを用いて説明する。
声質変換装置が実行する処理は、入力音声波形から入力音源スペクトルを得る処理を、入力音源スペクトルを変換することにより入力音源波形を変換する処理とに分けられる。
前者の処理については、実施の形態1において図4を参照して説明した処理(ステップS101〜ステップS105)と同様である。このため、その詳細な説明はここでは繰り返さない。以下では、後者の処理について説明する。
図27は、実施の形態3に係る声質変換装置の動作を示すフローチャートである。
低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS801)。具体的には、低域高調波レベル算出部202bは、ステップS103で算出された入力音源波形の基本周波数と、ステップS105で算出された入力音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の位置に発生するので、低域高調波レベル算出部202bは、入力音源波形の基本周波数のn倍(nは自然数)の位置の入力音源スペクトルの強度を算出する。入力音源スペクトルをF(f)、入力音源波形の基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。
高調波成分生成部402は、ステップS801において算出された高調波レベルH(n)を、入力された目標声門開放率に基づいて変換する(ステップS802)。変換の方法を以下に説明する。図1を用いて説明したように、声門開放率(OQ)を小さくすれば声帯の緊張度合いを高めることができ、声門開放率(OQ)を大きくすれば声帯の緊張度合いを低くすることができる。この時の、声門開放率(OQ)と第2高調波レベルに対する第2高調波レベルの比との関係を、図28に示すことができる。縦軸は、声門開放率を示し、横軸は、第1高調波レベルと第2高調波レベルとの比を示している。なお、図28では、横軸を対数表現しているため、第1高調波レベルの対数値から第2高調波レベルの対数値を引いた値を示している。目標声門開放率に対応する第1高調波レベルの対数値から第2高調波レベルの対数値を引いた値をG(OQ)とすると、変換後の第1高調波レベルF(F0)は式12で表される。つまり、高調波成分生成部402は、式16に従い第1高調波レベルF(F0)を変換する。
Figure 2011004579
なお、実施の形態1と同様に高調波間のスペクトル強度は、補間により算出することができる。
スペクトル結合部205は、ステップS802において生成された音源スペクトルと、ステップS105において算出された入力音源スペクトルとを境界周波数(Fb)において結合する(ステップS803)。具体的には、境界周波数(Fb)以下の周波数帯域では、ステップS802において算出されたスペクトルを用いる。また、境界周波数(Fb)よりも大きい周波数帯域ではステップS105により算出された入力音源スペクトルのうち、境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルを用いる。なお、境界周波数(Fb)は実施の形態1と同様の方法で決定できる。また、結合の方法も実施の形態1と同様の方法で結合すればよい。
逆フーリエ変換部107は、ステップS803において結合された後の音源スペクトルを逆フーリエ変換することにより時間領域に変換し、1周期分の時間波形を生成する(ステップS804)。
音源波形生成部108は、ステップS804で生成された1周期分の時間波形を、目標基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形の基本周波数を変換した変換後の音源波形を生成することができる(ステップS805)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS806)。音声合成の方法は実施の形態1と同様である。
(効果)
かかる構成によれば、入力された目標声門開放率に基づいて、第1高調波レベルを制御することにより、音源波形が保持する自然性を保持しながら、音源の特徴である声門開放率を自在に変更することが可能となる。
図29は、本実施の形態による変換前後の音源スペクトルの一例を示す図である。図29(a)は、入力音源スペクトルのスペクトル包絡を示すグラフである。図29(b)は、本実施の形態による変換後の音源スペクトルのスペクトル包絡を示すグラフである。各グラフの横軸は周波数を表しており、縦軸はスペクトル強度を表している。また、上向き矢印が、高調波の位置を示している。また、基本周波数はF0である。
変換前後で基本周波数F0および高域のスペクトル包絡を変えることなく、第1高調波と第2高調波のレベル差(g12_a、g12_b)を変更することができている。このため、声門開放率を自在に変更することができ、声帯の緊張度のみを変更することができる。
以上、本発明に係る声質変換装置または音高変換装置について、実施の形態に従い説明したが、本発明は、これらの実施の形態に限定されるものではない。
例えば、実施の形態1〜3で説明した各装置は、コンピュータにより実現することが可能である。
図30は、上記各装置の外観図である。各装置は、コンピュータ34と、コンピュータ34に指示を与えるためのキーボード36およびマウス38と、コンピュータ34の演算結果等の情報を提示するためのディスプレイ37と、コンピュータ34で実行されるコンピュータプログラムを読み取るためのCD−ROM(Compact Disc−Read Only Memory)装置40および通信モデム(図示せず)とを含む。
声質を変換するためのコンピュータプログラムまたは音高を変換するためのコンピュータプログラムは、コンピュータで読取可能な媒体であるCD−ROM42に記憶され、CD−ROM装置40で読み取られる。または、コンピュータネットワーク26を通じて通信モデムで読み取られる。
図31は、各装置のハードウェア構成を示すブロック図である。コンピュータ34は、CPU(Central Processing Unit)44と、ROM(Read Only Memory)46と、RAM(Random Access Memory)48と、ハードディスク50と、通信モデム52と、バス54とを含む。
CPU44は、CD−ROM装置40または通信モデム52を介して読み取られたコンピュータプログラムを実行する。ROM46は、コンピュータ34の動作に必要なコンピュータプログラムやデータを記憶する。RAM48は、コンピュータプログラム実行時のパラメータなどのデータを記憶する。ハードディスク50は、コンピュータプログラムやデータなどを記憶する。通信モデム52は、コンピュータネットワーク26を介して他のコンピュータとの通信を行なう。バス54は、CPU44、ROM46、RAM48、ハードディスク50、通信モデム52、ディスプレイ37、キーボード36、マウス38およびCD−ROM装置40を相互に接続する。
RAM48またはハードディスク50には、コンピュータプログラムが記憶されている。CPU44が、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
また、RAM48またはハードディスク50には、コンピュータプログラム実行時の中間データ等の各種データが記憶される。
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの記録媒体に記録されている上記デジタル信号であるとしても良い。
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
また、上記プログラムまたは上記デジタル信号を上記記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
さらに、上記実施の形態および上記変形例をそれぞれ組み合わせるとしても良い。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明に係る音声分析合成装置および声質変換装置は、音源の特徴を変形することにより、高品質に声質を変換する機能を有し、種々の声質を必要とするユーザインタフェース装置や、エンターテイメント装置等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。
101a、101b 声道音源分離部
102a、102b 波形切出部
103a、103b フーリエ変換部
104 目標音源情報記憶部
105 目標音源情報取得部
106 音源情報変形部
107 逆フーリエ変換部
108 音源波形生成部
109 合成部
201a、201b 基本周波数算出部
202a、202b 低域高調波レベル算出部
203 高調波レベル混合部
204 高域スペクトル包絡混合部
205 スペクトル結合部
301 声道情報変換部
302、402 高調波成分生成部
401 声門開放度変換部
本発明は、入力音声の声質を変換する声質変換装置および入力音声の音の高さを変換する音高変換装置に関する。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の画一的な用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音や、女子高校生風や関西弁風などの特徴的な韻律・声質を持つ合成音)が一つのコンテンツとして流通しはじめている。このように、個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。
従来の音声合成方法として、音声を分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法が知られている。分析合成型音声合成方法では、音声の生成原理に基づいて音声を分析することにより、音声信号を、声道情報を示すパラメータ(以下、適宜「声道情報」という。)と音源情報を示すパラメータ(以下、適宜「音源情報」という。)とに分離する。また、分析合成型音声合成方法では、分離されたパラメータをそれぞれ変形することにより、合成音の声質を変換することが可能である。この音声の分析には、音源・声道モデルと呼ばれるモデルが使用される。
このような分析合成型音声合成方法では、入力された文章に対し、目標の声質を持つ少量の音声(例えば母音音声)を用いて入力音声の話者特徴のみを変換することが可能である。入力された音声は、一般に自然な時間的動きを保持しているが、目標声質の少量音声(孤立母音発声など)は時間的動きをあまり持たない。この2種類の音声を用いて声質変換する場合、入力音声が持つ時間的動き(動的特徴)を保持しながら、目標声質音声が持つ話者特徴(静的特徴)への変換が必要である。これを解決するために特許文献1では、声道情報に関して、入力音声と目標声質音声との間でモーフィングを行なうことにより、入力音声の動的な特徴を保持しながら、目標声質音声の静的な特徴を再現することを行なっている。このような変換を音源情報の変換においても実施できれば、より目標声質に近い音声を得ることができる。
また、音声合成技術において、音源情報を示す音源波形を生成する方法として、音源モデルを用いるものがある。例えば、Rosenberg Klattモデル(RKモデル)という音源モデルが知られている(例えば、非特許文献1参照。)。
この方法は、音源波形を時間領域でモデル化し、モデルパラメータに基づいて音源波形を生成するものである。RKモデルを用いれば、モデルパラメータを変形することにより、柔軟に音源特徴を変換することができる。
RKモデルにより時間領域でモデル化された音源波形(r)を式1に示す。
Figure 2011004579
ここで、tは連続時間を、Tは標本化周期を、nはTごとの離散時間をそれぞれ表す。また、AV(Amplitude of Voice)は有声音源振幅を、tは基本周期を、OQ(Open Quantity)は基本周期に対する声門が開いている時間の割合をそれぞれ表す。ηはそれらの集合を表す。
特許第4246792号公報
"Analysis,synthesis,and perception of voice quality variations among female and male talkers",Jarnal of Acostics Society America, 87(2),February 1990,pp.820−857
本来、微細な構造を持つ音源波形をRKモデルでは比較的単純なモデルで表現しているため、モデルパラメータを変形することにより声質を柔軟に変更できるという利点がある。しかしながら、その反面、モデルの表現能力不足により、実際の音源波形のスペクトルである音源スペクトルの微細な構造を十分に再現することができない。結果として合成音の音質は肉声感が不足したいわゆる合成音的なものになるという課題がある。
本発明は、上述の課題を解決するためになされたものであり、音源スペクトルの形状の変換または音源波形の基本周波数の変換を行ったとしても、不自然な音質変化を起こさない声質変換装置および音高変換装置を提供することを目的とする。
本発明のある局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声波形の音源情報を示す入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数変換部と、前記基本周波数変換部で算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、入力音声の音源スペクトルである入力音源スペクトルおよび目標音声の音源スペクトルである目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより得られる、前記変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域スペクトル算出部と、前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルおよび前記目標音源スペクトルを、前記所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル算出部と、前記低域の音源スペクトルと前記高域の音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、境界周波数以下の周波数帯域においては、声質を特徴付ける高調波のレベルを個々に制御して入力音源スペクトルを変換することができる。また、境界周波数よりも大きい周波数帯域においては、声質を特徴付けるスペクトル包絡の形状の変換を行うことにより入力音源スペクトルを変換することができる。このため、不自然な音質変化を起こすことなく、入力音声の声質を変換した音声を合成することができる。
好ましくは、前記入力音声波形および前記目標音声波形は、同一の音素の音声波形である。
さらに好ましくは、前記入力音声波形および前記目標音声波形は、同一の音素の音源波形であり、かつ前記同一の音素内の同一の時間的な位置における音声波形である。
このように目標音源波形を選択することにより、入力音源波形の変換時に不自然な変換を起こすことがない。このため、不自然な音質変化を起こすことなく入力音声の声質を変換することができる。
本発明の他の局面に係る音高変換装置は、入力音声の音高を変換する音高変換装置であって、入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、前記入力音源波形に基づいて、前記入力音源波形の基本周波数を算出する基本周波数算出部と、所定の目標基本周波数に対応する境界周波数以下の周波数帯域において、前記入力音源波形の基本周波数が前記所定の目標基本周波数に一致し、かつ変換の前後において基本波を含む高調波のレベルが等しくなるように前記入力音源スペクトルを変換することにより低域の音源スペクトルを算出する低域スペクトル算出部と、前記低域の音源スペクトルと、前記境界周波数よりも大きい周波数帯域における前記入力音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、音源波形の周波数帯域を分割し、低域の高調波レベルを目標基本周波数の高調波の位置に再配置する。これにより、音源波形が持つ自然性を保持しながら、当該音源波形が持つ音源の特徴である声門開放率およびスペクトル傾斜を保持することができる。よって、音源の特徴を変えずに、基本周波数を変換することが可能となる。
本発明のさらに他の局面に係る音高変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、前記入力音源波形に基づいて、前記入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数算出部と、声門開放率と、第1高調波のレベルと第2高調波のレベルとの比との関係を示すデータを参照し、所定の声門開放率に対応する第1高調波のレベルと第2高調波のレベルとの比を決定するレベル比決定部と、前記基本周波数変換部で算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、前記入力音源波形の基本周波数に基づいて定められる前記入力音源波形の第1高調波のレベルと第2高調波のレベルとの比が、前記レベル比決定部で決定された前記比に一致するように、前記入力音源波形の第1高調波のレベルを変換することにより、変換後の音声の音源スペクトルを生成する低域スペクトル生成部と、前記低域スペクトル生成部が生成した前記音源スペクトルと、前記境界周波数よりも大きい周波数帯域における前記入力音源スペクトルとを、前記境界周波数において結合したスペクトルを用いて、変換後の音声の波形を合成する合成部とを備える。
かかる構成によれば、所定の声門開放率に基づいて、第1高調波(基本波)のレベルを制御することにより、音源波形が保持する自然性を保持しながら、音源の特徴である声門開放率を自在に変更することが可能となる。
なお、本発明は、このような特徴的な処理部を備える声質変換装置または音高変換装置として実現することができるだけでなく、声質変換装置または音高変換装置に含まれる特徴的な処理部をステップとする声質変換方法または音高変換方法として実現することができる。また、声質変換方法または音高変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD−ROM(Compact Disc−Read Only Memory)等のコンピュータ読取可能な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
本発明によると、音源スペクトルの形状の変換または音源波形の基本周波数の変換を行ったとしても、不自然な音質変化を起こさない声質変換装置および音高変換装置を提供することができる。
図1は、声帯の状態による、音源波形、微分音源波形および音源スペクトルの違いを示す図である。 図2は、本発明の実施の形態1における声質変換装置の機能的な構成を示すブロック図である。 図3は、音源情報変形部の詳細な機能的な構成を示すブロック図である。 図4は、本発明の実施の形態1における音声波形から音源スペクトル包絡を得る処理のフローチャートである。 図5は、ピッチマークを付与した音源波形の一例を示す図である。 図6は、波形切出部により切り出された音源波形およびフーリエ変換部により変換された音源スペクトルの例を示す図である。 図7は、本発明の実施の形態1における入力音源スペクトルおよび目標音源スペクトルを用いて、入力音声波形を変換する処理のフローチャートである。 図8は、周波数ごとの臨界帯域幅を示す図である。 図9は、周波数による臨界帯域幅の違いを説明するための図である。 図10は、臨界帯域幅における音源スペクトルの結合について説明するための図である。 図11は、本発明の実施の形態1における低域混合処理(図7のS201)の流れを示すフローチャートである。 図12は、高調波レベル混合部の動作例を示す図である。 図13は、高調波レベル混合部による音源スペクトルの補間例を示す図である。 図14は、高調波レベル混合部による音源スペクトルの補間例を示す図である。 図15は、本発明の実施の形態1における周波数伸縮による低域混合処理(図7のS201)の流れを示すフローチャートである。 図16は、本発明の実施の形態1における高域混合処理の流れを示すフローチャートである。 図17は、高域スペクトル包絡混合部の動作例を示す図である。 図18は、本発明の実施の形態1における高域のスペクトル包絡を混合する処理のフローチャートである。 図19は、PSOLA法による基本周波数変換法の概念図である。 図20は、PSOLA法により基本周波数を変更した場合の高調波レベルの変化を表す図である。 図21は、本発明の実施の形態2における音高変換装置の機能的な構成を示すブロック図である。 図22は、本発明の実施の形態2における基本周波数変換部の機能的な構成を示すブロック図である。 図23は、本発明の実施の形態2における音高変換装置の動作を示すフローチャートである。 図24は、PSOLA法と実施の形態2による音高変換方法とを比較するための図である。 図25は、本発明の実施の形態3における声質変換装置の機能的な構成を示すブロック図である。 図26は、本発明の実施の形態3における声門開放率変換部の機能的な構成を示すブロック図である。 図27は、本発明の実施の形態3における声質変換装置の動作を示すフローチャートである。 図28は、声門開放率と音源スペクトルの第1高調波の対数値と第2高調波の対数値のレベル差を表す図である。 図29は、実施の形態3による変換前後の音源スペクトルの一例を示す図である。 図30は、声質変換装置または音高変換装置の外観図である。 図31は、声質変換装置または音高変換装置のハードウェア構成を示すブロック図である。
個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声の生成を声質を変えることにより実現する場合、男性から女性へ、あるいは女性から男性へといった性別を跨ぐ音声の変換を行ないたい場合がある。また、音声における緊張度合いを変換したい場合もある。
音声の生成原理に基づけば、音声における音源波形は声帯の開閉により生成される。このため、声帯の生理的な状態に応じて声質が異なる。例えば、声帯の緊張度合いを高める場合、声帯が強く閉じられることとなる。このため、図1(a)に示すように音源波形を微分した微分音源波形のピークが鋭くなり、微分音源波形がインパルスに近づく。つまり、声門開放区間30が短くなる。一方、声帯の緊張度合いを低くした場合には、声帯が完全に閉じなくなり、微分音源波形のピークは緩やかになり、図1(c)に示すように、微分音源波形が正弦波に近づくことが知られている。つまり、声門開放区間30が長くなる。図1(b)は、図1(a)と図1(c)の中間の緊張度合いにおける音源波形、微分音源波形および音源スペクトルを示している。
上述のRKモデルを用いると、声門開放率(OQ)を小さくすれば図1(a)に示すような音源波形を生成することができ、OQを大きくすれば図1(c)に示すような音源波形を生成することができる。また、OQを中程度(例えば0.6)にすれば図1(b)に示すような音源波形を生成することができる。
このように、音源波形をモデル化し、パラメータ表現すれば、そのパラメータを変化させることにより、声質を変えることができる。例えば、OQパラメータを大きくすることにより、声帯の緊張度が低い状態を表現することができる。また、OQパラメータを小さくすることにより声帯の緊張度が高い状態を表現することができる。しかし、RKモデルはモデルが単純なため、本来音源が持っている微細なスペクトル構造を表現することができない。
以下では、音源が持つ微細構造を保持しながら、音源特徴を変更することにより、柔軟で高音質な声質変換を行うことができる声質変換装置について、図面を参照しながら説明する。
(実施の形態1)
図2は、本発明の実施の形態1における声質変換装置の機能的な構成を示すブロック図である。
(全体構成)
声質変換装置は、入力音声の声質を目標音声の声質に所定の変換比率で変換する装置であって、声道音源分離部101aと、波形切出部102aと、基本周波数算出部201aと、フーリエ変換部103aと、目標音源情報記憶部104と、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bとを含む。また、声質変換装置は、目標音源情報取得部105と、音源情報変形部106と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101aは、目標音声の音声波形である目標音声波形を分析して、目標音声波形を声道情報と音源情報とに分離する。
波形切出部102aは、声道音源分離部101aにより分離された音源情報である音源波形から、波形を切り出す。波形の切り出し方については後述する。
基本周波数算出部201aは、波形切出部102aにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201aは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103aは、波形切出部102aにより切り出された音源波形をフーリエ変換することにより、目標音声の音源スペクトル(以下、「目標音源スペクトル」という。)を生成する。フーリエ変換部103aは、請求の範囲の音源スペクトル算出部に対応する。なお、周波数変換方法はフーリエ変換に限定されるものではなく、離散コサイン変換、ウェーブレット変換等の他の周波数変換方法であっても良い。
目標音源情報記憶部104は、フーリエ変換部103aにより生成された目標音源スペクトルを保持する記憶装置であり、具体的にはハードディスク装置になどにより構成される。なお、目標音源情報記憶部104は、基本周波数算出部201aで算出された音源波形の基本周波数も目標音源スペクトルと合わせて保持する。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。波形の切り出し方については後述する。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音声の音源スペクトル(以下、「入力音源スペクトル」という。)を生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。なお、周波数変換方法はフーリエ変換に限定されるものではなく、離散コサイン変換、ウェーブレット変換等の他の周波数変換方法であっても良い。
目標音源情報取得部105は、波形切出部102bにより切り出された入力音声の音源波形(以下、「入力音源波形」という。)に対応する目標音源スペクトルを目標音源情報記憶部104から取得する。例えば、目標音源情報取得部105は、入力音源波形と同じ音素の目標音声の音源波形(以下、「目標音源波形」という。)から生成された目標音源スペクトルを取得する。より好ましくは、目標音源情報取得部105は、入力音源波形と同じ音素でかつ音素内の時間的な位置が同じである目標音源波形から生成された目標音源スペクトルを取得する。また、目標音源情報取得部105は、目標音源スペクトルと共に、当該目標音源スペクトルに対応する目標音源波形の基本周波数を取得する。このように目標音源波形を選択することにより、入力音源波形の変換時に不自然な変換を起こすことが無く、不自然な音質変化を起こすことなく入力音声の声質を変換することができる。
音源情報変形部106は、入力音源スペクトルを、目標音源情報取得部105が取得した目標音源スペクトルに、所定の変換比率で変形する。
逆フーリエ変換部107は、音源情報変形部106による変形後の音源スペクトルを逆フーリエ変換することにより、1周期分の時間領域における波形(以下、「時間波形」という。)を生成する。なお、逆変換の方法は、逆フーリエ変換に限定されるものではなく、逆離散コサイン変換、逆ウェーブレット変換等の他の変換方法であっても良い。
音源波形生成部108は、逆フーリエ変換部107により生成された時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
(詳細構成)
図3は、音源情報変形部106の詳細な機能的構成を示すブロック図である。
図3において、図2と同じ構成については、説明を省略する。
音源情報変形部106は、低域高調波レベル算出部202aと、低域高調波レベル算出部202bと、高調波レベル混合部203と、高域スペクトル包絡混合部204と、スペクトル結合部205とを含む。
低域高調波レベル算出部202aは、入力音源波形の基本周波数と入力音源スペクトルから、入力音源波形の高調波レベルを算出する。ここで、高調波レベルとは、音源スペクトルにおける、基本周波数の整数倍の周波数におけるスペクトル強度のことである。なお、本明細書および請求の範囲において、高調波には基本波が含まれるものとする。
低域高調波レベル算出部202bは、目標音源情報取得部105が取得した目標音源波形の基本周波数と目標音源スペクトルから、目標音源波形の高調波レベルを算出する。
高調波レベル混合部203は、後述する境界周波数以下の周波数帯域において、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルと低域高調波レベル算出部202aにより算出された目標音源波形の高調波レベルとを、外部から入力された変換比率rで混合することにより、変換後の高調波レベルを作成する。また、高調波レベル混合部203は、入力音声波形の基本周波数と目標音源波形の基本周波数とを変換比率rで混合することにより、変換後の基本周波数を作成する。さらに、高調波レベル混合部203は、変換後の基本周波数から算出される高調波の周波数に、変換後の高調波レベルを配置することにより、変換後の音源スペクトルを算出する。高調波レベル混合部203は、請求の範囲の基本周波数変換部および低域スペクトル算出部に対応する。
高域スペクトル包絡混合部204は、境界周波数よりも大きい周波数帯域において、入力音源スペクトルと目標音源スペクトルとを、変換比率rで混合することにより、変換後の音源スペクトルを算出する。高域スペクトル包絡混合部204は、請求の範囲の高域スペクトル算出部に対応する。
スペクトル結合部205は、高調波レベル混合部203により算出された境界周波数以下の周波数帯域における音源スペクトルと、高域スペクトル包絡混合部204により算出された境界周波数よりも大きい周波数帯域における音源スペクトルとを、境界周波数において結合することにより、全域の音源スペクトルを生成する。スペクトル結合部205は、請求の範囲のスペクトル結合部に対応する。
以上のように、低域部と高域部とで、それぞれ音源スペクトルを混合することにより、音源の声質特徴が変換比率rで混合された音源スペクトルを得ることができる。
(動作の説明)
次に、本発明の実施の形態1に係る声質変換装置の具体的な動作について、フローチャートを用いて説明する。
声質変換装置が実行する処理は、音声波形から音源スペクトルを得る処理と、音源スペクトルを変換することにより入力音声波形を変換する処理とに分かれる。まず、前者の処理について説明し、その後、後者の処理について説明する。
図4は、音声波形から音源スペクトル包絡を得る処理のフローチャートである。
声道音源分離部101aは、目標音声波形から、声道情報と音源情報とを分離する。また、声道音源分離部101bは、入力音声波形から、声道情報と音源情報とを分離する(ステップS101)。分離の方法は特に限定するものではないが、例えば、音源モデルを仮定し、声道情報と音源情報を同時に推定可能なARX分析(Autoregressive with exogenous input)を用いて、声道情報を分析する。さらに、分析された声道情報から声道の逆特性を持つフィルタを構成して、入力された音声信号から逆フィルタ音源波形を取り出し、音源情報として用いればよい(非特許文献:「音源パルス列を考慮した頑健なARX音声分析法」日本音響学会誌58巻7号(2002年),pp.386−397)。なお、ARX分析の代わりにLPC分析(Linear Predictive Coding)を用いてもよい。また、その他の分析により声道情報と音源情報を分離するようにしても良い。
波形切出部102aは、ステップS101で分離された目標音声波形の音源情報を示す目標音源波形に対して、ピッチマークを付与する。また、波形切出部102bは、ステップS101で分離された入力音声波形の音源情報を示す入力音源波形に対して、ピッチマークを付与する(ステップS102)。具体的には、音源波形(目標音源波形または入力音源波形)に対して、基本周期ごとに特徴点を付与する。例えば、特徴点として、声門閉鎖点(GCI:Glottal Closure Instant)を用いる。ただし、特徴点はこれに限定されるものでなく、基本周期間隔で繰り返し出現する点であれば良い。図5は、GCIを用いてピッチマークを付与した音源波形のグラフである。横軸は時間を示し、縦軸は振幅を示す。また、破線の箇所がピッチマークの位置を示す。音源波形のグラフにおいて、振幅の極小点が声門閉鎖点と一致する。なお、特徴点としては、音声波形の振幅のピーク位置(極大点)であっても良い。
基本周波数算出部201aは、目標音源波形の基本周波数を算出する。また、基本周波数算出部201bは、入力音源波形の基本周波数を算出する(ステップS103)。基本周波数の算出方法は特に限定しないが、例えば、ステップS102で付与されたピッチマーク同士の間隔から算出するようにすれば良い。ピッチマーク同士の間隔が基本周期に相当するため、その逆数を算出することにより基本周波数を算出することができる。または、自己相関法などの基本周波数算出方法を用いて、入力音源波形または目標音源波形から基本周波数を算出しても良い。
波形切出部102aは、目標音源波形より2周期分の目標音源波形を切り出す。また、波形切出部102bは、入力音源波形より2周期分の入力音源波形を切り出す(ステップS104)。具体的には、着目しているピッチマークを中心として、前後に基本周波数算出部201aで算出した基本周波数に対応する基本周期分の音源波形を切り出す。つまり、図5に示すグラフにおいて、区間S1内の音源波形が切り出される。
フーリエ変換部103aは、ステップS104で切り出された目標音源波形をフーリエ変換することにより目標音源スペクトルを生成する。また、フーリエ変換部103bは、ステップS104で切り出された入力音源波形をフーリエ変換することにより入力音源スペクトルを生成する(ステップS105)。このとき、切り出された音源波形に基本周期の2倍の長さのハニング窓を掛けた上で、フーリエ変換することにより、高調波成分の谷が埋められ、音源スペクトルのスペクトル包絡を得ることができる。これにより、基本周波数の影響を除去することができる。図6(a)は、ハニング窓を掛けない場合の音源波形(時間領域)およびその音源スペクトル(周波数領域)の一例を示す図である。図6(b)は、ハニング窓を掛けた場合の音源波形(時間領域)およびその音源スペクトル(周波数領域)の一例を示す図である。このように、ハニング窓を掛けることにより、音源スペクトルのスペクトル包絡が得られることがわかる。なお、窓関数は、ハニング窓に限定されるものではなく、ハミング窓、ガウス窓などの他の窓関数であっても良い。
以上説明したステップS101からステップS105の処理により、入力音声波形および目標音声波形から入力音源スペクトルおよび目標音源波形をそれぞれ算出することができる。
次に、入力音声波形の変換処理について説明する。
図7は、入力音源スペクトルおよび目標音源スペクトルを用いて、入力音声波形を変換する処理のフローチャートである。
低域高調波レベル算出部202a、低域高調波レベル算出部202bおよび高調波レベル混合部203は、後述する境界周波数(Fb:Boundaly Frequency)以下の周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを混合することにより、変換後音声波形の低域の音源スペクトルを生成する(ステップS201)。混合方法については後述する。
高域スペクトル包絡混合部204は、境界周波数(Fb)よりも大きい周波数帯域において、入力音源スペクトルおよび目標音源スペクトルを混合することにより、変換後音声波形の高域の音源スペクトルを生成する(ステップS202)。混合方法については後述する。
スペクトル結合部205は、ステップS201で生成された低域の音源スペクトルと、ステップS202で生成された高域の音源スペクトルとを結合することにより、変換後音声の全域の音源スペクトルを生成する(ステップS203)。具体的には、全域の音源スペクトルにおいて、境界周波数(Fb)以下の周波数帯域ではステップS201で生成された低域の音源スペクトルを用い、境界周波数(Fb)よりも大きい周波数帯域ではステップS202で生成された高域の音源スペクトルを用いる。
ここで、境界周波数(Fb)は、後述する変換後の基本周波数に基づいて、例えば以下の方法で決定される。
図8は、人間の聴覚特性の一つである臨界帯域幅を示すグラフである。横軸は周波数を表し、縦軸は臨界帯域幅を表している。
臨界帯域幅とは、その周波数の純音に対するマスキングに寄与する周波数の範囲である。すなわち、ある周波数における臨界帯域幅内に含まれる二つの音(周波数の差の絶対値が臨界帯域幅以下の二つの音)は互いに加算され、音の大きさ(loudness)が大きくなったと知覚される。これに対して、臨界帯域幅よりも遠い間隔に位置する二つの音(周波数の差の絶対値が臨界帯域幅よりも大きい二つの音)はそれぞれ別の音として知覚され、音の大きさ(loudness)が大きくなったとは知覚されない。例えば、100Hzの純音に対しては、臨界帯域幅は100Hzである。このため、その純音から100Hz以内で離れた音(例えば150Hzの音)が、純音に付加された場合、100Hzの純音が大きくなったように知覚される。
図9に上記のことを模式的に示す。横軸は周波数、縦軸は音源スペクトルのスペクトル強度を示す。また、上向きの矢印は高調波を示し、破線は音源スペクトルのスペクトル包絡を表している。そして、横に並んだ長方形が各周波数帯域での臨界帯域幅を意味する。同図中の区間Bcが、ある周波数帯域での臨界帯域幅を表している。この図で500Hzよりも大きい周波数帯域では、一つの長方形の領域中に複数の高調波が存在する。ところが500Hz以下の周波数帯域では、一つの長方形の中に高調波がたかだか一つしか存在しない。
一つの長方形の中にある複数の高調波は、互いに音量が加算される関係にあり、それらは固まりとして知覚される。一方、一つ一つの高調波が別々の長方形に配置される領域では、個々の高調波は別の音として知覚されるという性質を帯びる。このように、ある周波数よりも大きい周波数帯域では高調波が固まりとして知覚され、ある周波数以下の周波数帯域では個々の高調波が別々に知覚されることになる。
個々の高調波が別々に知覚されない周波数帯域ではスペクトル包絡が再現できていれば音質が維持できることになる。このため、この周波数帯域ではスペクトル包絡の形状が声質を特徴付けると考えることができる。一方、個々の高調波が別々に知覚される周波数帯域では個々の高調波のレベルを制御する必要がある。このため、この周波数帯域では個々の高調波のレベルが声質を特徴付けると考えることができる。高調波の周波数間隔は基本周波数の値と等しい。このため、個々の高調波が別々に知覚されない周波数帯域と、個々の高調波が別々に知覚される周波数帯域との境界の周波数は、変換後の基本周波数の大きさと臨界帯域幅の大きさとが一致するときの、当該臨界帯域幅に対応する周波数(図8のグラフより導き出される周波数)である。
このように聴覚特性を用いることにより、変換後の基本周波数の大きさと臨界帯域幅の大きさとが一致するときの、臨界帯域幅に対応する周波数が境界周波数(Fb)と決定される。つまり、基本周波数と境界周波数とを対応付けることができる。スペクトル結合部205は、高調波レベル混合部203により生成された低域の音源スペクトルと、高域スペクトル包絡混合部204により生成された高域の音源スペクトルスペクトルとを、境界周波数(Fb)において結合することができる。
例えば、高調波レベル混合部203は、予め図8に示すような臨界帯域幅の特性をデータテーブルとして保持し、基本周波数に基づいて、境界周波数(Fb)を決定するようにすれば良い。また、高調波レベル混合部203は、決定した境界周波数(Fb)を高域スペクトル包絡混合部204およびスペクトル結合部205に出力するようにすれば良い。
なお、基本周波数から境界周波数を決定するための規則データは、図8に示したような周波数と臨界帯域幅との関係を示すデータテーブルに限定されるものではなく、例えば、周波数と臨界帯域幅との関係を示す関数であってもよい。また、基本周波数と臨界帯域幅との関係を示すデータテーブルまたは関数であってもよい。
なお、スペクトル結合部205は、境界周波数(Fb)付近では、低域の音源スペクトルと高域の音源スペクトルとを混合して結合するようにしても良い。結合後の全域の音源スペクトルの例を図10に示す。実線は、結合して生成された全域の音源スペクトルのスペクトル包絡を示す。また、音源波形生成部108によって結果的に生成される高調波を上向きの破線の矢印で表し、重ね合わせて描いてある。図10に示すように、スペクトル包絡は境界周波数(Fb)より高い周波数帯域ではなめらかな形状をしている。しかし、境界周波数(Fb)以下の周波数帯域では高調波のレベルが制御できればよいので、図10のように階段状のスペクトル包絡としておけば十分である。もちろん、高調波のレベルが結果的に正しく制御できるのであれば、包絡として生成するべき形状はどのようなものでも構わない。
再度図7を参照して、逆フーリエ変換部107は、ステップS203により結合された後の音源スペクトルを逆フーリエ変換することにより時間領域の表現に変換し、1周期分の時間波形を生成する(ステップS204)。
音源波形生成部108は、ステップS204で生成された1周期分の時間波形を、変換後の基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形に対する変換後の音源波形を生成することができる(ステップS205)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS206)。合成の方法は特に限定されるものではないが、声道情報としてPARCOR(Partial Auto Correlation)係数を用いている場合には、PARCOR合成を用いればよい。また、PARCOR係数と数学的に等価なLPC係数に変換した後に、LPC合成により合成するようにしてもよいし、LPC係数からフォルマントを抽出し、フォルマント合成するようにしてもよい。さらには、LPC係数からLSP(Line Spectrum Pairs)係数を算出し、LSP合成するようにしてもよい。
(低域の混合処理について)
次に、低域混合処理(図7のステップS201)について詳しく説明する。図11は、低域混合処理の流れを示すフローチャートである。
低域高調波レベル算出部202aは、目標音源波形の高調波のレベルを算出する。また、低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS301)。具体的には、低域高調波レベル算出部202aは、ステップS103で算出された目標音源波形の基本周波数と、ステップS105で生成された目標音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の周波数に発生するので、低域高調波レベル算出部202aは、基本周波数のn倍(nは自然数)の位置の目標音源スペクトルの値を算出する。目標音源スペクトルをF(f)、基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。低域高調波レベル算出部202bは、低域高調波レベル算出部202aと同様の方法で高調波レベルを算出する。図12に示す入力音源スペクトルにおいて、第1高調波レベル11、第2高調波レベル12および第3高調波レベル13は、入力音源波形の基本周波数(同図ではF0A)を用いて算出される。同様に、目標音源スペクトルにおいて、第1高調波レベル21、第2高調波レベル22および第3高調波レベル23は、目標音源波形の基本周波数(同図ではF0B)を用いて算出される。
Figure 2011004579
高調波レベル混合部203は、ステップS301で算出された、入力音声の高調波レベルと目標音声の高調波レベルとを、高調波ごとに(次数ごとに)混合する(ステップS302)。入力音声の高調波レベルをHs、目標音声の高調波レベルをHt、変換比率をrとすると、混合後の高調波レベルHは、式3により算出できる。
図12において、第1高調波レベル31、第2高調波レベル32および第3高調波レベル33は、入力音源スペクトルの第1高調波レベル11、第2高調波レベル12および第3高調波レベル13と、目標音源スペクトルの第1高調波レベル21、第2高調波レベル22および第3高調波レベル23とを、それぞれ変換比率rで混合したものである。
Figure 2011004579
高調波レベル混合部203は、ステップS302で算出された高調波レベルを、変換後の基本周波数に基づいて周波数軸上に配置する(ステップS303)。ここで、変換後の基本周波数F0’は、入力音源波形の基本周波数F0sと、目標音源波形の基本周波数F0tと、変換比率rとを用いて式4により算出される。
Figure 2011004579
また、高調波レベル混合部203は、算出されたF0’を用いて、式5により変換後の音源スペクトルF’を算出する。
Figure 2011004579
これにより、境界周波数以下の周波数帯域において、変換後の音源スペクトルを生成することができる。
なお、高調波位置以外のスペクトル強度は、補間により算出すればよい。補間の方法は特に限定するものではないが、例えば、式6に示すように、高調波レベル混合部203は、着目する周波数fに隣接するk番目の高調波レベルと(k+1)番目の高調波レベルとを用いて、スペクトル強度を線形に補間するようにすればよい。線形補間されたスペクトル強度の一例を、図13に示す。
Figure 2011004579
また、図14に示すように、高調波レベル混合部203は、式7に従い、最も近い高調波の高調波レベルを用いて、スペクトル強度を補間するようにしても良い。これにより、スペクトル強度は、階段状に変化する。
Figure 2011004579
以上の処理により、低域の高調波レベルの混合が可能である。なお、高調波レベル混合部203は、周波数の伸縮を行うことにより、低域の音源スペクトルを生成するようにしてもよい。図15は、周波数伸縮による低域混合処理(図7のS201)の流れを示すフローチャートである。
高調波レベル混合部203は、入力音源スペクトルFを、入力音源波形の基本周波数F0sと変換後の基本周波数F0’との比率(F0’/F0s)に基づき伸縮する。また、高調波レベル混合部203は、目標音源スペクトルFを、目標音源波形の基本周波数F0tと変換後の基本周波数F0’との比率(F0’/F0t)に基づき伸縮する(ステップS401)。具体的には伸縮後の入力音源スペクトルF’および目的音源スペクトルF’は式8により算出される。
Figure 2011004579
高調波レベル混合部203は、伸縮後の入力音源スペクトルF’および目標音源スペクトルF’を、変換比率rにより混合し、変換後の音源スペクトルF’を得る(ステップS402)。具体的には、2つの音源スペクトルは式9により混合される。
Figure 2011004579
以上のように、高調波レベルを混合することにより、低域の音源スペクトルによってもたらされる声質特徴を、目標音声と入力音声の間でモーフィングを行なうことができる。
(高域の混合処理について)
次に、高域の入力音源スペクトルと目標音源スペクトルの混合処理(図7のステップS202)について説明する。
図16は、高域混合処理の流れを示すフローチャートである。
高域スペクトル包絡混合部204は、入力音源スペクトルFと目標音源スペクトルFとを変換比率rにより混合する(ステップS501)。具体的には式10を用いてスペクトルを混合する。
Figure 2011004579
これにより、高域のスペクトル包絡を混合することができる。図17は、スペクトル包絡の混合の具体例を示した図である。横軸は周波数を示し、縦軸はスペクトル強度を示す。なお、縦軸は対数表現されている。入力音源スペクトル41と目標音源スペクトル42とを変換比率0.8で混合することにより、変換後の音源スペクトル43が得られる。図17に示す変換後の音源スペクトル43から分かるように、1kHzから5kHzにわたり、微細構造を保持したまま音源スペクトルを変換可能であることがわかる。
(スペクトル傾斜の利用)
なお、高域のスペクトル包絡の混合方法として、入力音源スペクトルのスペクトル傾斜を目標音源スペクトルのスペクトル傾斜を変換比率rに基づいて変形することにより、入力音源スペクトルと目標音源スペクトルとを混合するようにしても良い。スペクトル傾斜とは、個人特徴の一つであり、音源スペクトルの周波数軸方向に対する傾斜(傾き)を示す。例えば、前述の境界周波数(Fb)と3kHzのスペクトル強度の差によりスペクトル傾斜を表現することができる。スペクトル傾斜が小さいほど、高周波成分が多く含まれ、スペクトル傾斜が大きいほど高周波成分が少なくなる。
図18は、入力音源スペクトルのスペクトル傾斜を目標音源スペクトルのスペクトル傾斜に変換することにより、高域のスペクトル包絡を混合する処理のフローチャートである。
高域スペクトル包絡混合部204は、入力音源スペクトルのスペクトル傾斜および目標音源スペクトルのスペクトル傾斜の差であるスペクトル傾斜差を算出する(ステップS601)。スペクトル傾斜差の算出方法は特に限定するものではないが、例えば、境界周波数(Fb)と3kHzのスペクトル強度の差によりスペクトル傾斜を算出するようにすれば良い。
高域スペクトル包絡混合部204は、ステップS601で算出されたスペクトル傾斜差を用いて、入力音源スペクトルのスペクトル傾斜を補正する(ステップS602)。補正の方法は特に限定するものではないが、例えば、入力音源スペクトルU(z)を式11に示すようなIIR(無限インパルス応答)フィルタD(z)を通過させる。これにより、スペクトル傾斜が補正された入力音源スペクトルU’(z)を得ることができる。
Figure 2011004579
ただし、U’(z)は補正後の音源波形、U(z)は音源波形、D(z)はスペクトルの傾斜を補正するフィルタ、Tは入力音源スペクトルの傾斜と目標音源スペクトルの傾斜とのレベル差(スペクトル傾斜差)、Fsはサンプリング周波数を表す。
なお、スペクトル傾斜の補間法として、FFTスペクトル上で直接、スペクトルを変換するようにしても良い。例えば、入力音源スペクトルF(n)から、境界周波数以上のスペクトルに対して回帰直線を算出する。算出した回帰直線(as、bs)の係数を用いるとF(n)は式12により表現できる。
Figure 2011004579
ただし、es(n)は入力音源スペクトルと回帰直線との誤差である。
同様に目標音源スペクトルFt(n)は式13により表現できる。
Figure 2011004579
入力音源スペクトルと目標音源スペクトルの回帰直線の各係数を式14に示すように変換比率rにより補間する。
Figure 2011004579
以上のようにして算出した回帰直線を用いて、入力音源スペクトルを式15により変換することにより、音源スペクトルのスペクトル傾斜を変換し、変換後のスペクトルF’(n)を算出するようにしても良い。
Figure 2011004579
(効果)
かかる構成によれば、境界周波数以下の周波数帯域においては、声質を特徴付ける高調波のレベルを個々に制御して入力音源スペクトルを変換することができる。また、境界周波数よりも大きい周波数帯域においては、声質を特徴付けるスペクトル包絡の形状の変換を行うことにより入力音源スペクトルを変換することができる。このため、不自然な音質変化を起こすことなく、入力音声の声質を変換した音声を合成することができる。
(実施の形態2)
一般にテキスト音声合成システムにおいては、以下のようにして合成音が生成される。つまり、入力されたテキストを解析し、テキストに合致した基本周波数パターンなどの目標の韻律情報が生成される。また、生成された目標の韻律情報に合致する音声素片が選択され、選択された音声素片を目標情報に変形されて、接続される。これにより、目標の韻律情報を持つ合成音を生成する。
音声の音の高さを変化させるためには、選択された音声素片の基本周波数を目標の基本周波数に変換する必要がある。この時、基本周波数以外の音源特徴を変換させることなく、基本周波数のみを変換することにより、音質の劣化を抑制することが可能になる。本発明の実施の形態2では、このように、基本周波数以外の音源特徴を変化させることなく、基本周波数のみを変化させることにより、声質の変化や音質の劣化を防止する装置について説明する。
音声波形を編集して、基本周波数を変換する方法として、PSOLA(pitch synchronous overlap add)法が知られている(非特許文献:“Diphone Synthesis using an Overlap−Add technique for Speech Waveforms Concatenation”,Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing. 1997, pp.2015−2018)。
PSOLA法は、図19に示すように音声波形を1周期ごとに切り出し、切り出した音声波形を、所望の基本周期(T0’)間隔で並べ替えることにより、音声の基本周波数を変換するものである。PSOLA法は、基本周波数の変更量が小さい場合には、良好な変換結果を得ることが知られている。
このPSOLA法を音源情報の変換に応用し、基本周波数を変更することを考える。図20(a)は、基本周波数を変更する前の音源スペクトルである。ここで、実線は音源スペクトルのスペクトル包絡を表し、破線は切り出された単一のピッチ波形のスペクトルを表している。このように、単一ピッチ波形のスペクトルは、音源スペクトルのスペクトル包絡を構成する。PSOLA法を用いて基本周波数に変更を加えると、図20(b)の実線で表す音源スペクトルのスペクトル包絡が得られる。基本周波数を変更しているため、図20(b)の音源スペクトルでは、元の周波数とは異なる位置に高調波が存在することになる。ここで、基本周波数の変換前後ではスペクトル包絡は変化しないため、第1高調波(基本波)や第2高調波のレベルは、基本周波数を変更する前とは異なったものとなる。このため、第1高調波レベルと第2高調波レベルとの間で大小関係の逆転現象が生じる場合がある。例えば、図20(a)に示す基本周波数変更前の音源スペクトルにおいては、第1高調波レベル(周波数F0でのレベル)の方が第2高調波レベル(周波数2F0でのレベル)よりも大きくなっている。しかし、図20(b)に示す基本周波数変更後の音源スペクトルにおいては、第2高調波レベル(周波数2F0’のレベル)の方が第1高調波レベル(周波数F0’のレベル)よりも大きくなっている。
以上のように、PSOLA法を用いた場合、音源波形のスペクトルの微細構造を再現することができるため、合成音の音質が優れているという利点がある。しかし、その一方で、基本周波数を大きく変更すると、第1高調波レベルと第2高調波レベルとのレベル差に変化が生じてしまうため、個々の高調波が別個に知覚される低周波数帯域においては、声質に変化が生じてしまうという課題がある。
本実施の形態に係る音高変換装置では、声質の変化を生じさせること無く、音の高さのみを変更することができる。
(全体構成)
図21は、本発明の実施の形態2における音高変換装置の機能的な構成を示すブロック図である。図21において、図2と同じ構成要素については同じ参照符号を付し、その詳細な説明は適宜省略する。
音高変換装置は、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bと、基本周波数変換部301と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。分離の方法は実施の形態1と同じである。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音源スペクトルを生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。
基本周波数変換部301は、声道音源分離部101bにより分離された音源情報である入力音源波形の基本周波数を、外部から入力される目標基本周波数に変換することにより、入力音源スペクトルを生成する。基本周波数の変換方法については後述する。
逆フーリエ変換部107は、基本周波数変換部301により生成された入力音源スペクトルを逆フーリエ変換することにより、1周期分の時間波形を生成する。
音源波形生成部108は、逆フーリエ変換部107により生成された1周期分の時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
本発明の実施の形態2は、入力音声の音源の基本周波数以外の特徴(スペクトル傾斜やOQなど)を変えずに基本周波数のみを変換する点が実施の形態1と異なる。
(詳細構成)
図22は、基本周波数変換部301の詳細な機能的構成を示すブロック図である。
基本周波数変換部301は、低域高調波レベル算出部202bと、高調波成分生成部302と、スペクトル結合部205とを含む。
低域高調波レベル算出部202bは、基本周波数算出部201bにより算出された基本周波数と、フーリエ変換部103bにより算出された入力音源スペクトルから、入力音源波形の高調波レベルを算出する。
高調波成分生成部302は、実施の形態1で説明した境界周波数(Fb)以下の周波数帯域において、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルを、外部より入力される目標基本周波数から算出される高調波の位置に配置することにより、変換後の音源スペクトルを算出する。低域高調波レベル算出部202bおよび高調波成分生成部302は、請求の範囲の低域スペクトル算出部に対応する。
スペクトル結合部205は、高調波成分生成部302により生成された境界周波数(Fb)以下の周波数帯域における音源スペクトルと、フーリエ変換部103bにより得られた入力音源スペクトルのうち境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルとを、境界周波数(Fb)において結合することにより、全域の音源スペクトルを生成する。
(動作の説明)
次に、本発明の実施の形態2に係る音高変換装置の具体的な動作について、フローチャートを用いて説明する。
音高変換装置が実行する処理は、入力音声波形から入力音源スペクトルを得る処理と、入力音源スペクトルを変換することにより入力音声波形を変換する処理とに分けられる。
前者の処理については、実施の形態1において図4を参照して説明した処理(ステップS101〜ステップS105)と同様である。このため、その詳細な説明はここでは繰り返さない。以下では、後者の処理について説明する。
図23は、実施の形態2に係る音高変換装置の動作を示すフローチャートである。
低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS701)。具体的には、低域高調波レベル算出部202bは、ステップS103で算出された入力音源波形の基本周波数と、ステップS105で算出された入力音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の位置に発生するので、低域高調波レベル算出部202bは、入力音源波形の基本周波数のn倍(nは自然数)の位置の入力音源スペクトルの強度を算出する。入力音源スペクトルをF(f)、入力音源波形の基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。
高調波成分生成部302は、ステップS701において算出された高調波レベルH(n)を、入力された目標基本周波数F0’に基づき算出される高調波の位置に再配置する(ステップS702)。具体的には式5により高調波レベルを算出する。また、高調波位置以外のスペクトル強度は、実施の形態1と同様に補間処理により求められる。これにより、入力音源波形の基本周波数が目標基本周波数に変換された音源スペクトルが生成される。
スペクトル結合部205は、ステップS702において生成された音源スペクトルと、ステップS105において算出された入力音源スペクトルとを境界周波数(Fb)において結合する(ステップS703)。具体的には、境界周波数(Fb)以下の周波数帯域では、ステップS702において算出されたスペクトルを用いる。また、境界周波数(Fb)よりも大きい周波数帯域ではステップS105において算出された入力音源スペクトルのうち、境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルを用いる。なお、境界周波数(Fb)は実施の形態1と同様の方法で決定できる。また、結合の方法も実施の形態1と同様の方法で結合すればよい。
逆フーリエ変換部107は、ステップS703において結合された後の音源スペクトルを逆フーリエ変換することにより時間領域に変換し、1周期分の時間波形を生成する(ステップS704)。
音源波形生成部108は、ステップS704で生成された1周期分の時間波形を、目標基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形の基本周波数を変換した変換後の音源波形を生成することができる(ステップS705)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS706)。音声合成の方法は実施の形態1と同様である。
(効果)
かかる構成によれば、音源波形の周波数帯域を分割し、低域の高調波レベルを目標基本周波数の高調波の位置に再配置することにより、音源波形が持つ自然性を保持しながら、かつ、当該音源波形が持つ音源の特徴である声門開放率およびスペクトル傾斜を保持することで音源の特徴を変えずに、基本周波数を変換することが可能となる。
図24は、PSOLA法と本実施の形態に係る音高変換方法とを比較するための図である。同図に示すように、図24(a)は、入力音源スペクトルのスペクトル包絡を示すグラフである。図24(b)は、PSOLA法による基本周波数変換後の音源スペクトルを示すグラフである。図24(c)は、本実施の形態による方法による変換後の音源スペクトルを示すグラフである。各グラフの横軸は周波数を表しており、縦軸はスペクトル強度を表している。また、上向き矢印が、高調波の位置を示している。変換前の基本周波数はF0であり、変換後の基本周波数はF0’である。図24(b)に示すPSOLA法による変換後の音源スペクトルは、図24(a)に示す変換前の音源スペクトルと同様のスペクトル包絡形状を有している。しかし、第1高調波と第2高調波とのレベル差が変換前(g12_a)と変換後(g12_b)とでは大きく異なっている。これに対して、図24(c)に示す本実施の形態による変換後の音源スペクトルと、図24(a)に示す返還前の音源スペクトルとを比較すると、低域においては第1高調波と第2高調波とのレベル差が変換前(g12_a)と変換後(g12_c)とでは同じである。このため、変換前の声門開放率を保持した声質変換を行うことができる。また、広域においては、変換前後の音源スペクトルのスペクトル包絡の形状は等しくなる。このため、スペクトル傾斜を保持した声質変換を行うことができる。
(実施の形態3)
例えば、既に収録された音声が緊張などのために力んでおり、音声の利用時には、もう少しリラックスした音声を用いたいと言う場合がある。通常このような場合は、音声を収録し直す必要がある。
本発明の実施の形態3では、このような場合に、音声を収録しなおすことなく、既に収録された音声の基本周波数を変更せずに声門開放率のみを変更することにより、声のやわらかさの印象を変えることができる。
(全体構成)
図25は、本発明の実施の形態3における声質変換装置の機能的な構成を示すブロック図である。図25において、図2と同じ構成要素については同じ参照符号を付し、その詳細な説明は適宜省略する。
声質変換装置は、声道音源分離部101bと、波形切出部102bと、基本周波数算出部201bと、フーリエ変換部103bと、声門開放率変換部401と、逆フーリエ変換部107と、音源波形生成部108と、合成部109とを含む。
声道音源分離部101bは、入力音声の音声波形である入力音声波形を分析して、入力音声波形を声道情報と音源情報とに分離する。分離の方法は実施の形態1と同じである。
波形切出部102bは、声道音源分離部101bにより分離された音源情報である音源波形から、波形を切り出す。
基本周波数算出部201bは、波形切出部102bにより切り出された音源波形の基本周波数を算出する。基本周波数算出部201bは、請求の範囲の基本周波数算出部に対応する。
フーリエ変換部103bは、波形切出部102bにより切り出された音源波形をフーリエ変換することにより、入力音源スペクトルを生成する。フーリエ変換部103bは、請求の範囲の音源スペクトル算出部に対応する。
声門開放率変換部401は、声道音源分離部101bにより分離された音源情報である入力音源波形の声門開放率を、外部から入力される目標声門開放率に変換することにより、入力音源スペクトルを生成する。声門開放率の変換方法については後述する。
逆フーリエ変換部107は、声門開放率変換部401により生成された入力音源スペクトルを逆フーリエ変換することにより、1周期分の時間波形を生成する。
音源波形生成部108は、逆フーリエ変換部107により生成された1周期分の時間波形を、基本周波数に基づいた位置に配置することにより、音源波形を生成する。音源波形生成部108は、この処理を基本周期ごとに繰り返すことにより、変換後の音源波形を生成する。
合成部109は、声道音源分離部101bにより分離された声道情報と、音源波形生成部108により生成された変換後の音源波形とを用いて変換後の音声の波形を合成する。逆フーリエ変換部107、音源波形生成部108および合成部109は、請求の範囲の合成部に対応する。
本発明の実施の形態3は、入力音源波形の基本周波数を変えずに、声門開放率(OQ)のみを変換する点が実施の形態1と異なる。
(詳細構成)
図26は、声門開放率変換部401の詳細な機能的構成を示すブロック図である。
声門開放率変換部401は、低域高調波レベル算出部202bと、高調波成分生成部402と、スペクトル結合部205とを含む。
低域高調波レベル算出部202bは、基本周波数算出部201bにより算出された基本周波数と、フーリエ変換部103bにより算出された入力音源スペクトルから、入力音源波形の高調波レベルを算出する。
高調波成分生成部402は、実施の形態1で説明した境界周波数(Fb)以下の周波数帯域において、外部より入力される目標声門開放率に従い決定される第1高調波レベルと第2高調波レベルとの比に等しくなるように、低域高調波レベル算出部202bにより算出された入力音源波形の高調波レベルのうち、第1高調波レベルまたは第2高調波レベルを変換することにより、変換後の音源スペクトルを生成する。
スペクトル結合部205は、高調波成分生成部402により生成された境界周波数(Fb)以下の周波数帯域における音源スペクトルと、フーリエ変換部103bにより得られた入力音源スペクトルのうち境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルとを、境界周波数(Fb)において結合することにより、全域の音源スペクトルを生成する。
(動作の説明)
次に、本発明の実施の形態3に係る声質変換装置の具体的な動作について、フローチャートを用いて説明する。
声質変換装置が実行する処理は、入力音声波形から入力音源スペクトルを得る処理を、入力音源スペクトルを変換することにより入力音源波形を変換する処理とに分けられる。
前者の処理については、実施の形態1において図4を参照して説明した処理(ステップS101〜ステップS105)と同様である。このため、その詳細な説明はここでは繰り返さない。以下では、後者の処理について説明する。
図27は、実施の形態3に係る声質変換装置の動作を示すフローチャートである。
低域高調波レベル算出部202bは、入力音源波形の高調波のレベルを算出する(ステップS801)。具体的には、低域高調波レベル算出部202bは、ステップS103で算出された入力音源波形の基本周波数と、ステップS105で算出された入力音源スペクトルとを用いて、高調波レベルを算出する。高調波は基本周波数の整数倍の位置に発生するので、低域高調波レベル算出部202bは、入力音源波形の基本周波数のn倍(nは自然数)の位置の入力音源スペクトルの強度を算出する。入力音源スペクトルをF(f)、入力音源波形の基本周波数をF0とした場合、第n高調波レベルH(n)は、式2で算出される。
高調波成分生成部402は、ステップS801において算出された高調波レベルH(n)を、入力された目標声門開放率に基づいて変換する(ステップS802)。変換の方法を以下に説明する。図1を用いて説明したように、声門開放率(OQ)を小さくすれば声帯の緊張度合いを高めることができ、声門開放率(OQ)を大きくすれば声帯の緊張度合いを低くすることができる。この時の、声門開放率(OQ)と第2高調波レベルに対する第2高調波レベルの比との関係を、図28に示すことができる。縦軸は、声門開放率を示し、横軸は、第1高調波レベルと第2高調波レベルとの比を示している。なお、図28では、横軸を対数表現しているため、第1高調波レベルの対数値から第2高調波レベルの対数値を引いた値を示している。目標声門開放率に対応する第1高調波レベルの対数値から第2高調波レベルの対数値を引いた値をG(OQ)とすると、変換後の第1高調波レベルF(F0)は式12で表される。つまり、高調波成分生成部402は、式16に従い第1高調波レベルF(F0)を変換する。
Figure 2011004579
なお、実施の形態1と同様に高調波間のスペクトル強度は、補間により算出することができる。
スペクトル結合部205は、ステップS802において生成された音源スペクトルと、ステップS105において算出された入力音源スペクトルとを境界周波数(Fb)において結合する(ステップS803)。具体的には、境界周波数(Fb)以下の周波数帯域では、ステップS802において算出されたスペクトルを用いる。また、境界周波数(Fb)よりも大きい周波数帯域ではステップS105により算出された入力音源スペクトルのうち、境界周波数(Fb)よりも大きい周波数帯域の入力音源スペクトルを用いる。なお、境界周波数(Fb)は実施の形態1と同様の方法で決定できる。また、結合の方法も実施の形態1と同様の方法で結合すればよい。
逆フーリエ変換部107は、ステップS803において結合された後の音源スペクトルを逆フーリエ変換することにより時間領域に変換し、1周期分の時間波形を生成する(ステップS804)。
音源波形生成部108は、ステップS804で生成された1周期分の時間波形を、目標基本周波数により算出される基本周期の位置に配置する。この配置処理により1周期分の音源波形が生成される。この配置処理を基本周期ごとに繰り返すことにより、入力音声波形の基本周波数を変換した変換後の音源波形を生成することができる(ステップS805)。
合成部109は、音源波形生成部108により生成された変換後の音源波形と、声道音源分離部101bにより分離された声道情報とに基づいて、音声合成を行ない、変換後の音声波形を生成する(ステップS806)。音声合成の方法は実施の形態1と同様である。
(効果)
かかる構成によれば、入力された目標声門開放率に基づいて、第1高調波レベルを制御することにより、音源波形が保持する自然性を保持しながら、音源の特徴である声門開放率を自在に変更することが可能となる。
図29は、本実施の形態による変換前後の音源スペクトルの一例を示す図である。図29(a)は、入力音源スペクトルのスペクトル包絡を示すグラフである。図29(b)は、本実施の形態による変換後の音源スペクトルのスペクトル包絡を示すグラフである。各グラフの横軸は周波数を表しており、縦軸はスペクトル強度を表している。また、上向き矢印が、高調波の位置を示している。また、基本周波数はF0である。
変換前後で第2高調波2F0および高域のスペクトル包絡を変えることなく、第1高調波と第2高調波のレベル差(g12_a、g12_b)を変更することができている。このため、声門開放率を自在に変更することができ、声帯の緊張度のみを変更することができる。
以上、本発明に係る声質変換装置または音高変換装置について、実施の形態に従い説明したが、本発明は、これらの実施の形態に限定されるものではない。
例えば、実施の形態1〜3で説明した各装置は、コンピュータにより実現することが可能である。
図30は、上記各装置の外観図である。各装置は、コンピュータ34と、コンピュータ34に指示を与えるためのキーボード36およびマウス38と、コンピュータ34の演算結果等の情報を提示するためのディスプレイ37と、コンピュータ34で実行されるコンピュータプログラムを読み取るためのCD−ROM(Compact Disc−Read Only Memory)装置40および通信モデム(図示せず)とを含む。
声質を変換するためのコンピュータプログラムまたは音高を変換するためのコンピュータプログラムは、コンピュータで読取可能な媒体であるCD−ROM42に記憶され、CD−ROM装置40で読み取られる。または、コンピュータネットワーク26を通じて通信モデムで読み取られる。
図31は、各装置のハードウェア構成を示すブロック図である。コンピュータ34は、CPU(Central Processing Unit)44と、ROM(Read Only Memory)46と、RAM(Random Access Memory)48と、ハードディスク50と、通信モデム52と、バス54とを含む。
CPU44は、CD−ROM装置40または通信モデム52を介して読み取られたコンピュータプログラムを実行する。ROM46は、コンピュータ34の動作に必要なコンピュータプログラムやデータを記憶する。RAM48は、コンピュータプログラム実行時のパラメータなどのデータを記憶する。ハードディスク50は、コンピュータプログラムやデータなどを記憶する。通信モデム52は、コンピュータネットワーク26を介して他のコンピュータとの通信を行なう。バス54は、CPU44、ROM46、RAM48、ハードディスク50、通信モデム52、ディスプレイ37、キーボード36、マウス38およびCD−ROM装置40を相互に接続する。
RAM48またはハードディスク50には、コンピュータプログラムが記憶されている。CPU44が、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
また、RAM48またはハードディスク50には、コンピュータプログラム実行時の中間データ等の各種データが記憶される。
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの記録媒体に記録されている上記デジタル信号であるとしても良い。
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
また、上記プログラムまたは上記デジタル信号を上記記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
さらに、上記実施の形態および上記変形例をそれぞれ組み合わせるとしても良い。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明に係る音声分析合成装置および声質変換装置は、音源の特徴を変形することにより、高品質に声質を変換する機能を有し、種々の声質を必要とするユーザインタフェース装置や、エンターテイメント装置等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。
101a、101b 声道音源分離部
102a、102b 波形切出部
103a、103b フーリエ変換部
104 目標音源情報記憶部
105 目標音源情報取得部
106 音源情報変形部
107 逆フーリエ変換部
108 音源波形生成部
109 合成部
201a、201b 基本周波数算出部
202a、202b 低域高調波レベル算出部
203 高調波レベル混合部
204 高域スペクトル包絡混合部
205 スペクトル結合部
301 声道情報変換部
302、402 高調波成分生成部
401 声門開放度変換部

Claims (20)

  1. 入力音声の声質を変換する声質変換装置であって、
    入力音声波形の音源情報を示す入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数変換部と、
    前記基本周波数変換部で算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、入力音声の音源スペクトルである入力音源スペクトルおよび目標音声の音源スペクトルである目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより得られる、前記変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域スペクトル算出部と、
    前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルおよび前記目標音源スペクトルを、前記所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル算出部と、
    前記低域の音源スペクトルと前記高域の音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、
    前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部と
    を備える声質変換装置。
  2. 前記境界周波数は、前記変換後の基本周波数が高いほど高く設定される
    請求項1記載の声質変換装置。
  3. 前記境界周波数は、(1)周波数に依存する周波数帯域幅であり、かつ同一の周波数帯域幅内に存在する周波数が互いに異なる2つの音が、人間の耳には当該2つの音の強さが加算された1つの音として知覚される周波数帯域幅である臨界帯域幅の大きさと、(2)前記変換後の基本周波数の大きさとが一致するときの、当該臨界帯域幅に対応する前記周波数である
    請求項2記載の声質変換装置。
  4. 前記低域スペクトル算出部は、さらに、基本周波数から境界周波数を決定するための規則データを保持しており、当該規則データに基づいて、前記基本周波数変換部で算出される前記変換後の基本周波数に対応する前記境界周波数を決定する
    請求項1〜3のいずれか1項に記載の声質変換装置。
  5. 前記規則データは、周波数と臨界帯域幅との関係を示しており、
    前記低域スペクトル算出部は、前記規則データに基づいて、前記基本周波数変換部で算出される前記変換後の基本周波数の大きさと前記臨界帯域幅との大きさとが一致するときの、前記臨界帯域幅に対応する周波数を、前記境界周波数として決定する
    請求項4記載の声質変換装置。
  6. 前記低域スペクトル算出部は、前記境界周波数以下の周波数帯域において、基本波を含む高調波の次数ごとに、前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより、高調波のレベルを算出し、算出した高調波のレベルで、前記変換後の基本周波数に基づき算出される高調波の周波数位置における前記低域の音源スペクトルの高調波のレベルを代表させることにより、前記低域の音源スペクトルを算出する
    請求項1〜5のいずれか1項に記載の声質変換装置。
  7. 前記低域スペクトル算出部は、さらに、前記境界周波数以下の周波数帯域において、前記変換後の基本周波数に基づき算出される高調波の周波数位置以外の周波数位置における前記低域の音源スペクトルのレベルを、隣接する高調波の周波数位置における前記低域の音源スペクトルの高調波のレベルを用いて補間することにより、前記低域の音源スペクトルを算出する
    請求項6記載の声質変換装置。
  8. 前記低域スペクトル算出部は、前記境界周波数以下の周波数帯域において、前記入力音源波形および前記目標音源波形の各々の基本周波数が前記変換後の基本周波数に一致するように前記入力音源スペクトルおよび前記目標音源スペクトルを変換し、変換後の入力音源スペクトルおよび変換後の出力音源スペクトルを前記所定の変換比率で混合することにより、前記低域の音源スペクトルを算出する
    請求項1〜5のいずれか1項に記載の声質変換装置。
  9. 前記高域スペクトル算出部は、前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルのスペクトル包絡と前記目標音源スペクトルのスペクトル包絡との、前記所定の変換比率に基づいた重み付け和を算出することにより、前記高域の音源スペクトルを算出する
    請求項1〜8のいずれか1項に記載の声質変換装置。
  10. さらに、前記入力音源波形に第1窓関数を掛け合わせた波形および前記目標音源波形に第2窓関数を掛け合わせた波形から、前記入力音源スペクトルおよび前記目標音源スペクトルをそれぞれ算出し、算出した前記入力音源スペクトルおよび前記目標音源スペクトルから、前記入力音源スペクトルおよび前記目標音源スペクトルのスペクトル包絡をそれぞれ算出する音源スペクトル算出部を備える
    請求項9記載の声質変換装置。
  11. 前記第1窓関数は、前記入力音源波形の基本周波数の2倍の長さの窓関数であり、
    前記第2窓関数は、前記目標音源波形の基本周波数の2倍の長さの窓関数である
    請求項10記載の声質変換装置。
  12. 前記高域スペクトル算出部は、前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルのスペクトル傾斜と前記目標音源スペクトルのスペクトル傾斜との差を算出し、算出した当該差に基づいて、前記入力音源スペクトルを変換することにより、前記高域の音源スペクトルを算出する
    請求項1〜8のいずれか1項に記載の声質変換装置。
  13. 前記入力音声波形および前記目標音声波形は、同一の音素の音声波形である
    請求項1〜12のいずれか1項に記載の声質変換装置。
  14. 前記入力音声波形および前記目標音声波形は、同一の音素の音源波形であり、かつ前記同一の音素内の同一の時間的な位置における音声波形である
    請求項13記載の声質変換装置。
  15. さらに、前記入力音源波形および前記目標音源波形の各々について、音源波形の基本周期間隔で繰り返し出現する特徴点を抽出し、抽出した特徴点の時間的な間隔から前記入力音源波形および前記目標音源波形の基本周波数をそれぞれ算出する基本周波数算出部を備える
    請求項1〜14のいずれか1項に記載の声質変換装置。
  16. 前記特徴点は、声門閉鎖点である
    請求項15記載の声質変換装置。
  17. 入力音声の音高を変換する音高変換装置であって、
    入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、
    前記入力音源波形に基づいて、前記入力音源波形の基本周波数を算出する基本周波数算出部と、
    所定の目標基本周波数に対応する境界周波数以下の周波数帯域において、前記入力音源波形の基本周波数が前記所定の目標基本周波数に一致し、かつ変換の前後において基本波を含む高調波のレベルが等しくなるように前記入力音源スペクトルを変換することにより低域の音源スペクトルを算出する低域スペクトル算出部と、
    前記低域の音源スペクトルと、前記境界周波数よりも大きい周波数帯域における前記入力音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合部と、
    前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成部と
    を備える音高変換装置。
  18. 入力音声の声質を変換する声質変換装置であって、
    入力音声の音源情報を示す入力音源波形に基づいて、入力音声の音源スペクトルである入力音源スペクトルを算出する音源スペクトル算出部と、
    前記入力音源波形に基づいて、前記入力音源波形の基本周波数を算出する基本周波数算出部と、
    声門開放率と、第1高調波のレベルと第2高調波のレベルとの比との関係を示すデータを参照し、所定の声門開放率に対応する第1高調波のレベルと第2高調波のレベルとの比を決定するレベル比決定部と、
    前記入力音源波形の基本周波数に基づいて定められる前記入力音源波形の第1高調波のレベルと第2高調波のレベルとの比が、前記レベル比決定部で決定された前記比に一致するように、前記入力音源波形の第1高調波のレベルを変換することにより、変換後の音声の音源スペクトルを生成するスペクトル生成部と、
    前記スペクトル生成部が生成した前記音源スペクトルを用いて、前記変換後の音声の波形を合成する合成部と
    を備える声質変換装置。
  19. 入力音声の声質を変換する声質変換方法であって、
    入力音声波形の音源情報を示す入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数変換ステップと、
    前記基本周波数変換ステップにおいて算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、入力音声の音源スペクトルである入力音源スペクトルおよび目標音声の音源スペクトルである目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより得られる、前記変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域スペクトル算出ステップと、
    前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルおよび前記目標音源スペクトルを、前記所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル算出ステップと、
    前記低域の音源スペクトルと前記高域の音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合ステップと、
    前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成ステップと
    を含む声質変換方法。
  20. 入力音声の声質を変換するプログラムであって、
    入力音声波形の音源情報を示す入力音源波形の基本周波数と、目標音声波形の音源情報を示す目標音源波形の基本周波数との、所定の変換比率に従った重み付け和を、変換後の基本周波数として算出する基本周波数変換ステップと、
    前記基本周波数変換ステップにおいて算出される前記変換後の基本周波数に対応する境界周波数以下の周波数帯域において、入力音声の音源スペクトルである入力音源スペクトルおよび目標音声の音源スペクトルである目標音源スペクトルを用いて、基本波を含む高調波の次数ごとに前記入力音源波形の高調波のレベルと前記目標音源波形の高調波のレベルとを前記所定の変換比率で混合することにより得られる、前記変換後の基本周波数を基本周波数とする高調波のレベルを有する低域の音源スペクトルを算出する低域スペクトル算出ステップと、
    前記境界周波数よりも大きい周波数帯域において、前記入力音源スペクトルおよび前記目標音源スペクトルを、前記所定の変換比率で混合することにより、高域の音源スペクトルを算出する高域スペクトル算出ステップと、
    前記低域の音源スペクトルと前記高域の音源スペクトルとを、前記境界周波数において結合することにより、全域の音源スペクトルを生成するスペクトル結合ステップと、
    前記全域の音源スペクトルを用いて、変換後の音声の波形を合成する合成ステップと
    をコンピュータに実行させるプログラム。
JP2010549958A 2009-07-06 2010-07-05 声質変換装置、音高変換装置および声質変換方法 Expired - Fee Related JP4705203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010549958A JP4705203B2 (ja) 2009-07-06 2010-07-05 声質変換装置、音高変換装置および声質変換方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009160089 2009-07-06
JP2009160089 2009-07-06
PCT/JP2010/004386 WO2011004579A1 (ja) 2009-07-06 2010-07-05 声質変換装置、音高変換装置および声質変換方法
JP2010549958A JP4705203B2 (ja) 2009-07-06 2010-07-05 声質変換装置、音高変換装置および声質変換方法

Publications (2)

Publication Number Publication Date
JP4705203B2 JP4705203B2 (ja) 2011-06-22
JPWO2011004579A1 true JPWO2011004579A1 (ja) 2012-12-20

Family

ID=43429010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010549958A Expired - Fee Related JP4705203B2 (ja) 2009-07-06 2010-07-05 声質変換装置、音高変換装置および声質変換方法

Country Status (4)

Country Link
US (1) US8280738B2 (ja)
JP (1) JP4705203B2 (ja)
CN (1) CN102227770A (ja)
WO (1) WO2011004579A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
US10702207B2 (en) * 2014-12-11 2020-07-07 Koninklijke Philips N.V. System and method for determining spectral boundaries for sleep stage classification
JP6428256B2 (ja) * 2014-12-25 2018-11-28 ヤマハ株式会社 音声処理装置
JP6758890B2 (ja) * 2016-04-07 2020-09-23 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
CN107310466B (zh) * 2016-04-27 2020-04-07 上海汽车集团股份有限公司 行人警示方法、装置及系统
JP6664670B2 (ja) * 2016-07-05 2020-03-13 クリムゾンテクノロジー株式会社 声質変換システム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
CN107958672A (zh) * 2017-12-12 2018-04-24 广州酷狗计算机科技有限公司 获取基音波形数据的方法和装置
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112562703A (zh) * 2020-11-17 2021-03-26 普联国际有限公司 一种音频的高频优化方法、装置和介质
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04246792A (ja) 1991-02-01 1992-09-02 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH08234790A (ja) * 1995-02-27 1996-09-13 Toshiba Corp 音程変換装置及びこれを用いた音響装置並びに音程変換方法
JP3465734B2 (ja) 1995-09-26 2003-11-10 日本電信電話株式会社 音声信号変形接続方法
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP3294192B2 (ja) * 1998-06-22 2002-06-24 ヤマハ株式会社 音声変換装置及び音声変換方法
JP3447221B2 (ja) * 1998-06-17 2003-09-16 ヤマハ株式会社 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP2000242287A (ja) * 1999-02-22 2000-09-08 Technol Res Assoc Of Medical & Welfare Apparatus 発声補助装置およびプログラム記録媒体
JP3557124B2 (ja) 1999-05-18 2004-08-25 日本電信電話株式会社 音声変形方法、その装置、及びプログラム記録媒体
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP4430174B2 (ja) * 1999-10-21 2010-03-10 ヤマハ株式会社 音声変換装置及び音声変換方法
JP4219898B2 (ja) * 2002-10-31 2009-02-04 富士通株式会社 音声強調装置
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置

Also Published As

Publication number Publication date
US20110125493A1 (en) 2011-05-26
US8280738B2 (en) 2012-10-02
CN102227770A (zh) 2011-10-26
WO2011004579A1 (ja) 2011-01-13
JP4705203B2 (ja) 2011-06-22

Similar Documents

Publication Publication Date Title
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP4490507B2 (ja) 音声分析装置および音声分析方法
JP5039865B2 (ja) 声質変換装置及びその方法
JPWO2004049304A1 (ja) 音声合成方法および音声合成装置
JP6821970B2 (ja) 音声合成装置および音声合成方法
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
US7251601B2 (en) Speech synthesis method and speech synthesizer
JP2018077283A (ja) 音声合成方法
Agiomyrgiannakis et al. ARX-LF-based source-filter methods for voice modification and transformation
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP2013033103A (ja) 声質変換装置および声質変換方法
JP6834370B2 (ja) 音声合成方法
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
CN1647152A (zh) 合成语音的方法
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JPH07261798A (ja) 音声分析合成装置
JP2018077280A (ja) 音声合成方法
JP6822075B2 (ja) 音声合成方法
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JP2000099094A (ja) 時系列信号処理装置
JP2001312300A (ja) 音声合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110310

R150 Certificate of patent or registration of utility model

Ref document number: 4705203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees