WO2011151956A1 - 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム - Google Patents

声質変換装置及びその方法、母音情報作成装置並びに声質変換システム Download PDF

Info

Publication number
WO2011151956A1
WO2011151956A1 PCT/JP2011/001541 JP2011001541W WO2011151956A1 WO 2011151956 A1 WO2011151956 A1 WO 2011151956A1 JP 2011001541 W JP2011001541 W JP 2011001541W WO 2011151956 A1 WO2011151956 A1 WO 2011151956A1
Authority
WO
WIPO (PCT)
Prior art keywords
vowel
information
vocal tract
opening degree
target
Prior art date
Application number
PCT/JP2011/001541
Other languages
English (en)
French (fr)
Inventor
良文 廣瀬
釜井 孝浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN2011800026487A priority Critical patent/CN102473416A/zh
Priority to JP2012502798A priority patent/JP5039865B2/ja
Publication of WO2011151956A1 publication Critical patent/WO2011151956A1/ja
Priority to US13/334,119 priority patent/US20120095767A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 声質変換装置は、入力音声を声道情報と音源情報とに分離する声道音源分離部(101)と、母音の声道情報から開口度を算出する開口度算出部(102)と、目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部(103)と、算出した開口度と、目標母音データベース記憶部(103)に記憶されている各母音情報に含まれる開口度との一致度を算出する開口度一致度算出部(104)と、一致度に基づいて、目標母音データベース記憶部(103)に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部(105)と、選択した母音情報に含まれる声道情報を用いて、入力音声に含まれる母音の声道情報を変形する母音変形部(106)と、母音の声道情報が変形された後の入力音声の声道情報と、音源情報とを用いて、音声を合成する合成部(108)とを備える。

Description

声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
 本発明は、音声の声質を変換する声質変換装置に関する。特に、声道情報を変換することにより音声の声質を変換する声質変換装置に関する。
 近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となっている。しかし、従来の合成音の用途は、ニュース文をアナウンサー調で読み上げる等の画一的な用途が中心である。
 一方、携帯電話のサービスなどでは、携帯電話の着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されている。このように、特徴のある音声がコンテンツとして流通している。例えば、特徴のある音声とは、個人再現性の高い合成音、子供などの年代による、又は、地域特有のなまりなどの特徴的な韻律及び声質をもつ合成音などがある。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作ることに対する要求が高まっている。
 人間の音声は、図17に示すように声帯1601の振動により生成される音源波形が、声門1602から口唇1603までにより構成される声道1604を通過する際に、舌などの調音器官による狭めなどの影響を受けることにより生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて音声を分析することにより、音声を声道情報と音源情報に分離し、分離された声道情報と音源情報を変形することにより、合成音の声質を変換することが可能である。例えば、音声の分析方法として、声道音源モデルと呼ばれるモデルが使用される。声道音源モデルによる分析では、音声はその生成過程に基づいて音源情報と声道情報に分離される。分離された音源情報と声道情報をそれぞれ変形することにより声質を変換することができる。
 従来、少量の音声を用いて話者特徴を変換する方法として、母音スペクトル包絡を変換するための写像関数を母音毎に複数用意しておき、前後音素の種類(音韻環境)に基づいて選択した写像関数を用いてスペクトル包絡を変換することにより声質変換する声質変換装置が知られている(例えば、特許文献1参照)。図18に、特許文献1に記載された従来の声質変換装置の機能的な構成を示す。
 図18に示す従来の声質変換装置は、スペクトル包絡抽出部11と、スペクトル包絡変換部12と、音声合成部13と、音声ラベル付与部14と、音声ラベル情報記憶部15と、変換ラベル作成部16と、音素間変換テーブル推定部17と、変換テーブル選択部18、スペクトル包絡変換テーブル記憶部19とを備える。
 スペクトル包絡抽出部11は、変換元話者の入力音声からスペクトル包絡を抽出する。スペクトル包絡変換部12は、スペクトル包絡抽出部11により抽出されたスペクトル包絡を変換する。音声合成部13は、スペクトル包絡変換部12により変換されたスペクトル包絡から変換先話者の音声を合成する。
 音声ラベル付与部14は、音声ラベル情報を与える。音声ラベル情報記憶部15は、音声ラベル付与部14により与えられる上記音声ラベル情報を記憶する。変換ラベル作成部16は、音声ラベル情報記憶部15に記憶された上記音声ラベル情報に基づいて、スペクトル包絡を変換するための制御情報を表す変換ラベルを作成する。音素間変換テーブル推定部17は、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。変換テーブル選択部18は、変換ラベル作成部16により作成された変換ラベルに基づいて、後述するスペクトル包絡変換テーブル記憶部19からスペクトル包絡変換テーブルを選択する。スペクトル包絡変換テーブル記憶部19は、学習済みの母音のスペクトル包絡変換規則としての母音スペクトル包絡変換テーブル19aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル19bを記憶している。
 変換テーブル選択部18は、母音スペクトル包絡変換テーブル19aおよび子音スペクトル包絡変換テーブル19bから、変換元話者の入力音声を構成する音素の母音及び子音に対応するスペクトル包絡変換テーブルを、それぞれ選択する。音素間変換テーブル推定部17は、選択されたスペクトル包絡変換テーブルに基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。スペクトル包絡変換部12は、上記選択されたスペクトル包絡変換テーブルと、推定された音素間のスペクトル包絡変換テーブルとに基づいて、変換元話者の入力音声からスペクトル包絡抽出部11により抽出されたスペクトル包絡を変換する。音声合成部13は、変換されたスペクトル包絡から、変換先話者の声質の音声を合成する。
特開2002-215198号公報
 前記特許文献1の声質変換装置では、声質変換を行なうために、スペクトル包絡を変換するための変換規則を変換元話者の発声した音声の前後の音素の情報である音韻環境に基づいて選択し、選択された変換規則を入力音声のスペクトル包絡に適用することにより入力音声の声質を変換している。
 しかしながら、目標となる音声が保有すべき声質は、音韻環境だけから決定することは困難である。
 自然な発声における声質は、音声の発話速度、発話内の位置、あるいはアクセント句内における位置など、さまざまな要因に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。あるいは、変換元話者の発話において、ある単語が強調されている場合は、その単語の声質は、協調されない場合と比較すると明瞭度が高くなる傾向がある。
 図19は、同一話者による先行音素が同一である同じ母音の声道伝達特性を示すグラフである。図19において、横軸は周波数を表し、縦軸はスペクトル強度を表す。
 曲線201は「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/が持つ声道伝達特性を示す。曲線202は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/が持つ声道伝達特性を示す。このグラフによると、共振周波数を示すフォルマント(上方向のピーク)の位置及び強さが同じ先行音素を持つ母音同士で比較しても、声道伝達特性が大きく異なることがわかる。
 この要因としては、曲線201で示される声道伝達特性を有する母音/a/は、文頭に近く、かつ内容語(content word)に含まれる音素であるのに対して、曲線202で示される声道伝達特性を有する母音/a/は、文末に近く、かつ機能語(function word)に含まれる音素であると言うことが挙げられる。また、聴感上においても、曲線201で示される声道伝達特性を有する母音/a/の方がより明瞭に聞こえる。ここで、機能語とは、文法的な役割を有する語であり、英語においては、前置詞(preposition)、接続詞(conjunction)、冠詞(article)、助動詞(adverb)などが含まれる。また、内容語とは、それ以外の一般的な意味を有する語であり、英語においては、名詞(noun)、形容詞(adjective)、動詞(verb)、副詞(adverb)などが含まれる。
 このように、自然な発話においては、文章内の位置により発声方法が異なる。つまり、「ハキハキと発声し、明瞭な音声」又は「怠けて発声し、不明瞭な音声」といった意識的あるいは無意識の発声方法の違いがある。このような発声方法の違いを以後「発声様態」と呼ぶ。
 発声様態は音韻環境だけではなく、その他の様々な言語的及び生理的な影響を受けて変動している。
 特許文献1の声質変換装置は、そのような発声様態の変動を考慮することなく、音韻環境を用いて写像関数を選択し、声質変換を行っているため、声質変換後の音声の発声様態は、変換元話者の発声が持つ発声様態とは異なるものとなる。その結果、声質変換後の音声における発声様態の時間変化パターンは、変換元話者の発声の時間変化パターンとは異なったものとなり、非常に不自然な音声となる。
 この発声様態の時間変化について、図20の概念図を用いて説明する。図20(a)は、入力音声として発声された音声「めまいがします/memaigashimasxu/」に対して、音声に含まれる各母音の発声様態(明瞭度)の変化を示している。Xの領域は、はっきりした発声であり、明瞭度が高い音韻を示す。Yの領域は、怠けた発声であり明瞭度が低い音韻を示している。例えば、このように前半は、明瞭度が高い発声様態であり、後半は明瞭度が低い発声様態を示す。
 一方、図20(b)は、音韻環境のみによって変換規則を選択し声質変換を行なった場合の変換音声が持つ発声様態の時間変化のイメージ図である。音韻環境のみを基準に変換規則を選択しているため、発声様態は入力音声の特徴と関係なく変動する。例えば、図20(b)のように発声様態が変動した場合、はっきりと明瞭度を高く発声する母音(/a/)と、怠けて明瞭度を低く発声する母音(/e/、/i/)が交互に繰り返すような発声様態の変換音声が得られることになる。
 また、図21は、「お湯が出ません(/oyugademaseN/)」と発声した音声に対して、ハッキリと明瞭度高く発声した場合の/a/を用いて声質変換した場合のフォルマント401の動きの一例を示している。
 図21において、横軸は時刻、縦軸はフォルマント周波数を示し、周波数の低い方から第1、第2及び第3フォルマントを表している。/ma/において、別の発声様態(ハッキリと明瞭度高く発声)の母音/a/への変換を行った後のフォルマント402は、元の発声のフォルマント401と周波数が大きく異なることがわかる。このようにフォルマント周波数が大きく異なる変換を実施する場合には、図中の破線に示すように各フォルマント402の時間的な動きが大きくなることから、声質が異なるだけでなく声質変換後の音質も劣化する。
 このように発声様態の時間変化パターンが入力音声の時間変化パターンと異なると、声質変換後の音声における発声様態の変化の自然性を保持することができなくなり、結果として声質変換音声の自然性が大きく劣化するという課題を有している。
 本発明は、前記従来の課題を解決するもので、変換元話者の発声が保有する発声様態の時間的変動を保持しながら声質を変換することで、声質変換時の自然性、言い換えれば流暢さが低下しない声質変換装置を提供することを目的とする。
 本発明のある局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部と、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 好ましくは、前記母音情報は、さらに、母音の音韻環境を含み、前記声質変換装置は、さらに、互いに母音種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部を備え、前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する。
 この構成によると、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 さらに好ましくは、前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離とに基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する。
 この構成によると、母音情報を選択する際に、目標母音データベース記憶部に記憶されている母音情報の数が大きいほど、音韻環境の距離の重みを大きくしている。これにより、目標母音データベース記憶部に記憶されている母音情報の数が少ない場合には、開口度の一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 一方、目標母音データベース記憶部に記憶されている母音情報の数が多い場合には、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 好ましくは、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する。
 この構成によると、話者毎に正規化した開口度を用いて開口度の一致度を算出している。このため、発声様態の異なる話者(例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者)を区別した上で一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 また、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出してもよい。
 この構成によると、母音の種類毎に正規化した開口度を用いて開口度の一致度を算出している。このため、母音の種類を区別した上で一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 さらに、前記開口度一致度算出部は、前記一致度として、互いに母音種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出してもよい。
 この構成によると、開口度の変化に基づいて開口度の一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 本発明の他の局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む複数の母音情報を参照し、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベースに記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 本発明のさらに他の局面に係る母音情報作成装置は、入力音声の声質変換に用いられる目標話者の母音情報を作成する母音情報作成装置であって、目標話者の音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記目標話者の音声の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、前記目標話者に関する、母音種類と前記開口度算出部が算出した前記開口度の情報と前記声道音源分離部が分離した前記声道情報とを含む母音情報を作成する目標母音情報作成部とを備える。
 この構成によると、声質変換に用いられる母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 本発明のさらに他の局面に係る声質変換システムは、上述の声質変換装置と、上述の目標母音情報作成装置とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 また、声質変換に用いられる母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 なお、本発明は、このような特徴的な処理部を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な処理部が実行する処理をステップとする声質変換方法として実現することができる。また、声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD-ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な不揮発性の記録媒体又はインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
 本発明に係る声質変換装置によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを維持することが可能となる。つまり、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)を劣化させない声質変換が可能となる。
図1は、発声様態による声道断面積関数の違いを示す図である。 図2は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。 図3は、声道断面積関数の例を示す図である。 図4は、発声内における開口度の時間変化パターンを示す図である。 図5は、目標母音DB記憶部に記憶される目標母音の構築方法を示すフローチャートである。 図6は、目標母音DB記憶部に記憶されている母音情報の例を示す図である。 図7は、母音変形部により変換された母音区間のPARCOR係数を示す図である。 図8は、母音変形部により変換された母音の声道断面積関数を示す図である。 図9は、本発明の実施の形態に係る声質変換装置が実行する処理のフローチャートである。 図10は、本発明の実施の形態の変形例1に係る声質変換装置の機能的な構成を示すブロック図である。 図11は、本発明の実施の形態の変形例1に係る声質変換装置が実行する処理のフローチャートである。 図12は、本発明の実施の形態の変形例2に係る声質変換システムの機能的な構成を示すブロック図である。 図13は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。 図14は、目標母音DB記憶部に記憶されている母音情報の最小構成を示す図である。 図15は、声質変換装置の外観図である。 図16は、声質変換装置のハードウェア構成を示すブロック図である。 図17は、人間の顔の断面図である。 図18は、従来の声質変換装置の機能的な構成を示すブロック図である。 図19は、発声様態による声道伝達特性の違いを示す図である。 図20は、発声様態の時間的変動を示す概念図である。 図21は、発声様態の違いによるフォルマント周波数の違いの一例を示す図である。
 以下、本発明の実施の形態について、図面を参照しながら説明する。
 ここでは目標となる音声(目標音声)の特性を有する母音の母音情報を選択し、変換元の音声(入力音声)の母音区間の特性に対して、所定の演算を行うことにより声質変換を行う方法を例に取り説明を行う。
 既に述べたように、声質変換を行なう際には、入力音声における発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)の時間的な変動を保持することが重要である。
 発声様態は、例えば音声の発話速度、発話内の位置、あるいは、アクセント句内における位置に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声するが、文末では怠けが発生し、明瞭度が低下する傾向がある。また、変換元話者の発話において、ある単語が強調されている場合の発声様態は、強調されていない場合の発声様態と異なる。
 しかしながら、従来技術のように入力音声における音韻環境を考慮した上で、それに加えて発話内位置、アクセント句内位置、単語の強調などの情報を全て考慮した母音選択法を実現することは困難である。なぜならば、それら全てのパターンを網羅すると、目標音声の情報を大量に用意する必要があるからである。
 例えば、素片接続型の音声規則合成システムでは、素片データベースを構築する際に数時間から数十時間の音声を用意することも珍しくない。声質変換においてもそのような大量の目標音声を収集することは考えられる。しかし、それが可能であるならば声質変換技術を用いるまでもなく、収集した目標音声を用いて素片接続型音声合成システムを構築すれば良い。
 すなわち、声質変換技術の利点は、素片接続型音声合成システムと比較して少量の目標音声を用いて目標声質の合成音を得ることにある。
 本実施の形態に示す声質変換装置によると、少量の目標音声を用い、かつ前述の発声様態を考慮すると言う、相反する課題を克服することが可能である。
 図1(a)は、前述の「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/の対数声道断面積関数を示し、図1(b)は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/の対数声道断面積関数を示す。
 図1(a)の/a/は、文頭に近く、また内容語(自立語)であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図1(b)の/a/は、文末に近く、発声様態としては怠けが発生し、明瞭さが低い。
 本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連がある知見を見出した。
 つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。
 音声から算出可能な口腔内容積を開口度の指標とすることによって、目標音声データから所望の発声様態を有する母音を探し出すことが可能となる。発声様態を口腔内容積と言う一つの値で表すことにより、発話内位置、アクセント句内位置、又は強調の有無と言った多様な組み合わせの情報を考慮する必要がなくなるため、少量の目標音声データから所望の特性を有する母音を探し出すことが可能になる。さらに、音韻環境を全ての音素で区別するのではなく、特性が近い音素を一つのカテゴリとして音韻環境の種類を削減することにより、目標音声データの必要量を少なくすることが可能となる。
 一言で言うと、本発明では、口腔内の容積を用いることにより発声様態の時間的な変動を保存し、自然性の劣化が少ない声質変換を実現する。
 図2は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。
 声質変換装置は、声道音源分離部101と、開口度算出部102と、目標母音DB(データベース)記憶部103と、開口度一致度算出部104と、目標母音選択部105と、母音変形部106と、音源生成部107と、合成部108とを備える。
 声道音源分離部101は、入力音声を声道情報と音源情報に分離する。
 開口度算出部102は、声道音源分離部101により分離された母音の声道情報を用いて、入力音声の各時刻における声道断面積から開口度を算出する。つまり、開口度算出部102は、声道音源分離部101により分離された入力音声の声道情報から口腔内の容積に対応する開口度を算出する。
 目標母音DB記憶部103は、目標となる声質の母音情報を複数記憶している記憶装置である。つまり、目標母音DB記憶部103は、入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している。母音情報の詳細は後述する。
 開口度一致度算出部104は、互いに母音種類が一致する、開口度算出部102が算出した開口度と、目標母音データベース記憶部103に記憶されている各母音情報に含まれる開口度との一致度を算出する。
 目標母音選択部105は、開口度一致度算出部104により算出された一致度に基づいて、目標母音DB記憶部103に記憶されている母音情報の中から、入力音声に含まれる母音の声道情報を変換するための母音情報を選択する。
 母音変形部106は、目標母音選択部105により選択された母音情報に含まれる声道情報を用いて、入力音声の各母音の声道情報を変形することにより、声質を変換する。
 音源生成部107は、声道音源分離部101により分離された音源情報を用いて、音源波形を生成する。
 合成部108は、母音変形部106により声質変換された声道情報と、音源生成部107により生成された音源波形を用いて、合成音を生成する。
 以上のように構成された声質変換装置により、入力音声の発声様態の時間的な変動を保持しながら目標母音DB記憶部103が保持する声質への変換が可能となる。
 以下、それぞれの構成要素について詳しく説明する。
 <声道音源分離部101>
 声道音源分離部101は、入力音声に対して、声道音源モデル(音声の発声機構をモデル化した音声生成モデル)を用いて、声道情報と音源情報の分離を行なう。分離に用いる声道音源モデルに制限はなく、どのようなモデルであっても良い。
 例えば、声道音源モデルとして線形予測モデル(LPCモデル)を用いた場合、音声波形のある標本値s(n)をそれより前のp個の標本値から予測するものであり、標本値s(n)は、式1のように表せる。
Figure JPOXMLDOC01-appb-M000001
 p個の標本値に対する係数αi(i=n-1~n-p)は、相関法又は共分散法などを用いることにより算出できる。算出した係数を用いると入力された音声信号は、式2により生成することができる。
Figure JPOXMLDOC01-appb-M000002
 ここで、S(z)は音声信号s(n)のz変換後の値であり、U(z)は、は音源信号u(n)のz変換後の値であり、入力音声S(z)を声道情報1/A(z)で逆フィルタリングした信号を表す。
 声道音源分離部101は、さらに、LPC分析により分析された線形予測係数を用いて、PARCOR係数(偏自己相関係数)を算出するようにしてもよい。PARCOR係数は、線形予測係数と比較して、補間特性が良いことが知られている。PARCOR係数は、Levinson-Durbin-Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の2つの特徴を有する。
 (特徴1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
 (特徴2)高次の係数の変動の影響は、平坦に全域にわたる。
 以下の説明では、声道情報として、PARCOR係数を用いて説明する。なお、用いる声道情報はPARCOR係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対(LSP)を用いてもよい。
 また、声道音源分離部101は、声道音源モデルとしてARXモデルを用いた場合、ARX(Autoregressive with exogenous input)分析を用いて、声道と音源を分離する。ARX分析は、音源として数式音源モデルを用いる点がLPC分析と大きく異なる。また、ARX分析では、LPC分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる(非特許文献1:大塚、粕谷、「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号、2002年、pp.386-397)。
 ARX分析では、音声は式3に示す生成過程により生成される。式3において、S(z)は、音声信号s(n)のz変換後の値を表す。U(z)は、有声音源信号u(n)のz変換後の値を表す。E(z)は、無声雑音音源e(n)のz変換後の値を表す。つまり、ARX分析では、有声音は式3の右辺第1項により音声が生成され、無声音は右辺第2項により生成される。
Figure JPOXMLDOC01-appb-M000003
 このとき、有声音源信号u(t)=u(nTs)のモデルとして、式4に示す音モデルを用いる。ここで、Tsは、サンプリング周期を示す。
Figure JPOXMLDOC01-appb-M000004
 ただし、AVは有声音源振幅、T0は基本周期、OQは声門開放率を表わす。有声音の場合は式4の第1項が使用され、無声音の場合は式4の第2項が使用される。声門開放率OQは、1基本周期における声門が開放されている割合を示す。声門開放率OQの値が大きいほどやわらかい音声となる傾向があることが知られている。
 ARX分析は、LPC分析と比較して以下の利点がある。
 (利点1)分析窓内に複数の基本周期に対応した音源パルス列を配して分析を行っているため、女性又は子供など高ピッチ音声でも安定に声道情報を抽出できる。
 (利点2)特に、基本周波数F0と第1フォルマント周波数F1とが接近している/i/、/u/などの狭母音の声道音源分離性能が高い。
 有声音区間では、LPC分析の場合と同様に、U(z)は、入力音声S(z)を声道情報1/A(z)で逆フィルタリングすることにより得ることができる。
 LPC分析の場合と同様に、ARX分析においても、声道情報1/A(z)は、LPC分析におけるシステム関数と同じ形式である。このことから、声道音源分離部101は、LPC分析と同様の方法により、声道情報をPARCOR係数に変換するようにしても良い。
 <開口度算出部102>
 開口度算出部102は、声道音源分離部101により分離された声道情報を用いて、入力音声に含まれる母音系列に対して、母音毎に口腔内の容積に対応する開口度を算出する。例えば「お湯が出ません(/oyugademaseN/)」という入力音声の場合、母音系列(Vn={/o/,/u/,/a/,/e/,/a/,/e/})に対して、母音毎に開口度を算出する。
 具体的には、開口度算出部102は、声道情報として抽出されたPARCOR係数から式5を用いて、声道断面積関数を算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、kiは、i次のPARCOR係数、Aiは、i番目の声道断面積を表し、AN+1=1とする。
 図3は、ある発声の母音/a/の対数声道断面積関数を示す図である。声門から口唇までの声道を11個の区間(セクション)に分割しており(N=10)、横軸がセクション番号を示し、縦軸が対数声道断面積を示す。また、セクション11が声門を表し、セクション1が口唇を表す。
 この図において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション1からセクションTまでを口腔内と考えると(図3ではT=5)、開口度Cは式6により定義することができる。ここでTは、LPC分析あるいはARX分析の次数に応じて変更することが望ましい。例えば10次のLPC分析の場合、3乃至5程度が望ましい。ただし、具体的な次数については限定するものではない。
Figure JPOXMLDOC01-appb-M000006
 開口度算出部102は、式6で定義される開口度Cを入力音声に含まれる各母音に対して算出する。または、式7に示すように対数断面積和により算出するようにしてもよい。
Figure JPOXMLDOC01-appb-M000007
 図4に、「めまいがします(/memaigashimasxu/)」という発声において、式6に従って算出された開口度の時間的な変化を示す。
 このように開口度は、時間的に変動しており、この時間変化パターンを崩すと、自然性が劣化する。
 このように声道断面積関数を用いて算出される開口度(口腔内の容積)を用いることにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状(例えば舌の位置)も考慮することができる。
 <目標母音DB記憶部103>
 目標母音DB記憶部103は、声質変換する際に目標となる声質の母音情報を記憶している記憶装置である。母音情報は予め準備され、目標母音DB記憶部103に記憶されているものとする。目標母音DB記憶部103に記憶されている母音情報の構築例について、図5のフローチャートを用いて説明する。
 ステップS101では、目標となる声質を持つ話者に文章を発話してもらい文セットが収録される。文章数は限定するものではないが、数文から数十文規模の音声が収録される。1種類の母音に対して少なくとも2個以上の発声が得られるように音声が収録される。
 ステップS102では、収録した文セットの音声に対して声道音源分離が行われる。具体的には、声道音源分離部101を用いて発話された文セットの音声の声道情報が分離される。
 ステップS103では、ステップS102において分離された声道情報から、母音に相当する区間が抽出される。抽出方法は特に限定しない。人により母音区間を抽出しても良いし、自動ラベリング手法を用いて、母音区間を自動抽出しても良い。
 ステップS104では、ステップS103において抽出された各母音区間に対して、開口度が算出される。具体的には、開口度算出部102を用いて開口度を算出する。開口度算出部102は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。
 ステップS105では、ステップS104において算出された母音の開口度と、声質変換を行なう際に用いられる情報とが母音毎に母音情報として目標母音DB記憶部103に登録される。具体的には、図6に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるPARCOR係数、開口度、母音の音韻環境(例えば前後音素情報、前後音節情報、又は前後音素の調音点など)、母音区間における音源情報(スペクトル傾斜又は声門開放度など)、及び韻律情報(基本周波数、パワーなど)を含む。
 <開口度一致度算出部104>
 開口度一致度算出部104は、開口度算出部102により算出された入力音声に含まれる各母音の開口度(C)と、目標母音DB記憶部103に記憶されている入力音声に含まれる母音と同じ母音種類の母音情報とを比較して、開口度の一致度を算出する。
 本実施の形態において、開口度一致度Sijは、以下のいずれかの算出方法により算出することができる。なお、開口度一致度Sijは、2つの開口度が一致するほど小さい値を示し、一致しないほど大きな値を示す。なお、開口度一致度の値が大きいほど、開口度が一致しているように、開口度一致度を設定することもできる。
 (第1の算出方法)
 開口度一致度算出部104は、式8に示すように開口度算出部102により算出された開口度Ciと、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類の母音情報の開口度Cjとの差分により開口度一致度Sijを算出する。
Figure JPOXMLDOC01-appb-M000008
 (第2の算出方法)
 開口度一致度算出部104は、式9に示すように、話者正規化開口度Ci Sと話者正規化開口度Cj Sとの差分により開口度一致度Sijを算出する。ここで、話者正規化開口度Ci Sは、開口度算出部102により算出された開口度Ciを、話者毎に入力音声の開口度の平均値および標準偏差により正規化した開口度である。また、話者正規化開口度Cj Sは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の開口度の平均値と標準偏差により正規化した開口度である。
 第2の算出方法によると、話者毎に正規化した開口度を用いて開口度一致度を算出している。このため、発声様態の異なる話者(例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者)を区別した上で開口度一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
Figure JPOXMLDOC01-appb-M000009
 正規化した開口度(Ci S)は、例えば、式10により算出することができる。
Figure JPOXMLDOC01-appb-M000010
 ただし、μSは対象話者の開口度の平均値、σSは標準偏差を示す。
 (第3の算出方法)
 開口度一致度算出部104は、式11に示すように音韻正規化開口度Ci Pと、音韻正規化開口度Cj Pとの差分により開口度一致度Sijを算出する。ここで、音韻正規化開口度Ci Pは、開口度算出部102により算出された開口度Ciを入力音声の当該母音の開口度の平均値および標準偏差により正規化した開口度である。また、音韻正規化開口度Cj Pは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の当該母音の開口度の平均値と標準偏差により正規化した開口度である。
Figure JPOXMLDOC01-appb-M000011
 音韻正規化開口度Ci Pは、例えば、式12により算出することができる。
Figure JPOXMLDOC01-appb-M000012
 ただし、μPは対象話者の対象母音の開口度の平均値、σPは標準偏差を示す。
 第3の算出方法によると、母音の種類毎に正規化した開口度を用いて開口度一致度を算出している。このため、母音の種類を区別した上で開口度一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 (第4の算出方法)
 開口度一致度算出部104は、式13に示すように開口度差分値Ci Dと、開口度差分値Cj Dとの差分により開口度一致度Sijを算出する。ここで、開口度差分値Ci Dは、開口度算出部102により算出された開口度Ciと入力音声の開口度Ciに対応する母音に先行する母音の開口度との差分を示す開口度である。また、開口度差分値Cj Dは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjと、当該母音の先行母音の開口度との差分を示す開口度である。なお、第4の算出方法により開口度一致度を算出する場合には、図6に示す目標母音DB記憶部103の各母音情報に、開口度差分値Cj D、又は先行母音の開口度が含まれていることとする。
Figure JPOXMLDOC01-appb-M000013
 開口度差分値Ci Dは、例えば、式14により算出することができる。
Figure JPOXMLDOC01-appb-M000014
 ただし、Ci-1は、Ciの一つ前の母音の開口度を示す。
 第4の算出方法によると、開口度の変化に基づいて開口度一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 <目標母音選択部105>
 目標母音選択部105は、開口度一致度算出部104により算出された一致度に基づいて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
 具体的には、目標母音選択部105は、入力音声に含まれる母音系列に対して、開口度一致度算出部104が算出した開口度一致度が最小になる母音情報を目標母音DB記憶部103から選択する。つまり、目標母音選択部105は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音DB記憶部103に記憶されている母音情報の中から選択する。
 <母音変形部106>
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音の声道情報を、目標母音選択部105により選択された母音情報が持つ声道情報へ変形(変換)する。
 詳細な変換方法を以下に説明する。
 母音変形部106は、入力音声に含まれる母音系列の各母音に対して、母音区間のPARCOR係数で表現された声道情報の各次元の系列を、式15に示す多項式により近似する。例えば10次のPARCOR係数は、それぞれの次数において、式15に示す多項式により近似される。これにより、10種類の多項式を得ることができる。多項式の次数は特に限定するものではなく、適当な次数を設定することができる。
Figure JPOXMLDOC01-appb-M000015
 ここで、
Figure JPOXMLDOC01-appb-M000016
は、多項式により近似されたPARCOR係数、aiは多項式の係数、xは時刻を示す。
 このとき、多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅を近似の単位とするようにしても良い。なお、以下の説明では、音素区間を単位として説明を行う。
 多項式の次数としては、例えば、5次が想定されるが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素単位時間毎の回帰直線により近似するようにしても良い。
 同様に、母音変形部106は、目標母音選択部105により選択された母音情報においてPARCOR係数で表現された声道情報を、式16に示す多項式により近似し、多項式の係数biを取得する。
Figure JPOXMLDOC01-appb-M000017
 ここで、
Figure JPOXMLDOC01-appb-M000018
は、多項式により近似されたPARCOR係数、biは多項式の係数、xは時刻を示す。
 次に、母音変形部106は、入力音声に含まれる母音のPARCOR係数の多項式の係数(ai)と、目標母音選択部105で選択された母音情報のPARCOR係数の多項式の係数(bi)と、変換比率(r)とを用いて、変形後のPARCOR係数の多項式の係数ciを式17により求める。
Figure JPOXMLDOC01-appb-M000019
 通常、変換比率rは、-1≦r≦1 の範囲で指定される。
 しかし、変換比率rがその範囲を超える場合においても、式17により係数を変換することは可能である。rが1を超える場合は、被変換声道情報(ai)と目標母音声道情報(bi)との差分をさらに強調するような変換になる。一方、変換比率rが負の値の場合は、被変換声道情報(ai)と目標母音声道情報(bi)との差分を逆方向にさらに強調するような変換になる。
 母音変形部106は、算出した変換後の多項式の係数ciを用いて、変形後の声道情報を式18で求める。
Figure JPOXMLDOC01-appb-M000020
 以上の変換をPARCOR係数の各次元において計算することにより、目標母音選択部105により選択された母音情報のPARCOR係数へ、指定された変換比率での変換が可能になる。
 実際に、母音/a/に対して、上記の変換を行った例を図7に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、0から1までの値をとる時刻のことである。これは、被変換音声の母音継続時間と、目標母音選択部105により選択された母音情報(以下、「目標母音情報」と言う。)の継続時間とが異なる場合において、時間軸をそろえるための処理である。図7の(a)は男性話者の/a/の発声の係数の推移を示している。同様に(b)は女性話者の/a/の発声の係数の推移を示している。(c)は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率0.5で変換した際の係数の推移を示している。図7から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
 音素境界でPARCOR係数の値が不連続になるのを防止するために、母音変形部106は、音素境界において適当な過渡区間を設けて補間処理を行う。補間の方法は特に限定するものではないが例えば線形補間によりPARCOR係数の不連続を解消してもよい。
 図8に変換した母音区間の時間的な中心における声道断面積を示す。図8は、図7に示したPARCOR係数の時間的な中心点におけるPARCOR係数を式5により声道断面積に変換した後の、声道断面積のグラフである。
 図8(a)は変換元の男性話者の声道断面積を示すグラフであり、図8(b)は目標話者の女性の声道断面積を示すグラフであり、図8(c)は変換比率0.5で変換したときの声道断面積を示すグラフである。この図からも、図8(c)は変換元と変換先の間の中間の声道形状を表していることがわかる。
 <音源生成部107>
 音源生成部107は、声道音源分離部101により分離された音源情報を用いて声質変換後の合成音の音源情報を生成する。
 具体的には、音源生成部107は、入力音声の基本周波数又はパワーを変更することにより、目標となる声質の音源情報を生成する。基本周波数又はパワーの変更方法は特に限定するものではないが、音源生成部107は、例えば、目標母音情報に含まれる平均基本周波数および平均パワーが一致するように入力音声の音源情報の基本周波数およびパワーを変更する。具体的には平均基本周波数を変換する場合には、PSOLA法(pitch synchronous overlap add)(非特許文献2:「Diphone Synthesis using an Overlap-Add technique for Speech Waveforms Concatenation」Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing. 1997, pp.2015-2018)を用いることにより音源情報の基本周波数を変更することができる。また、PSOLA法により基本周波数を変更する際にピッチ波形毎にパワーを調整することで、入力音声のパワーを変換することができる。
 <合成部108>
 合成部108は、母音変形部106により変換された声道情報と、音源生成部107により生成された音源情報を用いて、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてPARCOR係数を用いている場合は、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に合成してもよいし、フォルマントを抽出し、フォルマント合成により合成してもよい。さらにはPARCOR係数からLSP係数を算出しLSP合成により合成するようにしてもよい。
 (フローチャート)
 本実施の形態に係る声質変換装置の具体的な動作に関して図9に示すフローチャートを用いて説明する。
 声道音源分離部101は、入力音声を声道情報と音源情報とに分離する(ステップS101)。開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する(ステップS002)。
 開口度一致度算出部104は、ステップS002で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音DB記憶部103に記憶されている目標母音候補(母音種類が入力音声に含まれる母音と一致する母音情報)の開口度との開口度一致度を算出する(ステップS003)。
 目標母音選択部105は、ステップS003において算出された開口度一致度に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する(ステップS004)。つまり、目標母音選択部105は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音DB記憶部103に記憶されている母音情報の中から選択する。
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップS004で選択された目標母音の母音情報を用いて、声道情報を変形する(ステップS005)。
 音源生成部107は、ステップS001において分離された入力音声の音源情報を用いて、音源波形を生成する(ステップS006)。
 合成部108は、ステップS005において変形された声道情報と、ステップS006において生成された音源波形を用いて、音声を合成する(ステップS007)。
 (効果)
 かかる構成によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 例えば、図20(a)に示すような入力音声に含まれる各母音の発声様態(明瞭度)の変化パターン(はっきり又は怠けの時間パターン)と、声質変換後の音声の発声様態の変化パターンとが、同じになる。このため、音声の発声様態の不自然さに起因する音質の劣化が生じない。
 また、目標母音の選択基準として、入力音声に含まれる母音系列における口腔内の容積(開口度)を用いているため、入力音声の言語的、生理的な諸条件を直接考慮した場合と比較すると、目標母音DB記憶部103に記憶される母音情報のサイズを小さくできるという効果も有する。
 なお、本実施の形態では、日本語の音声について説明を行なったが、本発明の適用範囲は日本語に限るものではなく、英語をはじめ他の言語においても同様に声質変換を行なうことができる。
 例えば、“Can I make a phone call from this plane?”と発声した場合において、文末のplaneの/e/と、“May I have a thermometer?”の文頭のMayの/e/との発声様態は異なる。また、日本語と同様に文内位置、内容語若しくは機能語の種別、又は強調の有無などによりその発声様態は変化することから、音韻環境のみから目標母音の母音情報を選択すると、日本語と同様に発声様態の時間的変化パターンが崩れる。このことに起因し、声質変換音声の自然性は劣化する。したがって、英語においても開口度を基準に目標母音の母音情報を選択することにより、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換ができる。
 (変形例1)
 図10は、本発明の実施の形態の声質変換装置の変形例の機能的な構成を示すブロック図である。図10において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
 本変形例では、目標母音選択部105が目標母音DB記憶部103から目標母音の母音情報を選択する際に、開口度一致度算出部104により算出される開口度一致度だけではなく、入力音声に含まれる母音の音韻環境と、目標母音DB記憶部103に含まれる各母音の音韻環境の距離に基づいて目標母音の母音情報を選択することが異なる。
 本変形例に係る声質変換装置は、図2に示した声質変換装置の構成に加えて、さらに、音韻環境距離算出部109を備えている。
 <音韻環境距離算出部109>
 図10において、音韻環境距離算出部109は、互いに母音種類が一致する、入力音声に含まれる母音の音韻環境と、目標母音DB記憶部103に含まれる母音情報の音韻環境の距離を算出する。
 具体的には、前後音素種類の一致性を調べることにより距離を算出する。
 例えば、音韻環境距離算出部109は、先行音素種類が一致しない場合にはペナルティdを距離に加算する。同様に後続音素種類が一致しない場合はペナルティdを距離に加算する。ペナルティdは、同じ値でなくとも良く、例えば先行音素の一致度を優先するようにしても良い。
 あるいは、先行音素が一致しない場合においても、音素の類似度によりペナルティの大きさを変更するようにしても良い。例えば、音素カテゴリ(破裂音、摩擦音など)が同一の場合はペナルティを小さくするようにしても良い。また、調音位置(歯茎音、口蓋音など)が同一の場合はペナルティを小さくするようにしても良い。
 <目標母音選択部105>
 目標母音選択部105は、開口度一致度算出部104により算出された一致度と、音韻環境距離算出部109により算出された音韻環境の距離とを用いて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
 具体的には、目標母音選択部105は、式19に示すように入力音声に含まれる母音系列に対して、開口度一致度算出部104が算出した開口度一致度Sijと、音韻環境距離算出部109が算出した音韻環境の距離Dijとの重み付け和が最小になる母音(j)の母音情報を目標母音DB記憶部103から選択する。
Figure JPOXMLDOC01-appb-M000021
 重みwの設定方法は特に限定するものではなく、事前に適宜決定する。なお、目標母音DB記憶部103のデータサイズに応じて、重みを変化させるようにしても良い。具体的には、目標母音DB記憶部103に記憶される母音情報の数が大きいほど、音韻環境距離算出部109により算出される音韻環境の距離の重みを大きくするようにしてもよい。このような重み付けを行うのは、母音情報の数が多い場合には、音韻環境が一致している母音情報の中から、開口度が一致するものを選ぶほうが、より自然な声質変換を行うことができるからである。一方、母音情報の数が少ない場合には、入力音声の音韻環境に一致する音韻環境の母音情報が得られない場合がある。このような場合に、無理に音韻環境が類似する母音情報を選択しても、より自然な声質変換を行うことができる母音情報が得られない場合があるため、開口度が一致する母音情報を優先して選択したほうが、より自然な声質変換を行うことができる。
 (フローチャート)
 本変形例に係る声質変換装置の具体的な動作に関して図11に示すフローチャートを用いて説明する。
 声道音源分離部101は、入力音声を声道情報と音源情報に分離する(ステップS101)。開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する(ステップS102)。
 開口度一致度算出部104は、ステップS002で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音DB記憶部103に記憶されている目標母音候補の開口度との開口度一致度を算出する(ステップS103)。
 音韻環境距離算出部109は、入力音声に含まれる母音系列の各母音の音韻環境と、目標母音DB記憶部103に記憶されている目標母音候補との音韻環境の距離を算出する(ステップS104)。
 目標母音選択部105は、ステップS103において算出された開口度一致度と、ステップS104において算出された音韻環境の距離に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する(ステップS105)。
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップS105で選択された目標母音の母音情報を用いて、声道情報を変形する(ステップS106)。
 音源生成部107は、ステップS101において分離された入力音声の音源情報を用いて、音源波形を生成する(ステップS107)。
 合成部108は、ステップS106において変形された声道情報と、ステップS107において生成された音源波形を用いて、音声を合成する(ステップS108)。
 以上の処理により、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性(流暢さ)を劣化させない高音質の声質変換が可能となる。
 また、この構成によれば少量の目標音声データを用いても発声様態の時間変化パターンを損なわない声質変換が可能であるため、あらゆる利用形態において有用性の高いものとなる。例えば、複数の音声メッセージが蓄積された情報機器の出力を、ユーザが少量の発声を行うことによって自分の声質に変換することが可能になる。
 また、目標母音選択部105により目標母音の母音情報を選択する際に、目標母音DB記憶部103のデータサイズに応じて、重みを調整している(目標母音DB記憶部103に記憶される母音情報数が大きいほど、音韻環境距離算出部109により算出される音韻環境の距離の重みを大きくする)。これにより、目標母音DB記憶部103のデータサイズが小さい場合には、開口度一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 一方、目標母音DB記憶部103のデータサイズが大きい場合には、音韻環境距離と開口度一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 (変形例2)
 図12は、本発明の実施の形態の変形例に係る声質変換システムの機能的な構成を示すブロック図である。図12において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
 声質変換システムは、声質変換装置1701と、母音情報作成装置1702とを含む。声質変換装置1701と母音情報作成装置1702とは有線又は無線により直接接続されていても良いし、インターネット又はLAN(Local Area Network)などのネットワークを介して接続されていても良い。
 声質変換装置1701は、図2に示した実施の形態1に係る声質変換装置と同様の構成を有する。
 母音情報作成装置1702は、目標話者音声収録部110と、声道音源分離部101bと、母音区間抽出部111と、開口度算出部102bと、目標母音DB作成部112とを備える。なお、母音情報作成装置1702において、必須の構成要素は、声道音源分離部101bと、開口度算出部102bと、目標母音DB作成部112とである。
 目標話者音声収録部110は、目標話者の音声を数文から数十文規模で収録する。母音区間抽出部111は、収録された音声から母音区間を抽出する。目標母音DB作成部112は、目標話者音声収録部110により収録された目標話者の音声を用いて、母音情報を生成し目標母音DB記憶部103に書き込む。
 声道音源分離部101b及び開口度算出部102bは、図2に示した声道音源分離部101及び開口度算出部102とそれぞれ同様の構成を有する。このため、その詳細な説明はここでは繰り返さない。
 目標母音DB記憶部103に記憶される母音情報の作成方法を図5のフローチャートを用いて説明する。
 目標となる声質を持つ話者に文章を発話してもらい、目標話者音声収録部110は、発話した音声からなる文セットを収録する(ステップS101)。文章数は限定するものではないが、数文から数十文規模の音声を収録する。目標話者音声収録部110は、1種類の母音に対して少なくとも2個以上の発声が得られるように音声を収録する。
 声道音源分離部101bは、収録した文セットの音声に対して声道音源分離を行なう(ステップS102)。
 母音区間抽出部111は、ステップS102において分離された声道情報から、母音に相当する区間を抽出する(ステップS103)。抽出方法は特に限定しない。例えば、自動ラベリング手法を用いて、母音区間を自動抽出しても構わない。
 開口度算出部102bは、ステップS103において抽出された各母音区間に対して、開口度を算出する(ステップS104)。開口度は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。
 目標母音DB作成部112は、ステップS104により算出した各母音の開口度と、声質変換を行なう際に用いられる各情報を母音毎に母音情報として目標母音DB記憶部103に登録する(ステップS105)。具体的には、図6に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるPARCOR係数、開口度、母音の音韻環境(例えば前後音素情報、前後音節情報、又は前後音素の調音点など)、母音区間における音源情報(スペクトル傾斜又は声門開放度など)、及び韻律情報(基本周波数、パワーなど)を含む。
 以上の処理により、母音情報作成装置において、目標話者の音声を収録し、目標母音DB記憶部103に記憶される母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 以上のように作成した目標母音DB記憶部103を用いることで、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性(流暢さ)を劣化させない高音質の声質変換が可能となる。
 なお、声質変換装置1701と母音情報作成装置1702とが同一装置内にあってもよい。この場合には、声道音源分離部101bは、声道音源分離部101を用いるように設計しても良い。同様に開口度算出部102bは、開口度算出部102を用いるように設計しても良い。
 なお、本発明を実施するための最小構成要素は以下となる。
 図13は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。図13において、声質変換装置は、声道音源分離部101と、開口度算出部102と、目標母音DB記憶部103と、開口度一致度算出部104と、目標母音選択部105と、母音変形部106と、合成部108とを含む。つまり、図2に示した声質変換装置の構成において、音源生成部107を備えない構成となっている。図13に示す声質変換装置の合成部108は、音源生成部107で生成された音源情報を用いて音声を合成するのではなく、声道音源分離部101で分離された音源情報を用いて音声を合成する。つまり、音声合成に用いられる音源情報は、本発明においては特に限定されるものではない。
 また、図14は、目標母音DB記憶部103に記憶されている母音情報の最小構成を示す図である。つまり、母音情報は、母音種類と、声道情報(PARCOR係数)と、開口度とを含む。この母音情報があれば、開口度に基づいて声道情報の選択を行うことができ、声道情報の変形を行うことができる。
 母音の声道情報が開口度に基づき適切に選択されていれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 なお、目標母音DB記憶部103は、声質変換装置の外部に備えられていても良く、その場合には、声質変換装置の必須の構成要素とはならない。
 以上、本発明の実施の形態に係る声質変換装置及び声質変換システムについて説明したが、本発明は、この実施の形態に限定されるものではない。
 例えば、上述の実施の形態及び変形例で説明した各装置は、コンピュータにより実現することが可能である。
 図15は、声質変換装置20の外観図である。声質変換装置20は、コンピュータ34と、コンピュータ34に指示を与えるためのキーボード36およびマウス38と、コンピュータ34の演算結果等の情報を提示するためのディスプレイ32と、コンピュータ34で実行されるプログラムを読み取るためのCD-ROM(Compact Disc-Read Only Memory)装置40および通信モデム(図示せず)とを含む。
 声質変換をするためのプログラムは、コンピュータで読取可能な媒体であるCD-ROM42に記憶され、CD-ROM装置40で読み取られる。または、コンピュータネットワーク26を通じて通信モデムで読み取られる。
 図16は、声質変換装置20のハードウェア構成を示すブロック図である。コンピュータ34は、CPU(Central Processing Unit)44と、ROM(Read Only Memory)46と、RAM(Random Access Memory)48と、ハードディスク50と、通信モデム52と、バス54とを含む。
 CPU44は、CD-ROM装置40または通信モデム52を介して読み取られたプログラムを実行する。ROM46は、コンピュータ34の動作に必要なプログラム又はデータを記憶する。RAM48は、プログラム実行時のパラメータなどのデータを記憶する。ハードディスク50は、プログラム又はデータなどを記憶する。通信モデム52は、コンピュータネットワーク26を介して他のコンピュータとの通信を行なう。バス54は、CPU44、ROM46、RAM48、ハードディスク50、通信モデム52、ディスプレイ32、キーボード36、マウス38およびCD-ROM装置40を相互に接続する。
 なお、母音情報作成装置も同様にコンピュータにより実現することが可能である。
 また、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
 また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
 さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な不揮発性の記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの不揮発性の記録媒体に記録されている上記デジタル信号であるとしても良い。
 また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
 また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
 また、上記プログラムまたは上記デジタル信号を上記不揮発性の記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
 さらに、上記実施の形態及び上記変形例をそれぞれ組み合わせるとしても良い。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 本発明に係る声質変換装置は、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換する機能を有し、多様な声質を必要とする情報機器若しくは家電機器のユーザインタフェース、又は自分用の声質に変換した着信音などのエンターテイメント等の用途において有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。
101、101b 声道音源分離部
102、102b 開口度算出部
103 目標母音DB記憶部
104 開口度一致度算出部
105 目標母音選択部
106 母音変形部
107 音源生成部
108 合成部
109 音韻環境距離算出部
110 目標話者音声収録部
111 母音区間抽出部
112 目標母音DB作成部
1701 声質変換装置
1702 母音情報作成装置

Claims (16)

  1.  入力音声の声質を変換する声質変換装置であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部と、
     互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
     前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、
     前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
     前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
     を備える声質変換装置。
  2.  前記目標母音選択部は、前記開口度一致度算出部が算出した一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項1に記載の声質変換装置。
  3.  前記母音情報は、さらに、母音の音韻環境を含み、
     前記声質変換装置は、さらに、互いに母音種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部を備え、
     前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項1記載の声質変換装置。
  4.  前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離とに基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項3記載の声質変換装置。
  5.  前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、算出した前記声道断面積関数で示される声道断面積の和として、前記開口度を算出する
     請求項1に記載の声質変換装置。
  6.  前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、声道を複数の区間に分割した場合に、算出した前記声道断面積関数で示される各区間の声道断面積の和として、前記開口度を算出する
     請求項5記載の声質変換装置。
  7.  前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
     請求項1に記載の声質変換装置。
  8.  前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
     請求項1に記載の声質変換装置。
  9.  前記開口度一致度算出部は、前記一致度として、互いに母音種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出する
     請求項1に記載の声質変換装置。
  10.  前記母音変形部は、前記入力音声に含まれる母音の声道情報を、前記目標母音選択部が選択した母音情報に含まれる声道情報に、所定の変換比率で変形する
     請求項1に記載の声質変換装置。
  11.  入力音声の声質を変換する声質変換装置であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む複数の母音情報を参照し、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
     前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベースに記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、
     前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
     前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
     を備える声質変換装置。
  12.  入力音声の声質変換に用いられる目標話者の母音情報を作成する母音情報作成装置であって、
     目標話者の音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記目標話者の音声の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     前記目標話者に関する、母音種類と前記開口度算出部が算出した前記開口度の情報と前記声道音源分離部が分離した前記声道情報とを含む母音情報を作成する目標母音情報作成部と
     を備える母音情報作成装置。
  13.  請求項1に記載の声質変換装置と、
     請求項12記載の母音情報作成装置と
     を備える声質変換システム。
  14.  入力音声の声質を変換する声質変換方法であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
     前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出ステップと、
     互いに母音種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
     前記開口度一致度算出ステップにおいて算出された一致度に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
     前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
     前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
     を含む声質変換方法。
  15.  目標母音選択ステップでは、前記開口度一致度算出ステップで算出された一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項14に記載の声質変換装置。
  16.  入力音声の声質を変換するためのコンピュータ実行可能なプログラムであって、
     前記コンピュータは、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部を備え、
     入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
     前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出ステップと、
     互いに母音種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
     前記開口度一致度算出ステップにおいて算出された一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択ステップと、
     前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
     前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
     をコンピュータに実行させるためのプログラム。
PCT/JP2011/001541 2010-06-04 2011-03-16 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム WO2011151956A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011800026487A CN102473416A (zh) 2010-06-04 2011-03-16 音质变换装置及其方法、元音信息制作装置及音质变换系统
JP2012502798A JP5039865B2 (ja) 2010-06-04 2011-03-16 声質変換装置及びその方法
US13/334,119 US20120095767A1 (en) 2010-06-04 2011-12-22 Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-129466 2010-06-04
JP2010129466 2010-06-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/334,119 Continuation US20120095767A1 (en) 2010-06-04 2011-12-22 Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system

Publications (1)

Publication Number Publication Date
WO2011151956A1 true WO2011151956A1 (ja) 2011-12-08

Family

ID=45066350

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/001541 WO2011151956A1 (ja) 2010-06-04 2011-03-16 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム

Country Status (4)

Country Link
US (1) US20120095767A1 (ja)
JP (1) JP5039865B2 (ja)
CN (1) CN102473416A (ja)
WO (1) WO2011151956A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
JP6428256B2 (ja) * 2014-12-25 2018-11-28 ヤマハ株式会社 音声処理装置
US10706867B1 (en) * 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
US10861476B2 (en) * 2017-05-24 2020-12-08 Modulate, Inc. System and method for building a voice database
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US7392190B1 (en) * 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6862568B2 (en) * 2000-10-19 2005-03-01 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US6990451B2 (en) * 2001-06-01 2006-01-24 Qwest Communications International Inc. Method and apparatus for recording prosody for fully concatenated speech
JP4177751B2 (ja) * 2003-12-25 2008-11-05 株式会社国際電気通信基礎技術研究所 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
KR100706967B1 (ko) * 2005-02-15 2007-04-11 에스케이 텔레콤주식회사 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
JP4644879B2 (ja) * 2005-11-14 2011-03-09 株式会社国際電気通信基礎技術研究所 調音パラメータ補間用データ生成装置及びコンピュータプログラム
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOSHINORI UCHIMURA ET AL.: "Analysis of the vocal tract area function aimed at manipulation of voice quality", IPSJ SIG NOTES, vol. 2008, no. 12, 8 February 2008 (2008-02-08), pages 127 - 132 *

Also Published As

Publication number Publication date
US20120095767A1 (en) 2012-04-19
CN102473416A (zh) 2012-05-23
JP5039865B2 (ja) 2012-10-03
JPWO2011151956A1 (ja) 2013-07-25

Similar Documents

Publication Publication Date Title
JP5039865B2 (ja) 声質変換装置及びその方法
Kain High-resolution voice transformation
JP4246792B2 (ja) 声質変換装置および声質変換方法
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP5148026B1 (ja) 音声合成装置および音声合成方法
Doi et al. Alaryngeal speech enhancement based on one-to-many eigenvoice conversion
US20070213987A1 (en) Codebook-less speech conversion method and system
Aryal et al. Foreign accent conversion through voice morphing.
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Deka et al. Development of assamese text-to-speech system using deep neural network
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP3742206B2 (ja) 音声合成方法及び装置
Bunnell Speech synthesis: Toward a “Voice” for all
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
Hinterleitner et al. Speech synthesis
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation
KR101567566B1 (ko) 개인 음색을 반영한 통계적 음성합성 시스템 및 방법
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
López Methods for speaking style conversion from normal speech to high vocal effort speech
Ramírez López Methods for speaking style conversion from normal speech to high vocal effort speech
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Deng et al. Speech Synthesis

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180002648.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012502798

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11789371

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11789371

Country of ref document: EP

Kind code of ref document: A1