JPWO2008149547A1 - 声質編集装置および声質編集方法 - Google Patents

声質編集装置および声質編集方法 Download PDF

Info

Publication number
JPWO2008149547A1
JPWO2008149547A1 JP2008548905A JP2008548905A JPWO2008149547A1 JP WO2008149547 A1 JPWO2008149547 A1 JP WO2008149547A1 JP 2008548905 A JP2008548905 A JP 2008548905A JP 2008548905 A JP2008548905 A JP 2008548905A JP WO2008149547 A1 JPWO2008149547 A1 JP WO2008149547A1
Authority
JP
Japan
Prior art keywords
voice quality
feature
voice
unit
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008548905A
Other languages
English (en)
Other versions
JP4296231B2 (ja
Inventor
良文 廣瀬
良文 廣瀬
釜井 孝浩
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4296231B2 publication Critical patent/JP4296231B2/ja
Publication of JPWO2008149547A1 publication Critical patent/JPWO2008149547A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

複数の声質特徴を記憶する声質特徴DB(101)と、各声質特徴について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性DB(106)と、声質の音響特徴量毎に重みを設定する重み設定部(103)と、各声質特徴について、当該声質特徴を構成する複数の音響特徴量と重み設定部(103)で設定された重みとに基づいて、当該声質特徴の表示座標を算出する尺度構成部(105)と、各声質特徴について、当該声質特徴に対応する識別子を、算出された表示座標に表示する表示部(107)と、座標の入力を受け付ける位置入力部(108)と、複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と上記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部(110)とを備える。

Description

本発明は音声の声質を編集する装置および方法に関するものである。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音、および女子高生風または関西弁風などの特徴的な韻律・声質をもつ合成音)が一つのコンテンツとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。
ところで、音声を合成する方式としては、大別して次の2つの方式がある。つまり、予め用意した音声素片DB(データベース)から適切な音声素片を選択して接続することにより音声を合成する波形接続型音声合成方法と、音声パラメータを分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法とである。
前述した合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片DBを必要な声質の種類だけ用意し、音声素片DBを切り替えながら素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。
一方、分析合成型音声合成方法は、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。
また、話者適応技術を用いて、声質を変換する方法がある。これは予め用意された別の話者の音声の特徴を、分析された音声パラメータに適用させることにより、声質を変換する方法である。
音声の声質を変更するためには、ユーザにどのような声質に変更したいかを何らかの方法により指定させる必要がある。例えば、声質を指定する方法として、図1に示すような幾つかの感性軸のスライダーを用いてユーザに声質を指定させる方法がある。しかし、音声に関する予備知識が十分ないユーザがこのようなスライダーを調整することで意図した声質を得ることは難しい。なぜならば、ユーザは自分が作成したい声質を感性語により言語化すること自体が難しいからである。例えば、図1の例では、「年齢は30歳くらい、非常に女性的だが、やや暗く、無感情、・・・・」などといったように自分が想定する声質からスライダーの各軸を調整しなければならないが、このような作業は音声の予備知識が十分ないと難しい。また、逆にスライダーの状態からその状態が表す声質を想起することも同様に困難である。
一方で、日常において未知の声質の音声を聞いた場合には、以下のような表現をする方が自然である。つまり、未知の声質の音声を聞いたユーザは、「Xさんのような声だけど、もう少しYさんのような感じ」(ここで、X、Yはユーザが知っている個人を表す)などというように、ユーザが既に知っている具体的な個人名を用いて未知の声質を表現する方が自然である。そこで具体的な個人(ある特徴を持った個人が有する声質)を組み合わせることにより、直感的に声質を指定することが可能であると考えられる。
このように、予めシステムが保持する具体的な個人の声質の組み合わせによりユーザに声質を編集させる場合には、システムが保持する声質を分かりやすく提示する方法が重要になる。そして、編集後の声質の音声特徴を用いて話者適応技術による声質変換を行なうことにより、ユーザが所望する声質を有する合成音声を生成することが可能となる。
ところで、データベースに登録されている音情報をユーザに提示し、選択させる方法として特許文献1がある。特許文献1には、さまざまな効果音の中から、ユーザが所望する効果音を選択させる方法が開示されている。特許文献1に記載の方法では、保有する効果音を音響特徴量と感性情報とに基づいて音響空間上に配置し、効果音の音響特徴に対応したアイコンを提示する。
図2は、特許文献1に記載の音響ブラウジング装置の構成図である。
音響ブラウジング装置は、音響データ格納部1と、音響空間座標データ生成部2と、音響空間座標データ格納部3と、アイコン画像生成部4と、音響データ表示部5と、音響空間座標入力部6と、立体音響再生処理部7と、音響データ再生部8とを備えている。
音響データ格納部1は、音響データ自体と、当該音響データを画面に表示する際に使用するアイコン画像と、当該音響データについての音響特徴量とを組として格納している。音響空間座標データ生成部2は、音響データ格納部1に格納されている音響特徴量に基づいて、画面に表示すべき音響空間における当該音響データの座標データを生成する。すなわち、音響空間において当該音響データがどの位置に表示されるべきかを算出する。
画面に表示するアイコン画像は、音響特徴量に基づいてアイコン画像生成部4において生成される。具体的には当該効果音のスペクトル分布と感性パラメータとに基づいて、アイコン画像が生成される。
特許文献1では、このように個別の効果音を空間に配置することによって、ユーザが効果音を指定し易いようにしている。しかしながら、効果音が提示される座標は音響空間座標データ生成部2により決定された座標であり、画一的なものである。したがって、必ずしもユーザの感覚に合う音響空間であるとは限らない。
一方、データ表示処理システムにおいて、ユーザの入力に応じて情報の重要度を修正する方法として特許文献2がある。特許文献2に記載のデータ表示処理システムは、当該システムが保有する情報の重要度に応じて、情報の表示サイズを変えて表示するシステムである。データ表示処理システムは、ユーザによる重要度の修正を受付け、修正された情報に基づき重要度を算出する際の重みを修正する。
図3は、特許文献2のデータ表示処理システムの構成図である。図3において、編集処理部11は、表示対象となる意味のあるデータの単位であるデータ要素の集合に関する編集処理を行う処理部である。編集データ記憶部14は、編集対象および表示対象の文書や図解データを記憶する記憶装置である。重み係数記憶部15は、あらかじめ定められたいくつかの基本重要度関数の結合に用いる重み係数を記憶する記憶装置である。重要度計算部16は、表示対象となる各データ要素の重要度を、基本重要度関数を重み係数に基づいて結合した関数により計算する処理部である。重み付け描画処理部17は、計算した各データ要素の重要度に応じて、各データ要素の表示サイズまたは表示可否を決定し、各データ要素の表示レイアウトを行うことにより、表示データを作成する処理部である。表示制御部18は、重み付け描画処理部17が作成した表示データを、表示装置20に表示させる制御を行う。編集処理部11は、重み係数記憶部15が記憶している各基本重要度関数に対応する重み係数を、入力装置19からの入力により変更する重み係数変更手段12を持つ。また、データ表示処理システムは、さらに、機械学習処理部13を備えている。機械学習処理部13は、編集処理部11から通知されたユーザが指示した表示サイズの変更等を伴う操作情報をもとに、重み係数記憶部15が記憶する重み係数を学習によって自動的に変更する処理を行う。重み付け描画処理部17は、各データ要素の重要度に応じて、可視性型重み付け描画処理、2値サイズ型重み付け描画処理もしくは比例サイズ型重み付け描画処理、またはこれらのいくつかを組み合わせた重み付け描画処理を行なう。
特開2001−5477号公報 特開平6−130921号公報
しかしながら、特許文献2の技術を声質編集に利用しようとした場合には、いかにユーザの感性に合った声質空間を構成するかという課題、およびユーザに指定された声質をいかに生成するかという課題がある。
つまり、特許文献2では各データの重要度を調整しているが、音声に対し同様の考え方は適用しづらい。すなわち、データの重要度は単一の指標として個人の価値観によって決定が可能である。しかし、音声の特徴を個人の要望に合わせて編集したい場合は、そのような一つの指標では不足である。
この問題を具体的に説明する。例えば音声に対して一つの指標を決めるとする。その指標として声の高さという軸を選んだとする。この場合、ユーザは声の高さを変えることはできるが、同じ高さに感じる声でも声の質は無数に存在する。このため、一つの指標のみに基づいて声質の編集を行うことは困難である。一方、重要度あるいは好感度などといった総合的な指標を選べば、個々の音声に対して特許文献2のように個人の価値観による数値化は可能である。しかし、同じように重要に感じる声でも声質が異なる例は無数に存在する。
この問題はどのように重要か、なぜ好感度が高く感じるかというところまで掘り下げなければ目的の声質に近付けることができないという本質的なものである。したがって、結局、図1のような複数のパラメータを調整することが必要になってしまい、音声に対する専門的な知識が必要となってしまう。
また、特許文献1の提示方法では、ユーザに提示する声質空間に配置された声を選ぶことまではできる。しかし、ユーザの感覚に合わせて声質空間の構成方法を切り替えただけでは、声質空間内で選ばれた声から少しずらした位置において得られると期待される声質とシステムが生成する声質との間に乖離が生じるという課題がある。これはその感覚尺度で構成された空間を、システムが持つ内部パラメータの空間と対応付けられる手段を持たないためである。
また、特許文献1では、声をアイコン画像により提示しているが、そのアイコン画像は、音響特徴量に基づいて作成される。このため、声質の編集を行うためには、音声に対する専門的な知識が必要になってしまうという課題がある。
本発明は、上述の課題を解決するためになされたものであり、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる声質編集装置を提供することを目的とする。
上記目的を達成するために、本発明のある局面に係る声質編集装置は、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定する重み設定部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを備える。
この構成によると、表示部が表示する識別子は、声質をユーザが想起可能な識別子である。このため、ユーザは表示された識別子を見ることにより、声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができる。また、重み設定部により設定される重みに基づいて声質特徴の表示座標が算出される。このため、声質特徴間の距離に関するユーザの感覚に合致した表示座標に、声質特徴に対応する識別子を表示させることができる。
好ましくは、前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、ユーザは、表示された顔画像などにより、声質を直接想起することができる。
さらに好ましくは、上述の声質編集装置は、さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、表示部により表示される識別子に対応する声質のすべてが、ユーザが知っている声質である。このため、ユーザは表示された識別子を見ることにより、確実に声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができ、声質特徴の編集に要するユーザの負荷を軽減することができる。
さらに好ましくは、上述の声質編集装置は、さらに、ユーザの性別または年齢の入力を受け付ける個人特性入力部と、ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、ユーザは自分の性別または年齢を入力するだけで、自身が知らないであろう声質に対応する識別子の表示を制限させることができる。このため、声質編集に要するユーザの負荷を軽減することができる。
本発明の他の局面に係る声質編集システムは、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、ネットワークを介して相互に接続される第1の端末と、第2の端末と、サーバとを備え、前記第1の端末および前記第2の端末の各々は、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、前記サーバは、前記第1の端末または前記第2の端末から送信される重みを記憶する重み記憶部を有する。
この構成によると、第1の端末および第2の端末は、サーバが管理する重みを共有することができる。このため、第1の端末および第2の端末が同じ声質特徴を保持している場合には、声質特徴の識別子を同じ表示座標に表示させることができる。よって、第1の端末と第2の端末とで同じ作業を行なうことができる。また、重みの設定を端末毎に行なう必要がない。このため、重み設定を端末毎に行なう場合に比べ、重み設定に要する負担を大幅に削減することができる。
なお、本発明は、このような特徴的な手段を備える声質編集装置として実現することができるだけでなく、声質編集装置に含まれる特徴的な手段をステップとする声質編集方法として実現したり、声質編集方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の声質編集装置によれば、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。
また、重み設定部により重みを調節することにより、ユーザが感じる距離感を反映した声質間距離を声質間距離算出部が算出することが可能となる。また、距離感覚を元に尺度構成部が各声質の識別子の表示座標を算出する。このため、表示部はユーザの感覚に合う声質空間を表示することができる。また、この声質空間はユーザの感覚にあった距離空間である。このため、予め定められた距離尺度を用いて声質を表示する場合と比較すると、表示されている声質間に位置する声質を容易に想定することが可能となる。したがって、ユーザは、位置入力部を用いて所望する声質に対応した座標を指定することが容易になる。
さらに、声質混合部で声質を混合する際には、重みを用いた声質空間における近接声質候補を取得し、さらに、その声質空間上での距離に基づいて選択された各声質候補の混合比率を決定することができる。決定された混合比率は、ユーザが想定する声質の混合比率に一致させることが可能となる。また、ユーザが指定した座標に対応する声質を生成する際にも、重み記憶部に保持されているユーザによって重み設定部で設定された重みを使用する。このため、ユーザと共有された声質編集装置における声質空間上の位置に対応した声質を合成することが可能となる。
つまり、重みを媒介として、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを共有することができている。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。
図1は、声質編集インタフェースの一例を示す図である。 図2は、特許文献1に記載の音響ブラウジング装置の構成を示すブロック図である。 図3は、特許文献2に記載のデータ表示装置の構成を示すブロック図である。 図4は、本発明の実施の形態1に係る声質編集装置の外観図である。 図5は、本発明の実施の形態1に係る声質編集装置の構成を示すブロック図である。 図6は、声道断面積関数とPARCOR係数との関係を示す図である。 図7は、声質特徴DBに格納する声質特徴の抽出方法を示す図である。 図8Aは、母音/a/の1次の反射係数による声道情報の一例を示す図である。 図8Bは、母音/a/の2次の反射係数による声道情報の一例を示す図である。 図8Cは、母音/a/の3次の反射係数による声道情報の一例を示す図である。 図8Dは、母音/a/の4次の反射係数による声道情報の一例を示す図である。 図8Eは、母音/a/の5次の反射係数による声道情報の一例を示す図である。 図8Fは、母音/a/の6次の反射係数による声道情報の一例を示す図である。 図8Gは、母音/a/の7次の反射係数による声道情報の一例を示す図である。 図8Hは、母音/a/の8次の反射係数による声道情報の一例を示す図である。 図8Iは、母音/a/の9次の反射係数による声道情報の一例を示す図である。 図8Jは、母音/a/の10次の反射係数による声道情報の一例を示す図である。 図9は、声質特徴DBに格納される声質特徴の一例を示す図である。 図10は、話者属性DBに格納される話者属性の一例を示す図である。 図11は、本発明の実施の形態1における声質編集装置の基本動作を示すフローチャートである。 図12は、声質間距離算出部により算出される距離行列のデータ構造を示す図である。 図13は、尺度構成部により算出された各声質の座標位置の一例を示す図である。 図14は、表示部により表示される話者属性の一例を示す図である。 図15は、声質混合部の具体的な構成を示すブロック図である。 図16は、近接声質選択部により選択される声質を模式的に表す図である。 図17は、重み設定部の具体的な構成を示すブロック図である。 図18は、重み設定方法のフローチャートである。 図19は、重み設定部により設定される重みのデータ構造を示す図である。 図20は、重み設定方法のフローチャートである。 図21は、表示部が表示する複数の声質空間の一例を示す図である。 図22は、重み設定部の具体的な構成を示すブロック図である。 図23は、重み設定方法のフローチャートである。 図24は、声質提示部よる声質の提示について説明するための図である。 図25は、重み設定部の具体的な構成を示すブロック図である。 図26は、主観軸提示部により提示される主観軸の一例を示す図である。 図27は、重み設定方法のフローチャートである。 図28は、声質編集装置により生成された声質特徴を用いて声質変換を行なう声質変換装置の構成を示すブロック図である。 図29Aは、多項式近似された母音の声道形状の一例を示す図である。 図29Bは、多項式近似された母音の声道形状の一例を示す図である。 図29Cは、多項式近似された母音の声道形状の一例を示す図である。 図29Dは、多項式近似された母音の声道形状の一例を示す図である。 図30は、母音変換部による母音区間のPARCOR係数の変換処理について説明するための図である。 図31Aは、変換元の男性話者の声道断面積の様子を示す図である。 図31Bは、目標話者の女性の声道断面積の様子を示す図である。 図31Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積の様子を示す図である。 図32は、子音選択部により子音声道形状を選択する処理を説明するための模式図である。 図33は、本発明の実施の形態1に係る声質編集装置のコンピュータ上での構成を示す図である。 図34は、本発明の実施の形態1の変形例に係る声質編集装置の構成を示すブロック図である。 図35は、ユーザ情報管理DB501が管理する情報のデータ構造の一例を示す図である。 図36は、本発明の実施の形態2に係る声質編集システムの構成を示す図である。 図37は、本発明の実施の形態2に係る声質編集システムが備える端末が行なう処理のフローチャートである。
符号の説明
101 声質特徴DB
102 声質間距離算出部
103 重み設定部
104 入力部
105 尺度構成部
106 話者属性DB
107 表示部
108 位置入力部
109 重み記憶部
110 声質混合部
201 近接声質候補選択部
202 混合比率算出部
203 特徴量混合部
301 母音安定区間抽出部
302 声質特徴算出部
401 重みDB
402 重み選択部
403 代表声質DB
404 声質提示部
405、407 重み算出部
406 主観軸提示部
501 ユーザ情報管理DB
601 母音変換部
602 子音声道情報保持部
603 子音選択部
604 子音変形部
605 音源変形部
606 合成部
701、702 端末
703 サーバ
704 ネットワーク
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図4は、本発明の実施の形態1に係る声質編集装置の外観図である。声質編集装置は、パーソナルコンピュータやEWS(Engineering Workstation)などの一般的なコンピュータを用いて実現される。
図5は、本発明の実施の形態1に係る声質編集装置の構成を示すブロック図である。
声質編集装置は、複数の声質を編集して新たな声質を生成する装置であり、声質特徴DB(データベース)101と、声質間距離算出部102と、重み設定部103と、入力部104と、尺度構成部105と、話者属性DB106と、表示部107と、位置入力部108と、重み記憶部109と、声質混合部110とを備えている。
声質特徴DB101は、声質編集装置が保有する複数の音声の音響的特徴量を保持する記憶装置であり、ハードディスクやメモリ等より構成される。以下、「音声の音響的特徴量」を、適宜「声質」または「声質特徴」という。
声質間距離算出部102は、声質特徴DB101に保有された声質間の距離を算定する処理部である。重み設定部103は、声質間距離算出部102が声質間の距離を算定する際にどの物理パラメータを重視するかを示す重みを設定する処理部である。入力部104は、重み設定部103により重みを決定する際にユーザからの入力を受け付ける入力装置であり、例えば、キーボードやマウス等である。尺度構成部105は、声質間距離算出部102により算定された声質間距離に基づいて、声質特徴DB101に保持されている各声質の空間座標を決定する処理部である。
話者属性DB106は、声質特徴DB101に保持されている各声質に関連付けられた話者属性情報を保持する記憶装置であり、ハードディスクやメモリ等により構成される。表示部107は、声質特徴DB101に保持されている各声質に対して、尺度構成部105により決定された座標に、話者属性DB106に保持されている各声質に対応した話者属性情報を表示する表示装置であり、例えば、LCD(Liquid Crystal Display)等である。位置入力部108は、表示部107により提示された声質空間における位置をユーザから受け付ける入力装置であり、例えば、キーボードやマウス等である。
重み記憶部109は、重み設定部103により設定された重みを記憶する記憶装置であり、例えば、ハードディスクやメモリ等により構成される。声質混合部110は、位置入力部108により入力された声質空間上の座標および重み記憶部109に保持されている重みに基づいて、声質特徴DB101に保持されている声質を混合することにより、ユーザが位置入力部108により入力した声質空間上の座標に対応する声質を生成する処理部である。
声質間距離算出部102、重み設定部103、尺度構成部105および声質混合部110は、コンピュータのCPU(Central Processing Unit)上でプログラムを実行することにより実現される。
次に、声質特徴DB101について詳細に説明する。
声質特徴DB101は、日本語の場合、声質毎に、少なくとも5母音(/aiueo/)における、目標話者の声道形状に由来する声道の情報を保持するものである。なお、他言語の場合、声質特徴DB101は、日本語の場合と同様に、母音の種類ごとに声道形状に由来する声道の情報を保持するようにすればよい。声質特徴DB101は、さらに、後述する音源の情報を保持するように設計しても良い。
声道情報の表現方法としては、例えば声道断面積関数がある。声道断面積関数は、図6(a)に示すような可変円形断面積の音響管で声道を模擬した音響管モデルにおける各音響管の断面積を表すものである。この断面積は、LPC(Linear Predictive Coding)分析に基づくPARCOR(Partial Auto Correlation)係数と一意に対応することが知られており、式1により変換可能である。本実施の形態では、PARCOR係数kiにより声道情報を表現するものとする。以降、声道情報はPARCOR係数を用いて説明するが、声道情報はPARCOR係数に限定されるものではなく、PARCOR係数に等価なLSP(Line Spectrum Pairs)やLPCなどを用いてもよい。また、前記音響管モデルにおける音響管の間の反射係数とPARCOR係数との関係は、符号が反転していることのみである。このため、反射係数そのものを用いても構わない。
Figure 2008149547
ここで、Anは図6(b)に示すように第i区間の音響管の断面積を現し、kiは第i区間と第(i+1)区間の境界のPARCOR係数(反射係数)を表す。
PARCOR係数は、LPC分析により分析された線形予測係数を用いて算出することができる。具体的には、PARCOR係数は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出することが可能である。
なお、LPC分析に基づくPARCOR係数に限られず、ARX分析(非特許文献:「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号(2002年)、pp.386−397、大塚他)に基づいてPARCOR係数を算出しても構わない。
次に、声質特徴DB101に保持する声質特徴(音声の音響的特徴量)の作成法について、例を挙げながら説明する。声質特徴は、例えば、目標話者によって発声された孤立発声母音から構築することができる。
図7は、ある話者により発声された孤立発声母音により声質特徴を抽出する処理部の構成を示す図である。
母音安定区間抽出部301は、入力された孤立発声母音から孤立母音の区間を抽出する。抽出方法は特に限定されるものではない。例えば、パワーが一定以上の区間を安定区間とし、当該安定区間を孤立母音の区間として抽出してもよい。
声質特徴算出部302は、母音安定区間抽出部301により抽出された孤立母音の区間に対して上述のPARCOR係数を算出する。以上の処理を声質編集装置が保有する全ての声質に対して行うことにより、声質特徴DB101が構築される。
なお、声質特徴を抽出する音声データは、孤立発生母音に限定されるものではなく、日本語では少なくとも5母音(/aiueo/)を含む何らかの音声であればよい。例えば、目標話者がその場で自由に発話した音声でもよいし、予め収録された音声でもよい。また歌唱データなどのボーカルトラックの音声を利用してもよい。
その場合、母音区間を抽出するためには、音声データに対して音素認識を行なうことにより、母音の音声データを検出する。次に、母音安定区間抽出部301が母音の音声データより安定した母音区間を抽出する。抽出の方法としては、例えば、音素認識結果の信頼度が高い区間(尤度の高い区間)を安定した母音区間として使用することができる。このように安定した母音区間を抽出することにより、音素認識誤りによる影響を排除することが可能である。
声質特徴算出部302が、抽出された母音の安定区間において声道情報を作成することにより、声質特徴DB101を構築することができる。声質特徴算出部302による声質特徴の算出は、例えば、前述のPARCOR係数を算出することにより行なわれる。
なお、声質特徴DB101に保持される声質特徴の作成方法は、これらに限定されるものではなく、安定した母音区間から声質特徴を抽出するような方法であれば、その他の方法であってもよい。
図8A〜図8Jは、10次の反射係数で表現した母音/a/に対する声道情報の一例を示す図である。
各図に示す各グラフにおいて、縦軸は反射係数を表し、横軸は時間を表す。k1からk10は、反射係数の次数を表す。このように孤立発声され、かつ安定した母音区間の音声データを用いることにより、反射係数による声道情報を時間的に安定したパラメータとして算出することができる。また、反射係数を声質特徴DB101に登録する際には、図8A〜図8Jに示すような反射係数を直接登録しても良いし、母音区間内の平均値あるいは中央値を代表値として登録しても良い。
音源情報としては、例えばRosenberg−Klatt(RK)モデルを用いることもでき、RKモデルを用いる場合には、有声音源振幅(AV)、基本周波数(F0)、およびピッチ周期(基本周波数の逆数)に対する声門が開いている時間の割合(声門開放率)(OQ)などを音源情報として用いることができる。また、音源が持つ非周期成分(AF)を音源情報として用いることもできる。
声質特徴DB101に保持される声質特徴をまとめると図9に示すような情報となる。つまり、声質特徴として声道情報と音源情報とが保持される。声道情報としては、日本語の場合、5つの母音の声道形状に関する情報(例えば、反射係数)が保持される。一方、音源情報としては、基本周波数(F0)、有声音源振幅(AV)、声門開放率(OQ)、音源の非周期成分境界周波数(AF)などが保持される。なお、声質特徴DB101に格納される声質特徴は、これらに限定されるものではなく、声質に関する特徴量であればこれら以外のものであってもよい。
図10は、話者属性DB106に保持される話者属性の一例を示す図である。話者属性DB106に保持される話者属性としては、声質特徴DB101に保持されている声質特徴を直接聞くことなくその声質特徴を理解することが可能な情報、つまり、その情報を見るだけでその情報に関連付けられた声質をユーザが想起可能な情報である。具体例としては、声質特徴DB101に保持されている声質特徴を抽出する際に使用した音声を発話した人物を特定することが可能な話者属性であり、例えば、顔画像、個人名などがある。このように人物を特定することが可能な話者属性を用いることにより、ユーザは、提示された個人を知っていれば、顔画像を見るだけで、その顔画像の人物がどのような声質であるのかを簡単に想起することが可能となる。つまり、このような話者属性を用いることにより、提示した声質に関して、さまざまな評価尺度を用いて、その声質を定義する必要がない。
なお、話者属性は、発話した人物の顔画像、個人名に限られるものではなく、発話した人の声を直接想起できるような話者属性であればそれ以外のものであっても良い。例えば、アニメキャラクタやマスコットの場合は、アフレコでそのアニメキャラクタやマスコットの声を発声している人物の顔画像や名前だけでなく、アニメキャラクタやマスコットの画像や、キャラクタ名などを話者属性として用いても良い。また、例えば、外国映画の俳優などの場合は、吹き替えた話者の属性だけでなく、吹き替えられた俳優の話者属性を用いるようにしても良い。また、発話した人物がナレーターの場合は、ナレーター本人の話者属性だけでなく、ナレーターが出演する番組名や番組ロゴマークを話者属性として用いるようにしても良い。
以上の構成により、ユーザの指定した声質を生成することが可能となる。
次に、声質編集装置の動作について図11のフローチャートを用いて説明する。
重み設定部103は、入力部104からの入力を受け付け、声質間の距離を算出する際の音響パラメータの重みを決定する(ステップS001)。重み設定部103は、決定した重みを重み記憶部109に保存する。具体的な重みの決定方法は後述する。
声質間距離算出部102は、ステップS001において設定された重みを用いて声質特徴DB101に保持された全ての声質間の距離を算出する(ステップS002)。声質間の距離は、具体的には、以下のように定義される。つまり、声質特徴DB101に登録された声質をベクトル表現した場合に、2つのベクトル間の距離(声質間の距離)は、式2に示すような重み付きユークリッド距離として定義することができる。ただし、重みwiは、式3に示す条件を満たす必要がある。距離の算出方法はこれに限られるものではなく、コサイン類似度を用いて距離を算出しても良い。その場合は、コサイン類似度を距離に変換する必要があるが、例えばベクトル間の成す角度を距離として定義しても良い。その場合は、コサイン類似度に対して逆余弦関数により距離を算出することができる。
Figure 2008149547
Figure 2008149547
ここでwlは声質特徴DB101が保持する各パラメータ(声道形状パラメータ、基本周波数等)に対する重要度を表す重みパラメータであり、声質特徴DB101に保持されている声質特徴viは、i番目の声質特徴を表し、vilは、声質特徴viのl番目のパラメータの物理量を表す。
以上のようにして声質特徴DB101に保持された声質間の距離を作成することにより、図12に示すような距離行列を作成することができる。距離行列におけるi行j列の要素dijは、声質特徴viと声質特徴vjとの間の距離を示している。
次に、尺度構成部105は、ステップS002において計算された声質特徴DB101に保持された声質間の距離(距離行列)を用いて、各声質の声質空間上での座標を算出する(ステップS003)。座標を算出する方法は特に限定されるものではないが、例えば多次元尺度構成法(MDS)を用いることにより、2次元あるいは3次元の空間にそれぞれの声質を対応付けることが可能となる。
図13は、多次元尺度構成法を用いて声質特徴DB101に保持された声質特徴を2次元空間に配置した一例を示す図である。
例えば、重み設定部103において、基本周波数(F0)に対応する声質パラメータの重みが大きく設定された場合、ある声質特徴を基準にして、基本周波数(F0)が近い声質特徴は、2次元平面上で近くに配置される。一方、基本周波数(F0)が大きく異なる場合には、2次元平面上で離れた位置に配置される。このように声質特徴を配置することにより、ユーザが重視する声質パラメータが近い声質特徴同士は、声質空間上において近くに配置される。よって、ユーザは、配置された複数の声質特徴の間に位置する声質を容易に想起することができる。
なお、多次元尺度構成法だけではなく、声質特徴DB101に保持されている各物理パラメータに対して主成分分析を行なうことにより主成分を抽出し、寄与度が大きく代表となる主成分のうち、2〜3の主成分により空間を構成し、各声質の座標を算出しても良い。
次に、表示部107は、声質特徴DB101に保持されている各声質に対し、ステップS003において生成された座標位置に、話者属性DB106に保持されている当該声質に対応する話者属性を表示する(ステップS004)。表示される声質空間の例を図14に示す。図14では、話者属性情報として声質を有する話者の顔画像を使用しているが、顔画像に限られず、その声質を想起することが可能な話者属性であればなんでも良い。例えば、話者の名前、キャラクタ画像またはキャラクタ名等であっても良い。
このように話者属性情報を表示することにより、ユーザは表示された話者属性情報を見ることにより、話者の声質を直感的に想起することが可能であると共に、提示されている声質空間を直感的に把握することが可能となる。
また、図14では、表示部107は、1つの表示領域に全ての声質を表示しているが、特定の一部分の声質だけを表示しても良いし、別途ユーザからの入力を受けて、当該入力に従い声質空間を拡大、縮小またはスクロールさせて表示するように設計しても良いことは言うまでもない。
次に、ユーザは、位置入力部108を用いて所望する声質を有する座標位置を入力する(ステップS005)。具体的な入力方法は特に限定されるものではない。例えば、ユーザがマウスを用いて、表示部107に表示された声質空間上の一点を指定するものであってもよいし、キーボードを用いて座標値を入力するものであってもよい。さらに、マウス以外のポインティングデバイスを用いて座標値を入力するものであってもよい。
次に、声質混合部110は、ステップS005において指定された座標に対応する声質を生成する(ステップS006)。具体的な生成方法について図15を用いて説明する。
図15は、声質混合部110の詳細な構成を示す図である。声質混合部110は、近接声質候補選択部201と、混合比率算出部202と、特徴量混合部203とを備えている。
近接声質候補選択部201は、ステップS005において入力された座標位置に近接する声質を選択する。選択時の動作を詳細に説明する。ステップS004において図16に示すような声質空間が表示され、ステップS005において座標位置801が指定されたものとする。近接声質候補選択部201は、声質空間において、座標位置801から予め設定された距離以内の声質を選択する。例えば、図16に示した声質空間では、座標位置801から予め設定された距離の範囲802の内側に位置する声質803、804および805が選択される。
次に、混合比率算出部202は、近接声質候補選択部201により選択された声質に対して混合する比率を算出する。図16の例の場合、混合比率算出部202は、ユーザにより入力された座標位置801と近接声質候補選択部201により選択された声質803、804および805との間の距離をそれぞれ算出する。混合比率算出部202は、算出された距離の逆数に基づいて混合比率を算出する。図16の例の場合は、例えば、座標位置801と声質803、804および805との距離の比率が「1:2:2」であるとすると、混合比率は「2:1:1」となる。
次に、特徴量混合部203は、近接声質候補選択部201により選択された声質を混合比率算出部202により算出された混合比率に基づいて、声質特徴DB101に保持されている音響的特徴量毎に混合する。
例えば、声道形状を示す反射係数を上述の比率で混合することにより、新たな声道形状を作成することができる。この他にも反射係数の各次元を関数により近似し、近似した関数を混合することにより、新たな声道形状を作成するようにしてもよい。例えば、関数としては多項式を用いることができる。この場合、関数の混合は、多項式の係数の重み付き加重平均により混合することができる。
また、音源情報である基本周波数(F0)、有声音源振幅(AV)、声門開放率(OQ)、非周期成分境界周波数(AF)についても、上述の比率で重み付き加重平均を取ることにより新たな音源情報を作成することができる。
図16の例の場合には、特徴量混合部203は、声質803、804および805の声質特徴を「2:1:1」の比率で混合する。
具体的な混合方法は特に限定されるものではないが、例えば、混合比率に基づいて、声質特徴DB101に保持されている声質特徴の各パラメータの加重平均を求めることにより、声質特徴を混合してもよい。
なお、近接声質候補選択部201は、声質空間内のすべての声質を選択するようにしてもよい。この場合に、混合比率算出部202は、すべての声質特徴を対象として混合比率を決定する。
以上の処理により声質混合部110は、ステップS005において指定された座標に対応する声質を生成することが可能となる。
(重み設定方法1)
次に、ステップS001において重み設定部103が行なう具体的な重み設定方法について説明する。重み設定時には重み設定部103以外の処理部も動作する。
図17は、重み設定部103の詳細な構成を示すブロック図である。重み設定部103は、重みDB401と、重み選択部402とを備えている。
重みDB401は、システム設計者が予め設計した複数の重みを保持する記憶装置であり、ハードディスクやメモリ等により構成される。重み選択部402は、入力部104からの指示に基づいて、重みDB401から重みを選択し、重み記憶部109に保存する処理部である。各部の動作について図18に示すフローチャートを用いて説明する。
重み選択部402は、重みDB401に保持されている重みの中から、入力部104を用いてユーザにより選択された重みを1つ選択する(ステップS101)。
声質間距離算出部102は、ステップS101において選択された重みを用いて、声質特徴DB101に保持されている各声質間の距離を算出し、距離行列を作成する(ステップS102)。
尺度構成部105は、ステップS102で作成された距離行列を用いて、声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS103)。
表示部107は、声質特徴DB101に保持された各声質に対して、ステップS103において算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS104)。
ユーザはステップS104において声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する(ステップS105)。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。ユーザは、判断結果を入力部104を用いて入力する。
ユーザが現在表示されている声質空間に満足しなかった場合には(ステップS105でNo)、ステップS101からステップS105までの処理を、ユーザが満足するまで繰り返す。
ユーザが現在表示されている声質空間に満足した場合には(ステップS104でYes)、重み選択部402は、ステップS101で選択された重みを重み記憶部109に登録し、重み設定処理を終了する(ステップS106)。重み記憶部109に保存される重みの一例を図19に示す。図19においてw1、w2、・・・、wnは、声質特徴DB101に格納されている各声質特徴(例えば声道情報である反射係数、基本周波数など)に対する重みパラメータである。
このように、ユーザが満足するまでステップS101からステップS105までの処理を繰り返すことにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。また、この重みに基づいて声質空間を生成することにより、ユーザの感覚に合致した声質空間を構築することが可能となる。
以上説明した重み設定方法では、ユーザが重みを選択した後に、選択した重みに基づいた声質の表示を行っているが、重みDB401に登録されている複数の重みに基づいた声質を表示させた後、ユーザの感覚に最も近い重みを選択させるようにしてもよい。図20は、そのような重みの設定方法のフローチャートである。
声質間距離算出部102は、重みDB401に保持されている複数の重みの各々を用いて、声質特徴DB101に保持されている各音声間の距離を算出し、距離行列を作成する(ステップS111)。
尺度構成部105は、重み毎に、ステップS111において作成された距離行列を用いて、声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS112)。
表示部107は、重み毎に、声質特徴DB101に保持された各声質に対して、ステップS112において算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS113)。図21は、ステップS113における表示の一例を示す図である。同図には、4つの重みの各々について、話者属性情報が表示されている。4つの重みとは、例えば、基本周波数(高い声であるか低い声であるかを示す声質特徴)に対する重みと、声道形状(太い声であるか細い声であるかを示す声質特徴)に対する重みと、非周期成分(かすれた声であるか澄んだ声であるかを示す声質特徴)に対する重みと、声門開放率(かたい声であるかやわらかい声であるかを示す声質特徴)に対する重みとである。図21には、これら4つの重みそれぞれに対する4つの声質空間が表示されており、各声質空間に話者属性情報が表示されている。
ユーザは、ステップS113において4つの声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、最も自分の感覚にあう、声質空間を選択する(ステップS114)。重み選択部402は、選択された声質空間に対応する重みを重みDB401より選択する。重み選択部402は、選択された重みを重み記憶部109に格納する(ステップS106)。
なお、重み記憶部109は、ユーザ毎に重みを記憶できるようにしても良い。ユーザ毎に重みを記憶することにより、別のユーザが声質を編集する際には、そのユーザに対応する重みを重み記憶部109から取得し、声質間距離算出部102および声質混合部110で使用することにより、そのユーザの感覚にあった声質空間を提示することが可能となる。
以上のような重み設定は、予め決められた候補の中から選択的に決定することができるので、ユーザに特別な知識がない場合においても、適切に重みを決定することができる。また、ユーザが重みを決定するのに必要な作業量も少なくできる。
(重み設定方法2)
次に、別の重み設定方法について説明する。
重み設定部103は、次の方法により重みを設定しても良い。図22は、重み設定部103を実現するための構成図である。重み設定部103は、代表声質DB403と、声質提示部404と、重み算出部405とを備えている。
代表声質DB403は、声質特徴DB101に保持される声質特徴データから代表的な声質特徴を予め抽出し、代表声質特徴を保持するデータベースである。したがって、必ずしも新たに記憶部を設けて、代表声質特徴を保持する必要はなく、声質特徴DB101内に代表声質特徴の識別子だけを保持するようにしても良い。声質提示部404は、代表声質DB403に保持された声質特徴をユーザに提示する。提示方法は特に限定しないが、声質特徴DB101を作成する際に使用した音声を再生することにより提示しても良い。これ以外にも代表声質DB403に保持されている代表声質に対応する話者属性を話者属性DB106から選択し、表示部107を用いて提示しても良い。
入力部104は、声質提示部404により提示された代表声質の中から、ユーザが近い声質であると判断する声質の組の入力を受け付ける。具体的な入力方法は特に限定されるものではない。例えば、入力部104としてマウスを想定した場合には、ユーザがマウスを用いて近い声質であると判断する声質特徴を指定することにより、声質の組の入力を受け付けるようにすればよい。また、入力部104はマウスに限られず、他のポインティングデバイスであってもよい。
重み算出部405は、入力部104により指定されたユーザが近いと感じた声質の組に基づいて重みを算出する。
次に、図23に示すフローチャートを用いて、重み設定処理について説明する。
声質提示部404は、代表声質DB403に登録されている声質特徴をユーザに提示する(ステップS201)。例えば、声質提示部404が図24に示すような画面を表示部107に表示するようにしてもよい。図24に示す画面では、5人の話者情報(顔画像)が表示され、その隣に5つの再生ボタン901が表示されている。ユーザは、入力部104を操作して、音声再生したい話者に対応する再生ボタン901を押下する。声質提示部404は、押下された再生ボタン901に対応する話者の音声を再生する。
次に、ユーザは、入力部104を用いて声質が近いと感じる声質特徴の組を入力する(ステップS202)。例えば、図24に示す例では、チェックボックス902にチェックを入れることにより、似ている声質を2つ指定する。
次に、重み算出部405は、ステップS202で入力された声質の組を用いて、重みを決定する(ステップS203)。具体的には、指定された声質の組における式2で算出される声質間距離が式3の制約の下で最小になるように各声質iの重みwiを決定すれば良い。
具体的な重み決定法の一例を以下に示す。本決定法では、さらに式4に示すような制約を設け、式2を最小化する。
Figure 2008149547
具体的には、まず2つの組の各次元における差分の自乗が最小となる要素lminを式5により決定する。
Figure 2008149547
そして、各重みwiを式6によって決定する。
Figure 2008149547
重み算出部405は、ステップS203で設定された重みを重み記憶部109に保存する(ステップS204)。
重みの決定方法は、これに限定されるものではない。例えば、式5により2つの組の各次元における差分の自乗が最小となる要素を1つ決定するのではなく、複数決定しても良い。
また、選択された2つの声質の間の距離が小さくなるように重みを決定すれば、重み決定法は特に限定されるものではない。
なお、入力された音声の組が複数ある場合も同様に、それぞれの組から求められる距離の和が最小になるように重みを設定すればよい。
以上のように重みを設定することにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。同時にこの重みに基づいて声質空間を生成することによりユーザの感覚に即した声質空間を構築することが可能となる。
この重み設定方法は、重み設定方法1と比べて、声質に対するユーザの感覚をより詳細に設定することができる。すなわち、予め決められた重みを選択するのではなく、ユーザが似ていると感じる声質を選択することにより、その声質間の共通する特徴量に対する重みを大きくする。これにより、ユーザが似ていると感じるのに重要な特徴量を抽出することができるからである。
(重み設定方法3)
次に、別の重み設定方法について説明する。
重み設定部103は、次の方法により重みを設定しても良い。図25は、重み設定部103を実現するための構成図である。重み設定部103は、主観軸提示部406と、重み算出部407とを備えている。
主観軸提示部406は、図26に示すようなユーザに「高い声−低い声」などの主観的な主観軸を提示する。入力部104は、主観軸提示部406により提示された各時間軸に対する重要度の入力を受け付ける。例えば、図26に示す例では、入力欄903に数値を入力したり、ダイアル904を操作したりすることにより、「高い声−低い声」の主観軸の重要度は「1」、「かすれた声−澄んだ声」の主観軸の重要度は「3」、「太い声−細い声」の主観軸の重要度は「3」などというように入力することができる。この例では、ユーザは、「かすれた声−澄んだ声」という主観軸が重要であると入力したことになる。重み算出部407は、入力部104により入力された主観軸の重要度に基づいて重みを決定する。
次に、図27のフローチャートを用いて、重み設定処理について説明する。
主観軸提示部406は、声質編集装置が取り扱うことのできる主観軸をユーザに提示する(ステップS301)。提示方法は特に限定されるものではないが、例えば、図26に示すように各主観軸の名前と、その重要度を入力することが可能な入力欄903またはダイアル904とを合わせて提示することにより、主観軸を提示することができる。なお、この提示方法に限定されるものではなく、それぞれの主観軸を表現するようなアイコンで提示しても良い。
ユーザは、ステップS301で提示されたそれぞれの主観軸に対する重要度を入力する(ステップS302)。入力方法は特に限定されるものではなく、図26に示すように入力欄903に数値を入力したり、ダイアル904を回すことにより指定したりしても良いし、ダイアル904の変わりにスライダーを設けてスライダーの位置を調節することにより重要度を入力しても良い。
重み算出部407は、ステップS302において入力された各主観軸の重要度に基づいて、声質間距離算出部102が距離を算出する際に用いる重みを算出する(ステップS303)。
具体的には、主観軸提示部406で提示された主観軸と声質特徴DB101に保存されている物理パラメータとが対応付けられており、主観軸の重要度と物理パラメータの重要度とが対応するように重みを設定する。
例えば、主観軸「高い声−低い声」は、声質特徴DB101に保持されている「基本周波数」に対応する。したがって、主観軸「高い声−低い声」が重要であるとユーザに入力された場合には、物理パラメータ「基本周波数」の重要度が高くなるように重みを設定すればよい。
また、主観軸「かすれた声−澄んだ声」の場合は、物理パラメータ「非周期成分(AF)」に対応する。また、主観軸「太い声−細い声」は、物理パラメータ「声道形状(k)」に対応する。
なお、具体的な重みは、式3に示す重みの和が1という条件の下、各主観軸の重要度の比率に基づいて決定すればよい。
この方法による重み設定方法では、主観軸に基づいて重みを決定することができる。このため、重み設定方法2と比較して、重みを簡単に設定することが可能である。つまり、ユーザが各主観軸を理解することができる場合には、1つ1つの音声を聞くことなく、重視する主観軸を決定するだけでよい。
なお、これらの重み設定方法は、ユーザの持つ音声に対する知識や、重み設定に使用可能な時間に応じて選択的に切り替えるようにしても良い。例えば、音声に対する知識が全くない場合は、重み設定方法1を用いればよい。また、音声に対する知識はあるが、手早く決定したい場合には重み設定方法3を用いればよい。また、音声に対する知識があり、詳細に重みを設定したい場合には重み設定方法2を用いればよい。重み設定方法の選択の方法はこれに限られるものではない。
以上の方法により、ユーザの感覚に合う声質空間を生成するための重みを設定することができる。なお、重みの設定方法は上記方法に限られず、ユーザの感覚情報を入力として、重みを調整するものであれば良い。
次に、本発明の声質編集装置により作成された声質特徴を用いて、実際に声質を変換する方法について説明する。
図28は、本発明に係る声質編集装置により生成された声質特徴を用いて、声質変換を行なう声質変換装置の構成を示す図である。声質変換装置は、一般的なコンピュータを用いて構成することが可能である。
声質変換装置は、母音変換部601と、子音声道情報保持部602と、子音選択部603と、子音変形部604と、音源変形部605と、合成部606とを備えている。
母音変換部601は、音素境界情報付声道情報と、本発明に係る声質編集装置により生成された声質特徴とを入力とし、生成された声質特徴に基づいて、音素境界情報付声道情報に含まれる母音の声道情報を変換する処理部である。音素境界情報付声道情報とは、入力音声の声道情報に音素ラベルが付された情報である。音素ラベルとは、入力音声に対応する音素情報と各音素の時間長の情報とを含む情報である。
子音声道情報保持部602は、予め、入力音声の話者とは別の話者により発声された子音の声道情報を保持する記憶装置であり、ハードディスクやメモリ等より構成される。
子音選択部603は、母音変換部601により母音区間の声道情報が変換された音素境界情報付声道情報に対して、変換後の母音区間の声道情報に適合するような子音の声道情報を子音声道情報保持部602から選択する処理部である。
子音変形部604は、子音選択部603により選択された子音の声道情報を、当該子音の前後に位置する母音の声道情報との接続歪が小さくなるように変形する処理部である。
音源変形部605は、入力音声の音源情報を、本発明の声質編集装置により生成された声質特徴のうち音源に関する情報を用いて変形する処理部である。
合成部606は、子音変形部604により変形された声道情報と、音源変形部605により変形された音源情報とを用いて、音声を合成する処理部である。
母音変換部601、子音声道情報保持部602、子音選択部603、子音変形部604、音源変形部605および合成部606は、コンピュータのCPUでプログラムを実行することにより実現される。
以上の構成により、本発明の声質編集装置より生成された声質特徴を用いて入力された音声の声質を変換することが可能となる。
母音変換部601は、入力された音素境界情報付声道情報の母音区間の声道情報と、本発明の声質編集装置により生成された声道特徴とを入力される変形比率に基づいて混合することにより、音素境界情報付声道情報の母音区間の声道情報を変換する。詳細な変換方法を以下に説明する。
まず、音素境界情報付声道情報は、変換元の音声から前述のPARCOR係数による声道情報を取得すると共に、当該声道情報に音素ラベルを付与することにより生成される。
さらに、入力音声が、テキストから音声を合成するテキスト合成装置により合成された音声の場合、音素ラベルはテキスト合成装置により取得することが可能である。また、合成された音声からPARCOR係数を算出することも容易に可能である。また、声質変換装置をオフラインで使用する場合には、当然ながら予め人手により音素境界情報を声道情報に付与してもよい。
図8A〜図8Jは、10次の反射係数で表現された母音/a/の声道情報の例を示す。同図において縦軸は反射係数を表し、横軸は時間を表す。この図からPARCOR係数は比較的滑らかな時間的な動きであることがわかる。
母音変換部601は、以上のようにして入力された音素境界情報付声道情報に含まれる母音の声道情報を変換する。
まず、母音変換部601は、変換対象の母音に対応する目標の声道情報(目標母音声道情報)を、本発明の声質編集装置により生成された声質特徴より取得する。対象となる目標母音声道情報が複数存在する場合には、変換対象となる母音の音韻環境(例えば前後の音素種類など)の状況に合わせて最適な目標母音声道情報を取得する。
母音変換部601は、入力された変換比率に基づいて、変換対象の母音を目標母音声道情報に変換する。
入力された音素境界情報付声道情報において、変換対象となる母音区間のPARCOR係数で表現された声道情報の各次元での時系列を、式7に示す多項式により近似する。例えば、声道情報が10次のPARCOR係数の場合は、それぞれの次数のPARCOR係数を、式7に示す多項式により近似する。
Figure 2008149547
ただし、
Figure 2008149547
は、近似された入力音声のPARCOR係数を示し、aiは近似されたPARCOR係数の多項式の係数を示す。
これにより、10種類の多項式を得ることができる。多項式の次数は特に限定されるものではなく、適当な次数を設定することができる。
このとき多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅としても良い。なお、以下の説明では、音素区間を単位として説明を行う。
図29A〜図29Dは、PARCOR係数を5次の多項式により近似し、音素単位で時間方向に平滑化した際の1次から4次のPARCOR係数をそれぞれ示す図である。各グラフの縦軸は反射係数を表し、横軸は時間を表す。
本実施の形態では、多項式の次数として5次を例に説明しているが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素単位時間ごとの回帰直線によりPARCOR係数を近似しても良い。
同様に、母音変換部601は、本発明の声質編集装置により生成された声質特徴に含まれるPARCOR係数で表現された目標母音声道情報を、式8に示す多項式により近似し、多項式の係数biを取得する。
Figure 2008149547
次に、母音変換部601は、被変換パラメータ(ai)と、目標母音声道情報(bi)と、変換比率(r)とを用いて、次式9により変換後の声道情報(PARCOR係数)の多項式の係数ciを求める。
Figure 2008149547
母音変換部601は、算出した変換後の多項式の係数ciを用いて、変換後の声道情報
Figure 2008149547
を式10により求める。
Figure 2008149547
母音変換部601は、以上の変換処理を各次元のPARCOR係数について行なう。この処理により、指定された変換比率での、被変換音声の母音声道情報を表すPARCOR係数から、目標音声の母音声道情報を表すPARCOR係数への変換が可能になる。
実際に、母音/a/に対して、上記の変換を行った例を図30に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。図中の(a)は被変換音声を示す男性話者の/a/の発声の係数の推移を示している。同様に(b)は目標音声を示す女性話者の/a/の発声の係数の推移を示している。(c)は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率0.5で変換した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
図31A〜図31Cは、変換した母音区間の時間的な中心における声道断面積を示す図である。この図は、図30に示したPARCOR係数の時間的な中心点におけるPARCOR係数を式1により声道断面積に変換したものである。図31A〜図31Cの各グラフにおいて、横軸は音響管における位置を表しており、縦軸は声道断面積を表している。図31Aは変換元の男性話者の声道断面積であり、図31Bは目標話者の女性の声道断面積であり、図31Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積である。この図からも、図31Cに示す声道断面積は、変換元と変換先の間の中間の声道断面積となっていることがわかる。
声質を目標話者に変換するために母音変換部601で入力された音素境界情報付声道情報に含まれる母音声道情報を目標話者の母音声道情報に変換したが、母音声道情報を変換することにより、子音と母音との接続境界において、声道情報の不連続が生じる。
図32は、VCV(Vは母音、Cは子音を表す)音素列において、母音変換部601が母音の変換を行った後のあるPARCOR係数を模式的に示した図である。
同図において、横軸は時間を表し、縦軸はPARCOR係数を表す。図32(a)は、入力音声の声道情報である。このうち母音部分のPARCOR係数は、図32(b)に示すような目標話者の声道情報を用いて母音変換部601により変形される。その結果、図32(c)に示されるような母音部分の声道情報10aおよび10bが得られる。しかし、子音部分の声道情報10cは、変換されておらず入力音声の声道情報を示している。このため、母音部分の声道情報と子音部分の声道情報との境界で不連続が生じる。したがって子音部分の声道情報についても変換が必要となる。
子音区間の変換方法について以下に説明する。音声の個人性は、母音と子音の継続時間や安定性などを考えた場合、主に母音により表現されていると考えることができる。
そこで、子音に関しては目標話者の声道情報を使用せずに、予め用意された子音の複数の声道情報の中から、母音変換部601により変換された後の母音声道情報に適合する子音の声道情報を選択することにより、変換後の母音との接続境界における不連続を緩和することができる。図32(c)では、子音声道情報保持部602に記憶されている子音の声道情報の中から、前後の母音の声道情報10aおよび10bとの接続性が良い子音の声道情報10dを選択することにより、音素境界における不連続を緩和することができている。
以上を実現するために、予め複数の話者の複数の発声から子音区間を切り出し、各子音区間の声道情報からPARCOR係数を算出することにより、子音声道情報保持部602に記憶される子音声道情報が作成される。
子音選択部603は、母音変換部601により変換された母音声道情報に適合する子音声道情報を子音声道情報保持部602から選択する。子音の選択基準は、子音の種類(音素)、ならびに子音の始端および終端の接続点における声道情報の連続性である。つまり、PARCOR係数の接続点における声道情報の連続性に基づいて、選択される子音を評価することができる。具体的には、子音選択部603は、式11を満たす子音声道情報(Ci)を探索する。
Figure 2008149547
ここで、Ui-1は、前方の音素の声道情報を表し、Ui+1は後続の音素の声道情報を表す。weightは前方の音素と選択対象の子音との連続性と、選択対象の子音と後続の音素の連続性との重みである。重みは、後続音素との接続性を重視するように適宜設定される。後続音素との接続性を重視するのは、子音は、前方の音素よりも後続する母音との結びつきが強いためである。
関数Ccは、2つの音素の声道情報の連続性を示す関数であり、当該関数の値は、例えば、2つの音素の境界におけるPARCOR係数の差の絶対値により表現することができる。また、PARCOR係数は低次の係数ほど重みを大きくするように設計してもよい。
このようにして、子音選択部603は、目標声質への変換後の母音の声道情報に適合する子音の声道情報を、子音声道情報保持部602から選択する。これにより、声道情報の滑らかな接続が可能となり、合成音声の自然性を向上させることができる。
なお、子音選択部603において選択する子音を有声子音だけとし、無声子音は入力された音素境界情報付声道情報に含まれる声道情報を使用するように設計してもよい。なぜならば、無声子音は声帯の振動を伴わない発声であり、音声の生成過程が母音や有声子音の場合とは異なるためである。
子音選択部603は、母音変換部601により変換された後の母音声道情報に適合する子音声道情報を取得することが可能であるが、必ずしも接続点の連続性が十分でない場合がある。そこで、子音変形部604は、子音選択部603が選択した子音の声道情報と後続母音の声道情報とが、後続母音の接続点で連続的に接続するように、選択した子音の声道情報を変形する。
具体的には、子音変形部604は、後続母音との接続点において、PARCOR係数が後続母音のPARCOR係数と一致するように、子音のPARCOR係数をシフトさせる。ただし、PARCOR係数は安定性の保証のためには、[−1,1]の範囲である必要がある。このため、PARCOR係数を一旦tanh-1関数などにより[−∞,∞]の空間に写像し、写像された空間上で線形にシフトした後、再びtanh関数により[−1,1]の範囲に戻す。これにより、安定性を保証したまま、子音区間と後続母音区間の声道形状の連続性を改善することが可能となる。
音源変形部605は、本発明の声質編集装置により生成された声質特徴に含まれる音源情報を用いて、変換元音声(入力音声)の音源情報を変形する。通常、LPC系の分析合成においては、励振音源としてインパルス列を用いることが多い。このため、予め設定された基本周波数などの情報に基づいて音源情報(F0、パワーなど)を変形した後に、音源情報を合成するようにしてもよい。これにより、声質変換装置では、声道情報による声色の変換だけでなく、基本周波数などの韻律や音源情報の変換を行うことが可能となる。
また、例えば合成部606において、Rosenberg−Klattモデルなどの声門音源モデルを用いることもできる。このような構成を用いた場合、Rosenberg−Klattモデルのパラメータ(OQ、TL、AV、F0等)を被変換音声のパラメータから目標音声に向けてシフトした値を用いるなどの方法を用いることも可能である。
合成部606は、声質変換後の声道情報と、音源変形部605にて変形された後の音源情報とを用いて、音声を合成する。合成の方法は特に限定されるものではないが、声道情報としてPARCOR係数を用いている場合には、PARCOR合成を用いればよい。また、PARCOR係数からLPC係数に変換した後に、LPC係数を合成するようにしてもよいし、PARCOR係数からフォルマントを抽出し、フォルマント合成するようにしてもよい。さらには、PARCOR係数からLSP係数を算出し、LSP合成するようにしてもよい。
以上のような声質変換装置を用いることにより、本発明の声質編集装置により生成された声質特徴を有する合成音を生成することが可能となる。なお、声質変換方は上記の方法に限定されるものではなく、本発明の声質編集装置により生成される声質特徴を用いて声質を変換するものであれば、その他の方法であってもよい。
(効果)
また、重み設定部103により重みを調節することにより、声質間距離算出部102が、ユーザが感じる距離感を反映した声質間距離を算出することが可能となる。また、ユーザの距離感覚を元に、尺度構成部105が各声質の座標位置を算出する。このため、表示部107は、ユーザの感覚に合う声質空間を表示することができる。さらに、この声質空間は、ユーザの感覚にあった距離空間である。このため、表示されている複数の声質の間に位置する声質を想定することも、予め決められた距離尺度を用いて声質を想定する場合と比較すると、容易となる。したがって、位置入力部108を用いてユーザが所望する声質に対応した座標を指定することも容易になる。
さらに、声質混合部110で声質を混合する際には、以下のようにして声質候補の混合比率が決定される。つまり、ユーザによって決定された重みを用いた声質空間において、近接声質候補が選択される。また、その声質空間上での声質間の距離に基づいて、選択された各声質候補の混合比率が決定される。このため、決定された混合比率は、ユーザが想定する声質の混合比率に一致させることができる。また、位置入力部108を用いてユーザが指定した座標に対応する声質を生成する際にも、重み記憶部109に保持されているユーザによって設定された重みが使用される。このため、ユーザと共有された、声質編集装置における声質空間上の位置に対応した声質を生成することが可能となる。
つまり、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを、重み記憶部109に保持されている重みを媒介として共有することができる。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。
さらに、通常、音声は、実際に音声を聞かなければ、その音声がどのような声質であるのかをユーザに想起させることは非常に困難である。しかし、ユーザに声質空間を表示する際には、表示部107は、話者属性DB106に保持されている顔画像などの話者属性情報を表示している。このため、ユーザは、顔画像を見ることにより、当該顔画像の個人の声質を容易に想起することができる。このため、音声に対して専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。
さらに、本発明の声質編集装置は、声質特徴DB101に保持されている声質特徴を用いて、ユーザが所望する声質特徴を生成する声質編集処理のみを行い、声質特徴を用いて音声の声質変換を行う声質変換装置とは分離している。このため、一旦、本発明の声質編集装置により声質を決定し、決定した声質特徴だけを別途保存することができる。これにより、その後、その声質特徴を用いて音声の声質変換を行なう際には、保存しておいた声質特徴を再度利用するだけでよく、毎回声質を編集し直すという作業を行なわなくてもよいという効果も有する。
なお、本発明の声質編集装置の各構成要素は、例えば、図33に示すように、コンピュータにより実現される。つまり、表示部107は、ディスプレイにより実現され、入力部104および位置入力部108はキーボードやマウスなどの入力装置により実現される。また、重み設定部103、声質間距離算出部102、尺度構成部105、声質混合部110は、CPU上でプログラムを実行することにより実現される。さらに、声質特徴DB101、話者属性DB106、重み記憶部109は、コンピュータ内の内部メモリにより実現することができる。
なお、本発明の声質編集装置による声質空間の表示例として、2次元平面状に各声質特徴を布置するように記述したが、表示方法はこれに限定されるものではなく、擬似的に3次元空間上に配置しても良い、さらには、球面上に配置するように布置するように設計しても良い。
(変形例)
実施の形態1では、声質特徴DB101に保持されている声質特徴を全て用いてユーザ所望の声質を編集していたが、本変形例では、声質特徴DB101に保持されている声質特徴の一部を使用してユーザに声質を編集させることを特徴とする。
本発明の実施の形態1では、声質特徴DB101に保持されている声質特徴に対応する話者属性を表示部107が表示する。しかしながら、表示された話者属性をユーザが知らない場合には、声質編集装置がユーザに話者属性を提示しても、ユーザはその声質を想起することができないという問題がある。本変形例では、この問題を解決する。
図34は、本変形例に係る声質編集装置の構成を示すブロック図である。図34において、図5と同じ構成要素については同じ符号を用い、説明を省略する。図34に示す声質編集装置は、図5に示した声質編集装置に、さらに、ユーザ情報管理DB501が付加された構成を有する。
ユーザ情報管理DB501は、ユーザが既知の声質の情報を管理するデータベースである。図35は、ユーザ情報管理DB501が管理する情報の例を示す図である。ユーザ情報管理DB501は、声質編集装置を利用するユーザのユーザIDと、ユーザ毎にユーザが知っている既知声質IDとを少なくとも保持する。同図の例では、ユーザ1は、声質1および声質2の声質を保持する人物を知っていることが分かる。また、ユーザ2は、声質1、声質3及び声質5の声質を保持する人物を知っていることが分かる。このような情報を用いることにより、表示部107は、ユーザが知っている声質の情報のみをユーザに提示することが可能となる。
なお、上記説明では、ユーザが知っている声質が数個であるように説明したが、より多数の声質を指定しても構わない。
また、ユーザ情報管理DB501に保持されるデータの作成方法は特に限定されるものではないが、例えば、予めユーザに声質特徴DB101に保持されている声質および話者属性DB106に保持されている話者属性から、自分が知っている声質および話者属性を選択してもらうことにより作成すればよい。
または、声質編集装置が予め想定するユーザの属性ごとに表示する声質および話者属性を決定しても良い。例えば、ユーザIDの代わりに性別または年齢ごとにユーザグループを定義する。そして、そのグループに属する性別または年齢の人が知っていると考えられる声質および話者属性を予め設定しておく。声質編集装置は、ユーザに性別または年齢を入力させることにより、ユーザ情報管理DB501を用いて表示すべき声質を決定することができる。このような構成にすることにより、予めユーザに自分が知っている声質データを指定させることなく、ユーザが知っていると思われる声質を特定することが可能となる。
または、既知声質IDをユーザに指定させるのではなく、ユーザが使用する外部データベースから、当該外部データベースに保持されている話者識別情報を取得し、取得された話者識別情報に対応する話者の声質のみを既知声質として管理しても良い。外部データベースとしては、例えば、ユーザが所有する音楽コンテンツの歌唱者の情報を用いることができる。または、ユーザが保有する映像コンテンツに出演している俳優の情報を用いて、外部データベースを作成することができる。なお、話者識別情報の作成方法は、これらに限定されるものではなく、声質特徴DB101に保持されている声質からユーザが知っている声質を特定できる情報を作成できればよい。
これにより、ユーザは、自分が保持する音声コンテンツのデータを声質編集装置に提供するだけで、声質編集装置は、ユーザが知っている声質の情報を自動的に取得することができ、ユーザ情報管理DB501を作成できる。このため、ユーザの処理負荷を小さくすることができる。
(効果)
以上のように声質編集装置を構成することにより、表示部107により提示される声質空間は、ユーザが知っている声質のみから構成される。このことにより、さらにユーザの感覚に合った声質空間を構成することが可能となる。したがって、ユーザが所望の声質を指定する際にも、提示されている空間がユーザの感覚に合っていることから、指定したい座標を簡単に設定することが可能となる。
なお、声質混合部110により、声質特徴DB101に登録されている複数の声質を混合する際には、ユーザ情報管理DB501により管理されているユーザが知っている声質特徴だけではなく、声質特徴DB101に登録されている全ての声質特徴を用いて、ユーザが指定した座標位置の声質を生成してもよい。
その場合は、ユーザが指定した座標位置と、近接声質候補選択部201により選択される近接声質との距離は、ユーザ情報管理DB501により管理されている声質情報のみを用いた場合と比較して、小さくすることが可能となり、結果として、声質を大きく変更することなく、ユーザが指定した座標位置の声質を混合することができる。したがって、声質の変形量が少ない分、音質の劣化も少なくすることができ、高音質の声質特徴を生成することができるという効果を有する。
なお、重み設定部103が、重み設定部103により設定された重みを用いて、声質特徴DB101に保持されている声質特徴をクラスタリングし、ユーザ情報管理DB501が、クラスタを代表する声質を保持するようにしても良い。
これによると、ユーザの感覚に合った声質空間を保ちながら、声質空間に表示する声質数を抑制することができる。このため、ユーザが提示された声質空間を把握しやすくなるという効果を有する。
(実施の形態2)
本発明の実施の形態1に係る声質編集装置は、1台のコンピュータで声質の編集を行なうものである。しかしながら、一人で複数台のコンピュータを使用するということも日常的に行なわれている。また、現在では種々のサービスは、コンピュータだけでなく、携帯電話や携帯端末向けにされている。したがって、あるコンピュータで構築した自分の環境を他のコンピュータ、携帯電話、携帯端末で利用するという利用も考えられる。そこで、実施の形態2では、複数の端末において同一の編集環境を実現することができる声質編集システムについて説明する。
図36は、本発明の実施の形態2に係る声質編集システムの構成を示す図である。声質編集システムは、ネットワーク704に相互に接続された端末701、端末702およびサーバ703を備えている。端末701は、声質を編集する装置である。端末702は、別の声質を編集する装置である。サーバ703は、端末701および端末702により編集された声質を管理する装置である。なお、端末の数はこれに限定されるものではない。
端末701および端末702は、声質特徴DB101、声質間距離算出部102、重み設定部103、入力部104、尺度構成部105、話者属性DB106、表示部107、位置入力部108および声質混合部110を備えている。
サーバ703は、重み記憶部109を備えている。
端末701の重み設定部103により重みが設定された場合は、端末701は、ネットワークを介して、重みをサーバ703に送信する。
サーバ703の重み記憶部109は、ユーザごとに重みを保存および管理する。
ユーザが端末702(重みを設定した端末とは別の端末)を用いて声質を編集する場合には、ネットワークを介してサーバ703に保持されているユーザの重みを取得する。
端末702の声質間距離算出部102が取得した重みを用いて声質間距離を算出することにより、端末701で設定した声質空間と同じ声質空間を別の端末である端末702で再現することができる。
端末701で重みを設定し、端末702で設定された重みを用いて声質を編集する例について、動作を説明する。
まず、端末701の重み設定部103が、重みを決定する。例えば、図17に示した構成の重み設定部103が、図18に示したフローチャートの流れで処理を行なう。
つまり、端末701の重み設定部103は、重みDB401により保持されている重みの中から、入力部104を用いてユーザにより選択された重みを1つ選択する(ステップS101)。
ステップS101により選択された重みを用いて、声質間距離算出部102が声質特徴DB101に保持されている各声質間の距離を算出し、距離行列を作成する(ステップS102)。
ステップS102で作成された距離行列を用いて、尺度構成部105が声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS103)。
表示部107は、声質特徴DB101に保持された各声質に対して、ステップS103で算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS104)。
ユーザはステップS104で声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する(ステップS105)。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。
ユーザが現在表示されている声質空間に満足しなかった場合には(ステップS105でNo)、ステップS101からステップS105までの処理を、ユーザが満足するまで繰り返す。
ユーザが現在表示されている声質空間に満足した場合には(ステップS104でYes)、重み選択部402は、ステップS101で選択された重みを、ネットワーク704を介してサーバ703に送信し、サーバ703が受信した重みを重み記憶部109に登録し、重み設定処理を終了する(ステップS106)。
このように、ユーザが満足するまでステップS101からステップS105までの処理を繰り返すことにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。また、この重みに基づいて声質空間を生成することにより、ユーザの感覚に合致した声質空間を構築することが可能となる。
なお、上記の説明では、重み設定部103を図17の構成で説明したが、図22または図25の構成により実現しても構わない。
次に、別の端末702を用いて声質を編集する処理について図37のフローチャートを用いて説明する。
声質間距離算出部102は、サーバ703に登録されている重み情報をネットワーク704を介して取得する(ステップS401)。声質間距離算出部102は、ステップS101において取得した重みを用いて声質特徴DB101に保持された全ての声質間の距離を算出する(ステップS002)。
次に、尺度構成部105は、ステップS002において計算された声質特徴DB101に保持された声質間の距離(距離行列)を用いて、声質の声質空間上の座標を算出する(ステップS003)。
次に、表示部107は、声質特徴DB101に保持されている各声質に対し、ステップS003により生成された座標位置に、話者属性DB106に保持されている当該声質に対応する話者属性を表示する(ステップS004)。
次に、ユーザは、位置入力部108を用いて所望する声質を有する座標位置を入力する(ステップS005)。
次に、声質混合部110は、ステップS005において指定された座標に対応する声質を生成する(ステップS006)。
以上の処理により、端末701で設定した重みを用いて、端末702で声質編集作業を行なうことが可能となる。
(効果)
かかる構成によると、複数の端末に共通する声質空間上で、声質の編集を行なうことが可能となる。例えば、実施の形態1に係る声質編集装置では、ユーザがコンピュータや携帯端末など複数の端末で声質を決定するような場合には、個々の端末で重みを決定する必要がある。しかし、実施の形態2に係る声質編集システムを用いることにより、1つの端末で重みを決定し、決定したサーバに重みを保存することにより、他の端末では重みを決定する必要がなくなる。つまり、他の端末は、サーバから重みを取得するだけでよい。したがって、声質編集における声質空間の構成に必要な重み設定作業量を個々の端末ごとに行なう場合と比較すると、ユーザが声質を決定する際の負担を大幅に削減することが可能となるという効果を有する。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明に係る声質編集装置は、ユーザの感覚に合った声質空間を作成することにより、直感的にわかりやすい声質空間の提示を可能とし、また、提示された声質空間上の座標位置を入力することで、ユーザが所望する声質を生成する機能を有する。このため、種々の声質を必要とするユーザインタフェースや、エンターテイメント等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の声質指定の用途にも応用できる。
本発明は音声の声質を編集する装置および方法に関するものである。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音、および女子高生風または関西弁風などの特徴的な韻律・声質をもつ合成音)が一つのコンテンツとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。
ところで、音声を合成する方式としては、大別して次の2つの方式がある。つまり、予め用意した音声素片DB(データベース)から適切な音声素片を選択して接続することにより音声を合成する波形接続型音声合成方法と、音声パラメータを分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法とである。
前述した合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片DBを必要な声質の種類だけ用意し、音声素片DBを切り替えながら素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。
一方、分析合成型音声合成方法は、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。
また、話者適応技術を用いて、声質を変換する方法がある。これは予め用意された別の話者の音声の特徴を、分析された音声パラメータに適用させることにより、声質を変換する方法である。
音声の声質を変更するためには、ユーザにどのような声質に変更したいかを何らかの方法により指定させる必要がある。例えば、声質を指定する方法として、図1に示すような幾つかの感性軸のスライダーを用いてユーザに声質を指定させる方法がある。しかし、音声に関する予備知識が十分ないユーザがこのようなスライダーを調整することで意図した声質を得ることは難しい。なぜならば、ユーザは自分が作成したい声質を感性語により言語化すること自体が難しいからである。例えば、図1の例では、「年齢は30歳くらい、非常に女性的だが、やや暗く、無感情、・・・・」などといったように自分が想定する声質からスライダーの各軸を調整しなければならないが、このような作業は音声の予備知識が十分ないと難しい。また、逆にスライダーの状態からその状態が表す声質を想起することも同様に困難である。
一方で、日常において未知の声質の音声を聞いた場合には、以下のような表現をする方が自然である。つまり、未知の声質の音声を聞いたユーザは、「Xさんのような声だけど、もう少しYさんのような感じ」(ここで、X、Yはユーザが知っている個人を表す)などというように、ユーザが既に知っている具体的な個人名を用いて未知の声質を表現する方が自然である。そこで具体的な個人(ある特徴を持った個人が有する声質)を組み合わせることにより、直感的に声質を指定することが可能であると考えられる。
このように、予めシステムが保持する具体的な個人の声質の組み合わせによりユーザに声質を編集させる場合には、システムが保持する声質を分かりやすく提示する方法が重要になる。そして、編集後の声質の音声特徴を用いて話者適応技術による声質変換を行なうことにより、ユーザが所望する声質を有する合成音声を生成することが可能となる。
ところで、データベースに登録されている音情報をユーザに提示し、選択させる方法として特許文献1がある。特許文献1には、さまざまな効果音の中から、ユーザが所望する効果音を選択させる方法が開示されている。特許文献1に記載の方法では、保有する効果音を音響特徴量と感性情報とに基づいて音響空間上に配置し、効果音の音響特徴に対応したアイコンを提示する。
図2は、特許文献1に記載の音響ブラウジング装置の構成図である。
音響ブラウジング装置は、音響データ格納部1と、音響空間座標データ生成部2と、音響空間座標データ格納部3と、アイコン画像生成部4と、音響データ表示部5と、音響空間座標入力部6と、立体音響再生処理部7と、音響データ再生部8とを備えている。
音響データ格納部1は、音響データ自体と、当該音響データを画面に表示する際に使用するアイコン画像と、当該音響データについての音響特徴量とを組として格納している。音響空間座標データ生成部2は、音響データ格納部1に格納されている音響特徴量に基づいて、画面に表示すべき音響空間における当該音響データの座標データを生成する。すなわち、音響空間において当該音響データがどの位置に表示されるべきかを算出する。
画面に表示するアイコン画像は、音響特徴量に基づいてアイコン画像生成部4において生成される。具体的には当該効果音のスペクトル分布と感性パラメータとに基づいて、アイコン画像が生成される。
特許文献1では、このように個別の効果音を空間に配置することによって、ユーザが効果音を指定し易いようにしている。しかしながら、効果音が提示される座標は音響空間座標データ生成部2により決定された座標であり、画一的なものである。したがって、必ずしもユーザの感覚に合う音響空間であるとは限らない。
一方、データ表示処理システムにおいて、ユーザの入力に応じて情報の重要度を修正する方法として特許文献2がある。特許文献2に記載のデータ表示処理システムは、当該システムが保有する情報の重要度に応じて、情報の表示サイズを変えて表示するシステムである。データ表示処理システムは、ユーザによる重要度の修正を受付け、修正された情報に基づき重要度を算出する際の重みを修正する。
図3は、特許文献2のデータ表示処理システムの構成図である。図3において、編集処理部11は、表示対象となる意味のあるデータの単位であるデータ要素の集合に関する編集処理を行う処理部である。編集データ記憶部14は、編集対象および表示対象の文書や図解データを記憶する記憶装置である。重み係数記憶部15は、あらかじめ定められたいくつかの基本重要度関数の結合に用いる重み係数を記憶する記憶装置である。重要度計算部16は、表示対象となる各データ要素の重要度を、基本重要度関数を重み係数に基づいて結合した関数により計算する処理部である。重み付け描画処理部17は、計算した各データ要素の重要度に応じて、各データ要素の表示サイズまたは表示可否を決定し、各データ要素の表示レイアウトを行うことにより、表示データを作成する処理部である。表示制御部18は、重み付け描画処理部17が作成した表示データを、表示装置20に表示させる制御を行う。編集処理部11は、重み係数記憶部15が記憶している各基本重要度関数に対応する重み係数を、入力装置19からの入力により変更する重み係数変更手段12を持つ。また、データ表示処理システムは、さらに、機械学習処理部13を備えている。機械学習処理部13は、編集処理部11から通知されたユーザが指示した表示サイズの変更等を伴う操作情報をもとに、重み係数記憶部15が記憶する重み係数を学習によって自動的に変更する処理を行う。重み付け描画処理部17は、各データ要素の重要度に応じて、可視性型重み付け描画処理、2値サイズ型重み付け描画処理もしくは比例サイズ型重み付け描画処理、またはこれらのいくつかを組み合わせた重み付け描画処理を行なう。
特開2001−5477号公報 特開平6−130921号公報
しかしながら、特許文献2の技術を声質編集に利用しようとした場合には、いかにユーザの感性に合った声質空間を構成するかという課題、およびユーザに指定された声質をいかに生成するかという課題がある。
つまり、特許文献2では各データの重要度を調整しているが、音声に対し同様の考え方は適用しづらい。すなわち、データの重要度は単一の指標として個人の価値観によって決定が可能である。しかし、音声の特徴を個人の要望に合わせて編集したい場合は、そのような一つの指標では不足である。
この問題を具体的に説明する。例えば音声に対して一つの指標を決めるとする。その指標として声の高さという軸を選んだとする。この場合、ユーザは声の高さを変えることはできるが、同じ高さに感じる声でも声の質は無数に存在する。このため、一つの指標のみに基づいて声質の編集を行うことは困難である。一方、重要度あるいは好感度などといった総合的な指標を選べば、個々の音声に対して特許文献2のように個人の価値観による数値化は可能である。しかし、同じように重要に感じる声でも声質が異なる例は無数に存在する。
この問題はどのように重要か、なぜ好感度が高く感じるかというところまで掘り下げなければ目的の声質に近付けることができないという本質的なものである。したがって、結局、図1のような複数のパラメータを調整することが必要になってしまい、音声に対する専門的な知識が必要となってしまう。
また、特許文献1の提示方法では、ユーザに提示する声質空間に配置された声を選ぶことまではできる。しかし、ユーザの感覚に合わせて声質空間の構成方法を切り替えただけでは、声質空間内で選ばれた声から少しずらした位置において得られると期待される声質とシステムが生成する声質との間に乖離が生じるという課題がある。これはその感覚尺度で構成された空間を、システムが持つ内部パラメータの空間と対応付けられる手段を持たないためである。
また、特許文献1では、声をアイコン画像により提示しているが、そのアイコン画像は、音響特徴量に基づいて作成される。このため、声質の編集を行うためには、音声に対する専門的な知識が必要になってしまうという課題がある。
本発明は、上述の課題を解決するためになされたものであり、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる声質編集装置を提供することを目的とする。
上記目的を達成するために、本発明のある局面に係る声質編集装置は、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定する重み設定部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを備える。
この構成によると、表示部が表示する識別子は、声質をユーザが想起可能な識別子である。このため、ユーザは表示された識別子を見ることにより、声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができる。また、重み設定部により設定される重みに基づいて声質特徴の表示座標が算出される。このため、声質特徴間の距離に関するユーザの感覚に合致した表示座標に、声質特徴に対応する識別子を表示させることができる。
好ましくは、前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、ユーザは、表示された顔画像などにより、声質を直接想起することができる。
さらに好ましくは、上述の声質編集装置は、さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、表示部により表示される識別子に対応する声質のすべてが、ユーザが知っている声質である。このため、ユーザは表示された識別子を見ることにより、確実に声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができ、声質特徴の編集に要するユーザの負荷を軽減することができる。
さらに好ましくは、上述の声質編集装置は、さらに、ユーザの性別または年齢の入力を受け付ける個人特性入力部と、ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。
この構成によると、ユーザは自分の性別または年齢を入力するだけで、自身が知らないであろう声質に対応する識別子の表示を制限させることができる。このため、声質編集に要するユーザの負荷を軽減することができる。
本発明の他の局面に係る声質編集システムは、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、ネットワークを介して相互に接続される第1の端末と、第2の端末と、サーバとを備え、前記第1の端末および前記第2の端末の各々は、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、前記サーバは、前記第1の端末または前記第2の端末から送信される重みを記憶する重み記憶部を有する。
この構成によると、第1の端末および第2の端末は、サーバが管理する重みを共有することができる。このため、第1の端末および第2の端末が同じ声質特徴を保持している場合には、声質特徴の識別子を同じ表示座標に表示させることができる。よって、第1の端末と第2の端末とで同じ作業を行なうことができる。また、重みの設定を端末毎に行なう必要がない。このため、重み設定を端末毎に行なう場合に比べ、重み設定に要する負担を大幅に削減することができる。
なお、本発明は、このような特徴的な手段を備える声質編集装置として実現することができるだけでなく、声質編集装置に含まれる特徴的な手段をステップとする声質編集方法として実現したり、声質編集方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の声質編集装置によれば、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。
また、重み設定部により重みを調節することにより、ユーザが感じる距離感を反映した声質間距離を声質間距離算出部が算出することが可能となる。また、距離感覚を元に尺度構成部が各声質の識別子の表示座標を算出する。このため、表示部はユーザの感覚に合う声質空間を表示することができる。また、この声質空間はユーザの感覚にあった距離空間である。このため、予め定められた距離尺度を用いて声質を表示する場合と比較すると、表示されている声質間に位置する声質を容易に想定することが可能となる。したがって、ユーザは、位置入力部を用いて所望する声質に対応した座標を指定することが容易になる。
さらに、声質混合部で声質を混合する際には、重みを用いた声質空間における近接声質候補を取得し、さらに、その声質空間上での距離に基づいて選択された各声質候補の混合比率を決定することができる。決定された混合比率は、ユーザが想定する声質の混合比率に一致させることが可能となる。また、ユーザが指定した座標に対応する声質を生成する際にも、重み記憶部に保持されているユーザによって重み設定部で設定された重みを使用する。このため、ユーザと共有された声質編集装置における声質空間上の位置に対応した声質を合成することが可能となる。
つまり、重みを媒介として、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを共有することができている。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図4は、本発明の実施の形態1に係る声質編集装置の外観図である。声質編集装置は、パーソナルコンピュータやEWS(Engineering Workstation)などの一般的なコンピュータを用いて実現される。
図5は、本発明の実施の形態1に係る声質編集装置の構成を示すブロック図である。
声質編集装置は、複数の声質を編集して新たな声質を生成する装置であり、声質特徴DB(データベース)101と、声質間距離算出部102と、重み設定部103と、入力部104と、尺度構成部105と、話者属性DB106と、表示部107と、位置入力部108と、重み記憶部109と、声質混合部110とを備えている。
声質特徴DB101は、声質編集装置が保有する複数の音声の音響的特徴量を保持する記憶装置であり、ハードディスクやメモリ等より構成される。以下、「音声の音響的特徴量」を、適宜「声質」または「声質特徴」という。
声質間距離算出部102は、声質特徴DB101に保有された声質間の距離を算定する処理部である。重み設定部103は、声質間距離算出部102が声質間の距離を算定する際にどの物理パラメータを重視するかを示す重みを設定する処理部である。入力部104は、重み設定部103により重みを決定する際にユーザからの入力を受け付ける入力装置であり、例えば、キーボードやマウス等である。尺度構成部105は、声質間距離算出部102により算定された声質間距離に基づいて、声質特徴DB101に保持されている各声質の空間座標を決定する処理部である。
話者属性DB106は、声質特徴DB101に保持されている各声質に関連付けられた話者属性情報を保持する記憶装置であり、ハードディスクやメモリ等により構成される。表示部107は、声質特徴DB101に保持されている各声質に対して、尺度構成部105により決定された座標に、話者属性DB106に保持されている各声質に対応した話者属性情報を表示する表示装置であり、例えば、LCD(Liquid Crystal Display)等である。位置入力部108は、表示部107により提示された声質空間における位置をユーザから受け付ける入力装置であり、例えば、キーボードやマウス等である。
重み記憶部109は、重み設定部103により設定された重みを記憶する記憶装置であり、例えば、ハードディスクやメモリ等により構成される。声質混合部110は、位置入力部108により入力された声質空間上の座標および重み記憶部109に保持されている重みに基づいて、声質特徴DB101に保持されている声質を混合することにより、ユーザが位置入力部108により入力した声質空間上の座標に対応する声質を生成する処理部である。
声質間距離算出部102、重み設定部103、尺度構成部105および声質混合部110は、コンピュータのCPU(Central Processing Unit)上でプログラムを実行することにより実現される。
次に、声質特徴DB101について詳細に説明する。
声質特徴DB101は、日本語の場合、声質毎に、少なくとも5母音(/aiueo/)における、目標話者の声道形状に由来する声道の情報を保持するものである。なお、他言語の場合、声質特徴DB101は、日本語の場合と同様に、母音の種類ごとに声道形状に由来する声道の情報を保持するようにすればよい。声質特徴DB101は、さらに、後述する音源の情報を保持するように設計しても良い。
声道情報の表現方法としては、例えば声道断面積関数がある。声道断面積関数は、図6(a)に示すような可変円形断面積の音響管で声道を模擬した音響管モデルにおける各音響管の断面積を表すものである。この断面積は、LPC(Linear Predictive Coding)分析に基づくPARCOR(Partial Auto Correlation)係数と一意に対応することが知られており、式1により変換可能である。本実施の形態では、PARCOR係数kiにより声道情報を表現するものとする。以降、声道情報はPARCOR係数を用いて説明するが、声道情報はPARCOR係数に限定されるものではなく、PARCOR係数に等価なLSP(Line Spectrum Pairs)やLPCなどを用いてもよい。また、前記音響管モデルにおける音響管の間の反射係数とPARCOR係数との関係は、符号が反転していることのみである。このため、反射係数そのものを用いても構わない。
Figure 2008149547
ここで、Anは図6(b)に示すように第i区間の音響管の断面積を表し、kiは第i区間と第(i+1)区間の境界のPARCOR係数(反射係数)を表す。
PARCOR係数は、LPC分析により分析された線形予測係数を用いて算出することができる。具体的には、PARCOR係数は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出することが可能である。
なお、LPC分析に基づくPARCOR係数に限られず、ARX分析(非特許文献:「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号(2002年)、pp.386−397、大塚他)に基づいてPARCOR係数を算出しても構わない。
次に、声質特徴DB101に保持する声質特徴(音声の音響的特徴量)の作成法について、例を挙げながら説明する。声質特徴は、例えば、目標話者によって発声された孤立発声母音から構築することができる。
図7は、ある話者により発声された孤立発声母音により声質特徴を抽出する処理部の構成を示す図である。
母音安定区間抽出部301は、入力された孤立発声母音から孤立母音の区間を抽出する。抽出方法は特に限定されるものではない。例えば、パワーが一定以上の区間を安定区間とし、当該安定区間を孤立母音の区間として抽出してもよい。
声質特徴算出部302は、母音安定区間抽出部301により抽出された孤立母音の区間に対して上述のPARCOR係数を算出する。以上の処理を声質編集装置が保有する全ての声質に対して行うことにより、声質特徴DB101が構築される。
なお、声質特徴を抽出する音声データは、孤立発声母音に限定されるものではなく、日本語では少なくとも5母音(/aiueo/)を含む何らかの音声であればよい。例えば、目標話者がその場で自由に発話した音声でもよいし、予め収録された音声でもよい。また歌唱データなどのボーカルトラックの音声を利用してもよい。
その場合、母音区間を抽出するためには、音声データに対して音素認識を行なうことにより、母音の音声データを検出する。次に、母音安定区間抽出部301が母音の音声データより安定した母音区間を抽出する。抽出の方法としては、例えば、音素認識結果の信頼度が高い区間(尤度の高い区間)を安定した母音区間として使用することができる。このように安定した母音区間を抽出することにより、音素認識誤りによる影響を排除することが可能である。
声質特徴算出部302が、抽出された母音の安定区間において声道情報を作成することにより、声質特徴DB101を構築することができる。声質特徴算出部302による声質特徴の算出は、例えば、前述のPARCOR係数を算出することにより行なわれる。
なお、声質特徴DB101に保持される声質特徴の作成方法は、これらに限定されるものではなく、安定した母音区間から声質特徴を抽出するような方法であれば、その他の方法であってもよい。
図8A〜図8Jは、10次の反射係数で表現した母音/a/に対する声道情報の一例を示す図である。
各図に示す各グラフにおいて、縦軸は反射係数を表し、横軸は時間を表す。k1からk10は、反射係数の次数を表す。このように孤立発声され、かつ安定した母音区間の音声データを用いることにより、反射係数による声道情報を時間的に安定したパラメータとして算出することができる。また、反射係数を声質特徴DB101に登録する際には、図8A〜図8Jに示すような反射係数を直接登録しても良いし、母音区間内の平均値あるいは中央値を代表値として登録しても良い。
音源情報としては、例えばRosenberg−Klatt(RK)モデルを用いることもでき、RKモデルを用いる場合には、有声音源振幅(AV)、基本周波数(F0)、およびピッチ周期(基本周波数の逆数)に対する声門が開いている時間の割合(声門開放率)(OQ)などを音源情報として用いることができる。また、音源が持つ非周期成分(AF)を音源情報として用いることもできる。
声質特徴DB101に保持される声質特徴をまとめると図9に示すような情報となる。つまり、声質特徴として声道情報と音源情報とが保持される。声道情報としては、日本語の場合、5つの母音の声道形状に関する情報(例えば、反射係数)が保持される。一方、音源情報としては、基本周波数(F0)、有声音源振幅(AV)、声門開放率(OQ)、音源の非周期成分境界周波数(AF)などが保持される。なお、声質特徴DB101に格納される声質特徴は、これらに限定されるものではなく、声質に関する特徴量であればこれら以外のものであってもよい。
図10は、話者属性DB106に保持される話者属性の一例を示す図である。話者属性DB106に保持される話者属性としては、声質特徴DB101に保持されている声質特徴を直接聞くことなくその声質特徴を理解することが可能な情報、つまり、その情報を見るだけでその情報に関連付けられた声質をユーザが想起可能な情報である。具体例としては、声質特徴DB101に保持されている声質特徴を抽出する際に使用した音声を発話した人物を特定することが可能な話者属性であり、例えば、顔画像、個人名などがある。このように人物を特定することが可能な話者属性を用いることにより、ユーザは、提示された個人を知っていれば、顔画像を見るだけで、その顔画像の人物がどのような声質であるのかを簡単に想起することが可能となる。つまり、このような話者属性を用いることにより、提示した声質に関して、さまざまな評価尺度を用いて、その声質を定義する必要がない。
なお、話者属性は、発話した人物の顔画像、個人名に限られるものではなく、発話した人の声を直接想起できるような話者属性であればそれ以外のものであっても良い。例えば、アニメキャラクタやマスコットの場合は、アフレコでそのアニメキャラクタやマスコットの声を発声している人物の顔画像や名前だけでなく、アニメキャラクタやマスコットの画像や、キャラクタ名などを話者属性として用いても良い。また、例えば、外国映画の俳優などの場合は、吹き替えた話者の属性だけでなく、吹き替えられた俳優の話者属性を用いるようにしても良い。また、発話した人物がナレーターの場合は、ナレーター本人の話者属性だけでなく、ナレーターが出演する番組名や番組ロゴマークを話者属性として用いるようにしても良い。
以上の構成により、ユーザの指定した声質を生成することが可能となる。
次に、声質編集装置の動作について図11のフローチャートを用いて説明する。
重み設定部103は、入力部104からの入力を受け付け、声質間の距離を算出する際の音響パラメータの重みを決定する(ステップS001)。重み設定部103は、決定した重みを重み記憶部109に保存する。具体的な重みの決定方法は後述する。
声質間距離算出部102は、ステップS001において設定された重みを用いて声質特徴DB101に保持された全ての声質間の距離を算出する(ステップS002)。声質間の距離は、具体的には、以下のように定義される。つまり、声質特徴DB101に登録された声質をベクトル表現した場合に、2つのベクトル間の距離(声質間の距離)は、式2に示すような重み付きユークリッド距離として定義することができる。ただし、重みwlは、式3に示す条件を満たす必要がある。距離の算出方法はこれに限られるものではなく、コサイン類似度を用いて距離を算出しても良い。その場合は、コサイン類似度を距離に変換する必要があるが、例えばベクトル間の成す角度を距離として定義しても良い。その場合は、コサイン類似度に対して逆余弦関数により距離を算出することができる。
Figure 2008149547
Figure 2008149547
ここでwlは声質特徴DB101が保持する各パラメータ(声道形状パラメータ、基本周波数等)に対する重要度を表す重みパラメータであり、声質特徴DB101に保持されている声質特徴viは、i番目の声質特徴を表し、vilは、声質特徴viのl番目のパラメータの物理量を表す。
以上のようにして声質特徴DB101に保持された声質間の距離を作成することにより、図12に示すような距離行列を作成することができる。距離行列におけるi行j列の要素di,jは、声質特徴viと声質特徴vjとの間の距離を示している。
次に、尺度構成部105は、ステップS002において計算された声質特徴DB101に保持された声質間の距離(距離行列)を用いて、各声質の声質空間上での座標を算出する(ステップS003)。座標を算出する方法は特に限定されるものではないが、例えば多次元尺度構成法(MDS)を用いることにより、2次元あるいは3次元の空間にそれぞれの声質を対応付けることが可能となる。
図13は、多次元尺度構成法を用いて声質特徴DB101に保持された声質特徴を2次元空間に配置した一例を示す図である。
例えば、重み設定部103において、基本周波数(F0)に対応する声質パラメータの重みが大きく設定された場合、ある声質特徴を基準にして、基本周波数(F0)が近い声質特徴は、2次元平面上で近くに配置される。一方、基本周波数(F0)が大きく異なる場合には、2次元平面上で離れた位置に配置される。このように声質特徴を配置することにより、ユーザが重視する声質パラメータが近い声質特徴同士は、声質空間上において近くに配置される。よって、ユーザは、配置された複数の声質特徴の間に位置する声質を容易に想起することができる。
なお、多次元尺度構成法だけではなく、声質特徴DB101に保持されている各物理パラメータに対して主成分分析を行なうことにより主成分を抽出し、寄与度が大きく代表となる主成分のうち、2〜3の主成分により空間を構成し、各声質の座標を算出しても良い。
次に、表示部107は、声質特徴DB101に保持されている各声質に対し、ステップS003において生成された座標位置に、話者属性DB106に保持されている当該声質に対応する話者属性を表示する(ステップS004)。表示される声質空間の例を図14に示す。図14では、話者属性情報として声質を有する話者の顔画像を使用しているが、顔画像に限られず、その声質を想起することが可能な話者属性であればなんでも良い。例えば、話者の名前、キャラクタ画像またはキャラクタ名等であっても良い。
このように話者属性情報を表示することにより、ユーザは表示された話者属性情報を見ることにより、話者の声質を直感的に想起することが可能であると共に、提示されている声質空間を直感的に把握することが可能となる。
また、図14では、表示部107は、1つの表示領域に全ての声質を表示しているが、特定の一部分の声質だけを表示しても良いし、別途ユーザからの入力を受けて、当該入力に従い声質空間を拡大、縮小またはスクロールさせて表示するように設計しても良いことは言うまでもない。
次に、ユーザは、位置入力部108を用いて所望する声質を有する座標位置を入力する(ステップS005)。具体的な入力方法は特に限定されるものではない。例えば、ユーザがマウスを用いて、表示部107に表示された声質空間上の一点を指定するものであってもよいし、キーボードを用いて座標値を入力するものであってもよい。さらに、マウス以外のポインティングデバイスを用いて座標値を入力するものであってもよい。
次に、声質混合部110は、ステップS005において指定された座標に対応する声質を生成する(ステップS006)。具体的な生成方法について図15を用いて説明する。
図15は、声質混合部110の詳細な構成を示す図である。声質混合部110は、近接声質候補選択部201と、混合比率算出部202と、特徴量混合部203とを備えている。
近接声質候補選択部201は、ステップS005において入力された座標位置に近接する声質を選択する。選択時の動作を詳細に説明する。ステップS004において図16に示すような声質空間が表示され、ステップS005において座標位置801が指定されたものとする。近接声質候補選択部201は、声質空間において、座標位置801から予め設定された距離以内の声質を選択する。例えば、図16に示した声質空間では、座標位置801から予め設定された距離の範囲802の内側に位置する声質803、804および805が選択される。
次に、混合比率算出部202は、近接声質候補選択部201により選択された声質に対して混合する比率を算出する。図16の例の場合、混合比率算出部202は、ユーザにより入力された座標位置801と近接声質候補選択部201により選択された声質803、804および805との間の距離をそれぞれ算出する。混合比率算出部202は、算出された距離の逆数に基づいて混合比率を算出する。図16の例の場合は、例えば、座標位置801と声質803、804および805との距離の比率が「1:2:2」であるとすると、混合比率は「2:1:1」となる。
次に、特徴量混合部203は、近接声質候補選択部201により選択された声質を混合比率算出部202により算出された混合比率に基づいて、声質特徴DB101に保持されている音響的特徴量毎に混合する。
例えば、声道形状を示す反射係数を上述の比率で混合することにより、新たな声道形状を作成することができる。この他にも反射係数の各次元を関数により近似し、近似した関数を混合することにより、新たな声道形状を作成するようにしてもよい。例えば、関数としては多項式を用いることができる。この場合、関数の混合は、多項式の係数の重み付き加重平均により混合することができる。
また、音源情報である基本周波数(F0)、有声音源振幅(AV)、声門開放率(OQ)、非周期成分境界周波数(AF)についても、上述の比率で重み付き加重平均を取ることにより新たな音源情報を作成することができる。
図16の例の場合には、特徴量混合部203は、声質803、804および805の声質特徴を「2:1:1」の比率で混合する。
具体的な混合方法は特に限定されるものではないが、例えば、混合比率に基づいて、声質特徴DB101に保持されている声質特徴の各パラメータの加重平均を求めることにより、声質特徴を混合してもよい。
なお、近接声質候補選択部201は、声質空間内のすべての声質を選択するようにしてもよい。この場合に、混合比率算出部202は、すべての声質特徴を対象として混合比率を決定する。
以上の処理により声質混合部110は、ステップS005において指定された座標に対応する声質を生成することが可能となる。
(重み設定方法1)
次に、ステップS001において重み設定部103が行なう具体的な重み設定方法について説明する。重み設定時には重み設定部103以外の処理部も動作する。
図17は、重み設定部103の詳細な構成を示すブロック図である。重み設定部103は、重みDB401と、重み選択部402とを備えている。
重みDB401は、システム設計者が予め設計した複数の重みを保持する記憶装置であり、ハードディスクやメモリ等により構成される。重み選択部402は、入力部104からの指示に基づいて、重みDB401から重みを選択し、重み記憶部109に保存する処理部である。各部の動作について図18に示すフローチャートを用いて説明する。
重み選択部402は、重みDB401に保持されている重みの中から、入力部104を用いてユーザにより選択された重みを1つ選択する(ステップS101)。
声質間距離算出部102は、ステップS101において選択された重みを用いて、声質特徴DB101に保持されている各声質間の距離を算出し、距離行列を作成する(ステップS102)。
尺度構成部105は、ステップS102で作成された距離行列を用いて、声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS103)。
表示部107は、声質特徴DB101に保持された各声質に対して、ステップS103において算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS104)。
ユーザはステップS104において声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する(ステップS105)。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。ユーザは、判断結果を入力部104を用いて入力する。
ユーザが現在表示されている声質空間に満足しなかった場合には(ステップS105でNo)、ステップS101からステップS105までの処理を、ユーザが満足するまで繰り返す。
ユーザが現在表示されている声質空間に満足した場合には(ステップS104でYes)、重み選択部402は、ステップS101で選択された重みを重み記憶部109に登録し、重み設定処理を終了する(ステップS106)。重み記憶部109に保存される重みの一例を図19に示す。図19においてw1、w2、・・・、wnは、声質特徴DB101に格納されている各声質特徴(例えば声道情報である反射係数、基本周波数など)に対する重みパラメータである。
このように、ユーザが満足するまでステップS101からステップS105までの処理を繰り返すことにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。また、この重みに基づいて声質空間を生成することにより、ユーザの感覚に合致した声質空間を構築することが可能となる。
以上説明した重み設定方法では、ユーザが重みを選択した後に、選択した重みに基づいた声質の表示を行っているが、重みDB401に登録されている複数の重みに基づいた声質を表示させた後、ユーザの感覚に最も近い重みを選択させるようにしてもよい。図20は、そのような重みの設定方法のフローチャートである。
声質間距離算出部102は、重みDB401に保持されている複数の重みの各々を用いて、声質特徴DB101に保持されている各音声間の距離を算出し、距離行列を作成する(ステップS111)。
尺度構成部105は、重み毎に、ステップS111において作成された距離行列を用いて、声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS112)。
表示部107は、重み毎に、声質特徴DB101に保持された各声質に対して、ステップS112において算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS113)。図21は、ステップS113における表示の一例を示す図である。同図には、4つの重みの各々について、話者属性情報が表示されている。4つの重みとは、例えば、基本周波数(高い声であるか低い声であるかを示す声質特徴)に対する重みと、声道形状(太い声であるか細い声であるかを示す声質特徴)に対する重みと、非周期成分(かすれた声であるか澄んだ声であるかを示す声質特徴)に対する重みと、声門開放率(かたい声であるかやわらかい声であるかを示す声質特徴)に対する重みとである。図21には、これら4つの重みそれぞれに対する4つの声質空間が表示されており、各声質空間に話者属性情報が表示されている。
ユーザは、ステップS113において4つの声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、最も自分の感覚にあう、声質空間を選択する(ステップS114)。重み選択部402は、選択された声質空間に対応する重みを重みDB401より選択する。重み選択部402は、選択された重みを重み記憶部109に格納する(ステップS106)。
なお、重み記憶部109は、ユーザ毎に重みを記憶できるようにしても良い。ユーザ毎に重みを記憶することにより、別のユーザが声質を編集する際には、そのユーザに対応する重みを重み記憶部109から取得し、声質間距離算出部102および声質混合部110で使用することにより、そのユーザの感覚にあった声質空間を提示することが可能となる。
以上のような重み設定は、予め決められた候補の中から選択的に決定することができるので、ユーザに特別な知識がない場合においても、適切に重みを決定することができる。また、ユーザが重みを決定するのに必要な作業量も少なくできる。
(重み設定方法2)
次に、別の重み設定方法について説明する。
重み設定部103は、次の方法により重みを設定しても良い。図22は、重み設定部103を実現するための構成図である。重み設定部103は、代表声質DB403と、声質提示部404と、重み算出部405とを備えている。
代表声質DB403は、声質特徴DB101に保持される声質特徴データから代表的な声質特徴を予め抽出し、代表声質特徴を保持するデータベースである。したがって、必ずしも新たに記憶部を設けて、代表声質特徴を保持する必要はなく、声質特徴DB101内に代表声質特徴の識別子だけを保持するようにしても良い。声質提示部404は、代表声質DB403に保持された声質特徴をユーザに提示する。提示方法は特に限定しないが、声質特徴DB101を作成する際に使用した音声を再生することにより提示しても良い。これ以外にも代表声質DB403に保持されている代表声質に対応する話者属性を話者属性DB106から選択し、表示部107を用いて提示しても良い。
入力部104は、声質提示部404により提示された代表声質の中から、ユーザが近い声質であると判断する声質の組の入力を受け付ける。具体的な入力方法は特に限定されるものではない。例えば、入力部104としてマウスを想定した場合には、ユーザがマウスを用いて近い声質であると判断する声質特徴を指定することにより、声質の組の入力を受け付けるようにすればよい。また、入力部104はマウスに限られず、他のポインティングデバイスであってもよい。
重み算出部405は、入力部104により指定されたユーザが近いと感じた声質の組に基づいて重みを算出する。
次に、図23に示すフローチャートを用いて、重み設定処理について説明する。
声質提示部404は、代表声質DB403に登録されている声質特徴をユーザに提示する(ステップS201)。例えば、声質提示部404が図24に示すような画面を表示部107に表示するようにしてもよい。図24に示す画面では、5人の話者情報(顔画像)が表示され、その隣に5つの再生ボタン901が表示されている。ユーザは、入力部104を操作して、音声再生したい話者に対応する再生ボタン901を押下する。声質提示部404は、押下された再生ボタン901に対応する話者の音声を再生する。
次に、ユーザは、入力部104を用いて声質が近いと感じる声質特徴の組を入力する(ステップS202)。例えば、図24に示す例では、チェックボックス902にチェックを入れることにより、似ている声質を2つ指定する。
次に、重み算出部405は、ステップS202で入力された声質の組を用いて、重みを決定する(ステップS203)。具体的には、指定された声質の組における式2で算出される声質間距離が式3の制約の下で最小になるように各声質iの重みwiを決定すれば良い。
具体的な重み決定法の一例を以下に示す。本決定法では、さらに式4に示すような制約を設け、式2を最小化する。
Figure 2008149547
具体的には、まず2つの組の各次元における差分の自乗が最小となる要素lminを式5により決定する。
Figure 2008149547
そして、各重みwiを式6によって決定する。
Figure 2008149547
重み算出部405は、ステップS203で設定された重みを重み記憶部109に保存する(ステップS204)。
重みの決定方法は、これに限定されるものではない。例えば、式5により2つの組の各次元における差分の自乗が最小となる要素を1つ決定するのではなく、複数決定しても良い。
また、選択された2つの声質の間の距離が小さくなるように重みを決定すれば、重み決定法は特に限定されるものではない。
なお、入力された音声の組が複数ある場合も同様に、それぞれの組から求められる距離の和が最小になるように重みを設定すればよい。
以上のように重みを設定することにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。同時にこの重みに基づいて声質空間を生成することによりユーザの感覚に即した声質空間を構築することが可能となる。
この重み設定方法は、重み設定方法1と比べて、声質に対するユーザの感覚をより詳細に設定することができる。すなわち、予め決められた重みを選択するのではなく、ユーザが似ていると感じる声質を選択することにより、その声質間の共通する特徴量に対する重みを大きくする。これにより、ユーザが似ていると感じるのに重要な特徴量を抽出することができるからである。
(重み設定方法3)
次に、別の重み設定方法について説明する。
重み設定部103は、次の方法により重みを設定しても良い。図25は、重み設定部103を実現するための構成図である。重み設定部103は、主観軸提示部406と、重み算出部407とを備えている。
主観軸提示部406は、図26に示すようなユーザに「高い声−低い声」などの主観的な主観軸を提示する。入力部104は、主観軸提示部406により提示された各時間軸に対する重要度の入力を受け付ける。例えば、図26に示す例では、入力欄903に数値を入力したり、ダイアル904を操作したりすることにより、「高い声−低い声」の主観軸の重要度は「1」、「かすれた声−澄んだ声」の主観軸の重要度は「3」、「太い声−細い声」の主観軸の重要度は「3」などというように入力することができる。この例では、ユーザは、「かすれた声−澄んだ声」という主観軸が重要であると入力したことになる。重み算出部407は、入力部104により入力された主観軸の重要度に基づいて重みを決定する。
次に、図27のフローチャートを用いて、重み設定処理について説明する。
主観軸提示部406は、声質編集装置が取り扱うことのできる主観軸をユーザに提示する(ステップS301)。提示方法は特に限定されるものではないが、例えば、図26に示すように各主観軸の名前と、その重要度を入力することが可能な入力欄903またはダイアル904とを合わせて提示することにより、主観軸を提示することができる。なお、この提示方法に限定されるものではなく、それぞれの主観軸を表現するようなアイコンで提示しても良い。
ユーザは、ステップS301で提示されたそれぞれの主観軸に対する重要度を入力する(ステップS302)。入力方法は特に限定されるものではなく、図26に示すように入力欄903に数値を入力したり、ダイアル904を回すことにより指定したりしても良いし、ダイアル904の変わりにスライダーを設けてスライダーの位置を調節することにより重要度を入力しても良い。
重み算出部407は、ステップS302において入力された各主観軸の重要度に基づいて、声質間距離算出部102が距離を算出する際に用いる重みを算出する(ステップS303)。
具体的には、主観軸提示部406で提示された主観軸と声質特徴DB101に保存されている物理パラメータとが対応付けられており、主観軸の重要度と物理パラメータの重要度とが対応するように重みを設定する。
例えば、主観軸「高い声−低い声」は、声質特徴DB101に保持されている「基本周波数」に対応する。したがって、主観軸「高い声−低い声」が重要であるとユーザに入力された場合には、物理パラメータ「基本周波数」の重要度が高くなるように重みを設定すればよい。
また、主観軸「かすれた声−澄んだ声」の場合は、物理パラメータ「非周期成分(AF)」に対応する。また、主観軸「太い声−細い声」は、物理パラメータ「声道形状(k)」に対応する。
なお、具体的な重みは、式3に示す重みの和が1という条件の下、各主観軸の重要度の比率に基づいて決定すればよい。
この方法による重み設定方法では、主観軸に基づいて重みを決定することができる。このため、重み設定方法2と比較して、重みを簡単に設定することが可能である。つまり、ユーザが各主観軸を理解することができる場合には、1つ1つの音声を聞くことなく、重視する主観軸を決定するだけでよい。
なお、これらの重み設定方法は、ユーザの持つ音声に対する知識や、重み設定に使用可能な時間に応じて選択的に切り替えるようにしても良い。例えば、音声に対する知識が全くない場合は、重み設定方法1を用いればよい。また、音声に対する知識はあるが、手早く決定したい場合には重み設定方法3を用いればよい。また、音声に対する知識があり、詳細に重みを設定したい場合には重み設定方法2を用いればよい。重み設定方法の選択の方法はこれに限られるものではない。
以上の方法により、ユーザの感覚に合う声質空間を生成するための重みを設定することができる。なお、重みの設定方法は上記方法に限られず、ユーザの感覚情報を入力として、重みを調整するものであれば良い。
次に、本発明の声質編集装置により作成された声質特徴を用いて、実際に声質を変換する方法について説明する。
図28は、本発明に係る声質編集装置により生成された声質特徴を用いて、声質変換を行なう声質変換装置の構成を示す図である。声質変換装置は、一般的なコンピュータを用いて構成することが可能である。
声質変換装置は、母音変換部601と、子音声道情報保持部602と、子音選択部603と、子音変形部604と、音源変形部605と、合成部606とを備えている。
母音変換部601は、音素境界情報付声道情報と、本発明に係る声質編集装置により生成された声質特徴とを入力とし、生成された声質特徴に基づいて、音素境界情報付声道情報に含まれる母音の声道情報を変換する処理部である。音素境界情報付声道情報とは、入力音声の声道情報に音素ラベルが付された情報である。音素ラベルとは、入力音声に対応する音素情報と各音素の時間長の情報とを含む情報である。
子音声道情報保持部602は、予め、入力音声の話者とは別の話者により発声された子音の声道情報を保持する記憶装置であり、ハードディスクやメモリ等より構成される。
子音選択部603は、母音変換部601により母音区間の声道情報が変換された音素境界情報付声道情報に対して、変換後の母音区間の声道情報に適合するような子音の声道情報を子音声道情報保持部602から選択する処理部である。
子音変形部604は、子音選択部603により選択された子音の声道情報を、当該子音の前後に位置する母音の声道情報との接続歪が小さくなるように変形する処理部である。
音源変形部605は、入力音声の音源情報を、本発明の声質編集装置により生成された声質特徴のうち音源に関する情報を用いて変形する処理部である。
合成部606は、子音変形部604により変形された声道情報と、音源変形部605により変形された音源情報とを用いて、音声を合成する処理部である。
母音変換部601、子音声道情報保持部602、子音選択部603、子音変形部604、音源変形部605および合成部606は、コンピュータのCPUでプログラムを実行することにより実現される。
以上の構成により、本発明の声質編集装置より生成された声質特徴を用いて入力された音声の声質を変換することが可能となる。
母音変換部601は、入力された音素境界情報付声道情報の母音区間の声道情報と、本発明の声質編集装置により生成された声道特徴とを入力される変形比率に基づいて混合することにより、音素境界情報付声道情報の母音区間の声道情報を変換する。詳細な変換方法を以下に説明する。
まず、音素境界情報付声道情報は、変換元の音声から前述のPARCOR係数による声道情報を取得すると共に、当該声道情報に音素ラベルを付与することにより生成される。
さらに、入力音声が、テキストから音声を合成するテキスト合成装置により合成された音声の場合、音素ラベルはテキスト合成装置により取得することが可能である。また、合成された音声からPARCOR係数を算出することも容易に可能である。また、声質変換装置をオフラインで使用する場合には、当然ながら予め人手により音素境界情報を声道情報に付与してもよい。
図8A〜図8Jは、10次の反射係数で表現された母音/a/の声道情報の例を示す。同図において縦軸は反射係数を表し、横軸は時間を表す。この図からPARCOR係数は比較的滑らかな時間的な動きであることがわかる。
母音変換部601は、以上のようにして入力された音素境界情報付声道情報に含まれる母音の声道情報を変換する。
まず、母音変換部601は、変換対象の母音に対応する目標の声道情報(目標母音声道情報)を、本発明の声質編集装置により生成された声質特徴より取得する。対象となる目標母音声道情報が複数存在する場合には、変換対象となる母音の音韻環境(例えば前後の音素種類など)の状況に合わせて最適な目標母音声道情報を取得する。
母音変換部601は、入力された変換比率に基づいて、変換対象の母音を目標母音声道情報に変換する。
入力された音素境界情報付声道情報において、変換対象となる母音区間のPARCOR係数で表現された声道情報の各次元での時系列を、式7に示す多項式により近似する。例えば、声道情報が10次のPARCOR係数の場合は、それぞれの次数のPARCOR係数を、式7に示す多項式により近似する。
Figure 2008149547
ただし、
Figure 2008149547
は、近似された入力音声のPARCOR係数を示し、aiは近似されたPARCOR係数の多項式の係数を示す。
これにより、10種類の多項式を得ることができる。多項式の次数は特に限定されるものではなく、適当な次数を設定することができる。
このとき多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅としても良い。なお、以下の説明では、音素区間を単位として説明を行う。
図29A〜図29Dは、PARCOR係数を5次の多項式により近似し、音素単位で時間方向に平滑化した際の1次から4次のPARCOR係数をそれぞれ示す図である。各グラフの縦軸は反射係数を表し、横軸は時間を表す。
本実施の形態では、多項式の次数として5次を例に説明しているが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素単位時間ごとの回帰直線によりPARCOR係数を近似しても良い。
同様に、母音変換部601は、本発明の声質編集装置により生成された声質特徴に含まれるPARCOR係数で表現された目標母音声道情報を、式8に示す多項式により近似し、多項式の係数biを取得する。
Figure 2008149547
次に、母音変換部601は、被変換パラメータ(ai)と、目標母音声道情報(bi)と、変換比率(r)とを用いて、次式9により変換後の声道情報(PARCOR係数)の多項式の係数ciを求める。
Figure 2008149547
母音変換部601は、算出した変換後の多項式の係数ciを用いて、変換後の声道情報
Figure 2008149547
を式10により求める。
Figure 2008149547
母音変換部601は、以上の変換処理を各次元のPARCOR係数について行なう。この処理により、指定された変換比率での、被変換音声の母音声道情報を表すPARCOR係数から、目標音声の母音声道情報を表すPARCOR係数への変換が可能になる。
実際に、母音/a/に対して、上記の変換を行った例を図30に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。図中の(a)は被変換音声を示す男性話者の/a/の発声の係数の推移を示している。同様に(b)は目標音声を示す女性話者の/a/の発声の係数の推移を示している。(c)は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率0.5で変換した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
図31A〜図31Cは、変換した母音区間の時間的な中心における声道断面積を示す図である。この図は、図30に示したPARCOR係数の時間的な中心点におけるPARCOR係数を式1により声道断面積に変換したものである。図31A〜図31Cの各グラフにおいて、横軸は音響管における位置を表しており、縦軸は声道断面積を表している。図31Aは変換元の男性話者の声道断面積であり、図31Bは目標話者の女性の声道断面積であり、図31Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積である。この図からも、図31Cに示す声道断面積は、変換元と変換先の間の中間の声道断面積となっていることがわかる。
声質を目標話者に変換するために母音変換部601で入力された音素境界情報付声道情報に含まれる母音声道情報を目標話者の母音声道情報に変換したが、母音声道情報を変換することにより、子音と母音との接続境界において、声道情報の不連続が生じる。
図32は、VCV(Vは母音、Cは子音を表す)音素列において、母音変換部601が母音の変換を行った後のあるPARCOR係数を模式的に示した図である。
同図において、横軸は時間を表し、縦軸はPARCOR係数を表す。図32(a)は、入力音声の声道情報である。このうち母音部分のPARCOR係数は、図32(b)に示すような目標話者の声道情報を用いて母音変換部601により変形される。その結果、図32(c)に示されるような母音部分の声道情報10aおよび10bが得られる。しかし、子音部分の声道情報10cは、変換されておらず入力音声の声道情報を示している。このため、母音部分の声道情報と子音部分の声道情報との境界で不連続が生じる。したがって子音部分の声道情報についても変換が必要となる。
子音区間の変換方法について以下に説明する。音声の個人性は、母音と子音の継続時間や安定性などを考えた場合、主に母音により表現されていると考えることができる。
そこで、子音に関しては目標話者の声道情報を使用せずに、予め用意された子音の複数の声道情報の中から、母音変換部601により変換された後の母音声道情報に適合する子音の声道情報を選択することにより、変換後の母音との接続境界における不連続を緩和することができる。図32(c)では、子音声道情報保持部602に記憶されている子音の声道情報の中から、前後の母音の声道情報10aおよび10bとの接続性が良い子音の声道情報10dを選択することにより、音素境界における不連続を緩和することができている。
以上を実現するために、予め複数の話者の複数の発声から子音区間を切り出し、各子音区間の声道情報からPARCOR係数を算出することにより、子音声道情報保持部602に記憶される子音声道情報が作成される。
子音選択部603は、母音変換部601により変換された母音声道情報に適合する子音声道情報を子音声道情報保持部602から選択する。子音の選択基準は、子音の種類(音素)、ならびに子音の始端および終端の接続点における声道情報の連続性である。つまり、PARCOR係数の接続点における声道情報の連続性に基づいて、選択される子音を評価することができる。具体的には、子音選択部603は、式11を満たす子音声道情報(Ci)を探索する。
Figure 2008149547
ここで、Ui-1は、前方の音素の声道情報を表し、Ui+1は後続の音素の声道情報を表す。weightは前方の音素と選択対象の子音との連続性と、選択対象の子音と後続の音素の連続性との重みである。重みは、後続音素との接続性を重視するように適宜設定される。後続音素との接続性を重視するのは、子音は、前方の音素よりも後続する母音との結びつきが強いためである。
関数Ccは、2つの音素の声道情報の連続性を示す関数であり、当該関数の値は、例えば、2つの音素の境界におけるPARCOR係数の差の絶対値により表現することができる。また、PARCOR係数は低次の係数ほど重みを大きくするように設計してもよい。
このようにして、子音選択部603は、目標声質への変換後の母音の声道情報に適合する子音の声道情報を、子音声道情報保持部602から選択する。これにより、声道情報の滑らかな接続が可能となり、合成音声の自然性を向上させることができる。
なお、子音選択部603において選択する子音を有声子音だけとし、無声子音は入力された音素境界情報付声道情報に含まれる声道情報を使用するように設計してもよい。なぜならば、無声子音は声帯の振動を伴わない発声であり、音声の生成過程が母音や有声子音の場合とは異なるためである。
子音選択部603は、母音変換部601により変換された後の母音声道情報に適合する子音声道情報を取得することが可能であるが、必ずしも接続点の連続性が十分でない場合がある。そこで、子音変形部604は、子音選択部603が選択した子音の声道情報と後続母音の声道情報とが、後続母音の接続点で連続的に接続するように、選択した子音の声道情報を変形する。
具体的には、子音変形部604は、後続母音との接続点において、PARCOR係数が後続母音のPARCOR係数と一致するように、子音のPARCOR係数をシフトさせる。ただし、PARCOR係数は安定性の保証のためには、[−1,1]の範囲である必要がある。このため、PARCOR係数を一旦tanh-1関数などにより[−∞,∞]の空間に写像し、写像された空間上で線形にシフトした後、再びtanh関数により[−1,1]の範囲に戻す。これにより、安定性を保証したまま、子音区間と後続母音区間の声道形状の連続性を改善することが可能となる。
音源変形部605は、本発明の声質編集装置により生成された声質特徴に含まれる音源情報を用いて、変換元音声(入力音声)の音源情報を変形する。通常、LPC系の分析合成においては、励振音源としてインパルス列を用いることが多い。このため、予め設定された基本周波数などの情報に基づいて音源情報(F0、パワーなど)を変形した後に、音源情報を合成するようにしてもよい。これにより、声質変換装置では、声道情報による声色の変換だけでなく、基本周波数などの韻律や音源情報の変換を行うことが可能となる。
また、例えば合成部606において、Rosenberg−Klattモデルなどの声門音源モデルを用いることもできる。このような構成を用いた場合、Rosenberg−Klattモデルのパラメータ(OQ、TL、AV、F0等)を被変換音声のパラメータから目標音声に向けてシフトした値を用いるなどの方法を用いることも可能である。
合成部606は、声質変換後の声道情報と、音源変形部605にて変形された後の音源情報とを用いて、音声を合成する。合成の方法は特に限定されるものではないが、声道情報としてPARCOR係数を用いている場合には、PARCOR合成を用いればよい。また、PARCOR係数からLPC係数に変換した後に、LPC係数を合成するようにしてもよいし、PARCOR係数からフォルマントを抽出し、フォルマント合成するようにしてもよい。さらには、PARCOR係数からLSP係数を算出し、LSP合成するようにしてもよい。
以上のような声質変換装置を用いることにより、本発明の声質編集装置により生成された声質特徴を有する合成音を生成することが可能となる。なお、声質変換方法は上記の方法に限定されるものではなく、本発明の声質編集装置により生成される声質特徴を用いて声質を変換するものであれば、その他の方法であってもよい。
(効果)
また、重み設定部103により重みを調節することにより、声質間距離算出部102が、ユーザが感じる距離感を反映した声質間距離を算出することが可能となる。また、ユーザの距離感覚を元に、尺度構成部105が各声質の座標位置を算出する。このため、表示部107は、ユーザの感覚に合う声質空間を表示することができる。さらに、この声質空間は、ユーザの感覚にあった距離空間である。このため、表示されている複数の声質の間に位置する声質を想定することも、予め決められた距離尺度を用いて声質を想定する場合と比較すると、容易となる。したがって、位置入力部108を用いてユーザが所望する声質に対応した座標を指定することも容易になる。
さらに、声質混合部110で声質を混合する際には、以下のようにして声質候補の混合比率が決定される。つまり、ユーザによって決定された重みを用いた声質空間において、近接声質候補が選択される。また、その声質空間上での声質間の距離に基づいて、選択された各声質候補の混合比率が決定される。このため、決定された混合比率は、ユーザが想定する声質の混合比率に一致させることができる。また、位置入力部108を用いてユーザが指定した座標に対応する声質を生成する際にも、重み記憶部109に保持されているユーザによって設定された重みが使用される。このため、ユーザと共有された、声質編集装置における声質空間上の位置に対応した声質を生成することが可能となる。
つまり、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを、重み記憶部109に保持されている重みを媒介として共有することができる。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。
さらに、通常、音声は、実際に音声を聞かなければ、その音声がどのような声質であるのかをユーザに想起させることは非常に困難である。しかし、ユーザに声質空間を表示する際には、表示部107は、話者属性DB106に保持されている顔画像などの話者属性情報を表示している。このため、ユーザは、顔画像を見ることにより、当該顔画像の個人の声質を容易に想起することができる。このため、音声に対して専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。
さらに、本発明の声質編集装置は、声質特徴DB101に保持されている声質特徴を用いて、ユーザが所望する声質特徴を生成する声質編集処理のみを行い、声質特徴を用いて音声の声質変換を行う声質変換装置とは分離している。このため、一旦、本発明の声質編集装置により声質を決定し、決定した声質特徴だけを別途保存することができる。これにより、その後、その声質特徴を用いて音声の声質変換を行なう際には、保存しておいた声質特徴を再度利用するだけでよく、毎回声質を編集し直すという作業を行なわなくてもよいという効果も有する。
なお、本発明の声質編集装置の各構成要素は、例えば、図33に示すように、コンピュータにより実現される。つまり、表示部107は、ディスプレイにより実現され、入力部104および位置入力部108はキーボードやマウスなどの入力装置により実現される。また、重み設定部103、声質間距離算出部102、尺度構成部105、声質混合部110は、CPU上でプログラムを実行することにより実現される。さらに、声質特徴DB101、話者属性DB106、重み記憶部109は、コンピュータ内の内部メモリにより実現することができる。
なお、本発明の声質編集装置による声質空間の表示例として、2次元平面上に各声質特徴を布置するように記述したが、表示方法はこれに限定されるものではなく、擬似的に3次元空間上に配置しても良い、さらには、球面上に配置するように布置するように設計しても良い。
(変形例)
実施の形態1では、声質特徴DB101に保持されている声質特徴を全て用いてユーザ所望の声質を編集していたが、本変形例では、声質特徴DB101に保持されている声質特徴の一部を使用してユーザに声質を編集させることを特徴とする。
本発明の実施の形態1では、声質特徴DB101に保持されている声質特徴に対応する話者属性を表示部107が表示する。しかしながら、表示された話者属性をユーザが知らない場合には、声質編集装置がユーザに話者属性を提示しても、ユーザはその声質を想起することができないという問題がある。本変形例では、この問題を解決する。
図34は、本変形例に係る声質編集装置の構成を示すブロック図である。図34において、図5と同じ構成要素については同じ符号を用い、説明を省略する。図34に示す声質編集装置は、図5に示した声質編集装置に、さらに、ユーザ情報管理DB501が付加された構成を有する。
ユーザ情報管理DB501は、ユーザが既知の声質の情報を管理するデータベースである。図35は、ユーザ情報管理DB501が管理する情報の例を示す図である。ユーザ情報管理DB501は、声質編集装置を利用するユーザのユーザIDと、ユーザ毎にユーザが知っている既知声質IDとを少なくとも保持する。同図の例では、ユーザ1は、声質1および声質2の声質を保持する人物を知っていることが分かる。また、ユーザ2は、声質1、声質3及び声質5の声質を保持する人物を知っていることが分かる。このような情報を用いることにより、表示部107は、ユーザが知っている声質の情報のみをユーザに提示することが可能となる。
なお、上記説明では、ユーザが知っている声質が数個であるように説明したが、より多数の声質を指定しても構わない。
また、ユーザ情報管理DB501に保持されるデータの作成方法は特に限定されるものではないが、例えば、予めユーザに声質特徴DB101に保持されている声質および話者属性DB106に保持されている話者属性から、自分が知っている声質および話者属性を選択してもらうことにより作成すればよい。
または、声質編集装置が予め想定するユーザの属性ごとに表示する声質および話者属性を決定しても良い。例えば、ユーザIDの代わりに性別または年齢ごとにユーザグループを定義する。そして、そのグループに属する性別または年齢の人が知っていると考えられる声質および話者属性を予め設定しておく。声質編集装置は、ユーザに性別または年齢を入力させることにより、ユーザ情報管理DB501を用いて表示すべき声質を決定することができる。このような構成にすることにより、予めユーザに自分が知っている声質データを指定させることなく、ユーザが知っていると思われる声質を特定することが可能となる。
または、既知声質IDをユーザに指定させるのではなく、ユーザが使用する外部データベースから、当該外部データベースに保持されている話者識別情報を取得し、取得された話者識別情報に対応する話者の声質のみを既知声質として管理しても良い。外部データベースとしては、例えば、ユーザが所有する音楽コンテンツの歌唱者の情報を用いることができる。または、ユーザが保有する映像コンテンツに出演している俳優の情報を用いて、外部データベースを作成することができる。なお、話者識別情報の作成方法は、これらに限定されるものではなく、声質特徴DB101に保持されている声質からユーザが知っている声質を特定できる情報を作成できればよい。
これにより、ユーザは、自分が保持する音声コンテンツのデータを声質編集装置に提供するだけで、声質編集装置は、ユーザが知っている声質の情報を自動的に取得することができ、ユーザ情報管理DB501を作成できる。このため、ユーザの処理負荷を小さくすることができる。
(効果)
以上のように声質編集装置を構成することにより、表示部107により提示される声質空間は、ユーザが知っている声質のみから構成される。このことにより、さらにユーザの感覚に合った声質空間を構成することが可能となる。したがって、ユーザが所望の声質を指定する際にも、提示されている空間がユーザの感覚に合っていることから、指定したい座標を簡単に設定することが可能となる。
なお、声質混合部110により、声質特徴DB101に登録されている複数の声質を混合する際には、ユーザ情報管理DB501により管理されているユーザが知っている声質特徴だけではなく、声質特徴DB101に登録されている全ての声質特徴を用いて、ユーザが指定した座標位置の声質を生成してもよい。
その場合は、ユーザが指定した座標位置と、近接声質候補選択部201により選択される近接声質との距離は、ユーザ情報管理DB501により管理されている声質情報のみを用いた場合と比較して、小さくすることが可能となり、結果として、声質を大きく変更することなく、ユーザが指定した座標位置の声質を混合することができる。したがって、声質の変形量が少ない分、音質の劣化も少なくすることができ、高音質の声質特徴を生成することができるという効果を有する。
なお、重み設定部103が、重み設定部103により設定された重みを用いて、声質特徴DB101に保持されている声質特徴をクラスタリングし、ユーザ情報管理DB501が、クラスタを代表する声質を保持するようにしても良い。
これによると、ユーザの感覚に合った声質空間を保ちながら、声質空間に表示する声質数を抑制することができる。このため、ユーザが提示された声質空間を把握しやすくなるという効果を有する。
(実施の形態2)
本発明の実施の形態1に係る声質編集装置は、1台のコンピュータで声質の編集を行なうものである。しかしながら、一人で複数台のコンピュータを使用するということも日常的に行なわれている。また、現在では種々のサービスは、コンピュータだけでなく、携帯電話や携帯端末向けにされている。したがって、あるコンピュータで構築した自分の環境を他のコンピュータ、携帯電話、携帯端末で利用するという利用も考えられる。そこで、実施の形態2では、複数の端末において同一の編集環境を実現することができる声質編集システムについて説明する。
図36は、本発明の実施の形態2に係る声質編集システムの構成を示す図である。声質編集システムは、ネットワーク704に相互に接続された端末701、端末702およびサーバ703を備えている。端末701は、声質を編集する装置である。端末702は、別の声質を編集する装置である。サーバ703は、端末701および端末702により編集された声質を管理する装置である。なお、端末の数はこれに限定されるものではない。
端末701および端末702は、声質特徴DB101、声質間距離算出部102、重み設定部103、入力部104、尺度構成部105、話者属性DB106、表示部107、位置入力部108および声質混合部110を備えている。
サーバ703は、重み記憶部109を備えている。
端末701の重み設定部103により重みが設定された場合は、端末701は、ネットワークを介して、重みをサーバ703に送信する。
サーバ703の重み記憶部109は、ユーザごとに重みを保存および管理する。
ユーザが端末702(重みを設定した端末とは別の端末)を用いて声質を編集する場合には、ネットワークを介してサーバ703に保持されているユーザの重みを取得する。
端末702の声質間距離算出部102が取得した重みを用いて声質間距離を算出することにより、端末701で設定した声質空間と同じ声質空間を別の端末である端末702で再現することができる。
端末701で重みを設定し、端末702で設定された重みを用いて声質を編集する例について、動作を説明する。
まず、端末701の重み設定部103が、重みを決定する。例えば、図17に示した構成の重み設定部103が、図18に示したフローチャートの流れで処理を行なう。
つまり、端末701の重み設定部103は、重みDB401により保持されている重みの中から、入力部104を用いてユーザにより選択された重みを1つ選択する(ステップS101)。
ステップS101により選択された重みを用いて、声質間距離算出部102が声質特徴DB101に保持されている各声質間の距離を算出し、距離行列を作成する(ステップS102)。
ステップS102で作成された距離行列を用いて、尺度構成部105が声質特徴DB101に保持された各声質の声質空間上での座標を算出する(ステップS103)。
表示部107は、声質特徴DB101に保持された各声質に対して、ステップS103で算出された声質空間上の座標に、話者属性DB106に保持された当該声質に対応する話者属性情報を表示する(ステップS104)。
ユーザはステップS104で声質空間に布置された声質特徴DB101に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する(ステップS105)。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。
ユーザが現在表示されている声質空間に満足しなかった場合には(ステップS105でNo)、ステップS101からステップS105までの処理を、ユーザが満足するまで繰り返す。
ユーザが現在表示されている声質空間に満足した場合には(ステップS104でYes)、重み選択部402は、ステップS101で選択された重みを、ネットワーク704を介してサーバ703に送信し、サーバ703が受信した重みを重み記憶部109に登録し、重み設定処理を終了する(ステップS106)。
このように、ユーザが満足するまでステップS101からステップS105までの処理を繰り返すことにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。また、この重みに基づいて声質空間を生成することにより、ユーザの感覚に合致した声質空間を構築することが可能となる。
なお、上記の説明では、重み設定部103を図17の構成で説明したが、図22または図25の構成により実現しても構わない。
次に、別の端末702を用いて声質を編集する処理について図37のフローチャートを用いて説明する。
声質間距離算出部102は、サーバ703に登録されている重み情報をネットワーク704を介して取得する(ステップS401)。声質間距離算出部102は、ステップS101において取得した重みを用いて声質特徴DB101に保持された全ての声質間の距離を算出する(ステップS002)。
次に、尺度構成部105は、ステップS002において計算された声質特徴DB101に保持された声質間の距離(距離行列)を用いて、声質の声質空間上の座標を算出する(ステップS003)。
次に、表示部107は、声質特徴DB101に保持されている各声質に対し、ステップS003により生成された座標位置に、話者属性DB106に保持されている当該声質に対応する話者属性を表示する(ステップS004)。
次に、ユーザは、位置入力部108を用いて所望する声質を有する座標位置を入力する(ステップS005)。
次に、声質混合部110は、ステップS005において指定された座標に対応する声質を生成する(ステップS006)。
以上の処理により、端末701で設定した重みを用いて、端末702で声質編集作業を行なうことが可能となる。
(効果)
かかる構成によると、複数の端末に共通する声質空間上で、声質の編集を行なうことが可能となる。例えば、実施の形態1に係る声質編集装置では、ユーザがコンピュータや携帯端末など複数の端末で声質を決定するような場合には、個々の端末で重みを決定する必要がある。しかし、実施の形態2に係る声質編集システムを用いることにより、1つの端末で重みを決定し、決定したサーバに重みを保存することにより、他の端末では重みを決定する必要がなくなる。つまり、他の端末は、サーバから重みを取得するだけでよい。したがって、声質編集における声質空間の構成に必要な重み設定作業量を個々の端末ごとに行なう場合と比較すると、ユーザが声質を決定する際の負担を大幅に削減することが可能となるという効果を有する。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明に係る声質編集装置は、ユーザの感覚に合った声質空間を作成することにより、直感的にわかりやすい声質空間の提示を可能とし、また、提示された声質空間上の座標位置を入力することで、ユーザが所望する声質を生成する機能を有する。このため、種々の声質を必要とするユーザインタフェースや、エンターテイメント等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の声質指定の用途にも応用できる。
図1は、声質編集インタフェースの一例を示す図である。 図2は、特許文献1に記載の音響ブラウジング装置の構成を示すブロック図である。 図3は、特許文献2に記載のデータ表示装置の構成を示すブロック図である。 図4は、本発明の実施の形態1に係る声質編集装置の外観図である。 図5は、本発明の実施の形態1に係る声質編集装置の構成を示すブロック図である。 図6は、声道断面積関数とPARCOR係数との関係を示す図である。 図7は、声質特徴DBに格納する声質特徴の抽出方法を示す図である。 図8Aは、母音/a/の1次の反射係数による声道情報の一例を示す図である。 図8Bは、母音/a/の2次の反射係数による声道情報の一例を示す図である。 図8Cは、母音/a/の3次の反射係数による声道情報の一例を示す図である。 図8Dは、母音/a/の4次の反射係数による声道情報の一例を示す図である。 図8Eは、母音/a/の5次の反射係数による声道情報の一例を示す図である。 図8Fは、母音/a/の6次の反射係数による声道情報の一例を示す図である。 図8Gは、母音/a/の7次の反射係数による声道情報の一例を示す図である。 図8Hは、母音/a/の8次の反射係数による声道情報の一例を示す図である。 図8Iは、母音/a/の9次の反射係数による声道情報の一例を示す図である。 図8Jは、母音/a/の10次の反射係数による声道情報の一例を示す図である。 図9は、声質特徴DBに格納される声質特徴の一例を示す図である。 図10は、話者属性DBに格納される話者属性の一例を示す図である。 図11は、本発明の実施の形態1における声質編集装置の基本動作を示すフローチャートである。 図12は、声質間距離算出部により算出される距離行列のデータ構造を示す図である。 図13は、尺度構成部により算出された各声質の座標位置の一例を示す図である。 図14は、表示部により表示される話者属性の一例を示す図である。 図15は、声質混合部の具体的な構成を示すブロック図である。 図16は、近接声質選択部により選択される声質を模式的に表す図である。 図17は、重み設定部の具体的な構成を示すブロック図である。 図18は、重み設定方法のフローチャートである。 図19は、重み設定部により設定される重みのデータ構造を示す図である。 図20は、重み設定方法のフローチャートである。 図21は、表示部が表示する複数の声質空間の一例を示す図である。 図22は、重み設定部の具体的な構成を示すブロック図である。 図23は、重み設定方法のフローチャートである。 図24は、声質提示部よる声質の提示について説明するための図である。 図25は、重み設定部の具体的な構成を示すブロック図である。 図26は、主観軸提示部により提示される主観軸の一例を示す図である。 図27は、重み設定方法のフローチャートである。 図28は、声質編集装置により生成された声質特徴を用いて声質変換を行なう声質変換装置の構成を示すブロック図である。 図29Aは、多項式近似された母音の声道形状の一例を示す図である。 図29Bは、多項式近似された母音の声道形状の一例を示す図である。 図29Cは、多項式近似された母音の声道形状の一例を示す図である。 図29Dは、多項式近似された母音の声道形状の一例を示す図である。 図30は、母音変換部による母音区間のPARCOR係数の変換処理について説明するための図である。 図31Aは、変換元の男性話者の声道断面積の様子を示す図である。 図31Bは、目標話者の女性の声道断面積の様子を示す図である。 図31Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積の様子を示す図である。 図32は、子音選択部により子音声道形状を選択する処理を説明するための模式図である。 図33は、本発明の実施の形態1に係る声質編集装置のコンピュータ上での構成を示す図である。 図34は、本発明の実施の形態1の変形例に係る声質編集装置の構成を示すブロック図である。 図35は、ユーザ情報管理DB501が管理する情報のデータ構造の一例を示す図である。 図36は、本発明の実施の形態2に係る声質編集システムの構成を示す図である。 図37は、本発明の実施の形態2に係る声質編集システムが備える端末が行なう処理のフローチャートである。
符号の説明
101 声質特徴DB
102 声質間距離算出部
103 重み設定部
104 入力部
105 尺度構成部
106 話者属性DB
107 表示部
108 位置入力部
109 重み記憶部
110 声質混合部
201 近接声質候補選択部
202 混合比率算出部
203 特徴量混合部
301 母音安定区間抽出部
302 声質特徴算出部
401 重みDB
402 重み選択部
403 代表声質DB
404 声質提示部
405、407 重み算出部
406 主観軸提示部
501 ユーザ情報管理DB
601 母音変換部
602 子音声道情報保持部
603 子音選択部
604 子音変形部
605 音源変形部
606 合成部
701、702 端末
703 サーバ
704 ネットワーク

Claims (11)

  1. 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、
    複数の声質特徴を記憶する声質特徴データベースと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
    声質の音響特徴量毎に重みを設定する重み設定部と、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、
    座標の入力を受け付ける位置入力部と、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部と
    を備える声質編集装置。
  2. 前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、
    前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する
    請求項1に記載の声質編集装置。
  3. 前記表示座標算出部は、
    前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を前記重み設定部で設定された重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
    前記声質間距離算出部により算出された声質特徴間の距離に基づいて、前記声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部とを有し、
    前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する
    請求項1に記載の声質編集装置。
  4. 前記重み設定部は、
    前記複数の声質の音響特徴量の重み付けにそれぞれ用いられる複数の重みからなる重み情報を記憶する重み記憶部と、
    重み情報を指定する重み指定部と、
    前記重み指定部で指定された重み情報を、前記重み記憶部の中から選択することにより、声質の音響特徴量毎の重みを設定する重み選択部とを有する
    請求項1に記載の声質編集装置。
  5. 前記重み設定部は、
    前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、予め選択された2つ以上の声質特徴を記憶する代表声質記憶部と、
    前記代表声質記憶部に記憶されている声質特徴をユーザに提示する声質提示部と、
    前記声質提示部により提示された声質特徴の中から、声質特徴の組の入力を受け付ける声質特徴組入力部と、
    前記入力部により入力された前記声質特徴の組に含まれる声質特徴間の距離が最小となるような複数の声質の音響特徴量の重みを算出する重み算出部とを有する
    請求項1に記載の声質編集装置。
  6. 前記重み設定部は、
    声質の音響特徴量毎に、当該音響特徴量を表す主観的表現を提示する主観的表現提示部と、
    前記主観的表現提示部により提示された主観的表現毎に、当該主観的表現に対する重要度の入力を受け付ける重要度入力部と、
    前記重要度入力部で受け付けられた重要度に基づいて、当該重要度が高いほど当該重要度に対する声質の音響特徴量の重みが高くなるように重みを決定することにより、声質の音響特徴量毎の重みを算出する重み算出部とを有する
    請求項1に記載の声質編集装置。
  7. さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、
    前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
    請求項1に記載の声質編集装置。
  8. さらに、
    ユーザの性別または年齢の入力を受け付ける個人特性入力部と、
    ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、
    前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
    請求項1に記載の声質編集装置。
  9. 声質編集装置により、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集方法であって、
    前記声質編集装置は、
    複数の声質特徴を記憶する声質特徴データベースと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
    前記声質編集方法は、
    声質の音響特徴量毎に重みを設定するステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
    座標の入力を受け付けるステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
    を含む声質編集方法。
  10. 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成するコンピュータ実行可能なプログラムであって、
    前記コンピュータは、
    複数の声質特徴を記憶する声質特徴データベースと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
    声質の音響特徴量毎に重みを設定するステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
    座標の入力を受け付けるステップと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
    をコンピュータに実行させるためのプログラム。
  11. 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、
    ネットワークを介して相互に接続される第1の端末と、第2の端末と、サーバとを備え、
    前記第1の端末および前記第2の端末の各々は、
    複数の声質特徴を記憶する声質特徴データベースと、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
    声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、
    前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
    前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、
    座標の入力を受け付ける位置入力部と、
    前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、
    前記サーバは、前記第1の端末または前記第2の端末から送信される重みを記憶する重み記憶部を有する
    声質編集システム。
JP2008548905A 2007-06-06 2008-06-04 声質編集装置および声質編集方法 Expired - Fee Related JP4296231B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007151022 2007-06-06
JP2007151022 2007-06-06
PCT/JP2008/001407 WO2008149547A1 (ja) 2007-06-06 2008-06-04 声質編集装置および声質編集方法

Publications (2)

Publication Number Publication Date
JP4296231B2 JP4296231B2 (ja) 2009-07-15
JPWO2008149547A1 true JPWO2008149547A1 (ja) 2010-08-19

Family

ID=40093379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008548905A Expired - Fee Related JP4296231B2 (ja) 2007-06-06 2008-06-04 声質編集装置および声質編集方法

Country Status (4)

Country Link
US (1) US8155964B2 (ja)
JP (1) JP4296231B2 (ja)
CN (1) CN101622659B (ja)
WO (1) WO2008149547A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
CN101727899B (zh) * 2009-11-27 2014-07-30 北京中星微电子有限公司 一种音频数据处理方法及音频数据处理系统
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
JP2011250311A (ja) * 2010-05-28 2011-12-08 Panasonic Corp 聴覚ディスプレイ装置及び方法
CN102473416A (zh) * 2010-06-04 2012-05-23 松下电器产业株式会社 音质变换装置及其方法、元音信息制作装置及音质变换系统
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US9520125B2 (en) * 2011-07-11 2016-12-13 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
WO2013008471A1 (ja) 2011-07-14 2013-01-17 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
USD732555S1 (en) * 2012-07-19 2015-06-23 D2L Corporation Display screen with graphical user interface
USD733167S1 (en) * 2012-07-20 2015-06-30 D2L Corporation Display screen with graphical user interface
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9542939B1 (en) * 2012-08-31 2017-01-10 Amazon Technologies, Inc. Duration ratio modeling for improved speech recognition
JP6127422B2 (ja) * 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
JP5802807B2 (ja) * 2014-07-24 2015-11-04 株式会社東芝 韻律編集装置、方法およびプログラム
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
JP6483578B2 (ja) 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6639285B2 (ja) * 2016-03-15 2020-02-05 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法
US9653096B1 (en) * 2016-04-19 2017-05-16 FirstAgenda A/S Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same
US11195542B2 (en) 2019-10-31 2021-12-07 Ron Zass Detecting repetitions in audio data
US20180018974A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for detecting tantrums
US10204098B2 (en) * 2017-02-13 2019-02-12 Antonio GONZALO VACA Method and system to communicate between devices through natural language using instant messaging applications and interoperable public identifiers
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
KR20190108364A (ko) * 2018-03-14 2019-09-24 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN108682413B (zh) * 2018-04-24 2020-09-29 上海师范大学 一种基于语音转换的情感疏导系统
US11423920B2 (en) * 2018-09-28 2022-08-23 Rovi Guides, Inc. Methods and systems for suppressing vocal tracks
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
CN110795593A (zh) 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
JP7394411B2 (ja) 2020-09-08 2023-12-08 パナソニックIpマネジメント株式会社 音信号処理システム、及び、音信号処理方法
CN112164387A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及电子设备和计算机可读存储介质
US11386919B1 (en) * 2020-12-31 2022-07-12 AC Global Risk, Inc. Methods and systems for audio sample quality control
WO2023166850A1 (ja) * 2022-03-04 2023-09-07 ソニーグループ株式会社 音声処理装置及び音声処理方法、情報端末、情報処理装置、並びにコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3251662B2 (ja) 1992-10-19 2002-01-28 富士通株式会社 データ表示処理システム
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JP3739967B2 (ja) * 1999-06-24 2006-01-25 富士通株式会社 音響ブラウジング装置及び方法
CA2392436A1 (en) * 1999-11-23 2001-05-31 Steven J. Keough System and method of templating specific human voices
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US7315820B1 (en) * 2001-11-30 2008-01-01 Total Synch, Llc Text-derived speech animation tool
JP4196052B2 (ja) 2002-02-19 2008-12-17 パナソニック株式会社 楽曲検索再生装置、及びそのシステム用プログラムを記録した媒体
CN101661754B (zh) * 2003-10-03 2012-07-11 旭化成株式会社 数据处理单元和数据处理单元控制方法
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4430960B2 (ja) * 2004-03-01 2010-03-10 日本電信電話株式会社 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
DE602005008041D1 (de) * 2004-04-29 2008-08-21 Koninkl Philips Electronics Nv Verfahren und system zur klassifizierung eines audiosignals
JP4403996B2 (ja) * 2005-03-29 2010-01-27 日本電気株式会社 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
CN101176146B (zh) * 2005-05-18 2011-05-18 松下电器产业株式会社 声音合成装置
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech

Also Published As

Publication number Publication date
JP4296231B2 (ja) 2009-07-15
US8155964B2 (en) 2012-04-10
CN101622659A (zh) 2010-01-06
WO2008149547A1 (ja) 2008-12-11
US20100250257A1 (en) 2010-09-30
CN101622659B (zh) 2012-02-22

Similar Documents

Publication Publication Date Title
JP4296231B2 (ja) 声質編集装置および声質編集方法
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US10347238B2 (en) Text-based insertion and replacement in audio narration
CN106898340B (zh) 一种歌曲的合成方法及终端
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP4125362B2 (ja) 音声合成装置
US7966186B2 (en) System and method for blending synthetic voices
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP6639285B2 (ja) 声質嗜好学習装置、声質嗜好学習方法及びプログラム
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
CN111370024A (zh) 一种音频调整方法、设备及计算机可读存储介质
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
WO2020095951A1 (ja) 音響処理方法および音響処理システム
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP6163454B2 (ja) 音声合成装置、その方法及びプログラム
JP2009216723A (ja) 類似音声選択装置、音声生成装置及びコンピュータプログラム
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
JP5181578B2 (ja) 音声合成装置、音声合成方法及びコンピュータプログラム
Jayasinghe Machine Singing Generation Through Deep Learning
CN115101043A (zh) 音频合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4296231

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140417

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees