WO2007091475A1

WO2007091475A1 - 音声合成装置、音声合成方法及びプログラム

Info

Publication number: WO2007091475A1
Application number: PCT/JP2007/051669
Authority: WO
Inventors: Masanori Kato
Original assignee: Nec Corporation
Priority date: 2006-02-08
Filing date: 2007-02-01
Publication date: 2007-08-16
Also published as: CN101379549A; JP5277634B2; JPWO2007091475A1; CN101379549B; US8209180B2; US20100145706A1

Abstract

　本発明の目的は、音楽との調和が取れた発話形式を持つ合成音声を生成できる装置、方法の提供することにある。音声合成装置の音楽ジャンル推定部２１において、入力された音楽信号が属する音楽ジャンルを推定し、発話形式選択部２３において、発話形式情報記憶部２４を参照して、音楽ジャンルから発話形式を決定する。韻律生成部１１では、韻律生成規則記憶部１５１から１５Ｎの中から発話形式に従って選択した韻律生成規則記憶部を参照して、発音記号列から韻律情報を生成する。単位波形選択部１２では、単位波形データ記憶部１６１から１６Ｎ中から発話形式に従って選択した単位波形データ記憶部を参照して、発音記号列と韻律情報から単位波形を選択する。波形生成部１３では、韻律情報と単位波形データから合成音声波形を生成する。

Description

音声合成装置、音声合成方法及びプログラム

技術分野

[0001] 本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置、音声合成方法及びプログラムに関する。

背景技術

[0002] 近年、計算機の高性能化 ·小型化に伴い、音声合成技術は、カーナビゲーシヨン装置、携帯電話、 PC、ロボット等の様々な装置に搭載されて利用されるようになった。様々な装置への応用が普及するにつれて、音声合成装置が利用される環境は多様化している。

[0003] 従来の一般的な音声合成装置では、発音記号列 (読み、構文'品詞情報、ァクセント型等を含むテキスト解析結果）に対して、韻律 (例えば、ピッチ周波数パタン、振幅、継続時間長)生成、単位波形 (例えば、自然音声から抽出されたピッチ長又は音節時間長程度の長さを持つ波形)選択、波形生成の処理結果は原則的に一意に決定される。すなわち、音声合成装置はどのような状況や環境においても、常に同一の発話形式 (声の大きさや発声速度、韻律、声色など)で音声合成を行っている。

[0004] しかしながら実際に人間の発声を観察すると、同一テキストを話す場合でも、話者の状況、感情、意図などに応じて、発話形式を制御している。従って、常に同一の発話形式を採用する従来の音声合成装置は、必ずしも音声というコミュニケーションメディアの特徴を十分に活用して、るとは、えな、のである。

[0005] 音声合成装置のこのような問題を解決するため、ユーザ環境 (音声合成装置の利用者がいる場所の状況や環境）に応じて韻律生成 ·単位波形選択を動的に変えることで、ユーザ環境に適した合成音声を生成し、ユーザの使い勝手を改善する試みがなされている。例えば、特許文献 1には、ユーザ環境の明るさやユーザの位置等を示す情報に応じて、音韻'韻律の制御規則を選択する音声合成システムの構成が開示されている。

[0006] また、特許文献 2には、周囲騒音のパワースペクトルや周波数分布情報を基に、子音パワー、ピッチ周波数、サンプリング周波数を制御する音声合成装置の構成が開示されている。

[0007] 更に、特許文献 3には、時刻、日付、及び曜日を含む各種計時情報を基に、発声速度、ピッチ周波数、音量、声質を制御する音声合成装置の構成が開示されている

[0008] 本発明の背景技術を構成する音楽信号の分析、検索方法を開示する非特許文献

1〜3を示しておく。非特許文献 1には、音楽信号の短時間振幅スペクトルや離散ゥエーブレット変換係数を分析することで音楽的な特徴 (楽器構成、リズム構造)を求めて、音楽ジャンルを推定するジャンル推定方法が開示されてヽる。

[0009] 非特許文献 2には、音楽信号のメル周波数ケプストラム係数から木構造型ベクトル量子化法を用いて音楽ジャンルを推定するジャンル推定方法が開示されて!、る。

[0010] 非特許文献 3には、スペクトルのヒストグラムで類似度の計算を行い、音楽信号を検索する方法が開示されて！ヽる。

[0011] 特許文献 1 :特許第 3595041号公報

特許文献 2：特開平 11— 15495号公報

特許文献 3 :特開平 11 161298号公報

非特許文献 l :Tzanetakis, Essl, Cook: "Automatic Musical Genre CI assification of Audio Signals", Proceedings of IS MIR 2001, pp. 205 - 210, 2001.

非特許文献 2 : Hoashi, Matsumoto, Inoue： "Personalization of User Profiles for Content— based Music Retrieval Based on Relevance F eedback", Proceedings of ACM Multimedia 2003, pp. 110— 119, 2003.

非特許文献 3 :木村、他：「グローバルな枝刈りを導入した音や映像の高速探索」，電子情報通信学会論文誌 D—Π, Vol. J85 -D-II, No. 10, pp. 1552 - 1562, 2002年 10月

発明の開示

発明が解決しょうとする課題 [0012] 聴衆の注意を引いたり、聴衆にメッセージを印象づけたりする目的で、自然音声とともに BGM (background music,以下、 BGMという）を流すことが一般的に行われている。例えば、テレビやラジオの-ユース、情報提供番組の多くで、ナレーションの背景に BGMが流されて、る。

[0013] これらの番組を分析すると、話者の発話形式に応じて、 BGM、特にその BGMが属する音楽ジャンルが選択されているということもある力話者の方で BGMを意識した話し方がなされているという関係を見出すことができる。例えば、天気予報や交通情報では、イージーリスニングのような穏やかな曲調の BGMとともに、落ち着いた口調でアナウンスが行われるのが一般的である。ところが、同一の内容であっても、特定の番組の中や実況中継等では、しばしば張りのある声でアナウンスが行われる。

[0014] また、悲哀を込めて詩を朗読する際には、 BGMとしてブルース音楽が利用され、話者もまた、感情を込めた朗読を行っている。その他にも、神秘的な雰囲気を演出した、場合には宗教音楽が選択され、明るい口調の場合にはポップス音楽が選択されるといった関係を見出すことができる。

[0015] 一方、上述のとおり音声合成装置が利用される環境は多様ィヒしており、上記 BGM を含む各種の音楽が再生されている場 (ユーザ環境）において、合成音声が出力される機会が多くなつているにも拘らず、上記した特許文献 1等に記載されたものを含む従来の音声合成装置には、合成音声の発話形式を制御する上で、ユーザ環境に存在する音楽を考慮できな、ため、発話形式が周囲の音楽と調和できな、と、う問題点がある。

[0016] 本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、ユーザ環境に存在する音楽に調和する音声を合成できる音声合成装置、音声合成方法及びプログラムを提供することにある。

課題を解決するための手段

[0017] 本発明の第 1の視点によれば、入力された音楽信号に応じて発話形式を自動選択することを特徴とする音声合成装置が提供される。より具体的には、前記音声合成装置は、音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定する発話形式選択部と、前記発話形式に従って音声を合成する音声合成部と、を備えて構成される。

[0018] 本発明の第 2の視点によれば、音声合成装置を用いて合成音声を生成する音声合成方法であって、前記音声合成装置が、入力された音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定するステップと、前記音声合成装置が、前記発話形式に従って音声を合成するステップと、を含むこと、を特徴とする音声合成方法が提供される。

[0019] 本発明の第 3の視点によれば、音声合成装置を構成するコンピュータに実行させるプログラムであって、入力された音楽信号を分析し、予め用意された発話形式の中から前記音楽信号の分析結果に適合する発話形式を決定する処理と、前記発話形式に従って音声を合成する処理と、を前記コンピュータに実行させるプログラム及び該プログラムを格納した記録媒体が提供される。発明の効果

[0020] 本発明によれば、ユーザ環境の BGM等の音楽と調和の取れた発話形式で合成音声を生成することが可能になる。この結果、ユーザの注意を引くことのできる合成音声や、 BGMが持つ雰囲気や BGMを聞、て!/、るユーザの気分を損なうことのな！/、合成音声を出力することが可能になる。

図面の簡単な説明

[0021] [図 1]本発明の第 1の実施形態に係る音声合成装置の構成を表したブロック図である

[図 2]本発明の第 1の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。

[図 3]本発明の第 1の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。

[図 4]本発明の第 2の実施形態に係る音声合成装置の構成を表したブロック図である圆 5]本発明の第 2の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。

圆 6]本発明の第 2の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。

圆 7]本発明の第 3の実施形態に係る音声合成装置の構成を表したブロック図である

[図 8]本発明の第 3の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。

[図 9]本発明の第 4の実施形態に係る音声合成装置の構成を表したブロック図である

[図 10]本発明の第 4の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。

符号の説明

[0022] 11 韻律生成部

12 単位波形選択部

13 波形生成部

15〜 15 韻律生成規則記憶部

1 N

16〜16 単位波形データ記憶部

1 N

17 合成音声パワー調整部

18 合成音声パワー計算部

19 音楽信号パワー計算部

21 音楽ジャンル推定部

23、 27 発話形式選択部

24、 28 発話形式情報記憶部

31 音楽属性情報検索部

32 音楽属性情報記憶部

35 音楽再生部

36 再生音楽情報取得部

37 音楽データ記憶部

発明を実施するための最良の形態

[0023] [第 1実施形態] 続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図 1は、本発明の第 1の実施形態に係る音声合成装置の構成を表したブロック図である。図 1を参照すると、本実施形態に係る音声合成装置は、韻律生成部 11と、単位波形選択部 12と、波形生成部 13と、韻律生成規則記憶部 15から 15 と、単位

1 N 波形データ記憶部 16から 16 と、音楽ジャンル推定部 21と、発話形式選択部 23と、

1 N

発話形式情報記憶部 24とを備えて構成されてヽる。

[0024] 韻律生成部 11は、発話形式を基に選択した韻律生成規則と発音記号列から韻律情報を生成するための処理手段である。

[0025] 単位波形選択部 12は、発話形式を基に選択した単位波形データと発音記号列と韻律情報から単位波形を選択するための処理手段である。

[0026] 波形生成部 13は、韻律情報と単位波形データ力合成音声波形を生成するための処理手段である。

[0027] 韻律生成規則記憶部 15から 15 には、各発話形式による合成音声の実現に要求

1 N

される韻律生成規則 (例えば、ピッチ周波数パタン、振幅、継続時間長等)が保存されている。

[0028] 単位波形データ記憶部 16力も 16 には、韻律生成規則記憶部の場合と同様に、

1 N

各発話形式による合成音声の実現に要求される単位波形データ (例えば、自然音声力も抽出されたピッチ長又は音節時間長程度の長さを持つ波形)が保存されている。

[0029] なお、上記韻律生成規則記憶部 15力 15や単位波形データ記憶部 16力 16

1 N 1 に保存すべき韻律生成規則や単位波形データは、各発話形式に適合する自然音

N

声を収集 ·分析することで生成することができる。

[0030] 以下、本実施形態では、元気の良い声力生成した元気の良い声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部 15と単位波形データ記憶部 16に保存され、落ち着いた声から生成した落ち着いた声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部 15と単位波形データ記

2

憶部 16に保存され、ひそひそ声から生成した韻律生成規則と単位波形データが韻

2

律生成規則記憶部 15と単位波形データ記憶部 16に保存され、標準的な声から生

3 3

成した韻律生成規則と単位波形データが韻律生成規則記憶部 15 と単位波形デー

N タ記憶部 16 に保存されているものとして説明する。なお、自然音声から韻律生成規

N

則や単位波形データを生成する方法は、発話形式に依存せずに、標準的な声から生成する場合と同様の方法を用いることができる。

[0031] 音楽ジャンル推定部 21は、入力された音楽信号が属する音楽ジャンルを推定するための処理手段である。

[0032] 発話形式選択部 23は、発話形式情報記憶部 24に保存されて、る表を基に推定された音楽ジャンル力発話形式を決定するための処理手段である。

[0033] 発話形式情報記憶部 24には、図 2に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。発話形式パラメータとは、韻律生成規則記憶部番号と単位波形データ記憶部番号であり、各番号に対応する韻律生成規則や単位波形データを組み合わせることにより、特定の発話形式による合成音声が実現される。なお、図 2の例では、説明の便宜のため発話形式と発話形式パラメータの双方を定義しているが、発話形式選択部 23で使用しているのは、発話形式パラメータのみであるので、発話形式の定義は省略することができる。

[0034] 反対に、発話形式情報記憶部 24では音楽ジャンルと発話形式の関係のみを定義し、発話形式と、韻律生成規則及び単位波形データとの対応関係は、韻律生成部 1 1及び単位波形選択部 12でそれぞれ発話形式に応じた韻律生成規則や単位波形データを選択させる構成とすることもできる。

[0035] また、図 2の例では、多数の発話形式を用意した構成としているが、 1種類の発話形式の単位波形データのみを用意し、発話形式の切り替えを韻律生成規則の変更により行う構成とすることも可能である。この場合、音声合成装置の記憶容量や処理量をより低減することができる。

[0036] 更に、上記発話形式情報記憶部 24で定義する音楽ジャンル情報と発話形式との対応関係は、ユーザの好みに合わせて変更できるようにしても良いし、予め用意された複数の対応関係の組み合わせの中力ユーザが好みに応じて選択できるようにしても良い。

[0037] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図 3は、本実施形態に係る音声合成装置の動作を表したフローチャートである。図 3を参照すると、まず、音楽ジャンル推定部 21は、入力された音楽信号から、スペクトルゃケプストラムなどの音楽信号の特徴量を抽出し、入力された音楽が属する音楽ジャンルを推定し、発話形式選択部 23に出力する (ステップ Al)。この音楽のジャンル推定方法には、先に掲げた非特許文献 1、非特許文献 2等に記載された公知の方法を用いることができる。

[0038] なお、 BGMが存在しな、場合や、推定対象外の音楽ジャンルに属する音楽が入力された場合には、特定のジャンル名ではなく「その他」が音楽ジャンルとして発話形式選択部 23に出力されるものとする。

[0039] 続ヽて、発話形式選択部 23は、音楽ジャンル推定部 21から伝達された推定音楽ジャンルを元に、発話形式情報記憶部 24に記憶された表（図 2参照)から該当する発話形式を選択し、選択した発話形式の実現に必要な発話形式パラメータを韻律生成部 11と単位波形選択部 12に伝達する (ステップ A2)。

[0040] 図 2によると、例えば、推定された音楽ジャンルがポップスの場合は、発話形式として元気の良い声が選択され、イージーリスニングの場合は落ち着いた声が、宗教音楽の場合はひそひそ声が選択される。推定された音楽ジャンルが図 2の表に存在しなかった場合には、音楽ジャンルが「その他」の場合と同様に、標準的な発話形式が選択される。

[0041] 続いて、韻律生成部 11は、発話形式選択部 23から供給された発話形式パラメータを参照し、韻律生成規則記憶部 15から 15 の中から、発話形式選択部 23が指定し

1 N

た記憶部番号を持つ韻律生成規則記憶部を選択する。そして、選択した韻律生成規則記憶部の韻律生成規則に基づき、入力された発音記号列から韻律情報を生成し、単位波形選択部 12と波形生成部 13に伝達する (ステップ A3)。

[0042] 続いて、単位波形選択部 12は、発話形式選択部 23から伝達された発話形式パラメータを参照し、単位波形データ記憶部 16力 16 の中から、発話形式選択部 23

1 N

が指定した記憶部番号を持つ単位波形データ記憶部を選択する。そして、入力された発音記号列と、韻律生成部 11から供給された韻律情報を基に、選択した単位波形データ記憶部から単位波形を選択し、波形生成部 13に伝達する (ステップ A4)。

[0043] 最後に、波形生成部 13は、韻律生成部 11から伝達された韻律情報に基づき、単位波形選択部 12から供給された単位波形を接続し、合成音声信号を出力する (ステップ A5)。

[0044] 以上のとおり、本実施形態によれば、ユーザ環境の BGMと調和の取れた韻律と単位波形で実現される発話形式で合成音声を生成することが可能になる。

[0045] なお、上記した実施形態では、発話形式毎に単位波形データ記憶部 16〜16を

1 N 用意する構成としているが、標準声の単位波形データ記憶部のみを設ける構成とすることもできる。この場合、韻律生成規則のみにより発話形式を制御することになるが、単位波形データは韻律生成規則をはじめとする他のデータよりも、データサイズが大きいため、合成装置全体の記憶容量を大幅に削減できるという利点が生じる。

[0046] [第 2実施形態]

[0047] 上記した第 1の実施形態では合成音声のパワーは制御対象となっておらず、ひそひそ声で合成音声を出力する場合も、元気の良い声で合成音声を出力する場合もパワーは同一である。例えば、 BGMと発話形式の対応関係によっては、合成音声の音量が背景音楽よりも大き過ぎると調和を損ない、場合によっては耳障りになることも考えられる。反対に、合成音声の音量が背景音楽よりも小さすぎると、調和を損なうだけでなく合成音声を聞き取ることが困難になることも考えられる。

[0048] そこで、上記について改良をカ卩え、合成音声のパワーも制御対象に加えた本発明の第 2の実施形態について図面を参照して詳細に説明する。図 4は、本発明の第 2 の実施形態に係る音声合成装置の構成を表したブロック図である。

[0049] 図 4を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に係る音声合成装置 (図 1参照）に対して、合成音声パワー調整部 17と、合成音声パワー計算部 18と、音楽信号パワー計算部 19と、を追加した構成となっている。また、図 4 に示すように、本実施形態においては、上記第 1の実施形態の発話形式選択部 23と発話形式情報記憶部 24の代わりに、発話形式選択部 27と発話形式情報記憶部 28 が配設されている。

[0050] 発話形式情報記憶部 28には、図 5に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。上記第 1の実施形態の発話形式情報記憶部 24に保持される表（図 2参照）との相違点は、パワー比が追加されている点である。

[0051] このパワー比とは、合成音声のパワーを音楽信号のパワーで除算した値である。すなわち、パワー比が 1. 0よりも大きければ、合成音声のパワーが音楽信号のパワーよりも大きいことを示している。図 5を参照すると、例えば、音楽ジャンルがポップスと推定された場合、発話形式は元気の良い声、パワー比は 1. 2に設定され、音楽信号パヮーを上回るパワー（1. 2倍)で合成音声パワーが出力される。同様に、発話形式が落ち着いた声のときパワー比は 1. 0、ひそひそ声の場合は 0. 9、標準声の場合は 1 . 0にて設定されている。

[0052] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図 6は、本実施形態に係る音声合成装置の動作を表したフローチャートである。音楽ジャンル推定 (ステップ A1)〜波形生成 (ステップ A5)までの間は、上記した第 1の実施形態と略同様であるが、ステップ A2において、発話形式選択部 27が、音楽ジャンル推定部 21から伝達された推定音楽ジャンルから、発話形式情報記憶部 28に記憶されたパワー比を合成音声パワー調整部 17に伝達する点で相違している（ステップ A2)。

[0053] ステップ A5において、波形生成が完了すると、音楽信号パワー計算部 19は、入力された音楽信号の平均的なパワーを計算し、合成音声パワー調整部 17へ伝達する（ステップ Bl)。信号のサンプル番号を n、音楽信号を x(n)とすると、例えば次式（1) に示すような一次リーク積分により、音楽信号の平均パワー P (n)を求めることが可能である。

[0054] [数 1]

M ( = _fl ー1) + (1 - ^ (

[0055] 但し、 aは、一次リーク積分の時定数である。合成音声と BGMの平均的な音量の差が大きくなることを防ぐためにパワーを計算するので、 aには 0. 9等の大きい値を設定し、長時間平均パワーを計算することが望ましい。逆に、 aの値を 0. 1といった小さな値に設定してパワーを計算すると、合成音声の音量の変化が頻繁かつ大きくなり、合成音声が聞き取りに《なる可能性がある。なお、上式に代えて、移動平均や入力信号の全サンプルの平均値などを用いることも可能である。 [0056] 続いて、合成音声パワー計算部 18は、波形生成部 13から供給された合成音声の平均的なパワーを計算し、合成音声パワー調整部 17に伝達する (ステップ B2)。合成音声パワーの計算にも、上記音楽信号パワーと同様の方法を用いることができる。

[0057] 最後に、合成音声パワー調整部 17は、音楽信号パワー計算部 19から供給される音楽信号パワーと、合成音声パワー計算部 18から供給される合成音声パワーと、発話形式選択部 27から供給される発話形式パラメータの中のパワー比を基に、波形生成部 13から供給される合成音声信号のパワーを調整し、パワー調整済音声合成信号として出力する (ステップ B3)。より具体的には、合成音声パワー調整部 17は、最終的に出力される合成音声信号のパワーと音楽信号パワーの比が、発話形式選択部 27から供給されたパワー比の値に近づくように合成音声のパワーを調整する。

[0058] より端的には、音楽信号パワーと、合成音声信号パワーと、パワー比とを用いて、パヮー調整係数を求めて、合成音声信号に乗ずることで実現する。従って、パワー調整係数には、音楽信号とパワー調整済合成音声のパワーの比が、発話形式選択部 27から供給されたパワー比にほぼ一致するような値を用いる必要がある。音楽信号パワーを P 、合成音声パワーを P、パワー比を rとすれば、パワー調整係数 cは次式 m s

で与えられる。

[0059] [数 2]

[0060] そして、パワー調整前の合成音声信号を y (n)とすれば、パワー調整後の合成音声信号 y (n)は次式で与えられる。

2

[0061] [数 3] y₂ ( =

(

以上のとおり、元気の良い声が選択された場合には、合成音声パワーを標準的な声よりも少し大きくし、ひそひそ声が選択された場合には、パワーを少し小さめにするといったきめ細かい制御が可能となり、より BGMとの調和がとれた発話形式を実現することが可能となる。

[0063] [第 3実施形態]

上記第 1、第 2の実施形態では、入力音楽のジャンルを推定するものとしているが、近年の探索 ·照合手法を用いると、より精緻に入力音楽を分析することも可能である。以下、上記について改良を加えた本発明の第 3の実施形態について図面を参照して詳細に説明する。図 7は、本発明の第 3の実施形態に係る音声合成装置の構成を表したブロック図である。

[0064] 図 7を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に係る音声合成装置 (図 1参照）に対して、音楽属性情報記憶部 32を追加するとともに、音楽ジャンル推定部 21に代えて音楽属性情報検索部 31を配設した構成となっている。

[0065] 音楽属性情報検索部 31は、入力された音楽信号からスペクトルなどの特徴量を抽出するための処理手段である。音楽属性情報記憶部 32には、種々の音楽信号の特徴量と、その音楽信号の音楽ジャンルが、個別に記録されており、特徴量を照合することにより、音楽を特定し、ジャンルを決定することが可能となっている。

[0066] 上記特徴量を用いた音楽信号の検索には、非特許文献 3に掲げたスペクトルのヒストグラムで類似度の計算を行う方法等を用いることができる。

[0067] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図 8は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第 1の実施形態に対し、音楽ジャンル推定 (ステップ A1)の部分が相違し、その他は既に説明済みであるので、以下、図 8のステップ D1について詳細に説明する。

[0068] はじめに、音楽属性情報検索部 31は、入力された音楽信号からスペクトルなどの特徴量を抽出する。続いて、音楽属性情報検索部 31は、音楽属性情報記憶部 32に保存されている音楽のすべての特徴量と、入力された音楽信号の特徴量の類似度をそれぞれ計算する。そして、最高の類似度を持つ音楽の音楽ジャンル情報が発話形式選択部 23に伝達される (ステップ Dl)。

[0069] なお、ステップ D1において、類似度の最大値が、予め設定した閾値を下回った場合には、音楽属性情報検索部 31は、入力された音楽信号に対応する音楽が音楽属性情報記憶部 32に記録されて、な、と判断し、音楽ジャンルとして「その他」を出力する。

[0070] 以上のとおり、本実施形態によれば、個々の音楽に対して、個別に音楽ジャンルを記録した音楽属性情報記憶部 32を用いるので、上記第 1、第 2の実施形態よりも高 V、精度で音楽ジャンルを特定し、発話形式に反映させることが可能となる。

[0071] なお、音楽属性情報記憶部 32を構築する際に、曲名やアーティスト名、作曲者名などの属性情報も記憶しておけば、音楽ジャンル以外の属性情報によっても、発話形式を決定することが可能になる。

[0072] また、音楽属性情報記憶部 32に記憶されて、る音楽の種類数が多くなれば、多くの音楽信号のジャンルを特定することが可能になるが、音楽属性情報記憶部 32の容量が大きくなる。必要に応じて、音楽属性情報記憶部 32を音声合成装置の外部に配置し、音楽信号の特徴量の類似度を計算するときに、有線及び無線通信手段を用いて音楽属性情報記憶部 32にアクセスする構成を採ることも可能である。

[0073] 続いて、上記第 1の実施形態に係る音声合成装置に対し、 BGM等の楽曲の再生機能を追加した本発明の第 4の実施形態について図面を参照して詳細に説明する。

[0074] [第 4実施形態]

図 9は、本発明の第 4の実施形態に係る音声合成装置の構成を表したブロック図である。図 9を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に係る音声合成装置（図 1参照）に対して、音楽再生部 35、音楽データ記憶部 37を追加するとともに、音楽ジャンル推定部 21に代えて再生音楽情報取得部 36を配設した構成となっている。

[0075] 音楽データ記憶部 37には、音楽信号と、その音楽の曲番号と音楽ジャンルが保存されている。音楽再生部 35は、曲番号や音量、再生 ·停止 ·巻き戻し ·早送り等の各種コマンドを含む再生指令に応じて、音楽データ記憶部 37に保存されている音楽信号をスピーカやイヤホンなどを通して出力する手段である。また、音楽再生部 35は、再生音楽情報取得部 36に対して、再生中の音楽の曲番号を供給する。

[0076] 再生音楽情報取得部 36は、音楽再生部 35から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部 37から取り出し、発話形式選択部 23へ伝達する、上記第 1の実施形態の音楽ジャンル推定部 21と同等の処理手段である。

[0077] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図 10は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第 1の実施形態に対し、音楽ジャンル推定 (ステップ A1)の部分が相違し、その他は既に説明済みであるので、以下、図 10のステップ D2、 D3について詳細に説明する。

[0078] 音楽再生部 35が、指定された音楽を再生すると、その曲番号が再生音楽情報取得部 36に供給される (ステップ D2)。

[0079] 再生音楽情報取得部 36は、音楽再生部 35から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部 37から取り出し、発話形式選択部 23へ伝達する（ステップ D3)。

[0080] 本実施例によれば、音楽ジャンルの推定処理や検索処理は不要となり、再生中の BGMの音楽ジャンル等を確実に特定することが可能となる。もちろん、音楽再生部 3 5が、再生中の音楽のジャンル情報を音楽データ記憶部 37から直接取得できる場合には、再生音楽情報取得部 36を廃し、音楽再生部 35から発話形式選択部 23に音楽ジャンルを直接供給する構成とすることもできる。

[0081] また、音楽データ記憶部 37に音楽ジャンル情報が記録されて、な、場合には、再生音楽情報取得部 36の代わりに音楽ジャンル推定部 21を用いて、音楽ジャンルを推定する構成とすることも可能である。

[0082] また、音楽データ記憶部 37にジャンル以外の音楽属性情報が記録されていれば、上記第 3の実施形態でも説明したように、ジャンル以外の属性情報で発話形式を決定できるよう発話形式選択部 23及び発話形式情報記憶部 24を変更することも可能である。

[0083] 以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実施の形態に限定されるものではなぐ音声合成装置の用途、仕様等に応じて、各種の変形を加え、あるいは、均等物を採用することが可能である。

Claims

請求の範囲

[1] 音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定する発話形式選択部と、

前記発話形式に従って音声を合成する音声合成部と、を有し、

入力された音楽信号に応じて発話形式を自動選択すること、

を特徴とする音声合成装置。

[2] 前記音声合成部が、

前記発話形式に従って韻律情報を生成する韻律生成部と、

前記発話形式に従って単位波形を選択する単位波形選択部と、を有すること、を特徴とする請求項 1に記載の音声合成装置。

[3] 前記音声合成部が、

発話形式毎の韻律生成規則を記憶する韻律生成規則記憶部と、

発話形式毎に単位波形を記憶する単位波形記憶部と、

前記発話形式に従って選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する韻律生成部と、

単位波形記憶部に記憶された単位波形の中から前記発音記号列と前記韻律情報に応じた単位波形を選択する単位波形選択部と、

前記韻律情報に従って前記単位波形を合成し合成音声波形を生成する波形生成部と、を有すること、

を特徴とする請求項 1に記載の音声合成装置。

[4] 更に、

音楽とその属性を関連付けて記憶する音楽属性情報記憶部から、入力された音楽信号の分析結果に対応するデータを検索し、前記入力された音楽の属性を推定する音楽属性情報検索部を有し、

前記発話形式選択部は、前記入力された音楽の属性に応じた発話形式を選択することにより、前記発話形式の決定を行うこと、

を特徴とする請求項 1乃至 3いずれか一に記載の音声合成装置。

[5] 更に、前記音楽信号を分析して前記音楽が属する音楽ジャンルを推定する音楽ジャンル推定部を有し、

前記発話形式選択部は、前記音楽ジャンルに応じた発話形式を選択することにより、前記発話形式の決定を行うこと、

[6] 音楽信号と、属性情報とを関連付けて記憶する音楽データ記憶部と、

前記音楽データ記憶部に保存された音楽信号を再生する音楽再生部と、前記音楽データ記憶部を参照し、再生された音楽の属性情報を取得する再生音楽情報取得部と、を有し、

前記発話形式選択部が、前記属性情報に従って発話形式を決定すること、を特徴とする請求項 1乃至 3いずれか一に記載の音声合成装置。

[7] 前記発話形式選択部が、

前記属性情報に含まれる音楽ジャンルに従って前記発話形式を決定すること、を特徴とする請求項 6に記載の音声合成装置。

[8] 更に、

前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号のパワーに応じて調整する合成音声パワー調整部を有すること、

を特徴とする請求項 1乃至 7いずれか一に記載の音声合成装置。

[9] 更に、

前記音楽信号を分析して音楽信号のパワーを求める音楽信号パワー計算部と、前記合成音声波形を分析して合成音声のパワーを求める合成音声パワー計算部と、

予め発話形式毎に定められた前記音楽信号のパワーと前記合成音声のパワーの比率を参照して、前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号のパワーに応じて調整する合成音声パワー調整部と、を有すること、を特徴とする請求項 1乃至 7いずれか一に記載の音声合成装置。

[10] 音声合成装置を用いて合成音声を生成する音声合成方法であって、

前記音声合成装置が、入力された音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定するステップと、

前記音声合成装置が、前記発話形式に従って音声を合成するステップと、を含むこと、

を特徴とする音声合成方法。

[11] 更に、

前記音声合成装置が前記発話形式に従って韻律情報を生成するステップと、前記音声合成装置が前記発話形式に従って単位波形を選択するステップと、を含み、

前記音声合成装置が、前記韻律情報と前記単位波形とを用いて、音声を合成すること、

を特徴とする請求項 10に記載の音声合成方法。

[12] 前記音声合成装置が、前記発話形式に従って音声を合成するステップが、

前記音声合成装置が、韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成するステップと、

前記音声合成装置が、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択するステップと、

前記音声合成装置が、前記韻律情報に従って前記単位波形を合成し合成音声波形を生成するステップと、を含んで構成されること、

を特徴とする請求項 10に記載の音声合成方法。

[13] 更に、前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から、入力された音楽信号の分析結果に対応するデータを検索し、前記入力された音楽の属性を推定するステップを含み、

前記入力された音楽信号の属性に応じた発話形式を選択することにより、前記音楽信号の分析結果に適合する発話形式が決定されること、

を特徴とする請求項 10乃至 12いずれか一に記載の音声合成方法。

[14] 前記音声合成装置が、前記音楽信号を分析して該音楽が属する音楽ジャンルを推定するステップと、前記音声合成装置が、前記音楽ジャンルに応じた発話形式を選択することにより、前記音楽信号の分析結果に適合する発話形式が決定されること、

[15] 更に、前記音声合成装置が、音楽信号と、属性情報とを関連付けて記憶する音楽データ記憶部に保存された音楽信号を再生するステップと、

前記音声合成装置が、前記音楽データ記憶部を参照し、再生された音楽の属性情報を取得するステップと、を含み、

前記音声合成装置が、入力された音楽信号の分析に代えて、前記属性情報に従つて発話形式を決定すること、

[16] 前記音声合成装置は、前記属性情報に含まれる音楽ジャンルに従って前記発話形式を決定すること、

を特徴とする請求項 15に記載の音声合成方法。

[17] 更に、

前記音声合成装置が、前記発話形式に従って生成された前記合成音声波形のパヮーを、前記音楽信号のパワーに応じて調整するステップを含むこと、

を特徴とする請求項 10乃至 16いずれか一に記載の音声合成方法。

[18] 更に、

前記音声合成装置が、前記音楽信号を分析して音楽信号のパワーを求めるステツプと、

前記音声合成装置が、前記合成音声波形を分析して合成音声パワーを求めるステップと、

前記音声合成装置が、予め発話形式毎に定められた前記音楽信号のパワーと前記合成音声のパワーの比率を参照して、前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号のパワーに応じて調整するステップと、を含むこと、

[19] 音声合成装置を構成するコンピュータに実行させるプログラムであって、入力された音楽信号を分析し、予め用意された発話形式の中から前記音楽信号の分析結果に適合する発話形式を決定する処理と、

前記発話形式に従って音声を合成する処理と、

を前記コンピュータに実行させるプログラム。

[20] 前記発話形式に従って韻律情報を生成する処理と、

前記発話形式に従って単位波形を選択する処理と、を経て、

前記韻律情報と前記単位波形とを用いて、音声を合成する処理が行われること、を特徴とする請求項 19に記載のプログラム。

[21] 前記コンピュータに接続された韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する処理と、

前記コンピュータに接続された単位波形記憶部に、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択する処理と、を経て、

前記韻律情報に従って前記単位波形を合成し、音声を合成する処理が行われること、

を特徴とする請求項 19に記載のプログラム。

[22] 更に、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から、入力された音楽信号の分析結果に対応するデータを検索し、前記入力された音楽の属性を推定する処理を含み、

前記入力された音楽の属性に応じた発話形式を選択することにより、前記音楽信号の分析結果に適合する発話形式を決定する処理が行われること、

を特徴とする請求項 19乃至 21いずれか一に記載のプログラム。

[23] 前記音楽信号を分析して前記音楽が属する音楽ジャンルを推定する処理と、前記音楽ジャンルに応じた発話形式を選択することにより、前記音楽信号の分析結果に適合する発話形式を決定する処理が行われること、

[24] 更に、音楽信号と属性情報とを関連付けて記憶する音楽データ記憶部に保存された音楽信号を再生する処理と、

前記音楽データ記憶部を参照し、再生された音楽の属性情報を取得する処理と、を前記コンピュータに実行させ、

前記コンピュータが、入力された音楽信号の分析に代えて、前記属性情報に従つて発話形式を決定すること、

[25] 前記コンピュータが、前記属性情報に含まれる音楽ジャンルに従って前記発話形式を決定すること、

を特徴とする請求項 24に記載のプログラム。

[26] 更に、

前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号のパワーに応じて調整する処理を含むこと、

を特徴とする請求項 19乃至 25いずれか一に記載のプログラム。

[27] 更に、

前記音楽信号を分析して音楽信号のパワーを求める処理と、

前記合成音声波形を分析して合成音声パワーを求める処理と、

予め発話形式毎に定められた前記音楽信号のパワーと前記合成音声のパワーの比率を参照して、前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号のパワーに応じて調整する処理と、を含むこと、