JPWO2004066271A1 - 音声合成装置,音声合成方法および音声合成システム - Google Patents
音声合成装置,音声合成方法および音声合成システム Download PDFInfo
- Publication number
- JPWO2004066271A1 JPWO2004066271A1 JP2004567110A JP2004567110A JPWO2004066271A1 JP WO2004066271 A1 JPWO2004066271 A1 JP WO2004066271A1 JP 2004567110 A JP2004567110 A JP 2004567110A JP 2004567110 A JP2004567110 A JP 2004567110A JP WO2004066271 A1 JPWO2004066271 A1 JP WO2004066271A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- collocation
- speech
- emphasis
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 47
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 47
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 230000000877 morphologic effect Effects 0.000 claims description 15
- 210000001260 vocal cord Anatomy 0.000 claims description 11
- 238000000034 method Methods 0.000 abstract description 17
- 239000011295 pitch Substances 0.000 description 62
- 238000010586 diagram Methods 0.000 description 29
- 230000002123 temporal effect Effects 0.000 description 17
- 239000000284 extract Substances 0.000 description 15
- 230000007717 exclusion Effects 0.000 description 12
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 101100117236 Drosophila melanogaster speck gene Proteins 0.000 description 1
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000011306 natural pitch Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
図13はプロミネンス(特定部分を強調すること。卓立とも称する。)が使用されていない音声合成装置のブロック図である。この図13に示す音声合成装置100は、形態素解析部11と、単語辞書12と、パラメータ生成部13と、波形辞書14と、ピッチ切り出し・重ね合わせ部(ピッチ切り出しおよび重ね合わせ部)15とをそなえて構成されている。
形態素解析部11は、入力された漢字かな混じり文章について、単語辞書12を参照して形態素(文章を構成する最小の言語単位又は文章中において意味をもつ最小単位)を解析し、単語の種類(品詞の区分),単語の読み,アクセント又はイントネーションをそれぞれ決定し、韻律記号付き発音記号(中間言語)を出力するものである。この形態素解析部11が入力されるテキスト形式のファイルは、日本語の場合は漢字かな混じりの文字列であり、英語の場合はアルファベット列である。
よく知られているように、有声音(特に母音)の生成モデルは、音源(声帯),調音系(声道)および放射口(唇)からなり、肺からの空気が声帯を振動させることにより音源信号が発生する。また、声道とは、声帯からのどの部分からなり、のどの径を太く又は細くすることにより声道の形状が変化し、音源信号が声道の特定の形状に共鳴することにより、複数の母音が生成される。そして、この生成モデルに基づいて、以下に述べるピッチ周期等の特性が定義される。
ここで、ピッチ周期とは声帯の振動周期を表し、ピッチ周波数(基本周波数又は単にピッチとも称する。)とは声帯の振動周波数であって声の高さに関する特性である。また、アクセントとは、単語のピッチ周波数の時間的な変化であり、イントネーションとは、文章全体のピッチ周波数の時間変化であり、これらのアクセントおよびイントネーションは、物理的には、ピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がるとピッチ周波数が高くなる。
これらのアクセント等の情報が使用されずに、例えば一定のピッチ周波数で合成された音声は、いわゆる棒読み、換言すれば、ロボットが読むような聴覚的に不自然な音声になることが多い。このため、音声合成装置100は、処理の後段において自然なピッチ変化を生成できるように、韻律記号付き発音記号を出力する。元の文字列および中間言語(韻律記号付き発音記号)の一例は、次のようになる。
文字列:「アクセントはピッチの時間的変化と関連がある。」
中間言語:「ア’ク%セントワ ピ’ッチノ ジカンテキ ヘ’ンカト カンレンガ&ア’ル.」
ここで、「’」はアクセント位置、「%」は無声子音、「&」は鼻濁音、「.」は平叙文の文境界および「(全角スペース)」は文節の区切りをそれぞれ表す。
すなわち、中間言語は、アクセント,イントネーション,音素継続時間又はポーズ継続時間等を付与された文字列として出力される。
単語辞書12は、単語の種類,単語の読みおよびアクセントの位置等を対応付けて格納(保持,蓄積又は記憶)するものである。
波形辞書14は、音声自体の音声波形データ(音素波形又は音声素片)と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。
パラメータ生成部13は、文字列について、ピッチ周波数のパターン,音素の位置,音素継続時間,ポーズ継続時間および音声の強さ(音圧)等のパラメータを生成,付与又は設定し、また、波形辞書14に格納された音声波形データのうちのどの部分の音声波形データを使用するか否かを決定するものである。このパラメータにより、ピッチ周期,音素の位置等が決定し、人間が文章を読むような自然な音声が得られる。
ピッチ切り出し・重ね合わせ部15は、波形辞書14に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間(波形区間)と隣接する前後の区間に属する音声波形データの一部とを重畳(オーバーラップ)させて加算し音声を合成するものである。このピッチ切り出し・重ね合わせ部15の処理方法は、例えばPSOLA(Pitch−Synchronous Overlap−add:波形の加算重畳によるピッチ変換方法)法が用いられている(”Diphone Synthesis Using an Overlap−add Technique for Speech Waveforms Concatenation” ICASSP ’86,pp.2015−2018,1986参照)。
図15(a)〜図15(d)はそれぞれ波形の加算重畳方法を説明するための図である。PSOLA法は、図15(a)に示すように、生成されたパラメータに基づいて波形辞書14から2周期分の音声波形データを切り出し、次に、図15(b)に示すように、その切り出した音声波形データに、窓関数(例えばハニング窓)を乗じて処理音声波形データを生成する。そして、図15(c)に示すように、ピッチ切り出し・重ね合わせ部15は、現区間の前の区間の後半部分と現区間の後の区間の前半部分とを重畳加算し、また、現区間の後半部分と後区間の前半部分とを重畳加算することにより1周期分の波形を合成する(図15(d)参照)。
以上の説明は、プロミネンスが使用されていない場合の合成である。
次に、図14を参照してプロミネンスが使用される場合の合成を説明する。
プロミネンスを使用してユーザの指定した単語等の特定部分を強調する音声合成装置も種々提案されている(例えば、特開平5−224689号公報[以下、公知文献1と称する。]参照)。
図14はプロミネンスが使用される音声合成装置のブロック図であり、プロミネンスが手動により入力されるものである。この図14に示す音声合成装置101と図13に示す音声合成装置100との相違点は、形態素解析部11の入出力側に、入力された文章のうちのどの部分をどの程度強調するかについての設定データを手動入力により指定する強調単語手動入力部26が設けられている点である。なお、強調単語手動入力部26以外のもので上述したものと同一符号を有するものは同一機能を有する。
そして、図14に示すパラメータ生成部23は、強調単語手動入力部26において指定された部分について、強調されていない音声部分よりも高いピッチ又は長い音素長を設定し、特定の単語を強調するためのパラメータを生成する。また、パラメータ生成部23は、強調する音声部分において振幅を大きくし、又はその音声部分の前後にポーズを入れる等のパラメータを生成する。
さらに、従来から、音声強調方法については、多数、提案されている。
例えば、プロミネンスを使用する別の合成方法は、特開平5−80791号公報等に開示されている。
さらに、特開平5−27792号公報(以下、公知文献2と称する。)には、テキスト文章の読み上げとは異なるキーワード辞書(重要度辞書)を設けて、特定のキーワードを強調する音声強調装置が開示されている。この公知文献2記載の音声強調装置は、音声を入力としディジタル音声波形データに基づいて、スペクトル等の音声の特徴量を抽出したキーワード検出を用いたものである。
しかしながら、公知文献1記載の強調方法を用いる場合、ユーザは、強調する部分が現れる都度、プロミネンスを手動で入力しなければならず、操作が煩雑という課題がある。
さらに、公知文献2記載の音声強調装置は、多段階に強調レベルを変更するものではなく、音声波形データに基づくキーワード抽出を行なうものである。従って、やはり、操作性が不足する可能性がある。
このため、本発明の音声合成装置は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、上記の強調すべき各単語又は連語に強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴としている。
従って、このようにすれば、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。
また、強調度決定部は、文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する単語決定部とをそなえて構成されてもよく、このようにすれば、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。
この強調度決定部は、抽出基準として、以下の(Q1)〜(Q5)に基づいて強調度を決定することができる。
(Q1)上記の各単語又は連語の出現頻度に基づく強調度の決定。このようにすれば、やはり、強調度を自動的に決定できる。
(Q2)文章に含まれる特定の固有名詞に基づく強調度の決定。このようにすれば、固有名詞を強調することにより全体として聞き取りやすい合成音声の生成を期待できる。
(Q3)文章に含まれる文字種別に基づく強調度の決定。このようにすれば、例えばカタカナ語を強調することにより、文章全体として聞き取りやすい合成音声の生成を期待できる。
(Q4)上記の各単語又は連語の出現箇所と出現箇所の回数とに基づく強調度の決定。具体的には、強調度決定部は、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成することができる。従って、このようにすれば、単語の1回目の出現箇所においてはその単語を強めに強調し、また、2回目以降の出現箇所においてはその単語を弱めに強調するので、冗長にならず、高い品質の音声を得られる。
(Q5)上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づく強調度の多段階の決定。従って、このようにすれば、強調すべき単語を、その強調すべきレベルに応じて確実に強調できる。さらに、本発明は、テキスト文章を読むものであり音声波形データからキーワードを抽出するものではない点で、キーワード抽出を用いずに多段階強調を用いていない公知文献2記載の音声強調装置と異なる。
また、前記音響処理部は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、形態素解析部からの韻律記号付き中間言語のうちの強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されてもよく、このようにすれば、設計変更せずに、既存の技術を利用でき、一層合成音声の品質が向上する。
そして、本発明の音声合成装置は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴としている。従って、このようにすれば、やはり、自動的に強調度を決定できる。
前記ピッチ切り出し・重ね合わせ部は、波形辞書に格納された音声波形データを、パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されてもよく、このようにすれば、聴感が補正され、自然な合成音声が得られる。
本発明の音声合成方法は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、抽出ステップにて抽出された各単語又は連語についての強調度を決定する単語決定ステップと、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴としている。
従って、このようにすれば、やはり、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞きやすい合成音声が得られる。
本発明の音声合成システムは、入力された文章についての音声を合成して出力する音声合成システムであって、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴としている。
従って、このようにすれば、音声合成システムは、各機能を遠隔配置し、各機能にデータ送受信回路を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。
図2は本発明の一実施形態に係る第1の共有メモリのデータ例を示す図である。
図3は本発明の一実施形態に係る第1の強調度決定部のブロック図である。
図4は本発明の一実施形態に係る第2の共有メモリのデータ例を示す図である。
図5は本発明の一実施形態に係る第2の音声合成装置のブロック図である。
図6は本発明の一実施形態に係る第2の強調度決定部のブロック図である。
図7は本発明の一実施形態に係る第3の共有メモリのデータ例を示す図である。
図8は本発明の一実施形態に係る第3の強調度決定部のブロック図である。
図9は本発明の一実施形態に係る第4の共有メモリのデータ例を示す図である。
図10は本発明の一実施形態に係る第4の強調度決定部のブロック図である。
図11は本発明の一実施形態に係る第5の共有メモリのデータ例を示す図である。
図12は本発明の一実施形態に係る第5の強調度決定部のブロック図である。
図13はプロミネンスが使用されていない音声合成装置のブロック図である。
図14はプロミネンスが使用される音声合成装置のブロック図である。
図15(a)〜図15(d)はそれぞれ波形の加算重畳方法を説明するための図である。
図1は本発明の一実施形態に係る音声合成装置のブロック図である。この図1に示す音声合成装置1は、入力された文章を読み出して音声を合成するものであって、入力部19と、強調度自動決定部(強調度決定部)36と、音響処理部60とをそなえて構成されている。ここで、入力部19は、漢字かな混じりの文章を音響処理部60に入力するものである。
また、強調度自動決定部36は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。
ここで、各単語又は連語についての抽出基準とは、入力された多数の文字列から、どの単語又は連語を抽出して強調するかを決定するための基準である。以下に述べる第1の態様における音声合成装置1の強調度自動決定部36は、抽出基準として、上記の各単語又は連語の出現頻度に基づいて強調度を決定するようになっている。また、この抽出基準は、単語の重要度,特定の固有名詞,カタカナのような特定の文字種別等を用いることができ、又は各単語又は連語の出現箇所とその出現箇所の回数とに基づく基準等、種々の抽出基準を用いることができ、各抽出基準を用いた音声合成方法については後述する。
なお、図1に示す音声合成装置1a,1c〜1eは後述する他の実施態様においてそれぞれ説明する。
(1)音響処理部60の構成
音響処理部60は、上記の強調すべき各単語又は連語に強調度自動決定部36にて決定された強調度を付与した音声を合成するものであって、形態素解析部11と、単語辞書12と、パラメータ生成部33と、波形辞書14と、ピッチ切り出し・重ね合わせ部(ピッチ切り出しおよび重ね合わせ部)15とをそなえて構成されている。
形態素解析部11は、入力された漢字かな混じりの文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力するものであって、単語の種類,単語の読み,アクセント又はイントネーションをそれぞれ決定し、中間言語を出力するものである。
例えば、文字列:「アクセントはピッチの時間的変化と関連がある。」が、形態素解析部11に入力されると、アクセント,イントネーション,音素継続時間又はポーズ継続時間等の音声パラメータが付与され、例えば中間言語:「ア’ク%セントワ ピ’ッチノ ジカンテキ ヘ’ンカト カンレンガ&ア’ル.」が生成される。
また、単語辞書12は、単語の種類,単語の読みおよびアクセントの位置等を対応付けて格納するものである。そして、形態素解析部11は、形態素解析部11自身が解析して得た形態素について単語辞書12を検索し、単語の種類,単語の読み又はアクセント等を得ている。また、この単語辞書12に格納されるデータは、逐次更新することもでき、このようにすれば、広範な言語について音声合成を行なえる。
これにより、漢字かな混じりの文章の文字列は、形態素解析部11の解析により単語(又は連語)に分割され、分割された単語は、それぞれ、その単語の読みおよびアクセント等を付与され、アクセント付きの読みかな列に変換される。
パラメータ生成部33は、形態素解析部11からの韻律記号付き中間言語のうちの強調度自動決定部36にて決定された各単語又は連語についての音声合成パラメータを生成するものである。また、パラメータ生成部33は、形態素解析部11からの中間言語から音声合成パラメータを生成し、その際、強調度自動決定部36にて決定された各単語又は連語については強調された音声合成パラメータとするのである。
この音声合成パラメータは、ピッチ周波数のパターン,音素の位置,音素継続時間,強調部分の前後に加えるポーズ継続時間および音声の強さ等である。この音声合成パラメータにより、音声の強さ,高さ,イントネーション又はポーズの挿入時間,挿入場所等が決定し、自然な音声が得られる。例えば、読み手は、文章の段落部分を読むときに、読みの開始前にポーズを入れ、開始部分を強調して読み、又はゆっくりと読む。これにより、一つの文章に含まれるかたまりが識別および強調され、文章の区切り位置が明確になる。
波形辞書14は、音声自体の音声波形データ(音素波形又は音声素片)と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。この波形辞書14は、以下に述べるピッチ切り出し・重ね合せ部15からのアクセスに応じて、音声波形データのうちの適切な部分の波形データを選択し音声素片を出力する。これにより、波形辞書14のどの部分の音声波形データが使用されるかが決定する。なお、波形辞書14は、音声波形データをPCM(Pulse Coded Modulation)データの形式で保持することが多い。
この波形辞書12が格納する音素波形は、その音素の両側に位置する音素(音素コンテキスト)によって異なるので、同一音素について異なる音素コンテキストが接続されたものは異なる音素波形として扱われる。従って、波形辞書12は、予め細分化された音素コンテキストを多数保持し、合成音声の聞きやすさおよび滑らかさを向上させるようになっている。なお、以下の説明においては、特に断らない限り、聞きやすさとは、明瞭度を意味し、具体的には人間による音の認識度を表す。
ピッチ切り出し・重ね合わせ部15は、例えばPSOLA法を用いており、パラメータ生成部33からの音声合成パラメータに従って、波形辞書14に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数を乗じた処理音声波形データとその前後の周期における処理音声データの一部とを重畳加算し合成音声を出力するものである。
さらにこのピッチ切り出し・重ね合わせ部15について詳述する。
ピッチ切り出し・重ね合わせ部15は、パラメータ生成部33にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成する。
また、ピッチ切り出し・重ね合わせ部15は、波形辞書14に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する現周期の前後の前周期および後周期に属する音声波形データの一部とを重畳加算し合成音声を出力する。
従って、この処理により、聴感が補正され、自然な合成音声が得られる。
具体的には、ピッチ切り出し・重ね合わせ部15は、生成されたパラメータに基づいて波形辞書14から2周期分の音声波形データを切り出し、図15(a)〜図15(d)のそれぞれに示すように、その切り出した音声波形データに、窓関数(例えばハニング窓)を乗じて処理音声波形データを得る。そして、ピッチ切り出し・重ね合わせ部15は、前周期の後半部分と現周期の前半部分とを加算することにより、1周期分の合成波形を生成し、同様に、現周期の後半部分と後周期の前半部分とを加算して合成波形を生成するのである。
そして、波形辞書に格納されたPCMデータは、ディジタル・アナログ変換部(図示省略)において、アナログデータに変換され、ピッチ切り出し・重ね合わせ部15から合成音声信号として出力される。
なお、窓関数を乗じられた処理音声波形データは、必要に応じて、振幅調整のためのゲイン(利得)を乗じられる。また、PSOLA法におけるピッチ周波数のパターンは、音声波形の切り出し位置を示すピッチマークを用いており、これにより、ピッチ周期は、ピッチマークの間隔により示されるようになっている。さらに、波形辞書14におけるピッチ周波数と所望のピッチ周波数とが異なる場合、ピッチ切り出し・重ね合わせ部15は、ピッチ変換する。
次に、強調度自動決定部について詳述する。
(2)強調度自動決定部(強調度決定部)36の構成
(A1)第1の態様
図1に示す強調度自動決定部36は、単語出現頻度集計部37と、共有メモリ(保持部)39と、単語強調度決定部38とをそなえて構成されている。
共有メモリ39は、単語出現頻度集計部37にて集計された出現頻度と各単語又は連語とを対応付けて保持するものであり、また、単語出現頻度集計部37,単語強調度決定部38およびパラメータ生成部33等によって、参照又は書き込み可能なメモリによってその機能が実現される。
図2は本発明の一実施形態に係る第1の共有メモリ39のデータ例を示す図である。この図2に示す共有メモリ39は、単語とその単語の出現頻度(回数)と強調の有無とを対応付けて格納し、また、記録可能な領域(例えば行数等)は増減可能である。例えば、単語「時間的」の出現頻度は2回であり、入力された文章に、この単語「時間的」が現れた場合においても、単語「時間的」の強調が不要である旨が書き込まれている。一方、単語「アクセント」については、出現頻度が4回であり、文章にこの単語「アクセント」が現れた場合は強調されるように処理される。
そして、図1に示す単語強調度決定部38は、共有メモリ39に保持された出現頻度が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。この強調度自動決定部36についてさらに詳述する。
図3は本発明の一実施形態に係る第1の強調度自動決定部36のブロック図である。この図3に示す強調度自動決定部36の単語出現頻度集計部37は、強調除外辞書44と、除外単語考慮型の単語出現頻度集計部(以下、第2単語出現頻度集計部と称する。)37aとをそなえて構成されている。
ここで、強調除外辞書44は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、強調除外辞書44が格納する辞書データは、適宜更新してもよく、このようにすれば、顧客要求により合致した処理が可能となる。
第2単語出現頻度集計部37aは、入力部19(図1参照)から文字列を入力されると、その入力された文字列に含まれる特定単語については、出現頻度にかかわらず、強調すべきものから除外し、除外されていない単語については、通常に集計し、単語と頻度情報とを対応させて共有メモリ39aに記録するものであって、ソート(並び替え処理)部42と、強調単語抽出部43とをそなえて構成されている。
そして、第2単語出現頻度集計部37aは、入力された文字列を言語処理して得た単語が、強調の除外対象であるか否かを判定するために、一旦、強調除外辞書44のデータを予め検索し、その検索により、予め除外すべき単語に関する情報を得て、入力された文字列に含まれる単語又は連語のうちの特定単語を除外し、この除外されたもの以外の単語および出現頻度については、単語および出現頻度をペアにしたペアデータ単語−頻度情報を出力するようになっている。
これにより、文章に含まれる各単語又は連語の出現頻度が抽出基準として用いられ、単語出現頻度集計部37が、この出現頻度を集計する。
次に、図3に示す単語強調度決定部38は、入力された文章に含まれる文字列のうちの強調する単語に関する情報を出力するものであって、ソート部42と強調単語抽出部43とをそなえて構成されている。なお、この図3に示すもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
ここで、ソート部42は、共有メモリ39aのデータを出現頻度に基づいてソード(並べ替え)し、そのソートしたデータを単語,出現順位をペアにした単語−頻度情報を出力するものである。このソート部42は、共有メモリ39aから複数のデータ要素を取得し、並び替えの軸として出現順位を用いることにより、順位の高い単語から順位に従ってデータ要素を並び替えるのである。ここで、高い順位を有する単語は、文章に多く含まれており、重要な言葉又はキーワードであることが多い。
さらに、強調単語抽出部43は、ソート部42からの単語−出現順位情報を入力され、このペアデータのうちの出現順位情報を並び替えの軸として用いることにより、より正確な抽出が可能となっている。さらに、この強調単語抽出部43は、強調単語抽出部43自身にて抽出されたペアデータに基づいて、入力される文章に含まれる文字列のうちの重要な単語又は連語を抽出して抽出した単語又は連語を強調すべき単語情報として出力するものである。
次に、図3に示す共有メモリ39aは、第2単語出現頻度集計部37aにて集計された出現頻度と各単語又は連語とを対応付けて保持するものである。
図4は本発明の一実施形態に係る第2の共有メモリ39aのデータ例を示す図である。この図4に示す共有メモリ39aは、単語とその単語の出現頻度(回数)と出現頻度(順位)と強調の有無とをそれぞれ対応付けて格納しており、図2に示す共有メモリ39に出現頻度(順位)のデータ列が加えられている。なお、この図4に示すテーブルデータの行数は増減可能である。
例えば、入力された文章に含まれる単語「アクセント」の出現頻度が4回であり、単語「時間的」の出現頻度が2回であったとし、このうちの「アクセント」の出現頻度が最も大きい場合は、共有メモリ39aの出現頻度のデータ列に順位1が書き込まれ、また、単語「時間的」についても、出現頻度のデータ列に順位5が書き込まれる。そして、ソート部42(図3参照)は、この出現頻度に基づいて、共有メモリ39aのデータをソートする。
これにより、除外単語考慮型単語出現頻度集計部37aにおいて、入力文章の各単語の出現頻度(回数)が集計され、共有メモリ39aの第1列および第2列にデータが格納される。ここで、強調除外辞書44に記載された単語は除外される。そして、ソート部42は、出現回数の多い単語から順位を付けて共有メモリ39aの第3列に格納する。また、強調単語抽出部43は、例えば出現回数の上位3位までの単語について、強調の有無を決定し、共有メモリ39aの第4列に格納する。
さらに、これにより、単語出現頻度集計部37にて入力された文章の各単語又は連語の出現頻度が集計され、その集計結果は共有メモリ39に書き込まれる。単語強調度決定部38は、その集計結果に基づいて各単語又は連語の強調度を決定し、その決定した強調度を共有メモリ39に書き込む。また、パラメータ生成部33は共有メモリ39を参照し強調すべき単語について強調したパラメータを設定する。このため、設計変更をともなわずに、既存の技術を利用でき、一層合成音声の品質が向上する。
従って、本音声合成装置1は、強調部分(単語・連語)の出現頻度に基づいて自動的に強調部分(単語・連語)を得ることができ、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。
このように、出現頻度の高い単語又は連語が強調される。従って、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。
上記の音声合成装置1は、強調度自動決定部36において、文章に含まれる各単語又は連語の出現頻度に基づいて強調すべき各単語又は連語が抽出されて、各単語又は連語についての強調度が決定され、また、音響処理部60において、強調すべき各単語又は連語は、強調度自動決定部36にて決定された強調度が付与されて音声が合成されている。ここで、強調度自動決定部36と音響処理部60との機能は別個であるが、両機能に分けなくても、本発明は実施可能である。
換言すれば、本発明の音声合成装置1は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部11と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部36と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書14と、形態素解析部11からの中間言語のうちの強調度自動決定部36にて決定された各単語又は連語について音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部33と、パラメータ生成部33にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部15とをそなえて構成されている。これにより、やはり、自動的に強調度を決定できる。
さらに、各機能を分散配置し、入力された文章についての音声を合成して出力する音声合成システム1を構築することもできる。
すなわち、本発明の音声合成システム1は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部11と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部36と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書14と、形態素解析部11からの中間言語のうちの強調度自動決定部36にて決定された各単語又は連語について音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部33と、パラメータ生成部33にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部15とをそなえて構成するのである。
従って、このようにすれば、音声合成システム1は、各機能を遠隔配置し、各機能にデータ送受信回路(図示省略)を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。
このような構成により、本発明の音声合成方法と、本音声強調装置1が強調する単語又は連語を自動決定する例について説明する。
本発明の音声合成方法は、文章に含まれる各単語又は連語についての例えば出現頻度等の抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部36が、上記の各単語又は連語の抽出に関する基準値を集計する(集計ステップ)。
また、共有メモリ39は、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する(保持ステップ)。そして、単語考慮度決定部38は保持ステップに保持された基準値が高い各単語又は連語を抽出し(抽出ステップ)、抽出ステップにて抽出された各単語又は連語についての強調度を決定する(単語決定ステップ)。そして、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する(音声合成ステップ)。
従って、ユーザが強調する部分についての設定が可能になる。
単語出現頻度集計部37(図1参照)は、出現頻度を集計する特定の単語又は連語を、予め共有メモリ39に保持しておく。ここで、出現頻度の閾値は、予め書き込まれるようにしている。
単語出現頻度集計部37は、漢字かな混じり文を含むテキスト文章を入力されると、そのテキスト文章に含まれる多数の文字列の中から、特定の単語又は連語の出現頻度を抽出し、抽出した単語および出現頻度をペアにして、共有メモリ39の第1列(単語)と第2列(出現頻度)とに格納する。これにより、多数の文字列に含まれる特定語の出現頻度が集計される。
さらに、単語強調度決定部38は、各単語について出現頻度を共有メモリ39から読み出し、各単語についての強調の有無を決定し、そして、強調の有無を、決定した単語に対応する第3列(強調の有無)に格納する。
ここで、単語強調度決定部38は、この強調の有無を決定する閾値を例えば3回と設定する。これにより、単語「時間的」の出現頻度が2回の場合は、単語強調度決定部38はこの共有メモリ39の「強調の有無」をなしと記録し、また、単語「アクセント」の出現頻度が4回の場合は、単語強調度決定部38は共有メモリ39の「強調の有無」をありと記録する。
そして、図1に示すパラメータ生成部33は、単語又は連語ごとに共有メモリ39の第3列を読み込み、「強調有り」の場合はパラメータを生成し、そのパラメータをピッチ切り出し・重ね合せ部15に出力する。
また、ピッチ切り出し・重ね合わせ部15は、波形辞書14に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間(波形区間)と隣接する前後の区間に属する音声波形データの一部とを重畳加算して音声を合成する。
出力された合成音声は、増幅回路(図示省略)等において増幅され、スピーカ(図示省略)から音声が出力されてユーザに到着する。
このようにして、本音声合成装置1は、各単語又は連語の強調部分の出現頻度に基づいて自動的に単語又は連語の強調部分を得ることができる。これにより、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上できるとともに、聞き取りやすい合成を得られる。
(A2)第2の態様
第1の態様における抽出基準は、出現頻度に基づいて強調度を決定するためのパラメータを用いているが、出現頻度以外の出現回数,重要度等に基づいて強調度を決定する方法について詳述する。
図5は本発明の一実施形態に係る第2の音声合成装置のブロック図である。この図5に示す音声合成装置1aは、入力された文章を読み出して音声を合成するものであって、強調度自動決定部50と、入力部19と、音響処理部60とをそなえて構成されている。
ここで、強調度自動決定部50は、文章に含まれる各単語又は連語についての出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。
また、音響処理部60は、上記の強調すべき各単語又は連語に強調度自動決定部50にて決定された強調度を付与した音声を合成するものである。
図6は本発明の一実施形態に係る第2の強調度自動決定部50のブロック図である。この図6に示す強調度自動決定部50は、出現回数集計部56と、強調位置決定部57と、共有メモリ55とをそなえて構成されている。
ここで、出現回数集計部56は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものであって、強調除外辞書54と、除外単語考慮型単語出現回数集計部51とをそなえて構成されている。この強調除外辞書54は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、除外単語考慮型単語出現回数集計部51は、文章に含まれる各単語又は連語についてその数等を集計するものである。除外単語考慮型単語出現回数集計部51は、入力された文字列について強調除外辞書54を検索することにより、集計する対象の単語又は連語であるか、又は集計を不要とする除外単語(又は除外連語)であるかを判定し、各単語又は連語についての出現回数および出現位置等の詳細な情報を、共有メモリ55に逐次記録するのである。
図7は本発明の一実施形態に係る第3の共有メモリ55のデータ例を示す図である。この図7に示す共有メモリ55のデータ構造例は、単語「時間的」について、その出現回数を示す列と、その出現位置を単語数で表した列と、単語「時間的」を強調するか否かを示す列に関するデータを格納するとともに、強強調位置又は弱強調位置に関する情報をそれぞれ対応付けて格納している。例えば、単語「時間的」は、出現回数2で、出現位置が21,42とは、それぞれ、単語「時間的」が2回出現しており、最初の出現位置が最初の単語が出現した位置から21個目又は42個目の位置であることを表す。
そして、例えば単語「時間的」は、出現回数が少ないので、強調の有無はなしとし、単語「アクセント」は出現位置が15,55,83,99であって出現回数が4回なので「強調の有無」が必要と判定される。また、4回の出現位置のそれぞれについて、強く強調するもの(強強調位置)又は弱く強調するもの(弱強調位置)を記録している。
例えば、強調度自動決定部50は、抽出基準として、単語「アクセント」が最初に現れる出現箇所15においては単語「アクセント」について強く強調し、また、単語「アクセント」が2,3番目に現れる出現位置55,83の「アクセント」については弱く強調し、さらに、単語「アクセント」が4番目に現れる出現位置99の単語「アクセント」については強調不要、等種々決定できる。
従って、強調度自動決定部50は、上記の各単語又は連語の出現箇所と出現箇所の回数とに基づいて強調度を決定するようになっており、具体的には、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定する。
これにより、出現位置の異なる同一単語の強調の度合いは、それぞれ、異なるようきめ細かな音声化ができる。
また、これにより、出現回数集計部56(図6参照)は、共有メモリ55に格納されている各単語又は連語に関するデータのうちの出現回数と出現頻度と強調の有無に関する情報とのそれぞれに基づいて、出現頻度−位置情報のペアデータを抽出し強調位置決定部57(図6参照)に入力する。
また、図6に示す強調位置決定部57は、所定回数出現した単語又は連語を共有メモリ55に書き込む強調単語抽出部43と、強調する単語について例えば1回目の登場箇所は強めに強調し2回目以降は弱めに強調するとのきめ細かい強調に関する情報を共有メモリ55の第5列と第6列とに格納する強調箇所抽出部53とをそなえて構成されている。
なお、強調度自動決定部50以外のもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
このような構成により、図6に示す強調度自動決定部50は、単語出現頻度集計部51にて入力文章の各単語の出現頻度(総回数)を集計し、それぞれ、文章中の何単語目であるかを、単語数として、共有メモリ55の第1〜3列に格納する。
なお、強調度自動決定部50は、強調除外辞書54に登録された単語を除外している。強調除外辞書54を用いる理由は、出現頻度は高くても重要でないと考えられる単語の強調を防止するためである。例えば助詞および助動詞等の付属語、「あれ」,「その」等の指示代名詞、「こと」,「ところ」,「とき」等の形式名詞、「ある」,「する」,「なる」,「やる」等の補助用言等を強調除外辞書54に格納することが望ましい。
次に、強調単語抽出部43は、例えば3回以上出現した単語を強調するものとして共有メモリ55の第4列に書き込む。強調箇所抽出部53は、強調する単語について例えば1回目の登場箇所は強めに強調し、2回目以降は弱めに強調するように、共有メモリ55の第5列と第6列とに格納する。
また、パラメータ生成部33(図1参照)は、共有メモリ55の第5列と第6列とを参照して、検索された位置の単語について強めに又は弱めに強調するパラメータを生成する。
このように、強調度自動決定部50は、その単語の1回目の登場箇所は強めに強調し、2回目以降は弱めに強調又は強調不要を設定するので、同一の強調同一で繰り返し音声化されるときに聴覚される冗長感の発生を防止できる。
(A3)第3の態様
第3の態様における音声合成装置は、各単語又は連語の重要度を記録した単語記憶部を設け、この重要度の高さに応じて、多段階に単語又は連語を強調するようになっている。第3の態様における音声合成装置1cの概略的な構成は図1に示す音声合成装置1の構成と同一である。
図8は本発明の一実施形態に係る第3の強調度自動決定部のブロック図である。
この図8に示す強調度自動決定部69は、重要度出力部65と、強調単語抽出部43と、共有メモリ64とをそなえて構成されている。この重要度出力部65は、各単語又は連語に、多段階の重要度を付与し、単語−重要度のペアデータを出力するものであって、各単語又は連語と多段階の重要度とを対応付けて保持する重要度辞書63と、入力された文章に含まれる各単語又は連語について重要度辞書63を参照して多段階の重要度情報を得るための単語重要度照合部61とをそなえて構成されている。また、強調単語抽出部43は、上述したものと同一である。なお、重要度辞書63はユーザによってカスタマイズできるように構成してもよい。
さらに、共有メモリ64は、重要度出力部65にて集計された各単語又は連語と、これらの各単語又は連語との重要度とを対応付けて保持するものである。
図9は本発明の一実施形態に係る第4の共有メモリ64のデータ例を示す図である。この図9に示す共有メモリ64は、各単語と各単語の重要度(強調レベル)とを対応付けて格納している。また、この共有メモリ64の行数は増減可能である。例えば単語「時間的」は、強調レベル「なし」とし、また、単語「アクセント」は強調レベル「強」としている。
従って、強調度自動決定部60は、抽出基準として、上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて強調度を多段階に決定するようになっている。
なお、本発明の音声合成装置1cは、テキスト文を読み出すものであり、入力された音声波形データからキーワードを抽出するものではなく、また、強調度を多段階のレベルを用いて決定できる。
このような構成により、単語重要度照合部61は入力された文章に含まれる各単語の多段階の重要度を、重要度辞書63を参照することによって獲得し、獲得した重要度に応じた強調度を共有メモリ64に格納する。強調単語抽出部43は、格納された強調度をパラメータ生成部33(図1参照)に出力する。
このように、重要度辞書63を用いることにより、強調すべき単語を強調すべきレベルに応じて確実に強調できる。
(A4)第4の態様
第4の態様における音声合成装置は、単語の品詞を解析できる品詞解析機能を設け、これにより、固有名詞を強調するようにしている。第4の態様における音声合成装置1dの概略的な構成は図1に示す音声合成装置1の構成と同一である。
図10は本発明の一実施形態に係る第4の強調度自動決定部のブロック図である。この図10に示す強調度自動決定部70は、共有メモリ74と、固有名詞選択部72と、強調単語抽出部43とをそなえて構成されている。この共有メモリ74は、各単語又は連語と、これらの各単語又は連語のうちの固有名詞については「強調あり」との対応関係を保持するものである。
図11は本発明の一実施形態に係る第5の共有メモリ74のデータ例を示す図であるが、この図11に示す共有メモリ74は、単語「時間的」,「アクセント」等については強調を不要とする一方、例えば固有名詞「アルプス」については強調が必要という対応関係を格納している。なお、共有メモリ74の行数は増減可能である。
また、固有名詞選択部72(図10参照)は、固有名詞辞書73と固有名詞判定部71とをそなえて構成されている。この固有名詞辞書73は各単語又は連語の品詞を保持するものであり、固有名詞判定部71は入力された文字列に含まれる各単語又は連語が固有名詞であるか否かについて、各単語又は連語を固有名詞辞書73に照合することにより判定するものである。固有名詞判定部71は、各単語が固有名詞の場合は「強調あり」を共有メモリ74に書き込み、各単語が固有名詞でない場合は「強調なし」を共有メモリ74に書き込む。そして、強調単語抽出部43は、共有メモリ74に格納された強調の有無をパラメータ生成部33に出力する。
従って、強調度自動決定部70は、抽出基準として、文章に含まれる特定の固有名詞に基づいて強調度を決定していることになる。
このような構成により、共有メモリ74が初期化された状態において、固有名詞選択部72に文章が入力されると、固有名詞判定部71は、その文章に含まれる各単語又は連語について、各々、固有名詞辞書73を参照することにより、固有名詞であるか否かを判定する。この判定結果が固有名詞の場合は、固有名詞判定部71は、固有名詞情報(単語が固有名詞であることを示す情報)を出力し強調単語抽出部43は、その単語を強調する。また、判定結果が固有名詞でない場合は、固有名詞判定部71は、固有名詞情報を出力しない。
この間、固有名詞判定部71は、文字列の入力が停止するまで、各判定結果を共有メモリ74に記録し続ける。従って、共有メモリ74は、多数の各単語又は連語について、強調の有無に関するデータが記録される。
このように、文字列のうちの固有名詞が強調されるので、音声合成装置は、文章全体として聞き取りやすい音声を合成できる。
(A5)第5の態様
第5の態様における音声合成装置は、文字種別のうちの例えばカタカナで表記された各単語又は連語を強調するようにしている。第5の態様における音声合成装置1eの概略的な構成は図1に示す音声合成装置1の構成と同一である。
図12は本発明の一実施形態に係る第5の強調度自動決定部のブロック図である。この図12に示す強調度自動決定部80は、カタカナ語選択部84と、強調単語抽出部43とをそなえて構成されている。また、カタカナ語選択部84は、カタカナ語文字を保持するカタカナ語辞書83と、このカタカナ語辞書83を参照することによって、入力された各単語又は連語がカタカナ語であるか否かを判定するものである。なお、このカタカナ語辞書83は、上記の固有名詞辞書73(図10参照)の中に設けることもできる。
また、カタカナに限らずに、例えば、アルファベット,ギリシャ文字,特殊な漢字等の文字種別を強調することもできる。すなわち、この強調度自動決定部80は、抽出基準として、文章に含まれる例えばカタカナ,アルファベット又はギリシャ文字等の種々の文字種別に基づいて強調度を決定することができる、
このような構成により、入力された文章に含まれる各単語又は連語は、カタカナ語判定部81において、カタカナで表記されている否かを判定され、カタカナ語の場合はカタカナ情報(入力された文字列がカタカナで表されたことを示す情報)を出力する。そして、強調単語抽出部43は、文字がカタカナ情報である場合にはその単語を強調し、また、そうでない場合にはその単語をそのまま出力する。
このように、カタカナ語を強調することにより、全体として聞き取りやすい合成音声とすることが期待できる。
(B)その他
本発明は上述した実施態様及びその変形態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
中間言語の韻律記号は、一例であって、本発明は、種々変形した態様により、実施できることは言うまでもない。また、パラメータの種類,共有メモリに保持されるデータの保持形式,データの保持場所又は各データについての処理の方法そのものを変形したものであっても、それは、本発明の優位性をなんら損なうものでもない。
そして、本発明は上述した実施態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
Claims (13)
- 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴とする、音声合成装置。 - 該強調度決定部が、
該文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、
該集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、
該保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての該強調度を決定する単語決定部とをそなえて構成されたことを特徴とする、請求の範囲第1項記載の音声合成装置。 - 該強調度決定部が、
該抽出基準として、上記の各単語又は連語の出現頻度に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第1項又は第2項記載の音声合成装置。 - 該強調度決定部が、
該抽出基準として、該文章に含まれる特定の固有名詞に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第1項又は第2項記載の音声合成装置。 - 該強調度決定部が、
該抽出基準として、該文章に含まれる文字種別に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第1項又は第2項記載の音声合成装置。 - 該強調度決定部が、
該抽出基準として、上記の各単語又は連語の出現箇所と該出現箇所の回数とに基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第1項又は第2項記載の音声合成装置。 - 該強調度決定部が、
上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成されたことを特徴とする、請求の範囲第6項記載の音声合成装置。 - 該強調度決定部が、
該抽出基準として、上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて該強調度を多段階に決定するように構成されたことを特徴とする、請求の範囲第1項又は第2項記載の音声合成装置。 - 該音響処理部が、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該形態素解析部からの韻律記号付き中間言語のうちの該強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、請求の範囲第1項〜第8項のいずれか一項記載の音声合成装置。 - 文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成装置。 - 該ピッチ切り出し・重ね合わせ部が、
該波形辞書に格納された音声波形データを、該パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されたことを特徴とする、請求の範囲第10項記載の音声合成装置。 - 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、
該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、
該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、
該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する単語決定ステップと、
上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴とする、音声合成方法。 - 入力された文章についての音声を合成して出力する音声合成システムであって、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/000402 WO2004066271A1 (ja) | 2003-01-20 | 2003-01-20 | 音声合成装置,音声合成方法および音声合成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004066271A1 true JPWO2004066271A1 (ja) | 2006-05-18 |
JP4038211B2 JP4038211B2 (ja) | 2008-01-23 |
Family
ID=32750559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004567110A Expired - Fee Related JP4038211B2 (ja) | 2003-01-20 | 2003-01-20 | 音声合成装置,音声合成方法および音声合成システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7454345B2 (ja) |
JP (1) | JP4038211B2 (ja) |
WO (1) | WO2004066271A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070430A (ja) * | 2003-08-25 | 2005-03-17 | Alpine Electronics Inc | 音声出力装置および方法 |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
JP4744338B2 (ja) * | 2006-03-31 | 2011-08-10 | 富士通株式会社 | 合成音声生成装置 |
JP4946293B2 (ja) * | 2006-09-13 | 2012-06-06 | 富士通株式会社 | 音声強調装置、音声強調プログラムおよび音声強調方法 |
US20080243510A1 (en) * | 2007-03-28 | 2008-10-02 | Smith Lawrence C | Overlapping screen reading of non-sequential text |
JP5141688B2 (ja) * | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
US8484014B2 (en) * | 2008-11-03 | 2013-07-09 | Microsoft Corporation | Retrieval using a generalized sentence collocation |
JP4785909B2 (ja) * | 2008-12-04 | 2011-10-05 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置 |
JP2010175717A (ja) * | 2009-01-28 | 2010-08-12 | Mitsubishi Electric Corp | 音声合成装置 |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
TWI383376B (zh) * | 2009-08-14 | 2013-01-21 | Kuo Ping Yang | 語音溝通方法及應用該方法之系統 |
US20130149688A1 (en) * | 2011-09-07 | 2013-06-13 | Douglas Bean | System and method for deriving questions and answers and summarizing textual information |
JP5802139B2 (ja) * | 2012-01-20 | 2015-10-28 | 日本放送協会 | 音声処理装置及びプログラム |
EP3166104B1 (en) * | 2014-07-02 | 2019-09-18 | Yamaha Corporation | Voice synthesizing apparatus,voice synthesizing method, and program therefor |
JP6309852B2 (ja) * | 2014-07-25 | 2018-04-11 | 日本電信電話株式会社 | 強調位置予測装置、強調位置予測方法及びプログラム |
JP6369311B2 (ja) * | 2014-12-05 | 2018-08-08 | 三菱電機株式会社 | 音声合成装置および音声合成方法 |
JP2016122033A (ja) * | 2014-12-24 | 2016-07-07 | 日本電気株式会社 | 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
US10241716B2 (en) | 2017-06-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Global occupancy aggregator for global garbage collection scheduling |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
EP3823306B1 (en) * | 2019-11-15 | 2022-08-24 | Sivantos Pte. Ltd. | A hearing system comprising a hearing instrument and a method for operating the hearing instrument |
JP6995907B2 (ja) * | 2020-03-09 | 2022-01-17 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
US11537781B1 (en) | 2021-09-15 | 2022-12-27 | Lumos Information Services, LLC | System and method to support synchronization, closed captioning and highlight within a text document or a media file |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
JPH03196199A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP3266157B2 (ja) | 1991-07-22 | 2002-03-18 | 日本電信電話株式会社 | 音声強調装置 |
JPH0580791A (ja) * | 1991-09-20 | 1993-04-02 | Hitachi Ltd | 音声規則合成装置および方法 |
JPH05224689A (ja) | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置 |
US5529953A (en) | 1994-10-14 | 1996-06-25 | Toshiba America Electronic Components, Inc. | Method of forming studs and interconnects in a multi-layered semiconductor device |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
JP3583852B2 (ja) * | 1995-05-25 | 2004-11-04 | 三洋電機株式会社 | 音声合成装置 |
JP3331297B2 (ja) | 1997-01-23 | 2002-10-07 | 株式会社東芝 | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 |
US6182028B1 (en) * | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
JP4218075B2 (ja) * | 1998-03-02 | 2009-02-04 | 沖電気工業株式会社 | 音声合成装置およびそのテキスト解析方法 |
US7072826B1 (en) * | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
JP2000099072A (ja) * | 1998-09-21 | 2000-04-07 | Ricoh Co Ltd | 文書読み上げ装置 |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
JP2000206982A (ja) | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
-
2003
- 2003-01-20 WO PCT/JP2003/000402 patent/WO2004066271A1/ja active Application Filing
- 2003-01-20 JP JP2004567110A patent/JP4038211B2/ja not_active Expired - Fee Related
-
2005
- 2005-02-23 US US11/063,758 patent/US7454345B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2004066271A1 (ja) | 2004-08-05 |
JP4038211B2 (ja) | 2008-01-23 |
US20050171778A1 (en) | 2005-08-04 |
US7454345B2 (en) | 2008-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4038211B2 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
US20090259475A1 (en) | Voice quality change portion locating apparatus | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JP2000172289A (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
Shah et al. | Bi-Lingual Text to Speech Synthesis System for Urdu and Sindhi | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
JP3589972B2 (ja) | 音声合成装置 | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 | |
JPS62119591A (ja) | 文章読上げ装置 | |
Matoušek | Building a new Czech text-to-speech system using triphone-based speech units | |
Kayte et al. | Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi | |
CN116580696A (zh) | 基于情感识别的语音流合成方法及装置 | |
CN118571229A (zh) | 一种用于语音特征描述的语音标注方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071102 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |