JPWO2009031219A1

JPWO2009031219A1 - 音信号生成方法、音信号生成装置及びコンピュータプログラム

Info

Publication number: JPWO2009031219A1
Application number: JP2009531057A
Authority: JP
Inventors: 渡辺　一宏; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-09-06
Filing date: 2007-09-06
Publication date: 2010-12-09
Anticipated expiration: 2027-09-06
Also published as: JP5141688B2; CN101796575A; WO2009031219A1; US20100145690A1; US8280737B2; CN101796575B

Abstract

本発明は、原音信号を加工して加工音信号を生成することにより、ノイズ感、ざらつき感等の音質劣化を抑制した高品質の音声を合成する音信号生成方法、音信号生成装置及びコンピュータプログラムを提供する。本発明は、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する。

Description

本発明は、原音信号を加工して加工音信号を生成する音信号生成方法、該音信号生成方法を適用した音信号生成装置、及び該音信号生成装置を実現するためのコンピュータプログラムに関する。

近年、メール及びウェブサイトコンテンツのテキストデータを音声で読み上げる機能が、例えば携帯電話等の組込機器に搭載されている。この様な音声読み上げ機能を実現する音声合成処理では、合成音声に必要な音声素片データをＡＤＰＣＭ(Adaptive Differential Pulse Code Modulation )等の圧縮方法で圧縮して記録したデータベースである波形辞書を予め内蔵メモリ等の記録手段に記録しておく。そして合成音声波形を生成する際に、波形辞書から圧縮された音声素片データを読み取って伸長復号し、伸長復号した音声素片データの結合、高さ及び速度の調整等の加工処理を行うことにより、音声信号を生成し、生成した音声信号に基づいて合成音声を出力する。

音声素片の作成方法及び音声合成方法は、例えば特許文献１に開示されている。

ところがＡＤＰＣＭ等の圧縮方法で圧縮された音声信号を伸長復号することにより、生成された音声は、ノイズ感、ざらつき感等の音質劣化が生じる場合がある。また複数の音声素片データの結合、音声の高さ及び速度の調整の際にもノイズ感、ざらつき感等の音質劣化が生じる場合がある。

図１は、生成した音声信号の波形を示すグラフである。図１（ａ）は、圧縮された音声信号を伸長復号することで生成した音声信号の波形を示しており、不可逆圧縮による圧縮及び伸長時のノイズにより、生成された音声信号の周期波形の各ピッチの振幅がばらついている。このような各ピッチのバラツキ、滑らかでない変化等の要因により、生成された音声信号に基づく合成音声にはノイズ感、ざらつき感等の音質劣化が生じる。

図１（ｂ）は、音声の速度、所謂、話速を遅くした場合に生成される音声信号の波形を示しており、同じ音声素片の音声信号をピッチ単位で所定回数ずつ連続させることにより、話速を遅くした音声信号を生成している。この様な音声信号の場合、ピッチ波形の振幅の変化が階段状になり、音質劣化の原因となる。

この様な音声劣化を防止する方法として、圧縮時の圧縮率を低くすることにより、不可逆圧縮により生じるノイズを防止する方法がある。また合成後の音声信号を短時間ＦＦＴ処理にて周波数軸上の成分に変換することで生成したスペクトルに対し、ノイズ除去処理を行った上で、逆ＦＦＴ処理にて元の時間軸上の音声信号に戻すことで音声劣化を防止する方法がある。
特開平８−１６０９９１号公報

しかしながら圧縮率を低くする方法では波形辞書に要するメモリ容量が大きくなるという問題があり、また周波数変換によりノイズを除去する方法では処理負荷が大きくなるという問題がある。これらの問題は、メモリ容量及び処理能力の制約が大きい携帯電話等の組込機器に搭載する場合、無視することができない問題となる。また、演算処理に伴う消費電力の削減の観点からも、上記問題の解決が望まれる。

本発明は斯かる事情に鑑みてなされたものであり、少ない処理量で本来の声質を損なうことなく、圧縮伸長、音声合成等の処理に生じる音質劣化を低減することが可能な音信号生成方法、該音信号生成方法を適用した音信号生成装置、及び該音信号生成装置を実現するためのコンピュータプログラムの提供を目的とする。

第１発明に係る音信号生成方法は、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成方法において、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成することを特徴とする。

第２発明に係る音信号生成装置は、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成装置において、原音信号を記録する記録手段と、該記録手段に記録されている原音信号を読み取る手段と、読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する第１生成手段と、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成する第２生成手段と、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成する第３生成手段とを備えることを特徴とする。

第３発明に係る音信号生成装置は、第２発明において、前記第１生成手段が生成した連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成する第４生成手段を更に備え、前記第２生成手段は、第４生成手段が生成した単位波形信号を連続させて連続波形信号を生成する様に構成してあることを特徴とする。

第４発明に係る音信号生成装置は、第２発明又は第３発明において、加工音信号の所定波長以上の振幅を強調する高域強調処理を行うフィルタ手段を更に備えることを特徴とする。

第５発明に係る音信号生成装置は、第４発明において、前記原音信号は音声信号であり、前記原音信号が有声音か無声音かを判定する手段を更に備え、前記フィルタ手段は、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行う様に構成してあることを特徴とする。

第６発明に係る音信号生成装置は、第２発明乃至第５発明において、前記原音信号は音声信号であり、生成した加工音信号に基づく音声を出力する手段を更に備えることを特徴とする。

第７発明に係るコンピュータプログラムは、コンピュータに、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成させるコンピュータプログラムにおいて、コンピュータに、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成させる手順と、コンピュータに、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成させる手順と、コンピュータに、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成させる手順とを実行させることを特徴とする。

第１発明、第２発明、第６発明及び第７発明では、音声劣化の原因となる連続するピッチ単位の波形の急激な変化を抑制しながらも、本来の音信号のスペクトル包絡の形状をほぼ損なうことのない音信号を生成することができるので、少ない処理量ながらも本来の音質を損なうことなく、音質劣化を低減することが可能である。

第３発明では、単位波形信号の始端及び終端の振幅を合わせることにより、生成した連続波形信号において、単位波形信号の隣接区間が不連続となることを防止し、波形の不連続性に基づく音質劣化を防止することが可能である。

第４発明では、波形信号を重畳する平滑化処理により低下する高波長領域の振幅を強調することができるので、本来の音質を維持することが可能である。

第５発明では、平滑化処理の影響が大きい有声音に対してのみ高域強調処理を行うことにより、無声音の高域が強調され過ぎて、本来の音質を損ない耳障りな音となることを防止することが可能である。

本発明に係る音信号生成方法、音信号生成装置及びコンピュータプログラムは、音声素片データ等の原音信号のデータを波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する。

この構成により、本発明では、ピッチ単位の波形の時間変化を均す処理を行うため、音声劣化の原因となる連続するピッチ単位の波形の急激な変化を抑制しながらも、本来の音信号のスペクトル包絡の形状をほぼ損なうことのない音信号を生成することができる。その結果、少ない処理量ながらも本来の音質を損なうことなく、音質劣化を低減することが可能である。従って本発明では、原音信号を記録する波形辞書等のデータベースを用いて音声合成を行う場合に、大きな処理負荷を要することなくノイズを除去し、音質の劣化を防止することが可能である等、優れた効果を奏する。そのため、周波数変換によりノイズを除去する方法と比較して、ノイズを除去するための演算処理に要する消費電力を削減することが可能となる。また本発明では、原音信号を圧縮して記録する波形辞書に適用した場合には、波形辞書に要するメモリ容量を削減することができるので、メモリ容量及び処理能力の制約が大きい携帯電話等の組込機器に適用したときにでも、音質の劣化を防止することが可能である等、優れた効果を奏する。しかも本発明は、波形辞書の元の原音信号に含まれるノイズを除去し、音質を向上させることも可能である等、優れた効果を奏する。

また本発明に係る音信号生成装置等は、連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成し、生成した単位波形信号を連続させて連続波形信号を生成する。

この構成により、本発明では、単位波形信号の始端及び終端の振幅を合わせることで、生成した連続波形信号において、単位波形信号を隣接させる箇所が不連続となることを防止し、波形の不連続性に基づく音質劣化を防止することが可能である等、優れた効果を奏する。

さらに本発明に係る音信号生成装置等は、加工音信号の所定波長以上の振幅を強調する高域強調処理を行うことにより、波形信号を重畳する平滑化処理により低下する高波長領域の振幅を強調するので、本来の音質を維持することが可能である等、優れた効果を奏する。

特に音声合成に適用する場合に、原音信号が有声音か無声音かを判定し、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行うことにより、平滑化処理の影響が大きい有声音に対してのみ高域強調処理を行うことにより、無声音の高域が強調され過ぎて、本来の音質を損ない耳障りな音となることを防止することが可能である等、優れた効果を奏する。

生成した音声信号の波形を示すグラフである。本発明の音信号生成装置の構成例を示すブロック図である。本発明の音信号生成装置の音声出力処理の一例を示すフローチャートである。本発明の音信号生成装置の加工処理の一例を示すフローチャートである。本発明の音信号生成装置の加工処理による波形の加工の一例を示す説明図である。本発明の音信号生成装置の端部処理の一例を示すフローチャートである。本発明の端部処理を行わなかった場合の連続波形信号の波形の加工の一例を示す説明図である。本発明の音信号生成装置の端部処理による波形の加工の一例を示す説明図である。本発明の音信号生成装置の音声出力処理の一例を示すフローチャートである。本発明の音信号生成装置の音声素片データ生成処理を示すフローチャートである。

符号の説明

１音信号生成装置
１０制御部
１１記録部
１１ａ波形データベース
１１ｂ読み方データベース
１４音出力部
１００コンピュータプログラム

以下、本発明をその実施の形態を示す図面に基づいて詳述する。図２は、本発明の音信号生成装置の構成例を示すブロック図である。図２中１は、携帯電話等のコンピュータを用いた本発明の音信号生成装置であり、音信号生成装置１は、装置全体を制御するＣＰＵ等の制御部１０と、制御部１０の制御により実行される本発明のコンピュータプログラム１００及び各種データ等の情報を記録するＲＯＭ、ＲＡＭ等の記録部１１とを備えている。そして記録部１１に記録された本発明のコンピュータプログラム１００を、制御部１０の制御にて実行することにより、携帯電話等のコンピュータは、本発明の音信号生成装置１として動作する。また記録部１１の記録領域の一部は、合成音声の生成に必要な音声素片データ等の音信号を示すデータをＡＤＰＣＭ等の圧縮方法で圧縮して記録した波形辞書と呼ばれる波形データベース（波形ＤＢ）１１ａ、漢字、仮名、英単語等の読み方を記録した読み方データベース（読み方ＤＢ）１１ｂ等の各種データベースとして用いられている。なお記録部１１の記録領域の一部を各種データベースに用いるのではなく、データベース専用のメモリチップを用いて大容量化及び高速化を行うことも可能である。本発明の音信号生成装置１は、音信号の波形を加工する処理を実行するので、以降の説明では、波形データベース１１ａに記録されている音信号を原音信号と称し、加工後の音信号を加工音信号と称する。

さらに音信号生成装置１は、通信インタフェースとなるアンテナ及びその付属機器等の通信部１２と、マイク等の音入力部１３と、スピーカ等の音出力部１４と、音信号の変換処理を行う音変換部１５とを備えている。音変換部１５による変換処理とは、音入力部１３が受音したアナログ信号である音信号をデジタル信号に変換する処理並びに音出力部１４から出力すべくデジタル信号をアナログ信号に変換する処理である。さらに音信号生成装置１は、英数字及び各種命令等のキー入力による操作を受け付ける操作部１６と、各種情報を表示する液晶ディスプレイ等の表示部１７とを備えている。

なおここでは携帯電話を用いて音信号生成装置１を実現する形態を説明するが、本発明はこれに限らず、合成された音声等の音を出力する機能を有するパーソナルコンピュータ等の様々なコンピュータにて実現することが可能である。例えばパーソナルコンピュータにて実現する場合、本発明のコンピュータプログラム１００を記録したＣＤ−ＲＯＭ等の記録媒体から、ＣＤ−ＲＯＭドライブ等の補助記憶部にてコンピュータプログラム１００を読み取り、ハードディスク等の記録部１１に記録する。そして制御部１０にて記録部１１に記録させたコンピュータプログラム１００を実行することにより、本発明の音信号生成装置１を実現することが可能となる。

次に本発明の音信号生成装置１の処理について説明する。図３は、本発明の音信号生成装置１の音声出力処理の一例を示すフローチャートである。音信号生成装置１は、例えばメール及びウェブサイトコンテンツのテキストデータを音声で読み上げる場合に合成音声出力処理を実行する。音信号生成装置１は、記録部１１に記録しているコンピュータプログラム１００を実行する制御部１０の制御により、テキストデータを読み取り、読み取ったテキストデータの読み方を、読み方データベース１１ｂから選択し（Ｓ１０１）、選択した読み方に対応する圧縮された原音信号のデータを、波形データベース１１ａから選択して読み取り（Ｓ１０２）、読み取った原音信号のデータを伸長復号する（Ｓ１０３）。

そして音信号生成装置１は、制御部１０の制御により、伸長復号した原音信号のデータを加工して加工音信号を生成する加工処理を実行する（Ｓ１０４）。ステップＳ１０４の加工処理は、原音信号のピッチ単位の波形の時間変化を均す平滑化処理であり、ノイズ除去等の音質を向上させる処理である。加工処理の詳細については後述する。

そして音信号生成装置１は、制御部１０の制御により、加工音信号に基づいて音声信号を合成する音声合成処理を行い（Ｓ１０５）、合成した音声信号に基づく音声を音出力部１４から出力する（Ｓ１０６）。この様にして音声出力処理が実行される。

図４は、本発明の音信号生成装置１の加工処理の一例を示すフローチャートである。音信号生成装置１は、記録部１１に記録しているコンピュータプログラム１００を実行する制御部１０の制御により、読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する（Ｓ２０１）。音信号生成装置１は、原音信号の波形のピッチを、波形データベース１１ａに予め記録されている当該原音信号のピッチを示す情報に基づいて認識するが、波形のピーク間の間隔、波形の相関等の波形そのものから検出することも可能である。

音信号生成装置１は、制御部１０の制御により、単位波形信号の波形を５回等の所定回数連続させた連続波形信号を、各単位波形信号について生成し（Ｓ２０２）、生成した連続波形信号を、ハニング窓関数、ハミング窓関数等の窓関数を用いて窓掛け処理を行う（Ｓ２０３）。

さらに音信号生成装置１は、制御部１０の制御により、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号のデータを生成する（Ｓ２０４）。例えば単位波形信号を５回連続させた連続波形信号を生成している場合、各連続波形信号をピッチ単位でずらして重畳することにより、連続する５ピッチ分の波形を重畳させた１ピッチ分の波形を生成することになる。これはピッチ単位で波形の移動平均を求めていることになるため、原音信号のピッチ単位の波形の時間変化を均す平滑化処理となる。なお単位波形信号からの連続波形信号の生成に際し、適宜選択された窓関数による窓掛け処理が行われる。

そして音信号生成装置１は、制御部１０の制御により、加工音信号に対応する原音信号の区間が有声音であるか無声音であるかを判定する（Ｓ２０５）。有声音であるか無声音であるかの判定は、例えば波形データベース１１ａに予め記録されている当該原音信号について示した情報に基づいて判定する。

ステップＳ２０５において、有声音であると判定した場合（Ｓ２０５：ＹＥＳ）、音信号生成装置１は、制御部１０の制御に基づいて、高域エンファンスフィルタにより、加工音信号の所定波長以上の振幅を強調する高域強調処理を行う（Ｓ２０６）。なおステップＳ２０５において、無声音であると判定した場合（Ｓ２０５：ＮＯ）、音信号生成装置１は、ステップＳ２０６の高域強調処理は実行しない。ステップＳ２０４にて生成された加工音信号は、高波長領域の振幅を低下させるため、高域強調処理を行うことで本来の音質を維持することができる。なお無声音は、高波長領域に大きな低下がないため、高域強調処理は行わない。

加工処理における波形の具体的な加工について説明する。図５は、本発明の音信号生成装置１の加工処理による波形の加工の一例を示す説明図である。図５（ａ）は、原音信号の波形の時間変化を示しており、実線にて示した長方形が、ステップＳ２０１にて生成するピッチ単位で分離した単位波形信号となる。なお便宜上、２つの単位波形信号のみを実線にて示しているが、分離されたピッチ単位の夫々の波形が単位波形信号として処理される。

図５（ｂ）は、ステップＳ２０２にて生成する単位波形信号の波形を所定回数連続させた連続波形信号を示している。図５（ｂ）では、図５（ａ）にて実線の長方形にて示した単位波形信号を５回連続させた連続波形信号を示している。なお図５（ｂ）の点線で示した曲線は、連続波形信号に対する、ステップＳ２０３の窓掛け処理にて用いる窓関数の重みを示している。

図５（ｃ）は、ステップＳ２０４にて各連続波形信号を、原音信号を形成していた順にピッチ単位で移動、即ちずらした状態を概念的に示しており、図５（ｄ）は、ステップＳ２０４にてピッチ単位で移動させた状態の連続波形信号を重畳して生成した加工音信号の波形を示している。この様にして加工処理が実行される。

図６は、本発明の音信号生成装置１の端部処理の一例を示すフローチャートである。図４を用いて示した加工処理において、ステップＳ２０１にて生成した単位波形信号からステップＳ２０２にて連続波形信号を生成する際に、単位波形信号を隣接させる箇所が不連続となることを防止するために端部処理を行うことで更にノイズの発生を抑制することができる。音信号生成装置１は、制御部１０の制御により、ステップＳ２０１にて単位波形信号を生成し、生成した連続する複数の単位波形信号を重み付け合成することで、始端及び終端の振幅を合わせた単位波形信号を生成する（Ｓ３０１）。そして音信号生成装置１は、生成した単位波形信号を用いてステップＳ２０２に示した連続波形信号の生成以降の処理を実行する。

端部処理における具体的な加工について説明する。先ず端部処理を行わない場合について説明する。図７は、本発明の端部処理を行わなかった場合の連続波形信号の波形の加工の一例を示す説明図である。図７（ａ）は、原音信号の波形の時間変化を示しており、図７（ｂ）は、ピッチ単位で分離した単位波形信号を示している。図７（ｂ）に示す単位波形信号は、始端と終端との振幅にΔａとして示す差分が存在する。図７（ｃ）は、始端と終端との振幅にΔａの差分が存在する単位波形信号を連続させて生成した連続波形信号を示している。図７（ｃ）に示す様に始端と終端との振幅にΔａの差分が存在する単位波形信号を連続させた場合、単位波形信号を隣接させる箇所にΔａの差分が存在するため、吹き出しとして拡大表示している箇所の様に不連続な状態となり、これによりノイズが発生するので音質劣化の原因となる。なお図７中の実線で示した区切は、単位波形信号の区切を示している。

図８は、本発明の音信号生成装置１の端部処理による波形の加工の一例を示す説明図である。図８（ａ）は、原音信号の波形の時間変化を示しており、実線の長方形にて示す様に、端部処理の対象となる単位波形信号を、連続する直前の単位波形信号を用いて端部処理を行う。図８（ａ）では、端部処理の対象となる単位波形信号及び処理に用いる直前の単位波形信号を実線の長方形にて示している。図８（ａ）に点線で示した曲線は、夫々の単位波形信号に掛ける重みであり、例えば２つの単位波形信号の接する箇所が１となり、端部が０となるハニング窓等の窓関数を用いる。

図８（ｂ）は、夫々の単位波形信号に重みを掛けた状態を示しており、点線が元の単位波形信号の波形を示し、実線が重みを掛けた後の単位波形信号の波形を示している。

図８（ｃ）は、重みを掛けた単位波形信号を合成した状態を示しており、点線及び一点鎖線が合成前の２つの単位波形信号を示しており、実線が合成後の単位波形信号を示している。合成された単位波形信号は、ステップＳ３０１にて生成される単位波形信号であり、元の単位波形信号とほぼ同様の形状でありながら、始端及び終端の振幅が一致している。

図８（ｄ）は、端部処理にて生成した単位波形信号を用いて生成した連続波形信号である。端部処理にて始端及び終端の振幅を一致させた単位波形信号を用いているため、不連続な箇所がない連続波形信号となっている。なお図８（ｄ）中の実線で示した区切は、単位波形信号の区切を示している。

ここでは２つの単位波形信号に基づいて端部処理を行う形態を示したが、本発明はこれに限らず、４つの連続する単位波形信号を２つに分け、２つの単位波形信号に基づいて端部処理を行った後の２つの単位波形信号に基づいて更に端部処理を行う等、様々な形態に展開することが可能である。またハニング窓に限らず、２つの単位波形信号の接する箇所が１となり、端部が０となり、対応する各位置での合計の重みが１になるので有れば様々な重み付け用の関数を用いることが可能である。この様にして加工処理及び端部処理が実行される。

本発明の音信号生成装置１は、上述した様に圧縮された原音信号のデータの伸長復号時のノイズを除去するだけでなく、圧縮されていない原音信号のデータの音質向上に用いることも可能である。次に圧縮されていない原音信号に対して加工処理を実行する音声出力処理について説明する。なお当該音声出力処理において、波形データベース１１ａには、圧縮されていない原音信号のデータが記録されているものとする。

図９は、本発明の音信号生成装置１の音声出力処理の一例を示すフローチャートである。音信号生成装置１は、記録部１１に記録しているコンピュータプログラム１００を実行する制御部１０の制御により、テキストデータを読み取り、読み取ったテキストデータの読み方を、読み方データベース１１ｂから選択し（Ｓ４０１）、選択した読み方に対応する原音信号のデータを、波形データベース１１ａから選択して読み取る（Ｓ４０２）、

さらに音信号生成装置１は、制御部１０の制御により、読み取った原音信号に基づいて音声信号を合成する音声合成処理を行い（Ｓ４０３）、音声合成処理により原音信号から合成した音声信号を加工する加工処理を実行する（Ｓ４０４）。ステップＳ４０４にて実行する加工処理は、図４を用いて説明した加工処理と同様であり、原音信号から合成した音声信号のピッチ単位の波形の時間変化を均す平滑化処理である。また必要に応じて端部処理が実行される。

そして音信号生成装置１は、制御部１０の制御により、加工処理を施した合成音声の音声信号に基づく音声を音出力部１４から出力する（Ｓ４０５）。この様にして圧縮されていない原音信号に基づく音声出力処理が実行される。

さらに本発明の音信号生成装置１は、波形データベース１１ａに記録する原音信号に対して加工処理を実行することも可能である。この様な処理の場合、音信号生成装置１は、汎用コンピュータ等のコンピュータを用いて実現される。図１０は、本発明の音信号生成装置１の音声素片データ生成処理を示すフローチャートである。音信号生成装置１は、記録部１１に記録しているコンピュータプログラム１００を実行する制御部１０の制御により、音声素片データとして記録する原音信号に対し、加工処理を実行し（Ｓ５０１）、加工処理後の原音信号を音声素片データとして波形データベース１１ａに記録する（Ｓ５０２）。ステップＳ５０１にて実行する加工処理は、図４を用いて説明した加工処理と同様であり、原音信号から合成した音声信号のピッチ単位の波形の時間変化を均す平滑化処理である。また必要に応じて端部処理が実行される。

この様にして生成された波形データベース１１ａは、図９に示した音声出力処理に用いられる。但し、既に加工処理が施された音声素片データが記録されているため、図９のステップＳ４０４に示した加工処理は不要となる。

前記実施の形態では、テキストデータを音声で読み上げる場合に合成音声出力処理に適用する形態を示したが、本発明はこれに限らず、電話応答サービスの自動応答等の様々なサービスにおける音声合成に適用することが可能である。即ち本発明の実現方法は、上述した実施の形態に限るものではなく、音声信号を処理する様々な形態に展開することが可能である。

Claims

略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成方法において、
原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、
生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、
各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する
ことを特徴とする音信号生成方法。
略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成装置において、
原音信号を記録する記録手段と、
該記録手段に記録されている原音信号を読み取る手段と、
読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する第１生成手段と、
単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成する第２生成手段と、
各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成する第３生成手段と
を備えることを特徴とする音信号生成装置。
前記第１生成手段が生成した連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成する第４生成手段を更に備え、
前記第２生成手段は、第４生成手段が生成した単位波形信号を連続させて連続波形信号を生成する様に構成してある
ことを特徴とする請求項２に記載の音信号生成装置。
加工音信号の所定波長以上の振幅を強調する高域強調処理を行うフィルタ手段を更に備えることを特徴とする請求項２又は請求項３に記載の音信号生成装置。
前記原音信号は音声信号であり、
前記原音信号が有声音か無声音かを判定する手段を更に備え、
前記フィルタ手段は、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行う様に構成してある
ことを特徴とする請求項４に記載の音信号生成装置。
前記原音信号は音声信号であり、
生成した加工音信号に基づく音声を出力する手段を更に備える
ことを特徴とする請求項２乃至請求項５のいずれかに記載の音信号生成装置。
コンピュータに、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成させるコンピュータプログラムにおいて、
コンピュータに、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成させる手順と、
コンピュータに、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成させる手順と、
コンピュータに、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成させる手順と
を実行させることを特徴とするコンピュータプログラム。