JPWO2009031219A1 - 音信号生成方法、音信号生成装置及びコンピュータプログラム - Google Patents

音信号生成方法、音信号生成装置及びコンピュータプログラム Download PDF

Info

Publication number
JPWO2009031219A1
JPWO2009031219A1 JP2009531057A JP2009531057A JPWO2009031219A1 JP WO2009031219 A1 JPWO2009031219 A1 JP WO2009031219A1 JP 2009531057 A JP2009531057 A JP 2009531057A JP 2009531057 A JP2009531057 A JP 2009531057A JP WO2009031219 A1 JPWO2009031219 A1 JP WO2009031219A1
Authority
JP
Japan
Prior art keywords
sound signal
waveform
signal
unit
original sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009531057A
Other languages
English (en)
Other versions
JP5141688B2 (ja
Inventor
渡辺 一宏
一宏 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009031219A1 publication Critical patent/JPWO2009031219A1/ja
Application granted granted Critical
Publication of JP5141688B2 publication Critical patent/JP5141688B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

本発明は、原音信号を加工して加工音信号を生成することにより、ノイズ感、ざらつき感等の音質劣化を抑制した高品質の音声を合成する音信号生成方法、音信号生成装置及びコンピュータプログラムを提供する。本発明は、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する。

Description

本発明は、原音信号を加工して加工音信号を生成する音信号生成方法、該音信号生成方法を適用した音信号生成装置、及び該音信号生成装置を実現するためのコンピュータプログラムに関する。
近年、メール及びウェブサイトコンテンツのテキストデータを音声で読み上げる機能が、例えば携帯電話等の組込機器に搭載されている。この様な音声読み上げ機能を実現する音声合成処理では、合成音声に必要な音声素片データをADPCM(Adaptive Differential Pulse Code Modulation )等の圧縮方法で圧縮して記録したデータベースである波形辞書を予め内蔵メモリ等の記録手段に記録しておく。そして合成音声波形を生成する際に、波形辞書から圧縮された音声素片データを読み取って伸長復号し、伸長復号した音声素片データの結合、高さ及び速度の調整等の加工処理を行うことにより、音声信号を生成し、生成した音声信号に基づいて合成音声を出力する。
音声素片の作成方法及び音声合成方法は、例えば特許文献1に開示されている。
ところがADPCM等の圧縮方法で圧縮された音声信号を伸長復号することにより、生成された音声は、ノイズ感、ざらつき感等の音質劣化が生じる場合がある。また複数の音声素片データの結合、音声の高さ及び速度の調整の際にもノイズ感、ざらつき感等の音質劣化が生じる場合がある。
図1は、生成した音声信号の波形を示すグラフである。図1(a)は、圧縮された音声信号を伸長復号することで生成した音声信号の波形を示しており、不可逆圧縮による圧縮及び伸長時のノイズにより、生成された音声信号の周期波形の各ピッチの振幅がばらついている。このような各ピッチのバラツキ、滑らかでない変化等の要因により、生成された音声信号に基づく合成音声にはノイズ感、ざらつき感等の音質劣化が生じる。
図1(b)は、音声の速度、所謂、話速を遅くした場合に生成される音声信号の波形を示しており、同じ音声素片の音声信号をピッチ単位で所定回数ずつ連続させることにより、話速を遅くした音声信号を生成している。この様な音声信号の場合、ピッチ波形の振幅の変化が階段状になり、音質劣化の原因となる。
この様な音声劣化を防止する方法として、圧縮時の圧縮率を低くすることにより、不可逆圧縮により生じるノイズを防止する方法がある。また合成後の音声信号を短時間FFT処理にて周波数軸上の成分に変換することで生成したスペクトルに対し、ノイズ除去処理を行った上で、逆FFT処理にて元の時間軸上の音声信号に戻すことで音声劣化を防止する方法がある。
特開平8−160991号公報
しかしながら圧縮率を低くする方法では波形辞書に要するメモリ容量が大きくなるという問題があり、また周波数変換によりノイズを除去する方法では処理負荷が大きくなるという問題がある。これらの問題は、メモリ容量及び処理能力の制約が大きい携帯電話等の組込機器に搭載する場合、無視することができない問題となる。また、演算処理に伴う消費電力の削減の観点からも、上記問題の解決が望まれる。
本発明は斯かる事情に鑑みてなされたものであり、少ない処理量で本来の声質を損なうことなく、圧縮伸長、音声合成等の処理に生じる音質劣化を低減することが可能な音信号生成方法、該音信号生成方法を適用した音信号生成装置、及び該音信号生成装置を実現するためのコンピュータプログラムの提供を目的とする。
第1発明に係る音信号生成方法は、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成方法において、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成することを特徴とする。
第2発明に係る音信号生成装置は、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成装置において、原音信号を記録する記録手段と、該記録手段に記録されている原音信号を読み取る手段と、読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する第1生成手段と、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成する第2生成手段と、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成する第3生成手段とを備えることを特徴とする。
第3発明に係る音信号生成装置は、第2発明において、前記第1生成手段が生成した連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成する第4生成手段を更に備え、前記第2生成手段は、第4生成手段が生成した単位波形信号を連続させて連続波形信号を生成する様に構成してあることを特徴とする。
第4発明に係る音信号生成装置は、第2発明又は第3発明において、加工音信号の所定波長以上の振幅を強調する高域強調処理を行うフィルタ手段を更に備えることを特徴とする。
第5発明に係る音信号生成装置は、第4発明において、前記原音信号は音声信号であり、前記原音信号が有声音か無声音かを判定する手段を更に備え、前記フィルタ手段は、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行う様に構成してあることを特徴とする。
第6発明に係る音信号生成装置は、第2発明乃至第5発明において、前記原音信号は音声信号であり、生成した加工音信号に基づく音声を出力する手段を更に備えることを特徴とする。
第7発明に係るコンピュータプログラムは、コンピュータに、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成させるコンピュータプログラムにおいて、コンピュータに、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成させる手順と、コンピュータに、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成させる手順と、コンピュータに、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成させる手順とを実行させることを特徴とする。
第1発明、第2発明、第6発明及び第7発明では、音声劣化の原因となる連続するピッチ単位の波形の急激な変化を抑制しながらも、本来の音信号のスペクトル包絡の形状をほぼ損なうことのない音信号を生成することができるので、少ない処理量ながらも本来の音質を損なうことなく、音質劣化を低減することが可能である。
第3発明では、単位波形信号の始端及び終端の振幅を合わせることにより、生成した連続波形信号において、単位波形信号の隣接区間が不連続となることを防止し、波形の不連続性に基づく音質劣化を防止することが可能である。
第4発明では、波形信号を重畳する平滑化処理により低下する高波長領域の振幅を強調することができるので、本来の音質を維持することが可能である。
第5発明では、平滑化処理の影響が大きい有声音に対してのみ高域強調処理を行うことにより、無声音の高域が強調され過ぎて、本来の音質を損ない耳障りな音となることを防止することが可能である。
本発明に係る音信号生成方法、音信号生成装置及びコンピュータプログラムは、音声素片データ等の原音信号のデータを波形のピッチ単位で分離して複数の単位波形信号を生成し、生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する。
この構成により、本発明では、ピッチ単位の波形の時間変化を均す処理を行うため、音声劣化の原因となる連続するピッチ単位の波形の急激な変化を抑制しながらも、本来の音信号のスペクトル包絡の形状をほぼ損なうことのない音信号を生成することができる。その結果、少ない処理量ながらも本来の音質を損なうことなく、音質劣化を低減することが可能である。従って本発明では、原音信号を記録する波形辞書等のデータベースを用いて音声合成を行う場合に、大きな処理負荷を要することなくノイズを除去し、音質の劣化を防止することが可能である等、優れた効果を奏する。そのため、周波数変換によりノイズを除去する方法と比較して、ノイズを除去するための演算処理に要する消費電力を削減することが可能となる。また本発明では、原音信号を圧縮して記録する波形辞書に適用した場合には、波形辞書に要するメモリ容量を削減することができるので、メモリ容量及び処理能力の制約が大きい携帯電話等の組込機器に適用したときにでも、音質の劣化を防止することが可能である等、優れた効果を奏する。しかも本発明は、波形辞書の元の原音信号に含まれるノイズを除去し、音質を向上させることも可能である等、優れた効果を奏する。
また本発明に係る音信号生成装置等は、連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成し、生成した単位波形信号を連続させて連続波形信号を生成する。
この構成により、本発明では、単位波形信号の始端及び終端の振幅を合わせることで、生成した連続波形信号において、単位波形信号を隣接させる箇所が不連続となることを防止し、波形の不連続性に基づく音質劣化を防止することが可能である等、優れた効果を奏する。
さらに本発明に係る音信号生成装置等は、加工音信号の所定波長以上の振幅を強調する高域強調処理を行うことにより、波形信号を重畳する平滑化処理により低下する高波長領域の振幅を強調するので、本来の音質を維持することが可能である等、優れた効果を奏する。
特に音声合成に適用する場合に、原音信号が有声音か無声音かを判定し、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行うことにより、平滑化処理の影響が大きい有声音に対してのみ高域強調処理を行うことにより、無声音の高域が強調され過ぎて、本来の音質を損ない耳障りな音となることを防止することが可能である等、優れた効果を奏する。
生成した音声信号の波形を示すグラフである。 本発明の音信号生成装置の構成例を示すブロック図である。 本発明の音信号生成装置の音声出力処理の一例を示すフローチャートである。 本発明の音信号生成装置の加工処理の一例を示すフローチャートである。 本発明の音信号生成装置の加工処理による波形の加工の一例を示す説明図である。 本発明の音信号生成装置の端部処理の一例を示すフローチャートである。 本発明の端部処理を行わなかった場合の連続波形信号の波形の加工の一例を示す説明図である。 本発明の音信号生成装置の端部処理による波形の加工の一例を示す説明図である。 本発明の音信号生成装置の音声出力処理の一例を示すフローチャートである。 本発明の音信号生成装置の音声素片データ生成処理を示すフローチャートである。
符号の説明
1 音信号生成装置
10 制御部
11 記録部
11a 波形データベース
11b 読み方データベース
14 音出力部
100 コンピュータプログラム
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図2は、本発明の音信号生成装置の構成例を示すブロック図である。図2中1は、携帯電話等のコンピュータを用いた本発明の音信号生成装置であり、音信号生成装置1は、装置全体を制御するCPU等の制御部10と、制御部10の制御により実行される本発明のコンピュータプログラム100及び各種データ等の情報を記録するROM、RAM等の記録部11とを備えている。そして記録部11に記録された本発明のコンピュータプログラム100を、制御部10の制御にて実行することにより、携帯電話等のコンピュータは、本発明の音信号生成装置1として動作する。また記録部11の記録領域の一部は、合成音声の生成に必要な音声素片データ等の音信号を示すデータをADPCM等の圧縮方法で圧縮して記録した波形辞書と呼ばれる波形データベース(波形DB)11a、漢字、仮名、英単語等の読み方を記録した読み方データベース(読み方DB)11b等の各種データベースとして用いられている。なお記録部11の記録領域の一部を各種データベースに用いるのではなく、データベース専用のメモリチップを用いて大容量化及び高速化を行うことも可能である。本発明の音信号生成装置1は、音信号の波形を加工する処理を実行するので、以降の説明では、波形データベース11aに記録されている音信号を原音信号と称し、加工後の音信号を加工音信号と称する。
さらに音信号生成装置1は、通信インタフェースとなるアンテナ及びその付属機器等の通信部12と、マイク等の音入力部13と、スピーカ等の音出力部14と、音信号の変換処理を行う音変換部15とを備えている。音変換部15による変換処理とは、音入力部13が受音したアナログ信号である音信号をデジタル信号に変換する処理並びに音出力部14から出力すべくデジタル信号をアナログ信号に変換する処理である。さらに音信号生成装置1は、英数字及び各種命令等のキー入力による操作を受け付ける操作部16と、各種情報を表示する液晶ディスプレイ等の表示部17とを備えている。
なおここでは携帯電話を用いて音信号生成装置1を実現する形態を説明するが、本発明はこれに限らず、合成された音声等の音を出力する機能を有するパーソナルコンピュータ等の様々なコンピュータにて実現することが可能である。例えばパーソナルコンピュータにて実現する場合、本発明のコンピュータプログラム100を記録したCD−ROM等の記録媒体から、CD−ROMドライブ等の補助記憶部にてコンピュータプログラム100を読み取り、ハードディスク等の記録部11に記録する。そして制御部10にて記録部11に記録させたコンピュータプログラム100を実行することにより、本発明の音信号生成装置1を実現することが可能となる。
次に本発明の音信号生成装置1の処理について説明する。図3は、本発明の音信号生成装置1の音声出力処理の一例を示すフローチャートである。音信号生成装置1は、例えばメール及びウェブサイトコンテンツのテキストデータを音声で読み上げる場合に合成音声出力処理を実行する。音信号生成装置1は、記録部11に記録しているコンピュータプログラム100を実行する制御部10の制御により、テキストデータを読み取り、読み取ったテキストデータの読み方を、読み方データベース11bから選択し(S101)、選択した読み方に対応する圧縮された原音信号のデータを、波形データベース11aから選択して読み取り(S102)、読み取った原音信号のデータを伸長復号する(S103)。
そして音信号生成装置1は、制御部10の制御により、伸長復号した原音信号のデータを加工して加工音信号を生成する加工処理を実行する(S104)。ステップS104の加工処理は、原音信号のピッチ単位の波形の時間変化を均す平滑化処理であり、ノイズ除去等の音質を向上させる処理である。加工処理の詳細については後述する。
そして音信号生成装置1は、制御部10の制御により、加工音信号に基づいて音声信号を合成する音声合成処理を行い(S105)、合成した音声信号に基づく音声を音出力部14から出力する(S106)。この様にして音声出力処理が実行される。
図4は、本発明の音信号生成装置1の加工処理の一例を示すフローチャートである。音信号生成装置1は、記録部11に記録しているコンピュータプログラム100を実行する制御部10の制御により、読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する(S201)。音信号生成装置1は、原音信号の波形のピッチを、波形データベース11aに予め記録されている当該原音信号のピッチを示す情報に基づいて認識するが、波形のピーク間の間隔、波形の相関等の波形そのものから検出することも可能である。
音信号生成装置1は、制御部10の制御により、単位波形信号の波形を5回等の所定回数連続させた連続波形信号を、各単位波形信号について生成し(S202)、生成した連続波形信号を、ハニング窓関数、ハミング窓関数等の窓関数を用いて窓掛け処理を行う(S203)。
さらに音信号生成装置1は、制御部10の制御により、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号のデータを生成する(S204)。例えば単位波形信号を5回連続させた連続波形信号を生成している場合、各連続波形信号をピッチ単位でずらして重畳することにより、連続する5ピッチ分の波形を重畳させた1ピッチ分の波形を生成することになる。これはピッチ単位で波形の移動平均を求めていることになるため、原音信号のピッチ単位の波形の時間変化を均す平滑化処理となる。なお単位波形信号からの連続波形信号の生成に際し、適宜選択された窓関数による窓掛け処理が行われる。
そして音信号生成装置1は、制御部10の制御により、加工音信号に対応する原音信号の区間が有声音であるか無声音であるかを判定する(S205)。有声音であるか無声音であるかの判定は、例えば波形データベース11aに予め記録されている当該原音信号について示した情報に基づいて判定する。
ステップS205において、有声音であると判定した場合(S205:YES)、音信号生成装置1は、制御部10の制御に基づいて、高域エンファンスフィルタにより、加工音信号の所定波長以上の振幅を強調する高域強調処理を行う(S206)。なおステップS205において、無声音であると判定した場合(S205:NO)、音信号生成装置1は、ステップS206の高域強調処理は実行しない。ステップS204にて生成された加工音信号は、高波長領域の振幅を低下させるため、高域強調処理を行うことで本来の音質を維持することができる。なお無声音は、高波長領域に大きな低下がないため、高域強調処理は行わない。
加工処理における波形の具体的な加工について説明する。図5は、本発明の音信号生成装置1の加工処理による波形の加工の一例を示す説明図である。図5(a)は、原音信号の波形の時間変化を示しており、実線にて示した長方形が、ステップS201にて生成するピッチ単位で分離した単位波形信号となる。なお便宜上、2つの単位波形信号のみを実線にて示しているが、分離されたピッチ単位の夫々の波形が単位波形信号として処理される。
図5(b)は、ステップS202にて生成する単位波形信号の波形を所定回数連続させた連続波形信号を示している。図5(b)では、図5(a)にて実線の長方形にて示した単位波形信号を5回連続させた連続波形信号を示している。なお図5(b)の点線で示した曲線は、連続波形信号に対する、ステップS203の窓掛け処理にて用いる窓関数の重みを示している。
図5(c)は、ステップS204にて各連続波形信号を、原音信号を形成していた順にピッチ単位で移動、即ちずらした状態を概念的に示しており、図5(d)は、ステップS204にてピッチ単位で移動させた状態の連続波形信号を重畳して生成した加工音信号の波形を示している。この様にして加工処理が実行される。
図6は、本発明の音信号生成装置1の端部処理の一例を示すフローチャートである。図4を用いて示した加工処理において、ステップS201にて生成した単位波形信号からステップS202にて連続波形信号を生成する際に、単位波形信号を隣接させる箇所が不連続となることを防止するために端部処理を行うことで更にノイズの発生を抑制することができる。音信号生成装置1は、制御部10の制御により、ステップS201にて単位波形信号を生成し、生成した連続する複数の単位波形信号を重み付け合成することで、始端及び終端の振幅を合わせた単位波形信号を生成する(S301)。そして音信号生成装置1は、生成した単位波形信号を用いてステップS202に示した連続波形信号の生成以降の処理を実行する。
端部処理における具体的な加工について説明する。先ず端部処理を行わない場合について説明する。図7は、本発明の端部処理を行わなかった場合の連続波形信号の波形の加工の一例を示す説明図である。図7(a)は、原音信号の波形の時間変化を示しており、図7(b)は、ピッチ単位で分離した単位波形信号を示している。図7(b)に示す単位波形信号は、始端と終端との振幅にΔaとして示す差分が存在する。図7(c)は、始端と終端との振幅にΔaの差分が存在する単位波形信号を連続させて生成した連続波形信号を示している。図7(c)に示す様に始端と終端との振幅にΔaの差分が存在する単位波形信号を連続させた場合、単位波形信号を隣接させる箇所にΔaの差分が存在するため、吹き出しとして拡大表示している箇所の様に不連続な状態となり、これによりノイズが発生するので音質劣化の原因となる。なお図7中の実線で示した区切は、単位波形信号の区切を示している。
図8は、本発明の音信号生成装置1の端部処理による波形の加工の一例を示す説明図である。図8(a)は、原音信号の波形の時間変化を示しており、実線の長方形にて示す様に、端部処理の対象となる単位波形信号を、連続する直前の単位波形信号を用いて端部処理を行う。図8(a)では、端部処理の対象となる単位波形信号及び処理に用いる直前の単位波形信号を実線の長方形にて示している。図8(a)に点線で示した曲線は、夫々の単位波形信号に掛ける重みであり、例えば2つの単位波形信号の接する箇所が1となり、端部が0となるハニング窓等の窓関数を用いる。
図8(b)は、夫々の単位波形信号に重みを掛けた状態を示しており、点線が元の単位波形信号の波形を示し、実線が重みを掛けた後の単位波形信号の波形を示している。
図8(c)は、重みを掛けた単位波形信号を合成した状態を示しており、点線及び一点鎖線が合成前の2つの単位波形信号を示しており、実線が合成後の単位波形信号を示している。合成された単位波形信号は、ステップS301にて生成される単位波形信号であり、元の単位波形信号とほぼ同様の形状でありながら、始端及び終端の振幅が一致している。
図8(d)は、端部処理にて生成した単位波形信号を用いて生成した連続波形信号である。端部処理にて始端及び終端の振幅を一致させた単位波形信号を用いているため、不連続な箇所がない連続波形信号となっている。なお図8(d)中の実線で示した区切は、単位波形信号の区切を示している。
ここでは2つの単位波形信号に基づいて端部処理を行う形態を示したが、本発明はこれに限らず、4つの連続する単位波形信号を2つに分け、2つの単位波形信号に基づいて端部処理を行った後の2つの単位波形信号に基づいて更に端部処理を行う等、様々な形態に展開することが可能である。またハニング窓に限らず、2つの単位波形信号の接する箇所が1となり、端部が0となり、対応する各位置での合計の重みが1になるので有れば様々な重み付け用の関数を用いることが可能である。この様にして加工処理及び端部処理が実行される。
本発明の音信号生成装置1は、上述した様に圧縮された原音信号のデータの伸長復号時のノイズを除去するだけでなく、圧縮されていない原音信号のデータの音質向上に用いることも可能である。次に圧縮されていない原音信号に対して加工処理を実行する音声出力処理について説明する。なお当該音声出力処理において、波形データベース11aには、圧縮されていない原音信号のデータが記録されているものとする。
図9は、本発明の音信号生成装置1の音声出力処理の一例を示すフローチャートである。音信号生成装置1は、記録部11に記録しているコンピュータプログラム100を実行する制御部10の制御により、テキストデータを読み取り、読み取ったテキストデータの読み方を、読み方データベース11bから選択し(S401)、選択した読み方に対応する原音信号のデータを、波形データベース11aから選択して読み取る(S402)、
さらに音信号生成装置1は、制御部10の制御により、読み取った原音信号に基づいて音声信号を合成する音声合成処理を行い(S403)、音声合成処理により原音信号から合成した音声信号を加工する加工処理を実行する(S404)。ステップS404にて実行する加工処理は、図4を用いて説明した加工処理と同様であり、原音信号から合成した音声信号のピッチ単位の波形の時間変化を均す平滑化処理である。また必要に応じて端部処理が実行される。
そして音信号生成装置1は、制御部10の制御により、加工処理を施した合成音声の音声信号に基づく音声を音出力部14から出力する(S405)。この様にして圧縮されていない原音信号に基づく音声出力処理が実行される。
さらに本発明の音信号生成装置1は、波形データベース11aに記録する原音信号に対して加工処理を実行することも可能である。この様な処理の場合、音信号生成装置1は、汎用コンピュータ等のコンピュータを用いて実現される。図10は、本発明の音信号生成装置1の音声素片データ生成処理を示すフローチャートである。音信号生成装置1は、記録部11に記録しているコンピュータプログラム100を実行する制御部10の制御により、音声素片データとして記録する原音信号に対し、加工処理を実行し(S501)、加工処理後の原音信号を音声素片データとして波形データベース11aに記録する(S502)。ステップS501にて実行する加工処理は、図4を用いて説明した加工処理と同様であり、原音信号から合成した音声信号のピッチ単位の波形の時間変化を均す平滑化処理である。また必要に応じて端部処理が実行される。
この様にして生成された波形データベース11aは、図9に示した音声出力処理に用いられる。但し、既に加工処理が施された音声素片データが記録されているため、図9のステップS404に示した加工処理は不要となる。
前記実施の形態では、テキストデータを音声で読み上げる場合に合成音声出力処理に適用する形態を示したが、本発明はこれに限らず、電話応答サービスの自動応答等の様々なサービスにおける音声合成に適用することが可能である。即ち本発明の実現方法は、上述した実施の形態に限るものではなく、音声信号を処理する様々な形態に展開することが可能である。

Claims (7)

  1. 略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成方法において、
    原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成し、
    生成した単位波形信号の波形を所定回数繰り返す繰り返し波形信号を各単位波形信号について生成し、
    各繰り返し波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳することで加工音信号を生成する
    ことを特徴とする音信号生成方法。
  2. 略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成する音信号生成装置において、
    原音信号を記録する記録手段と、
    該記録手段に記録されている原音信号を読み取る手段と、
    読み取った原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成する第1生成手段と、
    単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成する第2生成手段と、
    各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成する第3生成手段と
    を備えることを特徴とする音信号生成装置。
  3. 前記第1生成手段が生成した連続する複数の単位波形信号を重み付け合成することにより、始端及び終端の振幅を合わせた単位波形信号を生成する第4生成手段を更に備え、
    前記第2生成手段は、第4生成手段が生成した単位波形信号を連続させて連続波形信号を生成する様に構成してある
    ことを特徴とする請求項2に記載の音信号生成装置。
  4. 加工音信号の所定波長以上の振幅を強調する高域強調処理を行うフィルタ手段を更に備えることを特徴とする請求項2又は請求項3に記載の音信号生成装置。
  5. 前記原音信号は音声信号であり、
    前記原音信号が有声音か無声音かを判定する手段を更に備え、
    前記フィルタ手段は、有声音であると判定した原音信号に基づく加工音信号のみに対して高域強調処理を行う様に構成してある
    ことを特徴とする請求項4に記載の音信号生成装置。
  6. 前記原音信号は音声信号であり、
    生成した加工音信号に基づく音声を出力する手段を更に備える
    ことを特徴とする請求項2乃至請求項5のいずれかに記載の音信号生成装置。
  7. コンピュータに、略同一の波形を繰り返す周期的なピッチを有する原音信号を加工して加工音信号を生成させるコンピュータプログラムにおいて、
    コンピュータに、原音信号を波形のピッチ単位で分離して複数の単位波形信号を生成させる手順と、
    コンピュータに、単位波形信号の波形を所定回数連続させた連続波形信号を、各単位波形信号について生成させる手順と、
    コンピュータに、各連続波形信号を、原音信号を形成していた順にピッチ単位で移動させて重畳した加工音信号を生成させる手順と
    を実行させることを特徴とするコンピュータプログラム。
JP2009531057A 2007-09-06 2007-09-06 音信号生成方法、音信号生成装置及びコンピュータプログラム Active JP5141688B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/067377 WO2009031219A1 (ja) 2007-09-06 2007-09-06 音信号生成方法、音信号生成装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JPWO2009031219A1 true JPWO2009031219A1 (ja) 2010-12-09
JP5141688B2 JP5141688B2 (ja) 2013-02-13

Family

ID=40428542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009531057A Active JP5141688B2 (ja) 2007-09-06 2007-09-06 音信号生成方法、音信号生成装置及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US8280737B2 (ja)
JP (1) JP5141688B2 (ja)
CN (1) CN101796575B (ja)
WO (1) WO2009031219A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013049256A1 (en) * 2011-09-26 2013-04-04 Sirius Xm Radio Inc. System and method for increasing transmission bandwidth efficiency ( " ebt2" )
EP2814166B1 (en) 2013-06-10 2017-11-15 General Electric Technology GmbH An alternate arm converter
US9959342B2 (en) * 2016-06-28 2018-05-01 Microsoft Technology Licensing, Llc Audio augmented reality system
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置
CN109062321B (zh) * 2018-08-01 2020-10-09 歌尔股份有限公司 一种信号生成方法、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1601811A (en) * 1977-02-22 1981-11-04 Morling R C S Signal processing
US4672667A (en) * 1983-06-02 1987-06-09 Scott Instruments Company Method for signal processing
JP3030869B2 (ja) * 1990-12-28 2000-04-10 株式会社明電舎 音声合成装置の音源データ生成方法
US5810600A (en) * 1992-04-22 1998-09-22 Sony Corporation Voice recording/reproducing apparatus
CA2137459A1 (en) * 1993-05-04 1994-11-10 Stephen V. Cahill Apparatus and method for substantially eliminating noise in an audible output signal
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JPH08160991A (ja) 1994-12-06 1996-06-21 Matsushita Electric Ind Co Ltd 音声素片作成方法および音声合成方法、装置
JPH08335095A (ja) * 1995-06-02 1996-12-17 Matsushita Electric Ind Co Ltd 音声波形接続方法
JPH09325798A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
SG65729A1 (en) * 1997-01-31 1999-06-22 Yamaha Corp Tone generating device and method using a time stretch/compression control technique
JP3397082B2 (ja) * 1997-05-02 2003-04-14 ヤマハ株式会社 楽音発生装置および方法
WO1999059139A2 (en) * 1998-05-11 1999-11-18 Koninklijke Philips Electronics N.V. Speech coding based on determining a noise contribution from a phase change
JP2002244693A (ja) * 2001-02-16 2002-08-30 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP4056319B2 (ja) * 2002-07-31 2008-03-05 三洋電機株式会社 音声合成方法
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
JP4038211B2 (ja) * 2003-01-20 2008-01-23 富士通株式会社 音声合成装置,音声合成方法および音声合成システム
JP2006220806A (ja) * 2005-02-09 2006-08-24 Kobe Steel Ltd 音声信号処理装置,音声信号処理プログラム,音声信号処理方法

Also Published As

Publication number Publication date
JP5141688B2 (ja) 2013-02-13
CN101796575A (zh) 2010-08-04
WO2009031219A1 (ja) 2009-03-12
US20100145690A1 (en) 2010-06-10
US8280737B2 (en) 2012-10-02
CN101796575B (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
JP4992717B2 (ja) 音声合成装置及び方法とプログラム
US6711538B1 (en) Information processing apparatus and method, and recording medium
JP5141688B2 (ja) 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2007003682A (ja) 話速変換装置
US8370153B2 (en) Speech analyzer and speech analysis method
JP6401521B2 (ja) 信号処理装置及び信号処理方法
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US7870003B2 (en) Acoustical-signal processing apparatus, acoustical-signal processing method and computer program product for processing acoustical signals
CN111739544A (zh) 语音处理方法、装置、电子设备及存储介质
JP2008309955A (ja) ノイズサプレス装置
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP2007249075A (ja) 音声再生装置および高域補間処理方法
US8271284B2 (en) Speech synthesis device, method, and program
JP3379348B2 (ja) ピッチ変換器
JP2003015681A (ja) 信号結合装置、信号結合方法及びプログラム
JPH1138997A (ja) 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP2009265422A (ja) 情報処理装置及び情報処理方法
US5649058A (en) Speech synthesizing method achieved by the segmentation of the linear Formant transition region
JP5089473B2 (ja) 音声合成装置及び音声合成方法
JP2014021162A (ja) 復号装置、復号方法、及びプログラム
JP2011090189A (ja) 音響信号の符号化方法および装置
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
JP2011033672A (ja) 音声信号変換装置、音声信号変換方法および音声信号変換プログラム
JP2008020840A (ja) 音声合成装置、音声合成方法およびコンピュータを音声合成装置として機能させるためのプログラム、ならびに、フィルタ生成装置、フィルタ生成方法およびコンピュータをフィルタ生成装置として機能させるためのプログラム
JP5679451B2 (ja) 音声処理装置およびそのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150