WO2019216192A1

WO2019216192A1 - ピッチ強調装置、その方法、およびプログラム

Info

Publication number: WO2019216192A1
Application number: PCT/JP2019/017155
Authority: WO
Inventors: 優鎌本; 亮介杉浦; 守谷　健弘
Original assignee: 日本電信電話株式会社
Priority date: 2018-05-10
Filing date: 2019-04-23
Publication date: 2019-11-14
Also published as: US11302340B2; US20210090586A1; JP6962269B2; JP2019197150A

Abstract

子音の時間区間であっても違和感が少ないピッチ強調処理であり、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現する。ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、ηを１より大きい値とし、当該時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀のη乗と、所定の定数B₀と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

Description

ピッチ強調装置、その方法、およびプログラム

　この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。

　一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチを含むことに着目し、復号により得た音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理を行い、より違和感の少ない音に変換する技術が広く用いられている（例えば非特許文献１）。

　また、例えば特許文献１に記載されているように、復号により得た音信号が「音声」であるか「非音声」であるかの情報に基づき、「音声」である場合にはピッチ成分を強調する処理を行い、「非音声」である場合にはピッチ成分を強調する処理を行わない技術もある。

ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006

特開平１０－１４３１９５号公報

　しかしながら、非特許文献１に記載された技術には、明確なピッチ構造をもたない子音部についてもピッチ成分を強調する処理を行ってしまうことにより、子音部を受聴した際に不自然に感じられるという課題がある。一方、特許文献１に記載された技術では、子音部に信号としてはピッチ成分が存在している場合であってもピッチ成分を強調する処理を全く行わないことから、子音部を受聴した際に不自然に感じられるという課題がある。また、特許文献１に記載された技術には、母音の時間区間と子音の時間区間とでピッチ強調処理の有無が切り替わることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という課題もある。

　本発明は、これらの課題を解決するためのものであり、子音の時間区間であっても違和感が少ないピッチ強調処理であり、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。なお、子音は、摩擦音、破裂音、半母音、鼻音、および破擦音を含む(参考文献１、参考文献２参照)。
(参考文献１)古井貞煕著、「音響・音声工学」、近代科学社、1992年、p.99
(参考文献２)斎藤収三、中田和男、「音声情報処理の基礎」、オーム社、1981年、p.38-39

　上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、ηを１より大きい値とし、当該時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀のη乗と、所定の定数B₀と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

　本発明によれば、復号処理により得られた音声信号に対してピッチ強調処理を施す場合に、子音の時間区間であっても違和感が少なく、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。

第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の機能ブロック図。第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の処理フローの例を示す図。その他の変形例に係るピッチ強調装置の機能ブロック図。その他の変形例に係るピッチ強調装置の処理フローの例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
　図１は第一実施形態に係る音声ピッチ強調装置の機能ブロック図を、図２はその処理フローを示す。

　図１を参照して、第一実施形態の音声ピッチ強調装置の処理手続きを説明する。第一実施形態の音声ピッチ強調装置は、信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。本実施形態では、時間区間ごとの入力された音信号に対してピッチ周期に対応するピッチ成分にピッチ利得を乗算したものを用いてピッチ強調処理を施す際に、ピッチ成分にピッチ利得そのものではなく、ピッチ利得のη乗を乗算する。ただし、η＞１である。子音には母音に比べて周期性が小さいという性質があり、入力された信号を分析して得られるピッチ利得は、子音の時間区間のほうが母音の時間区間より小さな値となる。なお、このピッチの利得は、例外的な場合を除き、通常1より小さい値である。本実施形態では、上述の課題を解決するために、この性質を利用し、ピッチ成分にピッチ利得そのものではなく、ピッチ利得のη乗を乗算することで、子音の時間区間のピッチ成分の強調の度合いを母音の時間区間よりも小さくする。

　第一実施形態の音声ピッチ強調装置は、自己相関関数算出部１１０とピッチ分析部１２０とピッチ強調部１３０と信号記憶部１４０とを備えるものであり、更にピッチ情報記憶部１５０と自己相関関数記憶部１６０と減衰係数記憶部１８０とを備えてもよい。

　音声ピッチ強調装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置の外部に備える構成としてもよい。

　第一実施形態の音声ピッチ強調装置が行う主な処理は自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）とピッチ強調処理（Ｓ１３０）であり（図２参照）、これらの処理は音声ピッチ強調装置が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）とピッチ強調処理（Ｓ１３０）のそれぞれについて、関連する処理と共に説明する。

　［自己相関関数算出処理（Ｓ１１０）］
　まず、音声ピッチ強調装置が行う自己相関関数算出処理とこれに関連する処理について説明する。

　自己相関関数算出部１１０には、時間領域の音信号(入力信号)が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部１１０には、所定の時間長のフレーム（時間区間）単位で、音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。１フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部１１０には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部１１０は、入力されたN個の時間領域の音信号サンプルを含む最新のL個（Lは正の整数）の音信号サンプルによるサンプル列における時間差0の自己相関関数R₀及び複数個（M個、Mは正の整数）の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。すなわち、自己相関関数算出部１１０は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。

　なお、以降では、現在のフレームの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置内には信号記憶部１４０を備え、１つ前のフレームまでに入力された最新の少なくともL‐N個の音信号サンプルを記憶できるようにしておく。そして、自己相関関数算出部１１０は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部１４０に記憶された最新のL‐N個の音信号サンプルをX₀,X₁,…,X_L－N－1として読み出し、入力されたN個の時間領域の音信号サンプルをX_L－N,X_L－N+1,…,X_L－1とすることにより、最新のL個の音信号サンプルX₀,X₁,…,X_L－1を得る。

　そして、自己相関関数算出部１１０は、最新のL個の音信号サンプルX₀,X₁,…,X_L－1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部１１０は、自己相関関数R_τを例えば以下の式(1)で算出する。

自己相関関数算出部１１０は算出した自己相関関数R₀,R_τ(1),…,R_τ(M)をピッチ分析部１２０に出力する。

　なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部１２０が求める現在のフレームのピッチ周期T₀の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のR_τに代えて、式(1)のR_τをR₀で除算した正規化自己相関関数R_τ/R₀を求めてもよい。ただし、Lを8192などのピッチ周期T₀の候補である75から320に対して十分に大きな値とした場合などには、自己相関関数R_τに代えて正規化自己相関関数R_τ/R₀を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数R_τを算出するほうがよい。

　自己相関関数R_τは、式(1)そのもので算出してもよいが、式(1)で求まるのと同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置内に自己相関関数記憶部１６０を備えて１つ前のフレーム（直前のフレーム）の自己相関関数を算出する処理で得られた自己相関関数（直前のフレーム自己相関関数）R_τ(1),…,R_τ(M)を記憶しておき、自己相関関数算出部１１０は、自己相関関数記憶部１６０から読み出した直前のフレームの処理で得られた自己相関関数（直前のフレーム自己相関関数）R_τ(1),…,R_τ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部１１０は、現在のフレームの自己相関関数R_τを、直前のフレームの処理で得られた自己相関関数R_τ（直前のフレームの自己相関関数R_τ）に対して、以下の式(2)で得られる差分ΔR_τ ⁺を加算し、式(3)で得られる差分ΔR_τ ^－を減算することにより得る。

　また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。

　信号記憶部１４０は、音声ピッチ強調装置が現在のフレームについての後述するピッチ強調部１３０の処理までを終えた後に、その時点で最新のL‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、L＞2Nの場合、信号記憶部１４０は、記憶されているL‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルX₀,X₁,…,X_N－1を削除し、X_N,X_N+1,…,X_L－N－1をX₀,X₁,…,X_L－2N－1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをX_L－2N,X_L－2N+1,…,X_L－N－1として新たに記憶する。また、L≦2Nの場合、信号記憶部１４０は、記憶されているL‐N個の音信号サンプルX₀,X₁,…,X_L－N－1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のL‐N個の音信号サンプルをX₀,X₁,…,X_L－N－1として新たに記憶する。なお、L≦Nである場合には、音声ピッチ強調装置内には信号記憶部１４０を備える必要はない。

　また、自己相関関数記憶部１６０は、自己相関関数算出部１１０が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部１６０は、記憶されているR_τ(1),…,R_τ(M)を削除し、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を新たに記憶する。

　なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L＜Nであってもよい。この場合、自己相関関数算出部１１０は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX₀,X₁,…,X_L－1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出すればよい。

　［ピッチ分析処理（Ｓ１２０）］
　次に、音声ピッチ強調装置が行うピッチ分析処理について説明する。

　ピッチ分析部１２０には、自己相関関数算出部１１０が出力した現在のフレームの自己相関関数R₀,R_τ(1),…,R_τ(M)が入力される。

　ピッチ分析部１２０は、所定の時間差に対する現在のフレームの自己相関関数R_τ(1),…,R_τ(M)の中での最大値を求め、自己相関関数の最大値と時間差0の自己相関関数R₀の比を現在のフレームのピッチ利得σ₀として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T₀として得て、それぞれをピッチ強調部１３０へ出力する。

　［ピッチ強調処理（Ｓ１３０）］
　次に、音声ピッチ強調装置が行うピッチ強調処理について説明する。

　ピッチ強調部１３０は、ピッチ分析部１２０が出力したピッチ周期とピッチ利得、及び音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号(入力信号)を受け取り、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分を、ピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで強調して得た出力信号のサンプル列を出力する。

　以下、具体例を説明する。

　ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、入力された現在のフレームのピッチ周期T₀とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L－N≦n≦L－1）に対して、以下の式(4)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

　ただし、ηは１より大きい所定の値である。なお、式(4)のAは、下記の式(5)により求まる振幅補正係数である。

　また、B₀は予め定めた値であり、例えば3/4である。ピッチ利得σ₀は、例外的な場合を除き、通常は1より小さい値である。また、例外的に１より大きな値がピッチ利得σ₀として求まってしまった場合には、ピッチ利得σ₀を１に置き換えてから上記式(4)のピッチ強調処理を行えばよい。従って、式(4)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、ピッチ利得が小さいフレームのピッチ成分についてはピッチ利得が大きいフレームのピッチ成分よりも強調の度合いを落としてピッチ成分を強調する処理である。

　つまり、ピッチ強調部１３０では、フレーム(時間区間)中の各時刻nについて、信号X_nを含むフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀のη乗σ₀ ^ηと、所定の定数B₀と、を乗算した信号(B₀σ₀ ^ηX_{n-T_0})と、時刻nの信号X_nと、を加算した信号(X_n+B₀σ₀ ^ηX_{n-T_0})を含む信号を出力信号X^new _nとして得る。

　このピッチ強調処理により、子音のフレームであっても違和感を低減し、また、子音のフレームとそれ以外のフレームとが頻繁に切り替わる場合であっても、フレーム間におけるピッチ成分の強調の度合いの変動による違和感を低減する効果を得ることができる。

　［ピッチ強調処理（Ｓ１３０）の第１変形例］
　次に、音声ピッチ強調装置が行うピッチ強調処理の第１変形例とこれに関連する処理について説明する。

　第１変形例の音声ピッチ強調装置は、更にピッチ情報記憶部１５０を備える。

　ピッチ強調部１３０は、ピッチ分析部１２０が出力したピッチ周期とピッチ利得、及び音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号を受け取り、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。その際、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで、強調する。なお、以下の説明において、現在のフレームからみてs個前のフレーム（s個過去のフレーム）のピッチ周期及びピッチ利得をそれぞれT_－s及びσ_－sと表記する。

　ピッチ情報記憶部１５０には、１つ前のフレームからα個過去のフレームまでのピッチ周期T_－1, ..., T_－αとピッチ利得σ_－1, ...,σ_－αとを記憶しておく。ただし、αは、予め定めた正の整数であり、例えば１である。

　ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ利得σ_－αと、入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ周期T_－αとを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。

　以下、具体例を説明する。
（ピッチ強調処理の第１変形例の具体例１）
　具体例１は、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで強調し、α個過去のフレームのピッチ周期T_－αに対応するピッチ成分については、α個過去のフレームのピッチ利得σ_－αに比例した強調の度合いで強調する例である。

　すなわち、この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L－N≦n≦L－1）に対して、以下の式(6)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

　なお、式(6)のAは、下記の式(7)により求まる振幅補正係数である。

　また、B₀とB_－αは、予め定めた１より小さい値であり、例えば3/4と1/4である。

（ピッチ強調処理の第１変形例の具体例２）
　具体例２は、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで強調し、α個過去のフレームのピッチ周期T_－αに対応するピッチ成分については、α個過去のフレームのピッチ利得σ_－αのη乗に比例した強調の度合いで強調する例である。

　すなわち、この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L－N≦n≦L－1）に対して、以下の式(8)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

　なお、式(8)のAは、下記の式(9)により求まる振幅補正係数である。

　第１変形例のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、ピッチ利得が小さいフレームのピッチ成分についてはピッチ利得が大きいフレームのピッチ成分よりも強調の度合いを落としてピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、そのピッチ成分より少し強調の度合いを落として過去のフレームでのピッチ周期T_－αに対応するピッチ成分も強調する処理である。第１変形例のピッチ強調処理により、短い時間区間（フレーム）ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。

　なお、式(6),(8)においてはB₀＞B_－αとするのが好ましいが、式(6),(8)においてB₀≦B_－αとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

　また、式(7)と式(9)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T₀とα個過去のフレームのピッチ周期T_－αとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。

　なお、ピッチ情報記憶部１５０は、現在のフレームのピッチ周期とピッチ利得を、以降のフレームのピッチ強調部１３０の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。

　［ピッチ強調処理（Ｓ１３０）の第２変形例］
　第１変形例では、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分と、過去の１つのフレームのピッチ周期に対応するピッチ成分と、を強調して出力信号のサンプル列を得たが、過去の複数（２つ以上）のフレームのピッチ周期に対応するピッチ成分を強調するようにしてもよい。以下では、過去の複数のフレームのピッチ周期に対応するピッチ成分を強調する一例として、過去の２つのフレームのピッチ周期に対応するピッチ成分を強調する例について、第１変形例と異なる点を説明する。

　ピッチ情報記憶部１５０には、現在のフレームよりβ個過去のフレームまでのピッチ周期T_－1, ..., T_－α, ..., T_－βとピッチ利得σ_－1, ...,σ_－α, ...,σ_－βとを記憶しておく。ただし、βは、αより大きい予め定めた正の整数である。例えば、αは１であり、βは２である。

　ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ利得σ_－αと、ピッチ情報記憶部１５０から読み出したβ個過去のフレームのピッチ利得σ_－βと、入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ周期T_－αと、ピッチ情報記憶部１５０から読み出したβ個過去のフレームのピッチ周期T_－βとを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。

　以下、具体例を説明する。
（ピッチ強調処理の第２変形例の具体例１）
　具体例１は、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで強調し、α個過去のフレームのピッチ周期T_－αに対応するピッチ成分については、α個過去のフレームのピッチ利得σ_－αに比例した強調の度合いで強調し、β個過去のフレームのピッチ周期T_－βに対応するピッチ成分については、β個過去のフレームのピッチ利得σ_－βに比例した強調の度合いで強調する例である。

　すなわち、この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L－N≦n≦L－1）に対して、以下の式(10)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

　なお、式(10)のAは、下記の式(11)により求まる振幅補正係数である。

　また、B₀とB_－αとB_－βは、予め定めた１より小さい値であり、例えば3/4と3/16と1/16である。

（ピッチ強調処理の第２変形例の具体例２）
　具体例２は、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀のη乗(η＞１)に比例した強調の度合いで強調し、α個過去のフレームのピッチ周期T_－αに対応するピッチ成分については、α個過去のフレームのピッチ利得σ_－αのη乗に比例した強調の度合いで強調し、β個過去のフレームのピッチ周期T_－βに対応するピッチ成分については、β個過去のフレームのピッチ利得σ_－βのη乗に比例した強調の度合いで強調する例である。

　すなわち、この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L－N≦n≦L－1）に対して、以下の式(12)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

　なお、式(12)のAは、下記の式(13)により求まる振幅補正係数である。

　第２変形例のピッチ強調処理も、第１変形例のピッチ強調処理と同様に、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音のピッチ利得が小さいフレームのピッチ成分については子音でないピッチ利得が大きいフレームのピッチ成分よりも強調の度合いを落としてピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、そのピッチ成分より少し強調の度合いを落として過去のフレームでのピッチ周期に対応するピッチ成分も強調する処理である。第２変形例のピッチ強調処理により、短い時間区間（フレーム）ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。

　なお、式(10),(12)においてはB₀＞B_－α＞B_－βとするのが好ましいが、式(10),(12)においてB₀≦B_－αやB₀≦B_－βやB_－α≦B_－βとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

　また、式(11)と式(13)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T₀とα個過去のフレームのピッチ周期T_－αとβ個過去のフレームのピッチ周期T_－βとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。

（ピッチ強調処理のその他の変形例）
　なお、振幅補正係数Aは、式(5)や式(7)や式(9)や式(11)や式(11)や式(13)により求まる値ではなく、予め定めた１以上の値を用いてもよい。振幅補正係数Aを１とする場合には、ピッチ強調部１３０は、上記の式中の1/Aの項を含まないようにした式により出力信号X^new _nを得るようにしてもよい。

　また、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行ってもよい。

　また、ピッチ利得が所定の閾値より小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、現在のフレームのピッチ利得σ₀が所定の閾値より小さい場合には、現在のフレームのピッチ周期T₀に対応するピッチ成分を出力信号に含めず、過去のフレームのピッチ利得が所定の閾値より小さい場合には、その過去のフレームのピッチ周期に対応するピッチ成分を出力信号に含めない構成としてもよい。

＜その他の変形例＞
　音声ピッチ強調装置外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得を得られている場合には、音声ピッチ強調装置を図３の構成として、音声ピッチ強調装置外で得られたピッチ周期とピッチ利得に基づきピッチを強調してもよい。図４はその処理フローを示す。この場合には、第一実施形態、およびその変形例の音声ピッチ強調装置が備える自己相関関数算出部１１０やピッチ分析部１２０や自己相関関数記憶部１６０を備える必要はなく、ピッチ強調部１３０が、ピッチ分析部１２０が出力したピッチ周期とピッチ利得ではなく、音声ピッチ強調装置に入力されたピッチ周期とピッチ利得を用いてピッチ強調処理（Ｓ１３０）を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置自体の演算処理量は第一実施形態、およびその変形例よりも少なくすることが可能である。ただし、第一実施形態、およびその変形例の音声ピッチ強調装置は、音声ピッチ強調装置外のピッチ周期やピッチ利得を得る頻度に依存せずにピッチ周期やピッチ利得を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。

　なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献１に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。

　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
　前記ピッチ強調処理として、
　ηを１より大きい値とし、当該時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀のη乗と、所定の定数B₀と、を乗算した信号と、
　当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
　ピッチ強調装置。
　請求項１に記載のピッチ強調装置であって、
　前記ピッチ強調部は、
　当該時間区間の各時刻nについて、
　前記加算した信号に、
　当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_－αだけ当該時刻nよりも過去の時刻の前記信号と、当該時間区間よりもα個過去の時間区間のピッチ利得σ_－αと、所定の定数B_－αと、を乗算した信号
も加算した信号を含む信号を出力信号として得る処理を行うものである
　ピッチ強調装置。
　請求項１に記載のピッチ強調装置であって、
　前記ピッチ強調部は、
　当該時間区間の各時刻nについて、
　前記加算した信号に、
　当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_－αだけ当該時刻nよりも過去の時刻の前記信号と、当該時間区間よりもα個過去の時間区間のピッチ利得σ_－αのη乗と、所定の定数B_－αと、を乗算した信号
も加算した信号を含む信号を出力信号として得る処理を行うものである
　ピッチ強調装置。
　入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
　前記ピッチ強調処理として、
　ηを１より大きい値とし、当該時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀のη乗と、所定の定数B₀と、を乗算した信号と、
　当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
　ピッチ強調方法。
　請求項１から請求項３の何れかのピッチ強調装置としてコンピュータを機能させるためのプログラム。