WO2004097798A1

WO2004097798A1 - 音声復号化装置、音声復号化方法、プログラム、記録媒体

Info

Publication number: WO2004097798A1
Application number: PCT/JP2003/005582
Authority: WO
Inventors: Masakiyo Tanaka; Masanao Suzuki; Yasuji Ota; Yoshiteru Tsuchinaga
Original assignee: Fujitsu Limited
Priority date: 2003-05-01
Filing date: 2003-05-01
Publication date: 2004-11-11
Also published as: JP4786183B2; EP1619666A4; US7606702B2; EP1619666A1; JPWO2004097798A1; DE60330715D1; EP1619666B1; US20050187762A1

Abstract

符号分離／復号部は、音声符号codeから声道特性sp1 と音源信号r1 を復元する。声道特性修正部は、この声道特性sp1 を修正し、修正後の声道特性sp2 を出力する。これは、例えば、声道特性sp1 に対して直接ホルマント強調処理を施すことで、強調された声道特性sp2 を生成・出力する。信号合成部は、修正（強調）された声道特性sp2 と、音源信号r1 とを合成して、出力音声ｓを生成・出力する。

Description

明細書音声複号化装置、音声復号化方法、プログラム、記録媒体技術分野

本発明は、音声符号化処理を施して通信する携帯電話等の通信装置に係わり、特にその音声復号化装置であって音声の明瞭度を高め受話音声を聞き取りやすくする音声復号化装置、復号方法等に関する。背景技術

近年、携帯電話は広く普及している。携帯電話システムでは、回線を有効利用するため、音声を圧縮する音声符号化技術が用いられている。このような音声符号化技術の中で、低ビットレートで音声品質が優れている符号化方式として、符号励振線形予測（Code Exc ited Lin ear Predi ct ion： C E L P )方式が知られており、 ITU- T G. 729方式、 3GPP AMR方式など、多くの音声符号化規格で、 C E L Pをベースとした符号化方式が採用されている。また、携帯電話システムに限らず、例えば V o I P (vo i ce over IP)、 T V会議システム等で利用されている音声圧縮方式も、 C E L Ρァルゴリズムをベースとしたものが主流である。

ここで、 C E L Ρについて簡単に説明する。 C E L Pは、 1985年に M. R. Schroder氏と B. S. Atal氏によつて発表された音声符号化方式であり、人間の音声生成モデルに基づいて入力音声からパラメータを抽出し、パラメータを符号化して伝送することにより、高能率の情報圧縮を実現している。 ' 図 1 6に、音声の生成モデルを示す。音声の生成過程は、音源（声帯） 1 1 0で発生された音源信号が調音系（声道） 1 1 1に入力され、声道 1 1 1において声道特性が付加された後、最終的に唇 1 1 2から音声波形となって出力される（非特許文献 1参照）。つまり、音声は、音源特性と声道特性より成る。

図 1 7に、 C E L P符号器■復号器の処理の流れを示す。

図 1 7において、例えば携帯電話等に C E L P符号器及び C E L P 復号器が搭載されており、送信側の携帯電話の C E L P符号器 1 2 0 から受信側の携帯電話の C E L P復号器 1 3 0に対して、不図示の伝送路（無線回線、携帯電話網等）を介して、音声信号（音声符号 cod e) を伝送する様子を示す。

送信側の携帯電話の C E L P符号器 1 2 0では、前述の音声生成モデルに基づいてパラメータ抽出部 1 2 1が、入力音声を分析して、入力音声を、声道特性を表す線形予測係数（Linear Predictor Coeffic ients： L P C係数）と、音源信号とに分離する。パラメータ抽出部 1 2 1は、更に、音源信号から、音源信号の周期成分を表す適応符号帳 (Adaptive CodeBook： A C B)ベタトル、非周期成分を表す雑音符号 Φ1 (Stochastic CodeBook： S C B)ベタトノレ、及び両べクトノレのゲインを抽出する。

次に、符号化部 1 2 2が、これら L P C係数、 A C Bベクトル、 S C Bベタトル、ゲインを符号化して、 L P C符号、 AC B符号、 S C B符号、ゲイン符号を生成し、符号多重化部 1 2 3がこれらを多重化して音声符号 codeとし、受信側の携帯電話へ伝送する。

受信側の携帯電話の C E L P復号器 1 3 0では、まず、符号分離部 1 3 1力 S、伝送されてきた音声符号 codeを、 L P C符号、 AC B符号、 S C B符号、ゲイン符号に分離して、これらを復号部 1 3 2が L P C係数、 AC Bベタトル、 S C Bベタトル、及ぴゲインへと復号する。そして、復号された各パラメータから、音声合成部 1 3 3が音声を合成する。

以下に、 C E L P符号器、 C E L P復号器について更に詳細に説明する。

図 1 8に、 C E L P符号器のパラメータ抽出部 1 2 1のブロック図を示す。

C E L Pでは、入力音声を一定長のフレーム単位で符号化する。まず、 L C P分析部 1 4 1が、公知の線形予測分析（L P C分析）手法により、入力音声から L P C係数を求める。この L P C係数は、声道特性を全極型の線形フィルタで近似した際のフィルタ係数である。

次に、音源信号の抽出を行う。音源信号の抽出には、合成による分析（Analysis by Synthesis ： AbS)手法カ用いられる。 C E L Pでは、音源信号を、 L P C係数で構成される L P C合成フィルタ 1 4 2に入力することで音声を再生する。従って、適応符号帳 1 4 3に格納された複数の A C Bベタトル、雑音符号帳 1 4 4に格納された複数の S C Bベタトル、及び両べクトルのゲインの組み合わせにより構成される音源候補から、 L P C合成フィルタ 1 4 2によって音声を合成した際に入力音声との誤差が最小になる符号帳の組み合わせを、誤差電力評価部 1 4 5が探索して、 A C Bベタトル、 S C Bベタトル、 AC B ゲイン、 S C Bゲインを抽出する。

以上の操作により抽出した各パラメータを、上記の通り、符号化部 1 2 2によって符号化し、 L P C符号、 AC B符号、 S C B符号、及びゲイン符号を得る。得られた各符号を符号多重化部 1 2 3によって多重化し、音声符号 codeとして復号器側へ伝送する。

次に、 C E L P復号器について更に詳細に説明する。

図 1 9に、 C E L P復号器 1 3 0のブロック図を示す。

C E L P復号器 1 3 0では、上記の通り、符号分離部 1 3 1が、伝送されてきた音声符号 codeから各パラメータを分離し、 L P C符号、 AC B符号、 S C B符号、及ぴゲイン符号を得る。

次に、復号部 1 3 2を構成する L P C係数復号部 1 5 1、 A C Bベクトル復号部 1 5 2、 S C Bベタトル復号部 1 5 3、及びゲイン復号部 1 5 4の各々によって、 L P C符号、 AC B符号、 S C B符号、及びゲイン符号を、それぞれ、 L P C係数、 AC Bベクトル、 S C Bベタトル、及びゲイン（A C Bゲイン、 S C Bゲイン）へと復号する。音声合成部 1 3 3は、入力する AC Bベタトル、 S C Bベタトル、及びゲイン（A C Bゲイン、 S C Bゲイン）から、図示の構成によつて音源信号を生成し、この音源信号を上記復号した L P C係数によつて構成される L P C合成フィルタ 1 5 5に入力して、 L P C合成フィルタ 1 5 5によって音声を復号して出力する。

ここで、携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。その際、周囲の雑音によって携帯電話の受話音声が聞き取り難くなるという問題がある。また、この例に限らず、例えば室内において使用する TV会議システム等においても、通常、エアコン等の電化製品から発生した雑音、周囲の他者の話し声等の背景雑音が含まれている。このような問題に対し、受話音声に対して、音声スぺクトルのホルマントを強調することより音声の明瞭度を高め、受話音声を聞き取りやすくする技術がいくつか知られている。ここで、ホルマントについて簡単に説明する。

図 2 0に、音声の周波数スぺクトルの例を示す。

ここで、一般に、音声の周波数スぺクトルには複数のピーク（極大を取る部分）が存在し、これらをホルマントと呼んでいる。図 2 0には、スぺクトルに 3つのホルマント（ピーク）が存在する例を示しており、周波数の低い方から順に第 1ホルマント、第 2ホルマント、第 3ホルマントと呼ぶ。また、これら極大値をとる周波数、すなわち各ホルマントの周波数 fp ( l)、 fp (2)、 fp (3)のことをホルマント周波数と呼ぶ。一般に、音声のスペクトルは、周波数が高くなるにつれて、振幅（電力）が小さくなる性質がある。更に、音声の明瞭度は、ホルマントと密接な関係があり、高次の（例えば第 2、第 3の）ホルマントを強調することにより、音声の明瞭度が改善することが知られている。

図 2 1に、音声スぺクト /レのホノレマント強調の一例を示す。

図 2 1 ( a ) において図中実線で示す波形、及び図 2 1 ( b ) において図中点線で示す波形が、強調する前の音声スぺクトルを表す。また、図 2 1 ( b ) において図中実線で示す波形が、強調後の音声スぺタトルを表す。また、図中の直線は、波形の傾きを表す。

図 2 1 ( b ) に示すように、高次ホルマントの振幅を大きくするように音声スぺクトルを強調することにより、スベタトル全体の傾きが平坦になっており、これによって音声全体の明瞭度を改善することができることが知られている。

このようなホルマント強調技術として、以下に挙げる技術が公知である。

ホルマント強調を符号化された音声に対して適用した技術として、例えば特許文献 1に記載の技術が知られている。

図 2 2に、特許文献 1に記載の発明の基本構成図を示す。

特許文献 1は、帯域分割フィルタを用いる方法に係わる。図 2 2からわかるように、特許文献 1記載の手法では、入力音声のスぺクトルをスぺクトル推定部 1 6 0により求め、求めたスぺクトルから凸部帯域（山）と HQ部帯域（谷）を決定する凸部凹部帯域決定部 1 6 1によって、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率（又は減衰率）を算出する。

次に、フィルタ構成部 1 6 2により、上記増幅率（又は減衰率）を実現する係数をフィルタ部 1 6 3に与え、入力音声をフィルタ部 1 6 3に入力することにより、スペクトル強調を実現する。

帯域分割フィルタを用いる方法は、従来では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない為、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合があるという問題があった。

これに対して、特許文献 1記載の手法は、帯域分割フィルタを用いる方法であって、音声スぺクトルの山と谷を個別に増幅 ·減衰することにより、音声強調を実現している。

更に、特許文献 1では、その図 1 9に示す第 7の実施形態のように、 C E L Ρ方式を用いる場合に対して、音声復号部によって、 A B C ベタトルインデッタス、 S C Bベタトルインデックス、ゲインィンデックスを用いて、 A B Cベタトル、 S C Bベタトル、ゲインを復号して音源を生成し、この音源を L P C係数インデックスによって復号した L P C係数で構成される合成フィルタに通して、合成信号を生成する。そして、この合成信号と L P C係数をスぺクトル強調部に入力させ、上記スぺクトル強調を実現させる。

また、特許文献 2記載の発明は、マルチバンド励起符号化（M B E ) の音声復号装置の音声合成系の後置フィルタ（ボストフィルタ）に適用する音声信号処理装置であって、周波数領域のパラメータである各バンド毎の振幅値を直接操作することで、周波数スぺクトルの高域フォルマントを強調することを特徴とする。特許文献 2のホルマント強調方法は、マルチバンド励起符号化（M B E ) 方式において、ピツチ周波数によって分割された複数の周波数帯域の平均振幅から、ホルマントを含む帯域を推定し、ホルマントを含む帯域のみを強調する方法である。

また、特許文献 3記載の発明は、雑音のゲインを抑制した信号である処の参照信号との「合成による分析法」、即ち、 A— b _ S法によつて符号化処理を行う音声符号化装置であって、この参照信号のホルマントを強調する手段と、信号の音声部と雑音部とを分割する手段と、この雑音部のレベルを抑圧する手段とを備える。その際、入力信号からフレーム毎に線形予測係数が抽出され、この線形予測係数に基づいて、上記ホルマント強調が行われる。

また、特許文献 4記載の発明は、マルチパルス音声符号化の音源探索（マルチパルス探索）に関する発明である。つまり、音源情報をマルチパルスで近似して検索する際に、そのまま入力音声を使って音源探索するのではなく、音声を線スぺクトル状に強調してから、音源探索を行うことにより、圧縮効率を高めることを目的とする発明である

特許文献 1 特開 2 0 0 1— 1 1 7 5 7 3号公報

特許文献 2

特開平 6 - 2 0 2 6 9 5号公報

特許文献 3

特開平 8— 2 7 2 3 9 4号公報 .

特許文献 4

特公平 7— 3 8 1 1 8号公報

非特許文献 1

「音声の高能率符号化」、 P.69- 71、中田和男著、森北出版上述した各従来技術には、以下に述べる問題がある。

まず、特許文献 1記載の手法には以下のような問題点がある。

上記の通り、特許文献 1では、その図 1 9に示す第 7の実施形態のように、 C E L P方式を用いる場合に対応して、合成信号と L P C係数をスぺクトル強調部に入力させてスぺクトル強調を実現させる例を示しているが、前述した音声生成モデルからわかる通り、音源信号と声道特性は全く異なった特性である。にもかかわらず、特許文献 1 記載の手法では、合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった副作用が生じる場合がある。

また、特許文献 2記載の発明は、上記の通り、 MB Eボコーダの再生音声品質を向上させることを目的として発明である。一方、今日、携帯電話システム、 V o I P , TV会議システム等で利用されている音声圧縮方式は、線形予測を用いた C E L Pァルゴリズムをベースとしたものが主流である。従って、 C E L Pをベースとした圧縮方式を用いたシステムに、特許文献 2記載の手法を適用すると、圧縮■伸張されて音声品質が劣化した音声から、 M B Eボコーダ用の符号化パラメータを抽出する為、音声品質が更に劣化するおそれがあるという問題があった。

また、特許文献 3記載の発明では、ホルマントを強調する際に、 L P C係数を用いた単純な I I Rフィルタを用いているが、この方法では、ホルマントを誤強調するおそれがあることが、論文（例えば、日本音響学会講演論文集、 2000年 3月、第 249〜250頁等）等によって知られている。また、そもそも、特許文献 3の発明は音声符号化装置に係わるものであり、音声複号化装置に関するものではない。

また、特許文献 4記載の発明は、音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、詳しくは、音源情報をマルチパルスで近似して検索する際、そのまま入力音声を使って音源探索するのではなく、音声を線スぺクトル状に強調してから音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、そもそも音声の明瞭度を高めることを目的とするものではない。

本発明の課題は、分析合成系の音声符号化方式を用いる機器（携帯電話等）において、ホルマント強調による音質劣化や雑音感の増加などの副作用を抑止し、復元する音声の明瞭度を更に高め、受話音声を聞き取り易くする音声複号化装置、音声複号化方法、そのプログラム、記録媒体等を提供することである。発明の開示本発明による音声復号化装置は、分析合成系の音声符号化方式を用いる通信装置が備える音声複号化装置において、受信した音声符号を分離して、声道特性と音源信号を復元する符号分離復号手段と、該声道特性を修正する声道特性修正手段と、前記声道特性修正手段によつて修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段とを有するように構成する。

前記声道特性の修正とは、例えば声道特性に対して.ホルマント強調処理を施すものである。

上記構成の音声複号化装置によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成 ·出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスぺクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくできる。

例えば、前記声道特性は、前記音声符号から復号する第 1の線形予測係数から算出される線形予測スぺクトルであり、前記声道特性修正手段は、該線形予測スぺクトルをホルマント強調し、前記信号合成手段は、該ホルマント強調された線形予測スぺクトルに対応する第 2の線形予測係数を求める修正線形予測係数算出手段と、該第 2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成 ·出力するものであるまた、例えば、上記構成の音声復号化装置において、前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、'ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うようにしてもよい。

上記構成により、相対的にホルマントが更に強調され、音声の明瞭度を更に高めることができる。また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じゃすい雑音感を抑えることができる。つまり、分析合成系の音声符号化方式の一種である C E L P等の音声符号化方式で符号化 ·復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。これに対して本発明では上記構成によりアンチホルマントを減衰させるため、上記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。

また、例えば、上記構成の音声復号化装置において、前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成 ' 出力するように構成してもよい。

上記構成によって、入力した音声符号を分離して音源特性（残差信号）と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。なお、上述した本発明の各構成により行なわれる機能と同様の制御をコンビユータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体から、そのプログラムをコンピュータに読み出させて実行させることによつても、前述した課題を解決することができる。図面の簡単な説明

本発明は、後述する詳細な説明を、下記の添付図面と共に参照すればより明らかになるであろう。

図 1は、本例の音声復号化装置の概略的な構成を示す図である。

図 2は、本例の音声複号化装置の基本構成図である。

図 3は、第 1の実施例による音声復号化装置 4 0の構成プロック図である。

図 4は、増幅率算出部の処理フローチャート図である。

図 5は、ホルマントの増幅率を求める様子を示す図である。

図 6は、補間曲線の一例を示す図である。

図 7は、第 2の実施例による音声復号化装置の構成プロック図である。

図 8は、増幅率算出部の処理フローチャート図である。

図 9は、アンチホルマントの増幅率を求める様子を示す図である。図 1 0は、第 3の実施例による音声復号化装置の構成プロック図でめる。

図 1 1は、音声複号化装置の適用先の 1つである携帯電話のハードウェア構成図である。

図 1 2は、音声複号化装置の適用先の 1つであるコンピュータのハ一ドウエア構成図である。図 1 3は、プロダラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。

図 1 4は、先出願で提案している音声強調装置の基本構成を示す図である。

図 1 5は、先出願の音声強調装置を、 C E L P復号器が搭載された携帯電話等に適用する場合の構成例である。

図 1 6は、音声の生成モデルを示す図である。

図 1 7は. C E L P符号器 ·復号器の処理の流れを示す図である。図 1 8は. C E L P符号器のパラメータ抽出部の構成プロック図である。

図 1 9は. C E L P復号器の構成プロック図である。

図 2 0は. 音声の周波数スぺクトルの例を示す図である。

図 2 1は.音声スぺクトルのホルマント強調の一例を示す図である図 2 2は、特許文献 1に記載の発明の基本構成図を示す図である。発明を実施するための最良の形態

以下、図面を参照して、本発明の実施の形態について説明する。本例による音声複号化装置の概略的な構成を図 1に示す。

図 1に示す通り、音声複号化装置 1 0は、その概略的な構成として

、符号分離/復号部 1 1、声道特性修正部 1 2、及び信号合成部 1 3 を有する。

符号分離ノ復号部 1 1は、音声符号 codeから声道特性 s_{P l} と音源信号を復元する。上述してあるように、送信側の携帯電話等が有する C E L P符号器（不図示）では、入力音声を、線形予測係数（L P C係数）と、音源信号（残差信号）とに分離して、それぞれを符号化して、これらを多重化して音声符号 co deとして受信側の携帯電話等が有する復号器へ伝送する。

この音声符号 codeを受け取った復号器は、上記の通り、まず、符号分離/復号部 1 1によって、音声符号 codeから、声道特性 s_{P l} と音源信号を復号する。そして、声道特性修正部 1 2が、この声道特性 s_{P l} を修正し、修正後の声道特性 sp₂ を出力する。これは、例えば、声道特性 s_{P l} に対して直接ホルマント強調処理を施すことで、強調された声道特性 sp₂ を生成■ 出力する。

最後に、信号合成部 1 3が、修正された声道特性 sp₂ と、音源信号 r_x とを合成して、出力音声 sを生成 · 出力する。例えば、ホルマント強調された出力音声 s を生成 · 出力する。

上述した通り、特許文献 1等では、例えば特許文献 1の図 1 9においては、復元した音源信号（加算器の出力）を、復号した L P C係数で構成される合成フィルタを通して、合成信号（合成された音声）を生成しており、この合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった不具合が生じる場合がある。

これに対して、本例の音声復号化装置 1 0では、音源信と L P C 係数を復元するところまでは略同様であるが、合成信号（合成された音声）を生成することなく、声道特性 s_{P l} に対して直接ホルマント強調処理を施し、強調された声道特性 sp₂と音源信号（残差信号）とを合成する。よって、上記問題が解消され、強調による音質劣化や雑音感の増加などの副作用がない音声に復号できる。図 2に、本例の音声複号化装置の基本構成図を示す。

尚、以下の説明では、音声符号化方式に C E L P (Code Excited L inear Prediction；符号励振線形予測）方式を用いているが、これに限るものではなく、分析合成系の符号化方式であれば適用可能である ₀

図示の音声復号化装置 2 0は、符号分離部 2 1、 A C Bベタトル復号部 2 2、 S C Bベタトル復号部 2 3、ゲイン復号部 2 4、音源信号生成部 2 5、 L P C係数復号部 2 6、 L P Cスペクトル算出部 2 7、スぺクトル強調部 2 8、修正 L P C係数算出部 2 9、及び合成フィルタ 3 0を有する。

尚、符号分離部 2 1、 L P C係数復号部 2 6、 A C Bベタトル復号部 2 2、 S C Bベタトル復号部 2 3、及びゲイン復号部 2 4が、上記符号分離 Z復号部 1 1の詳細構成の一例に相当する。スぺクトル強調部 2 8が、上記声道特性修正部 1 2の一例である。修正 L P C係数算出部 2 9及び合成フィルタ 3 0力 S、上記信号合成部 1 3の詳細構成の一例に相当する。，

符号分離部 2 1は、送信側から多重化されて送られてきた音声符号 codeを、 L P C符号、 A C B符号、 S C B符号、及びゲイン符号に分離して出力する。

A C Bベタトル復号部 2 2、 S C Bベタトル復号部 2 3、ゲイン復号部 2 4、は、それぞれ、上記符号分離部 2 1から出力される AC B 符号、 S C B符号、及ぴゲイン符号から、 AC Bベタトル、 S C Bベクトノレ、及び AC Bゲインと S C Bゲインを復号する。

音源信号生成部 2 5は、これら AC Bベクトル、 S C Bベクトル、及び A C Bゲインと ' S C Bゲインを元に、音源信号（残差信号） r(n ), (0≤n≤N)を生成する。なお、ここで Nは符号化方式のフレーム長である。

一方、 L P C係数復号部 2 6は、上記符号分離部 2 1から出力される L P C符号から、 L P C係数 (i), (l^i^NP! )を復号し、これを L P Cスぺクトル算出部 2 7に対して出力する。ここで、 NPi は P C係数の次数である。

L P Cスぺクトル算出部 2 7において、入力された L P C係数 α _χ ( i )力、ら、声道特性を表すパラメータである L P Cスぺクトル s_Pl ( 1)，（0 1≤N_F )を求める。なお、ここで N_F はスペクトル点数であり、 N≤N_F とする。 L P Cスぺクトル算出部 2 7は、求めた L P Cスぺタトル s_Pl (1)を、スペクトル強調部 2 8へ出力する。

スペクトル強調部 2 8は、 L P Cスペクトル s_Pl (1)に基づいて、強調された L P Cスペクトル sp₂ (1)を求め、求めた sp₂ (1) を修正 L P C係数算出部 2 9に出力する。

修正 L P C係数算出部 2 9は、強調された L P Cスペクトル sp₂ ( 1)に基づいて、修正 L P C係数 a₂ (i), (1≤ i≤NP₂ ) を求める。ここで、 NP₂ は修正 L P C係数の次数である。修正 P C係数算出部 2 9は、求めた修正 L P C係数 α₂ を、合成フィルタ 3 0に出力する。そして、求めた修正 L P C係数ひ ₂ (i) で構成される合成フィルタ 3 0に、上記音源信号 r(n) を入力し、出力音声 s(n)， (0≤n≤N) を求める。これにより、ホルマントが強調されて明瞭度が向上した音声を得ることができる。

以上説明した通り、本例では、音声符号から算出した声道特性（L P C係数から求めた L P Cスぺクトル）に対して直接ホルマント強調を行って声道特性を強調した後に、音源信号と合成するため、従来技術の問題点であった「声道特性から求めた強調フィルタを用いた強調による音源信号の歪み」を生じないようにできる。

図示の構成のうち、図 2に示す音声復号化装置 2 0と略同一の構成には同一符号を付してある。

尚、本実施例では、 C E L P方式の音声符号化方式を用いた場合について説明するが、その他の分析合成系の符号化方式でも同様に適用できる。

まず、符号分離部 2 1は、送信側から送られてきた音声符号 code を、 L P C符号、 A C B符号、 S C B符号、及びゲイン符号に分離する。

AC Bベタトル復号部 2 2は、上記 AC B符号から、 AC Bべクトル p(n)，（0≤n N)を復号する。ここで、 Nは符号化方式のフレーム長である。 S C Bベタトル復号部 2 2は、上記 S C B符号から、 S C B ベタトル c(n)，（O^n N)を復号する。ゲイン復号部 2 4は、上記ゲイン符号から、 A C Bゲイン g_p 、及ぴ S C Bゲイン g _c を復号する。音源信号生成部 2 5は、上記復号された A C Bベクトル p(n)、 S C Bベクトル c(n)、 AC Bゲイン g_p 、及び S C Bゲイン g _c 力、ら、以下の式（1)に従って、音源信号！■ (n), (0≤n≤N) を求める。 r(n) = g_pp(n) + g_cc(ri) (0≤n<N) 、丄）式一方、 L P C係数復号部 2 6は、上記符号分離部 2 1によって分離 ' 出力された L P C符号から、〇係数0；₁ (i), (1≤ i^NP! ) を復号し、 L P Cスぺタトル算出部 2 7に出力する。ここで、は L P c係数の次数である。

L P Cスペクトル算出部 2 7は、この L P C係数 (i) を以下の式（2)によりフーリェ変換することによって、声道特性として L P C スペクトル _sPi (1)を求める。

ここで N_F はスペクトルのデータ点数である。 P ₁ は L P Cのフィルタの次数である。サンプリング周波数を F_s とすると、 L P Cスぺタトル s_Pl (1) の周波数分解能は F_s / N_F となる。変数 1 はスぺタトルのィンデッタスであり離散周波数を表す。 1 を周波数（Hz) に換算すると int[ 1 ■ F _s / N_F ] (H z ) となる。尚、 int[x ]は、変数 xを整数化することを意味する。

Ψι( = (0≤1<N_F) ( 2 ) 式

L P Cスぺクトル算出部 2 7 によって求められた L P Cスぺクトル s_Pl (1)は、ホルマント推定部 4 1、増幅率算出部 4 2、及びスぺクトル強調部 4 3に入力される。

まず、ホルマント推定部 4 1は、 L P Cスペクトル s_Pl (1) を人力すると、ホルマント周波数 fp(k)，（l≤k≤ k max ) とその振幅 ampp(k )，（l≤k kpmax)を推定する。

ここで、 kpmaxは推定するホルマントの個数を示す。 kpmaxの値は任意であるが、例えば 8 (kHz) サンプリングの音声に対しては、 kpma x= 4または 5程度が適当である。上記ホルマント周波数の推定方法は任意であるが、例えば、周波数スペクトルのピークからホルマントを推定するピークピッキング法等の公知の技術を用いることができる。

求めたホルマント周波数を、低次から順に fp(l)， fp(2)，••■fp(kpmax )とする。また、 fp(k)での振幅値を ampp(k)とする。

尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。

次に、増幅率算出部 4 2は、上記 L P Cスぺクトル s_Pl (1)と、ホルマント推定部 4 1によって推定されたホルマント周波数及ぴ振幅 { fp(k),ampp(k)} を入力して、 L P Cスペクトル s_Pl (1)に対する増幅率 /3 (1) を算出する。

図 4は、増幅率算出部 4 2の処理フローチャート図である。

図 4に示すように、増幅率算出部 4 2の処理は、増幅基準電力の算出（ステップ S 1 1 ) 、ホルマント増幅率の算出（ステップ S 1 2 ) 、増幅率の補間（ステップ S 1 3 ) の順に処理を行う。

まず、ステップ S 1 1の処理、すなわち L P Cスペクトル s_Pl (1) から増幅基準電力 Po_W_refを算出する処理について説明する。

増幅基準電力 p_ow— _refの算出方法は任意である。例えば、全周波数帯域の平均電力にする方法や、ホルマント振幅 ampp(k)， (l≤k≤kpma x) の中で最も大きい振幅を基準電力とする方法などがある。また、周波数やホルマントの次数を変数とする関数として基準電力を求めても良い。全周波数帯域の平均電力を基準電力とする場合、増幅基準電力 Pow—refは式（3)で表される。 _Pow__{ref =} ( 3 ) 式

次に、ステップ S 1 2において、ホルマント振幅 ampp(k), (l≤k≤k pmax) を、ステップ S 1 1で求めた増幅基準電力 Pow_refに合わせる .ように、ホルマントの増幅率 Gp(k) を決定する。図 5に、ホルマント振幅 ampp(k)を增幅基準電力 Pow_refに合わせる様子を示す。このようにして得られた増幅率を用いて L P Cスぺクトルを強調することにより、スぺクトル全体の傾きが平坦になり、これによつて音声全体の明瞭度を改善することができる。

以下の式（4)は、増幅率 Gp(k) を求める式である。

Gp(k) = Pow_ref/ampp(k) (\≤k≤kp_maK) ( 4 ) 式更に、ステップ S 1 3において、隣接するホルマント間（fp(k)と f _P(k+1)との間）にある周波数帯域の増幅率 j3 (1) を、補間曲線 R ( k ， 1 ) により求める。補間曲線の形状は任意であるが、以下に、補間曲線 R ( k， 1 ) を二次曲線とする場合の例を示す。

まず、補間曲線 R ( k， 1 ) を、任意の二次曲線として定義すると、 R ( k， 1 ) は、以下の式（5)のように表せる。

R(k,l) ^al² +M + c ( 5 ) 式ここで、 a，b，cは任意である。この補間曲線 R ( k , 1 ) を、図 6 に示すように、 { f p ( k ) ， G p ( k ) } 、 { f p ( k + 1 ) 、 G P ( k + 1 ) } 、及ぴ { ( f p ( k ) + f p ( k + 1 ) ) / 2、 min ( γ G p ( k ) 、 γ G p ( k + 1 ) ) } を通るものと規定する。ここで、 min (x、 y ) は、 xと yのうち最小値を出力する関数であり、 γは 0 γ 1を満たす任意の定数とする。式（5)にこれらを代入すると、

Gp(k) = a - fpilCf + b - fp{k) + c ( 6 )

Gp{k + \)^a-jp(k + \)²+b-jp{k + \) + c

式となる。よって、式（6)，（7)，（8)を連立方程式として、 a , b , cを求めることにより、補間曲線 R ( k , 1 ) を求めることができる。この R ( k , 1 ) に基づいて、区間 [fp(k)， fp(k+l)]の間のスペクトルに対する増幅率を求めることで、増幅率 ]3 (1)を補間する。

上述したステップ S 1 1〜S 1 3までの処理を、全てのホルマントについて行い、全周波数帯域の増幅率を決定する。なお、最低次のホルマント fp(l) より低い周波数に対する増幅率については、 fp(l) での増幅率 Gp(l) を用い、最高次のホルマント fp(kpmax) より高い周波数に対する増幅率については、 fp(kpmax) での増幅率 Gp (kpmax) を用いる。以上をまとめると、増幅率 ]3 ( 1 ) は、以下の式（9)のようになる。 φ(1) ,(/ < ^(1))

Riik ) ,ΟΚ1)≤ /≤ ( max) = 1,2) ( 9 ) 式

Gp kp ,か(¥ <

但し、上記式（ 9 ) において、 R i (k, 1)及ぴ i = 1， 2 となっているのは、後述する第 2の実施例に対応する場合を示すものであり、第 1 の実施例においては R i (k，l)を R (k， 1)に置き換え、且つ i = 1， 2は削除して考えるものとする。

以上説明した処理により増幅率算出部 4 2によって求められた増幅率 β ( 1 ) と、上記 P Cスぺクトル s_Pl (1)とを、スぺクトノレ強調部 4 3に入力する。スぺクトル強調部 4 3は、これらを用いて、以下の式（10)に従って、強調されたスぺクトル sp₂ (1)を求める。

ψ₂ 1) = β{1)·ψΜ (0≤1<N_F) ( 1 0 ) 式スぺクトル強調部 4 3によって求められた、強調されたスぺクトル sp₂ (1)は、修正 L P C係数算出部 2 9に入力される。

修正 L P C係数算出部 2 9 は、この強調されたスペクトル sp₂ (1) の逆フーリエ変換から自己相関関数 ac₂ (i) を求める。次に、自己相関関数 ac₂ (i) からレビンソン ' アルゴリズム等の公知の方法により修正 P C係数 ₂ (i)，（1≤ i ≤NP₂ )を求める。ここで、 NP₂ は、修正 L P C係数の次数である。

そして、上記修正 L P C係数算出部 2 9によつて求めた修正 L P C 係数 a ₂ (i)によって構成される合成フィルタ 3 0に、上記音源信号 r (n)を入力する。合成フィルタ 3 0は、以下の（ 1 1 ) 式によって出力音声 s (n)を求める。これにより、強調処理された声道特性と、音源特性とが合成される。

s(n) = r(n) ~Y a₂ (i) s{n - i), (0≤ « < N) ( 1 1 ) 式

=1 以上説明した通り、第 1 の実施例では、音声符号から復号した声道特性を強調した後に音源信号と合成する。これにより、従来技術で問題となっていた声道特性と音源信号を同時に強調する場合に発生するスぺクトル歪を抑え、かつ明瞭度を改善することができる。更に、本例では、ホルマント以外の周波数成分に対しても、ホルマントの增幅率を基準にして増幅率を求め、強調処理を行っているので、声道特性を滑らかに強調することができる。

尚、本実施例ではスぺクトル s_{P l} ( 1 ) に対する増幅率を 1 スぺクトル点数単位で求めるが、スぺクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。

図 7は、第 2の実施例による音声復号化装置 5 0の構成プロック図である。

図示の構成のうち、図 3に示す音声複号化装置 4 0と略同一の構成には同一符号を付してあり、以下の説明では、第 1の実施例と異なる部分についてのみ説明する。

第 2の実施例では、ホルマントの強調に加えて、振幅が極小値をとるアンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする。なお、本実施例では、アンチホルマントは 2つの隣り合うホルマントの間にだけ存在するものとして説明するが、この例に限らず、それ以外、すなわちアンチホルマントが最低次ホルマントより低い周波数に存在する場合や、最高次ホルマントより高い周波数に存在する場合でも適応できる。

図示の音声復号化装置 5 0は、図 3の音声複号化装置 4 0におけるホルマント推定部 4· 1及び増幅率算出部 4 2に代えて、ホルマント / アンチホルマント推定部 5 1、増幅率算出部 5 2を有し、これら以外の構成は音声複号化装置 4 0の構成と略同様である。

ホルマント /アンチホルマント推定部 5 1は、 L P Cスペクトル s _Pl (1) を入力すると、上記ホルマント推定部 4 1 と同様に、ホルマン卜周波数 fp(k)，（l^k^kpmax ) とその振幅卿 p (k) , (1≤ k≤ kpma x)を推定すると共に、これに加えて、アンチホルマントの周波数 fv( k), (l≤k≤kvmax ) とその振幅 ampv (k) , (1≤ k≤ kvmax)を推定する。アンチホルマントの推定方法は任意であるが、例えば、スペクトル s _Pl (1) の逆数に対してピークピッキング法を適用するなどの方法がある。求めたアンチホルマントを、低次から順に fv(l)、 fv(2), · - • fv (kvmax) とする。ここで、 kvmaxは、アンチホルマントの個数である。また、 fv(k)での振幅値を ampv(k)とする。

ホルマント/アンチホルマント推定部 5 1 によって求められたホルマント /ァンチホルマントの推定結果は、増幅率算出部 5 2に入力される。

図 8は、増幅率算出部 5 2の処理フローチヤ一ト図である。

増幅率算出部 5 2の処理は、図 8に示すように、ホルマントの増幅基準電力の算出（ステップ S 2 1 ) 、ホルマントの増幅率の決定（ステツプ S 2 2 ) 、アンチホルマントの増幅基準電力の算出（ステップ S 2 3 ) 、アンチホルマントの増幅率の決定（ステップ S 2 4) 、及び増幅率の捕間（ステップ S 2 5 ) の順に行われる。ステップ S 2 1 、 S 2 2の処理は、第 1の実施例のステップ S l l、 S 1 2の処理と同じであるので、ここでの説明は省略する。

以下に、ステップ S 2 3以降の処理について説明する。

まず、ステップ S 2 3のアンチホルマントの増幅基準電力の算出処理について説明する。

ァンチホルマントの増幅基準電力 Pow_refvは、 L P Cスぺクトル s Pi (1) から求める。求め方は任意であるが、例えば、ホルマントの増幅基準電力 Pow_refに 1未満の定数を乗じたものを用いる方法や、了ンチホルマント ampv (k)， (1≤ k≤ kvmax) の中で最小値をとる振幅を基準電力とするなどの方法がある。

ホルマントの増幅基準電力 Pow— refに定数を乗じたものをアンチホルマントの基準電力とした場合の算出式を、以下の式（12)に示す。

Pow rep = Pow ref ( 1 2 ) 式ここで、 λは 0 < く 1 を満たす任意の定数である。

続いて、ステップ S 2 4のアンチホルマントの増幅率の決定処理について説明する。

アンチホルマントの増幅率 Gv(k) を求める様子を図 9に示す。図 9 力らゎ力、るように、アンチホノレマント振 i畐 ampv (k)， (1≤ k≤ kvmax) を、ステップ S 2 3で求めたアンチホルマントの増幅基準電力 Pow— r efvに合わせるようにして、アンチホルマントの増幅率 Gv(k) を決定する。以下の式（13)は、アンチホルマントの増幅率 Gv(k) を求める式を示す。

Gv(k) = Pow_refv/ampv(k) (0≤k≤ Av_max) ( 1 3 ) 式最後に、ステップ S 2 5の増幅率の捕間処理を行う。

この処理は、隣り合うホルマント周波数とアンチホルマント周波数の間にある周波数における増幅率を、補間曲線 R i ( k， 1 ) により求める。ここで、 i = l， 2であり、区間 [fp(k)、： fv(k)]の補間曲線を 1^ ( k， 1 ) 、区間 [fv(k)、 fp(k+l)]の補間曲線を R₂ ( k， 1 ) とする。

補間曲線は任意の方法により求めてよい。

以下に、補間曲線 R i ( k， 1 ) を二次曲線で算出する場合の一例を示す。

まず、二次曲線の形状を、 {fp(k)、 Gp(k) } を通り、 {fv(k), Gv( k) } で極小値をとるような二次曲線と規定する。そうすると、この二次曲線は、式（14)のように表せる。 ?(/) = {!― fv{k)f + Gv(k) ( 1 4 ) 式ここで、 aは a > 0を満たす任意の定数である。この式（14)が、 { fp(k)、 Gp(k) } を通ることから、 { 1、 β ( 1 ) } = {fp(k)、 Gp(k )} を代入し、式を整理すると、 aは以下の（ 1 5 ) 式のように表される。 Gp(k)-Gv(k)_

{ ー ² ゆえに、式（ 1 5 ) から aを算出し、二次曲線 Ri ( k , 1 ) を求めることができる。 fv(k)と fp(k+l)の間の補間曲線 R₂ (k , 1 ) も、同様に求めることができる。

以上をまとめると、増幅率 ]3 ( 1 ) は、上式（ 9 ) で表される。増幅率算出部 5 2は、この増幅率 ]3 ( 1 ) を、スペクトル強調部 4 3に出力し、スぺクトル算出部 4 3は、これを用いて、上式（ 1 0 ) に従って、強調されたスぺクトル sp₂ (1)を求める。

以上説明した通り、第 2の実施例では、ホルマントの増幅に加えて、アンチホルマントを減衰する。これにより、相対的にホルマントが更に強調され、第 1の実施例と比較して、明瞭度を更に高めることができる。

また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じゃすい雑音感を抑えることができる。 C E L Pなど、携帯電話などで使われている音声符号化方式で符号化 ·復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。本発明では、アンチホルマントを減衰させるため、前記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。

図 1 0は、第 3の実施例による音声複号化装置 6 0の構成プロック図である。

第 3の実施例では、第 1の実施例の構成に加えて、更に、音源信号に対してピッチ強調を施す構成を有することを特徴とする。すなわち、ピツチ強調フィルタ構成部 6 2、ピツチ強調部 6 3を有することを特徴とする。また、 A C Bベタトル復号部 6 1は、 A C B符号から A C Bベタトル p(n)，（0≤n≤N).を復号するだけでなく、A C B符号からピッチラグの整数部 Tを求めて、ピッチ強調フィルタ構成部 6 2に出力する。

ピッチ強調の方法は任意である力 S、例えば以下のような方法がある。

まず、ピツチ強調フィルタ構成部 6 2は、上記 A C Bベタトル復号部 6 1から出力されるピッチラグの整数部 Tを用いて、 Tの近傍における音源信号 r(n)の自己相関関数 rscor (T- 1) 、 rscor (T) rscor (T + 1) を、以下の式（16)により求める。

rscor = T r(n) -r(n -i), (i = T -Ι,Τ,Τ + ΐ) ( 1 6 ) 式

ピッチ強調フィルタ構成部 6 2は、続いて、上記自己相関関数 rsc or (T - 1) 、 rscor (T) 、 rscor (Τ+ 1) から、レビンソン . アルゴリズム等の公知の方法により、ピッチ予測係数 pc( i ) ( i =— 1、 0 . 1 ) を算出する。

ピツチ強調部 6 3は、ピッチ予測係数 pc ( i )で構成されるピツチ強調フィルタ（伝達関数は、以下の式（17)、 g _p は重み付け係数）で音源信号! "（n)をフィルタリングし、ピッチが強調された残差信号（音源信号） r' (n)を出力する。

）： ( 1 7 ) 式

合成フィルタ 3 0は、上記のようにして求めた音源信号 r' (n)を、 r(n)の代わりに式（11)に代入して、出力音声 s(n)を得る。

尚、本実施例では、ピツチ強調フィルタに 3タップの I I Rフィルタを用いたが、それに限るものではなく、タップ長を変えてもよいし、 F I Rフィルタ等の任意のフィルタを用いても良い。

以上説明した通り、第 3の実施例では、第 1の実施例の構成に加えて、更に、ピツチ強調フィルタを付加することにより音源信号に含まれるピツチ周期成分を強調するため、第 1の実施例に比べて音声の明瞭度を更に改善することができる。つまり、入力した音声符号を分離して音源特性（残差信号）と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。図 1 1は、本例の音声複号化装置の適用先の 1つである携帯電話ノ P H Sのハードウエア構成図である。尚、携帯電話は、プログラム等を実行して任意の処理を実行できることから、コンピュータの一種として扱うことができる。

図示の携帯電話/ P H S 7 0は、アンテナ 7 1、無線部 7 2、 AD /D A変換部 7 3、 D S P (Digital Signal Processor) 7 4、 C P U 7 5、メモリ 7 6、表示部 7 7、スピーカ 7 8、及びマイク 7 9を有する。

アンテナ 7 1、無線部 Ί 2、 A D ZD A変換部 7 3を介して受信した音声符号 codeに対して、 D S P 7 4が、メモリ 7 6に格納されている所定のプログラムを実行することにより、上記図 1〜図 1 0を参照して説明した音声復号化処理が実行され、出力音声を出力する。また、上述してある通り、本発明の音声複号化装置の適用先ほ、携帯電話に限るものではなく、例えば V o I P (voice over IP)、 TV 会議システム等であってもよい。つまり、音声を圧縮する音声符号化方式を適用して、無線/有線で、通信を行なう機能を備え、上記図 1 〜図 1 0を参照して説明した音声復号化処理を実行できる何らかのコンピュータであれば何でもよい。

図 1 2は、このようなコンピュータの概略的なハードウエア構成の一例を示す図である。

同図に示すコンピュータ 8 0は、 C P U 8 1、メモリ 8 2、入力装置 8 3、出力装置 8 4、外部記憶装置 8 5、媒体駆動装置 8 6、ネットワーク接続装置 8 7等を有し、これらがバス 8 8に接続された構成となっている。同図に示す構成は一例であり、これに限るものではない _D

メモリ 8 2は、プログラム実行、データ更新等の際に、外部記憶装置 8 5 (あるいは可搬型記録媒体 8 9 ) に記憶されているプログラムあるいはデータを一時的に格納する RAM等のメモリである。

C P U 8 1は、メモリ 8 2に読み出したプログラムを実行して、上述してある各種処理/機能（図 4、図 8等に示す処理等や、図 1〜図 3、図 7、図 1 0に示す各機能部の機能）を実現する。

入力装置 8 3は、例えばキーボード、マウス、タツチパネル、マイク等である。

出力装置 8 4は、例えばディスプレイ、スピーカ一等である。

外部記憶装置 8 5は、例えば磁気ディスク装置、光ディスク装置、光磁気ディスク装置等であり、上述してきた画像結合装置としての各種機能を実現させる為のプログラム/データ等が格納されている。媒体駆動装置 8 6は、可搬型記録媒体 8 9に記憶されているプログラム/データ等を読み出す。可搬型記録媒体 8 9は、例えば、 F D ( フレキシブルディスク）、 C D— R O M、その他、 D V D、光磁気デイスク等である。

ネットワーク接続装置 8 7は、ネットワークに接続して、外部の情報処理装置とプログラム/データ等の送受信を可能にする構成である。

図 1 3は、上記プログラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。

図示のように、上記本発明の機能を実現するプログラム Zデータが記憶されている可搬型記録媒体 8 9からコンピュータ 8 0側に読み出して、メモリ 8 2に格納し実行するものであってもよいし、また、上記プログラム/データは、ネットワーク接続装置 8 7により接続しているネットワーク 3 (インターネット等）を介して、外部のサーバ 1 の記憶部 2に記憶されているプログラム/データをダウンロードするものであってもよい。

また、本発明は、装置方法に限らず、上記プログラム/データを格納した記録媒体（可搬型記録媒体 8 9等）自体として構成することもできるし、上記プログラム自体として構成することもできる。最後に、本出願の出願人が既に出願している先出願（国際出願番号； JP02/ 1 1332) について触れておく。

図 1 4に、先出願で提案している音声強調装置 9 0の基本構成を示す。

図示の音声強調装置 9 0は、まず、信号分析■分離部 9 1力 S、入力音声 Xを分析して、これを音源信号 r と声道特性 s_{P l} とに分離する。声道特性修正部 9 2が、この声道特性 s_{P l} を修正（例えばホルマントを強調）し、修正（強調）された声道特性 sp₂ を出力する。最後に、信号合成部 9 3が、音源信号 rを、上記修正（強調）された声道特性 sp₂ と再合成することにより、ホルマントを強調した音声が出力されることを特徴としている。

このように、先出願では、入力音声 Xを、音源信号' r と声道特性 s_{P l} とに分離して、声道特性の強調を行うため、特許文献 1の問題点であった音源信号の歪みを生じさせることが無い。従って、雑音感の增加や明瞭度の低下のないホルマント強調を行うことができる。

ところで、先出願記載の音声強調装置を、例えば。 E L P復号器が搭載された携帯電話等に適用する場合、図 1 5に示すようになる。先出願記載の音声強調装置 9 0は、上記の通り、音声 Xを入力しているので、図 1 5に示すように、音声強調装置 9 0の前段に復号処理装置 1 0 0を設け、外部から送られてきた音声符号 codeを、当該復号処理装置 1 0 0によって復号して、この復号音声 sを、音声強調装置 9 0の入力とする構成となる。

復号処理装置 1 0 0は、例えば符号分離/復号部 1 0 1によって音声符号 co deから音源信号 r i と声道特性 s_{P l} とを生成し、これらを信号合成部 1 0 2によって合成して復号音声 s を生成 ·出力する。このとき、音声符号 codeから復号された復号音声 sは、情報が圧縮されているため、符号化前の音声に比べて音声の情報量が減少し、品質が劣ィ匕している。

このため、品質が劣化した復号音声 sを入力とする音声強調装置 9 0では、品質が劣化した音声を再分析して音源信号と声道特性に分離することになる。そのため、分離の精度が劣化し、復号音声 sから分離した声道特性 s_{P l} ' 中に音源信号成分が、あるいは音源信号 r 中に声道特性成分が残留する場合がある。従って、声道特性を強調した際、声道特性中に残留する音源信号成分が強調されてしまう場合、あるいは音源信号中に残留する声道特性成分が強調されない場合がある。このため、音源信号とホルマント強調後の声道特性から再合成される出力音声 s ，の音質が劣化する可能性があった。

これに対して、本発明の音声復号化装置では、音声符号から復号した声道特性を用いるため、劣化した音声からの再分析による品質劣化を生じない。更に、再分析が不要となるため、処理量を削減することができる。産業上の利用の可能性

以上詳細に説明したように、本発明の音声複号化装置、復号方法、そのプログラム等によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成■出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスぺクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくなる。

Claims

請求の範囲

1 . 分析合成系の音声符号化方式を用いる通信装置が備える音声復号化装置において、

受信した音声符号を分離して、声道特性と音源信号を復元する符号分離/復号手段と、

該声道特性を修正する声道特性修正手段と、

前記声道特性修正手段によって修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段と、

を有することを特徴とする音声複号化装置。

2 . 前記声道特性修正手段は、前記声道特性に対してホルマント強調処理を施し、該強調された声道特性を生成し、

前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項 1記載の音声復号化装置。

3 . 前記声道特性は、前記音声符号から復号する第 1の線形予測係数から算出される線形予測スぺクトルであり、

前記声道特性修正手段は、該線形予測スぺクトルをホルマント強調し、 .

前記信号合成手段は、該ホルマント強調された線形予測スぺクトルに対応する第 2の線形予測係数を求める修正線形予測係数算出手段と、該第 2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成 - 出力することを特徴とする請求項 1又は 2記載の音声複号化装置。

4 . 前記声道特性修正手段は、前記声道特性におけるホルマントを推定するホルマント推定手段と、該推定したホルマントに基づいて前記声道特性に対する増幅率を算出する増幅率算出手段と、該算出した増幅率に基づいて前記声道特性を強調する強調手段とを有することを特徴とする請求項 1〜 3の何れかに記載の音声複号化装置。

5 . 前記ホルマント推定手段は、前記ホルマントのホルマント周波数とその振幅を推定し、

前記増幅率算出手段は、前記声道特性から増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの増幅率を決定し、

前記強調手段は、該ホルマントの増幅率を用いて前記声道特性を強調することを特徴とする請求項 4記載の音声復号化装置。

6 . 前記増幅率算出手段は、更に、前記ホルマント間の周波数帯域の増幅率を、補間曲線により求め、

前記強調手段は、該補間曲線によって求められた増幅率も用いて前記声道特性を強調することを特徴とする請求項 5記載の音声復号化装置。

7 . 前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、

前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項 1記載の音声複号化装置。

8 . 前記声道特性は、前記音声符号から復号する第 1の線形予測係数から算出される線形予測スぺクトルであり、前記声道特性修正手段は、該線形予測スぺクトルに対して前記ホルマント強調とアンチホルマントの減衰処理を施し、

前記信号合成手段は、該声道特性修正手段が生成した修正後の線形予測スぺクトルに対応する第 2の線形予測係数を求める修正線形予測係数算出手段と、該第 2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成 ·出力することを特徴とする請求項 7記載の音声複号化装置。

9 . 前記声道特性修正手段は、

前記ホルマントの周波数とその振幅を推定すると共に、前記アンチホルマントの周波数とその振幅を推定するホルマント推定手段と、前記声道特性からホルマントの増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの增幅率を決定すると共に、前記声道特性からアンチホルマントの增幅基準電力を算出して、前記アンチホルマント振幅を該増幅基準電力に合わせるようにしてアンチホルマントの増幅率を決定する増幅率算出手段と、

該増幅率算出手段によって決定されたホルマントの増幅率とアンチホルマントの増幅率とを用いて前記声道特性を強調 Z減衰する強調手段と、

を有することを特徴とする請求項 7又は 8記載の音声複号化装置。

1 0 . 前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、

前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成■出力することを特徴とする請求項 1記載の音声複号化装置。

1 1 . 前記音声符号の一部である A C B符号に基づいて得られるピッチラグを用いて、該ピッチラグの近傍における音源信号の自己相関関数を求め、該自己相関関数からピッチ予測係数を算出するピッチ強調フィルタ構成手段を更に備え、

前記ピツチ強調手段は、前記ピツチ予測係数で構成されるピッチ強調フィルタによって前記音源信号をフィルタリングすることで、前記ピッチ強調された音源信号を生成することを特徴とする請求項 1 0 記載の音声複号化装置。

1 2 . 前記音声符号化方式は、符号励振線形予測方式の音声符号化方式であることを特徴とする請求項 1〜 1 1の何れかに記載の音声複号化装置。

1 3 . 分析合成系の音声符号化方式を用いる通信装置における音声複号化方法であって、

受信した音声符号を分離して、声道特性と音源信号を復元し、該声道特性を修正し、

該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力することを特徴とする音声複号化方法。

1 4 . 分析合成系の音声符号化方式を用いる通信装置における音声復号化方法であって、

受信した音声符号を分離して、該音声符号から復号する第 1の線形予測係数から線形予測スぺクトル.を求めると共に、該音声符号から音源信号を復元し、

該線形予測スぺクトルをホルマント強調し、

該ホルマント強調された線形予測スぺクトルに対応する第 2の線形予測係数を求め、該第 2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成 ·出力することを特徴とする音声復号化方法。

1 5 . 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項 1 4記載の音声復号化方法。

1 6 . 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項 1 4又は 1 5記載の音声複号化方法。

1 7 . コンピュータに、

分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、

該声道特性を修正する機能と、

該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する機能と、

を実現させるためのプログラム。

1 8 . コンピュータに、

分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第 1の線形予測係数から線形予測スぺクトルを求めると共に、該音声符号から音源信号を復元する機能と、

該線形予測スぺクトルをホルマント強調する機能と、

該ホルマント強調された線形予測スぺクトルに対応する第 2の線形予測係数を求め、該第 2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成 ·出力する機能と、

を実現させるためのプログラム。

1 9 . 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項 1 8記載のプログラム。

2 0 . 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルダへの入力とすることを特徴とする請求項 1 8又は 1 9記載のプログラム。

2 1 . コンピュータに、

分析合成系の音声符号化方式によつて符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、

該声道特性を修正する機能と、

を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。

2 2 . コンピュータに、

分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第 1 の線形予測係数から線形予測スぺクトルを求めると共に、該音声符号から音源信号を復元する機能と、

該線形予測スぺクトルをホルマント強調する機能と、

該ホルマント強調された線形予測スぺクトルに対応する第 2 の線形予測係数を求め、該第 2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成■出力する機能と、

2 3 . 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項 2 2記載の記録媒体。

2 4 . 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項 2 2又は 2 3記載の記録媒体。