WO2006080358A1

WO2006080358A1 - 音声符号化装置および音声符号化方法

Info

Publication number: WO2006080358A1
Application number: PCT/JP2006/301154
Authority: WO
Inventors: Michiyo Goto; Koji Yoshida
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-01-26
Filing date: 2006-01-25
Publication date: 2006-08-03
Also published as: US20090055169A1; BRPI0607303A2; EP1852689A1; CN101107505A; JPWO2006080358A1

Abstract

　ステレオ信号からモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号化装置。この装置では、重み付け部（１１）は、Ｌチャネル信号ＸＬおよびＲチャネル信号ＸＲそれぞれに重み付けを行って、重み付けしたＬチャネル信号ＸＬＷおよびＲチャネル信号ＸＲＷをモノラル信号生成部（１２）に入力し、モノラル信号生成部（１２）は、Ｌチャネル信号ＸＬＷとＲチャネル信号ＸＲＷを平均してモノラル信号ＸＭＷを生成してモノラル信号符号化部（１３）に入力し、モノラル信号符号化部（１３）は、モノラル信号ＸＭＷを符号化してモノラル信号ＸＭＷの符号化パラメータ（モノラル信号符号化パラメータ）を出力する。

Description

明細書

音声符号化装置および音声符号化方法

技術分野

[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオの音声入力信号からモノラル信号を生成して符号化する音声符号化装置および音声符号化方法に関する。

背景技術

[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴 1、、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号ィ匕が必須となる。

[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成を、う。

[0004] よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、モノラル信号の復号とを受信側にぉ、て選択可能な、モノラルステレオ間でのスケーラブル構成 (モノラル—ステレオ.スケーラブル構成)を有する符号化が望まれる。

[0005] このような、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕においては、ステレオの入力信号力モノラル信号を生成する。モノラル信号の生成方法としては、例えば、ステレオ信号の各チャネルの信号を単純に平均してモノラル信号を得るものがある (非特許文献 1参照)。

特干文献 1 : ISO/IEC 14496-3, Information Tecnnology -し omng of audio-visual objects - Part 3: Audio , subpart— 4, 4.B.14 Scalable AAC with core coder, pp.304— 305, Sep. 2000.

発明の開示

発明が解決しょうとする課題

[0006] し力しながら、単にステレオ信号の各チャネルの信号をそのまま平均してモノラル信号を生成すると、特に音声では、めり張りのない聞き難いモノラル信号となってしまうことがある。

[0007] 本発明の目的は、ステレオ信号力もモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号ィ匕装置および音声符号化方法を提供することである。

課題を解決するための手段

[0008] 本発明の音声符号化装置は、ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け手段と、重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手段と、前記モノラル信号を符号化する符号化手段と、を具備する構成を採る。

発明の効果

[0009] 本発明によれば、ステレオ信号カゝらモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる。

図面の簡単な説明

[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図

[図 2]本発明の実施の形態 1に係る重み付け部の構成を示すブロック図

[図 3]本発明の実施の形態 1に係る Lチャネル信号の波形例

[図 4]本発明の実施の形態 1に係る Rチャネル信号の波形例

発明を実施するための最良の形態

[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

[0012] (実施の形態 1)

本実施の形態に係る音声符号化装置の構成を図 1に示す。図 1に示す音声符号化装置 10は、重み付け部 11、モノラル信号生成部 12、モノラル信号符号ィ匕部 13、モノラル信号復号部 14、差分信号生成部 15、および、ステレオ信号符号化部 16を備える。

[0013] ステレオ音声信号の Lチャネル（左チャネル）信号 Xおよび Rチャネル（右チャネル

L

)信号 Xは、重み付け部 11および差分信号生成部 15に入力される。

R

[0014] 重み付け部 11は、 Lチャネル信号 Xおよび Rチャネル信号 Xそれぞれに重み付け

L R

を行う。重み付けの具体的な方法については後述する。重み付けされた Lチャネル信号 X および Rチャネル信号 X は、モノラル信号生成部 12に入力される。

LW RW

[0015] モノラル信号生成部 12は、 Lチャネル信号 X と Rチャネル信号 X を平均してモノ

LW RW

ラル信号 X を生成する。このモノラル信号 X は、モノラル信号符号ィ匕部 13に入

MW MW

力される。

[0016] モノラル信号符号ィ匕部 13は、モノラル信号 X を符号化し、モノラル信号 X の符

MW MW

号化パラメータ (モノラル信号符号ィ匕パラメータ)を出力する。このモノラル信号符号化パラメータは、ステレオ信号符号ィ匕部 16から出力されるステレオ信号符号ィ匕パラメータと多重されて音声復号装置へ伝送される。また、モノラル信号符号化パラメータは、モノラル信号復号部 14に入力される。

[0017] モノラル信号復号部 14は、モノラル信号符号ィ匕パラメータを復号してモノラル信号を得る。このモノラル信号は、差分信号生成部 15に入力される。

[0018] 差分信号生成部 15は、 Lチャネル信号 Xとモノラル信号との差分信号 ΔΧおよび

しし

Rチャネル信号 Xとモノラル信号との差分信号 ΔΧを生成する。これらの差分信号

R R

ΔΧ 、 ΔΧは、ステレオ信号符号ィ匕部 16に入力される。

L R

[0019] ステレオ信号符号ィ匕部 16は、 Lチャネルの差分信号 ΔΧおよび Rチャネルの差分

し

信号 ΔΧを符号化し、こられの差分信号の符号ィ匕パラメータ (ステレオ信号符号ィ匕

R

パラメータ）を出力する。

[0020] 次いで、重み付け部 11の詳細について図 2を用いて説明する。この図に示すように、重み付け部 11は、指標算出部 111、重み付け係数算出部 112、および、乗算部 1 13を備える。

[0021] ステレオ音声信号の Lチャネル信号 Xおよび Rチャネル信号 Xは、指標算出部 11 1および乗算部 113に入力される。

[0022] 指標算出部 111は、各チャネルの信号 X、 Xの音声情報量の度合いを表す指標 I

L R

、 Iを一定区間毎 (例えば、各フレーム毎、複数のフレーム毎等）に算出する。 Lチヤ

L R

ネル信号の指標 Iと Rチャネル信号の指標 Iは時間的に同じ区間における値を示す

L R

ものとする。これらの指標 I、 Iは、重み付け係数算出部 112に入力される。なお、具

L R

体的な指標 I、1については、後の実施の形態において説明する。

L R

[0023] 重み付け係数算出部 112は、ステレオ信号の各チャネルの信号に対する重み付け係数を指標 I、1に基づいて算出する。重み付け係数算出部 112は、 Lチャネル信

L R

号 Xに対する一定区間毎の重み付け係数 W、 Rチャネル信号 Xに対する一定区

L L R

間毎の重み付け係数 Wを、式（1)および（2)に従って算出する。なお、ここでの一定

R

区間は、指標算出部 111が指標 I、1

L Rを算出した際の一定区間と同一である。これらの重み付け係数 W、Wは、乗算部 113に入力される。

L R

[数 1] w_L =— L … ( 1 )

[数 2]

^ =7^ + … （^{2 )}

[0024] 乗算部 113は、ステレオ信号の各チャネルの信号の振幅に、重み付け係数を乗算する。これにより、ステレオ信号の各チャネルの信号は、各チャネルの信号の音声情報量に応じた重み付け係数により重み付けされる。具体的には、 Lチャネル信号の一定区間内の i番目のサンプルを X (i)、 Rチャネル信号の i番目のサンプルを X (i)と

L R

すると、重み付けされた Lチャネル信号の i番目のサンプル X (i)および重み付けさ

LW

れた Rチャネル信号の i番目のサンプノレ X (i)は、式（3)および（4)に従って求めら

RW

れる。重み付けされた各チャネルの信号 X 、X は、モノラル信号生成部 12に入力

LW RW

される。

[数 3]

X_lw( = W_L * X_L (i) … ( 3 ) 画

X_RW (i) - W_R - X_R (i) … （4 )

[0025] そして、図 1に示すモノラル信号生成部 12は、重み付けされた Lチャネル信号 X

LW

と重み付けされた Rチャネル信号 X の平均値を算出し、その平均値をモノラル信号

RW

X とする。モノラル信号生成部 12は、モノラル信号の i番目のサンプル X (i)を式

MW MW

(5)に従って生成する。

[数 5]

[0026] モノラル信号符号ィ匕部 13は、モノラル信号 X (i)を符号化し、モノラル信号復号

MW

部 14は、モノラル信号符号化パラメータを復号してモノラル信号を得る。

[0027] 差分信号生成部 15は、 Lチャネル信号の i番目のサンプルを X (i)、 Rチャネル信号の i番目のサンプルを X (i)、モノラル信号の i番目のサンプルを X (i)とすると、 L

R MW

チャネル信号の i番目のサンプルの差分信号 Δ X (i)、および、 Rチャネル信号の i番目のサンプルの差分信号 Δ X (i)を式 (6)および（7)に従って求める。

R

[数 6]

^ ( = ^ ( - ^ ( … （6 )

[数 7]

AX_R(i) = X_R(i) - X_MW(.i) … （7 )

[0028] そして、ステレオ信号符号ィ匕部 16において、差分信号 Δ Χ (i)および Δ Χ (i)に対

L R

して各々符号ィ匕を行う。差分信号の符号化方法は、例えば差分 PCM符号ィ匕等、音声差分信号を符号ィ匕するのに適した方法を用いる。

[0029] ここで、例えば、図 3に示すように Lチャネル信号は音声信号力成り、図 4に示すように Rチャネル信号は無音 (DC成分のみ)カゝら成る場合は、音声信号から成る Lチヤネル信号の方が無音 (DC成分のみ)力成る Rチャネル信号よりも多くの情報を受信側の受聴者に与える。よって、従来のように、単に各チャネルの信号をそのまま平均してモノラル信号を生成すると、そのモノラル信号は、 Lチャネル信号の振幅を 2分の 1にした信号となり、明瞭性や了解性に乏しい信号になってしまうと考えられる。 [0030] これに対し、本実施の形態では、各チャネルの信号の音声情報量の度合!、を示す指標に応じた重み付け係数により重み付けした各チャネルの信号力モノラル信号を生成する。音声情報量が多いほど、モノラル信号の受信側でモノラル信号を復号' 再生した際の明瞭性や了解性が高まるものと考えられる。よって、本実施の形態のようにしてモノラル信号を生成することにより、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる。

[0031] また、本実施の形態では、このようにして生成したモノラル信号に基づ、てモノラル —ステレオ'スケーラブル構成を有する符号ィ匕を行っているため、音声情報量の度合 V、の大き、チャネルの信号とモノラル信号との差分信号のパワー力各チャネルの信号の平均値をモノラル信号とする場合よりも小さくなり（すなわち、音声情報量の度合いの大きいチャネルの信号とモノラル信号との類似性が高くなり）、その結果、そのチャネルの信号に対する符号ィ匕歪みを低減することができる。音声情報量の度合、の小さ!/、他のチャネルの信号とモノラル信号との差分信号のパワーは、各チャネルの信号の平均値をモノラル信号とする場合よりも大きくなるものの、チャネル間において各チャネルの符号ィ匕歪みに偏りをもたせることができ、音声情報量の多いチャネルの信号の符号ィ匕歪みをより小さくすることができる。よって、受信側で復号されるステレォ信号全体としての聴感的歪み感を小さくすることができる。

[0032] (実施の形態 2)

本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号のエントロピーを用いる場合について説明する。この場合、指標算出部 111は以下のようにしてエントロピーを算出し、重み付け係数算出部 112は以下のようして重み付け係数を算出する。なお、符号化されるステレオ信号は実際には標本化された離散値であるが、連続値として扱っても同様の性質を有するので、以下の説明においては連続値として説明する。

[0033] 確率密度関数 p (x)をもつ連続標本値 Xのエントロピ一は式 (8)により定義される。

[数 8]

H( ) = - /p(x)log₂ p{x)dx (ビット/標本値） … （8 ) [0034] 指標算出部 111は、式 (8)に従って、各チャネルの信号に対してエントロピー H(X )を求める。ここでは、一般的に音声信号が式 (9)に示す指数分布 (ラプラス分布)で近似できることを利用してエントロピー H(X)を求める。なお、 αは後述の式（12)により定義される。

[数 9]

p(x) =—· e'"^lxl ■■■ (9)

[0035] 式（9)を用いることで、式 (8)に示すエントロピー H (X)は式（10)により算出される。

つまり、式（10)により求められるエントロピー H(X)は、 1標本値を表現するのに必要なビット数を示すため、音声情報量の度合いを表す指標として用いることができる。なお、式（10)においては、式（11)に示すように、音声信号の振幅の絶対値の平均値を 0とみなしている。

[数 10]

H( ) = l-log₂a (ビット/標本値） ·'· （1 0)

[数 11]

jT p(x |ώ = 0 ·" ( 1 1 )

[0036] ところで、指数分布の場合、音声信号の標準偏差を σ とすると、 αは式 (12)により表される。

[数 12]

[0037] 上記のように音声信号の振幅の絶対値の平均値は 0とみなせるので、標準偏差は音声信号のパワー Ρを用いて式（ 13)のように表される。

[数 13]

σ_χ =V ··· (1 3)

[0038] 式（12)および式（13)を用いると、式（10)は、式（14)のようになる。

[数 14]

H ( ） =丄(1+1(¾₂尸) ■·· (14) [0039] よって、 Lチャネル信号の一定区間毎のエントロピー Hは、 Lチャネル信号のパヮ

L

一を Pとすると、式（15)に従って求められる。

し

[数 15]

Hi =丄 (l + logz A ) (ビット/標本値） - - ( 1 5 ) [0040] 同様に、 Rチャネル信号の一定区間毎のエントロピー Ηは、 Rチャネル信号のパヮ

R

一を Pとすると、式（16)に従って求められる。

R

[数 16]

H (ビット/標本値） '.· （1 6 )

[0041] このようにして、指標算出部 111では、各チャネルの信号のエントロピー Η、 Η力 S

L R

求められ、これらのエントロピーが重み付け係数算出部 112に入力される。

[0042] なお、上記説明では、音声信号の分布は指数分布と仮定してエントロピーを求めた力実際の信号のサンプル Xと、その信号の発生頻度力算出される発生確率 ρ (χ ) とから、各チャネルの信号のエントロピー Η、 Ηを算出することも可能である。

L R

[0043] そして、重み付け係数算出部 112では、エントロピー Η、 Ηを実施の形態 1におい

L R

て示した指標 I、1として用いて、重み付け係数 W、Wを式（17)および（18)に従つ

L R L R

て算出する。これらの重み付け係数 W、 Wは、乗算部 113に入力される。

L R

[数 17]

W_L = "^L … （1 7 )

H H_R

[数 18]

W_R = "^R - ( 1 8 )

[0044] このように、本実施の形態では、エントロピーを音声情報量 (ビット数)を表す指標として用い、各チャネルの信号にエントロピーに応じた重み付けを行うことにより、音声情報量が多いチャネルの信号が強調された、めり張りあるモノラル信号を生成することがでさる。

[0045] (実施の形態 3) 本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号の

SZN比を用いる場合について説明する。この場合、指標算出部 111は以下のようにして SZN比を算出し、重み付け係数算出部 112は以下のようして重み付け係数を算出する。

[0046] 本実施の形態で用いる SZN比は、入力信号において、主となる信号 Sとそれ以外の信号 Nとの比である。例えば、入力信号が音声信号の場合は、主となる音声信号 S と背景の周囲雑音信号 Nとの比である。具体的には、式（19)によって求められる、入力音声信号の平均パワー (入力音声信号のフレーム単位のパワーを時間的に平均ィ匕したもの) Pと非音声区間 (雑音のみの区間)での雑音信号の平均パワー (非音声

S

区間のフレーム単位のパワーを時間的に平均化したもの） pとの比を逐次計算'更

E

新することで SZN比とする。また、受聴者にとっては、一般に雑音信号 Nよりも音声信号 Sの方が必要な情報であることが多いため、 SZN比を指標として用いることで受聴者が必要な情報が強調されたモノラル信号を生成することができる。そこで、本実施の形態では、 SZN比を音声情報量の度合いを表す指標として用いる。

[数 19]

S/N = 101og₁₀ … (19)

" E

[0047] 式（19)より、 Lチャネル信号の SZN比（SZN) は、 Lチャネル信号の音声信号の

し

平均パワー（P ) と、 Lチャネル信号の雑音信号の平均パワー（P ) とから、式（20)

S し E し

によって表される。

[数 20]

(S/N)_L =\0\og_w … (20)

Λ E) _L

[0048] 同様に、 Rチャネル信号の SZN比（SZN) は、 Rチャネル信号の音声信号の平

R

均パワー (P ) と、 Rチャネル信号の雑音信号の平均パワー (P ) とから、式 (21)に

S R E R

よって表される。

[数 21]

(S/N)_ft =10Iog₁₀¾^ … （21) [0049] ただし、 (S/N) 、 (S/N) が負となる場合は、負となる SZN比を、予め定めた正

L R

の下限値に置き換える。

[0050] このようにして、指標算出部 111では、各チャネルの信号の SZN比（SZN) 、 (S し

ZN) が求められ、これらの SZN比が重み付け係数算出部 112に入力される。

R

[0051] そして、重み付け係数算出部 112では、 SZN比（SZN) 、 (S/N) を実施の形

L R

態 1において示した指標 I、 Iとして用いて、重み付け係数 W、 Wを式（22)および (

L R L R

23)に従って算出する。これらの重み付け係数 W、 Wは、乗算部 113に入力される

[数 22]

(S / N),

( 2 2 )

^L (S / N)_{L +} (S / N)_R

[数 23]

( 2 3 )

^R (S / N)_{L +} (S / N)_R

[0052] なお、重み付け係数は以下のようにして求めてもよい。すなわち、式（20)、 (21)に示す log領域での SZN比の代わりに、 logをとらな、SZN比を用いて重み付け係数を求めてもよい。また、式（22)、（23)を用いて重み付け係数を算出する代わりに、 S ZN比が大き、ほど重み付け係数が大きくなるような、 SZN比と重み付け係数との対応関係を示すテーブルを予め用意しておき、 SZN比に基づいてそのテーブルを参照して重み付け係数を求めてもょ、。

[0053] このように、本実施の形態では、 SZN比を音声情報量を表す指標として用い、各チャネルの信号に SZN比に応じた重み付けを行うことにより、音声情報量が多いチャネルの信号が強調された、めり張りあるモノラル信号を生成することができる。

[0054] なお、音声情報量の度合いを表す指標としては、他に、音声波形の規則性 (不規則性が大きいほど音声情報量が多いことに基づく）や、スペクトラム包絡の時間的変化量 (変化量が大き、ほど音声情報量が多、ことに基づく）等を用いることも可能でめる。

[0055] なお、上記各実施の形態に係る音声符号化装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可會である。

[0056] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

[0057] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを含むように 1チップィ匕されてもょ、。

[0058] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0059] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラブル'プロセッサーを利用してもよい。

[0060] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行ってもよい。バイオ技術の適応等が可能性としてありえる。

[0061] 本明糸田書 ίま、 2005年 1月 26曰出願の特願 2005— 018150に基づくものである。

この内容はすべてここに含めておく。

産業上の利用可能性

[0062] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。

Claims

請求の範囲

[1] ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け手段と、

重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手段と、

前記モノラル信号を符号化する符号化手段と、

を具備する音声符号化装置。

[2] 前記重み付け手段は、各チャネルの信号のエントロピーを前記音声情報量として用いて前記重み付け係数を算出する、

請求項 1記載の音声符号化装置。

[3] 前記重み付け手段は、各チャネルの信号の SZN比を前記音声情報量として用いて前記重み付け係数を算出する、

請求項 1記載の音声符号化装置。

[4] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。

[5] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。

[6] ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け工程と、

重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成ェ程と、

前記モノラル信号を符号化する符号化工程と、

を具備する音声符号化方法。