WO2006080358A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006080358A1
WO2006080358A1 PCT/JP2006/301154 JP2006301154W WO2006080358A1 WO 2006080358 A1 WO2006080358 A1 WO 2006080358A1 JP 2006301154 W JP2006301154 W JP 2006301154W WO 2006080358 A1 WO2006080358 A1 WO 2006080358A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
monaural
weighting
monaural signal
Prior art date
Application number
PCT/JP2006/301154
Other languages
English (en)
French (fr)
Inventor
Michiyo Goto
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2007500549A priority Critical patent/JPWO2006080358A1/ja
Priority to US11/814,833 priority patent/US20090055169A1/en
Priority to EP06712349A priority patent/EP1852689A1/en
Priority to BRPI0607303-4A priority patent/BRPI0607303A2/pt
Publication of WO2006080358A1 publication Critical patent/WO2006080358A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and more particularly to a speech coding apparatus and speech coding method that generate and encode a monaural signal from a stereo speech input signal.
  • a voice coding scheme having a scalable configuration is desired in order to control traffic on the network and realize multicast communication.
  • a scalable configuration is a configuration in which audio data can be decoded even from partial encoded data on the receiving side.
  • a stereo input signal power monaural signal is generated.
  • a method for generating a monaural signal for example, there is a method in which a signal of each channel of a stereo signal is simply averaged to obtain a monaural signal (see Non-Patent Document 1).
  • a monophonic signal is generated by simply averaging the signals of each channel of a stereo signal as it is, a monaural signal that is hard to hear, particularly with voice, may be generated.
  • An object of the present invention is to provide a speech coding apparatus capable of generating an appropriate monaural signal that is rich in clarity and intelligibility when generating a mono signal with a stereo signal power, and It is to provide a speech encoding method.
  • the speech coding apparatus includes a weighting unit that weights the signal of each channel by a weighting coefficient corresponding to the amount of speech information of the signal of each channel of the stereo signal, and the weighted signal of each channel.
  • a configuration is provided that includes generation means for generating a monaural signal on average and encoding means for encoding the monaural signal.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a weighting unit according to Embodiment 1 of the present invention.
  • FIG. 3 shows an example of a waveform of an L channel signal according to Embodiment 1 of the present invention.
  • FIG. 4 shows an example of a waveform of an R channel signal according to Embodiment 1 of the present invention.
  • FIG. 1 shows the configuration of the speech coding apparatus according to the present embodiment.
  • Speech code shown in Figure 1 The encoding device 10 includes a weighting unit 11, a monaural signal generation unit 12, a monaural signal encoding unit 13, a monaural signal decoding unit 14, a differential signal generation unit 15, and a stereo signal encoding unit 16.
  • the signal X is input to the weighting unit 11 and the differential signal generation unit 15.
  • the weighting unit 11 weights each of the L channel signal X and the R channel signal X.
  • the weighted L channel signal X and R channel signal X are input to the monaural signal generator 12.
  • the monaural signal generation unit 12 averages the L channel signal X and the R channel signal X to obtain a mono signal.
  • This monaural signal X is input to the monaural signal code key 13.
  • the monaural signal encoding unit 13 encodes the monaural signal X and encodes the monaural signal X.
  • the monaural signal encoding parameter is multiplexed with the stereo signal code parameter output from the stereo signal code unit 16 and transmitted to the speech decoding apparatus.
  • the monaural signal encoding parameter is input to the monaural signal decoding unit 14.
  • the monaural signal decoding unit 14 decodes the monaural signal code key parameter to obtain a monaural signal. This monaural signal is input to the differential signal generator 15.
  • the difference signal generation unit 15 includes a difference signal ⁇ between the L channel signal X and the monaural signal, and
  • a difference signal ⁇ between the R channel signal X and the monaural signal is generated.
  • ⁇ and ⁇ are input to the stereo signal encoding unit 16.
  • the stereo signal encoding unit 16 is configured to calculate the difference signal ⁇ of the L channel and the difference of the R channel.
  • the signal ⁇ is encoded and the difference signal sign key parameter (stereo signal sign key
  • the weighting unit 11 includes an index calculation unit 111, a weighting coefficient calculation unit 112, and a multiplication unit 113.
  • the L channel signal X and the R channel signal X of the stereo audio signal are used as an index calculation unit 11 1 and the multiplication unit 113 are input.
  • the index calculation unit 111 is an index I representing the degree of audio information amount of the signals X and X of each channel.
  • I is calculated for each fixed section (for example, for each frame, for each of a plurality of frames, etc.).
  • the index I of the channel signal and the index I of the R channel signal indicate values in the same time interval
  • Weighting coefficient calculating section 112 calculates a weighting coefficient for each channel signal of the stereo signal based on indices I and 1.
  • the weighting coefficient calculation unit 112 calculates a weighting coefficient for each channel signal of the stereo signal based on indices I and 1.
  • the weighting factor W for each interval is calculated according to equations (1) and (2). In addition, constant here
  • the index calculation unit 111 uses index I, 1
  • Multiplying section 113 multiplies the amplitude of the signal of each channel of the stereo signal by a weighting coefficient. As a result, the signal of each channel of the stereo signal is weighted by the weighting coefficient corresponding to the amount of audio information of the signal of each channel. Specifically, the i-th sample in the fixed interval of the L channel signal is X (i), and the i-th sample of the R channel signal is X (i).
  • the i th sample No. X (i) of the R channel signal obtained is obtained according to equations (3) and (4).
  • the weighted signals X and X of each channel are input to the monaural signal generator 12.
  • the monaural signal generation unit 12 expresses the i-th sample X (i) of the monaural signal as an equation.
  • the monaural signal encoding unit 13 encodes the monaural signal X (i) and decodes the monaural signal.
  • the unit 14 decodes the monaural signal encoding parameter to obtain a monaural signal.
  • the differential signal generation unit 15 sets the i-th sample of the L channel signal to X (i), the i-th sample of the R channel signal to X (i), and the i-th sample of the monaural signal to X (i ) L
  • the differential signal ⁇ X (i) of the i-th sample of the channel signal and the differential signal ⁇ X (i) of the i-th sample of the R channel signal are obtained according to equations (6) and (7).
  • AX R (i) X R (i)-X MW (.i)... (7)
  • each sign is performed.
  • a differential signal encoding method for example, a method suitable for encoding a voice differential signal such as a differential PCM code key is used.
  • the L channel signal is composed of a voice signal
  • the R channel signal is composed of a silence (only DC component).
  • the L channel signal gives more information to the listener on the receiving side than the R channel signal, which is silent (DC component only). Therefore, if the signal of each channel is simply averaged to generate a monaural signal as in the past, the monaural signal becomes a signal with the amplitude of the L channel signal halved, and the clarity and comprehension are poor. It is thought that it becomes a signal.
  • the signal power monaural signal of each channel weighted by the weighting coefficient corresponding to the index indicating the degree of audio information amount of the signal of each channel is generated. It is considered that the greater the amount of audio information, the higher the clarity and comprehension when the monaural signal is decoded and reproduced on the monaural signal receiving side. Therefore, by generating a monaural signal as in the present embodiment, an appropriate monaural signal that is rich in clarity and comprehension can be generated.
  • the code information having a monaural-stereo's scalable configuration is performed on the basis of the monaural signal generated in this way, so that the degree V of the audio information amount is large.
  • the power of the differential signal between the channel signal and monaural signal is smaller than when the average value of the signal of each channel is set to a monaural signal (that is, the channel signal and monaural signal with a large amount of audio information) As a result, the code distortion for the signal of the channel can be reduced.
  • the amount of audio information is small!
  • the power of the difference signal between the signal of the other channel and the monaural signal is larger than when the average value of the signal of each channel is set to a monaural signal, but between each channel,
  • the channel code distortion can be biased, and the signal distortion of a channel signal with a large amount of audio information can be further reduced. Therefore, it is possible to reduce the audible distortion as the whole stereo signal decoded on the receiving side.
  • the index calculation unit 111 calculates entropy as follows
  • the weighting coefficient calculation unit 112 calculates weighting coefficients as follows. Note that the stereo signal to be encoded is actually a sampled discrete value, but even if it is treated as a continuous value, it has the same properties, so in the following description, it will be described as a continuous value.
  • Equation (8) entropy H (X) for the signal of each channel according to Equation (8).
  • entropy H (X) is obtained by using the fact that speech signals can be approximated by the exponential distribution (Laplace distribution) shown in Eq. (9).
  • is defined by equation (12) described later.
  • Equation 10 the entropy H (X) obtained by Equation (10) indicates the number of bits necessary to express one sample value, and can be used as an index representing the degree of audio information.
  • Equation (10) the average value of the absolute value of the amplitude of the audio signal is regarded as 0, as shown in Equation (11).
  • Expression (10) becomes Expression (14).
  • the entropy H for each fixed section of the L channel signal is the power of the L channel signal.
  • the index calculation unit 111 performs entropy ⁇ , repulsive force S of the signal of each channel.
  • the entropy is calculated assuming that the distribution of the audio signal is an exponential distribution. From the sample X of the actual signal and the frequency of occurrence of the signal, the occurrence probability ⁇ ( ⁇ ) is calculated. It is also possible to calculate the entropy ⁇ and ⁇ of the signal of each channel.
  • weighting factors W and W are used according to equations (17) and (18)
  • entropy is used as an index representing the amount of audio information (number of bits), and the amount of audio information is large by weighting the signal of each channel according to the entropy. It is possible to generate a monophonic signal that emphasizes the channel signal.
  • the index calculation unit 111 calculates the SZN ratio as follows, and the weighting coefficient calculation unit 112 calculates the weighting coefficient as follows.
  • the SZN ratio used in the present embodiment is the ratio between the main signal S and the other signal N in the input signal.
  • the input signal is an audio signal
  • it is the ratio between the main audio signal S and the background ambient noise signal N.
  • the average power of the input voice signal average power of the input voice signal in terms of time
  • P and non-speech section obtained by Equation (19)
  • Average power of noise signal non-speech
  • the average of the power of the frame unit of the section in time is calculated.
  • the SZN ratio will be achieved by renewing.
  • the audio signal S is generally more necessary information for the listener than the noise signal N
  • the SZN ratio (SZN) of the R channel signal is the average of the audio signal of the R channel signal.
  • the index calculation unit 111 performs the SZN ratio (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN), (SZN)
  • the weighting coefficient calculation unit 112 calculates the SZN ratio (SZN) and (S / N) in the form of implementation.
  • the weighting coefficient may be obtained as follows. That is, instead of the SZN ratio in the log region shown in equations (20) and (21), the weighting coefficient may be obtained using the SZN ratio without taking log. In addition, instead of calculating the weighting coefficient using Equations (22) and (23), a table indicating the correspondence relationship between the SZN ratio and the weighting coefficient, in which the weighting coefficient increases as the SZN ratio increases, is stored in advance. Prepare the weighting factor by referring to the table based on the SZN ratio.
  • the SZN ratio is used as an index representing the amount of audio information, and the signal of each channel having a large amount of audio information is obtained by weighting the signal of each channel according to the SZN ratio. It is possible to generate a monophonic signal that is emphasized.
  • the regularity of the audio waveform (based on the fact that the greater the irregularity, the more audio information amount) and the temporal change of the spectrum envelope It is also possible to use an amount (based on the fact that the greater the change amount, the greater the amount of audio information).
  • the speech coding apparatus is mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus or a wireless communication base station apparatus used in a mobile communication system. It is also possible to do.
  • Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip to include some or all of them.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. You may use an FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the present invention can be applied to the use of a communication device in a mobile communication system, a packet communication system using the Internet protocol, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

 ステレオ信号からモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号化装置。この装置では、重み付け部(11)は、Lチャネル信号XLおよびRチャネル信号XRそれぞれに重み付けを行って、重み付けしたLチャネル信号XLWおよびRチャネル信号XRWをモノラル信号生成部(12)に入力し、モノラル信号生成部(12)は、Lチャネル信号XLWとRチャネル信号XRWを平均してモノラル信号XMWを生成してモノラル信号符号化部(13)に入力し、モノラル信号符号化部(13)は、モノラル信号XMWを符号化してモノラル信号XMWの符号化パラメータ(モノラル信号符号化パラメータ)を出力する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオの音声 入力信号からモノラル信号を生成して符号化する音声符号化装置および音声符号 化方法に関する。
背景技術
[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴 1、、音声 通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレ ビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、 多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したま ま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。そ の場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるよう な、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声 による音声通信を実現するためには、ステレオ音声の符号ィ匕が必須となる。
[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック 制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕 が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも 音声データの復号が可能な構成を 、う。
[0004] よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、モノラ ル信号の復号とを受信側にぉ 、て選択可能な、モノラル ステレオ間でのスケーラ ブル構成 (モノラル—ステレオ.スケーラブル構成)を有する符号化が望まれる。
[0005] このような、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕においては 、ステレオの入力信号力 モノラル信号を生成する。モノラル信号の生成方法として は、例えば、ステレオ信号の各チャネルの信号を単純に平均してモノラル信号を得る ものがある (非特許文献 1参照)。
特干文献 1 : ISO/IEC 14496-3, Information Tecnnology -し omng of audio-visual objects - Part 3: Audio , subpart— 4, 4.B.14 Scalable AAC with core coder, pp.304— 305, Sep. 2000.
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、単にステレオ信号の各チャネルの信号をそのまま平均してモノラル信 号を生成すると、特に音声では、めり張りのない聞き難いモノラル信号となってしまう ことがある。
[0007] 本発明の目的は、ステレオ信号力もモノラル信号を生成する際に、明瞭性や了解 性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号ィ匕装 置および音声符号化方法を提供することである。
課題を解決するための手段
[0008] 本発明の音声符号化装置は、ステレオ信号の各チャネルの信号の音声情報量に 応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け手段と、 重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手段 と、前記モノラル信号を符号化する符号化手段と、を具備する構成を採る。
発明の効果
[0009] 本発明によれば、ステレオ信号カゝらモノラル信号を生成する際に、明瞭性や了解性 に富んだ、めり張りある適切なモノラル信号を生成することができる。
図面の簡単な説明
[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 2]本発明の実施の形態 1に係る重み付け部の構成を示すブロック図
[図 3]本発明の実施の形態 1に係る Lチャネル信号の波形例
[図 4]本発明の実施の形態 1に係る Rチャネル信号の波形例
発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0012] (実施の形態 1)
本実施の形態に係る音声符号化装置の構成を図 1に示す。図 1に示す音声符号 化装置 10は、重み付け部 11、モノラル信号生成部 12、モノラル信号符号ィ匕部 13、 モノラル信号復号部 14、差分信号生成部 15、および、ステレオ信号符号化部 16を 備える。
[0013] ステレオ音声信号の Lチャネル(左チャネル)信号 Xおよび Rチャネル(右チャネル
L
)信号 Xは、重み付け部 11および差分信号生成部 15に入力される。
R
[0014] 重み付け部 11は、 Lチャネル信号 Xおよび Rチャネル信号 Xそれぞれに重み付け
L R
を行う。重み付けの具体的な方法については後述する。重み付けされた Lチャネル 信号 X および Rチャネル信号 X は、モノラル信号生成部 12に入力される。
LW RW
[0015] モノラル信号生成部 12は、 Lチャネル信号 X と Rチャネル信号 X を平均してモノ
LW RW
ラル信号 X を生成する。このモノラル信号 X は、モノラル信号符号ィ匕部 13に入
MW MW
力される。
[0016] モノラル信号符号ィ匕部 13は、モノラル信号 X を符号化し、モノラル信号 X の符
MW MW
号化パラメータ (モノラル信号符号ィ匕パラメータ)を出力する。このモノラル信号符号 化パラメータは、ステレオ信号符号ィ匕部 16から出力されるステレオ信号符号ィ匕パラメ ータと多重されて音声復号装置へ伝送される。また、モノラル信号符号化パラメータ は、モノラル信号復号部 14に入力される。
[0017] モノラル信号復号部 14は、モノラル信号符号ィ匕パラメータを復号してモノラル信号 を得る。このモノラル信号は、差分信号生成部 15に入力される。
[0018] 差分信号生成部 15は、 Lチャネル信号 Xとモノラル信号との差分信号 ΔΧおよび
し し
Rチャネル信号 Xとモノラル信号との差分信号 ΔΧを生成する。これらの差分信号
R R
ΔΧ 、 ΔΧは、ステレオ信号符号ィ匕部 16に入力される。
L R
[0019] ステレオ信号符号ィ匕部 16は、 Lチャネルの差分信号 ΔΧおよび Rチャネルの差分
信号 ΔΧを符号化し、こられの差分信号の符号ィ匕パラメータ (ステレオ信号符号ィ匕
R
パラメータ)を出力する。
[0020] 次いで、重み付け部 11の詳細について図 2を用いて説明する。この図に示すように 、重み付け部 11は、指標算出部 111、重み付け係数算出部 112、および、乗算部 1 13を備える。
[0021] ステレオ音声信号の Lチャネル信号 Xおよび Rチャネル信号 Xは、指標算出部 11 1および乗算部 113に入力される。
[0022] 指標算出部 111は、各チャネルの信号 X、 Xの音声情報量の度合いを表す指標 I
L R
、 Iを一定区間毎 (例えば、各フレーム毎、複数のフレーム毎等)に算出する。 Lチヤ
L R
ネル信号の指標 Iと Rチャネル信号の指標 Iは時間的に同じ区間における値を示す
L R
ものとする。これらの指標 I、 Iは、重み付け係数算出部 112に入力される。なお、具
L R
体的な指標 I、1については、後の実施の形態において説明する。
L R
[0023] 重み付け係数算出部 112は、ステレオ信号の各チャネルの信号に対する重み付け 係数を指標 I、1に基づいて算出する。重み付け係数算出部 112は、 Lチャネル信
L R
号 Xに対する一定区間毎の重み付け係数 W、 Rチャネル信号 Xに対する一定区
L L R
間毎の重み付け係数 Wを、式(1)および(2)に従って算出する。なお、ここでの一定
R
区間は、指標算出部 111が指標 I、1
L Rを算出した際の一定区間と同一である。これら の重み付け係数 W、Wは、乗算部 113に入力される。
L R
[数 1] wL =— L … ( 1 )
[数 2]
^ =7^ + … (2 )
[0024] 乗算部 113は、ステレオ信号の各チャネルの信号の振幅に、重み付け係数を乗算 する。これにより、ステレオ信号の各チャネルの信号は、各チャネルの信号の音声情 報量に応じた重み付け係数により重み付けされる。具体的には、 Lチャネル信号の一 定区間内の i番目のサンプルを X (i)、 Rチャネル信号の i番目のサンプルを X (i)と
L R
すると、重み付けされた Lチャネル信号の i番目のサンプル X (i)および重み付けさ
LW
れた Rチャネル信号の i番目のサンプノレ X (i)は、式(3)および(4)に従って求めら
RW
れる。重み付けされた各チャネルの信号 X 、X は、モノラル信号生成部 12に入力
LW RW
される。
[数 3]
Xlw( = WL * XL (i) … ( 3 ) 画
XRW (i) - WR - XR (i) … (4 )
[0025] そして、図 1に示すモノラル信号生成部 12は、重み付けされた Lチャネル信号 X
LW
と重み付けされた Rチャネル信号 X の平均値を算出し、その平均値をモノラル信号
RW
X とする。モノラル信号生成部 12は、モノラル信号の i番目のサンプル X (i)を式
MW MW
(5)に従って生成する。
[数 5]
[0026] モノラル信号符号ィ匕部 13は、モノラル信号 X (i)を符号化し、モノラル信号復号
MW
部 14は、モノラル信号符号化パラメータを復号してモノラル信号を得る。
[0027] 差分信号生成部 15は、 Lチャネル信号の i番目のサンプルを X (i)、 Rチャネル信 号の i番目のサンプルを X (i)、モノラル信号の i番目のサンプルを X (i)とすると、 L
R MW
チャネル信号の i番目のサンプルの差分信号 Δ X (i)、および、 Rチャネル信号の i番 目のサンプルの差分信号 Δ X (i)を式 (6)および(7)に従って求める。
R
[数 6]
^ ( = ^ ( - ^ ( … (6 )
[数 7]
AXR(i) = XR(i) - XMW(.i) … (7 )
[0028] そして、ステレオ信号符号ィ匕部 16において、差分信号 Δ Χ (i)および Δ Χ (i)に対
L R
して各々符号ィ匕を行う。差分信号の符号化方法は、例えば差分 PCM符号ィ匕等、音 声差分信号を符号ィ匕するのに適した方法を用いる。
[0029] ここで、例えば、図 3に示すように Lチャネル信号は音声信号力 成り、図 4に示すよ うに Rチャネル信号は無音 (DC成分のみ)カゝら成る場合は、音声信号から成る Lチヤ ネル信号の方が無音 (DC成分のみ)力 成る Rチャネル信号よりも多くの情報を受信 側の受聴者に与える。よって、従来のように、単に各チャネルの信号をそのまま平均 してモノラル信号を生成すると、そのモノラル信号は、 Lチャネル信号の振幅を 2分の 1にした信号となり、明瞭性や了解性に乏しい信号になってしまうと考えられる。 [0030] これに対し、本実施の形態では、各チャネルの信号の音声情報量の度合!、を示す 指標に応じた重み付け係数により重み付けした各チャネルの信号力 モノラル信号 を生成する。音声情報量が多いほど、モノラル信号の受信側でモノラル信号を復号' 再生した際の明瞭性や了解性が高まるものと考えられる。よって、本実施の形態のよ うにしてモノラル信号を生成することにより、明瞭性や了解性に富んだ、めり張りある 適切なモノラル信号を生成することができる。
[0031] また、本実施の形態では、このようにして生成したモノラル信号に基づ 、てモノラル —ステレオ'スケーラブル構成を有する符号ィ匕を行っているため、音声情報量の度合 V、の大き 、チャネルの信号とモノラル信号との差分信号のパワー力 各チャネルの信 号の平均値をモノラル信号とする場合よりも小さくなり(すなわち、音声情報量の度合 いの大きいチャネルの信号とモノラル信号との類似性が高くなり)、その結果、そのチ ャネルの信号に対する符号ィ匕歪みを低減することができる。音声情報量の度合 、の 小さ!/、他のチャネルの信号とモノラル信号との差分信号のパワーは、各チャネルの 信号の平均値をモノラル信号とする場合よりも大きくなるものの、チャネル間において 各チャネルの符号ィ匕歪みに偏りをもたせることができ、音声情報量の多いチャネルの 信号の符号ィ匕歪みをより小さくすることができる。よって、受信側で復号されるステレ ォ信号全体としての聴感的歪み感を小さくすることができる。
[0032] (実施の形態 2)
本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号の エントロピーを用いる場合について説明する。この場合、指標算出部 111は以下のよ うにしてエントロピーを算出し、重み付け係数算出部 112は以下のようして重み付け 係数を算出する。なお、符号化されるステレオ信号は実際には標本化された離散値 であるが、連続値として扱っても同様の性質を有するので、以下の説明においては 連続値として説明する。
[0033] 確率密度関数 p (x)をもつ連続標本値 Xのエントロピ一は式 (8)により定義される。
[数 8]
H( ) = - /p(x)log2 p{x)dx (ビット/標本値) … (8 ) [0034] 指標算出部 111は、式 (8)に従って、各チャネルの信号に対してエントロピー H(X )を求める。ここでは、一般的に音声信号が式 (9)に示す指数分布 (ラプラス分布)で 近似できることを利用してエントロピー H(X)を求める。なお、 αは後述の式(12)によ り定義される。
[数 9]
p(x) =—· e'"lxl ■■■ (9)
[0035] 式(9)を用いることで、式 (8)に示すエントロピー H (X)は式(10)により算出される。
つまり、式(10)により求められるエントロピー H(X)は、 1標本値を表現するのに必要 なビット数を示すため、音声情報量の度合いを表す指標として用いることができる。な お、式(10)においては、式(11)に示すように、音声信号の振幅の絶対値の平均値 を 0とみなしている。
[数 10]
H( ) = l-log2a (ビット/標本値) ·'· (1 0)
[数 11]
jT p(x |ώ = 0 ·" ( 1 1 )
[0036] ところで、指数分布の場合、音声信号の標準偏差を σ とすると、 αは式 (12)により 表される。
[数 12]
Figure imgf000009_0001
[0037] 上記のように音声信号の振幅の絶対値の平均値は 0とみなせるので、標準偏差は 音声信号のパワー Ρを用いて式( 13)のように表される。
[数 13]
σχ =V ··· (1 3)
[0038] 式(12)および式(13)を用いると、式(10)は、式(14)のようになる。
[数 14]
H ( ) =丄(1+1(¾2尸) ■·· (14) [0039] よって、 Lチャネル信号の一定区間毎のエントロピー Hは、 Lチャネル信号のパヮ
L
一を Pとすると、式(15)に従って求められる。
[数 15]
Hi =丄 (l + logz A ) (ビット/標本値) - - ( 1 5 ) [0040] 同様に、 Rチャネル信号の一定区間毎のエントロピー Ηは、 Rチャネル信号のパヮ
R
一を Pとすると、式(16)に従って求められる。
R
[数 16]
H (ビット/標本値) '.· (1 6 )
Figure imgf000010_0001
[0041] このようにして、指標算出部 111では、各チャネルの信号のエントロピー Η、 Η力 S
L R
求められ、これらのエントロピーが重み付け係数算出部 112に入力される。
[0042] なお、上記説明では、音声信号の分布は指数分布と仮定してエントロピーを求めた 力 実際の信号のサンプル Xと、その信号の発生頻度力 算出される発生確率 ρ (χ ) とから、各チャネルの信号のエントロピー Η、 Ηを算出することも可能である。
L R
[0043] そして、重み付け係数算出部 112では、エントロピー Η、 Ηを実施の形態 1におい
L R
て示した指標 I、1として用いて、重み付け係数 W、Wを式(17)および(18)に従つ
L R L R
て算出する。これらの重み付け係数 W、 Wは、乗算部 113に入力される。
L R
[数 17]
WL = "L … (1 7 )
H HR
[数 18]
WR = "R - ( 1 8 )
[0044] このように、本実施の形態では、エントロピーを音声情報量 (ビット数)を表す指標と して用い、各チャネルの信号にエントロピーに応じた重み付けを行うことにより、音声 情報量が多いチャネルの信号が強調された、めり張りあるモノラル信号を生成するこ とがでさる。
[0045] (実施の形態 3) 本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号の
SZN比を用いる場合について説明する。この場合、指標算出部 111は以下のように して SZN比を算出し、重み付け係数算出部 112は以下のようして重み付け係数を 算出する。
[0046] 本実施の形態で用いる SZN比は、入力信号において、主となる信号 Sとそれ以外 の信号 Nとの比である。例えば、入力信号が音声信号の場合は、主となる音声信号 S と背景の周囲雑音信号 Nとの比である。具体的には、式(19)によって求められる、入 力音声信号の平均パワー (入力音声信号のフレーム単位のパワーを時間的に平均 ィ匕したもの) Pと非音声区間 (雑音のみの区間)での雑音信号の平均パワー (非音声
S
区間のフレーム単位のパワーを時間的に平均化したもの) pとの比を逐次計算'更
E
新することで SZN比とする。また、受聴者にとっては、一般に雑音信号 Nよりも音声 信号 Sの方が必要な情報であることが多いため、 SZN比を指標として用いることで受 聴者が必要な情報が強調されたモノラル信号を生成することができる。そこで、本実 施の形態では、 SZN比を音声情報量の度合いを表す指標として用いる。
[数 19]
S/N = 101og10 … (19)
" E
[0047] 式(19)より、 Lチャネル信号の SZN比(SZN) は、 Lチャネル信号の音声信号の
平均パワー(P ) と、 Lチャネル信号の雑音信号の平均パワー(P ) とから、式(20)
S し E し
によって表される。
[数 20]
(S/N)L =\0\ogw … (20)
Λ E) L
[0048] 同様に、 Rチャネル信号の SZN比(SZN) は、 Rチャネル信号の音声信号の平
R
均パワー (P ) と、 Rチャネル信号の雑音信号の平均パワー (P ) とから、式 (21)に
S R E R
よって表される。
[数 21]
(S/N)ft =10Iog10¾^ … (21) [0049] ただし、 (S/N) 、 (S/N) が負となる場合は、負となる SZN比を、予め定めた正
L R
の下限値に置き換える。
[0050] このようにして、指標算出部 111では、各チャネルの信号の SZN比(SZN) 、 (S し
ZN) が求められ、これらの SZN比が重み付け係数算出部 112に入力される。
R
[0051] そして、重み付け係数算出部 112では、 SZN比(SZN) 、 (S/N) を実施の形
L R
態 1において示した指標 I、 Iとして用いて、重み付け係数 W、 Wを式(22)および (
L R L R
23)に従って算出する。これらの重み付け係数 W、 Wは、乗算部 113に入力される
[数 22]
(S / N),
( 2 2 )
L (S / N)L + (S / N)R
[数 23]
( 2 3 )
R (S / N)L + (S / N)R
[0052] なお、重み付け係数は以下のようにして求めてもよい。すなわち、式(20)、 (21)に 示す log領域での SZN比の代わりに、 logをとらな 、SZN比を用いて重み付け係数 を求めてもよい。また、式(22)、(23)を用いて重み付け係数を算出する代わりに、 S ZN比が大き 、ほど重み付け係数が大きくなるような、 SZN比と重み付け係数との 対応関係を示すテーブルを予め用意しておき、 SZN比に基づいてそのテーブルを 参照して重み付け係数を求めてもょ 、。
[0053] このように、本実施の形態では、 SZN比を音声情報量を表す指標として用い、各 チャネルの信号に SZN比に応じた重み付けを行うことにより、音声情報量が多いチ ャネルの信号が強調された、めり張りあるモノラル信号を生成することができる。
[0054] なお、音声情報量の度合いを表す指標としては、他に、音声波形の規則性 (不規 則性が大きいほど音声情報量が多いことに基づく)や、スペクトラム包絡の時間的変 化量 (変化量が大き 、ほど音声情報量が多 、ことに基づく)等を用いることも可能で める。
[0055] なお、上記各実施の形態に係る音声符号化装置を、移動体通信システムにおいて 使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載 することも可會である。
[0056] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説 明したが、本発明はソフトウェアで実現することも可能である。
[0057] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを 含むように 1チップィ匕されてもょ 、。
[0058] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0059] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもよい。
[0060] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0061] 本明糸田書 ίま、 2005年 1月 26曰出願の特願 2005— 018150に基づくものである。
この内容はすべてここに含めておく。
産業上の利用可能性
[0062] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記 各チャネルの信号を重み付けする重み付け手段と、
重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手 段と、
前記モノラル信号を符号化する符号化手段と、
を具備する音声符号化装置。
[2] 前記重み付け手段は、各チャネルの信号のエントロピーを前記音声情報量として 用いて前記重み付け係数を算出する、
請求項 1記載の音声符号化装置。
[3] 前記重み付け手段は、各チャネルの信号の SZN比を前記音声情報量として用い て前記重み付け係数を算出する、
請求項 1記載の音声符号化装置。
[4] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。
[5] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。
[6] ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記 各チャネルの信号を重み付けする重み付け工程と、
重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成ェ 程と、
前記モノラル信号を符号化する符号化工程と、
を具備する音声符号化方法。
PCT/JP2006/301154 2005-01-26 2006-01-25 音声符号化装置および音声符号化方法 WO2006080358A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007500549A JPWO2006080358A1 (ja) 2005-01-26 2006-01-25 音声符号化装置および音声符号化方法
US11/814,833 US20090055169A1 (en) 2005-01-26 2006-01-25 Voice encoding device, and voice encoding method
EP06712349A EP1852689A1 (en) 2005-01-26 2006-01-25 Voice encoding device, and voice encoding method
BRPI0607303-4A BRPI0607303A2 (pt) 2005-01-26 2006-01-25 dispositivo de codificação de voz e método de codificar voz

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-018150 2005-01-26
JP2005018150 2005-01-26

Publications (1)

Publication Number Publication Date
WO2006080358A1 true WO2006080358A1 (ja) 2006-08-03

Family

ID=36740388

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/301154 WO2006080358A1 (ja) 2005-01-26 2006-01-25 音声符号化装置および音声符号化方法

Country Status (6)

Country Link
US (1) US20090055169A1 (ja)
EP (1) EP1852689A1 (ja)
JP (1) JPWO2006080358A1 (ja)
CN (1) CN101107505A (ja)
BR (1) BRPI0607303A2 (ja)
WO (1) WO2006080358A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414341B1 (ko) * 2007-03-02 2014-07-22 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치 및 부호화 방법
WO2008108083A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置および音声符号化方法
ES2404408T3 (es) * 2007-03-02 2013-05-27 Panasonic Corporation Dispositivo de codificación y método de codificación
ATE547786T1 (de) 2007-03-30 2012-03-15 Panasonic Corp Codierungseinrichtung und codierungsverfahren
US20120072207A1 (en) * 2009-06-02 2012-03-22 Panasonic Corporation Down-mixing device, encoder, and method therefor
KR101791444B1 (ko) * 2010-11-29 2017-10-30 뉘앙스 커뮤니케이션즈, 인코포레이티드 동적 마이크로폰 신호 믹서
US9161149B2 (en) * 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
WO2015065362A1 (en) 2013-10-30 2015-05-07 Nuance Communications, Inc Methods and apparatus for selective microphone signal combining
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP7038921B2 (ja) * 2019-01-11 2022-03-18 ブームクラウド 360 インコーポレイテッド サウンドステージを保全するオーディオチャネルの加算

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06319200A (ja) * 1993-05-10 1994-11-15 Fujitsu General Ltd ステレオ用バランス調整装置
JP2000354300A (ja) * 1999-06-11 2000-12-19 Accuphase Laboratory Inc マルチチャンネルオーディオ再生装置
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2003516555A (ja) * 1999-12-08 2003-05-13 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響信号の処理方法と装置
JP2003330497A (ja) * 2002-05-15 2003-11-19 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177432B2 (en) * 2001-05-07 2007-02-13 Harman International Industries, Incorporated Sound processing system with degraded signal optimization
US20080162148A1 (en) * 2004-12-28 2008-07-03 Matsushita Electric Industrial Co., Ltd. Scalable Encoding Apparatus And Scalable Encoding Method
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06319200A (ja) * 1993-05-10 1994-11-15 Fujitsu General Ltd ステレオ用バランス調整装置
JP2000354300A (ja) * 1999-06-11 2000-12-19 Accuphase Laboratory Inc マルチチャンネルオーディオ再生装置
JP2003516555A (ja) * 1999-12-08 2003-05-13 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響信号の処理方法と装置
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2003330497A (ja) * 2002-05-15 2003-11-19 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
US9053701B2 (en) 2009-02-26 2015-06-09 Panasonic Intellectual Property Corporation Of America Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method

Also Published As

Publication number Publication date
CN101107505A (zh) 2008-01-16
US20090055169A1 (en) 2009-02-26
JPWO2006080358A1 (ja) 2008-06-19
BRPI0607303A2 (pt) 2009-08-25
EP1852689A1 (en) 2007-11-07

Similar Documents

Publication Publication Date Title
WO2006080358A1 (ja) 音声符号化装置および音声符号化方法
US8139775B2 (en) Concept for combining multiple parametrically coded audio sources
US9460729B2 (en) Layered approach to spatial audio coding
JP4832305B2 (ja) ステレオ信号生成装置およびステレオ信号生成方法
EP2109861B1 (en) Audio decoder
WO2006070757A1 (ja) 音声符号化装置および音声符号化方法
US7904292B2 (en) Scalable encoding device, scalable decoding device, and method thereof
JP5301471B2 (ja) 音声符号化システム及び方法
US20080004866A1 (en) Artificial Bandwidth Expansion Method For A Multichannel Signal
WO2012066727A1 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
WO2006118178A1 (ja) 音声符号化装置および音声符号化方法
TW200833157A (en) Method, system, apparatus and computer program product for stereo coding
WO2006035705A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US20110019829A1 (en) Stereo signal converter, stereo signal reverse converter, and methods for both
US10242683B2 (en) Optimized mixing of audio streams encoded by sub-band encoding
Taleb et al. G. 719: The first ITU-T standard for high-quality conversational fullband audio coding
Ito et al. A Study on Effect of IP Performance Degradation on Horizontal Sound Localization in a VoIP Phone Service with 3D Sound Effects
Lee et al. Performance comparison of audio codecs for high-quality color ring-back-tone services over CDMA
Series Low delay audio coding for broadcasting applications
Brandenburg Why we still need perceptual codecs
Trainor et al. Providing an Immersive Gaming Experience Using Wireless Low-Latency Coded Audio Streaming

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007500549

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11814833

Country of ref document: US

Ref document number: 200680003287.7

Country of ref document: CN

Ref document number: 2006712349

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2006712349

Country of ref document: EP

ENP Entry into the national phase

Ref document number: PI0607303

Country of ref document: BR

Kind code of ref document: A2