KR20070092240A

KR20070092240A - 음성 부호화 장치 및 음성 부호화 방법

Info

Publication number: KR20070092240A
Application number: KR1020077014562A
Authority: KR
Inventors: 고지 요시다; 미치요 고토
Original assignee: 마츠시타 덴끼 산교 가부시키가이샤
Priority date: 2004-12-27
Filing date: 2005-12-26
Publication date: 2007-09-12
Also published as: WO2006070751A1; US7945447B2; CN101091208B; JPWO2006070751A1; EP1818911A4; JP5046652B2; EP1818911A1; US20080010072A1; EP1818911B1; BRPI0516376A; ATE545131T1; CN101091208A

Abstract

모노럴－스테레오ㆍ스케일러블 구성을 가지는 음성 부호화에 있어서, 스테레오 신호의 복수 채널 신호간의 상관이 작은 경우라 하더라도 효율적으로 스테레오 음성을 부호화할 수 있는 음성 부호화 장치. 이 장치의 코어 레이어 부호화부(110)에 있어서, 모노럴 신호 생성부(111)는, 제 1 ch 음성 신호 및 제 2 ch 음성 신호로부터 모노럴 신호를 생성하고, 모노럴 신호 부호화부(112)는, 모노럴 신호에 대한 부호화를 행하고, 모노럴 신호 복호부(113)는, 모노럴 신호의 부호화 데이터로부터 모노럴 복호 신호를 생성해 확장 레이어 부호화부(120)에 출력한다. 확장 레이어 부호화부(120)에 있어서, 제 1 ch 예측 신호 합성부(122)는, 모노럴 복호 신호와 제 1 ch 예측 필터 양자화 파라미터로부터 제 1 ch 예측 신호를 합성하고, 제 2 ch 예측 신호 합성부(126)는, 모노럴 복호 신호와 제 2 ch 예측 필터 양자화 파라미터로부터 제 2 ch 예측 신호를 합성한다.

Description

음성 부호화 장치 및 음성 부호화 방법{SOUND CODING DEVICE AND SOUND CODING METHOD}

본 발명은, 음성 부호화 장치 및 음성 부호화 방법에 관한 것으로서, 특히, 스테레오 음성을 위한 음성 부호화 장치 및 음성 부호화 방법에 관한 것이다.

이동체 통신이나 IP 통신에서의 전송 대역의 광대역화, 서비스의 다양화에 수반하여, 음성 통신에 있어서 고음질화(高音質化), 고현장감화(高現場感化)의 요구가 높아지고 있다. 예를 들면, 향후, 화상 전화 서비스에 있어서의 핸즈프리 형태로의 통화, TV 회의에 있어서의 음성 통신, 다지점에서 복수 화자(話者)가 동시에 회화를 행하는 등의 다지점 음성 통신, 현장감을 유지한 채 주위의 소리 환경을 전송할 수 있는 음성 통신 등의 수요가 증가할 것이라고 전망된다. 그런 경우, 모노럴(monoral) 신호보다 현장감이 있으며, 또 복수 화자의 발화(發話) 위치를 인식할 수 있는 등의, 스테레오(stereo) 음성에 의한 음성 통신을 실현하는 것이 기대된다. 이러한 스테레오 음성에 의한 음성 통신을 실현하기 위해서는, 스테레오 음성의 부호화가 필수이다.

또, IP 네트워크상에서의 음성 데이터 통신에 있어서, 네트워크상의 트래픽 제어나 멀티 캐스트 통신 실현을 위해, 스케일러블(scalable) 구성을 가지는 음성 부호화가 기대되고 있다. 스케일러블 구성이란, 수신측에서, 부분적인 부호화 데이터로부터도 음성 데이터를 복호할 수 있는 구성을 말한다.

따라서, 스테레오 음성을 부호화하여 전송할 경우에도, 스테레오 신호의 복호와, 부호화 데이터의 일부를 이용한 모노럴 신호의 복호를, 수신측에서 선택할 수 있는, 모노럴－스테레오간에서의 스케일러블 구성(모노럴－스테레오ㆍ스케일러블 구성)을 가지는 부호화가 기대된다.

이러한, 모노럴－스테레오ㆍ스케일러블 구성을 가지는 음성 부호화 방법으로서는, 예를 들면, 채널(이하, 적절하게 「ch」로 줄임)간의 신호 예측(제 1 ch 신호로부터 제 2 ch 신호를 예측, 또는, 제 2 ch 신호로부터 제 1 ch 신호를 예측)을, 채널 상호간의 피치 예측에 의해 행하는, 말하자면, 두 채널간의 상관을 이용해 부호화를 행하는 것이 있다(비특허문헌 1 참조).

(비특허문헌 1) Ramprashad, S.A., "Stereophonic CELP coding using cross channel prediction", Proc. IEEE Workshop on Speech Coding, pp.136∼138, Sep. 2000.

(발명이 해결하고자 하는 과제)

그렇지만, 상기 비특허문헌 1에 기재된 음성 부호화 방법에서는, 양쪽 채널간의 상관이 작을 경우에는, 채널간의 예측 성능(예측 게인)이 저하해 버려, 부호화 효율이 열화한다.

본 발명의 목적은, 모노럴－스테레오ㆍ스케일러블 구성을 가지는 음성 부호화에 있어서, 스테레오 신호의 복수 채널 신호간의 상관이 작은 경우라 하더라도 효율적으로 스테레오 음성을 부호화할 수 있는 음성 부호화 장치 및 음성 부호화 방법을 제공하는 것이다.

(과제를 해결하기 위한 수단)

본 발명의 음성 부호화 장치는, 코어 레이어의 모노럴 신호를 이용한 부호화를 행하는 제 1 부호화 수단과, 확장 레이어의 스테레오 신호를 이용한 부호화를 행하는 제 2 부호화 수단을 구비하고, 상기 제 1 부호화 수단은, 제 1 채널 신호 및 제 2 채널 신호를 포함한 스테레오 신호를 입력 신호로 하여, 상기 제 1 채널 신호 및 상기 제 2 채널 신호로부터 모노럴 신호를 생성하는 생성 수단을 구비하고, 상기 제 2 부호화 수단은, 상기 모노럴 신호로부터 얻어지는 신호를 기초로, 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 예측 신호를 합성하는 합성 수단을 구비하는 구성을 취한다.

(발명의 효과)

본 발명에 의하면, 스테레오 신호의 복수 채널 신호간의 상관이 작은 경우라 하더라도 효율적으로 스테레오 음성을 부호화할 수 있다.

도 1은 본 발명의 실시형태 1에 따른 음성 부호화 장치의 구성을 나타내는 블록도,

도 2는 본 발명의 실시형태 1에 따른 제 1 ch, 제 2 ch 예측 신호 합성부의 구성을 나타내는 블록도,

도 3은 본 발명의 실시형태 1에 따른 제 1 ch, 제 2 ch 예측 신호 합성부의 구성을 나타내는 블록도,

도 4는 본 발명의 실시형태 1에 따른 음성 복호 장치의 구성을 나타내는 블록도,

도 5는 본 발명의 실시형태 1에 따른 음성 부호화 장치의 동작 설명도,

도 6은 본 발명의 실시형태 1에 따른 음성 부호화 장치의 동작 설명도,

도 7은 본 발명의 실시형태 2에 따른 음성 부호화 장치의 구성을 나타내는 블록도,

도 8은 본 발명의 실시형태 2에 따른 음성 복호 장치의 구성을 나타내는 블록도,

도 9는 본 발명의 실시형태 3에 따른 음성 부호화 장치의 구성을 나타내는 블록도,

도 10은 본 발명의 실시형태 3에 따른 제 1 ch, 제 2 ch CELP 부호화부의 구성을 나타내는 블록도,

도 11은 본 발명의 실시형태 3에 따른 음성 복호 장치의 구성을 나타내는 블 록도,

도 12는 본 발명의 실시형태 3에 따른 제 1 ch, 제 2 ch CELP 복호부의 구성을 나타내는 블록도,

도 13은 본 발명의 실시형태 3에 따른 음성 부호화 장치의 동작 흐름도,

도 14는 본 발명의 실시형태 3에 따른 제 1 ch, 제 2 ch CELP 부호화부의 동작 흐름도,

도 15는 본 발명의 실시형태 3에 따른 음성 부호화 장치의 다른 구성을 나타내는 블록도,

도 16은 본 발명의 실시형태 3에 따른 제 1 ch, 제 2 ch CELP 부호화부의 다른 구성을 나타내는 블록도,

도 17은 본 발명의 실시형태 4에 따른 음성 부호화 장치의 구성을 나타내는 블록도,

도 18은 본 발명의 실시형태 4에 따른 제 1 ch, 제 2 ch CELP 부호화부의 구성을 나타내는 블록도이다.

이하, 모노럴－스테레오ㆍ스케일러블 구성을 가지는 음성 부호화에 관한 본 발명의 실시형태에 대해서, 첨부 도면을 참조해 상세하게 설명한다.

(실시형태 1)

본 실시형태에 따른 음성 부호화 장치의 구성을 도 1에 나타낸다. 도 1에 나타내는 음성 부호화 장치(100)는, 모노럴 신호를 위한 코어 레이어 부호화부(110)와 스테레오 신호를 위한 확장 레이어 부호화부(120)를 구비한다. 또한, 이하의 설명에서는, 프레임 단위로서의 동작을 전제로 하여 설명한다.

코어 레이어 부호화부(110)에 있어서, 모노럴 신호 생성부(111)는, 입력되는 제 1 ch 음성 신호 s_ch1(n), 제 2 ch 음성 신호 s_ch2(n)(단, n＝0∼NF－1； NF는 프레임 길이)으로부터, 수학식 1에 따라 모노럴 신호 s_mono(n)을 생성하여, 모노럴 신호 부호화부(112)에 출력한다.

모노럴 신호 부호화부(112)는, 모노럴 신호 s_mono(n)에 대한 부호화를 행하고, 이 모노럴 신호의 부호화 데이터를 모노럴 신호 복호부(113)에 출력한다. 또, 이 모노럴 신호의 부호화 데이터는, 확장 레이어 부호화부(120)로부터 출력되는 양자화 부호나 부호화 데이터와 다중되어 부호화 데이터로서 음성 복호 장치에 전송된다.

모노럴 신호 복호부(113)는, 모노럴 신호의 부호화 데이터로부터 모노럴 복호 신호를 생성하여 확장 레이어 부호화부(120)에 출력한다.

확장 레이어 부호화부(120)에 있어서, 제 1 ch 예측 필터 분석부(121)는, 제 1 ch 음성 신호 s_ch1(n)과 모노럴 복호 신호로부터 제 1 ch 예측 필터 파라미터를 구해 양자화하여, 제 1 ch 예측 필터 양자화 파라미터를 제 1 ch 예측 신호 합성부(122)에 출력한다. 또한, 제 1 ch 예측 필터 분석부(121)에 대한 입력으로서, 모노럴 복호 신호 대신에, 모노럴 신호 생성부(111)의 출력인 모노럴 신호 s_mono(n)을 이용해도 좋다. 또, 제 1 ch 예측 필터 분석부(121)는, 제 1 ch 예측 필터 양자화 파라미터를 부호화한 제 1 ch 예측 필터 양자화 부호를 출력한다. 이 제 1 ch 예측 필터 양자화 부호는 다른 부호화 데이터나 양자화 부호와 다중되어 부호화 데이터로서 음성 복호 장치에 전송된다.

제 1 ch 예측 신호 합성부(122)는, 모노럴 복호 신호와 제 1 ch 예측 필터 양자화 파라미터로부터 제 1 ch 예측 신호를 합성하고, 그 제 1 ch 예측 신호를 감산기(123)에 출력한다. 제 1 ch 예측 신호 합성부(122)의 상세한 것에 대해서는 후술한다.

감산기(123)는, 입력 신호인 제 1 ch 음성 신호와 제 1 ch 예측 신호의 차(差), 즉, 제 1 ch 입력 음성 신호에 대한 제 1 ch 예측 신호의 잔차(殘差) 성분 신호(제 1 ch 예측 잔차 신호)를 구하여, 제 1 ch 예측 잔차 신호 부호화부(124)에 출력한다.

제 1 ch 예측 잔차 신호 부호화부(124)는, 제 1 ch 예측 잔차 신호를 부호화하여 제 1 ch 예측 잔차 부호화 데이터를 출력한다. 이 제 1 ch 예측 잔차 부호화 데이터는 다른 부호화 데이터나 양자화 부호와 다중되어 부호화 데이터로서 음성 복호 장치에 전송된다.

한편, 제 2 ch 예측 필터 분석부(125)는, 제 2 ch 음성 신호 s_ch2(n)과 모 노럴 복호 신호로부터 제 2 ch 예측 필터 파라미터를 구해 양자화하여, 제 2 ch 예측 필터 양자화 파라미터를 제 2 ch 예측 신호 합성부(126)에 출력한다. 또, 제 2 ch 예측 필터 분석부(125)는, 제 2 ch 예측 필터 양자화 파라미터를 부호화한 제 2 ch 예측 필터 양자화 부호를 출력한다. 이 제 2 ch 예측 필터 양자화 부호는 다른 부호화 데이터나 양자화 부호와 다중되어 부호화 데이터로서 음성 복호 장치에 전송된다.

제 2 ch 예측 신호 합성부(126)는, 모노럴 복호 신호와 제 2 ch 예측 필터 양자화 파라미터로부터 제 2 ch 예측 신호를 합성하고, 그 제 2 ch 예측 신호를 감산기(127)에 출력한다. 제 2 ch 예측 신호 합성부(126)의 상세한 것에 대해서는 후술한다.

감산기(127)는, 입력 신호인 제 2 ch 음성 신호와 제 2 ch 예측 신호의 차(差), 즉, 제 2 ch 입력 음성 신호에 대한 제 2 ch 예측 신호의 잔차 성분 신호(제 2 ch 예측 잔차 신호)를 구하여, 제 2 ch 예측 잔차 신호 부호화부(128)에 출력한다.

제 2 ch 예측 잔차 신호 부호화부(128)는, 제 2 ch 예측 잔차 신호를 부호화하여 제 2 ch 예측 잔차 부호화 데이터를 출력한다. 이 제 2 ch 예측 잔차 부호화 데이터는 다른 부호화 데이터나 양자화 부호와 다중되어 부호화 데이터로서 음성 복호 장치에 전송된다.

이어서, 제 1 ch 예측 신호 합성부(122) 및 제 2 ch 예측 신호 합성부(126)의 상세한 것에 대해서 설명한다. 제 1 ch 예측 신호 합성부(122) 및 제 2 ch 예 측 신호 합성부(126)의 구성은 도 2 ＜구성예 1＞ 또는 도 3 ＜구성예 2＞에 표시한 바와 같다. 구성예 1 및 2의 양쪽 모두, 제 1 ch 입력 신호와 제 2 ch 입력 신호의 가산 신호인 모노럴 신호와, 각 채널 신호 사이의 상관성에 기초하여, 모노럴 신호에 대한 각 채널 신호의 지연차(D샘플) 및 진폭비(g)를 예측 필터 양자화 파라미터로서 이용하여, 모노럴 신호로부터 각 채널의 예측 신호를 합성한다.

＜구성예 1＞

구성예 1에서는, 도 2에 나타내는 바와 같이, 제 1 ch 예측 신호 합성부(122) 및 제 2 ch 예측 신호 합성부(126)는, 지연기(201) 및 곱셈기(202)를 구비하여, 수학식 2에서 표시되는 예측에 의해, 모노럴 복호 신호 sd_mono(n)으로부터, 각 채널의 예측 신호 sp_ch(n)을 합성한다.

＜구성예 2＞

구성예 2에서는, 도 3에 나타내는 바와 같이, 도 2에 나타내는 구성에, 지연기(203－1∼P), 곱셈기(204－1∼P) 및 가산기(205)를 더 구비한다. 그리고, 예측 필터 양자화 파라미터로서, 모노럴 신호에 대한 각 채널 신호의 지연차(D샘플) 및 진폭비(g) 외에, 예측 계수열｛a(0), a(1), a(2), …, a(P)｝(P는 예측 차수, a(0)＝1.0)을 이용하여, 수학식 3에서 표시되는 예측에 의해, 모노럴 복호 신호 sd_mono(n)으로부터, 각 채널의 예측 신호 sp_ch(n)을 합성한다.

이에 대해, 제 1 ch 예측 필터 분석부(121) 및 제 2 ch 예측 필터 분석부(125)는, 수학식 4에서 표시되는 왜곡, 즉, 각 채널의 입력 음성 신호 s_ch(n)(n＝0∼NF－1)과 상기 수학식 2 또는 3에 따라 예측되는 각 채널의 예측 신호 sp_ch(n)과의 왜곡 Dist를 최소로 하는 예측 필터 파라미터를 구해, 그 필터 파라미터를 양자화한 예측 필터 양자화 파라미터를, 상기 구성을 취하는 제 1 ch 예측 신호 합성부(122) 및 제 2 ch 예측 신호 합성부(126)에 출력한다. 또, 제 1 ch 예측 필터 분석부(121) 및 제 2 ch 예측 필터 분석부(125)는, 예측 필터 양자화 파라미터를 부호화한 예측 필터 양자화 부호를 출력한다.

또한, 구성예 1에 대해서는, 제 1 ch 예측 필터 분석부(121) 및 제 2 ch 예측 필터 분석부(125)는, 모노럴 복호 신호와 각 채널의 입력 음성 신호간의 상호 상관을 최대로 하는 지연차 D 및 프레임 단위의 평균 진폭비 g를 예측 필터 파라미터로 하여 구해도 괜찮다.

이어서, 본 실시형태에 따른 음성 복호 장치에 대해 설명한다. 본 실시형태에 따른 음성 복호 장치의 구성을 도 4에 나타낸다. 도 4에 나타내는 음성 복호 장치(300)는, 모노럴 신호를 위한 코어 레이어 복호부(310)와, 스테레오 신호를 위한 확장 레이어 복호부(320)를 구비한다.

모노럴 신호 복호부(311)는, 입력되는 모노럴 신호의 부호화 데이터를 복호하여, 모노럴 복호 신호를 확장 레이어 복호부(320)에 출력함과 동시에, 최종 출력으로서 출력한다.

제 1 ch 예측 필터 복호부(321)는, 입력되는 제 1 ch 예측 필터 양자화 부호를 복호하여, 제 1 ch 예측 필터 양자화 파라미터를 제 1 ch 예측 신호 합성부(322)에 출력한다.

제 1 ch 예측 신호 합성부(322)는, 음성 부호화 장치(100)의 제 1 ch 예측 신호 합성부(122)와 동일한 구성을 취하며, 모노럴 복호 신호와 제 1 ch 예측 필터 양자화 파라미터로부터 제 1 ch 음성 신호를 예측하고, 그 제 1 ch 예측 음성 신호를 가산기(324)에 출력한다.

제 1 ch 예측 잔차 신호 복호부(323)는, 입력되는 제 1 ch 예측 잔차 부호화 데이터를 복호하여, 제 1 ch 예측 잔차 신호를 가산기(324)에 출력한다.

가산기(324)는, 제 1 ch 예측 음성 신호와 제 1 ch 예측 잔차 신호를 가산해 제 1 ch의 복호 신호를 구하여, 최종 출력으로서 출력한다.

한편, 제 2 ch 예측 필터 복호부(325)는, 입력되는 제 2 ch 예측 필터 양자화 부호를 복호하여, 제 2 ch 예측 필터 양자화 파라미터를 제 2 ch 예측 신호 합성부(326)에 출력한다.

제 2 ch 예측 신호 합성부(326)는, 음성 부호화 장치(100)의 제 2 ch 예측 신호 합성부(126)와 동일한 구성을 취하며, 모노럴 복호 신호와 제 2 ch 예측 필터 양자화 파라미터로부터 제 2 ch 음성 신호를 예측하고, 그 제 2 ch 예측 음성 신호를 가산기(328)에 출력한다.

제 2 ch 예측 잔차 신호 복호부(327)는, 입력되는 제 2 ch 예측 잔차 부호화 데이터를 복호하여, 제 2 ch 예측 잔차 신호를 가산기(328)에 출력한다.

가산기(328)는, 제 2 ch 예측 음성 신호와 제 2 ch 예측 잔차 신호를 가산해 제 2 ch의 복호 신호를 구하여, 최종 출력으로서 출력한다.

이러한 구성을 취하는 음성 복호 장치(300)에서는, 모노럴－스테레오ㆍ스케일러블 구성에 있어서, 출력 음성을 모노럴로 할 경우는, 모노럴 신호의 부호화 데이터만으로부터 얻어지는 복호 신호를 모노럴 복호 신호로서 출력하고, 출력 음성을 스테레오로 할 경우는, 수신되는 부호화 데이터 및 양자화 부호 전부를 이용해 제 1 ch 복호 신호 및 제 2 ch 복호 신호를 복호해 출력한다.

여기서, 본 실시형태에 따른 모노럴 신호는, 도 5에 나타내는 바와 같이, 제 1 ch 음성 신호 s_ch1과 제 2 ch 음성 신호 s_ch2의 가산에 의해 얻어지는 신호이기 때문에, 양쪽 채널의 신호 성분을 포함한 중간적인 신호이다. 따라서, 제 1 ch 음성 신호와 제 2 ch 음성 신호의 채널간 상관이 작은 경우라 하더라도, 제 1 ch 음성 신호와 모노럴 신호의 상관 및 제 2 ch 음성 신호와 모노럴 신호의 상관은, 채널간 상관보다는 커질 것으로 예상된다. 따라서, 모노럴 신호로부터 제 1 ch 음성 신호를 예측할 경우의 예측 게인 및 모노럴 신호로부터 제 2 ch 음성 신호를 예측할 경우의 예측 게인(도 5 : 예측 게인 B)은, 제 1 ch 음성 신호로부터 제 2 ch 음성 신호를 예측할 경우의 예측 게인 및 제 2 ch 음성 신호로부터 제 1 ch 음성 신호를 예측할 경우의 예측 게인(도 5 : 예측 게인 A)보다 커질 것으로 예상된다.

그리고, 이 관계를 정리한 것이 도 6이다. 즉, 제 1 ch 음성 신호와 제 2 ch 음성 신호의 채널간 상관이 충분히 클 때는, 예측 게인 A 및 예측 게인 B는 그다지 다를 바 없이 양쪽 모두 충분히 큰 값이 얻어진다. 그러나, 제 1 ch 음성 신호와 제 2 ch 음성 신호의 채널간 상관이 작을 때는, 예측 게인 A는 채널간 상관이 충분히 큰 경우에 비해 급격하게 저하하는데 대해, 예측 게인 B는, 예측 게인 A보다 저하의 정도가 작아, 예측 게인 A보다 큰 값이 될 것으로 예상된다.

이와 같이, 본 실시형태에서는, 제 1 ch 음성 신호 및 제 2 ch 음성 신호 양쪽의 신호 성분을 포함한 중간적인 신호인 모노럴 신호로부터 각 채널의 신호를 예측해서 합성하기 때문에, 채널간 상관이 작은 복수 채널의 신호에 대해서도 종래보다 예측 게인이 큰 신호를 합성할 수 있다. 그 결과, 동등한 음질을, 보다 낮은 비트레이트(bit rate)의 부호화에 의해 얻을 수 있으며, 또 동등한 비트레이트로, 보다 높은 음질의 음성을 얻을 수 있다. 따라서, 본 실시형태에 의하면, 부호화 효율의 향상을 꾀할 수 있다.

(실시형태 2)

도 7에 본 실시형태에 따른 음성 부호화 장치(400)의 구성을 나타낸다. 도 7에 나타내는 바와 같이, 음성 부호화 장치(400)는, 도 1(실시형태 1)에 나타내는 구성에서 제 2 ch 예측 필터 분석부(125), 제 2 ch 예측 신호 합성부(126), 감산 기(127) 및 제 2 ch 예측 잔차 신호 부호화부(128)를 제외한 구성을 취한다. 즉, 음성 부호화 장치(400)는, 제 1 ch과 제 2 ch 중 제 1 ch에 대해서만 예측 신호를 합성하여, 모노럴 신호 부호화 데이터, 제 1 ch 예측 필터 양자화 부호 및 제 1 ch 예측 잔차 부호화 데이터만을 음성 복호 장치에 전송한다.

한편, 본 실시형태에 따른 음성 복호 장치(500)의 구성은 도 8에 나타내는 바와 같다. 도 8에 나타내는 바와 같이, 음성 복호 장치(500)는, 도 4(실시형태 1)에 나타내는 구성에서 제 2 ch 예측 필터 복호부(325), 제 2 ch 예측 신호 합성부(326), 제 2 ch 예측 잔차 신호 복호부(327) 및 가산기(328)를 제외하고, 대신에, 제 2 ch 복호 신호 합성부(331)를 추가한 구성을 취한다.

제 2 ch 복호 신호 합성부(331)는, 모노럴 복호 신호 sd_mono(n)과 제 1 ch 복호 신호 sd_ch1(n)을 이용하여, 수학식 1에 나타내는 관계를 기초로, 수학식 5에 따라 제 2 ch 복호 신호 sd_ch2(n)을 합성한다.

또한, 본 실시형태에서는 확장 레이어 부호화부(120)가 제 1 ch에 대해서만 처리하는 구성으로 했지만, 제 1 ch에 대신하여 제 2 ch에 대해서만 처리하는 구성으로 해도 좋다.

이와 같이, 본 실시형태에 의하면, 실시형태 1에 비해 장치 구성을 간단히 할 수 있다. 또, 제 1 ch 및 제 2 ch 중 한쪽 채널의 부호화 데이터만 전송하면 되므로, 한층 더 부호화 효율이 향상한다.

(실시형태 3)

도 9에 본 실시형태에 따른 음성 부호화 장치(600)의 구성을 나타낸다. 코어 레이어 부호화부(110)는, 모노럴 신호 생성부(111) 및 모노럴 신호 CELP 부호화부(114)를 구비하고, 확장 레이어 부호화부(120)는, 모노럴 구동 음원 신호 보유부(131), 제 1 ch CELP 부호화부(132) 및 제 2 ch CELP 부호화부(133)를 구비한다.

모노럴 신호 CELP 부호화부(114)는, 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)에 대해서 CELP 부호화를 행하고, 모노럴 신호 부호화 데이터, 및, CELP 부호화에 의해 얻어지는 모노럴 구동 음원 신호를 출력한다. 이 모노럴 구동 음원 신호는, 모노럴 구동 음원 신호 보유부(131)에 보유된다.

제 1 ch CELP 부호화부(132)는, 제 1 ch 음성 신호에 대해서 CELP 부호화를 행하여 제 1 ch 부호화 데이터를 출력한다. 또, 제 2 ch CELP 부호화부(133)는, 제 2 ch 음성 신호에 대해서 CELP 부호화를 행하여 제 2 ch 부호화 데이터를 출력한다. 제 1 ch CELP 부호화부(132) 및 제 2 ch CELP 부호화부(133)는, 모노럴 구동 음원 신호 보유부(131)에 보유된 모노럴 구동 음원 신호를 이용하여, 각 채널의 입력 음성 신호에 대응하는 구동 음원 신호의 예측, 및, 그 예측 잔차 성분에 대한 CELP 부호화를 행한다.

이어서, 제 1 ch CELP 부호화부(132) 및 제 2 ch CELP 부호화부(133)의 상세한 것에 대해서 설명한다. 제 1 ch CELP 부호화부(132) 및 제 2 ch CELP 부호화부(133)의 구성을 도 10에 나타낸다.

도 10에 있어서, 제 N ch(N은 1 또는 2) LPC 분석부(401)는, 제 N ch 음성 신호에 대한 LPC 분석을 행하여, 얻어진 LPC 파라미터를 양자화해 제 N ch LPC 예측 잔차 신호 생성부(402) 및 합성 필터(409)에 출력함과 동시에, 제 N ch LPC 양자화 부호를 출력한다. 제 N ch LPC 분석부(401)에서는, LPC 파라미터의 양자화시에, 모노럴 신호에 대한 LPC 파라미터와 제 N ch 음성 신호로부터 얻어지는 LPC 파라미터(제 N ch LPC 파라미터)의 상관이 큰 점을 이용하여, 모노럴 신호의 부호화 데이터로부터 모노럴 신호 양자화 LPC 파라미터를 복호하고, 그 모노럴 신호 양자화 LPC 파라미터에 대한 N ch LPC 파라미터의 차분 성분을 양자화함으로써 효율적인 양자화를 행한다.

제 N ch LPC 예측 잔차 신호 생성부(402)는, 제 N ch 양자화 LPC 파라미터를 이용하여, 제 N ch 음성 신호에 대한 LPC 예측 잔차 신호를 산출해 제 N ch 예측 필터 분석부(403)에 출력한다.

제 N ch 예측 필터 분석부(403)는, LPC 예측 잔차 신호 및 모노럴 구동 음원 신호로부터 제 N ch 예측 필터 파라미터를 구해 양자화하여, 제 N ch 예측 필터 양자화 파라미터를 제 N ch 구동 음원 신호 합성부(404)에 출력함과 동시에, 제 N ch 예측 필터 양자화 부호를 출력한다.

제 N ch 구동 음원 신호 합성부(404)는, 모노럴 구동 음원 신호 및 제 N ch 예측 필터 양자화 파라미터를 이용해, 제 N ch 음성 신호에 대응하는 예측 구동 음원 신호를 합성하여 곱셈기(407－1)에 출력한다.

여기서, 제 N ch 예측 필터 분석부(403)는, 실시형태 1(도 1)에 있어서의 제 1 ch 예측 필터 분석부(121) 및 제 2 ch 예측 필터 분석부(125)에 대응하며, 그들 의 구성 및 동작은 동일하다. 또, 제 N ch 구동 음원 신호 합성부(404)는, 실시형태 1(도 1∼3)에 있어서의 제 1 ch 예측 신호 합성부(122) 및 제 2 ch 예측 신호 합성부(126)에 대응하며, 그들의 구성 및 동작은 동일하다. 단, 본 실시형태에서는, 모노럴 복호 신호에 대한 예측을 행하여 각 채널의 예측 신호를 합성하는 것이 아니라, 모노럴 신호에 대응하는 모노럴 구동 음원 신호에 대한 예측을 행하여 각 채널의 예측 구동 음원 신호를 합성하는 점에 있어서 실시형태 1과 다르다. 그리고, 본 실시형태에서는, 그 예측 구동 음원 신호에 대한 잔차 성분(예측을 다 하지 못한 오차 성분)의 음원 신호를, CELP 부호화에 있어서의 음원 탐색에 의해 부호화한다.

즉, 제 1 ch 및 제 2 ch CELP 부호화부(132, 133)는, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)을 가지며, 적응 음원, 고정 음원, 및 모노럴 구동 음원 신호로부터 예측한 예측 구동 음원의 각 음원 신호에 그 각각의 게인을 곱하고 가산하여, 그 가산에 의해 얻어진 구동 음원에 대해 왜곡 최소화에 따른 폐루프형 음원 탐색을 행한다. 그리고, 적응 음원 인덱스, 고정 음원 인덱스, 적응 음원, 고정 음원 및 예측 구동 음원 신호에 대한 게인 부호를 제 N ch 음원 부호화 데이터로서 출력한다. 보다 구체적인 것은, 이하와 같이 된다.

합성 필터(409)는, 제 N ch LPC 분석부(401)로부터 출력되는 양자화 LPC 파라미터를 이용해, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)에서 생성된 음원 벡터, 및, 제 N ch 구동 음원 신호 합성부(404)에서 합성된 예측 구동 음원 신호를 구동 음원으로 하여 LPC 합성 필터에 의한 합성을 행한다. 이 결과 얻어지는 합성 신호 중 제 N ch의 예측 구동 음원 신호에 대응하는 성분은, 실시형태 1(도 1∼3)에 있어서 제 1 ch 예측 신호 합성부(122) 또는 제 2 ch 예측 신호 합성부(126)로부터 출력되는 각 채널의 예측 신호에 상당한다. 그리고, 이와 같이 하여 얻어진 합성 신호는, 감산기(410)에 출력된다.

감산기(410)는, 합성 필터(409)로부터 출력된 합성 신호를 제 N ch 음성 신호로부터 감산함으로써 오차 신호를 산출하고, 이 오차 신호를 청각 가중치 부여부(411)에 출력한다. 이 오차 신호가 부호화 왜곡에 상당한다.

청각 가중치 부여부(411)는, 감산기(410)로부터 출력된 부호화 왜곡에 대해서 청각적인 가중을 행하여, 왜곡 최소화부(412)에 출력한다.

왜곡 최소화부(412)는, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)에 대해서, 청각 가중치 부여부(411)로부터 출력되는 부호화 왜곡을 최소로 하는 인덱스를 결정하여, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)이 사용할 인덱스를 지시한다. 또, 왜곡 최소화부(412)는, 그러한 인덱스에 대응하는 게인, 구체적으로는, 제 N ch 적응 코드북(405)으로부터의 적응 벡터 및 제 N ch 고정 코드북(406)으로부터의 고정 벡터에 대한 각 게인(적응 코드북 게인 및 고정 코드북 게인)을 생성하여, 각각 곱셈기(407－2, 407－4)에 출력한다.

또, 왜곡 최소화부(412)는, 제 N ch 구동 음원 신호 합성부(404)로부터 출력된 예측 구동 음원 신호, 곱셈기(407－2)에서의 게인 곱셈 후의 적응 벡터 및 곱셈기(407－4)에서의 게인 곱셈 후의 고정 벡터의 3 종류의 신호간의 게인을 조정하는 각 게인을 생성하여, 각각 곱셈기(407－1, 407－3, 407－5)에 출력한다. 그러한 3 종류의 신호간의 게인을 조정하는 3 종류의 게인은, 바람직한 것은, 그러한 게인 값 사이에 상호 관계성을 갖도록 생성하는 것이 바람직하다. 예를 들면, 제 1 ch 음성 신호와 제 2 ch 음성 신호의 채널간 상관이 클 경우는, 예측 구동 음원 신호의 기여분(寄與分)이 게인 곱셈 후의 적응 벡터 및 게인 곱셈 후의 고정 벡터의 기여분에 대해서 상대적으로 커지도록, 반대로 채널간 상관이 작을 경우는, 예측 구동 음원 신호의 기여분이 게인 곱셈 후의 적응 벡터 및 게인 곱셈 후의 고정 벡터의 기여분에 대해서 상대적으로 작아지도록 한다.

또, 왜곡 최소화부(412)는, 그러한 인덱스, 그러한 인덱스에 대응하는 각 게인의 부호 및 신호간 조정용 게인의 부호를 제 N ch 음원 부호화 데이터로서 출력한다.

제 N ch 적응 코드북(405)은, 과거에 생성된 합성 필터(409)에 대한 구동 음원의 음원 벡터를 내부 버퍼에 기억하고 있으며, 왜곡 최소화부(412)로부터 지시된 인덱스에 대응하는 적응 코드북 래그(피치 래그, 또는, 피치 주기)에 기초하여, 이 기억되어 있는 음원 벡터로부터 1 서브 프레임분을 생성하여, 적응 코드북 벡터로서 곱셈기(407－2)에 출력한다.

제 N ch 고정 코드북(406)은, 왜곡 최소화부(412)로부터 지시된 인덱스에 대응하는 음원 벡터를, 고정 코드북 벡터로서 곱셈기(407－4)에 출력한다.

곱셈기(407－2)는, 제 N ch 적응 코드북(405)으로부터 출력된 적응 코드북 벡터에 적응 코드북 게인을 곱하여, 곱셈기(407－3)에 출력한다.

곱셈기(407－4)는, 제 N ch 고정 코드북(406)으로부터 출력된 고정 코드북 벡터에 고정 코드북 게인을 곱하여, 곱셈기(407－5)에 출력한다.

곱셈기(407－1)는, 제 N ch 구동 음원 신호 합성부(404)로부터 출력된 예측 구동 음원 신호에 게인을 곱하여, 가산기(408)에 출력한다. 곱셈기(407－3)는, 곱셈기(407－2)에서의 게인 곱셈 후의 적응 벡터에 다른 게인을 곱하여, 가산기(408)에 출력한다. 곱셈기(407－5)는, 곱셈기(407－4)에서의 게인 곱셈 후의 고정 벡터에 다른 게인을 곱하여, 가산기(408)에 출력한다.

가산기(408)는, 곱셈기(407－1)로부터 출력된 예측 구동 음원 신호와, 곱셈기(407－3)로부터 출력된 적응 코드북 벡터와, 곱셈기(407－5)로부터 출력된 고정 코드북 벡터를 가산하고, 가산 후의 음원 벡터를 구동 음원으로서 합성 필터(409)에 출력한다.

합성 필터(409)는, 가산기(408)로부터 출력되는 음원 벡터를 구동 음원으로 하여 LPC 합성 필터에 의한 합성을 행한다.

이와 같이, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)에서 생성된 음원 벡터를 이용해 부호화 왜곡이 구해지는 일련의 처리는 폐루프로 되어 있으며, 왜곡 최소화부(412)는, 이 부호화 왜곡이 최소가 되는, 제 N ch 적응 코드북(405) 및 제 N ch 고정 코드북(406)의 인덱스를 결정해서, 출력한다.

제 1 ch 및 제 2 ch CELP 부호화부(132, 133)는, 이와 같이 하여 얻어진 부호화 데이터(LPC 양자화 부호, 예측 필터 양자화 부호, 음원 부호화 데이터)를 제 N ch 부호화 데이터로서 출력한다.

이어서, 본 실시형태에 따른 음성 복호 장치에 대해 설명한다. 본 실시형태 에 따른 음성 복호 장치(700)의 구성을 도 11에 나타낸다. 도 11에 나타내는 음성 복호 장치(700)는, 모노럴 신호를 위한 코어 레이어 복호부(310)와, 스테레오 신호를 위한 확장 레이어 복호부(320)를 구비한다.

모노럴 CELP 복호부(312)는, 입력되는 모노럴 신호의 부호화 데이터를 CELP 복호하여, 모노럴 복호 신호, 및, CELP 복호에 의해 얻어지는 모노럴 구동 음원 신호를 출력한다. 이 모노럴 구동 음원 신호는, 모노럴 구동 음원 신호 보유부(341)에 보유된다.

제 1 ch CELP 복호부(342)는, 제 1 ch 부호화 데이터에 대해서 CELP 복호를 행하여 제 1 ch 복호 신호를 출력한다. 또, 제 2 ch CELP 복호부(343)는, 제 2 ch 부호화 데이터에 대해서 CELP 복호를 행하여 제 2 ch 복호 신호를 출력한다. 제 1 ch CELP 복호부(342) 및 제 2 ch CELP 복호부(343)는, 모노럴 구동 음원 신호 보유부(341)에 보유된 모노럴 구동 음원 신호를 이용하여, 각 채널의 부호화 데이터에 대응하는 구동 음원 신호의 예측 및 그 예측 잔차 성분에 대한 CELP 복호를 행한다.

이러한 구성을 취하는 음성 복호 장치(700)에서는, 모노럴－스테레오ㆍ스케일러블 구성에 있어서, 출력 음성을 모노럴로 할 경우는, 모노럴 신호의 부호화 데이터만으로부터 얻어지는 복호 신호를 모노럴 복호 신호로서 출력하고, 출력 음성을 스테레오로 할 경우는, 수신되는 부호화 데이터의 전부를 이용하여 제 1 ch 복호 신호 및 제 2 ch 복호 신호를 복호하여 출력한다.

이어서, 제 1 ch CELP 복호부(342) 및 제 2 ch CELP 복호부(343)의 상세한 것에 대하여 설명한다. 제 1 ch CELP 복호부(342) 및 제 2 ch CELP 복호부(343)의 구성을 도 12에 나타낸다. 제 1 ch 및 제 2 ch CELP 복호부(342, 343)는, 음성 부호화 장치(600)(도 9)로부터 전송된 모노럴 신호 부호화 데이터 및 제 N ch 부호화 데이터(N은 1 또는 2)로부터, 제 N ch LPC 양자화 파라미터의 복호, 제 N ch 구동 음원 신호의 예측 신호를 포함한 CELP 음원 신호의 복호를 행하여, 제 N ch 복호 신호를 출력한다. 보다 구체적으로는, 이하와 같이 된다.

제 N ch LPC 파라미터 복호부(501)는, 모노럴 신호 부호화 데이터를 이용해 복호된 모노럴 신호 양자화 LPC 파라미터와 제 N ch LPC 양자화 부호를 이용해 제 N ch LPC 양자화 파라미터의 복호를 행하여, 얻어진 양자화 LPC 파라미터를 합성 필터(508)에 출력한다.

제 N ch 예측 필터 복호부(502)는, 제 N ch 예측 필터 양자화 부호를 복호하여, 얻어진 제 N ch 예측 필터 양자화 파라미터를 제 N ch 구동 음원 신호 합성부(503)에 출력한다.

제 N ch 구동 음원 신호 합성부(503)는, 모노럴 구동 음원 신호 및 제 N ch 예측 필터 양자화 파라미터를 이용해, 제 N ch 음성 신호에 대응하는 예측 구동 음원 신호를 합성하여 곱셈기(506－1)에 출력한다.

합성 필터(508)는, 제 N ch LPC 파라미터 복호부(501)로부터 출력되는 양자화 LPC 파라미터를 이용해, 제 N ch 적응 코드북(504) 및 제 N ch 고정 코드북(505)에서 생성된 음원 벡터, 및, 제 N ch 구동 음원 신호 합성부(503)에서 합성된 예측 구동 음원 신호를 구동 음원으로 하여 LPC 합성 필터에 의한 합성을 행한 다. 얻어진 합성 신호는, 제 N ch 복호 신호로서 출력된다.

제 N ch 적응 코드북(504)은, 과거에 생성된 합성 필터(508)에 대한 구동 음원의 음원 벡터를 내부 버퍼에 기억하고 있으며, 제 N ch 음원 부호화 데이터에 포함되는 인덱스에 대응하는 적응 코드북 래그(피치 래그, 또는, 피치 주기)를 기초로, 이 기억되어 있는 음원 벡터로부터 1 서브 프레임분을 생성하여, 적응 코드북 벡터로서 곱셈기(506－2)에 출력한다.

제 N ch 고정 코드북(505)은, 제 N ch 음원 부호화 데이터에 포함되는 인덱스에 대응하는 음원 벡터를, 고정 코드북 벡터로서 곱셈기(506－4)에 출력한다.

곱셈기(506－2)는, 제 N ch 적응 코드북(504)으로부터 출력된 적응 코드북 벡터에 제 N ch 음원 부호화 데이터에 포함되는 적응 코드북 게인을 곱하여, 곱셈기(506－3)에 출력한다.

곱셈기(506－4)는, 제 N ch 고정 코드북(505)으로부터 출력된 고정 코드북 벡터에 제 N ch 음원 부호화 데이터에 포함되는 고정 코드북 게인을 곱하여, 곱셈기(506－5)에 출력한다.

곱셈기(506－1)는, 제 N ch 구동 음원 신호 합성부(503)로부터 출력된 예측 구동 음원 신호에, 제 N ch 음원 부호화 데이터에 포함되는, 예측 구동 음원 신호에 대한 조정용 게인을 곱하여, 가산기(507)에 출력한다.

곱셈기(506－3)는, 곱셈기(506－2)에서의 게인 곱셈 후의 적응 벡터에, 제 N ch 음원 부호화 데이터에 포함되는, 적응 벡터에 대한 조정용 게인을 곱하여, 가산기(507)에 출력한다.

곱셈기(506－5)는, 곱셈기(506－4)에서의 게인 곱셈 후의 고정 벡터에, 제 N ch 음원 부호화 데이터에 포함되는, 고정 벡터에 대한 조정용 게인을 곱하여, 가산기(507)에 출력한다.

가산기(507)는, 곱셈기(506－1)로부터 출력된 예측 구동 음원 신호와, 곱셈기(506－3)로부터 출력된 적응 코드북 벡터와, 곱셈기(506－5)로부터 출력된 고정 코드북 벡터를 가산하고, 가산 후의 음원 벡터를 구동 음원으로서 합성 필터(508)에 출력한다.

합성 필터(508)는, 가산기(507)로부터 출력되는 음원 벡터를 구동 음원으로 하여 LPC 합성 필터에 의한 합성을 행한다.

이상의 음성 부호화 장치(600)의 동작 흐름을 정리하면, 도 13에 나타내는 바와 같다. 즉, 제 1 ch 음성 신호와 제 2 ch 음성 신호로부터 모노럴 신호를 생성하고(ST1301), 모노럴 신호에 대해 코어 레이어의 CELP 부호화를 행하고(ST1302), 그 다음에, 제 1 ch의 CELP 부호화 및 제 2 ch의 CELP 부호화를 행한다(ST1303, 1304).

또, 제 1 ch, 제 2 ch CELP 부호화부(132, 133)의 동작 흐름을 정리하면, 도 14에 나타내는 바와 같다. 즉, 우선, 제 N ch의 LPC 분석과 LPC 파라미터의 양자화를 행하고(ST1401), 그 다음에, 제 N ch의 LPC 예측 잔차 신호를 생성한다(ST1402). 그 다음에, 제 N ch의 예측 필터의 분석을 행하고(ST1403), 제 N ch의 구동 음원 신호를 예측한다(ST1404). 그리고, 마지막으로, 제 N ch의 구동 음원 탐색과 게인 탐색을 행한다(ST1405).

또한, 제 1 ch, 제 2 ch CELP 부호화부(132, 133)에 있어서는, CELP 부호화에 있어서의 음원 탐색에 의한 음원 부호화에 앞서, 제 N ch 예측 필터 분석부(403)에 의해 예측 필터 파라미터를 구했었지만, 예측 필터 파라미터에 대한 코드북을 별도 준비하여, CELP 음원 탐색에 있어서, 적응 음원 탐색 등의 탐색과 함께, 왜곡 최소화에 따른 폐루프형 탐색에 의해 최적의 예측 필터 파라미터를 그 코드북을 기초로 구하는 등의 구성으로 해도 좋다. 또는, 제 N ch 예측 필터 분석부(403)에 있어서 예측 필터 파라미터의 후보를 복수 구해 두고, CELP 음원 탐색에 있어서의 왜곡 최소화에 따른 폐루프형 탐색에 의해, 그 복수의 후보 중에서 최적의 예측 필터 파라미터를 선택하는 등의 구성으로 해도 좋다. 이러한 구성을 취함으로써, 보다 최적한 필터 파라미터를 산출할 수 있어, 예측 성능의 향상(즉, 복호 음성 품질의 향상)을 꾀할 수 있다.

또, 제 1 ch, 제 2 ch CELP 부호화부(132, 133)에서의 CELP 부호화에 있어서의 음원 탐색에 의한 음원 부호화에 있어서, 제 N ch 음성 신호에 대응하는 예측 구동 음원 신호, 게인 곱셈 후의 적응 벡터 및 게인 곱셈 후의 고정 벡터의 3 종류의 신호간 게인을 조정하기 위한 각 게인을 각각의 신호에 곱하는 구성으로 했지만, 그러한 조정용 게인을 사용하지 않는 구성, 또는, 조정용 게인으로서 제 N ch 음성 신호에 대응하는 예측 구동 음원 신호에 대해서만 게인을 곱하는 구성으로 해도 좋다.

또, CELP 음원 탐색시에, 모노럴 신호의 CELP 부호화에서 얻어진 모노럴 신호 부호화 데이터를 이용하여, 그 모노럴 신호 부호화 데이터에 대한 차분 성분(보 정 성분)을 부호화하는 구성으로 해도 좋다. 예를 들면, 적응 음원 래그나 각 음원의 게인의 부호화시에, 모노럴 신호의 CELP 부호화에서 얻어지는 적응 음원 래그로부터의 차분값, 적응 음원 게인ㆍ고정 음원 게인에 대한 상대비(相對比) 등을 부호화 대상으로 하여 부호화한다. 이로 말미암아, 각 채널의 CELP 음원에 대한 부호화의 효율을 향상시킬 수 있다.

또, 음성 부호화 장치(600)(도 9)의 확장 레이어 부호화부(120)의 구성을, 실시형태 2(도 7)와 마찬가지로, 제 1 ch에 관한 구성으로만 해도 좋다. 즉, 확장 레이어 부호화부(120)에서는, 제 1 ch 음성 신호에 대해서만 모노럴 구동 음원 신호를 이용한 구동 음원 신호의 예측 및 예측 잔차 성분에 대한 CELP 부호화를 행한다. 이 경우, 음성 복호 장치(700)(도 11)의 확장 레이어 복호부(320)에서는, 실시형태 2(도 8)와 마찬가지로, 제 2 ch 신호의 복호를 행하기 위하여, 모노럴 복호 신호 sd_mono(n) 및 제 1 ch 복호 신호 sd_ch1(n)을 이용해, 수학식 1에 나타내는 관계를 기초로, 수학식 5에 따라 제 2 ch 복호 신호 sd_ch2(n)를 합성한다.

또, 제 1 ch, 제 2 ch CELP 부호화부(132, 133) 및 제 1 ch, 제 2 ch CELP 복호부(342, 343)에 있어서는, 음원 탐색에 있어서의 음원 구성으로서, 적응 음원 및 고정 음원 중, 어느쪽인가 한쪽만을 이용하는 구성으로 해도 좋다.

또, 제 N ch 예측 필터 분석부(403)에 있어서, 제 N ch 음성 신호를 LPC 예측 잔차 신호 대신에, 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)을 모노럴 구동 음원 신호 대신에 이용하여, 제 N ch 예측 필터 파라미터를 구하도록 해도 좋다. 이 경우의 음성 부호화 장치(750)의 구성을 도 15에, 제 1 ch CELP 부호화부(141) 및 제 2 ch CELP 부호화부(142)의 구성을 도 16에 나타낸다. 도 15에 나타내는 바와 같이, 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)이, 제 1 ch CELP 부호화부(141) 및 제 2 ch CELP 부호화부(142)에 입력된다. 그리고, 도 16에 나타내는 제 1 ch CELP 부호화부(141) 및 제 2 ch CELP 부호화부(142)의 제 N ch 예측 필터 분석부(403)에 있어서, 제 N ch 음성 신호 및 모노럴 신호 s_mono(n)을 이용하여, 제 N ch 예측 필터 파라미터를 구한다. 이러한 구성으로 함으로써, 제 N ch 양자화 LPC 파라미터를 이용해 제 N ch 음성 신호로부터 LPC 예측 잔차 신호를 산출하는 처리가 불필요하게 된다. 또, 모노럴 구동 음원 신호 대신에 모노럴 신호 s_mono(n)을 이용함으로써, 모노럴 구동 음원 신호를 이용할 경우보다 시간적으로 후(미래)의 신호를 이용해 제 N ch 예측 필터 파라미터를 구할 수 있다. 또한, 제 N ch 예측 필터 분석부(403)에서는, 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)을 이용하는 대신에, 모노럴 신호 CELP 부호화부(114)에서의 부호화로 얻어지는 모노럴 복호 신호를 이용하도록 해도 괜찮다.

또, 제 N ch 적응 코드북(405)의 내부 버퍼에, 합성 필터(409)에 대한 구동 음원의 음원 벡터 대신에, 곱셈기(407－3)에서의 게인 곱셈 후의 적응 벡터와 곱셈기(407－5)에서의 게인 곱셈 후의 고정 벡터만을 가산한 신호 벡터를 기억하도록 해도 좋다. 이 경우는, 복호측의 제 N ch 적응 코드북에서도 동일한 구성으로 할 필요가 있다.

또, 제 1 ch, 제 2 ch CELP 부호화부(132, 133)에서 행해지는 각 채널의 예 측 구동 음원 신호에 대한 잔차 성분의 음원 신호의 부호화에서는, CELP 부호화에 의한 시간 영역에서의 음원 탐색을 행하는 대신에, 잔차 성분의 음원 신호를 주파수 영역으로 변환하여, 주파수 영역에서의 잔차 성분 음원 신호의 부호화를 행하도록 해도 괜찮다.

이와 같이, 본 실시형태에 의하면, 음성 부호화에 적합한 CELP 부호화를 이용하기 때문에, 한층 더 효율적인 부호화를 행할 수 있다.

(실시형태 4)

도 17에 본 실시형태에 따른 음성 부호화 장치(800)의 구성을 나타낸다. 음성 부호화 장치(800)는, 코어 레이어 부호화부(110) 및 확장 레이어 부호화부(120)를 구비한다. 또한, 코어 레이어 부호화부(110)의 구성은 실시형태 1(도 1)과 동일하기 때문에 설명을 생략한다.

확장 레이어 부호화부(120)는, 모노럴 신호 LPC 분석부(134), 모노럴 LPC 잔차 신호 생성부(135), 제 1 ch CELP 부호화부(136) 및 제 2 ch CELP 부호화부(137)를 구비한다.

모노럴 신호 LPC 분석부(134)는, 모노럴 복호 신호에 대한 LPC 파라미터를 산출하고, 이 모노럴 신호 LPC 파라미터를 모노럴 LPC 잔차 신호 생성부(135), 제 1 ch CELP 부호화부(136) 및 제 2 ch CELP 부호화부(137)에 출력한다.

모노럴 LPC 잔차 신호 생성부(135)는, LPC 파라미터를 이용해, 모노럴 복호 신호에 대한 LPC 잔차 신호(모노럴 LPC 잔차 신호)를 생성하여, 제 1 ch CELP 부호 화부(136) 및 제 2 ch CELP 부호화부(137)에 출력한다.

제 1 ch CELP 부호화부(136) 및 제 2 ch CELP 부호화부(137)는, 모노럴 복호 신호에 대한 LPC 파라미터 및 LPC 잔차 신호를 이용해, 각 채널의 음성 신호에 대한 CELP 부호화를 행하여, 각 채널의 부호화 데이터를 출력한다.

이어서, 제 1 ch CELP 부호화부(136) 및 제 2 ch CELP 부호화부(137)의 상세한 것에 대해서 설명한다. 제 1 ch CELP 부호화부(136) 및 제 2 ch CELP 부호화부(137)의 구성을 도 18에 나타낸다. 또한, 도 18에 있어서 실시형태 3(도 10)과 동일한 구성에는 동일 부호를 붙이며, 설명을 생략한다.

제 N ch LPC 분석부(413)는, 제 N ch 음성 신호에 대한 LPC 분석을 행하여, 얻어진 LPC 파라미터를 양자화하여 제 N ch LPC 예측 잔차 신호 생성부(402) 및 합성 필터(409)에 출력함과 동시에, 제 N ch LPC 양자화 부호를 출력한다. 제 N ch LPC 분석부(413)에서는, LPC 파라미터의 양자화시에, 모노럴 신호에 대한 LPC 파라미터와 제 N ch 음성 신호로부터 얻어지는 LPC 파라미터(제 N ch LPC 파라미터)의 상관이 큰 점을 이용하여, 모노럴 신호 LPC 파라미터에 대한 N ch LPC 파라미터의 차분 성분을 양자화함으로써 효율적인 양자화를 행한다.

제 N ch 예측 필터 분석부(414)는, 제 N ch LPC 예측 잔차 신호 생성부(402)로부터 출력되는 LPC 예측 잔차 신호 및 모노럴 LPC 잔차 신호 생성부(135)로부터 출력되는 모노럴 LPC 잔차 신호로부터 제 N ch 예측 필터 파라미터를 구해 양자화하여, 제 N ch 예측 필터 양자화 파라미터를 제 N ch 구동 음원 신호 합성부(415)에 출력함과 동시에, 제 N ch 예측 필터 양자화 부호를 출력한다.

제 N ch 구동 음원 신호 합성부(415)는, 모노럴 LPC 잔차 신호 및 제 N ch 예측 필터 양자화 파라미터를 이용해, 제 N ch 음성 신호에 대응하는 예측 구동 음원 신호를 합성하여 곱셈기(407－1)에 출력한다.

또한, 음성 부호화 장치(800)에 대한 음성 복호 장치에서는, 음성 부호화 장치(800)와 동일하게 하여, 모노럴 복호 신호에 대한 LPC 파라미터 및 LPC 잔차 신호를 산출하여, 각 채널의 CELP 복호부에서의 각 채널의 구동 음원 신호의 합성에 이용한다.

또, 제 N ch 예측 필터 분석부(414)에 있어서, 제 N ch LPC 예측 잔차 신호 생성부(402)로부터 출력되는 LPC 예측 잔차 신호 및 모노럴 LPC 잔차 신호 생성부(135)로부터 출력되는 모노럴 LPC 잔차 신호 대신에, 제 N ch 음성 신호 및 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)을 이용하여, 제 N ch 예측 필터 파라미터를 구하도록 해도 괜찮다. 또, 모노럴 신호 생성부(111)에서 생성된 모노럴 신호 s_mono(n)을 이용하는 대신에, 모노럴 복호 신호를 이용하도록 해도 괜찮다.

이와 같이, 본 실시형태에 의하면, 모노럴 신호 LPC 분석부(134) 및 모노럴 LPC 잔차 신호 생성부(135)를 구비하기 때문에, 코어 레이어에 있어서 임의의 부호화 방식으로 모노럴 신호가 부호화되는 경우라 하더라도, 확장 레이어에 있어서 CELP 부호화를 이용할 수 있다.

또한, 상기 각 실시형태에 따른 음성 부호화 장치, 음성 복호 장치를, 이동 통신 시스템에 있어서 사용되는 무선 통신 이동국 장치나 무선 통신 기지국 장치 등의 무선 통신 장치에 탑재하는 것도 가능하다.

또, 상기 각 실시형태에서는, 본 발명을 하드웨어로 구성하는 경우를 예로 들어 설명했지만, 본 발명은 소프트웨어로 실현하는 것도 가능하다.

또, 상기 각 실시형태의 설명에 이용한 각 기능 블록은, 전형적으로는 집적 회로인 LSI로서 실현된다. 이들은 개별적으로 1칩화 되어도 좋고, 일부 또는 모두를 포함하도록 1칩화 되어도 좋다.

여기에서는, LSI라고 했지만, 집적도의 차이에 따라, IC, 시스템 LSI, 슈퍼 LSI, 울트라 LSI라고 호칭되는 일도 있다.

또, 집적 회로화의 수법은 LSI에 한하는 것은 아니며, 전용 회로 또는 범용 프로세서로 실현되어도 괜찮다. LSI 제조 후에, 프로그램하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속이나 설정을 재구성 가능한 리컨피규러블ㆍ프로세서를 이용해도 좋다.

또, 반도체 기술의 진보 또는 파생하는 별개의 기술에 의해 LSI에 대체되는 집적 회로화의 기술이 등장하면, 당연히 그 기술을 이용하여 기능 블록의 집적화를 행하여도 좋다. 바이오 기술의 적응 등이 가능성으로서 있을 수 있다.

본 명세서는, 2004년 12월 27일에 출원한 특허 출원 제 2004－377965호 및 2005년 8월 18일에 출원한 특허 출원 제 2005－237716호에 기초하고 있는 것이다. 이들의 내용은 모두 여기에 포함시켜 놓는다.

본 발명은, 이동 통신 시스템이나 인터넷 프로토콜을 이용한 패킷 통신 시스템 등에 있어서의 통신 장치의 용도에 적용할 수 있다.

Claims

코어 레이어의 모노럴 신호를 이용한 부호화를 행하는 제 1 부호화 수단과,

확장 레이어의 스테레오 신호를 이용한 부호화를 행하는 제 2 부호화 수단을 구비하고,

상기 제 1 부호화 수단은, 제 1 채널 신호 및 제 2 채널 신호를 포함한 스테레오 신호를 입력 신호로 하여, 상기 제 1 채널 신호 및 상기 제 2 채널 신호로부터 모노럴 신호를 생성하는 생성 수단을 구비하고,

상기 제 2 부호화 수단은, 상기 모노럴 신호로부터 얻어지는 신호를 기초로, 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 예측 신호를 합성하는 합성 수단을 구비하는 음성 부호화 장치.
제 1 항에 있어서,

상기 합성 수단은, 상기 모노럴 신호에 대한 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 지연차 및 진폭비를 이용해, 상기 예측 신호를 합성하는 음성 부호화 장치.
제 1 항에 있어서,

상기 제 2 부호화 수단은, 상기 예측 신호와 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 잔차 신호를 부호화하는 음성 부호화 장치.
제 1 항에 있어서,

상기 합성 수단은, 상기 모노럴 신호를 CELP 부호화하여 얻어지는 모노럴 구동 음원 신호를 기초로, 상기 예측 신호를 합성하는 음성 부호화 장치.
제 4 항에 있어서,

상기 제 2 부호화 수단은, 상기 제 1 채널 신호 또는 상기 제 2 채널 신호로부터 제 1 채널 LPC 잔차 신호 또는 제 2 채널 LPC 잔차 신호를 산출하는 산출 수단을 더 구비하고,

상기 합성 수단은, 상기 모노럴 구동 음원 신호에 대한 상기 제 1 채널 LPC 잔차 신호 또는 상기 제 2 채널 LPC 잔차 신호의 지연차 및 진폭비를 이용해, 상기 예측 신호를 합성하는 음성 부호화 장치.
제 5 항에 있어서,

상기 합성 수단은, 상기 모노럴 구동 음원 신호와, 상기 제 1 채널 LPC 잔차 신호 또는 상기 제 2 채널 LPC 잔차 신호로부터 산출되는 상기 지연차 및 상기 진폭비를 이용해, 상기 예측 신호를 합성하는 음성 부호화 장치.
제 4 항에 있어서,

상기 합성 수단은, 상기 모노럴 신호에 대한 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 지연차 및 진폭비를 이용해, 상기 예측 신호를 합성하는 음성 부호화 장치.
제 7 항에 있어서,

상기 합성 수단은, 상기 모노럴 신호와, 상기 제 1 채널 신호 또는 상기 제 2 채널 신호로부터 산출되는 상기 지연차 및 상기 진폭비를 이용해, 상기 예측 신호를 합성하는 음성 부호화 장치.
청구항 1에 기재된 음성 부호화 장치를 구비하는 무선 통신 이동국 장치.
청구항 1에 기재된 음성 부호화 장치를 구비하는 무선 통신 기지국 장치.
코어 레이어에 있어서 모노럴 신호를 이용한 부호화를 행하고, 확장 레이어에 있어서 스테레오 신호를 이용한 부호화를 행하는 음성 부호화 방법으로서,

상기 코어 레이어에 있어서, 제 1 채널 신호 및 제 2 채널 신호를 포함한 스테레오 신호를 입력 신호로 하여, 상기 제 1 채널 신호 및 상기 제 2 채널 신호로부터 모노럴 신호를 생성하는 생성 공정을 구비하고,

상기 확장 레이어에 있어서, 상기 모노럴 신호로부터 얻어지는 신호를 기초로, 상기 제 1 채널 신호 또는 상기 제 2 채널 신호의 예측 신호를 합성하는 합성 공정을 구비하는 음성 부호화 방법.