KR20120000055A

KR20120000055A - 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법

Info

Publication number: KR20120000055A
Application number: KR1020117021171A
Authority: KR
Inventors: 도시유키 모리이; 히로유키 에하라
Original assignee: 파나소닉 주식회사
Priority date: 2009-03-13
Filing date: 2010-03-12
Publication date: 2012-01-03
Also published as: WO2010103854A3; EP2407964A2; US20110320193A1; WO2010103854A2; JPWO2010103854A1

Abstract

각 레이어의 코어 부호화기 및 코어 복호기를 교체했을 경우에도, 확장 부호화기에 있어서 부호화를 가능하게 할 수 있음과 아울러, 때마다 적절한 코덱을 사용함으로써, 정밀도 높은 부호화를 행할 수 있는 음성 부호화 장치. 이 음성 부호화 장치(100)는, 하위층의 레이어 정보를 상위층에서 사용해 음성 신호를 계층적으로 부호화한다. 또, 이 음성 부호화 장치(100)에서는, 코어 부호화기(102)는, 음성 신호를 부호화하여 부호를 생성한다. 코어 복호기(104)는, 코어 부호화기(102) 에서 생성된 부호를 복호하여 복호 신호를 생성한다. 가산부(106)는, 음성 신호와 코어 복호기(104)에서 생성된 복호 신호의 부호화 잔차를 검출한다. 보조 분석부(107)는, 복호 신호가 입력되면 분석 처리 및 수정 처리를 행하여, 하위층의 레이어 정보를 생성한다. 확장 부호화기(108)는, 음성 신호와 하위층의 레이어 정보를 이용해 부호화 잔차를 부호화한다.

Description

음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법{SPEECH ENCODING DEVICE, SPEECH DECODING DEVICE, SPEECH ENCODING METHOD, AND SPEECH DECODING METHOD}

본 발명은 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법에 관한 것이다.

이동체 통신에 있어서 전송 대역의 유효 이용을 위해 음성 또는 화상의 디지털 정보 압축 부호화가 필수이다. 그 중에서도 휴대 전화에 널리 이용되고 있는 음성 코덱(부호화/복호화) 기술에 대한 기대는 크며, 압축율이 높은 종래의 고효율(高效率) 부호화보다도, 한층 더 좋은 음질의 요구가 높아지고 있다.

최근, 다층 구조를 가지는 스케일러블 코덱은, 보다 효율적이고 고품질인 음성 코덱으로서 IP(Internet Protocol) 통신망에 이용되며, ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)나 MPEG(Moving Picture Experts Group)에서 표준화가 검토되고 있다.

20년전에 확립된 음성의 발성 기구를 모델화하여 벡터 양자화를 응용한 기본 방식인 CELP(Code Excited Linear Prediction)에 의해 크게 성능을 향상시킨 음성 부호화 기술이나, 오디오 부호화에서 이용되어 온 변환 부호화 기술(MPEG 표준 ACC나 MP3등)로 인해 음성·악음 부호화 기술은 크게 진전하여, 고품질의 통신이나 음악 감상이 가능하게 되었다. 또 최근에는 올 IP화, 시임리스(seamless)화 또는 브로드밴드화를 앞두고, 음성에서부터 오디오까지를 커버할 수 있는 등의 스케일러블 코덱의 개발이나 표준화(ITU-TSG16WP3)도 진행되고 있다. 이 코덱은 커버하는 주파수 대역이 계층적으로 되어 있고, 하위층의 양자화 오차를 상위층에서 부호화하는 코덱이다.

특허 문헌 1에는 하위층의 양자화 오차를 상위층에서 부호화하는 계층형 부호화 방법, 및 샘플링 변환을 이용하여 하위에서 상위를 향해 보다 넓은 주파수 대역의 부호화를 행하는 방법에 대해서 개시되어 있다.

여기서, 스케일러블 코덱에서는 코어 코덱 상(上)에 확장 레이어가 복수 준비되어 있고, 하위층(하위 레이어)의 부호화 왜곡을 상위층(상위 레이어)에서 부호화해서 전송하는 구성이 일반적이다. 이 때, 각 층에 입력되는 신호에 상관성이 있기 때문에, 하위층으로부터의 부호화 정보를 이용해서, 상위층에서 효율좋게 부호화하는 것은 부호화의 정밀도 향상에 유효하다. 또한, 이 경우, 복호기에서도 하위층의 부호화 정보를 이용하여 상위층에서 복호화한다.

특허 문헌 2에는 CELP를 기본 방식으로 하는 각 레이어에서 하위층의 여러가지 부호화 정보를 이용하는 방법에 대해서 개시되어 있다. 또한, 특허 문헌 2에는, 코어와 확장의 2계층을 가지고, 확장 레이어에서는 차분 신호를 부호화하는 멀티 스테이지형이며, 음성의 주파수 대역이 변하는 주파수 스케일러블이라는 특징을 가지는 스케일러블 코덱이 개시되어 있다. 특허 문헌 2의 부호화 장치에 있어서, 성능에 크게 공헌하는 것이, 블록 15로부터 블록 17로 보내지는 하위층 레이어 정보이다. 이 정보를 이용하여 확장 부호화기에서는 보다 정밀도 높은 부호화를 행할 수 있다.

또, 부호화 알고리즘은 매년 진보하고 있어, 보다 부호화 정밀도가 좋은 코덱이 연이어 개발될 가능성이 있고, 또 사업화의 관점에서 비용이 저렴한 코덱을 사용한다고 하는 니즈(needs)가 생겨날 가능성이 있다.

특허 문헌 1 : 일본국 특허 공개 평8-263096호 공보 특허 문헌 2 : 일본국 특허 공개 제 2006-72026호 공보

그렇지만, 종래의 장치에 있어서는, 각 레이어의 코어 부호화기 및 코어 복호기를 교체했을 경우, 확장 부호화기는, 교체하기 전의 코어 복호기로부터 받는 하위층 레이어 정보를 전제로 개발되어 있으므로, 확장 부호화기에 있어서의 부호화를 행하지 못하게 된다는 문제가 있다.

본 발명은 이러한 점을 고려하여 이루어진 것으로서, 각 레이어의 코어 부호화기 및 코어 복호기를 다른 코어 부호화기 및 코어 복호기로 각각 교체했을 경우에도, 확장 부호화기에 있어서 부호화를 가능하게 할 수 있음과 아울러, 그 때마다 적절한 코덱을 사용할 수 있으므로, 정밀도 높은 부호화 및 복호를 행할 수 있는 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법을 제공하는 것을 목적으로 한다.

본 발명의 음성 부호화 장치는, 하위층의 레이어 정보를 상위층에서 사용하여 음성 신호를 계층적으로 부호화하는 음성 부호화 장치로서, 상기 음성 신호를 부호화해서 부호를 생성하는 제 1 부호화 수단과, 상기 부호를 복호해서 복호 신호를 생성하는 복호 수단과, 상기 음성 신호와 상기 복호 신호의 부호화 잔차를 검출하는 검출 수단과, 상기 복호 신호가 입력되면, 분석 처리 및 수정 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 분석 수단과, 상기 음성 신호와 상기 하위층의 레이어 정보를 이용해 상기 부호화 잔차를 부호화하는 제 2 부호화 수단을 구비하는 구성을 취한다.

본 발명의 음성 복호 장치는, 음성 부호화 장치에 있어서 하위층의 부호화측 레이어 정보를 상위층에서 사용하여 음성 신호를 계층적으로 부호화해서 생성된 부호화 정보를 입력시켜 복호하는 음성 복호 장치로서, 상기 부호화 정보 중 하위층에 관한 부호를 복호하여 제 1 복호 신호를 생성하는 제 1 복호 수단과, 상기 제 1 복호 신호가 입력되면, 분석 처리 및 수정 처리를 행함으로써 하위층의 복호측 레이어 정보를 생성하는 분석 수단과, 상기 부호화 정보 중 상위층에 관한 부호를, 상기 하위층의 복호측 레이어 정보를 이용해 복호함으로써 제 2 복호 신호를 생성하는 제 2 복호 수단을 구비하는 구성을 취한다.

본 발명의 음성 부호화 방법은 하위층의 레이어 정보를 상위층에서 사용하여 음성 신호를 계층적으로 부호화하는 음성 부호화 방법으로서, 상기 음성 신호를 부호화해서 부호를 생성하는 단계와, 상기 부호를 복호해서 복호 신호를 생성하는 단계와, 상기 음성 신호와 상기 복호 신호의 부호화 잔차를 검출하는 단계와, 상기 복호 신호에 관하여, 분석 처리 및 수정 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 단계와, 상기 음성 신호와 상기 하위층의 레이어 정보를 이용해 상기 부호화 잔차를 부호화하는 단계를 구비하도록 했다.

본 발명의 음성 복호 방법은 음성 부호화 장치에 있어서 하위층의 부호화측 레이어 정보를 상위층에서 사용하여 음성 신호를 계층적으로 부호화해서 생성된 부호화 정보를 복호하는 음성 복호 방법으로서, 상기 부호화 정보 중 하위층에 관한 부호를 복호해서 제 1 복호 신호를 생성하는 단계와, 상기 제 1 복호 신호에 관하여, 분석 처리 및 수정 처리를 행함으로써 하위층의 복호측 레이어 정보를 생성하는 단계와, 상기 부호화 정보 중 상위층에 관한 부호를, 상기 하위층의 복호측 레이어 정보를 이용해 복호함으로써 제 2 복호 신호를 생성하는 단계를 구비하도록 했다.

본 발명에 의하면, 각 레이어의 코어 부호화기 및 코어 복호기를 다른 코어 부호화기 및 코어 복호기로 각각 교체시킨 경우에도, 확장 부호화기에 있어서 부호화를 가능하게 할 수 있음과 아울러, 때마다 적절한 코덱을 사용할 수 있으므로, 정밀도 높은 부호화 및 복호를 행할 수 있다.

도 1은 본 발명의 실시형태 1에 따른 음성 부호화 장치의 구성을 나타내는 블록도,
도 2는 본 발명의 실시형태 1에 따른 보조 분석부의 구성을 나타내는 블록도,
도 3은 본 발명의 실시형태 1에 따른 음성 복호 장치의 구성을 나타내는 블록도,
도 4는 예측 구간을 이용한 분석창을 나타낸 도면,
도 5는 본 발명의 실시형태 1에 따른 분석창을 나타낸 도면,
도 6은 특허 문헌 2의 코어 부호화기의 구성을 나타낸 블록도,
도 7은 본 발명의 실시형태 2에 따른 보조 분석부의 구성을 나타낸 블록도이다.

이하, 본 발명의 실시형태에 대해서, 도면을 참조하여 상세히 설명한다.

(실시형태 1)

도 1은 본 발명의 실시형태 1에 따른 음성 부호화 장치(100)의 구성을 나타내는 블록도이다.

음성 부호화 장치(100)는, 주파수 조정부(101)와, 코어 부호화기(102)와, 코어 복호기(104)와, 주파수 조정부(105)와, 가산부(106)와, 보조 분석부(107)와, 확장 부호화기(108)로 주로 구성된다. 이하에서, 각 구성에 대해, 상세하게 설명한다.

주파수 조정부(101)는, 입력된 음성 신호를 다운 샘플링하고, 얻어지는 음성 신호(협대역 음성 신호)를 코어 부호화기(102)에 출력한다. 다운 샘플링의 방법은 여러가지 있으며, 저역 투과(Low-pass) 필터를 통과시켜 추출하는 방법을 일례로서 들 수 있다. 예를 들면, 16kHz 샘플링의 입력 음성을 8kHz 샘플링으로 변환하는 경우는, 4kHz(8kHz 샘플링의 나이키스트(nyquist) 주파수) 이상의 주파수 성분이 극히 작아지는 등의 저역 투과 필터를 사용한다. 그리고, 주파수 조정부(101)는, 그 후 1개 걸러 신호를 픽업하여(2개에 1개를 추출한 것이 됨) 메모리에 저장함으로써 8kHz 샘플링 신호가 얻어진다.

코어 부호화기(102)는, 후술하는 코어 복호기(104)와 함께, 각각 다른 코어 부호화기 및 코어 복호기에 적절하게 치환(置換)가능하며, 주파수 조정부(101)로부터 입력된 음성 신호를 부호화하고, 얻어진 부호를 전송로(103)와 코어 복호기(104)에 출력한다.

전송로(103)는, 코어 부호화기(102)에서 얻어진 부호 및 확장 부호화기(108)에서 얻어진 부호를 후술하는 음성 복호 장치에 전송한다.

코어 복호기(104)는, 코어 부호화기(102)와 함께 적절하게 치환(置換) 가능하며, 코어 부호화기(102)로부터 입력된 부호를 이용해 복호를 행함으로써 복호화 신호를 얻는다. 그리고, 코어 복호기(104)는, 얻어진 복호화 신호를 주파수 조정부(105) 및 보조 분석부(107)에 출력한다.

주파수 조정부(105)는, 코어 복호기(104)로부터 입력된 복호화 신호에 대해서, 주파수 조정부(101)에 입력되는 음성 신호의 샘플링 레이트로까지 업 샘플링을 행하여, 가산부(106)에 출력한다. 업 샘플링의 방법은 여러가지 있으며, 샘플 사이에 0을 삽입해 샘플수를 증가시켜, 저역 투과(Low-pass) 필터를 이용해 주파수 성분을 조정한 다음, 파워를 조정한다고 하는 방법을 일례로서 들 수 있다.

가산부(106)는, 주파수 조정부(105)로부터 입력된 복호화 신호의 극성을 반전(反轉)시켜, 주파수 조정부(101)에 입력되는 음성 신호와 가산함으로써, 부호화 잔차를 얻는다. 즉, 가산부(106)는, 주파수 조정부(101)에 입력되는 음성 신호로부터 복호화 신호를 뺀다. 그리고, 가산부(106)는, 이 처리로 얻어진 부호화 잔차를 확장 부호화기(108)에 출력한다.

보조 분석부(107)는, 코어 복호기(104)로부터 입력된 복호화 음성 신호에 대해 분석을 행하여, 하위층 레이어 정보를 얻는다. 그리고, 보조 분석부(107)는, 얻어진 하위층 레이어 정보를 확장 부호화기(108)에 출력한다. 여기서, 하위층 레이어 정보는, LPC 분석해서 얻어진 LPC 파라미터를 부호화하고, 다시 부호화한 LPC 파라미터를 복호함으로써 얻어지는 복호화 LPC(Linear Prediction Coefficient) 파라미터이다. 복호화 LPC 파라미터는, 음성 신호의 저역 스펙트럼의 개형(槪形)을 나타내는 것으로서, 확장 부호화기(108)에 있어서 저역 스펙트럼에 잔류하는 스펙트럼을 예측하는데 유효한 파라미터이다. 다만, 실제로 부호화와 복호를 행하면 계산량이 많아질 뿐 아니라 부호를 전송할 필요도 있어, 코스트의 증대를 초래한다. 따라서, 본 실시형태에 있어서는, 보조 분석부(107)는, 코어 복호기(104)에 의해 얻어진 복호 음성 신호에 대해서 LPC 분석을 행하여 얻어진 LPC 파라미터를, 복호화 LPC 파라미터에 근사(近似)한 것으로서 출력한다. 또한, 보조 분석부(107)의 구성의 상세한 것에 대해서는 후술한다.

확장 부호화기(108)는, 음성 부호화 장치(100)에 입력된 음성 신호와 가산부(106)에 있어서 얻어진 부호화 잔차와, 보조 분석부(107)에 있어서 얻어진 하위층 레이어 정보가 입력된다. 그리고, 확장 부호화기(108)는, 음성 신호로부터 얻어지는 정보와 하위층의 레이어 정보를 이용해 부호화 잔차의 효율적인 부호화를 행하고, 얻어진 부호를 전송로(103)에 출력한다.

다음에, 보조 분석부(107)의 구성에 대해서, 도 2를 이용해 설명한다. 도 2는, 보조 분석부(107)의 구성을 나타내는 블록도이다. 또한, 도 2의 설명에 있어서는, 하위층 레이어 정보를 LPC 파라미터로 한다.

보조 분석부(107)는, 수정 파라미터 저장부(201)와, LPC 분석부(202)와, 수정 처리부(203)로 주로 구성된다.

수정 파라미터 저장부(201)는, 수정용 파라미터를 저장한다. 또한, 수정용 파라미터의 설정 방법에 대해서는 후술한다.

LPC 분석부(202)는, 코어 복호기(104)로부터 입력된 복호화 음성 신호에 대해서 LPC 분석을 행하고, LPC 파라미터를 얻는다. 그리고, LPC 분석부(202)는, LPC 파라미터를 수정 처리부(203)에 출력한다.

수정 처리부(203)는, 수정 파라미터 저장부(201)에 저장되어 있는 수정용 파라미터를 판독하고, 판독한 파라미터를 이용하여, LPC 분석부(202)로부터 입력된 LPC 파라미터의 수정을 행한다. 그리고, 수정 처리부(203)는, 수정한 LPC 파라미터를 복호화 LPC 파라미터로서 확장 부호화기(108)에 출력한다.

이상으로, 음성 부호화 장치(100)의 구성에 대한 설명을 끝낸다.

다음에, 음성 복호 장치(300)의 구성에 대해서, 도 3을 이용해서 설명한다. 도 3은 음성 복호 장치(300)의 구성을 나타내는 블록도이다.

음성 복호 장치(300)는, 코어 복호기(302)와, 주파수 조정부(303)와, 보조 분석부(304)와, 확장 복호기(305)와, 가산부(306)로 주로 구성된다.

이하에, 각 구성에 대해서, 상세하게 설명한다.

코어 복호기(302)는, 전송로(301)로부터 얻은 부호를 복호해서 합성음 A를 얻는다. 또, 코어 복호기(302)는, 합성음 A를 주파수 조정부(303) 및 보조 분석부(304)에 출력한다. 이 때, 코어 복호기(302)는, 청감적인 조정을 행하여 합성음 A로서 출력한다.

주파수 조정부(303)는, 코어 복호기(302)로부터 입력된 합성음 A에 대해서 업 샘플링을 행하고, 업 샘플링 후의 합성음 A를 가산부(306)에 출력한다.

보조 분석부(304)는, 코어 복호기(302)로부터 입력된 합성음 A에 대해서 부호화 처리의 일부를 행하여 하위층 레이어 정보를 취득하고, 취득한 하위층 레이어 정보를 확장 복호기(305)에 출력한다. 여기서, 보조 분석부(304)는, 도 2와 동일한 구성을 가진다.

확장 복호기(305)는, 보조 분석부(304)로부터 입력된 하위층 레이어 정보를 이용해, 전송로(301)로부터 취득한 부호를 복호하여 합성음을 얻는다. 그리고, 확장 복호기(305)는, 얻어진 합성음을 가산부(306)에 출력한다. 확장 복호기(305)는, 음성 복호 장치(300)에 대응한 하위층 레이어 정보를 이용해서 복호를 행함으로써, 양호한 품질의 합성음을 얻을 수 있다.

가산부(306)는, 주파수 조정부(303)로부터 얻어진 업 샘플링 후의 합성음 A와 확장 복호기(305)로부터 얻어진 합성음을 가산해 합성음 B를 구하고, 구한 합성음 B를 출력한다.

이상으로, 음성 복호 장치(300)의 구성에 대한 설명을 마친다.

다음에, LPC 분석부(202)에 있어서의 LPC 분석에 대해 설명한다.

LPC 분석에서는 일반적으로 예측 구간(미래의 입력 음성)을 이용한 분석창을 이용한다. 도 4는, 예측 구간을 이용한 분석창(창함수)을 나타내는 도면이다.

창의 종류로서는, 허밍창, 해닝창, 싸인창 또는 블랙맨-해리스창 등을 들 수 있다. 따라서, LPC 분석부(202)에서는, 이 분석창을 이용해, 동일한 차수의 LPC 분석을 행하면 좋다. 그러나, 보조 분석부(107)에 있어서, 도 4의 분석창을 이용했을 경우에는, 예측 구간 분의 지연이 발생해 버린다. 본 실시형태에서는, 예측 구간을 사용하지 않고, 복호화 음성 신호의 프레임 구간만으로 분석하도록 설정한다.

도 5는, 본 실시형태에서 이용하는 분석창의 일례를 나타내는 도면이다. 즉, 본 실시형태에서는, 도 5에 나타내는 것처럼, 예측 구간 직전까지의 비대칭창을 이용한다. 구체적으로는, 전반(前半)을 해닝창으로 함과 동시에, 후반(後半)을 싸인창으로 함으로써, 양호한 성능을 얻을 수 있다. 각 창의 길이의 비율에 대해서는, 확장 부호화기(108)에 입력되는 부호화 잔차(부호화 왜곡)를 참조하면서 조정하여 결정한다. 이러한 분석창을 설정함으로써, 보조 분석부(107)에서의 지연 발생을 방지할 수 있다. 또한, 보조 분석부(304)에 대해서도, 보조 분석부(107)와 마찬가지로 비대칭창을 이용함으로써, 지연 발생을 방지할 수 있다.

다음에, 수정 처리부(203)에 있어서의 처리에 대해 설명한다.

수정 처리부(203)에서는, 부호화와 복호화를 받아 입력 음성과 복호화 음성의 특성이 변화해 있는 것과, 도 5에 나타내는 것처럼 분석창의 특성이 변화해 있는 것의, 2개의 변화에 대한 수정을 행하여, 확장 부호화기(108)에서 보다 정밀도 높은 부호화가 가능하도록 한다.

본 실시형태에서는 LSP(line spectrum pair)의 차분으로서 보정(補正)분을 표시하기로 한다. 절차를 아래에 나타낸다.

1) LPC 분석부(202)에 있어서 얻어진 LPC 파라미터를 LSP로 변환한다.

2) 수학식(1)에 나타내는 것처럼, 수정(修正) 파라미터 저장부(201)의 수정용 파라미터와 수정전의 LSP를 가산하여 수정 후의 LSP를 구한다.

3) LSP의 오름차순 관계가 유지되도록 보정을 행한다.

4) LSP를 역변환시킴으로써 LPC 파라미터로 되돌린다.

상기에 나타내는 LSP 변환이나 오름차순 관계를 유지하는 보정 처리에 대해서는, CELP 방식에 기초하는 음성 코덱의 알고리즘이 기재되어 있는 대부분의 교과서나 규격서에 개시되어 있는 일반적인 처리이므로, 그 설명을 생략한다.

다음에, 수정 파라미터 저장부(201)에 저장되는 수정용 파라미터의 설정 방법에 대해 설명한다.

수정용 파라미터는, 코어 부호화기(102) 및 코어 복호기(104)에 의존하는 파라미터이며, 코어 부호화기(102) 및 코어 복호기(104)를 실장한 후에 학습에 의해 구한다.

우선, 수정 파라미터 학습용 음성 데이터(임의이지만, 스펙트럼의 모든 베리에이션을 망라하고 있는 것이 바람직함)를 음성 부호화 장치(100)에 음성 신호로서 입력된다. 그리고, 코어 부호화기(102)의 LPC 분석부에 있어서의 분석으로 얻어지는 LPC 파라미터를 LSP로 변환한 것(이하 「파라미터 A」라고 기재함)을 수집한다. 또, 코어 부호화기(102) 및 코어 복호기(104)를 거쳐 얻어진 복호화 음성 신호를, 보조 분석부(107)의 LPC 분석부(202)에 있어서 분석함으로써 얻어지는 LSP(이하 「파라미터 B」라고 기재함)를 수집한다. 이 프로세스를 다수의 수정 파라미터 학습용 음성 데이터에 대해서 행하여, 파라미터 A, B를 수집한다. 그리고, 수집이 종료한 때에, 전부의 파라미터를 이용해, 수학식(2)의 코스트 함수를 최소로 하는 파라미터 A 및 파라미터 B를 구한다.

또, 수학식(2)에 의해 구한 파라미터 A 및 파라미터 B를 이용해, 수학식(3)에 의해 수정용의 파라미터를 구한다.

그리고, 보조 분석부(107)의 수정 파라미터 저장부(201), 및 보조 분석부(304)의 도시하지 않는 수정 파라미터 저장부에, 수학식(3)으로 구한 수정용 파라미터를 저장한다.

상기의 설정 방법은 교체할 코덱이 정해진 후에 학습을 행하므로, 교체하고 바로 음성 통신을 행할 수 없다. 상정되는 코덱마다 미리 구해놓고 코덱과 함께 준비해 두고, 교체했을 때에 수정 파라미터 저장부(201)의 내용을 수정하는 등의 방법을 취할 수 있으면, 보다 간편하게 코덱을 교체할 수 있다.

다음에, 보조 분석부(107, 304)가 도 2의 구성을 가지는 이유에 대해, 도 6을 이용해서 설명한다.

도 6은 특허 문헌 2에 기재되어 있는 코어 부호화기의 구성을 나타내는 블록도이다. 또한, 도 6의 코어 부호화기의 각 구성에 대해서는, 특허 문헌 2에 기재되어 있으므로, 그 설명을 생략한다.

도 6에 있어서, LPC 분석을 행하여, 양자화 및 역양자화를 행하는 LPC 분석부와 확장 부호화기를 접속하는 신호선L1은 본 실시형태에 있어서의 하위층의 레이어 정보를 전하는 것이다.

따라서, 보조 분석부(107, 304)는, 도 6에 나타내는 코어 부호화기와 동일한 구성으로 해도 된다. 그러나, LPC 파라미터만이 하위층 레이어 정보이므로, 도 6의 코어 부호화기의 대부분의 블록은 필요가 없어져, 보조 분석부(107, 304)는, 도 2의 구성만으로 되게 된다.

도 2의 LPC 분석부(202)는, 도 6에 있어서의 LPC 분석부의 기능인 분석, 부호화, 및 복호 중, 분석만을 행한다. 코어 복호기(104)로부터 보조 분석부(107)에 입력되는 신호, 및 코어 복호기(302)로부터 보조 분석부(304)에 입력되는 신호는 복호된 신호이고, 이것은 부호화기 측에서도 복호기측에서도 동일하므로, 분석하는 것만으로 LPC 파라미터에 상당하는 것을 얻을 수 있다.

이와 같이, 본 실시형태에 의하면, 하위층을 새로운 코어 부호화기 및 코어 복호기와 교체한 경우에 있어서도, 교체하기 전과 동일한 하위층의 레이어 정보를 얻을 수 있다. 이 결과, 각 레이어의 코어 부호화기 및 코어 복호기를 교체했을 경우에도, 확장 부호화기에 있어서 부호화를 가능하게 할 수 있음과 아울러, 때마다 적절한 코덱을 사용할 수 있으므로, 정밀도 높은 부호화 및 복호를 행할 수 있다. 또, 본 실시형태에 의하면, 예측 구간을 포함하지 않는 창을 설정해서 분석을 행하므로, 분석에 수반하는 지연을 억제할 수 있다. 또, 본 실시형태에 의하면, 부호화와 복호화를 받아 입력 음성과 복호화 음성의 특성이 변화해 있는 것과 창특성이 변화해 있는 것을 수정용 파라미터를 이용해 보정한다. 이 결과, 입력된 음성 신호를 분석해서 얻어진 파라미터에 통계적으로 접근할 수 있어, 보다 정밀도 높은 부호화를 행할 수 있다.

(실시형태 2)

도 7은 본 발명의 실시형태 2에 따른 보조 분석부(700)의 구성을 나타내는 블록도이다. 또한, 본 실시형태에 있어서, 음성 부호화 장치는, 보조 분석부(107)를 보조 분석부(700)로 치환(置換)하는 것 이외는 도 1과 동일한 구성이므로, 그 설명을 생략한다. 또, 본 실시형태에 있어서, 보조 분석부(700) 이외의 각 구성에 대해서는, 도 1의 참조 번호를 이용하여 설명한다.

보조 분석부(700)는, 수정 파라미터 저장부(701)와, 수정 처리부(702)와, LPC 분석부(703)로 주로 구성된다.

수정 파라미터 저장부(701)는, 수정용 파라미터를 저장한다. 또한, 수정용 파라미터의 설정 방법에 대해서는 후술한다.

수정 처리부(702)는, 수정 파라미터 저장부(701)에 저장되어 있는 수정용 파라미터를 판독하고, 판독한 수정용 파라미터를 이용해, 코어 복호기(104)로부터 입력된 복호화 신호를 수정한다. 그리고, 수정 처리부(702)는, 수정한 복호화 신호를 LPC 분석부(703)에 출력한다.

LPC 분석부(703)는, 수정 처리부(702)로부터 입력된 복호화 신호에 대해서 LPC 분석을 행하여, LPC 파라미터를 얻는다. 그리고, LPC 분석부(703)는, LPC 파라미터를 확장 부호화기(108)에 출력한다.

또한, 본 실시형태에 있어서, 음성 복호 장치는, 보조 분석부(304)를 도 7의 보조 분석부의 구성으로 하는 것 외에는 도 3과 동일한 구성이므로, 그 설명을 생략한다.

다음에, 수정 처리부(702)에 있어서의 처리에 대해서 설명한다.

본 실시형태에 있어서는, MA(Moving Average) 필터링에 의한 수정을 행하는 것으로 한다. 이 경우, 수정 파라미터 저장부(701)에 저장된 수정용 파라미터를 이용해서 필터링을 행한다. 이 일례를 수학식(4)에 나타낸다.

그리고, 수학식(4)에 의해 얻어진 수정된 복호화 음성 신호를 LPC 분석부(703)에 출력한다.

상기의 실시형태 1에 있어서의 LPC 파라미터의 수정과 다른 것은 본 실시형태에서는, LSP 파라미터로 변환하는 계산을 행하지 않아도 되는 대신, LPC 분석창의 차이를 수정할 수 없다는 것이다.

다음에, 수정용 파라미터의 설정 방법에 대해서 설명한다.

수정용 파라미터는, 코덱을 교체한 뒤의 사전 학습으로 구한다. 입력 신호는 실시형태 1과 동일한 수정 파라미터 학습용 음성 데이터이다. 실시형태 1과 다른 것은 코어 부호화기(102)에 입력되는 신호(이하 「C 신호」라고 기재함)와 보조 분석부(700)에 입력되는 복호화 음성 신호(이하 「D신호」라고 기재함)를 수집하는 것이다. 수집된 다수의 신호를 이용해, 수학식(5)의 코스트 함수 F를 최소로 하는 C 신호와 D 신호를 구한다. 이 때는, 2개 신호의 위상(샘플 타이밍)을 완전하게 일치시키는 것이 필요하다.

또, 수학식(5)로부터 구한 신호 C 및 신호 D를 이용해서, 수학식(6)에 의해 수정용 파라미터를 구한다.

그리고, 수학식(6)에 의해 구한 수정용 파라미터를 부호화기측 및 복호측의 수정 파라미터 저장부(701)에 저장한다.

이와 같이, 본 실시형태에 의하면, 하위층을 새로운 코어 부호화기 및 코어 복호기와 교체했을 경우에도, 교체하기 전과 동일한 하위층의 레이어 정보를 얻을 수 있다. 이 결과, 각 레이어의 코어 부호화기 및 코어 복호기를 교체했을 경우에도, 확장 부호화기에 있어서 부호화를 가능하게 할 수 있음과 아울러, 때마다 적절한 코덱을 사용할 수 있으므로, 정밀도 높은 부호화 및 복호를 행할 수 있다. 또, 본 실시형태에 의하면, 예측 구간을 포함하지 않는 창을 설정해서 분석을 행하기 때문에, 분석에 수반되는 지연을 억제할 수 있다. 또, 본 실시형태에 의하면, 부호화와 복호화를 받아 입력 음성과 복호화 음성의 특성이 변화해 있는 것을 수정용 파라미터를 이용해서 보정한다. 이 결과, 입력된 음성 신호를 분석해서 얻어진 파라미터에 통계적으로 접근할 수 있어, 보다 정밀도 높은 부호화를 행할 수 있다.

또한, 상기의 실시형태 1 및 실시형태 2에 있어서, 수정 처리부(203, 702)에서는 LSP의 가산을 이용해서 수정을 행했지만, 본 발명은 이에 한정하지 않고, 선형합, 매트릭스의 곱셈 또는 매트릭스의 합산(addition)을 이용해도 된다. 또, 수정을 행하는 파라미터로서 LPC 스펙트럼이나 PARCOR(Partial Auto Correlation), ISP(Immittance Spectral Pair) 등의 LPC계 파라미터, 또는 자기 상관계수라도 완전히 동일하게 실현할 수 있다. 본 발명은 수정 방법이나 수정을 행하는 파라미터에는 의존하지 않는 것은 분명하다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 수정 처리부(203, 702)의 필터링은 MA형으로 행했지만, 본 발명은 이에 한하지 않고, IIR(Infinite Impulse Response) 형이어도 AR(Auto Regressive) 형이어도 된다. 본 발명은 필터의 형상에는 의존하지 않는 것은 분명하다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 수정 처리부(203, 702)에서는, 필터링을 행했지만, 본 발명은 이에 한하지 않고, 앰프(앰프리튜드)의 가산(加算)이나, 게인의 가산 등을 이용해도 된다. 본 발명은 수정의 처리 방법에 의존하지 않기 때문이다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 코어 레이어를 교체한 스케일러블 코덱을 이용했지만, 본 발명은 이에 한하지 않고, 구성에 스위치와 종래의 코덱을 추가해도 된다. 그리고, 이 때, 종래의 코덱과 교체한 코덱을 스위치를 이용해 전환하도록 해도 된다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 부호화 정보로서 복호화 LPC 파라미터를 이용했지만, 본 발명은 이에 한하지 않고, 다른 파라미터의 경우에도 동일하게 본 발명을 실현할 수 있는 것은 분명하다. 예를 들면, 입력 음성으로부터 비교적 적은 계산량으로 구해지는 전역 파워 또는 대역 파워, 피치 분석으로 얻어지는 주기(周期) 또는 주기성의 정도를 나타내는 게인 등을 들 수 있다. 단, 확률적 코드북의 게인 등, 도 6의 CELP 부호화기를 최후까지 작동시켜 얻어지는 파라미터는, 그 계산량의 방대함 때문에 실장상 사용하기 어려운 것은 자명하다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 코어 부호화기로서 CELP 같은 시계열 신호를 그대로 부호화하는 부호화 방식을 이용했지만, 본 발명은 이에 한하지 않고, MDCT(Modified Discrete Cosine Transform)에 의한 스펙트럼 부호화등의 전환 부호화여도 되고, ADPCM(Adaptive Differential Pulse Code Modulation) 같은 파형 부호화여도 된다. 또, 이로부터, 본 발명에서는, 교체하는 새로운 코덱의 형태는 어떠한 것이어도 되는 것은 분명하다. 스펙트럼 부호화에서 스펙트럼의 형태인 채로 확장부에 건네주고 싶은 경우는, 보조 분석부(107, 304)의 입력은 스펙트럼이 되므로, 그것에 대응하도록 입력계를 바꾸면 된다. 본 발명은 원래의 코덱, 및 교체하는 코덱의 부호화 방식에 의존하지 않는 것은 분명하다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 간결한 설명을 행하기 위해 계층수가 두 개인 경우에 대해서 나타냈지만, 본 발명은 이에 한하지 않고, 현재 표준화가 끝난, 표준화의 검토 도중, 또는 실용 단계의 스케일러블 코덱의 계층수처럼, 세 개 이상 다수의 계층수라도 좋다. 예를 들면, ITU-T 표준 G.729.1에서는 12의 계층수가 있다. 이 경우에도 본 발명은 유효한 것은 분명하다. 본 발명은 계층수에는 의존하지 않기 때문이다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 코어 코덱의 교체에 대해서 나타냈지만, 본 발명은 이에 한하지 않고, 확장 레이어의 교체에도 사용할 수 있음은 분명하다. 확장 레이어의 부호화 정보를 더 상위층에서 사용할 경우는, 교체한 레이어의 복호화 신호를 교체하기 전의 확장 레이어의 일부로 구성한 보조 코덱을 이용하면, 본 발명과 완전히 동일하게 교체를 행할 수 있다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서, 주파수 스케일러블 코덱의 경우를 나타냈지만, 본 발명은 이에 한하지 않고, 주파수가 변하지않는 경우라도 본 발명은 유효하다. 본 발명은 주파수 조정부의 유무에 의존하지 않기 때문이다.

또, 상기의 실시형태 1 및 실시형태 2의 설명은 본 발명의 매우 적합한 실시형태의 예증이며, 본 발명의 범위는 이에 한정되는 것은 아니다. 본 발명은 부호화 장치를 가지는 시스템이면 어떠한 경우에도 적용할 수 있다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서 설명한 음성 부호화 장치 및 음성 복호 장치는, 이동체 통신 시스템에 있어서의 통신 단말 장치 및 기지국 장치에 탑재하는 것이 가능하다. 이로써 상기와 동일한 작용 효과를 가지는 통신 단말 장치, 기지국 장치, 및 이동체 통신 시스템을 제공할 수 있다.

또, 상기의 실시형태 1 및 실시형태 2에 있어서는, 하드웨어로 구성하는 경우를 예로 설명했지만, 본 발명은 이에 한하지 않고, 소프트웨어로 실현하는 것도 가능하다. 예를 들면, 본 발명에 따른 알고리즘을 프로그램 언어를 이용하여 기술(記述)하고, 이 프로그램을 메모리에 기억해 두고 정보처리 수단을 이용해 실행시킴으로써, 본 발명에 따른 음성 부호화 장치등과 동일한 기능을 실현할 수 있다.

또, 상기의 실시형태 1 및 실시형태 2의 각 기능 블록은 전형적으로는 집적회로인 LSI로서 실현된다. 이것은 개별적으로 1 칩화되어도 좋고, 일부 또는 모두를 포함하도록 1칩화되어도 좋다. 여기서, LSI는, 집적도의 차이에 따라, IC, 시스템 LSI, 슈퍼 LSI 또는 울트라 LSI 등으로 호칭되는 일도 있다.

또, 집적회로화의 수법은 LSI에 한하는 것은 아니고, 전용 회로 또는 범용 프로세서로 실현해도 된다. LSI 제조 후에, 프로그램화하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속 또는 설정을 재구성 가능한 리컨피규러블 프로세서를 이용해도 된다.

또, 반도체 기술의 진보 또는 파생하는 별개의 기술에 의해, LSI에 대체되는 집적회로화의 기술이 등장하면, 당연히, 그 기술을 이용해서 기능 블록의 집적화를 행해도 된다. 바이오 기술의 적용 등이 가능성으로서 있을 수 있다.

2009년 3월 13일에 출원한 일본국 특허 출원 제 2009-60791 호의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시 내용은 모두 본원에 원용된다.

(산업상의 이용 가능성)

본 발명에 따르는 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법은 특히 다층 구조를 가지는 스케일러블 코덱에 매우 적합하다.

Claims

하위층의 레이어 정보를 상위층에서 사용해 음성 신호를 계층적으로 부호화하는 음성 부호화 장치로서,
상기 음성 신호를 부호화하여 부호를 생성하는 제 1 부호화 수단과,
상기 부호를 복호하여 복호 신호를 생성하는 복호 수단과,
상기 음성 신호와 상기 복호 신호의 부호화 잔차를 검출하는 검출 수단과,
상기 복호 신호가 입력하면, 분석 처리 및 수정 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 분석 수단과,
상기 음성 신호와 상기 하위층의 레이어 정보를 이용해 상기 부호화 잔차를 부호화하는 제 2 부호화 수단
을 구비하는 음성 부호화 장치.
제 1 항에 있어서,
상기 분석 수단은 예측 구간을 포함하지 않는 창함수를 이용한 상기 분석 처리를 행하는 음성 부호화 장치.
제 1 항에 있어서,
상기 분석 수단은 상기 복호 신호에 대해서 상기 분석 처리를 행함으로써 하위층에 관한 파라미터를 생성하고, 상기 하위층에 관한 파라미터에 대해서, 상기 음성 신호로부터 상기 복호 신호에 이를 때까지의 특성 변화에 기초한 상기 수정 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 음성 부호화 장치.
제 1 항에 있어서,
상기 분석 수단은 상기 복호 신호에 대해서, 상기 음성 신호로부터 상기 복호 신호에 이를 때까지의 특성 변화에 기초하는 상기 수정 처리를 행함으로써 수정 복호 신호를 생성하고, 상기 수정 복호 신호에 대해서 상기 분석 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 음성 부호화 장치.
음성 부호화 장치에 있어서 하위층의 부호화측 레이어 정보를 상위층에서 사용하여 음성 신호를 계층적으로 부호화해서 생성된 부호화 정보를 입력시켜 복호하는 음성 복호 장치로서,
상기 부호화 정보 중 하위층에 관한 부호를 복호해서 제 1 복호 신호를 생성하는 제 1 복호 수단과,
상기 제 1 복호 신호가 입력되면, 분석 처리 및 수정 처리를 행함으로써 하위층의 복호측 레이어 정보를 생성하는 분석 수단과,
상기 부호화 정보 중 상위층에 관한 부호를, 상기 하위층의 복호측 레이어 정보를 이용해 복호함으로써 제 2 복호 신호를 생성하는 제 2 복호 수단
을 구비하는 음성 복호 장치.
하위층의 레이어 정보를 상위층에서 사용해 음성 신호를 계층적으로 부호화하는 음성 부호화 방법으로서,
상기 음성 신호를 부호화하여 부호를 생성하는 단계와,
상기 부호를 복호하여 복호 신호를 생성하는 단계와,
상기 음성 신호와 상기 복호 신호의 부호화 잔차를 검출하는 단계와,
상기 복호 신호에 관해서, 분석 처리 및 수정 처리를 행함으로써 상기 하위층의 레이어 정보를 생성하는 단계와,
상기 음성 신호와 상기 하위층의 레이어 정보를 이용해 상기 부호화 잔차를 부호화하는 단계
를 구비하는 음성 부호화 방법.
음성 부호화 장치에 있어서 하위층의 부호화측 레이어 정보를 상위층에서 사용해서 음성 신호를 계층적으로 부호화하여 생성된 부호화 정보를 복호하는 음성 복호 방법으로서,
상기 부호화 정보 중 하위층에 관한 부호를 복호해서 제 1 복호 신호를 생성하는 단계와,
상기 제 1 복호 신호에 관해서, 분석 처리 및 수정 처리를 행함으로써 하위층의 복호측 레이어 정보를 생성하는 단계와,
상기 부호화 정보 중 상위층에 관한 부호를, 상기 하위층의 복호측 레이어 정보를 이용해 복호함으로써 제 2 복호 신호를 생성하는 단계를 구비하는 음성 복호 방법.