KR20160080115A

KR20160080115A - 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체

Info

Publication number: KR20160080115A
Application number: KR1020167017192A
Authority: KR
Inventors: 타케히로 모리야; 노보루 하라다; 유스케 히와사키; 유타카 카마모토
Original assignee: 니폰 덴신 덴와 가부시끼가이샤
Priority date: 2011-01-25
Filing date: 2012-01-18
Publication date: 2016-07-07
Also published as: US9711158B2; US20130311192A1; JPWO2012102149A1; KR20130111611A; RU2554554C2; EP2650878A1; KR101740359B1; RU2013134463A; ES2558508T3; EP2650878A4; CN103329199A; WO2012102149A1; CN103329199B; JP5596800B2; EP2650878B1

Abstract

음향 신호의 저비트에서의 부호화에 의한 품질을 저연산량으로 개선하는 부호화 기술을 제공한다. 프레임마다 음향 신호의 주기성에 대응하는 샘플의 간격(T), 또는, 음향 신호의 기본주파수의 정수배에 대응하는 샘플의 간격(T)을 간격(T)의 후보의 집합(S) 속에서 결정하는 간격 결정 처리와, 간격 결정 처리에서 결정된 간격(T)을 부호화하여 보조정보를 얻는 보조정보 생성 처리를 포함한다. 간격 결정 처리는 보조정보로 표현 가능한 간격(T)의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 간격 결정 스텝의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합을 집합(S)으로 하고, 간격(T)을 결정한다.

Description

부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체{ENCODING METHOD, ENCODER, PERIODIC FEATURE AMOUNT DETERMINATION METHOD, PERIODIC FEATURE AMOUNT DETERMINATION APPARATUS, PROGRAM AND RECORDING MEDIUM}

본 발명은 음향 신호의 부호화 기술에 관한 것이다. 보다 상세하게는 음향 신호를 주파수 영역으로 변환하여 얻어진 주파수 영역의 샘플열의 부호화와 당해 부호화 처리시에 샘플열의 소팅의 지표가 되는 주기성 특징량(예를 들면, 기본주파수나 피치 주기)을 결정하는 기술에 관한 것이다.

저비트(예를 들면, 10kbit/s∼20kbit/s 정도)의 음성 신호나 음향 신호의 부호화 방법으로서, DFT(이산 푸리에 변환)나 MDCT(변형 이산 코사인 변환) 등의 직교 변환 계수에 대한 적응 부호화가 알려져 있다. 예를 들면, 표준규격 기술인 AMR-WB+(Extended Adaptive Multi-Rate Wideband)는 TCX(transform coded excitation: 변환 부호화 여진) 부호화 모드를 갖고, 이 중에서는 DFT 계수를 8샘플마다 정규화하여 벡터 양자화하고 있다.

또한 TwinVQ(Transform domain Weighted Interleave Vector Quantization)에서는, MDCT 계수 전체를 고정의 규칙으로 소팅한 후의 샘플의 모임이 벡터로서 부호화된다. 이때, 예를 들면, MDCT 계수로부터 피치 주기마다의 큰 성분을 추출하고, 피치 주기에 대응하는 정보를 부호화하고, 또한 피치 주기마다의 큰 성분을 제거한 나머지 MDCT 계수열을 소팅하고, 소팅 후의 MDCT 계수열을 소정 샘플수마다 벡터 양자화함으로써 부호화하는 방법 등이 채용되는 경우도 있다. TwinVQ에 관한 문헌으로서 비특허문헌 1, 2를 예시할 수 있다.

또한 동일한 간격으로 샘플을 추출하여 부호화하는 기술로서, 예를 들면, 특허문헌 1을 예시할 수 있다

일본 특개 2009-156971호 공보

T. Moriya, N. Iwakami, A. Jin, K. Ikeda, and S. Miki, ˝A Design of Transform Coder for Both Speech and Audio Signals at 1 bit/sample,˝ Proc. ICASSP'97, pp.1371-1374, 1997. J. Herre, E. Allamanche, K. Brandenburg, M. Dietz, B.Teichmann, B. Grill, A. Jin, T. Moriya, N. Iwakami, T. Norimatsu, M. Tsushima, T. Ishikawa, ˝The integrated Filterbank Based Scalable MPEG-4 Audio Coder,˝ 105th Convention Audio Engineering Society, 4810, 1998.

(발명의 개요)

(발명이 해결하고자 하는 과제)

AMR-WB+를 비롯하여, TCX에 기초하는 부호화에서는 주기성에 기초하는 주파수 영역의 계수의 진폭의 편차는 고려되어 있지 않기 때문에, 편차가 큰 진폭을 정리하여 부호화하면 부호화 효율은 저하되어 버린다. TCX에서의 양자화나 부호화에는 각종 변형예가 있는데, 예를 들면, 양자화에 의해 이산값으로 된 MDCT 계수를 주파수가 낮은 쪽부터 배열한 계열을 엔트로피 부호화에 의해 압축을 행할 경우를 생각한다. 이 경우, 복수의 샘플을 1심볼(부호화 단위)로 하고, 그 심볼의 직전의 심볼에 의존하여 할당 부호를 적절하게 제어한다. 일반적으로, 진폭이 작으면 짧은 부호가 할당되고, 진폭이 큰 경우에는 긴 부호가 할당된다. 심볼의 직전의 심볼에 의존하여 할당 부호를 적절하게 제어하기 때문에, 진폭이 작은 값이 연속되면, 점점 짧은 부호가 할당되는 한편, 작은 진폭의 샘플의 뒤에 갑자기 큰 진폭이 출현하면 대단히 긴 부호가 할당되어 버린다.

또한 종래의 TwinVQ는 소정 샘플에 의해 구성되는 벡터 전체에 동일한 부호장의 부호를 할당하는 고정 길이 부호의 벡터 양자화를 사용하는 것을 전제로 하여 설계되어 있고, 가변 길이 부호화를 사용하여 MDCT 계수를 부호화하는 것은 전혀 상정되어 있지 않았다.

본 발명은 이러한 기술적 배경을 감안하여, 이산 신호, 특히 음성음향 디지털 신호의 저비트에서의 부호화에 의한 품질을 저연산량으로 개선하는 부호화 기술과 당해 부호화시에 실시되는 샘플열의 소팅의 지표가 되는 주기성 특징량을 결정하는 기술을 제공하는 것을 목적으로 한다.

본 발명의 부호화 기술에 의하면, 프레임 단위의 음향 신호에 유래하는 주파수 영역의 샘플열의 부호화 방법으로서, 프레임마다, 음향 신호의 주기성에 대응하는 샘플의 간격(T), 또는, 음향 신호의 기본주파수의 정수배에 대응하는 샘플의 간격(T)을, 간격(T)의 후보의 집합(S) 속에서 결정하는 간격 결정 처리와, 간격 결정 처리에서 결정된 간격(T)을 부호화하여 보조정보를 얻는 보조정보 생성 처리와, (1) 샘플열의 모든 샘플이 포함되고, 또한, (2) 간격 결정 처리에서 결정된 간격(T)에 기초하여, 샘플열 중 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플 및, 샘플열 중 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플의 전부 또는 일부의 샘플이 모이도록 샘플열에 포함되는 적어도 일부의 샘플을 소팅한 것을 소팅 후의 샘플열로 하고, 소팅 후의 샘플열을 부호화하여 부호열을 얻는 샘플열 부호화 처리를 갖는다. 간격 결정 처리에서는, 보조정보로 표현 가능한 간격(T)의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합을 집합(S)으로 하여, 간격(T)을 결정한다.

간격 결정 처리는 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보에 인접하는 값 또는/및 소정의 차분을 갖는 값을 집합(S)에 더하는 추가 처리를 더 포함해도 된다.

간격 결정 처리는 보조정보로 표현 가능한 간격(T)의 Z개의 후보 중 일부인 Z₁개의 후보로부터, 현재의 프레임의 음향 신호 또는/및 샘플열로부터 구해지는 지표에 기초하여 선택한 일부의 후보를 Z₂개의 후보(단, Z₂<Z₁)로 하는 예비 선택 처리를 더 포함해도 된다.

간격 결정 처리는 보조정보로 표현 가능한 간격(T)의 Z개의 후보 중 일부인 Z₁개의 후보로부터, 현재의 프레임의 음향 신호 또는/및 샘플열로부터 구해지는 지표에 기초하여 일부의 후보를 선택하는 예비 선택 처리와, 예비 선택 처리에서 선택된 후보와, 예비 선택 처리에서 선택된 후보에 인접하는 값 또는/및 소정의 차분을 값과 세트를 Z₂개의 후보로 하는 제 2 추가 처리를 더 포함해도 된다.

간격 결정 처리는 현재의 프레임의 음향 신호 또는/및 샘플열로부터 구해지는 지표에 기초하여, 집합(S)에 포함되는 간격(T)의 후보 중 일부의 후보를 선택하는 제 2 예비 선택 처리와, 제 2 예비 선택 처리에서 선택된 일부의 후보에 의해 구성되는 집합을 대상으로 하여 상기 간격(T)을 결정하는 최종 선택 처리를 포함해도 된다.

현재의 프레임의 음향 신호의 정상성의 크기를 나타내는 지표값이 클수록, 집합(S)에서, 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보가 차지하는 비율이 커지도록 해도 된다.

현재의 프레임의 음향 신호의 정상성의 크기를 나타내는 지표값이 소정의 조건보다 작은 경우에는, 집합(S)에는 Z₂개의 후보만이 포함되도록 해도 된다.

현재의 프레임의 음향 신호의 정상성의 크기를 나타내는 지표값은,

(a-1) 「현재의 프레임의 상기 음향 신호의 예측 이득」이 커지는 것,

(a-2) 「현재의 프레임의 상기 음향 신호의 예측 이득의 추정값」이 커지는 것,

(b-1) 「직전의 프레임의 예측 이득」과 「현재의 프레임의 예측 이득」과의 차분이 커지는 것,

(b-2) 「직전의 프레임의 예측 이득의 추정값」과 「현재의 프레임의 예측 이득의 추정값」과의 차분이 작아지는 것,

(c-1) 「현재의 프레임에 포함되는 상기 음향 신호의 샘플의 진폭의 합」이 커지는 것,

(c-2) 「현재의 프레임에 포함되는 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」이 커지는 것,

(d-1) 「직전의 프레임에 포함되는 상기 음향 신호의 샘플의 진폭의 합」과 「현재의 프레임에 포함되는 상기 음향 신호의 샘플의 진폭의 합」과의 차분이 작아지는 것,

(d-2) 「직전의 프레임에 포함되는 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」과 「현재의 프레임에 포함되는 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」과의 차분이 작아지는 것,

(e-1) 「현재의 프레임의 상기 음향 신호의 파워」가 커지는 것,

(e-2) 「현재의 프레임의 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」가 커지는 것,

(f-1) 「직전의 프레임의 상기 음향 신호의 파워」와 「현재의 프레임의 상기 음향 신호의 파워」와는 차분이 작아지는 것,

(f-2) 「직전의 프레임의 상기 음향 신호의 샘플열을 주파수 영역으로 치환하여 얻어진 샘플열의 파워」와 「현재의 프레임의 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」와의 차분이 작은 것 중 어느 하나의 조건을 충족시키는 경우에, 커지는 값이다.

샘플열 부호화 처리는 소팅 전의 샘플열을 부호화하여 얻어지는 부호열과, 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 보조 정보, 중 부호량이 적은 쪽을 출력하는 처리를 포함해도 된다.

샘플열 부호화 처리는 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 보조정보의 부호량과의 합계가 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값보다 적은 경우에는, 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 보조정보를 출력하고, 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값이 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 보조정보의 부호량과의 합계보다 적은 경우에는, 소팅 전의 샘플열을 부호화하여 얻어지는 부호열을 출력하도록 해도 된다.

직전의 프레임에서 출력한 부호열이 소팅 후의 샘플열을 부호화하여 얻어진 부호열인 경우의 쪽이, 직전의 프레임에서 출력한 부호열이 소팅 전의 샘플열을 부호화하여 얻어진 부호열인 경우보다도, 집합(S)에서, 소정 프레임수만큼 과거의 프레임에서 간격 결정 처리의 대상이 된 후보가 차지하는 비율이 커지도록 해도 된다.

직전의 프레임에서 출력한 부호열이 소팅 전의 샘플열을 부호화하여 얻어진 부호열인 경우에는, 집합(S)에는 Z₂개의 후보만이 포함되도록 해도 된다.

현재의 프레임이 시간적으로 선두에 있는 프레임인 경우, 직전의 프레임이 본 발명의 부호화 방법 이외로 부호화된 경우, 직전의 프레임에서 출력한 부호열이 소팅 전의 샘플열을 부호화하여 얻어진 부호열인 경우 중 어느 하나에 해당되는 경우에는, 집합(S)에는 Z₂개의 후보만이 포함되도록 해도 된다.

또한 본 발명에 의한, 프레임 단위의 음향 신호의 주기성 특징량을 결정하는 방법은 프레임마다, 음향 신호의 주기성 특징량을, 주기성 특징량의 후보의 집합 속에서 결정하는 주기성 특징량 결정 처리와, 주기성 특징량 결정 처리로에서 얻어진 주기성 특징량을 부호화하여 보조정보를 얻는 보조정보 생성 처리를 갖는다. 주기성 특징량 결정 처리에서는, 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 주기성 특징량 결정 처리의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 소정 프레임수만큼 과거의 프레임에서 주기성 특징량 결정 처리의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합을 주기성 특징량의 후보의 집합(S)으로 하여, 주기성 특징량을 결정한다.

주기성 특징량 결정 처리는 소정 프레임수만큼 과거의 프레임에서 주기성 특징량 결정 처리의 대상이 된 후보에 인접하는 값 또는/및 소정의 차분을 갖는 값을 집합(S)에 첨가하는 추가 처리를 더 포함해도 된다.

현재의 프레임의 음향 신호의 정상성의 크기를 나타내는 지표값이 클수록, 집합(S)에서, 소정 프레임수만큼 과거의 프레임에서 주기성 특징량 결정 처리의 대상이 된 후보가 차지하는 비율이 크도록 해도 된다.

(b-1) 「직전의 프레임의 예측 이득」과 「현재의 프레임의 예측 이득」과의 차분이 작아지는 것,

(b-2) 「직전의 프레임의 예측 이득의 추정값」과 「현재의 프레임의 예측 이득의 추정값」과는 차분이 작아지는 것,

(f-1) 「직전의 프레임의 상기 음향 신호의 파워」와 「현재의 프레임의 상기 음향 신호의 파워」와의 차분이 작아지는 것,

(f-2) 「직전의 프레임의 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」와 「현재의 프레임의 상기 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」와의 차분이 작은 것 중 적어도 어느 하나의 조건을 충족시키는 경우에, 커지는 값이다.

본 발명에 의하면, 예를 들면, 음향 신호에 유래하는 주파수 영역의 샘플열에 포함되는 적어도 일부의 샘플을, 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플 및, 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플이 모이도록 소팅함으로써, 샘플의 크기를 반영하는 지표가 동등하거나 동일한 정도의 샘플이 모이도록 소팅한다고 하는 적은 연산량으로 실행 가능한 처리를 행함으로써, 부호화 효율의 향상이나 양자화 왜곡의 경감 등이 실현된다. 또한 음향 신호의 정상구간의 성질에 기초하여, 과거의 프레임에서 고려된 주기성 특징량이나 상기 간격의 후보를 고려함으로써, 현재의 프레임에서의 주기성 특징량이나 상기 간격의 결정을 효율적으로 행할 수 있다.

도 1은 부호화 장치의 실시형태의 기능 구성예를 도시하는 도면.
도 2는 부호화 방법의 실시형태의 처리 수순을 도시하는 도면.
도 3은 샘플열에 포함되는 샘플의 소팅의 일례를 설명하기 위한 개념도.
도 4는 샘플열에 포함되는 샘플의 소팅의 일례를 설명하기 위한 개념도.
도 5는 복호 장치의 실시형태의 기능 구성예를 도시하는 도면.
도 6은 복호 방법의 실시형태의 처리 수순을 도시하는 도면.
도 7은 간격(T)을 결정하기 위한 처리 기능의 일례를 도시하는 도면.
도 8은 간격(T)을 결정하기 위한 처리 수순의 일례를 도시하는 도면.
도 9는 간격(T)을 결정하기 위한 처리 수순의 변형예를 도시하는 도면.
도 10은 부호화 장치의 실시형태의 변형예를 도시하는 도면.

(발명을 실시하기 위한 형태)

도면을 참조하면서 본 발명의 실시형태를 설명한다. 또한, 중복되는 구성요소에는 동일한 참조부호를 붙여 중복설명을 생략한다.

본 발명은 소정의 시간구간의 음향 신호에 유래하는 주파수 영역의 샘플열을 양자화하는 틀 중에서, 주파수 영역의 샘플의 특징량에 기초하는 샘플의 소팅에 의해 양자화 왜곡을 작게 하면서, 가변 길이 부호화를 이용함으로써 부호량을 적게 한다고 하는 부호화의 개선을 특징 중 하나로 한다. 이하, 소정의 시간구간을 프레임으로 호칭한다. 예를 들면, 기본 주기가 비교적 명료한 프레임에서는 주기성에 맞춘 샘플의 소팅에 의해 큰 진폭의 샘플을 집중시킴으로써 부호화의 개선이 실현된다. 여기에서, 음향 신호에 유래하는 주파수 영역의 샘플열로서, 예를 들면, 프레임 단위의 음성음향 디지털 신호가 시간영역으로부터 주파수 영역으로 변환되어 얻어지는 DFT 계수열이나 MDCT 계수열, 이러한 계수열에 대하여 정규화나 가중치 부여나 양자화 등의 처리가 적용된 계수열 등을 예시할 수 있다. 이하, MDCT 계수열을 예로 들어 본 발명의 실시형태를 설명한다.

[실시형태]

「부호화 처리」

최초에 도 1∼도 4를 참조하여 부호화 처리를 설명한다. 본 발명의 부호화 처리는, 예를 들면, 주파수 영역 변환부(1)와 가중 포락 정규화부(2)와 정규화 이득 계산부(3)와 양자화부(4)와 소팅부(5)와 부호화부(6)를 구비하는 도 1의 부호화 장치(100), 또는, 주파수 영역 변환부(1)와 가중 포락 정규화부(2)와 정규화 이득 계산부(3)와 양자화부(4)와 소팅부(5)와 부호화부(6)와 간격 결정부(7)와 보조정보 생성부(8)를 구비하는 도 10의 부호화 장치(100a)에 의해 행해진다. 단, 부호화 장치(100) 또는 부호화 장치(100a)는 주파수 영역 변환부(1)와 가중 포락 정규화부(2)와 정규화 이득 계산부(3)와 양자화부(4)는 반드시 구비할 필요는 없고, 예를 들면, 부호화 장치(100)는 소팅부(5)와 부호화부(6), 부호화 장치(100a)는 소팅부(5)와 부호화부(6)와 간격 결정부(7)와 보조정보 생성부(8)에 의해 구성되기도 한다. 또한, 도 10에 예시되는 부호화 장치(100a)에서는 간격 결정부(7)가 소팅부(5)와 부호화부(6)와 보조정보 생성부(8)를 포함하지만, 이러한 구성에 한정되는 것은 아니다.

「주파수 영역 변환부(1)」

우선, 주파수 영역 변환부(1)가 프레임 단위로 음성음향 디지털 신호를 주파수 영역의 N점의 MDCT 계수열로 변환한다(스텝 S1).

일반론으로서 부호화측에서는 MDCT 계수열을 양자화하고, 양자화된 MDCT 계수열을 부호화하고, 얻어진 부호열을 복호측에 전송하고, 복호측에서는 당해 부호열로부터 양자화된 MDCT 계수열을 재구성하고, 또한 역MDCT 변환에 의해 시간영역의 음성음향 디지털 신호를 재구성할 수 있다. 그런데, MDCT 계수의 진폭은 근사적으로 일반적인 DFT의 파워 스펙트럼과 같은 진폭 포락(파워 스펙트럼 포락)을 가진다. 이 때문에, 진폭 포락의 대수값에 비례하는 정보 할당을 행함으로써, 전체 대역의 MDCT 계수의 양자화 왜곡(양자화 오차)을 균일하게 분산시킬 수 있고, 전체의 양자화 왜곡을 작게 할 수 있으며, 아울러 정보 압축도 실현된다. 또한, 파워 스펙트럼 포락은 선형 예측 분석에 의해 구해진 선형 예측 계수를 사용하여 효율적으로 추정할 수 있다. 이러한 양자화 오차를 제어하는 방법으로서는 각 MDCT 계수의 양자화 비트를 적절하게 할당하는(진폭을 평탄하게 한 후에 양자화의 스텝 폭을 조정하는) 방법이나, 가중 벡터 양자화에 의해 적절하게 가중치를 가하여 부호를 결정하는 방법이 있다. 여기에서는, 본 발명의 실시형태에서 실행되는 양자화 방법의 일례를 설명하지만, 설명하는 양자화 방법에 한정되는 것은 아닌 것에 유의하기 바란다.

「가중 포락 정규화부(2)」

가중 포락 정규화부(2)가 프레임 단위의 음성음향 디지털 신호에 대한 선형 예측 분석에 의해 구해진 선형 예측 계수를 사용하여 추정된 음성음향 디지털 신호의 파워 스펙트럼 포락 계수열에 의해, 입력된 MDCT 계수열의 각 계수를 정규화하고, 가중 정규화 MDCT 계수열을 출력한다(스텝 S2). 여기에서는 청각적으로 왜곡이 작아지는 것과 같은 양자화의 실현을 위해, 가중 포락 정규화부(2)는, 파워 스펙트럼 포락을 둔화시킨 가중 파워 스펙트럼 포락 계수열을 사용하여, 프레임 단위로 MDCT 계수열의 각 계수를 정규화한다. 이 결과, 가중 정규화 MDCT 계수열은 입력된 MDCT 계수열 정도의 큰 진폭의 경사나 진폭의 요철을 갖지 않지만, 음성음향 디지털 신호의 파워 스펙트럼 포락 계수열과 유사한 대소관계를 갖는 것, 즉, 낮은 주파수에 대응하는 계수측의 영역에 약간 큰 진폭을 갖고, 피치 주기에 기인하는 미세구조를 갖는 것으로 된다.

[가중 포락 정규화 처리의 구체예]

N점의 MDCT 계수열의 각 계수(X(1),···, X(N))에 대응하는 파워 스펙트럼 포락 계수열의 각 계수(W(1),···, W(N))는 선형 예측 계수를 주파수 영역으로 변환하여 얻을 수 있다. 예를 들면, 전극형 모델인 p차 자기 회귀 과정에 의해, 시각(t)의 시간 신호(x(t))는 p 시점까지 거슬러 올라간 과거의 자기 자신의 값(x(t-1),···, x(t-p))과 예측 잔차(e(t))와 선형 예측 계수(α₁,···, α_p)에 의해 식 (1)로 표시된다. 이 때, 파워 스펙트럼 포락 계수열의 각 계수W(n)[1≤n≤N]는 식 (2)로 표시된다. exp(·)은 네이피어수를 밑으로 하는 지수함수, j는 허수단위, σ²는 예측 잔차 에너지이다.

[수1]

(1)

(2)

선형 예측 계수는 주파수 영역 변환부(1)에 입력된 음성음향 디지털 신호를 가중 포락 정규화부(2)에 의해 선형 예측 분석하여 얻어진 것이어도 되고, 부호화 장치(100) 내 또는 부호화 장치(100a) 내에 있는 도시하지 않은 다른 수단에 의해 음성음향 디지털 신호를 선형 예측 분석하여 얻어진 것이어도 된다. 이러한 경우에는, 가중 포락 정규화부(2)가 선형 예측 계수를 사용하여 파워 스펙트럼 포락 계수열의 각 계수(W(1),···, W(N))를 구한다. 또한 부호화 장치(100) 내 또는 부호화 장치(100a) 내에 있는 다른 수단(파워 스펙트럼 포락 계수열 계산부(9))에 의해 파워 스펙트럼 포락 계수열의 각 계수(W(1),···, W(N))가 이미 얻어져 있는 경우에는, 가중 포락 정규화부(2)는 이 파워 스펙트럼 포락 계수열의 각 계수(W(1),···, W(N))를 사용할 수 있다. 또한, 후술하는 복호 장치(200)로도 부호화 장치(100) 또는 부호화 장치(100a)에서 얻어진 값과 동일한 값을 얻을 필요가 있기 때문에, 양자화된 선형 예측 계수 및/또는 파워 스펙트럼 포락 계수열이 이용된다. 이후의 설명에서, 특별히 예고하지 않는 한, 「선형 예측 계수」 또는 「파워 스펙트럼 포락 계수열」은 양자화된 선형 예측 계수 또는 파워 스펙트럼 포락 계수열을 의미한다. 또한 선형 예측 계수는, 예를 들면, 종래적인 부호화 기술에 의해 부호화되어 예측 계수 부호가 복호측에 전송된다. 종래적인 부호화 기술이란, 예를 들면, 선형 예측 계수 바로 그것에 대응하는 부호를 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 LSP 패러미터로 변환하고 LSP 패러미터에 대응하는 부호를 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 PARCOR 계수로 변환하고 PARCOR 계수에 대응하는 부호를 예측 계수 부호로 하는 부호화 기술 등이다. 부호화 장치(100) 내 또는 부호화 장치(100a) 내에 있는 다른 수단에 의해 파워 스펙트럼 포락 계수열이 얻어지는 구성인 경우에는, 부호화 장치(100) 내 또는 부호화 장치(100a) 내에 있는 다른 수단에서 선형 예측 계수가 종래적인 부호화 기술에 의해 부호화되어 예측 계수 부호가 복호측으로 전송된다.

여기에서는, 가중 포락 정규화 처리의 구체예로서 2개의 예를 제시하지만, 본 발명에서는 이들 예에 한정되는 것은 아니다.

<예 1>

가중 포락 정규화부(2)는 MDCT 계수열의 각 계수(X(1),···, X(N))를 당해 각 계수에 대응하는 파워 스펙트럼 포락 계수열의 각 계수의 보정값(W_γ(1),···, W_γ(N))으로 제산(나눗셈)함으로써, 가중 정규화 MDCT 계수열의 각 계수(X(1)/W_γ(1),···, X(N)/W_γ(N))를 얻는 처리를 행한다. 보정값(W_γ(n))[1≤n≤N]은 식 (3)으로 주어진다. 단, γ는 1 이하의 양의 정수이며, 파워 스펙트럼 계수를 둔화시키는 정수이다.

[수2]

(3)

<예 2>

가중 포락 정규화부(2)는 MDCT 계수열의 각 계수(X(1),···, X(N))를 당해 각 계수에 대응하는 파워 스펙트럼 포락 계수열의 각 계수의 β승(0<β<1)의 값(W(1)^β,···, W(N)^β)로 제산함으로써, 가중 정규화 MDCT 계수열의 각 계수(X(1)/W(1)^β,···, X(N)/W(N)^β)를 얻는 처리를 행한다.

이 결과, 프레임 단위의 가중 정규화 MDCT 계수열이 얻어지는데, 가중 정규화 MDCT 계수열은 입력된 MDCT 계수열 정도의 큰 진폭의 경사나 진폭의 요철을 가지지 않지만, 입력된 MDCT 계수열의 파워 스펙트럼 포락과 유사의 대소관계를 갖는 것, 즉, 낮은 주파수에 대응하는 계수측의 영역에 다소 큰 진폭을 갖고, 피치 주기에 기인하는 미세 구조를 갖는 것으로 된다.

또한, 가중 포락 정규화 처리에 대응하는 역처리, 즉, 가중 정규화 MDCT 계수열로부터 MDCT 계수열을 복원하는 처리가 복호측에서 행해지기 때문에, 파워 스펙트럼 포락 계수열로부터 가중 파워 스펙트럼 포락 계수열을 산출하는 방법을 부호화측과 복호측에서 공통의 설정으로 해 두는 것이 필요하다.

「정규화 이득 계산부(3)」

다음에 정규화 이득 계산부(3)가, 프레임마다, 가중 정규화 MDCT 계수열의 각 계수를 주어진 총 비트수로 양자화할 수 있도록, 전체 주파수에 걸친 진폭값의 합 또는 에너지값을 사용하여 양자화 스텝폭을 결정하고, 이 양자화 스텝폭이 되도록 가중 정규화 MDCT 계수열의 각 계수를 나눗셈하는 계수(이하, 이득이라고 한다.)를 구한다(스텝 S3). 이 이득을 나타내는 정보는 이득 정보로서 복호측에 전송된다. 정규화 이득 계산부(3)는, 프레임마다, 가중 정규화 MDCT 계수열의 각 계수를 이 이득으로 정규화(제산)한다.

「양자화부(4)」

다음에 양자화부(4)가, 프레임마다, 이득으로 정규화된 가중 정규화 MDCT 계수열의 각 계수를 스텝 S3의 처리에서 결정된 양자화 스텝 폭으로 양자화한다(스텝 S4).

「소팅부(5)」

스텝 S4의 처리에서 얻어진 프레임 단위의 양자화 MDCT 계수열은 본 실시형태의 주요부인 소팅부(5)의 입력이 되지만, 소팅부(5)의 입력은 스텝 S1∼스텝 S4의 각 처리에서 얻어진 계수열에 한정되지 않는다. 예를 들면, 가중 포락 정규화부(2)에 의한 정규화가 적용되지 않은 계수열이나 양자화부(4)에 의한 양자화가 적용되지 않은 계수열이어도 된다. 이것을 명시적으로 이해하기 위하여, 이하, 소팅부(5)의 입력을 음향 신호에 유래하는 「주파수 영역의 샘플열」 혹은 단지 「샘플열」이라고 호칭하기로 한다. 이 실시형태에서는, 스텝 S4의 처리에서 얻어진 양자화 MDCT 계수열이 「주파수 영역의 샘플열」에 상당하고, 이 경우, 주파수 영역의 샘플열을 구성하는 샘플은 양자화 MDCT 계수열에 포함되는 계수에 상당한다.

소팅부(5)는, 프레임마다, (1) 주파수 영역의 샘플열의 모든 샘플을 포함하고, 또한, (2) 샘플의 크기를 반영하는 지표가 동등하거나 동일한 정도의 샘플이 모이도록 주파수 영역의 샘플열에 포함되는 적어도 일부의 샘플을 소팅한 것을 소팅 후의 샘플열로서 출력한다(스텝 S5). 여기에서 「샘플의 크기를 반영하는 지표」란, 예를 들면, 샘플의 진폭의 절대값이나 파워(제곱값)이지만, 이것들에 한정되지 않는다.

[소팅 처리의 상세]

이 소팅 처리의 구체예를 설명한다. 예를 들면, 소팅부(5)는 (1) 샘플열의 모든 샘플을 포함하고, 또한, (2) 샘플열 중 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플 및, 샘플열 중 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플의 전부 또는 일부의 샘플이 모이도록 샘플열에 포함되는 적어도 일부의 샘플을 소팅한 것을 소팅 후의 샘플열로서 출력한다. 즉, 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플 및, 당해 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플이 모이도록, 입력된 샘플열에 포함되는 적어도 일부의 샘플이 소팅된다.

이 이유는, 기본주파수나 고조파(기본주파수의 정수배파)에 대응하는 샘플과 그것들 근방의 샘플의 진폭의 절대값이나 파워는 기본주파수와 고조파를 제외한 주파수 영역에 대응하는 샘플의 진폭의 절대값이나 파워보다도 크다고 하는 음향 신호, 특히 음성이나 악음(樂音) 등에 현저한 특징에 기초한다. 여기에서, 음성이나 악음 등의 음향 신호로부터 추출되는 음향 신호의 주기성의 특징량(예를 들면, 피치 주기)은, 기본주파수와 등가인 것이므로, 음향 신호의 주기성의 특징량(예를 들면, 피치 주기)이나 그 정수배에 대응하는 샘플과 그것들 근방의 샘플의 진폭의 절대값이나 파워는, 주기성 특징량이나 그 정수배를 제외한 주파수 영역에 대응하는 샘플의 진폭의 절대값이나 파워보다도 크다고 하는 특징도 확인된다.

그리고, 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플 및, 당해 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플은 저주파측에 하나의 묶음이 되도록 모아진다. 이하, 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플과 당해 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플과의 간격(이하, 단지 간격이라고 함)을 나타내는 기호를 T라고 한다.

구체예로서, 소팅부(5)는 입력된 샘플열로부터 간격(T)의 정수배에 대응하는 샘플(F(nT))의 전후의 샘플(F(nT-1), F(nT+1))을 포함한 3개의 샘플(F(nT-1), F(nT), F(nT+1))을 선택한다. F(j)는 주파수에 대응하는 샘플 인덱스를 나타내는 번호(j)에 대응하는 샘플이다. n은 1부터 nT+1이 미리 설정한 대상 샘플의 상한(N)을 초과하지 않는 범위의 각 정수로 한다. n=1은 기본주파수에 대응하고, n>1은 고조파에 대응한다. 주파수에 대응하는 샘플 인덱스를 나타내는 번호(j)의 최대값을 jmax라고 한다. n에 따라 선택된 샘플의 모임을 샘플군으로 호칭한다. 상한(N)은 jmax와 일치시켜도 되지만, 음성이나 악음 등의 음향 신호에서는 고영역에서의 샘플의 지표는 일반적으로 충분히 작은 경우가 많으므로, 후술하는 부호화 효율의 향상을 위해 큰 지표를 갖는 샘플을 저주파측에 모은다고 하는 관점에서, N은 jmax보다도 작은 값이어도 된다. 예를 들면, N은 jmax의 절반 정도의 값이어도 된다. 상한(N)에 기초하여 정해지는 n의 최대값을 nmax라고 하면, 입력된 샘플열에 포함되는 샘플 중, 최저 주파수로부터 제 1 소정 주파수(nmax*T+1)까지의 각 주파수에 대응하는 샘플이 소팅의 대상이 된다. 또한, 기호 *는 승산을 나타낸다.

소팅부(5)는 선택된 샘플(F(j))을 원래의 번호(j)의 대소관계를 유지한 채 샘플열의 선두부터 차례로 배치하여 샘플열(A)을 생성한다. 예를 들면, n이 1부터 5까지의 각 정수를 나타내는 경우, 소팅부(5)는 제 1 샘플군(F(T-1), F(T), F(T+1)), 제 2 샘플군(F(2T-1), F(2T), F(2T+1)), 제 3 샘플군(F(3T-1), F(3T), F(3T+1)), 제 4 샘플군(F(4T-1), F(4T), F(4T+1)), 제 5 샘플군(F(5T-1), F(5T), F(5T+1))을 샘플열의 선두부터 배열한다. 즉, 15개의 샘플(F(T-1), F(T), F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1))이 이 순서로 샘플열의 선두부터 배열되고, 이들 15개의 샘플이 샘플열(A)을 구성한다.

또한, 소팅부(5)는 선택되지 않은 샘플F(j)을, 원래의 번호(j)의 대소관계를 유지한 채 샘플열(A)의 최후부터 차례로 배치한다. 선택되지 않은 샘플F(j)은 샘플열(A)을 구성하는 샘플군 사이에 위치하는 샘플이며, 이러한 연속된 한 묶음의 샘플을 샘플 세트라고 호칭한다. 즉, 상기의 예라면, 제 1 샘플 세트(F(1), …, F(T-2)), 제 2 샘플 세트(F(T+2), …, F(2T-2)), 제 3 샘플 세트(F(2T+2), …, F(3T-2)), 제 4 샘플 세트(F(3T+2), …, F(4T-2)), 제 5 샘플 세트(F(4T+2), …, F(5T-2)), 제 6 샘플 세트(F(5T+2), …F(jmax))가 샘플열(A)의 최후부터 차례로 배열되고, 이들 샘플이 샘플열(B)을 구성한다.

요컨대, 이 예라면, 입력된 샘플열(F(j))(1≤j≤jmax)은 F(T-1), F(T), F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1), F(1), …, F(T-2), F(T+2), …, F(2T-2), F(2T+2), …, F(3T-2), F(3T+2), …, F(4T-2), F(4T+2), …, F(5T-2), F(5T+2), …F(jmax)로 소팅되게 된다(도 3 참조).

또한, 저주파수 대역에서는, 음향 신호의 주기성이나 기본주파수에 대응하는 샘플이나 그 정수배의 샘플 이외의 샘플에서도, 각 샘플은 진폭이나 파워가 큰 값을 갖는 경우가 많다. 그래서, 최저 주파수부터 소정의 주파수(f)까지의 각 주파수에 대응하는 샘플의 소팅을 행하지 않도록 해도 된다. 예를 들면, 소정의 주파수(f)를 nT+α라고 하면, 소팅 전의 샘플(F(1), …, F(nT+α))을 소팅하지 않고, 소팅 전의 F(nT+α+1) 이후의 샘플을 소팅의 대상으로 한다. α는 0 이상이고 또한 T보다도 어느 정도 작은 정수(예를 들면, T/2를 초과하지 않는 정수)로 미리 설정되어 있다. 여기에서 n은 2 이상의 정수이어도 된다. 또는, 소팅 전의 최저주파수에 대응하는 샘플로부터 연속되는 P개의 샘플(F(1), …, F(P))을 소팅하지 않도록 하고, 소팅 전의 F(P+1) 이후의 샘플을 소팅의 대상으로 해도 된다. 이 경우, 소정의 주파수(f)는 P이다. 소팅의 대상이 되는 샘플의 모임에 대한 소팅의 기준은 전술한 바와 같다. 또한, 제 1 소정의 주파수가 설정되어 있는 경우, 소정의 주파수(f)(제 2 소정의 주파수)는 제 1 소정의 주파수보다도 작다.

예를 들면, 소팅 전의 샘플(F(1), …, F(T+1))을 소팅하지 않고, 소팅 전의 F(T+2) 이후의 샘플을 소팅의 대상으로 하는 경우, 상기의 소팅의 기준에 따르면, 입력된 샘플열(F(j))(1≤j≤jmax)은 F(1), …, F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1), F(T+2), …, F(2T-2), F(2T+2), …, F(3T-2), F(3T+2), …, F(4T-2), F(4T+2), …, F(5T-2), F(5T+2), …F(jmax)로 소팅되게 된다(도 4 참조). 또한, 도 3 및 도 4에서는, 주파수 영역의 샘플열에 포함되는 모든 샘플이 0 이상의 값인지와 같이 도시하고 있지만, 이것은, 샘플의 소팅에 의해 저역측에, 보다 큰 진폭을 갖는 샘플이 치우치는 것을 이해하기 쉽게 도시하기 위한 편의에 지나지 않는다. 주파수 영역의 샘플열에 포함되는 각 샘플은 정 또는 부 또는 제로의 값을 갖는 경우가 있고, 이러한 경우에도, 상기의 소팅 처리 혹은 후술의 소팅 처리를 실행하면 된다.

소팅의 대상이 되는 번호(j)의 최대값을 결정짓는 상한(N) 혹은 제 1 소정의 주파수를 모든 프레임에 공통된 값으로 하지 않고, 프레임마다 상이한 상한(N) 혹은 제 1 소정의 주파수를 설정해도 된다. 이 경우, 프레임마다 상한(N) 혹은 제 1 소정의 주파수를 지정하는 정보를 복호측에 보내면 된다. 또한 소팅의 대상이 되는 번호(j)의 최대값을 지정하는 것이 아니고, 소팅하는 샘플군의 개수를 지정해도 되며, 이 경우, 샘플군의 개수를 프레임마다 설정하고, 샘플군의 개수를 지정하는 정보를 복호측에 보내도 된다. 물론, 소팅하는 샘플군의 개수를 모든 프레임에 공통으로 해도 된다. 또한 제 2 소정의 주파수(f)에 대해서도, 모든 프레임에 공통인 값으로 하지 않고, 프레임마다 상이한 제 2 소정의 주파수(f)를 설정해도 된다. 이 경우, 프레임마다 제 2 소정의 주파수를 지정하는 정보를 복호측에 보내면 된다.

이와 같이 소팅된 후의 샘플열은, 주파수를 횡축으로 하고, 샘플의 지표를 종축으로 한 경우에, 샘플의 지표의 포락선이 주파수의 증대에 따라 하강 경향을 보이게 된다. 이 이유로서, 주파수 영역의 샘플열은 음향 신호, 특히 음성 신호나 소리 신호의 특징으로서, 일반적으로 고주파 성분이 적다고 하는 사실을 들 수 있다. 바꾸어 말하면, 소팅부(5)는 샘플의 지표의 포락선이 주파수의 증대에 따라 하강 경향을 보이도록 입력된 샘플열에 포함되는 적어도 일부의 샘플을 소팅한다고 할 수도 있다.

또한, 이 실시형태에서는 저역측에, 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플 및, 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플을 모으는 소팅을 행했지만, 반대로 고영역측에, 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플 및, 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속되는 복수의 샘플을 모으는 소팅을 행해도 된다. 이 경우, 샘플열(A)에서는 샘플군이 역순으로 배열되고, 샘플열(B)에서는 샘플 세트가 역순으로 배열되어, 저역측에 샘플열(B)이 배치되고 샘플(B)의 뒤에 샘플열(A)이 배치된다. 즉, 상기의 예라면, 저역측으로부터, 제 6 샘플 세트(F(5T+2), …F(jmax)), 제 5 샘플 세트(F(4T+2), …, F(5T-2)), 제 4 샘플 세트(F(3T+2), …, F(4T-2)), 제 3 샘플 세트(F(2T+2), …, F(3T-2)), 제 2 샘플 세트(F(T+2), …, F(2T-2)), 제 1 샘플 세트(F(1), …, F(T-2)), 제 5 샘플군(F(5T-1), F(5T), F(5T+1)), 제 4 샘플군(F(4T-1), F(4T), F(4T+1)), 제 3 샘플군(F(3T-1), F(3T), F(3T+1)), 제 2 샘플군(F(2T-1), F(2T), F(2T+1)), 제 1 샘플군(F(T-1), F(T), F(T+1))의 순서로 샘플이 배열된다.

이와 같이 소팅된 후의 샘플열은, 주파수를 횡축으로 하고, 샘플의 지표를 종축으로 한 경우에, 샘플의 지표의 포락선이 주파수의 증대에 따라 증대 경향을 보이게 된다. 바꾸어 말하면, 소팅부(5)는 샘플의 지표의 포락선이 주파수의 증대에 따라 증대 경향을 보이도록 입력된 샘플열에 포함되는 적어도 일부의 샘플을 소팅한다고 할 수도 있다.

간격(T)은 정수가 아니고 소수(예를 들면, 5.0, 5.25, 5.5, 5.75)이어도 된다. 이 경우, 예를 들면, R(nT)을 nT를 반올림한 값으로 하여, F(R(nT-1)), F(R(nT)), F(R(nT+1))이 선택되게 된다.

「부호화부(6)」

부호화부(6)가 입력된 소팅 후의 샘플열을 부호화하고, 얻어진 부호열을 출력한다(스텝 S6). 부호화부(6)는 입력된 소팅 후의 샘플열에 포함되는 샘플의 진폭의 치우침에 따라 가변 길이 부호화를 전환하여 부호화한다. 즉, 소팅에 의해 프레임 내에서 저역측(혹은 고영역측)에 진폭이 큰 샘플이 모아져 있으므로, 부호화부(6)는 그 치우침에 적합한 가변 길이 부호화를 행한다. 소팅 후의 샘플열과 같이, 국소적인 영역마다 동등하거나 동일한 정도의 진폭을 갖는 샘플이 모여 있으면, 예를 들면, 영역마다 상이한 라이스 패러미터로 라이스 부호화함으로써 평균 부호량을 삭감할 수 있다. 이하, 프레임 내에서 저역측(프레임의 선두에 가까운 측)에 진폭이 큰 샘플이 모아져 있는 경우를 예로 들어 설명한다.

[부호화의 구체예]

구체예로서 부호화부(6)는 큰 진폭에 대응하는 지표를 갖는 샘플이 모여 있는 영역에서는 샘플마다 라이스 부호화(골롬 라이스 부호화라고도 함)를 적용한다.

이 영역 이외의 영역에서는, 부호화부(6)는 복수의 샘플마다 엔트로피 부호화(허프만 부호화나 산술 부호화 등)를 적용한다. 라이스 부호화의 적용에 관하여, 라이스 부호화의 적용 영역과 라이스 패러미터가 고정되어 있어도 되고, 또는, 라이스 부호화의 적용 영역과 라이스 패러미터의 조합이 상이한 복수의 선택지 중에서 하나 선택할 수 있는 구성이어도 된다. 이러한 복수의 선택지로부터 하나를 선택할 때, 라이스 부호화의 선택 정보로서, 예를 들면, 하기와 같은 가변 길이 부호(기호 ˝˝로 둘러싸인 바이너리값)를 사용할 수 있고, 부호화부(6)는 선택 정보도 부호열에 포함시켜 출력한다.

˝1˝: 라이스 부호화를 적용하지 않는다.

˝01˝: 라이스 부호화를 선두부터 1/32의 영역에 라이스 패러미터를 1로 하여 적용한다.

˝001˝: 라이스 부호화를 선두부터 1/32의 영역에 라이스 패러미터를 2로 하여 적용한다.

˝0001˝: 라이스 부호화를 선두부터 1/16의 영역에 라이스 패러미터를 1로 하여 적용한다.

˝00001˝: 라이스 부호화를 선두부터 1/16의 영역에 라이스 패러미터를 2로 하여 적용한다.

˝00000˝: 라이스 부호화를 선두부터 1/32의 영역에 라이스 패러미터를 3으로 하여 적용한다.

또한, 이러한 선택지 중에서 어느 것을 선택하면 되는지를 결정하는 방법으로서, 부호화 처리에서 얻어지는 각 라이스 부호화에 대응하는 부호열로 부호량을 비교하고, 가장 부호량이 작은 선택지를 선택한다고 하는 방법을 채용하면 된다.

또한 소팅 후의 샘플열에 0의 진폭을 갖는 샘플이 길게 계속되는 영역이 나타나면, 0의 진폭을 갖는 샘플의 연속수를, 예를 들면, 런 렝스 부호화함으로써 평균 부호량을 삭감할 수 있다. 이러한 경우, 부호화부(6)는 (1) 큰 진폭에 대응하는 지표를 갖는 샘플이 모여 있는 영역에서는 샘플마다 라이스 부호화를 적용하고, (2) 이 영역 이외의 영역에서는, (a) 0의 진폭을 갖는 샘플이 연속되는 영역에서는, 0의 진폭을 갖는 샘플의 연속수를 나타내는 부호를 출력하는 부호화를 행하고, (b) 나머지 영역에서는, 복수의 샘플마다 엔트로피 부호화(허프만 부호화나 산술 부호화 등)를 적용한다. 이러한 경우에도, 상술한 바와 같은 라이스 부호화의 선택을 행해도 된다. 이러한 경우, 어느 영역에 런 렝스 부호화가 적용되었는지를 나타내는 정보도 복호측에 전송될 필요가 있고, 예를 들면, 이 정보는 상기의 부호열에 포함된다. 또한, 엔트로피 부호화에 속하는 복수의 부호화 방법을 선택지로서 준비하고 있는 경우에는, 어느 부호화를 선택했는지를 특정하기 위한 정보도 복호측에 전송될 필요가 있고, 예를 들면, 이 정보는 상기의 부호열에 포함된다.

[간격(T)의 결정 방법]

간격(T)의 결정 방법에 대하여 설명한다. 간편한 결정 방법의 일례로서 간격(T)이 상이한 Z개의 후보(T₁, T₂, …, T_Z)를 미리 준비해 두고, 소팅부(5)가 각 후보(T_i)(i=1,2,…,Z)에 대하여 샘플열에 포함되는 샘플의 소팅을 실시하고, 후술하는 부호화부(6)가 각 후보(Ti)에 기초하여 얻어진 샘플열에 대응하는 부호열의 부호량을 얻고, 최소의 부호량을 부여한 후보(T_i)를 간격(T)으로 하여 선택한다고 하는 결정 방법을 들 수 있다. 샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보, 예를 들면, 간격(T)을 부호화하여 얻어지는 부호는 부호화부(6)로부터 출력된다.

적절한 간격(T)을 결정하기 위해서는, Z는 충분히 큰 수인 것이 바람직하다. 그러나, Z가 충분히 큰 수이면, 모든 후보에 대하여 실제 부호량을 계산하기 위하여 상당한 연산 처리량이 필요하게 되어, 효율의 관점에서 문제가 되는 경우가 있을지도 모른다. 이러한 관점에서 연산 처리량을 삭감하기 위하여, Z개의 후보에 대하여 예비 선택 처리를 적용하여 후보의 수를 Y개로 좁히는 것을 생각할 수 있다. 여기에서 예비 선택 처리란 각 후보에 기초하여 얻어진 소팅 후의 샘플열(경우에 따라서는 소팅 전의 샘플열)에 대응하는 부호열의 부호량을 근사적으로 구하거나, (부호량의 추정값을 구하거나), 또는 당해 부호열의 부호량을 반영하는 지표, 또는 당해 부호열의 부호량의 대소와 관련이 확인되는 지표(단, 여기에서의 지표는 「부호량」과는 다름)를 구함으로써, 최종 선택 처리의 대상이 되는 후보를 뽑는 처리를 말한다. 최종 선택 처리는 샘플열에 대응하는 부호열의 실제의 부호량에 기초하여 간격(T)을 선택하는 처리이다. 예비 선택 처리의 구체적인 처리 내용은 여러 가지로 생각할 수 있지만, 어떻든 예비 선택 처리에서 얻어진 Y개의 후보 각각에 대하여 샘플열에 대응하는 부호열의 부호량의 산출을 실제로 행하고, 최소의 부호량을 부여한 후보(T_j)(T_j∈S_Y; 단 S_Y는 Y개의 후보의 집합을 나타냄)를 간격(T)으로서 선택한다. Y는 적어도 Y<Z를 충족시키는 것이 필수적이지만, 연산 처리량의 의미가 있는 삭감의 관점에서는, 예를 들면, Y≤Z/2를 충족시키도록, Y는 Z에 비해 어느 정도 작은 값으로 설정해 두는 것이 바람직하다. 일반적으로 부호량을 산출하는 처리는 막대한 연산 처리량을 요하지만, 이 연산 처리량을 A로 하고, 예비 선택 처리의 연산 처리량은 그 1/10 정도의 연산 처리량 A/10으로 가정하면, Z개의 후보 모두에 대하여 부호량을 산출하는 처리를 행하면 이 연산 처리량은 ZA이며, 다른 한편, Z개의 후보에 대하여 예비 선택 처리를 행하고, 예비 선택 처리에서 선정된 Y개의 후보에 대하여 부호량을 산출하는 처리를 행하면, 전체의 연산 처리량은 (ZA/10+YA)가 된다. 이 경우, Y<9Z/10를 충족시키면, 예비 선택 처리를 경유하는 방법 쪽이 적은 연산 처리량으로 간격(T)을 결정할 수 있는 것을 알 수 있다.

본 발명에서는, 또한 적은 연산 처리량으로 간격(T)을 결정하는 방법을 제공하고, 이 실시형태의 설명에 앞서, 저연산 처리량으로 간격(T)을 결정하는 컨셉을 설명한다.

일반적으로, 음성이나 악음 등의 음향 신호에서는, 복수의 프레임에 걸친 정상적인 신호 구간에서는 음향 신호의 주기성 특징량이 당해 복수의 프레임에 걸쳐 완만하게 변화되는 경우가 많다. 따라서, 어떤 프레임(X_t)의 시간적으로 직전의 프레임(X_t-1)에서 결정된 간격(T_t-1)을 고려함으로써, 당해 프레임(X_t)에 있어서의 간격(T_t)를 효율적으로 결정할 수 있다고 생각된다. 단, 프레임(X_t-1)에서 결정된 간격(T_t-1)이 프레임(X_t)에서도 적절한 간격(T_t)이라고는 할 수 없으므로, 프레임(X_t-1)에서 결정된 간격(T_t-1)만을 고려하는 것이 아니고, 프레임(X_t-1)에서 간격(T_t-1)을 결정할 때에 사용된 간격(T)의 후보를 프레임(X_t)에서 간격(T_t)을 결정할 때의 간격(T)의 후보에 포함시키는 것이 바람직하다.

다른 한편, 복수의 프레임에 걸친 비정상적인 신호 구간에서는, 인접하는 프레임 사이여도, 음향 신호의 주기성 특징량의 연속성을 기대하기는 어렵다. 따라서, 도시하지 않은 별도의 수단에 의해 복수의 프레임에 걸친 신호구간이 정상적인 신호구간인지 비정상적인 신호 구간인지의 판정이 되어 있지 않은 상황이면, 「프레임(X_t-1)에서 간격(T_t-1)을 결정할 때에 사용된 간격(T)의 후보 중에서, 프레임(X_t)에서의 간격(T_t)을 탐색한다」라고 하는 방침이 반드시 바람직한 결과를 초래한다고는 할 수 없다. 즉, 당해 상황하에서는, 프레임(X_t-1)에서 간격(T_t-1)을 결정할 때에 사용된 간격(T)의 후보에 의존하지 않는 간격(T)의 후보 중에서도, 프레임(X_t)에서의 간격(T_t)을 탐색할 수 있도록 하는 편이 나은 것이다.

이러한 컨셉에 기초하는 실시형태를 구체적으로 설명한다(도 7과 도 8 참조). 이 실시형태에서는, 도 10에 도시하는 바와 같이, 부호화 장치(100a)에는 간격 결정부(7)가 구비되고, 간격 결정부(7) 내에 소팅부(5)와 부호화부(6)와 보조정보 생성부(8)가 구비된다.

(A) 예비 선택 처리(스텝 S71)

샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보에 의해 표현하는 것이 가능한 간격(T)의 후보는 보조정보를 고정 길이 부호화할지 가변 길이 부호화할지 등의 후술하는 부호화 방법에 대응하여 미리 정해져 있다. 간격 결정부(7)는 이 미리 정해져 있는 간격(T)이 상이한 Z개의 후보(T₁, T₂, …, T_Z) 중에서 미리 결정된 Z₁개의 후보를 기억해 둔다(Z₁<Z). 그 목적은 예비 선택 처리의 대상이 되는 후보의 수를 적게 하는 것에 있다. 예비 선택 처리의 대상이 되는 후보에는, T₁, T₂, …, T_Z 중, 그 프레임의 간격(T)으로서 바람직한 것을 가능한 한 많이 포함하는 것이 요망된다. 그러나 실제로는 예비 선택 처리를 행하기 전의 단계에서는 바람직함은 불분명하므로, 간격 결정부(7)는, 예를 들면, Z개의 후보(T₁, T₂, …, T_Z) 중에서 동일한 간격으로 선택한 Z₁개의 후보를 예비 선택 처리의 대상으로 한다. 예를 들면, 「Z개의 후보(T₁, T₂, …, T_Z) 중의 홀수번째의 후보를 예비 선택 처리의 대상으로 한다」(이 경우, Z₁=ceil(Z/2)이 된다. ceil(·)은 천정 함수임)라고 하는 기준으로 Z개의 후보(T₁, T₂, …, T_Z 중의 Z₁개의 후보를 예비 선택 처리의 대상으로 하면 된다. Z개의 후보의 집합을 S_Z로 하고(S_Z={T₁, T₂, …, T_Z}), Z₁개의 후보의 집합을 S_Z1으로 한다.

간격 결정부(7)는 예비 선택 처리의 대상으로 된 Z₁개의 후보에 대하여 상기의 선택 처리를 실시한다. 이 선택 처리에서 좁혀진 후보의 수를 Z₂개로 한다. 전술한 바와 같이, 예비 선택 처리의 구체적인 처리 내용은 여러 가지로 생각할 수 있지만, 소팅 후의 샘플열에 대응하는 부호열의 부호량의 대소와 관련이 확인되는 지표에 기초하는 방법으로서는, 예를 들면, 샘플의 지표의 저역으로의 집중도나, 주파수축에서 최고 주파수로부터 저역측을 향하여 제로의 진폭을 갖는 샘플의 연속수에 기초하여 Z₂개의 후보를 결정하는 것을 생각할 수 있다.

구체적으로는, Z₂의 값을 미리 설정하고 있지 않은 경우에는 다음과 같은 예비 선택 처리를 행한다. 간격 결정부(7)는, 각각의 후보에 대하여, 당해 후보에 기초하여 상기에서 설명한 샘플열의 소팅을 행하고, 소팅된 후의 샘플열의 저역측으로부터, 예를 들면, 1/4의 영역에 포함되는 샘플의 진폭의 절대값의 합을 샘플열에 대응하는 부호열의 부호량의 대소와 관련이 확인되는 지표로서 구하고, 이 합이 미리 정해진 임계값과 비교해서 크면, 당해 후보를 선택한다. 또는, 간격 결정부(7)는, 각각의 후보에 대하여, 당해 후보에 기초하여 상기에서 설명한 샘플열의 소팅을 행하고, 소팅된 후의 샘플열에서 최고 주파수로부터 저역측을 향하여 제로의 진폭을 갖는 샘플의 연속수를 샘플열에 대응하는 부호열의 부호량의 대소와 관련이 확인되는 지표로서 구하고, 이 연속수가 미리 정해진 임계값과 비교하여 크면, 당해 후보를 선택한다. 소팅은 소팅부(5)가 행한다. 이 경우, 결정된 후보의 수가 Z₂이며, 프레임마다 Z₂의 값은 바뀔 수 있다.

Z₂의 값을 미리 설정하고 있는 경우에는 다음과 같은 예비 선택 처리를 행한다. Z₁개의 후보 각각에 대하여, 간격 결정부(7)는 각 후보에 기초하는 상기에서 설명한 샘플열의 소팅을 행하고, 샘플이 소팅된 후의 샘플열의 저역측으로부터, 예를 들면, 1/4 영역에 포함되는 샘플의 진폭의 절대값의 합을 샘플열에 대응하는 부호열의 부호량의 대소와 관련이 확인되는 지표로서 구하고, 이 합의 값이 큰 쪽으로부터 Z₂개의 후보를 선택한다. 또는, Z₁개의 후보 각각에 대하여, 각 후보에 기초하는 상기에서 설명한 샘플열의 소팅을 행하고, 샘플이 소팅된 후의 샘플열에서 최고 주파수로부터 저역측을 향하여 제로의 진폭을 갖는 샘플의 연속수를 샘플열에 대응하는 부호열의 부호량의 대소와 관련이 확인되는 지표로서 구하고, 이 연속수가 큰 쪽부터 Z₂개의 후보를 선택한다. 샘플열의 소팅은 소팅부(5)가 행한다. 이 경우, 어느 프레임에서도 Z₂의 값은 동일하다. 당연하지만, Z>Z₁>Z₂인 관계를 적어도 충족시킨다. Z₂개의 후보의 집합을 S_Z2라고 한다.

(B) 추가 처리(스텝 S72)

다음에 간격 결정부(7)는 (A)의 예비 선택 처리에서 얻어진 후보의 집합(S_Z2)에 하나 또는 복수의 후보를 추가하는 처리를 행한다. 이 추가 처리를 행하는 목적은 프레임마다 Z₂의 값이 바뀔 수 있는 경우에 Z₂의 값이 너무 작아져서 상기의 최종선택 처리에 있어서의 간격(T)의 탐색 범위가 지나치게 좁아지는 것을 방지하는 것,또는, Z₂의 값이 어느 정도 큰 값이었다고 해도, 상기의 최종 선택 처리에서 적절한 간격(T)이 결정될 가능성을 조금이라도 넓히는 것이다. 또한, 본 발명의 간격(T)의 결정 방법의 목적은, 연산 처리량을 종래 기술보다 적게 하는 것이기 때문에, 집합(S_Z2)의 요소(후보)의 수를 |S_Z2|로 나타내면 |S_Z2|=Z₂이며, 추가되는 후보의 수를 Q라고 하면, Q가 Z₂+Q<Z를 충족시키는 것이 필수조건이 된다. 더욱 바람직한 조건은 Q가 Z₂+Q<Z₁을 충족시키는 것이다. 추가되는 후보는, 예를 들면, 집합(S_Z2)에 포함되는 후보(T_k)의 전후의 후보(T_k-1), T_k+1∈S_Z로 해도 된다(여기에서의 「전후」란 집합(S_Z)={T₁, T₂, …, T_Z}에 값의 크기에 기초하는 순서(T₁<T₂<…<T_Z)를 도입했을 때의 전후를 의미함). 이 이유는 (A)의 예비 선택 처리의 대상인 Z₁개의 후보에 후보(T_k-1, T_k+1)가 포함되어 있지 않을 가능성이 있기 때문이다. 단, 후보(T_k-1, T_k+1)∈S_Z1이며 후보(T_k-1, T_k+1)가 집합(S_Z2)에 포함되지 않는 경우, 후보(T_k-1, T_k+1)를 추가하지 않아도 된다. 또한 추가되는 후보는 집합(S_Z)으로부터 선택되면 되고, 예를 들면, 집합(S_Z2)에 포함되는 후보(T_k)에 대하여, T_k-α(단, T_k-α∈SZ) 및/또는 T_k+β(단, T_k+β∈S_Z)를 새로운 후보로서 추가하도록 해도 된다. 여기에서 α, β는, 예를 들면, 미리 정해진 정의 실수값이다. α=β이어도 된다. T_k-α 및/또는 T_k+β가 집합(S_Z2)에 포함되는 다른 후보와 중복되는 경우에는, 이 T_k-α 및/또는 T_k+β를 추가하지 않도록 한다(추가해도 의미가 없기 때문임). Z₂+Q개의 후보의 집합을 S_Z3으로 한다. 계속해서, (D1) 또는 (D2)의 처리가 행해진다.

(D) 예비 선택 처리(스텝 S73)

(D1-스텝 S731) 간격 결정부(7)는 간격(T)을 결정하는 대상의 프레임이 시간적으로 선두의 프레임인 경우, 집합(S_Z3)에 포함되는 Z₂+Q개의 후보에 대하여 상기의 예비 선택 처리를 실시한다. 이 예비 선택 처리에서 좁혀진 후보의 수를 Y개라고 한다. Y는 Y<Z₂+Q를 충족시킨다.

전술한 바와 같이, 예비 선택 처리의 구체적인 처리 내용은 여러 가지로 생각되지만, 예를 들면, (A)에 있어서의 예비 선택 처리와 동일한 내용의 처리를 행해도 된다(단, 출력되는 후보의 수는 상이하다(즉, Y≠Z₂)). 이 경우, Y의 값이 프레임마다 바뀔 수 있는 것에 유의하지 않으면 안 된다. (A)에 있어서의 예비 선택 처리와 상이한 내용의 예비 선택 처리를 행하면, 예를 들면, 집합(S_Z3)에 포함되는 Z₂+Q개의 후보 각각에 대하여, 각 후보에 기초하는 상기에서 설명한 샘플열의 소팅을 행하고, 소팅한 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량을 근사적으로 구하는 미리 정해진 근사식 등을 이용하여, 근사적 부호량(부호량의 추정값)을 구한다. 샘플열의 소팅은 소팅부(5)가 행한다. (A)에서의 예비 선택 처리에서 소팅 후의 샘플열이 얻어지고 있는 후보에 대해서는, (A)에서의 예비 선택 처리에서 얻어진 소팅 후의 샘플열을 사용해도 된다. 이 경우, Y의 값이 미리 설정되어 있지 않으면, 근사적 부호량이 미리 정해진 임계값 이하가 되는 후보를 후술의 (E) 부호량 산출 처리의 대상이 되는 후보로서 결정하면 되고(이 경우, 결정된 후보의 수가 Y임), Y의 값이 미리 설정되어 있으면, 근사적 부호량이 작은 쪽부터 Y개의 후보를 후술의 (E) 최종 선택 처리의 대상이 되는 후보로서 결정하면 된다. Y개의 후보는 메모리에 기억되고, 이들 Y개의 후보는 시간적으로 2번째의 프레임에서의 간격(T)의 결정 시에 후술의 (C) 또는 (D2)의 처리에서 이용된다. (D1)의 처리 후, (E)의 최종 선택 처리가 행해진다.

또한, (A)의 예비 선택 처리와 같은 내용의 예비 선택 처리를 (D1)에서 행하는 경우이며, (A)의 예비 선택 처리에서 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량의 대소와 관련이 확인되는 지표와 임계값과의 비교에 의해 후보를 선택하는 경우에는, (A)의 예비 선택 처리에서 선택된 후보는 (D1)의 예비 선택 처리에서도 반드시 선택되기 때문에, (B)의 추가 처리에서 추가된 후보에 대해서만 당해 지표와 당해 임계값과의 비교에 의해 후보를 선택하는 처리를 행하고, 여기에서 선택된 후보와 (A)의 예비 선택 처리에서 선택된 후보를 (E)의 최종 선택 처리의 대상이 되는 후보로 하면 된다. 단, (E)의 최종 선택 처리는 연산 처리량이 많기 때문에, (D1)의 예비 선택 처리에서는 Y의 값을 미리 설정한 고정값으로 하고, 근사적 부호량이 작은 쪽부터 Y개의 후보를 (E)의 최종 선택 처리의 대상이 되는 후보로서 결정하는 편이 바람직하다.

(D2-스텝 S732) 간격 결정부(7)는 간격(T)을 결정하는 대상의 프레임이 시간적으로 선두의 프레임이 아닌 경우, 합집합(S_Z3∪S_P)에 포함되는 고작 Z₂+Q+Y+W개 (단, |S_P|= Y+W)의 후보에 대해서 상기의 예비 선택 처리를 실시한다. 여기에서 합집합(S_Z3∪S_P)에 대하여 설명한다. 간격(T)을 결정하는 대상의 프레임을 X_t, 프레임(X_t)의 시간적으로 직전의 프레임을 X_t-1이라고 한다. 집합(S_Z3)은 상기의 (A)-(B)의 처리에서 얻어진 프레임(X_t)에서의 후보의 집합이며, 집합(S_Z3)에 포함되는 후보의 수는 Z₂+Q이다. 집합(S_P)은 프레임(X_t-1)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합(S_Y)과, 당해 집합(S_Y)에 대하여 후술하는 (C)의 추가 처리에 의해 추가되는 후보의 집합(S_W)과의 합집합이다. 집합(S_Y)은 메모리에 기억되어 있다. |S_Y|=Y, |S_W|=W이며, 적어도 |S_Z3∪S_P|<Z가 필수조건이다. 합집합(S_Z3∪S_P)에 포함되는 고작 Z₂+Q+Y+W개의 후보에 대해서 상기의 예비 선택 처리를 실시한다. 이 예비 선택 처리에서 좁혀진 후보의 수를 Y개라고 한다. Y는 Y<|S_Z3∪S_P|≤Z₂+Q+Y+W를 충족시킨다. 전술한 바와 같이, 예비 선택 처리의 구체적인 처리 내용은 여러 가지로 생각할 수 있지만, 예를 들면, 상기의 (B)에서의 예비 선택 처리와 같은 내용의 처리를 행해도 된다(단, 출력되는 후보의 수는 상이함(즉, Y≠Z₂)). 이 경우, Y의 값이 프레임마다 변할 수 있는 것에 유의하지 않으면 안 된다. 상기의 (B)에서의 예비 선택 처리와 상이한 내용의 예비 선택 처리를 행하면, 예를 들면, |S_Z3∪S_P|개의 후보 각각에 대하여, 각 후보에 기초하는 상기에서 설명한 샘플열의 소팅을 행하고, 소팅한 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량을 근사적으로 구하는 미리 정해진 근사식 등을 이용하여, 근사적 부호량(부호량의 추정값)을 구한다. 샘플열의 소팅은 소팅부(5)가 행한다. (A)에서의 예비 선택 처리에서 소팅 후의 샘플열이 얻어지고 있는 후보에 대해서는, (A)에서의 예비 선택 처리에서 얻어진 소팅 후의 샘플열을 사용해도 된다. 이 경우, Y의 값이 미리 설정되어 있지 않다면, 근사적 부호량이 미리 정해진 임계값 이하가 되는 후보를 후술의 (E)의 최종 선택 처리의 대상이 되는 후보로서 결정하면 되고(이 경우, 결정된 후보의 수가 Y임), Y의 값이 미리 설정되어 있으면, 근사적 부호량이 작은 쪽부터 Y개의 후보를 후술의 (E)의 최종 선택 처리의 대상이 되는 후보로서 결정하면 된다. Y개의 후보는 메모리에 기억되고, 이들 Y개의 후보는 시간적으로 다음 프레임에서의 간격(T)의 결정시에 실시되는 (D2)의 처리에서 이용된다. (D2)의 처리 후, (E)의 최종 선택 처리가 행해진다.

또한, (A)의 예비 선택 처리와 동일한 내용의 예비 선택 처리를 (D2)에서 행하는 경우로서, (A)의 예비 선택 처리에서 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량의 대소와 관련이 확인되는 지표와 임계값과의 비교에 의해 후보를 선택하는 경우에는, (A)의 예비 선택 처리에서 선택된 후보는 (D2)의 예비 선택 처리에서도 반드시 선택되기 때문에, (B)의 추가 처리에서 추가된 후보와 프레임(X_t-1)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보와 (C)의 추가 처리에서 추가된 후보에 대하여 당해 지표와 당해 임계값과의 비교에 의해 후보를 선택하는 처리를 행하고, 여기에서 선택된 후보와 (A)의 예비 선택 처리에서 선택된 후보를 (E)의 최종 선택 처리의 대상이 되는 후보로 하면 된다. 단, (E)의 최종 선택 처리는 연산 처리량이 많기 때문에, (D2)의 예비 선택 처리에서는 Y의 값을 미리 설정한 고정값으로 하고, 근사적 부호량이 작은 쪽부터 Y개의 후보를 (E)의 최종 선택 처리의 대상이 되는 후보로서 결정하는 편이 바람직하다.

(C) 추가 처리(스텝 S74)

간격 결정부(7)는 프레임(X_t-1)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합(S_Y)에 하나 또는 복수의 후보를 추가하는 처리를 행한다. 집합(S_Y)에 대하여 추가되는 후보는, 예를 들면, 집합(S_Y)에 포함되는 후보(T_m)의 전후의 후보(T_m-1, T_m+1)∈S_Z로 해도 된다(여기에서의 「전후」란 집합(S_Z)={T₁, T₂, …, T_Z}에 값의 크기에 기초하는 순서(T₁<T₂<…<T_Z)를 도입했을 때의 전후를 의미함). 또한 추가되는 후보는 집합(S_Z)으로부터 선택되면 되고, 예를 들면, 집합(S_Y)에 포함되는 후보(T_m)에 대하여, T_m-γ(단, T_m-γ∈S_Z) 및/또는 T_m+η(단, T_m+η∈S_Z)를 새로운 후보로서 추가하도록 해도 된다. 여기에서 γ, η는, 예를 들면, 미리 정해진 정의 실수값이다. γ=η이어도 된다. T_m-γ 및/또는 T_m+η가 집합(S_Y)에 포함되는 다른 후보와 중복되는 경우에는, 이 T_m-γ 및/또는 T_m+η를 추가하지 않도록 한다(추가해도 의미가 없기 때문임). 계속해서, (D2)의 처리가 행해진다.

(E) 최종 선택 처리(스텝 S75)

간격 결정부(7)는 Y개의 후보의 각각에 대하여, 각 후보에 기초하는 상기에서 설명한 샘플열의 소팅을 행하고, 소팅 후의 샘플열을 부호화하여 부호열을 얻고, 부호열의 실제의 부호량을 구하고, 최소의 부호량을 부여한 후보를 간격(T)으로서 선택한다. 샘플열의 소팅은 소팅부(5)가 행하고, 소팅 후의 샘플열의 부호화는 부호화부(6)가 행한다. (A) 또는 (D)에 있어서의 예비 선택 처리에서 소팅 후의 샘플열이 얻어지고 있는 후보에 대해서는, 예비 선택 처리에서 얻어진 소팅 후의 샘플열을 입력으로 하여 부호화부(6)가 부호화를 행하면 된다.

또한, (B)의 추가 처리, (C)의 추가 처리, (D)의 예비 선택 처리는 필수가 아니고, 이들 중 적어도 어느 하나를 행하지 않는 실시 구성이어도 된다. (B)의 추가 처리를 행하지 않는 경우, 집합(S_Z3)의 요소(후보)의 수를 |S_Z3|으로 나타내면, Q=0이므로 |S_Z3|=Z₂이다. (D)의 예비 선택 처리를 행하지 않는 경우에는, 집합(S_Z3)에 포함되는 고작 Z₂+Q개의 후보(간격(T)를 결정하는 대상의 프레임이 시간적으로 선두의 프레임인 경우) 또는 합집합(S_Z3∪S_P)에 포함되는 고작 Z₂+Q+Y+W개의 후보(간격(T)을 결정하는 대상의 프레임이 시간적으로 선두의 프레임이 아인 경우)가 (E)의 최종 선택 처리의 대상이 된다.

상기의 간격(T)의 결정에 관한 설명에서는, 「선두의 프레임」을 「시간적으로 선두의 프레임」이라고 했지만, 이러한 프레임에 한정되는 것은 아니다. 「선두의 프레임」은 다음 (1)-(3) 중 조건 A를 충족시키는 프레임 이외의 프레임이면 된다(도 9 참조).

<조건 A>

프레임에 대하여,

(1) 당해 프레임이 시간적으로 선두가 아니고,

(2) 하나 전의 프레임이 본 발명의 부호화 방법에 따라 부호화된 것이며, 또한,

(3) 하나 전의 프레임이 상기의 소팅 처리의 적용을 받고 있다.

상기의 설명에서는, (D2)의 처리에서, 집합(S_Y)을 「직전의 프레임(X_t-1)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합」이라고 했지만, 집합(S_Y)은 「간격(T)을 결정하는 대상의 프레임보다도 시간적으로 전의 복수의 프레임의 각각에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합의 합집합」이어도 된다. 즉, 과거의 프레임의 개수를 m이라고 하면, 집합(S_Y)은 프레임(X_t-1)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합(S_t-1)과, 프레임(X_t-2)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합(S_t-2)과, ···, 프레임(X_t-m)에서 간격(T)을 결정할 때에 후술의 (E)의 최종 선택 처리의 대상이 된 후보의 집합(S_t-m)과의 합집합, 즉 S_Y=S_t-1∪S_t-2∪…∪S_t-m이다. 단, m이 크면 연산 처리량이 증대하므로, Z, Z₁, Z₂, Q의 값 등에도 따르지만, m은 1, 2, 3 중 어느 하나로 하는 것이 바람직하다.

부호량을 산출하는 처리의 연산 처리량을 A라고 하고, 예비 선택 처리의 연산 처리량은 그 1/10 정도의 연산 처리량(A/10)이라고 가정하면, Z, Z₁, Z₂, Q, W, Y가 고정값으로서 미리 설정되어 있는 경우에 (A), (B), (C), (D2)의 각 처리를 실시했을 때의 연산 처리량은 고작 ((Z₁+Z₂+Q+Y+W)A/10+YA)가 된다. 여기에서 Z₂+Q≒3Z₂, Y+W≒3Y라고 하면, 연산 처리량은 ((Z₁+3Z₂+3Y)A/10+YA)가 된다. 상기의 연산 처리량 (ZA/10+YA)과 비교한 경우, Z>(Z₁+3Z₂+3Y)를 충족시키도록 Z, Z₁, Z₂, Y를 설정하면 연산 처리량을 삭감할 수 있게 된다. 예를 들면, 일례로서 Z=256, Z₁=64, Z₂=Y=8로 할 수 있다.

S_Z={T₁, T₂, …, T_Z}는 프레임마다 동일해도 상이해도 된다. 또한 Z의 값은 프레임마다 동일해도 상이해도 된다. 단, (E)의 최종 선택 처리의 대상이 되는 후보의 수는 Z보다도 작게 되는 것이 요구되므로, (D2)의 처리에서 |S_Y|가 Z 이상인 경우에는, 예를 들면, 메모리로부터 읽어들인 집합(S_Y)에 대하여 상기의 (A)의 예비 선택 처리와 동일한 지표를 사용한 후보의 좁힘을 행하고, (E)의 최종 선택 처리의 대상이 되는 후보의 수가 Z보다도 작게 되도록 하면 된다. 또한 (D)의 예비 선택 처리를 행하지 않은 경우이며 |S_Z3∪S_P|≥Z인 경우에도 S_Z3∪S_P에 대하여 상기의 (A)의 예비 선택 처리와 동일한 지표를 사용한 후보의 좁힘을 행하고, (E)의 최종 선택 처리의 대상이 되는 후보의 수가 Z보다도 작아지도록 하면 된다.

<간격(T)의 결정 방법의 변형예>

음성이나 악음 등의 음향 신호에서는 복수의 프레임에 걸친 정상적인 신호구간에서는 현재의 프레임과 과거의 프레임과의 상관이 높은 경우가 많다. 정상 신호가 갖는 이러한 성질을 이용하여, (D2)의 처리에서 S_Z3와 S_P의 비율을 바꿈으로써 압축 성능을 유지하면서, 보다 처리 연산량을 낮출 수 있다. 또한, 여기에서의 비율은 S_Z3에 대한 S_P의 비로서 정해져 있어도 되고, S_P에 대한 S_Z3의 비로서 정해져 있어도 되고, S_Z3∪S_P에 있어서의 S_P의 점유율로서 정해져 있어도 되고, S_Z3∪S_P에 있어서의 S_Z3의 점유율로서 정해져 있어도 된다.

어떤 신호구간의 정상성이 큰지 아닌지는, 예를 들면, 정상성의 크기를 나타내는 지표값이 임계값 이상인지 아닌지, 또는, 임계값보다 큰지 아닌지에 의해 판단할 수 있다. 정상성의 크기를 나타내는 지표값은, 예를 들면, 하기에 표시되는 것이다. 이하, 간격(T)을 결정하는 대상의 프레임을 현 프레임이라 호칭하고, 현 프레임의 시간적으로 직전의 프레임을 직전 프레임이라 호칭한다. 정상성의 크기를 나타내는 지표값은,

(a-1) 「현 프레임의 음향 신호의 예측 이득」이 크거나,

(a-2) 「현 프레임의 음향 신호의 예측 이득의 추정값」이 크거나,

(b-1) 「직전 프레임의 음향 신호의 예측 이득」과 「현 프레임의 음향 신호의 예측 이득」과의 차분이 작거나,

(b-2) 「직전 프레임의 음향 신호의 예측 이득의 추정값」과 「현 프레임의 음향 신호의 예측 이득의 추정값」과의 차분이 작거나,

(c-1) 「현 프레임에 포함되는 음향 신호의 샘플의 진폭의 합」이 크거나,

(c-2) 「현 프레임에 포함되는 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」이 크거나,

(d-1) 「직전 프레임에 포함되는 음향 신호의 샘플의 진폭의 합」과 「현 프레임에 포함되는 음향 신호의 샘플의 진폭의 합」의 차분이 작거나,

(d-2) 「직전 프레임에 포함되는 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」과 「현 프레임에 포함되는 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열에 포함되는 샘플의 진폭의 합」과의 차분이 작거나,

(e-1) 「현 프레임의 음향 신호의 파워」가 크거나,

(e-2) 「현 프레임의 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」가 크거나,

(f-1) 「직전 프레임의 음향 신호의 파워」와 「현 프레임의 음향 신호의 파워」와의 차분이 작거나,

(f-2) 「직전 프레임의 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」와 「현 프레임의 음향 신호의 샘플열을 주파수 영역으로 변환하여 얻어진 샘플열의 파워」와의 차분이 작을수록 커지는 값이다.

또한, 예측 이득은 예측 부호화에 있어서의 원신호의 에너지의 예측 오차 신호의 에너지에 대한 비이며, 이 값은 가중 포락 정규화부(2)가 출력한 당해 프레임의 가중 정규화 MDCT 계수열에 포함되는 샘플의 값의 절대값의 총합에 대한 주파수 영역 변환부(1)가 출력한 당해 프레임의 MDCT 계수열에 포함되는 샘플의 값의 절대값의 총합의 비, 또는, 당해 프레임의 가중 정규화 MDCT 계수열에 포함되는 샘플의 값의 2승의 총합에 대한 당해 프레임의 MDCT 계수열에 포함되는 샘플의 값의 2승의 총합의 비의 값에 거의 비례한다. 그래서, 「프레임의 음향 신호의 예측 이득」과 대소 관계가 등가인 값으로서 상기 중 어느 하나의 비의 값을 사용할 수 있다.

「프레임의 음향 신호의 예측 이득」은 가중 포락 정규화부(2)에서 사용하는 당해 프레임의 선형 예측 계수와 대응하는 m차의 PARCOR 계수를 k_m이라고 했을 때,

[수3]

에 의해 계산되는 E이다. 여기에서, 선형 예측 계수와 대응하는 PARCOR 계수는 양자화 전의 전체 차수의 PARCOR 계수로 한다. 또한, 선형 예측 계수와 대응하는 PARCOR 계수로서, 일부의 차수(예를 들면, 1차부터 P₂차까지. 단, P₂<P.)의 양자화 전의 PARCOR 계수, 또는, 일부 또는 전체 차수의 양자화 후의 PARCOR 계수를 사용하여 E를 계산한 경우에는, 계산된 E는 「프레임의 음향 신호의 예측 이득의 추정값」이 된다.

「프레임에 포함되는 음향 신호의 샘플의 진폭의 합」이란 당해 프레임에 포함되는 음성음향 디지털 신호의 샘플값의 절대값의 총합, 또는, 주파수 영역 변환부(1)가 출력한 당해 프레임의 MDCT 계수열에 포함되는 샘플값의 절대값의 총합이다.

「프레임의 음향 신호의 파워」란 당해 프레임에 포함되는 음성음향 디지털 신호의 샘플값의 자승의 총합, 또는, 주파수 영역 변환부(1)가 출력한 당해 프레임의 MDCT 계수열에 포함되는 샘플의 값의 2승의 총합이다.

또한, 예시된 (a)∼(f) 중 어느 하나를 정상성의 대소 판정에 사용해도 되고, 예시된 (a)∼(f) 중 2개 이상 사이의 논리합이나 논리곱을 정상성의 대소 판정에 사용해도 된다. 전자의 경우, 간격 결정부(7)가, 예를 들면, (a)의 「현 프레임의 음향 신호의 예측 이득」만을 사용하고, 「현 프레임의 음향 신호의 예측 이득」(G)과 미리 정해진 임계값(ε)과의 사이에 ε<G가 성립한 경우에 정상성이 크다고 판단하거나, 또는, 예를 들면, (b)의 「직전 프레임의 음향 신호의 예측 이득」과 「현 프레임의 음향 신호의 예측 이득」과의 차분만을 사용하여, 「직전 프레임의 음향 신호의 예측 이득」과 「현 프레임의 음향 신호의 예측 이득」과의 차분(G_diff)과 미리 정해진 임계값(τ) 사이에 G_diff<τ가 성립한 경우에 정상성이 크다고 판단한다. 후자의 경우, 간격 결정부(7)가, 예를 들면, (c)와 (e)의 양쪽 기준을 사용하여, 「현 프레임에 포함되는 음향 신호의 샘플의 진폭의 합」(Ac)과 미리 정해진 임계값(ξ)과의 사이에 ξ<Ac가 성립하고 또한 「현 프레임의 음향 신호의 파워」(Pc)와 미리 정해진 임계값(δ)과의 사이에 δ<Pc가 성립한 경우에 정상성이 크다고 판단하거나, 또는, 예를 들면, (a)와 (c)와 (f)의 기준을 사용하여, 「현 프레임의 음향 신호의 예측 이득」(G)과 미리 정해진 임계값(ε)과의 사이에 ε<G가 성립하고 또는 「현 프레임에 포함되는 음향 신호의 샘플의 진폭의 합」(Ac)과 미리 정해진 임계값(ξ)과의 사이에 ξ<Ac가 성립하고, 또한, 「직전 프레임의 음향 신호의 파워」와 「현 프레임의 음향 신호의 파워」와의 차분(P_diff)과 미리 정해진 임계값(θ)과의 사이에 P_diff<θ가 성립한 경우에 정상성이 크다고 판단한다.

이러한 정상성의 대소 판정에 의해 변경되는 S_Z3와 S_P의 비율은, 예를 들면, 미리 간격 결정부(7) 내의 룩업테이블에 정해져 있는 것으로 한다. 통상, 정상성이 크다고 판정된 경우, S_Z3∪S_P에서 S_P의 비율이 높아지도록(상대적으로 S_Z3의 비율이 낮아지도록, 혹은 S_Z3∪S_P에서 S_P의 비율이 50%를 초과하도록) 설정되고, 정상성이 크지 않다고 판정된 경우, S_Z3∪S_P에서 SP의 비율이 낮아지도록(상대적으로 S_Z3의 비율이 높아지도록, 혹은 S_Z3∪S_P에서 SP의 비율이 50%를 초과하지 않도록), 또는 당해 비율이 동일한 정도가 되도록 설정된다. 정상성이 크다고 판정된 경우, (D2)의 처리에서, 룩업테이블을 참조하여 SP의 비율(혹은 S_Z3의 비율)을 결정하고, S_P와 S_Z3에 포함되는 후보의 수가 당해 비율에 적합하도록, 예를 들면, 상기의 (A)의 예비 선택 처리와 동일한 지표가 큰 것부터 후보를 선택하는 처리에 의해 집합(S_Z3)에 포함되는 후보의 수를 줄인다. 반대로, 정상성이 크지 않다고 판정된 경우, (D2)의 처리에서, 룩업테이블을 참조하여 S_P의 비율(혹은 S_Z3의 비율)을 결정하고, S_P와 S_Z3에 포함되는 후보의 수가 당해 비율에 적합하도록, 예를 들면, 상기의 (A)의 처리와 동일한 지표가 큰 것부터 후보를 선택하는 처리에 의해 집합(S_P)에 포함되는 후보의 수를 조정한다. 이러한 처리에 의하면, (D2)의 처리의 대상이 되는 후보의 수를 줄임과 동시에, 현 프레임의 간격(T)이 후보로서 포함될 것 같은 쪽의 집합의 비율을 높일 수 있어, 효율적으로 간격(T)을 결정하는 것이 가능하게 된다. 또한, 정상성이 크지 않다고 판정된 경우, S_P를 공집합으로 해도 된다. 즉, 이 경우, 과거의 프레임에서 (E)의 최종 선택 처리의 대상이 된 후보를 현 프레임에서의 (D)의 예비 선택 처리의 대상에 포함시키지 않도록 하는 것이다.

또한 룩업테이블에, 정상성의 대소의 정도에 따라 S_Z3와 S_P의 상이한 비율을 설정해 두는 실시 구성도 가능하다. 예를 들면, (a)의 기준의 「현 프레임의 음향 신호의 예측 이득」만을 사용하여 정상성의 대소를 판정하는 경우, 「현 프레임의 음향 신호의 예측 이득」(G)에 대하여 복수의 임계값(ε₁, ε₂, …, ε_k-1, ε_k)(단, ε₁<ε₂<…<ε_k-1<ε_k)이 미리 주어져 있고, 룩업테이블에

G<ε₁⇒ S_Z3∪S_P에서의 S_P의 비율: 10%

ε₁≤G<ε₂⇒S_Z3∪S_P에서의 S_P의 비율: 20%

…

ε_k-1≤G<ε_k ⇒ S_Z3∪S_P에서의 S_P의 비율: 80%

εk≤G ⇒ S_Z3∪S_P에서의 S_P의 비율: 90%

로 미리 정해 두는 것이다. 여기에서는 (a)의 기준의 「현 프레임의 음향 신호의 예측 이득」만을 사용하는 예에 대하여 설명했지만, 다른 기준은 물론, 상기 (a)∼(f) 중 2개 이상 사이의 논리합이나 논리곱을 정상성의 대소 판정에 사용하는 경우이어도, 룩업테이블에, 정상성의 대소의 정도에 따라 S_Z3와 S_P의 상이한 비율을 설정해 둘 수 있다.

이상의 설명에서는, (D2)의 처리에서 집합(S_Z3와 S_P)이 정해져 있는 상황에서, 정상성의 대소 판정에 기초하여 S_Z3와 S_P의 비율을 변경하는 실시의 예를 설명했지만, 정상성의 대소 판정을 집합(S_Z3와 S_P)의 결정보다도 전에 행하는 실시도 가능하다. 예를 들면, 룩업테이블에, Y의 값과의 관계에서 정상성의 대소의 판정 결과에 따른 Z₁, Z₂, Q, W의 값을 미리 설정해 둔다. 정상성이 크다고 판정된 경우에 대응하는 Z₁, Z₂, Q의 값 중 적어도 어느 하나(바람직하게는 Z₂나 Q)가 Y+W의 값(단, W=0도 가능한 것으로 함)에 비해 |S_Z3|가 작아지도록 작은 값으로 설정된다(혹은 W가 큰 값으로 설정됨). 정상성이 크지 않다고 판정된 경우에 대응하는 Z₁, Z₂, Q의 값 중 적어도 어느 하나(바람직하게는 Z₂나 Q)가 Y+W의 값(단, W=0도 가능한 것으로 함)에 비해 |S_Z3|이 커지도록 큰 값으로 설정된다(혹은 W가 작은 값으로 설정됨).

정상성의 대소 판정을 집합(S_Z3와 S_P)의 결정보다도 전에 행하는 실시형태에서도, 룩업테이블에 정상성의 대소의 정도에 따른 Z₁, Z₂, Q의 값을 설정해 두는 것이 가능하다. 예를 들면, (a)의 기준의 「현 프레임의 음향 신호의 예측 이득」만을 사용하여 정상성의 대소를 판정하는 경우, 「현 프레임의 음향 신호의 예측 이득」(G)에 대하여 복수의 임계값(ε₁, ε₂, …, ε_k-1, ε_k)(단, ε₁<ε₂<…<ε_k-1<ε_k)이 미리 주어져 있고, 룩업테이블에,

G<ε₁ ⇒ Z₂=16, Q=30

ε₁≤G<ε₂ ⇒ Z₂=12, Q=20

…

ε_k-1≤G<ε_k ⇒ Z₂=4, Q=4

ε_k≤G ⇒ Z₂=2, Q=0

으로 미리 정해 두는 것이다. 여기에서는 (a)의 기준의 「현 프레임의 음향 신호의 예측 이득」만을 사용하는 예에 대하여 설명했지만, 다른 기준은 물론, 상기 (a)∼(f) 중 2개 이상의 사이의 논리합이나 논리곱을 정상성의 대소 판정에 사용하는 경우이어도, 룩업테이블에, 정상성의 대소의 정도에 따른 Z₁, Z₂, Q의 값을 설정해 둘 수 있다.

[주기성 특징량 결정 방법]

지금까지 적은 연산 처리량으로 간격(T)을 결정하는 방법을 설명했지만, 당해 방법에 의해 결정되어야 할 대상은 간격(T)에 한정되지 않는다. 당해 방법은, 예를 들면, 샘플의 소팅 시에 상기 샘플군을 특정하기 위한 정보인 음향 신호의 주기성 특징량(예를 들면, 기본주파수나 피치 주기 등)을 결정하는 방법으로서도 사용할 수 있다. 즉, 간격 결정부(7)를 주기성 특징량 결정 장치로서 기능시켜, 소팅 후의 샘플열을 부호화하여 얻어지는 부호열을 출력하지 않고, 간격(T)을 주기성 특징량으로서 결정해도 된다. 이 경우, 상기의 [간격(T)의 결정 방법]의 설명에서, 「간격(T)」을 「피치 주기」에 대체하면 되고, 또는, 샘플열의 샘플링 주파수를 「간격(T)」으로 제산한 값을 「기본주파수」로 하면 되어, 적은 연산 처리량으로 샘플의 소팅을 위한 기본주파수나 피치 주기를 결정할 수 있다.

[샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보]

부호화부(6) 또는 보조정보 생성부(8)는 샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보, 즉, 음향 신호의 주기성을 나타내는 정보, 또는 기본주파수를 나타내는 정보, 또는 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플과 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플과의 간격(T)을 나타내는 정보를 출력한다. 또한, 부호화부(6)가 보조정보를 출력하는 경우, 샘플열의 부호화 처리 중에서 보조정보를 얻는 처리를 행해도 되고, 당해 부호화 처리와 다른 처리로서 보조정보를 얻는 처리를 행해도 된다. 예를 들면, 간격(T)을 프레임마다 결정하는 경우에는, 샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보도 프레임마다 출력되게 된다. 샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보는 주기성, 기본주파수 또는 간격(T)을 프레임마다 부호화하여 얻어진다. 이 부호화는 고정길이 부호화이어도 되고, 가변 길이 부호화하여 평균 부호량을 삭감해도 된다. 고정길이 부호화하는 경우에는, 예를 들면, 보조정보와 당해 보조정보를 일의적으로 특정 가능한 부호가 대응되어 기억되어 있고, 입력된 보조정보에 대응하는 부호를 출력하는 구성으로 된다. 가변 길이 부호화하는 경우에는, 전 프레임의 간격(T)과 현 프레임의 간격(T)의 차분을 가변 길이 부호화한 정보를 간격(T)을 나타내는 정보로 해도 된다. 이 경우에는, 예를 들면, 간격(T)의 차분값과 당해 차분값을 일의적으로 특정 가능한 부호가 대응되어 기억되어 있고, 입력된 전 프레임의 간격(T)과 현 프레임의 간격(T)의 차분에 대응하는 부호를 출력하는 구성으로 된다. 마찬가지로, 전 프레임의 기본주파수와 현 프레임의 기본주파수의 차분을 가변 길이 부호화한 정보를 기본주파수를 나타내는 정보로 해도 된다. 또한 n을 복수의 선택지로부터 선택 가능한 경우에는 n의 상한값 또는 상기의 상한(N)을 보조정보에 포함시켜도 된다.

[모으는 샘플의 개수]

또한 이 실시형태에서는, 각 샘플군에 포함되는 샘플의 개수가 주기성이나 기본주파수 내지 그 정수배에 대응하는 샘플(이하, 중심 샘플이라고 함)과 그 전후 1샘플의 계 3샘플이라고 하는 고정된 개수의 예를 게시했지만, 샘플군에 포함되는 샘플의 개수나 샘플 인덱스를 가변으로 하는 경우에는, 샘플군에 포함되는 샘플의 개수와 샘플 인덱스의 조합이 상이한 복수의 선택지 중에서 선택된 하나를 나타내는 정보도 보조정보에 포함시킨다.

예를 들면, 선택지로서,

(1) 중심 샘플만, F(nT)

(2) 중심 샘플과 그 전후 1샘플의 계 3샘플, F(nT-1), F(nT), F(nT+1)

(3) 중심 샘플과 그 전 2샘플의 계 3샘플, F(nT-2), F(nT-1), F(nT)

(4) 중심 샘플과 그 전 3샘플의 계 4샘플, F(nT-3), F(nT-2), F(nT-1), F(nT)

(5) 중심 샘플과 그 후 2샘플의 계 3샘플, F(nT), F(nT+1), F(nT+2)

(6) 중심 샘플과 그 후 3샘플의 계 4샘플, F(nT), F(nT+1), F(nT+2), F(nT+3)

가 설정되어 있는 경우에, (4)가 선택되면, 이 (4)가 선택된 것을 나타내는 정보가 보조정보에 포함된다. 이 예이면, 선택된 선택지를 나타내는 정보로서 3비트이면 충분하다.

또한, 이러한 선택지 중에서 어느 것을 선택하면 되는지 정하는 방법으로서, 소팅부(5)에서는 각 선택지에 대응하는 소팅을 실시히고 부호화부(6)에서 각 선택지에 대응하는 부호열의 부호량을 얻고, 가장 부호량이 작은 선택지를 선택한다고 하는 방법을 채용하면 된다. 이 경우에는, 샘플열에 포함되는 샘플의 소팅을 특정하는 보조정보는 소팅부(5)로부터가 아니고 부호화부(6)로부터 출력된다. 이 방법은 n을 선택가능한 경우에도 타당하다.

단, 선택지로서는, 예를 들면, 간격(T)에 관한 선택지, 샘플군에 포함되는 샘플의 개수와 샘플 인덱스의 조합에 관한 선택지, n에 관한 선택지가 있고, 이들 선택지의 모든 조합은 상당한 수가 되는 것이 예상된다. 이들 선택지의 모든 조합에 대하여 최종적인 부호량을 계산하는데 처리량이 관계되며, 효율의 관점에서 문제가 되는 경우가 있을지도 모른다. 이러한 관점에서 처리량을 삭감하기 위하여, 하기와 같은 근사 처리를 사용하는 것이 바람직하다. 즉, 부호화부(6)에서는, 선택지의 모든 조합에 대하여 간이하고 근사적인 방법으로 부호량의 추정값인 근사적 부호량을 구하고, 예를 들면, 근사적 부호량이 최소의 것부터 소정의 복수의 후보를 선택하는 등으로 바람직하다고 추정되는 복수의 후보를 좁히고, 좁혀진 후보(선택된 후보) 중에서 최소의 부호량을 부여한 선택지를 선택하면, 적은 처리량으로 최종적인 부호량을 거의 최적으로 작게 할 수 있다.

하나의 예로서, 우선, 샘플군에 포함되는 샘플수를 “3샘플”로 고정한 다음 간격(T)의 후보를 소수로 좁히고, 각 후보에 대하여, 샘플군에 포함되는 샘플수를 조합하여, 가장 바람직한 선택지를 선택하도록 해도 된다.

또는, 근사적으로 샘플의 지표의 합을 측정하고, 샘플의 지표의 저역으로의 집중도나, 주파수축에서 최고주파수로부터 저역측을 향하여 제로의 진폭을 갖는 샘플의 연속수로 선택지를 결정해도 된다. 구체적으로는, 소팅 후의 샘플열의 진폭의 절대값의 합을 전체의 샘플열의 저역측으로부터 1/4의 영역에 대하여 구하고, 그 총합이 미리 정해진 임계값과 비교해서 크면, 바람직한 소팅인 것이 상정된다. 또한 소팅 후의 샘플열의 최고주파수로부터 저역측을 향하여 제로의 진폭을 갖는 샘플의 연속수가 최장이 되는 선택지를 선택하는 방법에 의하면, 저역에 지표가 큰 샘플이 집중해 있는 것을 의미하고 있고, 이것도 바람직한 소팅인 것이 상정된다.

전술한 바와 같은 근사 처리로 선택지를 결정하면, 처리량은 적지만, 반드시 최종적인 부호량을 최소로 하는 샘플열에 포함되는 샘플의 소팅을 선택할 수 있다고 할 수 없는 경우가 생긴다. 이 때문에, 상술한 바와 같은 근사 처리로 복수의 후보를 선택하고, 이들 소수의 후보만에 대하여 최종적으로 부호량을 정확하게 계산하여 가장 바람직한(부호량이 작게 됨) 것을 선택하면 된다.

[변형예]

또한, 샘플열에 포함되는 샘플의 소팅에 의한 이점이 없는 경우도 생각할 수 있다. 이러한 경우에는 소팅 전의 샘플열을 부호화해야 한다. 그래서, 소팅부(5)로부터는 소팅 전의 샘플열(소팅을 행하지 않은 샘플열)도 출력하고, 부호화부(6)는 소팅 전의 샘플열도 가변 길이 부호화하여 부호열을 얻고, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량과, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량과 보조정보의 부호량과의 합계 부호량을 비교한다.

소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량 쪽이 적은 경우에는, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어진 부호열을 출력한다.

소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량과 보조정보의 부호량과의 합계 부호량 쪽이 적은 경우에는, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어진 부호열과 보조정보를 출력한다.

소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량과, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량과 보조정보의 부호량과의 합계 부호량이 동일한 경우에는, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어진 부호열과, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어진 부호열과 보조정보의 어느 한쪽을 출력한다. 어느 것을 출력할지는 미리 정해 둔다.

또한 부호열에 대응하는 샘플열이 소팅을 행한 샘플열인지 아닌지를 나타내는 제 2 보조정보도 출력한다(도 10 참조). 이 제 2 보조정보로서 1비트를 사용하면 충분하다.

또한, 전술과 같이 소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 근사적 부호량 즉 부호량의 추정값을 얻은 경우에는, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량 대신, 소팅 후의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 근사적 부호량을 사용해도 된다. 또 마찬가지로, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 근사적 부호량 즉 부호량의 추정값을 얻고, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 부호량 대신에, 소팅 전의 샘플열을 가변 길이 부호화하여 얻어지는 부호열의 근사적 부호량 즉 부호량의 추정값을 사용해도 된다.

또한 미리 예측 이득 또는 그 추정값이 어떤 정해진 임계값보다 큰 경우만 샘플열에 포함되는 샘플의 소팅을 적용하는 것으로 정해 둘 수도 있다. 이것은 예측 이득이 클 때에는 성대 진동이나 악기의 진동이 강하고, 주기성도 높은 경우가 많다고 하는 음성이나 악음의 성질을 이용하는 것이다. 예측 이득은 원음의 에너지를 예측 잔차의 에너지로 나눈 것이다. 선형 예측 계수나 PARCOR 계수를 패러미터로서 사용하는 부호화에서는, 양자화된 패러미터를 부호화 장치와 복호 장치로 공통적으로 사용할 수 있다. 그래서, 예를 들면, 부호화부(6)는 부호화 장치(100) 내의 도시하지 않은 다른 수단에 의해 구한 i차의 양자화된 PARCOR 계수(k(i))를 사용하고, (1-k(i)*k(i))를 차수마다 승산한 것의 역수로 표시되는 예측 이득의 추정값을 계산하고, 계산된 추정값이 어떤 정해진 임계값보다 큰 경우에는 소팅 후의 샘플열을 가변 길이 부호화하여 얻어진 부호열을 출력하고, 그렇지 않은 경우에는 소팅 전의 샘플열을 가변 길이 부호화하여 얻어진 부호열을 출력한다. 이 예와 같이 부호화 장치와 복호 장치에서 공통으로 사용할 수 있는 경우에는, 부호열에 대응하는 샘플열이 소팅을 행한 샘플열인지 아닌지의 여부를 나타내는 제 2 보조정보를 출력할 필요는 없다. 즉, 예측이 듣지 않는 잡음적 음성이나 무음 시에는 효과가 작을 가능성이 높으므로 소팅을 하지 않는다고 정해 두는 편이 보조정보나 계산의 낭비가 적다.

또한, 소팅부(5)에서, 예측 이득 또는 예측 이득의 추정값의 계산을 행하고, 예측 이득 또는 예측 이득의 추정값이 어떤 정해진 임계값보다 큰 경우에는 샘플열 에 대한 소팅을 행하여 소팅 후의 샘플열을 부호화부(6)에 출력하고, 그렇지 않은 경우에는 샘플열에 대한 소팅을 행하지 않고 소팅부(5)에 입력된 샘플열 그 자체를 부호화부(6)에 출력하고, 부호화부(6)에서는 소팅부(5)로부터 출력된 샘플열을 가변 길이 부호화하는 구성으로 해도 된다.

또한, 이 구성의 경우에는, 임계값을 부호화측과 복호측에서 공통의 값으로 하여 미리 설정해 두는 것으로 한다.

또한, 여기에서 예시한 라이스 부호화, 엔트로피 부호화, 런 렝스 부호화는 모두 주지이므로 그 상세한 설명을 생략한다.

「복호 처리」

계속해서 도 5∼도 6을 참조하여 복호 처리를 설명한다.

복호 장치(200)에서는, 부호화 장치(100) 또는 부호화 장치(100a)에 의한 부호화 처리와 역순의 처리에서 MDCT 계수가 재구성된다. 복호 장치(200)에는, 적어도, 상기 이득정보와, 상기 보조정보와, 상기 부호열이 입력된다. 또한, 부호화 장치(100a)로부터 제 2 보조정보가 출력된 경우에는 이 제 2 보조정보도 복호 장치(200)에 입력된다.

「복호부(11)」

우선, 복호부(11)가 프레임마다 입력된 부호열을 선택정보에 따라 복호하고 주파수 영역의 샘플열을 출력한다(스텝 S11). 당연하지만, 부호열을 얻기 위하여 실행된 부호화 방법에 대응하는 복호방법이 실행된다. 복호부(11)에 의한 복호 처리의 상세는 부호화 장치(100)의 부호화부(6)에 의한 부호화 처리의 상세에 대응하므로, 당해 부호화 처리의 설명을 여기에 원용하고, 실행된 부호화에 대응하는 복호가 복호부(11)가 행하는 복호 처리인 것을 명기하고, 이것을 가지고 복호 처리의 상세한 설명으로 한다. 또한, 어떤 부호화 방법이 실행되었는지는 선택정보에 의해 특정된다. 선택정보에, 예를 들면, 라이스 부호화의 적용 영역과 라이스 패러미터를 특정하는 정보와, 런 렝스 부호화의 적용 영역을 나타내는 정보와, 엔트로피 부호화의 종류를 특정하는 정보가 포함되어 있는 경우에는, 이들 부호화 방법에 따른 복호방법이 입력된 부호열의 대응하는 영역에 적용된다. 라이스 부호화에 대응하는 복호 처리, 엔트로피 부호화에 대응하는 복호 처리, 런 렝스 부호화에 대응하는 복호 처리는 모두 주지이므로 설명을 생략한다.

「회복부(12)」

다음에 회복부(12)가 프레임마다 입력된 보조정보에 따라, 복호부(11)가 출력한 주파수 영역의 샘플열로부터 원래의 샘플의 줄을 얻는다(스텝 S12). 여기에서 「원래의 샘플의 줄」이란 부호화 장치(100)의 소팅부(5)에 입력된 「주파수 영역의 샘플열」에 상당한다. 전술한 바와 같이, 부호화 장치(100)의 소팅부(5)에 의한 소팅 방법이나 소팅 방법에 대응하는 소팅의 선택지는 여러 가지 있지만, 소팅이 실행된 경우에는 실행된 소팅은 하나이며, 그 소팅을 특정하는 정보는 보조정보에 포함되어 있다. 따라서, 회복부(12)는 보조정보에 기초하여 복호부(11)가 출력한 주파수 영역의 샘플열을 원래의 샘플의 줄로 되돌릴 수 있다.

*또한, 보조정보에 소팅을 행했는지 아닌지를 나타내는 제 2 보조정보가 입력되는 구성도 있을 수 있다. 이 구성에서는, 회복부(12)는 소팅을 행했는지 아닌지를 나타내는 제 2 보조정보가 소팅을 행한 것을 나타내는 것인 경우에는 복호부(11)가 출력한 주파수 영역의 샘플열을 원래의 샘플의 줄로 되돌려서 출력하고, 소팅을 행하지 않은 것을 나타내는 것인 경우에는 복호부(11)가 출력한 주파수 영역의 샘플열을 그대로 출력한다.

또한 예측 이득 또는 예측 이득의 추정값의 대소에 의해 소팅을 행했는지 아닌지를 판단하는 구성도 있을 수 있다. 이 구성에서는, 회복부(12)는, 예를 들면, 복호 장치(200) 내의 도시하지 않은 다른 수단으로부터 입력된 i차의 양자화된 PARCOR 계수(k(i))를 사용하고, (1-k(i)*k(i))를 차수마다 승산한 것의 역수로 표시되는 예측 이득의 추정값을 계산하고, 계산된 추정값이 어떤 정해진 임계값보다 큰 경우에는 복호부(11)가 출력한 주파수 영역의 샘플열을 원래의 샘플의 줄로 되돌려서 출력하고, 그렇지 않은 경우에는 복호부(11)가 출력한 주파수 영역의 샘플열을 그대로 출력한다.

회복부(12)에 의한 회복 처리의 상세는 부호화 장치(100)의 소팅부(5)에 의한 소팅 처리의 상세에 대응하므로, 당해 소팅 처리의 설명을 여기에 원용하고, 그 소팅 처리의 역순의 처리(역의 소팅)가 회복부(12)가 행하는 회복 처리인 것을 명기하고, 이것을 가지고 회복 처리의 상세한 설명으로 한다. 또한, 이해를 돕기 위해, 상기의 소팅 처리의 구체예에 대응하는 회복 처리의 일례를 설명한다.

예를 들면, 소트부(5)가 샘플군을 저역측에 모아 F(T-1), F(T), F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1), F(1), …, F(T-2), F(T+2), …, F(2T-2), F(2T+2), …, F(3T-2), F(3T+2), …, F(4T-2), F(4T+2), …, F(5T-2), F(5T+2), …F(jmax)를 출력한 상기의 예이면, 회복부(12)에는 복호부(11)가 출력한 주파수 영역의 샘플열(F(T-1), F(T), F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1), F(1), …, F(T-2), F(T+2), …, F(2T-2), F(2T+2), …, F(3T-2), F(3T+2), …, F(4T-2), F(4T+2), …, F(5T-2), F(5T+2), …F(jmax))이 입력된다.

그리고, 보조정보에는, 예를 들면, 간격(T)에 관한 정보나, n이 1 이상 5 이하의 각 정수인 것을 의미하는 정보나, 샘플군에는 3샘플이 포함되는 것을 특정하는 정보 등이 포함되어 있다. 따라서, 회복부(12)는 이 보조정보에 기초하여, 입력된 샘플열(F(T-1), F(T), F(T+1), F(2T-1), F(2T), F(2T+1), F(3T-1), F(3T), F(3T+1), F(4T-1), F(4T), F(4T+1), F(5T-1), F(5T), F(5T+1), F(1), …, F(T-2), F(T+2), …, F(2T-2), F(2T+2), …, F(3T-2), F(3T+2), …, F(4T-2), F(4T+2), …, F(5T-2), F(5T+2), …F(jmax))을 원래의 샘플의 줄(F(j))(1≤j≤jmax)로 되돌릴 수 있다.

「역양자화부(13)」

다음에 역양자화부(13)가 프레임마다 회복부(12)가 출력한 원래의 샘플의 줄(F(j))(1≤j≤jmax)을 역양자화한다(스텝 S13). 상기의 예에 대응시켜 말하면, 역양자화에 의해, 부호화 장치(100)의 양자화부(4)에 입력된 「이득으로 정규화된 가중 정규화 MDCT 계수열」이 얻어진다.

「이득승산부(14)」

다음에 이득승산부(14)가 프레임마다 역양자화부(13)가 출력한 「이득으로 정규화된 가중 정규화 MDCT 계수열」의 각 계수에, 상기 이득정보에서 특정되는 이득을 곱하여, 「정규화된 가중 정규화 MDCT 계수열」을 얻는다(스텝 S14).

「가중 포락 역정규화부(15)」

다음에 가중 포락 역정규화부(15)가 프레임마다 이득승산부(14)가 출력한 「정규화된 가중 정규화 MDCT 계수열」의 각 계수에 가중 파워 스펙트럼 포락값을 제산 함으로써 「MDCT 계수열」을 얻는다(스텝 S15).

「시간영역 변환부(16)」

다음에 시간영역 변환부(16)가 프레임마다 가중 포락 역정규화부(15)가 출력한 「MDCT 계수열」을 시간영역으로 변환하여 프레임 단위의 음성음향 디지털 신호를 얻는다(스텝 S16).

스텝 S13부터 S16의 각 처리는 종래적 처리이므로 상세한 설명을 생략하였는데, 예를 들면, 상기 각 비특허문헌에 상세하게 기술된다.

실시형태로부터 명확한 바와 같이, 예를 들면, 기본주파수가 명료한 경우에는, 기본주파수에 따라 샘플열을 소팅한 것을 부호화함으로써, 효율이 높은 부호화를 할 수 있다(즉 평균 부호 길이를 작게 할 수 있다). 또한 샘플열에 포함되는 샘플의 소팅에 의해 국소 영역마다 동등하거나 동일한 정도의 지표를 갖는 샘플이 집중되므로, 가변 길이 부호화의 효율화뿐만 아니라, 양자화 왜곡의 경감이나 부호량의 삭감이 가능하게 되어 있다.

<부호화 장치/복호 장치의 하드웨어 구성예>

상기의 실시형태에 관한 부호화 장치/복호 장치는 키보드 등이 접속 가능한 입력부, 액정 디스플레이 등이 접속 가능한 출력부, CPU(Central Processing Unit)[캐시 메모리 등을 구비하고 있어도 된다.], 메모리인 RAM(Random Access Memory)이나 ROM(Read Only Memory)과, 하드 디스크인 외부 기억 장치, 및 이것들의 입력부, 출력부, CPU, RAM, ROM, 외부 기억 장치 사이의 데이터의 교환이 가능하도록 접속하는 버스 등을 구비하고 있다. 또한 필요에 따라, 부호화 장치/복호 장치에, CD-ROM 등의 기억매체를 읽고 쓰기 할 수 있는 장치(드라이브) 등을 설치해도 된다.

부호화 장치/복호 장치의 외부 기억 장치에는, 부호화/복호를 실행하기 위한 프로그램 및 이 프로그램의 처리에 있어서 필요하게 되는 데이터 등이 기억되어 있다[외부 기억 장치에 한하지 않고, 예를 들면, 프로그램을 읽어내기 전용 기억 장치인 ROM에 기억시켜 두는 등 해도 된다.]. 또한 이들 프로그램의 처리에 의해 얻어지는 데이터 등은 RAM이나 외부 기억 장치 등에 적당히 기억된다. 이하, 데이터나 그 저장 영역의 어드레스 등을 기억하는 기억 장치를 단지 「기억부」라고 부르기로 한다.

부호화 장치의 기억부에는 음성음향 신호에 유래하는 주파수 영역의 샘플열에 포함되는 샘플의 소팅을 행하기 위한 프로그램, 소팅에서 얻어진 샘플열의 부호화를 위한 프로그램 등이 기억되어 있다.

복호 장치의 기억부에는 입력된 부호열을 복호하기 위한 프로그램, 복호에서 얻어진 샘플열을 부호화 장치에서 소팅이 행해지기 전의 샘플열로 회복하기 위한 프로그램 등이 기억되어 있다.

부호화 장치에서는 기억부에 기억된 각 프로그램과 이 각 프로그램의 처리에 필요한 데이터가 필요에 따라 RAM에 읽어 들여지고, CPU에서 해석 실행·처리된다. 이 결과, CPU가 소정의 기능(소팅부, 부호화부)을 실현함으로써 부호화가 실현된다.

복호 장치에서는, 기억부에 기억된 각 프로그램과 이 각 프로그램의 처리에 필요한 데이터가 필요에 따라 RAM에 읽어 들여지고, CPU에서 해석 실행·처리된다. 이 결과, CPU가 소정의 기능(복호부, 회복부)을 실현함으로써 복호가 실현된다.

<보충기재>

본 발명은 상기의 실시형태에 한정되는 것은 아니고, 본 발명의 취지를 일탈하지 않는 범위에서 적당히 변경이 가능하다. 또한 상기 실시형태에서 설명한 처리는, 기재의 순서에 따라 시계열로 실행될 뿐만 아니라, 처리를 실행하는 장치의 처리 능력 또는 필요에 따라 병렬적으로 혹은 개별적으로 실행되는 것으로 해도 된다.

또한 상기 실시형태에서 설명한 하드웨어 엔터티(부호화 장치/복호 장치)에 있어서의 처리 기능을 컴퓨터에 의해 실현하는 경우, 하드웨어 엔터티가 가져야 할 기능의 처리 내용은 프로그램에 의해 기술된다. 그리고, 이 프로그램을 컴퓨터로 실행함으로써, 상기 하드웨어 엔터티에서의 처리 기능이 컴퓨터상에서 실현된다.

이 처리 내용을 기술한 프로그램은 컴퓨터로 읽어내기 가능한 기록 매체에 기록해 둘 수 있다. 컴퓨터로 읽어내기 가능한 기록 매체로서는, 예를 들면, 자기 기록 장치, 광디스크, 광자기 기록 매체, 반도체 메모리 등 어떤 것이어도 된다. 구체적으로는, 예를 들면, 자기 기록 장치로서 하드 디스크 장치, 플렉서블 디스크, 자기테이프 등을, 광디스크로서 DVD(Digital Versatile Disc), DVD-RAM(Random Access Memory), CD-ROM(Compact Disc Read Only Memory), CD-R(Recordable)/RW(ReWritable) 등을, 광자기 기록 매체로서 MO(Magneto-Optical disc) 등을, 반도체 메모리로서 EEP-ROM(Electronically Erasable and Programmable-Read Only Memory) 등을 사용할 수 있다.

또한 이 프로그램의 유통은, 예를 들면, 그 프로그램을 기록한 DVD, CD-ROM 등의 가반형 기록 매체를 판매, 양도, 대여 등 함으로써 행한다. 또한, 이 프로그램을 서버 컴퓨터의 기억 장치에 저장해 두고, 네트워크를 통하여, 서버 컴퓨터로부터 다른 컴퓨터에 그 프로그램을 전송함으로써, 이 프로그램을 유통시키는 구성으로 해도 된다.

이러한 프로그램을 실행하는 컴퓨터는, 예를 들면, 우선, 가반형 기록 매체에 기록된 프로그램 혹은 서버 컴퓨터로부터 전송된 프로그램을, 일단, 자기의 기억 장치에 저장한다. 그리고, 처리의 실행시, 이 컴퓨터는 자기의 기록 매체에 저장된 프로그램을 읽어내고, 읽어낸 프로그램에 따른 처리를 실행한다. 또한 이 프로그램의 다른 실행 형태로서, 컴퓨터가 가반형 기록 매체로부터 직접 프로그램을 읽어내고, 그 프로그램에 따른 처리를 실행하게 해도 되고, 또한, 이 컴퓨터에 서버 컴퓨터로부터 프로그램이 전송될 때마다, 차례로, 받은 프로그램에 따른 처리를 실행하는 것으로 해도 된다. 또한 서버 컴퓨터로부터, 이 컴퓨터로의 프로그램의 전송은 행하지 않고, 그 실행 지시와 결과 취득에만 의해 처리 기능을 실현하는, 소위 ASP(Application Service Provider)형의 서비스에 의해, 상기의 처리를 실행하는 구성으로 해도 된다. 또한, 본 형태에 있어서의 프로그램에는, 전자계산기에 의한 처리용으로 제공하는 정보로서 프로그램에 준하는 것(컴퓨터에 대한 직접적인 지령은 아니지만 컴퓨터의 처리를 규정하는 성질을 갖는 데이터 등)을 포함하는 것으로 한다.

또한 이 형태에서는, 컴퓨터상에서 소정의 프로그램을 실행시킴으로써, 하드웨어 엔터티를 구성하는 것으로 했지만, 이들 처리 내용의 적어도 일부를 하드웨어적으로 실현하는 것으로 해도 된다.

Claims

프레임 단위의 음향 신호의 주기성 특징량을 결정하는 방법으로서,
프레임마다 상기 음향 신호의 주기성 특징량을 주기성 특징량의 후보의 집합 속에서 결정하는 주기성 특징량 결정 스텝과,
상기 주기성 특징량 결정 스텝에서 얻어진 주기성 특징량을 부호화하여 보조정보를 얻는 보조정보 생성 스텝을 갖고,
상기 주기성 특징량 결정 스텝은,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정 스텝의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 상기 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정 스텝에서 결정된 상기 주기성 특징량 및 상기 과거의 프레임에서 상기 주기성 특징량 결정 스텝의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합(S)으로부터 선택한 1개의 후보를 상기 주기성 특징량으로서 결정하는 스텝인 것을 특징으로 하는 주기성 특징량 결정 방법.
프레임 단위의 음향 신호의 주기성 특징량을 결정하는 방법으로서,
프레임마다 상기 음향 신호의 주기성 특징량을 주기성 특징량의 후보의 집합 속에서 결정하는 주기성 특징량 결정 스텝과,
상기 주기성 특징량 결정 스텝에서 얻어진 주기성 특징량을 부호화하여 보조정보를 얻는 보조정보 생성 스텝을 갖고,
상기 주기성 특징량 결정 스텝은 예비 선택 스텝과 최종 선택 스텝을 포함하고,
상기 예비 선택 스텝은,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정 스텝의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 상기 소정 프레임수만큼 과거의 프레임에서 상기 최종 선택 스텝에서 결정된 상기 주기성 특징량 및 상기 과거의 프레임에서 상기 최종 선택 스텝의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합(S)으로부터 복수개의 후보를 선택하는 스텝이며,
상기 최종 선택 스텝은,
상기 예비 선택 스텝에서 선택된 상기 복수개의 후보로부터 선택한 1개의 후보를 상기 주기성 특징량으로서 결정하는 스텝인 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
상기 주기성 특징량은 상기 음향 신호의 주기 또는 기본주파수인 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
현재의 프레임의 상기 음향 신호의 정상성의 크기를 나타내는 지표값이 클수록, 상기 집합(S)에서, 상기 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정 스텝에서 결정된 상기 주기성 특징량 및 상기 과거의 프레임에서 상기 주기성 특징량 결정 스텝의 대상이 된 후보가 차지하는 비율이 큰 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
현재의 프레임의 상기 음향 신호의 정상성의 크기를 나타내는 지표값이 소정의 조건보다 작은 경우에는, 상기 주기성 특징량 결정 스텝은 상기 Z₂개의 후보만으로 이루어지는 집합으로부터 선택한 1개의 후보를 상기 주기성 특징량으로서 결정하는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
상기 주기성 특징량 결정 스텝은,
상기 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정 스텝에서 결정된 상기 주기성 특징량 및/또는 상기 과거의 프레임에서 상기 주기성 특징량 결정 스텝의 대상이 된 후보에 인접하는 값 또는/및 소정의 차분을 갖는 값을 상기 집합(S)에 더하는 추가 스텝을 더 포함하는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
상기 주기성 특징량 결정 스텝은,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중 일부인 Z₁개의 후보로부터, 현재의 프레임의 상기 음향 신호 또는/및 샘플열로부터 구해지는 지표에 기초하여 선택한 일부의 후보를 상기 Z₂개의 후보(단 Z₂<Z₁)로 하는 예비 선택 스텝을 더 포함하는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
상기 주기성 특징량 결정 스텝은,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중 일부인 Z₁개의 후보로부터, 현재의 프레임의 상기 음향 신호 또는/및 샘플열로부터 구해지는 지표에 기초하여 일부의 후보를 선택하는 예비 선택 스텝과,
상기 예비 선택 스텝에서 선택된 후보와, 상기 예비 선택 스텝에서 선택된 후보에 인접하는 값 또는/및 소정의 차분을 갖는 값과의 세트를 상기 Z₂개의 후보로 하는 제 2 추가 스텝을 더 포함하는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 1 항 또는 제 2 항에 있어서,
상기 음향 신호의 주기성 특징량은 상기 음향 신호의 주기성에 대응하는 샘플의 간격(T), 또는, 상기 음향 신호의 기본주파수의 정수배에 대응하는 샘플의 간격(T)이고,
상기 주기성 특징량 결정 스텝은, 상기 간격(T)을 상기 간격(T)의 후보의 집합(S) 속에서 결정하는 간격 결정 스텝이며,
(1) 상기 프레임 단위의 음향 신호에 유래하는 주파수 영역의 샘플열의 모든 샘플이 포함되고, 또한,
(2) 상기 간격 결정 스텝에서 결정된 간격(T)에 기초하여, 상기 샘플열 중의 상기 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플 및, 상기 샘플열 중 상기 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플의 전부 또는 일부의 샘플이 모이도록 상기 샘플열에 포함되는 적어도 일부의 샘플을 소팅한 것,
을 소팅 후의 샘플열로 하고, 상기 소팅 후의 샘플열을 부호화하여 부호열을 얻는 샘플열 부호화 스텝을 더 갖는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 9 항에 있어서,
상기 샘플열 부호화 스텝은,
상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열과, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 상기 보조정보 중 부호량이 적은 쪽을 출력하는 스텝을 포함하는 것을 특징으로 하는 주기성 특징량 결정 방법.
제 9 항에 있어서,
상기 샘플열 부호화 스텝은,
상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 상기 보조정보의 부호량과의 합계가, 상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값보다 적은 경우에는, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 상기 보조정보를 출력하고,
상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값이, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 상기 보조정보의 부호량과의 합계보다 적은 경우에는, 상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열을 출력하는 것을 특징으로 하는 주기성 특징량 결정 방법.
프레임 단위의 음향 신호의 주기성 특징량을 결정하는 장치로서,
프레임마다 상기 음향 신호의 주기성 특징량을 주기성 특징량의 후보의 집합 속에서 결정하는 주기성 특징량 결정부와,
상기 주기성 특징량 결정부에서 얻어진 주기성 특징량을 부호화하여 보조정보를 얻는 보조정보 생성부를 갖고,
상기 주기성 특징량 결정부는,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정부의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 상기 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정부에서 결정된 상기 주기성 특징량 및 상기 과거의 프레임에서 상기 주기성 특징량 결정부의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합(S)으로부터 선택한 1개의 후보를 상기 주기성 특징량으로서 결정하는 것을 특징으로 하는 주기성 특징량 결정 장치.
프레임 단위의 음향 신호의 주기성 특징량을 결정하는 장치로서,
프레임마다 상기 음향 신호의 주기성 특징량을 주기성 특징량의 후보의 집합 속에서 결정하는 주기성 특징량 결정부와,
상기 주기성 특징량 결정부에서 얻어진 주기성 특징량을 부호화하여 보조정보를 얻는 보조정보 생성부를 갖고,
상기 주기성 특징량 결정부는 예비 선택부와 최종 선택부를 포함하고,
상기 예비 선택부는,
상기 보조정보로 표현 가능한 주기성 특징량의 Z개의 후보 중, 소정 프레임수만큼 과거의 프레임에서 상기 주기성 특징량 결정부의 대상이 된 후보에 의존하지 않고 선택된 Z₂개의 후보(단, Z₂<Z)와, 상기 소정 프레임수만큼 과거의 프레임에서 상기 최종 선택부에서 결정된 상기 주기성 특징량 및 상기 과거의 프레임에서 상기 최종 선택부의 대상이 된 후보에 의한 Y개의 후보(단, Y<Z)에 의해 구성되는 집합(S)으로부터 복수개의 후보를 선택하며,
상기 최종 선택부는,
상기 예비 선택부에서 선택된 상기 복수개의 후보로부터 선택한 1개의 후보를 상기 주기성 특징량으로서 결정하는 것을 특징으로 하는 주기성 특징량 결정 장치.
제 12 항 또는 제 13 항에 있어서,
상기 주기성 특징량은 상기 음향 신호의 주기 또는 기본주파수인 것을 특징으로 하는 주기성 특징량 결정 장치.
제 12 항 또는 제 13 항에 있어서,
상기 음향 신호의 주기성 특징량은 상기 음향 신호의 주기성에 대응하는 샘플의 간격(T), 또는, 상기 음향 신호의 기본주파수의 정수배에 대응하는 샘플의 간격(T)이고,
상기 주기성 특징량 결정부는, 상기 간격(T)을 상기 간격(T)의 후보의 집합(S) 속에서 결정하는 간격 결정부이며,
(1) 상기 프레임 단위의 음향 신호에 유래하는 주파수 영역의 샘플열의 모든 샘플이 포함되고, 또한,
(2) 상기 간격 결정부에서 결정된 간격(T)에 기초하여, 상기 샘플열 중의 상기 음향 신호의 주기성 또는 기본주파수에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플 및 상기 샘플열 중 상기 음향 신호의 주기성 또는 기본주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플의 전부 또는 일부의 샘플이 모이도록 상기 샘플열에 포함되는 적어도 일부의 샘플을 소팅한 것,
을 소팅 후의 샘플열로 하고, 상기 소팅 후의 샘플열을 부호화하여 부호열을 얻는 샘플열 부호화부를 더 갖는 것을 특징으로 하는 주기성 특징량 결정 장치.
제 15 항에 있어서,
상기 샘플열 부호화부는,
상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열과, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 상기 보조정보 중 부호량이 적은 쪽을 출력하는 것을 특징으로 하는 주기성 특징량 결정 장치.
제 15 항에 있어서,
상기 샘플열 부호화부는,
상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 상기 보조정보의 부호량과의 합계가, 상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값보다 적은 경우에는, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열과 상기 보조정보를 출력하고,
상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값이, 상기 소팅 후의 샘플열을 부호화하여 얻어지는 부호열의 부호량 또는 그 추정값과 상기 보조정보의 부호량과의 합계보다 적은 경우에는, 상기 소팅 전의 샘플열을 부호화하여 얻어지는 부호열을 출력하는 것을 특징으로 하는 주기성 특징량 결정 장치.
제 1 항 또는 제 2 항에 기재된 방법의 각 스텝을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터가 판독 가능한 기록 매체.
제 9 항에 기재된 방법의 각 스텝을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터가 판독 가능한 기록매체.