RU2464650C2

RU2464650C2 - Apparatus and method for encoding, apparatus and method for decoding

Info

Publication number: RU2464650C2
Application number: RU2009122508/08A
Authority: RU
Inventors: Томофуми ЯМАНАСИ (JP); Томофуми ЯМАНАСИ; Масахиро ОСИКИРИ (JP); Масахиро ОСИКИРИ
Original assignee: Панасоник Корпорэйшн
Priority date: 2006-12-13
Filing date: 2007-12-12
Publication date: 2012-10-20
Also published as: RU2009122508A

Abstract

FIELD: information technology.

SUBSTANCE: encoding apparatus has a section for converting an input speech/audio signal to the frequency domain to obtain a frequency domain parameter; a section for selecting as the target quantisation range, a subrange from a plurality of subranges, wherein the plurality of subranges is obtained by dividing the frequency domain parameter; a section for quantisation of the form of the frequency domain parameter in the target quantisation range; a section for quantisation of the gain of the frequency domain parameter in the target quantisation range in order to obtain encoded gain information; and a section for determining whether predictive coding should be performed, based on the number of first subranges of the target quantisation range, which are common for the second subranges of the target quantisation range previously selected.

EFFECT: reduced volume of encoded information and audio signal coding errors, and improved quality of the decoded audio signal.

20 cl, 29 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

[0001] Настоящее изобретение относится к устройству кодирования/устройству декодирования и способу кодирования/способу декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется.[0001] The present invention relates to an encoding device / decoding device and an encoding method / decoding method used in a communication system in which a message is encoded and transmitted and received and decoded.

Уровень техникиState of the art

[0002] Когда речевой/аудио сигнал передается в мобильной системе связи или системе пакетной связи, символизируемой Интернет-связью, часто используется технология сжатия/кодирования, чтобы повысить эффективность передачи речевого/аудио сигнала. Кроме того, в последние годы был разработан способ масштабируемого кодирования/декодирования, который позволяет получить декодированный сигнал хорошего качества из части кодированной информации, даже если ошибка передачи имеет место во время передачи.[0002] When a voice / audio signal is transmitted in a mobile communication system or a packet communication system symbolized by Internet connection, compression / coding technology is often used to increase the transmission efficiency of the speech / audio signal. In addition, in recent years, a scalable encoding / decoding method has been developed that allows a good quality decoded signal to be obtained from part of the encoded information, even if a transmission error occurs during transmission.

[0003] Одной вышеописанной технологией сжатия/кодирования является технология кодирования с прогнозированием во временной области, которая повышает эффективность сжатия посредством использования временной корреляции речевого сигнала и/или аудиосигнала (ниже названного "речевой/аудио сигнал"). Например, в патентном документе 1 сигнал текущего кадра предсказывается из сигнала прошлого кадра, и способ кодирования с прогнозированием переключается согласно ошибке предсказания. Кроме того, в непатентном документе 1 описывается технология, посредством которой способ кодирования с прогнозированием переключается согласно степени изменения во временной области речевого параметра, такого как LSF (Линейная Спектральная Частота) и состояния наличия ошибки кадра.[0003] One compression / coding technique described above is a time domain prediction coding technique that improves compression efficiency by using temporal correlation of a speech signal and / or an audio signal (hereinafter referred to as “speech / audio signal”). For example, in Patent Document 1, a signal of a current frame is predicted from a signal of a past frame, and the prediction coding method is switched according to the prediction error. In addition, Non-Patent Document 1 describes a technology by which a prediction coding method is switched according to a degree of change in a time domain of a speech parameter such as an LSF (Linear Spectral Frequency) and a frame error state.

Патентный документ 1: японская выложенная патентная заявка № HEI 8-211900.Patent Document 1: Japanese Patent Application Laid-Open No. HEI 8-211900.

Непатентный документ 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, 7-10 Мая 1996, Стр.: 765-768, том 2.Non-Patent Document 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, May 7-10, 1996, pp. 765-768, Volume 2.

Раскрытие изобретенияDisclosure of invention

Проблемы, которые должны быть решены изобретениемProblems to be Solved by the Invention

[0004] Однако в любой из вышеупомянутых технологий прогнозирующее кодирование (кодирование с предсказанием) выполняется на основании параметра временной области на покадровой основе, и прогнозирующее кодирование на основании параметра не временной области, такого как параметр частотной области, не упоминается. Если способ кодирования с прогнозированием, основанный на параметре временной области, такой как описан выше, просто применяется к кодированию параметра частотной области, нет никакой проблемы, если целевой диапазон квантования является одинаковым в прошлом кадре и текущем кадре, но если целевой диапазон квантования является различным в прошлом кадре и текущем кадре, ошибка кодирования и степень ухудшения качества декодированного аудиосигнала сильно увеличивается, и речевой/аудио сигнал может быть не в состоянии быть декодированным.[0004] However, in any of the above technologies, predictive coding (prediction coding) is performed based on a time-domain parameter on a frame-by-frame basis, and predictive coding based on a non-time domain parameter, such as a frequency domain parameter, is not mentioned. If a prediction coding method based on a time domain parameter such as described above simply applies to encoding a frequency domain parameter, there is no problem if the quantization target range is the same in the last frame and the current frame, but if the quantization target range is different in the last frame and the current frame, the encoding error and the degree of deterioration of the quality of the decoded audio signal is greatly increased, and the speech / audio signal may not be able to be decoded.

[0005] Задача настоящего изобретения - обеспечить устройство кодирования и т.д., способное к сокращению объема кодированной информации речевого/аудио сигнала, а также способное уменьшить ошибки кодирования речевого/аудио сигнала и ухудшение качества декодированного аудиосигнала, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре.[0005] An object of the present invention is to provide an encoding device, etc., capable of reducing the amount of encoded information of a speech / audio signal, and also capable of reducing encoding errors of a speech / audio signal and deterioration of the quality of the decoded audio signal when a frequency component of an excellent range is made a target quantization in each frame.

Средство для решения упомянутых проблемMeans for solving the mentioned problems

[0006] Устройство кодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию преобразования, которая преобразовывает входной сигнал в частотную область, чтобы получить параметр частотной области; секцию выбора, которая выбирает целевой диапазон квантования из множества поддиапазонов, полученных при делении частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования; секцию квантования формы (сигнала), которая квантует форму (сигнала) параметра частотной области в целевом диапазоне квантования; и секцию квантования усиления, которая кодирует (коэффициент или значение) усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.[0006] An encoding device according to the present invention uses a configuration having: a conversion section that converts an input signal to a frequency domain to obtain a frequency domain parameter; a selection section that selects a quantization target range from a plurality of subbands obtained by dividing a frequency domain, and generates range information indicating a quantization target range; a quantization section of the shape (signal), which quantizes the shape (signal) of the frequency domain parameter in the quantization target range; and a gain quantization section that encodes (coefficient or value) a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information.

[0007] Устройство декодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; секцию деквантования формы (сигнала), которая декодирует информацию кодирования формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму (декодированный сигнал); секцию деквантования усиления, которая декодирует кодированную информацию усиления, в которой кодирован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области.[0007] A decoding apparatus according to the present invention uses a configuration having: a receiving section that receives information indicating a quantization target range selected from a plurality of subbands obtained by dividing the frequency domain of the input signal; a shape (signal) dequantization section that decodes shape encoding information in which the frequency domain parameter shape in the quantization target range is quantized to generate a decoded shape (decoded signal); a gain dequantization section that decodes encoded gain information in which a gain of a frequency domain parameter in a target quantization range is encoded to generate a decoded gain, and decodes a frequency parameter using a decoded shape and a decoded gain to generate a decoded frequency domain parameter; and a time-domain conversion section that converts the decoded frequency-domain parameter to the time-domain to obtain a decoded time-domain signal.

[0008] Способ кодирования согласно настоящему изобретению имеет: этап преобразования входного сигнала в частотную область, чтобы получить параметр частотной области; этап выбора целевого диапазона квантования из множества поддиапазонов, полученных посредством деления частотной области, и генерирования информации диапазона, указывающей целевой диапазон квантования; и этап квантования формы параметра частотной области в целевом диапазоне квантования, чтобы получить форму кодированной информации; и кодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.[0008] The encoding method according to the present invention has: a step of converting an input signal into a frequency domain to obtain a frequency domain parameter; a step of selecting a quantization target range from a plurality of subbands obtained by dividing a frequency domain, and generating range information indicating a quantization target range; and a step of quantizing a shape of a frequency domain parameter in a quantization target range to obtain a form of encoded information; and encoding a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information.

[0009] Способ декодирования согласно настоящему изобретению имеет: этап приема информации, указывающей целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; этап декодирования кодированной информации формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму; этап декодирования кодированной информации усиления, в которой квантован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирование параметра частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и этап преобразования декодированного параметра частотной области во временную область, чтобы получить декодированный сигнал временной области.[0009] The decoding method according to the present invention has: a step of receiving information indicative of a quantization target range selected from a plurality of subbands obtained by dividing the frequency domain of the input signal; a step of decoding the encoded form information in which the frequency domain parameter shape is quantized in the quantization target range to generate a decoded shape; the step of decoding encoded gain information in which the gain of the frequency domain parameter in the target quantization range is quantized to generate a decoded gain, and decoding the frequency domain parameter using the decoded shape and the decoded gain to generate the decoded frequency domain parameter; and the step of converting the decoded parameter of the frequency domain to the time domain to obtain a decoded signal of the time domain.

Преимущества изобретенияAdvantages of the Invention

[0010] Настоящее изобретение уменьшает объем кодированной информации речевого/аудио сигнала или подобного, и также может предотвратить резкое ухудшение качества декодированного сигнала, декодированной речи и т.д., и может уменьшить ошибку кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала.[0010] The present invention reduces the amount of encoded information of a speech / audio signal or the like, and can also prevent a sharp deterioration in the quality of a decoded signal, decoded speech, etc., and can reduce the encoding error of a speech / audio signal or the like and a deterioration in the quality of the decoded signal. .

Краткое описание чертежейBrief Description of the Drawings

[0011] Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;[0011] FIG. 1 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 1 of the present invention;

фиг.2 - это чертеж, иллюстрирующий пример конфигурации областей, полученных секцией выбора диапазона, согласно Варианту осуществления 1 настоящего изобретения;FIG. 2 is a drawing illustrating an example of a configuration of regions obtained by a range selection section according to Embodiment 1 of the present invention;

фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;3 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 1 of the present invention;

фиг.4 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;4 is a block diagram illustrating a basic configuration of an embodiment of a speech encoding apparatus according to Embodiment 1 of the present invention;

фиг.5 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;5 is a block diagram illustrating a basic configuration of an embodiment of a speech decoding apparatus according to Embodiment 1 of the present invention;

фиг.6 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 2 настоящего изобретения;6 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 2 of the present invention;

фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;7 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 2 of the present invention;

фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 2 настоящего изобретения;8 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 2 of the present invention;

фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;9 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 2 of the present invention;

фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 3 настоящего изобретения;10 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 3 of the present invention;

фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 3 настоящего изобретения;11 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 3 of the present invention;

фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 4 настоящего изобретения;12 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 4 of the present invention;

фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 4 настоящего изобретения;13 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 4 of the present invention;

фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 5 настоящего изобретения;14 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 5 of the present invention;

фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;15 is a block diagram illustrating a basic configuration of an inside of a range extension coding section according to Embodiment 5 of the present invention;

фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования корректирующего масштабного коэффициента согласно Варианту осуществления 5 настоящего изобретения;16 is a block diagram illustrating a basic configuration of an inside of a correction scale factor encoding section according to Embodiment 5 of the present invention;

фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;17 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 5 of the present invention;

фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 5 настоящего изобретения;Fig. 18 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 5 of the present invention;

фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;FIG. 19 is a block diagram illustrating a basic configuration of an inside of a band extension decoding section according to Embodiment 5 of the present invention;

фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;20 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 5 of the present invention;

фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 6 настоящего изобретения;21 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 6 of the present invention;

фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;FIG. 22 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 6 of the present invention; FIG.

фиг.23 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией выбора диапазона согласно Варианту осуществления 6 настоящего изобретения;23 is a drawing illustrating an example of a configuration of regions obtained by a band selection section according to Embodiment 6 of the present invention;

фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 6 настоящего изобретения;24 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 6 of the present invention;

фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;25 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 6 of the present invention;

фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 7 настоящего изобретения;26 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 7 of the present invention;

фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения;27 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 7 of the present invention;

фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 7 настоящего изобретения; и28 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 7 of the present invention; and

фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения.29 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 7 of the present invention.

Лучший режим выполнения изобретенияThe best mode of carrying out the invention

[0012] В качестве краткого обзора примера настоящего изобретения, при квантовании частотного компонента различного диапазона в каждом кадре, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, выполняется прогнозирующее кодирование в отношении параметра частотной области, и если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение, параметр частотной области кодируется непосредственно. Посредством этого, объем кодированной информации речевого/аудио сигнала или подобного сокращается, а также сильное ухудшение качества декодированного сигнала, декодированной речи и т.д. может быть предотвращено, и ошибка кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала и ухудшение качества декодированной аудиоречи, в частности, могут быть уменьшены.[0012] As a brief overview of an example of the present invention, when quantizing a frequency component of a different range in each frame, if the number of subbands common to the quantization target range of the past frame and the quantization target range of the current frame is determined to be greater than or equal to a predetermined value, a predictive encoding with respect to a frequency domain parameter, and if the number of common subbands is determined to be less than a predetermined value, the parameter is often This area is encoded directly. By this, the amount of encoded information of a speech / audio signal or the like is reduced, as well as a severe deterioration in the quality of the decoded signal, decoded speech, etc. can be prevented, and an encoding error of a speech / audio signal or the like, and a deterioration in the quality of the decoded signal and a deterioration in the quality of the decoded audio speech, in particular, can be reduced.

[0013] Варианты осуществления настоящего изобретения описаны ниже подробно со ссылками на сопроводительные чертежи. В нижеследующих описаниях устройство кодирования речи и устройство декодирования речи используются как примеры устройства кодирования и устройства декодирования согласно настоящему изобретению.[0013] Embodiments of the present invention are described below in detail with reference to the accompanying drawings. In the following descriptions, a speech encoding device and a speech decoding device are used as examples of an encoding device and a decoding device according to the present invention.

[0014] Вариант осуществления 1 [0014] Embodiment 1

Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения.1 is a block diagram illustrating a basic configuration of a speech encoding apparatus 100 according to Embodiment 1 of the present invention.

[0015] На этом чертеже устройство 100 кодирования речи снабжается секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы (сигнала), секцией 104 определения выполнения/невыполнения прогнозирующего кодирования, секцией 105 квантования (коэффициента или значения) усиления и секцией 106 мультиплексирования.[0015] In this figure, the speech coding apparatus 100 is provided with a frequency domain conversion section 101, a band selection section 102, a shape (signal) quantization section 103, predictive coding execution / non-execution determining section 104, and gain quantization (coefficient or value) section 105 and multiplexing section 106.

[0016] Секция 101 преобразования в частотную область выполняет Модифицированное дискретное косинусное преобразование (MDCT) с использованием входного сигнала, чтобы вычислить коэффициент MDCT, который является параметром частотной области, и выводит его на секцию 102 выбора диапазона.[0016] The frequency domain transform section 101 performs Modified Discrete Cosine Transform (MDCT) using an input signal to calculate the MDCT coefficient, which is a frequency domain parameter, and outputs it to the band selection section 102.

[0017] Секция 102 выбора диапазона делит введенный коэффициент MDCT из секции 101 преобразования в частотную область на множество поддиапазонов, выбирает диапазон в качестве целевого диапазона квантования из множества поддиапазонов и выводит информацию диапазона, указывающую выбранный диапазон, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования и секцию 106 мультиплексирования. Кроме того, секция 102 выбора диапазона выводит коэффициент MDCT на секцию 103 квантования формы. Ввод коэффициента MDCT на секцию 103 квантования формы также может быть выполнен непосредственно из секции 101 преобразования в частотную область отдельно от ввода из секции 101 преобразования в частотную область на секцию 102 выбора диапазона.[0017] The range selection section 102 divides the input MDCT coefficient from the frequency domain conversion section 101 into a plurality of subbands, selects a range as a quantization target range from a plurality of subbands, and outputs the range information indicating the selected range to a shape quantization section 103, a determination section 104 performing / not performing predictive coding and multiplexing section 106. In addition, the range selection section 102 outputs the MDCT coefficient to the shape quantization section 103. The input of the MDCT coefficient to the shape quantization section 103 can also be performed directly from the frequency domain conversion section 101 separately from the input from the frequency domain conversion section 101 to the range selection section 102.

[0018] Секция 103 квантования формы выполняет квантование формы (сигнала), используя коэффициент MDCT, соответствующий диапазону, указанному посредством информации диапазона, введенной из секции 102 выбора диапазона, из числа коэффициентов MDCT, введенных из секции 102 выбора диапазона, и выводит полученную информацию кодированной формы в секцию 106 мультиплексирования. Кроме того, секция 103 квантования формы находит идеальное значение усиления квантования формы и выводит полученное идеальное значение усиления на секцию 105 квантования усиления.[0018] The shape quantization section 103 quantizes the shape (signal) using an MDCT coefficient corresponding to the range indicated by the range information inputted from the range selection section 102 from among the MDCT coefficients inputted from the range selection section 102, and outputs the obtained encoded information forms into multiplexing section 106. In addition, the shape quantization section 103 finds the ideal shape quantization gain value and outputs the obtained ideal gain value to the gain quantization section 105.

[0019] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 102 выбора диапазона. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления.[0019] Predictive encoding execution / non-execution determining section 104 finds the number of subbands common to the quantization target range of the current frame and the quantization target range of the past frame using the range information inputted from the range selection section 102. Then, the predictive encoding execution / non-execution determining section 104 decides that the predictive encoding should be performed with respect to the MDCT coefficient of the quantization target range indicated by the range information if the number of common subbands is greater than or equal to a predetermined value, or decides that the predictive encoding should not be performed in relation to the MDCT coefficient of the quantization target range indicated by the range information, if the number of total subbands is less than dawn its specific value. Predictive encoding run / fail determination section 104 outputs the result of this determination to gain quantization section 105.

[0020] Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что должно быть выполнено прогнозирующее кодирование, секция 105 квантования усиления выполняет прогнозирующее кодирование усиления целевого диапазона квантования текущего кадра, используя значение усиления квантования прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить кодированную информацию усиления. С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления получает кодированную информацию усиления посредством прямого (непосредственного) квантования идеального значения усиления, введенного из секции 103 квантования формы. Секция 105 квантования усиления выводит полученную кодированную информацию усиления к секции 106 мультиплексирования.[0020] If the determination result inputted from the predictive coding fulfillment / failure determination section 104 indicates that predictive coding is to be performed, the gain quantization section 105 performs predictive encoding of the gain of the quantization target range of the current frame using the quantization gain value of the past frame stored in an internal buffer, and an internal gain codebook to obtain encoded gain information. On the other hand, if the determination result inputted from the predictive coding execution / non-execution determining section 104 indicates that predictive coding should not be performed, the gain quantization section 105 obtains encoded gain information by directly quantizing the ideal gain value input from the section 103 quantization forms. The gain quantization section 105 outputs the obtained encoded gain information to the multiplexing section 106.

[0021] Секция 106 мультиплексирования мультиплексирует информацию диапазона, введенную из секции 102 выбора диапазона, кодированную информацию формы, введенную из секции 103 квантования формы, и кодированную информацию усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.[0021] The multiplexing section 106 multiplexes the range information inputted from the range selection section 102, the encoded shape information inputted from the shape quantization section 103, and the encoded gain information inputted from the gain quantization section 105, and transmits the received bit stream to the speech decoding apparatus.

[0022] Устройство 100 кодирования речи, имеющее конфигурацию, такую как описана выше, разделяет входной сигнал на секции из N выборок (где N - натуральное число) и выполняет кодирование на покадровой основе с выборками N как один кадр. Работа каждой секции устройства 100 кодирования речи описывается подробно ниже. В нижеследующем описании входной сигнал кадра, который является целью кодирования, представляется x_n (где n=0, 1…, N-1). Здесь n указывает индекс каждой выборки в кадре, который является целью кодирования.[0022] A speech encoding apparatus 100 having a configuration as described above splits the input signal into sections of N samples (where N is a natural number) and performs frame-by-frame encoding with N samples as one frame. The operation of each section of the speech encoding apparatus 100 is described in detail below. In the following description, the input signal of the frame, which is the encoding target, is represented by x _n (where n = 0, 1 ..., N-1). Here, n indicates the index of each sample in the frame, which is the encoding target.

[0023] Секция 101 преобразования в частотную область имеет N внутренних буферов, и сначала инициализирует каждый буфер, используя значение 0 в соответствии с Уравнением (1) ниже.[0023] The frequency domain transform section 101 has N internal buffers, and first initializes each buffer using the value 0 in accordance with Equation (1) below.

bufbuf _nn =0= 0 (n=0, 1,…,N-1)(n = 0, 1, ..., N-1) Уравнение 1Equation 1

[0024] В этом уравнении buf _n (n=0…, N-1) указывает (n+1)-й из N буферов в секции 101 преобразования в частотную область.[0024] In this equation, buf _n (n = 0 ..., N-1) indicates the (n + 1) th of N buffers in the frequency domain transform section 101.

[0025] Затем секция 101 преобразования в частотную область находит коэффициент MDCT X_k посредством выполнения модифицированного дискретного косинусного преобразования (MDCT) входного сигнала x_n в соответствии с Уравнением (2) ниже[0025] Then, the frequency domain transform section 101 finds the MDCT coefficient X _k by performing a modified discrete cosine transform (MDCT) of the input signal x _n in accordance with Equation (2) below

,

, ( k = 0, ... N-1) Equation 2

[0026] В этом уравнении k указывает индекс каждой выборки в одном кадре, и x'_n - вектор, связывающий входной сигнал x_n и buf_n в соответствии с Уравнением (3) ниже.[0026] In this equation, k indicates the index of each sample in one frame, and x ' _n is the vector linking the input signal x _n and buf _n in accordance with Equation (3) below.

Equation 3

[0027] Затем секция 101 преобразования в частотную область обновляет buf_n (n=0…, N-1), как показано в Уравнении (4) ниже.[0027] Then, the frequency domain transform section 101 updates buf _n (n = 0 ..., N-1), as shown in Equation (4) below.

bufbuf _{n n} =x= x _nn (n=0,…, N-1)(n = 0, ..., N-1) Уравнение 4Equation 4

[0028] Затем секция 101 преобразования в частотную область выдает коэффициенты MDCT X_k в секцию 102 выбора диапазона.[0028] Then, the frequency domain transform section 101 provides MDCT coefficients X _k to the band selection section 102.

[0029] Секция 102 выбора диапазона сначала делит коэффициент MDCT X_k на множество поддиапазонов. Здесь описание будет дано, принимая случай, в котором коэффициент MDCT X_k делится равным образом на J поддиапазонов (где J - натуральное число) в качестве примера. Затем секция 102 выбора диапазона выбирает L последовательных поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов групп поддиапазонов (где М является натуральным числом). Ниже эти М видов групп поддиапазонов называются областями.[0029] The band selection section 102 first divides the MDCT coefficient X _k into a plurality of subbands. Here, a description will be given taking the case in which the MDCT coefficient X _k is equally divided by J subbands (where J is a natural number) as an example. Then, the range selection section 102 selects L consecutive subbands (where L is a natural number) from among J subbands, and obtains M kinds of subband groups (where M is a natural number). Below, these M kinds of subband groups are called regions.

[0030] Фиг.2 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией 102 выбора диапазона.[0030] FIG. 2 is a drawing illustrating an example of a configuration of regions obtained by a range selection section 102.

[0031] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей равно восьми (M=8), и каждая область состоит из пяти последовательных поддиапазонов (L=5). Из них, например, область 4 состоит из поддиапазонов 6-10.[0031] In this drawing, the number of subbands is 17 (J = 17), the number of kinds of regions is eight (M = 8), and each region consists of five consecutive subbands (L = 5). Of these, for example, region 4 consists of subbands 6-10.

[0032] Затем секция 102 выбора диапазона вычисляет среднюю энергию E (m) каждого из М видов областей в соответствии с Уравнением (5) ниже.[0032] Then, the range selection section 102 calculates the average energy E (m) of each of the M kinds of regions in accordance with Equation (5) below.

(m=0,…,M-1)(m = 0, ..., M-1) Equation 5

[0033] В этом уравнении j указывает индекс каждого из J поддиапазонов, m указывает индекс каждой из М видов областей, S(m) указывает минимальное значение среди индексов L поддиапазонов, составляющих область m, B(j) указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j, и W(j) указывает ширину полосы поддиапазона j. В нижеследующем описании случай, в котором значения ширина полосы J поддиапазонов все равны, то есть случай, в котором W(j) является константой, описан как пример.[0033] In this equation, j indicates the index of each of the J subbands, m indicates the index of each of the M kinds of regions, S (m) indicates the minimum value among the indices of the L subbands making up the region m, B (j) indicates the minimum value among the indices of the set of coefficients MDCT constituting subband j, and W (j) indicates the bandwidth of subband j. In the following description, the case in which the values of the bandwidth J of the subbands are all equal, that is, the case in which W (j) is a constant, is described as an example.

[0034] Затем секция 102 выбора диапазона выбирает область, например диапазон, состоящий из поддиапазонов j''-j''+L-1, для которого средняя энергия E(m) является максимальной, в качестве диапазона, который является целью квантования (целевой диапазон квантования), и выводит индекс m_max, указывающий эту область, в качестве информации диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 102 выбора диапазона также выводит коэффициент MDCT X_kна секцию 103 квантования формы. В следующем описании индексы диапазона, указывающие целевой диапазон квантования, выбранные секцией 102 выбора диапазона, предполагаются равными j''-j''+L-1.[0034] Then, the range selection section 102 selects a region, for example, a range consisting of subbands j ″ - j ″ + L-1, for which the average energy E (m) is maximum, as the range that is the target of quantization (target quantization range), and outputs an index m_max indicating this region as range information to the shape quantization section 103, the predictive encoding execution / non-execution determining section 104, and the multiplexing section 106. The range selection section 102 also outputs the MDCT coefficient X _k to the shape quantization section 103. In the following description, range indices indicating the quantization target range selected by the range selection section 102 are assumed to be j ″ - j ″ ″ + L − 1.

[0035] Секция 103 квантования формы выполняет квантование формы (сигнала) на основе поддиапазон-за-поддиапазоном в отношении коэффициента MDCT, соответствующего диапазону, указанному информацией диапазона m_max, введенной из секции 102 выбора диапазона. Более конкретно, секция 103 квантования формы ищет внутреннюю кодовую книгу формы, состоящую из количества SQ векторов кода формы, для каждого из L поддиапазонов, и находит индекс вектора кода формы, для которого результат Уравнения (6) ниже является максимальным.[0035] The shape quantization section 103 quantizes the shape (signal) based on a sub-band-by-subband with respect to the MDCT coefficient corresponding to the range indicated by the range information m_max input from the range selection section 102. More specifically, the shape quantization section 103 searches for an internal shape codebook, consisting of the number of SQ shape code vectors, for each of the L subbands, and finds the shape code vector index for which the result of Equation (6) below is maximum.

Уравнение 6

Equation 6

[0036] В этом уравнении SCⁱ _k указывает вектор кода формы, составляющий кодовую книгу формы, i указывает индекс вектора кода формы, и k указывает индекс элемента вектора кода формы.[0036] In this equation, SC ⁱ _k indicates the shape code vector constituting the shape codebook, i indicates the index of the shape code vector, and k indicates the index of the shape code vector element.

[0037] Секция 103 квантования формы выводит индекс S_max вектора кода формы, для которого результат Уравнения (6) выше максимума, к секции 106 мультиплексирования в качестве кодированной информации формы. Секция 103 квантования формы также вычисляет идеальное значение Gain_i(j) усиления в соответствии с Уравнением (7) ниже, и выводит его на секцию 105 квантования усиления.[0037] The shape quantization section 103 outputs the shape code vector index S_max, for which the result of Equation (6) is above the maximum, to the multiplexing section 106 as encoded shape information. The shape quantization section 103 also calculates the ideal gain value Gain_i (j) in accordance with Equation (7) below, and outputs it to the gain quantization section 105.

Gain_i(j)=

Gain_i (j) =

Equation 7

[0038] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона, в прошлом кадре. Ниже посредством примера описан случай, в котором секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для трех прошлых кадров. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 103 квантования формы в прошлом кадре, и информацию диапазона m_max, введенную из секции 103 квантования формы в текущем кадре. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше, чем заранее определенное значение. Более конкретно, L поддиапазонов, указанные информацией диапазона m_max, введенных из секции 102 выбора диапазона на один кадр назад во времени, сравниваются с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 102 выбора диапазона в текущем кадре, и определяется, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или определяется, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0038] The predictive coding fulfillment / failure determination section 104 has an internal buffer that stores range information m_max entered from the range selection section 102 in the last frame. A case is described below by way of example in which the predictive coding fulfillment / failure determination section 104 has an internal buffer that stores m_max range information for three past frames. Predictive encoding execution / non-execution determining section 104 first finds the number of subbands common for the quantization target range of the past frame and the quantization target range of the current frame using the m_max range information input from the shape quantization section 103 and the m_max range information input from the section 103 quantization forms in the current frame. Then, the predictive coding execution / non-execution determining section 104 decides that the predictive coding should be performed if the number of common subbands is greater than or equal to a predetermined value, or decides that the predictive coding should not be performed if the number of common subbands is less than the predetermined value . More specifically, the L subbands indicated by the m_max range information inputted from the band selection section 102 one frame back in time are compared with the L subbands indicated by the m_max range information entered from the m_max range section 102 from the range selection section 102 in the current frame, and it is determined that the prediction coding should be performed if the number of common subbands is P or greater, or it is determined that predictive coding should not be performed if the number of common subbands is less than P. The prediction coding result / non-execution outputs the result of this determination to the gain quantization section 105. Then, the predictive coding fulfillment / failure determination section 104 updates the internal buffer storing the range information using the range information m_max input from the range selection section 102 in the current frame.

[0039] Секция 105 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 105 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение C^t _j квантования усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 105 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (8), приведенного ниже, является минимум.[0039] The gain quantization section 105 has an internal buffer that stores the quantization gain value obtained in the last frame. If the determination result inputted from the predictive coding fulfillment / failure determination section 104 indicates that predictive coding is to be performed, the gain quantization section 105 quantizes by predicting the gain value of the current frame using the gain frame quantization value C ^t _j stored in the internal buffer. More specifically, the gain quantization section 105 searches for an internal gain codebook consisting of the number of GQ gain code vectors for each of the L subbands, and finds the gain code vector index for which the result of Equation (8) below is a minimum.

Уравнение 8

Equation 8

[0040] В этом уравнении GCⁱ _j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), j имеет значение от 0 до 4. Здесь C^t _j указывает значение усиления t кадров назад во времени, так что, когда t=l, например, C^t _j указывает значение усиления одного кадра назад во времени. Кроме того, α является линейным коэффициентом предсказания 4-го порядка, сохраненным в секции 105 квантования усиления. Секция 105 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0040] In this equation, GC ⁱ _j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. For example, if the number of subbands making up the region is five (L = 5), j has a value from 0 to 4. Here, C ^t _j indicates the gain value of t frames backward in time, so that when t = l, for example, C ^t _j indicates the gain value of one frame back in time. In addition, α is a fourth-order linear prediction coefficient stored in gain quantization section 105. The gain quantization section 105 processes the L subbands within the same region as an L-dimensional vector, and performs vector quantization.

[0041] Секция 105 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (8) выше является минимум, к секции 106 мультиплексирования, в качестве кодированной информации усиления. Если во внутреннем буфере нет значения усиления поддиапазона, соответствующего прошлому кадру, секция 105 квантования усиления заменяет значением усиления ближайшего поддиапазона по частоте во внутреннем буфере в Уравнении (8) выше.[0041] The gain quantization section 105 outputs the gain code vector index G_min, for which the result of Equation (8) above is a minimum, to the multiplexing section 106, as encoded gain information. If the internal buffer does not have a subband gain value corresponding to the previous frame, the gain quantization section 105 replaces the gain value of the nearest frequency subband in the internal buffer in Equation (8) above.

[0042] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления непосредственно квантует идеальное значение усиления Gain_i(j), введенное из секции 103 квантования формы, в соответствии с Уравнением (9) ниже. Здесь секция 105 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.[0042] On the other hand, if the determination result inputted from the predictive coding execution / non-execution determination section 104 indicates that the predictive coding should not be performed, the gain quantization section 105 directly quantizes the ideal gain value Gain_i (j) input from section 103 quantization of the form, in accordance with Equation (9) below. Here, the gain quantization section 105 processes the ideal gain value as an L-dimensional vector, and quantizes the vector.

Уравнение 9

Equation 9

[0043] Здесь индекс кодовой книги, который делает Уравнение (9) выше минимума, обозначается G_min.[0043] Here, the codebook index that makes Equation (9) above the minimum is denoted by G_min.

[0044] Секция 105 квантования усиления выводит G_min на секцию 106 мультиплексирования в качестве кодированной информации усиления. Секция 105 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (10) ниже с использованием кодированной информации G_min усиления и значения C^t _j квантования усиления, полученного в текущем кадре.[0044] The gain quantization section 105 outputs G_min to the multiplexing section 106 as encoded gain information. The gain quantization section 105 also updates the internal buffer in accordance with Equation (10) below using the encoded gain information G_min and the gain quantization value C ^t _j obtained in the current frame.

(j=0,…, L-1)

(j = 0, ..., L-1) Equation 10

[0045] Секция 106 мультиплексирования мультиплексирует информацию m_max диапазона, введенную из секции 102 выбора диапазона, кодированную информацию S_max формы, введенную из секции 103 квантования формы, и кодированную информацию G_min усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.[0045] The multiplexing section 106 multiplexes the range information m_max inputted from the range selection section 102, the encoded shape information S_max inputted from the shape quantization section 103, and the encoded gain information G_min inputted from the gain quantization section 105, and transmit the received bitstream to the device speech decoding.

[0046] Фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства 200 декодирования речи согласно этому варианту осуществления.[0046] FIG. 3 is a block diagram illustrating a basic configuration of a speech decoding apparatus 200 according to this embodiment.

[0047] В этом чертеже устройство 200 декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 203 определения выполнения/невыполнения прогнозирующего декодирования, секцией 204 деквантования усиления и секцией 205 преобразования во временную область.[0047] In this drawing, the speech decoding apparatus 200 is provided with a demultiplexing section 201, a shape dequantization section 202, predictive decoding execution / non-execution determining section 203, a gain dequantization section 204 and a time domain conversion section 205.

[0048] Секция 201 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную кодированную информацию формы на секцию 202 деквантования формы, и выводит полученную кодированную информацию усиления на секцию 204 деквантования усиления.[0048] The demultiplexing section 201 demultiplexes the range information, encoded form information and encoded gain information from a bit stream transmitted from the speech encoding apparatus 100, outputs the obtained range information to the form dequantization section 202 and the predictive decoding execution / non-execution determination section 203, outputs the obtained encoded form information to the form dequantization section 202, and outputs the obtained encoded gain information to the gain dequantization section 204.

[0049] Секция 202 деквантования формы находит значение формы коэффициента MDCT, соответствующего целевому диапазону квантования, указанному информацией диапазона, введенной из секции 201 демультиплексирования, посредством выполнения деквантования кодированной информации формы, введенной из секции 201 демультиплексирования, и выводит найденное значение формы на секцию 204 деквантования усиления.[0049] The shape dequantization section 202 finds the shape value of the MDCT coefficient corresponding to the quantization target range indicated by the range information inputted from the demultiplexing section 201 by dequantizing the encoded form information inputted from the demultiplexing section 201 and outputs the found shape value to the dequantization section 204 gain.

[0050] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования находит количество поддиапазонов, общих для текущего целевого диапазона квантования кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 201 демультиплексирования. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления.[0050] Predictive decoding run / fail determination section 203 finds the number of subbands common to the current frame quantization target range and past frame quantization range using the range information input from demultiplexing section 201. Then, the predictive decoding run / fail determining section 203 determines that predictive decoding should be performed with respect to the MDCT coefficient of the quantization target range indicated by the range information if the number of common subbands is greater than or equal to a predetermined value, or decides that predictive decoding should not be performed with respect to the MDCT coefficient of the quantization target range indicated by the range information, if the number of total subbands is less than m predefined value. Predictive decoding run / fail determination section 203 outputs the result of this determination to gain dequantization section 204.

[0051] Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет прогнозирующее декодирование в отношении кодированной информации усиления, введенной из секции 201 демультиплексирования, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить значение усиления. С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления получает значение усиления посредством непосредственного выполнения деквантования кодированной информации усиления, введенной из секции 201 демультиплексирования, используя внутреннюю кодовую книгу усиления. Секция 204 деквантования усиления выводит полученное значение усиления к секции 205 преобразования во временную область. Секция 204 деквантования усиления также находит коэффициент MDCT целевого диапазона квантования, используя полученное значение усиления и значение формы, введенное из секции 202 деквантования формы, и выводит его к секции 205 преобразования во временную область в качестве декодированного коэффициента MDCT.[0051] If the determination result inputted from the predictive decoding run / fail determination section 203 indicates that predictive decoding is to be performed, the gain dequantization section 204 performs predictive decoding on the encoded gain information inputted from the demultiplexing section 201 using the past gain value the frame stored in the internal buffer and the internal gain codebook to obtain the gain value. On the other hand, if the determination result inputted from the predictive decoding run / fail determination section 203 indicates that predictive decoding should not be performed, the gain dequantization section 204 obtains the gain value by directly dequantizing the encoded gain information inputted from the demultiplexing section 201, using the internal gain codebook. The gain dequantization section 204 outputs the obtained gain value to the time domain conversion section 205. The gain dequantization section 204 also finds the MDCT coefficient of the quantization target range using the obtained gain value and the shape value input from the form dequantization section 202, and outputs it to the time domain converting section 205 as a decoded MDCT coefficient.

[0052] Секция 205 преобразования во временную область выполняет Обратное Модифицированное дискретное косинусное преобразование (IMDCT) в отношении декодированного коэффициента MDCT, введенного из секции 204 деквантования усиления, чтобы сгенерировать сигнал временной области, и выводит его в качестве декодированного сигнала.[0052] The time domain converting section 205 performs the Inverse Modified Discrete Cosine Transform (IMDCT) on the decoded MDCT coefficient input from the gain dequantization section 204 to generate a time domain signal and outputs it as a decoded signal.

[0053] Устройство 200 декодирования речи, имеющее конфигурацию, такую как описано выше, выполняет следующие операции.[0053] A speech decoding apparatus 200 having a configuration such as described above performs the following operations.

[0054] Секция 201 демультиплексирования демультиплексирует информацию диапазона m_max, кодированную информацию S_max формы, и кодированную информацию G_min усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона m_max на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную информацию кодирования S_max формы на секцию 202 деквантования формы и выводит полученную кодированную информацию усиления G_min на секцию 204 деквантования усиления.[0054] The demultiplexing section 201 demultiplexes the information of the m_max range, the encoded form information S_max, and the encoded gain information G_min from the bit stream transmitted from the speech encoding apparatus 100, outputs the obtained information of the m_max range to the form dequantization section 202 and the predictive execution / non-fulfillment determining section 203 decoding, outputs the obtained encoding information of the form S_max to the form dequantization section 202 and outputs the obtained encoded gain information G_min to the dequantization section 204 amplification.

[0055] Секция 202 деквантования формы имеет внутреннюю кодовую книгу формы, аналогичную кодовой книге формы, которой снабжена секция 103 квантования формы устройства 100 кодирования речи, и ищет вектор кода формы, для которого кодированная информация формы S_max, введенная из секции 201 демультиплексирования, является индексом. Секция 202 деквантования формы выводит найденный вектор кода на секцию 204 деквантования усиления в качестве значения формы коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона m_max, введенной из секции 201 демультиплексирования. Здесь, вектор кода формы, найденный в качестве значения формы, обозначается как Shape_q(k) (k=B(j'')…, B(j''+L)-1).[0055] The form dequantization section 202 has an internal form codebook similar to the form codebook provided with the form quantization section 103 of the speech encoding apparatus 100, and searches for the form code vector for which the encoded form information S_max input from the demultiplexing section 201 is an index . The shape dequantization section 202 outputs the found code vector to the gain dequantization section 204 as the shape value of the MDCT coefficient of the quantization target range indicated by the m_max range information inputted from the demultiplexing section 201. Here, the shape code vector found as the shape value is denoted as Shape_q (k) (k = B (j``) ..., B (j '' + L) -1).

[0056] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре. Здесь описан случай посредством примера, в котором секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем заранее определенное значение. Более конкретно, секция 203 определения выполнения/невыполнения прогнозирующего декодирования сравнивает L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 201 демультиплексирования на один кадр назад во времени, с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 201 демультиплексирования в текущем кадре, и решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре.[0056] The predictive decoding run / fail determination section 203 has an internal buffer that stores information of the m_max range entered from the demultiplexing section 201 in the last frame. Here, a case is described by way of example in which the predictive decoding run / fail determination section 203 has an internal buffer that stores m_max range information for the past three frames. Predictive decoding execution / non-execution determining section 203 first finds the number of subbands common to the quantization target range of the last frame and the quantization target range of the current frame using the m_max range information input from the last frame demultiplexing section 201 and the m_max range information input from the section 201 demultiplexing in the current frame. Then, predictive decoding run / fail determining section 203 decides that predictive decoding should be performed if the number of common subbands is greater than or equal to a predetermined value, or decides that predictive decoding should not be performed if the number of common subbands is less than a predetermined value. More specifically, the predictive decoding run / fail determination section 203 compares the L subbands indicated by the m_max range information entered from the demultiplexing section 201 one frame back in time with the L subbands indicated by the m_max range information entered from the m_max range information entered from the demultiplexing section 201 in the current frame, and decides that predictive decoding should be performed if the number of common subbands is P or greater, or decides that predictive decoding should not be performed but if the number of common subbands is less than P. execution determination section 203 / failure prediction decoding outputs the result of this determination to gain dequantization section 204. Then, the predictive decoding run / fail determination section 203 updates the internal buffer storing range information using the range information m_max input from the demultiplexing section 201 in the current frame.

[0057] Секция 204 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 204 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (11) ниже. Здесь C''^t _j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''^t _j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 204 деквантования усиления. Секция 204 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0057] The gain dequantization section 204 has an internal buffer that stores the gain value obtained in the last frame. If the determination result inputted from the predictive decoding run / fail determination section 203 indicates that predictive decoding is to be performed, the gain dequantization section 204 dequantizes by predicting the gain value of the current frame using the gain value of the past frame stored in the internal buffer. More specifically, the gain dequantization section 204 has the same kind of internal gain codebook as the gain quantization section 105 of the speech encoding apparatus 100, and obtains the gain value Gain_q ′ by performing gain dequantization in accordance with Equation (11) below. Here, C ″ ^t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ ^t _j indicates the gain value of one frame backward in time. In addition, α is a fourth order linear prediction coefficient stored in gain dequantization section 204. Gain dequantization section 204 processes the L subbands within the same region as an L-dimensional vector, and dequantizes the vector.

Equation 11

[0058] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 204 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (11) выше.[0058] If there is no subband gain value corresponding to the last frame in the internal buffer, the gain dequantization section 204 replaces the gain value of the nearest subband in frequency in the internal buffer in Equation (11) above.

[0059] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (12), приведенным ниже, с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. Следует сказать, когда прогнозирующее декодирование не выполняется, вектор GCj^G_min кода усиления, соответствующий кодированной информации G_min усиления, берется непосредственно в качестве значения усиления.[0059] On the other hand, if the determination result inputted from the predictive decoding execution / non-execution determining section 203 indicates that the predictive decoding should not be performed, the gain dequantization section 204 dequantizes the gain value in accordance with Equation (12) below using the above gain codebook. Here, the gain value is processed as an L-dimensional vector, and the vector is quantized. It should be said that when predictive decoding is not performed, the gain code vector GCj ^G_min corresponding to the encoded gain information G_min is taken directly as the gain value.

Gain_q'(j+j”)=

Gain_q '(j + j ”) =

(j=0,…, L-1)(j = 0, ..., L-1) Equation 12

[0060] Затем секция 204 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (13) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (14) ниже. Здесь, вычисленный декодированный коэффициент MDCT обозначается X"_k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j")-B (j"+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q'(j").[0060] Then, the gain dequantization section 204 calculates the decoded MDCT coefficient in accordance with Equation (13) below, using the gain value obtained by dequantizing the current frame and the shape value input from the form dequantization section 202, and updates the internal buffer in accordance with the Equation (14) below. Here, the calculated decoded MDCT coefficient is denoted by X " _k . In addition, when dequantizing the MDCT coefficient, if k is present in B (j") - B (j "+1) -1, the gain value Gain_q '(j) takes the value Gain_q' (j ").

X” _k =Gain_q'(j)·Shape_q'(k)

Уравнение 13 X ” _k = Gain_q '(j) · Shape_q' (k)

Equation 13

(j=j”,…, j”+L-1)
Уравнение 14

(j = j ”, ..., j” + L-1)
Equation 14

[0061] Секция 204 деквантования усиления выводит декодированный коэффициент MDCT X''_k, вычисленный в соответствии с Уравнением (13) выше, к секции 205 преобразования во временную область.[0061] The gain dequantization section 204 outputs the decoded coefficient MDCT X ' _k calculated in accordance with Equation (13) above to the time domain transform section 205.

[0062] Секция 205 преобразования во временную область сначала инициализирует внутренний буфер buf'_k значением нуля в соответствии с Уравнением (15) ниже.[0062] The time domain converting section 205 first initializes the internal buffer buf ' _{k with a} value of zero in accordance with Equation (15) below.

buf'buf ' _{k k} =0= 0 (k=0,…, N-1)(k = 0, ..., N-1) Уравнение 15Equation 15

[0063] Затем секция 205 преобразования во временную область находит декодированный сигнал Y_n в соответствии с Уравнением (16) ниже с использованием декодированного коэффициента MDCT X''_k, введенного из секции 204 деквантования усиления.[0063] Then, the time domain converting section 205 finds the decoded signal Y _n in accordance with Equation (16) below using the decoded coefficient MDCT X ″ _k introduced from the gain dequantization section 204.

(n=0,…, N-1)(n = 0, ..., N-1) Equation 16

В этом уравнении X2''_k является вектором, связывающим декодированный коэффициент MDCT X''_k и буфер buf' _k.In this equation, X2 '' _k is the vector linking the decoded MDCT coefficient X '' _k and the buffer buf ' _k .

Equation 17

[0064] Затем секции 205 преобразования во временную область обновляет буфер buf'_k в соответствии с Уравнением (18) ниже. [0064] Then, the time domain converting sections 205 updates the buffer buf ' _k in accordance with Equation (18) below.

bufbuf _kk =X”= X ” _kk (k=0,…, N-1) (k = 0, ..., N-1) Уравнение 18Equation 18

[0065] Секция 205 преобразования во временную область выводит полученный декодированный сигнал Y_n в качестве выходного сигнала.[0065] The time domain converting section 205 outputs the obtained decoded signal Y _n as an output signal.

[0066] Таким образом, согласно этому варианту осуществления, диапазон с большой энергией выбирается в каждом кадре в качестве целевого диапазона квантования, и параметр частотной области квантуется, разрешая создать смещение в распределении квантованного значения усиления, и улучшить эффективность квантования вектора.[0066] Thus, according to this embodiment, the high energy range is selected in each frame as the quantization target range, and the frequency domain parameter is quantized, allowing an offset in the distribution of the quantized gain value to be created, and to improve the quantization efficiency of the vector.

[0067] Кроме того, согласно этому варианту осуществления, при квантовании параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется в отношении параметра частотной области, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, и параметр частотной области кодируется непосредственно, если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение. Следовательно, объем кодированной информации при речевом кодировании уменьшается, и также резкое ухудшение качества речи может быть предотвращено, и ошибка кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио могут быть уменьшены.[0067] Furthermore, according to this embodiment, when quantizing the frequency domain parameter of the different quantization target range of each frame, predictive coding is performed on the frequency domain parameter if the number of subbands common to the quantization target range of the past frame and the quantization target range of the current frame, is defined as greater than or equal to a predetermined value, and the frequency domain parameter is encoded directly if the number of common subbands is is defined as less than a predetermined value. Therefore, the amount of encoded information in speech encoding is reduced, and also a sharp deterioration in speech quality can be prevented, and an encoding error in the speech / audio signal and degradation in the quality of the decoded audio signal can be reduced.

[0068] Кроме того, согласно этому варианту осуществления, на стороне кодирования целевой диапазон квантования может быть определен, и квантование параметра частотной области выполнено в единицах областей, каждая состоящая из множества поддиапазонов, и информация о параметре частотной области, какая область стала целью квантования, может быть передана к стороне декодирования. Следовательно, эффективность квантования может быть улучшена, и объем кодированной информации, переданной к стороне декодирования, может быть дополнительно уменьшен по сравнению с решением, должно ли прогнозирующее кодирование использоваться на основе «поддиапазон за поддиапазоном» и передачи информации, относительно того, какой поддиапазон стал целью квантования, к стороне декодирования.[0068] Furthermore, according to this embodiment, on the encoding side, the quantization target range can be determined, and the quantization of the frequency domain parameter is performed in units of regions, each consisting of a plurality of subbands, and information about the frequency domain parameter, which region became the target of quantization, can be transmitted to the decoding side. Therefore, the quantization efficiency can be improved, and the amount of encoded information transmitted to the decoding side can be further reduced compared to deciding whether predictive encoding should be used based on “subband by subband” and transmitting information regarding which subband has become the target quantization, to the decoding side.

[0069] В этом варианте осуществления был описан посредством примера случай, в котором квантование усиления выполняется в единицах областей, каждая из которых состоит из множества поддиапазонов, но настоящее изобретение не ограничивается этим, и цель квантования также может быть выбрана на основании «поддиапазон за поддиапазоном», то есть определение того, должно ли прогнозирующее квантование быть выполнено, также может быть выполнено на основе «поддиапазон за поддиапазоном».[0069] In this embodiment, a case has been described by way of example where gain quantization is performed in units of regions, each of which consists of a plurality of subbands, but the present invention is not limited thereto, and a quantization target may also be selected based on “subband beyond subband” ”, That is, determining whether predictive quantization should be performed can also be performed based on“ subband by subband ”.

[0070] В этом варианте осуществления был описан посредством примера случай, в котором способ прогнозирующего квантования усиления должен выполнить линейное предсказание во временной области для усиления того же самого частотного диапазона, но настоящее изобретение не ограничивается этим, и линейное предсказание также может быть выполнено во временной области для усиления отличных диапазонов частот.[0070] In this embodiment, a case has been described by way of example in which a predictive gain quantization method must perform linear time domain prediction to amplify the same frequency range, but the present invention is not limited to this, and linear prediction can also be performed in time areas for amplification of excellent frequency ranges.

[0071] В этом варианте осуществления был описан случай, в котором обычный речевой/аудио сигнал берется как пример сигнала, который становится целью квантования, но настоящее изобретение не ограничивается этим, и сигнал возбуждения, полученный посредством обработки речевого/аудио сигнала посредством обратного фильтра LPC (коэффициент линейного предсказания), может также использоваться в качестве цели квантования.[0071] In this embodiment, a case has been described in which a conventional speech / audio signal is taken as an example of a signal that becomes a quantization target, but the present invention is not limited thereto, and an excitation signal obtained by processing the speech / audio signal by an inverse LPC filter (linear prediction coefficient) can also be used as a quantization target.

[0072] В этом варианте осуществления был описан посредством примера случай, в котором область, для который величина энергии отдельной области - то есть перцепционное значение - является наибольшей, выбирается в качестве опорной для того, чтобы выбрать целевой диапазон квантования, но настоящее изобретение не ограничивается этим, и в дополнение к перцепционному значению, частотная корреляция с диапазоном, выбранным в прошлом кадре, также может быть учтена в то же самое время. То есть, если существуют диапазоны - кандидаты, для которых количество поддиапазонов, общих для целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и энергия больше или равна заранее определенному значению, диапазон с самой высокой энергией среди вышеупомянутых диапазонов - кандидатов может быть выбран в качестве целевого диапазона квантования, и если никакие такие диапазоны - кандидаты не существуют, диапазон с самой высокой энергией среди всех диапазонов частот может быть выбран в качестве целевого диапазона квантования. Например, если поддиапазон, общий для области с самой высокой энергией, и диапазон, выбранный в прошлом кадре, не существует, количество поддиапазонов, общих для области со второй самой высокой энергией, и диапазона, выбранного в прошлом кадре, больше или равно заранее определенному пороговому значению, и энергия области со второй самой высокой энергией больше или равна заранее определенному пороговому значению, выбирается область со второй самой высокой энергией, а не область с самой высокой энергией. Кроме того, секция выбора диапазона согласно этому варианту осуществления выбирает область, ближайшую к целевому диапазону квантования, выбранному в прошлом, из числа областей, энергия которых больше или равна заранее определенному значению, в качестве целевого диапазона квантования.[0072] In this embodiment, a case has been described by way of example in which the region for which the energy value of a particular region — that is, the perceptual value — is largest is selected as a reference in order to select a quantization target range, but the present invention is not limited by this, and in addition to the perceptual value, the frequency correlation with the range selected in the last frame can also be taken into account at the same time. That is, if there are candidate ranges for which the number of subbands common for the quantization target range selected in the past is greater than or equal to a predetermined value and the energy is greater than or equal to a predetermined value, the range with the highest energy among the above candidate ranges can be selected as the target quantization range, and if no such candidate ranges exist, the range with the highest energy among all frequency ranges can be selected as stve quantization target band. For example, if the subband common to the region with the highest energy and the range selected in the last frame does not exist, the number of subbands common for the region with the second highest energy and the range selected in the last frame is greater than or equal to a predetermined threshold value, and the energy of the region with the second highest energy is greater than or equal to a predetermined threshold value, the region with the second highest energy is selected, and not the region with the highest energy. In addition, the range selection section according to this embodiment selects a region closest to the quantization target range selected in the past from among regions whose energy is greater than or equal to a predetermined value as the quantization target range.

[0073] В этом варианте осуществления может быть выполнено квантование коэффициента MDCT после того, как интерполяция выполняется, используя прошлый кадр. Например, случай будет описан со ссылкой на фиг.2, в которой целевой диапазон квантования прошлого кадра - это область 3 (то есть поддиапазоны 5-9), целевой диапазон квантования текущего кадра - это область 4 (то есть поддиапазоны 6-10), и прогнозирующее кодирование текущего кадра выполняется, используя результат квантования прошлого кадра. В этом случае прогнозирующее кодирование выполняется в отношении поддиапазонов 6-9 текущего кадра с использованием поддиапазонов 6-9 прошлого кадра, и для поддиапазона 10 текущего кадра поддиапазон 10 прошлого кадра интерполируется, используя поддиапазоны 6-9 прошлого кадра, и затем прогнозирующее кодирование выполняется, используя поддиапазон 10 прошлого кадра, полученный интерполяцией.[0073] In this embodiment, quantization of the MDCT coefficient can be performed after interpolation is performed using the last frame. For example, the case will be described with reference to FIG. 2, in which the quantization target range of the past frame is region 3 (i.e., subbands 5-9), the quantization target range of the current frame is region 4 (i.e., subbands 6-10), and predictive coding of the current frame is performed using the quantization result of the past frame. In this case, predictive coding is performed on subbands 6-9 of the current frame using subbands 6-9 of the past frame, and for subband 10 of the current frame, subband 10 of the past frame is interpolated using subbands 6-9 of the past frame, and then predictive coding is performed using subrange 10 of the past frame obtained by interpolation.

[0074] В этом варианте осуществления был описан посредством примера случай, в котором квантование выполняется, используя одну и ту же кодовую книгу независимо от того, выполняется ли прогнозирующее кодирование, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться согласно тому, выполняется ли прогнозирующее кодирование или не выполняется при квантовании усиления и при квантовании формы.[0074] In this embodiment, an example has been described of a case in which quantization is performed using the same codebook regardless of whether predictive coding is performed, but the present invention is not limited thereto, and various codebooks can also be used according to whether predictive coding is performed or not when quantizing the gain and when quantizing the shape.

[0075] В этом варианте осуществления был описан посредством примера случай, в котором все размеры поддиапазонов являются одинаковыми, но настоящее изобретение не ограничивается этим, и размеры отдельных поддиапазонов могут также отличаться.[0075] In this embodiment, a case has been described by way of example in which all the sizes of the subbands are the same, but the present invention is not limited thereto, and the sizes of the individual subbands may also be different.

[0076] В этом варианте осуществления был описан посредством примера случай, в котором одна и та же кодовая книга используется для всех поддиапазонов при квантовании усиления и при квантовании формы, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться на основе «поддиапазон за поддиапазоном» при квантовании усиления и при квантовании формы.[0076] In this embodiment, a case has been described by way of example in which the same codebook is used for all subbands in gain quantization and shape quantization, but the present invention is not limited thereto, and different codebooks can also be used based on “ subband by subband ”in gain quantization and shape quantization.

[0077] В этом варианте осуществления был описан посредством примера случай, в котором последовательные поддиапазоны выбираются в качестве целевого диапазона квантования, но настоящее изобретение не ограничивается этим, и непоследовательное множество поддиапазонов также может быть выбрано в качестве целевого диапазона квантования. В таком случае эффективность кодирования речи может быть также улучшена посредством интерполяции значения невыбранного поддиапазона, используя значения смежных поддиапазонов.[0077] In this embodiment, a case has been described by way of example in which consecutive subbands are selected as the quantization target range, but the present invention is not limited thereto, and an inconsistent plurality of subbands can also be selected as the quantization target range. In such a case, the speech coding efficiency can also be improved by interpolating the values of the unselected subband using the values of adjacent subbands.

[0078] В этом варианте осуществления был описан посредством примера случай, в котором устройство 100 кодирования речи снабжается секция 104 определения выполнения/не выполнения прогнозирующего кодирования, но устройство кодирования речи согласно настоящему изобретению не ограничивается этим, и может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование не всегда выполняется секцией 105 квантования усиления, как иллюстрировано устройством 100а кодирования речи, показанном на фиг.4. В этом случае, как показано на фиг.4, устройство 100a кодирования речи снабжено секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы, секцией 105 квантования усиления и секцией 106 мультиплексирования. Фиг.5 является блок-схемой, иллюстрирующей конфигурацию устройства 200a декодирования речи, соответствующего устройству 100а кодирования речи, причем устройство 200a декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 204 деквантования усиления и секцией 205 преобразования во временную область. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который будет квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и квантует усиление каждого поддиапазона. Таким образом квантование может быть выполнено при более низкой скорости передачи в битах, чем способом, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также повышено посредством квантования вектора усиления, используя корреляцию усиления в частотной области.[0078] In this embodiment, an example has been described of a case in which the speech encoding device 100 is provided with the predictive encoding execution / non-execution determining section 104, but the speech encoding device according to the present invention is not limited thereto, and may also have a configuration in which a predictive encoding run / fail determination section 104 is provided, and predictive quantization is not always performed by the gain quantization section 105, as illustrated by the apparatus tion 100a speech coding shown in Figure 4. In this case, as shown in FIG. 4, the speech encoding apparatus 100a is provided with a frequency domain conversion section 101, a band selection section 102, a shape quantization section 103, a gain quantization section 105 and a multiplexing section 106. 5 is a block diagram illustrating a configuration of a speech decoding apparatus 200a corresponding to a speech encoding apparatus 100a, wherein the speech decoding apparatus 200a is provided with a demultiplexing section 201, a shape dequantization section 202, an gain dequantization section 204, and a time domain conversion section 205. In such a case, the speech encoding apparatus 100a partially chooses the range to be quantized from among all the ranges, further divides the selected range into a plurality of subbands, and quantizes the gain of each subband. Thus, quantization can be performed at a lower bit rate than the method in which the components of all ranges are quantized, and coding efficiency can be improved. In addition, coding efficiency can also be improved by quantizing the gain vector using gain correlation in the frequency domain.

[0079] Устройство кодирования речи согласно настоящему изобретению может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование всегда выполняется секцией 105 квантования усиления, как иллюстрируется устройством кодирования речи 100а, показанным на фиг.4. Конфигурация устройства 200a декодирования речи, соответствующего этому виду устройства 100a кодирования речи, показана на фиг.5. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который должен быть квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и выполняет квантование усиления для каждого поддиапазона. Таким образом квантование может быть выполнено с более низкой скоростью передачи в битах, чем в способе, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также улучшена посредством прогнозирующего квантования вектора усиления, используя корреляцию усиления во временной области.[0079] The speech encoding apparatus according to the present invention may also have a configuration in which predictive encoding run / fail determination section 104 is not provided, and predictive quantization is always performed by gain quantization section 105, as illustrated by speech encoding apparatus 100a shown in FIG. 4. The configuration of the speech decoding apparatus 200a corresponding to this kind of speech encoding apparatus 100a is shown in FIG. In such a case, the speech encoding apparatus 100a partially chooses the range to be quantized from among all the ranges, further divides the selected range into a plurality of subbands, and performs gain quantization for each subband. Thus, quantization can be performed at a lower bit rate than in the method in which components of all ranges are quantized, and coding efficiency can be improved. In addition, coding efficiency can also be improved by predictively quantizing the gain vector using time-domain gain correlation.

[0080] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования в секции выбора диапазона должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и выбор также может быть выполнен, используя информацию диапазона, выбранного в предшествующем во времени кадре в дополнение к вышеупомянутому критерию. Например, возможный способ будет выбирать область, которая должна быть квантована, после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в предшествующем во времени кадре, становится более предпочтительной для выбора. Кроме того, если есть множество уровней, в которых выбирается диапазон, подлежащий квантованию, диапазон, квантованный в верхнем уровне, может быть выбран, используя информацию диапазона, выбранного в нижнем уровне. Например, возможный способ должен выбрать область, которая должна быть квантована после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в нижнем уровне, становится более предпочтительной для выбора.[0080] In this embodiment, a case has been described by way of example in which the method of selecting the quantization target range in the range selection section is to select the region with the highest energy in all ranges, but the present invention is not limited thereto, and the selection can also be made using information of the range selected in the preceding time frame in addition to the aforementioned criterion. For example, a possible method would be to select the region to be quantized after multiplying by the weighting factor so that the region that includes the range near the range selected in the previous frame in time becomes more preferable for selection. In addition, if there are many levels in which the range to be quantized is selected, the range quantized in the upper level can be selected using the information of the range selected in the lower level. For example, a possible method would be to select a region that should be quantized after multiplying by a weight factor such that a region that includes a range near a range selected in the lower level becomes more preferred.

[0081] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран заранее, после чего целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобное. Например, один способ должен выбрать низкий диапазон предварительно, когда скорость передачи в битах или частота дискретизации являются низкими.[0081] In this embodiment, a case has been described by way of example in which the method of selecting the target quantization range is to select the region with the highest energy in all ranges, but the present invention is not limited thereto, and a certain range can also be preselected in advance, after which the quantization target range is finally selected in a preselected range. In such a case, the preselected range may be determined according to the sampling rate of the input signal, bit rate coding, or the like. For example, one way is to pre-select a low range when the bit rate or sample rate is low.

[0082] Например, возможно использовать способ в секции 102 выбора диапазона, посредством которого область, которая должна быть квантована, определяется посредством вычисления энергии области после ограничения выбираемых областей областями с более низкими диапазонами из числа всех выбираемых областей - кандидатов. Как пример этого, возможный способ должен выполнить ограничение пятью кандидатами из более низких диапазонов из числа общего количества из восьми областей - кандидатов, показанных на фиг.2, и выполнить выбор области с самой высокой энергией среди них. Альтернативно, секция 102 выбора диапазона может сравнить энергии после умножения энергии на весовой коэффициент так, чтобы область из более низкой зоны стала пропорционально более предпочтительной для выбора. Другая возможность для секции 102 выбора диапазона заключается в том, чтобы выбрать фиксированный поддиапазон из более низких диапазонов. Особенностью речевого сигнала является то, что структура гармоник становится пропорционально сильнее к стороне более низких диапазонов, в результате чего сильный пик присутствует на стороне более низких диапазонов. Поскольку этот сильный пик трудно маскировать, это приводит к тому, что воспринимается как шум. Здесь посредством увеличения вероятности выбора к стороне более низкого диапазона вместо того, чтобы просто выбрать область, основанную на величине энергии, возможность области, которая включает в себя сильный выбираемый пик, увеличивается, и восприятие шума в результате уменьшается. Таким образом, качество декодированного сигнала может быть улучшено посредством ограничения выбранных областей стороной более низкого диапазона, или посредством выполнения умножения на весовой коэффициент таким образом, что вероятность выбора увеличивается по направлению к стороне более низкого диапазона, таким образом.[0082] For example, it is possible to use the method in the range selection section 102 by which the region to be quantized is determined by calculating the energy of the region after restricting the selected regions to regions with lower ranges from among all candidate candidate regions. As an example of this, a possible method is to fulfill the restriction of five candidates from lower ranges from among the total number of eight regions — candidates shown in FIG. 2, and select the region with the highest energy among them. Alternatively, the range selection section 102 may compare the energies after multiplying the energy by the weighting factor so that the region from the lower zone is proportionally more preferred for selection. Another possibility for the range selection section 102 is to select a fixed subband from lower ranges. A feature of the speech signal is that the structure of the harmonics becomes proportionally stronger towards the side of the lower ranges, as a result of which a strong peak is present on the side of the lower ranges. Since this strong peak is difficult to mask, this leads to what is perceived as noise. Here, by increasing the probability of selection toward the side of the lower range, rather than simply selecting an area based on the amount of energy, the possibility of a region that includes a strong selectable peak is increased, and the noise perception is reduced as a result. Thus, the quality of the decoded signal can be improved by restricting the selected areas to the side of the lower range, or by performing the multiplication by the weight factor so that the probability of selection increases towards the side of the lower range, thus.

[0083] Устройство кодирования речи согласно настоящему изобретению было описано в терминах конфигурации, посредством которого квантование формы (информации формы сигнала) сначала выполняется в отношении компонента диапазона, который должен быть квантован, с последующим квантованием усиления (информации усиления), но настоящее изобретение не ограничивается этим, и может также использоваться конфигурация, посредством которой квантование усиления выполняется сначала, с последующим квантованием формы (сигнала).[0083] The speech encoding apparatus according to the present invention has been described in terms of a configuration whereby quantization of a shape (waveform information) is first performed with respect to a component of a range to be quantized, followed by quantization of a gain (gain information), but the present invention is not limited this, and a configuration can also be used whereby gain quantization is performed first, followed by quantization of the shape (signal).

[0084] Вариант осуществления 2[0084] Embodiment 2

Фиг.6 - это блок-схема, иллюстрирующая основную конфигурацию устройства 300 кодирования речи согласно Варианту осуществления 2 настоящего изобретения.6 is a block diagram illustrating a basic configuration of a speech encoding apparatus 300 according to Embodiment 2 of the present invention.

[0085] На этом чертеже устройство 300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцию 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 308 кодирования второго уровня и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования речи CELP (линейное предсказание с кодовым возбуждением), и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.[0085] In this drawing, the speech encoding device 300 is provided with a downsizing section 301, a first level encoding section 302, a first level decoding section 303, a upsampling section 304, a first frequency domain conversion section 305, a delay section 306, and a second conversion section 307 in the frequency domain, by the second layer encoding section 308 and the multiplexing section 309, and has a scalable configuration comprising two levels. In the first level, the CELP (code-excited linear prediction) speech coding method is applied, and in the second level, the speech coding method described in Embodiment 1 of the present invention is applied.

[0086] Секция 301 понижения дискретизации выполняет обработку по уменьшению дискретизации в отношении входного речевого/аудио сигнала, чтобы преобразовать частоту дискретизации речевого/аудио сигнала с частоты 1 к частоте 2 (где частота 1 > частоты 2), и выводит этот сигнал на секцию 302 кодирования первого уровня.[0086] The downsampling section 301 performs downsampling processing on the input speech / audio signal to convert the sampling frequency of the speech / audio signal from frequency 1 to frequency 2 (where frequency 1> frequency 2), and outputs this signal to section 302 first level coding.

[0087] Секция 302 кодирования первого уровня выполняет кодирование CELP речи, в отношении речевого/аудио сигнала после (сигнала) понижения дискретизации, введенного из секции 301 понижения дискретизации, и выводит кодированную полученную информацию первого уровня к секции 309 декодирования первого уровня и секции 303 мультиплексирования. Более конкретно, секция 302 кодирования первого уровня кодирует речевое сообщение, содержащее информацию вокального участка и информацию возбуждения, посредством нахождения параметра LPC для информации вокального участка и для информации возбуждения, выполняет кодирование посредством нахождения индекса, который идентифицирует, какая ранее сохраненная речевая модель должна использоваться, то есть индекс, который идентифицирует, какой вектор возбуждения адаптивной кодовой книги и фиксированной кодовой книги должен быть сгенерирован.[0087] The first level encoding section 302 performs speech CELP encoding for the speech / audio signal after the down-sampling signal (input) from the down-sampling section 301, and outputs the encoded received first-level information to the first level decoding section 309 and the multiplexing section 303 . More specifically, the first level encoding section 302 encodes a voice message containing vocal section information and excitation information, by finding the LPC parameter for the vocal section information and for excitation information, performs encoding by finding an index that identifies which previously stored speech model should be used, that is, an index that identifies which excitation vector of the adaptive codebook and fixed codebook should be generated.

[0088] Секция 303 декодирования первого уровня выполняет CELP декодирование речи в отношении кодированной информации первого уровня, введенной из секции 302 кодирования первого уровня, и выводит полученный декодированный сигнал первого уровня к секции 304 повышения дискретизации.[0088] The first level decoding section 303 performs CELP speech decoding on the first level encoded information input from the first level encoding section 302, and outputs the obtained first level decoded signal to the upsample section 304.

[0089] Секция 304 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 303 декодирования первого уровня, чтобы преобразовать частоту дискретизации декодированного сигнала первого уровня от частоты 2 к частоте 1, и выводит этот сигнал к первой секции 305 преобразования в частотную область.[0089] The upsampling section 304 performs upsampling processing on a first-level decoded signal input from a first-level decoding section 303 to convert a sampling frequency of a first-level decoded signal from a frequency of 2 to a frequency of 1, and outputs this signal to the first section 305 conversion to the frequency domain.

[0090] Первая секция 305 преобразования в частотную область выполняет MDCT над декодированным сигналом первого уровня после повышения дискретизации, введенного из секции 304 повышения дискретизации, и выводит коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый в первой секции 305 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.[0090] The first frequency domain conversion section 305 performs an MDCT on a decoded first level signal after upsampling introduced from the upsampling section 304, and outputs the first level MDCT coefficient obtained as a parameter of the frequency domain to the second level encoding section 308. The actual conversion method used in the first frequency domain conversion section 305 is similar to the conversion method used in the frequency domain conversion section 101 of the speech encoding apparatus 100 according to Embodiment 1 of the present invention, and therefore, a description thereof is omitted here.

[0091] Секция 306 задержки выводит задержанный речевой/аудио сигнал к второй секции 307 преобразования в частотную область посредством выдачи входного речевого/аудио сигнала после хранения этого входного сигнала во внутреннем буфере в течение заранее определенного времени. Заранее определенное время задержки здесь - время, которое принимает во внимание задержку алгоритма, которая возникает в секции 301 понижения дискретизации, секции 302 кодирования первого уровня, секции 303 декодирования первого уровня, секции 304 повышения дискретизации, первой секции 305 преобразования в частотную область и второй секции 307 преобразования в частотную область.[0091] The delay section 306 outputs the delayed speech / audio signal to the second frequency domain conversion section 307 by issuing an input speech / audio signal after storing this input signal in an internal buffer for a predetermined time. The predefined delay time here is the time that takes into account the algorithm delay that occurs in the downsizing section 301, the first level encoding section 302, the first level decoding section 303, the upsizing section 304, the first frequency domain conversion section 305, and the second section 307 conversions to the frequency domain.

[0092] Вторая секция 307 преобразования в частотную область выполняет MDCT в отношении задержанного речевого/аудио сигнала, введенного из секции 306 задержки, и выводит коэффициент MDCT второго уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый во второй секции 307 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.[0092] The second frequency domain conversion section 307 performs an MDCT on the delayed speech / audio signal input from the delay section 306, and outputs the second level MDCT coefficient obtained as a parameter of the frequency domain to the second level encoding section 308. The actual conversion method used in the second frequency domain conversion section 307 is similar to the conversion method used in the frequency domain conversion section 101 of the speech encoding apparatus 100 according to Embodiment 1 of the present invention, and therefore, a description thereof is omitted here.

[0093] Секция 308 кодирования второго уровня выполняет кодирование второго уровня, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и коэффициент MDCT второго уровня, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию второго уровня к секции 309 мультиплексирования. Основная внутренняя конфигурация и фактическая работа секции 308 кодирования второго уровня описаны ниже.[0093] The second level encoding section 308 performs second level encoding using the first level MDCT coefficient inputted from the first frequency domain conversion section 305 and the second level MDCT coefficient introduced from the second frequency domain conversion section 307, and outputs the obtained encoded information second level to multiplexing section 309. The main internal configuration and actual operation of the second layer encoding section 308 is described below.

[0094] Секция 309 мультиплексирования мультиплексирует кодированную информацию первого уровня, введенную из секции 302 кодирования первого уровня, и кодированную информацию второго уровня, введенную из секции 308 кодирования второго уровня, и передает полученный битовый поток к устройству декодирования речи.[0094] The multiplexing section 309 multiplexes the first level encoded information input from the first level encoding section 302 and the second level encoded information input from the second level encoding section 308, and transmits the received bit stream to the speech decoding apparatus.

[0095] Фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 308 кодирования второго уровня. Секция 308 кодирования второго уровня имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи согласно Варианту осуществления 1 (см. фиг.1), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описания здесь опускаются.[0095] FIG. 7 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section 308. The second level encoding section 308 has a basic configuration similar to that of the speech encoding apparatus 100 according to Embodiment 1 (see FIG. 1), and therefore the same reference elements are assigned the same reference position, and their descriptions are omitted here.

[0096] Секция 308 кодирования второго уровня отличается от устройства 100 кодирования речи тем, что оборудована секцией 381 вычисления разностного коэффициента MDCT вместо секции 101 преобразования в частотную область. Обработка секцией 106 мультиплексирования аналогична обработке секцией 106 мультиплексирования устройства 100 кодирования речи, и для целей описания название выходного сигнала из секции 106 мультиплексирования согласно этому варианту осуществления дается как "кодированная информация второго уровня".[0096] The second level encoding section 308 differs from the speech encoding device 100 in that it is equipped with a MDCT differential coefficient calculation section 381 instead of the frequency domain transform section 101. The processing by the multiplexing section 106 is similar to the processing by the multiplexing section 106 of the speech encoding apparatus 100, and for description purposes, the name of the output from the multiplexing section 106 according to this embodiment is given as “second level encoded information”.

[0097] Информация диапазона, кодированная информация формы и кодированная информация усиления также могут быть введены непосредственно в секцию 309 мультиплексирования и мультиплексированы с кодированной информацией первого уровня, не проходя через секцию 106 мультиплексирования.[0097] The range information, encoded shape information, and encoded gain information can also be input directly to the multiplexing section 309 and multiplexed with the first level encoded information without passing through the multiplexing section 106.

[0098] Секция 381 вычисления разностного коэффициента MDCT находит остаток коэффициента MDCT первого уровня, введенного из первой секции 305 преобразования в частотную область, и коэффициента MDCT второго уровня, введенного из второй секции 307 преобразования в частотную область, и выводит их на секцию 102 выбора диапазона как разностный коэффициент MDCT.[0098] The MDCT differential coefficient calculation section 381 finds the remainder of the first level MDCT coefficient input from the first frequency domain conversion section 305 and the second level MDCT coefficient introduced from the second frequency domain conversion section 307, and outputs them to the range selection section 102 as a difference coefficient MDCT.

[0099] Фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства 400 декодирования речи согласно Варианту осуществления 2 настоящего изобретения.[0099] FIG. 8 is a block diagram illustrating a basic configuration of a speech decoding apparatus 400 according to Embodiment 2 of the present invention.

[0100] В этом чертеже устройство 400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 405 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.[0100] In this drawing, the speech decoding apparatus 400 is provided with a control section 401, a first level decoding section 402, a upsampling section 403, a frequency domain conversion section 404, a second level decoding section 405, a time domain conversion section 406, and a switch 407.

[0101] Секция 401 управления анализирует элементы конфигурации битового потока, переданного от устройства 300 кодирования речи, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня и секции 405 декодирования второго уровня, и также выводит информацию управления на коммутатор 407. Более конкретно, если битовый поток содержит кодированную информацию первого уровня и кодированную информацию второго уровня, секция 401 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию второго уровня к секции 405 декодирования второго уровня, тогда как если битовый поток содержит только кодированную информацию первого уровня, секция 401 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня.[0101] The control section 401 analyzes the configuration elements of the bitstream transmitted from the speech encoding apparatus 300, and according to these configurations of the bitstream adaptively outputs the corresponding encoded information to the first level decoding section 402 and the second level decoding section 405, and also outputs control information to switch 407. More specifically, if the bitstream contains first level encoded information and second level encoded information, control section 401 outputs encoded the first level information to the first level decoding section 402, and outputs the second level encoded information to the second level decoding section 405, whereas if the bitstream contains only the first level encoded information, the control section 401 outputs this first level encoded information to the first decoding section 402 level.

[0102] Секция 402 декодирования первого уровня выполняет CELP декодирование в отношении кодированной информации первого уровня, введенной из секции 401 управления, и выводит полученный декодированный сигнал первого уровня к секции 403 повышения дискретизации и коммутатору 407.[0102] The first layer decoding section 402 performs CELP decoding on the first level encoded information inputted from the control section 401, and outputs the obtained first level decoded signal to the upsizing section 403 and the switch 407.

[0103] Секция 403 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 402 декодирования первого уровня, чтобы преобразовать первую частоту дискретизации декодированного сигнала уровня от частоты 2 к частоте 1, и выводит этот сигнал к секции 404 преобразования в частотную область.[0103] The upsampling section 403 performs upsampling processing on a decoded first level signal input from a first level decoding section 402 to convert the first sampling frequency of the decoded level signal from frequency 2 to frequency 1, and outputs this signal to conversion section 404 in the frequency domain.

[0104] Секция 404 преобразования в частотную область выполняет MDCT в отношении декодированного сигнала первого уровня после повышения дискретизации, введенного из секции 403 повышения дискретизации, и выводит декодированный коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 405 декодирования второго уровня. Фактический способ преобразования, используемый в секции 404 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1, и поэтому его описание здесь опускается.[0104] The frequency domain transform section 404 performs an MDCT on the decoded first level signal after upsampling introduced from the upsample section 403, and outputs the decoded first level MDCT coefficient obtained as a frequency domain parameter to the second level decoding section 405. The actual conversion method used in the frequency domain conversion section 404 is similar to the conversion method used in the frequency domain conversion section 101 of the speech encoding apparatus 100 according to Embodiment 1, and therefore, a description thereof will be omitted here.

[0105] Секция 405 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 401 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 405 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область как суммарный коэффициент MDCT. Основная внутренняя конфигурация и фактическая операция секции 405 декодирования второго уровня описаны ниже.[0105] The second level decoding section 405 dequantizes the gain and dequantizes the shape using the encoded second level information input from the control section 401 and the decoded first level MDCT coefficient input from the frequency domain transform section 404 to obtain a decoded second MDCT coefficient level. The second level decoding section 405 sums together the obtained decoded second level MDCT coefficient and the decoded first level MDCT coefficient, and outputs the obtained summing result to the time domain converting section 406 as a total MDCT coefficient. The main internal configuration and the actual operation of the second level decoding section 405 are described below.

[0106] Секция преобразования 406 временной области выполняет IMDCT в отношении суммарного коэффициента MDCT, введенного из секции 405 декодирования второго уровня, и выводит декодированный сигнал второго уровня, полученный в качестве компонента временной области, на коммутатор 407.[0106] The time domain transform section 406 performs an IMDCT with respect to the total MDCT coefficient input from the second layer decoding section 405, and outputs the decoded second level signal obtained as a component of the time domain to the switch 407.

[0107] На основании информации управления, введенной из секции 401 управления, если битовый поток, введенный на устройство 400 декодирования речи, содержит кодированную информацию первого уровня и кодированную информацию второго уровня, коммутатор 407 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала, тогда как если битовый поток содержит только кодированную информацию первого уровня, коммутатор 407 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.[0107] Based on the control information inputted from the control section 401, if the bitstream inputted to the speech decoding apparatus 400 contains encoded first level information and encoded second level information, the switch 407 outputs a decoded second level signal input from the conversion section 406 into time domain, as an output signal, whereas if the bitstream contains only encoded first-level information, the switch 407 outputs a decoded first-level signal inputted from ktsii 402 decoding the first level as the output signal.

[0108] Фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 405 декодирования второго уровня. Секция 405 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи согласно Варианту осуществления 1 (см. фиг.3), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0108] FIG. 9 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section 405. The second level decoding section 405 has a basic configuration similar to that of the speech decoding apparatus 200 according to Embodiment 1 (see FIG. 3), and therefore, the same reference elements are assigned the same reference position, and their description is omitted here.

[0109] Секция 405 декодирования второго уровня отличается от устройства 200 декодирования речи тем, чтобы также оборудована секцией 452 вычисления суммарного коэффициента MDCT. Кроме того, обработка отличается, в частности, между обработкой секцией 451 демультиплексирования секции 405 декодирования второго уровня и обработкой секцией 201 демультиплексирования устройства 200 декодирования речи, и различные ссылочные позиции указывают это.[0109] The second level decoding section 405 differs from the speech decoding apparatus 200 in that it is also equipped with a total MDCT coefficient calculation section 452. In addition, the processing is different, in particular, between the processing of the demultiplexing section 451 of the second layer decoding section 405 and the processing of the demultiplexing section 201 of the speech decoding apparatus 200, and various reference positions indicate this.

[0110] Секция 451 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из кодированной информации второго уровня из секции 401 управления, и выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, полученную кодированную информацию формы на секцию 202 деквантования формы, и полученную кодированную информацию усиления на секцию 204 деквантования усиления.[0110] The demultiplexing section 451 demultiplexes the range information, the encoded form information and the encoded gain information from the second level encoded information from the control section 401, and outputs the obtained range information to the form dequantization section 202 and the predictive decoding execution / non-execution determining section 203, the obtained encoded information form per form dequantization section 202, and the received encoded gain information to gain dequantization section 204.

[0111] Секция 452 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, и декодированный коэффициент MDCT второго уровня, введенный из секции 204 деквантования усиления, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT.[0111] The total MDCT coefficient calculation section 452 sums together the first level decoded MDCT coefficient inputted from the frequency domain conversion section 404 and the second level decoded MDCT coefficient inputted from the gain dequantization section 204 and outputs the obtained summation result to the conversion section 406 into time domain as the total MDCT coefficient.

[0112] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование невременного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, таким образом позволяя уменьшить объем кодированной информации при кодировании речи, уменьшить ошибку кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио.[0112] Thus, according to this embodiment, when a frequency component of an excellent range is made to be quantized in each frame, predictive encoding of a non-temporal parameter is performed adaptively in addition to applying scalable encoding, thereby allowing to reduce the amount of encoded information in speech encoding, to reduce encoding error speech / audio signal and deterioration in the quality of the decoded audio signal.

[0113] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня принимает разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также принимать разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования для диапазона заранее определенной частоты или ниже, или может принимать коэффициент MDCT входного сигнала непосредственно в качестве цели кодирования для диапазона выше, чем заранее определенная частота. То есть переключение может быть выполнено между использованием или неиспользованием разностного компонента согласно диапазону.[0113] In this embodiment, a case has been described by way of example in which the second level encoding section 308 receives the difference component of the first level MDCT coefficient and the second level MDCT coefficient as the encoding target, but the present invention is not limited thereto, and the second level encoding section 308 may also take the difference component of the first level MDCT coefficient and the second level MDCT coefficient as an encoding target for a range of a predetermined frequency or lower, or may take the MDCT coefficient of the input signal directly as an encoding target for the range is higher than a predetermined frequency. That is, switching can be performed between using or not using a difference component according to a range.

[0114] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования при кодировании второго уровня должен выбрать область, для которой энергия разностного компонента коэффициента MDCT первого уровня и коэффициент MDCT второго уровня является самой высокой, но настоящее изобретение не ограничивается этим, и область, для которой энергия коэффициента MDCT первого уровня является самой высокой, также может быть выбрана. Например, энергия каждого поддиапазона коэффициента MDCT первого уровня может быть вычислена, после чего энергии каждого поддиапазона суммируются вместе на основе область-за-областью, и область, для которой энергия является самой высокой, выбирается в качестве целевого диапазона квантования при кодировании второго уровня. На стороне устройства декодирования область, для которой энергия является самой высокой среди областей декодированного коэффициента MDCT первого уровня, полученного декодированием первого уровня, выбирается в качестве целевого диапазона деквантования при декодировании второго уровня. Посредством этого скорость передачи в битах кодирования может быть уменьшена, так как информация диапазона, касающаяся диапазона квантования при кодировании второго уровня, не передается от стороны устройства кодирования.[0114] In this embodiment, a case has been described by way of example in which a method for selecting a quantization target range in second level encoding is to select a region for which the energy of the differential component of the first level MDCT coefficient and the second level MDCT coefficient is the highest, but the present invention is not limited to this, and an area for which the energy of the first level MDCT is the highest can also be selected. For example, the energy of each subband of the first level MDCT coefficient can be calculated, after which the energies of each subband are summed together region-by-region, and the region for which the energy is the highest is selected as the quantization target range when encoding the second level. On the side of the decoding apparatus, the region for which the energy is the highest among the regions of the decoded first level MDCT coefficient obtained by decoding the first level is selected as the dequantization target range when decoding the second level. By this, the transmission rate in coding bits can be reduced, since the range information regarding the quantization range in second-level coding is not transmitted from the side of the encoding device.

[0115] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня выбирает и выполняет квантование в отношении целевого диапазона квантования для разностного компонента коэффициента MDCT первого уровня и коэффициента MDCT второго уровня, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также предсказать коэффициент MDCT второго уровня из коэффициента MDCT первого уровня, и выбрать и выполнить квантование в отношении целевого диапазона квантования для разностного компонента этого предсказанного коэффициента MDCT и фактического коэффициента MDCT второго уровня. Это позволяет, разрешает дополнительно повысить эффективность кодирования при использовании корреляции между коэффициентом MDCT первого уровня и коэффициентом MDCT второго уровня.[0115] In this embodiment, a case has been described by way of example where the second level encoding section 308 selects and performs quantization with respect to the quantization target range for the difference component of the first level MDCT coefficient and the second level MDCT coefficient, and the present invention is not limited thereto, and the second level coding section 308 may also predict the second level MDCT from the first level MDCT, and select and perform quantization with respect to the target quantum range tions for the differential component of the predicted MDCT coefficient and an actual second layer MDCT coefficient. This allows, allows to further improve the coding efficiency when using the correlation between the first level MDCT coefficient and the second level MDCT coefficient.

[0116] Вариант осуществления 3 [0116] Embodiment 3

Фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства 500 кодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 500 кодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и его описание здесь опускается.10 is a block diagram illustrating a basic configuration of a speech encoding apparatus 500 according to Embodiment 3 of the present invention. The speech encoding device 500 has a basic configuration similar to that of the speech encoding device 100 shown in FIG. 1, and therefore the same reference numbers are assigned to the identical configuration elements, and its description is omitted here.

[0117] Устройство 500 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 504 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 505 квантования усиления устройства 500 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи, и отличные ссылочные коды указывают на это.[0117] The speech encoding device 500 differs from the speech encoding device 100 in that it is further provided with an interpolation value calculation section 504. Moreover, the processing is different, in particular, between the gain quantization section 505 of the speech encoding device 500 and the gain quantization section 105 of the speech encoding device 100, and excellent reference codes indicate this.

[0118] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра. Используя значение усиления квантования целевого диапазона квантования прошлого кадра, считанного из секции 505 квантования усиления, секция 504 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был квантован в прошлом кадре, среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона. Секция 504 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 505 квантования усиления.[0118] The interpolation value calculation section 504 has an internal buffer that stores range information indicating a quantization target range of a past frame. Using the quantization gain value of the quantization target range of the past frame read from the gain quantization section 505, the interpolation value calculation section 504 interpolates a gain value of a range that was not quantized in the last frame among the quantization target ranges of the current frame indicated by the range information inputted from section 102 range selection. The interpolation value calculation section 504 outputs the obtained gain interpolation value to the gain quantization section 505.

[0119] Секция 505 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием значения интерполяции усиления, введенного из секции 504 вычисления значения интерполяции, в дополнение к значению усиления квантования прошлого кадра, сохраненному во внутреннем буфере, и внутренней кодовой книги усиления посредством выполнения прогнозирующего кодирования.[0119] The gain quantization section 505 is different from the gain quantization section 105 of the speech encoding apparatus 100 using the gain interpolation value input from the interpolation value calculation section 504, in addition to the last frame quantization gain value stored in the internal buffer and the internal gain codebook by performing predictive coding.

[0120] Способ интерполяции значения усиления, используемый секцией 504 вычисления значения интерполяции, описан ниже более подробно.[0120] The gain value interpolation method used by the interpolation value calculation section 504 is described in more detail below.

[0121] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечивается внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.[0121] The interpolation value calculation section 504 has an internal buffer that stores range information m_max entered from the range selection section 102 in the last frame. Here is described by way of example a case in which an internal buffer is provided that stores m_max range information for the last three frames.

[0122] Секция 504 вычисления значения интерполяции сначала вычисляет значение усиления диапазона, отличного от диапазона, указанного информацией диапазона m_max для прошлых трех кадров, посредством выполнения линейной интерполяции. Значение интерполяции вычисляется в соответствии с Уравнением (19) для значения усиления более низкого диапазона, чем диапазон, указанный информацией диапазона m_max, и значение интерполяции вычисляется в соответствии с Уравнением (20) для значения усиления более высокого диапазона чем диапазон, указанный информацией диапазона m_max.[0122] The interpolation value calculation section 504 first calculates a gain value of a range other than the range indicated by the range information m_max for the last three frames by performing linear interpolation. The interpolation value is calculated in accordance with Equation (19) for a gain value of a lower range than the range indicated by the m_max range information, and the interpolation value is calculated in accordance with Equation (19) for a gain value of a lower range than the range indicated by the m_max range information.

ββ ₀₀ ·qQ ₀₀ +β+ β _1one ·qQ _1one +β+ β ₂₂ ·qQ ₂₂ +β+ β ₃₃ ·g=0G = 0 Уравнение 19Equation 19 ββ ₀₀ '·q'Q ₀₀ +β+ β _1one '·q'Q _1one +β+ β ₂₂ '·q'Q ₂₂ +β+ β ₃₃ '·g=0'G = 0 Уравнение 20Equation 20

В Уравнении (19) и Уравнении (20) β_i указывает коэффициент интерполяции, q_i указывает значение усиления целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, и g указывает значение интерполяции усиления неквантованного диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона m_max прошлого кадра. Здесь более низкое значение i указывает пропорционально более низкий диапазон частот, и в Уравнении (19) g указывает значение интерполяции усиления смежного диапазона со стороны более высокого диапазона от целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, в то время как в Уравнении (20) g указывает значение интерполяции усиления смежного диапазона на стороне более низкого диапазона целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра. Для коэффициента интерполяции β_i предполагается для использования значение, которое было найдено заранее статистически так, чтобы удовлетворять Уравнению (19) и Уравнению (20). Здесь описывается случай, в котором различные коэффициенты интерполяции β_i используются в Уравнении (19) и Уравнении (20), но аналогичный набор коэффициентов предсказания α_i также может использоваться в Уравнении (19) и Уравнении (20).In Equation (19) and Equation (20), β _i indicates the interpolation coefficient, q _i indicates the gain of the quantization target range indicated by the range information m_max of the previous frame, and g indicates the gain interpolation value of the non-quantized range adjacent to the quantization range specified by the range information m_max of the last frame. Here, a lower value of i indicates a proportionally lower frequency range, and in Equation (19) g indicates the interpolation value of the gain of the adjacent range from the side of the higher range from the quantization target range indicated by the information of the m_max range of the previous frame, while in Equation (20 ) g indicates the gain interpolation value of the adjacent range on the lower side of the quantization target range indicated by the information of the m_max range of the past frame. For the interpolation coefficient β _i, it is assumed to use a value that has been found statistically in advance so as to satisfy Equation (19) and Equation (20). Here, a case is described in which different interpolation coefficients β _i are used in Equation (19) and Equation (20), but a similar set of prediction coefficients α _i can also be used in Equation (19) and Equation (20).

[0123] Как показано в Уравнении (19) и Уравнении (20), возможно интерполировать значение усиления одного диапазона со стороны более высокого диапазона или стороны более низкого диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона прошлого кадра m_max прошлого кадра, в секции 504 вычисления значения интерполяции. Секция 504 вычисления значения интерполяции последовательно интерполирует значения усиления смежных неквантованных диапазонов посредством повторения операций в Уравнении (19) и Уравнении (20), используя результаты, полученные из Уравнения (19) и Уравнения (20).[0123] As shown in Equation (19) and Equation (20), it is possible to interpolate a gain of one range from a higher range side or a lower range side adjacent to a quantization target range indicated by a range information of a past frame m_max of a past frame, in a section 504 calculating the interpolation value. The interpolation value calculation section 504 sequentially interpolates the gain values of adjacent non-quantized ranges by repeating the operations in Equation (19) and Equation (20), using the results obtained from Equation (19) and Equation (20).

[0124] Таким образом, секция 504 вычисления значения интерполяции интерполирует значения усиления диапазонов, отличных от диапазона, указанного информацией диапазона m_max прошлых трех кадров, из целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона, используя квантованные значения усиления прошлых трех кадров, считанных из секции 505 квантования усиления.[0124] Thus, the interpolation value calculation section 504 interpolates the gain values of ranges other than the range indicated by the m_max range information of the past three frames from the quantization target ranges of the current frame indicated by the range information inputted from the range selection section 102 using the quantized gain values the last three frames read from gain quantization section 505.

[0125] Ниже описана операция прогнозирующего кодирования в секции 505 квантования усиления.[0125] The prediction encoding operation in gain quantization section 505 is described below.

[0126] Секция 505 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления квантования прошлого кадра, значение интерполяции усиления, введенное из секции 504 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 505 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (21) ниже является минимум.[0126] The gain quantization section 505 quantizes by predicting the current frame gain value of the past frame, the gain interpolation value input from the interpolation value calculation section 504, and the internal gain codebook. More specifically, gain quantization section 505 searches for an internal gain codebook consisting of the number of GQ gain code vectors for each of the L subbands, and finds the gain code vector index for which the result of Equation (21) below is a minimum.

Уравнение 21

Equation 21

[0127] В Уравнении (21) GCⁱ _j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Здесь C^t _j указывает значение усиления квантования t кадров назад во времени так, чтобы, когда t=1, например, C^t _j указывает значение усиления квантования одного кадра назад во времени. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 505 квантования усиления. Значение интерполяции усиления, вычисленное в соответствии с Уравнением (19) и Уравнением (20) секцией 504 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве целевого диапазона квантования в прошлых трех кадрах. Секция 505 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0127] In Equation (21), GC ⁱ _j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. Here, C ^t _j indicates the quantization gain value of t frames backward in time so that when t = 1, for example, C ^t _j indicates the quantization gain value of one frame backward in time. In addition, α is a fourth-order linear prediction coefficient stored in gain quantization section 505. The gain interpolation value calculated in accordance with Equation (19) and Equation (20) by the interpolation value calculation section 504 is used as a gain value of a range not selected as the quantization target range in the last three frames. The gain quantization section 505 processes the L subbands within the same region as an L-dimensional vector, and performs vector quantization.

[0128] Секция 505 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (21) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 505 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (22) ниже с использованием кодированной информации усиления, G_min и значения C^t _j усиления квантования, полученного в текущем кадре.[0128] The gain quantization section 505 outputs the gain code vector index G_min, for which the result of Equation (21) above is a minimum, to the multiplexing section 106 as encoded gain information. The gain quantization section 505 also updates the internal buffer in accordance with Equation (22) below using the encoded gain information, G_min and the quantization gain value C ^t _j obtained in the current frame.

(j=0,…, L-1)

(j = 0, ..., L-1) Equation 22

[0129] Фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства 600 декодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 600 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанного на фиг.3, и поэтому идентичные элементы конфигурации обозначены одинаковыми ссылочными позициями, и их описание здесь опускается.[0129] FIG. 11 is a block diagram illustrating a basic configuration of a speech decoding apparatus 600 according to Embodiment 3 of the present invention. The speech decoding apparatus 600 has a basic configuration similar to that of the speech decoding apparatus 200 shown in FIG. 3, and therefore, identical configuration items are denoted by the same reference numerals, and their description is omitted here.

[0130] Устройство 600 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 603 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 604 деквантования усиления устройства 600 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.[0130] The speech decoding apparatus 600 is different from the speech decoding apparatus 200 in that it is further provided with an interpolation value calculation section 603. Moreover, the processing is different, in particular, between the gain dequantization section 604 of the speech decoding apparatus 600 and the gain dequantization section 204 of the speech decoding apparatus 200, and various reference positions indicate this.

[0131] Секция 603 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую информацию диапазона, деквантованную в прошлом кадре. Используя значение усиления диапазона, деквантованного в прошлом кадра, считанное из секции 604 деквантования усиления, секция 603 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был деквантован в прошлом кадре среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 201 демультиплексирования. Секция 603 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 604 деквантования усиления.[0131] The interpolation value calculation section 603 has an internal buffer that stores range information indicating range information dequantized in the last frame. Using the gain value of a past-quantized range read from gain gain de-quantization section 604, interpolation value calculation section 603 interpolates a gain of a range that was not dequantized in the past frame among the quantization target ranges of the current frame indicated by the range information inputted from demultiplexing section 201 . The interpolation value calculation section 603 outputs the obtained gain interpolation value to the gain dequantization section 604.

[0132] Секция 604 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием значения интерполяции усиления, введенного из секции 603 вычисления значения интерполяции, в дополнение к сохраненному деквантованному значению усиления прошлого кадра, и внутреннюю кодовую книгу усиления при выполнении прогнозирующего кодирования.[0132] The gain dequantization section 604 is different from the gain dequantization section 204 of the speech decoding apparatus 200 using the gain interpolation value input from the interpolation value calculation section 603, in addition to the stored dequantized gain value of the past frame, and the internal gain codebook when performing predictive coding.

[0133] Способ интерполяции значения усиления, используемый секцией 603 вычисления значения интерполяции, аналогичен способу интерполяции значения усиления, используемому секцией 504 вычисления значения интерполяции, и поэтому подробное его описание здесь опускается.[0133] The gain value interpolation method used by the interpolation value calculation section 603 is similar to the gain value interpolation method used by the interpolation value calculation section 504, and therefore, a detailed description thereof will be omitted here.

[0134] Ниже описана процедура прогнозирующего декодирования в секции 604 деквантования усиления.[0134] The prediction decoding procedure in gain dequantization section 604 is described below.

[0135] Секция 604 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления, деквантованное в прошлом кадре, значение усиления интерполяции, введенное из секции 603 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 604 деквантования усиления получает значение Gain_q' усиления посредством выполнения деквантования усиления в соответствии с Уравнением (23) ниже.[0135] The gain dequantization section 604 dequantizes by predicting the gain value of the current frame using the stored gain value dequanted in the last frame, the interpolation gain value input from the interpolation value calculation section 603, and the internal gain codebook. More specifically, the gain dequantization section 604 obtains the gain value Gain_q ′ by performing dequantization of the gain in accordance with Equation (23) below.

Equation 23

[0136] В Уравнении (23) C''^t _j указывает значение усиления t кадров назад во времени, так, чтобы когда t=1, например, C''^t _j указывает значение усиления одного кадра ранее. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 604 деквантования усиления. Снова значение интерполяции, вычисленное секцией 603 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве цели квантования в прошлых трех кадрах. Секция 604 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0136] In Equation (23), C ″ ^t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ ^t _j indicates the gain value of one frame earlier. In addition, α is a 4th order linear prediction coefficient stored in gain dequantization section 604. Again, the interpolation value calculated by the interpolation value calculation section 603 is used as a gain value of a range not selected as a quantization target in the last three frames. Gain dequantization section 604 processes the L subbands within the same region as an L-dimensional vector, and dequantizes the vector.

[0137] Затем секция 604 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (24) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (25) ниже. Здесь вычисленный декодированный коэффициент MDCT обозначается X''_k. Также при деквантовании коэффициента MDCT, если k присутствует в B(j'')-B (j''+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q' (j'').[0137] Then, the gain dequantization section 604 calculates the decoded MDCT coefficient in accordance with Equation (24) below using the gain value obtained by dequantizing the current frame and the shape value input from the form dequantization section 202, and updates the internal buffer in accordance with the Equation (25) below. Here, the calculated decoded MDCT coefficient is denoted by X ' _k . Also, when dequantizing the MDCT coefficient, if k is present in B (j '') - B (j '' + 1) -1, the gain value Gain_q '(j) takes the value Gain_q' (j '').

X” _k =Gain_q'(j)·Shape_q'(k)

Уравнение 24 X ” _k = Gain_q '(j) · Shape_q' (k)

Equation 24

(j=j”,…, j”+L-1)(j = j ”, ..., j” + L-1) Equation 25

Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, значения соседних неквантованных диапазонов последовательно интерполируются от квантованного значения в прошлом кадре, и выполняется прогнозирующее квантование, используя значение интерполяции. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.Thus, according to this embodiment, when quantizing the frequency domain parameter of the different quantization target range of each frame, the values of neighboring non-quantized ranges are sequentially interpolated from the quantized value in the last frame, and predictive quantization is performed using the interpolation value. Therefore, the coding accuracy of the speech coding can be further improved.

[0138] В этом варианте осуществления был описан посредством примера случай, в котором фиксированный коэффициент интерполяции β, найденный заранее, используется при вычислении значения интерполяции усиления, но настоящее изобретение не ограничивается этим, и интерполяция также может быть выполнена после корректировки ранее найденного коэффициента β интерполяции. Например, коэффициент предсказания может быть откорректирован согласно распределению усиления диапазона, квантованного в каждом кадре. Более конкретно, возможно улучшить точность кодирования при кодировании речи посредством выполнения регулировки так, чтобы коэффициент предсказания был уменьшен, и вес усиления текущего кадра увеличен, когда изменение в усилении, квантованном в каждом кадре, является большим.[0138] In this embodiment, a case has been described by way of example in which a fixed interpolation coefficient β, found in advance, is used in calculating the gain interpolation value, but the present invention is not limited thereto, and interpolation can also be performed after adjusting the previously found interpolation coefficient β . For example, the prediction coefficient may be adjusted according to the distribution of the gain of the range quantized in each frame. More specifically, it is possible to improve the coding accuracy of speech coding by adjusting so that the prediction coefficient is reduced and the gain weight of the current frame is increased when the change in gain quantized in each frame is large.

[0139] В этом варианте осуществления был описан посредством примера случай, в котором последовательное множество диапазонов (одна область), содержащая диапазон, квантованный в каждом кадре, делается целевой, но настоящее изобретение не ограничивается этим, и множество областей также могут быть сделаны целью квантования. В таком случае возможно улучшить точность кодирования при кодировании речи посредством использования способа, посредством которого линейное предсказание конечных значений соответствующих областей выполняется для диапазона между выбранными областями в дополнение к способу интерполяции согласно Уравнению (19) и Уравнению (20).[0139] In this embodiment, a case has been described by way of example in which a consecutive plurality of ranges (one region) containing a range quantized in each frame is targeted, but the present invention is not limited thereto, and a plurality of regions can also be made a quantization target . In this case, it is possible to improve the encoding accuracy in speech encoding by using a method by which linear prediction of the final values of the respective regions is performed for the range between the selected regions in addition to the interpolation method according to Equation (19) and Equation (20).

[0140] Вариант осуществления 4 [0140] Embodiment 4

Фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства 700 кодирования речи согласно Варианту осуществления 4 настоящего изобретения. Устройство 700 кодирования речи имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.12 is a block diagram illustrating a basic configuration of a speech encoding apparatus 700 according to Embodiment 4 of the present invention. The speech encoding device 700 has a basic configuration similar to that of the speech encoding device 100 shown in FIG. 1, and therefore the same reference elements are assigned the same configuration elements, and their description is omitted here.

[0141] Устройство 700 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 704 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 705 квантования усиления устройства 700 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи и различные ссылочные позиции указывают на это.[0141] The speech encoding device 700 is different from the speech encoding device 100 in that it is further provided with a prediction coefficient determining section 704. Furthermore, the processing is different, in particular, between the gain quantization section 705 of the speech encoding device 700 and the gain quantization section 105 of the speech encoding device 100 and various reference positions indicate this.

[0142] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра, определяет коэффициент предсказания, который должен быть использован при квантовании секцией 705 квантования усиления на основании информации диапазона прошлого кадра и выводит определенный коэффициент предсказания на секцию 705 квантования усиления.[0142] The prediction coefficient determination section 704 has an internal buffer that stores range information indicating a quantization target range of the past frame, determines a prediction coefficient to be used when quantizing the gain quantization section 705 based on the range information of the past frame, and outputs the determined prediction coefficient to gain quantization section 705.

[0143] Секция 705 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием коэффициента предсказания, введенного из секции 704 определения коэффициента предсказания вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего кодирования.[0143] The gain quantization section 705 is different from the gain quantization section 105 of the speech encoding apparatus 100 using the prediction coefficient inputted from the prediction coefficient determination section 704 instead of the prediction coefficient determined in advance when performing predictive encoding.

[0144] Операция определения коэффициента предсказания в секции 704 определения коэффициента предсказания описана ниже.[0144] The prediction coefficient determination operation in the prediction coefficient determination section 704 is described below.

[0145] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечен внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.[0145] The prediction coefficient determination section 704 has an internal buffer that stores range information m_max entered from the range selection section 102 in the last frame. Here, by way of example, a case is described in which an internal buffer is provided that stores m_max range information for the past three frames.

[0146] Используя информацию диапазона m_max, сохраненную во внутреннем буфере, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре, секция 704 определения коэффициента предсказания находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра. Секция 704 определения коэффициента предсказания определяет коэффициенты предсказания как набор A, и выводит его на секцию 705 квантования усиления, если количество общих поддиапазонов больше или равно заранее определенному значению, или определяет коэффициенты предсказания как набор B и выводит их на секцию 705 квантования усиления, если количество общих поддиапазонов меньше чем заранее определенное значение. Здесь набор A коэффициентов предсказания есть набор параметров, который больше акцентируется на значении прошлого кадра, и делает вес значения усиления прошлого кадра большим, чем в случае набора В коэффициентов предсказания. Например, в случае коэффициентов предсказания 4-го порядка возможно, что набор А был определен как (αa0=0,60, αa1=0,25, αa2=0,10, αa3=0,05), и что набор B был определен как (αb0=0,80, αb1=0,10, αb2=0,05, αb3=0,05).[0146] Using the m_max range information stored in the internal buffer and the m_max range information inputted from the range selection section 102 in the current frame, the prediction coefficient determining section 704 finds the number of subbands common to the quantization target range of the current frame and the quantization target range of the past frame . Prediction coefficient determination section 704 determines the prediction coefficients as set A, and outputs it to gain quantization section 705 if the number of common subbands is greater than or equal to a predetermined value, or determines prediction coefficients as set B and outputs them to gain quantization section 705 if the number total subbands are less than a predetermined value. Here, the set A of prediction coefficients is a set of parameters that focuses more on the value of the past frame and makes the weight of the gain value of the past frame larger than in the case of set B of prediction coefficients. For example, in the case of 4th order prediction coefficients, it is possible that set A was defined as (αa0 = 0.60, αa1 = 0.25, αa2 = 0.10, αa3 = 0.05), and that set B was defined as (αb0 = 0.80, αb1 = 0.10, αb2 = 0.05, αb3 = 0.05).

[0147] Затем секция 704 определения коэффициента предсказания обновляет внутренний буфер, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0147] Then, the prediction coefficient determination section 704 updates the internal buffer using the range information m_max input from the range selection section 102 in the current frame.

[0148] Ниже описана операция прогнозирующего кодирования в секции 705 квантования усиления.[0148] The prediction encoding operation in gain quantization section 705 is described below.

[0149] Секция 705 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 705 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 704 определения коэффициента предсказания, и значение C^t _j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 705 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (26) ниже является минимум, если коэффициентом предсказания является набор А, или находит индекс вектора кода усиления, для которого результатом Уравнения (27) ниже является минимум, если коэффициентом предсказания является набор В.[0149] The gain quantization section 705 has an internal buffer that stores the quantization gain value obtained in the last frame. The gain quantization section 705 quantizes by predicting the gain value of the current frame using the prediction coefficient inputted from the prediction coefficient determination section 704 and the quantization gain value of the past frame C ^t _j stored in the internal buffer. More specifically, gain quantization section 705 searches for an internal gain codebook consisting of the number of GQ gain code vectors for each of the L subbands, and finds the gain code vector index for which the result of Equation (26) below is a minimum if the prediction coefficient is set A , or finds the index of the gain code vector for which the result of Equation (27) below is the minimum if the prediction coefficient is set B.

Уравнение 26

Equation 26

Уравнение 27

Equation 27

[0150] В Уравнении (26) и Уравнении (27) GCⁱ _j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и j указывает индекс элемента вектора кода усиления. Здесь C^t _j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C^t _j указывает значение усиления одного кадра назад во времени. Кроме того, коэффициент 4-го порядка линейного предсказания сохраняется в секции 705 квантования усиления. Секция 705 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 705 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (26) или Уравнении (27) выше.[0150] In Equation (26) and Equation (27), GC ⁱ _j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. Here, C ^t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ^t _j indicates the gain value of one frame backward in time. In addition, a 4th-order linear prediction coefficient is stored in gain quantization section 705. Gain quantization section 705 processes the L subbands within the same region as an L-dimensional vector, and performs vector quantization. If there is no sub-band gain value corresponding to the last frame in the internal buffer, the gain quantization section 705 replaces the gain of the nearest sub-band in the frequency in the internal buffer in Equation (26) or Equation (27) above.

[0151] Фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи 800 согласно Варианту осуществления 4 настоящего изобретения. Устройство декодирования речи 800 имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанной на фиг.3, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0151] FIG. 13 is a block diagram illustrating a basic configuration of a speech decoding apparatus 800 according to Embodiment 4 of the present invention. The speech decoding apparatus 800 has a basic configuration similar to that of the speech decoding apparatus 200 shown in FIG. 3, and therefore the same reference numbers are assigned to the same configuration elements, and their description is omitted here.

[0152] Устройство 800 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 803 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 804 деквантования усиления устройства 800 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.[0152] The speech decoding apparatus 800 is different from the speech decoding apparatus 200 in that it is further provided with a prediction coefficient determining section 803. In addition, the processing is different, in particular, between the gain dequantization section 804 of the speech decoding apparatus 800 and the gain dequantization section 204 of the speech decoding apparatus 200, and various reference positions indicate this.

[0153] Секция 803 определения коэффициента предсказания имеет внутренний буфер, который сохраняет информацию диапазона, введенную из секции 201 демультиплексирования в прошлом кадре, определяет коэффициент предсказания, который должен использоваться при квантовании секцией 804 деквантования усиления, на основании информации диапазона прошлого кадра, и выводит определенный коэффициент предсказания на секцию 804 деквантования усиления.[0153] The prediction coefficient determination section 803 has an internal buffer that stores range information input from the demultiplexing section 201 in the last frame, determines the prediction coefficient to be used when quantizing the gain dequantization section 804 based on the information of the range of the last frame, and outputs a specific prediction coefficient per gain dequantization section 804.

[0154] Секция 804 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием коэффициента предсказания, введенного из секции 803 определения коэффициента предсказания, вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего декодирования.[0154] The gain dequantization section 804 is different from the gain dequantization section 204 of the speech decoding apparatus 200 using the prediction coefficient inputted from the prediction coefficient determination section 803 instead of the prediction coefficient determined in advance when performing predictive decoding.

[0155] Способ определения коэффициента предсказания, используемый секцией 803 определения коэффициента предсказания, аналогичен способу определения коэффициента предсказания, используемому секцией 704 определения коэффициента предсказания устройства 700 кодирования речи, и поэтому подробное описание работы секции 803 определения коэффициента предсказания здесь опускается.[0155] The prediction coefficient determination method used by the prediction coefficient determination section 803 is similar to the prediction coefficient determination method used by the prediction coefficient determination section 704 of the speech encoding apparatus 700, and therefore, a detailed description of the operation of the prediction coefficient determination section 803 is omitted here.

[0156] Ниже описана операция прогнозирующего декодирования в секции 804 деквантования усиления.[0156] The prediction decoding operation in gain dequantization section 804 is described below.

[0157] Секция 804 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Секция 804 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, и значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 804 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 705 квантования усиления устройства 700 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (28) ниже, если коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, есть набор A, или в соответствии с Уравнением (29) ниже, если коэффициент предсказания есть набор B.[0157] The gain dequantization section 804 has an internal buffer that stores the gain value obtained in the last frame. The gain dequantization section 804 dequantizes by predicting the gain value of the current frame using the prediction coefficient inputted from the prediction coefficient determination section 803 and the past frame gain value stored in the internal buffer. More specifically, the gain dequantization section 804 has the same kind of internal gain codebook as the gain quantization section 705 of the speech encoding device 700, and obtains the gain value Gain_q 'by performing gain dequantization in accordance with Equation (28) below, if the prediction coefficient introduced from the prediction coefficient determination section 803, there is a set A, or according to Equation (29) below, if the prediction coefficient is a set B.

Equation 28

Equation 29

[0158] В Уравнении (28) и Уравнении (29) C''^t _j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''^t _j указывает значение усиления одного кадра прежде. Кроме того, αa_i и αb_i указывают набор A и набор В коэффициентов предсказания, введенные из секции 803 определения коэффициента предсказания. Секция 804 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0158] In Equation (28) and Equation (29), C ″ ^t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ ^t _j indicates the gain value of one frame before. In addition, αa _i and αb _i indicate a set A and a set B of prediction coefficients introduced from the prediction coefficient determination section 803. Gain dequantization section 804 processes the L subbands within the same region as an L-dimensional vector, and dequantizes the vector.

[0159] Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется посредством выбора из множества наборов коэффициентов предсказания набора коэффициентов предсказания, который делает вес значения усиления прошлого кадра пропорционально тем больше, чем больше количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.[0159] Thus, according to this embodiment, when quantizing a frequency domain parameter of an excellent quantization target range of each frame, predictive coding is performed by selecting from a plurality of sets of prediction coefficients a set of prediction coefficients that makes the weight of a gain value of a past frame proportionally greater than the greater the number of subbands common to the quantization target range of the last frame and the quantization target range of the current frame. Therefore, the coding accuracy of the speech coding can be further improved.

[0160] В этом варианте осуществления был описан посредством примера случай, в котором два вида наборов коэффициентов предсказания предоставляются заранее, и коэффициент предсказания, используемый в прогнозирующем кодировании, переключается согласно количеству поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, но настоящее изобретение не ограничивается этим, и три или более видов наборов коэффициентов предсказания могут также быть обеспечены заранее.[0160] In this embodiment, a case has been described by way of example in which two kinds of sets of prediction coefficients are provided in advance, and the prediction coefficient used in predictive coding is switched according to the number of subbands common to the quantization target range of the past frame and the target quantization range of the current frame , but the present invention is not limited to this, and three or more kinds of sets of prediction coefficients can also be provided in advance.

[0161] В этом варианте осуществления был описан посредством примера случай, в котором, если целевой диапазон квантования в текущем кадре не был квантован в прошлом кадре, значение ближайшего диапазона в прошлом кадре заменяется, но настоящее изобретение не ограничивается этим, и если значение целевого диапазона квантования в текущем кадре не было квантовано в прошлом кадре, прогнозирующее кодирование также может быть выполнено посредством принятия соответствующего коэффициента предсказания прошлого кадра равным нулю, суммирования коэффициента предсказания этого кадра с коэффициентом предсказания текущего кадра, вычисления нового набора коэффициентов предсказания, и использования этих коэффициентов предсказания. Таким образом эффект прогнозирующего кодирования может быть переключен более гибко, и точность кодирования речевого кодирования может быть дополнительно улучшена.[0161] In this embodiment, a case has been described by way of example in which if the quantization target range in the current frame has not been quantized in the last frame, the closest range value in the last frame is replaced, but the present invention is not limited to this, and if the value of the target range quantization in the current frame was not quantized in the last frame, predictive coding can also be performed by taking the corresponding prediction coefficient of the last frame equal to zero, summing the coefficient the prediction rate of this frame with the prediction coefficient of the current frame, calculating a new set of prediction coefficients, and using these prediction coefficients. Thus, the effect of predictive coding can be switched more flexibly, and the coding accuracy of the speech coding can be further improved.

[0162] Вариант осуществления 5 [0162] Option exercise 5

Фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1000 согласно Варианту осуществления 5 настоящего изобретения. Устройство кодирования речи 1000 имеет базовую конфигурацию, аналогичную таковой из устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.14 is a block diagram illustrating a basic configuration of a speech encoding apparatus 1000 according to Embodiment 5 of the present invention. The speech encoding device 1000 has a basic configuration similar to that of the speech encoding device 300 shown in FIG. 6, and therefore, the same reference elements are assigned the same configuration elements, and their description is omitted here.

[0163] Устройство кодирования речи 1000 отличается от устройства 300 кодирования речи тем, что дополнительно снабжено секцией 1007 кодирования улучшения (усиления) диапазона. Кроме того, обработка отличается, в частности, между секцией 1008 кодирования второго уровня и секцией 1009 мультиплексирования устройства кодирования речи 1000 и секцией 308 кодирования второго уровня и секцией 309 мультиплексирования устройства 300 кодирования речи, и различные ссылочные коды указывают на это.[0163] The speech encoding apparatus 1000 is different from the speech encoding apparatus 300 in that it is further provided with a range enhancement (gain) encoding section 1007. Furthermore, the processing is different, in particular, between the second level encoding section 1008 and the multiplexing section 1009 of the speech encoding apparatus 1000 and the second level encoding section 308 and the multiplexing section 309 of the speech encoding apparatus 300, and various reference codes indicate this.

[0164] Секция 1007 кодирования улучшения диапазона выполняет кодирование улучшения диапазона, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и входной коэффициент MDCT, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию улучшения диапазона к секции 1009 мультиплексирования.[0164] The range enhancement coding section 1007 performs range enhancement coding using a first level MDCT coefficient inputted from the first frequency domain conversion section 305 and an MDCT input coefficient introduced from the second frequency domain conversion section 307 and outputs the obtained encoded enhancement information range to multiplexing section 1009.

[0165] Секция 1009 мультиплексирования отличается от секции 309 мультиплексирования только также мультиплексированием кодированной информации улучшения диапазона в дополнение к кодированной информации первого уровня и кодированной информации второго уровня.[0165] The multiplexing section 1009 differs from the multiplexing section 309 only by multiplexing the encoded range improvement information in addition to the encoded information of the first layer and the encoded information of the second layer.

[0166] Фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1007 кодирования улучшения диапазона.[0166] FIG. 15 is a block diagram illustrating a basic configuration of an interior of a range enhancement encoding section 1007.

[0167] На фиг.15 секция 1007 кодирования улучшения диапазона снабжена секцией 1071 оценки спектра более высокого диапазона и секцией 1072 кодирования корректирующего масштабного коэффициента.[0167] In FIG. 15, the range improvement coding section 1007 is provided with a higher range spectrum estimation section 1071 and a correction scale factor encoding section 1072.

[0168] Секция 1071 оценки спектра более высокого диапазона оценивает спектр более высокого диапазона диапазонов FL-FH сигналов с использованием спектра более низкого диапазона диапазонов 0-FL сигналов входного коэффициента MDCT, введенного из второй секции 307 преобразования в частотную область, чтобы получить оцененный спектр. Способ получения оцененного спектра должен найти оцененный спектр таким образом, что степень подобия со спектром более высокого диапазона становится максимальной посредством преобразования спектра более низкого диапазона на основании этого спектра более низкого диапазона. Секция 1071 оценки более высокого диапазона спектра кодирует информацию, касающуюся этого оцененного спектра (информацию оценки), выводит полученный параметр кодирования, и также выдает сам оцененный спектр непосредственно на секцию 1072 кодирования корректирующего масштабного коэффициента.[0168] The higher range spectrum estimation section 1071 estimates the spectrum of the higher range of the ranges of the FL-FH signals using the spectrum of the lower range of the ranges of 0-FL signals of the input MDCT coefficient introduced from the second frequency domain transform section 307 to obtain an estimated spectrum. The method of obtaining the estimated spectrum is to find the estimated spectrum in such a way that the degree of similarity with the spectrum of the higher range becomes maximum by converting the spectrum of the lower range based on this spectrum of the lower range. The higher spectrum range estimation section 1071 encodes information regarding this estimated spectrum (estimation information), outputs the obtained encoding parameter, and also provides the estimated spectrum itself directly to the correction scale factor encoding section 1072.

[0169] В следующем описании оцененный спектр, выведенный из секции 1071 оценки более высокого диапазона спектра, называют первым спектром, и коэффициент MDCT первого уровня (спектр более высокого диапазона), выведенный из первой секции 305 преобразования в частотную область, называют вторым спектром.[0169] In the following description, the estimated spectrum derived from the higher spectrum range estimation section 1071 is called the first spectrum, and the first level MDCT coefficient (higher range spectrum) derived from the first frequency domain conversion section 305 is called the second spectrum.

[0170] Вышеописанные виды спектров и соответствующих диапазонов сигналов могут быть получены в итоге следующим образом.[0170] The above types of spectra and corresponding signal ranges can be summarized as follows.

[0171] [0171]

Узкополосный спектр (спектр более низкого диапазона)Narrowband spectrum (lower range spectrum) 0-FL0-fl Широкополосный спектрBroadband spectrum 0-FH0-fh Первый спектр (оцененный спектр)The first spectrum (estimated spectrum) FL-FHFl-fh Второй спектр (спектр более высокого диапазона)The second spectrum (spectrum of a higher range) FL-FHFl-fh

Секция 1072 кодирования корректирующего масштабного коэффициента корректирует масштабный коэффициент первого спектра так, чтобы масштабный коэффициент первого спектра приблизился к масштабному коэффициенту второго спектра, и кодирует и выводит информацию, касающуюся этого корректирующего масштабного коэффициента.The correction scale factor encoding section 1072 corrects the scale factor of the first spectrum so that the scale factor of the first spectrum approaches the scale factor of the second spectrum, and encodes and outputs information regarding this correction scale factor.

[0172] Кодированная информация улучшения диапазона, введенная из секции 1007 кодирования улучшения диапазона к секции 1009 мультиплексирования, включает в себя параметр кодирования информации оценки, введенный из секции 1071 оценки спектра более высокого диапазона, и параметр кодирования корректирующего масштабного коэффициента, введенный из секции 1072 кодирования корректирующего масштабного коэффициента.[0172] The encoded range enhancement information inputted from the range enhancement coding section 1007 to the multiplexing section 1009 includes an encoding parameter of the estimation information inputted from the higher spectrum spectrum estimation section 1071, and a correction scale factor encoding parameter inputted from the encoding section 1072 correction scale factor.

[0173] Фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1072 кодирования корректирующего масштабного коэффициента.[0173] FIG. 16 is a block diagram illustrating a basic configuration of an interior of a correction scale factor encoding section 1072.

[0174] Секция 1072 кодирования корректирующего масштабного коэффициента снабжена секциями 1721 и 1722 вычисления масштабного коэффициента, кодовой книгой 1723 корректирующего масштабного коэффициента, умножителем 1724, вычитающим устройством 1725, секцией 1726 определения, секцией 1727 вычисления ошибок взвешивания и секцией 1728 поиска. Эти секции выполняют следующие операции.[0174] The correction scale factor encoding section 1072 is provided with scale factor calculation sections 1721 and 1722, a correction coefficient coefficient codebook 1723, a multiplier 1724, a subtractor 1725, a determination section 1726, a weighting error calculation section 1727, and a search section 1728. These sections perform the following operations.

[0175] Секция 1721 вычисления масштабного коэффициента делит диапазоны FL-FH входного сигнала второго спектра на множество поддиапазонов, находит размер спектра, включенного в каждый поддиапазон, и выводит его на вычитающее устройство 1725. Более конкретно, разделение на поддиапазоны выполняется ассоциированным с критическим диапазоном, и разделение выполняется на равные интервалы шкалы Барка. Кроме того, секция 1721 вычисления масштабного коэффициента находит среднюю амплитуду спектров, включенных в эти поддиапазоны, и принимает ее как второй масштабный коэффициент SF2(k) {0≤k<NB}, где NB представляет количество поддиапазонов. Максимальное значение амплитуды или подобное могут использоваться вместо средней амплитуды.[0175] The scale factor calculation section 1721 divides the second-spectrum input signal ranges FL-FH into a plurality of subbands, finds the size of the spectrum included in each subband, and outputs it to a subtractor 1725. More specifically, the subband division is performed associated with the critical range, and the division is performed at equal intervals of the Bark scale. In addition, the scale factor calculation section 1721 finds the average amplitude of the spectra included in these subbands and takes it as the second scale factor SF2 (k) {0≤k <NB}, where NB represents the number of subbands. The maximum amplitude value or the like can be used instead of the average amplitude.

[0176] Секция 1722 вычисления масштабного коэффициента делит введенные диапазоны FL-FH сигналов первого спектра на множество поддиапазонов, вычисляет первый масштабный коэффициент SF1(k) {0≤k<NB} поддиапазонов и выводит его на умножитель 1724. Как и с секцией 1721 вычисления масштабного коэффициента, максимальное значение амплитуды или подобное могут быть использованы вместо средней амплитуды.[0176] The scale factor calculation section 1722 divides the input ranges of the first-spectrum FL-FH signals into a plurality of subbands, calculates the first subband subband factor SF1 (k) {0≤k <NB} and outputs it to a multiplier 1724. As with the calculation section 1721 a scale factor, a maximum amplitude value or the like can be used instead of the average amplitude.

[0177] В последующей обработке параметры во множестве поддиапазонов объединяются в одно векторное значение. Например, количество NB масштабных коэффициентов представляется как один вектор. Описание ниже приводится для случая, в котором каждая операция по обработке выполняется для каждого из этих векторов - то есть случая, в котором выполняется квантование вектора - в качестве примера.[0177] In the subsequent processing, the parameters in a plurality of subbands are combined into a single vector value. For example, the number of NB scale factors is represented as a single vector. The description below is given for the case in which each processing operation is performed for each of these vectors — that is, the case in which quantization of the vector is performed — as an example.

[0178] Кодовая книга 1723 корректирующего масштабного коэффициента хранит множество корректирующих масштабных коэффициентов - кандидатов, и последовательно выдает один из сохраненных корректирующих масштабных коэффициентов - кандидатов на умножитель 1724 в соответствии с директивой из секции 1728 поиска. Множество корректирующих масштабных коэффициентов - кандидатов, сохраненных в кодовой книге 1723 корректирующего масштабного коэффициента, представляется вектором.[0178] The corrective scale factor codebook 1723 stores a plurality of corrective scale factors — candidates, and subsequently provides one of the stored corrective scale factors — candidates for a multiplier 1724 in accordance with a directive from a search section 1728. A plurality of correction scale factors — candidates stored in the codebook 1723 of the correction scale factor — is represented by a vector.

[0179] Умножитель 1724 умножает первый масштабный коэффициент, выведенный из секции 1722 вычисления масштабного коэффициента на корректирующий масштабный коэффициент - кандидат, выведенный из кодовой книги 1723 корректирующего масштабного коэффициента, и выдает результат умножения на вычитающее устройство 1725.[0179] A multiplier 1724 multiplies the first scale factor derived from the scale factor calculation section 1722 by a correction scale factor, a candidate derived from the correction scale factor codebook 1723, and outputs the result of the multiplication to a subtractor 1725.

[0180] Вычитающее устройство 1725 вычитает выходной сигнал умножителя 1724, то есть произведение первого масштабного коэффициента и корректирующего масштабного коэффициента, из второго масштабного коэффициента, выведенного из секции 1721 вычисления масштабного коэффициента, и выдает сигнал ошибки, полученный таким образом, к секции 1727 вычисления ошибки взвешивания и секции 1726 определения.[0180] The subtractor 1725 subtracts the output of the multiplier 1724, that is, the product of the first scale factor and the correction scale factor, from the second scale factor derived from the scale factor calculation section 1721, and outputs an error signal thus obtained to the error calculation section 1727 weighing and determination sections 1726.

[0181] Секция 1726 определения определяет вектор взвешивания, который должен быть подан на секцию 1727 вычисления ошибки взвешивания, на основании знака сигнала ошибки, выданного от вычитающего устройства 1725. Более конкретно, сигнал d(k) ошибки, выданный из вычитающего устройства 1725, представляется Уравнением (30) ниже.[0181] The determining section 1726 determines the weighting vector to be supplied to the weighing error calculation section 1727 based on the sign of the error signal issued from the subtractor 1725. More specifically, the error signal d (k) issued from the subtractor 1725 is represented Equation (30) below.

d(k)=SF2(k)-vd (k) = SF2 (k) -v _ii (k)·SF1(k)(k) SF1 (k) (0≤k<NB}(0≤k <NB} Уравнение 30Equation 30

[0182] Здесь v_i(k) представляет i-й корректирующий масштабный коэффициент - кандидат. Секция 1726 определения проверяет знак d(k), выбирает w_pos в качестве веса, если d(k) положительный, или выбирает w_neg в качестве веса, если d(k) является отрицательным, и выводит вектор w(k) взвешивания, состоящий из них, к секции 1727 вычисления ошибки взвешивания. Эти веса имеют относительные соотношения размеров, показанные в Уравнении (31) ниже.[0182] Here, v _i (k) represents the i-th correction scale factor — the candidate. The determination section 1726 checks the sign of d (k), selects w _pos as the weight if d (k) is positive, or selects w _neg as the weight if d (k) is negative, and outputs the weighting vector w (k) consisting of these, to a weighting error calculation section 1727. These weights have relative aspect ratios shown in Equation (31) below.

0<w0 <w _{pos pos} <w<w _mgmg Уравнение 31Equation 31

[0183] Например, если количество поддиапазонов NB=4, и знаками d(k) являются {+, -, -, +}, вектор w(k) взвешивания, выведенный к секции 1727 вычисления ошибки взвешивания, представляется w(k) = {w_pos, w_neg, w_neg, w_pos}.[0183] For example, if the number of subbands is NB = 4 and the signs d (k) are {+, -, -, +}, the weighting vector w (k) derived to the weighting error calculation section 1727 is represented by w (k) = {w _pos , w _neg , w _neg , w _pos }.

[0184] Секция 1727 вычисления ошибки взвешивания сначала вычисляет квадрат сигнала ошибки, выданного из вычитающего устройства 1725, и затем умножает вектор взвешивания w(k), выданный из секции 1726 определения, на квадрат сигнала ошибки, чтобы вычислить взвешенную ошибку E квадрата, и выдает результат этого вычисления на секцию 1728 поиска. Здесь взвешенная ошибка E квадрата представляется как показано в Уравнении (32) ниже.[0184] The weighting error calculation section 1727 first calculates the square of the error signal output from the subtractor 1725, and then multiplies the weighting vector w (k) output from the determination section 1726 by the square of the error signal to calculate the weighted error E of the square, and outputs the result of this calculation on the search section 1728. Here, the weighted error E of the square is represented as shown in Equation (32) below.

Equation 32

[0185] Секция 1728 поиска управляет кодовой книгой 1723 корректирующего масштабного коэффициента и последовательно выводит сохраненные корректирующие масштабные коэффициенты - кандидаты, и посредством обработки с замкнутым контуром находит корректирующий масштабный коэффициент - кандидат, для которого взвешенная ошибка E квадрата, выведенная из секции 1727 вычисления ошибки взвешивания, является минимальной. Секция 1728 поиска выводит индекс iopt найденного корректирующего масштабного коэффициента - кандидата в качестве параметра кодирования.[0185] The search section 1728 controls the correction scale factor codebook 1723 and sequentially outputs the stored correction scale factors as candidates, and through closed-loop processing finds the correction scale factor as a candidate for which the weighted square error E derived from the weighting error calculation section 1727 is minimal. Search section 1728 displays the index iopt of the found correction scale factor — a candidate as an encoding parameter.

[0186] Когда вес, используемый при вычислении взвешенной ошибки E квадрата, устанавливается согласно знаку сигнала ошибки, и вид отношений, показанных в Уравнении (30), относится к этому весу, как описано выше, получается следующий вид эффекта, а именно случай, в котором сигнал ошибки d(k) является положительным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования (в терминах стороны кодирования, значение, полученное умножением первого масштабного коэффициента на корректирующий масштабный коэффициент), меньше чем второй масштабный коэффициент, который является целевым значением. Также, случай, в котором сигнал ошибки d(k) является отрицательным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования, больше чем второй масштабный коэффициент, который является целевым значением. Поэтому, посредством установки веса, когда сигнал ошибки d(k) является положительным, так чтобы быть меньше веса, когда сигнал ошибки d(k) является отрицательным, когда значения ошибки квадрата имеют тот же самый порядок, корректирующий масштабный коэффициент - кандидат, который генерирует декодированное значение, меньшее чем второй масштабный коэффициент, становится предпочтительным для выбора.[0186] When the weight used in calculating the weighted error E of the square is set according to the sign of the error signal, and the form of the relations shown in Equation (30) refers to this weight, as described above, the following kind of effect is obtained, namely, the case in wherein the error signal d (k) is positive, is a case in which a decoded value generated on the decoding side (in terms of the encoding side, a value obtained by multiplying the first scale factor by a correction scale factor), less than the second scale factor, which is the target value. Also, the case in which the error signal d (k) is negative is the case in which the decoded value generated on the decoding side is larger than the second scale factor, which is the target value. Therefore, by setting the weight when the error signal d (k) is positive, so as to be less than the weight when the error signal d (k) is negative, when the square error values are of the same order, the correction factor is the candidate that generates a decoded value smaller than the second scale factor becomes preferred for selection.

[0187] Следующий вид эффекта усовершенствования получается посредством обработки секцией 1007 кодирования улучшения диапазона. Например, когда спектр более высокого диапазона оценивается, используя спектр более низкого диапазона, как в этом варианте осуществления, более низкая скорость передачи в битах обычно может быть достигнута. Однако в то время как более низкая скорость передачи в битах может быть достигнута, о точности оцененного спектра - то есть подобии между оцененным спектром и спектром более высокого диапазона - нельзя говорить, что является достаточно высокой, как описывается выше. В этом случае, если декодированное значение масштабного коэффициента становится больше, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении усиления оцененного спектра, низкая точность оцененного спектра имеет тенденцию быть заметной человеческому уху как ухудшение качества. Наоборот, когда декодированное значение масштабного коэффициента становится меньшим, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении уменьшения этого оцененного спектра, низкая точность оцененного спектра прекращает быть заметной, и получается эффект улучшения качества аудио декодированного сигнала. Эта тенденция была также подтверждена в компьютерном моделировании.[0187] The following kind of enhancement effect is obtained by processing the range enhancement coding section 1007. For example, when a spectrum of a higher range is estimated using a spectrum of a lower range, as in this embodiment, a lower bit rate can usually be achieved. However, while a lower bit rate can be achieved, the accuracy of the estimated spectrum — that is, the similarity between the estimated spectrum and the spectrum of a higher range — cannot be said to be sufficiently high, as described above. In this case, if the decoded scale factor value becomes larger than the target value, and the post-quantization scale factor works in the direction of amplification of the estimated spectrum, the low accuracy of the estimated spectrum tends to be visible to the human ear as a deterioration. Conversely, when the decoded scale factor value becomes smaller than the target value, and the post-quantization scale factor works in the direction of decreasing this estimated spectrum, the low accuracy of the estimated spectrum ceases to be noticeable, and an effect of improving the quality of the audio decoded signal is obtained. This trend has also been confirmed in computer modeling.

[0188] Фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1008 кодирования второго уровня. Секция 1008 кодирования второго уровня имеет аналогичную базовую конфигурацию таковой из секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается. Обработка отличается, в частности, между секцией 1081 вычисления разностного коэффициента MDCT секции 1008 кодирования второго уровня и секцией 381 вычисления разностного коэффициента MDCT секции 308 кодирования второго уровня, и различные ссылочные позиции указывают на это.[0188] FIG. 17 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section 1008. The second level encoding section 1008 has a similar basic configuration to that of the second level encoding section 308 shown in FIG. 7, and therefore the same reference elements are assigned the same reference numerals, and their description is omitted here. The processing is different, in particular, between the MDCT difference coefficient calculation section 1081 of the second level encoding section 1008 and the MDCT difference coefficient calculation section 381 of the second level encoding section 308, and various reference numbers indicate this.

[0189] Секция 1081 вычисления разностного коэффициента MDCT вычисляет разностный MDCT, который должен быть целью квантования в секции кодирования второго уровня, из введенного входного коэффициента MDCT и коэффициента MDCT улучшения первого уровня. Секция 1081 вычисления разностного коэффициента MDCT отличается от секции 381 вычисления разностного коэффициента MDCT согласно Варианту осуществления 2 взятием остатка введенного коэффициента MDCT и разностного коэффициента улучшения первого уровня в качестве разностного коэффициента MDCT для диапазона, не улучшенного секцией 1007 кодирования улучшения диапазона, и принятием входного коэффициента MDCT непосредственно, а не остатка, в качестве разностного коэффициента MDCT для диапазона, улучшенного секцией 1007 кодирования улучшения диапазона.[0189] The MDCT differential coefficient calculating section 1081 calculates the differential MDCT, which should be the quantization target in the second level coding section, from the input MDCT input coefficient and the first level improvement MDCT coefficient. The MDCT difference coefficient calculation section 1081 is different from the MDCT difference coefficient calculation section 381 according to Embodiment 2 by taking the remainder of the input MDCT coefficient and the first level difference coefficient of improvement as the MDCT difference coefficient for a range not improved by the range improvement coding section 1007 and accepting the input MDCT coefficient directly, and not the remainder, as the MDCT difference coefficient for the range improved by the range improvement coding section 1007.

[0190] Фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1010 декодирования речи согласно Варианту осуществления 5 настоящего изобретения. Устройство 1010 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0190] FIG. 18 is a block diagram illustrating a basic configuration of a speech decoding apparatus 1010 according to Embodiment 5 of the present invention. The speech decoding apparatus 1010 has a basic configuration similar to that of the speech decoding apparatus 400 shown in FIG. 8, and therefore the same reference elements are assigned the same configuration elements, and their description is omitted here.

[0191] Устройство 1010 декодирования речи отличается от устройства 400 декодирования речи тем, что дополнительно снабжено секцией 1012 декодирования улучшения диапазона, и секцией 1013 преобразования во временную область. Кроме того, обработка отличается, в частности, между секцией 1011 управления, секцией 1015 декодирования второго уровня, и коммутатором 1017 из устройства 1010 декодирования речи и секцией 401 управления, секцией 405 декодирования второго уровня, и коммутатором 407 из устройства 400 декодирования речи, и различные ссылочные позиции указывают на это.[0191] The speech decoding apparatus 1010 differs from the speech decoding apparatus 400 in that it is further provided with a range enhancement decoding section 1012 and a time domain converting section 1013. Furthermore, the processing is different, in particular, between the control section 1011, the second level decoding section 1015, and the switch 1017 from the speech decoding apparatus 1010 and the control section 401, the second level decoding section 405, and the switch 407 from the speech decoding apparatus 400, and various reference numbers indicate this.

[0192] Секция 1011 управления анализирует элементы конфигурации битового потока, переданного от устройства кодирования речи 1000, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня, секции 1012 декодирования улучшения диапазона, и секции 1015 декодирования второго уровня, и также выводит информацию управления на коммутатор 1017. Более конкретно, если битовый поток содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона, и выводит кодированную информацию второго уровня к секции 1015 декодирования второго уровня. Если битовый поток содержит только кодированную информацию первого уровня, и кодированную информацию улучшения диапазона, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона. Если битовый поток содержит только кодированную информацию первого уровня, секция 1011 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня. Кроме того, секция 1011 управления выводит информацию управления, которая управляет коммутатором 1017, на коммутатор 1017.[0192] the Control section 1011 analyzes the configuration elements of the bit stream transmitted from the speech encoding device 1000, and according to these configuration elements of the bit stream adaptively outputs the corresponding encoded information to the first level decoding section 402, the range enhancement decoding section 1012, and the second level decoding section 1015 , and also outputs control information to the switch 1017. More specifically, if the bitstream contains first level encoded information, the encoded information is improved. tions range, and second level encoded information, control section 1011 outputs the encoded information to first layer decoding section 402 of the first level, outputs encoded information to improve band decoding section 1012 improve range and outputs the encoded information to second layer decoding section 1015 of the second level. If the bitstream contains only the encoded first level information and the encoded range enhancement information, the control section 1011 outputs the encoded first level information to the first layer decoding section 402, and outputs the encoded range enhancement information to the range enhancement decoding section 1012. If the bitstream contains only first level encoded information, the control section 1011 outputs this first level encoded information to the first level decoding section 402. In addition, the control section 1011 outputs control information that controls the switch 1017 to the switch 1017.

[0193] Секция 1012 декодирования улучшения диапазона выполняет обработку по улучшению диапазона, используя кодированную информацию улучшения диапазона из секции 1011 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить коэффициент MDCT улучшения первого уровня. Затем секция 1012 декодирования улучшения диапазона выводит полученный коэффициент MDCT улучшения первого уровня к секции 1013 преобразования во временную область и секции 1015 декодирования второго уровня. Основная внутренняя конфигурация и фактическая работа секции 1012 декодирования улучшения диапазона описаны ниже.[0193] The range enhancement decoding section 1012 performs range enhancement processing using the encoded range enhancement information from the control section 1011, and the decoded first level MDCT coefficient introduced from the frequency domain transform section 404 to obtain the first level MDCT coefficient. Then, the range enhancement decoding section 1012 outputs the obtained first level improvement coefficient MDCT to the time domain converting section 1013 and the second level decoding section 1015. The main internal configuration and the actual operation of the range enhancement decoding section 1012 are described below.

[0194] Секция 1013 преобразования во временную область выполняет IMDCT в отношении коэффициента MDCT улучшения первого уровня, введенного из секции 1012 декодирования улучшения диапазона, и выводит декодированный сигнал улучшения первого уровня, полученный как компонент временной области, на коммутатор 1017.[0194] The time domain converting section 1013 performs an IMDCT with respect to the first level improvement MDCT coefficient inputted from the range improvement decoding section 1012, and outputs the decoded first level improvement signal obtained as a time domain component to the switch 1017.

[0195] Секция 1015 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 1011 управления, и коэффициент MDCT улучшения первого уровня, введенный из секции 1012 декодирования улучшения диапазона, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 1015 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT. Основная внутренняя конфигурация и фактическая работа секции 1015 декодирования второго уровня описаны ниже.[0195] The second level decoding section 1015 dequantizes gain and dequantizes the shape using the encoded second level information entered from the control section 1011 and the first level improvement MDCT introduced from the range improvement decoding section 1012 to obtain a decoded second level MDCT . The second level decoding section 1015 sums together the obtained decoded second level MDCT coefficient and the decoded first level MDCT coefficient, and outputs the obtained summing result to the time domain converting section 406 as the total MDCT coefficient. The main internal configuration and the actual operation of the second level decoding section 1015 are described below.

[0196] На основании информации управления, введенной из секции 1011 управления, если битовый поток, подаваемый на устройство 1010 декодирования речи, содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, коммутатор 1017 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня и кодированную информацию улучшения диапазона, коммутатор 1017 выводит декодированный сигнал улучшения первого уровня, введенный из секции 1013 преобразования во временную область в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня, коммутатор 1017 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.[0196] Based on the control information inputted from the control section 1011, if the bitstream supplied to the speech decoding apparatus 1010 contains encoded first level information, encoded range improvement information, and encoded second level information, the switch 1017 outputs a decoded second level signal, introduced from the time domain conversion section 406 as an output signal. If the bitstream contains only encoded first level information and encoded range improvement information, the switch 1017 outputs a decoded first level enhancement signal inputted from the time domain conversion section 1013 as an output signal. If the bitstream contains only encoded first-level information, the switch 1017 outputs the decoded first-level signal inputted from the first-level decoding section 402 as an output signal.

[0197] Фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1012 декодирования улучшения диапазона. Секция 1012 декодирования улучшения диапазона содержит секцию 1121 декодирования спектра более высокого диапазона, секцию 1122 декодирования корректирующего масштабного коэффициента, умножитель 1123 и секцию 1124 связи.[0197] FIG. 19 is a block diagram illustrating a basic configuration of an interior of a range enhancement decoding section 1012. The range enhancement decoding section 1012 comprises a higher range spectrum decoding section 1121, a correction scale factor decoding section 1122, a multiplier 1123, and a communication section 1124.

[0198] Секция 1121 декодирования спектра более высокого диапазона декодирует оцененный спектр (точный спектр) диапазонов FL-FH, с использованием параметра кодирования информации оценки и первый спектр, включенных в кодированную информацию улучшения диапазона, введенных из секции 1011 управления. Полученный оцененный спектр подается на умножитель 1123.[0198] The higher range spectrum decoding section 1121 decodes the estimated spectrum (accurate spectrum) of the FL-FH bands using the encoding parameter of the estimation information and the first spectrum included in the encoded range enhancement information inputted from the control section 1011. The resulting estimated spectrum is fed to a multiplier 1123.

[0199] Секция 1122 декодирования корректирующего масштабного коэффициента декодирует корректирующий масштабный коэффициент, используя параметр кодирования корректирующего масштабного коэффициента, включенный в кодированную информацию улучшения диапазона, введенную из секции 1011 управления. Более конкретно, секция 1122 декодирования корректирующего масштабного коэффициента обращается к внутренней кодовой книге корректирующего масштабного коэффициента (не показана) и выводит соответствующий корректирующий масштабный коэффициент на умножитель 1123.[0199] The correction scale factor decoding section 1122 decodes the correction scale factor using the correction scale factor encoding parameter included in the encoded range enhancement information inputted from the control section 1011. More specifically, the correction scale factor decoding section 1122 accesses the internal correction scale factor codebook (not shown) and outputs the corresponding correction scale factor to a multiplier 1123.

[0200] Умножитель 1123 умножает оцененный спектр, выведенный из секции 1121 декодирования спектра более высокого диапазона, на корректирующий масштабный коэффициент, выведенный из секции 1122 декодирования корректирующего масштабного коэффициента, и выводит результат умножения к секции 1124 связи.[0200] A multiplier 1123 multiplies the estimated spectrum derived from the higher range spectrum decoding section 1121 by a correction scale factor derived from the correction scale factor decoding section 1122, and outputs the multiplication result to the communication section 1124.

[0201] Секция 1124 связи связывает первый спектр и оцененный спектр, выведенный из умножителя 1123 в частотной области, чтобы сгенерировать широкополосный декодированный спектр диапазонов 0-FH сигналов, и выводит его к секции 1013 преобразования во временную область в качестве коэффициента MDCT улучшения первого уровня.[0201] The communication section 1124 couples the first spectrum and the estimated spectrum extracted from the frequency domain multiplier 1123 to generate a broadband decoded spectrum of the 0-FH signal ranges, and outputs it to the time domain conversion section 1013 as an MDCT coefficient of improvement of the first level.

[0202] Посредством секции 1012 декодирования улучшения диапазона, когда входной сигнал преобразовывается в коэффициент частотной области и масштабный коэффициент квантуется при кодировании частотной области верхнего уровня, выполняется квантование масштабного коэффициента, используя взвешенный масштаб искажения таким образом, что кандидат квантования, для которого масштабный коэффициент становится маленьким, становился предпочтительным для выбора. Таким образом, кандидат квантования, посредством которого масштабный коэффициент после квантования является меньшим, чем масштабный коэффициент перед квантованием, более вероятно будет выбран. Таким образом, ухудшение перцепционного субъективного качества может быть подавлено, даже когда количество битов, выделенных для квантования масштабного коэффициента, недостаточно.[0202] Through the range enhancement decoding section 1012, when an input signal is converted to a frequency domain coefficient and the scale factor is quantized when encoding the upper level frequency domain, a scale factor is quantized using a weighted distortion scale such that a quantization candidate for which the scale factor becomes small, becoming preferred for choice. Thus, a quantization candidate by which the scaling factor after quantization is smaller than the scaling coefficient before quantization is more likely to be selected. Thus, deterioration in perceptual subjective quality can be suppressed even when the number of bits allocated to quantize the scale factor is insufficient.

[0203] Фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1015 декодирования второго уровня. Секция 1015 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой в секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0203] FIG. 20 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section 1015. The second level decoding section 1015 has a basic configuration similar to that of the second level decoding section 405 shown in FIG. 9, and therefore the same reference elements are assigned to the same configuration elements, and their description is omitted here.

[0204] Обработка отличается, в частности, между секцией 1151 вычисления суммарного коэффициента MDCT секции 1015 декодирования второго уровня и секцией 452 вычисления суммарного коэффициента MDCT секции 405 декодирования второго уровня, и различные ссылочные позиции указывают на это.[0204] The processing differs, in particular, between the second level decoding section MDCT coefficient calculation section 1151 and the second level decoding section calculation section 452 and the second level decoding section MDCT coefficient calculation section 452, and various reference positions indicate this.

[0205] Секция 1151 вычисления суммарного коэффициента MDCT имеет коэффициент MDCT улучшения первого уровня в качестве входных данных из секции 1012 декодирования улучшения диапазона, и декодированный коэффициент MDCT второго уровня в качестве входных данных из секции 204 деквантования усиления. Секция 1151 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня и декодированный коэффициент MDCT второго уровня, и выводит суммированный коэффициент MDCT. Для диапазона с улучшенным диапазоном значение коэффициента MDCT улучшения первого уровня суммируется как нуль в секции 1151 вычисления суммарного коэффициента MDCT. То есть для диапазона с улучшенным диапазоном, значение коэффициента MDCT улучшения второго уровня принимается как значение суммарного коэффициента MDCT.[0205] The total MDCT coefficient calculation section 1151 has a first level improvement MDCT coefficient as input from a range improvement decoding section 1012, and a second level decoded MDCT coefficient as input from a gain dequantization section 204. Section 1151 calculates the total coefficient MDCT summarizes the decoded coefficient MDCT of the first level and the decoded coefficient MDCT of the second level, and outputs the summed coefficient MDCT. For a range with an improved range, the first level improvement MDCT coefficient value is added up to zero in the total MDCT coefficient calculation section 1151. That is, for a range with an improved range, the value of the MDCT coefficient of improvement of the second level is taken as the value of the total coefficient MDCT.

[0206] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование не-временного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, используя технологию улучшения диапазона. Следовательно, объем кодированной информации при речевом кодировании может быть уменьшен, и ошибка кодирования речевого/аудио сигнала и декодированного сигнала и ухудшение качества может быть также уменьшена.[0206] Thus, according to this embodiment, when a frequency component of a different range is made a quantization target in each frame, predictive encoding of a non-temporal parameter is performed adaptively in addition to applying scalable encoding using range enhancement technology. Therefore, the amount of encoded information in speech encoding can be reduced, and the encoding error of the speech / audio signal and the decoded signal and quality degradation can also be reduced.

[0207] Кроме того, так как остаток не вычисляется для компонента диапазона, улучшенного посредством способа кодирования с улучшением диапазона, энергия целевого компонента квантования не увеличивается в верхнем уровне, и эффективность квантования может быть улучшена.[0207] Furthermore, since the remainder is not calculated for the range component improved by the range enhancement coding method, the energy of the target quantization component does not increase in the upper level, and the quantization efficiency can be improved.

[0208] В этом варианте осуществления был описан посредством примера случай, в котором применяется способ, посредством которого кодированная информация улучшения диапазона вычисляется в устройстве кодирования, используя корреляцию между компонентом низкого диапазона, декодированным секцией декодирования первого уровня, и компонентом более высокого диапазона входного сигнала, но настоящее изобретение не ограничивается этим, и также может быть подобным же образом применено к конфигурации, которая использует способ, посредством которого кодированная информация улучшения диапазона не вычисляется, и псевдогенерирование более высокого диапазона выполняется посредством шумового компонента, как с помощью AMR-WB (Adaptive MultiRate - Wideband). Альтернативно, способ выбора диапазона согласно настоящему изобретению может быть подобным образом применен к способу кодирования с улучшением диапазона, описанный в этом примере, или масштабируемому способу кодирования/декодирования, который не использует способ генерирования компонента более высокого диапазона, также используемый в AMR-WB.[0208] In this embodiment, an example has been described of a case in which a method is used by which encoded range enhancement information is computed in an encoding device using the correlation between a low range component, a decoded first layer decoding section and a higher range component of an input signal, but the present invention is not limited to this, and can also be similarly applied to a configuration that uses the method by which encoded range improvement information is not calculated, and higher range pseudo-generation is performed by a noise component, as with AMR-WB (Adaptive MultiRate - Wideband). Alternatively, the range selection method of the present invention can be similarly applied to the range enhancement encoding method described in this example, or a scalable encoding / decoding method that does not use the higher range component generation method also used in AMR-WB.

[0209] Вариант осуществления 6 [0209] Option exercise 6

Фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1100 согласно Варианту осуществления 6 настоящего изобретения.21 is a block diagram illustrating a basic configuration of a speech encoding apparatus 1100 according to Embodiment 6 of the present invention.

[0210] В этом чертеже устройство 1100 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1108 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления, 1 настоящего изобретения.[0210] In this drawing, the speech encoding device 1100 is provided with a downsizing section 301, a first level encoding section 302, a first level decoding section 303, a upsampling section 304, a first frequency domain conversion section 305, a delay section 306, and a second conversion section 307 in frequency domain, second layer encoding section 1108, and multiplexing section 309, and has a scalable configuration comprising two layers. In the first level, the speech CELP encoding method is used, and in the second level, the speech encoding method described in Embodiment 1 of the present invention is applied.

[0211] За исключением секции 1108 кодирования второго уровня элементы конфигурации в устройстве 1100 кодирования речи, показанном на фиг.21, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0211] With the exception of the second level encoding section 1108, the configuration elements in the speech encoding device 1100 shown in FIG. 21 are identical to the configuration elements of the speech encoding device 300 shown in FIG. 6, and therefore, the same reference numbers are assigned to the identical configuration elements, and their description is omitted here.

[0212] Фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1108 кодирования второго уровня. Секция 1108 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 1802 выбора диапазона, секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, секцию 1805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 1802 выбора диапазона и секции 1805 квантования усиления элементы конфигурации в секции 1108 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0212] FIG. 22 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section 1108. The second level encoding section 1108 mainly comprises a MDCT differential coefficient calculation section 381, a range selection section 1802, a shape quantization section 103, a predictive encoding execution / non-execution determining section 104, a gain quantization section 1805, and a multiplexing section 106. With the exception of the range selection section 1802 and the gain quantization section 1805, the configuration elements in the second level encoding section 1108 are identical to the configuration elements of the second level encoding section 308 shown in FIG. 7, and therefore the same reference elements are assigned the same reference position, and their description here falls.

[0213] Секция 1802 выбора диапазона сначала делит коэффициент MDCT X_k на множество поддиапазонов. Здесь описание относится к случаю, в котором коэффициент MDCT X_k делится поровну на J поддиапазонов (где J - натуральное число), как пример. Затем секция 1802 выбора диапазона выбирает L поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов областей (где М является натуральным числом).[0213] The band selection section 1802 first divides the MDCT coefficient X _k into a plurality of subbands. Here, the description refers to a case in which the MDCT coefficient X _k is divided evenly into J subbands (where J is a positive integer), as an example. Then, the range selection section 1802 selects L subbands (where L is a natural number) from among J subbands, and obtains M kinds of regions (where M is a natural number).

[0214] Фиг.23 является чертежом, показывающим пример конфигурации областей, полученных секцией 1802 выбора диапазона.[0214] FIG. 23 is a drawing showing an example of a configuration of regions obtained by a range selection section 1802.

[0215] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей - восьми (M=8), и каждая область состоит из двух групп поддиапазонов (количество диапазонов, составляющих эти две группы поддиапазонов, равно трем и двум соответственно). Из этих двух групп поддиапазонов группа поддиапазонов, содержащая два диапазона, расположенных на стороне более высокого диапазона, является фиксированной по всем кадрам, индексы поддиапазона, например, равны 15 и 16. Например, область 4 состоит из поддиапазонов 6-8, 15 и 16.[0215] In this drawing, the number of subbands is 17 (J = 17), the number of kinds of regions is eight (M = 8), and each region consists of two groups of subbands (the number of ranges that make up these two groups of subbands is three and two, respectively ) Of these two groups of subbands, a group of subbands containing two ranges located on the higher side is fixed across all frames, subband indices, for example, are 15 and 16. For example, region 4 consists of subbands 6-8, 15 and 16.

[0216] Затем секция 1802 выбора диапазона вычисляет среднюю энергию E(m) каждого из М видов областей в соответствии с Уравнением (33) ниже.[0216] Then, the range selection section 1802 calculates the average energy E (m) of each of the M kinds of regions in accordance with Equation (33) below.

Equation 33

[0217] В этом уравнении j' указывает индекс каждого из J поддиапазонов, и m указывает индекс каждого из М видов областей. Region(m) означает коллекцию индексов L поддиапазонов, составляющих область m, и B(j') указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j'. W(j) указывает ширину полосы поддиапазона j', и в следующем описании случай, в котором значения ширины полосы каждого из J поддиапазонов равны, то есть случай, в котором W(j') является константой, описан в качестве примера.[0217] In this equation, j 'indicates the index of each of the J subbands, and m indicates the index of each of the M kinds of regions. Region (m) means a collection of indices L of the subbands making up the region m, and B (j ') indicates the minimum value among the indices of the set of MDCT coefficients making up the subband j'. W (j) indicates the bandwidth of the subband j ′, and in the following description, the case in which the bandwidths of each of the J subbands are equal, that is, the case in which W (j ′) is constant, is described as an example.

[0218] Затем, когда выбирается область, для которой средняя энергия E(m) является максимумом - например, область m_max, секция 1802 выбора диапазона выбирает диапазон, состоящий из j'∈Region(m_max) поддиапазонов в качестве целевого диапазона квантования, и выводит индекс m_max, указывающий эту область как информацию диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 1802 выбора диапазона также выводит разностный коэффициент MDCT X_k на секцию 103 квантования формы.[0218] Then, when a region is selected for which the average energy E (m) is a maximum — for example, a region m_max, the band selection section 1802 selects a band consisting of j'∈Region (m_max) subbands as a quantization target range and outputs an index m_max indicating this area as range information to the shape quantization section 103, the predictive coding fulfillment / failure determination section 104, and the multiplexing section 106. The range selection section 1802 also outputs a difference coefficient MDCT X _k to the shape quantizing section 103.

[0219] Секция 1805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 1805 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение C^t _j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 1805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (34) ниже является минимум.[0219] The gain quantization section 1805 has an internal buffer that stores the quantization gain value obtained in the last frame. If the determination result inputted from the predictive coding fulfillment / failure determination section 104 indicates that predictive coding is to be performed, the gain quantization section 1805 quantizes by predicting the gain value of the current frame using the past frame quantization gain value C ^t _j stored in the internal buffer. More specifically, gain quantization section 1805 searches for an internal gain codebook consisting of the number of GQ gain code vectors for each of the L subbands, and finds the gain code vector index for which the result of Equation (34) below is a minimum.

Уравнение 34

Equation 34

[0220] В этом уравнении GCⁱ _k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь значения усиления поддиапазонов выбранной области связаны так, чтобы индексы поддиапазонов были в порядке возрастания, последующие значения усиления обрабатывается как один L-мерный вектор кода усиления, и выполняется квантование вектора. Поэтому, чтобы дать описание, используя фиг.23, в случае области 4, значения усиления индексов 6, 7, 8, 15 и 16 поддиапазона связываются и обрабатываются как 5-мерный вектор кода усиления. Кроме того, C^t _j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C^t _j' указывает значение усиления одного кадра назад во времени, и α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 1805 квантования усиления.[0220] In this equation, GC ⁱ _k indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and k indicates the index of the gain code vector element. For example, if the number of subbands that make up the region is five (L = 5), k has a value from 0 to 4. Here, the gain values of the subbands of the selected region are connected so that the subband indices are in ascending order, the subsequent gain values are processed as one L- dimensional vector of the gain code, and vector quantization is performed. Therefore, to give a description using FIG. 23, in the case of region 4, the gain values of the subband indices 6, 7, 8, 15, and 16 are associated and processed as a 5-dimensional gain code vector. In addition, C ^t _{j ′} indicates the gain value of t frames backward in time, so that when t = 1, for example, C ^t _{j ′} indicates the gain value of one frame backward in time, and α is a fourth-order linear prediction coefficient, stored in gain quantization section 1805.

[0221] Секция 1805 квантования усиления выдает индекс G_min вектора кода усиления, для которого результатом Уравнения (34) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 1805 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (34) выше.[0221] The gain quantization section 1805 provides the gain code vector index G_min, for which the result of Equation (34) above is a minimum, to the multiplexing section 106 as encoded gain information. If there is no gain value of the subband corresponding to the last frame in the internal buffer, the gain quantization section 1805 replaces the gain value of the nearest subband in the frequency in the internal buffer in Equation (34) above.

[0222] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 1805 квантования усиления непосредственно квантует идеальное значения усиления Gain_i(j'), введенное из секции 103 квантования формы, в соответствии с Уравнением (35) ниже. Здесь секция 1805 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.[0222] On the other hand, if the determination result inputted from the predictive coding execution / non-execution determining section 104 indicates that the predictive coding should not be performed, the gain quantization section 1805 directly quantizes the ideal gain value Gain_i (j ′) input from the section 103 form quantization, in accordance with Equation (35) below. Here, the gain quantization section 1805 processes the ideal gain value as an L-dimensional vector, and quantizes the vector.

Equation 35

[0223] Здесь индекс кодовой книги, который делает результат Уравнения (35) выше минимума, обозначается G_min.[0223] Here, the codebook index that makes the result of Equation (35) above the minimum is denoted by G_min.

[0224] Секция 1805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 1805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (36) ниже с использованием кодированной информации усиления G_min и значения усиления квантования C^t _j', полученного в текущем кадре. То есть в Уравнении (36) значение C^l _j' обновляется индексом j элемента GC^G-^min _j вектором кода усиления и j' удовлетворяет условию j'∈Region(m_max) соответственно, ассоциированном в порядке возрастания.[0224] The gain quantization section 1805 outputs G_min to the multiplexing section 106 as encoded gain information. Gain quantization section 1805 also updates the internal buffer in accordance with Equation (36) below using the encoded gain information G_min and quantization gain value C ^t _{j ′} obtained in the current frame. That is, in Equation (36), the value C ^l _{j 'is} updated by the index j of the element GC ^G - ^min _j by the gain code vector and j' satisfies the condition j'∈Region (m_max), respectively, associated in ascending order.

Equation 36

[0225] Фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1200 декодирования речи согласно этому варианту осуществления.[0225] FIG. 24 is a block diagram illustrating a basic configuration of a speech decoding apparatus 1200 according to this embodiment.

[0226] В этом чертеже устройство 1200 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1205 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.[0226] In this drawing, the speech decoding apparatus 1200 is provided with a control section 401, a first level decoding section 402, a upsampling section 403, a frequency domain conversion section 404, a second level decoding section 1205, a time domain conversion section 406, and a switch 407.

[0227] За исключением секции 1205 декодирования второго уровня элементы конфигурации в устройстве1200 декодирования речи, показанном на фиг.24, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0227] With the exception of the second level decoding section 1205, the configuration elements in the speech decoding apparatus 1200 shown in FIG. 24 are identical to the configuration elements of the speech decoding apparatus 400 shown in FIG. 8 and therefore the same reference numbers are assigned to the same configuration elements, and their description is omitted here.

[0228] Фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1205 декодирования второго уровня. Секция 1205 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, секцию 2504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 2504 деквантования усиления, элементы конфигурации в секции 1205 декодирования второго уровня идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0228] FIG. 25 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section 1205. The second level decoding section 1205 mainly comprises a demultiplexing section 451, a shape dequantization section 202, a predictive decoding execution / non-execution determination section 203, a gain dequantization section 2504, and a total MDCT coefficient calculation section 452. With the exception of gain dequantization section 2504, the configuration elements in the second level decoding section 1205 are identical to the configuration elements of the second level decoding section 405 shown in FIG. 9, and therefore the same reference elements are assigned the same reference numerals, and their description is omitted here.

[0229] Секция 2504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования указывает, что прогнозирующее декодирование должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 2504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления (GC^G-^min _k, где k указывает индекс элемента), что и секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (37) ниже. Здесь C''^t _j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''^t _j' указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 2504 деквантования усиления. Секция 2504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. То есть в Уравнении (37), значение Gain_q'(j') вычисляется с индексом k элемента GC^G-^min _k вектора кода усиления и j' удовлетворяет условию j'

Region(m_max) соответственно ассоциированном в порядке возрастания.[0229] The gain dequantization section 2504 has an internal buffer that stores the gain value obtained in the last frame. If the determination result inputted from the predictive decoding run / fail determination section 203 indicates that predictive decoding should be performed, the gain dequantization section 2504 dequantizes by predicting the gain value of the current frame using the gain value of the past frame stored in the internal buffer. More specifically, the gain dequantization section 2504 has the same kind of internal gain codebook (GC ^G - ^min _k , where k indicates the index of the element) as the gain quantization section 105 of the speech encoding apparatus 100, and obtains the gain value Gain_q ′ by performing dequantization gain in accordance with Equation (37) below. Here, C ″ ^t _{j ′} indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ ^t _{j ′} indicates the gain value of one frame backward in time. In addition, α is a fourth order linear prediction coefficient stored in gain dequantization section 2504. Gain dequantization section 2504 processes the L subbands within the same region as an L-dimensional vector, and dequantizes the vector. That is, in Equation (37), the value Gain_q '(j') is calculated with the index k of the element GC ^G - ^min _k the gain code vector and j 'satisfies the condition j'

Region (m_max), respectively, associated in ascending order.

Equation 37

[0230] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 2504 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (37) выше.[0230] If there is no subband gain value corresponding to the last frame in the internal buffer, the gain dequantization section 2504 replaces the gain value of the nearest subband in the frequency in the internal buffer in Equation (37) above.

[0231] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (38) ниже с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. То есть когда прогнозирующее декодирование не выполняется, секция 2504 деквантования усиления берет вектор GC_k ^G_minкода усиления, соответствующий кодированной информации G_min усиления, непосредственно в качестве значения усиления. В Уравнении (38) k и j' соответственно ассоциируются в порядке возрастания таким же образом как в Уравнении (37).[0231] On the other hand, if the determination result inputted from the predictive decoding run / fail determination section 203 indicates that the predictive decoding should not be performed, the gain dequantization section 2504 quantizes the gain in accordance with Equation (38) below using the above codebook gain. Here, the gain value is processed as an L-dimensional vector, and the vector is quantized. That is, when predictive decoding is not performed, the gain dequantization section 2504 takes the ^gain code vector GC _k ^G_min corresponding to the encoded gain information G_min directly as the gain value. In Equation (38), k and j 'are respectively associated in ascending order in the same manner as in Equation (37).

Gain_q'(j')=

Gain_q '(j') =

Equation 38

[0232] Затем секция 2504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (39) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (40) ниже. В Уравнении (40) значение C''¹ _j обновляется с j деквантованного значения усиления Gain_q'(j), и j', удовлетворяющим условию j'

Region(m_max) соответственно, ассоциированном в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''_k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q' (j')[0232] Then, the gain dequantization section 2504 calculates the decoded MDCT coefficient in accordance with Equation (39) below using the gain value obtained by dequantizing the current frame and the shape value input from the form dequantization section 202, and updates the internal buffer in accordance with Equation ( 40) below. In Equation (40), the value C ″ ¹ _{j is} updated from j dequantized gain value Gain_q ′ (j), and j ′ satisfying condition j ′

Region (m_max), respectively, associated in ascending order. Here, the calculated decoded MDCT coefficient is denoted by X ' _k . In addition, when dequantizing the MDCT coefficient, if k is present in B (j ') - B (j' + 1) -1, the gain value takes on the value Gain_q '(j')

Equation 39

Equation 40

[0233] Секция 2504 деквантования усиления выводит декодированный коэффициент MDCT X"_k, вычисленный в соответствии с Уравнением (39) выше, к секции 452 вычисления суммарного коэффициента MDCT.[0233] The gain dequantization section 2504 outputs the decoded MDCT coefficient X _{k k} calculated in accordance with Equation (39) above to the total MDCT coefficient calculation section 452.

[0234] Таким образом, согласно этому варианту осуществления, по сравнению с выбором одной области, составленной из смежных поддиапазонов из числа всех диапазонов, в качестве целевого диапазона квантования, множество диапазонов, для которых желательно улучшить качество аудио, устанавливается заранее по широкому диапазону, и непоследовательное множество диапазонов, охватывающих широкий диапазон, выбирается в качестве целевых диапазонов квантования. Следовательно, качество и низкого диапазона и высокого диапазона могут быть улучшены одновременно.[0234] Thus, according to this embodiment, compared with the selection of one region composed of adjacent subbands from among all ranges as the target quantization range, a plurality of ranges for which it is desirable to improve audio quality are set in advance over a wide range, and an inconsistent set of ranges covering a wide range is selected as the target quantization ranges. Therefore, the quality of both low range and high range can be improved simultaneously.

[0235] В этом варианте осуществления причиной для фиксации всегда поддиапазонов, включенных в целевой диапазон квантования, на стороне высокого диапазона, как показано на фиг.23, является то, что искажения кодирования является все еще большим для высокого диапазона в первом уровне масштабируемого кодека. Поэтому качество аудио улучшается также устойчиво посредством выбора высокого диапазона, который не был кодирован с очень высокой точностью первым уровнем в качестве цели квантования, в дополнение к выбору низкого или среднего диапазона, имеющего перцепционное значение для выбора в качестве цели квантования во втором уровне.[0235] In this embodiment, the reason for always locking the subbands included in the target quantization range on the high range side, as shown in FIG. 23, is that the encoding distortion is still large for the high range in the first layer of the scalable codec. Therefore, audio quality is also improved steadily by selecting a high range that has not been encoded with very high accuracy by the first level as a quantization target, in addition to selecting a low or medium range having a perceptual value for selecting as a quantization target in the second level.

[0236] В этом варианте осуществления был описан посредством примера случай, в котором диапазон, который становится целью квантования высокого диапазона, является фиксированным, посредством включения одинаковых поддиапазонов более высокого поддиапазона (более конкретно, поддиапазонов с индексами 15 и 16) по всем кадрам, но настоящее изобретение не ограничивается этим, и диапазон, который становится целью квантования высокого диапазона, также может быть выбран из множества целевых кандидатов диапазона квантования для поддиапазона высокого диапазона таким же образом, как для поддиапазона низкого диапазона. В таком случае выбор может быть выполнен после умножения на тем больший вес, чем выше область поддиапазона. Также возможно для диапазонов, которые становятся кандидатами на адаптивное изменение согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральных характеристик декодированного сигнала первого уровня, или спектральных характеристик дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобного. Например, возможный способ заключается в том, чтобы дать приоритеты в качестве кандидата целевого диапазона квантования, части, где распределение энергии спектра (разностный коэффициент MDCT) дифференциального сигнала для входного сигнала и первого декодированного сигнала уровня является высоким.[0236] In this embodiment, a case has been described by way of example where the range that becomes the target of quantizing a high range is fixed by including the same subbands of a higher subband (more specifically, subbands with indices 15 and 16) over all frames, but the present invention is not limited to this, and the range that becomes the target of high range quantization can also be selected from a plurality of target quantization range candidates for the high subband Range same manner as for the low-range sub-band. In this case, the selection can be made after multiplying by the greater the weight, the higher the region of the subrange. It is also possible for ranges that become candidates for adaptive variation according to the sampling frequency of the input signal, the bit rate, and the spectral characteristics of a decoded first level signal, or the spectral characteristics of a differential signal for an input signal and a decoded first level signal, or the like. For example, a possible method is to prioritize the quantization target range, the part where the spectrum energy distribution (MDCT difference coefficient) of the differential signal for the input signal and the first decoded level signal is high.

[0237] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов на стороне высокого диапазона, составляющая область, является фиксированной, и должно ли быть применено прогнозирующее кодирование к секции квантования усиления, определяется согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, но настоящее изобретение не ограничивается этим, и прогнозирующее кодирование может также всегда применяться к усилению группы поддиапазонов со стороны высокого диапазона, составляющих область, с определением того, должно ли прогнозирующее кодирование быть выполнено, будучи выполненным только для группы поддиапазонов со стороны низкого диапазона. В этом случае количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, учитывается только для группы поддиапазонов со стороны низкого диапазона. То есть в этом случае вектор квантования квантуется после деления на часть, для которой выполняется прогнозирующее кодирование, и часть, для которой не выполняется прогнозирующее кодирование. Таким образом, так как определение того, необходимо ли прогнозирующее кодирование для фиксированной группы поддиапазонов со стороны высокого диапазона, составляющих область, не выполняется, и прогнозирующее кодирование всегда выполняется, усиление может быть квантовано более эффективно.[0237] In this embodiment, a case has been described by way of example where the group of subbands on the high band side constituting the region is fixed and whether predictive coding should be applied to the gain quantization section is determined according to the number of subbands common to the quantization target range selected in the current frame and the target quantization range selected in the last frame, but the present invention is not limited thereto, and predictive coding may also be entirely Always apply to the amplification of a group of subbands from the high range side constituting the region, with the determination of whether predictive coding should be performed having been performed only for the group of subbands from the low range side. In this case, the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected in the last frame is taken into account only for the group of subbands on the low range side. That is, in this case, the quantization vector is quantized after dividing by the part for which predictive coding is performed, and the part for which predictive coding is not performed. Thus, since the determination of whether predictive coding is necessary for a fixed group of subbands on the high-band side constituting the region is not performed, and predictive coding is always performed, the gain can be quantized more efficiently.

[0238] В этом варианте осуществления был описан посредством примера случай, в котором переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени, также может использоваться. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.[0238] In this embodiment, a case has been described by way of example where switching is performed between applying and not applying predictive coding in a gain quantization section according to the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected one frame back in time, but the present invention is not limited to this, and many subbands common to the quantization target range selected in the current frame and the target range for quantization of the selected two or more frames back in time it may also be used. In this case, even if the number of subbands common for the quantization target range selected in the current frame and the quantization target range selected one frame back in time is less than or equal to a predetermined value, predictive coding can be applied in the gain quantization section according to the number subbands common to the quantization target range selected in the current frame and the quantization target range selected two or more frames backward in time.

[0239] В этом варианте осуществления был описан посредством примера случай, в котором область состоит из группы поддиапазонов со стороны низкого диапазона и группы поддиапазонов со стороны высокого диапазона, но настоящее изобретение не ограничивается этим, и, например, группа поддиапазонов также может быть установлена в среднем диапазоне, и область может быть составлена из трех или более групп поддиапазонов. Количество групп поддиапазонов, составляющих область, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральным характеристикам декодированного сигнала первого уровня, или спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобное.[0239] In this embodiment, a case has been described by way of example in which the region consists of a group of subbands on the low side and a group of subbands on the high side, but the present invention is not limited thereto, and for example, the group of subbands can also be set to mid range, and the region may be composed of three or more groups of subbands. The number of groups of subbands constituting the region can also be adapted adaptively according to the sampling frequency of the input signal, the coding rate in bits, and the spectral characteristics of the decoded signal of the first level, or the spectral characteristics of the differential signal for the input signal and the decoded signal of the first level, or the like.

[0240] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов со стороны высокого диапазона, составляющая область, фиксируется по всем кадрам, но настоящее изобретение не ограничивается этим, и группа поддиапазонов со стороны низкого диапазона, составляющая область, также может быть фиксирована по всем кадрам. Кроме того, и группы поддиапазонов со стороны высокого диапазона и со стороны низкого диапазона, составляющие область, могут также быть фиксированы по всем кадрам, или группа поддиапазонов группа поддиапазонов и со стороны высокого диапазона и со стороны низкого диапазона, могут быть найдены и выбраны на покадровой основе. Кроме того, различные вышеописанные способы могут быть применены к трем или более группам поддиапазонов среди групп поддиапазонов, составляющих область.[0240] In this embodiment, a case has been described by way of example in which a group of subbands on the high range side constituting a region is captured in all frames, but the present invention is not limited thereto, and a group of subbands on the low side constituting the region may also be fixed across all frames. In addition, both the subband groups from the high band and the low band side constituting the region can also be fixed across all frames, or the subband group the group of subbands from both the high band and the low band side can be found and selected on the frame-by-frame basis. In addition, the various methods described above can be applied to three or more subband groups among the subband groups constituting the region.

[0241] В этом варианте осуществления был описан посредством примера случай, в котором из поддиапазонов, составляющих область, количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, меньше, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона (количество поддиапазонов группы поддиапазонов со стороны высокого диапазона равно двум, и поддиапазонов группы поддиапазонов со стороны низкого диапазона равно трем), но настоящее изобретение не ограничивается этим, и количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, также может быть равным или большим, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона. Количество поддиапазонов, составляющих каждую группу поддиапазонов, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, спектральным характеристикам декодированного сигнала первого уровня, спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобных.[0241] In this embodiment, a case has been described by way of example in which of the subbands making up the region, the number of subbands making up the group of subbands on the high band side is less than the number of subbands making up the group of subbands on the low band side (the number of subbands of the group of subbands on the high side is two, and the subbands of the group of subbands on the low side is three), but the present invention is not limited thereto, and count honors subbands constituting the group of subbands from the high range may also be equal to or greater than the number of subbands composing a group of subbands from the low range. The number of subbands making up each group of subbands can also be adapted adaptively according to the sampling frequency of the input signal, the coding rate in bits, the spectral characteristics of the decoded signal of the first level, the spectral characteristics of the differential signal for the input signal and the decoded signal of the first level, or the like.

[0242] В этом варианте осуществления был описан посредством примера случай, в котором кодирование с использованием способа кодирования CELP выполняется секцией 302 кодирования первого уровня, но настоящее изобретение не ограничивается этим, и кодирование с использованием способа кодирования, отличного от CELP (такое как кодирование преобразования, например) также может быть выполнено.[0242] In this embodiment, a case has been described by way of example in which encoding using the CELP encoding method is performed by the first layer encoding section 302, but the present invention is not limited thereto, and encoding using a different encoding method than CELP (such as conversion encoding , for example) can also be performed.

[0243] Вариант осуществления 7 [0243] Embodiment 7

Фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1300 кодирования речи согласно Варианту осуществления 7 настоящего изобретения.26 is a block diagram illustrating a basic configuration of a speech encoding apparatus 1300 according to Embodiment 7 of the present invention.

[0244] В этом чертеже устройство 1300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1308 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.[0244] In this drawing, the speech encoding device 1300 is provided with a downsizing section 301, a first level encoding section 302, a first level decoding section 303, a upsizing section 304, a first frequency domain conversion section 305, a delay section 306, and a second conversion section 307 in frequency domain, by second layer encoding section 1308, and multiplexing section 309, and has a scalable configuration comprising two levels. In a first layer, a speech CELP encoding method is used, and a second layer uses a speech encoding method described in Embodiment 1 of the present invention.

[0245] За исключением секции 1308 кодирования второго уровня, элементы конфигурации в устройстве 1300 кодирования речи, показанном на фиг.26, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0245] With the exception of the second level encoding section 1308, the configuration elements in the speech encoding device 1300 shown in FIG. 26 are identical to the configuration elements of the speech encoding device 300 shown in FIG. 6, and therefore, the same reference numbers are assigned to the same configuration elements , and their description is omitted here.

[0246] Фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1308 кодирования второго уровня. Секция 1308 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 102 выбора диапазона, секцию 103 квантования формы, секцию 3804 определения выполнения/не выполнения прогнозирующего кодирования, секцию 3805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 3804 определения выполнения/не выполнения прогнозирующего кодирования и секции 3805 квантования усиления, элементы конфигурации в секции 1308 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0246] FIG. 27 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section 1308. The second level coding section 1308 mainly comprises a MDCT differential coefficient calculation section 381, a range selection section 102, a shape quantization section 103, a predictive coding execution / non-execution determination section 3804, a gain quantization section 3805, and a multiplexing section 106. With the exception of the predictive coding execution / non-execution determination section 3804 and the gain quantization section 3805, the configuration elements in the second level encoding section 1308 are identical to the configuration elements of the second level encoding section 308 shown in FIG. 7 and therefore the same reference elements are assigned the same configuration elements positions, and their description is omitted here.

[0247] Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию m_max диапазона, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование должно быть применено, и устанавливает Pred_Flag(j)=ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование не должно быть применено, и устанавливает Pred_Flag(j) =OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь, Pred_Flag - флаг, указывающий результат определения выполнения/не выполнения прогнозирующего кодирования для каждого поддиапазона, со значением ON, означающем, что прогнозирующее кодирование должно быть применено к значению усиления поддиапазона, и значением OFF, означающим, что прогнозирующее кодирование не должно быть применено к значению усиления поддиапазона. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования выводит результат определения для каждого поддиапазона на секцию 3805 квантования. Затем секция 3804 определения выполнения/не выполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0247] The prediction encoding execution / non-execution determination section 3804 has an internal buffer that stores range information m_max entered from the range selection section 102 in the last frame. Here, an example is described by a case in which the predictive coding execution / non-execution determination section 3804 has an internal buffer that stores m_max range information for the past three frames. Predictive encoding execution / non-execution determining section 3804 first detects a subband common to the quantization target range of the past frame and the quantization target range of the current frame using the m_max range information input from the range selection section 102 in the last frame and the m_max range information input from the section 102 range selection in the current frame. From the L subbands indicated by the m_max range information inputted from the range selection section 102, the prediction encoding execution / not determining section 3804 determines that the prediction coding should be applied and sets Pred_Flag (j) = ON for the subband selected as the quantization target one frame back in time. On the other hand, from the L subbands indicated by the range information m_max entered from the range selection section 102, the prediction encoding execution / not determining section 3804 determines that the prediction coding should not be applied and sets Pred_Flag (j) = OFF for the subband, not selected as the target of quantization one frame back in time. Here, Pred_Flag is a flag indicating the result of determining whether / not to execute predictive coding for each subband, with an ON value meaning that the predictive encoding should be applied to the subband gain value, and an OFF value meaning that the predictive encoding should not be applied to subband gain value. Predictive coding execution / non-execution determination section 3804 outputs a determination result for each subband to quantization section 3805. Then, the prediction encoding execution / non-execution determination section 3804 updates the internal buffer storing the range information using the range information m_max entered from the range selection section 102 in the current frame.

[0248] Секция 3805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 3805 квантования усиления переключает между выполнением/не выполнением применения прогнозирующего кодирования при квантовании значения усиления текущего кадра согласно результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования. Например, если прогнозирующее кодирование должно быть выполнено, секция 3805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, выполняет вычисление расстояния, соответствующее результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования, и находит индекс вектора кода усиления, для которого результатом Уравнения (41) ниже является минимум. В Уравнении (41) вычисление одного или другого расстояния выполняется в соответствии с Pred_Flag(j) для всех j', удовлетворяющих j∈Region(m_max), и находится индекс вектора усиления, для которого общая стоимость ошибки является минимальной.[0248] The gain quantization section 3805 has an internal buffer that stores the quantization gain value obtained in the last frame. The gain quantization section 3805 switches between execution / non-execution of the application of predictive coding when quantizing the gain value of the current frame according to a determination result inputted from the predictive encoding / not determination determination section 3804. For example, if predictive coding is to be performed, the gain quantization section 3805 searches for an internal gain codebook consisting of the number of GQ vectors of the gain code for each of the L subbands, performs distance calculation corresponding to the determination result input from the predictor fulfillment / failure determination section 3804 encoding, and finds the index of the gain code vector, for which the result of Equation (41) below is a minimum. In Equation (41), one or the other distance is calculated in accordance with Pred_Flag (j) for all j 'satisfying j∈Region (m_max), and the index of the gain vector is found for which the total error cost is minimal.

Уравнение 41

Equation 41

[0249] В этом уравнении GCⁱ _k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь C^t _j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C^t _j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 3805 квантования усиления. Секция 3805 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0249] In this equation, GC ⁱ _k indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and k indicates the index of the gain code vector element. For example, if the number of subbands making up the region is five (L = 5), k has a value from 0 to 4. Here, C ^t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ^t _j indicates the gain value of one frame back in time. In addition, α is a fourth-order linear prediction coefficient stored in gain quantization section 3805. Gain quantization section 3805 processes the L subbands within the same region as an L-dimensional vector, and performs vector quantization.

[0250] Секция 3805 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (41) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления.[0250] The gain quantization section 3805 outputs the gain code vector index G_min, for which the result of Equation (41) above is a minimum, to the multiplexing section 106 as encoded gain information.

[0251] Секция 3805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 3805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (42) ниже с использованием кодированной информации усиления, G_min, и значения C^t _j квантования усиления, полученного в текущем кадре. В Уравнении (42) значение C¹ _j' обновляется индексом j элемента GC^G-^min _jвектора кода усиления и j' удовлетворяет условию j'∈ Region(m_max), соответственно ассоциированному в порядке возрастания.[0251] The gain quantization section 3805 outputs G_min to the multiplexing section 106 as encoded gain information. Gain quantization section 3805 also updates the internal buffer in accordance with Equation (42) below using the encoded gain information, G_min, and gain quantization value C ^t _j obtained in the current frame. In Equation (42), the value C ¹ _{j ′ is} updated by the index j of the element GC ^G ^−min _j of the gain code vector and j ′ satisfies the condition j′∈ Region (m_max), respectively, associated in ascending order.

Equation 42

[0252] Фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1400 декодирования речи согласно этому варианту осуществления.[0252] FIG. 28 is a block diagram illustrating a basic configuration of a speech decoding apparatus 1400 according to this embodiment.

[0253] В этом чертеже устройство 1400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1405 декодирования второго уровня, секцией 406 преобразования во временную область, и коммутатором 407.[0253] In this drawing, the speech decoding apparatus 1400 is provided with a control section 401, a first level decoding section 402, a upsampling section 403, a frequency domain conversion section 404, a second level decoding section 1405, a time domain conversion section 406, and a switch 407.

[0254] За исключением секции 1405 декодирования второго уровня, элементы конфигурации в устройстве 1400 декодирования речи, показанном на фиг.28, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0254] With the exception of the second level decoding section 1405, the configuration items in the speech decoding device 1400 shown in FIG. 28 are identical to the configuration items of the speech decoding device 400 shown in FIG. 8, and therefore, the same reference numbers are assigned to the same configuration items , and their description is omitted here.

[0255] Фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1405 декодирования второго уровня. Секция 1405 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 4503 определения выполнения/не выполнения прогнозирующего декодирования, секцию 4504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 4503 определения выполнения/не выполнения прогнозирующего декодирования и секции 4504 деквантования усиления, элементы конфигурации в секции 1405 декодирования второго уровня, показанной на фиг.29, идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0255] FIG. 29 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section 1405. The second level decoding section 1405 mainly comprises a demultiplexing section 451, a shape dequantization section 202, a predictive decoding execution / non-execution determination section 4503, a gain dequantization section 4504, and a total MDCT coefficient calculation section 452. With the exception of predictive decoding execution / non-execution decoding section 4503 and gain dequantization section 4504, the configuration elements in the second level decoding section 1405 shown in FIG. 29 are identical to the configuration elements of the second level decoding section 405 shown in FIG. 9 and therefore identical the configuration items are assigned the same reference numbers, and their description is omitted here.

[0256] Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре. Здесь посредством примера описан случай, в котором секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование должно быть применено, и устанавливает Pred_Flag(j) =ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование не должно быть применено, и устанавливает Pred_Flag(j)=OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь Pred_Flag - флаг, указывающий результат определения применения/не применения прогнозирующего декодирования для каждого поддиапазона, с значением ON, указывающим, что прогнозирующее декодирование должно быть применено к значению усиления поддиапазона, и значением OFF, указывающим, что прогнозирующее декодирование не должно быть применено к значению усиления поддиапазона. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования выводит результат определения для каждого поддиапазона на секцию 4504 деквантования. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре.[0256] Predictive decoding run / fail determination section 4503 has an internal buffer that stores information of the m_max range entered from demultiplexing section 451 in the last frame. Here, by way of example, a case is described in which the predictive decoding run / fail determination section 4503 has an internal buffer that stores m_max range information for the past three frames. Predictive decoding execution / non-execution determining section 4503 first detects a subband common to the quantization target range of the last frame and the quantization target range of the current frame using the m_max range information input from the last frame demultiplexing section 451 and the m_max range information input from section 451 demultiplexing in the current frame. From the L subbands indicated by the m_max range information inputted from the demultiplexing section 451, the predictive decoding execution / not deciding section 4503 determines that predictive decoding should be applied, and sets Pred_Flag (j) = ON for the subband selected as the quantization target one frame back in time. On the other hand, from the L subbands indicated by the m_max range information inputted from the demultiplexing section 451, the predictive decoding execution / not determining section 4503 determines that predictive decoding should not be applied and sets Pred_Flag (j) = OFF for the subband not selected as a quantization target one frame back in time. Here Pred_Flag is a flag indicating the result of determining whether / not to apply predictive decoding for each subband, with an ON value indicating that predictive decoding should be applied to the subband gain value, and an OFF value indicating that predictive decoding should not be applied to the value subband gain. Then, the predictive decoding run / fail determination section 4503 outputs a determination result for each subband to the dequantization section 4504. Then, the predictive decoding run / fail determination section 4503 updates the internal buffer storing the range information using the range information m_max input from the demultiplexing section 451 in the current frame.

[0257] Секция 4504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре, и переключается между выполнением/не выполнением применения прогнозирующего декодирования при декодировании значения усиления текущего кадра согласно результату определения, введенному из секции 4503 определения выполнения/не выполнения прогнозирующего декодирования. Секция 4504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как в секции 105 квантования усиления устройства 100 кодирования речи, и при выполнении прогнозирующего декодирования, например, получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (43) ниже. Здесь C^”t _j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C^”t _j указывает значение усиления одного кадра ранее. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 4504 деквантования усиления. Секция 4504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. В Уравнении (43) значение Gain_q'(j') вычисляется с индексом k элемента GC^G_min _k вектора кода усиления и j', удовлетворяющим условию j'

Region(m_max) соответственно ассоциированном в порядке возрастания.[0257] The gain dequantization section 4504 has an internal buffer that stores the gain value obtained in the last frame and switches between performing / not performing predictive decoding when decoding the gain of the current frame according to the determination result input from the execution / not execution determination section 4503 predictive decoding. The gain dequantization section 4504 has the same kind of internal gain codebook as in the gain quantization section 105 of the speech encoding apparatus 100, and when performing predictive decoding, for example, obtains a gain value Gain_q ′ by performing gain dequantization in accordance with Equation (43) below. Here, C ^”t _j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ^{” t} _j indicates the gain value of one frame earlier. In addition, α is a fourth order linear prediction coefficient stored in gain dequantization section 4504. Gain dequantization section 4504 processes the L subbands within the same region as an L-dimensional vector, and dequantizes the vector. In Equation (43), the value Gain_q '(j') is calculated with the index k of the element GC ^G_min _k of the gain code vector and j 'satisfying condition j'

Region (m_max), respectively, associated in ascending order.

Уравнение 43

Equation 43

[0258] Затем секция 4504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (44) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (45) ниже. В Уравнении (45) значение C''¹ _j, обновляется посредством j деквантованного значения усиления Gain_q'(j) и j', удовлетворяющего j'∈Region(m_max), соответственно ассоциированного в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''_k. Кроме того, в деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q'(j').[0258] Then, the gain dequantization section 4504 calculates the decoded MDCT coefficient in accordance with Equation (44) below using the gain value obtained by dequantizing the current frame and the shape value input from the form dequantization section 202, and updates the internal buffer in accordance with Equation ( 45) below. In Equation (45), the value of C ″ ¹ _j is updated by j dequantized gain value Gain_q ′ (j) and j ′ satisfying j′∈Region (m_max), respectively associated in ascending order. Here, the calculated decoded MDCT coefficient is denoted by X ' _k . In addition, in dequantizing the MDCT coefficient, if k is present in B (j ') - B (j' + 1) -1, the gain value takes on the value Gain_q '(j').

Уравнение 44

Equation 44

Equation 45

[0259] Секция 4504 деквантования усиления выводит декодированный коэффициент MDCT X''_k, вычисленный в соответствии с Уравнением (44) выше, на секцию 452 вычисления суммарного коэффициента MDCT.[0259] The gain dequantization section 4504 outputs the decoded MDCT coefficient X ' _k calculated in accordance with Equation (44) above to the total MDCT coefficient calculation section 452.

[0260] Таким образом, согласно этому варианту осуществления, во время квантования усиления целевого диапазона квантования, выбранного в каждом кадре, обнаруживается, был ли каждый поддиапазон, включенный в целевой диапазон квантования, квантован в прошлом кадре. Затем выполняется квантование вектора с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Посредством этого кодирование параметра частотной области может быть выполнено более эффективно, чем со способом, посредством которого переключение применения/не применения прогнозирующего кодирования выполняется для всего вектора.[0260] Thus, according to this embodiment, during the quantization of the gain of the quantization target range selected in each frame, it is detected whether each subband included in the quantization target range was quantized in the last frame. Then, vector quantization is performed with predictive coding applied to the subband quantized in the past frame and with predictive coding not applicable to the subband not quantized in the past frame. By this, the encoding of the frequency domain parameter can be performed more efficiently than with the method by which the switching of application / not application of predictive coding is performed for the entire vector.

[0261] В этом варианте осуществления был описан способ, посредством которого переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и могут также использоваться многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.[0261] In this embodiment, a method has been described by which switching between applying and not applying predictive coding in a gain quantization section according to the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected one frame back in time, but the present invention is not limited thereto, and many subbands common to the quantization target range selected in the current frame may also be used. , and a quantization target range selected two or more frames backward in time. In this case, even if the number of subbands common for the quantization target range selected in the current frame and the quantization target range selected one frame back in time is less than or equal to a predetermined value, predictive coding can be applied in the gain quantization section according to the number subbands common to the quantization target range selected in the current frame and the quantization target range selected two or more frames backward in time.

[0262] Также возможно способ квантования, описанный в этом варианте осуществления, объединить с способом выбора целевого диапазона квантования, описанным в Варианте осуществления 6. Ниже описан случай, в котором, например, область, которая является целевым диапазоном квантования, состоит из группы поддиапазонов со стороны низкого диапазона, и группы поддиапазонов со стороны высокого диапазона, причем группа поддиапазонов со стороны низкого диапазона фиксирована по всем кадрам, и квантуется вектор, в котором группа поддиапазонов со стороны низкого диапазона и группа поддиапазонов со стороны высокого диапазона делаются последовательными. В этом случае в векторе усиления целевого диапазона квантования квантование вектора выполняется с прогнозирующим кодированием, всегда применяемым для элемента, указывающего усиление группы поддиапазонов со стороны высокого диапазона, и прогнозирующее кодирование не применяется для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона. Посредством этого квантование вектора усиления может быть выполнено более эффективно чем тогда, когда выполняется переключение применения/неприменения прогнозирующего кодирования для всего вектора. В это время, в группе поддиапазонов со стороны низкого диапазона также эффективен способ, посредством которого квантование вектора выполняется с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Кроме того, для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона, квантование выполняется посредством переключения между применением и не применением прогнозирующего кодирования, используя поддиапазоны, составляющие целевой диапазон квантования, выбранный в прошлом кадре во времени, как описано в Варианте осуществления 1. Посредством этого, квантование вектора усиления может быть выполнено более эффективно. Также возможно применить настоящее изобретение к конфигурации, которая объединяет вышеописанные конфигурации.[0262] It is also possible to combine the quantization method described in this embodiment with the quantization target range selection method described in Embodiment 6. A case is described below where, for example, a region that is a quantization target range consists of a group of subbands with side of the low range, and a group of subbands on the high side, and the group of subbands on the low side is fixed for all frames, and a vector is quantized in which the group of subbands on the side the low range and the group of subbands on the high range side are made sequential. In this case, in the gain vector of the quantization target range, vector quantization is performed with predictive coding always applied to an element indicating the gain of the subband group from the high range side, and predictive coding is not applied to the element indicating the gain of the subband group from the low range side. By this, quantization of the gain vector can be performed more efficiently than when predictive coding application / non-switching is performed for the entire vector. At this time, in the group of subbands on the low side, a method is also efficient whereby vector quantization is performed with predictive coding applied to a subband quantized in a past frame and with predictive coding not applicable to a subband not quantized in a past frame. In addition, for an element indicating the amplification of the group of subbands from the low range side, quantization is performed by switching between applying and not applying predictive coding using subbands constituting the quantization target range selected in the last frame in time, as described in Embodiment 1. By of this, quantization of the gain vector can be performed more efficiently. It is also possible to apply the present invention to a configuration that combines the above configurations.

[0263] Нижеследующее завершает описание вариантов осуществления настоящего изобретения.[0263] The following concludes the description of embodiments of the present invention.

[0264] В вышеупомянутых вариантах осуществления были описаны посредством примера случаи, в которых способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран, после которого целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобному. Например, один способ должен предварительно выбрать низкий диапазон, когда частота дискретизации является низкой.[0264] In the above embodiments, examples have been described by way of example in which the method of selecting the target quantization range should select the region with the highest energy in all ranges, but the present invention is not limited thereto, and a certain range can also be preselected, after which the target the quantization range is finally selected in a pre-selected range. In such a case, the preselected range may be determined according to the sampling frequency of the input signal, bit rate coding, or the like. For example, one way is to preselect a low range when the sampling rate is low.

[0265] В вышеупомянутых вариантах осуществления используется MDCT в качестве способа кодирования преобразования, и поэтому "коэффициент MDCT", используемый в вышеупомянутых вариантах осуществления, по существу, означают "спектр". Поэтому выражение "коэффициент MDCT" может быть заменено на "спектр".[0265] In the above embodiments, the MDCT is used as a transform coding method, and therefore, the “MDCT coefficient” used in the above embodiments essentially means “spectrum”. Therefore, the expression "MDCT coefficient" can be replaced by "spectrum".

[0266] В вышеупомянутых вариантах осуществления показаны примеры, в которых устройства 200, 200a, 400, 600, 800, 1010, 1200 и 1400 декодирования речи принимают в качестве ввода и обрабатывает кодированные данные, переданные от устройств 100, 100а, 300, 500, 700, 1000, 1100 и 1300 кодирования речи соответственно, но кодированные данные, выведенные устройством кодирования отличной конфигурации, способным генерировать кодированные данные, имеющие аналогичную конфигурацию, также могут быть введены и обработаны.[0266] In the above embodiments, examples are shown in which speech decoding devices 200, 200a, 400, 600, 800, 1010, 1200 and 1400 receive and processes encoded data transmitted from devices 100, 100a, 300, 500, 700, 1000, 1100, and 1300 speech coding, respectively, but the encoded data output by an excellent configuration encoding device capable of generating encoded data having a similar configuration can also be input and processed.

[0267] Устройство кодирования, устройство декодирования и их способы согласно настоящему изобретению не ограничиваются вышеописанными вариантами осуществления, и различные изменения и модификации могут быть возможны, не отступая от объема настоящего изобретения. Например, возможно объединить варианты осуществления, которые должны быть реализованы, соответственно.[0267] An encoding device, a decoding device, and methods thereof according to the present invention are not limited to the above-described embodiments, and various changes and modifications may be possible without departing from the scope of the present invention. For example, it is possible to combine embodiments that are to be implemented, respectively.

[0268] Возможно установить устройство кодирования и устройство декодирования согласно настоящему изобретению в устройстве терминала связи и устройстве базовой станции в мобильной системе связи, таким образом обеспечивая устройство терминала связи, устройство базовой станции, и мобильную систему связи, которые обеспечивают тот же вид операционных эффектов, как описано выше.[0268] It is possible to install an encoding device and a decoding device according to the present invention in a communication terminal device and a base station device in a mobile communication system, thereby providing a communication terminal device, a base station device, and a mobile communication system that provide the same kind of operational effects, as described above.

[0269] Случай был здесь описан посредством примера, в котором настоящее изобретение конфигурируется как аппаратное обеспечение, но настоящее изобретение также возможно реализовать в виде программного обеспечения. Например, тот же самый вид функций, что в устройстве кодирования и устройстве декодирования согласно настоящему изобретению, может быть реализован посредством записи алгоритма способа кодирования и способа декодирования согласно настоящему изобретению на языке программирования, сохранения этой программы в памяти, и выполнения его средством обработки информации.[0269] A case has been described here by way of an example in which the present invention is configured as hardware, but the present invention is also possible to implement as software. For example, the same kind of functions that the encoding device and the decoding device according to the present invention can be implemented by recording the algorithm of the encoding method and the decoding method according to the present invention in a programming language, storing this program in memory, and executing it by the information processing means.

[0270] Функциональные блоки, используемые в описаниях вышеупомянутых вариантов осуществления, обычно реализуются как БИС, которые являются интегральными схемами. Они могут быть реализованы отдельно как отдельные микросхемы, или отдельная микросхема может включать в себя некоторые или все из них.[0270] Functional blocks used in the descriptions of the above embodiments are typically implemented as LSIs, which are integrated circuits. They can be implemented separately as separate microcircuits, or a single microcircuit may include some or all of them.

[0271] Здесь термин БИС использован, но термины ИС, системная БИС, сверх-БИС, ультра-БИС, и т.д. также может использоваться согласно различиям в степени интеграции.[0271] Here, the term LSI is used, but the terms IP, system LSI, super-LSI, ultra-LSI, etc. can also be used according to differences in the degree of integration.

[0272] Способ осуществления интегральной схемотехники не ограничивается БИС и реализация посредством специализированной схемы или универсального процессора может также использоваться. FPGA (программируемая пользователем вентильная матрица), для которой возможно программирование после изготовления БИС, или реконфигурируемый процессор, допускающий реконфигурацию соединений ячеек схемы и параметров в пределах БИС, могут также использоваться.[0272] A method for implementing integrated circuitry is not limited to LSIs, and implementation by means of a specialized circuit or universal processor may also be used. An FPGA (User Programmable Gate Array), for which programming is possible after LSI fabrication, or a reconfigurable processor that allows reconfiguration of circuit cell connections and parameters within the LSI, can also be used.

[0273] В случае введения технологии реализации интегральных схем, посредством которой БИС заменяется отличной более современной технологией или полученной из полупроводниковой технологии, интеграция функциональных блоков конечно может быть выполнена, используя эту технологию. Применение биотехнологии или подобного также является возможным.[0273] In the case of the introduction of integrated circuit technology, whereby the LSI is replaced by an excellent more modern technology or derived from semiconductor technology, the integration of function blocks can of course be performed using this technology. The use of biotechnology or the like is also possible.

[0274] Раскрытия заявки на патент Японии №2006-336270, поданной 13 декабря 2006, заявки на патент Японии №2007-053499, поданной 2 марта 2007, заявки на патент Японии №2007-132078, поданной 17 мая 2007, и заявки на патент Японии №2007-185078, поданной 13 июля 2007, включая описание, чертежи и рефераты, включаются здесь по ссылке в их полноте.[0274] Disclosure of Japanese Patent Application No. 2006-336270, filed December 13, 2006, Japanese Patent Application No. 2007-053499, filed March 2, 2007, Japanese Patent Application No. 2007-132078, filed May 17, 2007, and patent application Japan No. 2007-185078, filed July 13, 2007, including a description, drawings and abstracts, are incorporated herein by reference in their entirety.

Промышленная применимостьIndustrial applicability

[0275] Устройство кодирования и т.д. согласно настоящему изобретению является подходящим для использования в аппаратуре терминала связи, устройстве базовой станции, или подобном, в мобильной системе связи.[0275] Encoding device, etc. according to the present invention is suitable for use in communication terminal equipment, a base station device, or the like, in a mobile communication system.

Claims

1. An encoding device comprising:
a conversion section that converts the input speech / audio signal to the frequency domain to obtain a frequency domain parameter;
a selection section that selects at least one subband from the plurality of subbands as the quantization target range, the plurality of subbands obtained by dividing the frequency domain parameter, and generates range information indicating the quantization target range;
a shape quantization section that quantizes a shape of a frequency domain parameter in a target quantization range;
a gain quantization section that encodes a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information; and
a determination section that determines whether predictive coding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past;
wherein the gain quantization section obtains encoded gain information by performing predictive coding with respect to the gain of the frequency domain parameter in the quantization target range using past encoded gain information when the determination section determines that predictive encoding should be performed and obtains encoded information gain by directly quantizing the gain of the parameter h the frequency domain in the target quantization range when the determination section determines that predictive coding should not be performed.

2. The encoding device according to claim 1, further comprising a determination section that determines that predictive encoding should be performed when the number of subbands common for the quantization target range and past quantization range is greater than or equal to a predetermined value, and determines that predictive coding should not be performed when the number of common subbands is less than a predetermined value.

3. The encoding device according to claim 1, in which the gain quantization section obtains encoded gain information by performing quantization of the frequency domain parameter gain vector.

4. The encoding device according to claim 1, wherein the gain quantization section obtains encoded gain information by performing predictive gain quantization using the gain of the frequency domain parameter in the last frame.

5. The encoding device according to claim 1, in which the selection section selects a region for which the energy is the highest among regions composed of a plurality of subbands as the target quantization range.

6. The encoding device according to claim 1, in which the selection section, when there are candidate ranges for which the number of subbands common for the quantization target range selected in the past is greater than or equal to a predetermined value, and the energy is greater than or equal to a predetermined value , selects the range for which the energy is the highest among the candidate ranges, as the target quantization range, and when the candidate ranges do not exist, selects the range for which the energy is the highest Oka in all ranges of the frequency domain as the quantization target band.

7. The encoding device according to claim 1, in which the selection section selects the range closest to the quantization target range selected in the past among the ranges for which the energy is greater than or equal to a predetermined value as the quantization target range.

8. The encoding device according to claim 1, in which the selection section selects the target quantization range after multiplying by a weight coefficient, which is greater, the closer the subrange to the low side of the range.

9. The encoding device according to claim 1, in which the selection section selects a subband fixed on the low side of the range as the target quantization range.

10. The encoding device according to claim 1, in which the selection section selects the target quantization range after multiplying by a weight coefficient, which is the greater, the higher the frequency of selecting a subband in the past.

11. The encoding device according to claim 1, further comprising an interpolation section that interpolates the gain of the frequency domain parameter in a subband not quantized in the past among the subbands indicated by the range information using the encoded past gain information to obtain an interpolation value,
wherein the gain quantization section also uses the interpolation value when performing predictive coding.

12. The encoding device according to claim 1, further comprising a determination section that determines the prediction coefficient in such a way that the weight of the gain value of the past frame is greater, the larger the subband common to the quantization target range of the past frame and the quantization target range of the current frame,
wherein the gain quantization section uses a prediction coefficient when performing predictive coding.

13. The encoding device according to claim 1, wherein the selection section fixedly selects a predetermined subband as part of the quantization target range.

14. The encoding device according to claim 1, in which the selection section selects the target quantization range after multiplying by a weight coefficient, which is greater, the greater the greater the sub-range to the high side of the range in part of the quantization target range.

15. The encoding device according to claim 1, in which the gain quantization section performs predictive coding with respect to the gain of the frequency domain parameter in part of the target quantization range and performs direct quantization with respect to the gain of the frequency domain parameter in the remaining part.

16. The encoding device according to claim 1, wherein the gain quantization section quantizes a gain vector of an inconsistent plurality of subbands.

17. A decoding device comprising:
a receiving section that receives information indicating a quantization target range indicating at least one selected subband from a plurality of subbands, the plurality of subbands obtained by dividing a frequency domain parameter of an input speech / audio signal;
a shape dequantization section that decodes encoded shape information in which a frequency domain parameter shape in a target quantization range is quantized to generate a decoded shape;
a gain dequantization section that decodes encoded gain information in which a gain of a frequency domain parameter in a target quantization range is quantized to generate a decoded gain, and decodes a frequency parameter using a decoded shape and a decoded gain to generate a decoded frequency domain parameter ;
a time-domain conversion section that converts a decoded frequency-domain parameter into a time-domain and receives a time-domain decoded signal; and
a determination section that determines whether predictive decoding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past;
wherein the gain dequantization section performs predictive decoding of the gain of the frequency domain parameter in the target quantization range using the gain obtained in the past decoding of the gain when the determination section determines that predictive decoding should be performed and directly dequantizes the encoded gain information in which the gain of the frequency domain parameter is quantized in the target range of the quant When the determination section determines that predictive decoding should not be performed.

18. The decoding apparatus according to claim 17, further comprising a determination section that determines that predictive decoding should be performed when the number of subbands common for the quantization target range and past quantization range is greater than or equal to a predetermined value, and determines that predictive decoding should not be performed when the number of common subbands is less than a predetermined value.

19. An encoding method comprising the steps of:
converting the input speech / audio signal to the frequency domain to obtain a frequency domain parameter;
selecting at least one subband of the plurality of subbands as the quantization target range, the plurality of subbands being obtained by dividing a frequency domain parameter, and generating band information indicating the quantization target range;
quantizing the shape of the frequency domain parameter in the target quantization range to obtain encoded shape information; and
encoding a gain of a frequency domain parameter in a quantization target range to obtain encoded gain information;
determining whether predictive coding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past; and
gain encoded gain information is obtained by performing predictive encoding with respect to the gain of the frequency domain parameter in the target quantization range using past encoded gain information when the determination section determines that predictive encoding should be performed, and encoded gain information by directly quantizing the gain gain parameter of the frequency domain in the target quantization range, hen determining section determines that predictive encoding is not to be performed.

20. A decoding method comprising the steps of:
receiving information indicative of a quantization target range indicating at least one selected subband from a plurality of subbands, the plurality of subbands obtained by dividing a frequency domain parameter of an input speech / audio signal;
decode encoded shape information, wherein the frequency domain parameter shape in the target quantization range is quantized to generate a decoded shape;
decode the encoded gain information, wherein the gain of the frequency domain parameter in the target quantization range is quantized to generate a decoded gain, and the frequency domain parameter is decoded using the decoded shape and the decoded gain to generate the decoded frequency domain parameter;
converting the decoded parameter of the frequency domain into the time domain to obtain a decoded signal of the time domain;
determining whether predictive decoding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past; and
performing predictive decoding of the gain of the frequency domain parameter in the target quantization range using the gain obtained in the past decoding of the gain when the determination section determines that predictive decoding should be performed, and directly quantizing the encoded gain information in which the gain of the parameter the frequency domain is quantized in the target quantization range when the determination section determines that predictive decoding should not be performed.