RU2464650C2 - Apparatus and method for encoding, apparatus and method for decoding - Google Patents
Apparatus and method for encoding, apparatus and method for decoding Download PDFInfo
- Publication number
- RU2464650C2 RU2464650C2 RU2009122508/08A RU2009122508A RU2464650C2 RU 2464650 C2 RU2464650 C2 RU 2464650C2 RU 2009122508/08 A RU2009122508/08 A RU 2009122508/08A RU 2009122508 A RU2009122508 A RU 2009122508A RU 2464650 C2 RU2464650 C2 RU 2464650C2
- Authority
- RU
- Russia
- Prior art keywords
- section
- gain
- quantization
- range
- frequency domain
- Prior art date
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
Область техники, к которой относится изобретениеFIELD OF THE INVENTION
[0001] Настоящее изобретение относится к устройству кодирования/устройству декодирования и способу кодирования/способу декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется.[0001] The present invention relates to an encoding device / decoding device and an encoding method / decoding method used in a communication system in which a message is encoded and transmitted and received and decoded.
Уровень техникиState of the art
[0002] Когда речевой/аудио сигнал передается в мобильной системе связи или системе пакетной связи, символизируемой Интернет-связью, часто используется технология сжатия/кодирования, чтобы повысить эффективность передачи речевого/аудио сигнала. Кроме того, в последние годы был разработан способ масштабируемого кодирования/декодирования, который позволяет получить декодированный сигнал хорошего качества из части кодированной информации, даже если ошибка передачи имеет место во время передачи.[0002] When a voice / audio signal is transmitted in a mobile communication system or a packet communication system symbolized by Internet connection, compression / coding technology is often used to increase the transmission efficiency of the speech / audio signal. In addition, in recent years, a scalable encoding / decoding method has been developed that allows a good quality decoded signal to be obtained from part of the encoded information, even if a transmission error occurs during transmission.
[0003] Одной вышеописанной технологией сжатия/кодирования является технология кодирования с прогнозированием во временной области, которая повышает эффективность сжатия посредством использования временной корреляции речевого сигнала и/или аудиосигнала (ниже названного "речевой/аудио сигнал"). Например, в патентном документе 1 сигнал текущего кадра предсказывается из сигнала прошлого кадра, и способ кодирования с прогнозированием переключается согласно ошибке предсказания. Кроме того, в непатентном документе 1 описывается технология, посредством которой способ кодирования с прогнозированием переключается согласно степени изменения во временной области речевого параметра, такого как LSF (Линейная Спектральная Частота) и состояния наличия ошибки кадра.[0003] One compression / coding technique described above is a time domain prediction coding technique that improves compression efficiency by using temporal correlation of a speech signal and / or an audio signal (hereinafter referred to as “speech / audio signal”). For example, in Patent Document 1, a signal of a current frame is predicted from a signal of a past frame, and the prediction coding method is switched according to the prediction error. In addition, Non-Patent Document 1 describes a technology by which a prediction coding method is switched according to a degree of change in a time domain of a speech parameter such as an LSF (Linear Spectral Frequency) and a frame error state.
Патентный документ 1: японская выложенная патентная заявка № HEI 8-211900.Patent Document 1: Japanese Patent Application Laid-Open No. HEI 8-211900.
Непатентный документ 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, 7-10 Мая 1996, Стр.: 765-768, том 2.Non-Patent Document 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, May 7-10, 1996, pp. 765-768, Volume 2.
Раскрытие изобретенияDisclosure of invention
Проблемы, которые должны быть решены изобретениемProblems to be Solved by the Invention
[0004] Однако в любой из вышеупомянутых технологий прогнозирующее кодирование (кодирование с предсказанием) выполняется на основании параметра временной области на покадровой основе, и прогнозирующее кодирование на основании параметра не временной области, такого как параметр частотной области, не упоминается. Если способ кодирования с прогнозированием, основанный на параметре временной области, такой как описан выше, просто применяется к кодированию параметра частотной области, нет никакой проблемы, если целевой диапазон квантования является одинаковым в прошлом кадре и текущем кадре, но если целевой диапазон квантования является различным в прошлом кадре и текущем кадре, ошибка кодирования и степень ухудшения качества декодированного аудиосигнала сильно увеличивается, и речевой/аудио сигнал может быть не в состоянии быть декодированным.[0004] However, in any of the above technologies, predictive coding (prediction coding) is performed based on a time-domain parameter on a frame-by-frame basis, and predictive coding based on a non-time domain parameter, such as a frequency domain parameter, is not mentioned. If a prediction coding method based on a time domain parameter such as described above simply applies to encoding a frequency domain parameter, there is no problem if the quantization target range is the same in the last frame and the current frame, but if the quantization target range is different in the last frame and the current frame, the encoding error and the degree of deterioration of the quality of the decoded audio signal is greatly increased, and the speech / audio signal may not be able to be decoded.
[0005] Задача настоящего изобретения - обеспечить устройство кодирования и т.д., способное к сокращению объема кодированной информации речевого/аудио сигнала, а также способное уменьшить ошибки кодирования речевого/аудио сигнала и ухудшение качества декодированного аудиосигнала, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре.[0005] An object of the present invention is to provide an encoding device, etc., capable of reducing the amount of encoded information of a speech / audio signal, and also capable of reducing encoding errors of a speech / audio signal and deterioration of the quality of the decoded audio signal when a frequency component of an excellent range is made a target quantization in each frame.
Средство для решения упомянутых проблемMeans for solving the mentioned problems
[0006] Устройство кодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию преобразования, которая преобразовывает входной сигнал в частотную область, чтобы получить параметр частотной области; секцию выбора, которая выбирает целевой диапазон квантования из множества поддиапазонов, полученных при делении частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования; секцию квантования формы (сигнала), которая квантует форму (сигнала) параметра частотной области в целевом диапазоне квантования; и секцию квантования усиления, которая кодирует (коэффициент или значение) усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.[0006] An encoding device according to the present invention uses a configuration having: a conversion section that converts an input signal to a frequency domain to obtain a frequency domain parameter; a selection section that selects a quantization target range from a plurality of subbands obtained by dividing a frequency domain, and generates range information indicating a quantization target range; a quantization section of the shape (signal), which quantizes the shape (signal) of the frequency domain parameter in the quantization target range; and a gain quantization section that encodes (coefficient or value) a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information.
[0007] Устройство декодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; секцию деквантования формы (сигнала), которая декодирует информацию кодирования формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму (декодированный сигнал); секцию деквантования усиления, которая декодирует кодированную информацию усиления, в которой кодирован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области.[0007] A decoding apparatus according to the present invention uses a configuration having: a receiving section that receives information indicating a quantization target range selected from a plurality of subbands obtained by dividing the frequency domain of the input signal; a shape (signal) dequantization section that decodes shape encoding information in which the frequency domain parameter shape in the quantization target range is quantized to generate a decoded shape (decoded signal); a gain dequantization section that decodes encoded gain information in which a gain of a frequency domain parameter in a target quantization range is encoded to generate a decoded gain, and decodes a frequency parameter using a decoded shape and a decoded gain to generate a decoded frequency domain parameter; and a time-domain conversion section that converts the decoded frequency-domain parameter to the time-domain to obtain a decoded time-domain signal.
[0008] Способ кодирования согласно настоящему изобретению имеет: этап преобразования входного сигнала в частотную область, чтобы получить параметр частотной области; этап выбора целевого диапазона квантования из множества поддиапазонов, полученных посредством деления частотной области, и генерирования информации диапазона, указывающей целевой диапазон квантования; и этап квантования формы параметра частотной области в целевом диапазоне квантования, чтобы получить форму кодированной информации; и кодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.[0008] The encoding method according to the present invention has: a step of converting an input signal into a frequency domain to obtain a frequency domain parameter; a step of selecting a quantization target range from a plurality of subbands obtained by dividing a frequency domain, and generating range information indicating a quantization target range; and a step of quantizing a shape of a frequency domain parameter in a quantization target range to obtain a form of encoded information; and encoding a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information.
[0009] Способ декодирования согласно настоящему изобретению имеет: этап приема информации, указывающей целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; этап декодирования кодированной информации формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму; этап декодирования кодированной информации усиления, в которой квантован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирование параметра частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и этап преобразования декодированного параметра частотной области во временную область, чтобы получить декодированный сигнал временной области.[0009] The decoding method according to the present invention has: a step of receiving information indicative of a quantization target range selected from a plurality of subbands obtained by dividing the frequency domain of the input signal; a step of decoding the encoded form information in which the frequency domain parameter shape is quantized in the quantization target range to generate a decoded shape; the step of decoding encoded gain information in which the gain of the frequency domain parameter in the target quantization range is quantized to generate a decoded gain, and decoding the frequency domain parameter using the decoded shape and the decoded gain to generate the decoded frequency domain parameter; and the step of converting the decoded parameter of the frequency domain to the time domain to obtain a decoded signal of the time domain.
Преимущества изобретенияAdvantages of the Invention
[0010] Настоящее изобретение уменьшает объем кодированной информации речевого/аудио сигнала или подобного, и также может предотвратить резкое ухудшение качества декодированного сигнала, декодированной речи и т.д., и может уменьшить ошибку кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала.[0010] The present invention reduces the amount of encoded information of a speech / audio signal or the like, and can also prevent a sharp deterioration in the quality of a decoded signal, decoded speech, etc., and can reduce the encoding error of a speech / audio signal or the like and a deterioration in the quality of the decoded signal. .
Краткое описание чертежейBrief Description of the Drawings
[0011] Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;[0011] FIG. 1 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 1 of the present invention;
фиг.2 - это чертеж, иллюстрирующий пример конфигурации областей, полученных секцией выбора диапазона, согласно Варианту осуществления 1 настоящего изобретения;FIG. 2 is a drawing illustrating an example of a configuration of regions obtained by a range selection section according to Embodiment 1 of the present invention;
фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;3 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 1 of the present invention;
фиг.4 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;4 is a block diagram illustrating a basic configuration of an embodiment of a speech encoding apparatus according to Embodiment 1 of the present invention;
фиг.5 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;5 is a block diagram illustrating a basic configuration of an embodiment of a speech decoding apparatus according to Embodiment 1 of the present invention;
фиг.6 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 2 настоящего изобретения;6 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 2 of the present invention;
фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;7 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 2 of the present invention;
фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 2 настоящего изобретения;8 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 2 of the present invention;
фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;9 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 2 of the present invention;
фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 3 настоящего изобретения;10 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 3 of the present invention;
фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 3 настоящего изобретения;11 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 3 of the present invention;
фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 4 настоящего изобретения;12 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 4 of the present invention;
фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 4 настоящего изобретения;13 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 4 of the present invention;
фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 5 настоящего изобретения;14 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 5 of the present invention;
фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;15 is a block diagram illustrating a basic configuration of an inside of a range extension coding section according to Embodiment 5 of the present invention;
фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования корректирующего масштабного коэффициента согласно Варианту осуществления 5 настоящего изобретения;16 is a block diagram illustrating a basic configuration of an inside of a correction scale factor encoding section according to Embodiment 5 of the present invention;
фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;17 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 5 of the present invention;
фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 5 настоящего изобретения;Fig. 18 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 5 of the present invention;
фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;FIG. 19 is a block diagram illustrating a basic configuration of an inside of a band extension decoding section according to Embodiment 5 of the present invention;
фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;20 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 5 of the present invention;
фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 6 настоящего изобретения;21 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 6 of the present invention;
фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;FIG. 22 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 6 of the present invention; FIG.
фиг.23 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией выбора диапазона согласно Варианту осуществления 6 настоящего изобретения;23 is a drawing illustrating an example of a configuration of regions obtained by a band selection section according to Embodiment 6 of the present invention;
фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 6 настоящего изобретения;24 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 6 of the present invention;
фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;25 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 6 of the present invention;
фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 7 настоящего изобретения;26 is a block diagram illustrating a basic configuration of a speech encoding apparatus according to Embodiment 7 of the present invention;
фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения;27 is a block diagram illustrating a basic configuration of an interior of a second layer encoding section according to Embodiment 7 of the present invention;
фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 7 настоящего изобретения; и28 is a block diagram illustrating a basic configuration of a speech decoding apparatus according to Embodiment 7 of the present invention; and
фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения.29 is a block diagram illustrating a basic configuration of an interior of a second layer decoding section according to Embodiment 7 of the present invention.
Лучший режим выполнения изобретенияThe best mode of carrying out the invention
[0012] В качестве краткого обзора примера настоящего изобретения, при квантовании частотного компонента различного диапазона в каждом кадре, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, выполняется прогнозирующее кодирование в отношении параметра частотной области, и если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение, параметр частотной области кодируется непосредственно. Посредством этого, объем кодированной информации речевого/аудио сигнала или подобного сокращается, а также сильное ухудшение качества декодированного сигнала, декодированной речи и т.д. может быть предотвращено, и ошибка кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала и ухудшение качества декодированной аудиоречи, в частности, могут быть уменьшены.[0012] As a brief overview of an example of the present invention, when quantizing a frequency component of a different range in each frame, if the number of subbands common to the quantization target range of the past frame and the quantization target range of the current frame is determined to be greater than or equal to a predetermined value, a predictive encoding with respect to a frequency domain parameter, and if the number of common subbands is determined to be less than a predetermined value, the parameter is often This area is encoded directly. By this, the amount of encoded information of a speech / audio signal or the like is reduced, as well as a severe deterioration in the quality of the decoded signal, decoded speech, etc. can be prevented, and an encoding error of a speech / audio signal or the like, and a deterioration in the quality of the decoded signal and a deterioration in the quality of the decoded audio speech, in particular, can be reduced.
[0013] Варианты осуществления настоящего изобретения описаны ниже подробно со ссылками на сопроводительные чертежи. В нижеследующих описаниях устройство кодирования речи и устройство декодирования речи используются как примеры устройства кодирования и устройства декодирования согласно настоящему изобретению.[0013] Embodiments of the present invention are described below in detail with reference to the accompanying drawings. In the following descriptions, a speech encoding device and a speech decoding device are used as examples of an encoding device and a decoding device according to the present invention.
[0014] Вариант осуществления 1 [0014] Embodiment 1
Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения.1 is a block diagram illustrating a basic configuration of a speech encoding apparatus 100 according to Embodiment 1 of the present invention.
[0015] На этом чертеже устройство 100 кодирования речи снабжается секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы (сигнала), секцией 104 определения выполнения/невыполнения прогнозирующего кодирования, секцией 105 квантования (коэффициента или значения) усиления и секцией 106 мультиплексирования.[0015] In this figure, the speech coding apparatus 100 is provided with a frequency
[0016] Секция 101 преобразования в частотную область выполняет Модифицированное дискретное косинусное преобразование (MDCT) с использованием входного сигнала, чтобы вычислить коэффициент MDCT, который является параметром частотной области, и выводит его на секцию 102 выбора диапазона.[0016] The frequency
[0017] Секция 102 выбора диапазона делит введенный коэффициент MDCT из секции 101 преобразования в частотную область на множество поддиапазонов, выбирает диапазон в качестве целевого диапазона квантования из множества поддиапазонов и выводит информацию диапазона, указывающую выбранный диапазон, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования и секцию 106 мультиплексирования. Кроме того, секция 102 выбора диапазона выводит коэффициент MDCT на секцию 103 квантования формы. Ввод коэффициента MDCT на секцию 103 квантования формы также может быть выполнен непосредственно из секции 101 преобразования в частотную область отдельно от ввода из секции 101 преобразования в частотную область на секцию 102 выбора диапазона.[0017] The
[0018] Секция 103 квантования формы выполняет квантование формы (сигнала), используя коэффициент MDCT, соответствующий диапазону, указанному посредством информации диапазона, введенной из секции 102 выбора диапазона, из числа коэффициентов MDCT, введенных из секции 102 выбора диапазона, и выводит полученную информацию кодированной формы в секцию 106 мультиплексирования. Кроме того, секция 103 квантования формы находит идеальное значение усиления квантования формы и выводит полученное идеальное значение усиления на секцию 105 квантования усиления.[0018] The
[0019] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 102 выбора диапазона. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления.[0019] Predictive encoding execution /
[0020] Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что должно быть выполнено прогнозирующее кодирование, секция 105 квантования усиления выполняет прогнозирующее кодирование усиления целевого диапазона квантования текущего кадра, используя значение усиления квантования прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить кодированную информацию усиления. С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления получает кодированную информацию усиления посредством прямого (непосредственного) квантования идеального значения усиления, введенного из секции 103 квантования формы. Секция 105 квантования усиления выводит полученную кодированную информацию усиления к секции 106 мультиплексирования.[0020] If the determination result inputted from the predictive coding fulfillment /
[0021] Секция 106 мультиплексирования мультиплексирует информацию диапазона, введенную из секции 102 выбора диапазона, кодированную информацию формы, введенную из секции 103 квантования формы, и кодированную информацию усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.[0021] The
[0022] Устройство 100 кодирования речи, имеющее конфигурацию, такую как описана выше, разделяет входной сигнал на секции из N выборок (где N - натуральное число) и выполняет кодирование на покадровой основе с выборками N как один кадр. Работа каждой секции устройства 100 кодирования речи описывается подробно ниже. В нижеследующем описании входной сигнал кадра, который является целью кодирования, представляется xn (где n=0, 1…, N-1). Здесь n указывает индекс каждой выборки в кадре, который является целью кодирования.[0022] A speech encoding apparatus 100 having a configuration as described above splits the input signal into sections of N samples (where N is a natural number) and performs frame-by-frame encoding with N samples as one frame. The operation of each section of the speech encoding apparatus 100 is described in detail below. In the following description, the input signal of the frame, which is the encoding target, is represented by x n (where n = 0, 1 ..., N-1). Here, n indicates the index of each sample in the frame, which is the encoding target.
[0023] Секция 101 преобразования в частотную область имеет N внутренних буферов, и сначала инициализирует каждый буфер, используя значение 0 в соответствии с Уравнением (1) ниже.[0023] The frequency
[0024] В этом уравнении buf n (n=0…, N-1) указывает (n+1)-й из N буферов в секции 101 преобразования в частотную область.[0024] In this equation, buf n (n = 0 ..., N-1) indicates the (n + 1) th of N buffers in the frequency
[0025] Затем секция 101 преобразования в частотную область находит коэффициент MDCT Xk посредством выполнения модифицированного дискретного косинусного преобразования (MDCT) входного сигнала xn в соответствии с Уравнением (2) ниже[0025] Then, the frequency
[0026] В этом уравнении k указывает индекс каждой выборки в одном кадре, и x'n - вектор, связывающий входной сигнал xn и bufn в соответствии с Уравнением (3) ниже.[0026] In this equation, k indicates the index of each sample in one frame, and x ' n is the vector linking the input signal x n and buf n in accordance with Equation (3) below.
[0027] Затем секция 101 преобразования в частотную область обновляет bufn (n=0…, N-1), как показано в Уравнении (4) ниже.[0027] Then, the frequency
[0028] Затем секция 101 преобразования в частотную область выдает коэффициенты MDCT Xk в секцию 102 выбора диапазона.[0028] Then, the frequency
[0029] Секция 102 выбора диапазона сначала делит коэффициент MDCT Xk на множество поддиапазонов. Здесь описание будет дано, принимая случай, в котором коэффициент MDCT Xk делится равным образом на J поддиапазонов (где J - натуральное число) в качестве примера. Затем секция 102 выбора диапазона выбирает L последовательных поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов групп поддиапазонов (где М является натуральным числом). Ниже эти М видов групп поддиапазонов называются областями.[0029] The
[0030] Фиг.2 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией 102 выбора диапазона.[0030] FIG. 2 is a drawing illustrating an example of a configuration of regions obtained by a
[0031] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей равно восьми (M=8), и каждая область состоит из пяти последовательных поддиапазонов (L=5). Из них, например, область 4 состоит из поддиапазонов 6-10.[0031] In this drawing, the number of subbands is 17 (J = 17), the number of kinds of regions is eight (M = 8), and each region consists of five consecutive subbands (L = 5). Of these, for example, region 4 consists of subbands 6-10.
[0032] Затем секция 102 выбора диапазона вычисляет среднюю энергию E (m) каждого из М видов областей в соответствии с Уравнением (5) ниже.[0032] Then, the
[0033] В этом уравнении j указывает индекс каждого из J поддиапазонов, m указывает индекс каждой из М видов областей, S(m) указывает минимальное значение среди индексов L поддиапазонов, составляющих область m, B(j) указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j, и W(j) указывает ширину полосы поддиапазона j. В нижеследующем описании случай, в котором значения ширина полосы J поддиапазонов все равны, то есть случай, в котором W(j) является константой, описан как пример.[0033] In this equation, j indicates the index of each of the J subbands, m indicates the index of each of the M kinds of regions, S (m) indicates the minimum value among the indices of the L subbands making up the region m, B (j) indicates the minimum value among the indices of the set of coefficients MDCT constituting subband j, and W (j) indicates the bandwidth of subband j. In the following description, the case in which the values of the bandwidth J of the subbands are all equal, that is, the case in which W (j) is a constant, is described as an example.
[0034] Затем секция 102 выбора диапазона выбирает область, например диапазон, состоящий из поддиапазонов j''-j''+L-1, для которого средняя энергия E(m) является максимальной, в качестве диапазона, который является целью квантования (целевой диапазон квантования), и выводит индекс m_max, указывающий эту область, в качестве информации диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 102 выбора диапазона также выводит коэффициент MDCT Xk на секцию 103 квантования формы. В следующем описании индексы диапазона, указывающие целевой диапазон квантования, выбранные секцией 102 выбора диапазона, предполагаются равными j''-j''+L-1.[0034] Then, the
[0035] Секция 103 квантования формы выполняет квантование формы (сигнала) на основе поддиапазон-за-поддиапазоном в отношении коэффициента MDCT, соответствующего диапазону, указанному информацией диапазона m_max, введенной из секции 102 выбора диапазона. Более конкретно, секция 103 квантования формы ищет внутреннюю кодовую книгу формы, состоящую из количества SQ векторов кода формы, для каждого из L поддиапазонов, и находит индекс вектора кода формы, для которого результат Уравнения (6) ниже является максимальным.[0035] The
[0036] В этом уравнении SCi k указывает вектор кода формы, составляющий кодовую книгу формы, i указывает индекс вектора кода формы, и k указывает индекс элемента вектора кода формы.[0036] In this equation, SC i k indicates the shape code vector constituting the shape codebook, i indicates the index of the shape code vector, and k indicates the index of the shape code vector element.
[0037] Секция 103 квантования формы выводит индекс S_max вектора кода формы, для которого результат Уравнения (6) выше максимума, к секции 106 мультиплексирования в качестве кодированной информации формы. Секция 103 квантования формы также вычисляет идеальное значение Gain_i(j) усиления в соответствии с Уравнением (7) ниже, и выводит его на секцию 105 квантования усиления.[0037] The
[0038] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона, в прошлом кадре. Ниже посредством примера описан случай, в котором секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для трех прошлых кадров. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 103 квантования формы в прошлом кадре, и информацию диапазона m_max, введенную из секции 103 квантования формы в текущем кадре. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше, чем заранее определенное значение. Более конкретно, L поддиапазонов, указанные информацией диапазона m_max, введенных из секции 102 выбора диапазона на один кадр назад во времени, сравниваются с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 102 выбора диапазона в текущем кадре, и определяется, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или определяется, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0038] The predictive coding fulfillment /
[0039] Секция 105 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 105 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение Ct j квантования усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 105 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (8), приведенного ниже, является минимум.[0039] The
Уравнение 8
Equation 8
[0040] В этом уравнении GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), j имеет значение от 0 до 4. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=l, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, α является линейным коэффициентом предсказания 4-го порядка, сохраненным в секции 105 квантования усиления. Секция 105 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0040] In this equation, GC i j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. For example, if the number of subbands making up the region is five (L = 5), j has a value from 0 to 4. Here, C t j indicates the gain value of t frames backward in time, so that when t = l, for example, C t j indicates the gain value of one frame back in time. In addition, α is a fourth-order linear prediction coefficient stored in
[0041] Секция 105 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (8) выше является минимум, к секции 106 мультиплексирования, в качестве кодированной информации усиления. Если во внутреннем буфере нет значения усиления поддиапазона, соответствующего прошлому кадру, секция 105 квантования усиления заменяет значением усиления ближайшего поддиапазона по частоте во внутреннем буфере в Уравнении (8) выше.[0041] The
[0042] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления непосредственно квантует идеальное значение усиления Gain_i(j), введенное из секции 103 квантования формы, в соответствии с Уравнением (9) ниже. Здесь секция 105 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.[0042] On the other hand, if the determination result inputted from the predictive coding execution /
Уравнение 9
Equation 9
[0043] Здесь индекс кодовой книги, который делает Уравнение (9) выше минимума, обозначается G_min.[0043] Here, the codebook index that makes Equation (9) above the minimum is denoted by G_min.
[0044] Секция 105 квантования усиления выводит G_min на секцию 106 мультиплексирования в качестве кодированной информации усиления. Секция 105 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (10) ниже с использованием кодированной информации G_min усиления и значения Ct j квантования усиления, полученного в текущем кадре.[0044] The
[0045] Секция 106 мультиплексирования мультиплексирует информацию m_max диапазона, введенную из секции 102 выбора диапазона, кодированную информацию S_max формы, введенную из секции 103 квантования формы, и кодированную информацию G_min усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.[0045] The
[0046] Фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства 200 декодирования речи согласно этому варианту осуществления.[0046] FIG. 3 is a block diagram illustrating a basic configuration of a
[0047] В этом чертеже устройство 200 декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 203 определения выполнения/невыполнения прогнозирующего декодирования, секцией 204 деквантования усиления и секцией 205 преобразования во временную область.[0047] In this drawing, the
[0048] Секция 201 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную кодированную информацию формы на секцию 202 деквантования формы, и выводит полученную кодированную информацию усиления на секцию 204 деквантования усиления.[0048] The demultiplexing section 201 demultiplexes the range information, encoded form information and encoded gain information from a bit stream transmitted from the speech encoding apparatus 100, outputs the obtained range information to the
[0049] Секция 202 деквантования формы находит значение формы коэффициента MDCT, соответствующего целевому диапазону квантования, указанному информацией диапазона, введенной из секции 201 демультиплексирования, посредством выполнения деквантования кодированной информации формы, введенной из секции 201 демультиплексирования, и выводит найденное значение формы на секцию 204 деквантования усиления.[0049] The
[0050] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования находит количество поддиапазонов, общих для текущего целевого диапазона квантования кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 201 демультиплексирования. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления.[0050] Predictive decoding run /
[0051] Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет прогнозирующее декодирование в отношении кодированной информации усиления, введенной из секции 201 демультиплексирования, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить значение усиления. С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления получает значение усиления посредством непосредственного выполнения деквантования кодированной информации усиления, введенной из секции 201 демультиплексирования, используя внутреннюю кодовую книгу усиления. Секция 204 деквантования усиления выводит полученное значение усиления к секции 205 преобразования во временную область. Секция 204 деквантования усиления также находит коэффициент MDCT целевого диапазона квантования, используя полученное значение усиления и значение формы, введенное из секции 202 деквантования формы, и выводит его к секции 205 преобразования во временную область в качестве декодированного коэффициента MDCT.[0051] If the determination result inputted from the predictive decoding run /
[0052] Секция 205 преобразования во временную область выполняет Обратное Модифицированное дискретное косинусное преобразование (IMDCT) в отношении декодированного коэффициента MDCT, введенного из секции 204 деквантования усиления, чтобы сгенерировать сигнал временной области, и выводит его в качестве декодированного сигнала.[0052] The time
[0053] Устройство 200 декодирования речи, имеющее конфигурацию, такую как описано выше, выполняет следующие операции.[0053] A
[0054] Секция 201 демультиплексирования демультиплексирует информацию диапазона m_max, кодированную информацию S_max формы, и кодированную информацию G_min усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона m_max на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную информацию кодирования S_max формы на секцию 202 деквантования формы и выводит полученную кодированную информацию усиления G_min на секцию 204 деквантования усиления.[0054] The demultiplexing section 201 demultiplexes the information of the m_max range, the encoded form information S_max, and the encoded gain information G_min from the bit stream transmitted from the speech encoding apparatus 100, outputs the obtained information of the m_max range to the
[0055] Секция 202 деквантования формы имеет внутреннюю кодовую книгу формы, аналогичную кодовой книге формы, которой снабжена секция 103 квантования формы устройства 100 кодирования речи, и ищет вектор кода формы, для которого кодированная информация формы S_max, введенная из секции 201 демультиплексирования, является индексом. Секция 202 деквантования формы выводит найденный вектор кода на секцию 204 деквантования усиления в качестве значения формы коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона m_max, введенной из секции 201 демультиплексирования. Здесь, вектор кода формы, найденный в качестве значения формы, обозначается как Shape_q(k) (k=B(j'')…, B(j''+L)-1).[0055] The
[0056] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре. Здесь описан случай посредством примера, в котором секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем заранее определенное значение. Более конкретно, секция 203 определения выполнения/невыполнения прогнозирующего декодирования сравнивает L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 201 демультиплексирования на один кадр назад во времени, с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 201 демультиплексирования в текущем кадре, и решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре.[0056] The predictive decoding run /
[0057] Секция 204 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 204 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (11) ниже. Здесь C''t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 204 деквантования усиления. Секция 204 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0057] The
[0058] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 204 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (11) выше.[0058] If there is no subband gain value corresponding to the last frame in the internal buffer, the
[0059] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (12), приведенным ниже, с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. Следует сказать, когда прогнозирующее декодирование не выполняется, вектор GCjG_min кода усиления, соответствующий кодированной информации G_min усиления, берется непосредственно в качестве значения усиления.[0059] On the other hand, if the determination result inputted from the predictive decoding execution /
[0060] Затем секция 204 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (13) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (14) ниже. Здесь, вычисленный декодированный коэффициент MDCT обозначается X"k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j")-B (j"+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q'(j").[0060] Then, the
Уравнение 13 X ” k = Gain_q '(j) · Shape_q' (k)
Equation 13
Уравнение 14 (j = j ”, ..., j” + L-1)
[0061] Секция 204 деквантования усиления выводит декодированный коэффициент MDCT X''k, вычисленный в соответствии с Уравнением (13) выше, к секции 205 преобразования во временную область.[0061] The
[0062] Секция 205 преобразования во временную область сначала инициализирует внутренний буфер buf'k значением нуля в соответствии с Уравнением (15) ниже.[0062] The time
[0063] Затем секция 205 преобразования во временную область находит декодированный сигнал Yn в соответствии с Уравнением (16) ниже с использованием декодированного коэффициента MDCT X''k, введенного из секции 204 деквантования усиления.[0063] Then, the time
В этом уравнении X2''k является вектором, связывающим декодированный коэффициент MDCT X''k и буфер buf' k.In this equation, X2 '' k is the vector linking the decoded MDCT coefficient X '' k and the buffer buf ' k .
[0064] Затем секции 205 преобразования во временную область обновляет буфер buf'k в соответствии с Уравнением (18) ниже. [0064] Then, the time
[0065] Секция 205 преобразования во временную область выводит полученный декодированный сигнал Yn в качестве выходного сигнала.[0065] The time
[0066] Таким образом, согласно этому варианту осуществления, диапазон с большой энергией выбирается в каждом кадре в качестве целевого диапазона квантования, и параметр частотной области квантуется, разрешая создать смещение в распределении квантованного значения усиления, и улучшить эффективность квантования вектора.[0066] Thus, according to this embodiment, the high energy range is selected in each frame as the quantization target range, and the frequency domain parameter is quantized, allowing an offset in the distribution of the quantized gain value to be created, and to improve the quantization efficiency of the vector.
[0067] Кроме того, согласно этому варианту осуществления, при квантовании параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется в отношении параметра частотной области, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, и параметр частотной области кодируется непосредственно, если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение. Следовательно, объем кодированной информации при речевом кодировании уменьшается, и также резкое ухудшение качества речи может быть предотвращено, и ошибка кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио могут быть уменьшены.[0067] Furthermore, according to this embodiment, when quantizing the frequency domain parameter of the different quantization target range of each frame, predictive coding is performed on the frequency domain parameter if the number of subbands common to the quantization target range of the past frame and the quantization target range of the current frame, is defined as greater than or equal to a predetermined value, and the frequency domain parameter is encoded directly if the number of common subbands is is defined as less than a predetermined value. Therefore, the amount of encoded information in speech encoding is reduced, and also a sharp deterioration in speech quality can be prevented, and an encoding error in the speech / audio signal and degradation in the quality of the decoded audio signal can be reduced.
[0068] Кроме того, согласно этому варианту осуществления, на стороне кодирования целевой диапазон квантования может быть определен, и квантование параметра частотной области выполнено в единицах областей, каждая состоящая из множества поддиапазонов, и информация о параметре частотной области, какая область стала целью квантования, может быть передана к стороне декодирования. Следовательно, эффективность квантования может быть улучшена, и объем кодированной информации, переданной к стороне декодирования, может быть дополнительно уменьшен по сравнению с решением, должно ли прогнозирующее кодирование использоваться на основе «поддиапазон за поддиапазоном» и передачи информации, относительно того, какой поддиапазон стал целью квантования, к стороне декодирования.[0068] Furthermore, according to this embodiment, on the encoding side, the quantization target range can be determined, and the quantization of the frequency domain parameter is performed in units of regions, each consisting of a plurality of subbands, and information about the frequency domain parameter, which region became the target of quantization, can be transmitted to the decoding side. Therefore, the quantization efficiency can be improved, and the amount of encoded information transmitted to the decoding side can be further reduced compared to deciding whether predictive encoding should be used based on “subband by subband” and transmitting information regarding which subband has become the target quantization, to the decoding side.
[0069] В этом варианте осуществления был описан посредством примера случай, в котором квантование усиления выполняется в единицах областей, каждая из которых состоит из множества поддиапазонов, но настоящее изобретение не ограничивается этим, и цель квантования также может быть выбрана на основании «поддиапазон за поддиапазоном», то есть определение того, должно ли прогнозирующее квантование быть выполнено, также может быть выполнено на основе «поддиапазон за поддиапазоном».[0069] In this embodiment, a case has been described by way of example where gain quantization is performed in units of regions, each of which consists of a plurality of subbands, but the present invention is not limited thereto, and a quantization target may also be selected based on “subband beyond subband” ”, That is, determining whether predictive quantization should be performed can also be performed based on“ subband by subband ”.
[0070] В этом варианте осуществления был описан посредством примера случай, в котором способ прогнозирующего квантования усиления должен выполнить линейное предсказание во временной области для усиления того же самого частотного диапазона, но настоящее изобретение не ограничивается этим, и линейное предсказание также может быть выполнено во временной области для усиления отличных диапазонов частот.[0070] In this embodiment, a case has been described by way of example in which a predictive gain quantization method must perform linear time domain prediction to amplify the same frequency range, but the present invention is not limited to this, and linear prediction can also be performed in time areas for amplification of excellent frequency ranges.
[0071] В этом варианте осуществления был описан случай, в котором обычный речевой/аудио сигнал берется как пример сигнала, который становится целью квантования, но настоящее изобретение не ограничивается этим, и сигнал возбуждения, полученный посредством обработки речевого/аудио сигнала посредством обратного фильтра LPC (коэффициент линейного предсказания), может также использоваться в качестве цели квантования.[0071] In this embodiment, a case has been described in which a conventional speech / audio signal is taken as an example of a signal that becomes a quantization target, but the present invention is not limited thereto, and an excitation signal obtained by processing the speech / audio signal by an inverse LPC filter (linear prediction coefficient) can also be used as a quantization target.
[0072] В этом варианте осуществления был описан посредством примера случай, в котором область, для который величина энергии отдельной области - то есть перцепционное значение - является наибольшей, выбирается в качестве опорной для того, чтобы выбрать целевой диапазон квантования, но настоящее изобретение не ограничивается этим, и в дополнение к перцепционному значению, частотная корреляция с диапазоном, выбранным в прошлом кадре, также может быть учтена в то же самое время. То есть, если существуют диапазоны - кандидаты, для которых количество поддиапазонов, общих для целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и энергия больше или равна заранее определенному значению, диапазон с самой высокой энергией среди вышеупомянутых диапазонов - кандидатов может быть выбран в качестве целевого диапазона квантования, и если никакие такие диапазоны - кандидаты не существуют, диапазон с самой высокой энергией среди всех диапазонов частот может быть выбран в качестве целевого диапазона квантования. Например, если поддиапазон, общий для области с самой высокой энергией, и диапазон, выбранный в прошлом кадре, не существует, количество поддиапазонов, общих для области со второй самой высокой энергией, и диапазона, выбранного в прошлом кадре, больше или равно заранее определенному пороговому значению, и энергия области со второй самой высокой энергией больше или равна заранее определенному пороговому значению, выбирается область со второй самой высокой энергией, а не область с самой высокой энергией. Кроме того, секция выбора диапазона согласно этому варианту осуществления выбирает область, ближайшую к целевому диапазону квантования, выбранному в прошлом, из числа областей, энергия которых больше или равна заранее определенному значению, в качестве целевого диапазона квантования.[0072] In this embodiment, a case has been described by way of example in which the region for which the energy value of a particular region — that is, the perceptual value — is largest is selected as a reference in order to select a quantization target range, but the present invention is not limited by this, and in addition to the perceptual value, the frequency correlation with the range selected in the last frame can also be taken into account at the same time. That is, if there are candidate ranges for which the number of subbands common for the quantization target range selected in the past is greater than or equal to a predetermined value and the energy is greater than or equal to a predetermined value, the range with the highest energy among the above candidate ranges can be selected as the target quantization range, and if no such candidate ranges exist, the range with the highest energy among all frequency ranges can be selected as stve quantization target band. For example, if the subband common to the region with the highest energy and the range selected in the last frame does not exist, the number of subbands common for the region with the second highest energy and the range selected in the last frame is greater than or equal to a predetermined threshold value, and the energy of the region with the second highest energy is greater than or equal to a predetermined threshold value, the region with the second highest energy is selected, and not the region with the highest energy. In addition, the range selection section according to this embodiment selects a region closest to the quantization target range selected in the past from among regions whose energy is greater than or equal to a predetermined value as the quantization target range.
[0073] В этом варианте осуществления может быть выполнено квантование коэффициента MDCT после того, как интерполяция выполняется, используя прошлый кадр. Например, случай будет описан со ссылкой на фиг.2, в которой целевой диапазон квантования прошлого кадра - это область 3 (то есть поддиапазоны 5-9), целевой диапазон квантования текущего кадра - это область 4 (то есть поддиапазоны 6-10), и прогнозирующее кодирование текущего кадра выполняется, используя результат квантования прошлого кадра. В этом случае прогнозирующее кодирование выполняется в отношении поддиапазонов 6-9 текущего кадра с использованием поддиапазонов 6-9 прошлого кадра, и для поддиапазона 10 текущего кадра поддиапазон 10 прошлого кадра интерполируется, используя поддиапазоны 6-9 прошлого кадра, и затем прогнозирующее кодирование выполняется, используя поддиапазон 10 прошлого кадра, полученный интерполяцией.[0073] In this embodiment, quantization of the MDCT coefficient can be performed after interpolation is performed using the last frame. For example, the case will be described with reference to FIG. 2, in which the quantization target range of the past frame is region 3 (i.e., subbands 5-9), the quantization target range of the current frame is region 4 (i.e., subbands 6-10), and predictive coding of the current frame is performed using the quantization result of the past frame. In this case, predictive coding is performed on subbands 6-9 of the current frame using subbands 6-9 of the past frame, and for subband 10 of the current frame, subband 10 of the past frame is interpolated using subbands 6-9 of the past frame, and then predictive coding is performed using subrange 10 of the past frame obtained by interpolation.
[0074] В этом варианте осуществления был описан посредством примера случай, в котором квантование выполняется, используя одну и ту же кодовую книгу независимо от того, выполняется ли прогнозирующее кодирование, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться согласно тому, выполняется ли прогнозирующее кодирование или не выполняется при квантовании усиления и при квантовании формы.[0074] In this embodiment, an example has been described of a case in which quantization is performed using the same codebook regardless of whether predictive coding is performed, but the present invention is not limited thereto, and various codebooks can also be used according to whether predictive coding is performed or not when quantizing the gain and when quantizing the shape.
[0075] В этом варианте осуществления был описан посредством примера случай, в котором все размеры поддиапазонов являются одинаковыми, но настоящее изобретение не ограничивается этим, и размеры отдельных поддиапазонов могут также отличаться.[0075] In this embodiment, a case has been described by way of example in which all the sizes of the subbands are the same, but the present invention is not limited thereto, and the sizes of the individual subbands may also be different.
[0076] В этом варианте осуществления был описан посредством примера случай, в котором одна и та же кодовая книга используется для всех поддиапазонов при квантовании усиления и при квантовании формы, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться на основе «поддиапазон за поддиапазоном» при квантовании усиления и при квантовании формы.[0076] In this embodiment, a case has been described by way of example in which the same codebook is used for all subbands in gain quantization and shape quantization, but the present invention is not limited thereto, and different codebooks can also be used based on “ subband by subband ”in gain quantization and shape quantization.
[0077] В этом варианте осуществления был описан посредством примера случай, в котором последовательные поддиапазоны выбираются в качестве целевого диапазона квантования, но настоящее изобретение не ограничивается этим, и непоследовательное множество поддиапазонов также может быть выбрано в качестве целевого диапазона квантования. В таком случае эффективность кодирования речи может быть также улучшена посредством интерполяции значения невыбранного поддиапазона, используя значения смежных поддиапазонов.[0077] In this embodiment, a case has been described by way of example in which consecutive subbands are selected as the quantization target range, but the present invention is not limited thereto, and an inconsistent plurality of subbands can also be selected as the quantization target range. In such a case, the speech coding efficiency can also be improved by interpolating the values of the unselected subband using the values of adjacent subbands.
[0078] В этом варианте осуществления был описан посредством примера случай, в котором устройство 100 кодирования речи снабжается секция 104 определения выполнения/не выполнения прогнозирующего кодирования, но устройство кодирования речи согласно настоящему изобретению не ограничивается этим, и может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование не всегда выполняется секцией 105 квантования усиления, как иллюстрировано устройством 100а кодирования речи, показанном на фиг.4. В этом случае, как показано на фиг.4, устройство 100a кодирования речи снабжено секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы, секцией 105 квантования усиления и секцией 106 мультиплексирования. Фиг.5 является блок-схемой, иллюстрирующей конфигурацию устройства 200a декодирования речи, соответствующего устройству 100а кодирования речи, причем устройство 200a декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 204 деквантования усиления и секцией 205 преобразования во временную область. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который будет квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и квантует усиление каждого поддиапазона. Таким образом квантование может быть выполнено при более низкой скорости передачи в битах, чем способом, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также повышено посредством квантования вектора усиления, используя корреляцию усиления в частотной области.[0078] In this embodiment, an example has been described of a case in which the speech encoding device 100 is provided with the predictive encoding execution /
[0079] Устройство кодирования речи согласно настоящему изобретению может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование всегда выполняется секцией 105 квантования усиления, как иллюстрируется устройством кодирования речи 100а, показанным на фиг.4. Конфигурация устройства 200a декодирования речи, соответствующего этому виду устройства 100a кодирования речи, показана на фиг.5. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который должен быть квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и выполняет квантование усиления для каждого поддиапазона. Таким образом квантование может быть выполнено с более низкой скоростью передачи в битах, чем в способе, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также улучшена посредством прогнозирующего квантования вектора усиления, используя корреляцию усиления во временной области.[0079] The speech encoding apparatus according to the present invention may also have a configuration in which predictive encoding run /
[0080] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования в секции выбора диапазона должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и выбор также может быть выполнен, используя информацию диапазона, выбранного в предшествующем во времени кадре в дополнение к вышеупомянутому критерию. Например, возможный способ будет выбирать область, которая должна быть квантована, после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в предшествующем во времени кадре, становится более предпочтительной для выбора. Кроме того, если есть множество уровней, в которых выбирается диапазон, подлежащий квантованию, диапазон, квантованный в верхнем уровне, может быть выбран, используя информацию диапазона, выбранного в нижнем уровне. Например, возможный способ должен выбрать область, которая должна быть квантована после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в нижнем уровне, становится более предпочтительной для выбора.[0080] In this embodiment, a case has been described by way of example in which the method of selecting the quantization target range in the range selection section is to select the region with the highest energy in all ranges, but the present invention is not limited thereto, and the selection can also be made using information of the range selected in the preceding time frame in addition to the aforementioned criterion. For example, a possible method would be to select the region to be quantized after multiplying by the weighting factor so that the region that includes the range near the range selected in the previous frame in time becomes more preferable for selection. In addition, if there are many levels in which the range to be quantized is selected, the range quantized in the upper level can be selected using the information of the range selected in the lower level. For example, a possible method would be to select a region that should be quantized after multiplying by a weight factor such that a region that includes a range near a range selected in the lower level becomes more preferred.
[0081] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран заранее, после чего целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобное. Например, один способ должен выбрать низкий диапазон предварительно, когда скорость передачи в битах или частота дискретизации являются низкими.[0081] In this embodiment, a case has been described by way of example in which the method of selecting the target quantization range is to select the region with the highest energy in all ranges, but the present invention is not limited thereto, and a certain range can also be preselected in advance, after which the quantization target range is finally selected in a preselected range. In such a case, the preselected range may be determined according to the sampling rate of the input signal, bit rate coding, or the like. For example, one way is to pre-select a low range when the bit rate or sample rate is low.
[0082] Например, возможно использовать способ в секции 102 выбора диапазона, посредством которого область, которая должна быть квантована, определяется посредством вычисления энергии области после ограничения выбираемых областей областями с более низкими диапазонами из числа всех выбираемых областей - кандидатов. Как пример этого, возможный способ должен выполнить ограничение пятью кандидатами из более низких диапазонов из числа общего количества из восьми областей - кандидатов, показанных на фиг.2, и выполнить выбор области с самой высокой энергией среди них. Альтернативно, секция 102 выбора диапазона может сравнить энергии после умножения энергии на весовой коэффициент так, чтобы область из более низкой зоны стала пропорционально более предпочтительной для выбора. Другая возможность для секции 102 выбора диапазона заключается в том, чтобы выбрать фиксированный поддиапазон из более низких диапазонов. Особенностью речевого сигнала является то, что структура гармоник становится пропорционально сильнее к стороне более низких диапазонов, в результате чего сильный пик присутствует на стороне более низких диапазонов. Поскольку этот сильный пик трудно маскировать, это приводит к тому, что воспринимается как шум. Здесь посредством увеличения вероятности выбора к стороне более низкого диапазона вместо того, чтобы просто выбрать область, основанную на величине энергии, возможность области, которая включает в себя сильный выбираемый пик, увеличивается, и восприятие шума в результате уменьшается. Таким образом, качество декодированного сигнала может быть улучшено посредством ограничения выбранных областей стороной более низкого диапазона, или посредством выполнения умножения на весовой коэффициент таким образом, что вероятность выбора увеличивается по направлению к стороне более низкого диапазона, таким образом.[0082] For example, it is possible to use the method in the
[0083] Устройство кодирования речи согласно настоящему изобретению было описано в терминах конфигурации, посредством которого квантование формы (информации формы сигнала) сначала выполняется в отношении компонента диапазона, который должен быть квантован, с последующим квантованием усиления (информации усиления), но настоящее изобретение не ограничивается этим, и может также использоваться конфигурация, посредством которой квантование усиления выполняется сначала, с последующим квантованием формы (сигнала).[0083] The speech encoding apparatus according to the present invention has been described in terms of a configuration whereby quantization of a shape (waveform information) is first performed with respect to a component of a range to be quantized, followed by quantization of a gain (gain information), but the present invention is not limited this, and a configuration can also be used whereby gain quantization is performed first, followed by quantization of the shape (signal).
[0084] Вариант осуществления 2[0084] Embodiment 2
Фиг.6 - это блок-схема, иллюстрирующая основную конфигурацию устройства 300 кодирования речи согласно Варианту осуществления 2 настоящего изобретения.6 is a block diagram illustrating a basic configuration of a
[0085] На этом чертеже устройство 300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцию 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 308 кодирования второго уровня и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования речи CELP (линейное предсказание с кодовым возбуждением), и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.[0085] In this drawing, the
[0086] Секция 301 понижения дискретизации выполняет обработку по уменьшению дискретизации в отношении входного речевого/аудио сигнала, чтобы преобразовать частоту дискретизации речевого/аудио сигнала с частоты 1 к частоте 2 (где частота 1 > частоты 2), и выводит этот сигнал на секцию 302 кодирования первого уровня.[0086] The
[0087] Секция 302 кодирования первого уровня выполняет кодирование CELP речи, в отношении речевого/аудио сигнала после (сигнала) понижения дискретизации, введенного из секции 301 понижения дискретизации, и выводит кодированную полученную информацию первого уровня к секции 309 декодирования первого уровня и секции 303 мультиплексирования. Более конкретно, секция 302 кодирования первого уровня кодирует речевое сообщение, содержащее информацию вокального участка и информацию возбуждения, посредством нахождения параметра LPC для информации вокального участка и для информации возбуждения, выполняет кодирование посредством нахождения индекса, который идентифицирует, какая ранее сохраненная речевая модель должна использоваться, то есть индекс, который идентифицирует, какой вектор возбуждения адаптивной кодовой книги и фиксированной кодовой книги должен быть сгенерирован.[0087] The first
[0088] Секция 303 декодирования первого уровня выполняет CELP декодирование речи в отношении кодированной информации первого уровня, введенной из секции 302 кодирования первого уровня, и выводит полученный декодированный сигнал первого уровня к секции 304 повышения дискретизации.[0088] The first
[0089] Секция 304 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 303 декодирования первого уровня, чтобы преобразовать частоту дискретизации декодированного сигнала первого уровня от частоты 2 к частоте 1, и выводит этот сигнал к первой секции 305 преобразования в частотную область.[0089] The
[0090] Первая секция 305 преобразования в частотную область выполняет MDCT над декодированным сигналом первого уровня после повышения дискретизации, введенного из секции 304 повышения дискретизации, и выводит коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый в первой секции 305 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.[0090] The first frequency
[0091] Секция 306 задержки выводит задержанный речевой/аудио сигнал к второй секции 307 преобразования в частотную область посредством выдачи входного речевого/аудио сигнала после хранения этого входного сигнала во внутреннем буфере в течение заранее определенного времени. Заранее определенное время задержки здесь - время, которое принимает во внимание задержку алгоритма, которая возникает в секции 301 понижения дискретизации, секции 302 кодирования первого уровня, секции 303 декодирования первого уровня, секции 304 повышения дискретизации, первой секции 305 преобразования в частотную область и второй секции 307 преобразования в частотную область.[0091] The
[0092] Вторая секция 307 преобразования в частотную область выполняет MDCT в отношении задержанного речевого/аудио сигнала, введенного из секции 306 задержки, и выводит коэффициент MDCT второго уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый во второй секции 307 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.[0092] The second frequency
[0093] Секция 308 кодирования второго уровня выполняет кодирование второго уровня, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и коэффициент MDCT второго уровня, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию второго уровня к секции 309 мультиплексирования. Основная внутренняя конфигурация и фактическая работа секции 308 кодирования второго уровня описаны ниже.[0093] The second
[0094] Секция 309 мультиплексирования мультиплексирует кодированную информацию первого уровня, введенную из секции 302 кодирования первого уровня, и кодированную информацию второго уровня, введенную из секции 308 кодирования второго уровня, и передает полученный битовый поток к устройству декодирования речи.[0094] The
[0095] Фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 308 кодирования второго уровня. Секция 308 кодирования второго уровня имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи согласно Варианту осуществления 1 (см. фиг.1), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описания здесь опускаются.[0095] FIG. 7 is a block diagram illustrating a basic configuration of an interior of a second
[0096] Секция 308 кодирования второго уровня отличается от устройства 100 кодирования речи тем, что оборудована секцией 381 вычисления разностного коэффициента MDCT вместо секции 101 преобразования в частотную область. Обработка секцией 106 мультиплексирования аналогична обработке секцией 106 мультиплексирования устройства 100 кодирования речи, и для целей описания название выходного сигнала из секции 106 мультиплексирования согласно этому варианту осуществления дается как "кодированная информация второго уровня".[0096] The second
[0097] Информация диапазона, кодированная информация формы и кодированная информация усиления также могут быть введены непосредственно в секцию 309 мультиплексирования и мультиплексированы с кодированной информацией первого уровня, не проходя через секцию 106 мультиплексирования.[0097] The range information, encoded shape information, and encoded gain information can also be input directly to the
[0098] Секция 381 вычисления разностного коэффициента MDCT находит остаток коэффициента MDCT первого уровня, введенного из первой секции 305 преобразования в частотную область, и коэффициента MDCT второго уровня, введенного из второй секции 307 преобразования в частотную область, и выводит их на секцию 102 выбора диапазона как разностный коэффициент MDCT.[0098] The MDCT differential coefficient calculation section 381 finds the remainder of the first level MDCT coefficient input from the first frequency
[0099] Фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства 400 декодирования речи согласно Варианту осуществления 2 настоящего изобретения.[0099] FIG. 8 is a block diagram illustrating a basic configuration of a
[0100] В этом чертеже устройство 400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 405 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.[0100] In this drawing, the
[0101] Секция 401 управления анализирует элементы конфигурации битового потока, переданного от устройства 300 кодирования речи, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня и секции 405 декодирования второго уровня, и также выводит информацию управления на коммутатор 407. Более конкретно, если битовый поток содержит кодированную информацию первого уровня и кодированную информацию второго уровня, секция 401 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию второго уровня к секции 405 декодирования второго уровня, тогда как если битовый поток содержит только кодированную информацию первого уровня, секция 401 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня.[0101] The
[0102] Секция 402 декодирования первого уровня выполняет CELP декодирование в отношении кодированной информации первого уровня, введенной из секции 401 управления, и выводит полученный декодированный сигнал первого уровня к секции 403 повышения дискретизации и коммутатору 407.[0102] The first
[0103] Секция 403 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 402 декодирования первого уровня, чтобы преобразовать первую частоту дискретизации декодированного сигнала уровня от частоты 2 к частоте 1, и выводит этот сигнал к секции 404 преобразования в частотную область.[0103] The
[0104] Секция 404 преобразования в частотную область выполняет MDCT в отношении декодированного сигнала первого уровня после повышения дискретизации, введенного из секции 403 повышения дискретизации, и выводит декодированный коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 405 декодирования второго уровня. Фактический способ преобразования, используемый в секции 404 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1, и поэтому его описание здесь опускается.[0104] The frequency
[0105] Секция 405 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 401 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 405 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область как суммарный коэффициент MDCT. Основная внутренняя конфигурация и фактическая операция секции 405 декодирования второго уровня описаны ниже.[0105] The second
[0106] Секция преобразования 406 временной области выполняет IMDCT в отношении суммарного коэффициента MDCT, введенного из секции 405 декодирования второго уровня, и выводит декодированный сигнал второго уровня, полученный в качестве компонента временной области, на коммутатор 407.[0106] The time
[0107] На основании информации управления, введенной из секции 401 управления, если битовый поток, введенный на устройство 400 декодирования речи, содержит кодированную информацию первого уровня и кодированную информацию второго уровня, коммутатор 407 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала, тогда как если битовый поток содержит только кодированную информацию первого уровня, коммутатор 407 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.[0107] Based on the control information inputted from the
[0108] Фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 405 декодирования второго уровня. Секция 405 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи согласно Варианту осуществления 1 (см. фиг.3), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0108] FIG. 9 is a block diagram illustrating a basic configuration of an interior of a second
[0109] Секция 405 декодирования второго уровня отличается от устройства 200 декодирования речи тем, чтобы также оборудована секцией 452 вычисления суммарного коэффициента MDCT. Кроме того, обработка отличается, в частности, между обработкой секцией 451 демультиплексирования секции 405 декодирования второго уровня и обработкой секцией 201 демультиплексирования устройства 200 декодирования речи, и различные ссылочные позиции указывают это.[0109] The second
[0110] Секция 451 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из кодированной информации второго уровня из секции 401 управления, и выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, полученную кодированную информацию формы на секцию 202 деквантования формы, и полученную кодированную информацию усиления на секцию 204 деквантования усиления.[0110] The
[0111] Секция 452 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, и декодированный коэффициент MDCT второго уровня, введенный из секции 204 деквантования усиления, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT.[0111] The total MDCT
[0112] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование невременного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, таким образом позволяя уменьшить объем кодированной информации при кодировании речи, уменьшить ошибку кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио.[0112] Thus, according to this embodiment, when a frequency component of an excellent range is made to be quantized in each frame, predictive encoding of a non-temporal parameter is performed adaptively in addition to applying scalable encoding, thereby allowing to reduce the amount of encoded information in speech encoding, to reduce encoding error speech / audio signal and deterioration in the quality of the decoded audio signal.
[0113] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня принимает разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также принимать разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования для диапазона заранее определенной частоты или ниже, или может принимать коэффициент MDCT входного сигнала непосредственно в качестве цели кодирования для диапазона выше, чем заранее определенная частота. То есть переключение может быть выполнено между использованием или неиспользованием разностного компонента согласно диапазону.[0113] In this embodiment, a case has been described by way of example in which the second
[0114] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования при кодировании второго уровня должен выбрать область, для которой энергия разностного компонента коэффициента MDCT первого уровня и коэффициент MDCT второго уровня является самой высокой, но настоящее изобретение не ограничивается этим, и область, для которой энергия коэффициента MDCT первого уровня является самой высокой, также может быть выбрана. Например, энергия каждого поддиапазона коэффициента MDCT первого уровня может быть вычислена, после чего энергии каждого поддиапазона суммируются вместе на основе область-за-областью, и область, для которой энергия является самой высокой, выбирается в качестве целевого диапазона квантования при кодировании второго уровня. На стороне устройства декодирования область, для которой энергия является самой высокой среди областей декодированного коэффициента MDCT первого уровня, полученного декодированием первого уровня, выбирается в качестве целевого диапазона деквантования при декодировании второго уровня. Посредством этого скорость передачи в битах кодирования может быть уменьшена, так как информация диапазона, касающаяся диапазона квантования при кодировании второго уровня, не передается от стороны устройства кодирования.[0114] In this embodiment, a case has been described by way of example in which a method for selecting a quantization target range in second level encoding is to select a region for which the energy of the differential component of the first level MDCT coefficient and the second level MDCT coefficient is the highest, but the present invention is not limited to this, and an area for which the energy of the first level MDCT is the highest can also be selected. For example, the energy of each subband of the first level MDCT coefficient can be calculated, after which the energies of each subband are summed together region-by-region, and the region for which the energy is the highest is selected as the quantization target range when encoding the second level. On the side of the decoding apparatus, the region for which the energy is the highest among the regions of the decoded first level MDCT coefficient obtained by decoding the first level is selected as the dequantization target range when decoding the second level. By this, the transmission rate in coding bits can be reduced, since the range information regarding the quantization range in second-level coding is not transmitted from the side of the encoding device.
[0115] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня выбирает и выполняет квантование в отношении целевого диапазона квантования для разностного компонента коэффициента MDCT первого уровня и коэффициента MDCT второго уровня, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также предсказать коэффициент MDCT второго уровня из коэффициента MDCT первого уровня, и выбрать и выполнить квантование в отношении целевого диапазона квантования для разностного компонента этого предсказанного коэффициента MDCT и фактического коэффициента MDCT второго уровня. Это позволяет, разрешает дополнительно повысить эффективность кодирования при использовании корреляции между коэффициентом MDCT первого уровня и коэффициентом MDCT второго уровня.[0115] In this embodiment, a case has been described by way of example where the second
[0116] Вариант осуществления 3 [0116] Embodiment 3
Фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства 500 кодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 500 кодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и его описание здесь опускается.10 is a block diagram illustrating a basic configuration of a
[0117] Устройство 500 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 504 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 505 квантования усиления устройства 500 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи, и отличные ссылочные коды указывают на это.[0117] The
[0118] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра. Используя значение усиления квантования целевого диапазона квантования прошлого кадра, считанного из секции 505 квантования усиления, секция 504 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был квантован в прошлом кадре, среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона. Секция 504 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 505 квантования усиления.[0118] The interpolation
[0119] Секция 505 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием значения интерполяции усиления, введенного из секции 504 вычисления значения интерполяции, в дополнение к значению усиления квантования прошлого кадра, сохраненному во внутреннем буфере, и внутренней кодовой книги усиления посредством выполнения прогнозирующего кодирования.[0119] The
[0120] Способ интерполяции значения усиления, используемый секцией 504 вычисления значения интерполяции, описан ниже более подробно.[0120] The gain value interpolation method used by the interpolation
[0121] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечивается внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.[0121] The interpolation
[0122] Секция 504 вычисления значения интерполяции сначала вычисляет значение усиления диапазона, отличного от диапазона, указанного информацией диапазона m_max для прошлых трех кадров, посредством выполнения линейной интерполяции. Значение интерполяции вычисляется в соответствии с Уравнением (19) для значения усиления более низкого диапазона, чем диапазон, указанный информацией диапазона m_max, и значение интерполяции вычисляется в соответствии с Уравнением (20) для значения усиления более высокого диапазона чем диапазон, указанный информацией диапазона m_max.[0122] The interpolation
В Уравнении (19) и Уравнении (20) βi указывает коэффициент интерполяции, qi указывает значение усиления целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, и g указывает значение интерполяции усиления неквантованного диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона m_max прошлого кадра. Здесь более низкое значение i указывает пропорционально более низкий диапазон частот, и в Уравнении (19) g указывает значение интерполяции усиления смежного диапазона со стороны более высокого диапазона от целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, в то время как в Уравнении (20) g указывает значение интерполяции усиления смежного диапазона на стороне более низкого диапазона целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра. Для коэффициента интерполяции βi предполагается для использования значение, которое было найдено заранее статистически так, чтобы удовлетворять Уравнению (19) и Уравнению (20). Здесь описывается случай, в котором различные коэффициенты интерполяции βi используются в Уравнении (19) и Уравнении (20), но аналогичный набор коэффициентов предсказания αi также может использоваться в Уравнении (19) и Уравнении (20).In Equation (19) and Equation (20), β i indicates the interpolation coefficient, q i indicates the gain of the quantization target range indicated by the range information m_max of the previous frame, and g indicates the gain interpolation value of the non-quantized range adjacent to the quantization range specified by the range information m_max of the last frame. Here, a lower value of i indicates a proportionally lower frequency range, and in Equation (19) g indicates the interpolation value of the gain of the adjacent range from the side of the higher range from the quantization target range indicated by the information of the m_max range of the previous frame, while in Equation (20 ) g indicates the gain interpolation value of the adjacent range on the lower side of the quantization target range indicated by the information of the m_max range of the past frame. For the interpolation coefficient β i, it is assumed to use a value that has been found statistically in advance so as to satisfy Equation (19) and Equation (20). Here, a case is described in which different interpolation coefficients β i are used in Equation (19) and Equation (20), but a similar set of prediction coefficients α i can also be used in Equation (19) and Equation (20).
[0123] Как показано в Уравнении (19) и Уравнении (20), возможно интерполировать значение усиления одного диапазона со стороны более высокого диапазона или стороны более низкого диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона прошлого кадра m_max прошлого кадра, в секции 504 вычисления значения интерполяции. Секция 504 вычисления значения интерполяции последовательно интерполирует значения усиления смежных неквантованных диапазонов посредством повторения операций в Уравнении (19) и Уравнении (20), используя результаты, полученные из Уравнения (19) и Уравнения (20).[0123] As shown in Equation (19) and Equation (20), it is possible to interpolate a gain of one range from a higher range side or a lower range side adjacent to a quantization target range indicated by a range information of a past frame m_max of a past frame, in a
[0124] Таким образом, секция 504 вычисления значения интерполяции интерполирует значения усиления диапазонов, отличных от диапазона, указанного информацией диапазона m_max прошлых трех кадров, из целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона, используя квантованные значения усиления прошлых трех кадров, считанных из секции 505 квантования усиления.[0124] Thus, the interpolation
[0125] Ниже описана операция прогнозирующего кодирования в секции 505 квантования усиления.[0125] The prediction encoding operation in
[0126] Секция 505 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления квантования прошлого кадра, значение интерполяции усиления, введенное из секции 504 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 505 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (21) ниже является минимум.[0126] The
Уравнение 21
Equation 21
[0127] В Уравнении (21) GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Здесь Ct j указывает значение усиления квантования t кадров назад во времени так, чтобы, когда t=1, например, Ct j указывает значение усиления квантования одного кадра назад во времени. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 505 квантования усиления. Значение интерполяции усиления, вычисленное в соответствии с Уравнением (19) и Уравнением (20) секцией 504 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве целевого диапазона квантования в прошлых трех кадрах. Секция 505 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0127] In Equation (21), GC i j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. Here, C t j indicates the quantization gain value of t frames backward in time so that when t = 1, for example, C t j indicates the quantization gain value of one frame backward in time. In addition, α is a fourth-order linear prediction coefficient stored in
[0128] Секция 505 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (21) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 505 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (22) ниже с использованием кодированной информации усиления, G_min и значения Ct j усиления квантования, полученного в текущем кадре.[0128] The
[0129] Фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства 600 декодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 600 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанного на фиг.3, и поэтому идентичные элементы конфигурации обозначены одинаковыми ссылочными позициями, и их описание здесь опускается.[0129] FIG. 11 is a block diagram illustrating a basic configuration of a
[0130] Устройство 600 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 603 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 604 деквантования усиления устройства 600 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.[0130] The
[0131] Секция 603 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую информацию диапазона, деквантованную в прошлом кадре. Используя значение усиления диапазона, деквантованного в прошлом кадра, считанное из секции 604 деквантования усиления, секция 603 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был деквантован в прошлом кадре среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 201 демультиплексирования. Секция 603 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 604 деквантования усиления.[0131] The interpolation
[0132] Секция 604 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием значения интерполяции усиления, введенного из секции 603 вычисления значения интерполяции, в дополнение к сохраненному деквантованному значению усиления прошлого кадра, и внутреннюю кодовую книгу усиления при выполнении прогнозирующего кодирования.[0132] The
[0133] Способ интерполяции значения усиления, используемый секцией 603 вычисления значения интерполяции, аналогичен способу интерполяции значения усиления, используемому секцией 504 вычисления значения интерполяции, и поэтому подробное его описание здесь опускается.[0133] The gain value interpolation method used by the interpolation
[0134] Ниже описана процедура прогнозирующего декодирования в секции 604 деквантования усиления.[0134] The prediction decoding procedure in
[0135] Секция 604 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления, деквантованное в прошлом кадре, значение усиления интерполяции, введенное из секции 603 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 604 деквантования усиления получает значение Gain_q' усиления посредством выполнения деквантования усиления в соответствии с Уравнением (23) ниже.[0135] The
[0136] В Уравнении (23) C''t j указывает значение усиления t кадров назад во времени, так, чтобы когда t=1, например, C''t j указывает значение усиления одного кадра ранее. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 604 деквантования усиления. Снова значение интерполяции, вычисленное секцией 603 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве цели квантования в прошлых трех кадрах. Секция 604 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0136] In Equation (23), C ″ t j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ t j indicates the gain value of one frame earlier. In addition, α is a 4th order linear prediction coefficient stored in
[0137] Затем секция 604 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (24) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (25) ниже. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Также при деквантовании коэффициента MDCT, если k присутствует в B(j'')-B (j''+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q' (j'').[0137] Then, the
Уравнение 24 X ” k = Gain_q '(j) · Shape_q' (k)
Equation 24
Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, значения соседних неквантованных диапазонов последовательно интерполируются от квантованного значения в прошлом кадре, и выполняется прогнозирующее квантование, используя значение интерполяции. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.Thus, according to this embodiment, when quantizing the frequency domain parameter of the different quantization target range of each frame, the values of neighboring non-quantized ranges are sequentially interpolated from the quantized value in the last frame, and predictive quantization is performed using the interpolation value. Therefore, the coding accuracy of the speech coding can be further improved.
[0138] В этом варианте осуществления был описан посредством примера случай, в котором фиксированный коэффициент интерполяции β, найденный заранее, используется при вычислении значения интерполяции усиления, но настоящее изобретение не ограничивается этим, и интерполяция также может быть выполнена после корректировки ранее найденного коэффициента β интерполяции. Например, коэффициент предсказания может быть откорректирован согласно распределению усиления диапазона, квантованного в каждом кадре. Более конкретно, возможно улучшить точность кодирования при кодировании речи посредством выполнения регулировки так, чтобы коэффициент предсказания был уменьшен, и вес усиления текущего кадра увеличен, когда изменение в усилении, квантованном в каждом кадре, является большим.[0138] In this embodiment, a case has been described by way of example in which a fixed interpolation coefficient β, found in advance, is used in calculating the gain interpolation value, but the present invention is not limited thereto, and interpolation can also be performed after adjusting the previously found interpolation coefficient β . For example, the prediction coefficient may be adjusted according to the distribution of the gain of the range quantized in each frame. More specifically, it is possible to improve the coding accuracy of speech coding by adjusting so that the prediction coefficient is reduced and the gain weight of the current frame is increased when the change in gain quantized in each frame is large.
[0139] В этом варианте осуществления был описан посредством примера случай, в котором последовательное множество диапазонов (одна область), содержащая диапазон, квантованный в каждом кадре, делается целевой, но настоящее изобретение не ограничивается этим, и множество областей также могут быть сделаны целью квантования. В таком случае возможно улучшить точность кодирования при кодировании речи посредством использования способа, посредством которого линейное предсказание конечных значений соответствующих областей выполняется для диапазона между выбранными областями в дополнение к способу интерполяции согласно Уравнению (19) и Уравнению (20).[0139] In this embodiment, a case has been described by way of example in which a consecutive plurality of ranges (one region) containing a range quantized in each frame is targeted, but the present invention is not limited thereto, and a plurality of regions can also be made a quantization target . In this case, it is possible to improve the encoding accuracy in speech encoding by using a method by which linear prediction of the final values of the respective regions is performed for the range between the selected regions in addition to the interpolation method according to Equation (19) and Equation (20).
[0140] Вариант осуществления 4 [0140] Embodiment 4
Фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства 700 кодирования речи согласно Варианту осуществления 4 настоящего изобретения. Устройство 700 кодирования речи имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.12 is a block diagram illustrating a basic configuration of a
[0141] Устройство 700 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 704 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 705 квантования усиления устройства 700 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи и различные ссылочные позиции указывают на это.[0141] The
[0142] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра, определяет коэффициент предсказания, который должен быть использован при квантовании секцией 705 квантования усиления на основании информации диапазона прошлого кадра и выводит определенный коэффициент предсказания на секцию 705 квантования усиления.[0142] The prediction
[0143] Секция 705 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием коэффициента предсказания, введенного из секции 704 определения коэффициента предсказания вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего кодирования.[0143] The
[0144] Операция определения коэффициента предсказания в секции 704 определения коэффициента предсказания описана ниже.[0144] The prediction coefficient determination operation in the prediction
[0145] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечен внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.[0145] The prediction
[0146] Используя информацию диапазона m_max, сохраненную во внутреннем буфере, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре, секция 704 определения коэффициента предсказания находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра. Секция 704 определения коэффициента предсказания определяет коэффициенты предсказания как набор A, и выводит его на секцию 705 квантования усиления, если количество общих поддиапазонов больше или равно заранее определенному значению, или определяет коэффициенты предсказания как набор B и выводит их на секцию 705 квантования усиления, если количество общих поддиапазонов меньше чем заранее определенное значение. Здесь набор A коэффициентов предсказания есть набор параметров, который больше акцентируется на значении прошлого кадра, и делает вес значения усиления прошлого кадра большим, чем в случае набора В коэффициентов предсказания. Например, в случае коэффициентов предсказания 4-го порядка возможно, что набор А был определен как (αa0=0,60, αa1=0,25, αa2=0,10, αa3=0,05), и что набор B был определен как (αb0=0,80, αb1=0,10, αb2=0,05, αb3=0,05).[0146] Using the m_max range information stored in the internal buffer and the m_max range information inputted from the
[0147] Затем секция 704 определения коэффициента предсказания обновляет внутренний буфер, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0147] Then, the prediction
[0148] Ниже описана операция прогнозирующего кодирования в секции 705 квантования усиления.[0148] The prediction encoding operation in
[0149] Секция 705 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 705 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 704 определения коэффициента предсказания, и значение Ct j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 705 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (26) ниже является минимум, если коэффициентом предсказания является набор А, или находит индекс вектора кода усиления, для которого результатом Уравнения (27) ниже является минимум, если коэффициентом предсказания является набор В.[0149] The
Уравнение 26
Equation 26
Уравнение 27
Equation 27
[0150] В Уравнении (26) и Уравнении (27) GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и j указывает индекс элемента вектора кода усиления. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, коэффициент 4-го порядка линейного предсказания сохраняется в секции 705 квантования усиления. Секция 705 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 705 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (26) или Уравнении (27) выше.[0150] In Equation (26) and Equation (27), GC i j indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and j indicates the index of the gain code vector element. Here, C t j indicates the gain value of t frames backward in time, so that when t = 1, for example, C t j indicates the gain value of one frame backward in time. In addition, a 4th-order linear prediction coefficient is stored in
[0151] Фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи 800 согласно Варианту осуществления 4 настоящего изобретения. Устройство декодирования речи 800 имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанной на фиг.3, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0151] FIG. 13 is a block diagram illustrating a basic configuration of a
[0152] Устройство 800 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 803 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 804 деквантования усиления устройства 800 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.[0152] The
[0153] Секция 803 определения коэффициента предсказания имеет внутренний буфер, который сохраняет информацию диапазона, введенную из секции 201 демультиплексирования в прошлом кадре, определяет коэффициент предсказания, который должен использоваться при квантовании секцией 804 деквантования усиления, на основании информации диапазона прошлого кадра, и выводит определенный коэффициент предсказания на секцию 804 деквантования усиления.[0153] The prediction
[0154] Секция 804 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием коэффициента предсказания, введенного из секции 803 определения коэффициента предсказания, вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего декодирования.[0154] The
[0155] Способ определения коэффициента предсказания, используемый секцией 803 определения коэффициента предсказания, аналогичен способу определения коэффициента предсказания, используемому секцией 704 определения коэффициента предсказания устройства 700 кодирования речи, и поэтому подробное описание работы секции 803 определения коэффициента предсказания здесь опускается.[0155] The prediction coefficient determination method used by the prediction
[0156] Ниже описана операция прогнозирующего декодирования в секции 804 деквантования усиления.[0156] The prediction decoding operation in
[0157] Секция 804 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Секция 804 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, и значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 804 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 705 квантования усиления устройства 700 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (28) ниже, если коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, есть набор A, или в соответствии с Уравнением (29) ниже, если коэффициент предсказания есть набор B.[0157] The
[0158] В Уравнении (28) и Уравнении (29) C''t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j указывает значение усиления одного кадра прежде. Кроме того, αai и αbi указывают набор A и набор В коэффициентов предсказания, введенные из секции 803 определения коэффициента предсказания. Секция 804 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.[0158] In Equation (28) and Equation (29), C ″ t j indicates the gain value of t frames backward in time, so that when t = 1, for example, C ″ t j indicates the gain value of one frame before. In addition, αa i and αb i indicate a set A and a set B of prediction coefficients introduced from the prediction
[0159] Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется посредством выбора из множества наборов коэффициентов предсказания набора коэффициентов предсказания, который делает вес значения усиления прошлого кадра пропорционально тем больше, чем больше количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.[0159] Thus, according to this embodiment, when quantizing a frequency domain parameter of an excellent quantization target range of each frame, predictive coding is performed by selecting from a plurality of sets of prediction coefficients a set of prediction coefficients that makes the weight of a gain value of a past frame proportionally greater than the greater the number of subbands common to the quantization target range of the last frame and the quantization target range of the current frame. Therefore, the coding accuracy of the speech coding can be further improved.
[0160] В этом варианте осуществления был описан посредством примера случай, в котором два вида наборов коэффициентов предсказания предоставляются заранее, и коэффициент предсказания, используемый в прогнозирующем кодировании, переключается согласно количеству поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, но настоящее изобретение не ограничивается этим, и три или более видов наборов коэффициентов предсказания могут также быть обеспечены заранее.[0160] In this embodiment, a case has been described by way of example in which two kinds of sets of prediction coefficients are provided in advance, and the prediction coefficient used in predictive coding is switched according to the number of subbands common to the quantization target range of the past frame and the target quantization range of the current frame , but the present invention is not limited to this, and three or more kinds of sets of prediction coefficients can also be provided in advance.
[0161] В этом варианте осуществления был описан посредством примера случай, в котором, если целевой диапазон квантования в текущем кадре не был квантован в прошлом кадре, значение ближайшего диапазона в прошлом кадре заменяется, но настоящее изобретение не ограничивается этим, и если значение целевого диапазона квантования в текущем кадре не было квантовано в прошлом кадре, прогнозирующее кодирование также может быть выполнено посредством принятия соответствующего коэффициента предсказания прошлого кадра равным нулю, суммирования коэффициента предсказания этого кадра с коэффициентом предсказания текущего кадра, вычисления нового набора коэффициентов предсказания, и использования этих коэффициентов предсказания. Таким образом эффект прогнозирующего кодирования может быть переключен более гибко, и точность кодирования речевого кодирования может быть дополнительно улучшена.[0161] In this embodiment, a case has been described by way of example in which if the quantization target range in the current frame has not been quantized in the last frame, the closest range value in the last frame is replaced, but the present invention is not limited to this, and if the value of the target range quantization in the current frame was not quantized in the last frame, predictive coding can also be performed by taking the corresponding prediction coefficient of the last frame equal to zero, summing the coefficient the prediction rate of this frame with the prediction coefficient of the current frame, calculating a new set of prediction coefficients, and using these prediction coefficients. Thus, the effect of predictive coding can be switched more flexibly, and the coding accuracy of the speech coding can be further improved.
[0162] Вариант осуществления 5 [0162] Option exercise 5
Фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1000 согласно Варианту осуществления 5 настоящего изобретения. Устройство кодирования речи 1000 имеет базовую конфигурацию, аналогичную таковой из устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.14 is a block diagram illustrating a basic configuration of a
[0163] Устройство кодирования речи 1000 отличается от устройства 300 кодирования речи тем, что дополнительно снабжено секцией 1007 кодирования улучшения (усиления) диапазона. Кроме того, обработка отличается, в частности, между секцией 1008 кодирования второго уровня и секцией 1009 мультиплексирования устройства кодирования речи 1000 и секцией 308 кодирования второго уровня и секцией 309 мультиплексирования устройства 300 кодирования речи, и различные ссылочные коды указывают на это.[0163] The
[0164] Секция 1007 кодирования улучшения диапазона выполняет кодирование улучшения диапазона, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и входной коэффициент MDCT, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию улучшения диапазона к секции 1009 мультиплексирования.[0164] The range
[0165] Секция 1009 мультиплексирования отличается от секции 309 мультиплексирования только также мультиплексированием кодированной информации улучшения диапазона в дополнение к кодированной информации первого уровня и кодированной информации второго уровня.[0165] The
[0166] Фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1007 кодирования улучшения диапазона.[0166] FIG. 15 is a block diagram illustrating a basic configuration of an interior of a range
[0167] На фиг.15 секция 1007 кодирования улучшения диапазона снабжена секцией 1071 оценки спектра более высокого диапазона и секцией 1072 кодирования корректирующего масштабного коэффициента.[0167] In FIG. 15, the range
[0168] Секция 1071 оценки спектра более высокого диапазона оценивает спектр более высокого диапазона диапазонов FL-FH сигналов с использованием спектра более низкого диапазона диапазонов 0-FL сигналов входного коэффициента MDCT, введенного из второй секции 307 преобразования в частотную область, чтобы получить оцененный спектр. Способ получения оцененного спектра должен найти оцененный спектр таким образом, что степень подобия со спектром более высокого диапазона становится максимальной посредством преобразования спектра более низкого диапазона на основании этого спектра более низкого диапазона. Секция 1071 оценки более высокого диапазона спектра кодирует информацию, касающуюся этого оцененного спектра (информацию оценки), выводит полученный параметр кодирования, и также выдает сам оцененный спектр непосредственно на секцию 1072 кодирования корректирующего масштабного коэффициента.[0168] The higher range
[0169] В следующем описании оцененный спектр, выведенный из секции 1071 оценки более высокого диапазона спектра, называют первым спектром, и коэффициент MDCT первого уровня (спектр более высокого диапазона), выведенный из первой секции 305 преобразования в частотную область, называют вторым спектром.[0169] In the following description, the estimated spectrum derived from the higher spectrum
[0170] Вышеописанные виды спектров и соответствующих диапазонов сигналов могут быть получены в итоге следующим образом.[0170] The above types of spectra and corresponding signal ranges can be summarized as follows.
[0171] [0171]
Секция 1072 кодирования корректирующего масштабного коэффициента корректирует масштабный коэффициент первого спектра так, чтобы масштабный коэффициент первого спектра приблизился к масштабному коэффициенту второго спектра, и кодирует и выводит информацию, касающуюся этого корректирующего масштабного коэффициента.The correction scale
[0172] Кодированная информация улучшения диапазона, введенная из секции 1007 кодирования улучшения диапазона к секции 1009 мультиплексирования, включает в себя параметр кодирования информации оценки, введенный из секции 1071 оценки спектра более высокого диапазона, и параметр кодирования корректирующего масштабного коэффициента, введенный из секции 1072 кодирования корректирующего масштабного коэффициента.[0172] The encoded range enhancement information inputted from the range
[0173] Фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1072 кодирования корректирующего масштабного коэффициента.[0173] FIG. 16 is a block diagram illustrating a basic configuration of an interior of a correction scale
[0174] Секция 1072 кодирования корректирующего масштабного коэффициента снабжена секциями 1721 и 1722 вычисления масштабного коэффициента, кодовой книгой 1723 корректирующего масштабного коэффициента, умножителем 1724, вычитающим устройством 1725, секцией 1726 определения, секцией 1727 вычисления ошибок взвешивания и секцией 1728 поиска. Эти секции выполняют следующие операции.[0174] The correction scale
[0175] Секция 1721 вычисления масштабного коэффициента делит диапазоны FL-FH входного сигнала второго спектра на множество поддиапазонов, находит размер спектра, включенного в каждый поддиапазон, и выводит его на вычитающее устройство 1725. Более конкретно, разделение на поддиапазоны выполняется ассоциированным с критическим диапазоном, и разделение выполняется на равные интервалы шкалы Барка. Кроме того, секция 1721 вычисления масштабного коэффициента находит среднюю амплитуду спектров, включенных в эти поддиапазоны, и принимает ее как второй масштабный коэффициент SF2(k) {0≤k<NB}, где NB представляет количество поддиапазонов. Максимальное значение амплитуды или подобное могут использоваться вместо средней амплитуды.[0175] The scale
[0176] Секция 1722 вычисления масштабного коэффициента делит введенные диапазоны FL-FH сигналов первого спектра на множество поддиапазонов, вычисляет первый масштабный коэффициент SF1(k) {0≤k<NB} поддиапазонов и выводит его на умножитель 1724. Как и с секцией 1721 вычисления масштабного коэффициента, максимальное значение амплитуды или подобное могут быть использованы вместо средней амплитуды.[0176] The scale
[0177] В последующей обработке параметры во множестве поддиапазонов объединяются в одно векторное значение. Например, количество NB масштабных коэффициентов представляется как один вектор. Описание ниже приводится для случая, в котором каждая операция по обработке выполняется для каждого из этих векторов - то есть случая, в котором выполняется квантование вектора - в качестве примера.[0177] In the subsequent processing, the parameters in a plurality of subbands are combined into a single vector value. For example, the number of NB scale factors is represented as a single vector. The description below is given for the case in which each processing operation is performed for each of these vectors — that is, the case in which quantization of the vector is performed — as an example.
[0178] Кодовая книга 1723 корректирующего масштабного коэффициента хранит множество корректирующих масштабных коэффициентов - кандидатов, и последовательно выдает один из сохраненных корректирующих масштабных коэффициентов - кандидатов на умножитель 1724 в соответствии с директивой из секции 1728 поиска. Множество корректирующих масштабных коэффициентов - кандидатов, сохраненных в кодовой книге 1723 корректирующего масштабного коэффициента, представляется вектором.[0178] The corrective
[0179] Умножитель 1724 умножает первый масштабный коэффициент, выведенный из секции 1722 вычисления масштабного коэффициента на корректирующий масштабный коэффициент - кандидат, выведенный из кодовой книги 1723 корректирующего масштабного коэффициента, и выдает результат умножения на вычитающее устройство 1725.[0179] A
[0180] Вычитающее устройство 1725 вычитает выходной сигнал умножителя 1724, то есть произведение первого масштабного коэффициента и корректирующего масштабного коэффициента, из второго масштабного коэффициента, выведенного из секции 1721 вычисления масштабного коэффициента, и выдает сигнал ошибки, полученный таким образом, к секции 1727 вычисления ошибки взвешивания и секции 1726 определения.[0180] The
[0181] Секция 1726 определения определяет вектор взвешивания, который должен быть подан на секцию 1727 вычисления ошибки взвешивания, на основании знака сигнала ошибки, выданного от вычитающего устройства 1725. Более конкретно, сигнал d(k) ошибки, выданный из вычитающего устройства 1725, представляется Уравнением (30) ниже.[0181] The determining
[0182] Здесь vi(k) представляет i-й корректирующий масштабный коэффициент - кандидат. Секция 1726 определения проверяет знак d(k), выбирает wpos в качестве веса, если d(k) положительный, или выбирает wneg в качестве веса, если d(k) является отрицательным, и выводит вектор w(k) взвешивания, состоящий из них, к секции 1727 вычисления ошибки взвешивания. Эти веса имеют относительные соотношения размеров, показанные в Уравнении (31) ниже.[0182] Here, v i (k) represents the i-th correction scale factor — the candidate. The
[0183] Например, если количество поддиапазонов NB=4, и знаками d(k) являются {+, -, -, +}, вектор w(k) взвешивания, выведенный к секции 1727 вычисления ошибки взвешивания, представляется w(k) = {wpos, wneg, wneg, wpos}.[0183] For example, if the number of subbands is NB = 4 and the signs d (k) are {+, -, -, +}, the weighting vector w (k) derived to the weighting
[0184] Секция 1727 вычисления ошибки взвешивания сначала вычисляет квадрат сигнала ошибки, выданного из вычитающего устройства 1725, и затем умножает вектор взвешивания w(k), выданный из секции 1726 определения, на квадрат сигнала ошибки, чтобы вычислить взвешенную ошибку E квадрата, и выдает результат этого вычисления на секцию 1728 поиска. Здесь взвешенная ошибка E квадрата представляется как показано в Уравнении (32) ниже.[0184] The weighting
[0185] Секция 1728 поиска управляет кодовой книгой 1723 корректирующего масштабного коэффициента и последовательно выводит сохраненные корректирующие масштабные коэффициенты - кандидаты, и посредством обработки с замкнутым контуром находит корректирующий масштабный коэффициент - кандидат, для которого взвешенная ошибка E квадрата, выведенная из секции 1727 вычисления ошибки взвешивания, является минимальной. Секция 1728 поиска выводит индекс iopt найденного корректирующего масштабного коэффициента - кандидата в качестве параметра кодирования.[0185] The
[0186] Когда вес, используемый при вычислении взвешенной ошибки E квадрата, устанавливается согласно знаку сигнала ошибки, и вид отношений, показанных в Уравнении (30), относится к этому весу, как описано выше, получается следующий вид эффекта, а именно случай, в котором сигнал ошибки d(k) является положительным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования (в терминах стороны кодирования, значение, полученное умножением первого масштабного коэффициента на корректирующий масштабный коэффициент), меньше чем второй масштабный коэффициент, который является целевым значением. Также, случай, в котором сигнал ошибки d(k) является отрицательным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования, больше чем второй масштабный коэффициент, который является целевым значением. Поэтому, посредством установки веса, когда сигнал ошибки d(k) является положительным, так чтобы быть меньше веса, когда сигнал ошибки d(k) является отрицательным, когда значения ошибки квадрата имеют тот же самый порядок, корректирующий масштабный коэффициент - кандидат, который генерирует декодированное значение, меньшее чем второй масштабный коэффициент, становится предпочтительным для выбора.[0186] When the weight used in calculating the weighted error E of the square is set according to the sign of the error signal, and the form of the relations shown in Equation (30) refers to this weight, as described above, the following kind of effect is obtained, namely, the case in wherein the error signal d (k) is positive, is a case in which a decoded value generated on the decoding side (in terms of the encoding side, a value obtained by multiplying the first scale factor by a correction scale factor), less than the second scale factor, which is the target value. Also, the case in which the error signal d (k) is negative is the case in which the decoded value generated on the decoding side is larger than the second scale factor, which is the target value. Therefore, by setting the weight when the error signal d (k) is positive, so as to be less than the weight when the error signal d (k) is negative, when the square error values are of the same order, the correction factor is the candidate that generates a decoded value smaller than the second scale factor becomes preferred for selection.
[0187] Следующий вид эффекта усовершенствования получается посредством обработки секцией 1007 кодирования улучшения диапазона. Например, когда спектр более высокого диапазона оценивается, используя спектр более низкого диапазона, как в этом варианте осуществления, более низкая скорость передачи в битах обычно может быть достигнута. Однако в то время как более низкая скорость передачи в битах может быть достигнута, о точности оцененного спектра - то есть подобии между оцененным спектром и спектром более высокого диапазона - нельзя говорить, что является достаточно высокой, как описывается выше. В этом случае, если декодированное значение масштабного коэффициента становится больше, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении усиления оцененного спектра, низкая точность оцененного спектра имеет тенденцию быть заметной человеческому уху как ухудшение качества. Наоборот, когда декодированное значение масштабного коэффициента становится меньшим, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении уменьшения этого оцененного спектра, низкая точность оцененного спектра прекращает быть заметной, и получается эффект улучшения качества аудио декодированного сигнала. Эта тенденция была также подтверждена в компьютерном моделировании.[0187] The following kind of enhancement effect is obtained by processing the range
[0188] Фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1008 кодирования второго уровня. Секция 1008 кодирования второго уровня имеет аналогичную базовую конфигурацию таковой из секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается. Обработка отличается, в частности, между секцией 1081 вычисления разностного коэффициента MDCT секции 1008 кодирования второго уровня и секцией 381 вычисления разностного коэффициента MDCT секции 308 кодирования второго уровня, и различные ссылочные позиции указывают на это.[0188] FIG. 17 is a block diagram illustrating a basic configuration of an interior of a second
[0189] Секция 1081 вычисления разностного коэффициента MDCT вычисляет разностный MDCT, который должен быть целью квантования в секции кодирования второго уровня, из введенного входного коэффициента MDCT и коэффициента MDCT улучшения первого уровня. Секция 1081 вычисления разностного коэффициента MDCT отличается от секции 381 вычисления разностного коэффициента MDCT согласно Варианту осуществления 2 взятием остатка введенного коэффициента MDCT и разностного коэффициента улучшения первого уровня в качестве разностного коэффициента MDCT для диапазона, не улучшенного секцией 1007 кодирования улучшения диапазона, и принятием входного коэффициента MDCT непосредственно, а не остатка, в качестве разностного коэффициента MDCT для диапазона, улучшенного секцией 1007 кодирования улучшения диапазона.[0189] The MDCT differential
[0190] Фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1010 декодирования речи согласно Варианту осуществления 5 настоящего изобретения. Устройство 1010 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0190] FIG. 18 is a block diagram illustrating a basic configuration of a
[0191] Устройство 1010 декодирования речи отличается от устройства 400 декодирования речи тем, что дополнительно снабжено секцией 1012 декодирования улучшения диапазона, и секцией 1013 преобразования во временную область. Кроме того, обработка отличается, в частности, между секцией 1011 управления, секцией 1015 декодирования второго уровня, и коммутатором 1017 из устройства 1010 декодирования речи и секцией 401 управления, секцией 405 декодирования второго уровня, и коммутатором 407 из устройства 400 декодирования речи, и различные ссылочные позиции указывают на это.[0191] The
[0192] Секция 1011 управления анализирует элементы конфигурации битового потока, переданного от устройства кодирования речи 1000, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня, секции 1012 декодирования улучшения диапазона, и секции 1015 декодирования второго уровня, и также выводит информацию управления на коммутатор 1017. Более конкретно, если битовый поток содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона, и выводит кодированную информацию второго уровня к секции 1015 декодирования второго уровня. Если битовый поток содержит только кодированную информацию первого уровня, и кодированную информацию улучшения диапазона, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона. Если битовый поток содержит только кодированную информацию первого уровня, секция 1011 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня. Кроме того, секция 1011 управления выводит информацию управления, которая управляет коммутатором 1017, на коммутатор 1017.[0192] the
[0193] Секция 1012 декодирования улучшения диапазона выполняет обработку по улучшению диапазона, используя кодированную информацию улучшения диапазона из секции 1011 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить коэффициент MDCT улучшения первого уровня. Затем секция 1012 декодирования улучшения диапазона выводит полученный коэффициент MDCT улучшения первого уровня к секции 1013 преобразования во временную область и секции 1015 декодирования второго уровня. Основная внутренняя конфигурация и фактическая работа секции 1012 декодирования улучшения диапазона описаны ниже.[0193] The range
[0194] Секция 1013 преобразования во временную область выполняет IMDCT в отношении коэффициента MDCT улучшения первого уровня, введенного из секции 1012 декодирования улучшения диапазона, и выводит декодированный сигнал улучшения первого уровня, полученный как компонент временной области, на коммутатор 1017.[0194] The time
[0195] Секция 1015 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 1011 управления, и коэффициент MDCT улучшения первого уровня, введенный из секции 1012 декодирования улучшения диапазона, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 1015 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT. Основная внутренняя конфигурация и фактическая работа секции 1015 декодирования второго уровня описаны ниже.[0195] The second
[0196] На основании информации управления, введенной из секции 1011 управления, если битовый поток, подаваемый на устройство 1010 декодирования речи, содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, коммутатор 1017 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня и кодированную информацию улучшения диапазона, коммутатор 1017 выводит декодированный сигнал улучшения первого уровня, введенный из секции 1013 преобразования во временную область в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня, коммутатор 1017 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.[0196] Based on the control information inputted from the
[0197] Фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1012 декодирования улучшения диапазона. Секция 1012 декодирования улучшения диапазона содержит секцию 1121 декодирования спектра более высокого диапазона, секцию 1122 декодирования корректирующего масштабного коэффициента, умножитель 1123 и секцию 1124 связи.[0197] FIG. 19 is a block diagram illustrating a basic configuration of an interior of a range
[0198] Секция 1121 декодирования спектра более высокого диапазона декодирует оцененный спектр (точный спектр) диапазонов FL-FH, с использованием параметра кодирования информации оценки и первый спектр, включенных в кодированную информацию улучшения диапазона, введенных из секции 1011 управления. Полученный оцененный спектр подается на умножитель 1123.[0198] The higher range
[0199] Секция 1122 декодирования корректирующего масштабного коэффициента декодирует корректирующий масштабный коэффициент, используя параметр кодирования корректирующего масштабного коэффициента, включенный в кодированную информацию улучшения диапазона, введенную из секции 1011 управления. Более конкретно, секция 1122 декодирования корректирующего масштабного коэффициента обращается к внутренней кодовой книге корректирующего масштабного коэффициента (не показана) и выводит соответствующий корректирующий масштабный коэффициент на умножитель 1123.[0199] The correction scale
[0200] Умножитель 1123 умножает оцененный спектр, выведенный из секции 1121 декодирования спектра более высокого диапазона, на корректирующий масштабный коэффициент, выведенный из секции 1122 декодирования корректирующего масштабного коэффициента, и выводит результат умножения к секции 1124 связи.[0200] A
[0201] Секция 1124 связи связывает первый спектр и оцененный спектр, выведенный из умножителя 1123 в частотной области, чтобы сгенерировать широкополосный декодированный спектр диапазонов 0-FH сигналов, и выводит его к секции 1013 преобразования во временную область в качестве коэффициента MDCT улучшения первого уровня.[0201] The
[0202] Посредством секции 1012 декодирования улучшения диапазона, когда входной сигнал преобразовывается в коэффициент частотной области и масштабный коэффициент квантуется при кодировании частотной области верхнего уровня, выполняется квантование масштабного коэффициента, используя взвешенный масштаб искажения таким образом, что кандидат квантования, для которого масштабный коэффициент становится маленьким, становился предпочтительным для выбора. Таким образом, кандидат квантования, посредством которого масштабный коэффициент после квантования является меньшим, чем масштабный коэффициент перед квантованием, более вероятно будет выбран. Таким образом, ухудшение перцепционного субъективного качества может быть подавлено, даже когда количество битов, выделенных для квантования масштабного коэффициента, недостаточно.[0202] Through the range
[0203] Фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1015 декодирования второго уровня. Секция 1015 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой в секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0203] FIG. 20 is a block diagram illustrating a basic configuration of an interior of a second
[0204] Обработка отличается, в частности, между секцией 1151 вычисления суммарного коэффициента MDCT секции 1015 декодирования второго уровня и секцией 452 вычисления суммарного коэффициента MDCT секции 405 декодирования второго уровня, и различные ссылочные позиции указывают на это.[0204] The processing differs, in particular, between the second level decoding section MDCT
[0205] Секция 1151 вычисления суммарного коэффициента MDCT имеет коэффициент MDCT улучшения первого уровня в качестве входных данных из секции 1012 декодирования улучшения диапазона, и декодированный коэффициент MDCT второго уровня в качестве входных данных из секции 204 деквантования усиления. Секция 1151 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня и декодированный коэффициент MDCT второго уровня, и выводит суммированный коэффициент MDCT. Для диапазона с улучшенным диапазоном значение коэффициента MDCT улучшения первого уровня суммируется как нуль в секции 1151 вычисления суммарного коэффициента MDCT. То есть для диапазона с улучшенным диапазоном, значение коэффициента MDCT улучшения второго уровня принимается как значение суммарного коэффициента MDCT.[0205] The total MDCT
[0206] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование не-временного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, используя технологию улучшения диапазона. Следовательно, объем кодированной информации при речевом кодировании может быть уменьшен, и ошибка кодирования речевого/аудио сигнала и декодированного сигнала и ухудшение качества может быть также уменьшена.[0206] Thus, according to this embodiment, when a frequency component of a different range is made a quantization target in each frame, predictive encoding of a non-temporal parameter is performed adaptively in addition to applying scalable encoding using range enhancement technology. Therefore, the amount of encoded information in speech encoding can be reduced, and the encoding error of the speech / audio signal and the decoded signal and quality degradation can also be reduced.
[0207] Кроме того, так как остаток не вычисляется для компонента диапазона, улучшенного посредством способа кодирования с улучшением диапазона, энергия целевого компонента квантования не увеличивается в верхнем уровне, и эффективность квантования может быть улучшена.[0207] Furthermore, since the remainder is not calculated for the range component improved by the range enhancement coding method, the energy of the target quantization component does not increase in the upper level, and the quantization efficiency can be improved.
[0208] В этом варианте осуществления был описан посредством примера случай, в котором применяется способ, посредством которого кодированная информация улучшения диапазона вычисляется в устройстве кодирования, используя корреляцию между компонентом низкого диапазона, декодированным секцией декодирования первого уровня, и компонентом более высокого диапазона входного сигнала, но настоящее изобретение не ограничивается этим, и также может быть подобным же образом применено к конфигурации, которая использует способ, посредством которого кодированная информация улучшения диапазона не вычисляется, и псевдогенерирование более высокого диапазона выполняется посредством шумового компонента, как с помощью AMR-WB (Adaptive MultiRate - Wideband). Альтернативно, способ выбора диапазона согласно настоящему изобретению может быть подобным образом применен к способу кодирования с улучшением диапазона, описанный в этом примере, или масштабируемому способу кодирования/декодирования, который не использует способ генерирования компонента более высокого диапазона, также используемый в AMR-WB.[0208] In this embodiment, an example has been described of a case in which a method is used by which encoded range enhancement information is computed in an encoding device using the correlation between a low range component, a decoded first layer decoding section and a higher range component of an input signal, but the present invention is not limited to this, and can also be similarly applied to a configuration that uses the method by which encoded range improvement information is not calculated, and higher range pseudo-generation is performed by a noise component, as with AMR-WB (Adaptive MultiRate - Wideband). Alternatively, the range selection method of the present invention can be similarly applied to the range enhancement encoding method described in this example, or a scalable encoding / decoding method that does not use the higher range component generation method also used in AMR-WB.
[0209] Вариант осуществления 6 [0209] Option exercise 6
Фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1100 согласно Варианту осуществления 6 настоящего изобретения.21 is a block diagram illustrating a basic configuration of a
[0210] В этом чертеже устройство 1100 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1108 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления, 1 настоящего изобретения.[0210] In this drawing, the
[0211] За исключением секции 1108 кодирования второго уровня элементы конфигурации в устройстве 1100 кодирования речи, показанном на фиг.21, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0211] With the exception of the second
[0212] Фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1108 кодирования второго уровня. Секция 1108 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 1802 выбора диапазона, секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, секцию 1805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 1802 выбора диапазона и секции 1805 квантования усиления элементы конфигурации в секции 1108 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0212] FIG. 22 is a block diagram illustrating a basic configuration of an interior of a second
[0213] Секция 1802 выбора диапазона сначала делит коэффициент MDCT Xk на множество поддиапазонов. Здесь описание относится к случаю, в котором коэффициент MDCT Xk делится поровну на J поддиапазонов (где J - натуральное число), как пример. Затем секция 1802 выбора диапазона выбирает L поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов областей (где М является натуральным числом).[0213] The band selection section 1802 first divides the MDCT coefficient X k into a plurality of subbands. Here, the description refers to a case in which the MDCT coefficient X k is divided evenly into J subbands (where J is a positive integer), as an example. Then, the range selection section 1802 selects L subbands (where L is a natural number) from among J subbands, and obtains M kinds of regions (where M is a natural number).
[0214] Фиг.23 является чертежом, показывающим пример конфигурации областей, полученных секцией 1802 выбора диапазона.[0214] FIG. 23 is a drawing showing an example of a configuration of regions obtained by a range selection section 1802.
[0215] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей - восьми (M=8), и каждая область состоит из двух групп поддиапазонов (количество диапазонов, составляющих эти две группы поддиапазонов, равно трем и двум соответственно). Из этих двух групп поддиапазонов группа поддиапазонов, содержащая два диапазона, расположенных на стороне более высокого диапазона, является фиксированной по всем кадрам, индексы поддиапазона, например, равны 15 и 16. Например, область 4 состоит из поддиапазонов 6-8, 15 и 16.[0215] In this drawing, the number of subbands is 17 (J = 17), the number of kinds of regions is eight (M = 8), and each region consists of two groups of subbands (the number of ranges that make up these two groups of subbands is three and two, respectively ) Of these two groups of subbands, a group of subbands containing two ranges located on the higher side is fixed across all frames, subband indices, for example, are 15 and 16. For example, region 4 consists of subbands 6-8, 15 and 16.
[0216] Затем секция 1802 выбора диапазона вычисляет среднюю энергию E(m) каждого из М видов областей в соответствии с Уравнением (33) ниже.[0216] Then, the range selection section 1802 calculates the average energy E (m) of each of the M kinds of regions in accordance with Equation (33) below.
[0217] В этом уравнении j' указывает индекс каждого из J поддиапазонов, и m указывает индекс каждого из М видов областей. Region(m) означает коллекцию индексов L поддиапазонов, составляющих область m, и B(j') указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j'. W(j) указывает ширину полосы поддиапазона j', и в следующем описании случай, в котором значения ширины полосы каждого из J поддиапазонов равны, то есть случай, в котором W(j') является константой, описан в качестве примера.[0217] In this equation, j 'indicates the index of each of the J subbands, and m indicates the index of each of the M kinds of regions. Region (m) means a collection of indices L of the subbands making up the region m, and B (j ') indicates the minimum value among the indices of the set of MDCT coefficients making up the subband j'. W (j) indicates the bandwidth of the subband j ′, and in the following description, the case in which the bandwidths of each of the J subbands are equal, that is, the case in which W (j ′) is constant, is described as an example.
[0218] Затем, когда выбирается область, для которой средняя энергия E(m) является максимумом - например, область m_max, секция 1802 выбора диапазона выбирает диапазон, состоящий из j'∈Region(m_max) поддиапазонов в качестве целевого диапазона квантования, и выводит индекс m_max, указывающий эту область как информацию диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 1802 выбора диапазона также выводит разностный коэффициент MDCT Xk на секцию 103 квантования формы.[0218] Then, when a region is selected for which the average energy E (m) is a maximum — for example, a region m_max, the band selection section 1802 selects a band consisting of j'∈Region (m_max) subbands as a quantization target range and outputs an index m_max indicating this area as range information to the
[0219] Секция 1805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 1805 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение Ct j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 1805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (34) ниже является минимум.[0219] The
Уравнение 34
Equation 34
[0220] В этом уравнении GCi k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь значения усиления поддиапазонов выбранной области связаны так, чтобы индексы поддиапазонов были в порядке возрастания, последующие значения усиления обрабатывается как один L-мерный вектор кода усиления, и выполняется квантование вектора. Поэтому, чтобы дать описание, используя фиг.23, в случае области 4, значения усиления индексов 6, 7, 8, 15 и 16 поддиапазона связываются и обрабатываются как 5-мерный вектор кода усиления. Кроме того, Ct j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j' указывает значение усиления одного кадра назад во времени, и α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 1805 квантования усиления.[0220] In this equation, GC i k indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and k indicates the index of the gain code vector element. For example, if the number of subbands that make up the region is five (L = 5), k has a value from 0 to 4. Here, the gain values of the subbands of the selected region are connected so that the subband indices are in ascending order, the subsequent gain values are processed as one L- dimensional vector of the gain code, and vector quantization is performed. Therefore, to give a description using FIG. 23, in the case of region 4, the gain values of the
[0221] Секция 1805 квантования усиления выдает индекс G_min вектора кода усиления, для которого результатом Уравнения (34) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 1805 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (34) выше.[0221] The
[0222] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 1805 квантования усиления непосредственно квантует идеальное значения усиления Gain_i(j'), введенное из секции 103 квантования формы, в соответствии с Уравнением (35) ниже. Здесь секция 1805 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.[0222] On the other hand, if the determination result inputted from the predictive coding execution /
[0223] Здесь индекс кодовой книги, который делает результат Уравнения (35) выше минимума, обозначается G_min.[0223] Here, the codebook index that makes the result of Equation (35) above the minimum is denoted by G_min.
[0224] Секция 1805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 1805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (36) ниже с использованием кодированной информации усиления G_min и значения усиления квантования Ct j', полученного в текущем кадре. То есть в Уравнении (36) значение Cl j' обновляется индексом j элемента GCG-min j вектором кода усиления и j' удовлетворяет условию j'∈Region(m_max) соответственно, ассоциированном в порядке возрастания.[0224] The
[0225] Фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1200 декодирования речи согласно этому варианту осуществления.[0225] FIG. 24 is a block diagram illustrating a basic configuration of a
[0226] В этом чертеже устройство 1200 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1205 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.[0226] In this drawing, the
[0227] За исключением секции 1205 декодирования второго уровня элементы конфигурации в устройстве1200 декодирования речи, показанном на фиг.24, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0227] With the exception of the second
[0228] Фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1205 декодирования второго уровня. Секция 1205 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, секцию 2504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 2504 деквантования усиления, элементы конфигурации в секции 1205 декодирования второго уровня идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0228] FIG. 25 is a block diagram illustrating a basic configuration of an interior of a second
[0229] Секция 2504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования указывает, что прогнозирующее декодирование должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 2504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления (GCG-min k, где k указывает индекс элемента), что и секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (37) ниже. Здесь C''t j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j' указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 2504 деквантования усиления. Секция 2504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. То есть в Уравнении (37), значение Gain_q'(j') вычисляется с индексом k элемента GCG-min k вектора кода усиления и j' удовлетворяет условию j'Region(m_max) соответственно ассоциированном в порядке возрастания.[0229] The
[0230] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 2504 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (37) выше.[0230] If there is no subband gain value corresponding to the last frame in the internal buffer, the
[0231] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (38) ниже с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. То есть когда прогнозирующее декодирование не выполняется, секция 2504 деквантования усиления берет вектор GCk G_min кода усиления, соответствующий кодированной информации G_min усиления, непосредственно в качестве значения усиления. В Уравнении (38) k и j' соответственно ассоциируются в порядке возрастания таким же образом как в Уравнении (37).[0231] On the other hand, if the determination result inputted from the predictive decoding run /
[0232] Затем секция 2504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (39) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (40) ниже. В Уравнении (40) значение C''1 j обновляется с j деквантованного значения усиления Gain_q'(j), и j', удовлетворяющим условию j'Region(m_max) соответственно, ассоциированном в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q' (j')[0232] Then, the
[0233] Секция 2504 деквантования усиления выводит декодированный коэффициент MDCT X"k, вычисленный в соответствии с Уравнением (39) выше, к секции 452 вычисления суммарного коэффициента MDCT.[0233] The
[0234] Таким образом, согласно этому варианту осуществления, по сравнению с выбором одной области, составленной из смежных поддиапазонов из числа всех диапазонов, в качестве целевого диапазона квантования, множество диапазонов, для которых желательно улучшить качество аудио, устанавливается заранее по широкому диапазону, и непоследовательное множество диапазонов, охватывающих широкий диапазон, выбирается в качестве целевых диапазонов квантования. Следовательно, качество и низкого диапазона и высокого диапазона могут быть улучшены одновременно.[0234] Thus, according to this embodiment, compared with the selection of one region composed of adjacent subbands from among all ranges as the target quantization range, a plurality of ranges for which it is desirable to improve audio quality are set in advance over a wide range, and an inconsistent set of ranges covering a wide range is selected as the target quantization ranges. Therefore, the quality of both low range and high range can be improved simultaneously.
[0235] В этом варианте осуществления причиной для фиксации всегда поддиапазонов, включенных в целевой диапазон квантования, на стороне высокого диапазона, как показано на фиг.23, является то, что искажения кодирования является все еще большим для высокого диапазона в первом уровне масштабируемого кодека. Поэтому качество аудио улучшается также устойчиво посредством выбора высокого диапазона, который не был кодирован с очень высокой точностью первым уровнем в качестве цели квантования, в дополнение к выбору низкого или среднего диапазона, имеющего перцепционное значение для выбора в качестве цели квантования во втором уровне.[0235] In this embodiment, the reason for always locking the subbands included in the target quantization range on the high range side, as shown in FIG. 23, is that the encoding distortion is still large for the high range in the first layer of the scalable codec. Therefore, audio quality is also improved steadily by selecting a high range that has not been encoded with very high accuracy by the first level as a quantization target, in addition to selecting a low or medium range having a perceptual value for selecting as a quantization target in the second level.
[0236] В этом варианте осуществления был описан посредством примера случай, в котором диапазон, который становится целью квантования высокого диапазона, является фиксированным, посредством включения одинаковых поддиапазонов более высокого поддиапазона (более конкретно, поддиапазонов с индексами 15 и 16) по всем кадрам, но настоящее изобретение не ограничивается этим, и диапазон, который становится целью квантования высокого диапазона, также может быть выбран из множества целевых кандидатов диапазона квантования для поддиапазона высокого диапазона таким же образом, как для поддиапазона низкого диапазона. В таком случае выбор может быть выполнен после умножения на тем больший вес, чем выше область поддиапазона. Также возможно для диапазонов, которые становятся кандидатами на адаптивное изменение согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральных характеристик декодированного сигнала первого уровня, или спектральных характеристик дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобного. Например, возможный способ заключается в том, чтобы дать приоритеты в качестве кандидата целевого диапазона квантования, части, где распределение энергии спектра (разностный коэффициент MDCT) дифференциального сигнала для входного сигнала и первого декодированного сигнала уровня является высоким.[0236] In this embodiment, a case has been described by way of example where the range that becomes the target of quantizing a high range is fixed by including the same subbands of a higher subband (more specifically, subbands with
[0237] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов на стороне высокого диапазона, составляющая область, является фиксированной, и должно ли быть применено прогнозирующее кодирование к секции квантования усиления, определяется согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, но настоящее изобретение не ограничивается этим, и прогнозирующее кодирование может также всегда применяться к усилению группы поддиапазонов со стороны высокого диапазона, составляющих область, с определением того, должно ли прогнозирующее кодирование быть выполнено, будучи выполненным только для группы поддиапазонов со стороны низкого диапазона. В этом случае количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, учитывается только для группы поддиапазонов со стороны низкого диапазона. То есть в этом случае вектор квантования квантуется после деления на часть, для которой выполняется прогнозирующее кодирование, и часть, для которой не выполняется прогнозирующее кодирование. Таким образом, так как определение того, необходимо ли прогнозирующее кодирование для фиксированной группы поддиапазонов со стороны высокого диапазона, составляющих область, не выполняется, и прогнозирующее кодирование всегда выполняется, усиление может быть квантовано более эффективно.[0237] In this embodiment, a case has been described by way of example where the group of subbands on the high band side constituting the region is fixed and whether predictive coding should be applied to the gain quantization section is determined according to the number of subbands common to the quantization target range selected in the current frame and the target quantization range selected in the last frame, but the present invention is not limited thereto, and predictive coding may also be entirely Always apply to the amplification of a group of subbands from the high range side constituting the region, with the determination of whether predictive coding should be performed having been performed only for the group of subbands from the low range side. In this case, the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected in the last frame is taken into account only for the group of subbands on the low range side. That is, in this case, the quantization vector is quantized after dividing by the part for which predictive coding is performed, and the part for which predictive coding is not performed. Thus, since the determination of whether predictive coding is necessary for a fixed group of subbands on the high-band side constituting the region is not performed, and predictive coding is always performed, the gain can be quantized more efficiently.
[0238] В этом варианте осуществления был описан посредством примера случай, в котором переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени, также может использоваться. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.[0238] In this embodiment, a case has been described by way of example where switching is performed between applying and not applying predictive coding in a gain quantization section according to the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected one frame back in time, but the present invention is not limited to this, and many subbands common to the quantization target range selected in the current frame and the target range for quantization of the selected two or more frames back in time it may also be used. In this case, even if the number of subbands common for the quantization target range selected in the current frame and the quantization target range selected one frame back in time is less than or equal to a predetermined value, predictive coding can be applied in the gain quantization section according to the number subbands common to the quantization target range selected in the current frame and the quantization target range selected two or more frames backward in time.
[0239] В этом варианте осуществления был описан посредством примера случай, в котором область состоит из группы поддиапазонов со стороны низкого диапазона и группы поддиапазонов со стороны высокого диапазона, но настоящее изобретение не ограничивается этим, и, например, группа поддиапазонов также может быть установлена в среднем диапазоне, и область может быть составлена из трех или более групп поддиапазонов. Количество групп поддиапазонов, составляющих область, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральным характеристикам декодированного сигнала первого уровня, или спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобное.[0239] In this embodiment, a case has been described by way of example in which the region consists of a group of subbands on the low side and a group of subbands on the high side, but the present invention is not limited thereto, and for example, the group of subbands can also be set to mid range, and the region may be composed of three or more groups of subbands. The number of groups of subbands constituting the region can also be adapted adaptively according to the sampling frequency of the input signal, the coding rate in bits, and the spectral characteristics of the decoded signal of the first level, or the spectral characteristics of the differential signal for the input signal and the decoded signal of the first level, or the like.
[0240] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов со стороны высокого диапазона, составляющая область, фиксируется по всем кадрам, но настоящее изобретение не ограничивается этим, и группа поддиапазонов со стороны низкого диапазона, составляющая область, также может быть фиксирована по всем кадрам. Кроме того, и группы поддиапазонов со стороны высокого диапазона и со стороны низкого диапазона, составляющие область, могут также быть фиксированы по всем кадрам, или группа поддиапазонов группа поддиапазонов и со стороны высокого диапазона и со стороны низкого диапазона, могут быть найдены и выбраны на покадровой основе. Кроме того, различные вышеописанные способы могут быть применены к трем или более группам поддиапазонов среди групп поддиапазонов, составляющих область.[0240] In this embodiment, a case has been described by way of example in which a group of subbands on the high range side constituting a region is captured in all frames, but the present invention is not limited thereto, and a group of subbands on the low side constituting the region may also be fixed across all frames. In addition, both the subband groups from the high band and the low band side constituting the region can also be fixed across all frames, or the subband group the group of subbands from both the high band and the low band side can be found and selected on the frame-by-frame basis. In addition, the various methods described above can be applied to three or more subband groups among the subband groups constituting the region.
[0241] В этом варианте осуществления был описан посредством примера случай, в котором из поддиапазонов, составляющих область, количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, меньше, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона (количество поддиапазонов группы поддиапазонов со стороны высокого диапазона равно двум, и поддиапазонов группы поддиапазонов со стороны низкого диапазона равно трем), но настоящее изобретение не ограничивается этим, и количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, также может быть равным или большим, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона. Количество поддиапазонов, составляющих каждую группу поддиапазонов, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, спектральным характеристикам декодированного сигнала первого уровня, спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобных.[0241] In this embodiment, a case has been described by way of example in which of the subbands making up the region, the number of subbands making up the group of subbands on the high band side is less than the number of subbands making up the group of subbands on the low band side (the number of subbands of the group of subbands on the high side is two, and the subbands of the group of subbands on the low side is three), but the present invention is not limited thereto, and count honors subbands constituting the group of subbands from the high range may also be equal to or greater than the number of subbands composing a group of subbands from the low range. The number of subbands making up each group of subbands can also be adapted adaptively according to the sampling frequency of the input signal, the coding rate in bits, the spectral characteristics of the decoded signal of the first level, the spectral characteristics of the differential signal for the input signal and the decoded signal of the first level, or the like.
[0242] В этом варианте осуществления был описан посредством примера случай, в котором кодирование с использованием способа кодирования CELP выполняется секцией 302 кодирования первого уровня, но настоящее изобретение не ограничивается этим, и кодирование с использованием способа кодирования, отличного от CELP (такое как кодирование преобразования, например) также может быть выполнено.[0242] In this embodiment, a case has been described by way of example in which encoding using the CELP encoding method is performed by the first
[0243] Вариант осуществления 7 [0243] Embodiment 7
Фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1300 кодирования речи согласно Варианту осуществления 7 настоящего изобретения.26 is a block diagram illustrating a basic configuration of a
[0244] В этом чертеже устройство 1300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1308 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.[0244] In this drawing, the
[0245] За исключением секции 1308 кодирования второго уровня, элементы конфигурации в устройстве 1300 кодирования речи, показанном на фиг.26, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0245] With the exception of the second
[0246] Фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1308 кодирования второго уровня. Секция 1308 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 102 выбора диапазона, секцию 103 квантования формы, секцию 3804 определения выполнения/не выполнения прогнозирующего кодирования, секцию 3805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 3804 определения выполнения/не выполнения прогнозирующего кодирования и секции 3805 квантования усиления, элементы конфигурации в секции 1308 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0246] FIG. 27 is a block diagram illustrating a basic configuration of an interior of a second
[0247] Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию m_max диапазона, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование должно быть применено, и устанавливает Pred_Flag(j)=ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование не должно быть применено, и устанавливает Pred_Flag(j) =OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь, Pred_Flag - флаг, указывающий результат определения выполнения/не выполнения прогнозирующего кодирования для каждого поддиапазона, со значением ON, означающем, что прогнозирующее кодирование должно быть применено к значению усиления поддиапазона, и значением OFF, означающим, что прогнозирующее кодирование не должно быть применено к значению усиления поддиапазона. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования выводит результат определения для каждого поддиапазона на секцию 3805 квантования. Затем секция 3804 определения выполнения/не выполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.[0247] The prediction encoding execution /
[0248] Секция 3805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 3805 квантования усиления переключает между выполнением/не выполнением применения прогнозирующего кодирования при квантовании значения усиления текущего кадра согласно результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования. Например, если прогнозирующее кодирование должно быть выполнено, секция 3805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, выполняет вычисление расстояния, соответствующее результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования, и находит индекс вектора кода усиления, для которого результатом Уравнения (41) ниже является минимум. В Уравнении (41) вычисление одного или другого расстояния выполняется в соответствии с Pred_Flag(j) для всех j', удовлетворяющих j∈Region(m_max), и находится индекс вектора усиления, для которого общая стоимость ошибки является минимальной.[0248] The
Уравнение 41
Equation 41
[0249] В этом уравнении GCi k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 3805 квантования усиления. Секция 3805 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.[0249] In this equation, GC i k indicates the gain code vector constituting the gain codebook, i indicates the index of the gain code vector, and k indicates the index of the gain code vector element. For example, if the number of subbands making up the region is five (L = 5), k has a value from 0 to 4. Here, C t j indicates the gain value of t frames backward in time, so that when t = 1, for example, C t j indicates the gain value of one frame back in time. In addition, α is a fourth-order linear prediction coefficient stored in
[0250] Секция 3805 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (41) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления.[0250] The
[0251] Секция 3805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 3805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (42) ниже с использованием кодированной информации усиления, G_min, и значения Ct j квантования усиления, полученного в текущем кадре. В Уравнении (42) значение C1 j' обновляется индексом j элемента GCG-min j вектора кода усиления и j' удовлетворяет условию j'∈ Region(m_max), соответственно ассоциированному в порядке возрастания.[0251] The
[0252] Фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1400 декодирования речи согласно этому варианту осуществления.[0252] FIG. 28 is a block diagram illustrating a basic configuration of a
[0253] В этом чертеже устройство 1400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1405 декодирования второго уровня, секцией 406 преобразования во временную область, и коммутатором 407.[0253] In this drawing, the
[0254] За исключением секции 1405 декодирования второго уровня, элементы конфигурации в устройстве 1400 декодирования речи, показанном на фиг.28, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0254] With the exception of the second
[0255] Фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1405 декодирования второго уровня. Секция 1405 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 4503 определения выполнения/не выполнения прогнозирующего декодирования, секцию 4504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 4503 определения выполнения/не выполнения прогнозирующего декодирования и секции 4504 деквантования усиления, элементы конфигурации в секции 1405 декодирования второго уровня, показанной на фиг.29, идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.[0255] FIG. 29 is a block diagram illustrating a basic configuration of an interior of a second
[0256] Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре. Здесь посредством примера описан случай, в котором секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование должно быть применено, и устанавливает Pred_Flag(j) =ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование не должно быть применено, и устанавливает Pred_Flag(j)=OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь Pred_Flag - флаг, указывающий результат определения применения/не применения прогнозирующего декодирования для каждого поддиапазона, с значением ON, указывающим, что прогнозирующее декодирование должно быть применено к значению усиления поддиапазона, и значением OFF, указывающим, что прогнозирующее декодирование не должно быть применено к значению усиления поддиапазона. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования выводит результат определения для каждого поддиапазона на секцию 4504 деквантования. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре.[0256] Predictive decoding run /
[0257] Секция 4504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре, и переключается между выполнением/не выполнением применения прогнозирующего декодирования при декодировании значения усиления текущего кадра согласно результату определения, введенному из секции 4503 определения выполнения/не выполнения прогнозирующего декодирования. Секция 4504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как в секции 105 квантования усиления устройства 100 кодирования речи, и при выполнении прогнозирующего декодирования, например, получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (43) ниже. Здесь C”t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C”t j указывает значение усиления одного кадра ранее. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 4504 деквантования усиления. Секция 4504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. В Уравнении (43) значение Gain_q'(j') вычисляется с индексом k элемента GCG_min k вектора кода усиления и j', удовлетворяющим условию j'Region(m_max) соответственно ассоциированном в порядке возрастания.[0257] The
Уравнение 43
Equation 43
[0258] Затем секция 4504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (44) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (45) ниже. В Уравнении (45) значение C''1 j, обновляется посредством j деквантованного значения усиления Gain_q'(j) и j', удовлетворяющего j'∈Region(m_max), соответственно ассоциированного в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Кроме того, в деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q'(j').[0258] Then, the
Уравнение 44
Equation 44
[0259] Секция 4504 деквантования усиления выводит декодированный коэффициент MDCT X''k, вычисленный в соответствии с Уравнением (44) выше, на секцию 452 вычисления суммарного коэффициента MDCT.[0259] The
[0260] Таким образом, согласно этому варианту осуществления, во время квантования усиления целевого диапазона квантования, выбранного в каждом кадре, обнаруживается, был ли каждый поддиапазон, включенный в целевой диапазон квантования, квантован в прошлом кадре. Затем выполняется квантование вектора с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Посредством этого кодирование параметра частотной области может быть выполнено более эффективно, чем со способом, посредством которого переключение применения/не применения прогнозирующего кодирования выполняется для всего вектора.[0260] Thus, according to this embodiment, during the quantization of the gain of the quantization target range selected in each frame, it is detected whether each subband included in the quantization target range was quantized in the last frame. Then, vector quantization is performed with predictive coding applied to the subband quantized in the past frame and with predictive coding not applicable to the subband not quantized in the past frame. By this, the encoding of the frequency domain parameter can be performed more efficiently than with the method by which the switching of application / not application of predictive coding is performed for the entire vector.
[0261] В этом варианте осуществления был описан способ, посредством которого переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и могут также использоваться многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.[0261] In this embodiment, a method has been described by which switching between applying and not applying predictive coding in a gain quantization section according to the number of subbands common to the quantization target range selected in the current frame and the quantization target range selected one frame back in time, but the present invention is not limited thereto, and many subbands common to the quantization target range selected in the current frame may also be used. , and a quantization target range selected two or more frames backward in time. In this case, even if the number of subbands common for the quantization target range selected in the current frame and the quantization target range selected one frame back in time is less than or equal to a predetermined value, predictive coding can be applied in the gain quantization section according to the number subbands common to the quantization target range selected in the current frame and the quantization target range selected two or more frames backward in time.
[0262] Также возможно способ квантования, описанный в этом варианте осуществления, объединить с способом выбора целевого диапазона квантования, описанным в Варианте осуществления 6. Ниже описан случай, в котором, например, область, которая является целевым диапазоном квантования, состоит из группы поддиапазонов со стороны низкого диапазона, и группы поддиапазонов со стороны высокого диапазона, причем группа поддиапазонов со стороны низкого диапазона фиксирована по всем кадрам, и квантуется вектор, в котором группа поддиапазонов со стороны низкого диапазона и группа поддиапазонов со стороны высокого диапазона делаются последовательными. В этом случае в векторе усиления целевого диапазона квантования квантование вектора выполняется с прогнозирующим кодированием, всегда применяемым для элемента, указывающего усиление группы поддиапазонов со стороны высокого диапазона, и прогнозирующее кодирование не применяется для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона. Посредством этого квантование вектора усиления может быть выполнено более эффективно чем тогда, когда выполняется переключение применения/неприменения прогнозирующего кодирования для всего вектора. В это время, в группе поддиапазонов со стороны низкого диапазона также эффективен способ, посредством которого квантование вектора выполняется с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Кроме того, для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона, квантование выполняется посредством переключения между применением и не применением прогнозирующего кодирования, используя поддиапазоны, составляющие целевой диапазон квантования, выбранный в прошлом кадре во времени, как описано в Варианте осуществления 1. Посредством этого, квантование вектора усиления может быть выполнено более эффективно. Также возможно применить настоящее изобретение к конфигурации, которая объединяет вышеописанные конфигурации.[0262] It is also possible to combine the quantization method described in this embodiment with the quantization target range selection method described in Embodiment 6. A case is described below where, for example, a region that is a quantization target range consists of a group of subbands with side of the low range, and a group of subbands on the high side, and the group of subbands on the low side is fixed for all frames, and a vector is quantized in which the group of subbands on the side the low range and the group of subbands on the high range side are made sequential. In this case, in the gain vector of the quantization target range, vector quantization is performed with predictive coding always applied to an element indicating the gain of the subband group from the high range side, and predictive coding is not applied to the element indicating the gain of the subband group from the low range side. By this, quantization of the gain vector can be performed more efficiently than when predictive coding application / non-switching is performed for the entire vector. At this time, in the group of subbands on the low side, a method is also efficient whereby vector quantization is performed with predictive coding applied to a subband quantized in a past frame and with predictive coding not applicable to a subband not quantized in a past frame. In addition, for an element indicating the amplification of the group of subbands from the low range side, quantization is performed by switching between applying and not applying predictive coding using subbands constituting the quantization target range selected in the last frame in time, as described in Embodiment 1. By of this, quantization of the gain vector can be performed more efficiently. It is also possible to apply the present invention to a configuration that combines the above configurations.
[0263] Нижеследующее завершает описание вариантов осуществления настоящего изобретения.[0263] The following concludes the description of embodiments of the present invention.
[0264] В вышеупомянутых вариантах осуществления были описаны посредством примера случаи, в которых способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран, после которого целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобному. Например, один способ должен предварительно выбрать низкий диапазон, когда частота дискретизации является низкой.[0264] In the above embodiments, examples have been described by way of example in which the method of selecting the target quantization range should select the region with the highest energy in all ranges, but the present invention is not limited thereto, and a certain range can also be preselected, after which the target the quantization range is finally selected in a pre-selected range. In such a case, the preselected range may be determined according to the sampling frequency of the input signal, bit rate coding, or the like. For example, one way is to preselect a low range when the sampling rate is low.
[0265] В вышеупомянутых вариантах осуществления используется MDCT в качестве способа кодирования преобразования, и поэтому "коэффициент MDCT", используемый в вышеупомянутых вариантах осуществления, по существу, означают "спектр". Поэтому выражение "коэффициент MDCT" может быть заменено на "спектр".[0265] In the above embodiments, the MDCT is used as a transform coding method, and therefore, the “MDCT coefficient” used in the above embodiments essentially means “spectrum”. Therefore, the expression "MDCT coefficient" can be replaced by "spectrum".
[0266] В вышеупомянутых вариантах осуществления показаны примеры, в которых устройства 200, 200a, 400, 600, 800, 1010, 1200 и 1400 декодирования речи принимают в качестве ввода и обрабатывает кодированные данные, переданные от устройств 100, 100а, 300, 500, 700, 1000, 1100 и 1300 кодирования речи соответственно, но кодированные данные, выведенные устройством кодирования отличной конфигурации, способным генерировать кодированные данные, имеющие аналогичную конфигурацию, также могут быть введены и обработаны.[0266] In the above embodiments, examples are shown in which
[0267] Устройство кодирования, устройство декодирования и их способы согласно настоящему изобретению не ограничиваются вышеописанными вариантами осуществления, и различные изменения и модификации могут быть возможны, не отступая от объема настоящего изобретения. Например, возможно объединить варианты осуществления, которые должны быть реализованы, соответственно.[0267] An encoding device, a decoding device, and methods thereof according to the present invention are not limited to the above-described embodiments, and various changes and modifications may be possible without departing from the scope of the present invention. For example, it is possible to combine embodiments that are to be implemented, respectively.
[0268] Возможно установить устройство кодирования и устройство декодирования согласно настоящему изобретению в устройстве терминала связи и устройстве базовой станции в мобильной системе связи, таким образом обеспечивая устройство терминала связи, устройство базовой станции, и мобильную систему связи, которые обеспечивают тот же вид операционных эффектов, как описано выше.[0268] It is possible to install an encoding device and a decoding device according to the present invention in a communication terminal device and a base station device in a mobile communication system, thereby providing a communication terminal device, a base station device, and a mobile communication system that provide the same kind of operational effects, as described above.
[0269] Случай был здесь описан посредством примера, в котором настоящее изобретение конфигурируется как аппаратное обеспечение, но настоящее изобретение также возможно реализовать в виде программного обеспечения. Например, тот же самый вид функций, что в устройстве кодирования и устройстве декодирования согласно настоящему изобретению, может быть реализован посредством записи алгоритма способа кодирования и способа декодирования согласно настоящему изобретению на языке программирования, сохранения этой программы в памяти, и выполнения его средством обработки информации.[0269] A case has been described here by way of an example in which the present invention is configured as hardware, but the present invention is also possible to implement as software. For example, the same kind of functions that the encoding device and the decoding device according to the present invention can be implemented by recording the algorithm of the encoding method and the decoding method according to the present invention in a programming language, storing this program in memory, and executing it by the information processing means.
[0270] Функциональные блоки, используемые в описаниях вышеупомянутых вариантов осуществления, обычно реализуются как БИС, которые являются интегральными схемами. Они могут быть реализованы отдельно как отдельные микросхемы, или отдельная микросхема может включать в себя некоторые или все из них.[0270] Functional blocks used in the descriptions of the above embodiments are typically implemented as LSIs, which are integrated circuits. They can be implemented separately as separate microcircuits, or a single microcircuit may include some or all of them.
[0271] Здесь термин БИС использован, но термины ИС, системная БИС, сверх-БИС, ультра-БИС, и т.д. также может использоваться согласно различиям в степени интеграции.[0271] Here, the term LSI is used, but the terms IP, system LSI, super-LSI, ultra-LSI, etc. can also be used according to differences in the degree of integration.
[0272] Способ осуществления интегральной схемотехники не ограничивается БИС и реализация посредством специализированной схемы или универсального процессора может также использоваться. FPGA (программируемая пользователем вентильная матрица), для которой возможно программирование после изготовления БИС, или реконфигурируемый процессор, допускающий реконфигурацию соединений ячеек схемы и параметров в пределах БИС, могут также использоваться.[0272] A method for implementing integrated circuitry is not limited to LSIs, and implementation by means of a specialized circuit or universal processor may also be used. An FPGA (User Programmable Gate Array), for which programming is possible after LSI fabrication, or a reconfigurable processor that allows reconfiguration of circuit cell connections and parameters within the LSI, can also be used.
[0273] В случае введения технологии реализации интегральных схем, посредством которой БИС заменяется отличной более современной технологией или полученной из полупроводниковой технологии, интеграция функциональных блоков конечно может быть выполнена, используя эту технологию. Применение биотехнологии или подобного также является возможным.[0273] In the case of the introduction of integrated circuit technology, whereby the LSI is replaced by an excellent more modern technology or derived from semiconductor technology, the integration of function blocks can of course be performed using this technology. The use of biotechnology or the like is also possible.
[0274] Раскрытия заявки на патент Японии №2006-336270, поданной 13 декабря 2006, заявки на патент Японии №2007-053499, поданной 2 марта 2007, заявки на патент Японии №2007-132078, поданной 17 мая 2007, и заявки на патент Японии №2007-185078, поданной 13 июля 2007, включая описание, чертежи и рефераты, включаются здесь по ссылке в их полноте.[0274] Disclosure of Japanese Patent Application No. 2006-336270, filed December 13, 2006, Japanese Patent Application No. 2007-053499, filed March 2, 2007, Japanese Patent Application No. 2007-132078, filed May 17, 2007, and patent application Japan No. 2007-185078, filed July 13, 2007, including a description, drawings and abstracts, are incorporated herein by reference in their entirety.
Промышленная применимостьIndustrial applicability
[0275] Устройство кодирования и т.д. согласно настоящему изобретению является подходящим для использования в аппаратуре терминала связи, устройстве базовой станции, или подобном, в мобильной системе связи.[0275] Encoding device, etc. according to the present invention is suitable for use in communication terminal equipment, a base station device, or the like, in a mobile communication system.
Claims (20)
секцию преобразования, которая преобразовывает входной речевой/аудиосигнал в частотную область, чтобы получить параметр частотной области;
секцию выбора, которая выбирает в качестве целевого диапазона квантования по меньшей мере один поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования;
секцию квантования формы, которая квантует форму параметра частотной области в целевом диапазоне квантования;
секцию квантования коэффициента усиления, которая кодирует коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления; и
секцию определения, которая определяет, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом;
при этом секция квантования коэффициента усиления получает кодированную информацию коэффициента усиления посредством выполнения прогнозирующего кодирования в отношении коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя прошлую кодированную информацию коэффициента усиления, когда секция определения определяет, что прогнозирующее кодирование должно быть выполнено, и получает кодированную информацию коэффициента усиления посредством прямого квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее кодирование не должно быть выполнено.1. An encoding device comprising:
a conversion section that converts the input speech / audio signal to the frequency domain to obtain a frequency domain parameter;
a selection section that selects at least one subband from the plurality of subbands as the quantization target range, the plurality of subbands obtained by dividing the frequency domain parameter, and generates range information indicating the quantization target range;
a shape quantization section that quantizes a shape of a frequency domain parameter in a target quantization range;
a gain quantization section that encodes a gain of a frequency domain parameter in a target quantization range to obtain encoded gain information; and
a determination section that determines whether predictive coding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past;
wherein the gain quantization section obtains encoded gain information by performing predictive coding with respect to the gain of the frequency domain parameter in the quantization target range using past encoded gain information when the determination section determines that predictive encoding should be performed and obtains encoded information gain by directly quantizing the gain of the parameter h the frequency domain in the target quantization range when the determination section determines that predictive coding should not be performed.
причем секция квантования коэффициента усиления также использует значение интерполяции при выполнении прогнозирующего кодирования.11. The encoding device according to claim 1, further comprising an interpolation section that interpolates the gain of the frequency domain parameter in a subband not quantized in the past among the subbands indicated by the range information using the encoded past gain information to obtain an interpolation value,
wherein the gain quantization section also uses the interpolation value when performing predictive coding.
причем секция квантования коэффициента усиления использует коэффициент предсказания при выполнении прогнозирующего кодирования.12. The encoding device according to claim 1, further comprising a determination section that determines the prediction coefficient in such a way that the weight of the gain value of the past frame is greater, the larger the subband common to the quantization target range of the past frame and the quantization target range of the current frame,
wherein the gain quantization section uses a prediction coefficient when performing predictive coding.
секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, обозначающий по меньшей мере один выбранный поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области входного речевого/аудиосигнала;
секцию деквантования формы, которая декодирует кодированную информацию формы, в которой форма параметра частотной области в целевом диапазоне квантования квантована, чтобы сгенерировать декодированную форму;
секцию деквантования коэффициента усиления, которая декодирует кодированную информацию коэффициента усиления, в которой коэффициент усиления параметра частотной области в целевом диапазоне квантования квантован, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области;
секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область и получает декодированный сигнал временной области; и
секцию определения, которая определяет, должно ли быть выполнено прогнозирующее декодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом;
при этом секция деквантования коэффициента усиления выполняет прогнозирующее декодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя коэффициент усиления, полученный в прошлом декодировании коэффициента усиления, когда секция определения определяет, что прогнозирующее декодирование должно быть выполнено, и выполняет прямое деквантование кодированной информации коэффициента усиления, в котором коэффициент усиления параметра частотной области квантуется в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее декодирование не должно быть выполнено.17. A decoding device comprising:
a receiving section that receives information indicating a quantization target range indicating at least one selected subband from a plurality of subbands, the plurality of subbands obtained by dividing a frequency domain parameter of an input speech / audio signal;
a shape dequantization section that decodes encoded shape information in which a frequency domain parameter shape in a target quantization range is quantized to generate a decoded shape;
a gain dequantization section that decodes encoded gain information in which a gain of a frequency domain parameter in a target quantization range is quantized to generate a decoded gain, and decodes a frequency parameter using a decoded shape and a decoded gain to generate a decoded frequency domain parameter ;
a time-domain conversion section that converts a decoded frequency-domain parameter into a time-domain and receives a time-domain decoded signal; and
a determination section that determines whether predictive decoding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past;
wherein the gain dequantization section performs predictive decoding of the gain of the frequency domain parameter in the target quantization range using the gain obtained in the past decoding of the gain when the determination section determines that predictive decoding should be performed and directly dequantizes the encoded gain information in which the gain of the frequency domain parameter is quantized in the target range of the quant When the determination section determines that predictive decoding should not be performed.
преобразуют входной речевой/аудиосигнал в частотную область, чтобы получить параметр частотной области;
выбирают в качестве целевого диапазона квантования по меньшей мере один поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области, и генерируют информацию диапазона, указывающую целевой диапазон квантования;
квантуют форму параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию формы; и
кодируют коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления;
определяют, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом; и
получают кодированную информацию коэффициента усиления посредством выполнения прогнозирующего кодирования в отношении коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя прошлую кодированную информацию коэффициента усиления, когда секция определения определяет, что прогнозирующее кодирование должно быть выполнено, и получают кодированную информацию коэффициента усиления посредством прямого квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее кодирование не должно быть выполнено.19. An encoding method comprising the steps of:
converting the input speech / audio signal to the frequency domain to obtain a frequency domain parameter;
selecting at least one subband of the plurality of subbands as the quantization target range, the plurality of subbands being obtained by dividing a frequency domain parameter, and generating band information indicating the quantization target range;
quantizing the shape of the frequency domain parameter in the target quantization range to obtain encoded shape information; and
encoding a gain of a frequency domain parameter in a quantization target range to obtain encoded gain information;
determining whether predictive coding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past; and
gain encoded gain information is obtained by performing predictive encoding with respect to the gain of the frequency domain parameter in the target quantization range using past encoded gain information when the determination section determines that predictive encoding should be performed, and encoded gain information by directly quantizing the gain gain parameter of the frequency domain in the target quantization range, hen determining section determines that predictive encoding is not to be performed.
принимают информацию, указывающую целевой диапазон квантования, обозначающий по меньшей мере один выбранный поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области входного речевого/аудиосигнала;
декодируют кодированную информацию формы, при этом форма параметра частотной области в целевом диапазоне квантования квантуется, чтобы сгенерировать декодированную форму;
декодируют кодированную информацию коэффициента усиления, при этом коэффициент усиления параметра частотной области в целевом диапазоне квантования квантуется, чтобы сгенерировать декодированный коэффициент усиления, и декодируют параметр частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области;
преобразуют декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области;
определяют, должно ли быть выполнено прогнозирующее декодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом; и
выполняют прогнозирующее декодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя коэффициент усиления, полученный в прошлом декодировании коэффициента усиления, когда секция определения определяет, что прогнозирующее декодирование должно быть выполнено, и выполняют прямое деквантование кодированной информации коэффициента усиления, в котором коэффициент усиления параметра частотной области квантуется в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее декодирование не должно быть выполнено. 20. A decoding method comprising the steps of:
receiving information indicative of a quantization target range indicating at least one selected subband from a plurality of subbands, the plurality of subbands obtained by dividing a frequency domain parameter of an input speech / audio signal;
decode encoded shape information, wherein the frequency domain parameter shape in the target quantization range is quantized to generate a decoded shape;
decode the encoded gain information, wherein the gain of the frequency domain parameter in the target quantization range is quantized to generate a decoded gain, and the frequency domain parameter is decoded using the decoded shape and the decoded gain to generate the decoded frequency domain parameter;
converting the decoded parameter of the frequency domain into the time domain to obtain a decoded signal of the time domain;
determining whether predictive decoding should be performed based on the number of first subbands of the quantization target range that are common to the second subbands of the quantization target range selected in the past; and
performing predictive decoding of the gain of the frequency domain parameter in the target quantization range using the gain obtained in the past decoding of the gain when the determination section determines that predictive decoding should be performed, and directly quantizing the encoded gain information in which the gain of the parameter the frequency domain is quantized in the target quantization range when the determination section determines that predictive decoding should not be performed.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006-336270 | 2006-12-13 | ||
JP2006336270 | 2006-12-13 | ||
JP2007053499 | 2007-03-02 | ||
JP2007-053499 | 2007-03-02 | ||
JP2007-132078 | 2007-05-17 | ||
JP2007-185078 | 2007-07-13 | ||
JP2007185078 | 2007-07-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009122508A RU2009122508A (en) | 2010-12-20 |
RU2464650C2 true RU2464650C2 (en) | 2012-10-20 |
Family
ID=44056311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009122508/08A RU2464650C2 (en) | 2006-12-13 | 2007-12-12 | Apparatus and method for encoding, apparatus and method for decoding |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2464650C2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818420B2 (en) | 2013-11-13 | 2017-11-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2141166C1 (en) * | 1989-04-17 | 1999-11-10 | Фраунхофер Гезельшафт цур Фердерунг дер ангевандтен Форшунг е.В. | Digital coding method for transmission and/or storage of acoustic signals |
EP1139336A2 (en) * | 2000-03-30 | 2001-10-04 | Matsushita Electric Industrial Co., Ltd. | Determination of quantizaion coefficients for a subband audio encoder |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
EP1262956A2 (en) * | 1995-10-26 | 2002-12-04 | Sony Corporation | Signal encoding method and apparatus |
DE19811039B4 (en) * | 1997-03-14 | 2005-07-21 | Nokia Mobile Phones Ltd. | Methods and apparatus for encoding and decoding audio signals |
JP2005202262A (en) * | 2004-01-19 | 2005-07-28 | Matsushita Electric Ind Co Ltd | Audio signal encoding method, audio signal decoding method, transmitter, receiver, and wireless microphone system |
-
2007
- 2007-12-12 RU RU2009122508/08A patent/RU2464650C2/en not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2141166C1 (en) * | 1989-04-17 | 1999-11-10 | Фраунхофер Гезельшафт цур Фердерунг дер ангевандтен Форшунг е.В. | Digital coding method for transmission and/or storage of acoustic signals |
EP1262956A2 (en) * | 1995-10-26 | 2002-12-04 | Sony Corporation | Signal encoding method and apparatus |
EP0770985B1 (en) * | 1995-10-26 | 2004-03-03 | Sony Corporation | Signal encoding method and apparatus |
DE19811039B4 (en) * | 1997-03-14 | 2005-07-21 | Nokia Mobile Phones Ltd. | Methods and apparatus for encoding and decoding audio signals |
EP1139336A2 (en) * | 2000-03-30 | 2001-10-04 | Matsushita Electric Industrial Co., Ltd. | Determination of quantizaion coefficients for a subband audio encoder |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
JP2005202262A (en) * | 2004-01-19 | 2005-07-28 | Matsushita Electric Ind Co Ltd | Audio signal encoding method, audio signal decoding method, transmitter, receiver, and wireless microphone system |
Non-Patent Citations (1)
Title |
---|
SALAVEDRA J., MASGRAU E. APVQ encoder applied to wideband speech coding // Fourth International Conference on Spoken Language, Proceedings, 03.10.1996-06.10.1996, vol.2, c.c.941-944. * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818420B2 (en) | 2013-11-13 | 2017-11-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
RU2643646C2 (en) * | 2013-11-13 | 2018-02-02 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Coder for audio signal coding, audio transmission system and method of determining correction values |
US10229693B2 (en) | 2013-11-13 | 2019-03-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
US10354666B2 (en) | 2013-11-13 | 2019-07-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
US10720172B2 (en) | 2013-11-13 | 2020-07-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
Also Published As
Publication number | Publication date |
---|---|
RU2009122508A (en) | 2010-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101412255B1 (en) | Encoding device, decoding device, and method therof | |
RU2471252C2 (en) | Coding device and coding method | |
JP4954080B2 (en) | Transform coding apparatus and transform coding method | |
EP1755109B1 (en) | Scalable encoding and decoding apparatuses and methods | |
JP4394578B2 (en) | Robust prediction vector quantization method and apparatus for linear prediction parameters in variable bit rate speech coding | |
CN101023471B (en) | Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus | |
US20100280833A1 (en) | Encoding device, decoding device, and method thereof | |
RU2469421C2 (en) | Vector quantiser, inverse vector quantiser and methods | |
KR20130088756A (en) | Decoding device, encoding device, and methods for same | |
JP5544370B2 (en) | Encoding device, decoding device and methods thereof | |
US20010007973A1 (en) | Voice encoding device | |
RU2464650C2 (en) | Apparatus and method for encoding, apparatus and method for decoding | |
JP3153075B2 (en) | Audio coding device | |
KR101512320B1 (en) | Method and apparatus for quantization and de-quantization | |
KR100463577B1 (en) | LSF quantization apparatus for voice decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150206 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20181213 |