RU2802659C1 - Selective bass post-filter - Google Patents

Selective bass post-filter Download PDF

Info

Publication number
RU2802659C1
RU2802659C1 RU2023105288A RU2023105288A RU2802659C1 RU 2802659 C1 RU2802659 C1 RU 2802659C1 RU 2023105288 A RU2023105288 A RU 2023105288A RU 2023105288 A RU2023105288 A RU 2023105288A RU 2802659 C1 RU2802659 C1 RU 2802659C1
Authority
RU
Russia
Prior art keywords
post
signal
decoding
filter
filtering
Prior art date
Application number
RU2023105288A
Other languages
Russian (ru)
Inventor
Барбара РЕШ
Кристофер ЧЁРЛИНГ
Ларс ВИЛЛЕМОЕС
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Application granted granted Critical
Publication of RU2802659C1 publication Critical patent/RU2802659C1/en

Links

Abstract

FIELD: computer technology for decoding video data.
SUBSTANCE: decoding of the bitstream signal as a preliminary temporal audio signal in one of the plurality of decoding modes, the said plurality of decoding modes including at least one first decoding mode including the post-filtering stage, and at least one second decoding mode not including the post-filtering stage. The post-filtering stage applies a tone boost filter to the preliminary temporal audio signal, thereby obtaining a temporal audio signal, wherein the tone boost filter is controlled by the post-filter gain, wherein in the said at least one first decoding mode the post-filtering step is selectively turned off in response only to the post-filtering information encoded in the bitstream signal by setting the post-filter gain to zero. The post-filtering information indicates the decision on the encoder side as to whether to disable post-filtering.
EFFECT: increased accuracy of reproduction of the sound signal.
7 cl, 11 dwg

Description

Область технического примененияField of technical application

Настоящее изобретение, в общем, относится, к кодированию цифрового звука и, точнее, к способам кодирования звуковых сигналов, содержащих составляющие разного характера.The present invention generally relates to digital audio coding and, more precisely, to methods for encoding audio signals containing components of different natures.

Предпосылки изобретенияBACKGROUND OF THE INVENTION

Широко распространенный класс способов кодирования звуковых сигналов, содержащих речь или пение, включает линейное предсказание с кодовым возбуждением (CELP), применяемое во временнόм чередовании с другими способами кодирования, в том числе со способами кодирования в частотной области, в особенности, адаптированными для музыки, или способами общего характера, для того, чтобы учесть изменения в характере между последовательными промежутками времени звукового сигнала. Например, упрощенный декодер согласно стандарту экспертной группы по вопросам движущегося изображения (MPEG) для унифицированного кодирования речи и звука (USAC; см. стандарт ISO/IEC 23003-3), как показано в верхней части сопроводительной фиг. 2, может действовать по меньшей мере в трех режимах декодирования: в режиме перспективного звукового кодирования (AAC; см. стандарт ISO/IEC 13818-7), в режиме алгебраического CELP (ACELP) и в режиме преобразования кодированного возбуждения (TCX).A widely used class of coding methods for audio signals containing speech or singing includes code-excited linear prediction (CELP), used in time interleave with other coding methods, including frequency domain coding methods, especially those adapted for music, or in general ways to take into account changes in character between successive periods of time of the sound signal. For example, a simplified decoder according to the Moving Picture Experts Group (MPEG) standard for Unified Voice and Audio Coding (USAC; see ISO/IEC 23003-3) as shown at the top of the accompanying FIG. 2 can operate in at least three decoding modes: advanced audio coding (AAC; see ISO/IEC 13818-7 standard), algebraic CELP (ACELP) mode, and transform coded excitation (TCX) mode.

Различные варианты осуществления CELP адаптированы к свойствам органов речи человека и, возможно, к слуховому восприятию человека. В том смысле, в каком он употребляется в данной заявке, термин «CELP» будет относиться ко всем возможным реализациям и вариантам, в том числе, в качестве неограничивающих примеров, широко- и узкополосное CELP, SB-CELP (подполоса CELP), CELP с низкой и высокой скоростью, RCELP (ослабленное CELP), LD-CELP (CELP с малой задержкой), CS-CELP (CELP с сопряженной структурой), CS-ACELP (ACELP с сопряженной структурой), PSI-CELP (инновационное CELP с синхронным основным тоном) и VSELP (линейное предсказание с возбуждением векторной суммы). Принципы CELP обсуждаются R. Schroeder и S. Atal в Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937-940, 1985, а некоторые его приложения описаны в ссылках 25 – 29, цитируемых в статье Chen и Gersho, IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, 1995. Как более подробно описано в первой статье, декодер CELP (или, аналогично, речевой синтезатор CELP) может включать предсказатель основного тона, который восстанавливает периодическую составляющую кодированного речевого сигнала, и импульсный кодовый словарь, из которого добавляется порождающая последовательность. Предсказатель основного тона может, в свою очередь, включать предсказатель с большой задержкой, предназначенный для восстановления формант при помощи специального формирования огибающей спектра. В этом контексте, основной тон понимается как основная частота тональной составляющей звука, генерируемой голосовыми связками и дополнительно окрашиваемой резонирующими участками речевого тракта. Эта частота вместе с ее гармониками будет доминировать в речи и пении. Вообще говоря, способы CELP лучше всего подходят для обработки сольного, или одноголосного, пения, для которого частота основного тона хорошо выражена и относительно легко определяется.Various embodiments of CELP are adapted to the properties of the human speech organs and possibly to the human auditory perception. As used herein, the term "CELP" will refer to all possible implementations and variations, including, but not limited to, wideband and narrowband CELP, SB-CELP (subband CELP), CELP with low and high speed, RCELP (Attenuated CELP), LD-CELP (Low Latency CELP), CS-CELP (Coupled CELP), CS-ACELP (Coupled ACELP), PSI-CELP (Synchronous Core Innovative CELP) tone) and VSELP (vector sum excitation linear prediction). The principles of CELP are discussed by R. Schroeder and S. Atal in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937-940, 1985, and some of its applications are described in references 25-29, cited in Chen and Gersho, IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, 1995. As described in more detail in the first article, a CELP decoder (or, similarly, a CELP speech synthesizer) may include a pitch predictor that recovers the periodic component of the encoded speech signal, and a pulse codebook from which a generator sequence is added. The pitch predictor may, in turn, include a long-delay predictor designed to recover formants using special spectral envelope shaping. In this context, fundamental tone is understood as the fundamental frequency of the tonal component of sound generated by the vocal cords and further colored by the resonant portions of the vocal tract. This frequency, along with its harmonics, will dominate speech and singing. Generally speaking, CELP methods are best suited for processing solo, or single-voice, singing, for which the pitch frequency is well defined and relatively easy to determine.

Для улучшения воспринимаемого качества речи, кодированной CELP, общепринятой практикой является сочетание CELP с постфильтрацией (или, иначе говоря, с усилением основного тона). Патент США №4969192 и раздел II статьи Chen и Gersho раскрывают требуемые свойства таких постфильтров, а именно: их способность подавлять шумовые составляющие, находящиеся между гармониками обнаруженного голосового основного тона (долгосрочная часть, см. раздел IV). Предполагается, что значительная часть этого шума является результатом формирования огибающей спектра. Долгосрочная часть простого постфильтра может быть сконструирована так, чтобы она имела следующую передаточную функцию:To improve the perceived quality of CELP-encoded speech, a common practice is to combine CELP with post-filtering (or, in other words, pitch enhancement). US Patent No. 4,969,192 and Section II of the Chen and Gersho paper disclose the desired properties of such post-filters, namely their ability to suppress noise components located between the harmonics of the detected voice pitch (long-term part, see Section IV). It is assumed that a significant portion of this noise is the result of spectral envelope shaping. The long-term part of a simple post filter can be designed to have the following transfer function:

, ,

где Т – оценочный период основного тона в выражении количества дискретных значений, и α – коэффициент усиления постфильтра, как показано на фиг. 1 и 2. По способу, сходному с гребенчатым фильтром, такой фильтр ослабляет частоты 1/(2T), 3/(2T), 5/(2T), которые находятся посередине между гармониками основной частоты, и соседние частоты. Ослабление зависит от значения коэффициента усиления α. Несколько более сложные постфильтры применяют это усиление только к низким частотам, – отсюда широко применяемый термин «басовый постфильтр», – где шум воспринимается в наибольшей степени. Это можно выразить как каскадирование вышеописанной передаточной функции H E и фильтра прохождения низких частот H LP . Подвергнутый постобработке декодированный S E , создаваемый постфильтром, в области преобразования будет иметь вид: where T is the estimated pitch period in terms of the number of samples, and α is the post-filter gain, as shown in FIG. 1 and 2. In a manner similar to a comb filter, such a filter attenuates the frequencies 1/(2 T ), 3/(2 T ), 5/(2 T ), which are in the middle between the harmonics of the fundamental frequency, and neighboring frequencies. The attenuation depends on the value of the gain α . Slightly more complex post filters apply this gain only to the low frequencies—hence the commonly used term “bass post filter”—where noise is perceived the most. This can be expressed as cascading the transfer function H E described above and the low pass filter H LP . The post-processed decoded S E created by the post-filter will look like this in the transformation area:

, где , Where

, ,

и S – декодированный сигнал, который подается на вход постфильтра. Фиг. 3 показывает вариант осуществления постфильтра с такими свойствами, который в дальнейшем обсуждается в разделе 6.1.3 технического описания ETSI TS 126 290, версия 6.3.0, публикация 6. Как показывает данная фигура, информация основного тона кодируется как параметр в сигнале битового потока и извлекается модулем отслеживания основного тона, коммуникативно подключенным к фильтру долгосрочного предсказания, осуществляющему операции, выраженные как Р LT .and S is the decoded signal that is fed to the post-filter input. Fig. 3 shows an embodiment of a post-filter with such properties, which is further discussed in section 6.1.3 of the ETSI TS 126 290 technical specification, version 6.3.0, publication 6. As this figure shows, pitch information is encoded as a parameter in the bitstream signal and extracted a pitch tracking module communicatively connected to a long-term prediction filter performing operations expressed as P LT .

Долгосрочная часть, описанная в предыдущем параграфе, может использоваться отдельно. В альтернативном варианте она располагается последовательно с фильтром преобразования шума, который сохраняет составляющие в интервалах частот, соответствующих формантам, и ослабляет шум в других областях спектра (краткосрочная часть, см. раздел III), т.е. во «впадинах спектра» огибающей формант. В качестве другого возможного изменения, данная совокупность фильтров также дополняется последовательным фильтром, относящимся к типу фильтров прохождения верхних частот, с целью снижения воспринимаемого ухудшения качества из-за наклона спектра краткосрочной части.The long-term part described in the previous paragraph can be used separately. Alternatively, it is placed in series with a noise conversion filter, which preserves components in the frequency ranges corresponding to the formants, and attenuates noise in other regions of the spectrum (short-term part, see section III), i.e. in the “spectrum valleys” of the formant envelope. As another possible modification, this filter bank is also supplemented with a sequential high-pass type filter to reduce the perceived degradation due to short-term spectral slope.

Звуковые сигналы, содержащие смесь составляющих различного происхождения, – например, тонального, нетонального, вокального, инструментального, немузыкального, – не всегда удовлетворительно воспроизводятся имеющимися технологиями кодирования. Точнее было отметить, что имеющиеся технологии являются недостаточными для обработки такого неоднородного звукового материала и, как правило, отдают предпочтение одной из составляющих в ущерб остальным. В частности, музыка, содержащая пение под аккомпанемент одного или нескольких инструментов или хоровые фрагменты, кодированная способами, сущность которых описана выше, часто будет декодироваться с воспринимаемыми артефактами, которые частично портят впечатление от прослушивания.Sound signals containing a mixture of components of different origins - for example, tonal, non-tonal, vocal, instrumental, non-musical - are not always reproduced satisfactorily by available encoding technologies. It would be more accurate to note that the available technologies are insufficient to process such heterogeneous sound material and, as a rule, give preference to one of the components to the detriment of the others. In particular, music containing single or multi-instrumental singing or choral passages encoded in the manner described above will often be decoded with perceptible artifacts that detract from some of the listening experience.

Краткое описание изобретенияBrief description of the invention

Для того чтобы ослабить, по меньшей мере, некоторые из недостатков, описанных в предыдущем разделе, целью настоящего изобретения является предоставление способов и устройств, адаптированных для кодирования звука и декодирования сигналов, содержащих смесь составляющих различного происхождения. Как частные цели, изобретение добивается создание таких способов и устройств, которые являются пригодными с точки зрения эффективности кодирования и (воспринимаемой) точности воспроизведения, или и того, и другого.In order to alleviate at least some of the disadvantages described in the previous section, it is an object of the present invention to provide methods and devices adapted for audio encoding and decoding signals containing a mixture of components of different origins. As a particular object, the invention seeks to provide methods and devices that are suitable in terms of encoding efficiency and (perceived) fidelity, or both.

Изобретение достигает по меньшей мере одной из этих целей путем создания системы кодера, системы декодера, способа кодирования, способа декодирования и компьютерных программных продуктов, предназначенных для осуществления каждого из указанных способов, которые определены в независимых пунктах формулы изобретения. Зависимые пункты формулы изобретения определяют варианты осуществления изобретения.The invention achieves at least one of these objects by providing an encoder system, a decoder system, an encoding method, a decoding method, and computer program products for implementing each of these methods, which are defined in the independent claims. Dependent claims define embodiments of the invention.

Авторы изобретения осознали, что некоторые артефакты, воспринимаемые в декодированных звуковых сигналах неоднородного происхождения являются следствием несоответствующего переключения между различными режимами кодирования по меньшей мере один из которых включает постфильтрацию в декодере, и по меньшей мере один из которых ее не включает. Точнее, имеющиеся постфильтры устраняют не только межгармонический шум (и, там, где это применимо, шум во впадинах спектра), но также составляющие сигнала, представляющие инструментальный или вокальный аккомпанемент и другой материал «желательной» природы. То, что порог различимости во впадинах спектра может составлять вплоть до 10 дБ (как отмечено Ghitza и Goldstein, IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-4, pp. 697-708, 1986), можно считать оправданием многих разработчиков, которое позволяет жестко фильтровать эти полосы частот. Однако само по себе ухудшение качества за счет межгармонического ослабления (и ослабления во впадинах спектра) может быть менее важно, чем ухудшение качества в случае переключения. Когда включается постфильтр, фон звуков певческого голоса внезапно приглушается, а когда фильтр деактивируется, фон немедленно становится более звучным. Если переключение происходит часто по причине сущности звукового сигнала или из-за конфигурации кодирующего устройства, будет возникать артефакт переключения. Как пример, декодер USAC может действовать или в режиме ACELP в сочетании с постфильтрацией, или в режиме TCX без постфильтрации. Режим ACELP используется во фрагментах, где присутствует доминантная вокальная составляющая. Поэтому переключение в режим ACELP может запускаться с началом пения, как, например, в начале новой музыкальной фразы, в начале нового куплета или просто после фрагмента, где аккомпанемент считается заглушающим певческий голос в том смысле, что вокальная составляющая больше не является выраженной. Эксперименты подтвердили, что альтернативное решение, или, иначе говоря, обход проблемы, в котором кодирование ТСХ используется везде (а режим ACELP отключается) не исправляет проблему, поскольку появляются артефакты, подобные искусственному эху.The inventors have realized that some artifacts perceived in decoded audio signals of heterogeneous origin are a consequence of inappropriate switching between different encoding modes, at least one of which includes post-filtering in the decoder, and at least one of which does not. More precisely, the available post filters remove not only interharmonic noise (and, where applicable, noise in the valleys of the spectrum), but also signal components representing instrumental or vocal accompaniment and other material of a “desirable” nature. The fact that the audibility threshold in the spectral troughs can be as high as 10 dB (as noted by Ghitza and Goldstein, IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-4, pp. 697-708, 1986) can be considered a justification for many developers, which allows you to strictly filter these frequency bands. However, the degradation due to interharmonic attenuation (and valley attenuation) itself may be less important than the degradation due to switching. When the post filter is turned on, the background sounds of the singing voice are suddenly muted, and when the filter is deactivated, the background immediately becomes more sonorous. If switching occurs frequently due to the nature of the audio signal or the configuration of the encoder, switching artifact will occur. As an example, the USAC decoder can operate in either ACELP mode combined with post-filtering, or TCX mode without post-filtering. The ACELP mode is used in fragments where there is a dominant vocal component. Therefore, switching to ACELP mode can be triggered at the beginning of singing, such as at the beginning of a new musical phrase, at the beginning of a new verse, or simply after a passage where the accompaniment is considered to drown out the singing voice in the sense that the vocal component is no longer prominent. Experiments have confirmed that the alternative solution, or workaround, in which TLC coding is used throughout (and ACELP mode is disabled) does not correct the problem, since artifacts like artificial echo appear.

Соответственно, в первой и второй особенностях изобретение предусматривает способ кодирования звука (и систему кодирования звука с соответствующими характерными признаками), который отличается тем, что принимается решение о том, следует ли устройству, которое будет декодировать битовый поток, являющийся выходным сигналом способа кодирования, применять постфильтрацию, включающую ослабление межгармонического шума. Результат принятия этого решения кодируется в битовом потоке и является доступным для декодирующего устройства.Accordingly, in the first and second aspects, the invention provides an audio encoding method (and an audio encoding system with associated features) which is characterized in that a decision is made as to whether a device that will decode a bit stream output from the encoding method should apply postfiltration, including attenuation of interharmonic noise. The result of this decision is encoded in a bitstream and is available to the decoder.

Согласно изобретению, решение о том, следует ли использовать постфильтр, принимается отдельно от решения о наиболее подходящем режиме кодирования. Это делает возможным поддержание одного состояния постфильтрации в течение всего промежутка такой длительности, что переключение не будет раздражать слушателя. Таким образом, способ кодирования может предписывать, чтобы постфильтр поддерживался в неактивном состоянии даже тогда, когда он переключается в режим кодирования, где этот фильтр обычно активен.According to the invention, the decision about whether to use a post filter is made separately from the decision about the most appropriate encoding mode. This makes it possible to maintain one post-filtering state for an entire period of such duration that switching will not annoy the listener. Thus, the encoding method may dictate that the post-filter be maintained in an inactive state even when it switches to an encoding mode where the filter would normally be active.

Следует отметить, что решение о том, следует ли применять постфильтрацию, обычно принимается по кадрам. Поэтому, во-первых, постфильтрация не применяется менее чем для одного кадра за раз. Во-вторых, решение о том, отключать ли постфильтрацию, действительно только для длительности текущего кадра, и для следующего кадра оно может или сохраняться, или пересматриваться. В формате кодирования, допускающем основной формат кадра и сокращенный формат, который является долей нормального формата, например, составляет 1/8 его длины, может не быть необходимости в принятии решений о постфильтрации для отдельных сокращенных кадров. Вместо этого может рассматриваться некоторое количество сокращенных кадров, просуммированных до нормального кадра, и параметры, относящиеся к решению о фильтрации, могут быть получены путем вычисления среднего или медианы включаемых в него сокращенных кадров.It should be noted that the decision on whether to apply post-filtering is usually made on a frame-by-frame basis. Therefore, firstly, postfiltering is not applied to less than one frame at a time. Second, the decision about whether to turn off post-filtering is valid only for the duration of the current frame, and for the next frame it can either be saved or revised. In an encoding format that allows a basic frame format and a shortened format that is a fraction of the normal format, for example 1/8 of its length, there may be no need to make post-filtering decisions for individual shortened frames. Instead, a number of reduced frames summed to a normal frame may be considered, and parameters related to the filtering decision may be obtained by calculating the average or median of the reduced frames included therein.

В третьей и четвертой особенностях изобретения предусматривается способ декодирования звука (и система декодирования звука, которая включает соответствующие характерные признаки), где за этапом декодирования следует этап постфильтрации, который включает ослабление межгармонического шума и отличается тем, что включает этап отключения постфильтра в соответствии с информацией о постфильтрации, кодированной в сигнале битового потока.The third and fourth aspects of the invention provide an audio decoding method (and an audio decoding system that includes corresponding features), wherein the decoding step is followed by a post-filtering step that includes inter-harmonic noise attenuation and is characterized in that it includes a post-filter off step in accordance with information about post-filtering encoded in the bitstream signal.

Благодаря своей способности деактивировать постфильтр в зависимости только от информации о постфильтрации, т.е. независимо от таких факторов, как текущий режим кодирования, способ декодирования с такими характеристиками хорошо подходит для кодирования звуковых сигналов смешанного происхождения. При применении способов кодирования, в которых активность постфильтра традиционно связана с конкретными режимами кодирования, способность отключения постфильтрации делает возможным новый рабочий режим, а именно: применение без фильтрации традиционного режима декодирования с фильтрацией.Due to its ability to deactivate the post-filter depending only on the post-filtering information, i.e. Regardless of factors such as the current encoding mode, a decoding method with such characteristics is well suited for encoding mixed-origin audio signals. When using encoding methods in which post-filter activity is traditionally associated with specific encoding modes, the ability to disable post-filtering makes possible a new operating mode, namely, the use without filtering of a traditional filtered decoding mode.

В следующей особенности изобретение также предусматривает компьютерный программный продукт, предназначенный для выполнения одного из вышеописанных способов. Кроме того, изобретение предусматривает постфильтр, предназначенный для ослабления межгармонического шума, который может действовать или в активном режиме, или в режиме пропускания, что указывается сигналом постфильтрации, подаваемым на постфильтр. Постфильтр может включать секцию принятия решения, предназначенную для автономного управления активностью постфильтра.In a further aspect, the invention also provides a computer program product for performing one of the methods described above. The invention further provides a post-filter for attenuating inter-harmonic noise, which can operate in either an active mode or a pass-through mode, as indicated by a post-filtering signal supplied to the post-filter. The post-filter may include a decision section for autonomously controlling the activity of the post-filter.

Как понятно специалистам, кодер, адаптированный для совестной работы с декодером, оснащается функционально эквивалентными модулями для того, чтобы он допускал достоверное воспроизведение кодированного сигнала. Указанные эквивалентные модули могут представлять собой идентичные, или сходные, модули или модули, имеющие идентичные, или сходные, передаточные характеристики. В частности, модули кодера и декодера, соответственно, могут представлять собой сходные или несходные блоки обработки, исполняющие соответствующие компьютерные программы, которые выполняют эквивалентные наборы математических операций.As is clear to specialists, an encoder adapted to work together with a decoder is equipped with functionally equivalent modules so that it allows reliable reproduction of the encoded signal. Said equivalent modules may be identical or similar modules or modules having identical or similar transmission characteristics. In particular, the encoder and decoder modules, respectively, may be similar or dissimilar processing units executing corresponding computer programs that perform equivalent sets of mathematical operations.

В одном из вариантов осуществления изобретения настоящий способ включает принятие решения в отношении того, включает ли постфильтр ослабление впадин спектра (относительно огибающей формант, см. выше). Это соответствует краткосрочной части постфильтра. Поэтому преимущественной является адаптация критерия, на котором основывается решение, к сущности постфильтра.In one embodiment of the invention, the present method includes deciding whether a post-filter includes spectral trough attenuation (relative to the formant envelope, see above). This corresponds to the short-term part of the post-filter. Therefore, it is preferable to adapt the criterion on which the decision is based to the essence of the post-filter.

Один из вариантов осуществления изобретения направлен на кодер, в особенности, адаптированный для кодирования речи. Так как некоторые из проблем, служащих мотивом изобретения, наблюдались тогда, когда кодировалась смесь вокальных и других составляющих, особенно преимущественным является независимое принятие решения относительно постфильтрации, предоставляемое изобретением. В частности, такой декодер может включать модуль кодирования в режиме линейного предсказания с кодовым возбуждением.One embodiment of the invention is directed to an encoder, particularly one adapted for speech encoding. Since some of the problems motivating the invention were observed when a mixture of vocal and other components was encoded, the independent post-filtering decision making provided by the invention is particularly advantageous. In particular, such a decoder may include a code-excited linear prediction encoding module.

В одном из вариантов осуществления изобретения кодер основывает свое решение на обнаруженном одновременном присутствии составляющей сигнала с доминантной основной частотой (основным тоном) и другой составляющей сигнала, находящейся ниже основной частоты. Обнаружение также может иметь целью нахождение совместного присутствия составляющей с доминантной основной частотой и другой составляющей с энергией, находящейся между гармониками этой основной частоты. В такой ситуации часто встречаются артефакты рассматриваемого типа. Тогда, если установлено указанное одновременное присутствие, кодер будет принимать решение о том, что постфильтрация не является подходящей, что будет соответствующим образом указано в информации о постфильтрации, которая содержится в битовом потоке.In one embodiment of the invention, the encoder bases its decision on the detected simultaneous presence of a signal component with a dominant fundamental frequency (the pitch) and another signal component below the fundamental frequency. Detection may also be aimed at finding the co-occurrence of a component with a dominant fundamental frequency and another component with energy between the harmonics of that fundamental frequency. In such a situation, artifacts of the type in question are often encountered. Then, if the specified simultaneous presence is established, the encoder will decide that post-filtering is not appropriate, which will be indicated accordingly in the post-filtering information contained in the bitstream.

Один из вариантов осуществления изобретения использует в качестве критерия обнаружения содержание полной мощности сигнала во временном звуковом сигнале ниже частоты основного тона, где частота основного тона, возможно, оценивается в кодере при помощи долгосрочного предсказания. Если указанная мощность больше предварительно определенного порогового значения, считается, что помимо составляющей основного тона (включая гармоники) присутствуют другие значимые составляющие, что будет приводить к отключению постфильтра.One embodiment of the invention uses as a detection criterion the total signal power content of the temporal audio signal below the pitch frequency, where the pitch frequency is possibly estimated at the encoder using long-term prediction. If the specified power is greater than a predetermined threshold value, other significant components in addition to the pitch component (including harmonics) are considered to be present, which will cause the post-filter to turn off.

В кодере, содержащем модуль CELP, можно извлечь пользу из того, что модуль оценивает частоту основного тона временного звукового сигнала. Тогда дальнейший критерий обнаружения, как более подробно описано выше, заключается в проверке запаса энергии между гармониками этой частоты или ниже нее.An encoder containing a CELP module can benefit from the module estimating the pitch frequency of the temporal audio signal. A further detection criterion, as described in more detail above, is then to check the energy reserve between harmonics at or below that frequency.

В качестве дальнейшего развития предшествующего варианта осуществления изобретения, включающего модуль CELP, принятие решения может включать сравнение оценочной энергии звукового сигнала при его CELP-кодировании (т.е. кодировании и декодировании) с оценочной энергией звукового сигнала при CELP-кодировании и постфильтрации. Если разность энергий больше порогового значения, что может указывать на то, что значимая нешумовая составляющая сигнала будет потеряна, а кодер будет принимать решение об отключении постфильтра.As a further development of the prior embodiment of the invention including the CELP module, decision making may involve comparing the estimated energy of the audio signal when it is CELP encoded (ie, encoded and decoded) with the estimated energy of the audio signal when it is CELP encoded and post-filtered. If the energy difference is greater than a threshold value, which may indicate that significant non-noise component of the signal will be lost, the encoder will decide to disable the post-filter.

В преимущественном варианте осуществления изобретения кодер содержит модуль CELP и модуль ТСХ. Как известно в данной области техники, ТСХ-кодирование является преимущественным в отношении некоторых типов сигналов, в особенности, невокальных сигналов. Применение постфильтрации на ТСХ-кодированном сигнале не является общепринятой практикой. Поэтому кодер может выбрать или ТСХ-кодирование, или CELP-кодирование с постфильтрацией, или CELP-кодирование без постфильтрации, таким образом, охватывая значительный диапазон типов сигналов.In an advantageous embodiment of the invention, the encoder comprises a CELP module and a TCX module. As is known in the art, TLC coding is advantageous with respect to certain types of signals, particularly non-vocal signals. It is not common practice to apply post-filtering to a TLC-encoded signal. Therefore, the encoder can choose either TLC encoding, CELP encoding with post-filtering, or CELP encoding without post-filtering, thus covering a significant range of signal types.

Как одно из дальнейших развитий предшествующего варианта осуществления изобретения, решение о выборе между тремя режимами кодирования принимается на основе критерия зависимости искажений от скорости передачи данных, т.е. с применением и оптимизацией процедуры, которая сама по себе известна в данной области техники.As one of the further developments of the previous embodiment of the invention, the decision to choose between the three coding modes is made based on the criterion of distortion depending on the data rate, i.e. using and optimizing a procedure that is itself known in the art.

В другом дальнейшем развитии предшествующего варианта осуществления изобретения кодер также включает кодер согласно стандарту усовершенствованного звукового кодирования (AAC), который, как известно, также особенно хорошо подходит для некоторых типов сигналов. Предпочтительно, решение о том, применять ли ААС-кодирование (в частотной области), принимается независимо от решения о том, какие другие режимы (линейного предсказания) использовать. Поэтому такой кодер может пониматься как действующий в двух супер-режимах: AAC или TCX/CELP, где в последнем режиме которых кодер будет делать выбор между TCX, CELP с постфильтрацией и CELP без фильтрации. Этот вариант осуществления изобретения позволяет обрабатывать еще более широкий диапазон типов звуковых сигналов.In another further development of the previous embodiment, the encoder also includes an encoder according to the advanced audio coding (AAC) standard, which is also known to be particularly well suited for certain types of signals. Preferably, the decision about whether to use AAC coding (in the frequency domain) is made independently of the decision about which other (linear prediction) modes to use. Therefore, such an encoder can be understood as operating in two super modes: AAC or TCX/CELP, where in the latter mode the encoder will choose between TCX, CELP with post-filtering and CELP without filtering. This embodiment of the invention allows for an even wider range of audio signal types to be processed.

В одном из вариантов осуществления изобретения кодер может принимать решение о том, что постфильтрация при декодировании должна применяться постепенно, т.е. с постепенно возрастающим усилением. Аналогично, он может принять решение о том, что постфильтрация будет постепенно устраняться. Такое постепенное применение и устранение делает менее ощутимым переключение между режимами с постфильтрацией и без нее. Например, вокальному фрагменту, для которого найдено подходящим CELP-кодирование с постфильтрацией, может предшествовать инструментальный фрагмент, где оптимальным является ТСХ-кодирование; тогда декодер согласно изобретению может применять постфильтрацию постепенно вблизи или в начале вокального фрагмента так, чтобы выгоды постфильтрации сохранялись, хотя раздражающие артефакты переключения при этом устраняются.In one embodiment of the invention, the encoder may decide that post-filtering during decoding should be applied gradually, i.e. with gradually increasing gain. Likewise, he may decide that post-filtering will be phased out. This gradual application and elimination makes it less noticeable to switch between modes with and without post-filtering. For example, a vocal fragment for which CELP encoding with post-filtering is found suitable may be preceded by an instrumental fragment where TLC encoding is optimal; the decoder of the invention can then apply post-filtering gradually near or at the beginning of the vocal passage so that the benefits of post-filtering are retained while annoying switching artifacts are eliminated.

В одном из вариантов осуществления изобретения решение о том, следует ли применять постфильтрацию, основывается на приближенном разностном сигнале, который служит приближением той составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала.In one embodiment of the invention, the decision about whether to apply postfiltering is based on an approximation of the difference signal, which serves as an approximation of the signal component that will be removed by the postfilter from the future decoded signal.

В качестве одной из возможностей, приближенный разностный сигнал вычисляется как разность между временным звуковым сигналом и временным звуковым сигналом, подвергнутым (имитации) постфильтрации. В качестве другой возможности, секция кодирования извлекает промежуточный декодированный сигнал с тем, чтобы можно было вычислить приближенный разностный сигнал как разность между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Промежуточный декодированный сигнал может сохраняться в буфер долгосрочного предсказания кодера. В дальнейшем он может представлять сигнал возбуждения в предположении, что для получения конечного декодированного сигнала потребуется применение дальнейшей синтезирующей фильтрации (речевой тракт, резонансы). Суть использования промежуточного декодированного сигнала заключается в том, что он фиксирует некоторые из деталей, в особенности, слабости, способа кодирования и, таким образом, позволяет более реалистично оценивать влияние постфильтра. В качестве третьей возможности, секция декодирования извлекает промежуточный декодированный сигнал, посредством чего можно вычислить приближенный разностный сигнал как разность между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Вероятно, эта процедура дает менее надежную оценку, чем две первые возможности, но, с другой стороны, она может осуществляться декодером автономно.As one possibility, the approximate difference signal is calculated as the difference between the time audio signal and the post-filtered time audio signal. As another possibility, the encoding section extracts the intermediate decoded signal so that an approximate difference signal can be calculated as the difference between the temporary audio signal and the post-filtered intermediate decoded signal. The intermediate decoded signal may be stored in the encoder's long-term prediction buffer. It can then represent the excitation signal under the assumption that further synthesis filtering (vocal tract, resonances) will be required to obtain the final decoded signal. The point of using an intermediate decoded signal is that it captures some of the details, particularly weaknesses, of the encoding method and thus allows a more realistic assessment of the effect of the post-filter. As a third possibility, the decoding section extracts the intermediate decoded signal, whereby an approximate difference signal can be calculated as the difference between the intermediate decoded signal and the post-filtered intermediate decoded signal. This procedure probably gives a less reliable estimate than the first two possibilities, but, on the other hand, it can be carried out autonomously by the decoder.

Полученный таким образом приближенный разностный сигнал затем оценивается в отношении одного из следующих критериев, которые при их установлении в утвердительном смысле будут приводить к решению об отключении постфильтра:The approximate difference signal thus obtained is then evaluated with respect to one of the following criteria, which, when established in the affirmative sense, will lead to a decision to disable the post-filter:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение, указывающее на то, что постфильтром может быть устранена значимая часть сигнала;a) whether the power of the approximate difference signal exceeds a predetermined threshold value indicating that a significant portion of the signal can be eliminated by the post filter;

b) является ли характер приближенного разностного сигнала скорее тональным, чем шумоподобным;b) whether the nature of the approximate difference signal is tonal rather than noise-like;

c) неравномерно ли распределена разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временнόго звукового сигнала относительно частоты, что показывает, что это не столько шум, сколько сигнал, который мог бы иметь смысл для слушателя;c) whether the difference between the frequency spectra of the absolute values of the approximate difference signal and the temporal audio signal is unevenly distributed relative to frequency, which shows that it is not so much noise as a signal that could be meaningful to the listener;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, основанной на том, что может обычно ожидаться от сигнала обрабатываемого типа; иd) whether the frequency spectrum of the absolute values of the approximate difference signal is localized to frequency intervals that fall within a predetermined envelope of significance based on what can generally be expected from the type of signal being processed; And

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом.e) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within a predetermined significance envelope obtained by thresholding the frequency spectrum of the absolute values of the temporary audio signal by the absolute value of the largest component of the signal, here scaled down by a predetermined scale factor .

При оценке критерия е) преимущественным является применение отслеживания пиков в спектре абсолютных значений, т.е. различение участков, имеющих форму, похожую на пик, обычно связанных скорее с тональными составляющими, чем с шумом. Составляющие, идентифицированные при помощи отслеживания пиков, которое может иметь место посредством какого-либо алгоритма, который сам по себе известен в данной области техники, могут в дальнейшем сортироваться с применением порога по высоте пика с тем, чтобы оставшиеся составляющие представляли собой тональный материал с определенным абсолютным значением. Эти составляющие обычно скорее представляют значимое содержимое сигнала, чем шум, что служит мотивом принять решение об отключении постфильтра.When assessing criterion e), it is preferable to use peak tracking in the spectrum of absolute values, i.e. distinguishing peak-shaped areas usually associated with tonal components rather than noise. Components identified by peak tracking, which may take place through some algorithm that is itself known in the art, can be further sorted using a peak height threshold so that the remaining components represent tonal material with a certain absolute value. These components usually represent the meaningful content of the signal rather than noise, which motivates the decision to disable the post filter.

В одном из вариантов осуществления изобретения как декодера, решение об отключении постфильтра исполняется переключателем, управляемым секцией управления и способным обходить постфильтр в схеме. В другом варианте осуществления изобретения постфильтр имеет варьируемое усиление, управляемое секцией управления, или регулятором усиления в ней, где решение об отключении осуществляется путем присвоения коэффициенту усиления постфильтра (см. предыдущий раздел) нулевого значения или путем присвоения ему абсолютного значения ниже предварительно определенного порогового значения.In one embodiment of the invention as a decoder, the decision to disable the post-filter is made by a switch controlled by the control section and capable of bypassing the post-filter in the circuit. In another embodiment of the invention, the post-filter has a variable gain controlled by a control section, or a gain control therein, where the cut-off decision is made by setting the post-filter gain (see previous section) to zero or by setting it to an absolute value below a predetermined threshold value.

В одном из вариантов осуществления изобретения декодирование согласно настоящему изобретению включает извлечение информации о постфильтрации из декодируемого сигнала битового потока. Точнее, информация о постфильтрации может кодироваться в поле данных, включающем по меньшей мере один бит в формате, пригодном для передачи. Преимущественно, поле данных представляет собой уже существующее поле данных, определяемое применяющимся стандартом, но не находящееся в употреблении, и, таким образом, информация о постфильтрации не увеличивает полезную нагрузку при передаче.In one embodiment of the invention, decoding according to the present invention includes extracting post-filtering information from the decoded bitstream signal. More specifically, the post-filtering information may be encoded in a data field including at least one bit in a format suitable for transmission. Advantageously, the data field is a pre-existing data field defined by the applicable standard, but is not in use, and thus the post-filtering information does not add to the transmission payload.

Следует отметить, что способы и устройство, раскрытые в данном разделе, могут применяться, после соответствующих модификаций в пределах способностей специалиста, в том числе, путем стандартных экспериментов, для кодирования сигналов, содержащих несколько составляющих, возможно, относящихся к различным каналам, таким как стереофонические каналы. Везде в настоящей заявке термины «усиление основного тона» и «постфильтрация» употребляются как синонимы. Также следует отметить, что ААС обсуждается в качестве репрезентативного примера способов кодирования в частотной области. Действительно, применение изобретения к иному, чем ААС, декодеру или кодеру, действующему в режиме кодирования в частотной области, потребует лишь небольших модификаций, если вообще их потребует, в пределах способностей специалиста. Сходным образом, ТСХ упоминается в качестве примера кодирования в режиме преобразования с взвешенным линейным предсказанием или кодирования с преобразованием вообще.It should be noted that the methods and apparatus disclosed in this section can be used, with appropriate modifications within the capabilities of one skilled in the art, including through routine experimentation, to encode signals containing multiple components, possibly belonging to different channels, such as stereo channels. Throughout this application, the terms “pitch enhancement” and “post-filtering” are used interchangeably. It should also be noted that AAC is discussed as a representative example of frequency domain coding techniques. Indeed, application of the invention to a decoder or encoder other than AAC operating in a frequency domain coding mode will require few, if any, modifications within the capabilities of one skilled in the art. Similarly, TLC is mentioned as an example of weighted linear prediction transform coding or transform coding in general.

Характерные признаки из двух или большего количества вышеописанных вариантов осуществления изобретения могут объединяться, если они не являются дополнительными в явном виде, в дальнейшие варианты осуществления изобретения. То, что два характерных признака цитируются в различных пунктах формулы изобретения, не препятствует тому, чтобы они могли быть выгодно объединены. Аналогично, дальнейшие варианты осуществления изобретения также могут снабжаться пропусками некоторых характерных признаков, которые не являются необходимыми или не являются существенными для желаемой цели.Features from two or more embodiments of the invention described above may be combined, if not explicitly additional, into further embodiments of the invention. The fact that two characteristic features are cited in different claims does not prevent them from being advantageously combined. Likewise, further embodiments of the invention may also be provided with the omission of certain characteristic features that are not necessary or essential for the desired purpose.

Краткое описание графических материаловBrief description of graphic materials

Варианты осуществления настоящего изобретения ниже будут описаны с отсылкой к сопутствующим графическим материалам, на которых:Embodiments of the present invention will be described below with reference to the accompanying drawings, in which:

фиг. 1 – блок-схема, показывающая традиционный декодер с постфильтром;fig. 1 is a block diagram showing a traditional post-filter decoder;

фиг. 2 – принципиальная блок-схема традиционного декодера, действующего в режимах AAC, ACELP и TCX и включающего постфильтр, постоянно подключенный в нисходящем направлении относительно модуля ACELP;fig. 2 is a schematic block diagram of a traditional decoder operating in AAC, ACELP and TCX modes and including a post filter permanently connected in the downstream direction relative to the ACELP module;

фиг. 3 – блок схема, иллюстрирующая конструкцию постфильтра.fig. 3 – block diagram illustrating the design of the post-filter.

фиг. 4 и 5 – блок-схемы двух декодеров согласно изобретению;fig. 4 and 5 are block diagrams of two decoders according to the invention;

фиг. 6 и 7 – блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 6) и декодером (фиг. 7) согласно изобретению;fig. 6 and 7 are block diagrams illustrating the differences between a conventional decoder (FIG. 6) and a decoder (FIG. 7) according to the invention;

фиг. 8 – блок-схема кодера согласно изобретению;fig. 8 – block diagram of the encoder according to the invention;

фиг. 9 и 10 – блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 9) и декодером (фиг. 10) согласно изобретению; иfig. 9 and 10 are block diagrams illustrating the differences between a conventional decoder (FIG. 9) and a decoder (FIG. 10) according to the invention; And

фиг. 11 – блок-схема автономного постфильтра, который может избирательно активироваться и деактивироваться.fig. 11 is a block diagram of a stand-alone post-filter that can be selectively activated and deactivated.

Подробное описание вариантов осуществления изобретенияDetailed Description of Embodiments of the Invention

Фиг. 4 представляет собой схематическую иллюстрацию системы 400 декодера согласно одному из вариантов осуществления изобретения, имеющего в качестве входного сигнал битового потока и звуковой сигнал – на выходе. Как и в традиционных декодерах, показанных на фиг. 1, постфильтр 440 располагается в нисходящем направлении относительно модуля 410 декодирования, но может включаться или выключаться из тракта декодирования путем приведения в действие переключателя 442. В положении, показанном на фигуре, постфильтр включен. Его можно отключить, если установить переключатель в противоположное положение, посредством чего сигнал из модуля 410 декодирования будет вместо этого проводиться по шине 444 обхода. В качестве вклада, обладающего признаками изобретения, переключатель 442 управляется посредством информации о постфильтрации, содержащейся в сигнале битового потока, и, таким образом, постфильтрация может применяться и сниматься независимо от текущего состояния модуля 410 декодирования. Поскольку постфильтр 440 действует с некоторой задержкой, – например, постфильтр, показанный на фиг. 3, вносит задержку c величиной, равной, по меньшей мере, периоду Т основного тона, – с целью поддержания модулей в синхронизированных условиях при переключении на шине 444 обхода располагается модуль 443 компенсации задержки. Модуль 443 задержки задерживает сигнал на тот же период, на который мог бы его задерживать постфильтр 440. Для минимизации времени переключения модуль 443 компенсации задержки во все моменты времени принимает тот же сигнал, что и постфильтр 440. В альтернативном варианте осуществления изобретения, где постфильтр 440 заменяется постфильтром с нулевой задержкой (например, причинным фильтром, таким, как фильтр с двумя звеньями, не зависящий от будущих значений сигнала), модуль 443 компенсации задержки может быть пропущен.Fig. 4 is a schematic illustration of a decoder system 400 according to one embodiment of the invention having a bitstream signal as an input and an audio signal as an output. As with the traditional decoders shown in FIG. 1, the post filter 440 is located downstream of the decoding module 410, but can be turned on or off from the decoding path by operating switch 442. In the position shown in the figure, the post filter is turned on. This can be disabled by setting the switch to the opposite position, whereby the signal from the decoding module 410 will be routed through the bypass bus 444 instead. As an inventive contribution, the switch 442 is controlled by the post-filtering information contained in the bitstream signal, and thus the post-filtering can be applied and removed regardless of the current state of the decoding module 410. Because the post filter 440 operates with some delay, such as the post filter shown in FIG. 3 introduces a delay of an amount equal to at least the period T of the pitch - in order to maintain the modules in synchronized conditions when switching, a delay compensation module 443 is located on the bypass bus 444. Delay module 443 delays the signal for the same period that post filter 440 would delay it. To minimize switching time, delay compensation module 443 receives the same signal as post filter 440 at all times. In an alternative embodiment, where post filter 440 is replaced by a zero-delay post-filter (eg, a causal filter, such as a two-stage filter that is independent of future signal values), the delay compensation module 443 may be omitted.

Фиг. 5 иллюстрирует дальнейший вариант осуществления изобретения в соответствии с идеями изобретения в отношении трехрежимной системы 500 декодера по фиг. 2. Модуль 511 ACELP-декодирования располагается параллельно модулю 512 ТСХ-декодирования и модулю 513 ААС-декодирования. Последовательно с модулем 511 ACELP-декодирования располагается постфильтр 540, предназначенный для ослабления шума, в частности, шума, находящегося между гармониками частоты основного тона, напрямую или не напрямую получаемой из сигнала битового потока, для чего адаптирована система 500 декодера. Сигнал битового потока также кодирует информацию о постфильтрации, регулирующую положения верхнего переключателя 541, который действует для выключения постфильтра 540 из тракта обработки и его замены компенсацией ошибок 543, как на фиг. 4. Нижний переключатель 542 используется для переключения между различными режимами декодирования. В такой конструкции, когда используется один из модулей 512, 513, ТСХ или ААС, положение верхнего переключателя 541 не играет роли; поэтому информация о постфильтрации необязательно указывает это положение за исключением режима ACELP. Какой бы из режимов декодирования ни использовался в текущий момент, сигнал подается из точки подсоединения нижнего переключателя 542 в нисходящем направлении в модуль 550 репликации спектральной полосы (SBR), который выводит звуковой сигнал. Специалистам будет понятно, что данная иллюстрация имеет концептуальную природу, что явно видно, в особенности, из того, что переключатели показаны схематично как отдельные физические сущности с подвижными контактными средствами. В возможной реальной имплементации системы декодера переключатели, а также и другие модули, могут осуществляться посредством машиночитаемых команд.Fig. 5 illustrates a further embodiment of the invention in accordance with the teachings of the invention with respect to the tri-mode decoder system 500 of FIG. 2. The ACELP decoding module 511 is located in parallel with the TLC decoding module 512 and the AAC decoding module 513. In series with the ACELP decoding module 511 is a post filter 540 designed to attenuate noise, in particular noise located between the harmonics of the pitch frequency, directly or indirectly obtained from the bitstream signal, for which the decoder system 500 is adapted. The bitstream signal also encodes post-filtering information adjusting the positions of the upper switch 541, which operates to turn off the post-filter 540 from the processing path and replace it with error compensation 543, as in FIG. 4. The bottom switch 542 is used to switch between different decoding modes. In this design, when one of the 512, 513, TLC or AAC modules is used, the position of the top switch 541 does not matter; therefore, the post-filtering information does not necessarily indicate this position except in ACELP mode. Whichever decoding mode is currently in use, the signal is supplied from the connection point of the lower switch 542 in the downstream direction to the spectral band replication (SBR) module 550, which outputs the audio signal. Those skilled in the art will appreciate that this illustration is of a conceptual nature, as is evident particularly from the fact that the switches are shown schematically as separate physical entities with movable contact means. In a possible real-life implementation of a decoder system, the switches, as well as other modules, can be implemented via machine-readable instructions.

Фиг. 6 и 7 также представляют собой блок-схемы двух трехрежимных систем декодера, действующих в режимах ACELP, TCX и в режиме декодирования в частотной области. С отсылкой к последней упомянутой фигуре, которая показывает вариант осуществления изобретения, сигнал битового потока подается в точку 701 ввода, которая, в свою очередь, постоянно соединена посредством соответствующих ветвей с тремя модулями 711, 712, 713 декодирования. Точка 701 ввода также содержит соединительную ветвь 702 (отсутствующую в традиционной системе декодирования по фиг. 6), направленную к модулю 740 усиления основного тона, который играет роль описанного выше постфильтра обобщенного типа. Как является общей практикой в данной области, в нисходящем направлении относительно модулей 711, 712 ACELP и ТСХ расположен первый модуль 703 кадрирования перехода, предназначенный для осуществления переходов между модулями декодирования. Второй модуль 704 перехода расположен в нисходящем направлении относительно модуля 713 декодирования в частотной области и первого модуля 703 кадрирования перехода и предназначен для осуществления перехода между двумя супер-режимами. В восходящем направлении непосредственно перед точкой 705 вывода расположен модуль 750 SBR. Ясно, что сигнал битового потока подается непосредственно (или, при необходимости, после демультиплексирования) во все три модуля 711, 712, 713 декодирования и в модуль 740 усиления основного тона. Информация, содержащаяся в битовом потоке, управляет тем, какой из модулей декодирования будет активен. Однако, согласно изобретению, модуль 740 усиления основного тона выполняет аналогичную самоактивацию, и, в ответ на информацию о постфильтрации в битовом потоке, может выступать как постфильтр или просто как пропускающий канал. Например, это может реализовываться путем снабжения модуля 740 усиления основного тона секцией управления (не показана), посредством которой действие постфильтрации может включаться или выключаться. Когда система действует в режиме декодирования в частотной области или в режиме ТСХ-декодирования, где, строго говоря, какая-либо информация о постфильтрации не является необходимой, модуль 740 усиления основного тона всегда находится в режиме пропускания. Следует понимать, что модули, не образующие часть вклада, обладающего признаками изобретения, и присутствие которых очевидно для специалистов, например, демультиплексор, для большей ясности пропущены на фиг. 7 и на других сходных иллюстрациях.Fig. 6 and 7 also provide block diagrams of two tri-mode decoder systems operating in ACELP, TCX and frequency domain decoding modes. With reference to the last-mentioned figure, which shows an embodiment of the invention, a bitstream signal is supplied to an input point 701, which in turn is permanently connected via corresponding branches to three decoding modules 711, 712, 713. Input point 701 also includes a connecting branch 702 (not present in the conventional decoding system of FIG. 6) directed to a pitch enhancer 740, which plays the role of the generalized post-filter described above. As is common practice in the art, located downstream of the ACELP and TCX modules 711, 712 is a first transition framing module 703 for transitioning between decoding modules. The second transition module 704 is located downstream of the frequency domain decoding module 713 and the first transition framing module 703 and is configured to transition between two super modes. In the upstream direction, immediately before the output point 705, an SBR module 750 is located. It is clear that the bitstream signal is supplied directly (or, if necessary, after demultiplexing) to all three decoding modules 711, 712, 713 and to the pitch amplification module 740. The information contained in the bitstream controls which decoding module will be active. However, according to the invention, pitch amplification module 740 performs similar self-activation and, in response to post-filtering information in the bitstream, can act as a post-filter or simply as a pass channel. For example, this may be accomplished by providing the pitch enhancer 740 with a control section (not shown) through which the post-filtering action can be turned on or off. When the system operates in the frequency domain decoding mode or in the TLC decoding mode, where, strictly speaking, any post-filtering information is not necessary, the pitch amplification module 740 is always in the pass-through mode. It should be understood that modules which do not form part of the inventive contribution and whose presence is obvious to those skilled in the art, such as a demultiplexer, have been omitted from FIG. 7 and other similar illustrations.

Как вариант, система декодера по фиг. 7 может оснащаться модулем управления (не показан), предназначенным для принятия решения о том, следует ли применять постфильтрацию, с использованием подхода «анализ через синтез». Указанный модуль управления коммуникативно связан с модулем 740 усиления основного тона и с модулем 711 ACELP, из которого он извлекает промежуточные декодированные сигналы , представляющие один из промежуточных этапов процесса декодирования, предпочтительно, этап, соответствующий возбуждению сигнала. Модуль обнаружения содержит необходимую информацию для имитации действия модуля 740 усиления основного тона, что определяется передаточными функциями P LT (z) и H LP (z) (см. раздел Предпосылки и фиг. 3), или, эквивалентно, их импульсными переходными характеристиками фильтра p LT (z) и h LP (n). Как следует из обсуждения в разделе Предпосылки изобретения, составляющая, которая будет вычитаться при постфильтрации, может оцениваться при помощи приближенного разностного сигнала s AD (n), который пропорционален , где * обозначает дискретную свертку. Это приближение является приближением истинной разности между оригинальным звуковым сигналом и декодированным сигналом, подвергнутым постфильтрации, а именно:Alternatively, the decoder system of FIG. 7 may be equipped with a control module (not shown) to decide whether post-filtering should be applied using an analysis-by-synthesis approach. Said control module is in communicative communication with the pitch amplification module 740 and with the ACELP module 711, from which it extracts intermediate decoded signals , representing one of the intermediate stages of the decoding process, preferably a stage corresponding to signal excitation. The detection module contains the necessary information to simulate the action of the pitch amplification module 740, as determined by the transfer functions P LT ( z ) and H LP ( z ) (see Background and FIG. 3), or equivalently, their filter impulse response responses p LT (z) and hLP ( n ). As follows from the discussion in the Background section, the component that will be subtracted by post-filtering can be estimated using an approximate difference signal sAD ( n ), which is proportional , where * denotes discrete convolution. This approximation is an approximation of the true difference between the original audio signal and the post-filtered decoded signal, as follows:

, ,

где α – коэффициент усиления постфильтра. Изучая полную энергию, энергию низкочастотной полосы, тональность, актуальный спектр абсолютных значений или спектр абсолютных значений этого сигнала в прошлом, как раскрывается в разделе Краткое описание изобретения и в формуле изобретения, секция управления может находить основание для принятия решения о том, активировать или деактивировать модуль 740 усиления основного тона.where α is the post-filter gain. By studying the total energy, low band energy, tone, current absolute value spectrum, or the past absolute value spectrum of this signal, as disclosed in the Summary of the Invention and the claims, the control section can find a basis for deciding whether to activate or deactivate the module 740 pitch gain.

Фиг. 8 показывает систему 800 кодера согласно одному из вариантов осуществления изобретения. Система 800 кодера адаптирована для обработки цифровых звуковых сигналов, которые, в общем, получаются путем сбора данных звуковой волны микрофоном и преобразования волны в аналоговый электрический сигнал. Электрический сигнал затем дискретизируется в цифровой сигнал, поддающийся передаче в подходящем формате в систему 800 кодера. В общем, система состоит из модуля 810 кодирования, модуля 820 принятия решения и мультиплексора 830. При помощи переключателей 814, 815 (представленных символически), модуль кодирования может действовать или в режиме CELP, или в режиме TCX, или в режиме AAC путем избирательного приведения в действие модулей 811, 812, 813. Модуль 820 принятия решения применяет один или несколько предварительно определенных критериев для принятия решения об отключении постфильтрации во время декодирования сигнала битового потока, генерируемый системой 800 кодера, будет кодировать звуковой сигнал. Для этого модуль 820 принятия решения может исследовать непосредственно звуковой сигнал или может получать данные из модуля 810 кодирования через линию связи 816. Сигнал, служащий признаком решения, которое принимается модулем 820 принятия решения, совместно с кодированным звуковым сигналом из модуля 810 кодирования доставляется в мультиплексор 830, который сцепляет сигналы в битовый поток, составляющий выходной сигнал системы 800 декодера.Fig. 8 shows an encoder system 800 according to one embodiment of the invention. The encoder system 800 is adapted to process digital audio signals, which are generally produced by collecting sound wave data with a microphone and converting the wave into an analog electrical signal. The electrical signal is then sampled into a digital signal capable of being transmitted in a suitable format to the encoder system 800. In general, the system consists of an encoding module 810, a decision module 820, and a multiplexer 830. Using switches 814, 815 (represented symbolically), the encoding module can operate in either the CELP mode, the TCX mode, or the AAC mode by selective casting. into operation of modules 811, 812, 813. Decision module 820 applies one or more predefined criteria to decide whether to disable post-filtering during decoding of the bit stream signal generated by encoder system 800 will encode the audio signal. To do this, the decision module 820 may examine the audio signal directly or may receive data from the encoding module 810 via communication line 816. The signal indicative of the decision made by the decision module 820, together with the encoded audio signal from the encoding module 810, is delivered to the multiplexer 830. , which concatenates the signals into a bitstream that constitutes the output of the decoder system 800.

Предпочтительно, модуль 820 принятия решения основывает свое решение на приближенном разностном сигнале, вычисляемом из промежуточного кодированного сигнала , который может вычитаться из модуля 810 декодирования. Промежуточный декодированный сигнал представляет промежуточный этап процесса декодирования, что обсуждалось в предшествующих параграфах, но может извлекаться из соответствующего этапа процесса кодирования. Однако для системы 800 кодера доступен оригинальный звуковой сигнал S ORIG , поэтому предпочтительно приближенный разностный сигнал формируется как:Preferably, decision module 820 bases its decision on an approximate difference signal calculated from the intermediate encoded signal , which can be subtracted from the decoding unit 810. The intermediate decoded signal represents an intermediate step in the decoding process, as discussed in previous paragraphs, but can be extracted from a corresponding step in the encoding process. However, the original audio signal S ORIG is available to the encoder system 800, so preferably the approximate difference signal is generated as:

. .

Это приближение основывается на том, что вместо конечного декодированного сигнала используется промежуточный декодированный сигнал. Это позволяет оценить сущность составляющей, которую постфильтр мог бы удалять при декодировании, и, применяя один из критериев, обсуждаемых в разделе Краткое описание изобретения, модуль 820 принятия решения будет способен принять решение о том, отключать ли постфильтрацию.This approximation is based on the fact that an intermediate decoded signal is used instead of the final decoded signal. This allows the essence of the component that the postfilter might remove during decoding to be assessed and, using one of the criteria discussed in the Summary of the Invention , decision module 820 will be able to decide whether to disable postfiltering.

Как вариант, модуль 820 принятия решения может использовать оригинальный сигнал вместо промежуточного кодированного сигнала, и, таким образом, приближенным разностным сигналом будет являться сигнал . Вероятно, это приближение будет менее достоверным, но, с другой стороны, оно делает необязательным присутствие линии связи 816 между модулем 820 принятия решения и модулем 810 кодирования.Alternatively, decision module 820 may use the original signal instead of the intermediate encoded signal, and thus the approximate difference signal will be the signal . This approximation is likely to be less reliable, but on the other hand, it makes the presence of a communication link 816 between the decision module 820 and the encoding module 810 unnecessary.

В тех других изменениях данного варианта осуществления изобретения, где модуль 820 принятия решения изучает звуковой сигнал непосредственно, может применяться один или несколько следующих критериев:In those other variations of this embodiment where decision module 820 examines the audio signal directly, one or more of the following criteria may be applied:

• Содержит ли звуковой сигнал и составляющую с доминантной основной частотой, и составляющую, находящуюся ниже основной частоты? (Основная частота может подаваться как побочный продукт модуля 810 кодирования).• Does the audio signal contain both a component at a dominant fundamental frequency and a component below the fundamental frequency? (The fundamental frequency may be supplied as a by-product of the encoding unit 810).

• Содержит ли звуковой сигнал и составляющую с доминантной основной частотой, и составляющую, находящуюся между гармониками основной частоты?• Does the audio signal contain both a component with a dominant fundamental frequency and a component located between the harmonics of the fundamental frequency?

• Содержит ли звуковой сигнал значительную энергию сигнала ниже основной частоты?• Does the audio signal contain significant signal energy below the fundamental frequency?

• Является ли декодирование с постфильтрацией (как возможный результат) предпочтительным перед декодирование без фильтрации в отношении оптимальной зависимости искажений от скорости передачи данных?• Is decoding with post-filtering (as a possible outcome) preferable to decoding without filtering in terms of optimal distortion versus data rate?

Во всех описанных изменения конструкции кодера, показанной на фиг. 8, – т.е. независимо от основания критерия обнаружения, – секция 820 принятия решения может быть подключена для принятия решения о постепенном начале или постепенном снятии постфильтрации с тем, чтобы добиться гладких переходов. Постепенное начало и снятие может управляться путем регулировки коэффициента усиления постфильтра.In all of the described changes to the encoder design shown in FIG. 8, – i.e. Regardless of the basis of the detection criterion, decision section 820 may be connected to decide whether to gradually start or fade out post-filtering in order to achieve smooth transitions. Gradual onset and release can be controlled by adjusting the post-filter gain.

Фиг. 9 показывает традиционный декодер, действующий в режиме частотного декодирования и в режиме CELP-декодирования в зависимости от сигнала битового потока, подаваемого в декодер. Постфильтрация применяется всякий раз, когда выбирается режим CELP-декодирования. Усовершенствование этого декодера проиллюстрировано на фиг. 10, которая показывает декодер 1000 согласно одному из вариантов осуществления изобретения. Этот декодер действует не только в режиме декодирования в частотной области, где активен модуль 1013 декодирования в частотной области, и в режиме CELP-декодирования с фильтрацией, где активен модуль 1011 CELP-декодирования и постфильтр 1040, но также и в режиме CELP без фильтрации, в котором модуль 1011 CELP подает сигнал в модуль 1043 компенсации задержки по шине 1044 обхода. Переключатель 1042 управляет тем, какой из режимов декодирования активен в настоящий момент, в ответ на информацию о постфильтрации, содержащуюся в сигнале битового потока, доставляемом в декодер 1000. В этом декодере и в декодере по фиг. 9 последний этап обработки выполняется модулем 1050 SBR, выходным сигналом которого является конечный звуковой сигнал.Fig. 9 shows a conventional decoder operating in a frequency decoding mode and a CELP decoding mode depending on a bit stream signal supplied to the decoder. Post-filtering is applied whenever CELP decoding mode is selected. An improvement to this decoder is illustrated in FIG. 10, which shows a decoder 1000 according to one embodiment of the invention. This decoder operates not only in the frequency domain decoding mode, where the frequency domain decoding unit 1013 is active, and in the CELP decoding mode with filtering, where the CELP decoding unit 1011 and the post filter 1040 are active, but also in the CELP mode without filtering, in which the CELP module 1011 provides a signal to the delay compensation module 1043 via bypass bus 1044. Switch 1042 controls which decoding mode is currently active in response to post-filtering information contained in the bitstream signal delivered to decoder 1000. In this decoder and the decoder of FIG. 9, the final processing step is performed by the 1050 SBR module, whose output is the final audio signal.

Фиг. 11 показывает постфильтр 1100, пригодный для размещения в нисходящем направлении относительно декодера 1199. Фильтр 1100 включает модуль 1140 постфильтрации, который подключается или отключается модулем управления (не показан), в особенности, двоичным или недвоичным регулятором усиления, в ответ на сигнал постфильтрации, принимаемый из модуля 1120 принятия решения в постфильтре 1100. Модуль принятия решения выполняет одно или несколько проверок сигнала, принимаемого из декодера, достигая решения о том, будет модуль постфильтрации являться активным или неактивным. Решение может приниматься в направлении функциональных возможностей модуля 820 принятия решения по фиг. 8, который использует оригинальный сигнал и/или промежуточный кодированный сигнал для предсказания действия постфильтра. Решение модуля 1120 принятия решения также может основываться на информации сходной с той, которую модули принятия решения используют в тех вариантах осуществления изобретения, где формируется промежуточный декодированный сигнал. Например, модуль 1120 принятия решения может оценивать частоту основного тона (если только она не извлекается легко из сигнала битового потока) и вычислять запас энергии в сигнале ниже частоты основного тона и между ее гармониками. Если этот запас энергии является значительным, он, вероятно, представляет значимую составляющую сигнала, а не шум, что служит мотивом для принятия решения об отключении модуля 1140 постфильтрации.Fig. 11 shows a post filter 1100 suitable for placement downstream of a decoder 1199. The filter 1100 includes a post filtering module 1140 that is enabled or disabled by a control module (not shown), especially a binary or non-binary gain control, in response to a post filtering signal received from decision module 1120 in post-filter 1100. The decision module performs one or more checks on the signal received from the decoder, reaching a decision as to whether the post-filter module is active or inactive. The decision may be made in the direction of the functionality of the decision module 820 of FIG. 8, which uses the original signal and/or the intermediate encoded signal to predict the action of the post-filter. The decision of the decision module 1120 may also be based on information similar to that which the decision modules use in those embodiments of the invention where an intermediate decoded signal is generated. For example, decision module 1120 may estimate the pitch frequency (unless it is easily extracted from the bitstream signal) and calculate the amount of energy in the signal below the pitch frequency and between its harmonics. If this energy reserve is significant, it likely represents a significant component of the signal rather than noise, which motivates the decision to turn off the post-filtering module 1140.

Для шести человек было осуществлено испытание прослушивания, в ходе которого музыкальные фрагменты, кодированные и декодированные в соответствии с изобретением, сравнивались с отсылкой к фрагментам, содержащим ту же музыку, кодированным с применением постфильтрации традиционным образом, но с сохранением без изменений всех остальных параметров. Результаты подтверждают улучшение воспринимаемого качества.Six subjects were subjected to a listening test in which pieces of music encoded and decoded in accordance with the invention were compared with reference to pieces containing the same music post-filtered in the traditional manner, but leaving all other parameters unchanged. The results confirm the improvement in perceived quality.

Дальнейшие варианты осуществления настоящего изобретения станут очевидными специалистам в данной области после прочтения приведенного выше описания. И хотя настоящее описание и графические материалы раскрывают варианты осуществления изобретения и примеры, изобретение не ограничено этими конкретными примерами. Без отступления от объема настоящего изобретения, который определяется сопутствующей формулой изобретения, могут быть сделаны многочисленные модификации и изменения.Further embodiments of the present invention will become apparent to those skilled in the art after reading the above description. Although the present description and drawings disclose embodiments and examples, the invention is not limited to these specific examples. Without departing from the scope of the present invention, as defined by the accompanying claims, numerous modifications and changes may be made.

Раскрытые выше системы и способы могут быть реализованы как программное обеспечение, встроенное программное обеспечение, аппаратное обеспечение или их комбинация. Некоторые или все компоненты могут реализовываться как программное обеспечение, исполняемое процессором цифровой обработки сигналов или микропроцессором, или они могут реализовываться как встроенное программное обеспечение или как интегральная микросхема специального назначения. Указанное программное обеспечение может распространяться на машиночитаемом носителе данных, который может включать компьютерный носитель данных (или непередающую среду) или коммуникационную среду (или переходящую среду). Как хорошо известно специалистам в данной области, компьютерные носители данных включают энергозависимые и энергонезависимые, съемные и несъемные носители данных, реализуемые в любом способе или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в качестве неограничивающих примеров RAM, ROM, EE-PROM, флэш-память или другие технологии памяти, CD-ROM, универсальный цифровой диски (DVD) или другие оптические дисковые носители данных, кассеты с магнитной лентой, магнитную ленту, магнитные дисковые носители данных или другие магнитные устройства хранения данных, или любой другой носитель, который может использоваться для хранения необходимой информации и который может быть доступен посредством компьютера. Кроме того, как хорошо известно специалистам, коммуникационная среда, как правило, осуществляет машиночитаемые команды, структуры данных, программные модули, или другие данные в модулированном информационном сигнале, таком как несущая волна или другой механизм передачи данных, и включают любые средства доставки информации.The systems and methods disclosed above may be implemented as software, firmware, hardware, or a combination thereof. Some or all of the components may be implemented as software executed by a digital signal processor or microprocessor, or they may be implemented as firmware or a special purpose integrated circuit. The software may be distributed on a computer-readable storage medium, which may include a computer storage medium (or non-transmitting medium) or a communications medium (or transient medium). As is well known to those skilled in the art, computer storage media includes volatile and non-volatile, removable and non-removable storage media implemented in any method or technology for storing information, such as computer-readable instructions, data structures, program modules or other data. Computer storage media includes, but is not limited to, RAM, ROM, EE-PROM, flash memory or other memory technologies, CD-ROM, digital versatile disk (DVD) or other optical disk storage media, magnetic tape cassettes, magnetic tape, magnetic disk storage media or other magnetic storage devices, or any other medium that can be used to store the necessary information and that can be accessed by a computer. Moreover, as is well known to those skilled in the art, a communication medium typically embodies machine-readable instructions, data structures, program modules, or other data in a modulated information signal, such as a carrier wave or other data transmission mechanism, and includes any means of delivering information.

Перечень вариантов осуществления изобретенияList of embodiments of the invention

В первом варианте осуществления обеспечивается система (400; 500; 700; 1000) декодера, предназначенная для декодирования сигнала битового потока как временнόго звукового сигнала, которая содержит:In a first embodiment, a decoder system (400; 500; 700; 1000) is provided for decoding a bitstream signal as a temporary audio signal, which includes:

секцию (410; 511, 512, 513; 711, 712, 713; 1011, 1013) декодирования, предназначенную для декодирования сигнала битового потока как предварительного временнόго звукового сигнала; иa decoding section (410; 511, 512, 513; 711, 712, 713; 1011, 1013) for decoding a bit stream signal as a preliminary time audio signal; And

постфильтр (440; 540; 740; 1040) ослабления межгармонического шума, предназначенный для фильтрации предварительного временнόго звукового сигнала, чтобы получить веременнόй звуковой сигнал,post-filter (440; 540; 740; 1040) interharmonic noise attenuation, designed to filter the preliminary temporal audio signal to obtain a time-dependent audio signal,

отличающаяся наличием секции управления, адаптированной для отключения постфильтра в ответ на информацию о постфильтрации, кодированную в сигнале битового потока, где предварительный временной звуковой сигнал является выходным сигналом как временной звуковой сигнал. characterized by having a control section adapted to disable the post-filter in response to post-filter information encoded in the bitstream signal, wherein the pre-temporal audio signal is output as a temporal audio signal.

Во втором варианте осуществления постфильтр системы декодера первого варианта осуществления также адаптирован для ослабления шума, находящегося во впадинах спектра.In the second embodiment, the post-filter of the decoder system of the first embodiment is also adapted to attenuate noise located in the valleys of the spectrum.

В третьем варианте осуществления секция управления системы декодера первого варианта осуществления содержит переключатель (442; 541; 1042), предназначенный для избирательного исключения постфильтра из тракта обработки сигнала системы декодера, посредством чего постфильтр отключается.In the third embodiment, the control section of the decoder system of the first embodiment includes a switch (442; 541; 1042) for selectively excluding the post-filter from the signal processing path of the decoder system, whereby the post-filter is disabled.

В четвертом варианте осуществления постфильтр системы декодера первого варианта осуществления имеет варьируемый коэффициент усиления, определяющий межгармоническое ослабление, и секция управления содержит регулятор усиления, действующий для задания абсолютного значения коэффициента усиления ниже предварительно определенного порогового значения, посредством чего постфильтр отключается.In the fourth embodiment, the post filter of the decoder system of the first embodiment has a variable gain determining the interharmonic attenuation, and the control section includes a gain control operative to set the absolute value of the gain below a predetermined threshold value, whereby the post filter is turned off.

В пятом варианте осуществления указанная секция декодирования системы декодера первого варианта осуществления содержит модуль декодирования речи.In the fifth embodiment, said decoding section of the decoder system of the first embodiment includes a speech decoding module.

В шестом варианте осуществления указанная секция декодирования системы декодера первого варианта осуществления содержит модуль (511; 711; 1011) декодирования в режиме линейного предсказания с кодовым возбуждением, CELP.In the sixth embodiment, said decoding section of the decoder system of the first embodiment includes a code-excited linear prediction (CELP) decoding unit (511; 711; 1011).

В седьмом варианте осуществления, в системе декодера пятого варианта осуществления частота основного тона, оцениваемая в секции долгосрочного предсказания в кодере, кодируется в сигнале битового потока.In the seventh embodiment, in the decoder system of the fifth embodiment, the pitch frequency estimated in the long-term prediction section in the encoder is encoded into a bit stream signal.

В восьмом варианте осуществления постфильтр системы декодера адаптирован для ослабления спектральных составляющих, находящихся между гармониками частоты основного тона.In the eighth embodiment, the post-filter of the decoder system is adapted to attenuate spectral components located between the harmonics of the fundamental frequency.

В девятом варианте осуществления, в системе декодера первого варианта осуществления сигнал битового потока содержит представление частоты основного тона, и постфильтр адаптирован для ослабления спектральных составляющих, находящихся между гармониками частоты основного тона.In the ninth embodiment, in the decoder system of the first embodiment, the bit stream signal contains a pitch frequency representation, and a post filter is adapted to attenuate spectral components located between harmonics of the pitch frequency.

В десятом варианте осуществления постфильтр системы декодера восьмого или девятого варианта осуществления адаптирован для ослабления только тех спектральных составляющих, которые находятся ниже предварительно определенной частоты среза.In the tenth embodiment, the post-filter of the decoder system of the eighth or ninth embodiment is adapted to attenuate only those spectral components that are below a predetermined cutoff frequency.

В одиннадцатом варианте осуществления, в системе декодера шестого варианта осуществления изобретения 6:In the eleventh embodiment, in the decoder system of the sixth embodiment 6:

секция декодирования также включает модуль (512; 712) декодирования в режиме преобразования кодированного возбуждения, ТСХ, предназначенный для декодирования сигнала битового потока как временнόго звукового сигнала,The decoding section also includes a coded excitation conversion mode decoding module (512; 712) for decoding the bit stream signal as a temporary audio signal,

секция управления адаптирована для приведения в действие системы декодера по меньшей мере в трех следующих режимах:the control section is adapted to operate the decoder system in at least three of the following modes:

a) модуль ТСХ подключен, и постфильтр отключен;a) the TLC module is connected and the post filter is disabled;

b) модуль CELP и постфильтр подключены; иb) CELP module and post filter connected; And

c) модуль CELP подключен, и постфильтр отключен там, где предварительный временной сигнал и звуковой временной сигнал совпадают.c) The CELP module is connected and the post filter is disabled where the pre-time signal and the audio time signal coincide.

В двенадцатом варианте осуществления, в системе декодера десятого варианта осуществления: In the twelfth embodiment, in the decoder system of the tenth embodiment:

секция декодирования также содержит модуль (513; 713) декодирования в режиме перспективного звукового кодирования, AAC, предназначенный для декодирования сигнала битового потока как временнόго звукового сигнала,The decoding section also includes an advanced audio coding (AAC) decoding module (513; 713) for decoding the bit stream signal as a temporary audio signal,

секция управления адаптирована для приведения в действие декодера также в следующем режиме:The control section is adapted to operate the decoder also in the following mode:

d) модуль ААС подключен, и постфильтр отключен.d) the AAC module is connected and the post filter is disabled.

В тринадцатом варианте осуществления, в системе декодера первого варианта осуществления сигнал битового потока сегментируется на временные кадры, и секция управления адаптирована для отключения всего временнόго кадра или последовательности полных временных кадров.In the thirteenth embodiment, in the decoder system of the first embodiment, the bitstream signal is segmented into time frames, and the control section is adapted to turn off an entire time frame or a sequence of entire time frames.

В четырнадцатом варианте осуществления, в системе декодера тринадцатого варианта осуществления секция управления также адаптирована для приема, для каждого временного кадра в битовом потоке согласно стандарту экспертной группы по вопросам движущегося изображения, MPEG, поля данных, связанного с этим временным кадром и действующая, в ответ на значение этого поля данных, для отключения постфильтра.In the fourteenth embodiment, in the decoder system of the thirteenth embodiment, the control section is also adapted to receive, for each time frame in the MPEG Moving Picture Experts Group standard bitstream, a data field associated with that time frame and acting in response to the value of this data field to disable the post-filter.

В пятнадцатом варианте осуществления, в системе декодера четвертого варианта осуществления секция управления адаптирована для постепенного понижения и/или повышения коэффициента усиления постфильтра.In the fifteenth embodiment, in the decoder system of the fourth embodiment, the control section is adapted to gradually decrease and/or increase the gain of the post filter.

В шестнадцатом варианте осуществления предусмотрена система (400; 500; 700; 1000) декодера, которая содержит:In a sixteenth embodiment, a (400; 500; 700; 1000) decoder system is provided, which includes:

секцию (410; 511, 512, 513; 711, 712, 713; 1011, 1013) декодирования, предназначенную для декодирования сигнала битового потока как предварительного временнόго звукового сигнала; иa decoding section (410; 511, 512, 513; 711, 712, 713; 1011, 1013) for decoding a bit stream signal as a preliminary time audio signal; And

постфильтр (440; 540; 740; 1040) ослабления межгармонического шума, предназначенный для фильтрации предварительного временнόго звукового сигнала с целью получения временнόго звукового сигнала,post-filter (440; 540; 740; 1040) attenuation of interharmonic noise, designed to filter the preliminary temporary audio signal in order to obtain a temporary audio signal,

отличающаяся тем, чтоcharacterized in that

секция декодирования адаптирована для генерирования промежуточного декодированного сигнала, представляющего возбуждение, и для его подачи в секцию управления; иa decoding section is adapted to generate an intermediate decoded signal representing the excitation and to supply it to the control section; And

секция управления адаптирована для вычисления приближенного разностного сигнала, который служит приближением составляющей сигнала, которую необходимо устранить постфильтром из декодированного сигнала, как разности между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации, и для оценки по меньшей мере одного из следующих критериев:the control section is adapted to calculate an approximate difference signal that serves as an approximation of the signal component to be post-filtered from the decoded signal, as the difference between the intermediate decoded signal and the intermediate post-filtered decoded signal, and to evaluate at least one of the following criteria:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение;a) whether the power of the approximate difference signal exceeds a predetermined threshold;

b) является ли тональным характер приближенного разностного сигнала;b) whether the approximate difference signal is tonal in nature;

c) является ли разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временнόго звукового сигнала неравномерно распределенной относительно частоты;c) whether the difference between the frequency spectra of the absolute values of the approximate difference signal and the temporal audio signal is unevenly distributed relative to frequency;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости; иd) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within a predetermined significance envelope; And

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом;e) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within the significance envelope obtained by thresholding the frequency spectrum of the absolute values of the temporary audio signal by the absolute value of the largest component of the signal, here reduced in scale with a predetermined scale factor;

и, в ответ на положительное определение, – для отключения постфильтра, посредством чего предварительный временной звуковой сигнал является выходным как временной звуковой сигнал.and, in response to the affirmative determination, to turn off the post-filter, whereby the pre-temporal audio signal is output as a temporary audio signal.

В семнадцатом варианте осуществления предусмотрен постфильтр (440; 550; 740; 1040; 1140) ослабления межгармонического шума, адаптированный для приема входного сигнала, который включает предварительный звуковой сигнал, и для подачи выходного звукового сигнала,In a seventeenth embodiment, an interharmonic noise reduction post filter (440; 550; 740; 1040; 1140) is provided, adapted to receive an input signal that includes a pre-audio signal, and to provide an output audio signal,

отличающийся наличием секции управления, предназначенной для избирательного, в соответствии со значением сигнала постфильтрации, приведения в действие постфильтра в одном из следующих режимов: characterized by the presence of a control section designed to selectively, in accordance with the value of the post-filtering signal, activate the post-filter in one of the following modes:

i) режим фильтрации, где он фильтрует предварительный звуковой сигнал с целью получения фильтрованного сигнала и подает его как выходной звуковой сигнал; иi) Filtering mode, where it filters the pre-audio signal to produce a filtered signal and provides it as an output audio signal; And

ii) режим пропускания, где он подает предварительный звуковой сигнал как выходной звуковой сигнал.ii) Passthrough mode, where it provides a pre-audio signal as an output audio signal.

В восемнадцатом варианте осуществления, в постфильтре семнадцатого варианта осуществления сигнал постфильтрации заключается во входном сигнале.In the eighteenth embodiment, in the post-filter of the seventeenth embodiment, the post-filtering signal is contained in the input signal.

В девятнадцатом варианте осуществления постфильтр семнадцатого варианта осуществления также включает модуль (1120) принятия решения, адаптированный для оценки частоты основного тона предварительного звукового сигнала и для оценивания по меньшей мере одного из следующих критериев:In the nineteenth embodiment, the post-filter of the seventeenth embodiment also includes a decision module (1120) adapted to estimate the pitch frequency of the pre-audio signal and to evaluate at least one of the following criteria:

a) превышает ли мощность спектральных составляющих ниже частоты основного тона предварительно определенное пороговое значение;a) whether the power of spectral components below the fundamental frequency exceeds a predetermined threshold value;

b) являются ли тональными спектральные составляющие ниже частоты основного тона;b) whether the spectral components below the fundamental frequency are tonal;

c) превышает ли мощность спектральных составляющих между гармониками частоты основного тона предварительно определенное пороговое значение; иc) whether the power of spectral components between harmonics of the fundamental frequency exceeds a predetermined threshold value; And

d) являются ли тональными спектральные составляющие между гармониками частоты основного тона;d) whether the spectral components between the harmonics of the fundamental frequency are tonal;

и, в ответ на положительное определение, – для принятия решения о генерировании отрицательного сигнала постфильтрации, отключающего постфильтр.and, in response to a positive determination, to decide to generate a negative post-filtering signal, disabling the post-filter.

В двадцатом варианте осуществления предусмотрен способ декодирования сигнала битового потока как временнόго звукового сигнала, включающий этапы, на которых:In the twentieth embodiment, there is provided a method for decoding a bit stream signal as a temporary audio signal, including the steps of:

декодируют сигнал битового потока как предварительный временнόй звуковой сигнал; иdecoding the bit stream signal as a preliminary time audio signal; And

осуществляют постфильтрацию предварительного временнόго звукового сигнала путем ослабления межгармонического шума, посредством чего получается временной звуковой сигнал,post-filtering the preliminary temporal audio signal by attenuating the interharmonic noise, whereby a temporal audio signal is obtained,

отличающийся тем, что этап постфильтрации избирательно пропускается в ответ на информацию о постфильтрации, кодированную в сигнале битового потока.characterized in that the post-filtering step is selectively skipped in response to post-filtering information encoded in the bitstream signal.

В двадцать первом варианте осуществления, в способе двадцатого варианта осуществления этап постфильтрации также включает ослабление шума, находящегося во впадинах спектра.In the twenty-first embodiment, in the method of the twentieth embodiment, the post-filtering step also includes attenuation of noise located in the valleys of the spectrum.

В двадцать втором варианте осуществления, в способе двадцать первого варианта осуществления этап декодирования включает применение способа кодирования, адаптированного для кодирования речи.In the twenty-second embodiment, in the method of the twenty-first embodiment, the decoding step includes applying an encoding method adapted for speech encoding.

В двадцать третьем варианте осуществления, в способе двадцатого варианта осуществления этап декодирования включает применение декодирования в режиме линейного предсказания с кодовым возбуждением, CELP.In the twenty-third embodiment, in the method of the twentieth embodiment, the decoding step includes applying code-excited linear prediction, CELP, decoding.

В двадцать четвертом варианте осуществления, в способе двадцать второго или двадцать третьего варианта осуществления этап постфильтрации включает ослабление спектральных составляющих, находящихся между гармониками частоты основного тона, где частота основного тона извлекается из сигнала битового потока или оценивается на этапе декодирования.In the twenty-fourth embodiment, in the method of the twenty-second or twenty-third embodiment, the post-filtering step includes attenuating spectral components located between harmonics of a pitch frequency, where the pitch frequency is extracted from the bitstream signal or estimated in a decoding step.

В двадцать пятом варианте осуществления, в способе двадцатого варианта осуществления этап постфильтрации включает ослабление только тех спектральных составляющих, которые находятся ниже предварительно определенной частоты среза.In the twenty-fifth embodiment, in the method of the twentieth embodiment, the post-filtering step includes attenuating only those spectral components that are below a predetermined cutoff frequency.

В двадцать шестом варианте осуществления, в способе двадцать третьего варианта осуществления этапы декодирования и постфильтрации избирательно выполняют одно из следующего:In the twenty-sixth embodiment, in the method of the twenty-third embodiment, the decoding and post-filtering steps selectively perform one of the following:

a) TCX-декодирование;a) TCX decoding;

b) CELP-декодирование с постфильтрацией; иb) CELP decoding with post-filtering; And

c) CELP-декодирование без постфильтрации.c) CELP decoding without post-filtering.

В двадцать седьмом варианте осуществления, в способе двадцать шестого варианта осуществления этапы декодирования и постфильтрации избирательно выполняют один из режимов a), b), c) иIn the twenty-seventh embodiment, in the method of the twenty-sixth embodiment, the decoding and post-filtering steps selectively perform one of modes a), b), c) and

d) декодирование в режиме перспективного звукового кодирования, AAC.d) decoding in advanced audio coding mode, AAC.

В двадцать восьмом варианте осуществления, в способе двадцатого варианта осуществления сигнал битового потока сегментируется на временные кадры, и этап постфильтрации пропускается для всего временнόго кадра или для последовательности полных временных кадров.In the twenty-eighth embodiment, in the method of the twentieth embodiment, the bitstream signal is segmented into time frames, and the post-filtering step is skipped for the entire time frame or for a sequence of entire time frames.

В двадцать девятом варианте осуществления, в способе двадцать восьмого варианта осуществления:In the twenty-ninth embodiment, in the method of the twenty-eighth embodiment:

сигнал битового потока представляет собой битовый поток согласно стандарту экспертной группы по вопросам движущегося изображения, MPEG, и включает для каждого временнόго кадра связанное поле данных; иthe bitstream signal is a bitstream according to the Moving Picture Experts Group, MPEG standard, and includes, for each time frame, an associated data field; And

этап постфильтрации пропускается для временного кадра в ответ на связанное поле данных.the post-filtering step is skipped for the time frame in response to the associated data field.

В тридцатом варианте осуществления, в способе двадцатого варианта осуществления указанный пропуск постфильтрации включает одного из следующего:In the thirtieth embodiment, in the method of the twentieth embodiment, said post-filtering pass includes one of the following:

полный пропуск ослабления,complete attenuation pass,

частичный пропуск ослабления,partial attenuation skip,

постепенное увеличение ослабления, иgradual increase in attenuation, and

постепенное уменьшение ослабления.gradual decrease in attenuation.

В тридцать первом варианте осуществления предусмотрен способ декодирования сигнала битового потока как временнόго звукового сигнала, включающий этапы, на которых:In the thirty-first embodiment, there is provided a method for decoding a bit stream signal as a temporary audio signal, including the steps of:

декодируют сигнал битового потока как предварительный временнόй звуковой сигнал; иdecoding the bit stream signal as a preliminary time audio signal; And

осуществляют постфильтрацию предварительного временнόго звукового сигнала путем ослабления межгармонического шума, посредством чего получается временной звуковой сигнал,post-filtering the preliminary temporal audio signal by attenuating the interharmonic noise, whereby a temporal audio signal is obtained,

отличающийся тем, что этап декодирования включает: characterized in that the decoding step includes:

извлечение промежуточного декодированного сигнала, представляющего возбуждение;extracting an intermediate decoded signal representing the excitation;

вычисление приближенного разностного сигнала, который служит приближением составляющей сигнала, которая будет устраняться постфильтром из декодированного сигнала, как разности между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации;calculating an approximate difference signal, which serves as an approximation of the signal component that will be removed by the post-filter from the decoded signal, as the difference between the intermediate decoded signal and the intermediate decoded signal subjected to post-filtering;

оценку по меньшей мере одного из следующих критериев:assessment of at least one of the following criteria:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение;a) whether the power of the approximate difference signal exceeds a predetermined threshold;

b) является ли тональным характер приближенного разностного сигнала;b) whether the approximate difference signal is tonal in nature;

c) является ли разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временнόго звукового сигнала неравномерно распределенной относительно частоты;c) whether the difference between the frequency spectra of the absolute values of the approximate difference signal and the temporal audio signal is unevenly distributed relative to frequency;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости;d) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within a predetermined significance envelope;

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом;e) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within the significance envelope obtained by thresholding the frequency spectrum of the absolute values of the temporary audio signal by the absolute value of the largest component of the signal, here reduced in scale with a predetermined scale factor;

и, в ответ на положительное определение, – отключение постфильтра, посредством чего предварительный временной звуковой сигнал является выходным как временной звуковой сигнал.and, in response to the affirmative determination, disabling the post-filter, whereby the pre-temporal audio signal is output as a temporal audio signal.

В тридцать втором варианте осуществления предусмотрена система (800) кодера, предназначенная для кодирования временного звукового сигнала как сигнала битового потока, которая содержит секцию (810) кодирования, предназначенную для кодирования временнόго звукового сигнала как сигнала битового потока,In a thirty-second embodiment, an encoder system (800) for encoding a temporary audio signal as a bit stream signal is provided, which includes an encoding section (810) for encoding the temporary audio signal as a bit stream signal,

отличающаяся наличием секции (820) принятия решения, адаптированной для принятия решения о том, следует ли при декодировании сигнала битового потока отключать постфильтрацию, которая включает ослабление межгармонического шума, и для кодирования этого решения как информации о постфильтрации в сигнале битового потока. characterized by having a decision section (820) adapted to decide whether, when decoding a bitstream signal, post-filtering, which includes attenuation of inter-harmonic noise, should be turned off, and to encode this decision as post-filtering information in the bitstream signal.

В тридцать третьем варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для принятия решения о том, отключать ли постфильтрацию, которая также включает ослабление шума, находящегося во впадинах спектра.In the thirty-third embodiment, in the encoder system of the thirty-second embodiment, the decision section is adapted to decide whether to disable post-filtering, which also includes attenuation of noise located in the valleys of the spectrum.

В тридцать четвертом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция кодирования содержит модуль кодирования речи.In the thirty-fourth embodiment, in the encoder system of the thirty-second embodiment, the encoding section includes a speech encoding unit.

В тридцать пятом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция кодирования включает модуль кодирования в режиме линейного предсказания с кодовым возбуждением, CELP.In the thirty-fifth embodiment, in the encoder system of the thirty-second embodiment, the encoding section includes a code excitation linear prediction (CELP) encoding unit.

В тридцать шестом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:In the thirty-sixth embodiment, in the encoder system of the thirty-second embodiment, the decision section is adapted to:

обнаружения совместного присутствия составляющей сигнала с доминантной основной частотой и составляющей сигнала, находящейся ниже основной частоты и, необязательно, между ее гармониками; иdetecting the co-presence of a signal component with a dominant fundamental frequency and a signal component located below the fundamental frequency and, optionally, between its harmonics; And

в ответ на это, – для принятия решения об отключении.in response to this, to make a decision to disconnect.

В тридцать седьмом варианте осуществления, в системе кодера тридцать пятого варианта осуществления:In the thirty-seventh embodiment, in the encoder system of the thirty-fifth embodiment:

модуль CELP-кодирования адаптирован для оценки частоты основного тона во временнόм звуковом сигнале; иthe CELP coding module is adapted to estimate the pitch frequency in a temporal audio signal; And

секция принятия решения адаптирована для обнаружения спектральных составляющих, находящихся ниже оценочной частоты основного тона и, в ответ на это, – для принятия решения об отключении.The decision section is adapted to detect spectral components below the estimated pitch frequency and, in response, to make a shutdown decision.

В тридцать восьмом варианте осуществления, в системе кодера тридцать пятого варианта осуществления секция принятия решения адаптирована дляIn the thirty-eighth embodiment, in the encoder system of the thirty-fifth embodiment, the decision section is adapted to

вычисления разности между предсказываемой мощностью временнόго звукового сигнала при CELP-кодировании, и предсказываемой мощностью временнόго звукового сигнала при CELP-кодировании и постфильтрации, и,calculating the difference between the predicted power of the temporal audio signal under CELP encoding, and the predicted power of the temporal audio signal under CELP encoding and post-filtering, and,

в ответ на то, что эта разность превышает предварительно определенное пороговое значение, – для принятия решения об отключении.in response to the fact that this difference exceeds a predetermined threshold value - to make a shutdown decision.

В тридцать девятом варианте осуществления, в системе кодера тридцать пятого варианта осуществления:In the thirty-ninth embodiment, in the encoder system of the thirty-fifth embodiment:

указанная секция кодирования также включает модуль кодирования в режиме преобразования кодированного возбуждения, TCX,said encoding section also includes a coded excitation conversion mode encoder, TCX,

где секция принятия решения адаптирована для выбора одного из следующих режимов кодирования:where the decision section is adapted to select one of the following encoding modes:

a) TCX-кодирования;a) TCX coding;

b) CELP-кодирования с постфильтрацией; иb) CELP encoding with post-filtering; And

c) CELP-кодирования без постфильтрации.c) CELP coding without post-filtering.

В сороковом варианте осуществления,система кодера тридцать девятого варианта осуществления также содержит селектор (814) кодирования, адаптированный для выбора одного из следующих супер-режимов:In the fortieth embodiment, the encoder system of the thirty-ninth embodiment also includes an encoding selector 814 adapted to select one of the following super modes:

i) перспективное звуковое кодирование, ААС, где секция принятия решения отключена; иi) advanced audio coding, AAC, where the decision section is disabled; And

ii) TCX/CELP-кодирования, где секция принятия решения подключена с целью выбора одного из режимов кодирования a), b) или c).ii) TCX/CELP encoding, where the decision section is connected to select one of the encoding modes a), b) or c).

В сорок первом варианте осуществления, в системе кодера тридцать девятого варианта осуществления секция принятия решения адаптирована для принятия решения о том, какой режим использовать, на основе оптимизации зависимости искажений от скорости передачи данных.In the forty-first embodiment, in the encoder system of the thirty-ninth embodiment, the decision section is adapted to decide which mode to use based on optimizing the distortion versus data rate relationship.

В сорок втором варианте осуществления система кодера тридцать второго варианта осуществлениятакже адаптирована для сегментирования сигнала битового потока на временные кадры, где секция принятия решения адаптирована принять решение об отключении постфильтра во временных сегментах, состоящих из полных кадров.In the forty-second embodiment, the encoder system of the thirty-second embodiment is also adapted to segment the bit stream signal into time frames, where the decision section is adapted to decide to disable the post filter in time segments consisting of complete frames.

В сорок третьем варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для принятия решения о постепенном уменьшении и/или увеличении ослабления постфильтра.In the forty-third embodiment, in the encoder system of the thirty-second embodiment, the decision section is adapted to decide whether to gradually decrease and/or increase the attenuation of the post filter.

В сорок четвертом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:In the forty-fourth embodiment, in the encoder system of the thirty-second embodiment, the decision section is adapted to:

вычисления мощности временнόго звукового сигнала ниже оценочной частоты основного тона; иcalculating the power of a temporary audio signal below the estimated fundamental frequency; And

в ответ на то, что указанная мощность превышает предварительно определенное пороговое значение, – для принятия решения об отключении.in response to the specified power exceeding a predetermined threshold - to make a shutdown decision.

В сорок пятом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:In the forty-fifth embodiment, in the encoder system of the thirty-second embodiment, the decision section is adapted to:

получения из временнόго звукового сигнала приближенного разностного сигнала, служащего приближением составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала;obtaining from the temporary audio signal an approximate difference signal, which serves as an approximation of the signal component that will be eliminated by the post-filter from the future decoded signal;

оценки по меньшей мере одного из следующих критериев:assessment of at least one of the following criteria:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение;a) whether the power of the approximate difference signal exceeds a predetermined threshold;

b) является ли тональным характер приближенного разностного сигнала;b) whether the approximate difference signal is tonal in nature;

c) является ли разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временнόго звукового сигнала неравномерно распределенной относительно частоты;c) whether the difference between the frequency spectra of the absolute values of the approximate difference signal and the temporal audio signal is unevenly distributed relative to frequency;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости; иd) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within a predetermined significance envelope; And

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом;e) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within the significance envelope obtained by thresholding the frequency spectrum of the absolute values of the temporary audio signal by the absolute value of the largest component of the signal, here reduced in scale with a predetermined scale factor;

и, в ответ на положительное определение, – принять решение об отключении постфильтра.and, in response to a positive determination, decide to disable the post-filter.

В сорок шестом варианте осуществления, в системе кодера сорок пятого варианта осуществления секция принятия решения адаптирована для вычисления приближенного разностного сигнала как разности между временным звуковым сигналом и временным звуковым сигналом, подвергнутым постфильтрации.In the forty-sixth embodiment, in the encoder system of the forty-fifth embodiment, the decision section is adapted to calculate an approximate difference signal as the difference between the temporal audio signal and the post-filtered temporal audio signal.

В сорок седьмом варианте осуществления, в система кодера сорок пятого варианта осуществления:In the forty-seventh embodiment, in the encoder system of the forty-fifth embodiment:

секция кодирования адаптирована для извлечения промежуточного кодированного сигнала, представляющего возбуждение, и для его передачи в секцию принятия решения; иthe encoding section is adapted to extract the intermediate encoded signal representing the excitation and transmit it to the decision section; And

секция принятия решения адаптирована для вычисления приближенного разностного сигнала как разности между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации.the decision section is adapted to calculate an approximate difference signal as the difference between the temporary audio signal and the intermediate post-filtered decoded signal.

В сорок восьмом варианте осуществления предусмотрен способ кодирования временнόго звукового сигнала как сигнала битового потока, где способ включает этап кодирования временнόго звукового сигнала как сигнала битового потока,In a forty-eighth embodiment, there is provided a method for encoding a temporary audio signal as a bit stream signal, where the method includes the step of encoding a temporary audio signal as a bit stream signal,

отличающийся наличием также этапа принятия решения о том, следует ли при декодировании битового потока отключить постфильтрацию, которая включает ослабление межгармонического шума, и кодированием этого решения как информации о постфильтрации в сигнале битового потока.different by also having a step of deciding whether post-filtering, which includes attenuation of inter-harmonic noise, should be turned off when decoding the bit stream, and encoding this decision as post-filtering information in the bit stream signal.

В сорок девятом варианте осуществления, в способе сорок восьмого варианта осуществления этап принятия решения относится к постфильтрации, которая также включает ослабление шума, находящегося во впадинах спектра.In the forty-ninth embodiment, in the method of the forty-eighth embodiment, the decision step relates to post-filtering, which also includes attenuation of noise located in the valleys of the spectrum.

В пятидесятом варианте осуществления, в способе сорок восьмого варианта осуществления этап кодирования включает применение способа кодирования, адаптированного для кодирования речи.In the fiftieth embodiment, in the method of the forty-eighth embodiment, the encoding step includes applying an encoding method adapted for speech encoding.

В пятьдесят первом варианте осуществления, в cпособе сорок восьмого варианта осуществления этап кодирования включает применение кодирования в режиме линейного предсказания с кодовым возбуждением, CELP.In the fifty-first embodiment, in the method of the forty-eighth embodiment, the encoding step includes applying code-excited linear prediction, CELP encoding.

В пятьдесят втором варианте осуществления, способ сорок восьмого варианта осуществления также включает этап обнаружения совместного присутствия составляющей сигнала с доминантной основной частотой и составляющей сигнала, находящейся ниже основной частоты и, необязательно, между ее гармониками,In the fifty-second embodiment, the method of the forty-eighth embodiment also includes the step of detecting the co-presence of a signal component with a dominant fundamental frequency and a signal component below the fundamental frequency and optionally between its harmonics,

где решение об отключении постфильтрации принимается в случае положительного результата обнаружения.where the decision to disable post-filtering is made in case of a positive detection result.

В пятьдесят третьем варианте осуществления, в способе пятьдесят первого варианта осуществленияIn the fifty-third embodiment, in the method of the fifty-first embodiment

указанный этап CELP-кодирования включает оценку частоты основного тона во временнóм звуковом сигнале; иsaid CELP encoding step includes estimating a pitch frequency in a temporal audio signal; And

этап принятия решения включает обнаружение спектральных составляющих, находящихся ниже оценочной частоты основного тона, и решение об отключении постфильтрации принимается в случае положительного результата обнаружения.The decision stage involves detecting spectral components below the estimated pitch frequency, and a decision to disable post-filtering is made if the detection is positive.

В пятьдесят четвертом варианте осуществления способ пятьдесят первого варианта осуществления также включает этап вычисления разности между предсказываемой мощностью временнóго звукового сигнала при CELP-кодировании и предсказываемой мощностью временнóго звукового сигнала при CELP-кодировании и постфильтрации,In the fifty-fourth embodiment, the method of the fifty-first embodiment also includes the step of calculating a difference between the predicted power of the temporal audio signal under CELP encoding and the predicted power of the temporal audio signal under CELP encoding and post-filtering,

где решение об отключении постфильтрации принимается, если эта разность превышает предварительно определенное пороговое значение.where the decision to disable post-filtering is made if this difference exceeds a predefined threshold value.

В пятьдесят пятом варианте осуществления, в способе пятьдесят первого варианта осуществления:In the fifty-fifth embodiment, in the method of the fifty-first embodiment:

этап кодирования включает избирательное применение или CELP-кодирования или кодирования в режиме преобразования кодированного возбуждения, ТСХ; иthe encoding step includes selectively applying either CELP encoding or coded excitation transform, TLC encoding; And

этап обнаружения того, должна ли быть отключена постфильтрация, выполняется только тогда, когда применяется CELP-кодирование.the step of detecting whether post-filtering should be disabled is performed only when CELP encoding is applied.

В пятьдесят шестом варианте осуществления, в способе пятьдесят пятого варианта осуществления этап принятия решения включает выбор на основе оптимизации зависимости искажений от скорости передачи данных одного из следующих рабочих режимов:In the fifty-sixth embodiment, in the method of the fifty-fifth embodiment, the decision step includes selecting, based on optimization of the distortion versus data rate relationship, one of the following operating modes:

a) TCX-кодирования;a) TCX coding;

b) CELP-кодирования с постфильтрацией; иb) CELP encoding with post-filtering; And

c) CELP-кодирования без постфильтрации.c) CELP coding without post-filtering.

57. Способ согласно варианту осуществления изобретения 55, где этап принятия решения включает выбор на основе оптимизации зависимости искажений от скорости передачи данных одного из следующих рабочих режимов57. The method according to embodiment 55, wherein the decision step includes selecting, based on optimization of the distortion versus data rate relationship, one of the following operating modes

a) TCX-кодирования;a) TCX coding;

b) CELP-кодирования с постфильтрацией;b) CELP encoding with post-filtering;

c) CELP-кодирования без постфильтрации; иc) CELP coding without post-filtering; And

d) кодирования в режиме перспективного звукового кодирования, AAC.d) coding in advanced audio coding mode, AAC.

В пятьдесят восьмом варианте осуществления, в способе сорок восьмого варианта осуществления:In the fifty-eighth embodiment, in the method of the forty-eighth embodiment:

этап кодирования включает сегментирование временнóго звукового сигнала на временные кадры и формирование сигнала битового потока, содержащего соответствующие временные кадры; иthe encoding step includes segmenting the temporal audio signal into time frames and generating a bit stream signal containing the corresponding time frames; And

этап принятия решения о том, что постфильтрация должна быть отключена, осуществляется один раз в каждом временном кадре.The decision step that post-filtering should be disabled occurs once every time frame.

В пятьдесят девятом варианте осуществления, в способе сорок восьмого варианта осуществления результат этапа принятия решения о том, что постфильтрация должна быть отключена, выбирается из следующих вариантов:In the fifty-ninth embodiment, in the method of the forty-eighth embodiment, the result of the decision step that post-filtering should be disabled is selected from the following options:

отсутствие ослабления,no weakening,

полное ослабление,complete weakening

частичное ослабление,partial weakening,

постепенно увеличивающееся ослабление, иgradually increasing weakening, and

постепенно уменьшающееся ослабление.gradually decreasing weakening.

В шестидесятом варианте осуществления, в способе сорок восьмого варианта осуществления этап принятия решения включает вычисление мощности временнóго звукового сигнала ниже оценочной частоты основного тона и, в ответ, на то, что эта мощность превышает предварительно определенное пороговое значение, – отключение постфильтра.In the sixtieth embodiment, in the method of the forty-eighth embodiment, the decision step includes calculating the power of a temporary audio signal below the estimated pitch frequency and, in response to that power exceeding a predetermined threshold, turning off the post-filter.

В шестьдесят первом варианте осуществления, в способе сорок восьмого варианта осуществления:In the sixty-first embodiment, in the method of the forty-eighth embodiment:

этап кодирования включает получение из временного звукового сигнала приближенного разностного сигнала, служащего приближением составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала; иthe encoding step includes obtaining from the temporary audio signal an approximate difference signal, which serves as an approximation of the signal component that will be eliminated by the post-filter from the future decoded signal; And

этап принятия решения включает оценивание по меньшей мере одного из следующих критериев:The decision-making phase involves evaluating at least one of the following criteria:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение;a) whether the power of the approximate difference signal exceeds a predetermined threshold;

b) является ли тональным характер приближенного разностного сигнала;b) whether the approximate difference signal is tonal in nature;

c) является ли разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временнόго звукового сигнала неравномерно распределенной относительно частоты;c) whether the difference between the frequency spectra of the absolute values of the approximate difference signal and the temporal audio signal is unevenly distributed relative to frequency;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости; иd) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within a predetermined significance envelope; And

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом;e) whether the frequency spectrum of the absolute values of the approximate difference signal is localized in frequency intervals that are within the significance envelope obtained by thresholding the frequency spectrum of the absolute values of the temporary audio signal by the absolute value of the largest component of the signal, here reduced in scale with a predetermined scale factor;

и, в ответ на по меньшей мере одно положительное определение, – отключение постфильтра.and, in response to at least one positive determination, disabling the post-filter.

В шестьдесят втором варианте осуществления, в способе шестьдесят первого варианта осуществления приближенный разностный сигнал вычисляется как разность между временным звуковым сигналом и временным звуковым сигналом, подвергнутым постфильтрации.In the sixty-second embodiment, in the method of the sixty-first embodiment, the approximate difference signal is calculated as the difference between the temporary audio signal and the post-filtered temporary audio signal.

В шестьдесят третьем варианте осуществления, в способе шестьдесят первого варианта осуществления:In the sixty-third embodiment, in the method of the sixty-first embodiment:

этап кодирования включает извлечение промежуточного декодированного сигнала, представляющего возбуждение; иthe encoding step includes extracting an intermediate decoded signal representing the excitation; And

этап принятия решения включает вычисление приближенного разностного сигнала как разности между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации.the decision step involves calculating an approximate difference signal as the difference between the temporal audio signal and the intermediate post-filtered decoded signal.

В шестьдесят четвертом варианте осуществления предусмотрен машиночитаемый носитель данных, содержащий компьютерный программный продукт, хранящий команды, предназначенные для выполнения способа согласно одному из вышеприведенных вариантов осуществления изобретения.In a sixty-fourth embodiment, a computer-readable storage medium is provided containing a computer program product storing instructions for executing a method according to one of the above embodiments of the invention.

Claims (13)

1. Система (400; 500; 700; 1000) декодера для декодирования сигнала битового потока как временного звукового сигнала, содержащая:1. A decoder system (400; 500; 700; 1000) for decoding a bitstream signal as a temporary audio signal, comprising: секцию (410; 511, 512, 513; 711, 712, 713; 1011, 1013) декодирования для декодирования сигнала битового потока как предварительного временного звукового сигнала, причем секция декодирования выполнена с возможностью работы в по меньшей мере одном первом режиме декодирования, включающем постфильтрацию, и по меньшей мере одном втором режиме декодирования, не включающем постфильтрацию; иa decoding section (410; 511, 512, 513; 711, 712, 713; 1011, 1013) for decoding the bitstream signal as a preliminary temporal audio signal, the decoding section being configured to operate in at least one first decoding mode including post-filtering , and at least one second decoding mode not including post-filtering; And фильтр (440; 540; 740; 1040) усиления тона для постфильтрации предварительного временного звукового сигнала для получения временного звукового сигнала, при этом усилением тона управляют посредством коэффициента усиления постфильтра,a tone gain filter (440; 540; 740; 1040) for post-filtering a preliminary temporary audio signal to obtain a temporary audio signal, wherein the tone gain is controlled by a post-filter gain, отличающаяся тем, что содержит секцию управления, выполненную с возможностью выборочного отключения фильтра усиления тона путем установки коэффициента усиления постфильтра на нуль в указанном по меньшей мере одном первом режиме декодирования в ответ только на информацию о постфильтрации, закодированную в сигнале битового потока, причем информация о постфильтрации указывает на решение на стороне кодера относительно того, отключать ли постфильтрацию, посредством чего предварительный временной звуковой сигнал выводится как временной звуковой сигнал.characterized in that it comprises a control section configured to selectively disable the tone gain filter by setting the post-filter gain to zero in said at least one first decoding mode in response only to post-filtering information encoded in the bitstream signal, wherein the post-filtering information indicates a decision on the encoder side as to whether to disable post-filtering, whereby the pre-temporal audio signal is output as a temporary audio signal. 2. Система декодера по п. 1, отличающаяся тем, что указанная секция декодирования содержит модуль (511; 711; 1011) декодирования с линейным предсказанием с кодовым возбуждением (CELP).2. The decoder system according to claim 1, wherein said decoding section comprises a code-excited linear prediction (CELP) decoding module (511; 711; 1011). 3. Система декодера по п. 2, отличающаяся тем, что секция декодирования дополнительно содержит модуль (713; 1013) декодирования в частотной области.3. The decoder system according to claim 2, characterized in that the decoding section further comprises a frequency domain decoding module (713; 1013). 4. Система декодера по п. 1, отличающаяся тем, что фильтр усиления тона содержит контроллер коэффициента усиления для установки коэффициента усиления постфильтра на нуль, когда фильтр усиления тона отключен.4. The decoder system of claim 1, wherein the tone gain filter includes a gain controller for setting the post filter gain to zero when the tone gain filter is disabled. 5. Система декодера по п. 1, отличающаяся тем, что фильтр усиления тона представляет собой басовый постфильтр.5. The decoder system according to claim 1, characterized in that the tone enhancement filter is a bass post-filter. 6. Способ декодирования сигнала битового потока как временного звукового сигнала, включающий этапы: 6. A method for decoding a bitstream signal as a temporary audio signal, comprising the steps of: декодирования сигнала битового потока как предварительного временного звукового сигнала в одном из множества режимов декодирования, причем указанное множество режимов декодирования включает по меньшей мере один первый режим декодирования, включающий этап постфильтрации, и по меньшей мере один второй режим декодирования, не включающий этап постфильтрации; decoding the bitstream signal as a preliminary temporal audio signal in one of a plurality of decoding modes, the plurality of decoding modes including at least one first decoding mode including a post-filtering step, and at least one second decoding mode not including a post-filtering step; при этом на этапе постфильтрации применяют фильтр усиления тона к предварительному временному звуковому сигналу, за счет чего получают временной звуковой сигнал, при этом фильтром усиления тона управляют посредством коэффициента усиления постфильтра,wherein in the post-filtering step, a tone enhancement filter is applied to the preliminary temporary audio signal, thereby obtaining a temporary audio signal, wherein the tone enhancement filter is controlled by the post-filter gain, отличающийся тем, что в указанном по меньшей мере одном первом режиме декодирования этап постфильтрации выборочно отключают в ответ только на информацию о постфильтрации, закодированную в сигнале битового потока, путем установки коэффициента усиления постфильтра на нуль, причем информация о постфильтрации указывает на решение на стороне кодера относительно того, отключать ли постфильтрацию.characterized in that, in said at least one first decoding mode, the post-filtering step is selectively disabled in response only to post-filtering information encoded in the bitstream signal by setting the post-filter gain to zero, wherein the post-filtering information indicates an encoder-side decision regarding whether to disable postfiltering. 7. Носитель данных, на котором хранятся команды, которые при их исполнении процессором цифровой обработки сигналов вызывают выполнение процессором цифровой обработки сигналов способа по п. 6.7. A storage medium on which instructions are stored that, when executed by a digital signal processor, cause the digital signal processor to execute the method of claim 6.
RU2023105288A 2010-07-02 2023-03-08 Selective bass post-filter RU2802659C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US61/361,237 2010-07-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2019135620A Division RU2791678C2 (en) 2010-07-02 2019-11-06 Selective bass post-filter

Publications (1)

Publication Number Publication Date
RU2802659C1 true RU2802659C1 (en) 2023-08-30

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293902A1 (en) * 2005-06-24 2006-12-28 Samsung Electronics Co., Ltd. Method and apparatus for generating bitstream of audio signal and audio encoding/decoding method and apparatus thereof
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal
US20090067642A1 (en) * 2007-08-13 2009-03-12 Markus Buck Noise reduction through spatial selectivity and filtering
US20090265168A1 (en) * 2008-04-22 2009-10-22 Electronics And Telecommunications Research Institute Noise cancellation system and method
RU2376656C1 (en) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Audio signal coding and decoding method and device to this end

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal
US20060293902A1 (en) * 2005-06-24 2006-12-28 Samsung Electronics Co., Ltd. Method and apparatus for generating bitstream of audio signal and audio encoding/decoding method and apparatus thereof
RU2376656C1 (en) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Audio signal coding and decoding method and device to this end
US20090067642A1 (en) * 2007-08-13 2009-03-12 Markus Buck Noise reduction through spatial selectivity and filtering
US20090265168A1 (en) * 2008-04-22 2009-10-22 Electronics And Telecommunications Research Institute Noise cancellation system and method

Similar Documents

Publication Publication Date Title
RU2707716C1 (en) Selective bass post-filter
AU2016204672B2 (en) Audio encoder and decoder with multiple coding modes
RU2802659C1 (en) Selective bass post-filter
RU2791678C2 (en) Selective bass post-filter
AU2017276209B2 (en) Pitch Filter for Audio Signals and Method for Filtering an Audio Signal with a Pitch Filter
AU2015200065B2 (en) Post filter, decoder system and method of decoding