RU2800626C2

RU2800626C2 - High resolution audio encoding

Info

Publication number: RU2800626C2
Application number: RU2021123941A
Authority: RU
Inventors: Ян ГАО
Original assignee: Хуавэй Текнолоджиз Ко., Лтд.
Priority date: 2019-01-13
Filing date: 2020-01-13
Publication date: 2023-07-25

Abstract

FIELD: computer technology for audio signal processing.

SUBSTANCE: invention aims at increasing the efficiency of encoding an audio signal when streaming high-resolution audio via Wi-Fi or a mobile network without compression. It is achieved by receiving an audio signal, generating a residual signal from the sub-band signals, determining that these sub-band signals are an intense tone signal, and in response to the aforementioned determination that the sub-band signal is an intense tone signal, weighting is performed in relation to the mentioned residual signal of at least one of the one or more subband signals to generate a weighted residual signal, wherein said at least one of the one or more subband signals contains a plurality of harmonic frequencies, wherein said determination that at least one of the one or more subband signals signals is an intense tone signal, comprises a step at which it is determined that the frequency of the first harmonic of the plurality of harmonic frequencies exceeds the first predetermined threshold value and that the level of the background spectrum of the said at least one of one or more subband signals is below the second predetermined threshold value.

EFFECT: increasing the efficiency of encoding an audio signal when streaming high-resolution audio via Wi-Fi or a mobile network without compression.

15 cl, 21 dwg

Description

Область техники, к которой относится изобретениеThe technical field to which the invention belongs

[0001] Настоящее раскрытие относится к обработке сигналов и, более конкретно, к повышению эффективности кодирования звуковых сигналов.[0001] The present disclosure relates to signal processing and, more specifically, to improving the coding efficiency of audio signals.

Уровень техникиState of the art

[0002] Звук высокого разрешения (hi-res), также известный как звук высокой четкости или HD-аудио, - это маркетинговый термин, используемый некоторыми розничными продавцами записанной музыки и поставщиками оборудования для воспроизведения звука с высокой точностью воспроизведения. Проще говоря, звук высокого разрешения, как правило, относится к музыкальным файлам, которые имеют более высокую частоту дискретизации и/или битовую глубину по сравнению с компакт-диском (CD), у которого они заданы как 16 бит/44,1 кГц. Основным заявленным преимуществом звуковых файлов высокого разрешения является превосходное качество звука по сравнению со сжатыми звуковыми форматами. Чем больше информации о файле для воспроизведения, тем выше качество звука и текстуры, что приближает слушателей к исходному исполнению.[0002] Hi-res audio, also known as high definition audio or HD audio, is a marketing term used by some recorded music retailers and high fidelity audio equipment providers. Simply put, high-resolution audio generally refers to music files that have a higher sample rate and/or bit depth than a compact disc (CD), which is specified as 16-bit/44.1kHz. The main claimed benefit of high-resolution audio files is the superior audio quality compared to compressed audio formats. The more information about the file to play, the higher the quality of sound and texture, bringing listeners closer to the original performance.

[0003] У звука высокого разрешения есть и обратная сторона: размер файла. Файл с высоким разрешением обычно может иметь размер в несколько десятков мегабайт, и несколько треков могут быстро израсходовать память на устройстве. Хотя хранилище намного дешевле, чем раньше, размер файлов по-прежнему может затруднить потоковую передачу звука высокого разрешения через Wi-Fi или мобильную сеть без сжатия.[0003] High resolution audio has a downside: file size. A high-resolution file can typically be several tens of megabytes in size, and a few tracks can quickly use up device memory. While storage is much cheaper than before, file sizes can still make it difficult to stream high-resolution audio over Wi-Fi or a mobile network without compression.

Сущность изобретенияThe essence of the invention

[0004] В некоторых вариантах реализации данный документ описывает методики повышения эффективности кодирования звукового сигнала.[0004] In some embodiments, this document describes techniques for improving audio coding efficiency.

[0005] В первом варианте реализации способ кодирования звука включает в себя: прием звукового сигнала, при этом звуковой сигнал содержит один или более поддиапазонных сигналов; генерирование остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0005] In the first embodiment, an audio encoding method includes: receiving an audio signal, wherein the audio signal comprises one or more sub-band signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more sub-band signals is an intense tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, performing weighting on the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0006] Во втором варианте реализации электронное устройство включает в себя: долговременное запоминающее хранилище, содержащее инструкции, и один или более аппаратных процессоров, осуществляющих связь с запоминающим хранилищем, при этом один или более аппаратных процессоров исполняют инструкции для: приема звукового сигнала, при этом звуковой сигнал содержит один или более поддиапазонных сигналов; генерирования остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определения, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнения взвешивание в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0006] In a second embodiment, the electronic device includes: a long-term storage containing instructions, and one or more hardware processors in communication with the storage, the one or more hardware processors executing instructions for: receiving an audio signal, wherein the audio signal contains one or more subband signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more sub-band signals is an intense tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, weighting the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0007] В третьем варианте реализации долговременный машиночитаемый носитель, хранящий компьютерные инструкции для кодирования звука, которые при их исполнении одним или более аппаратными процессорами предписывают одному или более аппаратным процессорам выполнять операции, включающие в себя: прием звукового сигнала, при этом звуковой сигнал содержит один или более поддиапазонных сигналов; генерирование остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0007] In a third embodiment, a non-volatile computer-readable medium storing computer instructions for encoding audio which, when executed by one or more hardware processors, causes the one or more hardware processors to perform operations including: receiving an audio signal, wherein the audio signal comprises one or more subband signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more sub-band signals is a strong tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, performing weighting on the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0008] Описанные ранее варианты реализации можно реализовать посредством реализуемого компьютером способа; долговременного машиночитаемого носителя, хранящего машиночитаемые инструкции для выполнения реализуемого компьютером способа; и реализуемой компьютером системой, содержащая компьютерную память, функционально соединенную с аппаратным процессором, выполненным с возможностью выполнения реализуемого компьютером способа и инструкций, хранящихся на долговременном машиночитаемом носителе.[0008] The previously described embodiments may be implemented via a computer-implemented method; a durable computer-readable medium storing computer-readable instructions for performing a computer-implemented method; and a computer-implemented system comprising a computer memory operatively coupled to a hardware processor configured to execute the computer-implemented method and instructions stored on a durable computer-readable medium.

[0009] Подробности одного или более вариантов осуществления заявляемого изобретения в данном описании изложены на прилагаемых чертежах и в описании ниже. Другие признаки, аспекты и преимущества заявляемого изобретения станут очевидными из описания, чертежей и формулы изобретения.[0009] Details of one or more embodiments of the claimed invention herein are set forth in the accompanying drawings and in the description below. Other features, aspects and advantages of the claimed invention will become apparent from the description, drawings and claims.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0010] На Фиг. 1 показана примерная структура кодера L2HC (кодека с низкой задержкой и низкой сложностью с высоким разрешением) согласно некоторым вариантам реализации.[0010] In FIG. 1 shows an exemplary structure of an L2HC (Low Latency, Low Complexity, High Resolution) encoder, according to some embodiments.

[0011] На Фиг. 2 показана примерная структура декодера L2HC согласно некоторым вариантам реализации.[0011] In FIG. 2 shows an exemplary structure of an L2HC decoder according to some implementations.

[0012] На Фиг. 3 показана примерная структура кодера нижней части нижнего диапазона (LLB) согласно некоторым вариантам реализации.[0012] In FIG. 3 shows an exemplary low-low-band (LLB) encoder structure, in accordance with some embodiments.

[0013] На Фиг. 4 показана примерная структура декодера LLB согласно некоторым вариантам реализации.[0013] In FIG. 4 shows an exemplary structure of an LLB decoder according to some implementations.

[0014] На Фиг. 5 показана примерная структура кодера верхней части нижнего диапазона (LHB) согласно некоторым вариантам реализации.[0014] In FIG. 5 shows an exemplary structure of a high-low-band (LHB) encoder, in accordance with some embodiments.

[0015] На Фиг. 6 показана примерная структура декодера LHB согласно некоторым вариантам реализации.[0015] In FIG. 6 shows an exemplary structure of an LHB decoder according to some implementations.

[0016] На Фиг. 7 показана примерная структура кодера для поддиапазона нижней части верхнего диапазона (HLB) и/или верхней части верхнего диапазона (HHB) согласно некоторым вариантам реализации.[0016] In FIG. 7 shows an exemplary encoder structure for a Low High Band (HLB) and/or High High Band (HHB) subband, in accordance with some embodiments.

[0017] На Фиг. 8 показана примерная структура декодера для поддиапазона HLB и/или HHB согласно некоторым вариантам реализации.[0017] In FIG. 8 shows an exemplary decoder structure for an HLB and/or HHB subband, in accordance with some embodiments.

[0018] На Фиг. 9 показана примерная спектральная структура интенсивного тонового сигнала согласно некоторым вариантам реализации.[0018] In FIG. 9 shows an exemplary intense tone spectral structure in some embodiments.

[0019] На Фиг. 10 показан примерный процесс обнаружения интенсивных тонов согласно некоторым вариантам реализации.[0019] In FIG. 10 shows an exemplary process for detecting intense tones in accordance with some embodiments.

[0020] На Фиг. 11 показана блок-схема последовательности операций, иллюстрирующая примерный способ выполнения взвешивания по восприятию интенсивного тонового сигнала согласно некоторым вариантам реализации.[0020] In FIG. 11 is a flowchart illustrating an exemplary method for performing strong tone perception weighting according to some embodiments.

[0021] На Фиг. 12 показана примерная структура кодера квантования остатка согласно некоторым вариантам реализации.[0021] In FIG. 12 shows an exemplary structure of a residual quantization encoder according to some embodiments.

[0022] На Фиг. 13 показана примерная структура декодера квантования остатка согласно некоторым вариантам реализации.[0022] In FIG. 13 shows an exemplary structure of a residual quantization decoder according to some embodiments.

[0023] На Фиг. 14 показана блок-схема последовательности операций, иллюстрирующая примерный способ выполнения квантования остатка для сигнала согласно некоторым вариантам реализации.[0023] In FIG. 14 is a flowchart illustrating an exemplary method for performing residual quantization on a signal, in accordance with some embodiments.

[0024] На Фиг. 15 показан пример вокализованной речи согласно некоторым вариантам реализации.[0024] In FIG. 15 shows an example of voiced speech according to some embodiments.

[0025] На Фиг. 16 показан примерный процесс выполнения управления долгосрочным предсказанием (LTP) согласно некоторым вариантам реализации.[0025] In FIG. 16 shows an exemplary process for performing long term prediction (LTP) control, according to some embodiments.

[0026] На Фиг. 17 показан примерный спектр звукового сигнала согласно некоторым вариантам реализации.[0026] In FIG. 17 shows an exemplary audio signal spectrum according to some embodiments.

[0027] На Фиг. 18 показана блок-схема последовательности операций, иллюстрирующая примерный способ выполнения долгосрочного предсказания (LTP) согласно некоторым вариантам реализации.[0027] In FIG. 18 is a flowchart illustrating an exemplary method for performing long term prediction (LTP) according to some embodiments.

[0028] На Фиг. 19 показана блок-схема последовательности операций, иллюстрирующая примерный способ квантования параметров кодирования с линейным предсказанием (LPC) согласно некоторым вариантам реализации.[0028] In FIG. 19 is a flowchart illustrating an exemplary method for quantizing linear predictive coding (LPC) parameters, according to some embodiments.

[0029] На Фиг. 20 показан примерный спектр звукового сигнала согласно некоторым вариантам реализации.[0029] In FIG. 20 shows an exemplary audio signal spectrum according to some embodiments.

[0030] На Фиг. 21 показана схема, иллюстрирующая примерную структуру электронного устройства согласно некоторому варианту реализации.[0030] In FIG. 21 is a diagram illustrating an exemplary structure of an electronic device according to an embodiment.

[0031] Одинаковые ссылочные позиции и обозначения на различных чертежах обозначают одинаковые элементы.[0031] Like reference numerals and designations throughout the various drawings refer to like elements.

Подробное описаниеDetailed description

[0032] Вначале следует понимать, что хотя иллюстративная реализация одного или более вариантов осуществления приведена ниже, раскрытые системы и/или способы могут быть реализованы с использованием любого количества методик, в настоящее время известных или существующих. Настоящее раскрытие никоим образом не должно ограничиваться иллюстративными реализациями, чертежами и технологиями, проиллюстрированными ниже, включая иллюстративные конструкции и варианты реализации, проиллюстрированные и описанные здесь, но может быть изменено в пределах объема прилагаемой формулы изобретения вместе с полным объемом их эквивалентов.[0032] It should first be understood that although an illustrative implementation of one or more embodiments is provided below, the disclosed systems and/or methods may be implemented using any number of techniques currently known or existing. The present disclosure should in no way be limited to the illustrative implementations, drawings, and techniques illustrated below, including the illustrative structures and embodiments illustrated and described herein, but may be varied within the scope of the appended claims, together with the full scope of their equivalents.

[0033] Звук высокого разрешения (hi-res), также известный как звук высокой четкости или HD-аудио, - это маркетинговый термин, используемый некоторыми розничными продавцами записанной музыки и поставщиками оборудования для воспроизведения звука с высокой точностью воспроизведения. Звук высокого разрешения медленно, но верно становится массовым благодаря выпуску большего количества продуктов, потоковых служб и даже смартфонов, поддерживающих стандарты высокого разрешения. Однако, в отличие от видео высокой четкости, не существует единого универсального стандарта для звука высокого разрешения. Digital Entertainment Group, Consumer Electronics Association и The Recording Academy вместе с звукозаписывающими компаниями официально определили звук высокого разрешения как: "Звук без потерь, который способен воспроизводить весь диапазон звучания из записей, которые были сведены лучше, чем от музыкальных источников CD-качества». Проще говоря, звук (звучание) высокого разрешения, как правило, относится к музыкальным файлам, которые имеют более высокую частоту дискретизации и/или битовую глубину, чем компакт-диск (CD), для которого эти параметры заданы как 16 бит/44,1 кГц. Частота дискретизации (или скорость дискретизации) означает, сколько раз дискретные отсчеты сигнала берутся в секунду в процессе аналого-цифрового преобразования. Чем больше битов, тем точнее можно измерить сигнал в первую очередь. Следовательно, переход от 16-битной к 24-битной битовой глубине может обеспечить заметный скачок в качестве. В звуковых файлах высокого разрешения обычно используется частота дискретизации 96 кГц (или даже намного выше) при 24 битах. В некоторых случаях частота дискретизации в 88,2 кГц также может использоваться для звуковых файлов высокого разрешения. Также существуют записи 44,1 кГц/24 бита, которые помечены как HD-аудио.[0033] Hi-res audio, also known as high definition audio or HD audio, is a marketing term used by some recorded music retailers and high fidelity audio equipment providers. High-resolution audio is slowly but surely becoming mainstream with more products, streaming services and even smartphones that support high-definition standards. However, unlike high definition video, there is no single universal standard for high definition audio. Digital Entertainment Group, Consumer Electronics Association, and The Recording Academy, along with record labels, have officially defined High-Resolution Audio as: "Lossless audio that is capable of reproducing the full range of sound from recordings that have been mixed better than CD-quality music sources." Simply put, high-resolution audio generally refers to music files that have a higher sample rate and/or bit depth than a compact disc (CD), which is set to 16-bit/44.1 kHz Sampling frequency (or sample rate) refers to how many times the discrete samples of a signal are taken per second during the A/D conversion process The more bits, the more accurately the signal can be measured in the first place Hence the transition from 16-bit to 24-bit bit depth can provide a noticeable jump in quality High resolution audio files typically use a sampling rate of 96 kHz (or even much higher) at 24 bits. In some cases, the sampling rate of 88.2 kHz can also be used for high resolution audio files. There are also 44.1kHz/24bit recordings that are labeled as HD audio.

[0034] Существует несколько различных форматов звуковых файлов высокого разрешения с собственными требованиями к совместимости. Форматы файлов, способные хранить звук высокого разрешения, включают в себя популярные форматы FLAC (Free Lossless Audio Codec (Бесплатный аудиокодек без потерь)) и ALAC (Apple Lossless Audio Codec (Аудиокодек без потерь от Apple), оба из которых сжаты, но таким образом, что теоретически никакая информация не теряется. Другие форматы включают в себя несжатые форматы WAV и AIFF, DSD (формат, используемый для Super Audio CD (CD с супер звуком)) и более поздний MQA (Master Quality Authenticated (Подтвержденное мастер качество)). Ниже приводится классификация основных форматов файлов:[0034] There are several different high resolution audio file formats with their own compatibility requirements. File formats capable of storing high-resolution audio include the popular FLAC (Free Lossless Audio Codec) and ALAC (Apple Lossless Audio Codec), both of which are compressed, but that theoretically no information is lost.Other formats include uncompressed WAV and AIFF formats, DSD (the format used for Super Audio CDs) and the more recent MQA (Master Quality Authenticated). The following is a classification of the main file formats:

[0035] WAV (высокое разрешение): Стандартный формат, в котором закодированы все компакт-диски. Отличное качество звука, но без сжатия, что означает огромный размер файлов (особенно для файлов с высоким разрешением). У него плохая поддержка метаданных (то есть информации об обложке альбома, исполнителе и названии песни).[0035] WAV (High Definition): A standard format in which all CDs are encoded. Great sound quality but no compression which means huge file sizes (especially for high resolution files). It has poor support for metadata (i.e. album art, artist, and song title information).

[0036] AIFF (высокое разрешение): Альтернатива WAV от Apple с улучшенной поддержкой метаданных. Он работает без потерь и без сжатия (файлы очень большого размера), но не пользуется большой популярностью.[0036] AIFF (High Definition): Apple's alternative to WAV with improved metadata support. It is lossless and uncompressed (very large files) but not very popular.

[0037] FLAC (высокое разрешение): Этот формат сжатия без потерь поддерживает частоту дискретизации высокого разрешения, занимает примерно половину пространства WAV и хранит метаданные. Он не требует лицензионных отчислений и широко поддерживается (хотя и не в Apple) и считается предпочтительным форматом для загрузки и хранения альбомов в высоком разрешении.[0037] FLAC (high definition): This lossless compression format supports high resolution sampling rate, occupies about half of the WAV space, and stores metadata. It is royalty-free and widely supported (though not by Apple) and is considered the preferred format for downloading and storing hi-res albums.

[0038] ALAC (высокое разрешение): Собственный формат сжатия Apple без потерь также обеспечивает высокое разрешение, хранит метаданные и занимает половину пространства WAV. Альтернатива FLAC, удобная для iTunes и iOS.[0038] ALAC (High Definition): Apple's proprietary lossless compression format also provides high resolution, stores metadata, and occupies half of the WAV space. Alternative to FLAC, convenient for iTunes and iOS.

[0039] DSD (высокое разрешение): Однобитовый формат, используемый для Super Audio CD. Он доступен в вариантах 2,8 МГц, 5,6 МГц и 11,2 МГц, но широко не поддерживается.[0039] DSD (High Definition): One-bit format used for Super Audio CDs. It is available in 2.8 MHz, 5.6 MHz, and 11.2 MHz variants, but is not widely supported.

[0040] MQA (высокое разрешение): Формат сжатия без потерь, который упаковывает файлы высокого разрешения с большим упором на временную область. Он используется для потоковой передачи в высоком разрешении Tidal Masters, но имеет ограниченную поддержку по продуктам.[0040] MQA (High Definition): A lossless compression format that packs high resolution files with more emphasis on the time domain. It is used for high definition streaming by Tidal Masters but has limited product support.

[0041] MP3 (без высокого разрешения): Популярный формат сжатия с потерями обеспечивает небольшой размер файла, но далеко не лучшее качество звука. Удобно хранить музыку на смартфонах и iPod, но не поддерживает высокое качество.[0041] MP3 (non-high resolution): The popular lossy compression format provides a small file size, but far from the best sound quality. It is convenient to store music on smartphones and iPods, but does not support high quality.

[0042] AAC (без высокого разрешения): Альтернатива MP3, со сжатием и с потерями, но звучит лучше. Используется для загрузки iTunes, потоковой передачи Apple Music (со скоростью 256 кбит/с) и потоковой передачи YouTube.[0042] AAC (non-high resolution): An alternative to MP3, compressed and lossy, but sounds better. Used for iTunes download, Apple Music streaming (at 256 kbps), and YouTube streaming.

[0043] Основным заявленным преимуществом звуковых файлов высокого разрешения является превосходное качество звука по сравнению со сжатыми звуковыми форматами. Загрузки с таких сайтов, как Amazon и iTunes, и потоковые сервисы, такие как Spotify, используют сжатые форматы файлов с относительно низкой битовой скоростью (битрейтом), такие как файлы AAC 256 кбит/с в Apple Music и потоки Ogg Vorbis 320 кбит/с в Spotify. Использование сжатия с потерями означает, что данные теряются в процессе кодирования, что, в свою очередь, означает, что разрешение приносится в жертву ради удобства и меньшего размера файла. Это влияет на качество звука. Например, MP3 самого высокого качества имеет битовую скорость 320 кбит/с, тогда как файл с форматом 24 бит/192 кГц имеет битовую скорость 9216 кбит/с. Музыкальные компакт-диски имеют битовую скорость 1411 кбит/с. Следовательно, файлы с высоким разрешением 24 бит/96 кГц или 24 бит/192 кГц должны более точно воспроизводить качество звука, с которым музыканты и инженеры работали в студии. Благодаря большему количеству информации о файле для воспроизведения звук в высоком разрешении имеет тенденцию похвастаться большей детализацией и текстурой, приближая слушателей к исходному исполнению - при условии, что система воспроизведения достаточно прозрачна.[0043] The main claimed benefit of high-resolution audio files is superior audio quality compared to compressed audio formats. Downloads from sites such as Amazon and iTunes and streaming services such as Spotify use compressed file formats with relatively low bit rates (bitrates), such as 256 kbps AAC files in Apple Music and 320 kbps Ogg Vorbis streams in Spotify. Using lossy compression means that data is lost during the encoding process, which in turn means that resolution is sacrificed for convenience and a smaller file size. This affects the sound quality. For example, the highest quality MP3 has a bit rate of 320 kbps, while a 24-bit/192 kHz file has a bit rate of 9216 kbps. Music CDs have a bit rate of 1411 kbps. Therefore, high-resolution 24-bit/96kHz or 24-bit/192kHz files must more accurately reproduce the sound quality that musicians and engineers worked with in the studio. With more file information to play back, high-res audio tends to boast more detail and texture, bringing listeners closer to the original performance - provided the playback system is sufficiently transparent.

[0044] У звука высокого разрешения есть и обратная сторона: размер файла. Файл с высоким разрешением обычно может иметь размер в несколько десятков мегабайт, и несколько треков могут быстро израсходовать память на устройстве. Хотя хранилища намного дешевле, чем раньше, размер файлов по-прежнему может затруднить потоковую передачу звука высокого разрешения через Wi-Fi или мобильную сеть без сжатия.[0044] High resolution audio has a downside: file size. A high-resolution file can typically be several tens of megabytes in size, and a few tracks can quickly use up device memory. While storage is much cheaper than before, file sizes can still make it difficult to stream high-resolution audio over Wi-Fi or a mobile network without compression.

[0045] Существует огромное количество разнообразных продуктов, которые могут воспроизводить и поддерживать звук высокого разрешения. Все зависит от того, насколько велика или мала система, сколько у нее бюджета и какой способ в основном используется для прослушивания мелодий. Некоторые примеры продуктов, поддерживающих звук высокого разрешения, описаны ниже.[0045] There is a huge variety of products that can reproduce and support high-resolution audio. It all depends on how big or small the system is, how much of a budget it has, and what method is mainly used to listen to tunes. Some examples of products that support high-resolution audio are described below.

[0046] Смартфоны[0046] Smartphones

[0047] Смартфоны все чаще поддерживают воспроизведение в высоком разрешении. Однако это ограничено флагманскими моделями Android, такими как текущие Samsung Galaxy S9, S9+ и Note 9 (все они поддерживают файлы DSD) и Sony Xperia XZ3. Телефоны LG V30 и V30S ThinQ с поддержкой высокого разрешения в настоящее время предлагают совместимость с MQA, а телефоны Samsung S9 даже поддерживают Dolby Atmos. Apple iPhone пока что не поддерживает звук высокого разрешения по умолчанию, хотя есть способы обойти это, используя подходящее приложение, а затем либо подключив цифро-аналоговый преобразователь (ЦАП), либо используя наушники Lightning с Разъем Lightning для iPhone.[0047] Smartphones increasingly support high-definition playback. However, this is limited to flagship Android models such as the current Samsung Galaxy S9, S9+ and Note 9 (all of which support DSD files) and the Sony Xperia XZ3. High-definition enabled LG V30 and V30S ThinQ phones currently offer MQA compatibility, and Samsung S9 phones even support Dolby Atmos. The Apple iPhone does not yet support hi-res audio by default, although there are ways around this by using a suitable app and then either connecting a digital-to-analog converter (DAC) or using Lightning headphones with an iPhone Lightning connector.

[0048] Планшеты[0048] Tablets

[0049] Также существуют планшеты с высоким разрешением, например, Samsung Galaxy Tab S4. На MWC 2018 был представлен ряд новых совместимых моделей, включая линейку M5 от Huawei и интригующий планшет Granbeat от Onkyo.[0049] There are also high resolution tablets such as the Samsung Galaxy Tab S4. A number of new compatible models were unveiled at MWC 2018, including Huawei's M5 range and Onkyo's intriguing Granbeat tablet.

[0050] Портативные музыкальные проигрыватели[0050] Portable Music Players

[0051] Кроме того, существуют специальные портативные музыкальные проигрыватели высокого разрешения, такие как различные Sony Walkmans и отмеченные наградами портативные проигрыватели Astell & Kern. Эти музыкальные проигрыватели предлагают больше места для хранения и гораздо лучшее качество звука, чем многозадачный смартфон. И хотя он далек от обычного портативного, потрясающий дорогой цифровой музыкальный проигрыватель Sony DMP-Z1 наполнен талантами высокого разрешения и прямого цифрового потока (DSD).[0051] In addition, there are dedicated high definition portable music players such as the various Sony Walkmans and the award-winning Astell & Kern portable players. These music players offer more storage space and much better sound quality than a multitasking smartphone. And while it's far from your average portable, the stunningly expensive Sony DMP-Z1 digital music player is filled with high-definition and direct digital streaming (DSD) talent.

[0052] Настольный вариант[0052] Desktop version

[0053] Для настольного решения ноутбук (Windows, Mac, Linux) является основным источником для хранения и воспроизведения музыки в высоком разрешении (в конце концов, именно сюда загружаются мелодии с сайтов загрузки в высоком разрешении).[0053] For the desktop solution, the laptop (Windows, Mac, Linux) is the main source for storing and playing high-res music (after all, this is where the tunes from high-res download sites are downloaded).

[0054] ЦАП[0054] DAC

[0055] USB или настольный ЦАП (например, Cyrus soundKey или Chord Mojo) - хороший способ получить отличное качество звука из файлов с высоким разрешением, хранящихся на компьютере или смартфоне (звуковые схемы которых обычно не оптимизируются для качества звука). Необходимо всего лишь подключить подходящий цифро-аналоговый преобразователь (ЦАП) между источником и наушниками для мгновенного усиления звука.[0055] A USB or desktop DAC (such as the Cyrus soundKey or Chord Mojo) is a good way to get great sound quality from high resolution files stored on a computer or smartphone (whose sound schemes are not usually optimized for sound quality). All you need to do is connect a suitable digital-to-analogue converter (DAC) between your source and your headphones for instant audio amplification.

[0056] Несжатые звуковые файлы кодируют полный входной звуковой сигнал в цифровой формат, способный хранить полную загрузку входящих данных. Они предлагают высочайшее качество и возможности архивирования, что достигается за счет больших размеров файлов, что во многих случаях препятствует их широкому использованию. Кодирование без потерь - это нечто среднее между несжатым и потерянным. Оно обеспечивает аналогичное или такое же качество звука для несжатых звуковых файлов при уменьшенном размере. Кодеки без потерь достигают этого за счет неразрушающего сжатия входящего звука при кодировании перед восстановлением несжатой информации при декодировании. Размеры файлов звука, закодированного без потерь, по-прежнему слишком велики для многих приложений. Файлы с потерями кодируются иначе, чем несжатые файлы или файлы без потерь. Существенная функция аналого-цифрового преобразования остается неизменной в методиках кодирования с потерями. Потери расходятся с несжатием. Кодеки с потерями отбрасывают значительный объем информации, содержащейся в исходных звуковых волнах, пытаясь сохранить субъективное качество звука как можно ближе к исходным звуковым волнам. Из-за этого звуковые файлы с потерями намного меньше, чем несжатые, что позволяет использовать их в сценариях живого звука. Если нет субъективной разницы в качестве между звуковыми файлами с потерями и несжатыми, качество звуковых файлов с потерями можно рассматривать как «прозрачное». Недавно было разработано несколько звуковых кодеков (аудиокодеков) высокого разрешения с потерями, среди которых наиболее популярны LDAC (Sony) и AptX (Qualcomm). LHDC (Savitech) также является одним из них.[0056] Uncompressed audio files encode the entire input audio signal into a digital format capable of storing a complete download of the input data. They offer the highest quality and archiving capabilities, which come at the expense of large file sizes, which in many cases hinders their widespread use. Lossless encoding is a cross between uncompressed and lost. It provides the same or the same sound quality for uncompressed audio files at a reduced size. Lossless codecs achieve this by non-destructively compressing the incoming audio on encoding before decompressing the uncompressed information on decoding. Lossless audio file sizes are still too large for many applications. Lossy files are encoded differently than uncompressed or lossless files. The essential function of analog-to-digital conversion remains unchanged in lossy coding techniques. Losses are at odds with uncompression. Lossy codecs discard a significant amount of information contained in the original sound waves in an attempt to keep the subjective sound quality as close as possible to the original sound waves. Because of this, lossy audio files are much smaller than uncompressed ones, allowing them to be used in live sound scenarios. If there is no subjective difference in quality between lossy and uncompressed audio files, the quality of lossy audio files can be considered "transparent". Recently, several high-resolution lossy audio codecs (audio codecs) have been developed, among which LDAC (Sony) and AptX (Qualcomm) are the most popular. LHDC (Savitech) is also one of them.

[0057] Потребители и производители высококачественной звуковой техники в последнее время больше говорят о звуке через Bluetooth, чем когда-либо прежде. Будь то беспроводные гарнитуры, наушники с функцией громкой связи, автомобиль или подключенный дом, растет число вариантов использования звука через Bluetooth хорошего качества. Ряд компаний используют решения, которые превосходят по производительности стандартные решения Bluetooth. aptX от Qualcomm уже охватывает громадное количество телефонов Android, но у мультимедийного гиганта Sony есть собственное высокопроизводительное решение под названием LDAC. Ранее эта технология была доступна только в линейке телефонов Sony Xperia, но с выпуском Oreo Android 8.0 кодек Bluetooth будет доступен как часть основного кода AOSP для реализации другими OEMS, если они того пожелают. На самом базовом уровне LDAC поддерживает передачу звуковых файлов 24 бит/96 кГц (высокого разрешения (Hi-Res)) по воздуху через Bluetooth. Ближайшим конкурирующим кодеком является aptX HD от Qualcomm, который поддерживает звуковые данные 24 бит/48 кГц. LDAC имеет три различных режима подключения: приоритет качества, обычный и приоритет подключения. Каждый из них предлагает различную битовую скорость, составляющую 990 кбит/с, 660 кбит/с и 330 кбит/с, соответственно. Следовательно, в зависимости от типа доступного подключения существуют разные уровни качества. Понятно, что самые низкие битовые скорости LDAC не дадут полного качества 24 бит/96 кГц, которым может похвастаться LDAC. LDAC - это технология кодирования звука, разработанная Sony, которая позволяет передавать потоковый звук через соединения Bluetooth со скоростью до 990 кбит/с при 24 битах/96 кГц. Она используется в различных продуктах Sony, включая наушники, смартфоны, портативные медиаплееры, активные колонки и домашние кинотеатры. LDAC - это кодек с потерями, который использует схему кодирования на основе MDCT для обеспечения более эффективного сжатия данных. Основным конкурентом LDAC является технология aptX-HD от Qualcomm. Высококачественный стандартный кодек поддиапазонов низкой сложности (SBC) обеспечивает максимальную скорость 328 кбит/с, aptX от Qualcomm - 352 кбит/с, aptX HD - 576 кбит/с. На бумаге LDAC со скоростью 990 кбит/с передает намного больше данных, чем любой другой кодек Bluetooth. И даже настройка приоритета нижнего конца соединения конкурирует с SBC и aptX, которые будут обслуживать тех, кто транслирует музыку из самых популярных сервисов. LDAC от Sony состоит из двух основных частей. Первая часть - это достижение достаточно высокой скорости передачи данных по Bluetooth для достижения 990 кбит/с, а вторая часть - сжатие звуковых данных высокого разрешения в эту полосу пропускания с минимальной потерей качества. LDAC использует дополнительную технологию Bluetooth Enhanced Data Rate (EDR (Улучшенная скорость передачи данных по Bluetooth)) для увеличения скорости передачи данных за пределы обычных ограничений профиля A2DP (Advanced Audio Distribution Profile (Усовершенствованный профиль распространения звука). Но это зависит от оборудования. Скорости EDR обычно не используются звуковыми профилями (аудиопрофилями) A2DP.[0057] Consumers and high-end audio manufacturers are talking more about Bluetooth audio than ever before. Whether it's wireless headsets, hands-free headphones, a car or a connected home, there are a growing number of options for good quality Bluetooth audio. A number of companies are using solutions that outperform standard Bluetooth solutions in performance. Qualcomm's aptX already covers a huge number of Android phones, but multimedia giant Sony has its own high-performance solution called LDAC. Previously, this technology was only available on Sony's Xperia line of phones, but with the release of Oreo Android 8.0, the Bluetooth codec will be available as part of the core AOSP code for other OEMS to implement if they so wish. At its most basic level, LDAC supports the transmission of 24-bit/96 kHz (Hi-Res) audio files over the air via Bluetooth. The closest competing codec is Qualcomm's aptX HD which supports 24bit/48kHz audio data. LDAC has three different connection modes: Quality Priority, Normal, and Connection Priority. Each of them offers a different bit rate of 990 kbps, 660 kbps and 330 kbps, respectively. Therefore, there are different levels of quality depending on the type of connection available. It is clear that the lowest LDAC bitrates will not deliver the full 24bit/96kHz quality that LDAC boasts. LDAC is an audio coding technology developed by Sony that allows audio streaming over Bluetooth connections at up to 990 kbps at 24-bit/96 kHz. It is used in a variety of Sony products, including headphones, smartphones, portable media players, powered speakers, and home theater systems. LDAC is a lossy codec that uses an MDCT-based coding scheme to provide more efficient data compression. LDAC's main competitor is Qualcomm's aptX-HD technology. The high quality standard low complexity subband codec (SBC) provides a maximum speed of 328 kbps, aptX from Qualcomm - 352 kbps, aptX HD - 576 kbps. On paper, LDAC at 990 kbps transmits far more data than any other Bluetooth codec. And even setting the low-end priority of the connection competes with SBC and aptX, which will serve those who stream music from the most popular services. Sony's LDAC consists of two main parts. The first part is getting Bluetooth data rates high enough to reach 990 kbps, and the second part is compressing high-resolution audio data into this bandwidth with minimal quality loss. LDAC uses the optional Bluetooth Enhanced Data Rate (EDR) technology to increase the data rate beyond the normal limitations of the A2DP (Advanced Audio Distribution Profile). But this is hardware dependent. typically not used by A2DP audio profiles.

[0058] Первоначальный алгоритм aptX был основан на принципах адаптивной дифференциальной импульсно-кодовой модуляции во временной области (ADPCM) без методик психоакустической слуховой маскировки. Кодирование звука aptX от Qualcomm было впервые представлено на коммерческом рынке в качестве полупроводникового продукта, специально запрограммированной интегральной схемы DSP с названием APTX100ED, которая изначально была принята производителями оборудования для автоматизации вещания, которым требовались средства для хранения звука качества CD на дисководе компьютера для автоматического воспроизведения во время радиопередачи, например, что заменяет задачу диск-жокея. С момента коммерческого внедрения в начале 1990-х годов диапазон алгоритмов aptX для сжатия звуковых данных в реальном времени продолжал расширяться, и интеллектуальная собственность стала доступной в виде программного обеспечения, встроенного программного обеспечения и программируемого оборудования для профессионального звука, телевидения и радиовещания, и бытовой электроники, особенно приложениям для беспроводной передачи звука, передаваемого беспроводным образом звука с малой задержкой для игр и видео, и передачи звука через IP. Кроме того, кодек aptX может использоваться вместо SBC (кодирования поддиапазонов), схемы кодирования поддиапазонов для потоковой передачи стерео/моно звука с потерями, предписанной SIG Bluetooth для A2DP Bluetooth, стандарта беспроводной персональной беспроводной сети малого радиуса действия. AptX поддерживается высокопроизводительными периферийными устройствами Bluetooth. Сегодня как стандартный aptX, так и Enhanced aptX (E-aptX (Усовершенствованный aptX) используются в аппаратном обеспечении звуковых кодеков ISDN и IP от многих производителей широковещательного оборудования. Дополнение к семейству aptX в виде aptX Live, предлагающее сжатие до 8:1, было представлено в 2007 году. А в апреле 2009 года был анонсирован aptX-HD, масштабируемый адаптивный звуковой кодек с потерями. AptX ранее назывался apt-X, пока не был приобретен CSR plc в 2010 году. Впоследствии в августе 2015 года CSR была приобретена Qualcomm. Звуковой кодек aptX используется для бытовых и автомобильных беспроводных звуковых приложений, в частности для потоковой передачи стереозвука с потерями в реальном времени через соединение/сопряжение A2DP Bluetooth между устройством «источником» (таким как смартфон, планшет или ноутбук) и устройством «приемником» (например, стереодинамиком, гарнитурой или наушниками Bluetooth). Эта технология должна быть включена как в передатчик, так и в приемник, чтобы получить звуковые преимущества кодирования звука aptX по сравнению с кодированием поддиапазона по умолчанию (SBC), предусмотренным стандартом Bluetooth. Улучшенный aptX обеспечивает кодирование с коэффициентом сжатия 4:1 для профессиональных приложений звукового вещания и подходит для AM, FM, DAB, HD Radio.[0058] The original aptX algorithm was based on adaptive differential time domain pulse code modulation (ADPCM) principles without psychoacoustic auditory masking techniques. Qualcomm's aptX audio coding was first introduced to the commercial market as a solid-state, custom-programmed DSP integrated circuit called APTX100ED, which was initially adopted by broadcast automation equipment manufacturers who needed the means to store CD-quality audio on a computer drive for automatic playback during broadcast time, for example, which replaces the task of a disc jockey. Since its commercial introduction in the early 1990s, the range of aptX algorithms for real-time audio data compression has continued to expand, and intellectual property has become available in the form of software, firmware, and firmware for professional audio, television and radio broadcasting, and consumer electronics. , especially applications for wireless audio, low-latency wireless audio for gaming and video, and audio over IP. In addition, the aptX codec can be used in place of SBC (Subband Coding), a subband coding scheme for lossy stereo/mono audio streaming mandated by Bluetooth SIG for A2DP Bluetooth, a short range wireless personal area network standard. AptX is supported by high performance Bluetooth peripherals. Today, both standard aptX and Enhanced aptX (E-aptX) are used in ISDN and IP audio codec hardware from many broadcast equipment manufacturers. An addition to the aptX family in the form of aptX Live, offering up to 8:1 compression, has been introduced in 2007. And aptX-HD, a scalable lossy adaptive audio codec, was announced in April 2009. AptX was formerly called apt-X until acquired by CSR plc in 2010. CSR was subsequently acquired by Qualcomm in August 2015. Audio The aptX codec is used for consumer and automotive wireless audio applications, specifically for streaming lossy stereo audio over an A2DP Bluetooth connection/pairing between a "source" device (such as a smartphone, tablet, or laptop) and a "destination" device (such as a Bluetooth stereo speaker, headset, or headphones.) This technology must be enabled in both the transmitter and receiver to get the sonic benefits of aptX audio coding over the default subband coding (SBC) provided by the Bluetooth standard. Enhanced aptX provides 4:1 compression ratio encoding for professional broadcast audio applications and is suitable for AM, FM, DAB, HD Radio.

[0059] Усовершенствованный aptX поддерживает битовую глубину в 16, 20 или 24 бит. Для звука с частотой дискретизации 48 кГц битовая скорость для E-aptX составляет 384 кбит/с (двухканальная). AptX-HD имеет битовую скорость 576 кбит/с. Он поддерживает звук высокой четкости с частотой дискретизации до 48 кГц и разрешением дискретизации до 24 бит. В отличие от названия, кодек по-прежнему считается с потерями. Однако он допускает «гибридную» схему кодирования для приложений, в которых средняя или пиковая скорость сжатых данных должна быть ограничена на ограничительном уровне. Это вовлекает динамическое применение кодирования «почти без потерь» для тех участков звука, где кодирование полностью без потерь невозможно из-за ограничений полосы пропускания. Кодирование «почти без потерь» обеспечивает качество звука высокой четкости, сохраняя звуковые частоты до 20 кГц и динамический диапазон не менее 120 дБ. Его главный конкурент - кодек LDAC, разработанный Sony. Еще один масштабируемый параметр в aptX-HD - задержка кодирования. Им можно динамически жертвовать в пользу других параметром, таких как уровни сжатия и вычислительная сложность.[0059] Advanced aptX supports bit depths of 16, 20, or 24 bits. For 48 kHz audio, the bit rate for E-aptX is 384 kbps (dual channel). AptX-HD has a bit rate of 576 kbps. It supports high-definition audio with sampling rates up to 48 kHz and sampling resolutions up to 24 bits. Unlike the name, the codec is still lossy. However, it allows for a "hybrid" coding scheme for applications where the average or peak bit rate of the compressed data must be limited at a restrictive level. This involves the dynamic application of "near lossless" encoding for those parts of the audio where completely lossless encoding is not possible due to bandwidth limitations. Near-lossless encoding delivers high-definition audio quality, maintaining audio frequencies up to 20 kHz and a dynamic range of at least 120 dB. Its main competitor is the LDAC codec developed by Sony. Another scalable parameter in aptX-HD is encoding delay. It can be dynamically sacrificed in favor of other parameters such as compression levels and computational complexity.

[0060] LHDC означает звуковой кодек высокой четкости с низкой задержкой и анонсирован компанией Savitech. По сравнению с звуковым форматом SBC Bluetooth, LHDC позволяет передавать более чем в 3 раза больше данных, чтобы обеспечить наиболее реалистичный передаваемый беспроводным образом звук высокой четкости и устранить разницу в качестве звука между беспроводными и проводными звуковыми устройствами. Увеличение количества передаваемых данных позволяет пользователям ощутить больше деталей и лучшее звуковое поле, и погрузиться в эмоции музыки. Однако более чем трехкратная скорость передачи данных SBC может быть слишком высокой для многих практических приложений.[0060] LHDC stands for High Definition Low Latency Audio Codec and was announced by Savitech. Compared with the SBC Bluetooth audio format, LHDC allows more than 3 times more data to be transmitted to provide the most realistic high-definition wireless audio and eliminate the difference in audio quality between wireless and wired audio devices. Increasing the amount of transmitted data allows users to experience more detail and a better sound field, and immerse themselves in the emotion of music. However, more than three times the SBC data rate may be too high for many practical applications.

[0061] На Фиг. 1 показана примерная структура кодека 100 L2HC (кодек с низкой задержкой и низкой сложностью и высоким разрешением) согласно некоторым вариантам реализации. На Фиг. 2 показана примерная структура декодера 200 L2HC согласно некоторым вариантам реализации. Как правило, L2HC может предложить «прозрачное» качество при достаточно низкой битовой скорости. В некоторых случаях кодер 100 и декодер 200 могут быть реализованы в устройстве кодека сигналов. В некоторых случаях кодер 100 и декодер 200 могут быть реализованы в разных устройствах. В некоторых случаях кодер 100 и декодер 200 могут быть реализованы в любых подходящих устройствах. В некоторых случаях кодер 100 и декодер 200 могут иметь одинаковую задержку алгоритма (например, одинаковый размер кадра или одинаковое количество подкадров). В некоторых случаях размер подкадра в дискретных отсчетах может быть фиксированным. Например, если частота дискретизации составляет 96 кГц или 48 кГц, то размер подкадра может составлять 192 или 96 дискретных отсчетов. Каждый кадр может иметь 1, 2, 3, 4 или 5 подкадров, что соответствует различным задержкам алгоритма. В некоторых примерах, когда входная частота дискретизации кодера 100 составляет 96 кГц, выходная частота дискретизации декодера 200 может составлять 96 кГц или 48 кГц. В некоторых примерах, когда входная частота дискретизации частоты дискретизации составляет 48 кГц, выходная частота дискретизации декодера 200 также может составлять 96 кГц или 48 кГц. В некоторых случаях диапазон высоких частот добавляется искусственно, если частота дискретизации входного сигнала кодера 100 составляет 48 кГц, а частота дискретизации выходного сигнала декодера 200 равна 96 кГц.[0061] In FIG. 1 shows an exemplary structure of an L2HC (Low Latency, Low Complexity, High Resolution) codec 100 according to some implementations. On FIG. 2 shows an exemplary structure of an L2HC decoder 200 according to some implementations. Typically, L2HC can offer "transparent" quality at a fairly low bit rate. In some cases, encoder 100 and decoder 200 may be implemented in a signal codec device. In some cases, encoder 100 and decoder 200 may be implemented in different devices. In some cases, encoder 100 and decoder 200 may be implemented in any suitable device. In some cases, encoder 100 and decoder 200 may have the same algorithm delay (eg, same frame size or same number of subframes). In some cases, the subframe size in discrete samples may be fixed. For example, if the sampling rate is 96 kHz or 48 kHz, then the subframe size may be 192 or 96 discrete samples. Each frame can have 1, 2, 3, 4 or 5 subframes, which corresponds to different algorithm delays. In some examples, when the input sample rate of encoder 100 is 96 kHz, the output sample rate of decoder 200 may be 96 kHz or 48 kHz. In some examples, when the input sample rate of the sample rate is 48 kHz, the output sample rate of the decoder 200 may also be 96 kHz or 48 kHz. In some cases, the high frequency range is added artificially if the encoder 100 input sample rate is 48 kHz and the decoder 200 output sample rate is 96 kHz.

[0062] В некоторых примерах, когда входная частота дискретизации кодера 100 составляет 88,2 кГц, выходная частота дискретизации декодера 200 может составлять 88,2 кГц или 44,1 кГц. В некоторых примерах, когда входная частота дискретизации кодера 100 составляет 44,1 кГц, выходная частота дискретизации декодера 200 также может составлять 88,2 кГц или 44,1 кГц. Точно так же диапазон высоких частот также может быть искусственно добавлен, когда частота дискретизации входного сигнала кодера 100 составляет 44,1 кГц, а частота дискретизации выходного сигнала декодера 200 составляет 88,2 кГц. Это тот же кодер, который кодирует входной сигнал 96 кГц или 88,2 кГц. Этот же кодер также используется для кодирования входного сигнала 48 кГц или 44,1 кГц.[0062] In some examples, when the input sample rate of encoder 100 is 88.2 kHz, the output sample rate of decoder 200 may be 88.2 kHz or 44.1 kHz. In some examples, when the input sample rate of encoder 100 is 44.1 kHz, the output sample rate of decoder 200 may also be 88.2 kHz or 44.1 kHz. Similarly, high frequency range can also be artificially added when the encoder 100 input sample rate is 44.1 kHz and the decoder 200 output sample rate is 88.2 kHz. This is the same encoder that encodes the 96kHz or 88.2kHz input signal. The same encoder is also used to encode the 48 kHz or 44.1 kHz input signal.

[0063] В некоторых случаях в кодере 100 L2HC битовая глубина входного сигнала может составлять 32 бита, 24 бита или 16 бит. В декодере 200 L2HC битовая глубина выходного сигнала также может составлять 32 бита, 24 бита или 16 бит. В некоторых случаях битовая глубина кодера в кодере 100 и битовая глубина декодера в декодере 200 могут быть разными.[0063] In some cases, in the L2HC encoder 100, the bit depth of the input signal may be 32 bits, 24 bits, or 16 bits. In the L2HC decoder 200, the bit depth of the output signal may also be 32 bits, 24 bits, or 16 bits. In some cases, the encoder bit depth at encoder 100 and the decoder bit depth at decoder 200 may be different.

[0064] В некоторых случаях режим кодирования (например, ABR_mode) может быть установлен в кодере 100 и может быть изменен в реальном времени во время работы. В некоторых случаях ABR_mode=0 указывает на высокую битовую скорость передачи данных, ABR_mode=1 указывает на среднюю битовую скорость передачи данных, а ABR_mode=2 указывает на низкую битовую скорость передачи данных. В некоторых случаях информация ABR_mode может быть отправлена в декодер 200 через канал потоковой передачи битов, потратив 2 бита. Количество каналов по умолчанию может быть стереофоническим (два канала), как для приложений наушников с Bluetooth. В некоторых примерах средняя битовая скорость для ABR_mode=2 может составлять от 370 до 400 кбит/с, средняя битовая скорость для ABR_mode=1 может составлять от 450 до 550 кбит/с, а средняя битовая скорость для ABR_mode=0 может составлять от 550 до 710 кбит/с. В некоторых случаях максимальная мгновенная битовая скорость для всех случаев/режимов может быть менее 990 кбит/с.[0064] In some cases, the encoding mode (eg, ABR_mode) may be set in the encoder 100 and may be changed in real time during operation. In some cases, ABR_mode=0 indicates a high bit rate, ABR_mode=1 indicates a medium bit rate, and ABR_mode=2 indicates a low bit rate. In some cases, the ABR_mode information may be sent to the decoder 200 via a bit streaming channel at a cost of 2 bits. The default number of channels can be stereo (two channels), like for Bluetooth headphone applications. In some examples, the average bit rate for ABR_mode=2 may be 370 to 400 kbps, the average bit rate for ABR_mode=1 may be 450 to 550 kbps, and the average bit rate for ABR_mode=0 may be 550 to 710 kbps. In some cases, the maximum instantaneous bit rate for all cases/modes may be less than 990 kbps.

[0065] Как показано на Фиг. 1, кодер 100 включает в себя фильтр 104 предыскажения, набор 106 фильтров анализа квадратурного зеркального фильтра (QMF), кодер 118 нижней части нижнего диапазона (LLB), кодер 120 верхней части нижнего диапазона (LHB), кодер 122 нижней части верхнего диапазона (HLB), кодер 123 верхней части верхнего диапазона (HHB) и мультиплексор 126. Исходный входной цифровой сигнал 102 сначала предварительно выделяется фильтром 104 предыскажения. В некоторых случаях фильтр 104 предыскажения может быть постоянным фильтром верхних частот. Фильтр 104 предыскажения полезен для большинства музыкальных сигналов, поскольку большинство музыкальных сигналов содержат гораздо более высокие энергии в диапазоне низких частот, чем энергии в диапазоне верхних частот. Увеличение энергий в диапазоне верхних частот может повысить точность обработки сигналов диапазона верхних частот.[0065] As shown in FIG. 1, encoder 100 includes a pre-emphasis filter 104, a quadrature image filter (QMF) analysis filter bank 106, a lower low band (LLB) encoder 118, an upper lower band (LHB) encoder 120, a lower high band (HLB) encoder 122 ), an upper-high-band (HHB) encoder 123, and a multiplexer 126. The original input digital signal 102 is first pre-selected by a pre-emphasis filter 104 . In some cases, the pre-emphasis filter 104 may be a constant high-pass filter. The pre-emphasis filter 104 is useful for most music signals because most music signals contain much higher energies in the low frequency range than the energies in the high frequency range. Increasing the energies in the highband can improve the accuracy of highband signal processing.

[0066] Выходной сигнал фильтра 104 предыскажения проходит через набор 106 фильтров анализа QMF для генерирования четырех поддиапазонных сигналов - сигнала 110 LLB, сигнала 112 LHB, сигнала 114 HLB и сигнала 116 HHB. В одном примере исходный входной сигнал генерируется с частотой дискретизации 96 кГц. В этом примере сигнал 110 LLB включает в себя поддиапазон 0-12 кГц, сигнал 112 LHB включает в себя поддиапазон 12-24 кГц, сигнал 114 HLB включает в себя поддиапазон 24-36 кГц, а сигнал 116 HHB включает в себя поддиапазон 36-48 кГц. Как показано, каждый из четырех поддиапазонных сигналов кодируется соответственно кодером 118 LLB, кодером 120 LHB, кодером 122 HLB и кодером 124 HHB для генерирования кодированного поддиапазонного сигнала. Четыре закодированных сигнала могут быть мультиплексированы мультиплексором 126 для генерирования кодированного звукового сигнала.[0066] The output of pre-emphasis filter 104 is passed through QMF analysis filter bank 106 to generate four sub-band signals, LLB signal 110, LHB signal 112, HLB signal 114, and HHB signal 116. In one example, the original input signal is generated at a sampling rate of 96 kHz. In this example, LLB signal 110 includes the 0-12 kHz subband, LHB signal 112 includes the 12-24 kHz subband, HLB signal 114 includes the 24-36 kHz subband, and HHB signal 116 includes the 36-48 subband. kHz. As shown, each of the four subband signals is encoded by LLB encoder 118, LHB encoder 120, HLB encoder 122, and HHB encoder 124, respectively, to generate an encoded subband signal. The four encoded signals may be multiplexed by multiplexer 126 to generate an encoded audio signal.

[0067] Как показано на Фиг. 2, декодер 200 включает в себя декодер 204 LLB, декодер 206 LHB, декодер 208 HLB, декодер 210 HHB, набор 212 фильтров синтеза QMF, компонент 214 постобработки и фильтр 216 устранения предыскажения. В некоторых случаях каждый из декодера 204 LLB, декодера 206 LHB, декодера 208 HLB и декодера 210 HHB может принимать кодированный поддиапазонный сигнал из канала 202 соответственно и генерировать декодированный поддиапазонный сигнал. Декодированные поддиапазонные сигналы от четырех декодеров 204-210 могут быть суммированы обратно через набор 212 фильтров синтеза QMF для генерирования выходного сигнала. Выходной сигнал может подвергаться постобработке компонентом 214 постобработки, если необходимо, а затем подвергаться устранению предыскажения посредством фильтра 216 устранения предыскажения для генерирования декодированного звукового сигнала 218. В некоторых случаях фильтр 216 устранения предыскажения может быть постоянным фильтром и может быть инверсным фильтром фильтра 104 предыскажения. В одном примере декодированный звуковой сигнал 218 может быть сгенерирован декодером 200 с той же частотой дискретизации, что и входной звуковой сигнал (например, звуковой сигнал 102) кодера 100. В этом примере декодированный звуковой сигнал 218 генерируется с частотой дискретизации 96 кГц.[0067] As shown in FIG. 2, the decoder 200 includes an LLB decoder 204, an LHB decoder 206, an HLB decoder 208, an HHB decoder 210, a QMF synthesis filterbank 212, a post-processing component 214, and a de-emphasis filter 216. In some cases, LLB decoder 204, LHB decoder 206, HLB decoder 208, and HHB decoder 210 may each receive an encoded subband signal from channel 202, respectively, and generate a decoded subband signal. The decoded subband signals from the four decoders 204-210 may be summed back through a QMF synthesis filter bank 212 to generate an output signal. The output signal may be post-processed by the post-processing component 214, if necessary, and then de-emphasized by the de-emphasis filter 216 to generate the decoded audio signal 218. In some cases, the de-emphasis filter 216 may be a constant filter, and may be the inverse filter of the de-emphasis filter 104. In one example, decoded audio signal 218 may be generated by decoder 200 at the same sample rate as the input audio signal (eg, audio signal 102) of encoder 100. In this example, decoded audio signal 218 is generated at a sample rate of 96 kHz.

[0068] На Фиг. 3 и на Фиг. 4 иллюстрируют примерные структуры кодера 300 LLB и декодера 400 LLB, соответственно. Как показано на Фиг. 3, кодер 300 LLB включает в себя компонент 304 обнаружения резкого спектрального наклона, фильтр 306 наклона, компонент 308 анализа кодирования с линейным предсказанием (LPC), инверсный фильтр 310 LPC, компонент 312 условия долгосрочного предсказания (LTP), и компонент 314 обнаружения интенсивных тонов, взвешивающий фильтр 316, компонент 318 быстрого вклада LTP, блок 320 функции сложения, компонент 322 управления битовой скоростью, компонент 324 начального квантования остатка, компонент 326 регулировки битовой скорости и компонент 328 оптимизации быстрого квантования.[0068] In FIG. 3 and in FIG. 4 illustrate exemplary structures of an LLB encoder 300 and an LLB decoder 400, respectively. As shown in FIG. 3, an LLB encoder 300 includes a sharp spectral tilt detection component 304, a tilt filter 306, a linear prediction coding (LPC) analysis component 308, an inverse LPC filter 310, a long-term prediction (LTP) condition component 312, and an intense tone detection component 314. , a weighting filter 316, a fast LTP contribution component 318, an addition function block 320, a bit rate control component 322, a residual initial quantization component 324, a bit rate adjustment component 326, and a fast quantization optimization component 328.

[0069] Как показано на Фиг. 3, поддиапазонный сигнал 302 LLB сначала проходит через фильтр 306 наклона, которым управляет компонент 304 обнаружения спектрального наклона. В некоторых случаях отфильтрованный по наклону сигнал LLB генерируется фильтром 306 наклона. Отфильтрованный по наклону сигнал LLB может затем подвергаться LPC-анализу посредством компонента 308 анализа LPC, чтобы сгенерировать параметры фильтра LPC в поддиапазоне LLB. В некоторых случаях параметры фильтра LPC могут квантоваться и отправляться в декодер 400 LLB. Инверсный фильтр 310 LPC может использоваться для фильтрации отфильтрованного по наклону сигнала LLB и генерирования остаточного сигнала LLB. В этой области остаточного сигнала взвешивающий фильтр 316 добавляется для интенсивного тонового сигнала. В некоторых случаях взвешивающий фильтр 316 может быть включен или выключен в зависимости от обнаружения интенсивных тонов компонентом 314 обнаружения интенсивных тонов, подробности которого будут объяснены более подробно позже. В некоторых случаях взвешенный остаточный сигнал LLB может генерироваться взвешивающим фильтром 316.[0069] As shown in FIG. 3, the subband LLB signal 302 first passes through a tilt filter 306 that is controlled by a spectral tilt detection component 304. In some cases, the slope-filtered signal LLB is generated by the slope filter 306 . The slope-filtered LLB signal may then be LPC analyzed by the LPC analysis component 308 to generate LPC filter parameters in the LLB subband. In some cases, the LPC filter parameters may be quantized and sent to the LLB decoder 400 . An inverse LPC filter 310 may be used to filter the slope-filtered LLB signal and generate a residual LLB signal. In this region of the residual signal, a weighting filter 316 is added for a strong tone signal. In some cases, the weighting filter 316 may be turned on or off depending on the detection of intense tones by the intense tone detection component 314, the details of which will be explained in more detail later. In some cases, the weighted LLB residual signal may be generated by the weighting filter 316.

[0070] Как показано на Фиг. 3, взвешенный остаточный сигнал LLB становится опорным сигналом. В некоторых случаях, когда в исходном сигнале существует сильная периодичность, вклад LTP (долгосрочного предсказания) может быть внесен компонентом 318 быстрого вклада LTP на основе условия 312 LTP. В кодере 300 вклад LTP может вычитаться из взвешенного остаточного сигнала LLB блоком 320 функции сложения, чтобы сгенерировать второй взвешенный остаточный сигнал LLB, который становится входным сигналом для компонента 324 начального квантования остатка LLB. В некоторых случаях выходной сигнал компонента 324 начального квантования остатка LLB может обрабатываться компонентом 328 оптимизации быстрого квантования для генерирования квантованного остаточного сигнала 330 LLB. В некоторых случаях квантованный остаточный сигнал 330 LLB вместе с параметрами LTP (когда LTP существует) может быть отправлен в декодер 400 LLB через канал потоковой передачи битов.[0070] As shown in FIG. 3, the weighted residual signal LLB becomes the reference signal. In some cases where there is strong periodicity in the original signal, an LTP (long term prediction) contribution may be made by the fast LTP contribution component 318 based on the LTP condition 312. At encoder 300, the LTP contribution may be subtracted from the weighted LLB residual by add function block 320 to generate a second weighted LLB residual that becomes the input to LLB residual initial quantization component 324 . In some cases, the output of the initial LLB residual quantization component 324 may be processed by the fast quantization optimization component 328 to generate a quantized LLB residual signal 330 . In some cases, the quantized LLB residual signal 330 along with the LTP parameters (when LTP exists) may be sent to the LLB decoder 400 via a bit streaming channel.

[0071] На Фиг. 4 показана примерная структура декодера 400 LLB. Как показано, декодер 400 LLB включает в себя компонент 406 квантованного остатка, компонент 408 быстрого вклада LTP, компонент 410 флага переключения LTP, блок 414 функции сложения, инверсный взвешивающий фильтр 416, компонент 418 флага интенсивных тонов, фильтр 422 LPC, инверсный фильтр 424 наклона и компонент 426 флага резкого спектрального наклона. В некоторых случаях квантованный остаточный сигнал из компонента 406 квантованного остатка, сигнал вклада LTP из компонента 408 быстрого вклада LTP могут быть сложены вместе посредством блока 414 функции сложения, чтобы сгенерировать взвешенный остаточный сигнал LLB в качестве входного сигнала для инверсного взвешивающего фильтра 416.[0071] In FIG. 4 shows an exemplary structure of an LLB decoder 400. As shown, the LLB decoder 400 includes a quantized residual component 406, an LTP fast contribution component 408, an LTP switch flag component 410, an addition function block 414, an inverse weighting filter 416, a high tone flag component 418, an LPC filter 422, an inverse slope filter 424 and a sharp spectral tilt flag component 426 . In some cases, the quantized residual signal from the quantized residual component 406, the LTP contribution signal from the fast LTP contribution component 408 may be added together by the addition function block 414 to generate a weighted LLB residual signal as an input to the inverse weighting filter 416.

[0072] В некоторых случаях инверсный взвешивающий фильтр 416 может использоваться для удаления взвешивания и восстановления спектральной равномерности квантованного остаточного сигнала LLB. В некоторых случаях восстановленный остаточный сигнал LLB может быть сгенерирован инверсным взвешивающим фильтром 416. Восстановленный остаточный сигнал LLB может быть снова отфильтрован фильтром 422 LPC для генерирования сигнала LLB в сигнальной области. В некоторых случаях, если фильтр наклона (например, фильтр 306 наклона) существует в кодере 300 LLB, то сигнал LLB в декодере 400 LLB может быть отфильтрован инверсным фильтром 424 наклона, управляемым компонентом 428 флага резкого спектрального наклона. В некоторых случаях декодированный сигнал 430 LLB может быть сгенерирован инверсным фильтром 424 наклона.[0072] In some cases, an inverse weighting filter 416 may be used to remove weighting and restore the spectral flatness of the quantized LLB residual signal. In some cases, the recovered LLB residual signal may be generated by an inverse weighting filter 416. The recovered LLB residual signal may be again filtered by the LPC filter 422 to generate an LLB signal in the signal domain. In some cases, if a tilt filter (eg, tilt filter 306) exists in the LLB encoder 300, then the LLB signal in the LLB decoder 400 may be filtered by an inverse tilt filter 424 controlled by the hard spectral tilt flag component 428. In some cases, the decoded LLB signal 430 may be generated by an inverse slope filter 424 .

[0073] На Фиг. 5 и на Фиг. 6 показаны примерные структуры кодера 500 LHB и декодера 600 LHB. Как показано на Фиг. 5, кодер 500 LHB включает в себя компонент 504 анализа LPC, инверсный фильтр 506 LPC, компонент 510 управления битовой скоростью, компонент 512 начального квантования остатка и компонент 514 оптимизации быстрого квантования. В некоторых случаях поддиапазонный сигнал 502 LHB может быть проанализирован посредством LPC компонентом 504 анализа LPC, чтобы сгенерировать параметры фильтра LPC в поддиапазоне LHB. В некоторых случаях параметры фильтра LPC могут быть квантованы и отправлены в декодер 600 LHB. Поддиапазонный сигнал 502 LHB может быть отфильтрован инверсным фильтром 506 LPC в кодере 500. В некоторых случаях остаточный сигнал LHB может генерироваться инверсным фильтром 506 LPC. Остаточный сигнал LHB, который становится входным сигналом для квантования остатка LHB, может обрабатываться компонентом 512 начального квантования остатка и компонентом 514 оптимизации быстрого квантования для генерирования квантованного остаточного сигнала 516 LHB. В некоторых случаях квантованный остаточный сигнал 516 LHB может быть впоследствии отправлен в декодер 600 LHB. Как показано на Фиг. 6, квантованный остаток 604, полученный из битов 602, может быть обработан фильтром 606 LPC для поддиапазона LHB, чтобы сгенерировать декодированный сигнал 608 LHB.[0073] In FIG. 5 and in FIG. 6 shows exemplary structures of an LHB encoder 500 and an LHB decoder 600. As shown in FIG. 5, the LHB encoder 500 includes an LPC analysis component 504, an inverse LPC filter 506, a bit rate control component 510, an initial residual quantization component 512, and a fast quantization optimization component 514. In some cases, the LHB subband signal 502 may be analyzed by LPC by the LPC analysis component 504 to generate LPC filter parameters in the LHB subband. In some cases, the LPC filter parameters may be quantized and sent to the LHB decoder 600 . The LHB subband signal 502 may be filtered by an inverse LPC filter 506 in encoder 500. In some cases, the LHB residual signal may be generated by an inverse LPC filter 506. The LHB residual signal that becomes the input for LHB residual quantization may be processed by an initial residual quantization component 512 and a fast quantization optimization component 514 to generate a quantized LHB residual signal 516 . In some cases, the quantized LHB residual signal 516 may subsequently be sent to the LHB decoder 600. As shown in FIG. 6, quantized residual 604 obtained from bits 602 may be processed by an LHB subband LPC filter 606 to generate a decoded LHB signal 608.

[0074] На Фиг. 7 и на Фиг. 8 показаны примерные структуры кодера 700 и декодера 800 для поддиапазонов HLB и/или HHB. Как показано, кодер 700 включает в себя компонент 704 анализа LPC, инверсный фильтр 706 LPC, компонент 708 переключения битовой скорости, компонент 710 управления битовой скоростью, компонент 712 квантования остатка и компонент 714 квантования энергетической огибающей. Декодер 800 включает в себя компонент 804 переключения битовой скорости, декодер 806 остатка, декодер 808 энергетической огибающей, компонент 810 генерирования остатка и фильтр 812 LPC. Как правило, как HLB, так и HHB расположены в относительно высокочастотной области. В некоторых случаях они кодируются и декодируются двумя возможными способами. Например, если битовая скорость достаточно высока (например, выше 700 кбит/с для 96 кГц/24-битного стереофонического кодирования), они могут кодироваться и декодироваться как LHB. В одном примере поддиапазонный сигнал 702 HLB или HHB может быть проанализирован посредством LPC компонентом 704 анализа LPC для генерирования параметров фильтра LPC в поддиапазоне HLB или HHB. В некоторых случаях параметры фильтра LPC могут квантоваться и отправляться в декодер 800 HLB или HHB. Поддиапазонный сигнал 702 HLB или HHB может быть отфильтрован инверсным фильтром 706 LPC для генерирования остаточного сигнала HLB или HHB. Остаточный сигнал HLB или HHB, который становится целевым сигналом для квантования остатка, может обрабатываться компонентом 712 квантования остатка для генерирования квантованного остаточного сигнала 716 HLB или HHB. Квантованный остаточный сигнал 716 HLB или HHB может быть впоследствии отправлен на сторону декодера (например, декодера 800) и обработан декодером 806 остатка и фильтром 812 LPC для генерирования декодированного сигнала 814 HLB или HHB.[0074] In FIG. 7 and in FIG. 8 shows exemplary encoder 700 and decoder 800 structures for HLB and/or HHB subbands. As shown, the encoder 700 includes an LPC analysis component 704, an inverse LPC filter 706, a bit rate switching component 708, a bit rate control component 710, a residual quantization component 712, and an energy envelope quantization component 714. The decoder 800 includes a bit rate switching component 804, a residual decoder 806, an energy envelope decoder 808, a residual generation component 810, and an LPC filter 812. Typically, both HLB and HHB are located in the relatively high frequency region. In some cases, they are encoded and decoded in two possible ways. For example, if the bit rate is high enough (eg, above 700 kbps for 96 kHz/24-bit stereo coding), they can be encoded and decoded as LHB. In one example, the HLB or HHB subband signal 702 may be analyzed by LPC by the LPC analysis component 704 to generate LPC filter parameters in the HLB or HHB subband. In some cases, the LPC filter parameters may be quantized and sent to the HLB or HHB decoder 800 . The subband HLB or HHB signal 702 may be filtered by an inverse LPC filter 706 to generate an HLB or HHB residual signal. An HLB or HHB residual signal that becomes a target signal for residual quantization may be processed by a residual quantization component 712 to generate a quantized HLB or HHB residual signal 716. The quantized HLB or HHB residual signal 716 may subsequently be sent to a decoder side (eg, decoder 800) and processed by the residual decoder 806 and LPC filter 812 to generate a decoded HLB or HHB signal 814.

[0075] В некоторых случаях, если битовая скорость относительно низкая (например, ниже 500 кбит/с для 96 кГц/24-битного стереофонического кодирования), параметры фильтра LPC, сгенерированные компонентом 704 анализа LPC для поддиапазонов HLB или HHB, могут по-прежнему квантоваться и отправляется на сторону декодера (например, декодера 800). Однако остаточный сигнал HLB или HHB может быть сгенерирован без затрачивания какого-либо бита, и только энергетическая огибающая остаточного сигнала во временной области квантуется и отправляется в декодер с очень низкой битовой скоростью (например, менее 3 кбит/с для кодирования энергетической огибающей). В одном примере компонент 714 квантования энергетической огибающей может принимать остаточный сигнал HLB или HHB от инверсного фильтра LPC и генерировать выходной сигнал, который впоследствии может быть отправлен в декодер 800. Затем выходной сигнал из кодера 700 может быть обработан декодером 808 энергетической огибающей и компонентом 810 генерирования остатка, чтобы сгенерировать входной сигнал для фильтра 812 LPC. В некоторых случаях фильтр 812 LPC может принимать остаточный сигнал HLB или HHB от компонента 810 генерирования остатка и генерировать декодированный сигнал 814 HLB или HHB.[0075] In some cases, if the bit rate is relatively low (eg, below 500 kbps for 96 kHz/24-bit stereo coding), the LPC filter parameters generated by the LPC analysis component 704 for the HLB or HHB subbands may still quantized and sent to the decoder side (eg, decoder 800). However, an HLB or HHB residual signal can be generated without consuming any bit, and only the energy envelope of the residual signal in the time domain is quantized and sent to the decoder at a very low bit rate (eg, less than 3 kbps for energy envelope encoding). In one example, an energy envelope quantization component 714 may receive an HLB or HHB residual signal from an inverse LPC filter and generate an output that may subsequently be sent to a decoder 800. The output from encoder 700 may then be processed by an energy envelope decoder 808 and a generation component 810 remainder to generate an input signal for the LPC filter 812. In some cases, the LPC filter 812 may receive an HLB or HHB residual signal from a residual generation component 810 and generate a decoded HLB or HHB signal 814.

[0076] На Фиг. 9 показана примерная спектральная структура 900 интенсивного тонового сигнала. Обычно нормальный речевой сигнал редко имеет спектральную структуру с относительно интенсивными тонами. Однако музыкальные сигналы и певческие голосовые сигналы часто содержат спектральную структуру интенсивных тонов. Как показано, спектральная структура 900 включает в себя частоту F0 первой гармоники, которая относительно выше (например, F0>500 Гц), и уровень фонового спектра, который относительно ниже. В этом случае звуковой сигнал, имеющий спектральную структуру 900, можно рассматривать как интенсивный тоновый сигнал. В случае интенсивного тонового сигнала ошибка кодирования между 0 Гц и F0 может быть легко услышана из-за отсутствия эффекта слуховой маскировки. Ошибка (например, ошибка между F1 и F2) может маскироваться посредством F1 и F2, пока пиковые энергии F1 и F2 верны. Однако, если битовая скорость недостаточно высокая, то ошибок кодирования не избежать.[0076] In FIG. 9 shows an exemplary spectral structure 900 of an intense tone signal. Usually, a normal speech signal rarely has a spectral structure with relatively intense tones. However, musical cues and singing vocal cues often contain a spectral pattern of intense tones. As shown, spectral structure 900 includes a first harmonic frequency F0 that is relatively higher (eg, F0>500 Hz) and a background spectrum level that is relatively lower. In this case, the audio signal having a spectral structure 900 can be considered as an intense tone signal. In the case of a strong tone signal, an encoding error between 0 Hz and F0 can be easily heard due to the lack of an auditory masking effect. An error (eg, an error between F1 and F2) can be masked by F1 and F2 as long as the peak energies of F1 and F2 are correct. However, if the bit rate is not high enough, then coding errors cannot be avoided.

[0077] В некоторых случаях поиск правильного короткого промежутка между тонами (интенсивными тонами) в LTP может помочь улучшить качество сигнала. Однако этого может быть недостаточно для достижения «прозрачного» качества. Чтобы повысить качество сигнала надежным образом, может быть введен адаптивный взвешивающий фильтр, который улучшает очень низкие частоты и уменьшает ошибки кодирования на очень низких частотах за счет увеличения ошибок кодирования на более высоких частотах. В некоторых случаях адаптивный взвешивающий фильтр (например, взвешивающий фильтр 316) может быть полюсным фильтром первого порядка, как показано ниже:[0077] In some cases, finding the right short gap between tones (intense tones) in LTP can help improve signal quality. However, this may not be enough to achieve a "transparent" quality. In order to improve signal quality in a reliable manner, an adaptive weighting filter can be introduced which improves very low frequencies and reduces coding errors at very low frequencies by increasing coding errors at higher frequencies. In some cases, the adaptive weighting filter (for example, weighting filter 316) may be a first-order pole filter, as shown below:

[0078] ,[0078] ,

[0079] и инверсный взвешивающий фильтр (например, инверсный взвешивающий фильтр 416) может быть нулевым фильтром первого порядка, как показано ниже:[0079] and the inverse weighting filter (eg, inverse weighting filter 416) may be a first order zero filter, as shown below:

[0080] .[0080] .

[0081] В некоторых случаях адаптивный взвешивающий фильтр может проявить улучшения случая интенсивных тонов. Однако в других случаях он может снизить качество. Следовательно, в некоторых случаях адаптивный взвешивающий фильтр может включаться и выключаться на основе обнаружения случая интенсивных тонов (например, с использованием компонента 314 обнаружения интенсивных тонов на Фиг. 3). Есть много способов обнаружить интенсивный тоновый сигнал. Один из способов описан ниже со ссылкой на Фиг. 10.[0081] In some cases, the adaptive weighting filter may exhibit improvements in the case of intense tones. However, in other cases, it may reduce the quality. Therefore, in some cases, the adaptive weighting filter may be turned on and off based on the detection of a strong tone event (eg, using the strong tone detection component 314 in FIG. 3). There are many ways to detect an intense tone signal. One method is described below with reference to FIG. 10.

[0082] Как показано на Фиг. 10, четыре параметра, включающих в себя текущее тоновое усиление 1002, сглаженное тоновое усиление 1004, продолжительность 1006 промежутка между тонами и спектральный наклон 1008, могут использоваться компонентом 1010 обнаружения интенсивных тонов для определения, существует ли интенсивный тоновый сигнал или нет. В некоторых случаях тоновое усиление 1002 указывает периодичность сигнала. В некоторых случаях сглаженное тоновое усиление 1004 представляет нормированное значение тонового усиления 1002. В одном примере, если нормированное тоновое усиление (например, сглаженное тоновое усиление 1004) находится между 0 и 1, то высокое значение нормированного тонового усиления (например, когда нормированное тоновое усиление близко к 1) может указывать на наличие сильных гармоник в спектральной области. Сглаженное тоновое усиление 1004 может указывать на то, что периодичность является стабильной (а не только локальной). В некоторых случаях, если продолжительность 1006 промежутка между тонами мала (например, менее 3 мс), это означает, что частота F0 первой гармоники является большой (высокой). Спектральный наклон 1008 может быть измерен посредством корреляции сегментного сигнала на расстоянии одного дискретного отсчета или первого коэффициента отражения параметров LPC. В некоторых случаях спектральный наклон 1008 может использоваться, чтобы указать, содержит ли область очень низких частот значительную энергию или нет. Если энергия в области очень низких частот (например, частот ниже F0) относительно высока, то интенсивный тоновый сигнал может не существовать. В некоторых случаях, когда обнаруживается интенсивный тоновый сигнал, может применяться взвешивающий фильтр. В противном случае взвешивающий фильтр может не применяться, если интенсивный тоновый сигнал не обнаружен.[0082] As shown in FIG. 10, four parameters including current tone gain 1002, smoothed tone gain 1004, tone gap duration 1006, and spectral slope 1008 can be used by strong tone detection component 1010 to determine whether a strong tone signal exists or not. In some cases, tone gain 1002 indicates the periodicity of the signal. In some cases, the smoothed tone gain 1004 represents a normalized tone gain value 1002. In one example, if the normalized tone gain (eg, smoothed tone gain 1004) is between 0 and 1, then a high normalized tone gain value (eg, when the normalized tone gain is close to to 1) may indicate the presence of strong harmonics in the spectral region. The smoothed tone gain 1004 may indicate that the periodicity is stable (and not just local). In some cases, if the duration 1006 of the interval between tones is small (eg, less than 3 ms), this means that the frequency F0 of the first harmonic is large (high). The spectral tilt 1008 can be measured by correlation of the segment signal at a distance of one sample or the first reflectance of the LPC parameters. In some cases, the spectral tilt 1008 may be used to indicate whether the very low frequency region contains significant energy or not. If the energy at very low frequencies (eg, frequencies below F0) is relatively high, then a strong tone may not exist. In some cases where a strong tone is detected, a weighting filter may be applied. Otherwise, the weighting filter may not be applied if a strong tone signal is not detected.

[0083] На Фиг. 11 показана блок-схема последовательности операций, иллюстрирующая примерный способ 1100 выполнения взвешивания по восприятию интенсивного тонового сигнала. В некоторых случаях способ 1100 может быть реализован устройством звукового кодека (например, кодером 300 LLB). В некоторых случаях способ 1100 может быть реализован любым подходящим устройством.[0083] In FIG. 11 is a flowchart illustrating an exemplary method 1100 for performing strong tone perception weighting. In some cases, method 1100 may be implemented by an audio codec device (eg, LLB encoder 300). In some cases, method 1100 may be implemented by any suitable device.

[0084] Способ 1100 может начинаться на этапе 1102, на котором принимается сигнал (например, сигнал 102 с Фиг. 1). В некоторых случаях сигнал может быть звуковым сигналом. В некоторых случаях сигнал может включать в себя один или более поддиапазонных компонентов. В некоторых случаях сигнал может включать в себя компонент LLB, компонент LHB, компонент HLB и компонент HHB. В одном примере сигнал может генерироваться с частотой дискретизации 96 кГц и иметь полосу пропускания 48 кГц. В этом примере компонент LLB сигнала может включать в себя поддиапазон 0-12 кГц, компонент LHB может включать в себя поддиапазон 12-24 кГц, компонент HLB может включать в себя поддиапазон 24-36 кГц, а компонент HHB может включать в себя поддиапазон 36-48 кГц. поддиапазон. В некоторых случаях сигнал может обрабатываться фильтром предыскажения (например, фильтром 104 предыскажения) и набором фильтров анализа QMF (например, набором 106 фильтров анализа QMF) для генерирования поддиапазонных сигналов в четырех поддиапазонах. В этом примере поддиапазонный сигнал LLB, поддиапазонный сигнал LHB, поддиапазонный сигнал HLB и поддиапазонный сигнал HHB могут быть сгенерированы соответственно для четырех поддиапазонов.[0084] Method 1100 may begin at 1102, where a signal is received (eg, signal 102 of FIG. 1). In some cases, the signal may be an audible signal. In some cases, the signal may include one or more subband components. In some cases, the signal may include an LLB component, an LHB component, an HLB component, and an HHB component. In one example, the signal may be generated at a sampling rate of 96 kHz and have a bandwidth of 48 kHz. In this example, the LLB component of the signal may include the 0-12 kHz subband, the LHB component may include the 12-24 kHz subband, the HLB component may include the 24-36 kHz subband, and the HHB component may include the 36-36 kHz subband. 48 kHz. subrange. In some cases, the signal may be processed by a pre-emphasis filter (eg, pre-emphasis filter 104) and a QMF analysis filter bank (eg, QMF analysis filter bank 106) to generate sub-band signals on four sub-bands. In this example, an LLB subband signal, an LHB subband signal, an HLB subband signal, and an HHB subband signal can be generated for four subbands, respectively.

[0085] На этапе 1104 остаточный сигнал по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов генерируется на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов. В некоторых случаях по меньшей мере один из упомянутого одного или более поддиапазонных сигналов может быть отфильтрован по наклону, чтобы сгенерировать отфильтрованный по наклону сигнал. В одном примере, по меньшей мере один из упомянутого одного или более поддиапазонных сигналов может включать в себя поддиапазонный сигнал в поддиапазоне LLB (например, поддиапазонный сигнал 302 LLB на Фиг. 3). В некоторых случаях отфильтрованный по наклону сигнал может дополнительно обрабатываться инверсным фильтром LPC (например, инверсным фильтром 310 LPC) для генерирования остаточного сигнала.[0085] In step 1104, a residual signal of at least one of said one or more subband signals is generated based on said at least one of said one or more subband signals. In some cases, at least one of said one or more subband signals may be slope filtered to generate a slope filtered signal. In one example, at least one of said one or more subband signals may include a subband signal in the LLB subband (eg, LLB subband signal 302 in FIG. 3). In some cases, the slope-filtered signal may be further processed by an inverse LPC filter (eg, inverse LPC filter 310) to generate a residual signal.

[0086] На этапе 1106 определяется, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом. В некоторых случаях, по меньшей мере один из упомянутого одного или более поддиапазонных сигналов определяется как интенсивный тоновый сигнал на основе по меньшей мере одного из текущего тонового усиления, сглаженного тонового усиления, продолжительности промежутка между тонами или спектрального наклона по меньшей мере одного из одного или более поддиапазоных сигналов.[0086] At step 1106, it is determined that said at least one of said one or more subband signals is a strong tone signal. In some cases, at least one of said one or more sub-band signals is determined to be a strong tone signal based on at least one of the current tone gain, the smoothed tone gain, the length of the gap between tones, or the spectral tilt of at least one of one or more subband signals.

[0087] В некоторых случаях тоновое усиление указывает периодичность сигнала, а сглаженное тоновое усиление представляет нормированное значение тонового усиления. В некоторых примерах нормированное тоновое усиление может составлять от 0 до 1. В этих примерах высокое значение нормированного тонового усиления (например, когда нормированное тоновое усиление близко к 1) может указывать на наличие сильных гармоник в спектральной области. В некоторых случаях короткая продолжительность промежутка между тонами означает, что частота первой гармоники (например, частота F0 906 на Фиг. 9) является большой (высокой). Если частота F0 первой гармоники относительно выше (например, F0>500 Гц) и уровень фонового спектра относительно ниже (например, ниже предварительно определенного порогового значения), то может быть обнаружен интенсивный тоновый сигнал. В некоторых случаях спектральный наклон может быть измерен посредством корреляции сегментарного сигнала на расстоянии одного дискретного отсчета или первого коэффициента отражения параметров LPC. В некоторых случаях спектральный наклон может использоваться, чтобы указать, содержит ли область очень низких частот значительную энергию или нет. Если энергия в области очень низких частот (например, частот ниже F0) относительно высока, интенсивный тоновый сигнал может не существовать.[0087] In some cases, the tone gain indicates the periodicity of the signal, and the smoothed tone gain represents the normalized value of the tone gain. In some examples, the normalized tone gain may be between 0 and 1. In these examples, a high normalized tone gain value (eg, when the normalized tone gain is close to 1) may indicate the presence of strong harmonics in the spectral region. In some cases, the short duration of the interval between tones means that the frequency of the first harmonic (for example, the frequency F0 906 in Fig. 9) is large (high). If the fundamental frequency F0 is relatively higher (eg, F0>500 Hz) and the background spectrum level is relatively lower (eg, below a predetermined threshold), then a strong tone signal may be detected. In some cases, the spectral tilt can be measured by correlation of the segment signal at a distance of one discrete sample or the first reflection coefficient of the LPC parameters. In some cases, the spectral tilt can be used to indicate whether the very low frequency region contains significant energy or not. If the energy at very low frequencies (eg, frequencies below F0) is relatively high, a strong tone may not exist.

[0088] На этапе 1108 операция взвешивания выполняется в отношении остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом. В некоторых случаях, когда обнаруживается интенсивный тоновый сигнал, взвешивающий фильтр (например, взвешивающий фильтр 316) может применяться к остаточному сигналу. В некоторых случаях может быть сгенерирован взвешенный остаточный сигнал. В некоторых случаях операция взвешивания может не выполняться, если интенсивный тоновый сигнал не обнаружен.[0088] In step 1108, a weighting operation is performed on the residual signal of at least one of said one or more subband signals in response to determining that said at least one of said one or more subband signals is a strong tone signal. In some cases, when an intense tone signal is detected, a weighting filter (eg, weighting filter 316) may be applied to the residual signal. In some cases, a weighted residual signal may be generated. In some cases, the weighing operation may not be performed if a strong tone signal is not detected.

[0089] Как отмечено, в случае интенсивного тонового сигнала ошибка кодирования в области низких частот может быть ощутимой из-за отсутствия эффекта слуховой маскировки. Если битовая скорость недостаточно высока, ошибок кодирования не избежать. Адаптивный взвешивающий фильтр (например, взвешивающий фильтр 316) и способы взвешивания, как описано в данном документе, могут использоваться для уменьшения ошибки кодирования и улучшения качества сигнала в области низких частот. Однако в некоторых случаях это может увеличить ошибки кодирования на более высоких частотах, что может быть несущественным для качества восприятия интенсивных тоновых сигналов. В некоторых случаях адаптивный взвешивающий фильтр может быть в зависимости от условий включен и выключен на основе обнаружения интенсивного тонового сигнала. Как описано выше, взвешивающий фильтр может быть включен, когда обнаружен интенсивный тоновый сигнал, и может быть выключен, когда интенсивный тоновый сигнал не обнаружен. Таким образом, качество случаев с интенсивными тонами все еще может быть улучшено, в то время как качество случаев без интенсивных тонов может не снижаться.[0089] As noted, in the case of a strong tone signal, a coding error in the low frequency region can be perceptible due to the lack of an auditory masking effect. If the bit rate is not high enough, coding errors cannot be avoided. An adaptive weighting filter (eg, weighting filter 316) and weighting techniques as described herein can be used to reduce coding error and improve signal quality in the low frequency region. However, in some cases this may increase coding errors at higher frequencies, which may not be significant for the quality of perception of intense tones. In some cases, the adaptive weighting filter may be conditionally turned on and off based on the detection of a strong tone signal. As described above, the weighting filter may be turned on when a strong tone is detected and may be turned off when no strong tone is detected. Thus, the quality of cases with intense tones can still be improved, while the quality of cases without intense tones may not be reduced.

[0090] На этапе 1110 квантованный остаточный сигнал генерируется на основе взвешенного остаточного сигнала, сгенерированного на этапе 1108. В некоторых случаях взвешенный остаточный сигнал вместе с вкладом LTP может обрабатываться блоком функции сложения для генерирования второго взвешенного остаточного сигнала. В некоторых случаях второй взвешенный остаточный сигнал может быть квантован для генерирования квантованного остаточного сигнала, который может быть дополнительно отправлен на сторону декодера (например, декодер 400 LLB на Фиг. 4).[0090] In step 1110, a quantized residual signal is generated based on the weighted residual signal generated in step 1108. In some cases, the weighted residual signal, together with the LTP contribution, may be processed by the addition function block to generate a second weighted residual signal. In some cases, the second weighted residual signal may be quantized to generate a quantized residual signal, which may be further sent to the decoder side (eg, LLB decoder 400 in FIG. 4).

[0091] На Фиг. 12 и на Фиг. 13 показаны примерные структуры кодера 1200 квантования остатка и декодера 1300 квантования остатка. В некоторых примерах кодер 1200 квантования остатка и декодер 1300 квантования остатка могут использоваться для обработки сигналов в поддиапазоне LLB. Как показано, кодер 1200 квантования остатка включает в себя компонент 1204 кодирования энергетической огибающей, компонент 1206 нормирования остатка, первый компонент 1210 кодирования с большим шагом, первый компонент 1212 с малым шагом, компонент 1214 целевой оптимизации, компонент 1216 регулировки битовой скорости, второй компонент 1218 кодирования с большим шагом и второй компонент 1220 кодирования с малым шагом.[0091] In FIG. 12 and in FIG. 13 shows exemplary structures of a residual quantization encoder 1200 and a residual quantization decoder 1300. In some examples, a residual quantizer 1200 and a residual quantizer decoder 1300 may be used to process signals on the LLB subband. As shown, the residual quantization encoder 1200 includes an energy envelope coding component 1204, a residual normalization component 1206, a first coarse pitch coding component 1210, a first fine pitch component 1212, a target optimization component 1214, a bit rate adjustment component 1216, a second component 1218 large pitch encoding and a second fine pitch encoding component 1220 .

[0092] Как показано, поддиапазонный сигнал 1202 LLB может сначала обрабатываться компонентом 1204 кодирования энергетической огибающей. В некоторых случаях энергетическая огибающая во временной области остаточного сигнала LLB может быть определена и квантована компонентом 1204 кодирования энергетической огибающей. В некоторых случаях квантованная энергетическая огибающая во временной области может быть отправлена на сторону декодера (например, декодера 1300). В некоторых примерах определенная энергетическая огибающая может иметь динамический диапазон от 12 дБ до 132 дБ в области остаточного сигнала, охватывающий очень низкий и очень высокий уровень. В некоторых случаях каждый подкадр в одном кадре имеет квантование одного уровня энергии, и пиковая энергия подкадра в кадре может быть непосредственно закодирована в области дБ. Энергии других подкадров в том же кадре могут кодироваться с использованием подхода кодирования Хаффмана путем кодирования разности между пиковой энергией и текущей энергией. В некоторых случаях, поскольку продолжительность одного подкадра может составлять всего около 2 мс, точность огибающей может быть приемлемой на основе принципа маскировки человеческого уха.[0092] As shown, the LLB subband signal 1202 may first be processed by the energy envelope encoding component 1204. In some cases, the time domain energy envelope of the LLB residual signal may be determined and quantized by the energy envelope encoding component 1204 . In some cases, the quantized energy envelope in the time domain may be sent to the side of the decoder (eg, decoder 1300). In some examples, a certain energy envelope may have a dynamic range of 12 dB to 132 dB in the residual region, spanning very low to very high levels. In some cases, each subframe in one frame has one energy level quantization, and the peak energy of a subframe in a frame may be directly encoded in the dB domain. The energies of other subframes in the same frame may be encoded using a Huffman coding approach by encoding the difference between the peak energy and the current energy. In some cases, since the duration of one subframe may be only about 2 ms, the envelope accuracy may be acceptable based on the human ear masking principle.

[0093] После наличия квантованной энергетической огибающей во временной области остаточный сигнал LLB может быть затем нормирован компонентом 1206 нормирования остатка. В некоторых случаях остаточный сигнал LLB может быть нормирован на основе квантованной энергетической огибающей во временной области. В некоторых примерах остаточный сигнал LLB может быть разделен квантованной энергетической огибающей во временной области для генерирования нормированного остаточного сигнала LLB. В некоторых случаях нормированный остаточный сигнал LLB может использоваться в качестве начального целевого сигнала 1208 для начального квантования. В некоторых случаях начальное квантование может включать в себя два этапа кодирования/квантования. В некоторых случаях первый этап кодирования/квантования включает в себя кодирование Хаффмана с большим шагом, а второй этап кодирования/квантования включает в себя равномерное кодирование с малым шагом. Как показано, начальный целевой сигнал 1208, который является нормированным остаточным сигналом LLB, может быть сначала обработан компонентом 1210 кодирования Хаффмана с большим шагом. Для звукового кодека высокого разрешения каждый дискретный отсчет остатка может быть квантован. Кодирование Хаффмана может сэкономить биты за счет использования специального распределения вероятностей индекса квантования. В некоторых случаях, когда размер шага квантования остатка достаточно велик, распределение вероятностей индекса квантования становится подходящим для кодирования Хаффмана. В некоторых случаях результат квантования из квантования с большим шагом может быть неоптимальным. Равномерное квантование может быть добавлено с меньшим шагом квантования после кодирования Хаффмана. Как показано, компонент 1212 равномерного кодирования с малым шагом может использоваться для квантования выходного сигнала от компонента 1210 кодирования Хаффмана с большим шагом. Таким образом, первый этап кодирования/квантования нормированного остаточного сигнала LLB выбирает относительно большой шаг квантования, потому что специальное распределение квантованного индекса кодирования приводит к более эффективному кодированию Хаффмана, а второй этап кодирования/квантования использует относительно простое равномерное кодирование с относительно небольшим шагом квантования, чтобы дополнительно уменьшить ошибки квантования от кодирования/квантования первого этапа.[0093] After having a quantized energy envelope in the time domain, the LLB residual signal may then be normalized by residual normalization component 1206. In some cases, the LLB residual signal may be normalized based on a quantized energy envelope in the time domain. In some examples, the LLB residual signal may be split by a quantized time-domain energy envelope to generate a normalized LLB residual signal. In some cases, the normalized LLB residual signal may be used as the initial target signal 1208 for initial quantization. In some cases, the initial quantization may include two encoding/quantization steps. In some cases, the first coding/quantization step includes large step Huffman coding and the second coding/quantization step includes uniform fine step coding. As shown, the initial target signal 1208, which is the normalized LLB residual signal, may be first processed by the large step Huffman coding component 1210. For a high resolution audio codec, each discrete residual sample can be quantized. Huffman coding can save bits by using a special probability distribution of the quantization index. In some cases, when the quantization step size of the residual is large enough, the probability distribution of the quantization index becomes suitable for Huffman coding. In some cases, the result of quantization from large step quantization may not be optimal. Uniform quantization can be added with a smaller quantization step after Huffman coding. As shown, uniform fine pitch coding component 1212 may be used to quantize the output signal from coarse pitch Huffman coding component 1210. Thus, the first encoding/quantization step of the normalized LLB residual signal selects a relatively large quantization step because the special distribution of the quantized coding index results in more efficient Huffman coding, and the second encoding/quantization step uses a relatively simple uniform coding with a relatively small quantization step so that further reduce the quantization errors from the encoding/quantization of the first stage.

[0094] В некоторых случаях начальный остаточный сигнал может быть идеальным целевым опорным сигналом, если квантование остатка не имеет ошибки или имеет достаточно маленькую ошибку. Если битовая скорость кодирования недостаточно высока, ошибка кодирования всегда может существовать и не является незначительной. Следовательно, этот начальный остаточный целевой опорный сигнал 1208 может быть субоптимальным для квантования с точки зрения восприятия. Хотя начальный остаточный целевой опорный сигнал 1208 является субоптимальным с точки зрения восприятия, он может обеспечить быструю оценку ошибки квантования, которая может использоваться не только для регулировки битовой скорости кодирования (например, посредством компонента 1216 регулировки битовой скорости), но также может быть использована для построения оптимизированного для восприятия целевого опорного сигнала. В некоторых случаях оптимизированный для восприятия целевой опорный сигнал может быть сгенерирован компонентом 1214 целевой оптимизации на основе начального остаточного целевого опорного сигнала 1208 и выходного сигнала начального квантования (например, выходного сигнала компонента 1212 равномерного кодирования с малым шагом).[0094] In some cases, the initial residual signal may be an ideal target reference signal if the residual quantization has no error or has a small enough error. If the encoding bit rate is not high enough, an encoding error may always exist and is not negligible. Therefore, this initial residual target reference 1208 may be perceptually sub-optimal for quantization. Although the initial residual target reference signal 1208 is perceptually sub-optimal, it can provide a fast quantization error estimate that can be used not only to adjust the coding bit rate (for example, via the bit rate adjust component 1216), but can also be used to construct optimized for the perception of the target reference signal. In some cases, a perceptually optimized target reference may be generated by the target optimization component 1214 based on the initial residual target reference 1208 and the initial quantization output (eg, the output of the fine pitch uniform coding component 1212).

[0095] В некоторых случаях оптимизированный целевой опорный сигнал может быть построен таким образом, чтобы минимизировать влияние ошибок не только текущего дискретного отсчета, но также предыдущих дискретных отсчетов и будущих дискретных отсчетов. Кроме того, он может оптимизировать распределение ошибок в спектральной области для учета эффекта маскировки восприятия человеческого уха.[0095] In some cases, an optimized target reference may be constructed in such a way as to minimize the effect of errors not only on the current sample, but also on previous samples and future samples. In addition, it can optimize the distribution of errors in the spectral domain to account for the perception masking effect of the human ear.

[0096] После того, как оптимизированный целевой опорный сигнал построен компонентом 1214 целевой оптимизации, кодирование Хаффмана первого этапа и равномерное кодирование второго этапа могут быть выполнены снова, чтобы заменить первый (начальный) результат квантования и получить лучшее качество восприятия. В этом примере второй компонент 1218 кодирования Хаффмана с большим шагом и второй компонент 1220 равномерного кодирования с малым шагом могут использоваться для выполнения кодирования Хаффмана первого этапа и равномерного кодирования второго этапа для оптимизированного целевого опорного сигнала. Квантование начального целевого опорного сигнала и оптимизированного целевого опорного сигнала будет обсуждаться ниже более подробно.[0096] After the optimized target reference signal is constructed by the target optimization component 1214, the first stage Huffman encoding and the second stage uniform encoding can be performed again to replace the first (initial) quantization result and obtain better perceptual quality. In this example, the second coarse stride Huffman coding component 1218 and the second fine stride uniform coding component 1220 may be used to perform first stage Huffman coding and second stage uniform coding for the optimized target reference signal. The quantization of the initial target reference and the optimized target reference will be discussed in more detail below.

[0097] В некоторых примерах не квантованный остаточный сигнал или начальный целевой остаточный сигнал могут быть представлены как r_i(n). Используя r_i(n) в качестве цели, остаточный сигнал можно сначала квантовать, чтобы получить первый квантованный остаточный сигнал, обозначенный как На основе r_i(n), и импульсной характеристикиh_w(n) взвешивающего по восприятию фильтраможно оценить оптимизированный для восприятияцелевой остаточный сигнал r_o(n). Используя r_o(n) в качестве обновленной или оптимизированной цели, остаточный сигнал можно снова квантовать, чтобы получить второй квантованный остаточный сигнал, обозначенный как который был оптимизирован для восприятия, чтобы заменить первый квантованный остаточный сигнал В некоторых случаях h_w(n) может быть определена многими возможными способами, например, путем оценки h_w(n) на основе фильтра LPC.[0097] In some examples, the non-quantized residual signal or the initial target residual signal may be represented as r_i(n). Using r_i(n) as a target, the residual signal may be first quantized to obtain a first quantized residual signal, denoted as based on r_i(n), and impulse responseh_w(n) perceptual weighting filtercan be evaluated optimized for perceptiontarget residual signal r_o(n). Using r_o(n) as an updated or optimized target, the residual signal can be quantized again to obtain a second quantized residual signal, denoted as which has been optimized for perception to replace the first quantized residual signal In some cases h_w(n) can be determined in many possible ways, for example by evaluating h_w(n) based on LPC filter.

[0098] В некоторых случаях фильтр LPC для поддиапазона LLB может быть выражен следующим образом:[0098] In some cases, the LPC filter for the LLB subband may be expressed as follows:

[0099] [0099]

[0100] Взвешенный по восприятию фильтр W(z) можно определить как:[0100] The perceptually weighted filter W(z) can be defined as:

[0101] [0101]

[0102] где α - постоянный коэффициент, 0<α<1. γ может быть первым коэффициентом отражения фильтра LPC или просто константой, -1<γ<1. Импульсную характеристику фильтра W(z) можно определить как h_w(n). В некоторых случаях длина h_w(n) зависит от значений α и γ. В некоторых случаях, когда α и γ близки к нулю, длина h_w(n) становится короткой и быстро спадает до нуля. С точки зрения вычислительной сложности оптимально иметь короткую импульсную характеристику h_w(n). В случае, если h_w(n) недостаточно короткая, ее можно умножить на половину окна Хэмминга или половину окна Хэннинга, чтобы заставить h_w(n) быстро спадать до нуля. После получения импульсной характеристики h_w(n) цель в области взвешенного по восприятию сигнала может быть выражена как[0102] where α is a constant coefficient, 0<α<1. γ can be the first reflectance of the LPC filter or just a constant, -1<γ<1. The filter impulse response W(z) can be defined as h _w (n). In some cases, the length h _w (n) depends on the values of α and γ. In some cases, when α and γ are close to zero, the length h _w (n) becomes short and quickly drops to zero. From the point of view of computational complexity, it is optimal to have a short impulse response h _w (n). In case h _w (n) is not short enough, it can be multiplied by half the Hamming window or half the Hanning window to make h _w (n) rapidly drop to zero. After obtaining the impulse response h _w (n), the target in the region of the perceptually weighted signal can be expressed as

[0103] [0103]

[0104] что является сверткой между r_i(n) и h_w(n). Вклад первоначально квантованного остатка в области взвешенного по восприятию сигнала может быть выражен как[0104] which is the convolution between r _i (n) and h _w (n). Contribution of the originally quantized residual in the region of a perceptually weighted signal can be expressed as

[0105] [0105]

[0106] Ошибка в области остатка[0106] Error in the remainder area

[0107] [0107]

[0108] минимизируется, поскольку он квантован в прямой области остатка. Однако ошибка в области взвешенного по восприятию сигнала[0108] is minimized as it is quantized in the forward domain of the remainder. However, the error in the region of the perceptually weighted signal

[0109] [0109]

[0110] не может быть минимизирована. Следовательно, может потребоваться минимизация ошибки квантования в области взвешенного по восприятию сигнала. В некоторых случаях все остаточные дискретные отсчеты могут квантоваться совместно. Однако это может вызвать дополнительные сложности. В некоторых случаях остаток можно квантовать из расчета на дискретный отсчет, но с оптимизацией восприятия. Например, может быть изначально установлено для всех дискретных отсчетов в текущем кадре. Предположим, что все дискретные отсчеты были квантованы, за исключением того, что дискретный отсчет в m не квантован, то наилучшее с точки зрения восприятия значение теперь в m не равноr_i(m), а должно быть[0110] cannot be minimized. Therefore, it may be desirable to minimize the quantization error in the region of the perceptually weighted signal. In some cases, all residual discrete samples may be quantized together. However, this may cause additional difficulties. In some cases, the residual can be quantized per discrete sample, but with perceptual optimization. For example, may be initially set for all discrete samples in the current frame. Assume that all discrete samples have been quantized, except that the discrete sample in m is not quantized, then the perceptual best value in m is now not equal tor_i(m), but it should be

[0111] [0111]

[0112] где <T_g'(n), h_w(n)> представляет взаимную корреляцию между вектором {T_g'(n)} и вектором {h_w(n)}, в котором длина вектора равна длине импульсной характеристики h_w(n), а начальная точка вектора {T_g'(n)} находится в m. ||h_w(n)|| - энергия вектора {h_w(n)}, которая является постоянной энергией в одном и том же кадре. T_g'(n) можно выразить как[0112] where <T _g '(n), h _w (n)> represents the cross-correlation between the vector {T _g '(n)} and the vector {h _w (n)}, in which the length of the vector is equal to the length of the impulse response h _w (n) and the starting point of the vector {T _g '(n)} is at m. || _hw (n)|| - the energy of the vector {h _w (n)}, which is a constant energy in the same frame. T _g '(n) can be expressed as

[0113] [0113]

[0114] Как только оптимизированное для восприятия новое целевое значениеr_o(m) определено, оно может быть снова квантовано для генерирования r_ô(m) способом, аналогичным начальному квантованию, включая кодирование Хаффмана с большим шагом и равномерное кодирование с малым шагом. Затем m перейдет к следующей позиции дискретного отсчета. Вышеупомянутая обработка повторяется от дискретного отсчета к дискретному отсчету, в то время как выражения (7) и (8) обновляются новыми результатами до тех пор, пока все дискретные отсчеты не будут оптимально квантованы. Во время каждого обновления для каждого m выражение (8) не нужно пересчитывать, потому что большинство дискретных отсчетов в {r_ô(k)} не изменяется. Знаменатель в выражении (7) является постоянным, так что деление может стать постоянным умножением.[0114] Once the perceptually optimized new target valuer_o(m) determined, it can be quantized again to generate r_o(m) in a manner similar to initial quantization, including large step Huffman coding and fine step uniform coding. Then m will move to the next discrete sample position. The above processing is repeated from sample to sample while expressions (7) and (8) are updated with new results until all samples are optimally quantized. During each update for each m, expression (8) does not need to be recalculated, because most of the discrete samples in {r_o(k)} does not change. The denominator in expression (7) is constant, so a division can become a constant multiplication.

[0115] На стороне декодера, как показано на Фиг. 13, квантованные значения от декодирования 1302 Хаффмана с большим шагом и равномерного декодирования 1304 с малым шагом суммируются вместе посредством блока 1306 функции сложения для генерирования нормированного остаточного сигнала. Нормированный остаточный сигнал может обрабатываться компонентом 1308 декодирования энергетической огибающей во временной области для генерирования декодированного остаточного сигнала 1310.[0115] On the decoder side, as shown in FIG. 13, the quantized values from the large step Huffman decoding 1302 and the fine step uniform decoding 1304 are added together by an addition function block 1306 to generate a normalized residual signal. The normalized residual signal may be processed by a time domain energy envelope decoding component 1308 to generate a decoded residual signal 1310.

[0116] На Фиг. 14 показана блок-схема последовательности операций, иллюстрирующая примерный способ 1400 выполнения квантования остатка для сигнала. В некоторых случаях способ 1400 может быть реализован устройством звукового кодека (например, кодером 300 LLB или кодером 1200 квантования остатка). В некоторых случаях способ 1100 может быть реализован любым подходящим устройством.[0116] In FIG. 14 is a flowchart illustrating an exemplary method 1400 for performing residual quantization on a signal. In some cases, method 1400 may be implemented by an audio codec device (eg, LLB encoder 300 or residual quantization encoder 1200). In some cases, method 1100 may be implemented by any suitable device.

[0117] Способ 1400 начинается на этапе 1402, где определяется энергетическая огибающая во временной области входного остаточного сигнала. В некоторых случаях входной остаточный сигнал может быть остаточным сигналом в поддиапазоне LLB (например, остаточный сигнал 1202 LLB).[0117] Method 1400 begins at step 1402, where the energy envelope in the time domain of the input residual signal is determined. In some cases, the input residual signal may be a residual signal in the LLB subband (eg, LLB residual signal 1202).

[0118] На этапе 1404 энергетическая огибающая во временной области входного остаточного сигнала квантуется для генерирования квантованной энергетической огибающей во временной области. В некоторых случаях квантованная энергетическая огибающая во временной области может быть отправлена на сторону декодера (например, декодера 1300).[0118] In step 1404, the time domain energy envelope of the input residual signal is quantized to generate a quantized time domain energy envelope. In some cases, the quantized energy envelope in the time domain may be sent to the side of the decoder (eg, decoder 1300).

[0119] На этапе 1406 входной остаточный сигнал нормируется на основе квантованной энергетической огибающей во временной области, чтобы сгенерировать первый целевой остаточный сигнал. В некоторых случаях остаточный сигнал LLB может быть разделен квантованной энергетической огибающей во временной области для генерирования нормированного остаточного сигнала LLB. В некоторых случаях нормированный остаточный сигнал LLB может использоваться в качестве начального целевого сигнала для начального квантования.[0119] In step 1406, the input residual signal is normalized based on the quantized energy envelope in the time domain to generate a first target residual signal. In some cases, the LLB residual signal may be split by a quantized time-domain energy envelope to generate a normalized LLB residual signal. In some cases, the normalized LLB residual signal may be used as the initial target signal for initial quantization.

[0120] На этапе 1408 выполняется первое квантование в отношении первого целевого остаточного сигнала на первой битовой скорости, чтобы сгенерировать первый квантованный остаточный сигнал. В некоторых случаях первое квантование остатка может включать в себя два этапа субквантования/кодирования. Первый этап субквантования может выполняться в отношении первого целевого остаточного сигнала на первом этапе квантования, чтобы сгенерировать первый выходной сигнал субквантования. Второй этап субквантования может выполняться в отношении первого выходного сигнала субквантования на втором этапе квантования, чтобы сгенерировать первый квантованный остаточный сигнал. В некоторых случаях шаг первого квантования больше, чем шаг второго квантования по размеру. В некоторых примерах первый этап субквантования может быть кодированием Хаффмана с большим шагом, а второй этап субквантования может быть равномерным кодированием с малым шагом.[0120] In step 1408, a first quantization is performed on the first target residual signal at a first bit rate to generate a first quantized residual signal. In some cases, the first residual quantization may include two sub-quantization/encoding steps. The first subquantization step may be performed on the first target residual signal in the first quantization step to generate the first subquantization output signal. The second subquantization step may be performed on the first subquantization output signal in the second quantization step to generate a first quantized residual signal. In some cases, the first quantization step is larger than the second quantization step in size. In some examples, the first subquantization step may be a large step Huffman coding and the second subquantization step may be a uniform fine step coding.

[0121] В некоторых случаях первый целевой остаточный сигнал включает в себя множество дискретных отсчетов. Первое квантование может выполняться в отношении первого целевого остаточного сигнала из расчета на дискретный отсчет. В некоторых случаях это может снизить сложность квантования, тем самым повышая эффективность квантования.[0121] In some cases, the first target residual signal includes a plurality of discrete samples. The first quantization may be performed on the first target residual signal per sample. In some cases, this can reduce the complexity of quantization, thereby increasing the efficiency of quantization.

[0122] На этапе 1410 генерируется второй целевой остаточный сигнал на основе, по меньшей мере, первого квантованного остаточного сигнала и первого целевого остаточного сигнала. В некоторых случаях второй целевой остаточный сигнал может быть сгенерирован на основе первого целевого остаточного сигнала, первого квантованного остаточного сигнала и импульсной характеристики h_w(n) фильтра взвешивания по восприятию. В некоторых случаях оптимизированный для восприятия целевой остаточный сигнал, который является вторым целевым остаточным сигналом, может быть сгенерирован для второго квантования остатка.[0122] In step 1410, a second target residual signal is generated based on at least the first quantized residual signal and the first target residual signal. In some cases, the second target residual signal may be generated based on the first target residual signal, the first quantized residual signal, and the impulse response h _w (n) of the perceptual weighting filter. In some cases, a perceptually optimized target residual signal that is a second target residual signal may be generated for the second residual quantization.

[0123] На этапе 1412 выполняется второе квантование остатка в отношении второго целевого остаточного сигнала на второй битовой скорости, чтобы сгенерировать второй квантованный остаточный сигнал. В некоторых случаях вторая битовая скорость может отличаться от первой битовой скорости. В одном примере вторая битовая скорость может быть выше первой битовой скорости. В некоторых случаях ошибка кодирования от первого квантования остатка при первой битовой скорости может быть незначительной. В некоторых случаях битовая скорость кодирования может быть отрегулирована (например, повышена) при втором квантовании остатка, чтобы уменьшить скорость кодирования.[0123] In step 1412, a second residual quantization is performed on the second target residual signal at a second bit rate to generate a second quantized residual signal. In some cases, the second bit rate may be different from the first bit rate. In one example, the second bit rate may be higher than the first bit rate. In some cases, the coding error from the first quantization of the residue at the first bit rate may be negligible. In some cases, the coding bit rate may be adjusted (eg, increased) in the second quantization of the residual to reduce the coding rate.

[0124] В некоторых случаях второе квантование остатка аналогично первому квантованию остатка. В некоторых примерах второе квантование остатка также может включать в себя два этапа субквантования/кодирования. В этих примерах первый этап субквантования может выполняться в отношении второго целевого остаточного сигнала с большим шагом квантования, чтобы сгенерировать выходной сигнал субквантования. Второй этап субквантования может выполняться в отношении выходного сигнала субквантования с малым шагом квантования, чтобы сгенерировать второй квантованный остаточный сигнал. В некоторых случаях первый этап субквантования может быть кодированием Хаффмана с большим шагом, а второй этап субквантования может быть однородным кодированием с малым шагом. В некоторых случаях второй квантованный остаточный сигнал может быть отправлен на сторону декодера (например, декодер 1300) через канал потоковой передачи битов.[0124] In some cases, the second residual quantization is similar to the first residual quantization. In some examples, the second residual quantization may also include two sub-quantization/encoding steps. In these examples, a first subquantization step may be performed on a second target residual signal with a large quantization step to generate a subquantization output signal. The second sub-quantization step may be performed on the fine-step sub-quantization output signal to generate a second quantized residual signal. In some cases, the first subquantization step may be a large step Huffman coding and the second subquantization step may be a uniform fine step coding. In some cases, the second quantized residual signal may be sent to the decoder side (eg, decoder 1300) via a bitstream channel.

[0125] Как отмечено на Фиг. 3, 4, LTP может по условию включаться и выключаться для лучшего PLC. В некоторых случаях, когда битовая скорость кодека недостаточно высока для достижения прозрачного качества, LTP очень полезен для периодических и гармонических сигналов. Для кодека высокого разрешения может потребоваться решить две проблемы для применения LTP: (1) вычислительная сложность должна быть уменьшена, поскольку традиционный LTP может стоить очень высокой вычислительной сложности в среде с высокой частотой дискретизации; и (2) отрицательное влияние маскировки потери пакетов (PLC) должно быть ограничено, поскольку LTP использует межкадровую корреляцию и может вызвать распространение ошибки, когда происходит потеря пакета в канале передачи.[0125] As noted in FIG. 3, 4, LTP can be conditionally turned on and off for the best PLC. In some cases where the codec's bit rate is not high enough to achieve transparent quality, LTP is very useful for periodic and harmonic signals. For a high definition codec, two problems may need to be solved to apply LTP: (1) the computational complexity must be reduced because traditional LTP can cost very high computational complexity in a high sample rate environment; and (2) the negative impact of Packet Loss Concealment (PLC) should be limited because LTP uses inter-frame correlation and can cause error propagation when a packet loss occurs on the transmission channel.

[0126] В некоторых случаях поиск промежутка между тонами добавляет к LTP дополнительную вычислительную сложность. Для повышения эффективности кодирования может потребоваться более эффективный протокол LTP. Примерный процесс поиска промежутка между тонами описывается ниже со ссылкой на Фиг. 15-16.[0126] In some cases, finding the gap between tones adds additional computational complexity to the LTP. A more efficient LTP protocol may be required to improve coding efficiency. An exemplary process for finding a gap between tones is described below with reference to FIG. 15-16.

[0127] На Фиг. 15 показан пример вокализованной речи, в которой промежуток 1502 между тонами представляет расстояние между двумя соседними периодическими циклами (например, расстояние между пиками P1 и P2). Некоторые музыкальные сигналы могут иметь не только сильную периодичность, но и стабильный промежуток между тонами (почти постоянный промежуток между тонами).[0127] In FIG. 15 shows an example of voiced speech in which tonal spacing 1502 represents the distance between two adjacent periodic cycles (eg, the distance between peaks P1 and P2). Some musical signals may not only have strong periodicity, but also a stable pitch spacing (nearly constant pitch spacing).

[0128] На Фиг. 16 показан примерный процесс 1600 выполнения управления LTP для лучшего маскирования потери пакетов. В некоторых случаях процесс 1600 может быть реализован устройством кодека (например, кодером 100 или кодером 300). В некоторых случаях процесс 1600 может быть реализован любым подходящим устройством. Процесс 1600 включает в себя поиск промежутка между тонами (который будет описан ниже для краткости как «тоны») и управление LTP. Как правило, поиск тонов может быть затруднен при высокой частоте дискретизации традиционным способом из-за большого количества потенциально подходящих тонов. Описанный здесь процесс 1600 может включать в себя три фазы/этапа. Во время первой фазы/этапа сигнал (например, сигнал 1602 LLB) может быть отфильтрован 1604 по нижним частотам, поскольку периодичность в основном находится в области нижних частот. Затем отфильтрованный сигнал может быть подвергнут понижающей дискретизации, чтобы сгенерировать входной сигнал для быстрого начального грубого поиска 1608 тонов. В одном примере сигнал с пониженной дискретизацией генерируется с частотой дискретизации 2 кГц. Поскольку общее количество потенциально подходящих тонов при низкой частоте дискретизации невелико, грубый результат тонов может быть получен быстро путем поиска всех потенциально подходящих тонов с низкой частотой дискретизации. В некоторых случаях начальный поиск 1608 тонов может выполняться с использованием традиционного подхода максимизации нормированной взаимной корреляции с коротким окном или автокорреляции с большим окном.[0128] In FIG. 16 shows an exemplary process 1600 for performing LTP control to better conceal packet loss. In some cases, process 1600 may be implemented by a codec device (eg, encoder 100 or encoder 300). In some cases, process 1600 may be implemented by any suitable device. Process 1600 includes searching for a gap between tones (which will be described below for brevity as "tones") and managing LTP. Typically, searching for tones can be difficult at high sampling rates in the traditional way due to the large number of potentially suitable tones. The process 1600 described here may include three phases/steps. During the first phase/stage, the signal (eg, LLB signal 1602) can be low-pass filtered 1604 because the periodicity is mostly in the low-frequency region. The filtered signal may then be downsampled to generate an input signal for a fast initial coarse tone search 1608 . In one example, the downsampled signal is generated at a sampling rate of 2 kHz. Since the total number of potentially suitable tones at a low sampling rate is small, a coarse tone result can be obtained quickly by searching for all potentially suitable tones at a low sampling rate. In some cases, the initial tone search 1608 may be performed using a conventional short window normalized cross-correlation or large window autocorrelation maximization approach.

[0129] Поскольку результат начального поиска тонов может быть относительно грубым, точный поиск с использованием подхода взаимной корреляции в окрестности множества начальных тонов может все еще быть сложным при высокой частоте дискретизации (например, 24 кГц). Следовательно, во время второй фазы/этапа (например, быстрого точного поиска 1610 тонов) точность тонов может быть увеличена в области формы сигнала путем простого просмотра местоположений пиков формы сигнала при низкой частоте дискретизации. Затем во время третьей фазы/этапа (например, оптимизированного точного поиска 1612 тонов) результат точного поиска тонов из второй фазы/этапа может быть оптимизирован посредством подхода взаимной корреляции в пределах небольшого диапазона поиска при высокой частоте дискретизации.[0129] Since the result of the initial tone search may be relatively coarse, an accurate search using the cross-correlation approach in the vicinity of a plurality of initial tones may still be difficult at a high sampling rate (eg, 24 kHz). Therefore, during the second phase/stage (eg, fast fine search 1610 tones), the accuracy of the tones can be increased in the waveform domain by simply looking at waveform peak locations at a low sampling rate. Then, during a third phase/step (eg, optimized tone fine search 1612), the tone fine search result from the second phase/step can be optimized through a cross-correlation approach within a small search range at a high sampling rate.

[0130] Например, во время первой фазы/этапа (например, начальный поиск 1608 тонов) может быть получен результат начального грубого поиска тонов на основе всех потенциально подходящих тонов, которые были найдены. В некоторых случаях окрестность потенциально подходящих тонов может быть определена на основе результата начального грубого поиска тонов и может использоваться для второй фазы/этапа для получения более точного результата поиска тонов. Во время второй фазы/этапа (например, быстрого точного поиска 1610 тонов) местоположения пиков формы волны могут быть определены на основе потенциально подходящих тонов и в пределах окрестности потенциально подходящих тонов, как определено на первом этапе/фазе. В одном примере, показанном на Фиг. 15 положение P1 первого пика на Фиг. 15, может быть определено в пределах ограниченного диапазона поиска, заданного из результата начального поиска тонов (например, окрестность потенциально подходящих тонов определена примерно на 15% отклонения от первой фазы/этапа). Местоположение P2 второго пика на Фиг. 15 можно определить аналогичным образом. Разница местоположения между P1 и P2 становится гораздо более точной оценкой тонов, чем первоначальная оценка тонов. В некоторых случаях более точная оценка тонов, полученная из второй фазы/этапа, может использоваться для определения второй окрестности потенциально подходящих тонов, которая может использоваться на третьей фазе/этапе, чтобы найти оптимизированный точный промежуток между тонами, например, окрестность потенциально подходящих тонов определена около 15% отклонения от второй фазы/этапа. Во время третьей фазы/этапа (например, оптимизированного точного поиска 1612 тонов) оптимизированный точный промежуток между тонами можно искать посредством подхода нормированной взаимной корреляции в пределах очень небольшого диапазона поиска (например, второй окрестности потенциально подходящих тонов).[0130] For example, during the first phase/step (eg, initial tone search 1608), an initial coarse tone search result may be obtained based on all potentially matching tones that were found. In some cases, a neighborhood of potentially suitable tones may be determined based on the result of the initial coarse tone search and may be used for the second phase/step to obtain a more accurate tone search result. During a second phase/step (eg, fast fine tone search 1610), waveform peak locations can be determined based on potentially suitable tones and within a neighborhood of potentially suitable tones as determined in the first step/phase. In one example shown in FIG. 15 position P1 of the first peak in FIG. 15 can be determined within a limited search range given from the initial tone search result (eg, the neighborhood of potentially suitable tones is determined to be about 15% away from the first phase/stage). The location P2 of the second peak in FIG. 15 can be defined in a similar way. The location difference between P1 and P2 becomes a much more accurate tone estimate than the original tone estimate. In some cases, the more accurate tone estimate obtained from the second phase/stage can be used to determine a second neighborhood of potentially suitable tones, which can be used in the third phase/stage to find an optimized exact spacing between tones, for example, a neighborhood of potentially suitable tones is determined around 15% deviation from the second phase/stage. During a third phase/stage (eg, optimized fine tone search 1612), an optimized fine tone spacing can be searched through a normalized cross-correlation approach within a very small search range (eg, a second neighborhood of potentially suitable tones).

[0131] В некоторых случаях, если LTP всегда включен, то PLC может быть неоптимальным из-за возможного распространения ошибки при потере пакета битового потока. В некоторых случаях LTP может быть включен, если он может эффективно улучшить качество звука и не окажет существенного влияния на PLC. На практике LTP может быть эффективным, когда тоновое усиление является высоким и стабильным, что означает, что высокая периодичность сохраняется для, по меньшей мере, нескольких кадров (а не только для одного кадра). В некоторых случаях в области сигнала с высокой периодичностью PLC относительно прост и эффективен, поскольку PLC всегда использует периодичность для копирования предыдущей информации в текущий потерянный кадр. В некоторых случаях стабильный промежуток между тонами также может снизить негативное влияние на PLC. Стабильный промежуток между тонами означает, что значение промежутка между тонами существенно не меняется для, по меньшей мере, нескольких кадров, что, вероятно, приведет к стабильному тону в ближайшем будущем. В некоторых случаях, когда текущий кадр пакета битового потока теряется, PLC может использовать предыдущую информацию тонов для восстановления текущего кадра. Таким образом, стабильный промежуток между тонами может помочь в текущей оценке тонов для PLC.[0131] In some cases, if LTP is always enabled, then the PLC may be suboptimal due to possible error propagation when a bitstream packet is lost. In some cases, LTP may be enabled if it can effectively improve audio quality and not significantly affect the PLC. In practice, LTP can be effective when the tone gain is high and stable, which means that high periodicity is maintained for at least a few frames (not just one frame). In some cases in the high periodicity signal domain, the PLC is relatively simple and efficient because the PLC always uses the periodicity to copy the previous information into the current lost frame. In some cases, a stable tone spacing can also reduce the negative impact on the PLC. A stable tone spacing means that the tone spacing value does not change significantly for at least a few frames, which is likely to result in a stable tone in the near future. In some cases, when the current frame of a bitstream packet is lost, the PLC may use the previous tone information to recover the current frame. Thus, a stable tone spacing can help in the ongoing tone estimation for the PLC.

[0132] Продолжая пример со ссылкой на Фиг. 16, обнаружение 1614 периодичности и обнаружение 1616 стабильности выполняются до принятия решения о включении или выключении LTP. В некоторых случаях, когда тоновое усиление стабильно велико, и промежуток между тонами относительно стабилен, LTP может быть включен. Например, тоновое усиление может быть установлено для высокопериодических и стабильных кадров (например, тоновое усиление стабильно выше 0,8), как показано на этапе 1618. В некоторых случаях, как показано на Фиг. 3, сигнал вклада LTP может быть сгенерирован и объединен с взвешенным остаточным сигналом для генерирования входного сигнала для квантования остатка. С другой стороны, если тоновое усиление нестабильно и/или промежуток между тонами нестабилен, LTP может быть отключен.[0132] Continuing the example with reference to FIG. 16, periodicity detection 1614 and stability detection 1616 are performed prior to a decision to enable or disable LTP. In some cases where the tone gain is consistently large and the spacing between tones is relatively stable, LTP may be turned on. For example, the tone gain may be set for highly periodic and stable frames (eg, the tone gain is stable above 0.8), as shown in step 1618. In some cases, as shown in FIG. 3, an LTP contribution signal may be generated and combined with a weighted residual signal to generate an input signal for residual quantization. On the other hand, if the tone gain is unstable and/or the spacing between tones is unstable, LTP may be disabled.

[0133] В некоторых случаях LTP может быть также отключен для одного или двух кадров, если LTP был ранее включен для нескольких кадров, чтобы избежать возможного распространения ошибки при потере пакета битового потока. В одном примере, как показано на этапе 1620, тоновое усиление может быть по условию сброшено до нуля для лучшего PLC, например, когда LTP был ранее включен для нескольких кадров. В некоторых случаях, когда LTP выключен, в системе кодирования с переменной битовой скоростью может быть установлена немного большая битовая скорость кодирования. В некоторых случаях, когда решено включить LTP, тоновое усиление и промежуток между тонами могут быть квантованы и отправлены на сторону декодера, как показано на этапе 1622.[0133] In some cases, LTP may also be disabled for one or two frames if LTP was previously enabled for multiple frames to avoid possible error propagation when a bitstream packet is lost. In one example, as shown at 1620, the tone gain may be conditionally reset to zero for the best PLC, such as when LTP was previously enabled for several frames. In some cases, when LTP is disabled, the variable bit rate coding system may be set to a slightly higher coding bit rate. In some cases, when it is decided to enable LTP, the tone gain and tone spacing may be quantized and sent to the decoder side, as shown in step 1622.

[0134] На Фиг. 17 показан пример спектрограмм звукового сигнала. Как показано, спектрограмма 1702 показывает частотно-временной график звукового сигнала. Показано, что спектрограмма 1702 включает в себя множество гармоник, что указывает на высокую периодичность звукового сигнала. Спектрограмма 1704 показывает исходное тоновое усиление звукового сигнала. Показано, что тоновое усиление является стабильно высоким в течение большей части времени, что также указывает на высокую периодичность звукового сигнала. Спектрограмма 1706 показывает сглаженное тоновое усиление (корреляцию тонов) звукового сигнала. В этом примере сглаженное тоновое усиление представляет нормированное тоновое усиление. Спектрограмма 1708 показывает промежуток между тонами, а спектрограмма 1710 показывает квантованное тоновое усиление. Показано, что промежуток между тонами относительно стабилен в течение большей части времени. Как показано, тоновое усиление периодически сбрасывается на ноль, что указывает на то, что LTP выключается, чтобы избежать распространения ошибки. Квантованное тоновое усиление также устанавливается на ноль, когда LTP выключен.[0134] In FIG. 17 shows an example of audio signal spectrograms. As shown, spectrogram 1702 shows a time-frequency plot of the audio signal. The spectrogram 1702 is shown to include many harmonics, indicating a high periodicity of the audio signal. Spectrogram 1704 shows the original tone gain of the audio signal. It is shown that the tone gain is consistently high for most of the time, which also indicates a high frequency of the audio signal. Spectrogram 1706 shows the smoothed tone gain (tone correlation) of the audio signal. In this example, the smoothed tone gain represents the normalized tone gain. Spectrogram 1708 shows the spacing between tones, and spectrogram 1710 shows the quantized tone gain. It is shown that the interval between tones is relatively stable during most of the time. As shown, the tone gain is periodically reset to zero, indicating that LTP is turned off to avoid error propagation. The quantized tone gain is also set to zero when LTP is off.

[0135] На Фиг. 18 показана блок-схема последовательности операций, иллюстрирующая примерный способ 1800 выполнения LTP. В некоторых случаях способ 1400 может быть реализован устройством звукового кодека (например, кодером 300 LLB). В некоторых случаях способ 1100 может быть реализован любым подходящим устройством.[0135] In FIG. 18 is a flowchart illustrating an exemplary method 1800 for performing LTP. In some cases, method 1400 may be implemented by an audio codec device (eg, LLB encoder 300). In some cases, method 1100 may be implemented by any suitable device.

[0136] Способ 1800 начинается с этапа 1802, где входной звуковой сигнал принимается на первой частоте дискретизации. В некоторых случаях звуковой сигнал может включать в себя множество первых дискретных отсчетов, где множество первых дискретных отсчетов генерируется на первой частоте дискретизации. В одном примере множество первых дискретных отсчетов может быть сгенерировано с частотой дискретизации 96 кГц.[0136] Method 1800 begins at step 1802, where an input audio signal is received at a first sampling rate. In some cases, the audio signal may include a plurality of first samples, where the plurality of first samples is generated at a first sampling rate. In one example, a plurality of first discrete samples may be generated at a sampling rate of 96 kHz.

[0137] На этапе 1804 производится понижающая дискретизация звукового сигнала. В некоторых случаях множество первых отсчетов звукового сигнала может подвергаться понижающей дискретизации для генерирования множества вторых дискретных отсчетов со второй частотой дискретизации. В некоторых случаях вторая частота дискретизации ниже первой частоты дискретизации. В этом примере множество вторых дискретных отсчетов может быть сгенерировано на частоте дискретизации 2 кГц.[0137] In step 1804, the audio signal is downsampled. In some cases, a plurality of first samples of the audio signal may be downsampled to generate a plurality of second discrete samples at a second sampling rate. In some cases, the second sampling rate is lower than the first sampling rate. In this example, a plurality of second discrete samples may be generated at a sampling rate of 2 kHz.

[0138] На этапе 1806 определяется первый промежуток между тонами при второй частоте дискретизации. Поскольку общее количество потенциально подходящих тонов при низкой частоте дискретизации невелико, грубый результат тонов может быть получен быстро путем поиска всех потенциально подходящих тонов с низкой частотой дискретизации. В некоторых случаях множество потенциально подходящих тонов может быть определено на основе множества вторых дискретных отсчетов при второй частоте дискретизации. В некоторых случаях первый промежуток между тонами может определяться на множестве потенциально подходящих тонов. В некоторых случаях первый промежуток между тонами может быть определен путем максимизации нормированной взаимной корреляции с первым окном или автокорреляции со вторым окном, где второе окно больше, чем первое окно.[0138] At step 1806, the first spacing between tones at the second sampling rate is determined. Since the total number of potentially suitable tones at a low sampling rate is small, a coarse tone result can be obtained quickly by searching for all potentially suitable tones at a low sampling rate. In some cases, a set of potentially suitable tones may be determined based on a set of second discrete samples at a second sampling rate. In some cases, the first gap between tones may be defined on a plurality of potentially suitable tones. In some cases, the first tone spacing may be determined by maximizing the normalized cross-correlation with the first window, or the autocorrelation with the second window, where the second window is larger than the first window.

[0139] На этапе 1808 определяется второй промежуток между тонами на основе первого промежутка между тонами, как определено на этапе 1804. В некоторых случаях первый диапазон поиска может быть определен на основе первого промежутка между тонами. В некоторых случаях местоположение первого пика и местоположение второго пика могут быть определены в пределах первого диапазона поиска. В некоторых случаях второй промежуток между тонами может быть определен на основе местоположения первого пика и местоположения второго пика. Например, разность местоположений между местоположением первого пика и местоположением второго пика может использоваться для определения второго промежутка между тонами.[0139] In step 1808, a second tone gap is determined based on the first tone gap, as determined in step 1804. In some cases, the first search range may be determined based on the first tone gap. In some cases, the location of the first peak and the location of the second peak may be determined within the first search range. In some cases, the second tone spacing may be determined based on the location of the first peak and the location of the second peak. For example, the location difference between the location of the first peak and the location of the second peak can be used to determine the second spacing between tones.

[0140] На этапе 1810 третий промежуток между тонами определяется на основе второго промежутка между тонами, как определено на этапе 1808. В некоторых случаях второй промежуток между тонами может использоваться для определения окрестности потенциально подходящих тонов, которая может использоваться для поиска оптимизированного промежутка между тонами. Например, второй диапазон поиска может быть определен на основе второго промежутка между тонами. В некоторых случаях третий промежуток между тонами может определяться в пределах второго диапазона поиска с третьей частотой дискретизации. В некоторых случаях третья частота дискретизации выше, чем вторая частота дискретизации. В этом примере третья частота дискретизации может составлять 24 кГц. В некоторых случаях третий промежуток между тонами может быть определен с использованием подхода нормированной взаимной корреляции в пределах второго диапазона поиска при третьей частоте дискретизации. В некоторых случаях третий промежуток между тонами может быть определен как промежуток между тонами входного звукового сигнала.[0140] At 1810, a third tone spacing is determined based on the second tone spacing as determined at 1808. In some cases, the second tone spacing may be used to determine a neighborhood of potentially suitable tones that may be used to find an optimized tone spacing. For example, the second search range may be determined based on the second spacing between tones. In some cases, a third tone spacing may be determined within a second search range at a third sampling rate. In some cases, the third sampling rate is higher than the second sampling rate. In this example, the third sample rate may be 24 kHz. In some cases, a third tone spacing may be determined using a normalized cross-correlation approach within a second search range at a third sampling rate. In some cases, the third intertone spacing may be defined as the spacing between the tones of the input audio signal.

[0141] На этапе 1812 определяется, что тоновое усиление входного звукового сигнала превысило предварительно определенное пороговое значение и что изменение промежутка между тонами входного звукового сигнала было в пределах предварительно определенного диапазона для, по меньшей мере, предварительно определенного количества кадров. LTP может быть более эффективным, когда тоновое усиление является высоким и стабильным, что означает, что высокая периодичность сохраняется для, по меньшей мере, нескольких кадров (а не только для одного кадра). В некоторых случаях стабильный промежуток между тонами также может снизить негативное влияние на PLC. Стабильный промежуток между тонами означает, что значение промежутка между тонами существенно не меняется для, по меньшей мере, нескольких кадров, что, вероятно, приведет к стабильной высоте звука в ближайшем будущем.[0141] At step 1812, it is determined that the tone gain of the input audio signal has exceeded a predetermined threshold and that the change in the gap between tones of the input audio signal has been within a predetermined range for at least a predetermined number of frames. LTP may be more efficient when the tone gain is high and stable, meaning that high periodicity is maintained for at least a few frames (rather than just one frame). In some cases, a stable tone spacing can also reduce the negative impact on the PLC. A stable tone gap means that the tone gap value does not change significantly for at least a few frames, which is likely to result in a stable pitch in the near future.

[0142] На этапе 1814 устанавливается тоновое усиление для текущего кадра входного звукового сигнала в ответ на определение того, что тоновое усиление входного звукового сигнала превысило предварительно определенное пороговое значение и что изменение третьего промежутка между тонами было в пределах предварительно определенного диапазона для, по меньшей мере, предварительно определенного количества предыдущих кадров. Таким образом, тоновое усиление устанавливается для высокопериодических и стабильных кадров, чтобы улучшить качество сигнала, не влияя на PLC.[0142] In step 1814, the tone gain for the current frame of the input audio signal is set in response to determining that the tone gain of the input audio signal has exceeded a predetermined threshold and that the change in the third tone gap was within a predetermined range for at least , a predetermined number of previous frames. Thus, the tone gain is set for high-periodic and stable frames in order to improve the signal quality without affecting the PLC.

[0143] В некоторых случаях в ответ на определение того, что тоновое усиление входного звукового сигнала ниже предварительно определенного порогового значения и/или что изменение третьего промежутка между тонами не было в пределах предварительно определенного диапазона, по меньшей мере, в течение предварительно определенного количества предыдущих кадров, тоновое усиление устанавливается на ноль для текущего кадра входного звукового сигнала. Таким образом, распространение ошибок может быть уменьшено.[0143] In some cases, in response to determining that the tone gain of the input audio signal is below a predetermined threshold value and/or that the change in the third gap between tones has not been within a predetermined range for at least a predetermined number of previous frames, the tone gain is set to zero for the current frame of the input audio signal. Thus, error propagation can be reduced.

[0144] Как отмечалось, каждый дискретный отсчет остатка квантуется для звукового кодека высокого разрешения. Это означает, что вычислительная сложность и битовая скорость кодирования квантования дискретных отсчетов остатка не могут существенно измениться при изменении размера кадра с 10 мс до 2 мс. Однако вычислительная сложность и битовая скорость кодирования некоторых параметров кодека, таких как LPC, могут резко возрасти, когда размер кадра изменяется с 10 мс до 2 мс. Обычно параметры LPC необходимо квантовать и передавать для каждого кадра. В некоторых случаях дифференциальное кодирование LPC между текущим кадром и предыдущим кадром может сохранять биты, но оно также может вызывать распространение ошибки, когда пакет битового потока теряется в канале передачи. Следовательно, может быть установлен короткий размер кадра для достижения кодека с низкой задержкой. В некоторых случаях, когда размер кадра такой короткий, как 2 мс, битовая скорость кодирования параметров LPC может быть очень высокой, и вычислительная сложность также может быть высокой, поскольку продолжительность кадра находится в знаменателе битовой скорости или сложности.[0144] As noted, each discrete residual sample is quantized for a high resolution audio codec. This means that the computational complexity and bit rate of the quantization coding of discrete samples of the residual cannot change significantly when the frame size changes from 10 ms to 2 ms. However, the computational complexity and encoding bit rate of some codec parameters, such as LPC, can increase dramatically when the frame size changes from 10 ms to 2 ms. Typically, the LPC parameters need to be quantized and transmitted for each frame. In some cases, differential LPC coding between the current frame and the previous frame may preserve bits, but it may also cause error propagation when a bitstream packet is lost in the transmission channel. Therefore, a short frame size can be set to achieve a low latency codec. In some cases, when the frame size is as short as 2 ms, the bit rate of the LPC parameters may be very high, and the computational complexity may also be high because the frame duration is in the denominator of the bit rate or complexity.

[0145] В одном примере со ссылкой на квантование энергетической огибающей во временной области, показанное на Фиг. 12, если размер подкадра составляет 2 мс, то кадр 10 мс должен содержать 5 подкадров. Обычно каждый подкадр имеет уровень энергии, который необходимо квантовать. Поскольку один кадр содержит 5 подкадров, уровни энергии 5 подкадров могут быть квантованы совместно, так что битовая скорость кодирования энергетической огибающей во временной области ограничена. В некоторых случаях, когда размер кадра равен размеру подкадра или один кадр содержит один подкадр, битовая скорость кодирования может значительно увеличиваться, если каждый уровень энергии квантуется независимо. В этих случаях дифференциальное кодирование уровней энергии между последовательными кадрами может снизить битовую скорость кодирования. Однако такой подход может быть неоптимальным, поскольку он может вызвать распространение ошибки, когда пакет битового потока теряется в канале передачи.[0145] In one example, with reference to the time domain energy envelope quantization shown in FIG. 12, if the subframe size is 2ms, then a 10ms frame should contain 5 subframes. Typically, each subframe has an energy level that needs to be quantized. Since one frame contains 5 subframes, the energy levels of the 5 subframes can be jointly quantized so that the time domain energy envelope encoding bit rate is limited. In some cases, when the frame size is equal to the subframe size or one frame contains one subframe, the coding bit rate can increase significantly if each energy level is quantized independently. In these cases, differential coding of energy levels between successive frames may reduce the coding bit rate. However, this approach may not be optimal because it may cause error propagation when a bitstream packet is lost on the transmission channel.

[0146] В некоторых случаях векторное квантование в отношении параметров LPC может обеспечить более низкую битовую скорость. Однако это может потребовать большей вычислительной нагрузки. Простое скалярное квантование в отношении параметров LPC может иметь меньшую сложность, но требует более высокой битовой скорости. В некоторых случаях может использоваться специальное скалярное квантование, основанное на кодировании Хаффмана. Однако этого способа может быть недостаточно для очень короткого размера кадра или кодирования с очень малой задержкой. Новый способ квантования параметров LPC будет описан ниже со ссылкой на Фиг. 19-20.[0146] In some cases, vector quantization with respect to LPC parameters may provide a lower bit rate. However, this may require more computational load. Simple scalar quantization with respect to the LPC parameters may have less complexity but require a higher bit rate. In some cases, a special scalar quantization based on Huffman coding may be used. However, this method may not be sufficient for very short frame size or very low delay coding. The new LPC parameter quantization method will be described below with reference to FIG. 19-20.

[0147] На этапе 1902 определяется по меньшей мере одно из дифференциального наклона спектра и разности энергий между текущим кадром и предыдущим кадром звукового сигнала. Обращаясь к Фиг. 20 спектрограмма 2002 показывает частотно-временной график звукового сигнала. Спектрограмма 2004 показывает абсолютное значение дифференциального наклона спектра между текущим кадром и предыдущим кадром звукового сигнала. Спектрограмма 2006 показывает абсолютное значение разницы энергий между текущим кадром и предыдущим кадром звукового сигнала. Спектрограмма 2008 показывает решение о копировании, в котором 1 указывает, что текущий кадр будет копировать квантованные параметры LPC из предыдущего кадра, а 0 означает, что текущий кадр снова будет квантовать/отправлять параметры LPC. В этом примере абсолютные значения как дифференциального наклона спектра, так и разности энергий относительно очень малы в течение большей части времени, и они становятся относительно большими в конце (правая сторона).[0147] At 1902, at least one of a differential spectrum slope and an energy difference between the current frame and the previous frame of the audio signal is determined. Referring to FIG. 20, spectrogram 2002 shows a time-frequency plot of an audio signal. The spectrogram 2004 shows the absolute value of the differential slope of the spectrum between the current frame and the previous frame of the audio signal. The spectrogram 2006 shows the absolute value of the energy difference between the current frame and the previous frame of the audio signal. The spectrogram 2008 shows a copy decision in which 1 indicates that the current frame will copy the quantized LPC parameters from the previous frame, and 0 means that the current frame will again quantize/send the LPC parameters. In this example, the absolute values of both the differential slope of the spectrum and the energy difference are relatively very small for most of the time, and they become relatively large towards the end (right side).

[0148] На этапе 1904 обнаруживается стабильность звукового сигнала. В некоторых случаях спектральная стабильность звукового сигнала может быть определена на основе дифференциального наклона спектра и/или разности энергий между текущим кадром и предыдущим кадром звукового сигнала. В некоторых случаях спектральная стабильность звукового сигнала может дополнительно определяться на основе частоты звукового сигнала. В некоторых случаях абсолютное значение дифференциального наклона спектра может быть определено на основе спектра звукового сигнала (например, спектрограммы 2004). В некоторых случаях абсолютное значение разности энергий между текущим кадром и предыдущим кадром звукового сигнала также может быть определено на основе спектра звукового сигнала (например, спектрограммы 2006). В некоторых случаях, если определено, что изменение абсолютного значения дифференциального наклона спектра и/или изменение абсолютного значения разности энергий было в пределах предварительно определенного диапазона для, по меньшей мере, предварительно определенного количества кадров, то может быть определено, что обнаружена спектральная стабильность звукового сигнала.[0148] At step 1904, the stability of the audio signal is detected. In some cases, the spectral stability of an audio signal may be determined based on the differential slope of the spectrum and/or the energy difference between the current frame and the previous frame of the audio signal. In some cases, the spectral stability of the audio signal may be further determined based on the frequency of the audio signal. In some cases, the absolute value of the differential slope of the spectrum can be determined from the spectrum of the audio signal (eg, spectrogram 2004). In some cases, the absolute value of the energy difference between the current frame and the previous frame of the audio signal can also be determined based on the spectrum of the audio signal (eg, spectrogram 2006). In some cases, if it is determined that the change in the absolute value of the differential slope of the spectrum and/or the change in the absolute value of the energy difference was within a predetermined range for at least a predetermined number of frames, then it can be determined that the spectral stability of the audio signal has been detected. .

[0149] На этапе 1906 квантованные параметры LPC для предыдущего кадра копируются в текущий кадр звукового сигнала в ответ на обнаружение спектральной стабильности звукового сигнала. В некоторых случаях, когда спектр звукового сигнала очень стабилен и он не меняется значимо от одного кадра к следующему, текущие параметры LPC для текущего кадра могут не кодироваться/квантоваться. Вместо этого предыдущие квантованные параметры LPC могут быть скопированы в текущий кадр, потому что не квантованные параметры LPC сохраняют почти ту же информацию от предыдущего кадра до текущего кадра. В таких случаях может быть отправлен только 1 бит, чтобы сообщить декодеру, что квантованные параметры LPC скопированы из предыдущего кадра, что приводит к очень низкой битовой скорости и очень низкой сложности для текущего кадра.[0149] At step 1906, the quantized LPC parameters for the previous frame are copied into the current frame of the audio signal in response to the detection of the spectral stability of the audio signal. In some cases, when the spectrum of the audio signal is very stable and does not change significantly from one frame to the next, the current LPC parameters for the current frame may not be encoded/quantized. Instead, the previous quantized LPC parameters can be copied to the current frame because the non-quantized LPC parameters retain almost the same information from the previous frame to the current frame. In such cases, only 1 bit may be sent to inform the decoder that the quantized LPC parameters are copied from the previous frame, resulting in a very low bit rate and very low complexity for the current frame.

[0150] Если спектральная стабильность звукового сигнала не обнаружена, параметры LPC могут быть принудительно квантованы и снова закодированы. В некоторых случаях, если определяется, что изменение абсолютного значения дифференциального наклона спектра между текущим кадром и предыдущим кадром для звукового сигнала не было в пределах предварительно определенного диапазона для, по меньшей мере, предварительно определенного количества кадров, то может быть определено, что спектральная стабильность звукового сигнала не обнаружена. В некоторых случаях, если определяется, что изменение абсолютного значения разности энергий не было в пределах предварительно определенного диапазона для, по меньшей мере, предварительно определенного количества кадров, то может быть определено, что спектральная стабильность звукового сигнала не обнаружена.[0150] If the spectral stability of the audio signal is not detected, the LPC parameters may be forcibly quantized and encoded again. In some cases, if it is determined that the change in the absolute value of the differential slope of the spectrum between the current frame and the previous frame for the audio signal was not within a predetermined range for at least a predetermined number of frames, then it can be determined that the spectral stability of the audio no signal found. In some cases, if it is determined that the change in the absolute value of the energy difference was not within a predetermined range for at least a predetermined number of frames, then it may be determined that the spectral stability of the audio signal is not detected.

[0151] На этапе 1908 определяется, что квантованные параметры LPC были скопированы для, по меньшей мере, предварительно определенного количества кадров до текущего кадра. В некоторых случаях, если квантованные параметры LPC были скопированы для нескольких кадров, параметры LPC могут быть принудительно квантованы и снова закодированы.[0151] At step 1908, it is determined that the quantized LPC parameters have been copied for at least a predetermined number of frames prior to the current frame. In some cases, if the quantized LPC parameters have been copied over multiple frames, the LPC parameters may be forced to be quantized and encoded again.

[0152] На этапе 1910 выполняется квантование в отношении параметров LPC для текущего кадра в ответ на определение того, что квантованные параметры LPC были скопированы для, по меньшей мере, предварительно определенного количества кадров. В некоторых случаях количество последовательных кадров для копирования квантованных параметров LPC ограничено, чтобы избежать распространения ошибки, когда пакет битового потока теряется в канале передачи.[0152] In step 1910, quantization is performed on the LPC parameters for the current frame in response to determining that the quantized LPC parameters have been copied for at least a predetermined number of frames. In some cases, the number of consecutive frames to copy the quantized LPC parameters is limited to avoid error propagation when a bitstream packet is lost in the transmission channel.

[0153] В некоторых случаях решение о копировании LPC (как показано на спектрограмме 2008) может помочь в квантовании энергетической огибающей во временной области. В некоторых случаях, когда решение о копировании равно 1, дифференциальный уровень энергии между текущим кадром и предыдущим кадром может быть закодирован для сохранения битов. В некоторых случаях, когда решение о копировании равно 0, может выполняться прямое квантование уровня энергии, чтобы избежать распространения ошибки, когда пакет битового потока теряется в канале передачи.[0153] In some cases, the decision to copy the LPC (as shown in the spectrogram 2008) can help in the quantization of the energy envelope in the time domain. In some cases, when the copy decision is 1, the differential energy level between the current frame and the previous frame may be encoded to save bits. In some cases, when the copy decision is 0, direct energy level quantization may be performed to avoid error propagation when a bitstream packet is lost in the transmission channel.

[0154] На Фиг. 21 показана схема, иллюстрирующая примерную структуру электронного устройства 2100, описанного в настоящем раскрытии, согласно одному варианту реализации. Электронное устройство 2100 включает в себя один или более процессоров 2102, память 2104, схему 2106 кодирования и схему 2108 декодирования. В некоторых вариантах реализации электронное устройство 2100 может дополнительно включать в себя одну или более схем для выполнения любого одного или сочетания этапов, описанных в настоящем раскрытии.[0154] In FIG. 21 is a diagram illustrating an exemplary structure of an electronic device 2100 described in this disclosure, according to one embodiment. The electronic device 2100 includes one or more processors 2102, a memory 2104, an encoding circuit 2106, and a decoding circuit 2108. In some embodiments, the electronic device 2100 may further include one or more circuits for performing any one or combination of the steps described in this disclosure.

[0155] Описанные варианты реализации заявляемого изобретения могут включать в себя одну или более функций, по отдельности или в сочетании.[0155] The described embodiments of the claimed invention may include one or more functions, individually or in combination.

[0156] В первом варианте реализации способ кодирования звука включает в себя: прием звукового сигнала, при этом звуковой сигнал содержит один или более поддиапазонных сигналов; генерирование остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0156] In the first embodiment, an audio encoding method includes: receiving an audio signal, wherein the audio signal comprises one or more sub-band signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more sub-band signals is a strong tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, performing weighting on the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0157] Каждый из вышеизложенных и других описанных вариантов реализации может, в необязательном порядке, включать в себя одну или более из следующих особенностей:[0157] Each of the above and other described embodiments may optionally include one or more of the following features:

[0158] Первая особенность, сочетающаяся с любой из следующих особенностей, в которой один или более поддиапазонных сигналов включают в себя по меньшей мере один из следующих: сигнал нижней полосы нижней части нижнего диапазона (LLB); сигнал верхней части нижнего диапазона (LHB); сигнал нижней части верхнего диапазона (HLB); или сигнал верхней части верхнего диапазона (HHB).[0158] The first feature, combined with any of the following features, in which one or more sub-band signals include at least one of the following: a lower band signal of the lower part of the low range (LLB); Upper Low Range Signal (LHB); signal of the lower part of the upper range (HLB); or High-High-Band (HHB) signal.

[0159] Вторая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, при которой генерирование остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение инверсной фильтрации кодирование с линейным предсказанием (LPC) по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0159] A second feature, combined with any of the previous or following features, wherein generating a residual signal of said at least one of said one or more subband signals based on said at least one of said one or more subband signals includes: performing inverse filtering linear prediction coding (LPC) on at least one of said one or more subband signals to generate a residual signal of said at least one of said one or more subband signals.

[0160] Третья особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой генерирование взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: генерирование отфильтрованного по наклону сигнала из упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0160] A third feature, combined with any of the previous or following features, wherein generating a weighted residual signal of said at least one of said one or more subband signals includes: generating a slope-filtered signal from said at least one of said one or more subband signals based on said at least one of said one or more subband signals.

[0161] Четвертая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, включает в себя: определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал на основе по меньшей мере одного из текущего тонового усиления, сглаженного тонового усиления, продолжительности промежутка между тонами или спектрального наклона упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0161] A fourth feature, combined with any of the previous or following features, wherein determining that said at least one of said one or more subband signals is a strong tone signal includes: determining that said at least one of said one or more sub-band signals is an intense tone signal based on at least one of the current tone gain, smoothed tone gain, tone gap duration, or spectral tilt of said at least one of said one or more sub-band signals.

[0162] Пятая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой по меньшей мере один из упомянутого одного или более поддиапазонных сигналов содержит множество частот гармоник, и в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал включает в себя: определение того, что частота первой гармоники из множества частот гармоник превышает первое предварительно определенное пороговое значение и что уровень фонового спектра упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов ниже второго предварительно определенного порогового значения.[0162] A fifth feature, combined with any of the previous or following features, wherein at least one of said one or more sub-band signals comprises a plurality of harmonic frequencies, and wherein determining that said at least one of said one or more subband signals is an intense tone signal includes: determining that the frequency of the first harmonic of the plurality of harmonic frequencies exceeds a first predetermined threshold value and that the background spectrum level of said at least one of said one or more subband signals is below a second predetermined threshold value .

[0163] Шестая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов посредством однополюсного фильтра нижних частот.[0163] A sixth feature, combined with any of the previous or following features, wherein performing weighting on a residual signal of said at least one of said one or more subband signals includes: performing weighting on a residual signal of said at least one from said one or more subband signals by means of a single pole low pass filter.

[0164] Седьмая особенность, сочетающаяся с любой из предыдущих особенностей, в которой способ дополнительно включает в себя: генерацию квантованного остаточного сигнала на основе, по меньшей мере, взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0164] A seventh feature combined with any of the previous features, wherein the method further includes: generating a quantized residual signal based on at least a weighted residual signal of said at least one of said one or more subband signals.

[0165] Во втором варианте реализации электронное устройство включает в себя: долговременное запоминающее хранилище, содержащее инструкции, и один или более аппаратных процессоров, осуществляющих связь с запоминающим хранилищем, при этом один или более аппаратных процессоров исполняют инструкции для: приема звукового сигнала, при этом звуковой сигнал содержит один или более поддиапазонных сигналов; генерирования остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определения, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнения взвешивание в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0165] In a second embodiment, the electronic device includes: a long-term storage containing instructions, and one or more hardware processors in communication with the storage, the one or more hardware processors executing instructions for: receiving an audio signal, wherein the audio signal contains one or more subband signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more subband signals is a strong tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, weighting the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0166] Каждый из вышеизложенных и других описанных вариантов реализации может, в необязательном порядке, включать в себя одну или более из следующих особенностей:[0166] Each of the above and other described embodiments may optionally include one or more of the following features:

[0167] Первая особенность, сочетающаяся с любой из следующих особенностей, в которой один или более поддиапазонных сигналов включают в себя по меньшей мере один из следующих: сигнал нижней части нижнего диапазона (LLB); сигнал верхней части нижнего диапазона (LHB); сигнал нижней части верхнего диапазона (HLB); или сигнал верхней части верхнего диапазона (HHB).[0167] The first feature, combined with any of the following features, in which one or more sub-band signals include at least one of the following: the signal of the lower part of the low band (LLB); Upper Low Range Signal (LHB); signal of the lower part of the upper range (HLB); or High-High-Band (HHB) signal.

[0168] Вторая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, при которой генерирование остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение инверсной фильтрации кодирования с линейным предсказанием (LPC) в отношении упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0168] A second feature, combined with any of the previous or following features, wherein generating a residual signal of said at least one of said one or more subband signals based on said at least one of said one or more subband signals includes: performing linear predictive coding (LPC) inverse filtering on said at least one of said one or more subband signals to generate a residual signal of said at least one of said one or more subband signals.

[0169] Третья особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой генерирование взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: генерирование отфильтрованного по наклону сигнала из упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0169] A third feature, combined with any of the previous or following features, wherein generating a weighted residual signal of said at least one of said one or more subband signals includes: generating a slope-filtered signal from said at least one of said one or more subband signals based on said at least one of said one or more subband signals.

[0170] Четвертая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, включает в себя: определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал на основе по меньшей мере одного из текущего тонового усиления, сглаженного тонового усиления, продолжительности промежутка между тонами или спектрального наклона упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0170] A fourth feature, combined with any of the previous or following features, wherein determining that said at least one of said one or more subband signals is a strong tone signal includes: determining that said at least one of said one or more sub-band signals is an intense tone signal based on at least one of the current tone gain, smoothed tone gain, tone gap duration, or spectral tilt of said at least one of said one or more sub-band signals.

[0171] Пятая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой по меньшей мере один из упомянутого одного или более поддиапазонных сигналов содержит множество частот гармоник, и в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал включает в себя: определение того, что частота первой гармоники из множества частот гармоник превышает первое предварительно определенное пороговое значение и что уровень фонового спектра упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов ниже второго предварительно определенного порогового значения.[0171] A fifth feature combined with any of the previous or following features, wherein at least one of said one or more sub-band signals comprises a plurality of harmonic frequencies, and wherein determining that said at least one of said one or more subband signals is an intense tone signal includes: determining that the frequency of the first harmonic of the plurality of harmonic frequencies exceeds a first predetermined threshold value and that the background spectrum level of said at least one of said one or more subband signals is below a second predetermined threshold value .

[0172] Шестая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов посредством однополюсного фильтра нижних частот.[0172] A sixth feature, combined with any of the previous or following features, wherein performing weighting on a residual signal of said at least one of said one or more subband signals includes: performing weighting on a residual signal of said at least one from said one or more subband signals by means of a single pole low pass filter.

[0173] Седьмая особенность, сочетающаяся с любой из предыдущих особенностей, в которой один или более аппаратных процессоров дополнительно исполняют инструкции для: генерирования квантованного остаточного сигнала на основе, по меньшей мере, взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0173] A seventh feature, combined with any of the previous features, wherein one or more hardware processors further execute instructions for: generating a quantized residual signal based on at least a weighted residual signal of said at least one of said one or more subbands signals.

[0174] В третьем варианте реализации долговременный машиночитаемый носитель хранит компьютерные инструкции для кодирования звука, которые при их исполнении одним или более аппаратными процессорами предписывают одному или более аппаратным процессорам выполнять операции, включающие в себя: прием звукового сигнала, причем звуковой сигнал содержит один или более поддиапазонных сигналов; генерирование остаточного сигнала по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов; определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом; и в ответ на определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования взвешенного остаточного сигнала.[0174] In a third embodiment, the non-volatile computer-readable medium stores computer instructions for encoding audio that, when executed by one or more hardware processors, cause one or more hardware processors to perform operations including: receiving an audio signal, the audio signal comprising one or more subband signals; generating a residual signal of at least one of said one or more subband signals based on said at least one of said one or more subband signals; determining that said at least one of said one or more sub-band signals is a strong tone signal; and in response to determining that said at least one of said one or more subband signals is a strong tone signal, performing weighting on the residual signal of said at least one of said one or more subband signals to generate a weighted residual signal.

[0175] Каждый из вышеизложенных и других описанных вариантов реализации может, в необязательном порядке, включать в себя одну или более из следующих особенностей:[0175] Each of the above and other described embodiments may optionally include one or more of the following features:

[0176] Первая особенность, сочетающаяся с любой из следующих особенностей, в которой один или более поддиапазонных сигналов включают в себя по меньшей мере один из следующих: сигнал нижней части нижнего диапазона (LLB); сигнал верхней части нижнего диапазона (LHB); сигнал нижней части верхнего диапазона (HLB); или сигнал верхней части верхнего диапазона (HHB).[0176] The first feature, combined with any of the following features, in which one or more sub-band signals include at least one of the following: the signal of the lower part of the low band (LLB); Upper Low Range Signal (LHB); signal of the lower part of the upper range (HLB); or High-High-Band (HHB) signal.

[0177] Вторая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, при которой генерирование остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение инверсной фильтрации кодирования с линейным предсказанием (LPC) в отношении упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов для генерирования остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0177] A second feature, combined with any of the previous or following features, wherein generating a residual signal of said at least one of said one or more subband signals based on said at least one of said one or more subband signals includes: performing linear predictive coding (LPC) inverse filtering on said at least one of said one or more subband signals to generate a residual signal of said at least one of said one or more subband signals.

[0178] Третья особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой генерирование взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: генерирование отфильтрованного по наклону сигнала из упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов на основе упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0178] A third feature, combined with any of the previous or following features, wherein generating a weighted residual signal of said at least one of said one or more subband signals includes: generating a slope-filtered signal from said at least one of said one or more subband signals based on said at least one of said one or more subband signals.

[0179] Четвертая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивным тоновым сигналом, включает в себя: определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал на основе по меньшей мере одного из текущего тонового усиления, сглаженного тонового усиления, продолжительности промежутка между тонами или спектрального наклона упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0179] A fourth feature, combined with any of the previous or following features, wherein determining that said at least one of said one or more subband signals is a strong tone signal includes: determining that said at least one of said one or more sub-band signals is an intense tone signal based on at least one of the current tone gain, smoothed tone gain, tone gap duration, or spectral tilt of said at least one of said one or more sub-band signals.

[0180] Пятая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой по меньшей мере один из упомянутого одного или более поддиапазонных сигналов содержит множество частот гармоник, и в которой определение того, что упомянутый по меньшей мере один из упомянутого одного или более поддиапазонных сигналов является интенсивный тоновый сигнал включает в себя: определение того, что частота первой гармоники из множества частот гармоник превышает первое предварительно определенное пороговое значение и что уровень фонового спектра упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов ниже второго предварительно определенного порогового значения.[0180] A fifth feature combined with any of the previous or following features, wherein at least one of said one or more subband signals comprises a plurality of harmonic frequencies, and wherein determining that said at least one of said one or more subband signals is an intense tone signal includes: determining that the frequency of the first harmonic of the plurality of harmonic frequencies exceeds a first predetermined threshold value and that the background spectrum level of said at least one of said one or more subband signals is below a second predetermined threshold value .

[0181] Шестая особенность, сочетающаяся с любой из предыдущих или следующих особенностей, в которой выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов включает в себя: выполнение взвешивания в отношении остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов посредством однополюсного фильтра нижних частот.[0181] A sixth feature, combined with any of the previous or following features, wherein performing weighting on a residual signal of said at least one of said one or more sub-band signals includes: performing weighting on a residual signal of said at least one from said one or more subband signals by means of a single pole low pass filter.

[0182] Седьмая особенность, сочетающаяся с любой из предыдущих особенностей, в которой операции дополнительно включают в себя: генерирование квантованного остаточного сигнала на основе, по меньшей мере, взвешенного остаточного сигнала упомянутого по меньшей мере одного из упомянутого одного или более поддиапазонных сигналов.[0182] A seventh feature combined with any of the previous features, wherein the operations further include: generating a quantized residual signal based on at least a weighted residual signal of said at least one of said one or more subband signals.

[0183] Несмотря на то, что в настоящем раскрытии представлено несколько вариантов осуществления, можно понять, что раскрытые системы и способы могут быть воплощены во многих других конкретных формах, не выходя за рамки сущности или объема настоящего раскрытия. Настоящие примеры следует рассматривать как иллюстративные, а не как ограничительные, и цель не ограничиваться приведенными здесь подробностями. Например, различные элементы или компоненты могут быть объединены или интегрированы в другую систему, или определенные функции могут быть опущены или не реализованы.[0183] Although several embodiments are presented in the present disclosure, it can be understood that the disclosed systems and methods may be embodied in many other specific forms without departing from the spirit or scope of the present disclosure. The present examples are to be considered illustrative and not restrictive, and it is not intended to be limited to the details provided herein. For example, various elements or components may be combined or integrated into another system, or certain features may be omitted or not implemented.

[0184] Кроме того, методики, системы, подсистемы и способы, описанные и проиллюстрированные в различных вариантах осуществления как дискретные или отдельные, могут быть объединены или интегрированы с другими системами, компонентами, технологиями или способами без отклонения от объема настоящего раскрытия. Другие примеры изменений, замен и переделок могут быть установлены специалистом в данной области техники и могут быть выполнены без отклонения от сущности и объема, раскрытых в данном документе.[0184] In addition, the techniques, systems, subsystems, and methods described and illustrated in various embodiments as discrete or separate may be combined or integrated with other systems, components, technologies, or methods without departing from the scope of this disclosure. Other examples of changes, replacements and alterations can be established by a person skilled in the art and can be performed without deviating from the essence and scope disclosed in this document.

[0185] Варианты осуществления изобретения и все функциональные операции, описанные в данном документе, могут быть реализованы в цифровых электронных схемах, или в компьютерном программном обеспечении, встроенном программном обеспечении или аппаратном обеспечении, включая структуры, раскрытые в данном документе, и их структурные эквиваленты, или в сочетаниях одного или более из них. Варианты осуществления изобретения могут быть реализованы как один или более компьютерных программных продуктов, то есть один или более модулей компьютерных программных инструкций, закодированных на машиночитаемом носителе, для выполнения или управления работой устройства обработки данных. Машиночитаемый носитель может быть долговременным машиночитаемым носителем данных, машиночитаемым запоминающим устройством, машиночитаемой подложкой для хранения данных, запоминающим устройством, композицией, влияющей на машиночитаемый распространяемый сигнал, или сочетанием одного или более из них. Термин «устройство обработки данных» охватывает все устройства, оборудование и машины для обработки данных, включая, например, программируемый процессор, компьютер или множество процессоров или компьютеров. Устройство может включать в себя, помимо аппаратного обеспечения, код, который создает среду выполнения для рассматриваемой компьютерной программы, например, код, который составляет микропрограммное обеспечение процессора, стек протоколов, систему управления базой данных, операционную систему или сочетание одного или более из них. Распространяемый сигнал - это искусственно созданный сигнал, например, электрический, оптический или электромагнитный сигнал, генерируемый машиной, который генерируется для кодирования информации для передачи в подходящее приемное устройство.[0185] Embodiments of the invention and all functional operations described herein may be implemented in digital electronic circuits, or in computer software, firmware, or hardware, including the structures disclosed herein and their structural equivalents, or in combinations of one or more of them. Embodiments of the invention may be implemented as one or more computer program products, ie one or more modules of computer program instructions encoded on a computer readable medium, for executing or controlling the operation of a data processing device. The computer-readable medium can be a durable computer-readable storage medium, a computer-readable storage device, a computer-readable storage substrate, a memory device, a composition that influences a computer-readable propagated signal, or a combination of one or more of them. The term "data processing device" encompasses all data processing devices, equipment, and machines, including, for example, a programmable processor, a computer, or a plurality of processors or computers. The device may include, in addition to hardware, code that creates the execution environment for the computer program in question, such as code that makes up the processor firmware, protocol stack, database management system, operating system, or a combination of one or more of these. A propagated signal is an artificially generated signal, such as an electrical, optical or electromagnetic signal generated by a machine, which is generated to encode information for transmission to a suitable receiver.

[0186] Компьютерная программа (также известная как программа, программное обеспечение, программное приложение, сценарий или код) может быть написана на любом языке программирования, включая скомпилированные или интерпретируемые языки, и может быть развернута в любой форме, в том числе как стандартная отдельная программа или как модуль, компонент, подпрограмма или другое устройство, подходящее для использования в вычислительной среде. Компьютерная программа не обязательно соответствует файлу в файловой системе. Программа может храниться в части файла, который содержит другие программы или данные (например, один или более сценариев, хранящихся в документе на языке разметки), в одном файле, посвященном рассматриваемой программе, или в нескольких скоординированных файлах (например, файлы, в которых хранятся один или более модулей, подпрограмм или частей кода). Компьютерная программа может быть развернута для выполнения на одном компьютере или на нескольких компьютерах, которые расположены в одном месте или распределены по множеству мест и связаны между собой сетью связи.[0186] A computer program (also known as a program, software, software application, script, or code) may be written in any programming language, including compiled or interpreted languages, and may be deployed in any form, including as a standard standalone program. or as a module, component, subroutine, or other device suitable for use in a computing environment. A computer program does not necessarily correspond to a file in a file system. A program may be stored in a part of a file that contains other programs or data (for example, one or more scripts stored in a markup language document), in a single file dedicated to the program in question, or in several coordinated files (for example, files that store one or more modules, subroutines, or parts of code). A computer program may be deployed to run on a single computer or on multiple computers that are located in one location or distributed over multiple locations and interconnected by a communications network.

[0187] Процессы и логические потоки, описанные в данном документе, могут выполняться одним или более программируемыми процессорами, выполняющими одну или более компьютерных программ для выполнения функций, оперируя входными данными и генерируя выходные данные. Процессы и логические потоки также могут выполняться, а устройство может быть реализовано как логическая схема специального назначения, например FPGA (программируемая вентильная матрица) или ASIC (специализированная интегральная схема).[0187] The processes and logical flows described herein may be executed by one or more programmable processors executing one or more computer programs to perform functions operating on input data and generating output data. Processes and logic flows can also run, and the device can be implemented as a special purpose logic circuit such as an FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit).

[0188] Процессоры, подходящие для выполнения компьютерной программы, включают в себя, например, микропроцессоры как общего, так и специального назначения, и любой один или более процессоров любого типа цифрового компьютера. Как правило, процессор будет принимать инструкции и данные из постоянного запоминающего устройства или из памяти с произвольным доступом, либо из того и другого. Существенными элементами компьютера являются процессор для выполнения инструкций и одно или более запоминающих устройств для хранения инструкций и данных. Как правило, компьютер также будет включать в себя или быть оперативно подключенным для приема данных или передачи данных на одно или более устройства хранения большой емкости для хранения данных, например магнитные, магнитооптические диски или оптические диски. Однако на компьютере такие устройства не обязательны. Более того, компьютер может быть встроен в другое устройство, например планшетный компьютер, мобильный телефон, персональный цифровой помощник (PDA), мобильный звуковой проигрыватель, приемник глобальной системы позиционирования (GPS), и это лишь некоторые из них. Машиночитаемые носители, подходящие для хранения инструкций и данных компьютерных программ, включают в себя все формы долговременной памяти, носителей и запоминающих устройств, включая, например, полупроводниковые запоминающие устройства, например, EPROM, EEPROM и устройства флэш-памяти; магнитные диски, например внутренние жесткие диски или съемные диски; магнитооптические диски; и диски CD-ROM и DVD-ROM. Процессор и память могут быть дополнены специальной логической схемой или включены в нее.[0188] Processors suitable for executing a computer program include, for example, both general purpose and special purpose microprocessors, and any one or more processors of any type of digital computer. Typically, the processor will receive instructions and data from read-only memory or random-access memory, or both. The essential elements of a computer are a processor for executing instructions and one or more memory devices for storing instructions and data. Typically, the computer will also include or be operatively connected to receive data from or transmit data to one or more mass storage devices for data storage, such as magnetic, magneto-optical disks or optical disks. However, such devices are not required on a computer. Moreover, the computer may be embedded in another device such as a tablet computer, mobile phone, personal digital assistant (PDA), mobile audio player, global positioning system (GPS) receiver, to name but a few. Computer-readable media suitable for storing computer program instructions and data include all forms of non-volatile memory, media, and storage devices, including, for example, semiconductor memory devices such as EPROM, EEPROM, and flash memory devices; magnetic disks, such as internal hard drives or removable drives; magneto-optical disks; and CD-ROM and DVD-ROM discs. The processor and memory can be supplemented with or incorporated into custom logic.

[0189] Для обеспечения взаимодействия с пользователем варианты осуществления изобретения могут быть реализованы на компьютере, имеющем устройство отображения, например монитор с ЭЛТ (электронно-лучевой трубкой) или ЖК-дисплеем (жидкокристаллическим дисплеем), для отображения информации пользователю и клавиатуру, и координатно-указательное устройство, например, мышь или трекбол, посредством которого пользователь может вводить данные в компьютер. Другие виды устройств также могут использоваться для обеспечения взаимодействия с пользователем; например, обратная связь, предоставляемая пользователю, может быть любой формой сенсорной обратной связи, например, визуальной обратной связью, слуховой обратной связью или тактильной обратной связью; и ввод от пользователя может быть получен в любой форме, включая акустический, речевой или тактильный ввод.[0189] To provide user interaction, embodiments of the invention may be implemented on a computer having a display device, such as a CRT (cathode ray tube) or LCD (liquid crystal display) monitor, to display information to the user and a keyboard, and coordinate a pointing device, such as a mouse or trackball, through which a user can enter data into a computer. Other kinds of devices may also be used to provide user interaction; for example, the feedback provided to the user may be any form of sensory feedback, such as visual feedback, auditory feedback, or tactile feedback; and input from the user may be received in any form, including acoustic, speech, or tactile input.

[0190] Варианты осуществления изобретения могут быть реализованы в вычислительной системе, которая включает в себя серверный компонент, например, в качестве сервера данных, или который включает в себя компонент промежуточного программного обеспечения, например, сервер приложений, или который включает в себя внешний компонент, например, клиентский компьютер, имеющий графический пользовательский интерфейс, или веб-браузер, через который пользователь может взаимодействовать с вариантом реализации изобретения, или любое сочетание одного или более таких компонентов внутреннего, промежуточного или внешнего интерфейса. Компоненты системы могут быть связаны между собой любой формой или средой передачи цифровых данных, например, сетью связи. Примеры сетей связи включают в себя локальную сеть («LAN») и глобальную сеть («WAN»), например Интернет.[0190] Embodiments of the invention may be implemented in a computing system that includes a server component, such as a data server, or that includes a middleware component, such as an application server, or that includes an external component, for example, a client computer having a graphical user interface, or a web browser through which a user can interact with an embodiment of the invention, or any combination of one or more of such backend, middleware, or frontend components. The components of the system can be interconnected by any form or medium of digital data transmission, for example, a communication network. Examples of communication networks include a local area network ("LAN") and a wide area network ("WAN"), such as the Internet.

[0191] Вычислительная система может включать в себя клиентов и серверы. Клиент и сервер обычно удалены друг от друга и обычно взаимодействуют через сеть связи. Отношения клиента и сервера возникают благодаря компьютерным программам, запущенным на соответствующих компьютерах и имеющим отношения клиент-сервер друг к другу.[0191] The computing system may include clients and servers. The client and server are usually remote from each other and usually communicate through a communication network. The client-server relationship arises from the computer programs running on the respective computers that have a client-server relationship to each other.

[0192] Несмотря на то, что несколько вариантов реализации были подробно описаны выше, возможны и другие модификации. Например, в то время как клиентское приложение описывается как доступ к делегату(ам), в других вариантах реализации делегат(ы) может использоваться другими приложениями, реализованными одним или более процессорами, такими как приложение, выполняющееся на одном или более серверах. Кроме того, логические потоки, изображенные на фигурах, не требуют конкретного показанного порядка или последовательного порядка для достижения желаемых результатов. Кроме того, могут быть предусмотрены другие действия или действия могут быть исключены из описанных потоков, а другие компоненты могут быть добавлены или удалены из описанных систем. Соответственно, другие варианты реализации входят в объем прилагаемой формулы изобретения.[0192] While several implementations have been detailed above, other modifications are possible. For example, while a client application is described as accessing a delegate(s), in other implementations, the delegate(s) may be used by other applications implemented by one or more processors, such as an application running on one or more servers. In addition, the logical flows depicted in the figures do not require the particular order shown or sequential order to achieve the desired results. In addition, other actions may be provided or actions may be omitted from the described flows, and other components may be added to or removed from the systems described. Accordingly, other embodiments are within the scope of the appended claims.

[0193] Несмотря на то, что данный документ содержит множество конкретных подробностей реализации, их не следует рассматривать как ограничения объема любого изобретения или того, что может быть заявлено, а скорее как описания функций, которые могут быть специфичными для конкретных вариантов осуществления конкретных изобретений. Некоторые признаки, которые описаны в этом описании в контексте отдельных вариантов осуществления, также могут быть реализованы объединенным образом в одном варианте осуществления. И наоборот, различные признаки, которые описаны в контексте одного варианта осуществления, также могут быть реализованы в нескольких вариантах осуществления по отдельности или в любом подходящем подобъединении. Более того, Несмотря на то, что признаки могут быть описаны выше как действующие в определенных объединениях и даже изначально заявлены как таковые, в некоторых случаях один или более признаков заявленного объединения могут быть исключены из объединения, а заявленное объединения может быть направлено на подобъединение или разновидность подобъединения.[0193] Although this document contains many specific implementation details, they should not be construed as limiting the scope of any invention or what may be claimed, but rather as descriptions of features that may be specific to particular embodiments of particular inventions. Some of the features that are described in this description in the context of separate embodiments may also be implemented in a combined manner in one embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable subassembly. Moreover, although the features may be described above as valid in certain combinations and even initially claimed as such, in some cases one or more of the features of the claimed association may be excluded from the association, and the claimed association may be directed to a subgroup or variation. subassociations.

[0194] Точно так же, несмотря на то, что операции изображены на чертежах в определенном порядке, это не следует понимать как требование, чтобы такие операции выполнялись в конкретном показанном порядке или в последовательном порядке, или чтобы все проиллюстрированные операции выполнялись для достижения желаемых результатов. В определенных обстоятельствах могут быть полезны многозадачность и параллельная обработка. Более того, разделение различных системных модулей и компонентов в вариантах осуществления, описанных выше, не следует понимать как требующее такого разделения во всех вариантах осуществления, и следует понимать, что описанные программные компоненты и системы, как правило, могут быть интегрированы вместе в один программный продукт или упакованы в несколько программных продуктов.[0194] Likewise, although the operations are shown in the drawings in a specific order, this should not be understood as a requirement that such operations be performed in the particular order shown or in sequential order, or that all illustrated operations be performed to achieve the desired results. . In certain circumstances, multitasking and parallel processing can be useful. Moreover, the separation of various system modules and components in the embodiments described above should not be understood as requiring such separation in all embodiments, and it should be understood that the described software components and systems can generally be integrated together into a single software product. or packaged into multiple software products.

[0195] Выше были описаны конкретные варианты осуществления заявляемого изобретения. Другие варианты осуществления находятся в рамках следующей формулы изобретения. Например, действия, изложенные в формуле изобретения, можно выполнять в другом порядке и при этом достигать желаемых результатов. В качестве одного примера, процессы, изображенные на сопроводительных чертежах, не обязательно требуют конкретного показанного порядка или последовательного порядка для достижения желаемых результатов. В некоторых вариантах реализации могут быть полезны многозадачность и параллельная обработка.[0195] Specific embodiments of the claimed invention have been described above. Other embodiments are within the scope of the following claims. For example, the steps set forth in the claims can be performed in a different order and still achieve the desired results. As one example, the processes depicted in the accompanying drawings do not necessarily require the particular order shown or sequential order to achieve the desired results. In some implementations, multitasking and parallel processing may be beneficial.

Claims

1. A computer-implemented method of audio coding, containing the steps in which:

receiving an audio signal, the audio signal comprising one or more sub-band signals;

generating a residual signal from at least one of said one or more sub-band signals based on this at least one of one or more sub-band signals;

determining that this at least one of the one or more sub-band signals is a strong tone signal; And

in response to said determination that at least one of one or more sub-band signals is an intense tone signal, weighting is performed with respect to said residual signal of at least one of one or more sub-band signals in order to generate a weighted residual signal,

wherein said at least one of one or more sub-band signals contains a plurality of harmonic frequencies, wherein said determination that at least one of one or more sub-band signals is an intense tone signal comprises the step of determining that the frequency of the first harmonic of the plurality of harmonic frequencies exceeds a first predetermined threshold value and that the background spectrum level of said at least one of one or more subband signals is below a second predetermined threshold value.

2. The computer-implemented method of claim 1, wherein said one or more sub-band signals comprise at least one of the following:

signal of the lower part of the low range (LLB);

Upper Low Range Signal (LHB);

signal of the lower part of the upper range (HLB); And

Upper High Range (HHB) signal.

3. The computer-implemented method of claim 1, wherein said generating a residual signal of at least one of one or more sub-band signals based on at least one of one or more sub-band signals comprises the step of performing inverse filtering of linear coding. predictive prediction (LPC) with respect to said at least one of one or more subband signals to generate a residual signal of that at least one of one or more subband signals.

4. The computer-implemented method of claim 3, wherein said generating a weighted residual signal of at least one of one or more subband signals comprises generating a slope-filtered signal from said at least one of one or more subband signals based on this at least one of the one or more subband signals.

5. The computer-implemented method of claim 1, wherein upon said determination that at least one of the one or more subband signals is a strong tone signal, determining that said at least one of the one or more subband signals is a strong tone a tone signal based on at least one of the current tone gain, the smoothed tone gain, the duration of the gap between tones, and the spectral slope of that at least one of the one or more subband signals.

6. The computer-implemented method of claim 1, wherein said weighting is performed on a residual signal of at least one of one or more sub-band signals, weighting is performed on said residual signal of at least one of one or more sub-band signals by means of a single-pole low pass filter.

7. The computer-implemented method of claim 1, further comprising generating a quantized residual signal based on at least said weighted residual signal of at least one of the one or more subband signals.

8. An electronic audio encoding device, comprising:

long-term storage containing instructions; And

one or more hardware processors in communication with storage storage, wherein the one or more hardware processors execute instructions to:

receive an audio signal, the audio signal comprising one or more sub-band signals;

generate a residual signal of at least one of said one or more sub-band signals based on this at least one of one or more sub-band signals;

determine that given at least one of the one or more sub-band signals is a strong tone signal; And

in response to said determination that at least one of one or more sub-band signals is a strong tone signal, perform weighting with respect to said residual signal of at least one of one or more sub-band signals to generate a weighted residual signal,

wherein said at least one of one or more sub-band signals contains a plurality of harmonic frequencies, wherein said determination that at least one of one or more sub-band signals is an intense tone signal contains a determination that the first harmonic frequency of the plurality of frequencies harmonics exceeds a first predetermined threshold and that the background spectrum level of said at least one of one or more subband signals is below a second predetermined threshold.

9. The electronic device of claim 8, wherein said one or more subband signals comprises at least one of the following:

signal of the lower part of the low range (LLB);

Upper Low Range Signal (LHB);

signal of the lower part of the upper range (HLB); And

Upper High Range (HHB) signal.

10. The electronic device of claim 8, wherein said generating a residual signal of at least one of one or more subband signals based on at least one of one or more subband signals comprises performing inverse linear predictive coding (LPC) filtering with respect to said at least one of the one or more subband signals to generate a residual signal of that at least one of the one or more subband signals.

11. The electronic device of claim 10, wherein said generating a weighted residual signal of at least one of one or more subband signals comprises generating a slope-filtered signal from said at least one of one or more subband signals based on that at least one of one or more subband signals.

12. The electronic device of claim 8, wherein said determination that at least one of the one or more subband signals is a strong tone signal comprises determining that said at least one of the one or more subband signals is a strong tone signal. a signal based on at least one of the current tone gain, the smoothed tone gain, the duration of the gap between tones, and the spectral slope of the at least one of the one or more subband signals.

13. The electronic device of claim 8, wherein said performing weighting on a residual signal of at least one of one or more sub-band signals comprises performing weighting on said residual signal of at least one of one or more sub-band signals by means of a single-pole low-pass filter. frequencies.

14. The electronic device of claim 8, wherein the one or more hardware processors execute instructions to generate a quantized residual signal based on at least said weighted residual signal of at least one of the one or more subband signals.

15. A non-volatile computer-readable medium storing computer instructions for encoding audio which, when executed by one or more hardware processors, cause the one or more hardware processors to perform the method of any one of claims 1-7.