RU2637994C1

RU2637994C1 - Преобразующее кодирование/декодирование гармонических звуковых сигналов

Info

Publication number: RU2637994C1
Application number: RU2017104118A
Authority: RU
Inventors: Володя ГРАНЧАРОВ; Томас ТОФТГОД; Себастьян НЕСЛУНД; Харальд ПОБЛОТ
Original assignee: Телефонактиеболагет Л М Эрикссон (Пабл)
Priority date: 2012-03-29
Filing date: 2012-10-30
Publication date: 2017-12-08
Also published as: US9437204B2; CN107591157A; EP2831874B1; PT3220390T; RU2017139868A; IN2014DN07433A; US20150046171A1; TR201815245T4; US20200143818A1; US20220139408A1; CN107591157B; EP3220390A1; CN104254885A; PL3220390T3; US10566003B2; RU2611017C2; KR20190084131A; EP3220390B1; WO2013147666A1; ES2635422T3

Abstract

Изобретение относится к средствам для кодирования гармонического звукового сигнала. Технический результат заключается в повышении качества кодированного гармонического звукового сигнала. Кодер для кодирования коэффициентов (Y(k)) частотного преобразования гармонического звукового сигнала включает в себя следующие элементы: определитель местоположения спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог. Кодер пиковых областей, включающих в себя и окружающие обнаруженные пики. Кодер низкочастотного набора коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей. Кодер коэффициента усиления уровня шума, выполненный с возможностью кодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей. 3 н. и 7 з.п. ф-лы, 23 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Предложенная технология относится к преобразующему кодированию/декодированию звуковых сигналов, в частности гармонических звуковых сигналов.

УРОВЕНЬ ТЕХНИКИ

Преобразующее кодирование представляет собой основную технологию, используемую для сжатия и передачи звуковых сигналов. Идея преобразующего кодирования заключается в том, чтобы сначала преобразовать сигнал в частотную область, а затем квантовать и передавать коэффициенты преобразования. Декодер использует принятые коэффициенты преобразования для восстановления формы сигнала путем применения обратного частотного преобразования, см. Фиг. 1. На Фиг. 1 аудио сигнал X(n) передается в преобразователь 10 частоты. Результирующее преобразование Y(k) частоты передается в кодер 12 преобразования, и закодированное преобразование передается в декодер, где оно декодируется декодером 14 преобразования. Декодированное преобразование Ŷ(k) передается в обратный преобразователь 16 частоты, который преобразует его в декодированный звуковой сигнал

. Мотивация этой схемы состоит в том, что коэффициенты частотной области могут более эффективно квантоваться по следующим причинам.

1) Коэффициенты (Y(k) на Фиг. 1) преобразования являются более некоррелированными, чем выборки (X(n) на Фиг. 1) входного сигнала.

2) Частотное преобразование предоставляет энергетическое сжатие (больше коэффициентов Y(k) находятся ближе к нулю, и ими можно пренебречь), и

3) Субъективная мотивация преобразования заключается в том, что человеческая слуховая система работает в преобразованной области, и легче выбрать важные для восприятия компоненты сигнала в этой области.

В типичном кодеке преобразования форма сигнала преобразуется блок за блоком (с 50% перекрытием) с использованием Модифицированного Дискретного Косинусного Преобразования (MDCT). В кодеке преобразования MDCT типа блочный сигнал X(n) преобразуется в вектор Y(k) MDCT. Длина блоков сигнала соответствует 20-40 мс звуковым сегментам. Если длина обозначена 2L, преобразование MDCT может быть определено как:

(1)

где k=0, ..., L-1. Затем вектор Y(k) MDCT разделяется на несколько диапазонов частот (под-векторы), и энергия (или коэффициент усиления) G(j) в каждом диапазоне частот вычисляется как:

(2)

где m_j представляет собой первый коэффициент в диапазоне частот j, а N_j относится к количеству коэффициентов MDCT в соответствующих диапазонах частот (типичный интервал содержит 8-32 коэффициента). В качестве примера однородной полосовой структуры пусть N_j=8 для всех j, тогда G(0) будет представлять собой энергию первых 8 коэффициентов, G(1) будет представлять собой энергию следующих 8 коэффициентов, и т.д.

Эти значения энергии или коэффициенты усиления дают приближение огибающей спектра, который квантуется, и индексы квантования передаются в декодер. Остаточные под-векторы или формы получаются путем масштабирования под-векторов MDCT соответствующими огибающими усиления, например, остаток в каждом диапазоне частот масштабируется, чтобы иметь единичную среднеквадратическую (RMS) энергию. Затем остаточные под-векторы или формы квантуются с различным количеством битов на основе соответствующих огибающих усиления. Наконец, в декодере вектор MDCT восстанавливается путем увеличения масштаба остаточных под-векторов или форм соответствующими огибающими коэффициентов усиления, и обратное MDCT используется для восстановления звукового кадра временной области.

Традиционная идея преобразующего кодирования не работает хорошо с очень гармоническими звуковыми сигналами, например, одиночными инструментами. Пример такого гармонического спектра проиллюстрирован на Фиг. 2 (для сравнения типичный звуковой спектр без излишних гармоник показан на Фиг. 3). Причина заключается в том, что нормализация с огибающей спектра не приводит к достаточно "плоскому" остаточному вектору, и схема кодирования остатка не может произвести звуковой сигнал приемлемого качества. Это несоответствие между сигналом и моделью кодирования может быть разрешено только на очень высоких скоростях передачи битов, но в большинстве случаев это решение не подходит.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Задача предложенной технологии заключается в схеме преобразующего кодирования/декодирования, которая больше подходит для гармонических звуковых сигналов.

Предложенная технология включает в себя способ кодирования коэффициентов частотного преобразования гармонического звукового сигнала. Способ включает в себя этапы, на которых:

определяют местоположение спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог;

кодируют пиковые области, включающие в себя и окружающие обнаруженные пики;

кодируют по меньшей мере один низкочастотный набор коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей;

кодируют коэффициент усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей.

Предложенная технология также включает в себя кодер для кодирования коэффициентов частотного преобразования гармонического звукового сигнала. Кодер включает в себя:

определитель местоположения пика, выполненный с возможностью определения местоположения спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог;

кодер пиковой области, выполненный с возможностью кодирования пиковых областей, включающих в себя и окружающих обнаруженные пики;

кодер низкочастотного набора, выполненный с возможностью кодирования по меньшей мере одного низкочастотного набора коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей;

кодер коэффициента усиления уровня шума, выполненный с возможностью кодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей.

Предложенная технология также включает в себя пользовательское оборудование (UE), включающее в себя такой кодер.

Предложенная технология также включает в себя способ восстановления коэффициентов частотного преобразования закодированного частотно преобразованного гармонического звукового сигнала. Способ включает в себя этапы, на которых:

декодируют спектральные пиковые области закодированного частотно преобразованного гармонического звукового сигнала;

декодируют по меньшей мере один низкочастотный набор коэффициентов;

распределяют коэффициенты каждого низкочастотного набора за пределами пиковых областей;

декодируют коэффициент усиления уровня шума по меньшей мере одного высокочастотного набора коэффициентов за пределами пиковых областей;

заполняют каждый высокочастотный набор шумом, имеющим соответствующий коэффициент усиления уровня шума.

Предложенная технология также включает в себя декодер для восстановления коэффициентов частотного преобразования закодированного частотно преобразованного гармонического звукового сигнала. Декодер включает в себя:

декодер пиковой области, выполненный с возможностью декодирования спектральных пиковых областей закодированного частотно преобразованного гармонического звукового сигнала;

декодер низкочастотного набора, выполненный с возможностью декодирования по меньшей мере одного низкочастотного набора коэффициентов;

распределитель коэффициентов, выполненный с возможностью распределения коэффициентов каждого низкочастотного набора за пределами пиковых областей;

декодер коэффициента усиления уровня шума, выполненный с возможностью декодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора коэффициентов за пределами пиковых областей;

заполнитель шумом, выполненный с возможностью заполнения каждого высокочастотного набора шумом, имеющим соответствующий коэффициент усиления уровня шума.

Предложенная технология также включает в себя пользовательское оборудование (UE), включающее в себя такой декодер.

Предложенная кодирующая схема кодирования/декодирования гармонического звука предоставляет лучшее качество восприятия, чем традиционные кодирующие схемы, для большого класса гармонических звуковых сигналов.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Настоящая технология, вместе с ее дополнительными задачами и преимуществами, может быть наилучшим образом понята посредством ссылки на нижеследующее описание, взятое вместе с прилагаемыми чертежами, на которых:

Фиг. 1 иллюстрирует идею частотного преобразующего кодирования;

Фиг. 2 иллюстрирует типичный спектр гармонического звукового сигнала;

Фиг. 3 иллюстрирует типичный спектр негармонического звукового сигнала;

Фиг. 4 иллюстрирует пиковую область;

Фиг. 5 представляет собой блок-схему, иллюстрирующую предложенный способ кодирования;

Фиг. 6A-D иллюстрирует примерный вариант осуществления предложенного способа кодирования;

Фиг. 7 представляет собой структурную схему примерного варианта осуществления предложенного кодера;

Фиг. 8 представляет собой блок-схему, иллюстрирующую предложенный способ декодирования;

Фиг. 9A-C иллюстрирует примерный вариант осуществления предложенного способа декодирования;

Фиг. 10 представляет собой структурную схему примерного варианта осуществления предложенного декодера;

Фиг. 11 представляет собой структурную схему примерного варианта осуществления предложенного кодера;

Фиг. 12 представляет собой структурную схему примерного варианта осуществления предложенного декодера;

Фиг. 13 представляет собой структурную схему примерного варианта осуществления UE (пользовательского оборудования), включающего в себя предложенный кодер;

Фиг. 14 представляет собой структурную схему примерного варианта осуществления UE (пользовательского оборудования), включающего в себя предложенный декодер;

Фиг. 15 представляет собой блок-схему примерного варианта осуществления части предложенного способа кодирования;

Фиг. 16 представляет собой структурную схему примерного варианта осуществления кодера пиковой области в предложенном кодере;

Фиг. 17 представляет собой блок-схему примерного варианта осуществления части предложенного способа декодирования;

Фиг. 18 представляет собой структурную схему примерного варианта осуществления декодера пиковой области в предложенном декодере.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Фиг. 2 иллюстрирует типичный спектр гармонического звукового сигнала, а Фиг. 3 иллюстрирует типичный спектр негармонического звукового сигнала. Спектр гармонического сигнала сформирован сильными спектральными пиками, разделенными намного более слабыми диапазонами частот, тогда как спектр негармонического звукового сигнала является намного более гладким.

Предложенная технология предоставляет альтернативную модель кодирования звука, которая обрабатывает гармонические звуковые сигналы лучше. Основная идея заключается в том, что вектор частотного преобразования, например, вектор MDCT, не разделяется на огибающую и остаточную часть, но вместо этого спектральные пики непосредственно извлекаются и квантуются, вместе с соседними элементами выборки MDCT. На высоких частотах коэффициенты с низкой энергией за пределами окрестностей пиков не кодируются, но заполняются шумом в декодере. Здесь сигнальная модель, используемая в традиционном кодировании {огибающая спектра + остаток} заменяется новой моделью {спектральные пики + уровень шума}. На низких частотах коэффициенты за пределами окрестностей пиков все еще кодируются, поскольку они играют важную роль восприятия.

КОДЕР

Основные этапы на стороне кодера следующие:

Обнаружить местоположение и закодировать спектральные пиковые области

Закодировать низкочастотные (LF) спектральные коэффициенты Размер закодированной области зависит от количества битов, оставшихся после кодирования пиковой области.

Закодировать коэффициенты усиления уровня шума для спектральных коэффициентов за пределами пиковых областей

Сначала оценивается уровень шума, затем спектральные пики извлекаются посредством алгоритма выделения пиков (соответствующие алгоритмы описаны более подробно в ПРИЛОЖЕНИИ I-II). Каждый пик и окружающие его 4 соседа нормализуются к единице энергии в пиковом положении, см. Фиг. 4. Другими словами, вся область масштабируется, так что пик имеет единичную амплитуду. Пиковое положение, коэффициент усиления (представляет пиковую амплитуду, величину) и знак квантуются. Векторный Квантователь (VQ) применяется к элементам выборки MDCT, окружающим пик, и ищет индекс I_shape вектора кодовой книги, который обеспечивает наилучшее соответствие. Пиковое положение, коэффициент усиления и знак, а также окружающие векторы формы квантуются, и индексы {I_position I_gain I_sign I_shape} квантования передаются в декодер. В дополнение к этим индексам декодер также оповещается об общем количестве пиков.

В приведенном выше примере каждая пиковая область включает в себя 4 соседа, которые симметрично окружают пик. Однако также возможно иметь как меньше, так и больше соседей, окружающих пик либо симметричным, либо асимметричным образом.

После того как пиковые области были квантованы, все доступные оставшиеся биты (за исключением зарезервированных битов для кодирования уровня шума, см. ниже) используются для квантования низкочастотных коэффициентов MDCT. Это делается путем группировки оставшихся неквантованных коэффициентов MDCT, например, в 24-мерные диапазоны частот, начиная с первого элемента выборки. Таким образом, эти диапазоны частот будут покрывать самые низкие частоты до определенной переходной частоты. Коэффициенты, которые уже были квантованы в кодировании пика, не включаются, поэтому диапазоны частот не обязательно состоят из 24 последовательных коэффициентов. По этой причине диапазоны частот также будут упоминаться как "наборы" ниже.

Общее количество LF диапазонов частот или наборов зависит от количества доступных битов, но всегда есть достаточно битов, зарезервированных для создания по меньшей мере одного набора. Когда доступно больше битов, первый набор получает больше назначенных битов до тех пор, пока порог для максимального количества битов на набор не будет достигнут. Если доступно больше битов, создается другой набор, и биты назначаются этому набору до тех пор, пока порог не достигнут. Процедура повторяется до тех пор, пока все доступные биты не будут потрачены. Это означает, что переходная частота, на которой этой процесс прекращается, будет зависеть от кадра, поскольку количество пиков будет меняться от кадра к кадру. Переходная частота будет определена количеством битов, которые доступны для LF кодирования, как только пиковые области были закодированы.

Квантование LF наборов может быть сделано с помощью любой подходящей схемы векторного квантования, но обычно используется некоторый тип кодирования коэффициент усиления-форма. Например, кодирование факториала импульса может быть использовано для вектора формы, и скалярный квантователь может быть использован для коэффициента усиления.

Определенное количество битов всегда зарезервировано для кодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного диапазона коэффициентов за пределами пиковых областей, и выше верхней частоты LF диапазона. Предпочтительно два коэффициента усиления используются для этой цели. Эти коэффициенты усиления могут быть получены из алгоритма уровня шума, описанного в ПРИЛОЖЕНИИ I. Если кодирование факториала импульса используется для кодирования низкочастотных диапазонов, некоторые LF коэффициенты могут быть не закодированы. Эти коэффициенты могут, наоборот, быть включены в кодирование высокочастотного диапазона. Как и в случае LF диапазонов, HF (высокочастотные) диапазоны не обязательно состоят из последовательных коэффициентов. По этой причине диапазоны частот также будут упоминаться как "наборы" ниже.

Если применимо, огибающая спектра для области расширения диапазона частот (BWE) также кодируется и передается. Количество диапазонов частот (и частота перехода, где начинается BWE) зависит от скорости передачи битов, например, 5,6 кГц при 24 кбит/с и 6,4 кГц при 32 кбит/с.

Фиг. 5 представляет собой блок-схему, иллюстрирующую предложенный способ кодирования с общей точки зрения. На этапе S1 определяют местоположение спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог. На этапе S2 кодируют пиковые области, включающие в себя и окружающие обнаруженные пики. На этапе S3 кодируют по меньшей мере один низкочастотный набор коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей. На этапе S4 кодируют коэффициент усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных (все еще некодированных или оставшихся) коэффициентов за пределами пиковых областей.

Фиг. 6A-D иллюстрируют примерный вариант осуществления предложенного способа кодирования. Фиг. 6A иллюстрирует преобразование MDCT сигнального кадра, который должен быть закодирован. На фигуре показано меньше коэффициентов, чем в фактическом сигнале. Однако следует иметь в виду, что цель фигуры состоит лишь в том, чтобы проиллюстрировать процесс кодирования. Фиг. 6B иллюстрирует 4 идентифицированных пиковых области, готовых для кодирования способом коэффициент усиления-форма. Способ, описанный в ПРИЛОЖЕНИИ II, может быть использован, чтобы найти их. Далее LF коэффициенты за пределами пиковых областей собираются на Фиг. 6C. Они объединяются в блоки, которые затем кодируются способом коэффициент усиления-форма. Оставшиеся коэффициенты исходного сигнала на Фиг. 6A являются высокочастотными коэффициентами, проиллюстрированными на Фиг. 6D. Они разделены на 2 набора и закодированы (как объединенные блоки) коэффициентом усиления уровня шума для каждого набора. Этот коэффициент усиления уровня шума может быть получен из энергии каждого набора или путем оценок, полученных из алгоритма оценки уровня шума, описанного в ПРИЛОЖЕНИИ I.

Фиг. 7 представляет собой структурную схему примерного варианта осуществления предложенного кодера 20. Определитель 22 местоположения пика выполнен с возможностью определения местоположения спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог. Кодер 24 пиковой области выполнен с возможностью кодирования пиковых областей, включающих в себя и окружающих извлеченные пики. Кодер 26 низкочастотного набора выполнен с возможностью кодирования по меньшей мере одного низкочастотного набора коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей. Кодер 28 коэффициента усиления уровня шума выполнен с возможностью кодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей. В настоящем варианте осуществления кодеры 24, 26, 28 используют обнаруженное положение пика, чтобы решить, какие коэффициенты включить в соответствующее кодирование.

ДЕКОДЕР

Основные этапы в декодере следующие:

Восстановить спектральные пиковые области.

Восстановить LF спектральные коэффициенты.

Заполнить некодированные области шумом, масштабируемым с помощью принятых коэффициентов усиления уровня шума.

Звуковой декодер извлекает из потока битов количество пиковых областей и индексы {I_position I_gain I_sign I_shape} квантования, чтобы восстановить закодированные пиковые области. Эти индексы квантования содержат информацию о положении спектрального пика, коэффициенте усиления и знаке пика, а также индекс для вектора кодовой книги, который обеспечивает наилучшее соответствие для окрестностей пика.

Далее низкочастотные коэффициенты MDCT за пределами пиковых областей восстанавливаются из кодированных LF коэффициентов.

Высокочастотные коэффициенты MDCT за пределами пиковых областей заполняются шумом в декодере. Уровень шума принимается декодером, предпочтительно в форме двух кодированных коэффициентов усиления уровня шума (один для нижней, а другой для верхней половины или части вектора).

Если применимо, звуковой декодер выполняет BWE из предопределенной частоты перехода с принятой огибающей коэффициентов усиления для HF коэффициентов MDCT.

Фиг. 8 представляет собой блок-схему, иллюстрирующую предложенный способ декодирования с общей точки зрения. На этапе S11 декодируют спектральные пиковые области закодированного частотно преобразованного гармонического звукового сигнала. На этапе S12 декодируют по меньшей мере один низкочастотный набор коэффициентов. На этапе S13 распределяют коэффициенты каждого низкочастотного набора за пределами пиковых областей. На этапе S14 декодируют коэффициент усиления уровня шума по меньшей мере одного высокочастотного набора коэффициентов за пределами пиковых областей. На этапе S15 заполняют каждый высокочастотный набор шумом, имеющим соответствующий коэффициент усиления уровня шума.

В примерном варианте осуществления декодирование низкочастотного набора основано на схеме декодирования коэффициент усиления-форма.

В примерном варианте осуществления схема декодирования коэффициент усиления-форма основана на скалярном декодировании коэффициента усиления и декодировании формы факториала импульса.

Примерный вариант осуществления включает в себя этап декодирования коэффициента усиления уровня шума для каждого из двух высокочастотных наборов.

Фиг. 9A-C иллюстрируют примерный вариант осуществления предложенного способа декодирования. Восстановление частотного преобразования начинается с декодирования способом коэффициент усиления-форма спектральных пиковых областей и их положений, как проиллюстрировано на Фиг. 9A. На Фиг. 9B LF набор(ы) декодируются способом коэффициент усиления-форма, и декодированные коэффициенты преобразования распределяются в блоках за пределами пиковых областей. На Фиг. 9C коэффициенты усиления уровня шума декодируются, и оставшиеся коэффициенты преобразования заполняются шумом, имеющим соответствующие коэффициенты усиления уровня шума. Таким образом, преобразование Фиг. 6A было примерно восстановлено. Сравнение Фиг. 9C с Фиг. 6A и 6D показывает, что заполненные шумом области имеют различные индивидуальные коэффициенты, но одну и ту же энергию, как и ожидалось.

Фиг. 10 представляет собой структурную схему примерного варианта осуществления предложенного декодера 40. Декодер 42 пиковой области выполнен с возможностью декодирования спектральных пиковых областей закодированного частотно преобразованного гармонического звукового сигнала. Декодер 44 низкочастотного набора выполнен с возможностью декодирования по меньшей мере одного низкочастотного набора коэффициентов. Распределитель 46 коэффициентов выполнен с возможностью распределения коэффициентов каждого низкочастотного набора за пределами пиковых областей. Декодер 48 коэффициента усиления уровня шума выполнен с возможностью декодирования уровня шума по меньшей мере одного высокочастотного набора коэффициентов за пределами пиковых областей. Заполнитель 50 шумом выполнен с возможностью заполнения каждого высокочастотного набора шумом, имеющим соответствующий коэффициент усиления уровня шума. В настоящем варианте осуществления положения пика передаются в распределитель 46 коэффициентов и заполнитель 50 шумом, чтобы избежать перезаписи пиковых областей.

Этапы, функции, процедуры и/или блоки, описанные в материалах настоящей заявки, могут быть реализованы в аппаратных средствах с использованием любой традиционной технологии, такой как технология дискретной схемы или интегральной схемы, включая как электронную схему общего назначения, так и специализированную схему.

Альтернативно, по меньшей мере некоторые из этапов, функций, процедур и/или блоков, описанных в материалах настоящей заявки, могут быть реализованы в программных средствах для исполнения подходящим обрабатывающим оборудованием. Это оборудование может включать в себя, например, один или несколько микропроцессоров, один или несколько Цифровых Сигнальных Процессоров (DSP), одну или несколько специализированных интегральных схем (ASIC), аппаратные средства с ускоренным видео или одно или несколько подходящих программируемых логических устройств, таких как программируемая вентильная матрица (FPGA). Комбинации таких обрабатывающих элементов также возможны.

Следует также понимать, что может быть возможно повторно использовать общие возможности обработки, уже присутствующие в кодере/декодере. Это может быть, например, сделано путем перепрограммирования существующего программного обеспечения или путем добавления новых программных компонентов.

Фиг. 11 представляет собой структурную схему примерного варианта осуществления предложенного кодера 20. Этот вариант осуществления основан на процессоре 110, например, микропроцессоре, который исполняет программное обеспечение 120 для определения местоположения пиков, программное обеспечение 130 для кодирования пиковых областей, программное обеспечение 140 для кодирования по меньшей мере одного низкочастотного набора и программное обеспечение 150 для кодирования по меньшей мере одного коэффициента усиления уровня шума. Это программное обеспечение хранится в памяти 160. Процессор 110 обменивается данными с памятью через системную шину. Входящее частотное преобразование принимается контроллером 170 ввода/вывода (I/O), управляющим шиной I/O, к которой присоединены процессор 110 и память 160. Закодированное частотное преобразование, полученное из программного обеспечения 150, выводится из памяти 160 контроллером 170 I/O через шину I/O.

Фиг. 12 представляет собой структурную схему примерного варианта осуществления предложенного декодера 40. Этот вариант осуществления основан на процессоре 210, например, микропроцессоре, который исполняет программное обеспечение 220 для декодирования пиковых областей, программное обеспечение 230 для декодирования по меньшей мере одного низкочастотного набора, программное обеспечение 240 для распределения LF коэффициентов, программное обеспечение 250 для декодирования по меньшей мере одного коэффициента усиления уровня шума и программное обеспечение 260 для заполнения шумом. Это программное обеспечение хранится в памяти 270. Процессор 210 обменивается данными с памятью через системную шину. Входящее закодированное частотное преобразование принимается контроллером 280 ввода/вывода (I/O), управляющим шиной I/O, к которой присоединены процессор 210 и память 280. Восстановленное частотное преобразование, полученное из программного обеспечения 260, выводится из памяти 270 контроллером 280 I/O через шину I/O.

Технология, описанная выше, предназначена для использования в звуковом кодере/декодере, который может использоваться в мобильном устройстве (например, мобильном телефоне, портативном компьютере) или стационарном устройстве, таком как персональный компьютер. Здесь термин Пользовательское Оборудование (UE) будет использоваться как общее наименование для таких устройств.

Фиг. 13 представляет собой структурную схему примерного варианта осуществления UE (пользовательского оборудования), включающего в себя предложенный кодер. Звуковой сигнал из микрофона 70 передается в A/D (аналого-цифровой) преобразователь 72, выход которого передается в звуковой кодер 74. Звуковой кодер 74 включает в себя частотный преобразователь 76, преобразующий цифровые звуковые выборки в частотную область. Детектор 78 гармонического сигнала определяет, представляет ли преобразование гармонический или негармонический звук. Если оно представляет негармонический звук, оно кодируется в традиционном режиме кодирования (не показан). Если оно представляет гармонический звук, оно передается в кодер 20 частотного преобразования в соответствии с предложенной технологией. Закодированный сигнал передается в радиоблок 80 для передачи в приемник.

Решение детектора 78 гармонического сигнала основано на энергии

уровня шума и пиковой энергии

в ПРИЛОЖЕНИИ I и II. Логика следующая: ЕСЛИ

выше порога И количество обнаруженных пиков находится в предопределенном диапазоне ТО сигнал классифицируется как гармонический. В противном случае сигнал классифицируется как негармонический. Классификация и, таким образом, режим кодирования явно сообщается декодеру.

Фиг. 14 представляет собой структурную схему примерного варианта осуществления UE (пользовательского оборудования), включающего в себя предложенный декодер. Радиосигнал, принятый радиоблоком 82, преобразуется в базовый диапазон, канально декодированный и переданный в звуковой декодер 84. Звуковой декодер включает в себя селектор 86 режима декодирования, который передает сигнал в декодер 40 частотного преобразования в соответствии с предложенной технологией, если он был классифицирован как гармонический. Если он был классифицирован как негармонический звук, он декодируется в традиционном декодере (не показан). Декодер 40 частотного преобразования восстанавливает частотное преобразование, как описано выше. Восстановленное частотное преобразование преобразуется во временную область в обратном частотном преобразователе 88. Результирующие звуковые выборки передаются в блок 90 D/A (цифро-аналогового) преобразования и усиления, который передает конечный звуковой сигнал в громкоговоритель 92.

Фиг. 15 представляет собой блок-схему примерного варианта осуществления части предложенного способа кодирования. В настоящем варианте осуществления этап S2 кодирования пиковой области на Фиг. 5 был разделен на подэтапы с S2-A по S2-E. На этапе S2-A кодируют спектральное положение и знак пика. На этапе S2-B квантуют пиковый коэффициент усиления. На этапе S2-C кодируют квантованный пиковый коэффициент усиления. На этапе S2-D масштабируют предопределенные частотные элементы выборки, окружающие пик, путем обратного преобразования квантованного пикового коэффициента усиления. На этапе S2-E кодируют по форме масштабированные частотные элементы выборки.

Фиг. 16 представляет собой структурную схему примерного варианта осуществления кодера пиковой области в предложенном кодере. В настоящем варианте осуществления кодер 24 пиковой области включает в себя элементы с 24-A по 24-D. Кодер 24-A положения и знака выполнен с возможностью кодирования спектрального положения и знака пика. Кодер 24-B пикового коэффициента усиления выполнен с возможностью квантования пикового коэффициента усиления и кодирования квантованного пикового коэффициента усиления. Масштабирующий блок 24-C выполнен с возможностью масштабирования предопределенных частотных элементов выборки, окружающих пик, путем обратного преобразования квантованного пикового коэффициента усиления. Кодер 24-D формы выполнен с возможностью кодирования по форме масштабированных частотных элементов выборки.

Фиг. 17 представляет собой блок-схему примерного варианта осуществления части предложенного способа декодирования. В настоящем варианте осуществления этап S11 декодирования пиковой области на Фиг. 8 был разделен на подэтапы с S11-A по S11-D. На этапе S11-A декодируют спектральное положение и знак пика. На этапе S11-B декодируют пиковый коэффициент усиления. На этапе S11-С декодируют форму предопределенных частотных элементов выборки, окружающих пик. На этапе S11-D масштабируют декодированную форму посредством декодированного пикового коэффициента усиления.

Фиг. 18 представляет собой структурную схему примерного варианта осуществления декодера пиковой области в предложенном декодере. В настоящем варианте осуществления декодер 42 пиковой области включает в себя элементы с 42-A по 42-D. Декодер 42-A положения и знака выполнен с возможностью декодирования спектрального положения и знака пика. Декодер 42-B пикового коэффициента усиления выполнен с возможностью декодирования пикового коэффициента усиления. Декодер 42-C формы выполнен с возможностью декодирования формы предопределенных частотных элементов выборки, окружающих пик. Масштабирующий блок 42-D выполнен с возможностью масштабирования декодированной формы посредством декодированного пикового коэффициента усиления.

Конкретные детали реализации для режима 24 кбит приведены ниже.

Кодек работает на 20 мс кадрах, которые при скорости передачи битов 25 кбит/с дают 480 бит на кадр.

Обработанный звуковой сигнал дискретизируется на 32 кГц и имеет звуковой диапазон частот 16 кГц.

Частота перехода устанавливается в 5,6 кГц (все частотные компоненты выше 5,6 кГц являются расширенным диапазоном частот).

Зарезервированные биты для сигнализации и расширения диапазона частот для частот выше частоты перехода: ~30-40.

Биты для кодирования двух коэффициентов усиления уровня шума: 10.

Количество закодированных спектральных пиковых областей составляет 7-17. Количество битов, используемых на пиковую область, составляет ~20-22, что дает общее количество ~140-340 для кодирования всех положений, коэффициентов усиления, знаков и форм пиков.

Биты для кодирования низкочастотных диапазонов: ~100-300.

Закодированные низкочастотные диапазоны: 1-4 (каждый диапазон частот содержит 8 элементов выборки MDCT). Поскольку каждый элемент выборки MDCT соответствует 25 Гц, закодированная низкочастотная область соответствует 200-800 Гц.

Коэффициенты усиления, используемые для расширения диапазона частот и пиковых коэффициентов усиления, являются закодированными методом Хаффмана, поэтому количество битов, используемых ими, может меняться между кадрами даже для постоянного количества пиков.

Кодирование положения и знака пика использует оптимизацию, которая делает его более эффективным, поскольку количество пиков увеличивается. Для 7 пиков положение и знак требует около 6.9 битов на пик, а для 17 пиков количество составляет около 5.7 битов на пик.

Эта изменчивость в том, сколько битов используются на различных этапах кодирования, не является проблемой, поскольку кодирование низкочастотного диапазона происходит последним и просто использует любые оставшиеся биты. Однако система спроектирована так, что достаточно битов всегда остаются для кодирования одного низкочастотного диапазона.

Таблица ниже представляет результаты из теста прослушивания, выполненного в соответствии с процедурой, описанной в ITU-R BS.1534-1 MUSHRA (Множественные Возбудители со Скрытой Ссылкой и Якорем). Масштаб в тесте MUSHRA составляет от 0 до 100, где низкие значения соответствуют низкому воспринимаемому качеству, а высокие значения соответствуют высокому качеству. Оба кодека работали при 24 кбит/с. Результаты теста усреднены по 24 музыкальным элементам и голосам от 8 слушателей.

Тестируемая Система	Показатель MUSHRA
Низкочастотный якорный сигнал (диапазон частот 7 кГц)	48,89
Традиционная схема кодирования	49,94
Предложенная гармоническая схема кодирования	55,87
Опорный сигнал (диапазон частот 16 кГц)	100,00

Специалистам в данной области техники будет понятно, что различные модификации и изменения могут быть сделаны в предложенной технологии, не выходя за рамки ее сущности, которая определена прилагаемой формулой изобретения.

ПРИЛОЖЕНИЕ I

Алгоритм оценки уровня шума работает на абсолютных значениях коэффициентов |Y(k)| преобразования. Мгновенные энергии E_nf(k) уровня шума оцениваются в соответствии с рекурсией:

(3)

где

(4)

Конкретная форма весового коэффициента α минимизирует эффект коэффициентов преобразования высокой энергии и подчеркивает вклад коэффициентов низкой энергии. Наконец, уровень

шума оценивается простым усреднением мгновенных энергий E_nf(k).

ПРИЛОЖЕНИЕ II

Алгоритм выделения пиков требует знания уровня шума и среднего уровня спектральных пиков. Алгоритм оценки энергии пика подобен алгоритму оценки уровня шума, но вместо низкой энергии он отслеживает высокоспектральные энергии:

(5)

где

(6)

В этом случае весовой коэффициент β минимизирует эффект коэффициентов преобразования низкой энергии и подчеркивает вклад коэффициентов высокой энергии. Общая пиковая энергия

оценивается простым усреднением мгновенных энергий.

Когда вычисляются уровни пика и шума, пороговый уровень θ формируется как:

(7)

с γ=0,88579. Коэффициенты преобразования сравниваются с порогом, и коэффициенты с амплитудой выше его формируют вектор пиков-кандидатов. Поскольку естественные источники обычно не производят пиков, которые расположены очень близко, например, 80 Гц, вектор с пиками-кандидатами дополнительно детализируется. Элементы вектора извлекаются в убывающем порядке, и окружение каждого элемента устанавливается в ноль. Таким образом, только самый большой элемент в определенной спектральной области остается, и набор этих элементов формирует спектральные пики для текущего кадра.

АББРЕВИАТУРЫ

ASIC - Специализированная Интегральная Схема

BWE - Расширение Диапазона Частот

DSP - Цифровые Сигнальные Процессоры

FPGA - Программируемая Вентильная Матрица

HF - Высокочастотный

LF - Низкочастотный

MDCT - Модифицированное Дискретное Косинусное Преобразование

RMS - Среднеквадратический

VQ - Векторный Квантователь.

Claims

1. Способ кодирования коэффициентов (Y(k)) Модифицированного Дискретного Косинусного Преобразования (MDCT) гармонического звукового сигнала, причем упомянутый способ включает в себя этапы, на которых:

определяют (S1) местоположение спектральных пиков, имеющих величины, превышающие предопределенный порог, причем местоположение спектральных пиков определяется посредством сравнения коэффициентов с упомянутым порогом для формирования вектора пиков-кандидатов и извлечения элементов из вектора пиков-кандидатов в убывающем порядке, причем упомянутый порог вычисляется по формуле:

;

где

- усредненная пиковая энергия,

- усредненная энергия уровня шума, а γ имеет фиксированное заданное значение, и причем пиковая энергия вычисляется по формуле

, а энергия уровня шума вычисляется по формуле

, причем вклад коэффициентов высокой энергии выделяется при вычислении пиковой энергии и вклад коэффициентов низкой энергии выделяется при вычислении энергии уровня шума;

кодируют (S2) пиковые области, включающие в себя и окружающие обнаруженные пики, причем спектральные пики квантуются вместе с соседними элементами выборки MDCT;

кодируют (S3), используя ряд зарезервированных битов, первый низкочастотный (LF) набор коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей, причем кодирование (S3) содержит кодирование одного или более дополнительных низкочастотных наборов коэффициентов за пределами пиковых областей, если после кодирования пиковых областей там присутствуют доступные незарезервированные биты;

кодируют (S4), используя ряд зарезервированных битов, коэффициент усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей.

2. Способ кодирования по п. 1, в котором весовой коэффициент α определяется как

,

а весовой коэффициент β определяется как

.

3. Способ кодирования по любому из пп. 1 или 2, в котором этап (S2) кодирования пиковых областей содержит этапы, на которых:

кодируют (S2-A) спектральное положение и знак пика;

квантуют (S2-B) пиковый коэффициент усиления;

кодируют (S2-C) квантованный пиковый коэффициент усиления;

масштабируют (S2-D) заранее определенные частотные элементы выборки, окружающие пик, путем обратного преобразования квантованного пикового коэффициента усиления;

кодируют (S2-E) по форме масштабированные частотные элементы выборки.

4. Способ кодирования по любому из пп. 1 или 2, в котором пиковая область содержит пик и четыре элемента выборки MDCT, окружающие упомянутый пик.

5. Способ кодирования по любому из пп. 1 или 2, в котором этап кодирования (S3) низкочастотного набора коэффициентов содержит группирование оставшихся неквантованных коэффициентов MDCT в 24-мерные диапазоны частот.

6. Способ кодирования по любому из пп. 1 или 2, в котором кодирование низкочастотного набора основано на схеме кодирования коэффициент усиления – форма, причем упомянутая схема кодирования коэффициент усиления – форма основана на скалярном квантовании коэффициента усиления и кодировании формы факториала импульса.

7. Способ кодирования по любому из пп. 1 или 2, включающий в себя этап кодирования коэффициента усиления уровня шума для каждого из двух высокочастотных наборов.

8. Кодер для кодирования коэффициентов (Y(k)) Модифицированного Дискретного Косинусного Преобразования (MDCT) гармонического звукового сигнала, причем упомянутый кодер включает в себя:

определитель (22) местоположения пика, выполненный с возможностью определения местоположения спектральных пиков, имеющих величины, превышающие предопределенный порог, причем местоположение спектральных пиков определяется посредством сравнения коэффициентов с упомянутым порогом для формирования вектора пиков-кандидатов и извлечения элементов из вектора пиков-кандидатов в убывающем порядке, причем упомянутый порог вычисляется по формуле:

;

где

- усредненная пиковая энергия,

кодер (24) пиковой области, выполненный с возможностью кодирования пиковых областей, включающих в себя и окружающих обнаруженные пики, причем спектральные пики квантуются вместе с соседними элементами выборки MDCT;

кодер (26) низкочастотного набора, выполненный с возможностью кодирования, используя ряд зарезервированных битов, первого низкочастотного набора коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей, и кодирования одного или более дополнительных низкочастотных наборов коэффициентов за пределами пиковых областей, если после кодирования пиковых областей там присутствуют доступные незарезервированные биты;

кодер (28) коэффициента усиления уровня шума, выполненный с возможностью кодирования, используя ряд зарезервированных битов, коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей.

9. Кодер по п. 8, в котором кодер (24) пиковой области включает в себя:

кодер (24-A) положения и знака, выполненный с возможностью кодирования спектрального положения (I_position) и знака (I_sign) пика;

кодер (24-B) пикового коэффициента усиления, выполненный с возможностью квантования пикового коэффициента усиления и кодирования (I_gain) квантованного пикового коэффициента усиления;

масштабирующий блок (24-C), выполненный с возможностью масштабирования предопределенных частотных элементов выборки, окружающих пик, путем обратного преобразования квантованного пикового коэффициента усиления;

кодер (24-D) формы, выполненный с возможностью кодирования по форме масштабированных частотных элементов выборки.

10. Пользовательское оборудование (UE), включающее в себя кодер (20) по п.п. 8 или 9.