RU2422987C2 - Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой - Google Patents

Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой Download PDF

Info

Publication number
RU2422987C2
RU2422987C2 RU2008129802/09A RU2008129802A RU2422987C2 RU 2422987 C2 RU2422987 C2 RU 2422987C2 RU 2008129802/09 A RU2008129802/09 A RU 2008129802/09A RU 2008129802 A RU2008129802 A RU 2008129802A RU 2422987 C2 RU2422987 C2 RU 2422987C2
Authority
RU
Russia
Prior art keywords
channel
channels
frequency
encoder
coding
Prior art date
Application number
RU2008129802/09A
Other languages
English (en)
Other versions
RU2008129802A (ru
Inventor
Санджив МЕХРОТРА (US)
Санджив МЕХРОТРА
Вэй-Гэ ЧЭНЬ (US)
Вэй-Гэ ЧЭНЬ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2008129802A publication Critical patent/RU2008129802A/ru
Application granted granted Critical
Publication of RU2422987C2 publication Critical patent/RU2422987C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к способам кодирования и декодирования многоканального звука. Техническим результатом является повышение эффективности обработки оцифрованного звука с одновременной поддержкой его качества. Указанный технический результат достигается тем, что в способе кодирования данных многоканального звука принимают данные многоканального звука, содержащие группу из множества исходных каналов, выполняют кодирование с канальным расширением в отношении этих данных многоканального звука: формируют комбинированный канал из упомянутой группы из множества исходных каналов, кодируют комбинированный канал и определяют множество параметров для представления отдельных исходных каналов упомянутой группы в качестве модифицированных версий закодированного комбинированного канала, содержащее параметр, представляющий отношение мнимого-к-действительному кросс-корреляции между этими отдельными исходными каналами. После этого выполняют кодирование с частотным расширением в отношении данных многоканального звука: разделяют полосы частот в данных многоканального звука на группу основной полосы частот и группу расширенной полосы частот и кодируют звуковые коэффициенты в группе расширенной полосы частот на основе звуковых коэффициентов в группе основной полосы частот. 4 н. и 16 з.п. ф-лы, 42 ил., 1 табл.

Description

Предшествующий уровень техники
Инженеры используют множество способов для эффективной обработки оцифрованного звука с одновременной поддержкой качества оцифрованного звука. Для понимания этих способов полезно понимать, как представляется и обрабатывается в компьютере звуковая информация.
I. Представление звуковой информации в компьютере
Компьютер обрабатывает звуковую информацию как последовательность чисел, представляющую звуковую информацию. Например, одно число может представлять звуковой сэмпл, который является значением амплитуды в конкретное время. На качество звуковой информации влияют несколько факторов, включающих в себя глубину сэмпла, частоту дискретизации и режим канала.
Глубина (или точность) сэмпла указывает на диапазон чисел, используемых для представления сэмпла. Чем больше значений, возможных для сэмпла, тем выше качество, потому что число может фиксировать меньшие изменения амплитуды. Например, для 8-битового сэмпла существует 256 возможных значений, в то время как для 16-битового сэмпла существует 65536 возможных значений. На качество также влияет частота дискретизации (обычно измеряемая количеством сэмплов в секунду). Чем выше частота дискретизации, тем выше качество, потому что может быть представлено больше частот звука. Некоторыми общепринятыми частотами дискретизации являются 8000, 11025, 22050, 32000, 44100, 48000 и 96000 сэмплов/секунда.
Моно и стерео являются двумя общепринятыми режимами канала для звука. В режиме моно, звуковая информация присутствует в одном канале. В режиме стерео, звуковая информация присутствует в двух каналах, обычно обозначается как левый и правый каналы. Также возможны другие режимы с большим количеством каналов, например, объемный 5.1-канальный, 7.1-канальный или 9.1-канальный звук канала ("1" указывает на сабвуфер или канал с низкочастотными эффектами). В таблице 1 представлены несколько форматов звука с различными уровнями качества и соответствующими затратами по общему расходу битов (битрейту).
Таблица 1
Битрейты для звуковой информации различного качества
Глубина сэмпла
(биты/сэмпл)
Частота дискретизации
(сэмплы/секунда)
Режим Общий битрейт
(биты/секунда)
Интернет-телефония 8 8 000 моно 64 000
Телефон 8 11 025 моно 88 200
CD звук 16 44 100 стерео 1 411 200
У объемного звука, как правило, еще более высокий общий битрейт.
Как видно из таблицы 1, ценой высококачественной звуковой информации является высокий битрейт. На высококачественную звуковую информацию расходуется большая часть запоминающего устройства компьютера и пропускной способности. Однако компании и потребители все больше и больше зависят от компьютеров при создании, распространении и воспроизведении высококачественного звукового контента.
II. Обработка звуковой информации в компьютере
Многие компьютеры и компьютерные сети испытывают недостаток в ресурсах для обработки необработанного оцифрованного звука. При сжатии (также называемом кодированием) затраты на хранение и передачу звуковой информации уменьшаются за счет преобразования информации в представление с меньшим битрейтом. При распаковке (также называемой декодированием) из сжатого представления извлекается восстановленная версия исходной информации. Системы кодера и декодера включают в себя определенные версии кодера и декодера звуковых файлов Windows ("WMA") и кодера и декодера WMA Pro корпорации "Майкрософт".
Сжатие может быть без потерь (при котором качество не страдает) или с потерями (при котором страдает качество, но уменьшение битрейта от последующего сжатия без потерь является более существенным). Например, сжатие с потерями используется для аппроксимации исходной звуковой информации, и затем эту аппроксимацию сжимают без потерь. Способы сжатия без потерь включают в себя неравномерное кодирование, кодирование run-level, кодирование переменной длины и арифметическое кодирование. Соответствующие способы распаковки (также называемые методиками энтропийного декодирования) включают в себя неравномерное декодирование, декодирование run-level, декодирование переменной длины и арифметическое декодирование.
Одна цель звукового сжатия состоит в том, чтобы в цифровой форме представить звуковые сигналы, чтобы обеспечить максимальное воспринимаемое качество сигнала наименее возможным количеством битов. С этой целью различные современные системы кодирования звука используют множество различных способов сжатия с потерями. Эти способы сжатия с потерями, как правило, включают в себя перцепционное моделирование/взвешивание и квантование после частотного преобразования. Соответствующая распаковка включает в себя обратное квантование, обратное взвешивание и обратное частотное преобразование.
Посредством методик частотного преобразования данные преобразуются в представление, облегчающее отделение важной, с точки зрения восприятия, информации от незначительной, с точки зрения восприятия, информации. Менее важная информация может далее быть подвергнута сжатию с большими потерями, в то время как более важную информацию сохраняют для обеспечения лучшего воспринимаемого качества заданного битрейта. При частотном преобразовании, как правило, принимаются звуковые сэмплы, которые преобразуются из временной области в данные частотной области, иногда называемые частотными коэффициентами или спектральными коэффициентами.
Перцепционное моделирование включает в себя обработку звуковых данных согласно модели слуховой системы человека для улучшения воспринимаемого качества восстановленного звукового сигнала для заданного битрейта. Например, в слуховой модели, как правило, учитывают диапазон частот, слышимый человеком, и критические полосы частот. С использованием результатов перцепционного моделирования кодер придает форму искажению (например, шум квантования) в звуковых данных с целью минимизации слышимости искажения в заданном битрейте.
Посредством квантования диапазоны входных значений отображаются в одиночные значения, что привносит необратимую потерю информации, но также обеспечивает возможность кодеру отрегулировать качество и битрейт выходных данных. Иногда кодер выполняет квантование вместе с контроллером скорости, который иффектирует квантование для регулировки битрейта и/или качества. Существуют различные виды квантования, включая адаптивное и неадаптивное, скалярное и векторное, равномерное и неравномерное. Перцепционное взвешивание можно рассматривать как вид неравномерного квантования. Посредством обратного квантования, и обратного взвешивания данных восстанавливают аппроксимацию данных исходных частотных коэффициентов из данных взвешенных, квантованных частотных коэффициентов. Далее посредством обратного частотного преобразования данные восстановленных частотных коэффициентов преобразуют в восстановленные звуковые сэмплы временной области.
Совместное кодирование звуковых каналов включает в себя кодирование объединенной информации из нескольких каналов для уменьшения битрейта. Например, кодирование с выделением суммарного и разностного каналов (также называемое M/S-кодированием или суммарно-разностным кодированием) включает в себя выполнение в кодере матричной операции над левым и правым стереоканалами и отправки результирующих каналов "суммарного" и "разностного" (нормированных каналов суммы и разности) в декодер. Декодер восстанавливает фактические физические каналы из суммарного и разностного каналов. M/S-кодирование является кодированием без потерь, обеспечивающим возможность полного восстановления, если в процессе кодирования не используются никакие другие способы с потерями (например, квантование).
Стереоинтенсивное кодирование является примером способа совместного кодирования с потерями, который может использоваться при низких битрейтах. Стереоинтенсивное кодирование включает в себя суммирование в кодере левого и правого каналов и последующее масштабирование информации в декодере, исходя из канала суммы, во время восстановления левого и правого каналов. Как правило, стереоинтенсивное кодирование выполняется на верхних частотах, где искажения, привнесенные этим способом с потерями, менее заметны.
Учитывая важность сжатия и распаковки для мультимедийной обработки, неудивительно, что сжатие и распаковка являются вполне разработанными областями. Каковы бы ни были преимущества предшествующих способов и систем, однако у них нет разнообразных преимуществ способов и систем, описанных в этом документе.
Сущность изобретения
В этом кратком изложении сущности изобретения в упрощенном виде представлен выбор концепций, которые описаны ниже в подробном описании. Нет намерения в этом кратком изложении сущности изобретения идентифицировать основные или существенные признаки заявленного изобретения, и при этом нет намерения ограничивать объем заявленного изобретения.
Вкратце, подробное описание нацелено на принципы кодирования и декодирования многоканального звука. Например, аудиокодер использует несколько способов для улучшения качества и/или битрейта многоканального звука. Это улучшает общую практику прослушивания и делает компьютерные системы более привлекательной платформой для создания, распространения и воспроизведения высококачественного многоканального звука. Принципы кодирования и декодирования, описанные в этом документе, включают в себя разнообразные способы и инструментальные средства, которые могут быть использованы в комбинации или независимо.
Например, аудиокодер принимает данные многоканального звука, причем данные многоканального звука содержат группу из множества исходных каналов. Кодер выполняет кодирование с канальным расширением в отношении данных многоканального звука. Кодирование с канальным расширением содержит кодирование комбинированного канала для упомянутой группы и определение множества параметров для представления отдельных исходных каналов данной группы в качестве модифицированных версий закодированного комбинированного канала. Кодер также выполняет кодирование с частотным расширением в отношении данных многоканального звука. Кодирование с частотным расширением может содержать, например, разбиение полос частот в данных многоканального звука на группу основной полосы частот и группу расширенной полосы частот и кодирование звуковых коэффициентов в группе расширенной полосы частот на основе звуковых коэффициентов в группе основной полосы частот.
В качестве другого примера, аудиодекодер принимает закодированные данные многоканального звука, содержащие данные кодирования с канальным расширением и данные кодирования с частотным расширением, декодер восстанавливает множество звуковых каналов с использованием данных кодирования с канальным расширением и данных кодирования с частотным расширением. Данные кодирования с канальным расширением содержат комбинированный канал для упомянутого множества звуковых каналов и множество параметров для представления отдельных каналов упомянутого множества звуковых каналов в качестве модифицированных версий комбинированного канала.
В качестве другого примера, аудиодекодер принимает данные многоканального звука и выполняет обратное многоканальное преобразование, обратное основное преобразование частотной области во временную область, обработку с частотным расширением и обработку с канальным расширением в отношении принятых данных многоканального звука. Декодер может выполнять декодирование, которое соответствует кодированию, выполненному в кодере, и/или дополнительные этапы, такие как прямое комплексное преобразование принятых данных, и может выполнять эти этапы в разном порядке.
Для нескольких из аспектов, описанных в этом документе для аудиокодера, аудиодекодер выполняет соответствующую обработку и декодирование.
Предыдущие и другие объекты, признаки и преимущества станут более очевидны из следующего подробного описания, которое дается согласно прилагаемым чертежам.
Перечень фигур чертежей
Фиг.1 - блок-схема обобщенного рабочего округления, с которым могут быть реализованы разнообразные описанные варианты осуществления.
Фиг.2, фиг.3, фиг.4 и фиг.5 - блок-схемы обобщенных кодеров и/или декодеров, с которыми могут быть реализованы разнообразные описанные варианты осуществления.
Фиг.6 - схема, на которой изображена иллюстративная конфигурация сегментов.
Фиг.7 - блок-схема последовательности операций, иллюстрирующая обобщенный способ многоканальной предварительной обработки (предобработки).
Фиг.8 - блок-схема последовательности операций, иллюстрирующая обобщенный способ многоканальной постобработки.
Фиг.9 - блок-схема последовательности операций, иллюстрирующая способ получения комплексных масштабных множителей для комбинированных каналов при кодировании с канальным расширением.
Фиг.10 - блок-схема последовательности операций, иллюстрирующая способ использования комплексных масштабных множителей при декодировании с канальным расширением.
Фиг.11 - схема, иллюстрирующая масштабирование коэффициентов комбинированного канала при восстановлении канала.
Фиг.12 - график, иллюстрирующий графическое сравнение фактических отношений мощностей и отношений мощностей, интерполированных из отношений мощностей в опорных точках.
Фиг.13-фиг.33 - уравнения и связанные компоновки матриц, детали тонкости обработки с канальным расширением в некоторых реализациях.
Фиг.34 - блок-схема аспектов кодера, который выполняет кодирование с частотным расширением.
Фиг.35 - блок-схема последовательности операций, представляющая иллюстративный способ кодирования подполос расширенной полосы.
Фиг.36 - блок-схема аспектов декодера, который выполняет декодирование с частотным расширением.
Фиг.37 - блок-схема аспектов кодера, который выполняет кодирование с канальным расширением и кодирование с частотным расширением.
Фиг.38, фиг.39 и фиг.40 - блок-схемы аспектов декодера, который выполняет декодирование с канальным расширением и декодирование с частотным расширением.
Фиг.41 - схема, на которой изображены представления векторов смещения для двух звуковых блоков.
Фиг.42 - схема, на которой изображена конфигурация звуковых блоков, имеющих опорные точки для интерполяции масштабных параметров.
Подробное описание
Описаны разнообразные способы и инструментальные средства для представления, кодирования и декодирования звуковой информации. Эти способы и инструментальные средства способствуют созданию, распространению и воспроизведению высококачественного звукового контента, даже при очень низких скоростях передачи битов.
Разнообразные способы и инструментальные средства, описанные в этом документе, можно использовать независимо. Некоторые из способов и инструментальных средств могут быть использованы в комбинации (например, на разных фазах процесса комбинированного кодирования и/или декодирования).
Ниже описаны разные способы согласно блок-схемам действий по обработке. Разные действия по обработке, представленные в блок-схемах, могут быть объединены в меньшее количество действий или разделены на большее количество действий. Для простоты отношение между действиями, представленными в конкретной блок-схеме, и действиями, описанными в другом месте, часто не показывается. Во многих случаях действия в блок-схеме могут быть переупорядочены.
Большая часть подробного описания относится к представлению, кодированию и декодированию звуковой информации. Многие способы и инструментальные средства, описанные в этом документе, для представления кодирования и декодирования звуковой информации также могут быть применены к видеоинформации, информации неподвижного изображения или другой мультимедийной информации, отправляемой по одному или нескольким каналам.
I. Вычислительное окружение
На фиг.1 изображен обобщенный пример подходящего вычислительного окружения 100 вычислений, в котором могут быть реализованы описанные варианты осуществления. Вычислительное окружение 100 не подразумевает каких-либо ограничений относительно объема использования или функциональных возможностей, так как описанные варианты осуществления могут быть реализованы в разнообразных универсальных или специализированных вычислительных окружениях.
Согласно фиг.1, вычислительное окружение 100 включает в себя, по меньшей мере, один процессор 110 и память 120. На фиг.1 эта самая базовая конфигурации 130 обведена пунктирной линией. Процессор 110 исполняет машиноисполнимые инструкции и может быть реальным или виртуальным процессором. В многопроцессорной системе машиноисполняемые инструкции исполняют несколько процессоров для увеличения вычислительной мощности. Память 120 может быть энергозависимой памятью (например, регистры, кэш, RAM), энергонезависимой памятью (например, ROM, EEPROM, флэш-память) или некоторой комбинацией их обоих. В памяти 120 хранится программное обеспечение 180, реализующее один или несколько способов и/или систем обработки звука согласно одному или нескольким описанным вариантам осуществления.
У вычислительного окружения могут быть дополнительные признаки. Например, вычислительное окружение 100 включает в себя запоминающее устройство 140, одно или несколько устройств 150 ввода, одно или несколько устройств 160 вывода и одно или несколько соединений 170 связи. Механизм межкомпонентного соединения (не изображен), например, шина, контроллер или сеть, соединяет компоненты среды 100 вычислений. Как правило, программное обеспечение операционной системы (не изображено) обеспечивает рабочую среду для программного обеспечения, выполняющегося в среде 100 вычислений, и координирует действия компонентов среды 100 вычислений.
Запоминающее устройство 140 может быть сменным или несъемным и включает в себя магнитные диски, магнитные ленты или кассеты, компакт-диски (CD), универсальные цифровые диски (DVD) или любой другой носитель информации, который может быть использован для хранения информации, и к которому можно осуществить доступ в вычислительном окружении 100. В запоминающем устройстве 140 хранятся инструкции для программного обеспечения 180.
Устройство(а) 150 ввода может быть сенсорным устройством ввода, например, клавиатурой, мышью, пером, сенсорным экраном или трекболом, голосовым устройством ввода, устройством сканирования или другим устройством, которое обеспечивает ввод в вычислительное окружение 100. Для звука или видео устройством(ами) 150 ввода может быть микрофон, звуковой адаптер, видеоадаптер, адаптер ТВ-тюнера или сходное устройство, которое принимает ввод видеоданных или звуковой информации в аналоговом или цифровом представлении, либо CD или DVD, с которого считываются видео или звуковые сэмплы в вычислительное окружение. Устройство(а) 160 вывода может быть дисплеем, принтером, динамиком, устройством записи на CD/DVD, сетевым адаптером или другим устройством, которое обеспечивает вывод из вычислительного окружения 100.
Соединение(я) 170 связи обеспечивает возможность связи через среду связи с одним или несколькими другими вычислительными объектами. Среда связи передает информацию, например, машиноисполнимые инструкции, звуковую или видеоинформацию или другие данные в сигнале данных. Модулированный сигнал данных является сигналом, одна или несколько характеристик которого установлена или изменяется таким образом, чтобы закодировать в этом сигнале информацию. Например, среды связи включают в себя проводные или беспроводные методики, реализованные с помощью электрической, оптической, радиочастотной, инфракрасной, акустической или другой среды.
Варианты осуществления могут быть описаны в общем контексте машиночитаемых носителей информации. Машиночитаемыми носителями информации являются любые доступные носители информации, к которым можно осуществить доступ в вычислительном окружении. Например, в случае вычислительного окружения 100, машиночитаемые носители информации включают в себя память 120, запоминающее устройство 140, среды связи и комбинации любых вышеупомянутых сред и носителей.
Варианты осуществления могут быть описаны в общем контексте машиноисполняемых инструкций, например, включенных в программные модули, исполняемые в вычислительном окружении на целевом реальном или виртуальном процессоре. В общем, программные модули включают в себя процедуры, программы, библиотеки, объектные файлы, классы, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные типы данных. Функциональные возможности программных модулей могут быть объединены или распределены между программными модулями, как требуется в разнообразных вариантах осуществления. Исполнимые компьютером инструкции для программных модулей могут исполняться в локальном или распределенном вычислительном окружении.
Для представления, в подробном описании термины типа "определять", "принимать" и "выполнять" используются для описания компьютерных операций в вычислительном окружении. Эти термины являются обобщениями высокого уровня для операций, выполняемых компьютером, и их не следует путать с действиями, совершаемыми человеком. Фактические компьютерные операции, соответствующие этим терминам, меняются в зависимости от реализации.
II. Иллюстративные кодеры и декодеры
На фиг.2 изображен первый кодер 200 звука, в котором могут быть реализованы один или несколько описанных вариантов осуществления. Кодер 200 является основанным на преобразовании, перцепционным аудиокодером 200. На фиг.3 изображен соответствующий аудиодекодер 300.
На фиг.4 изображен второй аудиокодер 400, в котором могут быть реализованы один или несколько описанных вариантов осуществления. Кодер 400 также является основанным на преобразовании, перцепционным аудиокодером, но кодер 400 включает в себя дополнительные модули, например, модули для обработки многоканального звука. На фиг.5 изображен соответствующий аудиодекодер 500.
Хотя системы, изображенные на фиг.2 - фиг.5, являются обобщенными, у каждой существуют характеристики, имеющиеся в реальных системах. В любом случае, отношения, представленные между модулями кодеров и декодеров, указывают на потоки информации в кодерах и декодерах; для простоты другие отношения не изображены. В зависимости от реализации и типа заданного сжатия, модули кодера или декодера могут быть добавлены, не включены, разделены на несколько модулей, комбинированы с другими модулями и/или заменены подобными модулями. В альтернативных вариантах осуществления кодеры или декодеры с различными модулями и/или другими конфигурациями обрабатывают звуковые данные или некоторые другие типы данных согласно одному или нескольким описанным вариантам осуществления.
A. Первый аудиокодер
Кодер 200 принимает временную последовательность входных звуковых сэмплов 205 с некоторой скоростью и глубиной дискретизации. Входные звуковые сэмплы 205 являются сэмплами для многоканального звука (например, стерео) или монозвука. Кодер 200 сжимает звуковые сэмплы 205 и мультиплексирует информацию, сгенерированную разнообразными модулями кодера 200, для вывода битового потока 295 в формате сжатия, например, формате WMA, контейнерном формате, например, расширенном потоковом формате ("ASF"), или другом формате сжатия, или контейнерном формате.
Частотный преобразователь 210 принимает звуковые сэмплы 205 и преобразует их в данные частотной (или спектральной) области. Например, частотный преобразователь 210 разбивает звуковые сэмплы 205 кадров на блоки подкадров, которые могут быть переменной длины, для обеспечения переменного разрешения по времени. Блоки могут перекрываться для уменьшения воспринимаемых нарушений непрерывности между блоками, которые иначе могут быть привнесены последующим квантованием. Частотный преобразователь 210 применяет к блокам меняющееся во времени модулированное преобразование с перекрытием ("MLT"), модулированное дискретное компусное преобразование (DCT) ("MDCT"), некоторые другие разнообразные MLT или DCT или некоторые другие виды модулированного или немодулированного, с перекрытием или без перекрытия частотного преобразования, или использует подполосное кодирование или вейвлет-кодирование. Частотный преобразователь 210 выводит блоки данных спектральных коэффициентов и выводит дополнительную информацию, например, размеры блоков, в мультиплексор ("MUX") 280.
Для данных многоканального звука средство многоканального преобразования 220 может преобразовывать несколько исходных, независимо закодированных каналов в совместно закодированные каналы. Или, многоканальный преобразователь 220 может передавать левый и правый каналы как независимо закодированные каналы. Устройство многоканального преобразования 220 генерирует дополнительную информацию для MUX 280 с указанием используемого режима канала. Кодер 200 может применять многоканальную повторную матричную обработку к блоку звуковых данных после многоканального преобразования.
Средство 230 перцепционного моделирования моделирует свойства слуховой системы человека для улучшения воспринимаемого качества восстановленного звукового сигнала для заданного битрейта. Средство 230 перцепционного моделирования использует любую из разнообразных слуховых моделей и передает информацию об образце возбуждения или другую информацию в средство 240 взвешивания. Например, в слуховой модели, как правило, учитывают диапазон частот, слышимый человеком, и критические полосы частот (например, Bark-диапазоны). Кроме диапазона частот и критических полос частот, на восприятие может существенно влиять взаимодействие между звуковыми сигналами. Кроме того, слуховая модель может учитывать множество других факторов, касающихся физических или нервных аспектов восприятия человеком звука.
Средство 230 перцепционного моделирования выводит информацию, которую средство 240 взвешивания использует для придания формы шуму в звуковых данных, которая уменьшает слышимость шума. Например, с использованием любой из разнообразных методик средство 240 взвешивания формирует весовые коэффициенты для матриц квантования (иногда называемых масками) на основе принятой информации. Весовые коэффициенты для матрицы квантования включают в себя вес для каждой из нескольких полос квантования в матрице, где полосы квантования являются диапазонами частот частотных коэффициентов. Соответственно, весовые коэффициенты указывают пропорции, при которых ошибка шум/квантование распространяется по полосам квантования, тем самым контролируя спектральное/временное распространение ошибки шум/квантование, с целью минимизации слышимости шума, помещая большее количество шума в полосы частот, где он менее слышим, и наоборот.
Средство 240 взвешивания далее применяет весовые коэффициенты к данным, принятым из средства 220 многоканального преобразования.
Квантователь 250 квантует выходные данные средства 240 взвешивания с генерацией квантованных данных коэффициентов для энтропийного кодера 260 и дополнительной информации, включающей в себя размер шага квантования, для MUX 280. На фиг.2 квантователь 250 является адаптивным, равномерным, скалярным квантователем. Квантователь 250 применяет идентичный размер шага квантования к каждому спектральному коэффициенту, но размер шага самого квантования может изменяться от одной итерации цикла квантования к другой для влияния на битрейт выходных данных энтропийного кодера 260. Другими видами квантования являются неравномерное, векторное квантование и/или неадаптивное квантование.
Энтропийный кодер 260 сжимает без потерь квантованные данные коэффициентов, принятых из квантователя 250, например, посредством выполнения кодирования run-level и векторного кодирования переменной длины. Энтропийный кодер 260 может вычислять количество битов, затраченных на кодирование звуковой информации, и передавать эту информацию в контроллер 270 скорости/качества.
Контроллер 270 работает с квантователем 250 для регулирования битрейта и/или качества выходных данных кодера 200. Контроллер 270 выводит размер шага квантования в квантователь 250 с целью удовлетворения ограничениям по битрейту и качеству.
Кроме того, кодер 200 может применять замену на шум и/или усечение полосы частот к блоку звуковых данных.
MUX 280 мультиплексирует дополнительную информацию, принятую из других модулей аудиокодера 200 вместе с данными, закодированными энтропийным кодированием, которые приняты из энтропийного кодера 260. MUX 280 может включать в себя виртуальный буфер, который хранит битовый поток 295 для вывода его кодером 200.
B. Первый аудиодекодер
Декодер 300 принимает битовый поток 305 сжатой звуковой информации, в том числе данные, закодированные энтропийным кодированием, а также дополнительную информацию, исходя из чего декодер 300 восстанавливает звуковые сэмплы 395.
Демультиплексор ("DEMUX") 310 анализирует информацию в битовом потоке 305 и отправляет информацию в модули декодера 300. DEMUX 310 включает в себя один или несколько буферов для компенсации краткосрочных изменений в битрейте из-за флуктуаций в сложности звука, сетевого дрожания и/или других факторов.
Энтропийный декодер 320 без потерь распаковывает энтропийные коды, принятые из DEMUX 310, с генерацией квантованных данных спектральных коэффициентов. Энтропийный декодер 320, как правило, применяет способы, обратные способам энтропийного кодирования, используемым в кодере.
Обратный квантователь 330 принимает размер шага квантования из DEMUX 310 и принимает квантованные данные спектральных коэффициентов из энтропийного декодера 320. Обратный квантователь 330 применяет размер шага квантования к квантованным данным частотных коэффициентов для частичного восстановления данных частотных коэффициентов или иным образом выполняет обратное квантование.
Из DEMUX 310 генератор 340 шума принимает информацию, указывающую, какие полосы частот в блоке данных заменены на шум, а также любые параметры для формы шума. Генератор 340 шума формирует образцы для указанных полос частот и передает информацию в средство 350 обратного взвешивания.
Средство 350 обратного взвешивания принимает весовые коэффициенты из DEMUX 310, образцы для любых замененных на шум полос частот из генератора 340 шума и частично восстановленные данные частотных коэффициентов из обратного квантователя 330. По мере необходимости, средство 350 обратного взвешивания распаковывает весовые коэффициенты. Средство 350 обратного взвешивания применяет весовые коэффициенты к частично восстановленным данным частотных коэффициентов для полос частот, которые не были заменены на шум. Средство 350 обратного взвешивания далее добавляет в шум образцы, принятые из генератора 340 шума для замененных на шум полос частот.
Средство 360 обратного многоканального преобразования принимает данные восстановленных спектральных коэффициентов из средства 350 обратного взвешивания и информацию о режиме канала из DEMUX 310. Если многоканальный звук находится в независимо закодированных каналах, то средство 360 обратного многоканального преобразования пропускает эти каналы дальше. Если многоканальные данные находятся в совместно закодированных каналах, то средство 360 обратного многоканального преобразования преобразует данные в независимо закодированные каналы.
Средство 370 обратного частотного преобразования принимает данные спектральных коэффициентов, выведенные средством 360 обратного многоканального преобразования, а также дополнительную информацию, например, размеры блока, из DEMUX 310. Средство 370 обратного частотного преобразования применяет преобразование, обратное частотному преобразованию, используемому в кодере, и выводит блоки восстановленных звуковых сэмплов 395.
C. Второй аудиокодер
Согласно фиг.4, кодер 400 принимает временную последовательность входных звуковых сэмплов 405 с некоторой скоростью и глубиной дискретизации. Входные звуковые сэмплы 405 являются сэмплами для многоканального звука (например, стерео, объемного) или монозвука. Кодер 400 сжимает звуковые сэмплы 405 и мультиплексирует информацию, сгенерированную разнообразными модулями кодера 400, для вывода битового потока 495 в формате сжатия, например, формате WMA Pro, контейнерном формате, например, ASF или другом формате сжатия или контейнерном формате.
Кодер 400 выбирает между несколькими способами кодирования для звуковых сэмплов 405. На фиг.4, кодер 400 переключается между смешанным/чистым способом кодирования без потерь и способом кодирования с потерями. Способ кодирования без потерь включает в себя смешанный/чистый кодер 472 без потерь и, как правило, используется для сжатия с высоким качеством (и высоким битрейтом). Способ кодирования с потерями включает в себя компоненты, такие как средство 442 взвешивания и квантователь 460 и, как правило, используется для сжатия с регулируемым качеством (и регулируемым битрейтом). Выбор зависит от ввода пользователя или других критериев.
Для кодирования с потерями данных многоканального звука, многоканальный препроцессор 410, в необязательном порядке, повторно выполняет матричную обработку звуковых сэмплов 405 временной области. Например, многоканальный препроцессор 410, в необязательном порядке, повторно выполняет матричную обработку звуковых сэмплов 405 для исключения одного или нескольких закодированных каналов или увеличивает межканальную корреляцию в кодере 400, в то же время обеспечивая возможность восстановления (в некотором представлении) в декодере 500. Многоканальный препроцессор 410 может отправлять в MUX 490 дополнительную информацию, например инструкции для многоканальной постобработки.
Модуль 420 разделения на окна разделяет кадр входных звуковых сэмплов 405 на блоки подкадров (окна). Окна могут иметь меняющийся во времени размер и функции придания формы окна. Когда кодер 400 использует кодирование с потерями, окна переменного размера обеспечивают возможность переменного разрешения по времени. Модуль 420 разделения на окна выводит блоки разделенных данных, а также выводит дополнительную информацию, например размеры блоков, в MUX 490.
На фиг.4, средство 422 конфигурирования сегментов разделяет кадры многоканального звука на поканальной основе. Средство 422 конфигурирования сегментов независимо разделяет каждый канал в кадре, если позволяет качество/битрейт. Это обеспечивает возможность, например, средству 422 конфигурирования сегментов изолировать переходы, которые появляются в конкретном канале, в меньших окнах, но использовать большие окна для разрешения по частоте или эффективности сжатия в других каналах. Изоляция переходов на поканальной основе может повысить эффективность сжатия, но во многих случаях требуется дополнительная информация, указывающая на разделения в отдельных каналах. Окна идентичного размера, которые совмещены во времени, могут определяться для дальнейшего устранения избыточности при многоканальном преобразовании. Соответственно, средство 422 конфигурирования сегментов группирует окна идентичного размера, которые совмещены во времени, в виде сегмента.
На фиг.6 изображена иллюстративная конфигурация 600 сегментов для кадра звука 5.1-канального. Конфигурация 600 сегментов включает в себя семь сегментов, пронумерованных от 0 до 6. Сегмент 0 включает в себя сэмплы из каналов 0, 2, 3 и 4 и покрывает первую четверть кадра. Сегмент 1 включает в себя сэмплы из канала 1 и покрывает первую половину кадра. Сегмент 2 включает в себя сэмплы из канала 5 и покрывает весь кадр. Сегмент 3 подобен сегменту 0, но покрывает вторую четверть кадра. Сегменты 4 и 6 включают в себя сэмплы в каналах 0, 2 и 3 и покрывают третью и четвертую четверти кадра соответственно. Наконец, сегмент 5 включает в себя сэмплы из каналов 1 и 4 и покрывает последнюю половину кадра. Как показано, конкретный сегмент размещения может включать в себя окна в несмежных каналах.
Частотный преобразователь 430 принимает звуковые сэмплы и преобразует их в данные в частотной области с применением такого преобразования, как описано выше для частотного преобразователя 210 согласно фиг.2. Частотный преобразователь 430 выводит блоки данных спектральных коэффициентов в средство 442 взвешивания и выводит дополнительную информацию, например, размеры блоков, в MUX 490. Частотный преобразователь 430 выводит и частотные коэффициенты, и дополнительную информацию в средство 440 перцепционного моделирования.
Средство 440 перцепционного моделирования моделирует свойства слуховой системы человека с обработкой звуковых данных согласно слуховой модели, в целом так, как описано выше в отношении средства 230 перцепционного моделирования согласно фиг.2.
Средство 442 взвешивания формирует весовые коэффициенты для матриц квантования на основе информации, принятой из средства 440 перцепционного моделирования, в целом, как описано выше в отношении средства взвешивания 240 согласно фиг.2. Средство 442 взвешивания применяет весовые коэффициенты к данным, принятым из частотного преобразователя 430. Средство весовой обработки 442 взвешивания выводит дополнительную информацию, например, матрицы квантования и весовые коэффициенты канала, в MUX 490. Матрицы квантования могут быть сжаты.
Для данных многоканального звука средство 450 многоканального преобразования может применять многоканальное преобразование для использования преимуществ межканальной корреляции. Например, средство 450 многоканального преобразования выборочно и гибко применяет многоканальное преобразование к некоторым, но не ко всем каналам и/или полосам квантования в мозаичном размещении. Средство 450 многоканального преобразования выборочно использует предопределенные матрицы или пользовательские матрицы и применяет эффективное сжатие к пользовательским матрицам. Средство 450 многоканального преобразования генерирует дополнительную информацию для MUX 490 с указанием, например, используемых многоканальных преобразований и частей сегментов, в отношении которых выполнено многоканальное преобразование элементов.
Квантователь 460 квантует выходные данные средства 450 многоканального преобразования с генерацией квантованных данных коэффициентов для энтропийного кодера 470 и дополнительной информации, включающей в себя размеры шагов квантования, для MUX 490. На фиг.4, квантователь 460 является адаптивным, равномерным, скалярным квантователем, который вычисляет коэффициент квантования для каждого сегмента, но квантователь 460 может вместо этого выполнять некоторый другой вид квантования.
Энтропийный кодер 470 без потерь сжимает квантованные данные коэффициентов, принятые из квантователя 460, в целом, как описано выше в отношении кодера 260 непредсказуемой части сигнала согласно фиг.2.
Контроллер 480 работает с квантователем 460 для регулирования битрейта и/или качества выходных данных кодера 400. Контроллер 480 выводит коэффициенты квантования в квантователь 460 с целью удовлетворения ограничениям по битрейту и/или качеству.
Смешанный/чистый кодер 472 без потерь и ассоциированный энтропийный кодер 474 сжимает звуковые данные для смешанного/чистого способа кодирования без потерь. Кодер 400 использует смешанный/чистый способ кодирования без потерь для всей последовательности или переключается между способами кодирования на покадровой, поблочной, посегментной или другой основе.
MUX 490 мультиплексирует дополнительную информацию, принятую из других модулей аудиокодера 400, вместе с данными, закодированными энтропийным кодированием, которые приняты из энтропийных кодеров 470, 474. MUX 490 включает в себя один или несколько буферов для регулирования скорости или для других целей.
D. Второй аудиодекодер
Согласно фиг.5, второй декодер 500 принимает битовый поток 505 сжатой звуковой информации. Битовый поток 505 включает в себя данные, закодированные энтропийным кодированием, а также дополнительную информацию, исходя из которой декодер 500 восстанавливает звуковые сэмплы 595.
DEMUX 510 выполняет разбор информации в битовом потоке 505 и отправляет информацию в модули декодера 500. DEMUX 510 включает в себя один или несколько буферов для компенсации краткосрочных изменений в битрейте из-за флуктуаций в сложности звука, сетевого дрожания и/или других факторов.
Энтропийный декодер 520 без потерь распаковывает энтропийные коды, принятые из DEMUX 510, как правило, с применением способов, обратных способам энтропийного кодирования, используемым в кодере 400. При декодировании данных, сжатых способом кодирования с потерями, энтропийный декодер 520 генерирует квантованные данные спектральных коэффициентов.
Смешанный/чистый декодер 522 без потерь и ассоциированный энтропийный декодер(ы) 520 распаковывают закодированные без потерь звуковые данные для смешанного/чистого способа кодирования без потерь.
Декодер 530 конфигурации сегментов принимает и, в случае необходимости, декодирует информацию, указывающую комбинации сегментов для кадров из DEMUX 590. Информация о комбинациях сегментов может быть энтропийно закодированной или иным образом параметризованной. Декодер 530 конфигурации сегментов далее передает информацию о комбинациях сегментов в разнообразные другие модули декодера 500.
Средство 540 обратного многоканального преобразования принимает квантованные данные спектральных коэффициентов из энтропийного декодера 520, а также информацию о комбинациях сегментов из декодера 530 конфигурации сегментов и дополнительную информацию из DEMUX 510, указывающую, например, используемое многоканальное преобразование и преобразованные части сегментов. С использованием этой информации средство 540 обратного многоканального преобразования распаковывает матрицу преобразования по мере необходимости и выборочно и гибко применяет одно или несколько обратных многоканальных преобразований к звуковым данным.
Обратный квантователь/средство обратного взвешивания 550 принимает информацию, такую как, коэффициенты квантования канала и сегмента, а также матрицы квантования из DEMUX 510 и принимает квантованные данные спектральных коэффициентов из средства 540 обратного многоканального преобразования. Обратный квантователь/средство обратного взвешивания 550 распаковывает принятую информацию о весовых коэффициентах по мере необходимости. Обратный квантователь/средство обратного взвешивания 550 далее выполняет обратные квантования и взвешивание.
Средство 560 обратного частотного преобразования принимает данные спектральных коэффициентов, выведенные обратным квантователем/средством обратного взвешивания 550, а также дополнительную информацию, из DEMUX 510 и информацию о комбинациях сегментов из декодера 530 конфигурации сегментов. Средство 570 обратного частотного преобразования применяет преобразование, обратное частотному преобразованию, используемому в кодере, и выводит блоки в средство преобразования с перекрытием/сумматор 570.
В дополнение к получению информации о комбинациях сегментов из декодера 530 конфигурации сегментов, средство преобразования с перекрытием/сумматор 570 принимает декодированную информацию из средства 560 обратного частотного преобразования и/или смешанного/чистого декодера 522 без потерь. Средство преобразования с перекрытием/сумматор 570 выполняет перекрытие звуковых данных и суммирует звуковые данные по мере необходимости и перемежает кадры или другие последовательности звуковых данных, закодированных в различных режимах.
Многоканальный постпроцессор 580, в необязательном порядке, повторно выполняет матричную обработку звуковых сэмплов временной области, выведенных средством преобразования с перекрытием/сумматором 570. Для постобработки с регулированием битового потока, матрицы преобразования постобработки изменяются со временем и сигнализируются или включаются в битовый поток 505.
III. Краткий обзор многоканальной Обработки
Этот раздел является кратким обзором некоторых способов многоканальной обработки, используемых в некоторых кодерах и декодерах, включая способы предварительной многоканальной обработки, способы гибкого многоканального преобразования и способы многоканальной постобработки.
A. Предварительная многоканальная обработка
Некоторые кодеры выполняют многоканальную предварительную обработку входных звуковых сэмплов во временной области.
В традиционных кодерах, когда на вход подаются N исходных звуковых каналов, количество выходных каналов, генерируемых кодером, также N. Количество закодированных каналов может однозначно соответствовать исходным каналам, либо закодированные каналы могут быть каналами с многоканальным преобразованием. Если из-за сложности кодирования источника сжатие становится трудным, или если буфер кодера полный, то кодер, однако, может изменить или исключить (то есть, не кодировать) один или несколько первоначальных звуковых каналов или каналов, закодированных с многоканальным преобразованием. Это может быть сделано для уменьшения сложности кодирования и улучшения общего качества воспринимаемого звука. Для предварительной обработки с управлением по качеству кодер может выполнять многоканальную предварительную обработку в ответ на измеренное качество звука для плавного управления общим качеством звука и/или разделением каналов.
Например, кодер может изменять образ многоканального звука для уменьшения критичности одного или нескольких каналов так, чтобы эти каналы были исключены в кодере, и при этом восстановлены в декодере как "фантомные" или незакодированные каналы. Это помогает избегать необходимости прямого удаления каналов или жесткого квантования, что может существенно повлиять на качество.
Кодер может указывать декодеру, какое действие предпринимать, когда количество закодированных каналов меньше, чем количество каналов для вывода. Далее, в декодере может использоваться преобразование многоканальной постобработки для создания фантомных каналов. Например, кодер (через битовый поток) может проинструктировать декодер создать фантомный центр посредством усреднения декодированных левого и правого каналов. Впоследствии многоканальные преобразования могут использовать избыточность между усредненными обратным левым и обратным правым каналами (без постобработки), или кодер может проинструктировать декодер выполнить некоторую многоканальную постобработку для обратных левого и правого каналов. Или, кодер может сигнализировать декодеру выполнить многоканальную постобработку для другой цели.
На Фиг.7 представлен обобщенный способ 700 предварительной многоканальной обработки. Кодер выполняет (710) предварительную многоканальную обработку данных многоканального звука временной области с генерацией преобразованных звуковых данных во временной области. Например, при предварительной обработке задействуется общая матрица преобразования с элементами, являющимися действительными, непрерывными значениями. Общая матрица преобразования может быть выбрана для искусственного увеличения межканальной корреляции. Это уменьшает сложность для остальной части кодера, но за счет потерянного разделения каналов.
Эти выходные данные далее подаются в остальную часть кодера, которая, в дополнение к любой другой обработке, которую может выполнять кодер, кодирует (720) данные с использованием способов, описанных согласно фиг.4, или других способов сжатия, с генерацией закодированных данных многоканального звука.
Синтаксис, используемый кодером и декодером, может обеспечить возможность описания общих или предопределенных матриц многоканального преобразования постобработки, которые могут измениться или включаться/выключаться на покадровой основе. Кодер может использовать эту гибкость для ограничения ухудшений стерео/объемного образа посредством выбора оптимального соотношения разделения каналов для лучшего общего качества при определенных обстоятельствах посредством искусственного увеличения межканальной корреляции. В качестве альтернативы, декодер и кодер могут использовать другой синтаксис для многоканальной предварительной обработки и постобработки, например, такой, который обеспечивает возможность изменений в матрицах преобразования на основе, отличной от покадровой.
B. Гибкие многоканальные преобразования
Некоторые кодеры могут выполнять гибкие многоканальные преобразования, которые эффективно используют межканальную корреляцию. Соответствующие декодеры могут выполнять соответствующие обратные многоканальные преобразования.
Например, кодер может помещать многоканальное преобразование после перцепционного взвешивания (и декодер может помещать обратное многоканальное преобразование перед обратным взвешиванием) так, чтобы сигнал межканальной утечки был управляемым, измеримым и имел спектр, подобный исходному сигналу. Кодер может применять весовые коэффициенты к многоканальному звуку в частотной области (например, и весовые коэффициенты, и модификаторы шага квантования каждого канала) перед многоканальными преобразованиями. Кодер может выполнять одно или несколько многоканальных преобразований взвешенных звуковых данных и квантовать данные многоканально преобразованного звука.
Декодер может собирать сэмплы из нескольких каналов с конкретным коэффициентом частотности в вектор и выполнять обратное многоканальное преобразование для формирования выходных данных. Впоследствии, декодер может выполнять обратное квантование и обратное взвешивание многоканального звука с окраской выходных данных обратного многоканального преобразования посредством маски(ок). Соответственно, утечке, которая происходит через каналы (из-за квантования), можно придать такую спектральную форму, чтобы слышимость просочившегося сигнала была измерима и управляема, и утечке других каналов в данном восстановленном канале была придана спектральная форма, подобная исходному неискаженному сигналу данного канала.
Кодер может группировать каналы для многоканальных преобразований с целью ограничения того, какие каналы преобразовываются вместе. Например, кодер может определять, какие каналы в сегменте коррелированы, и группировать коррелированые каналы. Кодер при группировании каналов для многоканального преобразования может учитывать попарные корреляции между сигналами каналов, а также корреляции между полосами, или другие, и/или дополнительные факторы. Например, кодер может вычислять попарные корреляции между сигналами в каналах и затем группировать каналы соответственно. Канал, который попарно не коррелирован ни с одним из каналов в группе, может, тем не менее, быть совместимым с этой группой. Для каналов, которые несовместимы с группой, кодер может проверять совместимость на уровне полосы и корректировать одну или несколько групп каналов соответственно. Кодер может идентифицировать каналы, которые совместимы с группой в некоторых полосах, но несовместимы в некоторых других полосах. Выключение преобразования в несовместимых полосах может улучшить корреляцию среди полос, в отношении которых фактически выполняется кодирование на основе многоканального преобразования и которые улучшают эффективность кодирования. Каналы в группе каналов не должны быть непрерывными. Один сегмент может включать в себя несколько групп каналов, и у каждой группы каналов может быть отличное ассоциированное многоканальное преобразование. После принятия решения касаемо того, какие каналы совместимы, кодер может поместить информацию о группе каналов в битовый поток. Декодер впоследствии может извлечь и обработать информацию из битового потока.
Кодер может выборочно включать или выключать многоканальные преобразования на уровне полосы частот для управления тем, какие полосы частот будут преобразованы вместе. Соответственно, кодер может выборочно исключать полосы, которые несовместимы в многоканальных преобразованиях. Когда многоканальное преобразование выключено для конкретной полосы, кодер может использовать тождественное преобразование для этой полосы, пропуская данные в этой полосе без изменения их. Количество полос частот связано с частотой дискретизации звуковых данных и размером сегмента. В общем, чем выше частота дискретизации или больше размер сегмента, тем больше количество полос частот. Кодер может выборочно включать или выключать многоканальные преобразования на уровне полосы частот для каналов группы каналов сегмента. Декодер может восстанавливать информацию о включении/выключении полосы для многоканального преобразования для группы каналов сегмента из битового потока согласно конкретному синтаксису битового потока.
Кодер может использовать иерархические многоканальные преобразования для ограничения вычислительной сложности, особенно в декодере. С помощью иерархического преобразования кодер может разделять общее преобразование на несколько стадий с сокращением вычислительной сложности отдельных стадий и в некоторых случаях с сокращением количества информации, необходимой для спецификации многоканального преобразования. С использованием этой каскадной структуры кодер может имитировать более общее преобразование посредством меньших преобразований до некоторой степени точности. Декодер далее может выполнять соответствующее иерархическое обратное преобразование. Кодер может комбинировать информацию о включении/выключении полосы для нескольких многоканальных преобразований. Декодер может извлекать информацию для иерархии многоканальных преобразований для группы каналов из битового потока согласно конкретному синтаксису битового потока.
Кодер может использовать предопределенные матрицы многоканального преобразования для уменьшения битрейта, используемого для спецификации матриц преобразования. Кодер может выбирать из числа нескольких доступных предопределенных типов матриц и сигнализировать о выбранной матрице в битовом потоке. Некоторые типы матриц могут не требовать никакой дополнительной сигнализации в битовом потоке. Другие могут требовать дополнительной спецификации. Декодер может восстанавливать информацию, указывающую тип матрицы и (в случае необходимости) дополнительную информацию, специфицирующую матрицу.
Кодер может вычислять и применять матрицы квантования для каналов сегментов, модификаторов шага квантования для каждого канала и в целом коэффициентов квантования элемента мозаичного размещения. Это обеспечивает возможность кодеру придавать форму шуму согласно слуховой модели, cбалансировать шум между каналами и управлять искажением в целом. Соответствующий декодер может применять в целом коэффициенты квантования сегментов, модификаторы шага квантования для каждого канала и матрицы квантования для каналов сегментов, и может комбинировать этапы обратного квантования и обратного взвешивания.
C. Многоканальная постобработка
Некоторые декодеры выполняют многоканальную постобработку в отношении восстановленных звуковых сэмплов во временной области.
Например, количество декодированных каналов может быть меньше, чем количество каналов для вывода (например, потому что кодер не закодировал один или несколько входных каналов). Если так, то преобразование многоканальной постобработки можно использовать для создания одного или нескольких "фантомных" каналов на основе фактических данных в декодированных каналах. Если количество декодированных каналов равно количеству выходных каналов, то преобразование постобработки можно использовать для произвольного пространственного вращения представления, переотображения выходных каналов между положениями динамиков или других пространственных или специальных эффектов. Если количество декодированных каналов больше, чем количество выходных каналов (например, воспроизведение объемного звука на стереофонической аппаратуре), то преобразование постобработки можно использовать для "сложения" каналов. Матрицы преобразования для этих сценариев и приложений могут быть обеспечены или сигнализированы кодером.
На Фиг.8 представлен обобщенный способ 800 многоканальной постобработки. Декодер декодирует (810) закодированные данные многоканального звука с генерацией восстановленных данных многоканального звука временной области.
Декодер далее выполняет (820) многоканальную постобработку данных многоканального звука во временной области. Когда кодер генерирует несколько закодированных каналов, и декодер выводит большее количество каналов, постобработка включает в себя общее преобразование для генерации большего количества выходных каналов из меньшего количества закодированных каналов. Например, декодер берет совмещенные (во времени) сэмплы, по одному из каждого из восстановленных закодированных каналов, затем заполняет любые отсутствующие каналы (то есть, каналы, исключенные кодером) нулями. Декодер перемножает сэмплы с общей матрицей преобразования постобработки.
Общая матрица преобразования постобработки может быть матрицей с предопределенными элементами, или она может быть общей матрицей с элементами, задаваемыми кодером. Кодер сигнализирует декодеру использовать предопределенную матрицу (например, посредством одного или нескольких битов флага) или отправляет элементы общей матрицы в декодер, или декодер можно сконфигурировать для постоянного использования одной общей матрицы преобразования постобработки. Для дополнительной гибкости многоканальную постобработку можно включать/выключать на покадровой или другой основе (в этом случае декодер может использовать матрицу тождественного преобразования (единичную матрицу), чтобы оставлять каналы неизменными).
Для получения дополнительной информации по предварительной многоканальной обработке, постобработке и гибкому многоканальному преобразованию (см. публикацию патентной заявки США № 2004-0049379, озаглавленную "Multi-Channel Audio Encoding and Decoding").
IV. Обработка канального расширения для многоканального звука
В типичной схеме кодирования для кодирования многоканального источника в кодере выполняют преобразование время-частота с использованием такого преобразования, как модулированное преобразование с перекрытием ("MLT") или дискретное косинусное преобразование ("DCT"), с соответствующим обратным преобразованием в декодере. Коэффициенты MLT или DCT для некоторых из каналов группируются в группу канала, и по всем каналам применяется линейное преобразование для получения каналов, которые должны быть закодированы. Если левый и правый каналы стереоисточника коррелированы, то они могут быть закодированы с использованием суммарно-разностного преобразования (также называемого M/S-кодированием или кодированием с выделением центрального и разностного каналов). Это устраняет корреляцию между этими двумя каналами, что в результате приводит к меньшему количеству битов, требуемых для их кодирования. Однако, при низких битрейтах разностный канал может быть не закодирован (что в результате приводит к потере стереообраза), или может страдать качество из-за тяжеловесного квантования обоих каналов.
Описанные способы и инструментальные средства обеспечивают требуемую альтернативу существующим схемам совместного кодирования (например, суммарно-разностному кодированию, стереоинтенсивному кодированию и т.д.). Вместо кодирования каналов суммы и разности для групп каналов (например, пары левого/правого, пары фронтального левого/фронтального правого, пары заднего левого/заднего правого или другие группы) описанные способы и инструментальные средства кодируют один или несколько комбинированных каналов (которые могут быть суммами каналов, ведущим главным компонентом после применения де-коррелирующего преобразования или некоторым другим комбинированным каналом) наряду с дополнительными параметрами для описания межканальной корреляции и мощности соответствующих физических каналов и обеспечения возможности восстановления физических каналов, которые поддерживают межканальную корреляцию и мощность соответствующих физических каналов. Другими словами, поддерживаются статистики второго порядка физических каналов. Такую обработку можно назвать обработкой канального расширения.
Например, использование комплексных преобразований обеспечивает возможность восстановления канала, которое поддерживает межканальную корреляцию и мощность соответствующих каналов. Для аппроксимации узкополосного сигнала с поддержкой статистик второго порядка достаточно обеспечить восстановление, которое поддерживает мощность и фазу отдельных каналов без отправки точной информации о коэффициентах корреляции или информации о фазе.
Описанные способы и инструментальные средства представляют незакодированные каналы как модифицированные версии закодированных каналов. Каналы, которые должны быть закодированы, могут быть фактическими, физическими каналами или преобразованными версиями физических каналов (с использованием, например, линейного преобразования, примененного к каждому сэмплу). Например, описанные способы и инструментальные средства обеспечивают возможность восстановления множества физических каналов с использованием одного закодированного канала и множества параметров. В одной реализации параметры включают в себя отношения мощностей (также называемых интенсивностью или энергией) между двумя физическими каналами и закодированным каналом на подполосной основе. Например, для кодирования сигнала, содержащего левый (L) и правый (R) стереоканалы, отношениями мощностей являются L/M и R/M, где М является мощностью закодированного канала ("суммарного" или "моно" канала), L является мощностью левого канала, и R является мощностью правого канала. Хотя кодирование с канальным расширением может использоваться для всех диапазонов частот, это не требуется. Например, для нижних частот кодер может закодировать оба канала канального преобразования (например, c использованием суммы и разности), в то время как для верхних частот кодер может закодировать канал суммы и множество параметров.
Описанные варианты осуществления могут значительно уменьшить битрейт, требуемый для кодирования многоканального источника. Параметры для модификации каналов занимают небольшую долю общего битрейта, оставляя большую долю битрейта для кодирования комбинированных каналов. Например, для двухканального источника, если кодирование параметров занимает 10% доступного битрейта, то 90% битов могут быть использованы для кодирования комбинированного канала. Во многих случаях это существенная экономия по кодированию обоих каналов, даже после учета межканальных зависимостей.
Каналы могут быть восстановлены при отношении восстановленный канал/закодированный канал, отличном от отношения 2:1, описанного выше. Например, декодер может восстанавливать левый и правый каналы и центральный канал из единого закодированного канала. Другие конфигурации также возможны. Кроме того, параметры могут определяться различными способами. Например, параметры могут определяться на некоторой основе, отличной от подполосной основы.
A. Комплексные преобразования и масштабные параметры/параметры формы
В описанных вариантах осуществления кодер формирует комбинированный канал и обеспечивает параметры в декодер для восстановления каналов, которые были использованы для формирования комбинированного канала. Декодер получает комплексные коэффициенты (при этом каждый имеет действительную составляющую и мнимую составляющую) для комбинированного канала с использованием прямого комплексного преобразования. Далее для восстановления физических каналов из комбинированного канала декодер масштабирует комплексные коэффициенты с использованием параметров, обеспеченных кодером. Например, декодер получает масштабные множители из параметров, обеспеченных кодером, и использует их для масштабирования комплексных коэффициентов. Комбинированный канал часто является каналом суммы (иногда называемым моно каналом), но также и может быть другая комбинация физических каналов. Комбинированный канал может быть каналом разности (например, разностью между левым и правым каналами) в случаях, когда физические каналы сдвинуты по фазе, и при суммировании каналы бы взаимно уничтожились.
Например, кодер отправляет канал суммы вместо левого и правого физических каналов и множество параметров в декодер, которые могут включать в себя один или несколько комплексных параметров. (Комплексные параметры получаются некоторым способом из одного или нескольких комплексных чисел, хотя комплексный параметр, отправленный кодером (например, отношение, которое включает в себя мнимую часть комплексного числа и действительную часть комплексного числа), может сам не являться комплексным числом.) Кодер также может отправлять только действительные параметры, из которых декодер может получать комплексные масштабные множители для масштабирования спектральных коэффициентов. (Кодер, как правило, не использует комплексное преобразование для кодирования самого комбинированного канала. Вместо этого кодер может использовать любой из нескольких способов кодирования для кодирования комбинированного канала).
На фиг.9 представлен упрощенный способ 900 кодирования с канальным расширением, выполняемый кодером. На этапе 910 кодер формирует один или несколько комбинированных каналов (например, каналы суммы). Далее, на этапе 920 кодер получает один или несколько параметров, которые должны быть отправлены вместе с комбинированным каналом в декодер. На фиг.10 представлен упрощенный способ 1000 декодирования с обращенным канальным расширением, выполняемый декодером. На этапе 1010 декодер принимает один или несколько параметров для одного или нескольких комбинированных каналов. Далее, на этапе 1020 декодер с использованием параметров масштабирует коэффициенты комбинированного канала. Например, декодер получает комплексные масштабные множители из параметров и использует эти масштабные множители для масштабирования коэффициентов.
После преобразования время-частота в кодере, спектр каждого канала обычно разделяется на подполосы. В описанных вариантах осуществления кодер может определять различные параметры для различных подполос частот, и декодер может масштабировать коэффициенты в полосе комбинированного канала для соответствующей полосы в восстановленном канале с использованием одного или нескольких параметров, обеспеченных кодером. В конфигурации кодирования, где левый и правый каналы должны быть восстановлены из одного закодированного канала, каждый коэффициент в подполосе для каждого из левого и правого каналов представляется масштабированной версией подполосы в закодированном канале.
Например, на фиг.11 представлено масштабирование коэффициентов в полосе 1110 комбинированного канала 1120 во время восстановления канала. Декодер использует один или несколько параметров, обеспеченных кодером, для получения масштабированных коэффициентов в соответствующих подполосах для левого канала 1230 и правого канала 1240, восстанавливаемых декодером.
В одной реализации у каждой подполосы в каждом из левого и правого каналов есть масштабный параметр и параметр формы. Параметр формы может быть определен кодером и отправлен в декодер, или о параметре формы может быть сделано предположение посредством взятия спектральных коэффициентов в одном месте с теми, которые кодируются. Кодер представляет все частоты в одном канале с использованием масштабированной версии спектра из одного или нескольких закодированных каналов. Комплексное преобразование (содержащее действительную часть комплексного числа и мнимую часть комплексного числа) используют так, чтобы можно было поддерживать межканальные статистики второго порядка каналов для каждой подполосы. Поскольку закодированные каналы являются линейным преобразованием фактических каналов, то нет необходимости отправлять параметры для всех каналов. Например, если P каналов закодированы с использованием N каналов (где N<P), то нет необходимости отправлять параметры для всех P каналов. Подробная информация по масштабным параметрам и параметрам формы предоставлена ниже в разделе V.
Параметры могут изменяться со временем, так как изменяются отношения мощностей между физическими каналами и комбинированным каналом. Соответственно, параметры для полос частот в кадре могут быть определены на покадровой основе или некоторой другой основе. В описанных вариантах осуществления параметры для текущей полосы в текущем кадре кодируются в дифференциальной форме на основе параметров из других частотных диапазонов и/или других кадров.
Декодер выполняет прямое комплексное преобразование для получения комплексных спектральных коэффициентов комбинированного канала. Далее он использует параметры, отправленные в битовом потоке (например, отношения мощностей и отношение мнимой части к действительной части для кросс-корреляции или нормированную корреляционную матрицу) для масштабирования спектральных коэффициентов. Выходные данные комплексного масштабирования отправляют в фильтр постобработки. Выходные данные этого фильтра масштабируют и суммируют для восстановления физических каналов.
Нет необходимости выполнять кодирование с канальным расширением для всех полос частот или для всех временных блоков. Например, кодирование с канальным расширением можно адаптивно включать или выключать на подполосной основе, на поблочной основе или на некоторой другой основе. Соответственно, кодер может выбирать выполнение этой обработки, когда это целесообразно или полезно так делать в других отношениях. Оставшиеся полосы или блоки могут быть обработаны посредством общепринятой декорреляцией канала, без декорреляции или с использованием других способов.
Достижимые комплексные масштабные множители в описанных вариантах осуществления ограничены значениями в пределах определенных границ. Например, в описанных вариантах осуществления параметры кодируются в логарифмической области, и значения ограничены величиной возможной кросс-корреляции между каналами.
Каналы, которые могут быть восстановлены из комбинированного канала с использованием комплексных преобразований, не ограничены парами левых и правых каналов, также комбинированные каналы не ограничены комбинациями левого и правого каналов. Например, комбинированные каналы могут представлять два, три или большее количество физических каналов. Каналы, восстановленные из комбинированных каналов, могут быть группами, например, задний-левый/задний-правый, задний-левый/левый, задний-правый/правый, левый/центральный, правый/центральный и левый/центральный/правый. Другие группы также возможны. Восстановленные каналы могут все быть восстановлены с использованием комплексных преобразований, или с использованием комплексных преобразований могут быть восстановлены некоторые каналы, в то время как для других они не используются.
B. Интерполяция параметров
Кодер может выбирать опорные точки для определения в них точных параметров и интерполировать параметры между этими опорными точками. Интервал времени между опорными точками и количество опорных точек могут быть фиксированными или меняться в зависимости от контента и/или решений со стороны кодера. Когда опорная точка выбрана в точке времени t, кодер может использовать эту опорную точку для всех частотных диапазонов в спектре. В качестве альтернативы, кодер для разных частотных диапазонов может выбирать опорные точки в разных точках времени.
Фиг.12 является графическим сравнением фактических отношений мощностей и отношений мощностей, интерполированных исходя из отношений мощностей в опорных точках. В примере, представленном на фиг.12, посредством интерполяции сглаживают вариации в отношениях мощностей (например, между опорными точками 1200 и 1202, 1202 и 1204, 1204 и 1206 и 1206 и 1208), что может помочь избежать искажений из-за часто меняющихся отношений мощностей. Кодер может включать или выключать интерполяцию, или не интерполировать параметры вообще. Например, кодер может выбирать интерполяцию параметров, когда отношения мощностей постепенно изменяются со временем, или выключать интерполяцию, когда параметры не очень изменяются от кадра к кадру (например, между опорными точками 1208 и 1210 на фиг.12), или когда параметры изменяются настолько быстро, что интерполяция обеспечила бы неточное представление параметров.
C. Подробное пояснение
Общее линейное канальное преобразование может быть записано как Y=AX, где X - набор из L векторов коэффициентов из P каналов (матрица размерности P×L), A - матрица P×P канального преобразования, и Y - набор из L преобразованных векторов из P каналов, которые должны быть закодированы (матрица размерности P×L). L (размерность вектора) является размером полосы для заданного подкадра, который обрабатывают посредством алгоритма линейного канального преобразования. Если кодер кодирует подмножество N из P каналов в Y, то это может быть выражено как Z=BX, где вектор Z является матрицей N×L, и B является матрицей N×P, сформированной из N строк матрицы Y, соответствующих N каналам, которые должны быть закодированы. Восстановление из N каналов включает в себя еще одно матричное умножение с матрицей C после кодирования вектора Z для получения W=CQ (Z), где Q представляет квантование вектора Z. После подстановки Z получаем уравнение W=CQ(BX). При предположении о незначительности шума квантования, W=CBX. C может быть выбрана соответствующим образом так, чтобы поддерживать межканальные статистики второго порядка между вектором X и W. Это может быть представлено в форме уравнения как WW*=CBXX* B* C*=XX*, где XX* является симметрической матрицей P×P.
Так как XX* является симметрической матрицей P×P, то у нее существует P(P+1)/2 степеней свободы. Если N>=(P+1)/2, то можно найти такую матрицу C P×N, что уравнение будет выполнено. Если N<(P+1)/2, то для его решения необходима дополнительная информация. Если это имеет место, то можно использовать комплексные преобразования для нахождения других решений, которые удовлетворяют некоторым ограничениям.
Например, если X является комплексным вектором и C является комплексной матрицей, то можно попытаться найти такую C, что Re(CBXX*B*C*)=Re(XX*). Согласно этому уравнению, для соответствующей комплексной матрицы C действительная часть симметрической матрицы XX* равна действительной части симметрического произведения матриц CBXX* B* C*.
Пример 1: Для случая, когда М=2 и N=1, BXX* B* является просто действительной скалярной матрицей (L×1), называемой a. Будем решать уравнения, представленные на фиг.13. Если B0=B1=β (которая является некоторой константой), то ограничение на фиг.14 выполнено. Решая, мы получим значения, представленные на фиг.15, для |C0|, |C1| и |C0||C1|cos(φ01). Кодер отправляет |C0| и |C1|. Далее можно получить решения с использованием ограничения, представленного на фиг.16. Из фиг.15 должно быть ясно, что эти величины являются, по существу, отношениями мощностей L/M и R/M. Знак в ограничении, представленном на фиг.16, может быть использован для контроля знака фазы так, чтобы он соответствовал мнимой части XX*. Это обеспечивает возможность вычислять φ01, но не фактические значения. Для вычисления точных значений, делается еще одно предположение о том, что угол моно канала для каждого коэффициента остается неизменным, как представлено в выражении на фиг.17. Для поддержания этого достаточно, чтобы |C0|sinφ0 + |C1|sinφ1=0, в результате чего получаем φ0 и φ1, представленные на фиг.18.
С использованием ограничения, представленного на фиг.16, можно вычислять действительную и мнимую части этих двух масштабных множителей. Например, действительная часть этих двух масштабных множителей может быть найдена посредством вычисления |C0|cosφ0 и |C1|cosφ1 соответственно, как показано на фиг.19. Мнимая часть этих двух масштабных множителей может быть найдена посредством вычисления |C0|sinφ0 и |C1|sinφ1 соответственно, как показано на фиг.20.
Соответственно, после того, как кодер отправит значения комплексных масштабных множителей, декодер может восстановить два отдельных канала, которые поддерживают межканальные характеристики второго порядка исходных, физических каналов, и эти два восстановленных канала поддерживают надлежащую фазу закодированного канала.
Пример 2: В Примере 1, хотя вычисляется мнимая часть межканальных статистик второго порядка (как показано на фиг.20), в декодере поддерживается только действительная часть, единственная, восстанавливаемая из единого моно источника. Однако, также может поддерживаться мнимая часть межканальных статистик второго порядка, если (в дополнение к комплексному масштабированию) для выходных данных предыдущего этапа, описанных в примере 1, будет выполнена постобработка для достижения дополнительного пространственного эффекта. Выходные данные пропускают через линейный фильтр, масштабируют и снова суммируют с выходными данными предыдущего этапа.
Предположим, что в дополнение к текущему сигналу из предыдущего анализа (W0 и W1 для этих двух каналов соответственно), у декодера есть сигнал эффекта - обработанная версия обоих доступных каналов (W0F и W1F, соответственно), как показано на фиг.21. Тогда общее преобразование может быть представлено, как показано на фиг.23, которое предполагает, что W0F = C0Z0F и W1F = C1ZOF. Покажем, что посредством следующей процедуры восстановления, представленной на фиг.22, декодер может поддерживать статистики второго порядка исходного сигнала. Декодер берет линейную комбинацию исходной и отфильтрованной версий W для создания сигнала S, который поддерживает статистики второго порядка X.
В Примере 1 было определено, что можно выбрать комплексные константы C0 и C1 так, чтобы они соответствовали действительной части межканальных статистик второго порядка, посредством отправки двух параметров (например, отношений мощностей левый-к-моно (L/M) и правый-к-моно (R/M)). Если кодер отправляет еще один параметр, то могут поддерживаться все межканальные статистики второго порядка многоканального источника.
Например, кодер может отправлять дополнительный, комплексный параметр, который представляет отношение мнимого-к-действительному кросс-корреляции между этими двумя каналами для поддержания всех межканальных статистик второго порядка источника с двумя каналами. Предположим, что корреляционная матрица задана посредством RXX, как определено на фиг.24, где U является ортонормированной матрицей комплексных собственных векторов, и Λ является диагональной матрицей собственных значений. Отметим, что это разложение должно существовать для любой симметрической матрицы. Для любой достижимой корреляционной матрицы мощности собственные значения также должны быть действительными. Это разложение обеспечивает возможность найти комплексное преобразование Карунена-Лева ("KLT"). KLT использовалось для создания де-коррелированых источников для сжатия. Здесь требуется выполнить обратную операцию, которая заключается в том, чтобы взять некоррелированые источники и создавать требуемую корреляцию. KLT вектора X задается посредством U*, так как U*UΛU*U = Λ, диагональная матрица. Мощностью в Z является α. Следовательно, если мы выберем преобразование такое, как
Figure 00000001
и предположим, что W0F и W1F имеют одинаковую мощность с W0 и W1 соответственно и не коррелированы с ними, то посредством процедуры восстановления на фиг.23 или фиг.22 генерируем требуемую корреляционную матрицу для конечных выходных данных. Практически, кодер отправляет отношения мощностей |C0| и |C1| и отношение мнимого-к-действительному
Figure 00000002
Декодер может восстановить нормированную версию матрицы кросс-корреляции (как показано на фиг.25). Декодер может далее вычислить θ и найти собственные значения и собственные векторы, и прийти к заданному преобразованию.
Из-за взаимоотношения между |C0| и |C1|, их значения не могут быть независимыми. Следовательно, кодер квантует их совместно или условно. Это относится к обоим примерам 1 и 2.
Возможны также другие параметризации, например, посредством отправки из кодера в декодер непосредственно нормированной версии матрицы мощности, где нормировка может быть выполнена посредством геометрического среднего мощностей, как показано на фиг.26. Теперь кодер может отправлять только первую строку матрицы, что является достаточным, так как произведение диагоналей равно 1. Однако теперь декодер масштабирует собственные значения, как показано на фиг.27.
Для непосредственного представления U и Λ возможна другая параметризация. Можно показать, что U может быть разложена в последовательность поворотов Гивенса. Каждый поворот Гивенса может быть представлен углом. Кодер передает углы поворотов Гивенса и собственные значения.
Кроме того, обе параметризации могут включать в себя любой дополнительный произвольный предповорот V и, тем не менее, генерировать идентичную корреляционную матрицу, так как VV*=I, где I является единичной матрицей. Соответственно, отношения, представленные на фиг.28, будут выполняться для любого произвольного поворота V. Например, декодер выбирает предповорот так, что величина фильтрованного сигнала, входящего в каждый канал, является идентичной, как представлено на фиг.29. Декодер может выбрать ω так, что отношения на фиг.30 выполняются.
После того как матрица, представленная на фиг.31, известна, декодер может выполнить восстановление, как описано выше, для получения каналов W0 и W1. Далее декодер получает W0F и W1F (сигналы эффекта) с применением линейного фильтра к W0 и W1. Например, декодер использует фазовый фильтр и может взять выходные данные в любом из отводов фильтра для получения сигналов эффекта. (Для получения дополнительной информации по использованию фазовых фильтров см. M. R. Schroeder and B. F. Logan, "Colorless' Artificial Reverberation," 12th Ann. Meeting of the Audio Eng'g Soc, 18 pp. (1960)). Уровень сигнала, который добавляют как постобработку, задан в матрице, представленной на фиг.31.
Фазовый фильтр может быть представлен как каскад других фазовых фильтров. В зависимости от величины реверберации, которая требуется для точного моделирования источника, могут быть взяты выходные данные из любого из фазовых фильтров. Этот параметр также может быть отправлен на основе источника, подкадра или полосы. Например, могут быть взяты выходные данные первого, второго или третьего этапа в каскаде фазовых фильтров.
Посредством взятия выходных данных из фильтра, масштабирования их и добавления их обратно к восстановленному оригиналу, декодер может поддерживать межканальные статистики второго порядка. Хотя при анализе делаются определенные предположения относительно мощности и структуры корреляции в сигнале эффекта, такие предположения не всегда вполне выполняются на практике. Для улучшения этих предположений можно использовать дополнительную обработку и лучшую аппроксимацию. Например, если у фильтрованных сигналов мощность больше требуемой, то фильтрованный сигнал может быть масштабирован, как показано на фиг.32, так, чтобы его мощность была правильной. Это обеспечивает поддержание правильной мощности, если мощность слишком большая. На фиг.33 представлено вычисление для определения того, превышает ли мощность порог.
Иногда могут быть случаи, когда сигнал в двух объединяемых физических каналах сдвинут по фазе, и, соответственно, если используется суммирующее кодирование, то матрица будет сингулярной. В таких случаях может быть ограничена максимальная норма матрицы. Этот параметр (порог), ограничивающий максимальное масштабирование матрицы, также можно отправлять в битовом потоке на основе источника, полосы или подкадра.
Как и в примере 1, при анализе в этом примере предполагается, что B0=B1=β. Однако для получения сходных результатов для любого преобразования можно использовать идентичные принципы алгебры.
V. Кодирование с канальным расширением с другими кодирующими преобразованиями
Способы кодирования с канальным расширением и инструментальные средства, описанные в разделе IV выше, могут использоваться в комбинации с другими способами и инструментальными средствами. Например, кодер может использовать преобразования основного кодирования, преобразования кодирования с частотным расширением (например, преобразования кодирования по перцепционному сходству с расширением полосы) и преобразования кодирования с канальным расширением. (Кодирование с частотным расширением описано в разделе V.A., ниже). В кодере эти преобразования могут быть выполнены в модуле основного кодирования, модуле кодирования с частотным расширением, отдельном от модуля основного кодирования, и модуле кодирования с канальным расширением, отдельном от модуля основного кодирования и модуля кодирования с частотным расширением. Либо, другие преобразования могут быть выполнены в разнообразных комбинациях внутри идентичного модуля.
A. Краткий обзор кодирования с частотным расширением
Этот раздел является кратким обзором способов кодирования с частотным расширением и инструментальных средств, используемых в некоторых кодерах и декодерах для кодирования спектральных данных верхних частот как функции данных основной полосы частот в спектре (иногда называемого частотное кодирование по перцепционному сходству с расширением полосы или кодирование по перцепционному сходству в широком смысле).
Кодирование спектральных коэффициентов для передачи в выходном битовом потоке в декодер может расходовать относительно большую долю доступного битрейта. Следовательно, на низких битрейтах кодер может выбрать кодирование сокращенного количества коэффициентов посредством кодирования основной полосы частот в пределах ширины полосы пропускания спектральных коэффициентов и представления коэффициентов вне основной полосы частот как масштабированных и имеющих форму версий коэффициентов основной полосы частот.
На фиг.34 изображен обобщенный модуль 3400, который может быть использован в кодере. Изображаемый модуль 3400 принимает набор спектральных коэффициентов 3415. Следовательно, на низких битрейтах кодер может выбрать кодирование сокращенного количества коэффициентов: основной полосы частот в пределах ширины полосы пропускания спектральных коэффициентов 3415, как правило, в нижнем конце спектра. Спектральные коэффициенты вне основной полосы частот называются спектральными коэффициентами "расширенной полосы". Разделение на основную полосу частот и расширенную полосу частот выполняют в секции 3420 разделения на основную полосу/расширенную полосу. В этой секции также может быть выполнено разделение на подполосы (например, для подполос расширенной полосы частот).
Чтобы избежать искажений (например, приглушенный звук или звук, пропущенный через фильтр нижних частот) в восстановленном звуке, спектральные коэффициенты расширенной полосы частот представлены как имеющий форму шум, имеющие форму версии других частотных составляющих или комбинация обоих. Спектральные коэффициенты расширенной полосы частот могут быть разделены на несколько подполос (например, из 64 или 128 коэффициентов), которые могут быть неперекрывающимися или перекрывающимися. Даже при том, что фактический спектр может несколько отличаться, это кодирование с расширенной полосой обеспечивает эффект восприятия, сходный с оригинальным.
Секция 3420 разделения на основную полосу и расширенную полосу выводит спектральные коэффициенты 3425 основной полосы частот, спектральные коэффициенты расширенной полосы частот и дополнительную информацию (которая может быть сжата), описывающую, например, ширину основной полосы частот и отдельные размеры и количество подполос расширенной полосы частот.
В примере, представленном на фиг.34, кодер кодирует коэффициенты и дополнительную информацию (3435) в модуле 3430 кодирования. Кодер может включать в себя отдельные энтропийные кодеры для спектральных коэффициентов основной полосы частот и расширенной полосы (частот) и/или использовать различные способы энтропийного кодирования для кодирования различных категорий коэффициентов. Соответствующий декодер, как правило, будет использовать комплементарные способы декодирования. (Для представления другого возможного осуществления, на фиг.36 представлены отдельные модули декодирования для коэффициентов основной полосы частот и расширенной полосы частот).
Кодер расширенной полосы может кодировать подполосу с использованием двух параметров. Один параметр (называемый масштабным параметром) используется для представления общей мощности в полосе. Другой параметр (называемый параметром формы) используется для представления формы спектра в пределах полосы.
На Фиг.35 представлен иллюстративный способ 3500 для кодирования каждой подполосы расширенной полосы частот в кодере расширенной полосы. Кодер расширенной полосы вычисляет масштабный параметр на этапе 3510 и параметр формы на этапе 3520. Каждая подполоса, закодированная кодером расширенной полосы, может быть представлена как произведение масштабного параметра и параметра формы.
Например, масштабный параметр может быть среднеквадратичным значением коэффициентов в пределах текущей подполосы. Его находят посредством извлечения квадратного корня из среднего значения квадратов всех коэффициентов. Среднее значение квадратов находят посредством суммирования квадратов всех коэффициентов в подполосе и деления на количество коэффициентов.
Параметр формы может быть вектором смещения, который определяет нормированную версию доли спектра, которая уже была закодирована (например, доля спектральных коэффициентов основной полосы частот, закодированных посредством кодера основной полосы частот), нормированным вектором белого шума или вектором для спектральной формы из фиксированной кодовой книги. Вектор смещения, который определяет другую долю спектра, полезен в звуке, так как, как правило, существуют гармонические компоненты в тональных сигналах, которые повторяются по всему спектру. Использование кодовой книги шума или некоторой другой фиксированной кодовой книги может способствовать кодированию с низким битрейтом компонентов, которые плохо представлены в закодированной в основной полосе частот доле спектра.
Некоторые кодеры обеспечивают возможность модификации векторов для лучшего представления спектральных данных. Некоторые возможные модификации включают в себя линейное или нелинейное преобразование вектора, или представление вектора как комбинации двух или нескольких других исходных или модифицированных векторов. В случае комбинации векторов модификация может включать в себя взятие одной или нескольких частей одного вектора и объединение ее с одной или несколькими частями других векторов. При использовании модификации вектора, отправляют биты для сообщения декодеру о том, как сформировать новый вектор. Несмотря на дополнительные биты, при модификации для представления спектральных данных расходуется меньше битов, чем при кодировании фактической формы сигнала.
Кодеру расширенной полосы нет необходимости кодировать отдельный масштабный множитель на каждую подполосу расширенной полосы частот. Вместо этого кодер расширенной полосы может представлять масштабный параметр для подполос как функцию частоты, например посредством кодирования набора коэффициентов полиномиальной функции, что приводит к представлению масштабных параметров расширенных подполос как функции их частоты. Кроме того, кодер расширенной полосы может закодировать дополнительные значения, характеризующие форму для расширенной полосы. Например, кодер расширенной полосы может закодировать значения, определяющие смещение или расширение части основной полосы частот, указываемые вектором движения. В таком случае параметр формы кодируют как набор значений (например, определяющих положение, смещение и/или расширение) для лучшего представления формы расширенной подполосы относительно вектора из закодированной основной полосы частот, фиксированной кодовой книги или вектора белого шума.
Параметры масштаба и формы, которые кодируют каждую подполосу расширенной подполосы частот оба могут быть векторами. Например, расширенные подполосы могут быть представлены как векторное произведение scale(f)•shape(f) во временной области фильтра с частотной характеристикой scale(f) и возбуждения с частотной характеристикой shape(f). Это кодирование может быть в виде фильтра кодирования с линейным предсказанием (LPC) и возбуждения. Фильтр LPC является представлением низшего порядка масштаба и формы расширенной подполосы, и возбуждение представляет характеристики шума и/или основного тона расширенной подполосы. Возбуждение можно получать из анализа закодированной на основной полосе частот части спектра и идентификации части закодированного на основной полосе частот спектра, спектра фиксированной кодовой книги или белого шума, которая соответствует закодированному возбуждению. Посредством этого расширенная подполоса представляется как часть закодированного по основной подполосе частот спектра, но сопоставление выполняется во временной области.
И опять, согласно фиг.35, на этапе 3530 кодер расширенной полосы ищет спектральные коэффициенты основной полосы частот для подобной полосы вне спектральных коэффициентов основной полосы частот, имеющие сходную форму с текущей подполосой расширенной полосы частот (например, с использованием сравнения по методу минимальной среднеквадратичной ошибки для нормированной версии каждой части основной полосы частот). На этапе 3532 кодер расширенной полосы проверяет, достаточно ли близки по форме эта сходная полоса вне спектральных коэффициентов основной полосы частот и текущая расширенная полоса частот (например, значение по методу минимальной среднеквадратичной ошибки ниже, чем предварительно выбранный порог). Если так, то на (этапе) 3534 кодер расширенной полосы определяет вектор, указывающий на эту сходную полосу частот спектральных коэффициентов основной полосы частот. Вектор может быть начальным положением коэффициентов в основной полосе частот. Также можно использовать другие способы (например, проверку тональности по сравнению с нетональностью) для того, чтобы увидеть, достаточно ли близка по форме сходная полоса частот спектральных коэффициентов основной полосы частот с текущей расширенной полосой частот.
Если никакая достаточно сходная часть основной полосы частот не найдена, то кодер расширенной полосы обращается к фиксированной кодовой книге (3540) спектральных форм, чтобы представить текущую подполосу. Если же она найдена (3542), то кодер расширенной полосы использует ее индекс в кодовой книге как параметр формы на этапе 3544. Иначе, на этапе 3550 кодер расширенной полосы представляет форму текущей подполосы как нормированный вектор белого шума.
В качестве альтернативы, кодер расширенной полосы может принять решение касаемо того, как спектральные коэффициенты могут быть представлены посредством некоторого другого процесса принятия решения.
Кодер расширенной полосы может сжимать масштабные параметры и параметры формы (например, с использованием кодирования с предсказанием, квантования и/или энтропийного кодирования). Например, масштабный параметр может быть закодирован с предсказанием на основе предыдущей расширенной подполосы. Для многоканального звука, параметры масштабирования для подполосы могут быть предсказаны, исходя из предыдущей подполосы в канале. Масштабные параметры также могут быть предсказаны по всем каналам, исходя из нескольких других подполос, исходя из спектра основной полосы частот или исходя из предыдущих входных звуковых блоков, наряду с другими вариациями. Выбор предсказания может быть сделан в зависимости от того, на какой предыдущей подполосе частот (например, в пределах идентичной расширенной полосы частот, канала или сегмента (входного блока)) обеспечены более высокие корреляции. Кодер расширенной полосы может квантовать масштабные параметры с использованием равномерного или неравномерного квантования, и результирующее квантованное значение может быть закодировано энтропийным кодированием. Кодер расширенной полосы частот также может использовать кодирование с предсказанием (например, исходя из предыдущей подполосы), квантование и энтропийное кодирование для параметров формы.
Если размеры подполосы являются переменными для заданной реализации, то это обеспечивает возможность задавать размер подполос для повышения эффективности кодирования. Часто, можно объединять подполосы со сходными характеристиками с очень небольшим влиянием на качество. Подполосы с крайне изменчивыми данными могут быть лучше представлены, если разделить подполосу. Однако меньшие подполосы требуют большее количество подполос (и, как правило, большее количество битов) для представления идентичных спектральных данных, чем большие подполосы. Для принятия сбалансированного решения, кодер может выбирать подполосы на основе измерений качества и информации о битрейте.
Декодер демультиплексирует битовый поток с разделением на основную полосу частот и расширенную полосу частот и декодирует эти полосы (например, в декодере основной полосы и декодере расширенной полосы) с использованием соответствующих способов декодирования. Декодер также может выполнять дополнительные функции.
На фиг.36 представлены аспекты аудиодекодера 3600 для декодирования битового потока, cгенерированного кодером, который использует кодирование с частотным расширением и отдельные модули кодирования для данных основной полосы частот и данных расширенной полосы частот. На фиг.36, данные основной полосы частот и данные расширенной полосы частот в закодированном битовом потоке 3605 декодируются в декодере 3640 основной полосы и декодере 3650 расширенной полосы, соответственно. Декодер 3640 основной полосы декодирует спектральные коэффициенты основной полосы с использованием общепринятого декодирования кодека основной полосы. Декодер FF 50 расширенной полосы декодирует данные расширенной полосы, в том числе посредством копирования по частям спектральных коэффициентов основной полосы частот, на которые указывает вектор движения параметра формы, и масштабированием посредством масштабного коэффициента масштабного параметра. Спектральные коэффициенты основной полосы частот и расширенной полосы частот объединяют в единый спектр, который преобразуют посредством обратного преобразования 3680 для восстановления звукового сигнала.
В разделе IV описаны способы представления всех частот в незакодированном канале с использованием масштабированной версии спектра из одного или нескольких закодированных каналов. Кодирование с частотным расширением отличается тем, что коэффициенты расширенной полосы представляются с использованием масштабированных версий коэффициентов основной полосы. Однако эти способы можно использовать вместе, например, посредством выполнения кодирования с частотным расширением в комбинированном канале и другими способами, как описано ниже.
B. Примеры кодирования с канальным расширением с другими кодирующими преобразованиями
Фиг.37 является схемой, представляющей аспекты иллюстративного кодера 3700, который использует основное преобразование 3710 время-частота (T/F), преобразование 3720 с частотным расширением T/F и преобразование 3730 с канальным расширением T/F для обработки звука 3705 многоканального источника. (Другие кодеры могут использовать различные комбинации или другие преобразования в дополнение к представленным).
Преобразование T/F может быть различным для каждого из этих трех преобразований.
Для основного преобразования, после многоканального преобразования 3712, кодирование 3715 содержит кодирование спектральных коэффициентов. Если также используется кодирование с канальным расширением, то нет необходимости кодировать, по меньшей мере, некоторые диапазоны частот, по меньшей мере, для некоторых из закодированных каналов многоканального преобразования. Если также используется кодирование с частотным расширением, то нет необходимости кодировать, по меньшей мере, некоторые диапазоны частот. Для преобразования с частотным расширением, кодирование 3715 содержит кодирование масштабных параметров и параметров формы для полос в подкадре. Если также используется кодирование с канальным расширением, то может не быть необходимости отправлять эти параметры для некоторых диапазонов частот для некоторых из каналов. Для преобразования с канальным расширением, кодирование 3715 содержит кодирование параметров (например, отношений мощностей и комплексного параметра) для поддержания точной межканальной корреляции для полос в подкадре. Для простоты, кодирование представлено как формируемое в едином модуле 3715 кодирования. Однако различные задачи кодирования могут выполняться в различных модулях кодирования.
Фиг.38, фиг.39 и фиг.40 являются схемами, представляющими аспекты декодеров 3800, 3900 и 4000, которые декодируют битовый поток, например, битовый поток 3795, генерируемый иллюстративным кодером 3700. В декодерах, 3800, 3900 и 4000, некоторые модули (например, энтропийного декодирования, обратного квантования/обратного взвешивания, дополнительной постобработки), которые присутствуют в некоторых декодерах, не изображены для простоты. Кроме того, в некоторых случаях представленные модули могут быть переупорядочены, объединены или разделены разными способами. Например, хотя представлены пути без разветвлений, пути обработки могут в принципе разветвляться на два или несколько путей обработки.
В декодере 3800 основные спектральные коэффициенты обрабатываются посредством обратного основного многоканального преобразования 3810, обратного основного преобразования 3820 T/F, прямого преобразования 3830 с частотным расширением T/F, обработки 3840 с частотным расширением, обратного преобразования 3850 с частотным расширением T/F, прямого преобразования 3860 с канальным расширением T/F, обработки 3870 с канальным расширением и обратного преобразования 3880 с канальным расширением T/F для генерации восстановленного звука 3895.
Однако, практически, этот декодер может быть неприемлемо сложным. Кроме того, преобразование с канальным расширением является комплексным, в то время как другие два не являются. Следовательно, другие декодеры могут быть настроены следующими способами: преобразование T/F для кодирования с частотным расширением может быть ограничено до (1) основного преобразования T/F или (2) действительной части преобразования с канальным расширением T/F.
Это обеспечивает возможность таких конфигураций как те, которые показаны на фиг.39 и фиг.40.
На фиг.39, декодер 3900 обрабатывает основные спектральные коэффициенты посредством обработки 3910 с частотным расширением, обратного многоканального преобразования 3920, обратного основного преобразования 3930 T/F, прямого преобразования 3940 с канальным расширением, обработки 3950 с канальным расширением и обратного преобразования 3960 с канальным расширением T/F для генерации восстановленного звука 3995.
На фиг.40 декодер 4000 обрабатывает основные спектральные коэффициенты посредством обратного многоканального преобразования 4010, обратного основного преобразования 4020 T/F, вещественной части прямого преобразования 4030 с канальным расширением, обработки 4040 с частотным расширением, извлечения мнимой части прямого преобразования 4050 с канальным расширением, обработки 4060 с канальным расширением и обратного преобразования 4070 с канальным расширением T/F для генерации восстановленного звука 4095.
Любая из этих конфигураций может быть использована, и декодер может динамически менять используемую конфигурацию. В одном осуществлении, преобразованием, используемым для основного кодирования и кодирования с частотным расширением, является MLT, которое является действительной частью MCLT (модулированное комплексное преобразование с перекрытием), и преобразованием, используемым для преобразования с канальным расширением является MCLT. Однако у этих двух преобразований различные размеры подкадра.
Каждый коэффициент MCLT в подкадре имеет базисную функцию, которая покрывает этот подкадр. Так как каждый подкадр перекрывается только с соседними двумя подкадрами, то для нахождения точных коэффициентов MCLT для заданного подкадра необходимы только коэффициенты MLT из текущего подкадра, предыдущего подкадра и следующего подкадра.
Преобразования могут использовать блоки преобразования идентичного размера, или блоки преобразования могут быть разных размеров для разных видов преобразований. Блоки преобразований разных размеров в преобразовании основного кодирования и преобразовании кодирования с частотным расширением могут быть требуемыми, например, когда преобразование кодирования с частотным расширением может улучшить качество посредством использования блоков меньшого окна времени. Однако с изменением размеров преобразования при основном кодировании, кодирование с частотным расширением и канальное кодирование привносят существенную сложность в кодер и в декодер. Соответственно, может потребоваться совместное использование размеров преобразования между, по меньшей мере, некоторыми из видов преобразования.
В качестве примера, если преобразование основного кодирования и преобразование кодирования с частотным расширением совместно используют идентичный размер блока преобразования, то преобразование кодирования с канальным расширением может иметь размер блока преобразования, независимый от размера блока преобразования кодирования с частотным расширением/основного кодирования. В этом примере декодер может содержать восстановление частоты, за которым следует преобразование, обратное основному кодированию. Далее, декодер выполняет прямое комплексное преобразование для получения спектральных коэффициентов для масштабирования закодированного, комбинированного канала. Комплексное преобразование канального кодирования использует свой собственный размер блока преобразования, независимый от других двух преобразований. Декодер восстанавливает физические каналы в частотной области из закодированного, комбинированного канала (например, канала суммы) с использованием полученных спектральных коэффициентов, и выполняет обратное комплексное преобразование для получения сэмплов временной области из восстановленных физических каналов.
В качестве другого примера, если преобразование основного кодирования и преобразование кодирования с частотным расширением имеют различные размеры блоков преобразования, то преобразование кодирования канала может иметь размер блока преобразования, идентичный размеру блока преобразования кодирования с частотным расширением. В этом примере декодер может содержать преобразование, обратное основному кодированию, за которым следует восстановление частоты. Декодер выполняет обратное канальное преобразование с использованием размера блока преобразования, идентичного тому, который использовался для восстановления частоты. Далее, декодер выполняет прямое преобразование комплексной компоненты для получения спектральных коэффициентов.
В прямом преобразовании декодер может вычислять мнимую часть коэффициентов MCLT коэффициентов преобразования с канальным расширением, исходя из действительной части. Например, декодер может вычислять мнимую часть в текущем блоке, по действительным частям из некоторых полос (например, трех полос или больше) из предыдущего блока, некоторых полос (например, двух полос) из текущего блока и некоторых полос (например, трех полос или больше) из следующего блока.
Отображение действительной части в мнимую часть включает в себя взятие скалярного произведения между базисом обратного модулированного DCT с базисным вектором прямого модулированного дискретного синусного преобразования (DST). Вычисление мнимой части для заданного подкадра включает в себя нахождение всех коэффициентов DST в подкадре. Для базисных векторов DCT из предыдущего подкадра, текущего подкадра и следующего подкадра это не может быть 0. Кроме того, только базисные вектора DCT частоты, примерно сходной с коэффициентом DST, который мы пытаемся найти, обладают значительной мощностью. Если размеры подкадра для предыдущего, текущего и следующего подкадра все являются одинаковыми, то мощность значительно понижается для частот, отличных от той, для которой мы пытаемся найти коэффициент DST. Следовательно, с учетом коэффициентов DCT для нахождения коэффициентов DST для заданного подкадра может быть найдено решение с невысоким уровнем сложности.
А именно, мы можем вычислить Xs = A*Xc(-1) + B*Xc(0) + C*Xc(1), где Xc(-1), Xc(O) и Xc(1) обозначают коэффициенты DCT из предыдущего, текущего и следующего блока и Xs представляют коэффициенты DST текущего блока:
1) Предварительно вычислить матрицу A, B и C для размера/формы различных окон,
2) Сравнить с порогом матрицу A, B и C так, чтобы значения, значительно меньшие, чем пиковые значения, были заменены 0, сводя их к разреженным матрицам,
3) Выполнить умножение матриц с использованием только ненулевых элементов матриц. В приложениях, где необходим набор комплексных фильтров, это является быстрым способом получения мнимой из действительной части, или наоборот, без непосредственного вычисления мнимой части.
Декодер восстанавливает физические каналы в частотной области из закодированного, комбинированного канала (например, канала суммы) с использованием полученных масштабных множителей, и выполняет обратное комплексное преобразование для получения сэмплов временной области из восстановленных физических каналов.
В результате этого подхода существенно сокращается сложность по сравнению с подходом решения "в лоб", который включает в себя обратное DCT и прямое DST.
C. Сокращение вычислительной сложности при частотном/канальном кодировании
Частотное/канальное кодирование может быть выполнено с преобразованиями основного кодирования, преобразованиями частотного кодирования и преобразованиями канального кодирования. Переключение между преобразованиями на поблочной или покадровой основе может улучшить качество восприятия, но это требует больших вычислительных затрат. В некоторых сценариях (например, устройства с низкой вычислительной мощностью обработки) такая высокая сложность может быть неприемлемой. Одно решение для сокращения сложности состоит в том, чтобы кодер всегда выбирал преобразования основного кодирования и для частотного и для канального кодирования. Однако, этот подход накладывает ограничения на качество даже для устройств воспроизведения без ограничений по вычислительной мощности. Другое решение состоит в том, чтобы кодер функционировал без ограничений на преобразования, и декодер отображал параметры частотного/канального кодирования в область преобразования основного кодирования, если требуется низкая сложность. Если выполнять отображение надлежащим образом, то при втором решении посредством обоснованной сложности можно достигнуть хорошего качества для устройств с высокой вычислительной мощностью и хорошего качества для устройств с низкой вычислительной мощностью. Отображение параметров в область основного преобразования из других областей может быть выполнено без дополнительной информации из битового потока или с дополнительной информацией, помещенной в битовый поток кодером для улучшения рабочих характеристик отображения.
D. Улучшение отслеживания энергии частотного кодирования при переходе между различными размерами окна
Как указано в разделе V.B, кодер частотного кодирования может использовать преобразования основного кодирования, преобразования частотного кодирования (например, преобразования кодирования по перцепционному сходству с расширенной полосой) и преобразования канального кодирования. Однако, когда частотное кодирование переключают между двумя различными преобразованиями, может потребоваться дополнительное внимание начальной точке частотного кодирования. Это потому, что сигнал в одном из преобразований, например, в основном преобразовании, обычно является сигналом с ограниченной полосой частот, причем полосы со свободным проходом определяются последним закодированным коэффициентом. Однако такая четкая граница, при отображении в другое преобразование, может стать нечеткой. В одном осуществлении посредством точного задания начальной точки частотный кодер удостоверяется в том, что мощность сигнала не теряется. А именно,
1) Для каждой полосы частотный кодер вычисляет мощность ранее (например, посредством основного кодирования) сжатого сигнала - E1.
2) Для каждой полосы частотный кодер вычисляет мощность исходного сигнала - E2.
3) Если (E2-E1)>T, где T - предопределенный порог, кодер частоты маркирует эту полосу как начальную точку.
4) Частотный кодер начинает работу в данной точке.
5) Частотный кодер передает начальную точку в декодер. Соответственно, частотный кодер при переключении между различными преобразованиями определяет разность мощностей и передает начальную точку соответственно.
VI. Параметры формы и масштабные параметры для кодирования с частотным расширением
A. Векторы смещения для кодеров, использующих модулированное кодирование DCT
Как упомянуто в разделе V выше, частотное кодирование по перцепционному сходству с расширением полосы включает в себя определение параметров формы и масштабных параметров для полос частот в пределах окон времени. Параметры формы определяют часть основной полосы частот (как правило, нижнюю полосу), которая будет выступать в роли основы для коэффициентов кодирования в расширенной полосе частот (как правило, более высокой полосе, чем основная полоса частот). Например, коэффициенты в определенной части основной полосы частот могут быть масштабированы и затем применены к расширенной полосе частот.
Как показано на фиг.41, для модуляции сигнала канала во время t может быть использован вектор смещения d. На фиг.41 изображены представления векторов смещения для двух звуковых блоков 4100 и 4110 во время t0 и t1 соответственно. Хотя в примере, представленном на фиг.41, подразумеваются концепции кодирования с частотным расширением, этот принцип может быть применен к другим схемам модуляции, которые не связаны с кодированием с частотным расширением.
В примере, представленном на фиг.41, звуковые блоки 4100 и 4110 содержат N подполос в пределах от 0 до N-1, причем подполосы в каждом блоке разделены на низкочастотную основную полосу и высокочастотную расширенную полосу. Для звукового блока 4100 изображенный вектор смещения d0 является смещением между подполосами m0 и n0. Аналогично, для звукового блока 4110 изображенный вектор смещения d1 является смещением между подполосами m1 и n1.
Так как имеется в виду, что вектор смещения точно описывает форму коэффициентов расширенной полосы, можно предположить, что потребуется обеспечить максимальную гибкость в векторе смещения. Однако ограничение значений векторов смещения в некоторых ситуациях приводит к улучшенному качеству восприятия. Например, кодер может выбрать подполосы m и n так, что каждый из них всегда будет четной или нечетной подполосой, при этом количество подполос, покрываемых вектором смещения d, всегда будет четным. В кодере, который использует модулированное дискретное косинусное преобразование (DCT), возможно лучшее восстановление, когда количество подполос, покрываемых вектором смещения d, четно.
При выполнении частотного кодирования по перцепционному сходству с расширенной полосой с использованием модулированных преобразований DCT, для генерации модулированной косинусоидальной волны для расширенной полосы частот модулируют косинусоидальную волну из основной полосы частот. Если количество подполос, покрываемых вектором смещения d является четным, то модуляция приводит к точному восстановлению. Однако, если количество подполос, покрываемых вектором смещения d, является нечетным, то модуляция приводит к искажению в восстановленном звуке. Соответственно, с ограничением векторов смещения для покрытия только четного количества подполос (и с жертвой некоторой гибкости d), можно достичь лучшего общего качества звука, избегая искажения в модулированном сигнале. Соответственно, в примере, представленном на фиг.41, каждый из векторов смещения в звуковых блоках 4100 и 4110 покрывает четное количество подполос.
B. Опорные точки для масштабных параметров
Когда в частотном кодировании окна меньше, чем в основном кодере, битрейт имеет тенденцию увеличиваться. Это потому что, несмотря на то, что окна меньше, тем не менее важно сохранять разрешение по частоте на довольно высоком уровне во избежание неприятных искажений.
На фиг.42 изображена упрощенная конфигурация звуковых блоков различных размеров. У окна времени 4210 большая продолжительность, чем у окон времени 4212-4222, но у каждого окна времени количество полос частот идентично.
Галочки на фиг.42 указывают на опорные точки для каждой полосы частот. Как изображено на фиг.42, количество опорных точек может меняться между полосами, как и могут меняться временные расстояния между опорными точками. (Для простоты, не все окна, полосы или опорные точки показаны на фиг.42). В этих опорных точках определены масштабные параметры. Масштабные параметры для идентичных полос в других окнах времени могут затем быть интерполированы из параметров в этих опорных точках.
В качестве альтернативы, опорные точки могут быть определены другими способами.
После описания и иллюстрации принципов этого изобретения согласно описанным вариантам осуществления, следует осознавать, что описанные варианты осуществления могут быть изменены в конфигурации и деталях, не отступая от этих принципов. Следует понимать, что программы, процессы или способы, описанные в этом документе, не связаны с каким-либо конкретным типом вычислительного окружения и не ограничены им, если не указано иное. Разнообразные типы универсальных или специализированных вычислительных окружений могут быть использованы со способами, описанными в этом документе, или выполнять операции в соответствии с ними. Элементы описанных вариантов осуществления, представленные в программном обеспечении, могут быть реализованы в аппаратных средствах и наоборот.
Ввиду многих возможных вариантов осуществления, к которым могут быть применены принципы этого изобретения, авторы заявляют своим изобретением все такие варианты осуществления, которые могут находиться в пределах объема и существа, определяемых следующей формулой изобретения и ее эквивалентами.

Claims (20)

1. Выполняемый в аудиокодере машиннореализуемый способ кодирования данных многоканального звука, содержащий этапы на которых
принимают данные многоканального звука, причем эти данные многоканального звука содержат группу из множества исходных каналов;
выполняют кодирование с канальным расширением в отношении этих данных многоканального звука, причем при этом кодировании с канальным расширением:
формируют комбинированный канал из упомянутой группы из множества исходных каналов,
кодируют комбинированный канал и
определяют множество параметров для представления отдельных исходных каналов упомянутой группы в качестве модифицированных версий закодированного комбинированного канала, причем это множество параметров содержит параметр, представляющий отношение мнимого-к-действительному кросс-корреляции между этими отдельными исходными каналами, и
выполняют кодирование с частотным расширением в отношении данных многоканального звука, при этом при кодировании с частотным расширением:
разделяют полосы частот в данных многоканального звука на группу основной полосы частот и группу расширенной полосы частот и
кодируют звуковые коэффициенты в группе расширенной полосы частот на основе звуковых коэффициентов в группе основной полосы частот.
2. Способ по п.1, в котором упомянутое множество параметров дополнительно содержит отношения мощностей для, по меньшей мере, двух исходных каналов упомянутой группы.
3. Способ по п.2, дополнительно содержащий этапы, на которых
отправляют закодированный комбинированный канал и упомянутое множество параметров в аудиодекодер и
отправляют данные кодирования с частотным расширением в аудиодекодер,
причем упомянутые закодированный комбинированный канал, множество параметров и данные кодирования с частотным расширением обеспечивают восстановление в аудиодекодере, по меньшей мере, двух из упомянутого множества исходных каналов.
4. Способ по п.3, в котором упомянутое множество параметров обеспечивает возможность восстановления упомянутых, по меньшей мере, двух исходных каналов упомянутой группы для поддержания кросс-корреляции и мощности соответствующих исходных каналов.
5. Способ по п.1, в котором аудиокодер содержит модуль основного преобразования, модуль преобразования с частотным расширением и модуль преобразования с канальным расширением.
6. Способ по п.1, дополнительно содержащий этап, на котором выполняют основное кодирование в отношении упомянутых данных многоканального звука.
7. Способ по п.6, дополнительно содержащий этап, на котором выполняют многоканальное преобразование в отношении закодированных основным кодированием данных многоканального звука.
8. Машиночитаемый носитель информации, хранящий машиноисполняемые инструкции для предписания запрограммированному ими компьютеру выполнять способ по п.1.
9. Выполняемый в аудиодекодере машиннореализуемый способ декодирования данных многоканального звука, содержащий этапы, на которых
принимают закодированные данные многоканального звука, причем эти закодированные данные многоканального звука содержат данные кодирования с канальным расширением и данные кодирования с частотным расширением; и
восстанавливают множество звуковых каналов с использованием упомянутых данных кодирования с канальным расширением и данных кодирования с частотным расширением,
причем данные кодирования с канальным расширением содержат:
комбинированный канал для упомянутого множества звуковых каналов и
множество параметров для представления отдельных каналов упомянутого множества звуковых каналов в качестве модифицированных версий комбинированного канала, причем это множество параметров содержит комплексный параметр, представляющий отношение мнимого-к-действительному кросс-корреляции между двумя из упомянутого множества звуковых каналов.
10. Способ по п.9, в котором упомянутое множество параметров дополнительно содержит множество отношений мощностей, представляющих мощность упомянутых отдельных каналов относительно комбинированного канала, при этом данные кодирования с частотным расширением содержат масштабные параметры и параметры формы для представления коэффициентов расширенной полосы в качестве масштабированных версий коэффициентов основной полосы.
11. Способ по п.10, в котором при восстановлении выполняют обработку с частотным расширением с использованием данных кодирования с частотным расширением, за которой следует обработка с канальным расширением с использованием данных кодирования с канальным расширением.
12. Способ по п.10, в котором при восстановлении выполняют действительную часть прямого преобразования с канальным расширением, за чем следует обработка с частотным расширением.
13. Способ по п.12, в котором при восстановлении дополнительно получают мнимую часть прямого преобразования с канальным расширением после обработки с частотным расширением.
14. Способ по п.12, в котором прямое преобразование с канальным расширением представляет собой модулированное комплексное преобразование с перекрытием, содержащее действительную часть и мнимую часть.
15. Способ по п.12, в котором действительная часть прямого преобразования с канальным расширением используется для обработки с частотным расширением.
16. Способ по п.10, в котором при восстановлении:
используют комплексное преобразование в качестве преобразования с канальным расширением и
используют некомплексное преобразование в качестве преобразования с частотным расширением.
17. Способ по п.10, в котором масштабные параметры и параметры формы для представления коэффициентов расширенной полосы игнорируются для одного или более диапазонов частот в одном или более из упомянутых отдельных каналов.
18. Способ по п.10, в котором комбинированный канал представляет собой канал суммы.
19. Способ по п.10, в котором комбинированный канал представляет собой канал разности.
20. Машиночитаемый носитель информации, хранящий машиноисполняемые инструкции для предписания запрограммированному ими компьютеру выполнять способ по п.9.
RU2008129802/09A 2006-01-20 2007-01-03 Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой RU2422987C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/336,606 2006-01-20
US11/336,606 US7831434B2 (en) 2006-01-20 2006-01-20 Complex-transform channel coding with extended-band frequency coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2011108927/08A Division RU2555221C2 (ru) 2006-01-20 2007-01-03 Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой

Publications (2)

Publication Number Publication Date
RU2008129802A RU2008129802A (ru) 2010-01-27
RU2422987C2 true RU2422987C2 (ru) 2011-06-27

Family

ID=38286603

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2011108927/08A RU2555221C2 (ru) 2006-01-20 2007-01-03 Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
RU2008129802/09A RU2422987C2 (ru) 2006-01-20 2007-01-03 Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2011108927/08A RU2555221C2 (ru) 2006-01-20 2007-01-03 Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой

Country Status (10)

Country Link
US (2) US7831434B2 (ru)
EP (1) EP1974470A4 (ru)
JP (1) JP2009524108A (ru)
KR (1) KR101143225B1 (ru)
CN (2) CN101371447B (ru)
AU (2) AU2007208482B2 (ru)
CA (1) CA2637185C (ru)
HK (1) HK1176455A1 (ru)
RU (2) RU2555221C2 (ru)
WO (1) WO2007087117A1 (ru)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2573248C2 (ru) * 2013-10-29 2016-01-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ измерения спектра информационных акустических сигналов телерадиовещания и устройство для его осуществления
RU2586876C2 (ru) * 2011-10-17 2016-06-10 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
RU2628898C1 (ru) * 2013-09-12 2017-08-22 Долби Интернешнл Аб Неравномерное квантование параметров для усовершенствованной связи
RU2638756C2 (ru) * 2016-05-13 2017-12-15 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
RU2670797C2 (ru) * 2013-07-11 2018-10-25 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
US10163449B2 (en) 2013-04-05 2018-12-25 Dolby International Ab Stereo audio encoder and decoder
US10257516B2 (en) 2012-06-27 2019-04-09 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for coding efficiency
RU2777660C2 (ru) * 2013-07-11 2022-08-08 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US8599925B2 (en) * 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
WO2007104882A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
RU2483368C2 (ru) * 2007-11-06 2013-05-27 Нокиа Корпорейшн Кодер
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
CN101896968A (zh) * 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
EP2229677B1 (en) * 2007-12-18 2015-09-16 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101449434B1 (ko) * 2008-03-04 2014-10-13 삼성전자주식회사 복수의 가변장 부호 테이블을 이용한 멀티 채널 오디오를부호화/복호화하는 방법 및 장치
US8473288B2 (en) 2008-06-19 2013-06-25 Panasonic Corporation Quantizer, encoder, and the methods thereof
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US8117039B2 (en) * 2008-12-15 2012-02-14 Ericsson Television, Inc. Multi-staging recursive audio frame-based resampling and time mapping
JP5423684B2 (ja) * 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
JP4709928B1 (ja) * 2010-01-21 2011-06-29 株式会社東芝 音質補正装置及び音質補正方法
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
BR112013033900B1 (pt) 2011-06-30 2022-03-15 Samsung Electronics Co., Ltd Método para gerar um sinal estendido de largura de banda para decodificação de áudio
JP5975243B2 (ja) * 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
KR101276049B1 (ko) * 2012-01-25 2013-06-20 세종대학교산학협력단 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
EP2815532B1 (en) * 2012-02-13 2019-08-07 Intel Corporation Audio receiver and sample rate converter without pll or clock recovery
HUE033069T2 (hu) * 2012-03-29 2017-11-28 ERICSSON TELEFON AB L M (publ) Harmonikus hangjelek átalakítási kódolása/dekódolása
RU2643644C2 (ru) * 2012-07-09 2018-02-02 Конинклейке Филипс Н.В. Кодирование и декодирование аудиосигналов
CN104704825B (zh) 2012-08-21 2019-08-30 Emc 公司 分段图像数据的无损压缩
PL3584791T3 (pl) * 2012-11-05 2024-03-18 Panasonic Holdings Corporation Urządzenie do kodowania mowy/dźwięku oraz sposób kodowania mowy/dźwięku
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
US9425757B2 (en) * 2013-05-15 2016-08-23 Infineon Technologies Ag Apparatus and method for controlling an amplification gain of an amplifier, and a digitizer circuit and microphone assembly
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
BR112016004299B1 (pt) 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
CN110634494B (zh) 2013-09-12 2023-09-01 杜比国际公司 多声道音频内容的编码
TWI713018B (zh) 2013-09-12 2020-12-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
JP6243540B2 (ja) 2013-09-16 2017-12-06 サムスン エレクトロニクス カンパニー リミテッド スペクトル符号化方法及びスペクトル復号化方法
KR102315920B1 (ko) * 2013-09-16 2021-10-21 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
GB2524333A (en) * 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
CN105632505B (zh) * 2014-11-28 2019-12-20 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
CN105072588B (zh) * 2015-08-06 2018-10-16 北京大学 全线性无纠错保护的多媒体数据组播方法
CN105844592A (zh) * 2016-01-14 2016-08-10 辽宁师范大学 高光谱图像的小波域全变分混合去噪方法
CA2987808C (en) 2016-01-22 2020-03-10 Guillaume Fuchs Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling
WO2017132366A1 (en) 2016-01-26 2017-08-03 Dolby Laboratories Licensing Corporation Adaptive quantization
WO2018001500A1 (en) * 2016-06-30 2018-01-04 Huawei Technologies Duesseldorf Gmbh Apparatuses and methods for encoding and decoding a multichannel audio signal
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US11227615B2 (en) * 2017-09-08 2022-01-18 Sony Corporation Sound processing apparatus and sound processing method
EP4336497A3 (en) * 2018-07-04 2024-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal encoder, multisignal decoder, and related methods using signal whitening or signal post processing
CN110535497B (zh) * 2018-08-10 2022-07-19 中兴通讯股份有限公司 Csi发送、接收方法及其装置、通信节点及存储介质
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
US20210224024A1 (en) * 2020-01-21 2021-07-22 Audiowise Technology Inc. Bluetooth audio system with low latency, and audio source and audio sink thereof
WO2022164229A1 (ko) * 2021-01-27 2022-08-04 삼성전자 주식회사 오디오 처리 장치 및 방법
CN113282552B (zh) * 2021-06-04 2022-11-22 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
US11854558B2 (en) * 2021-10-15 2023-12-26 Lemon Inc. System and method for training a transformer-in-transformer-based neural network model for audio data
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Family Cites Families (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US728395A (en) * 1900-05-24 1903-05-19 Henry Howard Evaporating apparatus.
US4251688A (en) 1979-01-15 1981-02-17 Ana Maria Furner Audio-digital processing system for demultiplexing stereophonic/quadriphonic input audio signals into 4-to-72 output audio signals
DE3171990D1 (en) * 1981-04-30 1985-10-03 Ibm Speech coding methods and apparatus for carrying out the method
CA1253255A (en) 1983-05-16 1989-04-25 Nec Corporation System for simultaneously coding and decoding a plurality of signals
GB2205465B (en) * 1987-05-13 1991-09-04 Ricoh Kk Image transmission system
US4907276A (en) * 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
US5539829A (en) 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
JP2844695B2 (ja) * 1989-07-19 1999-01-06 ソニー株式会社 信号符号化装置
JP2921879B2 (ja) 1989-09-29 1999-07-19 株式会社東芝 画像データ処理装置
JP2560873B2 (ja) 1990-02-28 1996-12-04 日本ビクター株式会社 直交変換符号化復号化方法
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP3033156B2 (ja) 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
US5559900A (en) * 1991-03-12 1996-09-24 Lucent Technologies Inc. Compression of signals for perceptual quality by selecting frequency bands having relatively high energy
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP2693893B2 (ja) 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3343962B2 (ja) 1992-11-11 2002-11-11 ソニー株式会社 高能率符号化方法及び装置
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SG43996A1 (en) 1993-06-22 1997-11-14 Thomson Brandt Gmbh Method for obtaining a multi-channel decoder matrix
TW272341B (ru) 1993-07-16 1996-03-11 Sony Co Ltd
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
KR960012475B1 (ko) 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277677B2 (ja) 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
US5635930A (en) * 1994-10-03 1997-06-03 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus and recording medium
ATE214524T1 (de) 1994-11-04 2002-03-15 Koninkl Philips Electronics Nv Kodierung und dekodierung eines breitbandigen digitalen informationssignals
US5629780A (en) 1994-12-19 1997-05-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Image data compression having minimum perceptual error
US5701389A (en) 1995-01-31 1997-12-23 Lucent Technologies, Inc. Window switching based on interblock and intrablock frequency band energy
JP3307138B2 (ja) 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US6940840B2 (en) 1995-06-30 2005-09-06 Interdigital Technology Corporation Apparatus for adaptive reverse power control for spread-spectrum communications
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5960390A (en) 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
DE19549621B4 (de) 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5686964A (en) 1995-12-04 1997-11-11 Tabatabai; Ali Bit rate control mechanism for digital image and video data compression
US5687191A (en) 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US5682152A (en) 1996-03-19 1997-10-28 Johnson-Grace Company Data compression using adaptive bit allocation and hybrid lossless entropy encoding
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5822370A (en) 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE19628292B4 (de) 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
DE19628293C1 (de) 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
US5969750A (en) 1996-09-04 1999-10-19 Winbcnd Electronics Corporation Moving picture camera with universal serial bus interface
US5745275A (en) 1996-10-15 1998-04-28 Lucent Technologies Inc. Multi-channel stabilization of a multi-channel transmitter through correlation feedback
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
KR100488537B1 (ko) 1996-11-20 2005-09-30 삼성전자주식회사 듀얼모드오디오디코더의재현방법및필터
FI970266A (fi) 1997-01-22 1998-07-23 Nokia Telecommunications Oy Menetelmä solukkoradiojärjestelmän ohjauskanavien kantaman pidentämiseksi ja solukkoradiojärjestelmä
DE69805583T2 (de) 1997-02-08 2003-01-23 Matsushita Electric Ind Co Ltd Quantisierungsmatrix für die codierung von stand- und bewegtbildern
JP3143406B2 (ja) 1997-02-19 2001-03-07 三洋電機株式会社 音声符号化方法
KR100265112B1 (ko) 1997-03-31 2000-10-02 윤종용 디브이디 디스크와 디브이디 디스크를 재생하는 장치 및 방법
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
US6741965B1 (en) * 1997-04-10 2004-05-25 Sony Corporation Differential stereo using two coding techniques
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730129C2 (de) 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6185253B1 (en) 1997-10-31 2001-02-06 Lucent Technology, Inc. Perceptual compression and robust bit-rate control system
US6959220B1 (en) 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
WO1999043110A1 (en) 1998-02-21 1999-08-26 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd A fast frequency transformation techique for transform audio coders
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6249614B1 (en) 1998-03-06 2001-06-19 Alaris, Inc. Video compression and decompression using dynamic quantization and/or encoding
US6353807B1 (en) 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3998330B2 (ja) * 1998-06-08 2007-10-24 沖電気工業株式会社 符号化装置
DE19840835C2 (de) 1998-09-07 2003-01-09 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Entropiecodieren von Informationswörtern und Vorrichtung und Verfahren zum Decodieren von Entropie-codierten Informationswörtern
SE519552C2 (sv) 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6300888B1 (en) 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6611212B1 (en) 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6658162B1 (en) 1999-06-26 2003-12-02 Sharp Laboratories Of America Image coding method using visual optimization
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6496798B1 (en) 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US7548851B1 (en) 1999-10-12 2009-06-16 Jack Lau Digital multimedia jukebox
US6836761B1 (en) 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
WO2001033726A1 (en) 1999-10-30 2001-05-10 Stmicroelectronics Asia Pacific Pte Ltd. Channel coupling for an ac-3 encoder
US6738074B2 (en) 1999-12-29 2004-05-18 Texas Instruments Incorporated Image compression system and method
US6499010B1 (en) 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2000250291A1 (en) 2000-02-10 2001-08-20 Telogy Networks, Inc. A generalized precoder for the upstream voiceband modem channel
EP1175030B1 (en) 2000-07-07 2008-02-20 Nokia Siemens Networks Oy Method and system for multichannel perceptual audio coding using the cascaded discrete cosine transform or modified discrete cosine transform
DE10041512B4 (de) 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6760698B2 (en) 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
AU2002211881A1 (en) * 2000-10-13 2002-04-22 Science Applications International Corporation System and method for linear prediction
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6463408B1 (en) 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7062445B2 (en) 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
US20040062401A1 (en) * 2002-02-07 2004-04-01 Davis Mark Franklin Audio channel translation
US7254239B2 (en) 2001-02-09 2007-08-07 Thx Ltd. Sound system and method of sound reproduction
MXPA03009357A (es) 2001-04-13 2004-02-18 Dolby Lab Licensing Corp Escalamiento en el tiempo y escalamiento en el tono de alta calidad de senales de audio.
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
CA2447911C (en) 2001-05-25 2011-07-05 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030215013A1 (en) 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7072726B2 (en) 2002-06-19 2006-07-04 Microsoft Corporation Converting M channels of digital audio data into N channels of digital audio data
DE60317203T2 (de) 2002-07-12 2008-08-07 Koninklijke Philips Electronics N.V. Audio-kodierung
JP2005533271A (ja) 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
EP1527442B1 (en) * 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
EP1543307B1 (en) * 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
KR20040060718A (ko) * 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
KR101169596B1 (ko) * 2003-04-17 2012-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US6790759B1 (en) * 2003-07-31 2004-09-14 Freescale Semiconductor, Inc. Semiconductor device with strain relieving bump design
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
EP1735774B1 (en) * 2004-04-05 2008-05-14 Koninklijke Philips Electronics N.V. Multi-channel encoder
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
EP1749296B1 (en) * 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
DE602004020765D1 (de) 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
US20060259303A1 (en) 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
EP1949693B1 (en) * 2005-10-12 2012-04-18 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
US20070168197A1 (en) * 2006-01-18 2007-07-19 Nokia Corporation Audio coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11140405B2 (en) 2011-10-17 2021-10-05 Kabushiki Kaisha Toshiba Decoding method, encoding method, and transmission apparatus for efficient coding
RU2681359C1 (ru) * 2011-10-17 2019-03-06 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
US10271061B2 (en) 2011-10-17 2019-04-23 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for efficient coding
US9826247B2 (en) 2011-10-17 2017-11-21 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for efficient coding
US11039159B2 (en) 2011-10-17 2021-06-15 Kabushiki Kaisha Toshiba Encoding method and decoding method for efficient coding
US11153593B2 (en) 2011-10-17 2021-10-19 Kabushiki Kaisha Toshiba Decoding method, encoding method, and electronic apparatus for decoding/coding
RU2586876C2 (ru) * 2011-10-17 2016-06-10 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
US10602173B2 (en) 2011-10-17 2020-03-24 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for efficient coding
RU2681379C1 (ru) * 2011-10-17 2019-03-06 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
US11202075B2 (en) 2012-06-27 2021-12-14 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for coding efficiency
US10609376B2 (en) 2012-06-27 2020-03-31 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for coding efficiency
US10257516B2 (en) 2012-06-27 2019-04-09 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for coding efficiency
US11800111B2 (en) 2012-06-27 2023-10-24 Kabushiki Kaisha Toshiba Encoding method that encodes a first denominator for a luma weighting factor, transfer device, and decoding method
US10277900B2 (en) 2012-06-27 2019-04-30 Kabushiki Kaisha Toshiba Encoding device, decoding device, encoding method, and decoding method for coding efficiency
US10163449B2 (en) 2013-04-05 2018-12-25 Dolby International Ab Stereo audio encoder and decoder
US11631417B2 (en) 2013-04-05 2023-04-18 Dolby International Ab Stereo audio encoder and decoder
US10600429B2 (en) 2013-04-05 2020-03-24 Dolby International Ab Stereo audio encoder and decoder
US11297455B2 (en) 2013-07-11 2022-04-05 Dolby Laboratories Licensing Corporation Methods and apparatus for decoding encoded HOA signals
RU2777660C2 (ru) * 2013-07-11 2022-08-08 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
RU2817687C2 (ru) * 2013-07-11 2024-04-18 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
US10841721B2 (en) 2013-07-11 2020-11-17 Dolby Laboratories Licensing Corporation Methods and apparatus for decoding encoded HOA signals
RU2670797C9 (ru) * 2013-07-11 2018-11-26 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
RU2670797C2 (ru) * 2013-07-11 2018-10-25 Долби Интернэшнл Аб Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
US11863958B2 (en) 2013-07-11 2024-01-02 Dolby Laboratories Licensing Corporation Methods and apparatus for decoding encoded HOA signals
US10382876B2 (en) 2013-07-11 2019-08-13 Dolby Laboratories Licensing Corporation Method and apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US11540076B2 (en) 2013-07-11 2022-12-27 Dolby Laboratories Licensing Corporation Methods and apparatus for decoding encoded HOA signals
US11297533B2 (en) 2013-09-12 2022-04-05 Dolby International Ab Method and apparatus for audio decoding based on dequantization of quantized parameters
US10383003B2 (en) 2013-09-12 2019-08-13 Dolby International Ab Non-uniform parameter quantization for advanced coupling
RU2628898C1 (ru) * 2013-09-12 2017-08-22 Долби Интернешнл Аб Неравномерное квантование параметров для усовершенствованной связи
US11838798B2 (en) 2013-09-12 2023-12-05 Dolby International Ab Method and apparatus for audio decoding based on dequantization of quantized parameters
US10057808B2 (en) 2013-09-12 2018-08-21 Dolby International Ab Non-uniform parameter quantization for advanced coupling
US10694424B2 (en) 2013-09-12 2020-06-23 Dolby International Ab Non-uniform parameter quantization for advanced coupling
RU2573248C2 (ru) * 2013-10-29 2016-01-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ измерения спектра информационных акустических сигналов телерадиовещания и устройство для его осуществления
RU2638756C2 (ru) * 2016-05-13 2017-12-15 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
RU2813684C1 (ru) * 2023-07-13 2024-02-15 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство измерения спектра и кепстральных параметров информационных акустических сигналов телерадиовещания

Also Published As

Publication number Publication date
JP2009524108A (ja) 2009-06-25
EP1974470A1 (en) 2008-10-01
US20110035226A1 (en) 2011-02-10
WO2007087117A1 (en) 2007-08-02
AU2007208482A1 (en) 2007-08-02
CA2637185C (en) 2014-03-25
RU2011108927A (ru) 2012-09-20
KR20080093994A (ko) 2008-10-22
EP1974470A4 (en) 2010-12-15
RU2555221C2 (ru) 2015-07-10
AU2007208482B2 (en) 2010-09-16
CA2637185A1 (en) 2007-08-02
HK1176455A1 (zh) 2013-07-26
CN102708868B (zh) 2016-08-10
CN101371447A (zh) 2009-02-18
CN102708868A (zh) 2012-10-03
AU2010249173B2 (en) 2012-08-23
US7831434B2 (en) 2010-11-09
AU2010249173A1 (en) 2010-12-23
US9105271B2 (en) 2015-08-11
RU2008129802A (ru) 2010-01-27
KR101143225B1 (ko) 2012-05-21
US20070174062A1 (en) 2007-07-26
CN101371447B (zh) 2012-06-06

Similar Documents

Publication Publication Date Title
RU2422987C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
US7953604B2 (en) Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) Complex cross-correlation parameters for multi-channel audio
JP4676139B2 (ja) マルチチャネルオーディオのエンコーディングおよびデコーディング
JP5091272B2 (ja) オーディオの量子化および逆量子化
EP1649723B1 (en) Multi-channel synthesizer and method for generating a multi-channel output signal
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
US8249883B2 (en) Channel extension coding for multi-channel source
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
US7801735B2 (en) Compressing and decompressing weight factors using temporal prediction for audio data
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
MX2008009186A (en) Complex-transform channel coding with extended-band frequency coding

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150526