RU2654139C2 - Аудиокодирование в частотной области, поддерживающее переключение длины преобразования - Google Patents

Аудиокодирование в частотной области, поддерживающее переключение длины преобразования Download PDF

Info

Publication number
RU2654139C2
RU2654139C2 RU2016105704A RU2016105704A RU2654139C2 RU 2654139 C2 RU2654139 C2 RU 2654139C2 RU 2016105704 A RU2016105704 A RU 2016105704A RU 2016105704 A RU2016105704 A RU 2016105704A RU 2654139 C2 RU2654139 C2 RU 2654139C2
Authority
RU
Russia
Prior art keywords
coefficients
frequency domain
transform
signaling
inverse
Prior art date
Application number
RU2016105704A
Other languages
English (en)
Other versions
RU2016105704A (ru
Inventor
Саша ДИК
Кристиан ХЕЛЬМРИХ
Андреас ХЕЛЬЦЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105704A publication Critical patent/RU2016105704A/ru
Application granted granted Critical
Publication of RU2654139C2 publication Critical patent/RU2654139C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mathematical Physics (AREA)

Abstract

Изобретение относится к аудиокодированию в частотной области, поддерживающему переключение длины преобразования. Технический результат - обеспечение возможности поддержки дополнительной длины преобразования. Для этого коэффициенты частотной области соответствующего кадра передаются перемеженным образом независимо от сигнализации, сигнализирующей для кадров в отношении того, какая длина преобразования применяется в действительности, и дополнительно извлечение коэффициентов частотной области и извлечение множителей масштабирования функционируют независимо от сигнализации. Поэтому устаревшие аудиокодеры/аудиодекодеры в частотной области, не чувствительные к сигнализации, будут тем не менее иметь возможность функционирования без сбоев и с воспроизведением приемлемого качества. Одновременно, аудиокодеры/аудиодекодеры в частотной области, способные поддерживать дополнительную длину преобразования, будут предлагать даже лучшее качество, несмотря на обратную совместимость. Поскольку рассматриваются ухудшения эффективности кодирования из-за кодирования коэффициентов частотной области прозрачным для более старых декодеров образом, ухудшения носят сравнительно незначительный характер благодаря перемежению. 6 н. и 7 з.п. ф-лы, 5 ил., 2 табл.

Description

Настоящая заявка имеет отношение к аудиокодированию в частотной области, поддерживающему переключение длины преобразования.
Современные системы кодирования речи/аудиокодирования в частотной области, такие как кодек Opus/Celt IETF [1], MPEG-4 (HE-)AAC [2] или, в частности, MPEG-D xHE-AAC (USAC) [3], предлагают средства для кодирования аудиокадров с использованием либо одного длинного преобразования – длинного блока – или восьми последовательных коротких преобразований – коротких блоков – в зависимости от стационарности сигнала во времени.
Для некоторых аудиосигналов, таких как дождь или аплодисменты большой аудитории, кодирование ни с длинным, ни с коротким блоком не дает удовлетворительного качества при низких скоростях передачи битов. Это может быть объяснено плотностью выраженных переходных процессов в таких записях; кодирование только с длинными блоками может вызвать частое и слышимое размывание временной характеристики ошибки кодирования, также известное как опережающее эхо, тогда как кодирование только с короткими блоками является в общем неэффективным из-за увеличенных издержек данных, что приводит к спектральным провалам.
Соответственно, будет полезно иметь под рукой концепцию аудиокодирования в частотной области, которая поддерживает длины преобразования, которые также подходят для только что обозначенных видов аудиосигналов. Естественно, будет иметь смысл построить новый аудиокодек в частотной области, поддерживающий переключение между набором длин преобразования, который, среди прочего, охватывает некоторую желаемую длину преобразования, подходящую для некоторого вида аудиосигнала. Однако, получение аудиокодека в частотной области, применяемого на рынке, является непростой задачей. Хорошо известные кодеки уже доступны и часто используются. Соответственно, будет полезно иметь возможность иметь концепцию под рукой, которая обеспечивает существующим аудиокодекам в частотной области возможность расширения таким образом, чтобы дополнительно поддерживать желаемую, новую длину преобразования, но которая, тем не менее, сохраняет обратную совместимость с существующими кодерами и декодерами.
Соответственно, целью настоящего изобретения является предусмотреть такую концепцию, которая обеспечивает существующим аудиокодекам в частотной области возможность расширения обратно совместимым образом в сторону поддержки дополнительной длины преобразования, так чтобы переключаться между длинами преобразования, также включающими в себя эту новую длину преобразования.
Эта цель достигается объектом изобретения по независимым пунктам прилагаемой формулы изобретения.
Настоящее изобретение основано на обнаружении, что аудиокодек в частотной области может быть обеспечен возможностью дополнительной поддержки некоторой длины преобразования обратно совместимым образом, когда коэффициенты частотной области соответствующего кадра передаются перемеженным образом независимо от сигнализации, сигнализирующей для кадров о том, какая длина преобразования применяется в действительности, и когда дополнительно извлечение коэффициентов частотной области и извлечение множителей масштабирования функционируют независимо от сигнализации. Поэтому, устаревшие аудиокодеры/аудиодекодеры в частотной области, нечувствительные к сигнализации, будут тем не менее иметь возможность функционирования без сбоев и при этом воспроизводя приемлемое качество. Одновременно, аудиокодеры/аудиодекодеры в частотной области, отвечающие за переключение с/на дополнительно поддерживаемую длину преобразования, будут достигать даже лучшего качества, не смотря на обратную совместимость. Поскольку рассматриваются ухудшения эффективности кодирования из-за кодирования коэффициентов частотной области прозрачным для более старых декодеров образом, ухудшения носят сравнительно незначительный характер благодаря перемежению.
Предпочтительные реализации по настоящей заявке являются предметом формулы изобретения.
В частности, предварительные варианты осуществления по настоящей заявке описаны ниже относительно Фигур, среди которых
Фиг. 1 показывает схематичную блок-схему аудиодекодера в частотной области в соответствии с вариантом осуществления;
Фиг. 2 показывает схематичную блок-схему, иллюстрирующую функциональность обратного преобразователя по Фиг. 1;
Фиг. 3 показывает схематичную блок-схему, иллюстрирующую возможное смещение процесса фильтрации обратного TNS по Фиг. 2 в обратном направлении в соответствии с вариантом осуществления;
Фиг. 4 показывает возможность выбора окон при использовании разбиения преобразования для длинного старт-стопного окна в USAC в соответствии с вариантом осуществления; и
Фиг. 5 показывает блок-схему аудиокодера в частотной области согласно варианту осуществления.
Фиг. 1 показывает аудиодекодер в частотной области, поддерживающий переключение длины преобразования, в соответствии с вариантом осуществления по настоящей заявке. Аудиодекодер в частотной области по Фиг. 1 в общем указан с использованием ссылочного обозначения 10 и содержит блок 12 извлечения коэффициентов частотной области, блок 14 извлечения множителей масштабирования, обратный преобразователь 16 и блок 18 объединения. На их входе блок извлечения коэффициентов частотной области и блок 12 и 14 извлечения множителей масштабирования имеют доступ к входящему потоку 20 данных. Выходы блока 12 извлечения коэффициентов частотной области и блока 14 извлечения множителей масштабирования соединены с соответствующими входами обратного преобразователя 16. Выход обратного преобразователя 16, в свою очередь, соединен со входом блока 18 объединения. Последний выводит реконструированный аудиосигнал на выход 22 кодера 10.
Блок 12 извлечения коэффициентов частотной области выполнен с возможностью извлечения коэффициентов 24 частотной области кадров 26 аудиосигнала из потока 20 данных. Коэффициенты 24 частотной области могут быть MDCT-коэффициентами или могут принадлежать к некоторому другому преобразованию, такому как другое преобразование с перекрытием. Описанным дополнительно ниже образом, коэффициенты 24 частотной области, принадлежащие некоторому кадру 26, описывают спектр аудиосигнала в пределах соответствующего кадра 26 при варьирующемся спектро-временном разрешении. Кадры 26 представляют временные участки, на которые аудиосигнал последовательно подразделяется во времени. Собрав вместе коэффициенты 24 частотной области всех кадров, они представляют спектрограмму 28 аудиосигнала. Кадры 26 могут, например, иметь одинаковую длину. Из-за изменения вида аудиоконтента аудиосигнала во времени может быть невыгодным описывать спектр для каждого кадра 26 с помощью непрерывного спектро-временного разрешения посредством использования, например, преобразований, имеющих постоянную длину преобразования, которая протягивается, например, на продолжительность каждого кадра 26, т.е. содержит значения выборок в пределах этого кадра 26 аудиосигнала, так же как и выборки временной области, предшествующие и следующие за соответствующим кадром. Артефакты опережающего эхо могут, например, возникать в результате передачи с потерей спектра соответствующего кадра в виде коэффициентов 24 частотной области. Соответственно, дополнительно обозначенным ниже образом, коэффициенты 24 частотной области соответствующего кадра 26 описывают спектр аудиосигнала в пределах этого кадра 26 в переключаемом спектро-временном разрешении посредством переключения между разными длинами преобразования. Однако, поскольку рассматривается блок 12 извлечения коэффициентов частотной области, последнее обстоятельство прозрачно для него. Блок 12 извлечения коэффициентов частотной области функционирует независимо от любой сигнализации, сигнализирующей только что упомянутое переключение между разными спектро-временными разрешениями для кадров 26.
Блок 12 извлечения коэффициентов частотной области может использовать энтропийное кодирование для того, чтобы извлечь коэффициенты 24 частотной области из потока 20 данных. Например, блок извлечения коэффициентов частотной области может использовать контекстно-зависимое энтропийное декодирование, такое как арифметическое декодирование с переменным контекстом, для извлечения коэффициентов 24 частотной области из потока 20 данных с помощью присваивания, каждому из коэффициентов 24 частотной области, одинакового контекста независимо от вышеупомянутой сигнализации, сигнализирующей спектро-временное разрешение кадра 26, которому принадлежит соответствующий коэффициент частотной области. В качестве альтернативы и в качестве второго примера блок 12 извлечения может использовать декодирование Хаффмана и задать набор кодовых слов Хаффмана независимо от вышеуказанной сигнализации, точно определяющей разрешение кадра 26.
Существуют разные возможности для способа, которым коэффициенты 24 частотной области описывают спектрограмму 28. Например, коэффициенты 24 частотной области могут лишь представлять некоторый остаток предсказания. Например, коэффициенты частотной области могут представлять остаток предсказания, который, по меньшей мере частично, был получен посредством стереопредсказания из другого аудиосигнала, представляющего соответствующий аудиоканал, или понижающего микширования из многоканального аудиосигнала, которому принадлежит спектрограмма 28 сигнала. В качестве альтернативы, или дополнительно к остатку предсказания, коэффициенты 24 частотной области могут представлять суммарный (средний) или разностный (боковой) сигнал согласно парадигме M/S стерео [5]. К тому же, коэффициенты 24 частотной области могут быть подвергнуты временному ограничению шума.
Помимо этого, коэффициенты частотной области 12 квантуются, и для того, чтобы удержать ошибку квантования ниже психоакустического порога обнаружения (или маскирования), например, размер шага квантования спектрально варьируется таким образом, который управляется посредством соответствующих множителей масштабирования, ассоциированных с коэффициентами 24 частотной области. Блок 14 извлечения множителей масштабирования отвечает за извлечение множителей масштабирования из потока 20 данных.
Кратко приводя чуть больше сведений по переключению между разными спектро-временными разрешениями от кадра к кадру, отмечено нижеследующее. Как будет описано более подробно ниже, переключение между разными спектро-временными разрешениями будет указывать, что либо в пределах определенного кадра 26 все коэффициенты 24 частотной области принадлежат одному преобразованию, либо, что коэффициенты 24 частотной области некоторого кадра 26 в действительности принадлежат разным преобразованиям, таким как, например, два преобразования, длина преобразования которых составляет половину длины преобразования только что упомянутого одного преобразования. Вариант осуществления, описанный в дальнейшем по отношению к Фигурам, предполагает переключение между одним преобразованием с одной стороны и двумя преобразованиями с другой стороны, но по факту, переключение между одним преобразованием и более чем двумя преобразованиями, в принципе, будет иметь смысл, так же как с вариантами осуществления, приведенными ниже, являющимися легко переносимыми на такие альтернативные варианты осуществления.
Фиг. 1 иллюстрирует, с использованием штриховки, примерный случай, когда текущий кадр имеет тип, представленный двумя короткими преобразованиями, одно из которых было получено с использованием задней половины текущего кадра 26, и другое из которых было получено посредством преобразования передней (ведущей) половины текущего кадра 26 аудиосигнала. Из-за укороченной длины преобразования спектральное разрешение, при котором коэффициенты 24 частотной области описывают спектр кадра 26, уменьшено, а именно уменьшено наполовину в случае использования двух коротких преобразований, тогда как временное разрешение увеличено, а именно удвоено в настоящем случае. На Фиг. 1, например, коэффициенты 24 частотной области, показанные заштрихованными, должны принадлежать переднему (ведущему) преобразованию, тогда как незаштрихованные коэффициенты 24 частотной области должны принадлежать заднему (хвостовому) преобразованию. Спектрально совместно размещенные коэффициенты 24 частотной области, таким образом, описывают одну и ту же спектральную составляющую аудиосигнала в пределах кадра 26, но в немного разных моментах времени, а именно в двух последовательных окнах преобразования кадра с разбиением преобразования.
В потоке 20 данных, коэффициенты 24 частотной области передаются перемеженным образом, так чтобы спектрально соответствующие коэффициенты частотной области двух разных преобразований следовали сразу друг за другом. Даже другими словами, коэффициенты 24 частотной области кадра с разбитым преобразованием, т.е. кадра 26, для которого разбиение преобразования сигнализировано в потоке 20 данных, передаются так, чтобы если коэффициенты 24 частотной области, которые приняты из блока 12 извлечения коэффициентов частотной области, будут последовательно упорядочены таким образом, как если они были бы коэффициентами частотной области длинного преобразования, то они скомпонованы в этой последовательности перемеженным образом, так чтобы спектрально совместно размещенные коэффициенты 24 частотной области соседствовали непосредственно с друг с другом, и пары таких спектрально совместно размещенных коэффициентов 24 частотной области упорядочиваются в соответствии со спектральным/частотным порядком. Примечательно, что упорядоченная таким образом последовательность перемеженных коэффициентов 24 частотной области выглядит аналогичной последовательности коэффициентов 24 частотной области, полученной посредством одного длинного преобразования. Снова, поскольку рассматривается блок 12 извлечения коэффициентов частотной области, переключение между разными длинами преобразования или спектро-временными разрешениями в единицах кадров 26 является прозрачным для него, и соответственно, выбор контекста для энтропийного кодирования коэффициентов 24 частотной области контекстно-адаптивным образом приводит в результате в выбору того же контекста – независимо от текущего кадра, в действительности являющегося кадром с длинным преобразованием, или текущего кадра, имеющего тип с разбитым преобразованием, при том, что блок 12 извлечения не знает об этом. Например, блок 12 извлечения коэффициентов частотной области может выбрать контекст, который должен быть использован для некоторого коэффициента частотной области на основе уже кодированных/декодированных коэффициентов частотной области в спектрально-временной окрестности, причем эта спектрально-временная окрестность задана в перемеженном состоянии, изображенном на Фиг. 1. Это имеет нижеследующее последствие. Представим, что текущий кодированный/декодированный коэффициент 24 частотной области был частью переднего преобразования, указанного с использованием штриховки на Фиг. 1. Непосредственно спектрально смежным коэффициентом частотной области будет тогда в действительности коэффициент 24 частотной области того же переднего преобразования (т.е. заштрихованного на Фиг. 1). Тем не менее, однако, блок 12 извлечения коэффициентов частотной области использует для выбора контекста коэффициент 24 частотной области, принадлежащий к заднему преобразованию, а именно спектрально соседствующий коэффициент 24 частотной области (в соответствии с уменьшенным спектральным разрешением укороченного преобразования), предполагая, что последний будет непосредственным спектральным соседом одного длинного преобразования текущего коэффициента 24 частотной области. Аналогично, при осуществлении выбора контекста для коэффициента 24 частотной области заднего преобразования, блок 12 извлечения коэффициентов частотной области будет использовать в качестве непосредственного спектрального соседа коэффициент 24 частотной области, принадлежащий к переднему преобразованию и являющийся в действительности спектрально совместно размещенным с этим коэффициентом. В частности, порядок декодирования, заданный среди коэффициентов 24 текущего кадра 26, может возникнуть, например, от самой нижней частоты для самой высокой частоты. Аналогичные наблюдения являются достоверными в случае, когда блок 12 извлечения коэффициентов частотной области выполнен с возможностью энтропийного декодирования коэффициентов 24 частотной области текущего кадра 26 в группах/кортежах непосредственно последовательных коэффициентов 24 частотной области, когда упорядочены не обратно перемеженным образом. Вместо использования кортежа спектрально соседних коэффициентов 24 частотной области, принадлежащих только одному и тому же короткому преобразованию, блок 12 извлечения коэффициентов частотной области может выбрать контекст для некоторого кортежа смеси коэффициентов 24 частотной области, принадлежащих разным коротким преобразованиям на основании спектрально соседнего кортежа такой смеси коэффициентов 24 частотной области, принадлежащих к разным преобразованиям.
Из-за того факта, что, как указано выше, в перемеженном состоянии, результирующий спектр, который получен посредством двух коротких преобразований, кажется очень похожим со спектром, полученным посредством одного длинного преобразования, ухудшение энтропийного кодирования, возникающее в результате агностической операции блока 12 извлечения коэффициентов частотной области относительно переключения длины преобразования, является низким.
Описание декодера 10 возобновляется с блока 14 извлечения множителей масштабирования, который, как упомянуто выше, отвечает за извлечение множителей масштабирования коэффициентов 24 частотной области из потока 20 данных. Спектральное разрешение, при котором множители масштабирования присваиваются коэффициентам 24 частотной области, грубее, чем сравнительно тонкое спектральное разрешение, поддерживаемое длинным преобразованием. Как проиллюстрировано фигурными скобками 30, коэффициенты 24 частотной области могут быть сгруппированы в многочисленные диапазоны множителей масштабирования. Подразделение в диапазонах множителей масштабирования может быть выбрано на основе психоакустических соображений и может, например, совпадать с так называемыми диапазонами Барка (или критическими). Так блок 14 извлечения множителей масштабирования является агностическим для переключения длины преобразования, прямо как блок 12 извлечения коэффициентов частотной области, блок 14 извлечения множителей масштабирования предполагает, что каждый кадр 26 должен быть подразделен на некоторое число диапазонов множителей масштабирования 30, которое является равным, независимо от сигнализации переключения длины преобразования, и извлекает множитель 32 масштабирования для каждого такого диапазона 30 множителей масштабирования. На стороне кодера приписывание коэффициентов 24 частотной области к этим диапазонам множителей масштабирования 30 сделано в не обратно перемеженном состоянии, проиллюстрированном на Фиг. 1. Как следствие, поскольку рассматриваются кадры 26, соответствующие разбитому преобразованию, каждый множитель 32 масштабирования принадлежит к группе, наполненной как коэффициентами 24 частотной области переднего преобразования, так и коэффициентами 24 частотной области заднего преобразования.
Обратный преобразователь 16 выполнен с возможностью приема для каждого кадра 26 соответствующих коэффициентов 24 частотной области и соответствующих множителей масштабирования 32 и подвергания коэффициентов 24 частотной области кадра 26, отмасштабированных согласно множителям масштабирования 32, обратному преобразованию для получения участков временной области аудиосигнала. Обратным преобразователем 16 может быть использовано преобразование с перекрытием, такое как, например, модифицированное дискретное косинусное преобразование (MDCT). Блок 18 объединения объединяет участки временной области для получения аудиосигнала, как например, посредством использования, например, подходящего процесса перекрытия с суммированием, приводящим в результате, например, к подавлению помех дискретизации во временной области в пределах перекрывающихся участков для участков временной области, выведенных обратным преобразователем 16.
Естественно, обратный преобразователь 16 отвечает на вышеупомянутое переключение длины преобразования, сигнализированное внутри потока 20 данных для кадров 26. Операция обратного преобразователя 16 описана более подробно по отношению к Фиг. 2.
Фиг. 2 показывает возможную внутреннюю структуру обратного преобразователя 16 более подробно. Как указано на Фиг. 2, обратный преобразователь 16 принимает для текущего кадра коэффициенты 24 частотной области, ассоциированные с этим кадром, так же как и соответствующие множители 32 масштабирования для деквантования коэффициентов 24 частотной области. К тому же, обратный преобразователь 16 управляется посредством сигнализации 34, которая присутствует в потоке 20 данных для каждого кадра. Обратным преобразователем 16 можно дополнительно управлять посредством других компонентов потока 20 данных, опционально содержащихся в нем. В ниже следующем описании, описаны сведения, касающиеся этих дополнительных параметров.
Как показано на Фиг. 2, обратный преобразователь 16 по Фиг. 2 содержит блок 36 деквантования, активируемый обращенный перемежитель 38 и ступень 40 обратного преобразования. Для простоты понимания нижеследующего описания, входящие коэффициенты 24 частотной области, которые получены для текущего кадра из блока 12 извлечения коэффициентов частотной области, показаны пронумерованными с 0 по N–1. Снова, так как блок 12 извлечения коэффициентов частотной области является агностическим по отношению к, т.е. функционирует независимо от сигнализации 34, блок 12 извлечения коэффициентов частотной области предусматривает обратный преобразователь 16 с коэффициентами 24 частотной области таким же образом независимо от того, имеет ли текущий кадр тип с разбитым преобразованием или тип с одним преобразованием, т.е. число коэффициентов 24 частотной области составляет N в настоящем иллюстративном случае, и ассоциация индексов с 0 по N–1 для N коэффициентов 24 частотной области также остается такой же независимо от сигнализации 34. В случае, когда текущий кадр имеет тип с одним или длинным преобразованием, индексы с 0 по N–1 соответствуют упорядочиванию коэффициентов 24 частотной области от меньшей частоты к наивысшей частоте, и в случае, когда текущий кадр имеет тип с разбитым преобразованием, индексы соответствуют порядку коэффициентов частотной области при спектральной компоновке согласно их спектральному порядку, но перемеженным образом, так чтобы каждый второй коэффициент 24 частотной области принадлежал заднему преобразованию, тогда как остальные принадлежали переднему преобразованию.
Аналогичные факты справедливы для множителей 32 масштабирования. Так как блок 14 извлечения множителей масштабирования функционирует агностическим по отношению к сигнализации 34 образом, число и порядок, так же как и значения множителей 32 масштабирования, поступающих из блока 14 извлечения множителей масштабирования, не зависит от сигнализации 34, причем множители 32 масштабирования на Фиг. 2 для примера обозначены как S0-SM с индексом, соответствующим последовательному порядку среди диапазонов множителей масштабирования, с которыми эти множители масштабирования ассоциированы.
Аналогичным блоку 12 извлечения коэффициентов частотной области и блоку 14 извлечения множителей масштабирования образом, блок 36 деквантования может функционировать агностически по отношению к, или независимо от, сигнализации 34. Блок 36 деквантования деквантует, или масштабирует, входящие коэффициенты 24 частотной области с использованием множителя масштабирования, ассоциированного с диапазоном множителей масштабирования, которому принадлежат соответствующие коэффициенты частотной области. Снова, принадлежность входящих коэффициентов 24 частотной области к индивидуальным диапазонам множителей масштабирования, и таким образом ассоциация входящих коэффициентов 24 частотной области с множителями 32 масштабирования, не зависит от сигнализации 34, и обратный преобразователь 16 таким образом подвергает коэффициенты 24 частотной области масштабированию согласно множителям 32 масштабирования при спектральном разрешении, которое не зависит от сигнализации. Например, блок 36 деквантования, независимо от сигнализации 34, присваивает коэффициенты частотной области с индексами 0-3 первому диапазону множителей масштабирования и соответственно первому множителю масштабирования S0, коэффициенты частотной области с индексами 4-9 второму диапазону множителей масштабирования и таким образом множителю масштабирования S1 и т.д. Границы множителей масштабирования являются лишь иллюстративными. Блок 36 деквантования может, например, для того, чтобы деквантовать коэффициенты 24 частотной области, выполнить умножение с использованием ассоциированного множителя масштабирования, т.е. вычислить коэффициент частотной области x0 как x0 ∙ s0, x1 как x1 ∙ s0, …, x3 как x3 ∙ s0, x4 как x4 ∙ s1, …, x9 как x9 ∙ s1, и т.д. В качестве альтернативы, блок 36 деквантования может выполнить интерполяцию множителей масштабирования, в действительности используемых для деквантования коэффициентов 24 частотной области, из грубого спектрального разрешения, заданного диапазонами множителей масштабирования. Интерполяция может быть независимой от сигнализации 34. В качестве альтернативы, однако, последняя интерполяция может быть зависимой от сигнализации, для того, чтобы учитывать разные спектро-временные положения выборки коэффициентов 24 частотной области, в зависимости от того, имеет ли текущий кадр тип с разбитым преобразованием или тип с одним/длинным преобразованием.
Фиг. 2 иллюстрирует, что вплоть до стороны входа активируемого обращенного перемежителя 38, порядок среди коэффициентов 24 частотной области остается таким же, и он же применяется, по меньшей мере, существенно, по отношению ко всей операции вплоть до этого момента. Фиг. 2 показывает, что до активируемого обращенного перемежителя 38, дополнительные операции могут быть выполнены посредством обратного преобразователя 16. Например, обратный преобразователь 16 может быть выполнен с возможностью выполнения заполнения шумом в отношении коэффициентов 24 частотной области. Например, в последовательности коэффициентов 24 частотной области могут быть идентифицированы диапазоны множителей масштабирования, т.е. группы входящих коэффициентов частотной области в порядке, следующем индексам с 0 по N–1, где все коэффициенты 24 частотной области соответствующих диапазонов множителей масштабирования квантованы до нуля. Такие коэффициенты частотной области могут быть заполнены, например, с использованием генерирования искусственного шума, такого как, например, с использованием генератора псевдослучайных чисел. Сила/уровень шума, заполняемого в диапазон квантованных до нуля множителей масштабирования, может быть отрегулирован с использованием множителя масштабирования соответствующего диапазона множителей масштабирования, так как он не нужен для масштабирования, так как спектральные коэффициенты в нем все равны нулю. Такое заполнение шумом показано на Фиг. 2 в 40 и описано более подробно в варианте осуществления в патенте EP2304719A1 [6].
Фиг. 2 показывает кроме того, что обратный преобразователь 16 может быть выполнен с возможностью поддержки кодирования сведенного стерео и/или межканального стереопредсказания. В механизме межканального стереопредсказания обратный преобразователь 16 может, например, предсказать 42 спектр в не обратно перемеженном размещении, представленном порядком индексов с 0 по N–1 из другого канала аудиосигнала. То есть, может быть, что коэффициенты 24 частотной области описывают спектрограмму канала стереоаудиосигнала, и что обратный преобразователь 16 выполнен с возможностью интерпретации коэффициентов 24 частотной области как остатка предсказания сигнала предсказания, полученного из другого канала этого стереоаудиосигнала. Это межканальное стереопредсказание может быть, например, выполнено при некоторой спектральной гранулярности независимо от сигнализации 34. Параметры 44 комплексного предсказания, управляющие комплексным стереопредсказанием 42, могут, например, активировать комплексное стереопредсказание 42 для некоторых из вышеупомянутых диапазонов множителей масштабирования. Для каждого диапазона множителей масштабирования, для которого комплексное предсказание активировано посредством параметра 44 комплексного предсказания, масштабированные коэффициенты 24 частотной области, скомпонованные в порядке с 0 по N–1, находящиеся в пределах соответствующего диапазона множителей масштабирования, будут суммированы с сигналом межканального предсказания, полученным из другого канала стереоаудиосигнала. Комплексный множитель, содержащийся внутри параметров 44 комплексного предсказания для этого соответствующего диапазона множителей масштабирования, может управлять сигналом предсказания.
Кроме того, внутри механизма кодирования сведенного стерео, обратный преобразователь 16 может быть выполнен с возможностью выполнения MS-декодирования 46. То есть, декодер 10 по Фиг. 1 может выполнить операции, описанные уже дважды, один раз для первого канала и другой раз для второго канала стереоаудиосигнала, и управляемые посредством MS-параметров внутри потока 20 данных, обратный преобразователь 16 может осуществить MS-декодирование этих двух каналов или оставить их как они есть, а именно как левый и правый каналы стереоаудиосигнала. MS-параметры 48 могут переключать между MS-кодирование на уровне кадра или даже на более тонком уровне, таком как в единицах диапазонов множителей масштабирования или их группах. В случае активированного MS-декодирования, например, обратный преобразователь 16 может сформировать сумму соответствующих коэффициентов 24 частотной области в порядке коэффициентов с 0 по N – 1, с соответствующими коэффициентами частотной области другого канала стереоаудиосигнала, или их разность.
Фиг. 2 затем показывает, что активируемый обращенный перемежитель 38 отвечает на сигнализацию 34 для текущего кадра для того, чтобы, в случае сигнализирования текущего кадра посредством сигнализации 34 как кадра с разбитым преобразованием, осуществить обратное перемежение входящих коэффициентов частотной области, так чтобы получить два преобразования, а именно переднее преобразование 50 и заднее преобразование 52, и оставить коэффициенты частотной области перемеженными, так чтобы получить в результате одно преобразование 54 в случае сигнализации 34, указывающей текущий кадр как кадр с длинным преобразованием. В случае обратного перемежения, обращенный перемежитель 38 формирует одно преобразование из 50 и 52, первое короткое преобразование из коэффициентов частотной области, имеющих четные индексы, и другое короткое преобразование из коэффициентов частотной области в нечетных положениях индексов. Например, коэффициенты частотной области с четным индексом могут сформировать переднее преобразование (начиная с индекса 0), тогда как остальные формируют заднее преобразование. Преобразования 50 и 52 подвергаются обратному преобразованию с более короткой длиной преобразования, давая в результате участки 56 и 58 временной области, соответственно. Блок 18 объединения по Фиг. 1 корректно располагает участки 56 и 58 временной области во времени, а именно участок 56 временной области, возникающий из переднего преобразования 50, перед участком 58 временной области, возникающим из заднего преобразования 52, и выполняет процесс перекрытия с суммированием между ними и с участками временной области, возникающими из предшествующего и последующего кадров аудиосигнала. В случае не обратного перемежения, коэффициенты частотной области, поступающие на перемежитель 38, составляют длинное преобразование 54 как они есть, и ступень 40 обратного преобразования выполняет в отношении них обратное преобразование, так чтобы дать в результате участок 60 временной области, протягивающийся на весь временной интервал текущего кадра 26 и за его пределы. Блок 18 объединения объединяет участок 60 временной области с соответствующими участками временной области, возникающими из предшествующего и последующего кадров аудиосигнала.
Аудиодекодер в частотной области, уже описанный, обеспечивает возможность переключения длины преобразования таким образом, который обеспечивает возможность совместимости с аудиодекодерами в частотной области, которые не отвечают на сигнализацию 34. В частности, такие "устаревшие" декодеры будут ошибочно предполагать, что кадры, которые в действительности сигнализированы посредством сигнализации 34 как имеющие тип с разбитым преобразованием, имеют тип с длинным преобразованием. То есть, они будут ошибочно оставлять коэффициенты частотной области с типом с разбиением перемеженными и выполнять обратное преобразование с длиной длинного преобразования. Однако, результирующее качество подверженных воздействию кадров реконструированного аудиосигнала будет вес еще достаточно приемлемым.
Ухудшение эффективности кодирования, в свою очередь, тоже будет все еще приемлемым. Ухудшение эффективности кодирования возникает в результате игнорирования сигнализации 34, так как коэффициенты частотной области и множители масштабирования кодируются без учета переменного смысла коэффициентов и использования этой переменчивости для того, чтобы увеличить эффективность кодирования. Однако, последнее ухудшение является относительно небольшим по сравнению с преимуществом обеспечения возможности обратной совместимости. Последнее утверждение также справедливо в отношении ограничения на активацию и деактивацию блока 40 заполнения шумом, комплексного стереопредсказания 42 и MS-декодирования 46 лишь в пределах непрерывных спектральных участков (диапазонов множителей масштабирования) в обратно перемеженном состоянии, заданных индексами с 0 по N–1 на Фиг. 2. Возможность осуществления управления этими инструментами кодирования конкретно для типа кадра (например, имеющего два уровня шума) может, вероятно, предоставить преимущества, но преимущества с избытком компенсируются преимуществом обладания обратной совместимостью.
Фиг. 2 показывает, что декодер по Фиг. 1 может быть даже выполнен с возможностью поддержки TNS-кодирования, при этом тем не менее сохраняя обратную совместимость с декодерами, являющимися нечувствительными к сигнализации 34. В частности, Фиг. 2 иллюстрирует возможность выполнения фильтрации обратного TNS после какого-либо комплексного стереопредсказания 42 и MS-декодирования 46, если таковые есть. Для того, чтобы обеспечить обратную совместимость, обратный преобразователь 16 выполнен с возможностью выполнения фильтрации 62 обратного TNS в отношении последовательности из N коэффициентов независимо от сигнализации 34 с использованием соответствующих TNS-коэффициентов 64. Поэтому, поток 20 данных кодирует TNS-коэффициенты 64 в равной степени, независимо от сигнализации 34. То есть, число TNS-коэффициентов и способов их кодирования является одинаковым. Однако, обратный преобразователь 16 выполнен с возможностью по-разному применять TNS-коэффициенты 64. В случае, когда текущий кадр является кадром с длинным преобразованием, фильтрация обратного TNS выполняется в отношении длинного преобразования 54, т.е. коэффициенты частотной области, размещенные последовательно в перемеженном состоянии, и в случае, когда текущий кадр сигнализируется посредством сигнализации 34 как кадр с разбитым преобразованием, обратный преобразователь 16 осуществляет фильтрование 62 обратного TNS связи переднего преобразования 50 и заднего преобразования 52, т.е. последовательности коэффициентов частотной области с индексами 0, 2, …, N–2, 1, 3, 5, …, N–1. Фильтрация 62 обратного TNS может, например, содержать применение фильтра обратным преобразователем 16, передаточная функция которого задана согласно TNS-коэффициентам 64 в отношении обратно перемеженной или перемеженной последовательности коэффициентов, прошедших последовательность обработки до обращенного перемежителя 38.
Таким образом, "устаревший" декодер, который неумышленно интерпретирует кадры типа с разбитым преобразованием как кадры с длинным преобразованием, применяет TNS-коэффициенты 64, которые были сгенерированы кодером посредством анализирования связи двух коротких преобразований, а именно 50 и 52, в отношении преобразования 54 и соответственно производит, посредством обратного преобразования, примененного в отношении преобразования 54, некорректный участок 60 временной области. Однако, даже эта деградация качества при таких декодерах может быть терпимой для слушателей в случае ограничения использования таких кадров с разбитым преобразованием случаями, когда сигнал представляет дождь или аплодисменты или подобное.
Для полноты описания, Фиг. 3 показывает, что фильтрация 62 обратного TNS обратного преобразователя 16 может также быть вставлена куда-либо в последовательность обработки, показанной на Фиг. 2. Например, фильтрация 62 обратного TNS может быть расположена до комплексного стереопредсказания 42. Для того, чтобы сохранить обратно перемеженную область после и до фильтрации 62 обратного TNS, Фиг. 3 показывает, что в этом случае коэффициенты частотной области 24 лишь предварительно подвергаются обратному перемежению 66, для того, чтобы выполнить фильтрацию обратного TNS 68 внутри перемеженного связанного состояния, где коэффициенты 24 частотной области, как уже обработанные, находятся в порядке индексов 0, 2, 4, …, N–2, 1, 3, …, N–3, N–1, после чего обратное перемежение обращается 70, так чтобы снова получить коэффициенты частотной области в версии с фильтрацией обратного TNS в их перемеженном порядке 0, 1, 2, …, N–1. Положение фильтрации 62 обратного TNS в пределах последовательности этапов обработки, показанных на Фиг. 2, может быть фиксированным или может быть сигнализировано посредством потока 20 данных, таким образом как, например, на покадровой основе или с некоторой другой гранулярностью.
Следует отметить, что для уменьшения описания, вышеуказанные варианты осуществления, сконцентрированные только на расположении рядом кадров с длинным преобразованием и кадров с разбитым преобразованием. Однако, варианты осуществления по настоящей заявке могут быть хорошо расширяемы посредством введения кадров с другим типом преобразования, таких как кадры из восьми коротких преобразований. В этой связи, следует отметить, что вышеупомянутый агностицизм, лишь относится к кадрам, отличимым, посредством дополнительной сигнализации, от таких других кадров с любым третьим типом преобразования, так что "устаревший" декодер, посредством инспектирования дополнительной сигнализации, содержащейся во всех кадрах, неумышленно интерпретирует кадры с разбитым преобразованием как кадры с длинным преобразованием, и лишь кадры, отличимые от других кадров (всех кроме кадров с разбитым преобразованием и длинным преобразованием), будут содержать сигнализацию 34. Поскольку рассматриваются другие кадры (все кроме кадров с разбитым преобразованием и длинным преобразованием), следует отметить, что режим функционирования блоков 12 и 14 извлечения, такой как выбор контекста и т.д., может зависеть от дополнительной сигнализации, то есть, вышеуказанный режим функционирования может отличаться от режима функционирования, применяемого для кадров с разбитым преобразованием и длинным преобразованием.
Перед описанием подходящего кодера, согласующегося с вариантами осуществления декодера, описанными выше, описана реализация вышеуказанных вариантов осуществления, которая будет подходить для обновления соответствующим образом аудиокодеров/аудиодекодеров на основе xHE-AAC для обеспечения возможности поддержки разбиения преобразования обратно совместимым образом.
То есть, в нижеследующем описывается возможность того, как выполнить разбиение длины преобразования в аудиокодеке, который основан на MPEG-D xHE-AAC (USAC), с целью улучшения качества кодирования некоторых аудиосигналов при низких скоростях передачи битов. Инструмент разбиения преобразования сигнализируется обратно полусовместимым образом, так чтобы существующие xHE-AAC декодеры могли осуществить синтаксический анализ и декодировать битовые потоки согласно вышеуказанным вариантам осуществления без явных аудиоошибок или провалов. Как будет показано в дальнейшем, эта обратно полусовместимая сигнализация использует неиспользованные возможные значения синтаксического элемента кадра, управляющего, условно кодированным образом, использованием заполнения шумом. Хотя существующие xHE-AAC декодеры нечувствительны к этим возможным значениям соответствующего синтаксического элемента заполнения шумом, усовершенствованные аудиодекодеры чувствительны.
В частности, реализация, описанная ниже, обеспечивает возможность, наряду с вариантами осуществления, описанными выше, предложения промежуточной длины преобразования для кодирования сигналов, аналогичных дождю или аплодисментам, предпочтительно разбитый длинный блок, т.е. два последовательных преобразования, каждый имеет половину или четверть спектральной длины длинного блока, с минимальным перекрытием по времени между этими преобразованиями, являющимся меньшим, чем максимальное временное перекрытие между последовательными длинными блоками. Для обеспечения возможности считывания и синтаксического анализа кодированных битовых потоков с разбиением преобразования, т.е. сигнализацией 34, существующими xHE-AAC декодерами, разбиение должно быть использовано обратно полусовместимым образом: присутствие такого инструмента разбиения преобразования не должно вызвать остановку, или даже запуск, декодирования существующими декодерами. Считываемость таких битовых потоков инфраструктурой xHE-AAC может также способствовать распространению на рынке. Для достижения только что обозначенной цели обратной полусовместимости для использования разбиения преобразования в контексте xHE-AAC или его потенциальных производных, разбиение преобразования сигнализируется посредством сигнализации заполнения шумом для xHE-AAC. В соответствии с вариантами осуществления, описанными выше, для того, чтобы встроить разбиение преобразования в xHE-AAC кодеры/декодеры, вместо последовательности старт-стопных окон в частотной области (FD) может быть использовано разбитое преобразование, состоящее из двух отдельных преобразований с половинной длиной. Последовательные во времени преобразования с половинной длиной перемежаются в единое старт-стопное окно наподобие блока на покоэффициентной основе для декодеров, которые не поддерживают разбиение преобразования, т.е. существующих xHE-AAC декодеров. Сигнализирование посредством сигнализации заполнения шумом выполняется как описано в дальнейшем. В частности, 8-битовая дополнительная информация заполнения шумом может быть использована для подачи разбиения преобразования. Это имеет смысл, так как стандарт MPEG-D [4] указывает, что передаются все 8 битов, даже если уровень шума, который должен быть применен, равен нулю. В этой ситуации, некоторые биты шумового заполнения могут быть повторно использованы для разбиения преобразования, т.е. для сигнализации 34.
Обратная полусовместимость касательно синтаксического анализирования и проигрывания битового потока существующими xHE-AAC декодерами может быть гарантирована как следует ниже. Разбиение преобразования сигнализируется посредством нулевого уровня шума, т.е. каждый из первых трех битов шумового заполнения имеет нулевое значение, за которыми следуют пять ненулевых битов (которые обычно представляют сдвиг шума), содержащие дополнительную информацию, относящуюся к разбиению преобразования, так же как и недостающему уровню шума. Существующий xHE-AAC декодер не учитывает значение 5-битового сдвига, если 3-битовый уровень шума равен нулю, присутствие только сигнализации 34 разбиения преобразования имеет воздействие на заполнение шумом в существующем декодере: заполнение шумом отключается, так как первые три бита являются нулевыми, и остаток операции декодирования выполняется как положено. В частности, разбитое преобразование обрабатывается как обыкновенный старт-стопный блок с помощью обратного преобразования с полной длиной (из-за вышеупомянутого перемежения коэффициентов), и обратное перемежение не выполняется. Поэтому, существующий декодер все равно предлагает "мягкое" декодирование расширенного потока данных/битового потока 20, так как ему не требуется заглушать выходной сигнал 22 или даже прерывать декодирование при достижении кадра типа с разбиением преобразования. Естественно, такой существующий декодер не способен обеспечить корректную реконструкцию кадров с разбитым преобразованием, приводя к ухудшенному качеству в подверженных воздействию кадрах, по сравнению с декодированием посредством соответствующего декодера в соответствии с Фиг. 1, например. Тем не менее, предполагая, что разбиение преобразования используется как положено, т.е. только в отношении переходного процесса или зашумленного ввода при низкой скорости передачи битов, качество посредством xHE-AAC декодера должно быть лучше, чем если подверженные воздействию кадры будут выброшены из-за глушения или иным образом будут приводить к явным ошибкам проигрывания.
Конкретно, расширение xHE-AAC кодера/декодера в сторону разбиения преобразования может быть таким как следует ниже.
В соответствии с вышеуказанным описанием, новый инструмент, который должен быть использован для xHE-AAC, может быть назван разбиением преобразования (TS). Это будет новый инструмент в кодере в частотной области для xHE-AAC или, например, MPEG-H 3D-Audio, основывающихся на USAC [4]. Разбиение преобразования будет тогда пригодным к использованию в отношении некоторых каналов сигнала переходного процесса в качестве альтернативы обычным длинным преобразованиям (которые приводят к размыванию временной характеристики, особенно опережающему эхо, при низкой скорости передачи битов) или восьми коротким преобразованиям (которые приводят к спектральным провалам и пузырьковым артефактам при низкой скорости передачи битов). TS может затем быть сигнализировано обратно полусовместимым образом посредством перемежения FD-коэффициентов в длинное преобразование, которое может быть корректно синтаксически проанализировано существующим MPEG-D USAC декодером.
Описание этого инструмента будет аналогичным вышеуказанному описанию. Когда TS активно в длинном преобразовании, используются два MDCT с половинной длиной вместо одного MDCT с полной длиной, и коэффициенты двух MDCT, т.е. 50 и 52, передаются построчно перемеженным образом. Перемеженная передача уже была использована, например, в случае со старт-(стопными) преобразованиями в FD, с коэффициентами первого по времени MDCT, помещенными при четных, и коэффициенты второго по времени MDCT, помещение при нечетных индексах (где индексирование начинается с нуля), но декодер, не способный справляться с старт-стопными преобразованиями, не будет способен корректно осуществлять синтаксический анализ потока данных. То есть, по причине разного контекста, используемого для энтропийного кодирования, коэффициенты частотной области служат таким старт-стопным преобразованием, переменным синтаксическим элементом, упрощенным до уменьшенных на половину преобразований, любой декодер, не способный поддерживать старт-стопные окна, будет должен игнорировать соответствующие кадры со старт-стопными окнами.
Кратко обращаясь к варианту осуществления, описанному выше, это означает, что декодер по Фиг. 1, за пределами уже изложенного описания, может быть способен в качестве альтернативы поддерживать дополнительную длину преобразования, т.е. подразделение некоторых кадров 26 на даже больше, чем два преобразования, с использованием сигнализации, которая расширяет сигнализацию 34. Касательно расположения рядом подразделений преобразования кадров 26, в отличие от разбитого преобразования, активированного с использованием сигнализации 34, однако, блок 12 извлечения FD-коэффициентов и блок 14 извлечения множителей масштабирования будут чувствительны к этой сигнализации, в том смысле, что их режим функционирования будет изменяться в зависимости от добавленной сигнализации в дополнение к сигнализации 34. К тому же, упрощенная передача TNS-коэффициентов, MS-параметров и параметров комплексного предсказания, привязанных к сигнализированному типу преобразования, отличному от типа с разбитым преобразованием согласно 56 и 59, будет требовать, чтобы каждый декодер был способен отвечать на, т.е. понимать, сигнализацию, выбирая между этими "известными типами преобразования" или кадрами, включающими в себя тип с длинным преобразованием согласно 60 и другими типами преобразований, такими, как тип преобразования, подразделяющий кадры на восемь коротких преобразований, как в случает с AAC, например. В этом случае, эта "известная сигнализация" будет идентифицировать кадры, для которых сигнализация 34 сигнализирует тип с разбитым преобразованием, как кадры типа с длинным преобразованием, так чтобы декодеры, не способные понять сигнализацию 34, интерпретировали эти кадры как кадры с длинным преобразованием, а не как кадры других типов, таких как кадры типа с 8 короткими преобразованиями.
Обращаясь снова к описанию возможного расширения xHE-AAC, некоторые операционные ограничения могут быть предусмотрены для того, чтобы встроить инструмент TS в этот механизм кодирования. Например, может быть обеспечена возможность использования TS только в длинном FD стартовом или старт-стопном окне. То есть, может быть запрошено, чтобы лежащий в основе синтаксический элемент window_sequence равнялся 1. Кроме того, из-за обратно полусовместимого сигнализирования, может быть требование, чтобы TS могло быть применено, только когда синтаксический элемент noiseFilling равен единице в синтаксическом контейнере UsacCoreConfig(). Когда сигнализировано, чтобы TS было активным, все FD-инструменты, кроме TNS и обратного MDCT, функционируют в отношении перемеженного (длинного) набора TS-коэффициентов. Это обеспечивает возможность для повторного использования сдвига диапазона множителей масштабирования и таблиц арифметического кодера с длинным преобразованием, также как и форм окон и длин перекрытий.
В нижеследующем представлены термины и определения, которые используются в нижеследующем для того, чтобы разъяснить, как стандарт USAC, описанный в [4] может быть расширен, чтобы предложить функциональность обратно совместимого TS, при этом иногда делается ссылка на разделы внутри этого стандарта для заинтересованного читателя.
Новым элементом данных может быть:
split_transform двоичный флаг, указывающий, используется ли TS в текущем кадре и канале
Новыми вспомогательными элементами могут быть:
window_sequence тип последовательности окна в FD для текущего кадра и канала (раздел 6.2.9)
noise_offset сдвиг шумового заполнения для модифицирования множителей масштабирования квантованных до нуля диапазонов (раздел 7.2)
noise_level уровень шумового заполнения, представляющий амплитуду добавленного шума спектра (раздел 7.2)
half_transform_length одна половина coreCoderFrameLength (ccfl, длина преобразования, раздел 6.1.1)
half_lowpass_line одна половина числа MDCT-линий, переданных для текущего канала.
Декодирование старт-(стопного) преобразования в FD с использованием разбиения преобразования (TS) в механизме USAC может быть выполнено на совершенно последовательных этапах, которые следуют ниже:
Сначала, может быть выполнено декодирование split_transform и half_lowpass_line.
split_transform в действительности не будет представлять независимый элемент битового потока, но получается из элементов заполнения шумом, noise_offset и noise_level, и в случае UsacChannelPairElement(), флага common_window в StereoCoreToolInfo(). Если noiseFilling == 0, split_transform равно 0. В противном случае,
if ((noiseFilling != 0) && (noise_level == 0)) {
split_transform=(noise_offset & 16)/16;
noise_level=(noise_offset & 14)/2;
noise_offset=(noise_offset & 1) * 16;
}
else {
split_transform=0;
}
Другими словами, если noise_level == 0, noise_offset содержит флаг split_transform, за которым следует 4 бита данных заполнения шумом, которые затем перекомпоновываются. Так как эта операция изменяет значения noise_level и noise_offset, она должна исполняться до процесса заполнения шумом по разделу 7.2. Кроме того, если common_window == 1 в UsacChannelPairElement(), split_transform определяется только в левом (первом) канале; split_transform правого канала задается равным (т.е. скопированным из) split_transform левого канала, и вышеуказанный псевдокод не исполняется в правом канале.
half_lowpass_line определяется из таблицы сдвигов "длинного" диапазона множителей масштабирования, swb_offset_long_window, и max_sfb текущего канала, или в случае стерео и common_window == 1, max_sfb_ste.
max_sfb_ste с элементах с StereoCoreToolInfo() и common_window == 1, lowpass_sfb=max_sfb в противном случае. На основе флага igFilling получают half_lowpass_line:
if (igFilling != 0) {
lowpass_sfb=max(lowpass_sfb, ig_stop_sfb);
}
half_lowpass_line=swb_offset_long_window[lowpass_sfb]/2;
Затем, в качестве второго этапа, будет выполнено обратное перемежение спектров с половинной длиной для временного ограничения шума.
После деквантования спектра, заполнения шумом и применения множителей масштабирования и перед применением временного ограничения шума (TNS), TS-коэффициенты в spec[ ] перемежаются с использованием вспомогательного средства buffer[ ]:
for (i=0, i2=0; i < half_lowpass_line; i += 1, i2 += 2) {
spec[i]=spec[i2]; /* изолировать 1е окно */
buffer[i]=spec[i2+1]; /* изолировать 2е окно */
}
for (i=0; i < half_lowpass_line; i += 1) {
spec[i+half_lowpass_line]=buffer[i]; /* скопировать 2е окно */
}
Обратное перемежение по месту эффективно помещает два спектра TS с половинной длиной друг на друга, и инструмент TNS теперь функционирует как обычно в отношении результирующего псевдоспектра с полной длиной.
Обращаясь к вышеуказанному, такая процедура была описана по отношению к Фиг. 3.
Затем, в качестве третьего этапа, временное повторное перемежение может быть использовано вместе с двумя последовательными обратными MDCT.
Если common_window == 1 в текущем кадре или стереодекодирование выполняется после TNS-декодирования (tns_on_lr == 0 в разделе 7.8), должно быть осуществлено временное повторное перемежение spec[ ] в спектр с полной длиной:
for (i=0; i < half_lowpass_line; i += 1) {
buffer[i]=spec[i]; /* скопировать 1е окно */
}
for (i=0, i2=0; i < half_lowpass_line; i += 1, i2 += 2) {
spec[i2]=buffer[i]; /* поглотить 1е окно */
spec[i2+1]=spec[i+half_lowpass_line]; /* поглотить 2е окно */
}
Результирующий псевдоспектр используется для стереодекодирования (раздел 7.7) и для обновления dmx_re_prev[ ]
(разделы 7.7.2 и A.1.4). В случае tns_on_lr == 0, стереодекодированные спектры с полной длиной снова обратно перемежаются посредством повторения процесса из раздела A.1.3.2. Наконец, вычисляются 2 обратных MDCT с помощью ccfl и window_shape канала для текущего и последнего кадра. См. раздел 7.9 и Фигуру 1.
Некоторая модификация может быть сделана в стереодекодировании с комплексными предсказаниями для xHE-AAC.
Способ неявного обратно полусовместимого сигнализирования может быть использован в качестве альтернативы для того, чтобы встроить TS в xHE-AAC.
Вышеописанный подход, который использует один бит в битовом потоке для сигнализирования использования изобретательского разбиения преобразования, содержащегося в split_transform, изобретательскому декодеру. В частности, такое сигнализирование (назовем его явным обратно полусовместимым сигнализированием) обеспечивает нижеследующим существующим данным битового потока – здесь дополнительной информации заполнения шумом – возможность использования независимо от изобретательского сигнала: В настоящем варианте осуществления, данные заполнения шумом не зависят от данных разбиения преобразования, и наоборот. Например, данные заполнения шумом, состоящие их всех нулей (noise_level=noise_offset=0) могут быть переданы, хотя split_transform может удерживать любое возможное значение (являющееся двоичным флагом, либо 0, либо 1).
В случаях, когда такая строгая независимость между существующими и изобретательскими данными битового потока не требуется, и изобретательский сигнал является двоичным решением, можно избежать явной передачи бита сигнализирования, и вышеуказанное двоичное решение может быть сигнализировано посредством присутствия или отсутствия того, что может быть названо неявным обратно полусовместимым сигнализированием. Снова взяв вышеуказанный вариант осуществления в качестве примера, использование разбиения преобразования может быть передано просто посредством использования изобретательского сигнализирования: Есть noise_level равняется нулю, и, в то же время, noise_offset равняется нулю, то split_transform задается равным 1. Если и noise_level, и noise_offset не равны нулю, split_transform задается равным 0. Зависимость изобретательского неявного сигнала от существующего сигнала шумового заполнения проявляется, когда и noise_level, и noise_offset равны нулю. В этом случае, неясно, используется существующее или изобретательское неявное сигнализирование. Чтобы избежать такой неоднозначности, значение split_transform должно быть задано заранее. В настоящем примере, целесообразно задать split_transform=0, если данные заполнения шумом состоят из всех нулей, так как это то, что существующие кодеры без разбиения преобразования должны сигнализировать, когда заполнение шумом не должно быть использовано в кадре.
Проблемой, которую остается решить в случае неявного обратно полусовместимого сигнализирования, является то, как сигнализировать split_transform == 1 и в то же время без заполнения шумом. Как разъяснено, данные шумового заполнения не должны быть всеми нулями, и если требуется нулевая величина шума, noise_level ((noise_offset & 14)/2, как указано выше) должен равняться 0. Это оставляет только noise_offset ((noise_offset & 1)*16, как указано выше) большим, чем 0 в качестве решения. К счастью, значение noise_offset игнорируется, если заполнение шумом не выполняется в декодере, основанном на USAC [4], так этот подход оказывается целесообразным в настоящем варианте осуществления. Вследствие этого, сигнализирование split_transform в псевдокоде, как указано выше, может быть модифицировано, как следует ниже, с использованием сохраненного бита сигнализирования TS для передачи 2 битов (4 значения) вместо 1 бита для noise_offset:
if ((noiseFilling != 0) && (noise_level == 0) && (noise_offset != 0)) {
split_transform=1;
noise_level=(noise_offset & 28)/4;
noise_offset=(noise_offset & 3) * 8;
}
else {
split_transform=0;
}
Соответственно, применяя эту альтернативу, описание USAC может быть расширено с использованием ниже следующего описания.
Описание инструмента будет в большой степени таким же. То есть,
Когда разбиение преобразования (TS) активно в длинном преобразовании, вместо одного MDCT с полной длиной используются два MDCT с половинной длиной. Коэффициенты двух MDCT передаются построчно перемеженным образом как обыкновенное преобразование в частотной области (FD), причем коэффициенты первого по времени MDCT помещены при четных, и коэффициенты второго по времени MDCT помещены при нечетных индексах.
Операционные ограничения могут требовать, чтобы TS могло быть использовано только в длинном FD стартовом или старт-стопном окне (window_sequence == 1), и чтобы TS могло быть применено, только когда noiseFilling равно 1 в UsacCoreConfig(). Когда TS сигнализировано, все FD-инструменты, кроме TNS и обратного MDCT, функционируют в отношении перемеженного (длинного) набора TS-коэффициентов. Это обеспечивает возможность для повторного использования сдвига диапазона множителей масштабирования и таблиц арифметического кодера с длинным преобразованием, также как и форм окон и длин перекрытий.
Термины и определения, использованные в дальнейшем, затрагивают нижеследующие вспомогательные элементы
common_window указывает, используют ли канал 0 и канал 1 CPE идентичные параметры окна (см. ISO/IEC 23003-3:2012 раздел 6.2.5.1.1).
window_sequence тип последовательности окна в FD для текущего кадра и канала (см. ISO/IEC 23003-3:2012 раздел 6.2.9).
tns_on_lr Указывает режим функционирования для TNS-фильтрации (см. ISO/IEC 23003-3:2012 раздел 7.8.2).
noiseFilling Этот флаг сигнализирует использование заполнения шумом спектральных провалов в базовом кодере в FD (см. ISO/IEC 23003-3:2012 раздел 6.1.1.1).
noise_offset сдвиг шумового заполнения для изменения множителей масштабирования квантованных до нуля диапазонов (см. ISO/IEC 23003-3:2012 раздел 7.2).
noise_level уровень шумового заполнения, представляющий амплитуду добавленного шума спектра (см. ISO/IEC 23003-3:2012 раздел 7.2).
split_transform двоичный флаг, указывающий, используется ли TS в текущем кадре и канале.
half_transform_length одна половина coreCoderFrameLength (ccfl, длина преобразования, см. ISO/IEC 23003-3:2012 раздел 6.1.1).
half_lowpass_line одна половина из числа MDCT-линий, переданных для текущего канала.
Процесс декодирования, предусматривающий TS, может быть описан, как следует ниже. В частности, декодирование старт-(стопного) преобразования в FD с помощью TS выполняется в трех последовательных этапах, как следует ниже.
Сначала, выполняется декодирование split_transform и half_lowpass_line. Вспомогательный элемент split_transform не представляет независимый элемент битового потока, но получается из элементов заполнения шумом, noise_offset и noise_level, и в случае UsacChannelPairElement(), флага common_window в StereoCoreToolInfo(). Если noiseFilling == 0, split_transform равно 0. В противном случае,
if ((noiseFilling != 0) && (noise_level == 0)) {
split_transform=1;
noise_level=(noise_offset & 28)/4;
noise_offset=(noise_offset & 3) * 8;
}
else {
split_transform=0;
}
Другими словами, если noise_level == 0, noise_offset содержит флаг split_transform, за которым следует 4 бита данных заполнения шумом, которые затем переставляются. Так как эта операция изменяет значения noise_level и noise_offset, она должна исполняться до процесса заполнения шумом по ISO/IEC 23003-3:2012, разделу 7.2.
Кроме того, если common_window == 1 в UsacChannelPairElement(), split_transform определяется только в левом (первом) канале; split_transform правого канала задается равным (т.е. скопированным из) split_transform левого канала, и вышеуказанный псевдокод не исполняется в правом канале.
Вспомогательный элемент half_lowpass_line определяется из таблицы сдвигов "длинного" диапазона множителей масштабирования, swb_offset_long_window, и max_sfb текущего канала, или в случае стерео и common_window == 1, max_sfb_ste.
Figure 00000001
На основе флага igFilling получают half_lowpass_line:
if (igFilling != 0) {
lowpass_sfb=max(lowpass_sfb, ig_stop_sfb);
}
half_lowpass_line=swb_offset_long_window[lowpass_sfb]/2;
Затем, выполняется обратное перемежение спектров с половинной длиной для временного ограничения шума.
После деквантования спектра, заполнения шумом и применения множителей масштабирования и перед применением временного ограничения шума (TNS), TS-коэффициенты в spec[ ] перемежаются с использованием вспомогательного средства buffer[ ]:
for (i=0, i2=0; i < half_lowpass_line; i += 1, i2 += 2) {
spec[i]=spec[i2]; /* изолировать 1е окно */
buffer[i]=spec[i2+1]; /* изолировать 2е окно */
}
for (i=0; i < half_lowpass_line; i += 1) {
spec[i+half_lowpass_line]=buffer[i]; /* скопировать 2е окно */
}
Обратное перемежение по месту эффективно помещает два спектра TS с половинной длиной друг на друга, и инструмент TNS теперь функционирует как обычно в отношении результирующего псевдоспектра с полной длиной.
Наконец, могут быть использованы временное повторное перемежение и два последовательных обратных MDCT:
Если common_window == 1 в текущем кадре или стереодекодирование выполняется после TNS-декодирования (tns_on_lr == 0 в разделе 7.8), должно быть осуществлено временное повторное перемежение spec[ ] в спектр с полной длиной:
for (i=0; i < half_lowpass_line; i += 1) {
buffer[i]=spec[i]; /* скопировать 1е окно */
}
for (i=0, i2=0; i < half_lowpass_line; i += 1, i2 += 2) {
spec[i2]=buffer[i]; /* поглотить 1е окно */
spec[i2+1]=spec[i+half_lowpass_line]; /* поглотить 2е окно */
}
Результирующий псевдоспектр используется для стереодекодирования (ISO/IEC 23003-3:2012 раздел 7.7) и обновления dmx_re_prev[ ] (ISO/IEC 23003-3:2012 раздел 7.7.2) и в случает tns_on_lr == 0, стереодекодированные спектры с полной длиной снова обратно перемежаются посредством повторения процесса раздела. Наконец, вычисляются 2 обратных MDCT с помощью ccfl и window_shape канала для текущего и последнего кадра.
Обработка для TS следует описанию, приведенному в ISO/IEC 23003-3:2012 разделе "7.9 Filterbank и block switching". Должны быть учтены нижеследующие дополнения.
TS-коэффициенты в spec[ ] обратно перемежаются с использованием вспомогательного средства buffer[ ] с N, причем длина окна основана значении window_sequence:
for (i=0, i2=0; i < N/2; i += 1, i2 += 2) {
spec[0][i]=spec[i2]; /* изолировать 1е окно */
buffer[i]=spec[i2+1]; /* изолировать 2е окно */
}
for (i=0; i < N/2; i += 1) {
spec[1][i]=buffer[i]; /* скопировать 2е окно */
}
IMDCT для спектра TS с половинной длиной тогда задается как:
Figure 00000002
Последовательные этапы обработки методом окна и переключения блоков задаются в текстовых подразделах.
Разбиение преобразования с STOP_START_SEQUENCE будет выглядеть как нижеследующее описание:
STOP_START_SEQUENCE в комбинации с разбиением преобразования было изображено на Фиг. 2. Оно содержит два окна 56, 58 с половинной длиной с перекрытием и суммированием с использованием длины N_l/2, которая составляет 1024 (960, 768). N_s задано в значение 256 (240, 192) соответственно.
Окна (0,1) для двух IMDCT с половинной длиной заданы как следует ниже:
Figure 00000003
где для первого IMDCT применяются окна
Figure 00000004
и для второго IMDCT применяются окна
Figure 00000005
Перекрытие и суммирование между двумя окнами с половинной длиной, приводящие к значениям zi,n частотной области, обработанным методом окна, описано как следует ниже. Здесь, N_l задано в значение 2048 (1920, 1536), N_s в значение 256 (240, 192) соответственно:
Figure 00000006
Разбиение преобразования с LONG_START_SEQUENCE будет выглядеть как нижеследующее описание:
LONG_START_SEQUENCE в комбинации с разбиением преобразования было изображено на Фиг. 4. Он содержит три окна, заданных как следует ниже, где N_l/ задано в значение 1024 (960, 768), N_s задано в значение 256 (240, 192) соответственно.
Figure 00000007
Figure 00000008
Левая/правая половины окна задаются посредством:
Figure 00000009
,
Figure 00000010
Третье окно равняется левой половине LONG_START_WINDOW:
Figure 00000011
с
Figure 00000012
Перекрытие и суммирование между двумя окнами с половинной длиной, приводящие к промежуточным значениям
Figure 00000013
частотной области, обработанным методом окна, описано как следует ниже. Здесь, N_l задано в значение 2048 (1920, 1536), N_s в значение 256 (240, 192) соответственно.
Figure 00000014
Итоговые значения zi,n частотной области, обработанные методом окна, получаются посредством применения W2:
Figure 00000015
Независимо от того, используется ли явное или неявное обратно полусовместимое сигнализирование, каждое из которых было описано выше, некоторые модификации для стереодекодирования с комплексным предсказанием для xHE-AAC могут быть необходимы, для того, чтобы достигнуть значимого функционирования в отношении перемеженных спектров.
Модификация для стереодекодирования с комплексным предсказанием может быть реализована, как следует ниже.
Так как стереоинструменты в FD функционируют в отношении перемеженного псевдоспектра, когда TS активно в канальной паре, изменения для лежащей в основе обработки M/S или комплексного предсказания не требуются. Однако, получение понижающего микширования предыдущего кадра dmx_re_prev[ ] и вычисление MDST с понижающим микшированием dmx_im[ ] в ISO/IEC 23003-3:2012 разделе 7.7.2 должно быть адаптировано, если TS используется в канале либо последнего, либо текущего кадра:
use_prev_frame должно быть 0, если активность TS изменилась в канале либо последнего, либо текущего кадра. Другими словами, dmx_re_prev[ ] не должно быть использовано в этом случае из-за переключения длины преобразования.
Если TS было или является активным, dmx_re_prev[ ] и dmx_re[ ] точно определяют перемеженные псевдоспектры и должны быть подвергнуты обратному перемежению в их соответствующие два спектра TS с половинной длиной для корректного вычисления MDST.
При активности TS, 2 понижающие микширования MDST с половинной длиной вычисляются с использованием адаптированных коэффициентов фильтра (Таблицы 1 и 2) и перемеженных в спектр с полной длиной dmx_im[ ] (прямо как dmx_re[ ]).
window_sequence: Оценки MDST с понижающим микшированием вычисляются для каждой пары окон группы. use_prev_frame оценивается только для первой из двух пар половинных окон. Для оставшейся пары окон, предшествующая пара окон всегда используется для оценки MDST, что предполагает use_prev_frame=1.
Формы окон: Параметры оценки MDST для текущего окна, которые являются коэффициентами фильтра, как описано ниже, зависят от форм левой и правой половин окна. Для первого окна, это означает, что параметры фильтра являются функцией флагов window_shape текущего и предыдущего кадров. Остающееся окно подвергается воздействию только текущего window_shape.
Таблица 1
Параметры MDST-фильтра для текущего окна (filter_coefs)
Текущая последовательность окна Левая половина: Синусоидальная форма Правая половина: Синусоидальная форма Левая половина: Форма KBD Правая половина: Форма KBD
LONG_START_SEQUENCE
STOP_START_SEQUENCE
[0,185618f, -0,000000f, 0,627371f,
0,000000f,
-0,627371f, 0,000000f, -0,185618f]

[0,203599f, -0,000000f, 0,633701f,
0,000000f,
-0,633701f, 0,000000f, -0,203599f]
Текущая последовательность окна Левая половина: Синусоидальная форма Правая половина: Форма KBD Левая половина: Форма KBD Правая половина: Синусоидальная форма
LONG_START_SEQUENCE
STOP_START_SEQUENCE
[0,194609f, 0,006202f, 0,630536f, 0,000000f,
-0,630536f, -0,006202f, -0,194609f]
[0,194609f, -0,006202f, 0,630536f, 0,000000f,
-0,630536f, 0,006202f, -0,194609f]
Таблица 2
Параметры MDST-фильтра для предыдущего окна (filter_coefs_prev)
Текущая последовательность окна Левая половина текущего окна: Синусоидальная форма Левая половина текущего окна: Форма KBD
LONG_START_SEQUENCE
STOP_START_SEQUENCE
[0,038498, 0,039212, 0,039645,
0,039790,
0,039645, 0,039212, 0,038498]
[0,038498, 0,039212, 0,039645,
0,039790,
0,039645, 0,039212, 0,038498]
Наконец, Фиг. 5 показывает для полноты описания возможный аудиокодер в частотной области, поддерживающий переключение длины преобразования, согласующееся с вариантами осуществления, обозначенными выше. То есть, кодер по Фиг. 5, который в общем указан с использованием ссылочного обозначения 100, способен кодировать аудиосигнал 102 в поток 20 данных таким образом, что декодер по Фиг. 1 и соответствующие варианты, описанные выше, способны воспользоваться преимуществом модели разбиения преобразования для некоторых из кадров, хотя "устаревшие" декодеры все еще способны обрабатывать кадры с TS без синтаксического анализа ошибок или подобного.
Кодер 100 по Фиг. 5 содержит преобразователь 104, блок 106 обратного масштабирования, блок 108 вставки коэффициентов частотной области и блок 110 вставки множителей масштабирования. Преобразователь 104 принимает аудиосигнал 102, который должен быть кодирован, и выполнен с возможностью подвергания участков временной области аудиосигнала преобразованию для получения коэффициентов частотной области для кадров аудиосигнала. В частности, как стало ясно из вышеуказанного рассмотрения, преобразователь 104 принимает решение на покадровой основе в отношении того, какое подразделение этих кадров 26 на преобразования – или окна преобразования - использовать. Как описано выше, кадры 26 могут быть равной длины, и преобразованием может быть преобразование с перекрытием, использующим перекрывающиеся преобразования с разными длинами. Фиг. 5 иллюстрирует, например, что кадр 26a подвергается одному длинному преобразованию, кадр 26b подвергается разбиению преобразования, т.е. двум преобразованиям с половинной длиной, и дополнительно показано подвержение кадра 26c более, чем двум, т.е. 2n>2, даже более коротким преобразованиям с длинной длинного преобразования 2-n. Как описано выше, поэтому, кодер 100 способен адаптировать спектро-временное разрешение спектрограммы, представленной посредством преобразования с перекрытием, выполненного преобразователем 104, к переменному во времени аудиоконтенту или виду аудиоконтента аудиосигнала 102.
То есть, коэффициенты частотной области возникают на выходе преобразователя 104, представляющего спектрограмму аудиосигнала 102. Блок 106 обратного масштабирования соединен с выходом преобразователя 104 и выполнен с возможностью обратного масштабирования, и одновременного квантования, коэффициентов частотной области согласно множителям масштабирования. Примечательно, блок обратного масштабирования функционирует в отношении частотных коэффициентов по мере их получения преобразователем 104. То есть, блок 106 обратного масштабирования должен, необязательно, знать о присвоении длины преобразования или присвоении режима преобразования кадрам 26. Отметим также, что блок 106 обратного масштабирования должен определить множители масштабирования. Блок 106 обратного масштабирования, в этой связи, например, является частью цикла обратной связи, который оценивает психоакустический порог маскирования, определенный для аудиосигнала 102, так чтобы сохранить шум квантования, введенный квантованием и постепенно заданный согласно множителям масштабирования, ниже психоакустического порога обнаружения как можно дальше с или без соблюдения некоторого ограничения скорости передачи битов.
На выходе блока 106 обратного масштабирования, выводятся множители масштабирования и обратно масштабированные и квантованные коэффициенты частотной области, и блок 110 вставки множителей масштабирования выполнен с возможностью вставки множителей масштабирования в поток 20 данных, тогда как блок 108 вставки коэффициентов частотной области выполнен с возможностью вставки коэффициентов частотной области кадров аудиосигнала, обратно масштабированных и квантованных согласно множителям масштабирования, в поток 20 данных. Соответствующим декодеру образом, оба блока 108 и 110 вставки функционируют независимо от режима преобразования, ассоциированного с кадрами 26, поскольку рассматривается расположение рядом кадров 26a режима длинного преобразования и кадров 26b режима разбиения преобразования.
Другими словами, блоки 110 и 108 вставки функционируют независимо от сигнализации 34, упомянутой выше, с возможностью сигнализации которой, или передачи, в поток 20 данных для кадров 26a и 26b, соответственно, выполнен преобразователь 104.
Другими словами, в вышеуказанном варианте осуществления, это преобразователь 104, который соответствующим образом размещает коэффициенты преобразования кадров с длинным преобразованием и с разбитым преобразованием, а именно посредством простого последовательного размещения или перемежения, и блок вставки работает действительно независимо от 109. Но в более общем смысле достаточно, если независимость блока вставки коэффициентов частотной области от сигнализации ограничивается вставкой последовательности коэффициентов частотной области каждого из кадров с длинным преобразованием и с разбитым преобразованием аудиосигнала, отмасштабированных посредством обратного масштабирования согласно множителям масштабирования, в поток данных, в том, что, в зависимости от сигнализации, последовательность коэффициентов частотной области формируется посредством последовательной компоновке коэффициентов частотной области одного преобразования соответствующего кадра неперемеженным образом в случае, когда кадр является кадром с длинным преобразованием, и посредством перемежения коэффициентов частотной области более, чем одного преобразования соответствующего кадра в случае, когда соответствующий кадр является кадром с разбитым преобразованием.
Поскольку рассматривается блок 108 вставки коэффициентов частотной области, тот факт, что блок 108 вставки коэффициентов частотной области функционирует независимо от сигнализации 34, осуществляющей различие между кадрами 26a с одной стороны и кадрами 26b с другой стороны, означает, что блок 108 вставки вставляет коэффициенты частотной области кадров аудиосигнала, отмасштабированные посредством обратного масштабирования согласно множителям масштабирования, в поток 20 данных последовательным образом в случае одного преобразования, выполненного для соответствующего кадра, неперемеженным образом, и вставляет коэффициенты частотной области соответствующих кадров с использованием перемежения в случае более, чем одного преобразования, выполненного для соответствующего кадра, а именно двух в примере по Фиг. 5. Однако, как уже отмечено выше, режим разбиения преобразования может также быть реализован по-другому, так чтобы разбить одно преобразование на более, чем два преобразования.
Наконец, следует отметить, что кодер по Фиг. 5 может также быть адаптирован для выполнения всех других дополнительных мер кодирования, обозначенных выше по отношению к Фиг. 2, таких как MS-кодирование, комплексное стереопредсказание 42 и TNS с помощью, в этой связи, определения их соответствующих параметров 44, 48 и 64.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут быть выполнены посредством (или используя) аппаратного устройства, как например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, некоторый один или более из наиболее важных этапов способа могут быть выполнены таким устройством.
В зависимости от некоторых требований реализации, варианты осуществления данного изобретения могут быть реализованы в аппаратных средствах или программном обеспечении. Данная реализация может быть выполнена, используя цифровую среду хранения, например, floppy-диск, DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM или flash-память, имеющий электронно-считываемые сигналы управления, хранящиеся на нем, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, так чтобы выполнялся соответствующий способ. Вследствие этого, цифровой носитель информации может быть компьютерно-читаемым.
Некоторые варианты осуществления согласно данному изобретению содержат носитель данных, имеющий электронно-считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, так чтобы выполнялся один из способов, описанных в настоящем документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программным кодом, действующим для выполнения одного из способов, когда компьютерный программный продукт запускается на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, хранящихся на машиночитаемом носителе.
Другими словами, вариант осуществления изобретательского способа, вследствие этого, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа запускается на компьютере.
Дополнительный вариант осуществления изобретательских способов, вследствие этого, является носителем данных (или цифровой средой хранения или компьютерно-читаемой средой), содержащей, записанную на нем, компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой носитель информации или носитель записи обычно являются материальными и/или невременными.
Дополнительный вариант осуществления изобретательского способа, вследствие этого, является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, быть выполнены с возможностью пересылки посредством соединения связи, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления согласно данному изобретению содержит устройство или систему, выполненную с возможностью пересылки в приемник (например, электронным образом или оптическим образом) компьютерной программы для выполнения одного из способов, описанных в настоящем документе. Приемник может, например, быть компьютером, мобильным устройством, запоминающим устройством или подобным. Устройство или система могут, например, содержать файл-сервер для пересылки компьютерной программы в приемник.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных в настоящем документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. В общем, способы предпочтительно выполняются любым аппаратным устройством.
Вышеописанные варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Следует понимать, что модификации и вариации данных компоновок и сведений, описанных в настоящем документе, будут понятны специалистам в данной области техники. Вследствие этого, они должны быть ограничены только объемом предстоящей формулы изобретения, а не конкретными сведениями, представленными с целью описания и разъяснения вариантов осуществления в настоящем документе.
Использованная литература
[1] Рабочая группа инженерной поддержки Интернет (IETF), RFC 6716, "Definition of the Opus Audio Codec", предложенный стандарт, сентябрь 2012. Доступно в сети по адресу http://tools.ietf.org/html/rfc6716.
[2] Международная организация по стандартизации, ISO/IEC 14496-3:2009, "Information Technology – Coding of audio-visual objects – Part 3: Audio", Женева, Швецария, август 2009.
[3] M. Neuendorf et al., "MPEG Unified Speech и Audio Coding – The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", in Proc. 132ая конвенция AES, Будапешт, Венгрия, апрель 2012. Также должно появиться в Журнале AES, 2013.
[4] Международная организация по стандартизации, ISO/IEC 23003-3:2012, "Information Technology – MPEG audio – Part 3: Unified speech и audio coding", Женева, январь 2012.
[5] J.D.Johnston и A.J.Ferreira, "Sum-Difference Stereo Transform Coding", in Proc. IEEE ICASSP-92, том 2, март 1992.
[6] N.Rettelbach, et al., патент Европы EP2304719A1, "Audio Encoder, Audio Decoder, Methods for Encoding and Decoding an Audio Signal, Audio Stream and Computer Program", апрель 2011.

Claims (70)

1. Аудиодекодер в частотной области, поддерживающий переключение длины преобразования, содержащий
блок извлечения коэффициентов частотной области, выполненный с возможностью извлечения коэффициентов частотной области кадров аудиосигнала из потока данных;
блок извлечения множителей масштабирования, выполненный с возможностью извлечения множителей масштабирования из потока данных;
обратный преобразователь, выполненный с возможностью подвергания коэффициентов частотной области кадров, отмасштабированных согласно множителям масштабирования, обратному преобразованию для получения участков временной области аудиосигнала;
блок объединения, выполненный с возможностью объединения участков временной области для получения аудиосигнала,
при этом обратный преобразователь отвечает на сигнализацию в пределах кадров аудиосигнала, так чтобы, в зависимости от сигнализации,
сформировать одно преобразование посредством последовательной компоновки коэффициентов частотной области соответствующего кадра, отмасштабированных согласно множителям масштабирования, не обратно перемеженным образом и подвергнуть одно преобразование обратному преобразованию первой длины преобразования, или
сформировать более чем одно преобразование посредством обратного перемежения коэффициентов частотной области соответствующего кадра, отмасштабированных согласно множителям масштабирования, и подвергнуть каждое из более чем одного преобразований обратному преобразованию второй длины преобразования, более короткой, чем первая длина преобразования,
при этом блок извлечения коэффициентов частотной области и блок извлечения множителей масштабирования функционируют независимо от сигнализации,
при этом обратный преобразователь выполнен с возможностью выполнения фильтрации обратного временного ограничения шума в отношении последовательности из N коэффициентов независимо от сигнализации посредством применения фильтра, передаточная функция которого задана согласно TNS-коэффициентам, в отношении последовательности из N коэффициентов, с помощью:
при формировании одного преобразования - применения фильтрации обратного временного ограничения шума с использованием коэффициентов частотной области, последовательно скомпонованных не обратно перемеженным образом, как последовательности из N коэффициентов, и
при формировании более чем одного преобразований - применения фильтрации обратного временного ограничения шума в отношении коэффициентов частотной области с использованием коэффициентов частотной области, последовательно скомпонованных обратно перемеженным образом, согласно которому упомянутые более чем одно преобразования спектрально связаны, как последовательность из N коэффициентов.
2. Аудиодекодер в частотной области по п. 1, в котором блок извлечения множителей масштабирования выполнен с возможностью извлечения множителей масштабирования из потока данных при спектро-временном разрешении, которое не зависит от сигнализации.
3. Аудиодекодер в частотной области по п. 1, в котором блок извлечения коэффициентов частотной области использует контекстно-зависимое или основанное на кодовой книге энтропийное декодирование для извлечения коэффициентов частотной области из потока данных, с помощью присваивания, для каждого коэффициента частотной области, одинакового контекста или кодовой книги соответствующему коэффициенту частотной области независимо от сигнализации.
4. Аудиодекодер в частотной области согласно п. 1, в котором обратный преобразователь выполнен с возможностью подвергания коэффициентов частотной области масштабированию согласно множителям масштабирования при спектральном разрешении, независимом от сигнализации.
5. Аудиодекодер в частотной области согласно п. 1, в котором обратный преобразователь выполнен с возможностью подвергания коэффициентов частотной области заполнению шумом, причем коэффициенты частотной области последовательно скомпонованы не обратно перемеженным образом, и при спектральном разрешении, независимом от сигнализации.
6. Аудиодекодер в частотной области согласно п. 1, в котором обратный преобразователь выполнен с возможностью поддержки кодирования сведенного стерео с или без межканального стереопредсказания и использования коэффициентов частотной области как суммарного (среднего) или разностного (бокового) спектра или остатка предсказания межканального стереопредсказания, причем коэффициенты частотной области скомпонованы не обратно перемеженным образом, независимо от сигнализации.
7. Аудиодекодер в частотной области согласно п. 1, в котором число более чем одного преобразований равняется 2, и первая длина преобразования в два раза больше второй длины преобразования.
8. Аудиодекодер в частотной области согласно п. 1, в котором обратным преобразованием является обратное модифицированное дискретное косинусное преобразование, IMDCT.
9. Способ для аудиодекодирования в частотной области, поддерживающий переключение длины преобразования, содержащий этапы, на которых
извлекают коэффициенты частотной области кадров аудиосигнала из потока данных;
извлекают множители масштабирования из потока данных;
подвергают коэффициенты частотной области кадров, отмасштабированные согласно множителям масштабирования, обратному преобразованию для получения участков временной области аудиосигнала;
объединяют участки временной области для получения аудиосигнала,
при этом подвергание обратному преобразованию отвечает на сигнализацию в пределах кадров аудиосигнала так чтобы в зависимости от сигнализации содержать этапы, на которых
формируют одно преобразование посредством последовательной компоновки коэффициентов частотной области соответствующего кадра не обратно перемеженным образом и подвергают одно преобразование обратному преобразованию первой длины преобразования, или
формируют более чем одно преобразование посредством обратного перемежения коэффициентов частотной области соответствующего кадра и подвергают каждое из более чем одного преобразований обратному преобразованию второй длины преобразования, более короткой, чем первая длина преобразования,
при этом извлечение коэффициентов частотной области и извлечение множителей масштабирования не зависят от сигнализации,
при этом подвергание обратному преобразованию содержит этап, на котором
выполняют фильтрацию обратного временного ограничения шума в отношении последовательности из N коэффициентов независимо от сигнализации посредством применения фильтра, передаточная функция которого задана согласно TNS-коэффициентам, в отношении последовательности из N коэффициентов, с помощью:
при формировании одного преобразования - применения фильтрации обратного временного ограничения шума с использованием коэффициентов частотной области, последовательно скомпонованных не обратно перемеженным образом, как последовательности из N коэффициентов, и
при формировании более чем одного преобразований - применения фильтрации обратного временного ограничения шума в отношении коэффициентов частотной области с использованием коэффициентов частотной области, последовательно скомпонованных обратно перемеженным образом, согласно которому более чем одно преобразования спектрально связаны, как последовательность из N коэффициентов.
10. Аудиокодер в частотной области, поддерживающий переключение длины преобразования, содержащий
преобразователь, выполненный с возможностью подвергания участков временной области аудиосигнала преобразованию для получения коэффициентов частотной области кадров аудиосигнала;
блок обратного масштабирования, выполненный с возможностью обратного масштабирования коэффициентов частотной области согласно множителям масштабирования;
блок вставки коэффициентов частотной области, выполненный с возможностью вставки коэффициентов частотной области кадров аудиосигнала, обратно отмасштабированных согласно множителям масштабирования, в поток данных; и
блок вставки множителей масштабирования, выполненный с возможностью вставки множителей масштабирования в поток данных,
при этом преобразователь выполнен с возможностью переключения для кадров аудиосигналов, по меньшей мере, между
выполнением одного преобразования первой длины преобразования для соответствующего кадра, и
выполнением более чем одного преобразования второй длины преобразования, более короткой, чем первая длина преобразования, для соответствующего кадра,
при этом преобразователь дополнительно выполнен с возможностью сигнализирования переключения посредством сигнализации в пределах кадров потока данных;
при этом блок вставки коэффициентов частотной области выполнен с возможностью в зависимости от сигнализации формирования последовательности коэффициентов частотной области
посредством последовательной компоновки коэффициентов частотной области одного преобразования соответствующего кадра неперемеженным образом в случае выполнения одного преобразования для соответствующего кадра, и
посредством перемежения коэффициентов частотной области более чем одного преобразования соответствующего кадра в случае выполнения более чем одного преобразования для соответствующего кадра,
независимым от сигнализации образом вставки, для соответствующего кадра, последовательности коэффициентов частотной области соответствующего кадра аудиосигнала, обратно отмасштабированных согласно множителям масштабирования, в поток данных,
при этом блок вставки множителей масштабирования функционирует независимо от сигнализации,
при этом кодер выполнен с возможностью
выполнения временного ограничения шума в отношении последовательности из N коэффициентов, так чтобы определить TNS-коэффициенты независимым от сигнализации образом, при этом
в случае выполнения одного преобразования коэффициенты частотной области, последовательно скомпонованные не обратно перемеженным образом, используются как последовательность из N коэффициентов, и
в случае выполнения более чем одного преобразования коэффициенты частотной области, последовательно скомпонованные обратно перемеженным образом, согласно которому более чем одно преобразования спектрально связаны, используются как последовательность из N коэффициентов.
11. Способ для аудиокодирования в частотной области, поддерживающий переключение длины преобразования, содержащий этапы, на которых
подвергают участки временной области аудиосигнала преобразованию для получения коэффициентов частотной области кадров аудиосигнала;
осуществляют обратное масштабирование коэффициентов частотной области согласно множителям масштабирования;
вставляют коэффициенты частотной области кадров аудиосигнала, обратно отмасштабированных согласно множителям масштабирования, в поток данных; и
вставляют множители масштабирования в поток данных,
при этом подвержение преобразованию переключается для кадров аудиосигнала, по меньшей мере, между
выполнением одного преобразования первой длины преобразования для соответствующего кадра, и
выполнением более чем одного преобразования второй длины преобразования, более короткой, чем первая длина преобразования, для соответствующего кадра,
при этом способ содержит этап, на котором сигнализируют переключение посредством сигнализации в пределах кадров потока данных;
при этом вставка коэффициентов частотной области выполняется посредством, в зависимости от сигнализации, последовательности коэффициентов частотной области, образованной
посредством последовательной компоновки коэффициентов частотной области одного преобразования соответствующего кадра неперемеженным образом в случае выполнения одного преобразования для соответствующего кадра, и
посредством перемежения коэффициентов частотной области более чем одного преобразования соответствующего кадра в случае выполнения более чем одного преобразования для соответствующего кадра,
независимым от сигнализации образом вставляют, для соответствующего кадра, последовательность коэффициентов частотной области соответствующего кадра аудиосигнала, обратно отмасштабированных согласно множителям масштабирования, в поток данных,
при этом вставка множителей масштабирования выполняется независимо от сигнализации,
при этом способ содержит этап, на котором
выполняют временное ограничение шума в отношении последовательности из N коэффициентов, так чтобы определить TNS-коэффициенты независимым от сигнализации образом, при этом
в случае выполнения одного преобразования коэффициенты частотной области, последовательно скомпонованные не обратно перемеженным образом, используются как последовательность из N коэффициентов, и
в случае выполнения более чем одного преобразования коэффициенты частотной области, последовательно скомпонованные обратно перемеженным образом, согласно которому более чем одно преобразования спектрально связаны, используются как последовательность из N коэффициентов.
12. Машиночитаемый носитель, хранящий компьютерную программу, имеющую программный код для выполнения, когда запускается на компьютере, способа по п. 9.
13. Машиночитаемый носитель, хранящий компьютерную программу, имеющую программный код для выполнения, когда запускается на компьютере, способа по п. 11.
RU2016105704A 2013-07-22 2014-07-15 Аудиокодирование в частотной области, поддерживающее переключение длины преобразования RU2654139C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177373 2013-07-22
EP13177373.1 2013-07-22
EP13189334.9 2013-10-18
EP13189334.9A EP2830058A1 (en) 2013-07-22 2013-10-18 Frequency-domain audio coding supporting transform length switching
PCT/EP2014/065169 WO2015010965A1 (en) 2013-07-22 2014-07-15 Frequency-domain audio coding supporting transform length switching

Publications (2)

Publication Number Publication Date
RU2016105704A RU2016105704A (ru) 2017-08-23
RU2654139C2 true RU2654139C2 (ru) 2018-05-16

Family

ID=48808222

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016105704A RU2654139C2 (ru) 2013-07-22 2014-07-15 Аудиокодирование в частотной области, поддерживающее переключение длины преобразования

Country Status (20)

Country Link
US (4) US10242682B2 (ru)
EP (6) EP2830058A1 (ru)
JP (5) JP6247759B2 (ru)
KR (1) KR101819401B1 (ru)
CN (2) CN110739001B (ru)
AR (1) AR097005A1 (ru)
AU (1) AU2014295313B2 (ru)
CA (1) CA2918849C (ru)
ES (3) ES2902949T3 (ru)
FI (1) FI3961621T3 (ru)
HK (1) HK1254315A1 (ru)
MX (1) MX357694B (ru)
MY (1) MY184665A (ru)
PL (3) PL3961621T3 (ru)
PT (3) PT3312836T (ru)
RU (1) RU2654139C2 (ru)
SG (1) SG11201600369UA (ru)
TW (1) TWI559294B (ru)
WO (1) WO2015010965A1 (ru)
ZA (1) ZA201601115B (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US20190373312A1 (en) 2012-02-21 2019-12-05 Gracenote, Inc. Media Content Identification on Mobile Devices
US10986154B2 (en) 2016-05-16 2021-04-20 Glide Talk Ltd. System and method for interleaved media communication and conversion
BR112020025515A2 (pt) * 2018-06-21 2021-03-09 Sony Corporation Dispositivo e método de codificação, mídia de armazenamento legível por computador, e, dispositivo e método de decodificação

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000036753A1 (en) * 1998-12-14 2000-06-22 Microsoft Corporation Multi-level run length coding for frequency-domain audio coding
WO2004079923A2 (en) * 2003-02-28 2004-09-16 Xvd Corporation Method and apparatus for audio compression
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US20090319278A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (mclt)
US20100076754A1 (en) * 2007-01-05 2010-03-25 France Telecom Low-delay transform coding using weighting windows
US7860709B2 (en) * 2004-05-17 2010-12-28 Nokia Corporation Audio encoding with different coding frame lengths
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
WO2011147950A1 (en) * 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
EP0966109B1 (en) * 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
CN2482427Y (zh) 2001-05-24 2002-03-20 张沛远 甘露醇药液静滴自动加压装置
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
CN102592638A (zh) * 2004-07-02 2012-07-18 尼尔逊媒介研究股份有限公司 用于进行压缩数字位流的混合的方法及装置
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US7937271B2 (en) * 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
JP5100124B2 (ja) * 2004-10-26 2012-12-19 パナソニック株式会社 音声符号化装置および音声符号化方法
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US8032368B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block swithcing and linear prediction coding
ATE496365T1 (de) 2006-08-15 2011-02-15 Dolby Lab Licensing Corp Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
JP2008129250A (ja) 2006-11-20 2008-06-05 National Chiao Tung Univ Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2346030B1 (en) 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
CN102089808B (zh) 2008-07-11 2014-02-12 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、用于编码及解码音频信号的方法
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
EP3640941A1 (en) 2008-10-08 2020-04-22 Fraunhofer Gesellschaft zur Förderung der Angewand Multi-resolution switched audio encoding/decoding scheme
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
CN101494054B (zh) * 2009-02-09 2012-02-15 华为终端有限公司 一种音频码率控制方法及系统
US8311843B2 (en) * 2009-08-24 2012-11-13 Sling Media Pvt. Ltd. Frequency band scale factor determination in audio encoding based upon frequency band signal energy
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
AU2012230442B2 (en) * 2011-03-18 2016-02-25 Dolby International Ab Frame element length transmission in audio coding
WO2012161675A1 (en) * 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
JP6069341B2 (ja) 2011-11-30 2017-02-01 ドルビー・インターナショナル・アーベー オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
CN110047498B (zh) * 2013-02-20 2023-10-31 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000036753A1 (en) * 1998-12-14 2000-06-22 Microsoft Corporation Multi-level run length coding for frequency-domain audio coding
WO2004079923A2 (en) * 2003-02-28 2004-09-16 Xvd Corporation Method and apparatus for audio compression
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US7860709B2 (en) * 2004-05-17 2010-12-28 Nokia Corporation Audio encoding with different coding frame lengths
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US20100076754A1 (en) * 2007-01-05 2010-03-25 France Telecom Low-delay transform coding using weighting windows
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
US20090319278A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (mclt)
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
WO2011147950A1 (en) * 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec

Also Published As

Publication number Publication date
EP4191581A1 (en) 2023-06-07
ZA201601115B (en) 2017-11-29
EP4191581B1 (en) 2024-03-27
AU2014295313A1 (en) 2016-03-10
JP2018055117A (ja) 2018-04-05
PT3312836T (pt) 2021-12-30
EP2830058A1 (en) 2015-01-28
JP2016532894A (ja) 2016-10-20
JP6247759B2 (ja) 2017-12-13
PT3961621T (pt) 2023-03-31
TWI559294B (zh) 2016-11-21
WO2015010965A1 (en) 2015-01-29
ES2650747T3 (es) 2018-01-22
MX357694B (es) 2018-07-19
JP2019207419A (ja) 2019-12-05
CA2918849A1 (en) 2015-01-29
JP6911080B2 (ja) 2021-07-28
US11862182B2 (en) 2024-01-02
EP4191581C0 (en) 2024-03-27
US20240127836A1 (en) 2024-04-18
RU2016105704A (ru) 2017-08-23
US10984809B2 (en) 2021-04-20
KR20160033755A (ko) 2016-03-28
EP3025339B1 (en) 2017-09-13
SG11201600369UA (en) 2016-02-26
EP3961621A1 (en) 2022-03-02
US10242682B2 (en) 2019-03-26
PL3312836T3 (pl) 2022-03-28
EP3961621B1 (en) 2023-01-04
CN110739001B (zh) 2024-02-27
JP6560320B2 (ja) 2019-08-14
EP4369337A2 (en) 2024-05-15
US20160140972A1 (en) 2016-05-19
US20210233545A1 (en) 2021-07-29
CN105593934B (zh) 2019-11-12
ES2940897T3 (es) 2023-05-12
MY184665A (en) 2021-04-15
TW201519219A (zh) 2015-05-16
PL3025339T3 (pl) 2018-02-28
AR097005A1 (es) 2016-02-10
US20190189138A1 (en) 2019-06-20
AU2014295313B2 (en) 2017-08-03
PT3025339T (pt) 2017-12-20
JP2023126886A (ja) 2023-09-12
HK1254315A1 (zh) 2019-07-19
ES2902949T3 (es) 2022-03-30
KR101819401B1 (ko) 2018-01-16
FI3961621T3 (fi) 2023-03-31
EP3312836A1 (en) 2018-04-25
EP3025339A1 (en) 2016-06-01
CA2918849C (en) 2019-05-21
CN110739001A (zh) 2020-01-31
PL3961621T3 (pl) 2023-05-02
JP2021170127A (ja) 2021-10-28
MX2016000913A (es) 2016-06-21
CN105593934A (zh) 2016-05-18
EP3312836B1 (en) 2021-10-27
JP7311940B2 (ja) 2023-07-20

Similar Documents

Publication Publication Date Title
US11727944B2 (en) Apparatus and method for stereo filling in multichannel coding
US11862182B2 (en) Frequency-domain audio coding supporting transform length switching