RU2625939C2 - Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов - Google Patents

Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов Download PDF

Info

Publication number
RU2625939C2
RU2625939C2 RU2015116645A RU2015116645A RU2625939C2 RU 2625939 C2 RU2625939 C2 RU 2625939C2 RU 2015116645 A RU2015116645 A RU 2015116645A RU 2015116645 A RU2015116645 A RU 2015116645A RU 2625939 C2 RU2625939 C2 RU 2625939C2
Authority
RU
Russia
Prior art keywords
signal
converted
subband
audio object
channels
Prior art date
Application number
RU2015116645A
Other languages
English (en)
Other versions
RU2015116645A (ru
Inventor
Саша ДИШ
Йоуни ПАУЛУС
Бернд ЭДЛЕР
Оливер ХЕЛЛЬМУТ
Юрген ХЕРРЕ
Торстен КАСТНЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2015116645A publication Critical patent/RU2015116645A/ru
Application granted granted Critical
Publication of RU2625939C2 publication Critical patent/RU2625939C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

Изобретение относится к средствам для пространственного кодирования аудиообъектов. Технический результат заключается в повышении качества кодированного аудиосигнала. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Декодер содержит блок повышающего микширования, сконфигурированный для повышающего микширования второго преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал. 6 н. и 10 з.п. ф-лы, 22 ил.

Description

Настоящее изобретение относится к кодированию аудиосигнала, декодированию аудиосигнала и обработке аудиосигнала, и в частности, к кодеру, декодеру и способам для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов (SAOC).
В современных системах цифрового аудио главным направлением является создание возможности связанных с аудиообъектом модификаций переданного контента на стороне приемника. Эти модификации включают в себя модификации усиления выбранных частей аудиосигнала и/или пространственную перестановку выделенных аудиообъектов в случае многоканального воспроизведения посредством рассредоточенных в пространстве динамиков. Это может достигаться путем индивидуальной доставки разных частей аудиоконтента в разные динамики.
Другими словами, в области обработки аудио, передачи аудио и хранения аудио существует растущая потребность в разрешении взаимодействия с пользователем касательно объектно-ориентированного воспроизведения аудиоконтента, а также необходимость использовать расширенные возможности многоканального воспроизведения для индивидуального воспроизведения аудиоконтента или его частей, чтобы улучшить слуховое ощущение. К тому же использование многоканального аудиоконтента приносит пользователю значительные улучшения. Например, можно получить трехмерное слуховое ощущение, которое способствует большей удовлетворенности пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также полезен в профессиональных средах, например, в приложениях телефонной конференц-связи, поскольку можно улучшить разборчивость речи говорящего с использованием многоканального воспроизведения аудио. Другим возможным применением является предложение слушателю музыкального произведения индивидуально регулировать уровень воспроизведения и/или пространственное положение разных частей (также называемых "аудиообъектами") либо дорожек, например вокальную часть или разные инструменты. Пользователь может выполнять такую регулировку исходя из личного вкуса, для более простой расшифровки одной или более частей музыкального произведения, для образовательных целей, караоке, репетиции и т. п.
Прямая дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в виде данных импульсно-кодовой модуляции (PCM) или даже форматов сжатого аудио, требует очень высоких скоростей передачи разрядов. Однако также желательно передавать и хранить аудиоданные эффективным по скорости передачи разрядов способом. Поэтому есть желание принять разумный компромисс между качеством аудио и требованиями к скорости передачи разрядов, чтобы избежать чрезмерной загрузки ресурсов, вызванной многоканальными/многообъектными приложениями.
В последнее время в области кодирования аудио Экспертной группой по движущимся изображениям (MPEG) и другими предложены параметрические методики для эффективной по скорости передачи/хранения многоканальных/многообъектных аудиосигналов. Одним примером является MPEG Surround (MPS) в качестве канально-ориентированного подхода [MPS, BCC], или Пространственное кодирование аудиообъектов MPEG (SAOC) в качестве объектно-ориентированного подхода [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход называется "информированным разделением источников" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти методики направлены на восстановление нужной выходной аудиосцены или нужного объекта источника аудио на основе понижающего микширования каналов/объектов и дополнительной информации, описывающей переданную/сохраненную аудиосцену и/или объекты источников аудио в аудиосцене.
В таких системах оценка и применение связанной с каналом/объектом дополнительной информации выполняется избирательным по времени-частоте способом. Поэтому такие системы применяют частотно-временные преобразования, например дискретное преобразование Фурье (DFT), оконное преобразование Фурье (STFT) или гребенки фильтров типа гребенок квадратурного зеркального фильтра (QMF), и т.п. Основной принцип таких систем изображается на фиг. 3 с использованием примера SAOC MPEG.
В случае STFT временная размерность представляется номером временного блока, а спектральная размерность охватывается номером спектрального коэффициента ("элемента разрешения"). В случае QMF временная размерность представляется номером временного интервала, а спектральная размерность охватывается номером поддиапазона. Если спектральное разрешение QMF повышается путем последующего применения второго каскада фильтра, то вся гребенка фильтров называется гибридным QMF, а поддиапазоны высокого разрешения называются гибридными поддиапазонами.
Как уже упоминалось выше, в SAOC общая обработка осуществляется избирательным по времени-частоте способом и может описываться в каждом диапазоне частот следующим образом, как изображено на фиг. 3:
- N сигналов s1…sN входных аудиообъектов подвергаются понижающему микшированию в P каналов x1…xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1…dN,P. К тому же кодер извлекает дополнительную информацию, описывающую характеристики входных аудиообъектов (модуль оценки дополнительной информации (SIE)). Для SAOC MPEG зависимости мощностей объектов друг от друга являются основным видом такой дополнительной информации.
- Сигнал понижающего микширования (сигналы) и дополнительная информация передаются/сохраняются. С этой целью аудиосигнал (сигналы) понижающего микширования можно сжимать, например, с использованием общеизвестных кодеров воспринимаемого аудио, таких как Уровень II или III MPEG-1/2 (также известный как .mp3), Усовершенствованное аудиокодирование (AAC) MPEG-2/4 и т.п.
- На принимающей стороне декодер концептуально пытается восстановить исходные сигналы объектов ("разделение объектов") из (декодированных) сигналов понижающего микширования, используя переданную дополнительную информацию. Эти приблизительные сигналы ŝ1…ŝN объектов затем подвергаются микшированию в целевую сцену, представленную M каналами ŷ1…ŷM вывода аудио, используя матрицу воспроизведения, описанную коэффициентами r1,1…rN,M на фиг. 3. Нужная целевая сцена в предельном случае может быть воспроизведением лишь одного сигнала источника из смеси (сценарий разделения источников), но также любой другой произвольной акустической сценой, состоящей из переданных объектов. Например, результатом может быть одноканальная, 2-канальная (стерео) или многоканальная (5.1) целевая сцена.
Частотно-временные системы могут использовать частотно-временное (t/f) преобразование со статическим разрешением по времени и частоте. Выбор определенной сетки фиксированного t/f-разрешения обычно включает в себя компромисс между разрешением по времени и частоте.
Эффект фиксированного t/f-разрешения можно продемонстрировать на примере типичных сигналов объектов в смеси аудиосигналов. Например, спектры тональных звуков показывают гармонически связанную структуру с основной частотой и несколькими обертонами. Энергия таких сигналов сосредоточена в определенных областях частот. Для таких сигналов высокое разрешение по частоте у используемого t/f-представления выгодно для выделения узкополосных тональных спектральных областей из смеси сигналов. Наоборот, сигналы перехода типа звуков ударных часто имеют четкую временную структуру: существенная энергия присутствует только в коротких периодах времени и распространяется на широкий диапазон частот. Для этих сигналов высокое разрешение по времени у используемого t/f-представления выгодно для выделения части с сигналами перехода из смеси сигналов.
Имеющиеся схемы кодирования аудиообъектов предлагают лишь ограниченную изменчивость в избирательности по времени-частоте в обработке SAOC. Например, SAOC MPEG [SAOC][SAOC1][SAOC2] ограничивается разрешением по времени-частоте, которое можно получить с использованием так называемой гребенки гибридного квадратурного зеркального фильтра (Гибридный QMF), и его последующего группирования в параметрические диапазоны. Поэтому восстановление объекта при стандартном SAOC (SAOC MPEG, которое стандартизовано в [SAOC]) часто страдает от низкого разрешения по частоте у Гибридного QMF, приводящего к слышимым модулированным перекрестным помехам от других аудиообъектов (например, артефактам неразборчивости в речи или артефактам резкости для слуха в музыке).
Схемы кодирования аудиообъектов, например бинауральное кодирование с метками [BCC] и параметрическое совместное кодирование источников аудио [JSC], также ограничены использованием одной гребенки фильтров с фиксированным разрешением. Фактический выбор гребенки фильтров с фиксированным разрешением или преобразования всегда включает в себя предопределенный компромисс в части оптимальности между временными и спектральными свойствами схемы кодирования.
В области информированного разделения источников (ISS) предложено динамически адаптировать длину частотно-временного преобразования к свойствам сигнала [ISS7], что известно из схем кодирования воспринимаемого аудио, например, усовершенствованного аудиокодирования (AAC)[AAC].
Цель настоящего изобретения – предоставить усовершенствованные идеи для кодирования аудиообъектов. Цель настоящего изобретения достигается с помощью декодера по п. 1, кодера по п. 7, способа декодирования по п. 13, способа кодирования по п. 14 и компьютерной программы по п. 15.
В отличие от современного SAOC варианты осуществления предоставляются для динамической адаптации разрешения по времени-частоте к сигналу обратно совместимым способом, так что
- потоки двоичных сигналов параметров SAOC, исходящие из кодера стандартного SAOC (SAOC MPEG, которое стандартизовано в [SAOC]), по-прежнему можно декодировать с помощью улучшенного декодера с воспринимаемым качеством, сопоставимым с получаемым от стандартного декодера,
- потоки двоичных сигналов параметров улучшенного SAOC можно декодировать с оптимальным качеством с помощью улучшенного декодера, и
- потоки двоичных сигналов параметров стандартного и улучшенного SAOC можно смешивать, например, в сценарии многоточечного блока управления (MCU), в один общий поток двоичных сигналов, который можно декодировать с помощью стандартного или улучшенного декодера.
Для вышеупомянутых свойств полезно предусмотреть общее представление гребенки фильтров/преобразования, которое можно динамически адаптировать в части разрешения по времени-частоте к поддержке декодирования данных нового улучшенного SAOC и, одновременно, обратно совместимого отображения данных традиционного, стандартного SAOC. Объединение данных улучшенного SAOC и данных стандартного SAOC возможно при условии такого общего представления.
Воспринимаемое качество улучшенного SAOC можно получить путем динамической адаптации разрешения по времени-частоте у гребенки фильтров или преобразования, которое применяется для оценки или используется для синтеза меток аудиообъекта, к характерным свойствам входного аудиообъекта. Например, если аудиообъект является квазистационарным в течение некоторого промежутка времени, то оценку параметров и синтез выгодно выполнять при низком разрешении по времени и высоком разрешении по частоте. Если аудиообъект содержит переходы или нестабильности в течение некоторого промежутка времени, то оценку параметров и синтез предпочтительно выполнять с использованием высокого разрешения по времени и низкого разрешения по частоте. В силу этого динамическая адаптация гребенки фильтров или преобразования допускает
- высокую избирательность по частоте при спектральном разделении квазистационарных сигналов, чтобы избежать перекрестных помех между объектами, и
- высокую временную точность для наслоений объектов или событий переходов, чтобы минимизировать опережающие и запаздывающие эхо.
Одновременно можно получить качество традиционного SAOC путем отображения данных стандартного SAOC на частотно-временную сетку, предоставленную обладающим признаками изобретения, обратно совместимым адаптивным к сигналу преобразованием, которое зависит от дополнительной информации, описывающей характеристики сигналов объектов.
Возможность декодировать данные стандартного и улучшенного SAOC с использованием одного общего преобразования дает возможность прямой и обратной совместимости для приложений, которые выполняют смешивание данных стандартного и нового улучшенного SAOC.
Предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит генератор последовательности окон, определяющий множество окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит модуль t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В варианте осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.
В варианте осуществления модуль t/f-анализа может быть сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит блок последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа. Блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
Кроме того, кодер содержит блок t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В варианте осуществления кодер может дополнительно содержать блок обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок обнаружения перехода может быть сконфигурирован для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:
Figure 00000001
где n указывает индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.
В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В соответствии с вариантом осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок t/f-анализа может быть сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Декодер содержит первый подмодуль анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, декодер содержит генератор последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, декодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит первый подмодуль анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, кодер содержит блок последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Кроме того, кодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов. Декодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Кроме того, декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, декодер содержит блок повышающего микширования, где блок повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется кодер для кодирования сигнала входного аудиообъекта. Кодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта. Кроме того, кодер содержит первый модуль анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона. Кроме того, кодер содержит второй модуль анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, кодер содержит блок оценки PSI, где блок оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.
Кроме того, предоставляется способ декодирования для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала, где преобразование множества выборок сигнала временной области в каждом из окон анализа зависит от длины окна у упомянутого окна анализа. И:
- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Преобразование множества выборок понижающего микширования временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. И:
- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов, где каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:
- Преобразование множества выборок сигнала временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. И
- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование сигнала понижающего микширования для получения первого преобразованного понижающего микширования, содержащего множество каналов первого поддиапазона.
- Формирование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. И:
- Повышающее микширование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающее микширование первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Способ содержит:
- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование каждого из сигналов входных аудиообъектов для получения первого преобразованного сигнала аудиообъекта в упомянутом сигнале входного аудиообъекта, где упомянутый первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.
- Формирование для каждого из сигналов входных аудиообъектов второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона первого преобразованного сигнала аудиообъекта упомянутого сигнала входного аудиообъекта, чтобы получить множество каналов второго поддиапазона, где упомянутое второе преобразованное понижающее микширование содержит упомянутые каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и упомянутые каналы второго поддиапазона. И:
- Определение параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации установлено в состояние активизации, и определение параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации не установлено в состояние активизации.
Кроме того, предоставляется компьютерная программа для реализации одного из вышеописанных способов, когда она исполняется на компьютере или процессоре сигналов.
Предпочтительные варианты осуществления будут предоставлены в зависимых пунктах формулы изобретения.
Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на чертежи, на которых:
Фиг. 1a иллюстрирует декодер в соответствии с вариантом осуществления,
Фиг. 1b иллюстрирует декодер в соответствии с другим вариантом осуществления,
Фиг. 1c иллюстрирует декодер в соответствии с дополнительным вариантом осуществления,
Фиг. 2a иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с вариантом осуществления,
Фиг. 2b иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с другим вариантом осуществления,
Фиг. 2c иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с дополнительным вариантом осуществления,
Фиг. 3 показывает блок-схему концептуального представления системы SAOC,
Фиг. 4 показывает схематическую и пояснительную схему спектрально-временного представления одноканального аудиосигнала,
Фиг. 5 показывает блок-схему избирательного по времени-частоте вычисления дополнительной информации в кодере SAOC,
Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC,
Фиг. 7 изображает блок-схему декодера в соответствии с вариантом осуществления,
Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт кодера,
Фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе,
Фиг. 10 иллюстрирует схему переключения блоков с изоляцией перехода в соответствии с вариантом осуществления,
Фиг. 11 иллюстрирует сигнал с переходом и результирующую AAC-подобную последовательность организации окон в соответствии с вариантом осуществления,
Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF,
Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна,
Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13.
Фиг. 15 иллюстрирует пример, где реализуется высокое разрешение по частоте и низкое разрешение по времени,
Фиг. 16 иллюстрирует пример, где реализуется высокое разрешение по времени и низкое разрешение по частоте,
Фиг. 17 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте, и
Фиг. 18 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте.
Перед описанием вариантов осуществления настоящего изобретения предоставляется больше данных о системах современного SAOC.
Фиг. 3 показывает общую компоновку кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC в качестве ввода принимает N объектов, то есть аудиосигналы с s1 по sN. В частности, кодер 10 содержит средство 16 понижающего микширования, которое принимает аудиосигналы s1–sN и осуществляет их понижающее микширование в сигнал понижающего микширования 18. В качестве альтернативы понижающее микширование может предоставляться извне ("художественной понижающее микширование"), и система оценивает дополнительную информацию, чтобы привести предоставленное понижающее микширование к вычисленному понижающему микшированию. На фиг. 3 сигнал понижающего микширования показан как P-канальный сигнал. Таким образом, возможна любая монофоническая (P=1), стереофоническая (P=2) или многоканальная (P>2) конфигурация сигнала понижающего микширования.
В случае стереофонического понижающего микширования каналы сигнала понижающего микширования 18 обозначаются L0 и R0, в случае монофонического понижающего микширования это просто обозначается L0. Чтобы дать декодеру 12 SAOC возможность восстановить отдельные объекты s1–sN, модуль 17 оценки дополнительной информации предоставляет декодеру 12 SAOC дополнительную информацию, включающую в себя параметры SAOC. Например, в случае стереофонического понижающего микширования параметры SAOC содержат разности уровней объектов (OLD), корреляции между объектами (IOC) (параметры взаимной корреляции между объектами), значения усиления понижающего микширования (DMG) и разности уровней каналов понижающего микширования (DCLD). Дополнительная информация 20, включающая в себя параметры SAOC, вместе со сигналом понижающего микширования 18 образует выходной поток данных SAOC, принимаемый декодером 12 SAOC.
Декодер 12 SAOC содержит разделитель, который принимает сигнал понижающего микширования 18, а также дополнительную информацию 20, чтобы восстановить и воспроизвести аудиосигналы ŝ1 и ŝN на любом выбранном пользователем наборе каналов ŷ1–ŷM, причем воспроизведение предписывается информацией 26 воспроизведения, введенной в декодер 12 SAOC.
Аудиосигналы s1–sN можно вводить в кодер 10 в любой области кодирования, например, во временной или спектральной области. Если аудиосигналы s1–sN подаются в кодер 10 во временной области, например кодированными с PCM, то кодер 10 может использовать гребенку фильтров, например гребенку гибридного QMF, чтобы перевести сигналы в спектральную область, в которой аудиосигналы представляются в нескольких поддиапазонах, ассоциированных с разными спектральными частями, при определенном разрешении гребенки фильтров. Если аудиосигналы s1–sN уже находятся в представлении, предполагаемом кодером 10, то ему не приходится выполнять спектральное разложение.
Фиг. 4 показывает аудиосигнал в только что упомянутой спектральной области. Как видно, аудиосигнал представляется в виде множества сигналов поддиапазонов. Каждый сигнал 301–30K поддиапазона состоит из временной последовательности значений поддиапазонов, указанных небольшими прямоугольниками 32. Как видно, значения 32 поддиапазонов у сигналов 301–30K поддиапазонов синхронизированы друг с другом во времени, чтобы для каждого из последовательных временных интервалов 34 гребенки фильтров каждый поддиапазон 301–30K содержал строго одно значение 32 поддиапазона. Как проиллюстрировано осью 36 частот, сигналы 301–30K поддиапазонов ассоциируются с разными областями частот, а как проиллюстрировано осью 38 времени, временные интервалы 34 гребенки фильтров последовательно упорядочены во времени.
Как указано выше, устройство 17 извлечения дополнительной информации из фиг. 3 вычисляет параметры SAOC из входных аудиосигналов s1–sN. В соответствии с реализованным в настоящее время стандартом SAOC кодер 10 выполняет это вычисление в разрешении по времени/частоте, которое можно уменьшить относительно исходного разрешения по времени/частоте, которое определено временными интервалами 34 гребенки фильтров и разложением поддиапазонов, на некоторую величину, причем эта некоторая величина сигнализируется стороне декодера в дополнительной информации 20. Группы последовательных временных интервалов 34 гребенки фильтров могут образовывать кадр 41 SAOC. Также в дополнительной информации 20 сообщается количество диапазонов параметров в кадре 41 SAOC. Поэтому временная/частотная область разделяется на фрагменты времени/частоты, показанные на фиг. 4 пунктирными линиями 42. На фиг. 4 диапазоны параметров распределяются одинаковым образом в различных изображенных кадрах 41 SAOC, чтобы получилось регулярное расположение фрагментов времени/частоты. Однако диапазоны параметров в общем могут меняться от одного кадра 41 SAOC к последующему в зависимости от разных потребностей в спектральном разрешении в соответствующих кадрах 41 SAOC. Кроме того, с тем же успехом может меняться длина кадров 41 SAOC. В результате расположение фрагментов времени/частоты может быть нерегулярным. Тем не менее, фрагменты времени/частоты в конкретном кадре 41 SAOC обычно имеют одинаковую длительность и выровнены в направлении времени, то есть все фрагменты t/f в упомянутом кадре 41 SAOC начинаются с начала данного кадра 41 SAOC и заканчиваются в конце упомянутого кадра 41 SAOC.
Устройство 17 извлечения дополнительной информации, изображенное на фиг. 3, вычисляет параметры SAOC в соответствии со следующими формулами. В частности, устройство 17 извлечения дополнительной информации вычисляет разности уровней объектов для каждого объекта i в виде
Figure 00000002
где суммы и индексы n и k соответственно проходят по всем временным индексам 34 и всем спектральным индексам 30, которые принадлежат некоторому фрагменту 42 времени/частоты, на который ссылаются индексы l для кадра SAOC (или временного интервала обработки) и m для диапазона параметров. В силу этого энергии всех значений xi поддиапазонов аудиосигнала или объекта i суммируются и нормируются к наибольшему значению энергии того фрагмента среди всех объектов или аудиосигналов.
Figure 00000003
обозначает комплексно сопряженную величину
Figure 00000004
.
Кроме того, устройство 17 извлечения дополнительной информации SAOC способно вычислить степень сходства у соответствующих фрагментов времени/частоты в парах разных входных объектов s1–sN. Хотя устройство 17 извлечения дополнительной информации SAOC может вычислять степень сходства между всеми парами входных объектов s1–sN, устройство 17 извлечения дополнительной информации также может запретить сигнализацию степеней сходства или ограничить вычисление степеней сходства аудиообъектами s1–sN, которые образуют левый или правый каналы общего стереофонического канала. В любом случае степень сходства называется параметром взаимной корреляции между объектами
Figure 00000005
. Вычисление выглядит следующим образом
Figure 00000006
причем индексы n и k опять проходят по всем значениям поддиапазонов, принадлежащим некоторому фрагменту 42 времени/частоты, i и j обозначают некоторую пару аудиообъектов s1–sN, и Re{} обозначает операцию отбрасывания мнимой части у комплексного аргумента.
Средство 16 понижающего микширования из фиг. 3 осуществляет понижающее микширование объектов s1–sN путем использования коэффициентов усиления, применяемых к каждому объекту s1–sN. То есть коэффициент di усиления применяется к объекту i, а затем все взвешенные таким образом объекты s1–sN суммируются для получения монофонического сигнала понижающего микширования, который иллюстрируется на фиг. 3, если P=1. В другом примерном случае двухканального сигнала понижающего микширования, изображенного на фиг. 3, если P=2, коэффициент d1,i усиления применяется к объекту i, а затем все такие усиленные объекты суммируются, чтобы получить левый канал L0 понижающего микширования, и коэффициенты d2,i усиления применяются к объекту i, а затем усиленные таким образом объекты суммируются, чтобы получить правый канал R0 понижающего микширования. Обработку, которая аналогична вышеизложенной, нужно применять в случае многоканального понижающего микширования (P>2).
Это предписание понижающего микширования сигнализируется стороне декодера посредством усилений DMGi понижающего микширования, а в случае стереофонического сигнала понижающего микширования – разностей DCLDi уровней каналов понижающего микширования.
Усиления понижающего микширования вычисляются в соответствии с:
Figure 00000007
(монофоническое понижающее микширование),
Figure 00000008
(стереофоническое понижающее микширование),
где
Figure 00000009
– малое число, например 10-9.
Для DCLD применяется следующая формула:
Figure 00000010
.
В обычном режиме средство 16 понижающего микширования формирует сигнал понижающего микширования в соответствии с:
Figure 00000011
для монофонического понижающего микширования или
Figure 00000012
для стереофонического понижающего микширования соответственно.
Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией аудиосигналов, а параметры DMG и DCLD являются функцией d. К слову, отметим, что d может меняться во времени и по частоте.
Таким образом, в обычном режиме средство 16 понижающего микширования осуществляет микширование всех объектов s1–sN без каких-либо предпочтений, то есть обращаясь со всеми объектами s1–sN одинаково.
На стороне декодера разделитель выполняет инверсию процедуры понижающего микширования и реализацию "информации 26 воспроизведения", представленной матрицей R (в литературе также иногда называемой A) на одном этапе вычисления, а именно, в случае двухканального понижающего микширования
Figure 00000013
,
где матрица E является функцией параметров OLD и IOC, а матрица D содержит коэффициенты понижающего микширования в виде
Figure 00000014
.
Матрица E является предполагаемой ковариационной матрицей аудиообъектов s1–sN. В текущих реализациях SAOC вычисление предполагаемой ковариационной матрицы E обычно выполняется в спектральном/временном разрешении параметров SAOC, то есть для каждого (l,m), чтобы предполагаемую ковариационную матрицу можно было записать в виде E l,m. Предполагаемая ковариационная матрица E l,m имеет размер N×N с коэффициентами, заданными в виде
Figure 00000015
.
Таким образом, матрица E l,m при
Figure 00000016
по своей диагонали содержит разности уровней объектов, то есть
Figure 00000017
для i=j, поскольку
Figure 00000018
и
Figure 00000019
для i=j. Вне ее диагонали предполагаемая ковариационная матрица E содержит коэффициенты матрицы, представляющие среднее геометрическое разностей уровней объектов у объектов i и j соответственно, взвешенных по мере взаимной корреляции между объектами
Figure 00000020
.
Фиг. 5 отображает один возможный принцип реализации на примере модуля оценки дополнительной информации (SIE) как части кодера 10 SAOC. Кодер 10 SAOC содержит средство 16 понижающего микширования и модуль 17 оценки дополнительной информации (SIE). SIE концептуально состоит из двух модулей: Один модуль 45 для вычисления кратковременного t/f-представления (например, STFT или QMF) каждого сигнала. Вычисленное кратковременное t/f-представление подается во второй модуль 46, модуль избирательной по t/f оценки дополнительной информации (t/f-SIE). Модуль 46 t/f-SIE вычисляет дополнительную информацию для каждого фрагмента t/f. В текущих реализациях SAOC частотно-временное преобразование неизменно и идентично для всех аудиообъектов s1–sN. Кроме того, параметры SAOC определяются по кадрам SAOC, которые одинаковы для всех аудиообъектов и имеют одинаковое разрешение по времени/частоте для всех аудиообъектов s1–sN, соответственно пренебрегая характерными для объекта потребностями в высоком разрешении по времени в некоторых случаях или высоком спектральном разрешении в остальных случаях.
Ниже описываются варианты осуществления настоящего изобретения.
Фиг. 1a в соответствии с вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит генератор 134 последовательности окон для определения множества окон анализа (например, на основе параметрической дополнительной информации, например, разностей уровней объектов), где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор 134 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.
Для определения множества окон анализа генератор 134 последовательности окон может, например, проанализировать параметрическую дополнительную информацию, например, переданные разности уровней объектов, относящиеся к двум или более сигналам аудиообъектов, чтобы определить длину окна у окон анализа так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Либо, например, генератор 134 последовательности окон для определения множества окон анализа может проанализировать формы окон или сами окна анализа, где формы окон или окна анализа могут, например, передаваться в потоке двоичных сигналов от кодера к декодеру, и где длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит модуль 135 t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок 136 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Следующие варианты осуществления используют особый механизм построения последовательности окон. Прототипная оконная функция f (n, Nw) задается для индекса 0≤n≤Nw-1 для длины Nw окна. Планируя одно окно
Figure 00000021
, нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна,
Figure 00000022
,
Figure 00000023
и
Figure 00000024
.
Используя их, оконная функция задается в виде
Figure 00000025
.
Фактическим местоположением окна тогда является
Figure 00000026
при
Figure 00000027
(
Figure 00000028
обозначает операцию округления аргумента в большую сторону до следующего целого числа, а
Figure 00000029
соответственно обозначает операцию округления аргумента в меньшую сторону до следующего целого числа). Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде
Figure 00000030
,
но также могут использоваться другие виды. Местоположение t перехода задает центры для трех окон
Figure 00000031
,
Figure 00000032
и
Figure 00000033
, где числа
Figure 00000034
и
Figure 00000035
задают нужный диапазон окна до и после перехода.
Как объясняется позже по отношению к фиг. 9, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 10, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 11, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход.
В варианте осуществления модуль 135 t/f-анализа сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Фиг. 2a иллюстрирует кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.
Кодер содержит блок 102 последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа. Блок 102 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
Кроме того, кодер содержит блок 103 t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок 103 t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, кодер содержит блок 104 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В варианте осуществления кодер может, например, дополнительно содержать блок 101 обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок 101 обнаружения перехода конфигурируется для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:
Figure 00000001
где n указывает временной индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.
Как объясняется позже по отношению к фиг. 9, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 10, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1 =t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 11, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок 103 t/f-анализа сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок 103 t/f-анализа сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Ниже описывается улучшенное SAOC с использованием обратно совместимых адаптивных гребенок фильтров в соответствии с вариантами осуществления.
Сначала объясняется декодирование потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC.
Декодер улучшенного SAOC проектируется так, чтобы иметь возможность декодирования потоков двоичных сигналов от кодеров стандартного SAOC с хорошим качеством. Декодирование ограничивается только параметрическим восстановлением, и возможные остаточные потоки игнорируются.
Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку. Параметрическая дополнительная информация (PSI) состоит из наборов разностей уровней объектов (OLD), корреляций между объектами (IOC) и матрицы понижающего микширования D, используемой для создания сигнала понижающего микширования (аудио DMX) из отдельных объектов в декодере. Каждый набор параметров ассоциируется с границей параметров, которая задает временную область, с которой ассоциируются параметры. При стандартном SAOC элементы разрешения по частоте у лежащего в основе частотно-временного представления группируются в параметрические диапазоны. Интервал диапазонов имеет сходство с интервалом критических диапазонов в системе слуха человека. Кроме того, несколько кадров t/f-представления можно сгруппировать в кадр параметров. Обе эти операции обеспечивают сокращение объема необходимой дополнительной информации за счет погрешностей моделирования.
Как описано в стандарте SAOC, OLD и IOC используются для вычисления матрицы
Figure 00000036
повышающего микширования, где элементами E являются
Figure 00000037
приближенные значения матрицы взаимной корреляции объектов, i и j являются индексами объектов,
Figure 00000038
и D T является транспозицией D. Вычислитель 131 матрицы повышающего микширования может, соответственно, конфигурироваться для вычисления матрицы повышающего микширования.
Матрица повышающего микширования затем линейно интерполируется временным интерполятором 132 из матрицы повышающего микширования предыдущего кадра по кадру параметров вплоть до границы параметров, на которой достигаются предполагаемые значения, согласно стандартному SAOC. Это приводит к матрицам повышающего микширования для каждого частотно-временного окна анализа и параметрического диапазона.
Разрешение по частоте параметрического диапазона у матриц повышающего микширования расширяется до разрешения частотно-временного представления в том окне анализа с помощью блока 133 адаптации разрешения по частоте у окна. Когда интерполированная матрица повышающего микширования для параметрического диапазона b в некотором периоде задается в виде G(b), одинаковые коэффициенты повышающего микширования используются для всех элементов разрешения по частоте внутри того параметрического диапазона.
Генератор 134 последовательности окон конфигурируется для использования информации о диапазоне набора параметров из PSI, чтобы определить подходящую последовательность организации окон для анализа входного аудиосигнала понижающего микширования. Основным требованием является то, что когда в PSI имеется граница набора параметров, точка пересечения между последовательными окнами анализа должна с ней совпадать. Организация окон определяет также разрешение по частоте у данных в каждом окне (используемое при развертывании данных повышающего микширования, как описано раньше).
Разделенные на окна данные затем преобразуются модулем 135 t/f-анализа в представление в частотной области, используя подходящее частотно-временное преобразование, например, дискретное преобразование Фурье (DFT), комплексифицированное модифицированное дискретное косинусное преобразование (CMDCT) или нечетное дискретное преобразование Фурье (ODFT).
В конечном счете блок 136 повышающего микширования применяет матрицы повышающего микширования на каждый кадр на каждый элемент разрешения по частоте к спектральному представлению сигнала понижающего микширования X, чтобы получить параметрические восстановления Y. Канал вывода j является линейной комбинацией каналов понижающего микширования
Figure 00000039
.
Качество, которое можно получить с помощью этого процесса, для большинства целей неотличимо по восприятию от результата, полученного с помощью декодера стандартного SAOC.
Следует отметить, что вышеприведенный текст описывает восстановление отдельных объектов, но при стандартном SAOC воспроизведение включается в матрицу повышающего микширования, то есть включается в параметрическую интерполяцию. Учитывая линейную операцию, порядок операций не имеет значения, но следует отметить различие.
Ниже описывается декодирование потоков двоичных сигналов улучшенного SAOC с помощью декодера улучшенного SAOC.
Основные функциональные возможности декодера улучшенного SAOC уже описаны раньше при декодировании потоков двоичных сигналов стандартного SAOC. Данный раздел подробно опишет, как можно использовать улучшения предложенного улучшенного SAOC в PSI для получения лучшего воспринимаемого качества.
Фиг. 7 изображает основные функциональные блоки декодера в соответствии с вариантом осуществления, иллюстрирующие декодирование повышений разрешения по частоте. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку.
Сначала блок 141 расширения значения по диапазону адаптирует значения OLD и IOC для каждого параметрического диапазона к разрешению по частоте, используемому в улучшениях, например, к 1024 элементам разрешения. Это выполняется путем повторения значений на элементах разрешения по частоте, которые соответствуют параметрическому диапазону. Это приводит к новым OLD
Figure 00000040
и IOC
Figure 00000041
.
Figure 00000042
является матрицей ядра, задающей распределение элементов f разрешения по частоте по параметрическим диапазонам b с помощью
Figure 00000043
.
Параллельно с этим блок 142 восстановления дельта-функции инвертирует параметризацию поправочных коэффициентов для получения дельта-функции
Figure 00000044
того же размера, что и расширенные OLD и IOC.
Затем блок 143 применения дельты применяет дельту к расширенным значениям OLD, и полученные значения OLD высокого разрешения получаются с помощью
Figure 00000045
.
В конкретном варианте осуществления вычисление матриц повышающего микширования, может, например, выполняться с помощью вычислителя 131 матрицы повышающего микширования, как и в случае декодирования потока двоичных сигналов стандартного SAOC:
Figure 00000046
, причем
Figure 00000047
и
Figure 00000048
. При желании матрицу воспроизведения можно умножить на матрицу G(f) повышающего микширования. Временная интерполяция с помощью временного интерполятора 132 придерживается стандартного SAOC.
Так как разрешение по частоте в каждом окне может отличаться (как правило, оно ниже) от номинального высокого разрешения по частоте, блоку 133 адаптации разрешения по частоте у окна нужно адаптировать матрицы повышающего микширования для совпадения с разрешением спектральных данных аудио, чтобы сделать возможным их применение. Это можно выполнить, например, путем передискретизации коэффициентов по оси частот к правильному разрешению. Либо, если разрешения являются целыми кратными числами, просто усредняя от данных высокого разрешения индексы, которые соответствуют одному элементу разрешения по частоте в более низком разрешении
Figure 00000049
.
Информация о последовательности организации окон из потока двоичных сигналов может использоваться для получения частотно-временного анализа, полностью комплементарного анализу, используемому в кодере, либо последовательность организации окон можно построить на основе границ параметров, как выполняется при декодировании потока двоичных сигналов стандартного SAOC. Для этого может применяться генератор 134 последовательности окон.
Затем проводится частотно-временной анализ аудио понижающего микширования с помощью модуля 135 t/f-анализа, используя заданные окна.
В конечном счете интерполированные во времени и (по возможности) спектрально адаптированные матрицы повышающего микширования применяются блоком 136 повышающего микширования к частотно-временному представлению входного аудио, и канал вывода j можно получить в виде линейной комбинации каналов ввода
Figure 00000050
.
Ниже описывается обратно совместимое кодирование улучшенного SAOC.
Теперь описывается кодер улучшенного SAOC, который создает поток двоичных сигналов, содержащий обратно совместимую часть с дополнительной информацией и дополнительные улучшения. Существующие декодеры стандартного SAOC могут декодировать обратно совместимую часть PSI и создавать восстановления объектов. Добавленная информация, используемая декодером улучшенного SAOC, в большинстве случаев повышает воспринимаемое качество восстановлений. Более того, если декодер улучшенного SAOC работает с ограниченными ресурсами, то улучшения можно игнорировать, и тем не менее получается восстановление базового качества. Следует отметить, что восстановления от декодеров стандартного SAOC и улучшенного SAOC с использованием только PSI, совместимой со стандартным SAOC, отличаются, но считаются очень похожими по восприятию (различие имеет аналогичный характер, как при декодировании потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC).
Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт описанного выше кодера. Полужирные черные функциональные блоки (102, 103) указывают обладающую признаками изобретения обработку. В частности, фиг. 8 иллюстрирует блок-схему двухэтапного кодирования, создающего обратно совместимый поток двоичных сигналов с улучшениями для более функциональных декодеров.
Сначала сигнал подразделяется на кадры анализа, которые затем преобразуются в частотную область. Несколько кадров анализа группируются в кадр параметров фиксированной длины с использованием, например, длин из 16 и 32 кадров анализа в SAOC MPEG. Предполагается, что свойства сигнала остаются квазистационарными в течение кадра параметров и, соответственно, могут описываться только одним набором параметров. Если характеристики сигнала меняются в пределах кадра параметров, то получается ошибка моделирования, и было бы полезно подразделение более длинного кадра параметров на части, в которых опять выполняется предположение квазистационарности. С этой целью необходимо обнаружение перехода.
Переходы можно обнаруживать с помощью блока 101 обнаружения перехода из всех входных объектов в отдельности, и когда имеется событие перехода всего лишь в одном из объектов, это местоположение объявляется местоположением глобального перехода. Информация о местоположениях переходов используется для построения подходящей последовательности организации окон. Построение может основываться, например, на следующей логике:
- Установить длину окна по умолчанию, то есть длину блока преобразования сигнала по умолчанию, например, в 2048 выборок.
- Установить длину кадра параметров, например, в 4096 выборок, соответствующую 4 окнам по умолчанию с 50%-ным перекрытием. Кадры параметров группируют несколько окон, и один набор дескрипторов сигнала используется для всего блока вместо дескрипторов для каждого окна в отдельности. Это делает возможным сокращение объема PSI.
- Если переход не обнаружен, использовать окна по умолчанию и полную длину кадра параметров.
- Если обнаруживается переход, адаптировать организацию окон для обеспечения лучшего разрешения по времени в местоположении перехода.
Наряду с построением последовательности организации окон отвечающий за это блок 102 последовательности окон также создает субкадры параметров из одного или более окон анализа. Каждое подмножество анализируется в качестве объекта, и для каждого субблока передается только один набор параметров PSI. Чтобы предоставить PSI, совместимую со стандартным SAOC, заданная длина блока параметров используется в качестве основной длины блока параметров, а возможные обнаруженные переходы в том блоке задают подмножества параметров.
Построенная последовательность окон выводится для частотно-временного анализа входных аудиосигналов, проводимого блоком 103 t/f-анализа, и передается в части улучшения улучшенного SAOC в PSI.
Спектральные данные каждого окна анализа используются блоком 104 оценки PSI для оценивания PSI для обратно совместимой части SAOC (например, MPEG). Это выполняется путем группирования спектральных элементов разрешения в параметрические диапазоны SAOC MPEG и оценивания IOC, OLD и энергий абсолютных объектов (NRG) в диапазонах. Следуя в общих чертах нотации SAOC MPEG, нормализованное произведение двух спектров
Figure 00000051
и
Figure 00000052
объектов в фрагменте параметризации задается в виде
Figure 00000053
,
где матрица
Figure 00000054
Figure 00000055
Figure 00000054
задает отображение из Fn элементов разрешения t/f-представления в кадре n (из N кадров в этом кадре параметров) в B параметрических диапазонов с помощью
Figure 00000056
, и
S * является комплексно сопряженной величиной от S. Спектральное разрешение может меняться между кадрами в одном параметрическом блоке, поэтому матрица отображения преобразует данные в общее основание разрешения. Максимальная энергия объекта в этом фрагменте параметризации задается как максимальная энергия объекта
Figure 00000057
. При наличии этого значения OLD затем задаются как нормализованные энергии объектов
Figure 00000058
.
И в конечном счете можно получить IOC из взаимных мощностей в виде
Figure 00000059
.
Это завершает оценку совместимых со стандартным SAOC частей потока двоичных сигналов.
Блок 105 грубого восстановления спектра мощности конфигурируется для использования OLD и NRG для восстановления грубой оценки огибающей спектра в блоке анализа параметров. Огибающая строится с наибольшим разрешением по частоте, используемым в том блоке.
Исходный спектр каждого окна анализа используется блоком 106 оценки спектра мощности для вычисления спектра мощности в том окне.
Полученные спектры мощности преобразуются в общее представление с высоким разрешением по частоте с помощью блока 107 адаптации разрешения по частоте. Это может выполняться, например, путем интерполяции спектральных значений мощности. Затем спектральный профиль средней мощности вычисляется путем усреднения спектров в блоке параметров. Это приблизительно соответствует оценке OLD за исключением агрегирования параметрических диапазонов. Полученный спектральный профиль рассматривается как OLD высокого разрешения.
Блок 108 оценки дельты конфигурируется для оценки поправочного коэффициента, "дельты", например, путем деления OLD высокого разрешения на грубое восстановление спектра мощности. В результате это предоставляет (мультипликативный) поправочный коэффициент для каждого элемента разрешения по частоте, который [коэффициент] может использоваться для приближенного вычисления OLD высокого разрешения с учетом грубых спектров.
В конечном счете блок 109 моделирования дельты конфигурируется для моделирования предполагаемого поправочного коэффициента эффективным для передачи способом.
В сущности, модификации улучшенного SAOC в потоке двоичных сигналов состоят из информации о последовательности организации окон и параметров для передачи "дельты".
НИЖЕ ОПИСЫВАЕТСЯ ОБНАРУЖЕНИЕ ПЕРЕХОДА.
Когда характеристики сигнала остаются квазистационарными, эффективности кодирования (по отношению к объему дополнительной информации) можно достичь путем объединения нескольких временных кадров в блоки параметров. Например, при стандартном SAOC часто используемыми значениями являются 16 и 32 QMF-кадров на один блок параметров. Они соответствуют 1024 и 2048 выборкам соответственно. Длину блока параметров можно заранее установить в фиксированное значение. Это имеет один прямой эффект, которым является задержка кодека (у кодера должен быть полный кадр, чтобы иметь возможность его кодировать). При использовании длинных параметрических блоков было бы выгодно обнаруживать значительные изменения в характеристиках сигнала, в основном когда нарушается предположение квазистационарности. После нахождения местоположения значительного изменения сигнал временной области можно разделить, и части снова могут лучше выполнять предположение квазистационарности.
Здесь описывается новый способ обнаружения перехода, который будет использоваться в сочетании с SAOC. Видно, что он не стремится к обнаружению переходов, а вместо этого – изменений в параметризациях сигнала, которые также могут инициироваться, например, смещением звука.
Входной сигнал разделяется на короткие, перекрывающиеся кадры, и кадры преобразуются в частотную область, например, с помощью дискретного преобразования Фурье (DFT). Сложный спектр преобразуется в спектр мощности путем умножения значений на их комплексно сопряженные величины (то есть возведения в квадрат их абсолютных значений). Затем используется группирование параметрических диапазонов, аналогичное используемому при стандартном SAOC, и вычисляется энергия каждого параметрического диапазона в каждом периоде в каждом объекте. Операции вкратце выглядят как
Figure 00000060
,
где
Figure 00000061
является сложным спектром объекта i в периоде n. Суммирование проходит по элементам f разрешения по частоте в диапазоне b. Чтобы удалить некоторый шумовой эффект из данных, значения фильтруются по нижним частотам с помощью IIR-фильтра первого порядка:
Figure 00000062
,
где
Figure 00000063
является коэффициентом обратной связи фильтра, например,
Figure 00000064
.
Основной параметризацией в SAOC являются разности уровней объектов (OLD). Предложенный способ обнаружения пытается обнаружить, когда изменились бы OLD. Таким образом, все пары объектов проверяются с помощью
Figure 00000065
. Изменения во всех уникальных парах объектов суммируются в функцию обнаружения с помощью
Figure 00000001
.
Полученные значения сравниваются с пороговой величиной T, чтобы отфильтровать небольшие отклонения уровня, и принудительно применяется минимальное расстояние L между последовательными обнаружениями. Таким образом, функцией обнаружения является
Figure 00000066
.
Ниже описывается разрешение по частоте улучшенного SAOC.
Разрешение по частоте, полученное из анализа стандартного SAOC, ограничивается количеством параметрических диапазонов, в стандартном SAOC имеющим максимальное значение 28. Они получаются из гребенки гибридных фильтров, состоящей из 64-полосного QMF-анализа с последующим каскадом гибридной фильтрации на самых нижних диапазонах, дополнительно делящим их не более чем на 4 комплексных поддиапазона. Полученные диапазоны частот группируются в параметрические диапазоны, имитирующие разрешение критических диапазонов у системы слуха человека. Группирование позволяет уменьшить скорость передачи необходимой дополнительной информации.
Существующая система выдает разумное качество разделения, учитывая достаточно низкую скорость передачи данных. Основной проблемой является недостаточное разрешение по частоте для четкого разделения тональных звуков. Это проявляется в виде "ореола" от других объектов, окружающей тональные компоненты объекта. По восприятию это наблюдается в виде резкости или вокодероподобного артефакта. Негативное воздействие этого ореола можно уменьшить путем увеличения параметрического разрешения по частоте. Отмечалось, что разрешение, больше либо равное 512 диапазонам (на частоте дискретизации 44,1 кГц), создает хорошее для восприятия разделение на тестовых сигналах. Это разрешение можно было бы получить путем расширения каскада гибридной фильтрации у существующей системы, но потребовались бы гибридные фильтры довольно высокого порядка для достаточного разделения, что приводит к высоким вычислительным затратам.
Простым способом получения необходимого разрешения по частоте является использование частотно-временного преобразования на основе DFT. Это можно эффективно реализовать посредством алгоритма быстрого преобразования Фурье (FFT). Вместо обычного DFT в качестве альтернатив рассматриваются CMDCT или ODFT. Отличие состоит в том, что последние два являются нечетными, и полученный спектр содержит чистые положительные и отрицательные частоты. По сравнению с DFT элементы разрешения по частоте сдвигаются на ширину в 0,5 элемента разрешения. При DFT один из элементов разрешения центрируется на 0 Гц, а другой на частоте Найквиста. Различие между ODFT и CMDCT состоит в том, что CMDCT содержит дополнительную операцию после модуляции, оказывающую влияние на фазовый спектр. Выгода этого в том, что результирующий сложный спектр состоит из модифицированного дискретного косинусного преобразования (MDCT) и модифицированного дискретного синусного преобразования (MDST).
Преобразование на основе DFT с длиной N создает сложный спектр с N значениями. Когда преобразованная последовательность является вещественной, нужны только N/2 из этих значений для идеального восстановления; остальные N/2 значений можно получить из данных значений с помощью простых манипуляций. Анализ обычно состоит из получения кадра из N выборок временной области из сигнала, применения оконной функции к значениям, а затем вычисления фактического преобразования над разделенными на окна данными. Последовательные блоки перекрываются на 50% во времени, и оконные функции проектируются так, что квадраты последовательных окон дадут в сумме единицу. Это гарантирует, что когда оконная функция дважды применяется к данным (один раз при анализе сигнала временной области, а второй раз после синтезирующего преобразования перед перекрытием с суммированием), цепочка "анализ плюс синтез" без модификаций сигнала не имеет потерь.
При условии 50%-ного перекрытия между последовательными кадрами и длины кадра в 2048 выборок эффективное разрешение по времени равно 1024 выборкам (соответствующим 23,2 мс на частоте дискретизации 44,1 кГц). Этого не достаточно мало по двум причинам: во-первых, было бы желательно иметь возможность декодировать потоки двоичных сигналов, созданные кодером стандартного SAOC, а во-вторых, анализ сигналов в кодере улучшенного SAOC с более высоким разрешением по времени, если необходимо.
В SAOC можно группировать несколько блоков в кадры параметров. Предполагается, что свойства сигнала остаются довольно похожими на протяжении кадра параметров для их описания с помощью одного набора параметров. Длины кадров параметров, обычно встречающиеся в стандартном SAOC, составляют 16 или 32 QMF-кадра (стандартом разрешены длины вплоть до 72). Аналогичное группирование может выполняться при использовании гребенки фильтров с высоким разрешением по частоте. Когда свойства сигнала не изменяются в течение кадра параметров, группирование обеспечивает эффективность кодирования без ухудшений качества. Однако, когда свойства сигнала изменяются в пределах кадра параметров, группирование вносит ошибки. Стандартное SAOC позволяет задание длины группирования по умолчанию, которая используется с квазистационарными сигналами, а также задание субблоков параметров. Субблоки задают группирования короче длины по умолчанию, и параметризация выполняется над каждым субблоком в отдельности. Вследствие разрешения по времени у лежащей в основе гребенки QMF результирующее разрешение по времени равно 64 выборкам временной области, что гораздо выше разрешения, доступного с использованием фиксированной гребенки фильтров с высоким разрешением по частоте. Это требование влияет на декодер улучшенного SAOC.
Использование гребенки фильтров с большой длиной преобразования обеспечивает хорошее разрешение по частоте, но одновременно ухудшается разрешение по времени (так называемый принцип неопределенности). Если свойства сигнала изменяются в рамках одного кадра анализа, то низкое разрешение по времени может вызвать смазывание на выходе синтеза. Поэтому было бы полезно получить разрешение по времени субкадра в местоположениях значительных переключений сигнала. Разрешение по времени субкадра приводит, как и следовало ожидать, к более низкому разрешению по частоте, но предполагается, что во время переключения сигнала разрешение по времени является более важным для точного захвата. Это требование к разрешению по времени субкадра преимущественно влияет на кодер улучшенного SAOC (а следовательно, также и на декодер).
Один и тот же принцип решения может использоваться в обоих случаях: использовать длинные кадры анализа, когда сигнал квазистационарный (переходы не обнаружены) и когда нет границ параметров. Когда не выполняется любое из двух условий, применять схему переключения длины блоков. Исключение из этого условия можно сделать для границ параметров, которые находятся между неразделенными группами кадров и совпадают с точкой пересечения между двумя длинными окнами (декодируя при этом поток двоичных сигналов стандартного SAOC). Предполагается, что в таком случае свойства сигнала остаются довольно стационарными для гребенки фильтров с высоким разрешением. Когда сигнализируется граница параметров (из потока двоичных сигналов или детектора переходов), кадрирование регулируется для использования меньшей длины кадра, соответственно локально повышая разрешение по времени.
Первые два варианта осуществления используют один и тот же лежащий в основе механизм построения последовательности окон. Прототипная оконная функция
Figure 00000067
задается для индекса
Figure 00000068
для длины окна N. Планируя одно окно
Figure 00000021
, нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна,
Figure 00000022
,
Figure 00000023
и
Figure 00000024
.
Используя их, оконная функция задается в виде
Figure 00000069
.
Фактическим местоположением окна тогда является
Figure 00000026
при
Figure 00000027
. Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде
Figure 00000030
,
но также могут использоваться другие виды.
Ниже описывается пересечение на переходе в соответствии с вариантом осуществления.
Фиг. 9 является иллюстрацией принципа схемы переключения блоков с "пересечением на переходе". В частности, фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе. Линия 111 представляет выборки сигнала временной области, вертикальная линия 112 – местоположение t обнаруженного перехода (или границы параметров из потока двоичных сигналов), а линии 113 иллюстрируют оконные функции и их временные диапазоны. Эта схема требует принятия решения о величине перекрытия между двумя окнами
Figure 00000070
и
Figure 00000071
около перехода, задающей крутизну окон. Когда длина перекрытия устанавливается в небольшое значение, окна имеют свои максимальные точки рядом с переходом, и пересекающие переход участки быстро убывают. Длины перекрытий также могут отличаться до и после перехода. При этом подходе два окна или кадра, окружающие переход, будут отрегулированы по длине. Местоположение перехода задает центры окружающих окон равными
Figure 00000072
и
Figure 00000033
, в которых
Figure 00000034
и
Figure 00000035
являются соответственно длиной перекрытия до и после перехода. Задав их, можно использовать уравнение выше.
Ниже описывается изоляция перехода в соответствии с вариантом осуществления.
Фиг. 10 иллюстрирует принцип схемы переключения блоков с изоляцией перехода в соответствии с вариантом осуществления. Короткое окно
Figure 00000070
центрируется на переходе, а два соседних окна
Figure 00000073
и
Figure 00000071
регулируются для дополнения короткого окна. В сущности, соседние окна ограничиваются местоположением перехода, поэтому предыдущее окно содержит только сигнал до перехода, а следующее окно содержит только сигнал после перехода. При этом подходе переход задает центры для трех окон
Figure 00000031
,
Figure 00000032
и
Figure 00000033
, где
Figure 00000034
и
Figure 00000035
задают нужный диапазон окна до и после перехода. Задав их, можно использовать уравнение выше.
Ниже описывается AAC-подобное кадрирование в соответствии с вариантом осуществления.
Степени свободы у двух предшествующих схем организации окон не всегда могут быть нужны. Отличающаяся обработка перехода также применяется в области кодирования воспринимаемого аудио. Цель – уменьшить временной разброс у перехода, который вызывал бы так называемые опережающие эхо. В MPEG-2/4 AAC [AAC] используются две базовые длины окон: LONG (с длиной в 2048 выборок) и SHORT (с длиной в 256 выборок). В дополнение к этим двум длинам также задаются два переходных окна, чтобы сделать возможным переход от LONG к SHORT и наоборот. В качестве дополнительного ограничения SHORT-окнам необходимо находиться в группах из 8 окон. Таким образом, шаг между окнами и группами окон остается в постоянном значении 1024 выборок.
Если бы система SAOC применяла основанный на AAC кодек для сигналов объектов, понижающего микширования или остатков объектов, то было бы полезно иметь схему кадрирования, которую можно легко синхронизировать с кодеком. По этой причине описывается схема переключения блоков на основе AAC-окон.
Фиг. 11 изображает AAC-подобный пример переключения блоков. В частности, фиг. 11 иллюстрирует один и тот же сигнал с переходом и результирующей AAC-подобной последовательностью организации окон. Видно, что местоположение перехода во времени охватывается 8 SHORT-окнами, которые окружены переходными окнами от и до LONG-окон. Из иллюстрации видно, что сам переход ни центрирован в одном окне, ни в точке пересечения между двумя окнами. Причина в том, что местоположения окон привязаны к сетке, но вместе с тем эта сетка гарантирует постоянный шаг. Результирующая временная ошибка округления предполагается довольно мелкой, чтобы не иметь значения для восприятия по сравнению с ошибками, вызванными использованием только LONG-окон.
Окна задаются в виде:
- Окно LONG:
Figure 00000074
при
Figure 00000075
.
- Окно SHORT:
Figure 00000076
при
Figure 00000077
.
- Переходное окно от LONG к SHORT
Figure 00000078
.
- Переходное окно от SHORT к LONG
Figure 00000079
.
Ниже описываются варианты реализации в соответствии с вариантами осуществления.
Независимо от схемы переключения блоков другим проектным решением является длина фактического t/f-преобразования. Если основной целью является сохранить следующие операции в частотной области простыми по всем кадрам анализа, то можно использовать постоянную длину преобразования. Длина устанавливается в подходящее большое значение, например, соответствующее длине наибольшего разрешенного кадра. Если кадр временной области короче этого значения, то он дополняется нулями до полной длины. Следует отметить, что даже если после дополнения нулями спектр имеет большее количество элементов разрешения, то объем фактической информации не увеличивается по сравнению с более коротким преобразованием. В этом случае матрицы
Figure 00000080
ядер имеют одинаковые размеры для всех значений n.
Другой альтернативой является преобразование разделенного на окна кадра без дополнения нулями. Это имеет меньшую вычислительную сложность, чем при постоянной длине преобразования. Однако нужно принимать во внимание отличающиеся разрешения по частоте между последовательными кадрами при матрицах
Figure 00000081
ядер.
Ниже описывается расширенная гибридная фильтрация в соответствии с вариантом осуществления.
Другой возможностью для получения более высокого разрешения по частоте было бы изменение гребенки гибридных фильтров, используемой при стандартном SAOC, для более высокого разрешения. При стандартном SAOC только нижние три из 64 QMF-диапазонов пропускаются через гребенку фильтров Найквиста, дополнительно подразделяющую содержимое диапазона.
Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF. Фильтры Найквиста повторяются для каждого QMF-диапазона в отдельности, и результаты объединяются для одного спектра высокого разрешения. В частности, фиг. 12 иллюстрирует, как получить разрешение по частоте, сопоставимое с подходом на основе DFT, который потребовал бы подразделения каждого QMF-диапазона, например, на 16 поддиапазонов (требующих комплексной фильтрации в 32 поддиапазона). Недостатком этого подхода является то, что необходимые прототипы фильтров являются длинными из-за узости диапазонов. Это вызывает некоторую задержку обработки и увеличивает вычислительную сложность.
Альтернативным способом является реализации расширенной гибридной фильтрации путем замены наборов фильтров Найквиста эффективными гребенками фильтров/преобразованиями (например, "масштабное" DFT, дискретное косинусное преобразование и т. п.). Кроме того, наложение спектров, содержащееся в результирующих спектральных коэффициентах высокого разрешения, которое вызвано эффектами утечки у первого каскада фильтра (здесь – QMF), можно существенно уменьшить путем постобработки с компенсацией наложения спектров для спектральных коэффициентов высокого разрешения, аналогичной общеизвестной гребенке гибридных фильтров в Уровне 3 MPEG-1/2 [FB] [MPEG-1].
Фиг. 1b в соответствии с соответствующим вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит первый подмодуль 161 анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.
Кроме того, декодер содержит генератор 162 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа. Генератор 162 последовательности окон сконфигурирован для определения множества окон анализа, например, на основе параметрической дополнительной информации, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит второй модуль 163 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок 164 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Другими словами: преобразование проводится в два этапа. На первом этапе преобразования создается множество поддиапазонов, содержащих множество выборок поддиапазонов. Затем на втором этапе проводится дополнительное преобразование. Между прочим, окна анализа, используемые для второго этапа, определяют разрешение по времени и разрешение по частоте у результирующего преобразованного понижающего микширования.
Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна. Использование коротких окон приводит к низкому разрешению по частоте, но высокому разрешению по времени. Применение коротких окон может быть уместным, например, когда в кодированных сигналах аудиообъектов присутствует переход (ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).
Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13. Использование длинных окон приводит к высокому разрешению по частоте, но низкому разрешению по времени. Применение длинных окон может быть уместным, например, когда в кодированных сигналах аудиообъектов отсутствует переход. (Опять ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).
Фиг. 2b иллюстрирует соответствующий кодер для кодирования двух или более сигналов входных аудиообъектов в соответствии с вариантом осуществления. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.
Кодер содержит первый подмодуль 171 анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.
Кроме того, кодер содержит блок 172 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок 172 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, (необязательный) блок 175 обнаружения перехода может предоставлять блоку 172 последовательности окон информацию о том, присутствует ли переход в одном из сигналов входных аудиообъектов.
Кроме того, кодер содержит второй модуль 173 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала.
Кроме того, кодер содержит блок 174 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В соответствии с другими вариантами осуществления могут присутствовать два модуля анализа для проведения анализа в два этапа, но второй модуль может включаться и выключаться в зависимости от свойства сигнала.
Например, если необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени, то второй модуль анализа включается.
В отличие от этого, если необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте, то второй модуль анализа выключается.
Фиг. 1c иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования в соответствии с таким вариантом осуществления. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов.
Декодер содержит блок 181 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.
Кроме того, декодер содержит первый модуль 182 анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона.
Кроме того, декодер содержит второй модуль 183 анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.
Кроме того, декодер содержит блок 184 повышающего микширования, где блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Фиг. 15 иллюстрирует пример, где необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени. Следовательно, блок 181 управления включает второй модуль анализа путем установки указания активизации в состояние активизации (например, путем установки логической переменной "activation_indication" в "activation_indication = true"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 15) для получения первого преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет три поддиапазона. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 32 или 64 поддиапазона. Затем первое преобразованное понижающее микширование преобразуется вторым модулем 183 анализа (не показан на фиг. 15) для получения второго преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет девять поддиапазонов. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 512, 1024 или 2048 поддиапазонов. Блок 184 повышающего микширования затем осуществляет повышающее микширование второго преобразованного понижающего микширования для получения выходного аудиосигнала.
Например, блок 184 повышающего микширования может принять указание активизации от блока 181 управления. Либо, например, всякий раз, когда блок 184 повышающего микширования принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование второго преобразованного понижающего микширования; всякий раз, когда блок 184 повышающего микширования не принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование первого преобразованного понижающего микширования.
Фиг. 16 иллюстрирует пример, где необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте. Следовательно, блок 181 управления выключает второй модуль анализа путем установки указания активизации в состояние, отличное от состояния активизации (например, путем установки логической переменной "activation_indication" в "activation_indication=false"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 16) для получения первого преобразованного понижающего микширования. Затем, в отличие от фиг. 15, первое преобразованное понижающее микширование не преобразуется еще раз вторым модулем 183 анализа. Вместо этого блок 184 повышающего микширования осуществляет повышающее микширование первого преобразованного понижающего микширования для получения выходного аудиосигнала.
В соответствии с вариантом осуществления блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли по меньшей мере один из упомянутого одного или более сигналов аудиообъектов переход, указывающий изменение сигнала у упомянутого по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.
В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 181 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, второй модуль 183 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.
Фиг. 17 иллюстрирует пример, где блок 181 управления (не показан на фиг. 17) установил указание преобразования поддиапазона у второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 17) преобразует второй поддиапазон для получения трех новых поддиапазонов "высокого разрешения". В примере из фиг. 17 блок 181 управления не установил указание преобразования поддиапазона у первого и третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логических переменных "subband_transform_indication_1" и "subband_transform_indication_3" в "subband_transform_indication_1=false" и "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует первый и третий поддиапазон. Вместо этого первый поддиапазон и третий поддиапазон сами используются в качестве поддиапазонов второго преобразованного понижающего микширования.
Фиг. 18 иллюстрирует пример, где блок 181 управления (не показан на фиг. 18) установил указание преобразования поддиапазона у первого и второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_1" в "subband_transform_indication_1=true" и, например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 18) преобразует первый и второй поддиапазон для получения шести новых поддиапазонов "высокого разрешения". В примере из фиг. 18 блок 181 управления не установил указание преобразования поддиапазона у третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логической переменной "subband_transform_indication_3" в "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует третий поддиапазон. Вместо этого третий поддиапазон сам используется в качестве поддиапазона второго преобразованного понижающего микширования.
В соответствии с вариантом осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее упомянутое множество каналов первого поддиапазона, путем применения квадратурного зеркального фильтра (QMF).
В варианте осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 183 анализа сконфигурирован для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования упомянутого по меньшей мере одного из каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала. Такой вариант осуществления реализует включение и выключение второго модуля 183 анализа и установку длины окна анализа.
В варианте осуществления декодер сконфигурирован для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Фиг. 2c иллюстрирует кодер для кодирования сигнала входного аудиообъекта в соответствии с вариантом осуществления.
Кодер содержит блок 191 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта.
Кроме того, кодер содержит первый модуль 192 анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.
Кроме того, кодер содержит второй модуль 193 анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.
Кроме того, кодер содержит блок 194 оценки PSI, где блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.
В соответствии с вариантом осуществления блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли сигнал входного аудиообъекта переход, указывающий изменение сигнала у сигнала входного аудиообъекта.
В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 191 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у сигнала входного аудиообъекта. Второй модуль 193 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.
В соответствии с вариантом осуществления первый модуль 192 анализа сконфигурирован для преобразования каждого из сигналов входных аудиообъектов путем применения квадратурного зеркального фильтра.
В другом варианте осуществления первый модуль 192 анализа сконфигурирован для преобразования сигнала входного аудиообъекта в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 193 анализа сконфигурирован для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.
В соответствии с другим вариантом осуществления кодер сконфигурирован для кодирования сигнала входного аудиообъекта и по меньшей мере одного дополнительного сигнала входного аудиообъекта. Блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта и в зависимости от свойства сигнала у упомянутого по меньшей мере одного дополнительного сигнала входного аудиообъекта. Первый модуль 192 анализа сконфигурирован для преобразования по меньшей мере одного дополнительного сигнала входного аудиообъекта, чтобы получить по меньшей мере один дополнительный первый преобразованный сигнал аудиообъекта, где каждый из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта содержит множество каналов первого поддиапазона. Второй модуль 193 анализа сконфигурирован для преобразования, когда указание активизации установлено в состояние активизации, по меньшей мере одного из упомянутого множества каналов первого поддиапазона у по меньшей мере одного из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта, чтобы получить множество дополнительных каналов второго поддиапазона. Кроме того, блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе множества дополнительных каналов второго поддиапазона, когда указание активизации установлено в состояние активизации.
Обладающий признаками изобретения способ и устройство устраняют вышеупомянутые недостатки современной обработки SAOC, использующей фиксированную гребенку фильтров или частотно-временное преобразование. Субъективно лучшее качество аудио можно получить путем динамической адаптации разрешения по времени/частоте у преобразований или гребенок фильтров, применяемых для анализа и синтеза аудиообъектов в SAOC. Вместе с тем в рамках той же системы SAOC можно минимизировать артефакты типа опережающих и запаздывающих эхо, вызванные недостатком временной точности, и артефакты типа резкости для слуха и неразборчивости, вызванные недостаточной спектральной точностью. Самое главное, что система улучшенного SAOC, оборудованная обладающим признаками изобретения адаптивным преобразованием, сохраняет обратную совместимость со стандартным SAOC, обеспечивая при этом хорошее воспринимаемое качество, сопоставимое с качеством стандартного SAOC.
Варианты осуществления предоставляют аудиокодер или способ аудиокодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют аудиокодер или способ аудиодекодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют кодированный аудиосигнал или носитель информации, имеющий сохраненный кодированный аудиосигнал, как описано выше.
Хотя некоторые особенности описаны применительно к устройству, понято, что эти особенности также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии особенности, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства.
Обладающий признаками изобретения разложенный сигнал может храниться на цифровом носителе информации или может передаваться по передающей среде, например беспроводной передающей среде или проводной передающей среде, такой как Интернет.
В зависимости от некоторых требований к реализации, варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя информации, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат долговременный носитель информации, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления обладающего признаками изобретения способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления обладающих признаками изобретения способов поэтому является носителем информации (или цифровым носителем информации, или считываемым компьютером носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления обладающего признаками изобретения способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для передачи по соединению передачи данных, например по Интернету.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированное или приспособленное для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.
Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.
[SAOC] ISO/IEC, “MPEG audio technologies – Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: “Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.
[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

Claims (48)

1. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит один или более кодированных сигналов аудиообъектов, при этом декодер содержит:
блок (181) управления для указания, должно ли быть сформировано второе преобразованное понижающее микширование, в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов,
первый модуль (182) анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона,
второй модуль (183) анализа для формирования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второго преобразованного понижающего микширования путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и
блок (184) повышающего микширования, при этом блок (184) повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
2. Декодер по п. 1, в котором блок (181) управления сконфигурирован для указания, должно ли быть сформировано второе понижающее микширование, в зависимости от того, содержит ли по меньшей мере один из упомянутого одного или более сигналов аудиообъектов переход, указывающий изменение сигнала у упомянутого по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.
3. Декодер по п. 1,
в котором для каждого канала первого поддиапазона из каналов первого поддиапазона блок (181) управления сконфигурирован для указания, должен ли быть преобразован упомянутый канал первого поддиапазона, в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов, и
в котором второй модуль (183) анализа сконфигурирован для преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда указано, что упомянутый канал первого поддиапазона должен быть преобразован, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда не указано, что упомянутый канал первого поддиапазона должен быть преобразован.
4. Декодер по п. 1, в котором первый модуль (182) анализа сконфигурирован для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее упомянутое множество каналов первого поддиапазона, путем применения квадратурного зеркального фильтра.
5. Декодер по п. 1,
в котором первый модуль (182) анализа сконфигурирован для преобразования сигнала понижающего микширования в зависимости от длины первого окна анализа, при этом длина первого окна анализа зависит от упомянутого свойства сигнала, либо
в котором второй модуль (183) анализа сконфигурирован для формирования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второго преобразованного понижающего микширования путем преобразования упомянутого по меньшей мере одного из каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.
6. Декодер по п. 1,
при этом декодер сконфигурирован для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит два или более кодированных сигналов аудиообъектов,
в котором блок (181) управления сконфигурирован для указания, что второе преобразованное понижающее микширование должно быть сформировано, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, и
в котором блок (184) повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
7. Кодер для кодирования входного сигнала аудиообъекта, при этом кодер содержит:
блок (191) управления для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у входного сигнала аудиообъекта,
первый модуль (192) анализа для преобразования входного сигнала аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, при этом первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона,
второй модуль (193) анализа для формирования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второго преобразованного сигнала аудиообъекта путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и
блок (194) оценки PSI, при этом блок (194) оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда не указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.
8. Кодер по п. 7, в котором блок (191) управления сконфигурирован для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от того, содержит ли входной сигнал аудиообъекта переход, указывающий изменение сигнала у входного сигнала аудиообъекта.
9. Кодер по п. 7,
в котором для каждого канала первого поддиапазона из каналов первого поддиапазона блок (191) управления сконфигурирован для указания, должен ли быть преобразован канал первого поддиапазона, в зависимости от свойства сигнала у входного сигнала аудиообъекта, и
в котором второй модуль (193) анализа сконфигурирован для преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда указано, что упомянутый первый канал поддиапазона должен быть преобразован, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого первого канала поддиапазона из каналов первого поддиапазона, когда не указано, что упомянутый первый канал поддиапазона должен быть преобразован.
10. Кодер по п. 7, в котором первый модуль (192) анализа сконфигурирован для преобразования каждого из входных сигналов аудиообъектов путем применения квадратурного зеркального фильтра.
11. Кодер по п. 7,
в котором первый модуль (192) анализа сконфигурирован для преобразования входного сигнала аудиообъекта в зависимости от длины первого окна анализа, при этом длина первого окна анализа зависит от упомянутого свойства сигнала, либо
в котором второй модуль (193) анализа сконфигурирован для формирования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второго преобразованного сигнала аудиообъекта путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.
12. Кодер по п. 7,
при этом кодер сконфигурирован для кодирования входного сигнала аудиообъекта и по меньшей мере одного дополнительного входного сигнала аудиообъекта,
в котором блок (191) управления сконфигурирован для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у входного сигнала аудиообъекта и в зависимости от свойства сигнала у упомянутого по меньшей мере одного дополнительного входного сигнала аудиообъекта,
в котором первый модуль (192) анализа сконфигурирован для преобразования по меньшей мере одного дополнительного входного сигнала аудиообъекта, чтобы получить по меньшей мере один дополнительный первый преобразованный сигнал аудиообъекта, при этом каждый из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта содержит множество каналов первого поддиапазона,
в котором второй модуль (193) анализа сконфигурирован для преобразования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, по меньшей мере одного из упомянутого множества каналов первого поддиапазона у по меньшей мере одного из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта, чтобы получить множество дополнительных каналов второго поддиапазона, и
в котором блок (194) оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе множества дополнительных каналов второго поддиапазона, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.
13. Способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит два или более кодированных сигнала аудиообъектов, при этом способ содержит этапы, на которых:
указывают, должно ли быть сформировано второе преобразованное понижающее микширование, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,
преобразуют сигнал понижающего микширования для получения первого преобразованного понижающего микширования, содержащего множество каналов первого поддиапазона,
формируют, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второе преобразованное понижающее микширование путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и
осуществляют повышающее микширование второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и осуществляют повышающее микширование первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
14. Способ кодирования двух или более входных сигналов аудиообъектов, при этом способ содержит этапы, на которых:
указывают, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более входных сигналов аудиообъектов,
преобразуют каждый из входных сигналов аудиообъектов для получения первого преобразованного сигнала аудиообъекта упомянутого входного сигнала аудиообъекта, при этом упомянутый первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона,
формируют, для каждого из входных сигналов аудиообъектов, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второй преобразованный сигнал аудиообъекта путем преобразования по меньшей мере одного из каналов первого поддиапазона первого преобразованного сигнала аудиообъекта упомянутого входного сигнала аудиообъекта, чтобы получить множество каналов второго поддиапазона, при этом упомянутое второе преобразованное понижающее микширование содержит упомянутые каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и упомянутые каналы второго поддиапазона, и
определяют параметрическую дополнительную информацию на основе второго преобразованного сигнала аудиообъекта каждого из входных сигналов аудиообъектов, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, и определяют параметрическую дополнительную информацию на основе первого преобразованного сигнала аудиообъекта каждого из входных сигналов аудиообъектов, когда не указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.
15. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 13 при исполнении на компьютере или процессоре сигналов.
16. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 14 при исполнении на компьютере или процессоре сигналов.
RU2015116645A 2012-10-05 2013-10-02 Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов RU2625939C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261710133P 2012-10-05 2012-10-05
US61/710,133 2012-10-05
EP13167487.1A EP2717262A1 (en) 2012-10-05 2013-05-13 Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP13167487.1 2013-05-13
PCT/EP2013/070550 WO2014053547A1 (en) 2012-10-05 2013-10-02 Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Publications (2)

Publication Number Publication Date
RU2015116645A RU2015116645A (ru) 2016-11-27
RU2625939C2 true RU2625939C2 (ru) 2017-07-19

Family

ID=48325509

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2015116287A RU2639658C2 (ru) 2012-10-05 2013-10-02 Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов
RU2015116645A RU2625939C2 (ru) 2012-10-05 2013-10-02 Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2015116287A RU2639658C2 (ru) 2012-10-05 2013-10-02 Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов

Country Status (17)

Country Link
US (2) US10152978B2 (ru)
EP (4) EP2717262A1 (ru)
JP (2) JP6185592B2 (ru)
KR (2) KR101685860B1 (ru)
CN (2) CN104798131B (ru)
AR (2) AR092928A1 (ru)
AU (1) AU2013326526B2 (ru)
BR (2) BR112015007649B1 (ru)
CA (2) CA2887028C (ru)
ES (2) ES2880883T3 (ru)
HK (1) HK1213361A1 (ru)
MX (2) MX351359B (ru)
MY (1) MY178697A (ru)
RU (2) RU2639658C2 (ru)
SG (1) SG11201502611TA (ru)
TW (2) TWI539444B (ru)
WO (2) WO2014053548A1 (ru)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
MX370034B (es) * 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
GB2544083B (en) * 2015-11-05 2020-05-20 Advanced Risc Mach Ltd Data stream assembly control
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
WO2017134214A1 (en) * 2016-02-03 2017-08-10 Dolby International Ab Efficient format conversion in audio coding
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
CN110447243B (zh) 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
CN110870006B (zh) 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10856755B2 (en) * 2018-03-06 2020-12-08 Ricoh Company, Ltd. Intelligent parameterization of time-frequency analysis of encephalography signals
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
CN114270437A (zh) * 2019-06-14 2022-04-01 弗劳恩霍夫应用研究促进协会 参数编码与解码
TWI825492B (zh) * 2020-10-13 2023-12-11 弗勞恩霍夫爾協會 對多個音頻對象進行編碼的設備和方法、使用兩個以上之相關音頻對象進行解碼的設備和方法、電腦程式及資料結構產品
CN113453114B (zh) * 2021-06-30 2023-04-07 Oppo广东移动通信有限公司 编码控制方法、装置、无线耳机及存储介质
CN114127844A (zh) * 2021-10-21 2022-03-01 北京小米移动软件有限公司 一种信号编解码方法、装置、编码设备、解码设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030289A1 (en) * 2004-09-17 2006-03-23 Digital Rise Technology Co., Ltd. Apparatus and methods for multichannel digital audio coding
KR20080033909A (ko) * 2005-07-15 2008-04-17 마쯔시다덴기산교 가부시키가이샤 오디오 디코더
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US20100087938A1 (en) * 2007-03-16 2010-04-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
RU2420814C2 (ru) * 2006-03-29 2011-06-10 Конинклейке Филипс Электроникс Н.В. Аудиодекодирование

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175446B2 (ja) * 1993-11-29 2001-06-11 ソニー株式会社 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
CN101241701B (zh) * 2004-09-17 2012-06-27 广州广晟数码技术有限公司 用于对音频信号进行解码的方法和设备
US7917358B2 (en) 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
US8208641B2 (en) * 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
PT2109098T (pt) 2006-10-25 2020-12-18 Fraunhofer Ges Forschung Aparelho e método para gerar amostras de áudio de domínio de tempo
ES2593822T3 (es) * 2007-06-08 2016-12-13 Lg Electronics Inc. Método y aparato para procesar una señal de audio
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
KR101387808B1 (ko) * 2009-04-15 2014-04-21 한국전자통신연구원 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
BRPI1009648B1 (pt) * 2009-06-24 2020-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
MX2012004621A (es) * 2009-10-20 2012-05-08 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de una señal de conversion ascendente sobre la base de una representacion de una señal de conversion descendente, aparato para proporcionar una corriente de bits que representa una señal de audio de canales multiples, metodos, programa de computacion y corriente de bits que utiliza una señalizacion de control de distorsion.
CA2781310C (en) * 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
EP2537350A4 (en) * 2010-02-17 2016-07-13 Nokia Technologies Oy PROCESSING AN AUDIO RECORDING OF MULTIPLE DEVICES
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030289A1 (en) * 2004-09-17 2006-03-23 Digital Rise Technology Co., Ltd. Apparatus and methods for multichannel digital audio coding
KR20080033909A (ko) * 2005-07-15 2008-04-17 마쯔시다덴기산교 가부시키가이샤 오디오 디코더
RU2420814C2 (ru) * 2006-03-29 2011-06-10 Конинклейке Филипс Электроникс Н.В. Аудиодекодирование
US20100087938A1 (en) * 2007-03-16 2010-04-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding

Also Published As

Publication number Publication date
MX2015004019A (es) 2015-07-06
AR092928A1 (es) 2015-05-06
KR101689489B1 (ko) 2016-12-23
RU2639658C2 (ru) 2017-12-21
MX350691B (es) 2017-09-13
JP2015535960A (ja) 2015-12-17
TWI541795B (zh) 2016-07-11
EP2717265A1 (en) 2014-04-09
BR112015007649B1 (pt) 2023-04-25
RU2015116287A (ru) 2016-11-27
CA2886999C (en) 2018-10-23
CN104798131B (zh) 2018-09-25
ES2880883T3 (es) 2021-11-25
US9734833B2 (en) 2017-08-15
KR101685860B1 (ko) 2016-12-12
KR20150065852A (ko) 2015-06-15
SG11201502611TA (en) 2015-05-28
AU2013326526A1 (en) 2015-05-28
CN104798131A (zh) 2015-07-22
RU2015116645A (ru) 2016-11-27
BR112015007650A2 (pt) 2019-11-12
TW201423729A (zh) 2014-06-16
EP2904610B1 (en) 2021-05-05
CN105190747A (zh) 2015-12-23
EP2904611A1 (en) 2015-08-12
CA2886999A1 (en) 2014-04-10
JP6268180B2 (ja) 2018-01-24
TW201419266A (zh) 2014-05-16
BR112015007650B1 (pt) 2022-05-17
EP2904611B1 (en) 2021-06-23
EP2717262A1 (en) 2014-04-09
CA2887028A1 (en) 2014-04-10
KR20150056875A (ko) 2015-05-27
WO2014053547A1 (en) 2014-04-10
WO2014053548A1 (en) 2014-04-10
MX2015004018A (es) 2015-07-06
JP6185592B2 (ja) 2017-08-23
TWI539444B (zh) 2016-06-21
US10152978B2 (en) 2018-12-11
AU2013326526B2 (en) 2017-03-02
BR112015007649A2 (pt) 2022-07-19
CN105190747B (zh) 2019-01-04
US20150279377A1 (en) 2015-10-01
AR092929A1 (es) 2015-05-06
MX351359B (es) 2017-10-11
JP2015535959A (ja) 2015-12-17
ES2873977T3 (es) 2021-11-04
HK1213361A1 (zh) 2016-06-30
US20150221314A1 (en) 2015-08-06
EP2904610A1 (en) 2015-08-12
MY178697A (en) 2020-10-20
CA2887028C (en) 2018-08-28

Similar Documents

Publication Publication Date Title
RU2625939C2 (ru) Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
RU2646375C2 (ru) Выделение аудиообъекта из сигнала микширования с использованием характерных для объекта временно-частотных разрешений